前言
本书讲了哪些内容(又没讲哪些内容)
本书计划成为所有想成为数据记者或者对数据新闻感兴趣的人的实用参考资源。 很多人都参与到本书的撰写当中,通过我们的编辑,我们尽可能的想让他们不同的声音与观点通过这本书产生更大的影响。我们希望整个阅读过程就像是一段宝贵又有价值的对话,关于什么是数据新闻,为什么它很重要,如何去做数据新闻。
可悲的是读本书并不能提供给你足够多内容,涵盖所有成为数据记者所需要的知识与技能。那需要一个囊括几百名专家就成百上千个话题下相关问题答案的图书馆才行。幸运的是,这个图书馆确确实实存在于世上,它叫做互联网。我们希望此书能告诉你如何才能开始,你应当看些什么才能让你走的更远。本书中的例子和教程都是一些概览性和说明性的,而并没有详尽的展开。
我觉得我们很幸运有能从所有贡献者身上获得足够多时间、能量和耐心,我们也尽可能发挥得恰到好处。我们希望——更作为一份有用的参考来源——这本书能记录下这一新兴发展中所有的激情与热血,眼光与能量。本书想要
本数据新闻手册仍在进展当中。如果你认为有任何需要增加的或者明显缺少的,请大声告诉我们以包含在下一个版本中。本书可以在Creative Commons Attribution-ShareAlike下自由获取,我们大力鼓励你与任何可能对本书感兴趣的人分享这本书。 Liliana Bounegru (@bb_liliana) Lucy Chambers (@lucyfedia) Jonathan Gray (@jwyg) 2012年3月
1
第一章 入门
一、何为数据新闻 二、为何记者要运用数据 三、经典案例 四、数据新闻的视角
第一节 何为数据新闻
何谓数据新闻?简而言之,就是用数据处理的新闻。但这种解释也不甚明了。
“数据”和“新闻”都是令人棘手的词语。有些人认为数据就是就是大多出现在电子表格中的一堆数字。二十年前,这很可能是新闻的唯一处理内容。然而如今,我们生活在一个数字化的世界---这世上几乎任何事物都能用数字来描述。
你的就职经历,包括你的朋友圈中的人物,在长达三十万份的机密文件中被“1”和“0”所取代。照片、视频和音频,乃至凶杀、疾病、政选投票和腐败、谎言也是依样画葫芦处之被 “0”和“1”所取代 。
数据新闻同其他新闻形式的不同之处在哪里呢?数据新闻为把传统的新闻敏感性和有说服力的叙事能力,与海量的数字信息相结合创造了新的可能。
同样的可能性也出现在记者的工作过程中。正如阿德里亚·哈罗瓦提(Adrian Holovaty)在芝加哥犯罪数据与街区网中所做的一样,通过计算机编程对当地政府、警署以及其他城市来源的信息进行自动化的采集与整合。甚至可以使用软件来找出千万份文件之间的联系,就像《每日电报》对议员消费的数据分析一样。
2
Figure 1. 议员消费调查 (卫报)
数据新闻能够帮助新闻工作者通过信息图表来报道一个复杂的故事。比如说,汉斯·罗思令(Hans Rosling)通过Gapminder这款软件以可视化的方式讲述世界贫困问题,他这种打动人心的表现方式吸引了全球几十万人的关注。还有大卫·麦克坎德雷斯(David McCandless)从大数据中提炼关键的工作——如把公众消费、冰岛火山爆发所产生和防止的污染计入数据,这些关于清晰设计的重要性都在他的著作—— Information is Beautiful. 中展露无遗。
这或许也能解释一个故事是如何与个人产生共鸣的,就像BBC广播公司和《财经时代》杂志开始惯常地互相监督对方的财政预算(这样你就能发现预算是怎么影响你的个人生活的,而不是从《卫报》的“Joe Public”栏目中获知)一样。数据新闻能够自己汇聚新闻信息,正如《卫报》通过它的数据博客成功地分享其数据、文章和问题。
数据可以是数据新闻的来源,也可以是讲述新闻故事的工具,还可以两者兼具。像其他信息源一样,我们应该持怀疑态度对待它;如任何工具一样,我们应该对于随新闻衍生的数据如何影响和左右新闻故事的发展持清醒态度。 — 保罗·布拉德肖(Paul Bradshaw), 伯明翰城市大学
第二节 为何记者要运用数据
新闻业正腹背受敌。过去,媒体能够成为一种产业,是因为我们是唯一能利用技术大规
3
模生产和传播新闻,告诉大众昨夜发生了什么的机构。印刷媒体就像一条必经之路,如果有人想要知道第二天某城市的人或某地区发生了什么事,印刷媒体是他们的唯一选择。然而这种光景已经一去不复返了。
而今,新闻在事情正在发生的时候就通过目击者的记录、博客等多种途径扩散开来。并且这些消息在传播过程中被巨大的社会关系网络所筛选,同时被排名与评论,但更常见的则是被忽略。
这就解释了数据新闻为何如此重要。收集、筛选、并呈现那些表象背后的原因与真相有着越来越高的价值。例如,你早上喝的果汁和泡的咖啡——在今天全球经济的背景下,这些商品与你和他人之间就存在着某种无形的联系。而讲述这种关系的语言就是数据:一个孤立的事件当中的少量信息往往缺少关联度,但如果从正确的角度观察却能发现极为重要的价值。
眼下,一些具有开拓精神的记者已经向我们展示了如何利用数据更深层次地洞察正在发生的新闻事件,以及这些事件可能对我们产生的影响。
数据分析可以为我们呈现“故事的轮廓”(Sarah Cohen语),或提供“新的视角” (David McCandless语)。对数据的使用使得记者的工作核心由追求最先报道新闻向讲述某一事态变化展背后的真正含义转变。话题的范围十分宽泛。从“正在孕育中的下一个金融危机”到“我们消费的商品背后的经济规律”,以及“基金滥用”或“政治失误”,这些问题通过强大的数据图表展现出来清晰明了且极具说服力。
这就是为什么新闻记者应该把数据视做机会。比如,他们可以告诉不同年龄、性别和教育背景的受众,诸如“失业率”这样抽象的威胁会对其产生怎样的影响。利用数据使每个人都能够好的理解这些抽象的事务,并与他们自身的情况联系在一起。
他们还可以制作人性化计算器来帮助人们做出决策。这些决策可以是买车买房,也可以是教育或专业的道路抉择,还可以是进行支出核算避免债务问题的发生。他们也可以透析诸如社会动乱或政治争议这些复杂情境下的态势发展,去伪存真,让每个人对解决这些复杂问题的可能方案都了然于胸。。
通晓搜索、清理并呈现数据是对专业信息搜集工作的巨大变革。掌握这些技能的记者对于撰写新闻事实与事件洞察将会十分容易。不必费心推测,也不必四处引证——相反,记者能够在数据佐证的基础上写出一篇观点有力的文章,这深刻地影响新闻业所扮演的角色。
此外,对数据新闻实践也预示着未来。如今随着新闻业的萎缩,大部分记者开始希望转战公共关系,而数据记者和数据研究者则成了一个越发吃香的团体。这种现象不仅存在于媒
4
体界,全世界的公司和相关机构也都在寻求这种“(数据)意义建构者”和业内专家,因为这些人知道如何充分挖掘数据并把它们转变成有形的实体。
数据有着巨大的前景,这令媒体兴奋不已,促使他们开始寻求这种新型报道人才。对于自由职业者来说,熟知数据也能够带来新的工作机会和稳定的收入。从这种角度来看,与其雇佣记者向报纸版面与网站页面塞满低劣内容,还不如使用数据来创造编读的双向需求,而唯一的办法就是用一个星期来解决一个问题。这对于媒体业的各个部门来说都是一个令人欣喜的变化。
而限制记者挖掘这块潜在领域的阻碍在于: 他们需要接受训练才能够知晓从问出第一个问题到做出一个由数据驱动的重磅独家新闻的所有步骤。
同数据打交道就如同踏入广袤的未知领域。第一眼看过去,原始的数据令人眼花缭乱、头脑混沌。这种繁杂得数据,的确难以恰当地将其可视化。它需要经验老到的记者,这些人拥有从混淆、乏味的原始数据中“看出”其中暗藏故事的能力。 — 米尔科·洛伦兹(Mirko Lorenz),德国之声
调 查
欧洲新闻中心进行了一项调查,目的在于了解新闻工作者对于职业能力培训的需求。我们发现他们对于跳出传统新闻模式的安全地带,想要花时间去掌握新的技能有非常大的意愿。调查的结果显示新闻工作者看到了机会,但是缺少一点点对于他们刚开始接触数据工作所遇到的困难的帮助。但是应该对数据新闻的工作流程、所需要的工具、所得到的应用及其结果将会很快进步发展充满信心。像卫报、纽约时报、德克萨斯论坛报、德国时代周报这些先驱者已经在提高数据驱动新闻数量上继续前行。 数据新闻能继续保留一小部分为之发展不断探索的人吗?每一家新闻组织都能够很快拥有自己的专注于数据新闻的团队吗?我们希望这本手册能够帮助更多的新闻工作者和新闻编辑室能够在这个新兴领域中保持优势。
5
Figure 2. 欧洲新闻中心对记者培训需求所做的调查
===数据新闻为何重要?
我们曾向数据新闻领域的领先实践者和提倡者发问:为什么他们认为数据新闻是一个重要的发展领域?我们得到如下回答。
过滤数据流
以前信息匮乏的时候,我们的大多数精力都放在寻找和搜集信息上。而如今信息日益丰富,信息处理变得更加重要。我们处理数据时,分两个层面进行:(1)分析数据,从无限的数据流中建构意义与结构(2)展现数据,让消费者能够理解并记住那些重要且息息相关的信息。同科学研究一样,数据新闻所告知的研究方法与展示研究结果是应当能被重复检验的。 — 菲利普·梅耶(Philip Meyer),名誉教授,北卡罗来纳大学教堂山分校 新闻叙事的新方法
在我看来,数据新闻是一个概括性术语,它囊括了一套仍在不断增多的用于新闻叙事的工具、技巧与方法,涵盖了从传统的计算机辅助报道(使用数据作为“信源”)到最前沿的数据可视化和新闻应用等一切叙事方式。其统一的目标是新闻业意义上的:提供信息和分析以帮助告知我们一天内所有最重要的事件。 — 阿隆·菲尔霍夫(Aron Pilhofer),纽约时报
6
就像用笔记本电脑完成的图片新闻
“数据新闻”和“文字新闻”的唯一不同在于我们使用了不同的工具包。我们都以探寻、报道和讲述故事为生。“数据新闻”就像是“图片新闻”;无非是把相机换成了笔记本电脑。 — 布莱恩特·博耶(Brain Boyer), 芝加哥论坛报 数据新闻是未来
数据驱动的新闻代表着未来。新闻工作者需要精通数据。过去你可能通过在酒吧和人聊天获取新闻故事素材,尽管现在这种方式有时可能仍被采用,但目前你同样要钻研数据并借助数据工具进行分析和筛选出令人关注的信息。并对信息加以正确地处理,帮助人们真正看到它反映了什么,在这个国家正在发生什么。 — 蒂姆·伯纳斯-李, 万维网创始人 当数字运算遇上文字游戏
数据新闻打通了统计技术人员与写作为生的人之间的差异。定位离群值和识别趋势不只在有显著的统计意义,还与解码当今的复杂世界息息相关。 — 戴维·安德顿(David Anderton),自由撰稿记者 更新你的技能组合
数据新闻是一套用于搜索、理解和可视化数字信源的全新技能组合。在如今的时代,单纯掌握传统新闻学的基本技能已经远远不够。数据新闻不是要代替传统的新闻业,而是它的一个补充。
在这个信源走向数字化的时代,记者可以而且必须要更接近信源。互联网开辟的各种可能性已经超出了我们目前的可知范围。数据新闻正处在革新过去的操作手法以适应互联网的初始阶段。
数据新闻可以帮助新闻机构达成的两个重要目的:寻找独特的故事(而不是从通讯社获得)和执行看门狗的功能。尤其是在金融危险的时候,这两者都是报纸设法达到的重要目标。
从地区性报纸的立场来看,数据新闻是至关重要的。我们有一句谚语是,“你门前一块松散的瓷砖被认为比一个遥远国家发生的暴乱更为重要”。它出现在你面前,并且更直接影响你的生活。同时,数字化是无处不在的。由于当地报纸对周围居民有如此直接的影响,而信源逐渐数字化,所以记者必须知道如何利用数据寻找、分析和可视化新闻故事。 — 杰里·维曼(Jerry Vermanen),NU.nl 一种信息不对称的补救
信息不对称并不是缺乏信息,而是赶不上信息出现的速度和数量,因而无法吸收和处理
7
这些信息。这是市民选择如何生活所面临的最关键的问题之一。从印刷、视觉和听觉媒体所提取的信息影响着市民的选择和行动。优质的数据新闻有助于对抗信息不对称所造成的负面影响。
— 汤姆·弗莱斯(Tom Fries),贝塔斯曼基金会 数据驱动公关的答案
测量工具变得可获,且其价格不断下降,加上对社会各方面的表现和效率的重视,导致决策者量化政策的进展,监测趋势和寻找机会。
企业不断更新展示他们的表现的数据。政客喜欢吹嘘他们减少了多少失业人扣和增长了多少国内生产总值。安然,世通,麦道夫或Solyndra等公司事件所表现出的新闻洞察力的缺乏,证明了许多记者无法清楚地看懂数字。相对于其他事实,数字更可能被粗浅地解读,因为数字被蒙上了象征严谨的神圣光环,即使是完全捏造的也不例外。
数据的熟悉运用将帮助记者提高他们在遇到数字时的批判意识,并很可能帮助他们在与公关部门交易时占据有利地位。
— 尼古拉斯·凯瑟-布瑞尔(Nicolas Kayser-Bril),Journalism++ 提供对于官方资料的独立阐释
日本是一个数据新闻发展滞后的国家。2011年的破坏性地震和随后的福岛核电厂灾难发生后,数据新闻的重要性已经被日本的媒体人所认识。
对于灾难所造成的破坏,政府和专家的提供的数据并不可靠,这让我们感觉迷茫不知所措。当官员隐藏SPEEDI数据(预测放射性物质扩散)不让公众知道时,即使它被泄露了,我们也无法解码数据。志愿者开始通过使用自己的设备收集放射性数据,但我们并不了解统计学、插补、可视化等知识。记者需要获得原始数据,并要学会不依赖于它的官方解释。 — 功松波(Isao Matsunami),东京新闻 处理海量数据
数字革命带来的挑战和机会将继续分裂新闻业。在一个信息丰富的时代,所有的记者和公民都需要更好的工具,无论是用于21世纪在中东的地下出版物,一个在深夜进行的数据转储处理,还是为某国消费者寻找最好的可视化水质的方法。尽管我们需要设法解决如何消化海量数据的难题,然而我们需要意识到,新兴的发布平台赋予了每个人数字化收集和共享数据并把它转化为信息的能力。虽然记者和编辑是传统的信息收集和传播的载体,然而扁平化的信息环境已经使得2012年现在的许多新闻最先在网上出现,而不是新闻采编部的桌上。
8
事实上,世界各地的数据和新闻之间的纽带都在不断增强。在大数据的时代,数据新闻日益增强的重要性取决于其从业者所提供的背景和清晰度的能力,而也许最重要的是,在全球不断扩大的数字内容中找到真相的能力。这并不意味着今天的综合性媒体组织没有起到关键作用。事实恰恰相反。在信息时代,记者们比以往任何时候都更需要组织、验证、分析和综合数据的洪流。在这种情况下,数据新闻具有深刻的社会意义。
今天,理解大数据,特别是非结构化数据,将是世界各地的数据科学家的一个中心目标,无论他们就职于新闻编辑室,华尔街还是硅谷。值得注意的是,越来越多的常用工具将使这一目标变成可能。开放芝加哥的政府技术专家,医疗保险专家或者编辑部程序员都可能使用这些工具。
— 亚历克斯·霍华德(Alex Howard),O”Reilly Media 我们的生活就是数据
做出好的数据新闻很难,因为做出好的新闻本身就很难。也就是说,如何寻找数据,如何理解数据,还有如何找到故事都是很难的。有时你会陷入僵局,有时没有好的故事。毕竟如果新闻只需要按部就班去做,它就不叫新闻了。而这种困难正是使得新闻有价值的原因。我们的生活是不断增加的数据, 在这样一个世界里,新闻对于一个自由和公平的社会至关重要。
— 克里斯·塔格特(Chris Taggart),OpenCorporates
一种节省时间的方法
记者不必再浪费时间在手工抄写和试图从PDF获取数据上了。学习一点点代码,或知道去哪里找人帮助,是非常有价值的。
一位来自圣保罗之报负责报道地方预算的的记者打电话给我,感谢我们在网上发布了圣保罗市市政财务数据(这是一个黑客两天的工作量!)。他说,他在过去3个月都在手工抄写这些数据,试图构筑一个故事。此外我还记得我曾为“Contas Abertas”解决了PDF方面的问题,这是一个监督议会的新闻机构:15分钟和15行代码解决他们一个月的工作量。 — 佩德罗·马昆(Pedro Markun),Transparência黑客 记者的工具包的基本组成部分
我认为强调“新闻”或“数据新闻”的报道方面是重要的。这项工作不应该只是目的性的分析数据或数据可视化,而是把它作为一种工具来接近世界上正在发生的事情的真相。我认为能够分析和解释数据的能力是当今记者的工具包的一个重要组成部分,而不是一门独立
9
的学科。归根到底,它关系到能否写出好的故事,还有能否在最恰当的方式来叙述故事。 数据新闻是审视世界和监管权力的另一种方法。随着越来越多的数据可获得,记者必需了解数据新闻技术,这一点在现在比以往任何时候都更重要。任何一位记者的工具箱中都应该有这个工具:要么学习如何直接处理数据,要么与可以处理数据的人合作。
数据新闻真正的用途在于帮助你获得用其他方法很难找到或证明的信息。史蒂夫·多伊格分析了安德鲁飓风的破坏模式,这是一个很好的例子。他使用了两种不同的数据集:一个映射飓风造成的破坏水平,一个显示风速。这让他得以查明缺少建筑规范的地区和恶劣的施工将加重灾害的负面影响。凭借这个新闻故事,他在1993年获得普利策奖。这是一个很大的启发,让我们了解到数据的可能性。
在理想的情况下,你可以使用数据来指出异常值,人们感兴趣的领域,或是令人惊讶的事物。在这种情况下,数据可作为导语或内幕信息。虽然数字可以富含趣味,但仅仅写出数据是不够的。你仍然需要新闻报道来解释这些数据意味着什么。 — 辛西娅·奥墨楚(Cynthia O”Murchu),金融时报 适应我们信息环境的变化
新的数字技术为整个社会生产和传递知识带来新的方法。数据新闻可以被理解为媒体为适应和回应我们的信息环境变化所作出的尝试 – 包括增强互动性,讲述多维故事,帮助读者探索新闻相关信息,并鼓励他们参与到创作和评估故事的过程中。
— 塞萨尔·维亚纳(César Viana),巴西戈亚斯州大学 一种独一无二的看待事物的方法
有些故事只能通过分析或者可视化数据才能被理解和阐释。有权势的人和团体之间的联系很难被揭露,药物政策所造成的死亡人数将被继续隐藏,破坏景观的环境政策将继续有增无减。但上述的每一项都因为记者在获取、分析数据,并向读者揭示之后取得了重要的变革。数据既可以简单如电子表格或手机通话记录,也可以复杂如学校考试成绩或医院感染数据,但共同点是这些数据都蕴含着值得讲述的故事。 — 谢丽尔·菲利普斯(Cheryl Phillips),西雅图时报 一种使新闻故事更加丰富的叙事方式
我们可以用我们所留下的数字轨迹描绘出我们的全部生活。从我们消费和浏览过的物品,到我们旅行的时间和地点,从我们的音乐喜好,到我们的初恋,从我们的孩子的里程碑,乃至我们最后的愿望,都可以被跟踪、被数字化、被存储在云里并被传播。通过这个数据的
10
世界来讲故事,回答问题,传递对生活的理解正逐渐开始被人采纳。这种方式胜过重现最严谨细致的名人轶事。
— 莎拉·斯洛宾(Sarah Slobin),华尔街日报 你并不需要挖掘最新的数据
有时数据是已经公开并可用的,但不是每一个都被深入挖掘过。比如美联社关于4500页记录伊拉克战争期间私人安保承包商行为解密文档报告的案例中,实际上这份材料已经被独立记者通过向美国国务院的信息自由申请拿到有很多年了。他们扫描了这些纸质结果并且传到了云端,这就让我们有可能进行更深入的分析。
— 乔纳森·史特里(Jonathan Stray),The Overview Project
第三节 经典案例
我们向本书撰稿者寻问了他们最喜欢的数据新闻案例及其原因。以下就是我们得到的答案。
拉斯维加斯太阳报之\"拒绝伤害\"
我最喜欢的案例是拉斯维加斯太阳报在2010年对医院治疗拒绝伤害的系列报道。太阳报通过分析超过29万条医院帐单纪录揭示了3600件以上可避免的损伤、传染和手术医疗事故。他们通过公共记录申请获得数据并且认定了超过300件由于可预防的医疗事故导致的死亡案例。这项数据新闻系列报道运用了各种元素,包括能让读者自行查阅医院中超乎预料的手术损伤情况的互动图表;还包括了医院间疾病传染扩散情况的时间轴地图;另外还有一个能让用户按可预防的损伤类型或按医院分类查看人们受到伤害数据情况的互动图表。我喜欢这个作品因为他非常容易理解,导航也做的很到位。用户不加思考便能很容易的去探索这些数据。
同时这个系列报道也产生了真正的影响:内华达州立法会就此颁布了六条法规。记者们投入了巨大的精力去获取并清理数据。其中一名记者,亚历山大理查德,至少十二次发还数据给医院和州政府以核实、订正数据。
— Angélica Peralta Ramos, La Nación (阿根廷) 译者注:拒绝伤害(Do No Harm)英文用词源自希波克拉底医书第一条,\"First Do No Harm\"。希波克拉底是古希腊著名医学家,被后人尊称西医鼻祖。
11
Figure 3. 拒绝伤害(拉斯维加斯太阳报)
Government Employee Salary Database
我非常喜欢一些小的独立机构每天发布的作品,比如ProPublica或者芝加哥论坛报一名优秀的数据新闻记者瑞恩·墨菲(Ryan Murphy)。如果必须选择一个最喜欢的作品的话,我认为是芝加哥论坛报的政府雇员薪资数据库。这个项目收集了66万名政府雇员的薪水情况且建立了一个数据库以便用户检索,同时帮助人们从中挖掘故事。你能按机构、姓名和工资去分类检索。它十分简单但又很有意义,把这些平时接触不到的数据公之于众。它使用简单还能自动生成许多故事。这个案例就很好的解释了为什么芝加哥论坛报网站的大部分访问量都是从数据页来的。 — 西蒙·罗杰斯,卫报
12
Figure 4. 政府雇员薪水(芝加哥论坛报)
伊拉克战争记录全文可视化,美联社
乔纳森·史特里(Jonathan Stray)和朱利安·伯格斯(Julian Burgess)进军文本分析和可视化领域用于处理伊拉克战争日志的工作非常具有启发性,通过使用这些试验性的科技,将有利于在大量的文本数据集中挖掘与主题相关的更深层次的见解。
通过文本分析技术和算法,乔纳森和朱利安创造了一种方法,以视觉化方式呈现维基解密泄露出的成千上万个有关伊拉克战争的美国政府报告中关键词的聚类。
虽然这种呈现的方法比较有限,整个方式也是实验性质的,但至少是一种创新的途径。相比于带着这样一种放入特定关键词搜索再检阅输出结构就能得到些什么的先入为主的观念去尝试读遍所有文件或者检阅战争日志,这种技术能够计算并且可视化特定相关内容的主题或关键词。
随着不断增长的数据——既包括文本的(电子邮件、报告等)也包括数字的——正在进入大众领域,找出能准确定位关键兴趣区域的方法变得越来越重要。这是数据新闻下一个非常令人振奋的分支。
— 辛西娅·奥墨楚(Cynthia O”Murchu),金融时报
Figure 5. 分析战争日志(美联社)
13
谋杀秘闻
谋杀秘闻项目是我最喜欢的数据新闻之一。这个项目由斯克里普斯·霍华德新闻服务研究机构的汤姆·哈格罗夫负责。他建立了一个数据库,数据是向政府数据和公共记录申请到的超过18.5万件未破谋杀案件的详细人口统计记录,然后他设计了一个算法,试图从中找到作案模式,推测可能存在的连环杀手。这个项目包括了下列所有的优点:精心搜集到的优于政府所有的数据,独到的运用社会科学技术的分析,还有交互的在线数据展示以便读者能够自己对数据进行探索。
— 史蒂夫·多伊格(Steve Doig),沃尔特·克朗凯特新闻学院,亚利桑那州立大学
Figure 6. 谋杀秘闻(斯克里普斯·霍华德新闻服务研究)
消息机器
我非常喜爱ProPulica的消息机这个呆瓜博客帖子。这些最早都来源于一些推特用户对大家所收到的奥巴马竞选邮件会有什么差别,所表示出来的好奇心。ProPublica的记者留意到这个现象,并且要求读者转发所收到的任何关于竞选的邮件给他们。将当天晚上几类不同邮件的视觉差异呈现出来非常绝妙。这很精彩因为他们在搜集自己独有的数据(必须承认这是个小样本,但对讲述整个故事来说足够大了)。但实际上更精彩之处在于他们在描述一个正在发生的现象,大数据在政治竞选当中正在运用于定制因人而异的消息内容。 — 布莱恩·博耶(Brian Boyer),芝加哥论坛报
14
Figure 7. 消息机(ProPublica)
气泡图表
安德鲁·加西亚·菲利普所制作的气泡图表网站是我最喜欢的数据新闻项目之一。安德鲁是个对数据十分痴迷的铁杆体育迷,又同时具备极好的极好的设计感与写代码的能力。他通过气泡图这个网站不仅可视化出历史的广度,还在深度上把个人与球队胜败的细节一并呈现。他的制作能传达整个语境,而且他做的图表引人入胜并且深度、幽默、有趣并存他的作品当中。
— 莎拉·斯洛宾(Sarah Slobin),华尔街日报
15
Figure 8. 胜利与失败图表(气泡图表)
第四节 数据新闻的视角
在2010年8月,我和一些同事组织了一个相信是首届国际数据新闻会议,在阿姆斯特丹举行。那时,会议里并没有大量围绕主题的讨论,只有个别广为人知致力于这个领域的组织参加。
使该术语出名的主要原因之一,是如英国卫报和纽约时报等媒体单位处理维基解密所公布的大量数据的方式。当时数据新闻开始被更广泛的用(和“计算机辅助新闻报道”一道)于描述记者如何使用数据以提高新闻报道内容和加强特定主题下的深入调查。
根据Twitter上那些经验丰富的数据新闻记者和新闻学者所谈论到的,我们现在所认识的数据新闻最早的表述之一,是由EveryBlock的创始人阿德里安.哈罗瓦提(Adrian Holovaty)在2006年提出的。EveryBlock是一项信息服务,旨在帮助用户了解他们居住的当地发生了什么事情。在他的一篇短文“报纸网站所需要的根本变革”中,他认为,记者应公布结构化的、机器可读的数据,而抛开传统的“大量文字”:
例如,报纸写了一则有关当地火灾的故事。能够用手机阅读该故事是最好的。万岁,技术!但我真正想要能够做到的是探索这个故事的原始事实,然后逐层归纳事实的出处,最后能够比较此次火灾与以往火灾以及往后可能发生的火灾的具体细节 —日期,时间,地点,受害人,消防站数量,与消防部门的距离,在场消防员姓名和从业年数,消防员到达了所用的时间。
16
但是,数据新闻与其他使用数据库或计算机的新闻形式的区别在哪里呢?数据新闻是怎样,又在何种程度上不同于过去其他形式的新闻呢? “计算机辅助报道”和“精确新闻学”
使用数据提高新闻报道水平,向公众提供结构化的(如果不是机器可读的)信息有着很长的历史。也许最直接相关我们现在所说的数据新闻是“计算机辅助报道”或“CAR”,这是第一个有组织结构的、系统化的改善新闻的方法,它使用电脑来收集和分析数据。
CAR最早被哥伦比亚广播公司用来预测1952年总统选举的结果。自1960年以来,(主要是调查新闻并且总部设在美国的)记者开始寻求通过科学方法分析公共记录的数据库以独立地监察权力。它也称为“公共服务新闻”,这些电脑辅助技术的倡导者们试图展示趋势,揭穿流行知识的假面具,和揭露公共部门和私营机构犯下的不公。例如,菲利普·迈耶试图揭露他收到的关于1967年底特律骚乱的材料,以证明不只是教育程度较低的南方人参加了这场骚乱。比尔·戴德曼(Bill Dedman)的“金钱的颜色”的故事发生在20世纪80年代,它发现了主要金融机构贷款政策中系统性的种族偏见。史蒂夫·多伊格(Steve Doig)的“是什么出错了”试图分析20世纪90年代初早期安德鲁飓风的破坏模式,以了解有缺陷的城市发展政策和做法所导致的后果。数据驱动的报道带来了极具价值的公共服务,并赢得了很多著名的记者奖项。
在20世纪70年代初,精确新闻 (The New Precision Journalism 菲利普·梅耶 著)。 按照设想,能把精确新闻学付诸实践的主要是受到过专业新闻学和社会科学训练的主流媒体机构。它为回应“新新闻学”, 一种使用小说技巧的新闻报道形式而诞生的。而迈耶认为,新闻所追求的目标是客观性和真理,因此新闻报道所需要的手段是数据收集和分析的科学技术,而不是文学技巧。
精确新闻学可以理解为对新闻业的一些普遍不足和薄弱环节的反应:对新闻稿的依赖(后来被称为“抄闻”),对权威来源的偏见等。迈耶认为这些问题的来源是缺乏对信息科学技术和科学研究方法的应用,比如缺少民意调查和公共记录。精确新闻如在20世纪60年代所进行的实践,被用来呈现边缘群体和他们的故事。梅耶认为:
精确新闻是一种扩大记者的工具包的方式,使记者可以接触到以前无法了解的,只能粗略访问的,或是受到新闻审查的主题。这对于了解少数民族和持不同政见者团体代表起了很大作用。
一篇发表在20世纪80年代关于新闻和社会科学之间的关系的文章颇具影响力。它呼应了目前数据新闻相关的话语。这篇文章的作者是两名美国新闻学教授,他们认为在20世纪
17
70年代和80年代,公众对于新闻的理解从狭义概念的“新闻事件”扩大到“情景报道”,或是对社会发展趋势的报告。通过使用数据库,例如普查数据或调查数据,记者能够“超越具体的、孤立的事件,提供背景从而解释这些事件的意义”。
正如我们所预料的,使用数据以改善新闻报道的做法可追溯到“数据”问世的年代。正如西蒙·罗杰斯(Simon Rogers)所指出的,卫报的首个使用数据新闻的案例可以追溯到1821年。这个案例是一个表格,它列出了曼彻斯特的各个学校的学生人数和所付的学杂费用。据罗杰斯表示,它首次展示了接受免费教育的学生数量,而这个数字是远远高于官方数字的。
Figure 9. 1821年卫报的数据新闻(卫报)
一个早期在欧洲的例子是佛罗伦斯·南丁格尔和她的于1858年发表的关键报告,“英国陆军的死亡情况”。在她向议会提交的报告中,她使用图表来倡议改善英国军队的医疗服务。最有名的是她的“鸡冠图”(coxcomb),用盘旋上升的数据来展示每月死亡人数,这些数据突出了一个事实,那就是死亡的绝大多数是可以预防的疾病,而不是子弹。
Figure 10. 佛罗伦斯·南丁格尔的英国陆军的死亡情况(图片来源自维基百科)
数据新闻与计算机辅助报道
目前,围绕数据新闻的标签和其与早前的使用计算技术、分析数据集的新闻实践的关系,人们展开了关于“连续性和变化”的辩论。
一些人认为CAR和数据新闻之间是有区别的。他们说,CAR是收集和分析数据以加强(通常是调查性)新闻报道的一种技术,而数据新闻注重整个新闻工作流程中处理数据的方式。在这个意义上,数据新闻也注重数据本身(有时比CAR更甚),而不是使用数据作为一种手段来寻找故事或者增强故事的趣味性。因此,我们发现卫报的数据博客和德州论坛报在发表故事的时候也添加了数据集,甚至只提供数据集,让人们自己分析和发现。
两者的另一个区别是,调查记者对于他们想试图找到答案的问题或者想处理的难题来说常受信息匮乏之苦。虽然如今这种问题依然存在,但是我们有了相当丰富的信息资源,多到记者并不知道要如何使用它们。他们不知道如何从数据中获取价值。最近的一个例子是联合在线信息系统,这是英国最大的消费信息数据库。它受到信息透明倡导者的长期追捧,但是它发表的一些数据难倒了许多记者。正如菲利普·梅耶最近写信给我说:“过去信息匮乏的时候,我们的精力大部分用于搜寻和采集信息。现在,信息丰富了,如何加工更为重要。”
另一方面,有些人认为,数据新闻和计算机辅助报道没有实质上的差异。哪怕是在最近期的媒体实践中,也有历史和创新,这是一个常识。把数据新闻看作传统中的一部分,但应
18
对的是新的情况和条件,比辩论它是否是完全新型的更有成果。即使可能两者在目标和技术上没有区别,但是在本世纪初出现的“数据新闻”的标签标志着一个新的阶段的诞生。在这个新阶段中,网上免费提供庞大的数据量,并结合了先进的以用户为中心的如自媒体发行和众包等工具,使更多的人比以往任何时候都更轻松地获得更多的数据。
数据新闻关乎大数据(Mass data)素养
数字技术和网络从根本上改变了信息发布的方式。数据新闻业是围绕数据站点和服务展开的生态系统工具和实践的一部分。引用和共享源素材是网站超链接结构的本质,也是我们今天所习惯的浏览信息的方式中的一部分。回溯到更早时期,网页超链接结构的基础原则是用于学术著作的引用。引用和共享源材料和数据背后的故事是数据新闻提高新闻的基本途径之一,维基解密创始人朱利安·阿桑奇把它称为“科学新闻学”。
数据新闻使任何人能深入到数据源当中,找到与他们相关的信息,去验证推断并挑战被普遍接受的假设,它有效地代表了大规模民主化进程,其使用资源、工具、技术和方法等,在过去仅限于专家使用,如调查记者,社会科学家,统计学家,分析师或其他专家。虽然目前引用和连接到数据源主要是数据新闻领域的,但我们正努力创造一个世界,在这个世界中,数据无缝地融入到媒体内。数据记者在帮助降低了解和查询数据的壁垒,大规模地增加读者的数据知识水平等方面起到了重要作用。
目前,这些新兴的自称为数据记者的社群与更成熟的CAR的社群是非常不同的。希望在未来,我们将看到这两个社群的关系变得更紧密,就像我们看到了新的非政府组织和公民媒体组织,比如ProPublica和新闻调查局,携手与传统新闻媒体一起参与调查。虽然数据新闻社群可能有更创新的提供数据和和展现故事的方式,CAR社群中深入分析与批判的方法是数据新闻所应必须学习的。
— 莉莉安娜·博内格鲁(Liliana Bounegru),欧洲新闻中心
19
第二章 新闻编辑室的运作
一、ABC的数据新闻实践 二、数据新闻在BBC
三、新闻应用团队在芝加哥论坛报是如何工作的 四、卫报数据博客的幕后 五、数据新闻在Zeit在线 六、如何雇佣一个黑客? 七、通过黑客马拉松聚集外部专家 八、追踪赃款:数据新闻与跨国境协作 九、我们的新闻以代码呈现
十、Kaas & Mulvad:组织机构的半成品内容提供商 十一、数据新闻的商业模式
第一节 ABC的数据新闻实践
如今已有70年历史的澳大利亚广播公司是澳大利亚全国性的公共广播。每年有10亿澳大利亚元左右的资金用于7个广播网络、60家当地的广播站、3个数字电视服务商、1个新的互联网电视服务商和1个网络平台去推送不断扩充的数字的和用户产生的内容。据最新统计有超过4500名的全职员工,其中近70%的人生产内容。
作为一家国家级广播公司,我们对自身的独立性感到非常自豪——尽管由政府资助,我们却因由法律的保护与政府保持“一臂之距”。我们传承的是独立、公共、服务的新闻理念。ABC被认为是澳大利亚国内最值得信任的新闻机构。现在正是辉煌的时期:在前任报纸主管马克·斯科特(Mark Scott)的管理和指导下,ABC的内容生产者们正如公司准则描述的一样——变得“敏捷”。
20
当然,说得容易做得难。
但是,最近有一个旨在激励内容生产者的创举——为了培育创新跨平台项目而举办的资金竞标会。
这也促成了ABC第一个数据新闻项目的诞生。
在2010年的早些时候,我在竞标会现场闲逛了一圈,带着我的提案与三个资深“创意”人士碰面。
关于这件事情我反复琢磨了一段时间。我浸泡在卫报数据新闻博客学习其提供的数据新闻教程,这也是为初学者准备的。
我个人的观点是,不出5年,ABC将毫无疑问地拥有自己的数据新闻部门。这是不可避免的。但问题在于如何实现,以及由谁开始。
对于那些不太熟悉ABC的受众来说,想想一家拥有超过70年历史的庞大机构吧。它最初提供的大多是广播和电视节目。随着过去十多年间网络的崛起,内容的提供方式逐渐延伸至文本,同时还加入前所未有的互动元素。网络空间迫使ABC重新思考该如何切蛋糕(资金)以及该做怎样的蛋糕(内容)。
这自然是一项具有进步意义的工作。
与此同时,还有其他与数据新闻相关的事情正在发生。在国内广受关注的政府2.0已经开始运用新的方式讲故事,而迄今为止这些方式都离不开电脑代码。
以上就是我在资金竞标会上的发言。我还提出,我们需要引入新的技术设备,训练记者使用新的器材。我们需要一个项目来正式加入这个领域。
然后,他们就把钱给了我。
2011年11月24日,ABC的跨平台媒体项目、也即ABC在线新闻网正式上线,首个推出的专题是“数字上的煤层气”。
Figure 1. 数字上的煤层气(ABC新闻在线)
21
这个专题由5个页面的互动式地图、可视化数据和文本组成。
这称不上纯粹的数据新闻团队,只是混合了一群来自不同团队的人,把时下澳大利亚国内的热点话题表现出来。
整个专题的亮点是一份澳大利亚煤层气气井分布及租赁情况的交互地图。读者可以按地理位置搜索,以及在租赁情况和气井分布两种模式之间自由切换。读者还可以通过放大地图,查看某个气井的开发商名称、开发状态以及钻井日期。另外一份地图则是澳大利亚的煤层气活跃区域与地下水系统区域之间的对比。
Figure 2. 澳大利亚煤层气气井分布及租赁情况交互地图(ABC在线新闻) 此外,我们结合煤层气的发展现状,专门分析可能带来的废盐和废水问题,并将数据以可视化的方式呈现。
专题的另一部分调查了流入当地河流系统的化学物质排放情况。 我们的团队:
一位网页开发及设计人员 一位主编记者
一位兼职研究员,专长于数据采集、分析与整理 一位兼职初级记者 一位制作人顾问
22
一位学术顾问,专长于数据挖掘、图形可视化以及其他先进的研究技巧 一位项目经理,以及ABC跨媒体平台部门的行政支持
尤为重要的是,我们还有一支由记者及相关人员构成的顾问团队,以备不时之需
我们的数据来源?
互动地图的数据出自政府网站下载的shapefiles(一种常见的地理数据格式)。 关于盐和水的数据出自大量的报告文件。化学物质的排放数据则出自由政府颁发的环境许可证。 我们的收获?
“数字上的煤层气”专题体现了我们在内容和规模上的野心。但眼下我最为关注的,是我们从中获得了什么启示,以及下一次要如何做出新意?
数据新闻项目把很多之前从未碰面的ABC同事聚集在一起。用时髦的话来说,就是黑客和骇客。我们中不少人说着不同的语言,甚至拥有不同的价值观。数据新闻就是这么分裂! 经验之谈:
共同的办公地点至关重要。我们的开发和设计人员只有开会时才出现,这显然不是最理想的状态!他们应该和记者们在同一屋檐下工作。
我们的制作人顾问和我们也不在同一层楼。最好可以离得更近,以便随时沟通。 选择一个完全由数据主导的话题。 对全局的几个观点:
大型的媒体机构必须具备应对数据新闻挑战的能力。我的直觉告诉我,大批的极客和黑客正隐藏在媒体的技术部门里摩拳擦掌。所以我们有必要举办主题为“黑客与骇客”的研讨会,让那些深藏不露的极客、年轻的记者、网页开发和设计人员与资深的新闻工作者有更多的交流机会,从后者身上汲取更多的经验和技能。任务:下载本书,行动吧!
真正的数据新闻应是跨领域的。数据新闻的团队由过去从未共事过的人员组成。可以说,网络空间使得彼此之间的界限日渐模糊。
我们生存在一个断裂的、不值得信任的政治体制下。过去以专业、独立的新闻产品为核心的商业模式——事实上并不完美——正濒临瓦解边缘。如今,我们应该不断地扪心自问:如果没了充满活力的第四权力(即新闻业),这个世界将会变成什么样子?美国记者及学者沃尔特·李普曼(Walter Lippman)在20世纪20年代曾说过:“必须承认的是,良好的公众舆论是离不开新闻的。”这一观点至今仍然正确。进入21世纪,人们沉迷于博客的世界。
23
很难将骗子、造谣人、伪君子和特定利益团体与真正的专业新闻人区分开来。任何网页或消息来源都极有可能包装得可靠、稳重、诚实。而那些值得信赖的的报纸正逐渐被人们遗弃在角落。在这个充斥着垃圾新闻的新空间中,超链接技术引领读者无止境地通向更多毫无意义但外观闪亮的页面。有个描述这种情形的专用术语是:大脑积水。
在数字世界里,人人都是新闻人,对吗?不是的。然而,假如专业新闻——我指的是尊重伦理、适度均衡、勇敢真实的事实性叙述——想要继续生存的话,必须重新以适应于数字时代的技能武装自己。数据新闻正是我们在数字海洋中航行的又一新工具。我们会在无数的0和1之中定位、挑选、分类、过滤、提取并分析出有用的信息。接下来的日子,我们将与电脑黑客、开发设计师、编程人员并肩作战。眼下正是过渡时期,需要认真做好能力重塑。我们需要能够有效“发掘”技术与新闻之间联结的项目管理者来实现这一过程。 — 温蒂·卡利斯勒(Wendy Carlisle),澳大利亚广播公司
第二节 数据新闻在BBC
“数据新闻”一词涵盖了一系列的学科,并被广泛应用于各大新闻机构,了解这一点对我们理解“数据新闻”在BBC是大有裨益的。大体说来,“数据新闻”是指通过使用数据来实现以下一个或多个目标:
帮助读者找到对个人有重要意义的信息 报道一些重大却鲜为人知的新闻
帮助读者更好地理解一些复杂的问题
以上三方面可能会有所重复,而如果在线使用的话,不同层面的数据可视化则有益于这些目标的实现。 个性化
以上三方面可能会有所重复,而如果在线使用的话,数据的视觉化则有益于这些目标的实现。
最典型的例子是我们在1999年首次推出的学校排行榜,榜单所使用的是每年由政府公布的数据。读者只要输入邮政编码,就能找到当地的学校,并根据一系列的指标进行对比。跑教育新闻的记者为了先于出版物拿到数据做报道,常常和开发团队的人一起合作。
我们刚开始做这件事时,还没有一家政府网站能为市民提供数据查询,但现在,英国的
24
教育部已经有了类似的服务,而我们的工作重心也转向以挖掘数据中的新闻为主。
现在,这一领域所面临的一大挑战是,如何让市民能够查询到那些与公共利益明确相关的数据。最近的一个例子是,我们推出了一个通常不为公众所知的庞大数据库“每条道路上的的每例死亡”,用户通过使用邮编进行搜索,就能找到过去十年中每场道路事故发生的具体位置。
通常,我们会根据警方提供的数据,把每场交通事故的主要事实和特点相关数据进行可视化。为使该项目更加动态化和人性化,我们和伦敦急救协会以及BBC伦敦电台和电视台进行合作,即时追踪城中发生的每场车祸。这些报道都会进行在线直播,还会在Twitter上冠以#crash24的标签进行报道,同时会在地图上标出车祸发生的具体地点。 简便的工具
除了为用户提供大型数据库的搜索渠道外,我们还成功创建了一批简便的工具,为用户提供他们所需要的信息。这些工具大大赢得了那些诸事缠身者的喜爱,因为他们通常没有时间去做冗长的分析和搜索。此外,个人信息分享的便利性也开始成为我们开发新工具的标准之一。
在这方面,一个极为轻松愉快的尝试是我们做的一个专题“70亿人口的世界:你是第几个出生的人?”该应用程序的发布日期与世界人口达七亿的官方日期刚巧一致,用户只要输入自己的出生年月日,就可以立即计算出自己是全球第几个出生的人,并通过Twitter和Facebook分享自己在全球的出生排名。该应用使用了联合国人口发展基金提供的数据,并大受欢迎,成为英国2011年Facebook上人气最旺的分享链接。
Figure 3. 70亿人口的世界(英国广播公司)
25
另一个新近的案例是BBC推出的预算计算器。用户通过使用该计算器,可以预见财政大臣的预算一旦生效后可能产生的更好或更坏的的影响,然后分享计算结果。我们与全球四大会计师事务所之一的毕马威建立了合作,他们根据年度财政预算为我们提供计算器,而我们则致力于创建一个抓人眼球的界面,以鼓励用户完成任务。
挖掘数据
然而,在这一切中“新闻”又在哪里呢?对于数据新闻,一个相对传统的定义是报道数据中的新闻故事。作为一名借助数据或电脑做报道的记者,面对数据,你首先得问问自己,这些数据中是否潜藏着某条独家新闻?数据是否精确?是否证明或反正了某个问题?不过要想在一个庞大的数据库中发现有价值的新闻,就必须花大量的时间对数据进行筛选。
而在这方面,我们已经找到了最快捷有效的方法,那便是与一些调查性团队或项目进行合作,他们在新闻调查方面十分在行,而且时间充足。比如,BBC的时事节目《全景》与新闻调查中心合作,花费数月时间,收集了有关公共部门薪酬的数据,不仅制作出了一部电视纪录片,还在网上推出了一个“公共部门薪酬:一些数字”的特别报道,并从行业分析的角度,对所有已公布的数据进行了可视化处理。
除了与调查记者合作外,拥有具备专业知识和数学头脑的记者也是至关重要的。当政府提出削减开支审查的数据时,团队中的工商记者在经过分析后能得出这样的结论:实际上的削减数字并没有他们所宣称的那么大。就是这条充分理解数据,加以清晰的可视化呈现辅助的独家新闻\"Make sense of the data\",赢得了英国皇家统计学会奖。 理解问题
不过,数据新闻不必成为那种不能被别人报道的独家新闻。数据可视化团队的工作就是将一些很棒的设计和编辑叙述结合起来,从而为用户提供引人入胜的体验。对一些准确的数据进行可视化处理有助于用户更好的理解某一问题或报道,这一招儿在BBC的新闻报道中屡试不爽。热力图数据技术的运用,就能够清晰地追踪英国救济金领取随时间的变化。
我们在欧元区债务网上的专题报道,探讨了欧元区各国错综复杂的国内贷款,我们运用颜色和比例箭头,并辅之以简明易懂的文字,以视觉化的方式来阐释复杂的问题。其中极为重要的一个考量是,如何鼓励用户去关注这样的网站,阅读其中的报道,并不会被这些数字吓到。
26
团队概况
我们的团队由20人组成,包括记者、设计师和研发人员,负责为BBC的新闻网站制作数据新闻。
除了承担数据项目和视觉效果的制作外,团队还包揽了新闻网站所有的信息图表和多媒体专题的制作。这些综合起来催生了一种新的新闻报道模式,即所谓的视觉新闻。 虽然,团队中并没有哪个记者专门司职处理数据,但所有的编辑人员都必须熟练掌握一些基本电子表格的应用技巧,如Excel 和谷歌文档等,以便对数据进行分析。
研发人员的技术和建议,以及设计师的可视化处理技术构成了每一个数据项目的核心组成部分。尽管我们首先是记者、设计师或研发人员,但我们努力工作,勤于学习,不断增加对彼此专业领域的熟悉和了解。
审校数据最常用的工具是Excel,谷歌文档和聚合图表(Fusion Tables)。不过,对于比较庞大的数据集,我们使用MySQL、Access数据库和全文检索进行处理,此外通过运用关联数据技术,我们还会用RDF数据模型以及SPARQL查询语言和数据访问协议,来模拟事件的发生,但总的来说这些都不太常用。研发人员也会使用自己首先的编程语言,如ActionScript, Python , Perl,来对我们正在做的数据进行比较、分析,甚至提出严厉的批评。Perl经常用于一些出版物。
在探索地理数据,并对其进行可视化时,我们则使用必应地图和谷歌地图,以及美国环境研究所(Esri)的ArcMAP程序。
在制图方面,我们采用Abode 套件,包括影视特效,Illustrator, Photoshop 以及 Flash软件等。尽管如今JavaScrip,尤其是JQuery和其他JavaScript 函数库诸如Highcharts, Raphael 和 D3 越来越符合团队制作数据可视化效果的要求,但我们仍很少发布Flsah 文件。
— 贝拉·赫里尔(Bella Hurrell)和安德鲁·莱姆德菲尔(Andrew Leimdorfer),BBC
第三节 新闻应用团队在芝加哥论坛报是如何工作的
芝加哥论坛报新闻应用团队就像一支潜入新闻编辑部的快乐黑客团队。我们与编辑和记者密切合作,帮助他们:(1)调查和报道故事,(2)在线描绘故事(3)为芝加哥当地的特定群体建立永久的网络资源。
27
最重要的一点是我们就在编辑部里工作。我们常常在与记者面对面交谈中找到我们需要做的东西。他们都知道我们十分乐于帮助他们编写对低劣政府网站进行屏幕抓取的工具、解析大量的PDF文档或者将非数据类型的信息转换成可供分析的形式。这样的工作方式在某种程度上帮助了我们小组发现存在的不足,在最开始找出潜在的数据项目。
与这个领域的其他很多团队不同,我们的团队是由一群技术专家组成的,且对他们而言,新闻还是他们事业的转折点。我们当中的一些人从事过几年商业编程之后又获得了新闻学硕士学位,还有一些人则来自开放政府(Open government)社群。
我们的工作是与时俱进的。为了确保我们的工作能与社会需求相同步,每天早晨的工作都以一个5分钟的非正式简短会议开始。我们常常以两人为一组负责一个项目——两人一台电脑共同开发比两人各自一台分头开发更具效率。大多数项目都可以一周之内完成,但是在一些长期项目中,我们常常采用以一星期为一个周期的工作方式,每周向我们工作的利益相关方(通常是记者和编辑们)展示我们的工作。要遵循这样一种魔咒:“快速地发现错误”。这句话地意思就是如果你们做错,那就必须及时发现,尤其当你们的工作接近截止日期的时候!
在截止日期前,都有巨大的不断推翻自我的上升空间:我们可以不断地更新我们的工具包。每个星期我们都会设计出一个或两个应用,不像一般的软件商店,我们接下来会将这些新产品置之脑后,将注意力转移到新的项目上。因此我们每个星期都能学到新的东西,这是我们与记者们一起分享的快乐。
Figure 4. 芝加哥论坛报新闻应用团队 (希瑟·比灵斯(Heather Billings) 摄) 所有与应用相关的想法都来自于编辑部的记者和编辑们。我相信这是我们与其他编辑部的应用团队不同的地方,他们往往是依靠自己构思应用。我们在编辑部建立了坚实的私人 专业化的关系,我们的伙伴发现数据的时候都会主动来找我们。
我们大部分在编辑部的工作主要是为记者们服务。我们帮助记者挖掘数据、将PDF文件转换回表格文件以及抓取网站屏幕等等。我们乐于提供这样的服务,因为这能让我们尽早地参与进编辑部内的数据工作中。这其中的一些工作会成为一个新闻应用,例如地图、表格或一个较大规模的网站。
以往,我们从文字新闻页面链接到APP,但这没能带来很多访问量。那么最近,我们首先把应用几乎放在网站的最上端,然后改成从应用链接到相关的报道页面。这种方式对应用和新闻故事来说都表现不错。同时,网站中的数据专栏这块也是我们在负责,但访问量并不多。这也是意料之中的事情。对读者来说,像“嗨,我今天需要一些数据!”这样的需求并
28
不是一个非常频繁的事儿。
我们喜欢网页流览量,也喜欢同伴的夸奖,但是这都是其次的。我们真正的的动力应该来源于我们的作品对人们生活、法律以及对政治家的监督等等。文字报道能够反映社会趋势并且通过几个具体的故事使之更加人性化。但是当读者读完报道之后他们会做些什么呢?他们的家庭是否安全?他们的孩子是否受到公平合理的教育?我们工作的意义在于能够帮助读者在数据中发现他们自己的故事。我们做过的具有影响力的、个性化的作品包括养老院安全报道以及学校报道卡片的应用。
— 布莱恩·博耶(Brian Boyer),芝加哥论坛报
第四节 卫报数据博客的幕后
当我们启动数据博客(Datablog)的时候,并不知道是否会有人对这些原始数据、统计和可视化感兴趣。就像我办公室里一些颇有地位的人问的一样:“为什么会有人想要这玩意儿?”
《卫报》数据博客(Guardian Datablog)——目前由我编辑——曾经是一个小小的博客,专门提供我们新闻报道背后的完整数据集。现在,它包括一个首页 、各国和全球范围的发展数据的搜索引擎、网络上和卫报的视觉艺术家们的数据视觉化作品,以及探索公共开支数据的工具。每天,我们使用谷歌电子表单(Google spreadsheets)来分享完整的数据。我们分析这些数据,并将之可视化。之后,我们用这些数据为报纸和网站提供新闻故事。
积累数据集,与数据“搏斗”,使它可以让当天的新闻报道变得有意义—.作为一名与图形打交道的新闻编辑和记者,这是我一贯工作的合乎逻辑的延伸。
之前那个被问及的问题已经有了答案。对于公共数据而言,这几年简直是不可思议。奥巴马 将公开美国政府的数据错误作为其第一个法案。紧随其后,一系列的政府数据网站如雨后春笋般在全世界建立起来:澳大利亚,新西兰,还有英国政府的Data.gov.uk。
我们已经有了整个不列颠最非比寻常的数据新闻报道——议员开支丑闻案。这一事件的余波使得威斯敏斯特决意每年都发布海量的数据。
我们已经有了一次大选,大选中所有的主要政党都同意数据透明化,要将我们的数据“金库”向全世界开放。我们还有报纸发表专栏文章,为督促财政部发布综合在线信息系统(COINS,Combined Online Information System)数据库作坚持不懈的努力。
29
与此同时,网络上涌现出越来越多的数据也说明了更多的人开始对新闻背后的原始事实感兴趣。我们启动数据博客(Datablog)的时候,以为读者应该是那些制作应用程序的开发者们。实际上,恰恰是广大的普通读者更想深入了解各种数据,包括碳排放、东欧移民、阿富汗发生的死亡事件,甚至是甲壳虫乐队在他们的歌里面使用“爱(Love)”的次数(613)。
渐渐地,新闻报道中开始反映并加入数据博客的工作。我们众包了458,000份与议员花销的相关文档,并详尽分析了议员们所声称的那些数据。我们帮助用户们仔细探索财政部的开支数据库,并发布新闻报道背后的数据。
不过真正改变数据新闻的事情发生在2010年的春天,它开始于一份电子表单:92,201行数据,每一行都包括一条发生在阿富汗的军事事件的详尽信息。那是维基解密战争档案,以上内容便是它的第一部分。它还有两部分:伊拉克和密电。档案的前两部分有个官方的名称:美国重要军事行动数据库(SIGACTS: the US military Significant Actions Database)。
新闻机构一贯讲究“地缘”,也就是跟编辑部的接近程度:如果离编辑部近,你就更容易提议故事并参与其中进程;与之相反,如果人家看不到你,他也就不会想到你。在维基解密之前,我们与图形部门在一起,跟编辑部在不同的楼层。维基解密事件之后,我们就跟编辑部做起了邻居,待在同一个楼层。这意味着我们能够更容易地向编辑提出想法。新闻室另一端的记者们也会想到让我们为新闻报道提供帮助。
不久之前,记者还是官方数据的看门人。记者们会撰写跟数字相关的报道,发布给对原始的统计数据毫无兴趣的公众。而今天我们会想着让原始信息进入报纸,这在过去简直就是诅咒。
现在情况已经截然不同。我们的角色正在向解释者转变——帮助人们理解数据。有时候我们发布数据仅仅是因为数据本身很有趣。
但是,没有经过分析的数字仅仅是数字而已,这恰是我们的价值所在。当英国首相声称2011年8月发生的暴乱与贫困无关时,我们在有贫困指数的地图上标注骚乱者的地址,以此来揭示这份声明背后的真相。
所有的数据新闻背后都是一系列作业流程。随着新的工具与技术的出现,它也在不断变化。有些人说这项工作要跟超级黑客一样,自己编写代码,然后被淹没在SQL中。你确实可以这么干,不过我们的很多工作其实仅仅使用了Excel。
首先,我们定位数据,或者从不同的渠道获取数据,比如说突发新闻、政府数据、记者的调查等等。接着,我们开始考虑用这些数据我们能做什么——我们需要把它跟另外一个数据集整合到一起么?如何展示数据随着时间的变化?电子表单通常会被整理得非常规整—
30
—无关的数据栏和奇怪的合并单元格没有丝毫价值。我们通常还期望数据文档不是PDF——对数据来说,这可谓人类已知的最差的格式。
通常官方数据会附带官方代号。每所学校、医院,每个选区和当地政府,都会有独一无二的识别代号。
国家同样也会有代号(比如说,英国的代号是GB)。它们非常有用,因为当你想将不同的数据集整合到一起时,你会惊奇地发现它们的单词顺序与拼写方式居然会如此不同。比如说,Burma、Myanmar都是缅甸。又比如说,从乔治亚州到西维吉尼亚州,美国一共有11个费耶特郡(Fayette County)。代号可以让我们在比较数据时避免牛头不对马嘴。
流程的最后部分是输出结果。它最后是一篇报道,还是图形,亦或可视化?要使用什么工具?我们最为常用的工具都是免费的,它们简单易用,让我们可以很快就有所产出。更为精心设计的图表则由我们的开发团队制作。
我们通常使用Google charts来制作小型的线形图和饼图,用Google Fusion Tables来快速创建地图。
这一切看上去是新奇事物,不过其实不是。
1821年五月5日,周六,曼切斯特《卫报》发行了它的第一期报纸。就跟当时的所有新闻纸一样,新闻被印在封底——头版头条是一副寻找走失的拉布拉多犬的广告。
在故事和诗歌摘录中间,“事实”居然占据了封底三分之一的位置。那是一个署名“NH”的表格。该表格全面地、“前所未有”地向公众呈现了就读当地学校的各项花费。
NH希望他能够公开发布他的数据,要不然其中的内容就要交给没有受过训练的事务员来报道。他认为:“它所包含的信息极具价值;假如不知道教育………的普遍程度,不清楚当下环境和未来的社会进程,我们哪怕最好的观点都会有所纰漏。”也就是说,如果人们连发生了什么都不知道,我们的社会如何变得更好?
为我们正在所尝试做的一切找不到更好的理由了。曾经只是在封底的东西,如今可以成为头版新闻。
— 西蒙·罗杰斯(Simon Rogers),卫报
第五节 数据新闻在Zeit在线
基于PISA(Programme for International Student Assessment,国际学生评估项目)的财富比较项目是一个比较不同国家生活标准的交互性可视化。这个交互性使用的数据来源于OECD(Organization for Economic Co-operation and Development,经济合作与发展
31
组织)出版于2010年12月的的全球教育排名报告,PISA2009。这个报告基于一份询问15岁的学生家庭生活情况的问卷。
我们的想法就是去分析并可视化这个数据,从而提供一种独特的方式去比较在不同国家的生活标准。
Figure 6. 基于PISA的财富比较项目(Zeit 在线)
首先我们的编辑团队决定哪些事实对于比较生活标准而言是有用的,并且应该被可视化,包括:
财富(拥有电视机、汽车以及家里浴室的数量);
家庭情况(是否与祖父母住在一起,只有一个孩子的家庭比重,父母的失业率以及妈妈的工作状况);
获得知识的来源(家里的网络状况,使用e-mail的频率以及拥有书籍的数量);
基于每个国家不同发展状况另外三个补充性指标。
在内部设计团队的帮助下,这些事实被翻译成自我解释性的图标。一个前端设计被制作出来去实现不同国家之间的比较,就像一个纸牌游戏。
接下来我们联系了来自德国公开数据网络,希望找到一些可以帮助这个项目实施的开发者。这个动力十足的团队推荐了Gregor Aisch,一个非常有天赋的信息设计师来进行程序开发,帮助我们梦想成真(不使用Flash,这对我们非常重要)。基于Raphael-Javascript类库,Gregor创作出一个高质量且漂亮的交互气泡图可视化作品。
我们合作的成果是一个成功的交互作品,带来了巨大的访问量。它能非常容易的去比对
32
任意两个国家,使之成为一个非常有用的参考工具。这意味着在日常的编辑工作中我们能够反复使用。例如,如果想报道有关印度尼西亚生活状况,我们能够快速便捷地嵌入一个图形去比较印度尼西亚和德国的生活状况。这种知识的变迁对我们内部团队未来项目来说是十分重要的投资。
在Zeit在线上,我们已经发现我们的数据新闻项目给我们带来了很大的流量,帮助我们以一种新的方式吸引受众。举例来说,针对日本海啸后福岛核泄露状况有非常广泛的报道。在放射性物质从核电站中泄露之后,方圆30千米以内的群众都被疏散。人们能够看到很多关于疏散的新闻。Zeit在线找到了一种创新的方式去向德国受众解释这件事情的影响。我们问道:在德国有多少人住在核电站附近?又有多少人住在核电站方圆30千米以内?我们用一张地图展示了如果相似的情况发生在德国,有多少人会被疏散。其结果是:给网站带来了很多很多的访问量,在整个社交媒体空间内也如病毒式的迅速扩散开来。相对而言,数据新闻更容易被其他语言的用户所接受。我们尝试制作了一个针对美国类似情况的英文版本,同样吸引了大量的访问。媒体机构希望在他们的受众中树立可信和权威的形象。我们发现数据新闻不仅能让受众阅读还能让他们再利用这些原数据,大大提升了我们的公信度。
两年来,Zeit在线的研发部门和总编辑沃尔夫冈·布罗(Wolfgang Blau)一直提倡将数据新闻作为一种重要的叙事方式。透明度、公信力和受众参与是我们运营哲学的重要部分。这也是为什么数据新闻已经自然而然地成为我们目前和未来工作的一个部分。数据可视化能够提升读者对故事的接受程度,也是整个编辑团队展示内容的一种很有吸引力的方式。
例如,2011年11月9日,德意志银行承诺停止向集束炸弹制作商提供资金。但是根据一个名为直面金融的非盈利组织(Facing Finance)的调查,该银行却在作出上述承诺后,继续向集束炸弹制造商提供贷款。我们的可视化项目从展现资金多样流向的数据出发。上方是德意志银行的不同部门,下方是一些被控接受集束炸弹制造资金的公司。中间按照时间线展示出每一桩交易的信息。把鼠标指向圆圈,可以查看每笔交易的细节。当然,这个故事也可以通过文章的形式呈现。但是,可视化的方式能够使我们的读者以一种更加直观的方式理解并挖掘金融依赖。
33
Figure 7. 炸弹交易(Zeit在线)
再举一个例子:the 德国联邦统计局出版了一个囊括德国各类重要数据的优秀数据集,当中包括预测至2060年的各类人口统计场景模型。一般来说,展示这类数据的典型方式就是人口金字塔,就像来自联邦统计局的这个一样。
在科技部门同事的协助下,我们试图为我们的读者提供一种探索关于我们未来社会人口统计信息的更好的方式。利用可视化,我们通过一个具有统计代表性的40人群体展示了从1950年到2060年间不同时代的情况的。他们被划分为8个不同的小组。这就像是不同时点上德国社会的集体照。同样的数据,以传统的金字塔的方式呈现,只能提供非常抽象感觉;但以一个拥有小孩子、年轻人、成年人和老年人的群体呈现,则意味着我们的读者能够更轻易地理解数据。你只需轻轻点击按钮,就可以开启一段穿越110年的旅程。你也可以输入自己的出生年份和性别,从而成为集体照中的一员:去观看属于你的人口发展历程和自身生命轨迹。
— 萨沙·费诺尔(Sascha Venohr),Zeit在线
第六节 如何雇佣一个黑客?
我经常被记者问到的一个问题就是“我是如何找到一个程序员帮助我做项目”?不要认为这是一个单向的过程,有公民意识的黑客和数据玩家也很渴望和记者接触。
记者是数据驱动的工具和服务的强力使用者。从开发者的角度来看,记者能够跳出思维
34
定势,以一种开发者从未考虑过的视角(反馈是无价的!)去使用数据工具。他们也能够帮助建立语境,在项目周围东奔西忙,并且使他们产生联系。这是一种共生的关系。
幸运的是,这意味着不管你是想雇用一个黑客还是以小额预算寻找可能的合作,都会更有可能找到一个对于帮助你感兴趣的人。
所以怎样才能找到他们呢?来自纽约时报的阿隆·费尔霍夫(Aron Pilhofer)说: 你可能发现在你的组织中有人拥有你所需要的所有技巧,但是他们不在你的新闻编辑室。四处走走,去拜访技术部门和IT部门,你可能找到金子。还有一点很重要,要尊重编码文化:偶遇一个有电脑的人且他又在这工作Figure 9…你很可能取得成功.
Figure 9. 荣誉勋章: 黑客通常很容易就能找到 (露西·钱伯斯Lucy Chambers 摄) 这儿还有一些其他的主意: 在求职网站上张贴启事
在旨在面向运用不同编程语言的开发者的网站上张贴启示,例如Python Job Board。 联系相关的邮箱列表
例如,NICAR-L和Data Driven Journalism邮件列表。 联系相关组织
如果你想清理或从网上抓取数据,你可以联系一个像Scraperwiki这样的组织,他们有一些值得信任并有意愿的程序员的地址。 加入相关的小组\\网络
寻找一些如Hacks/Hackers这样能使记者和工程师聚在一起创新组织。Hacks/Hackers组织现在在全世界都开始涌现。你也可以尝试在他们的工作通讯上张贴一些东西。
本地兴趣小组
你可以尝试使用你的专业领域和地区进行一个快速搜索(例如,“JavaScript”+“伦敦”)。像Meetup.com这类的网站也不妨是一个开始的好地方。 黑客马拉松和比赛
不管有没有奖金,应用、可视化比赛和开发者大会都是产生合作和连接的硕果之地。 直接去问一个极客!
极客们都有自己的圈子。行内人介绍总是找到合适一起工作的人的好办法。
— 露西·钱伯斯(Lucy Chambers),开放知识基金会 黑客技术
一旦你找到了一个黑客,怎么才能知道他的水平高低?我们询问了来自卫报的阿拉斯泰
35
尔·丹特(Alastair Dant,卫报的首席互动工程师),看看他认为如何鉴别一个好的黑客: 他们能编写整个架构
对于时间管理来说, 有一个能搞定所有的人要比一个方面的专才好。新闻应用需要驾驭数据,动态制图并且敢想敢干。 他们能看到整个图景
整体的思考喜欢叙述价值胜过技术细节。我更喜欢听一个有感情的叙述而不是在模糊的尺度上无尽的追求精湛。不信去问问人们和一个设计师工作能有多开心。 他们能讲述一个好故事
叙述性的展示要求能够很好对时空进行安排。调查他们最自豪的项目,问他们项目是如何实施的,这能够揭示出他们表达技术理解的能力。 他们能够充分讨论
迅速的构造事物需要混合的团队合作但有共享的目标。每一个参与者都应该尊重他们的同事,愿意去沟通。无法预见的障碍经常需要迅速的重新规划和相互让步。 他们能够自学
技术发展的十分迅速。能够跟上变化需要努力。遇到的来自各种背景的好的开发者的共同特点就是他们愿意学习新的事物
— 露西·钱伯斯(Lucy Chambers),开放知识基金会,采访阿拉斯泰尔·丹特(Alastair Dant), 首席 交互 工程师, 卫报
如何找到理想的开发者
一个比较好的和一个非常优秀的开发者之间,他们的效率差异不是一丁点的,而是指数倍增的。雇佣合适人选十分重要。不幸地是,那也非常困难。如果你不是一个有经验的工程师的话,很难去审查候选人的资质。再加上新闻机构组织所能负担的薪资,你的确面临一个挑战。
在芝加哥论坛报,我们招聘会打两张牌:感情牌和技术牌。感情牌就是:新闻对于民主的运转非常必要。在这儿工作你能够改变世界。技术上,我们能提升你的所学。我们的项目都很小、很快、可重复。每一个项目都是一系列新的工具、新的语言、新的主题(火的安全、保险金体系),这些你都必须学习。新闻编辑室是一个考验之地。我从来没有管理过一个能学到这么多、这么快的地方。
36
至于在哪儿能找到,我们很幸运地在开放的政府社团中找到了很棒的黑客。The Sunlight Labs的邮件地址列表上有很多优秀的技术痴迷者,他们的日常工作很糟糕,但经常夜晚在网上聚在一起。另一个潜在的来源是Code for America。每一年都会从CfA中涌现一批同事,在寻找他们的下一个大项目。同时因为CfA有很严酷的面试过程,他们已经替你做了审查的工作。现在,新闻院校里也涌现了很多对编程感兴趣的记者,他们虽然还很青涩,但有无尽的潜力。
最后,仅仅雇佣开发者还是不够的。你还需要技术上的管理。一个单枪匹马的开发者(特别是没有行业经验的刚刚从新闻院校毕业的人)很容易做出一些错误的决定。即便是最好的编程者,也会选择她技术上感兴趣的而不是对受众来说最重要的东西做。雇用一个新闻应用编辑或是一个项目管理或是什么。就像作者需要编辑一样,编程者也需要编辑、指导者或是某个能催促他们在截止日期前做出软件的人。
雇用一个新闻应用编辑,或是一个项目经理,或是类似的人。就像作者需要编辑一样,编程者也需要编辑、指导者或是某个能催促他们在截止日期前做出软件的人。
— 布莱恩·博耶(Brian Boyer),芝加哥论坛报
第七节 通过黑客马拉松聚集外部专家
2010年3月,位于荷兰乌得勒支的数字文化组织SETUP开始了一个名为Hacking Journalism的项目。这个项目旨在鼓励开发人员与记者间更广泛的合作。
程序员们说:“我们组织黑客马拉松来做很酷的应用,但我们无法识别出数据中有趣的故事。我们所做的没有社会实用性。”记者们说:“我们意识到了数据新闻的重要性,但我们没有技术去构建我们想要的东西。”
Figure 10. 记者与开发人员在RegioHack黑客马拉松上 (Heinze Havinga 摄影)
对于一个地区性报纸来说,尚没有意向和预算为新闻编辑室雇佣一个程序员。对于当时的荷兰报纸来说,数据新闻仍是个未知数。
黑客马拉松模式非常完美。它是一个放松的合作环境,有很多比萨和能量饮料。RegioHack是个黑客马拉松比赛,由我们的雇主,一家地域性报纸De Stentor,以及我们姐妹刊物TC Tubantia和Saxion Hogescholen Enschede所组织。Saxion Hogescholen Enschede提供了项目场地。
Setup组织是这样的:每人都能获得一个30小时的黑客马拉松。我们提供食物和饮料。针对30位参与者,我们把他们分成6组。这些组可以聚焦于不同的主题,比如犯罪行为、
37
健康、运输、安全、老龄化和能源。对于我们,以下是三个主要的目标: 找到故事
对我们来说,数据新闻是崭新的和未知的。写出精雕细琢的故事是唯一能证明其用途的方法。我们计划创作至少三个数据故事。 连接人与人
我们记者不知道也不假装知道数据新闻是怎么做出来的。通过将记者们(学生及程序员)聚在一起长达30小时,我们希望他们去分享知识和见解。 举办一个社交活动
报纸不会组织太多社交活动,更不用说举办黑客马拉松了。我们想去体验一次活动能激发出多少成果。事实上,这种活动听来很考验人:跟陌生人呆在一起30个小时、用大量术语、基本问题去冲击你的大脑、在你的舒适区之外工作。还记得那些比萨和能量饮料吗?用这样一个活动,我们想去创造一个记者和程序员能感到舒适和能高效合作的环境。 这活动之前,TC Tubantia对一名警察的遗孀做了一个采访,她写了一本有关她丈夫工作岁月的书。她同时拥有一个她丈夫从1945年开始维护的文档,记录着所有荷兰东部注册在案的谋杀案。一般我们会在我们的网站上公布这个文档。而这次,我们用Tableau这个软件做了一个仪表盘。我们同时在RegioHack网站上发了博客来解释这些都是如何做出来的。
黑客马拉松期间,一个项目组提出了学校发展和地区老龄化的主题。通过对未来预测的可视化,我们知道了哪些城市将会在入学率连年下降时遇到问题。利用这个想法,我们写了一篇我们的地区学校将因此受到何种影响的文章。
我们同时开始了一个野心勃勃的项目,叫做De Tweehonderd van Twente(英语叫200个特温特。特温特,德国地名)去决定谁在我们这个地区最有影响力,并且建了一个最有影响力的人的数据库。通过一项谷歌的计算(Google-ish)——谁和哪些有影响力的组织联系最密切——形成一个有影响力的人的名单。这将引出一系列的文章,但它也是记者强有力的工具。谁跟谁有关联?你可以向这个数据库提问题,并应用于日常工作。并且,这个数据库还有文化价值。艺术家们已经询问过作者作品完成以后是否能用这个数据库,想拿去制作交互艺术装置。
在RegioHack之后,我们注意到记者们认为数据新闻是对传统新闻的一个可行的补充。我的同事继续在使用和建立当天学到的技术去创建更多雄心勃勃的技术项目,比如房屋管理成本的数据库。用这些数据,我通过Fusion Tables建了一个交互式地图。我们要求读者玩玩这个交互地图和众包结果,比如这个。在被问了太多次我们是如何在Fusion Tables中做
38
的这个地图之后,我录了一个视频教程。
我们学到了什么?我们学到了很多,但我们也遇到了很多困难。我们意识到了如下四点: 从哪儿开始:问题还是数据?
几乎所有的项目在搜索信息时都会止步不前。大多数时候,他们从一个新闻业上的问题开始。但是然后呢?什么数据是可用的?在哪儿能找到?并且,当你找到这些数据后,它们能回答你的问题吗?在为一篇文章做调查时,记者们在写文章的时候通常知道在哪儿能找到信息。而在数据新闻中,大多数记者不知道哪里能够获得数据什么信息是可用的。 少许技术知识
数据新闻完全是一门技术学科。有时你不得不妥协,有时你要做一些编程去可视化你的结果。对于杰出的数据新闻,你需要两方面:经验老道的记者在新闻业上的洞见,和数字全能型选手的技术知识。RegioHack在期间,能做到这些并不常见。 它是新闻吗?
参与者经常用一个数据集去发现新闻,而不是在不同的数据源中搜寻相互联系。原因是:你需要一些统计学知识去从数据新闻的角度来验证新闻。 有标准流程可循嘛?
以上这些可以归结为,没有标准流程。参与者本身有一些技能,但不知道何时、怎样用它们。一个记者用烤蛋糕来打比方。“我们有所有的原料:面粉、鸡蛋、牛奶等等。现在我们把它们全抛进一个袋子里,摇一摇然后希望能做出一个蛋糕来。”的确,我们有所有的原料,但不知道菜谱是什么。
现在呢?我们对数据新闻的初次体验能帮助其他记者或程序员立志于相同领域的工作,并且我们正在做一份报告。
同时,我们也在考虑如何以一个黑客马拉松的形式将RegioHack继续下去。我们发现它很有趣、有教育意义并富有成效,是一个对数据新闻的极好介绍。
但想要数据新闻运作起来,我们必须在新闻编辑部内进行很好的整合。除了引用、发布新闻稿、召开会议以外,记者们需要开始思考数据。通过做RegioHack,我们向受众证明了数据新闻不是炒作。我们能写出更好的消息与更多不同的文章,同时在实体及线上出版物中向读者呈现不同的文章。
— 杰里·维曼(Jerry Vermanen),NU.nl
39
第八节 追踪赃款:数据新闻与跨国境协作
对揭密有组织犯罪和腐败感兴趣的调查记者和市民来说,在过去的每一天里都在接触到前所未有的信息,这影响着全球数以亿计人民的福祉。在政府和其他组织的努力下,在网上可以找到海量的数据,且似乎对每个人而言,这些亟需的信息越来越触手可得。然而,与此同时,政府腐败官员和有组织犯罪团伙也在尽其可能的掩盖这些信息以隐埋他们的不法行为。他们在不遗余力的蒙蔽着人民的同时,进行着丑恶的交易,导致社会各个层面的崩塌,引发战乱、饥荒等等各类危机。
曝光这些罪行以遏制腐败和犯罪的机制恰恰是调查记者的职责。
Figure 12. 调查仪表盘(OCCRP)
如果跟随下列的三条指导,即便在最严峻的环境下也能调查出主要的腐败和犯罪行径,做出优秀且深入的新闻: 从你所在国家之外进行思考
在许多案例表明从海外获得数据要比从调查记者自己国家的获取要容易得多。通过国外的数据库或者使用其他国家获取信息的法律来搜集信息可能恰恰是解开调查谜团所需。除此之外,犯罪分子和腐败官员也不会把他们的钱放在他们所偷盗的地方。他们更会把这些钱存在海外银行或者投资到其他国家。犯罪是全球性的。能够辅助调查记者在全球范围内追踪赃款的数据库能在网上很多地方找到。例如,这个调查仪表盘就能够让记者追踪跨国境的赃款。 利用现有调查新闻协作网络
全世界的调查记者会形成一些组织,如有组织犯罪和腐败报道项目,调查性报道非洲论坛,调查性新闻阿拉伯记者组织,全球调查性新闻网络等。记者还能够利用一些专业新闻平台,如国际记者网,每天都会就全球性的新闻专业内容进行交流。很多面对相似问题、面临
40
相近情况的记者形成协作网络,他们在其中交流信息和方法十分有意义。协作网络内会有一些邮件列表或社交网络群组,这能让你很容易的接触到记者同伴,向他们询问相关信息或者意见。从这样的论坛和邮件列表搜集调查性新闻的主意也不失为一个不错的方法。 运用科技手段并与黑客进行合作
软件能帮助调查记者获得并且处理信息。不同类型的软件能协助调查记者完成不同的工作,如减少噪音、挖掘大量数据中的价值还能从中准确找到帮助你有所突破的那一份文档。有很多现成的软件都能用作分析、搜集、阐释数据的工具,并且,更重要的是,调查记者需要知道的是,还有很多只要你开口他们便会答应帮助你的计算机程序员。这些程序员或者黑客知道如何去获取和玩转这些数据。他们能为你调查能帮上大忙。这些编程人员,他们其中的一些是全球数据开源运动的成员,能成为打击犯罪与腐败的无价盟友。他们能够帮助记者搜集并分析数据信息。
Scraperwiki就是一个让公民与程序员能进行很好对接的例子。Scraperwiki是一个能让记者在此向程序员寻求帮助,帮助他们从网站提取数据的网站。在调查仪表盘中可以找到一个能帮助记者搜集、塑造、和分析数据的现成的工具列表。
上面提到三个实用的指导在很多例子中都能看到。卡萨迦伊斯马伊洛娃( Khadija Ismayilova)的作品就是一个很好的例子。她是一名来自阿塞拜疆很有经验的调查记者。她处在一个非常严峻的环境中很难拿到数据。伊斯马伊洛娃小姐为了向阿塞拜疆的公众提供优秀且可靠的信息,每天都必须克服种种障碍。2011年六月,卡萨迦伊斯马伊洛娃作为欧洲自由电台/自由者电台(RFE/RL)巴库分部调查记者,就阿塞拜疆总统阿利耶夫的女儿通过在巴拿马注册的离岸公司,对Azerfon电信公司迅速崛起的秘密运作进行了报道。这家公司用户据称有17万人,覆盖整个国家80%的地区,并且还是阿塞拜疆唯一的3G服务提供商。伊斯马伊洛娃花了三年时间尝试去找到谁是这家电信公司所有者,但是政府拒绝披露股东信息还就公司所属情况编造了无数谎言。他们甚至宣称这家公司属于德国西门子AG,但这一宣称被西门子断然否认。这个阿塞拜疆记者设法找出Azerfon是由几家巴拿马注册的私人公司控股。调查难有继续进展,直到她得到了外界的帮助。在2011年初,伊斯马伊洛娃通过网站“调查仪表盘(Investigative Dashboard )”找到了程序员兼活动家丹·奥希金斯(Dan O’Huiginn)开发的一款应用,可用于追踪这些巴拿马注册的公司的资金状况。然后当她最终揭开事实真相,总统的两个女儿通过巴拿马当地的生意圈控制电信公司。
事实上奥希金斯创造的这款工具能够帮助全世界的记者报道像巴拿马这样的腐败案件。巴拿马是个非常著名的离岸天堂,被世界各地的腐败官员广泛运用于藏匿赃款:从前埃及总
41
统的亲信胡斯尼穆巴拉克到巴尔干或者拉丁美洲的丑恶官员。像这种程序员活动家所做的就被称为网络搜刮:一种调查者可用来提取和重构信息的方法。奥希金斯对巴拿马注册公司进行了“网络搜刮”,虽然这些信息是公开的,但仅在知道所寻找的商业公司的名字才能够在数据库里查询。这就限制了记者通常对人名进行调查,追踪他们财产情况的可能性。程序员把数据提取出来并创建了一个新的网站能够通过人名来进行查询。这个新的网站让许多国家的调查记者都可以“钓取”信息,从中查询政府或者议会官员的姓名,看他们是否在巴拿马拥有秘密私有公司(就像阿塞拜疆总统的家人一样)。
除了能更好的获取信息之外,遵循上文强调的三个指导还有其他益处。其中一个最重要的就是尽可能减小处在危险环境中的调查记者受到伤害的可能,尽可能地提供更好的保护。在这个协作网络中的记者不是孤单一人奋战,这些调查记者与其他国家的同行协力合作,这样对犯罪分子来说就很难盯上导致他们不良行径被曝光的某一个人。这就让政府和腐败官员就很难达成报复。
同样要记住,一则信息可能对某一地理区域毫无价值,但对另外一个地方十分关键。通过调查协作网络进行信息交换能够激发出很多非常重要的新闻。例如,一名罗马尼亚人在哥伦比亚因为一千克可卡因被捕的信息在波哥大来说不是什么重磅新闻,但对罗马尼亚公众来说就非常重要,因为一名当地记者发现这个因毒品被捕的人在布加勒斯特为政府工作。
颇有成效的调查报道往往是调查记者、程序员还有其他任何想通过运用数据为创造一个干净、公平更加全球化的社会的做出贡献人联手协作的结果。
— 保罗·瑞杜(Paul Radu),有组织犯罪和腐败报导项目
第九节 我们的新闻以代码呈现
开放数据城市在2010年底成立。那时在德国还没有出现很多你们所谓的数据新闻。 我们为什么要做开放数据城市呢?我们多次听到报纸和广播的工作人员说:“不,我们编辑室内部还没有做好开设一个精致的数据新闻板块做好准备。但我们非常愿意把这些外包给其他人。”
我们所知,我们是德国唯一一家专注于数据新闻的公司。我们团队目前有三个人:其中的两个是新闻学背景,另外一个对编程和可视化非常专精。我们还与一些得力的自由职业黑客、设计师和记者进行协作。
在最近的十二个月里我们在为媒体进行四个数据新闻项目,并且我们还提供对媒体工作者、科学家以及新闻院校的培训和咨询服务。我们做的第一个app是与TAZ一同完成的一个
42
查看柏林新建机场噪音的交互工具。我们下一个知名项目是和ZEIT在线共同完成的一项应用,关于德国一位政治家的手机使用数据记录。因此我们在德国赢得了格林在线新闻奖和里德奖。还有一个由在线新闻协会在美国颁发的在线新闻奖。在这个项目编程过程中,我们还有其他几个项目也在进行当中——从简单的交互信息图表到设计开发一种数据新闻中间组件。
当然,赢得奖项能帮助我们建立声誉。但是当我们与那些负责这些项目的出版人交谈的时候,我们对投身数据新闻主要谈论的话题不是去拿奖项,而是如何能够可持续性地获得长久的关注。建立他们长久的影响力,而不仅仅是一则通常几天后就被人遗忘的独家新闻。 这有三个我们通常用来鼓励出版人进行长期项目的关键点: 数据项目不会过时
这些数据项目的设计都能够让新的数据不断填充进过去制作好的数据新闻应用当中。并且这些应用也不仅仅是针对用户的,还可以用于内部的报道与分析。如果你担心你的竞争者也会因此而受益的话,你可以保留一些功能或数据仅供内部使用。 可以利用过往项目
当正在进行一个数据项目的时候,通常你所开发的这些代码都是可以重复利用或者进行升级的。这样一来下一个项目可能只用一半的时间就够了,因为你已经非常了解该做什么(和不该做什么),并且你可以利用原来的一些代码。 数据新闻省钱
数据驱动的项目比传统的营销战要便宜。在线新闻的产出往往还会转化投入到搜索引擎优化(SEO)或者搜索引擎营销(SEM)中。一个运作的数据项目正常情况下都会产生大量的点击与讨论,还可能会病毒式的传播。出版者们通常可以因此减少开支,还能够获得与SEM同样效果的点击与链接,吸引同样等级的注意力。
我们所做的工作对于其他新媒体机构来说也不是很困难:也都能提供针对新闻报道的应用开发或者相关服务。所不同的是,我们首先并首要地认为自己是新闻工作者。我们相信这些产品是在传递文章或故事,尽管不是用文字和图片、声音或视频而是用代码来制作。当我们谈论数据新闻的时候我们必须去讲关于科技、软件和设备以及如何用他们去讲一个故事。
举一个例子:我们刚刚完成了一个应用,实时地通过爬虫从德国铁路网站抓取数据。这样就能够让我们为南德意志报开发一个火车监测交互应用,实时展示长途火车延误情况。这款应用的数据每分钟左右更新一次,我们同时还提供了API接口。我们几个月以前就开始做这些工作,到目前为止已经收集了一个庞大的,每小时都在不断增长的数据库。到现在已经
43
积累了几十万行数据。这个项目能够让用户去探索实时的数据,还能根据前几个月的数据进行研究。最后我们所讲述的这个故事会与这些用户的个人行为密切相关。
在传统新闻当中,由于文字或者广播媒体线性的特征,我们必须去思索如何开头、结尾、起承转合以及文章的长度和角度。数据新闻则完全不同。当然,同样会有开头。人们来到网站会有对界面的第一印象。但接下来就是他们自己的事情。可能他们会停留一分钟——或者半个小时。
我们数据新闻记者的工作是为此提供一个框架或者一个环境。无论是编程还是数据管理软件,我们都必须考虑设计良好体验的巧妙方法。用户体验(User Experience, UX)大部分从(图形化)用户界面(GUI)而来。到最后,这就是决定这个项目成败与否的关键部分。你可能有最好的后台程序在操控一个让人振奋的数据库。但是如果你的前端很烂,没人会关注这个产品。
仍有很多需要去学习和实验的东西。但是很幸运的是游戏行业依旧存在,几十年以来在数字化叙事、数字生态系统和界面上不断创新。那么当开发数据新闻应用的时候我们应该密切关注游戏设计是如何进行的,且游戏中是如何讲述故事的。为什么像俄罗斯方块这样很普通的游戏有非常有趣?是什么让像侠盗猎车手或者上古卷轴天际这样的开放世界沙盘游戏如此的引人入迷?
— 洛伦兹·马察特(Lorenz Matzat), 开放数据城市OpenDataCity
第十节 Kaas & Mulvad:组织机构的半成品内容提供商
作为业内新兴的板块,利益相关者媒体(Stakeholder media)拥有以自有网络或公共媒体发布信息引发巨大影响的潜力,却处于被大多数理论学者忽视的状态。利益相关者媒体可被定义为:由组织化或机构代表的利益相关者操控的、用于促进特定利益或是特殊群体的(通常是网络)媒体。NGO是最早使用这类媒体的典型组织,此外还包括消费者社团、专业组织、工会联盟等。制约这类媒体影响公众或其他利益干系者的关键因素在于缺乏发现重要信息的能力,甚至还不如一些正在走下坡路的新闻媒体。Kaas og Mulvad,一家来自丹麦的营利性企业,正是世界上首批为利益相关者媒体提供专业服务的研究型媒体机构。
这家公司成立于2007年,起初是非营利性的丹麦计算机辅助报道协会(Danish Institute for Computer-Assisted Reporting ,简称Dicar)旗下的子公司,主营业务包括向媒体售卖调研报告以及为新闻工作者提供数据分析方向的培训。该公司的两位创始人,Tommy Kaas和Nils Mulvad,均有新闻行业的从业经验。他们声称公司产品是“融入记者视
44
角的数据”(实际多是些处于半完成状态的内容,需要进一步的编辑和改写)。利益相关者媒体则将这些内容完善后置入新闻稿件,并通过公共的和自有的发布平台(如网站)向外传播。公司的直接客户包括政府机构、公关公司、工会联盟和NGO,例如欧盟透明度(EU Transparency)和世界野生动物基金会(World Wildlife Fund)等。他们为NGO提供的服务包括定时监看相关网站的更新信息,“抓取”有关农渔业津贴、欧盟政客动态等方面的有用数据。公司的间接客户包括为NGO项目提供资金支持的基金会等。新闻机构也是公司的客户来源之一,例如就有通俗小报购买其名人动态监控服务。 在该公司的诸多业务中,涉及数据新闻的项目包括: 为3F提供的失业状况地图
这是一个为丹麦非技术型劳动者联盟3F提供的关于丹麦失业关键指标的数据可视化项目。
为3F提供的生存状况地图
这是另一个为3F提供的项目,通过24个指标展现国内不同地区的生存状况差异。 为“Ugebrevet A4”提供的债务指数
这是一个计算“债务指数”的项目,用于呈现私有经济中存在的差异。 丹麦濒危设施地图
这是一个用于标识并分析幼儿园等日托服务机构与濒危公共设施之间邻近程度的项目。该项目的购买方是丹麦幼儿与青少年教育者联盟(Danish Union of Early Childhood and Youth Educators,BUPL)出版的《Børn&Unge》杂志。 为Vestas提供的企业社会责任数据
这是一个为丹麦风力涡轮企业Vestas提供的数据可视化项目,以季度为周期,自动监测并集成处理五个特定领域、全球范围内400余个网页的企业社会责任数据。 为益百利提供的姓名地图
输入你的姓氏,就可以查看自己的姓氏在国内不同区域的分布情况。 为Ekstra Bladet提供的“微笑地图”
每天Kaas & Mulvad为丹麦通俗小报Ekstra Bladet提取各种有害食品监测信息,并且在地图上标识最新的数据。(地图见于网页下半部分)
Kass & Mulvad并不是最早与利益相关者媒体有合作关系的新闻工作者。举例而言,绿色和平组织(Greenpeace)会定期邀请新闻工作者作为合作伙伴,参与其活动报道。但据我们所知,新闻工作者通常是以记者、编辑或作家的身份与NGO合作,Kass & Mulvad是唯一
45
一家以数据为基础的服务提供商。与此同时,随着计算机辅助功能日渐完善,新闻媒体的焦点已经转移到信息的探寻和发掘上(想想Wikileaks吧),于是Kaas & Mulvad以数据分析为核心的创新能力再一次脱颖而出。其生产过程不仅要求一流的编程技术,还要求识别何种信息可以赋予故事足够影响力的敏锐知觉。我们可以放心地说,任何人想要复制Kaas & Mulvad的服务模式,大多要通过企业并购的方式,才能同时拥有上述两种能力,因为能够两者兼备的单个机构实在少之又少。 流程:创新科技+数据分析
这家公司每年承接大约100个项目,耗时从数小时到数个月不等。此外,它还不断投入一些有助于拓展自身能力和扩充产品序列的实验项目。上文提到的名人动向监控服务就是其中之一。另一个实验项目是关于房屋止赎信息的抓取和视觉化。公司的合伙人表示,他们选择项目的首要标准在于是否能从中发现乐趣并获得启发;而市场开发的工作则是在某项服务定义完成后才着手进行的。他们明确指出,在现有的新闻行业中,已经难以诞生新方法和新业务。 Mulvad评论说:
我们并不是由所谓的主编或者老板来决定该做哪些项目,该买哪些软件或硬件。我们可以根据项目需求购买任何工具——例如用于文本抓取和挖掘的最佳解决方案。我们的目标是在所涉足的领域做到最好。我们试图找到愿意为项目付钱的客户,要是项目足够有趣我们也会考虑给点优惠。
价值创造:个人与公司的品牌以及收入
2009年的营业额接近250万丹麦克朗,约合336,000欧元。而个人和公司的品牌价值可谓相得益彰:一方面,公司优异的运营表现让两位合伙人跻身顶尖新闻工作者之列,培训和演讲的邀约源源不断;另一方面,合伙人在公开场合的频频露面,也进一步提升了公司品牌的知名度。 本例中的关键启示
新闻行业水平不断下降的危机,实质也是从业者才华未能充分施展的危机。Kaas & Mulvad恰是在离开新闻行业之后才找到发挥自身能力的舞台,并且取得成功。毋庸置疑的是,新闻机构才最应该拥有这种能力。
至少在某些领域,为利益相关者群体的需求供应“半成品”内容,是有利可图的。 然而,伴随机遇而来的,还有新闻工作者对于这些由自己创造、却由第三方机构呈现和使用的内容拥有多少控制权的议题。我们对于这个议题并不陌生:在新闻行业内部早已存在
46
(编辑可以对记者的作品强加修改),其他的媒体领域也普遍存在(如电影行业中,导演和制作室对“最后一刀”的争夺并不罕见)。这并不是利益相关者媒体中特有的道德危机,但它确实存在。因此,我们不能对这个还处于成长期的现实和市场掉以轻心。
从收入的角度来看,单一的产品或服务是不够的。也许成功的新闻集团会做得更好,通过不断整合产品组合,融入咨询、培训、演讲等多种服务,从而创造额外的盈利点,以此支撑自身新闻品牌发展。
— 节选自Mark Lee Hunter和Luk N. Van Wassenhove合著:“破坏性的新闻技术:利益干系媒体和新闻看门人商业模式的未来”, INSEAD Working Paper, 2010
第十一节 数据新闻的商业模式
在所有关于数据新闻的兴趣和希望之中,有一个问题最为新闻编辑部关注:它的商业模式是什么?
我们不能轻率地预言,也许可以从媒体行业的近况和现状中发现线索。事实是,已有很多新闻机构从这新生事物中获益。
诸如“数据新闻”、包括当下最热门的“数据科学”等术语,乍听起来新鲜,实际不然。相反地,这些新标签不过是对一股数十年前就已出现、并且正愈演愈烈的潮流的描述而已。
许多新闻从业者似乎还没完全意识到,数据采集、分析及可视化所能达到的利润规模。这是一门有关提纯信息的生意。有了数据工具和技术,人们越来越有能力把握和理解那些极其繁复的议题:国际金融、债券、人口、教育等等。所谓“商业智能”,正是这样一堆科技概念的统称,它们试图清晰地说明发生在公司里的事。那些属于我们时代的大规模、高利润公司,例如麦当劳、Zara、H&M之类,无不依赖数据跟踪来赚钱,而且赚得不少。
眼下,这些工具和技术的应用范围逐渐扩大,开始从商业延伸到其他领域,例如传媒业。某些新闻从业者敏锐地发现并抓住这一机遇。以Tableau公司为例,他们为客户提供成套的可视化工具。又如“大数据”运动,众多科技公司利用(通常是开源的)软件包从大量数据中探寻、挖掘,眨眼的功夫就能提取有效信息,得出深度见解。
的确,这些技术如今可被应用于新闻业。《卫报》和《纽约时报》的团队正孜孜不倦地进行尝试和突破,希望不断扩展该领域的疆界。我们现在所看到的,无疑只是冰山一角。
然而,数据新闻到底怎么赚钱?在这个向我们敞开的全球性的大市场里,目前只有一件事情:把数据从人们的身边转入脑中。也就是说,让数据可见、可知。我们希望和每天都出
47
现在新闻中的天文数字发生联系——究竟那几百万、几十亿对我们这些平民而言,意味着什么。
早有部分数据导向型的媒体企业将上述原则应用于实际,并获得丰厚的回报。它们拥有良好的增长势头,有时还能创出眼前一亮的利润收入。布隆伯格就是代表之一。该公司共有30万台终端设备,向它的客户提供金融数据。这在金融行业中,无疑是一个极有力的竞争工具。每台终端设备都配有彩色按键的键盘,提供多达3万种功能选项,客户可以用其查询、比较、分析并作出决策。根据《纽约时报》2008年的一份评估报告,该项核心业务每年至少能为公司带来约63亿美元的收入。正因如此,布隆伯格持续不断进行扩张,包括大范围招聘新闻记者,收购业内颇负盛名但处于亏损状态的“商业周刊”等。
另一个代表性的例子是来自加拿大的汤森路透媒体集团。该集团最早是当地的一家报纸,以购买英国知名的新闻标题为业。20多年前,他们决定撤出报业,转投信息服务业,旨在为客户提供关于若干行业的关键信息和深度分析。假如你对如何利用专业化信息赚钱稍有疑虑的话,建议阅读一下维基百科上关于这家集团的历史。
再把目光转向《经济学人》。这本杂志无疑已在媒体领域树立起卓越的、有影响力的品牌。与此同时,杂志中的“经济学人智库”单元表现得更像是一个咨询部门,提供几乎所有国家的相关发展趋势预测。他们旗下拥有数百位专业记者,声称为全球范围内150万客户服务。
除此以外,我们还可以从许多微型的数据导向型业务中汲取灵感。例如来自美国的eMarketer,为任何感兴趣于互联网营销的人提供业务对比、数据图表和实施建议。又如来自德国的Stiftung Warentest,是一家专注于调查产品和服务水平的机构。还有同样来自德国的Statista,对公众信息的可视化工作提供入门式辅助。
目前,在该领域,全球各地涌现出一波创业潮,当然涵盖各领域——例如,旨在“彻底改造商业研究”的Timetric及OpenCorporates、Kasabi、Infochimps和数据市场(Data Market)。可以说,这当中许多公司的业务还只是实验性的,但是,放到一起,他们可被看成是变革的重要标志。
说回大众传媒,就数据为导向的新闻业而言,就像沉睡的巨人。在德国,每年有72亿欧元流入该领域。新闻业是个与众不同的产品:若经营得好,不仅仅有利可图,而且在社会起举足轻重的作用。一旦认清了数据新闻业可更轻而易举地提供更好、更可靠的见解这个事实,那么将在新闻编辑部创造更多的工作岗位。
48
对于数据新闻业,并不仅仅在于先发制人,而在于提供可信的信息来源。在这个选择众多的世界,要吸引受众的方式不胜列举,但_信任_是日益稀缺的资源。数据新闻记者可协助收集、合成并呈现各种各样且常很难获取的信息,帮助受众真正深刻理解复杂问题。相比单纯地循环使用新闻稿,并将其他地方听到的新闻事件再重述一遍,数据新闻记者能用交互式图表和直接接触第一手来源给读者一个清晰明了、可理解且最好是量身定制的观点。他们的工作并非微不足道的,而确实是弥足珍贵。
因此,让有抱负的数据新闻记者探索此领域并说服管理层支持这一创新项目的最佳办法是什么?
首先,应寻找与正中要害最接近的机会:唾手可得的目标。例如,你有可能已经收集了大有用处的结构化文本和数据。最好的例证便是《洛杉矶时报》的“杀人犯数据库”。此时,数据化和可视化是核心内容,而非补充材料。编辑汇总所有记录的罪行,其后才能写出以此为基础的文章。假以时日,此类资料的收集变得更好、更有深度且更有价值。
这些并非一蹴而成。而是需要假以时日的。对此,一个蛮有希望的指示器便是《德克萨斯论坛报》(Texas Tribune)和ProPublica, 可以认为这是两家后印刷媒体时代的公司,据说他们作为非营利的新闻组织所筹集的资金比原计划早早达标。
要成为一切数据方面的行家,不管你是作为多面手或关注于数据食物链的专家,为那些相信新闻业的人提供有价值的观点。一位知名的德国出版商最近在采访中说“有一个自称为数据新闻记者的新兴群体,而他们所追求的不再是小打小闹的东西。”
— 米尔科·洛伦兹(Mirko Lorenz),德国之声
49
第三章 案例分析
一、机遇鸿沟
二、对欧盟结构基金为期九个月的调查 三、欧元区的垮台
四、通过OpenSpending.org报道公共开销 五、芬兰议会选举与竞选经费
六、实时竞选黑客 (黑客/骇客Hacks/Hackers 布宜诺斯·艾利斯分会)
七、新闻中的数据玄机:维基解密 八、Mapa76 黑客马拉松
九、《卫报》的数据博客对英国暴动的报道 十、伊利诺伊州学校报告卡片 十一、医护费用 十二、养老院危机 十三、无所不知的电话
十四、哪种车型最有保障?MOT测试失败率报道 十五、阿根廷的公车补贴 十六、公民数字记者 十七、选举结果大看板 十八、众包水价 十九、HomeNext: 获取数
50
这一部分我们会更加深入,从一天内开发出APP应用到为时九个月的调查,看看几个数据新闻项目的幕后工作是如何进行的。我们将会学习到如何运用数据来源从而增强与提高针对所有领域从竞选花销,腐败暴乱,学校表现到水价的报道。同时,我们除了会看到大型媒介组织如BBC,芝加哥论坛报,卫报,金融时报,芬兰赫尔辛基新闻报,哥斯达黎加民族报,华尔街日报和Zeit在线中的数据新闻案例以外,还会看到小型创新机构如加州观察,黑客/骇客(Hacks/Hackers)布宜诺斯艾利斯,Propublica,以及被称作记者的朋友的一组巴西本土公民记者是如何进行数据新闻的。
一、机遇鸿沟
机遇鸿沟使用了之前从未:公布的美国教育部民权数据,这些数据表明,美国一些州像弗罗里达州,学生享有公平的受教育权,该州提供给学生均等的机会,让他们都能够学习到高级课程,不论他们来自贫困还是富裕的家庭;而在其他一些州,像堪萨斯州、马里兰州、俄克拉何马州,贫困家庭的孩子得到的机会相对就较少。
该数据包括了一个地区内所有规模大于3000名学生的公立学校。超过四分之三的公立学校的学生都包括在内。我们新闻编辑部的一位记者得到了这些数据, “计算机辅助报道”部门的主任对它进行了全面整理。
该项目为期约三个月,总共有六人参与了该事件的报道和新闻应用的开发工作:两位编辑、一位记者、一位计算机检索人员和两位开发人员。我们中的大多数人在那段时间里,并不是完全投入到这件事中。
这个项目确实需要将各自不同的技能——精深的专业知识、对数据实现最优化的理解、设计与编程能力等融汇起来。更重要的是,它要求我们具备一种在数据中发现新闻的能力。同时我们还需要具备编辑能力,这不仅是新闻的需要,也是因为新闻应用本身。
除了概述性的新闻报道,我们还涵盖了交互式的新闻应用,它能让读者理解并从这个庞大的全国数据库中找到与他们相关的实例。通过我们的新闻应用,读者可以找到他们当地的学校——举个例子, 新泽西纽瓦克中央高中--很快他们就能看到该校在不同地区的表现。接下来,他可以点击一个“赤贫学校与贫困学校比较”的按钮,马上,他就能看到其它一些相对比较贫困的高中并且了解到他们所提供高等数学、高级人员配置和其它重要课程的范围。在我们的例子中,中央高中是由Millburn Sr. High支持。机遇鸿沟告诉我们,为何1%的Millburn学生获得免费或减价午餐,而72%的学生都上了至少一门高级人员配置(AP)课程。另一方面,国际高中有85%学生获得免费或减价午餐,而只有1%学生上了高级人员配
51
置(AP)课程。
通过这个例子我们了解到,读者可以用他们已知的东西——当地学校,来了解他们尚不明白的事——教育资源的配置,以及贫困在多大程度上决定教育资源的配置。
我们还将此应用集成到Facebook上,只要读者登陆Facebook,我们的应用就会自动帮助他们了解可能感兴趣的学校。
我们所有新闻应用的访问流量都表现非常不错,尤其让我们自豪的是,这种应用能够用来讲述一个复杂的新闻故事——更确切地说,它帮助读者向他们讲述自己的故事。
和许多以官方数据为基础的项目一样,这些数据需要大量的整理工作。比如说,有些学校可能只有大概30个《高级人员配置》课程,而他们却报告说自己有上百个。这就需要大量人工复查,打电话对这些学校进行确认并改正。
我们必须认真工作以保证该应用能讲述一个“整体”又“详尽”的故事。也就是说,该应用要向读者呈现一个宽泛的、梗概性的全国图景——尤其需要有一种方式对各州在教育资源分配上的表现进行比较。然而概括性的文字有时会让读者困惑,不知道这些数据对他们来说意味着什么,我们希望读者能够找到他们自己的本地学校,并能与该地区不同贫困程度的学校进行对比。
如果让我给那些有兴趣参与此类项目的数据新闻工作者一些建议,我想说的是,你要理解这些材料,并且要细致入微。那些适用于其它新闻的规则在这里同样适用。你要把握新闻的真实性,保证自己能很好地讲故事。至关重要的一点是,你要确保的新闻应用没有与你所写新闻不一致——否则,二者必有一失。
如果你想学习编程,迈出第一步至关重要,你可能喜欢通过参加一些课程来学习,也可能是书或录像——这些都是很方便也是很不错的方式——但是要确保你对项目有个不错的想法,并能在最后期限之内完成它。如果你脑中有个故事非用到新闻应用不可,那么不会编程也并不是什么障碍。
— 斯科特•克伦(Scott Klein), ProPublica
二、对欧盟结构基金为期九个月的调查
2010年,金融时报与调查新闻局(Bureau of Investigative Journalism (BIJ))联手调查欧盟结构基金(European Structural Funds),旨在查明谁是欧盟结构基金的受惠者以及这笔钱是否得到有效利用。欧盟结构基金是欧元区内第二大经济补助项目,过去的七年里,其补助金额已达三千四百七十亿欧元。该计划至今已存在逾数十年,但除去其浮光掠影
52
式的概述总结,对于谁是其受惠者,它们则一直表现得讳莫如深。在最近一轮的融资回合中,作为该基金规则改变的一部分,官方有义务向公众出具该基金受惠者的名单,这其中应包括对计划的说明以及欧盟和各政府拨款的资金数额。
该项目组由多达十二名记者和一名全职的程序员组成,他们一起工作了九个月。仅数据搜集这一项工作就耗时数月。
金融时报及新闻调查局连续五天对此次调查进行了报道,英国广播公司(BBC)为此制作了一期纪实性广播节目,以及多集电视纪录片。
在从事这种规模的项目之前,你得首先确定自己调查发现的原创性,这样你才能最终完成独一无二的优秀新闻报道。 该项目可清楚地分为以下几步: 1. 确定数据由何人保存以及如何保存
欧盟委员会(The European Commission)区域总署设有一个门户网站。它将欧盟各地区官方所设的网站汇集起来,各有关当局通过它们的网站发布数据。我们相信,欧盟委员会设有一个关于项目数据的中心数据库,我们可以直接进入该数据库,或是通过《信息自由法》的要求获取数据。但没有一个数据库能够满足我们对于数据详实程度的要求。我们很快意识到,欧盟委员会提供的很多链接都是错误的,并且绝大多数官方所发布的数据都是PDF格式,而不是其它便于进行数据分析的格式,比方说CSV或是XML格式。
团队由多达12名成员组成,其工作是识别最新的数据并将这些链接整理到一份可供我们协同使用的大型电子表格中。由于各数据字段格式并不统一(举例来说,标题可以用不同的语言来写,某些数据集使用不同的货币单位,另外一些数据集则包涵了欧盟和国家基金的衰退),因此在翻译和描述每个数据集中可供利用的数据字段时,我们要尽量做到准确无误。 2. 下载并准备数据
下一步包括下载所有的电子表格、PDF文件,在某些情况下,还需从网络抓取原始数据 之后,每一个数据集都必须标准化。我们最艰巨的任务就是从PDF文件中提取数据,其中一些PDF文件长达数百页。通过使用UnPDF和泰比PDF编辑器(ABBYY FineReader)这样的PDF提取软件,我们完成了大部分的数据集标准化任务,这些软件能将数据从PDF文件中提取,并转换成CSV、Excel等格式。
我们还需要检查并仔细核对,保证PDF提取工具所捕捉数据的准确性。检查以及复核可通过对数据进行过滤、分类以及总计来完成(保证所得数据与PDF文件上的内容完全一致)。
53
3. 创建数据库
团队中的编码员建立一个SQL(Structured Query Language, 结构化查询语言)数据库。之前所准备的每个文件都被用作建造整个SQL数据库的组成部分。每天都必须做的一件事就是将所有个体的数据文件上传到大型的SQL数据库中,使用数据库的查询功能,人们可以通过数据库前端飞速地进行查询。 4. 复核与分析
团队主要通过以下两种方法分析数据: 通过数据库前端
该方法需要我们在搜索引擎栏中键入自己感兴趣的关键词,比方说:烟草、酒店、A公司。我们在数据库的搜索功能中加入了谷歌翻译,有了它的帮助,所有这些关键词都将被翻译成21种语言,并得出最佳的搜索结果。这些搜索结果能够下载下来,记者们可以以此对他们所感兴趣的个体项目进行更加深入的调查。 通过对整个数据库的宏观分析
有时,我们可能要下载一个完整的数据集,该数据集可通过使用关键词,或是通过国家、区域、支出种类、受益人的项目数量等总计数据来进行分析。
通过这两种分析方法以及通过实地调研、案头调研得到的信息组成了我们的新闻线。 对数据完整性的复核(通过合计并检查当局所提及的内容是否已经分配完毕)需要花费大量的时间。其中一个主要的问题是,在大多数情况下,当局只会发布“欧盟和国家基金”的数额。在欧盟的条款之下,每一个项目只允许使用欧盟基金募集在总花费总占有一定的比例的资金。欧盟基金的等级在项目层面上由我们通常所说的共同筹资率来决定。每个项目(比如区域竞争力)由众多子项目组成。在子项目层面上,技术上讲,一个子项目可以100%得到欧盟资金的资助,但另一个子项目可能拿不到一分钱,但只要这两个子项目集合在一起,欧盟基金的筹资数额在项目层面上不会大于批准的共同筹资率。
这意味着,我们需要核查在新闻报道中提及每一笔受益公司有争议的资金数额。 — 辛西娅·奥莫舒(Cynthia O”Murchu),金融时报
三、欧元区的垮台
是的,我们正在报道欧元区的垮台 ,报道它的每个细节:政府破产损失了无数救命钱;世界领导人的反应,财政紧缩措施和反对紧缩的抗议游行。每天,我们在《华尔街日报》上看到关于失业、GDP下降、利率全球市场行情暴跌的各色表格。报道在增加,麻木着我们的
54
神经。
《华尔街日报》的头版编辑们召开会议讨论年终报道,在散会的时候我发现自己头脑里仍在好奇:生活在这样的情况下到底是什么感觉?
这难道是回到了2008年?这一年,我被解雇,各种坏消息接踵而至?我们每天晚餐时讨论的都是工作、金钱,完全忽略了我女儿的悲伤情绪。周末是最糟糕的时候。我试图逃避,恐惧就好像从脖子后面将我钳住,过度焦虑又让我感觉呼吸不过来。现在,希腊的某个家庭也在遭遇这一切吗?西班牙的家庭里又会是什么情况呢?
我转过身,跟着头版编辑Mike Allen进入他的办公室,向他展示了自己的想法:先搜集分析数据,找到人口统计特征去理解典型家庭的构成,然后再配上图片、采访和视频充实内容,通过全方面展现欧元区的家庭来讲述欧债危机的故事。我们要使用打动人心的肖像摄影,声音——以及数据。
回到我的办公桌,我写下了摘要并画了一个logo。
Figure 3. 欧元区的垮台:摘要(华尔街日报)
接下来的三个礼拜我都与数字打交道:婚姻指标、死亡率、家庭规模和健康开支。我研读家庭开销和离婚率,调查关于家庭生活指标和储蓄率的研究报告。我遍览了国家统计部门的资料,例如联合国人口资料局,国际货币组织,欧盟统计局和经济合作发展组织,直到我发现了一位经济学家,他一直都在研究观察家庭。他又给我介绍了一位从事家庭组成研究的学者,她替我找到关于这个话题的论文。
55
我和我的编辑Sam Enriquez一起缩小了调查国家的范围。我们召集了一个团队讨论视觉传达方式,以及哪些记者可以分头负责文案、视频和报道。头版图片编辑Matt Craig开始寻找他的摄影师。负责世界报道的副主编Matt Murray提交了一个备忘录给机构领导以寻求记者们的帮助。(这很重要:上头的同意。)
但首先要处理好数据。在早晨我会把数据导入到电子表格中,然后做出图表标出趋势:储蓄大幅缩水、养老金消失、母亲重返工作岗位、健康方面的支出随着政府债务与失业率飙升。下午我一般用来观察一组一组的数据,比较不同的国家找出新闻。
做了一个礼拜后,我完全迷失在数据的海洋中,并且开始怀疑自己所作的事情。也许这个办法行不通。也许这无关乎国家,而是关于父亲母亲、祖祖孙孙。数据不断在增加。
数据同时也在缩小。有时候我花了数小时收集数据,结果发现它们没有一点用。我挖掘了一大堆错误的数字。有时候它仅仅是因为它们太过时了。
Figure 4. 判断数据集是否有用是一个耗时极长的任务 (Sarah Slobin) 然后数据又在不断积累,因为我明白我仍有很多问题,我也没有理解这些家庭。 我需要去看数据,画出图表。因此,我迅速地制作了几个图表,并着手排列、编辑这些图表。
随着图表不断被制作及完善,这些家庭的全景图像也逐渐浮现。
56
Figure 5. 图表视觉化:理解数据库埋藏的趋势与模式 (Sarah Slobin)
Figure 6. 数字代表着人:数据的意义在于他们所代表的每个人的故事 (Wall Street Journal)
我们开动起来了。我打电话给每一个记者,给他们寄了这些表格和报道计划,也为他们铺好了路,让他们去探索有趣的故事,能让我们的读者更近距离感受欧债危机。我们需要一
57
个来自阿姆斯特丹小型家庭,以及来自西班牙和意大利的规模较大的家庭。我们想听到不同世代的声音,看看不同经历的人会有怎样不同的回应。
从这以后我得留意时差,早起去检查电子邮件。记者们带回了一些颇为有趣的主题,故事概述甚至是一些意想不到的惊喜。
我们知道我们想要不同世代人的肖像摄影。Matt的设想是让他的摄影师跟随拍摄每一个家庭成员的一天的生活。他挑选了很多视觉新闻记者,他们报道过世界新闻,甚至活动在战地前沿。Matt希望在利用晚饭时间完成对每个人的拍摄。Sam提议拍摄他们的菜单。
问题出现了,我们在等待,读者在观看这些完这些照片后要告诉我们什么故事呢?。等待这些家庭成员都说了什么。我们设计了交互性的页面。我借鉴了《丁丁历险记》的配色,并将其使用到整个交互过程中。所有东西整合在一起后我们有了情节串联版,我们又添加了一些原始表格,但数量不多,刚刚足够来突出每个故事,强化主题。数据变为故事的一个暂停,一种换挡的方式。
Figure 7. 欧元区的生活(华尔街日报)
最终,数据总是代表着人,它们既是图片又是故事。它们形成舆论叙述,更加剧了不同国家间的紧张态势。
岁末之际,恰恰到了我们发布报道的时候,我们每个人都在思考接下来会发生什么,我知道他们每一个家庭成员的姓名。我仍在想象他们现在过得如何这看起来不太像一个数据工程,但我却觉得尚且不错。因为这些被记录下来的欧元区内家庭生活,这些大家在晚饭餐桌上与家人慢慢分享的工作和生活,就是我们能与读者分享的。理解数据的意义才能让这一切变为可能。
— 莎拉·史洛宾 (Sarah Slobin),华尔街日报
58
四、通过OpenSpending.org报道公共开销
2007年,乔纳森(Jonathan Gary)拿着一纸提案来到“开放知识基金会”,为的是一个叫做我的钱都去哪了? 的项目,这个项目旨在帮助英国人民了解公共基金的去向。而这只是一个更大项目的初步概念,它是基于奥托和玛丽•尼拉斯图教协会在十九世纪四十年代的一些早期成就,以期进一步让公共信息透明化,
“我的钱都去哪了?”项目让用户得以用更直观的开源工具来了解不同来源的公共数据。我们有幸开发出这个项目的样品,并在不久以后获得来自4号频道的4个IP,将它变成一个成熟的网络应用。信息设计大师大卫•麦克坎德里斯(David McCandless)(来自信息之美)创造了几种不同的数据视图来让人们认识这些大型数据——包括“国家和地区分析”,它告诉我们资金在国家的不同地区是如何分配的,以及“每日消耗”,告诉人们他们每天的税金是如何一分一分被消耗掉的。
在那个时候,该项目的最终目标可以简单说是“综合网络信息系统”数据,它是英国政府最为全面和详尽的数据库。和丽莎•伊万斯(在她加入《卫报》数据博客团队之前)一起工作,还有朱利安•陶德和弗郎西斯•奥福林(现在是Scraperwiki的知名人士),马丁•罗森博(BBC)以及其他人,我们将大量数据请求归档,其中很多都是不成功的请求。(这些特别被Lisa记录在 使用FOI去理解花销页面的边栏中)
2010年年中这些数据最终得以公布,它被视作“透明化”提倡者的一次意外之举。我们获得更高的权限来将这些数据载入我们的网络应用,当这些事实被公之于众之时,我们备受关注。公布当天,几十位新闻工作者在我们的讨论区讨论这次数据公布,他们还咨询如何来使用(这些文件有几十GB)。当一些专家还在声称这种大面积数据公布太过复杂而不可能完全有效透明化,很多勇敢的新闻工作者已经下定决心要以前所未有的方式向人们展示公共基金是如何被花掉的。《卫报》以实时博客的方式对这次数据公布进行了报道,很多其它媒体也谈到了此事,并对数据中的发现做了分析。
不久我们就收到了在世界其它国家开展类似项目的申请。在建立OffenerHaushalt后不久—这个项目的另一个版本,是关于德国国家预算的,由弗雷德克•林顿伯格(Friedrich Lindenberg)——我们又建立了OpenSpending,这个项目的国际版本,旨在帮助用户了解世界各地公共基金的去向,有点像OpenStreetMap帮助人们了解地理特征。在颇有天赋的格雷格•艾斯克的帮助下,我们应用了新的设计,其中部分是基于大卫•麦克坎德里斯的原创设计。
Figure 10. OffenerHaushalt, 德国版本的我的钱去哪儿了? (开放知识基金会) 在OpenSpending项目中,我们和一些新闻工作者做了大量工作来获取、反映/描述、解
59
析和向人们呈现公共基金的使用数据。首要的一点,OpenSpending是一个庞大的、可搜索的公共基金使用数据库——既包括了高层次预算信息,也包括低层次交易。最后是要建立一 系列易理解的形象,例如树形图。人人都可载入地方议会数据并生成可视化图像。
起初我们还以为,对于我们更为高级的可视化图表会有更大的需求,但和新闻机构交流后我们才意识到,还有许多基本需求要去满足,比如说将动态数据表嵌入到他们的博客中去。为了鼓励新闻机构在他们的新闻故事边上设置数据访问入口,我们也开发了这个小玩意。
我们的第一次大的数据公布是秘鲁吉亚第一届“国际新闻节”。一群开发者,新闻工作者和公务员齐心协作,将意大利数据上载到了OpenSpending平台,这些数据清楚展示了中央、地区和本地政府的财政系统是如何崩溃的。它覆盖了日报、邮报、快报、共和报、意大利无线以及卫报。
2011年,我们与“推出你的发现”和“海外开发协会”一起向人们呈现乌干达2003到2006年间的资助基金状况。这还是很不一样的,因为人们最初看到的是,资助基金总是和国家预算一起流动——让人们看到是什么让“捐献者优先”和“政府优先”结合在一起的。结果颇有意思,比如说“抗击艾滋病病毒项目”和计划生育的发展几乎全部是由外部资助完成的,这在《卫报》就有谈到。
我们也一直在和非政府组织以及倡议团体一起努力把开销数据和其它来源的信息进行比对和对照。比如说,国际隐私组织向我们提供了一大串监察技术公司和机构名单,它们正在参与一个国际监察交易展,常被称作“窃听者舞会”。通过系统地将公司名称和消费数据进行比对,可能确定哪些公司与政府有合同关系,接着就可以以信息自由申请来跟进。这些在《卫报》中有报道。
我们目前的工作是增加新闻工作者和公众对财政的了解,这也是花销的故事项目的一部分,它让使用者将公共支出和有关公共支出的报道联系起来,来看新闻背后的数据和数据背后的新闻。
通过我们在这个领域的研究工作,我们了解到:
新闻工作者不习惯于使用未加工的数据,并且很多人都不认为这是他们报道的必要基础,在未加工过的数据中寻找故事还是个比较新的想法;
即便是有必要的技能,分析与理解数据仍是个耗时的过程。将之用于一个短期的新闻周期并非易事,因此数据新闻常用于长期调查性项目的之中;
政府公布的数据往往残缺不全或缺乏时效。很多时候,如果没有额外的来自“信息自由”的具体信息,公共数据库是不能用于调查目的的;
60
与新闻工作者相比,倡导团体、学者和研究人士往往有更多时间和资源来从事更为全面的数据研究。与他们合作,必将大有收获。
— 露西·钱伯斯(Lucy Chambers)和乔纳森·格雷(Jonathan Gray),开放知识基金会
五、芬兰议会选举与竞选经费
最近几个月来,有关芬兰2007年大选经费的案件正在审理当中。
2007年大选过后,有报道称选举的宣传经费没有落实到政治家们身上。竞选经费一般是用来给政治家们买支持,但后来他们未能澄清自己的经费用途符合芬兰法律。
经历了这些事件后,法律也愈发严格起来。2011年3月份的大选过后,赫尔辛基决定全面查究一切有关竞选经费的数据。新的法律规定竞选经费必须进行申报,只有低于1500欧元的捐款可以匿名。 1. 找到数据与开发者
赫尔辛基自2011年3月起就开始举办”HS公开黑客联赛”。芬兰编程员、记者和图表设计师受邀来到我们大楼的地下室。参赛者们被分成三人一组,被鼓励开发应用程序和使其形象化。三次活动至今,每次都有大约60人参赛。我们决定将2011年5月第二届HS公开赛的主题定为竞选经费数据。
芬兰国家审计署是持有竞选经费记录的官方机构。这是最容易的部分。首席情报官Jaakko Hamunen建立了一个能实时访问他们竞选经费数据库的网站。国际审计署应我们的要求后仅用了两个月时间就做到了这点。
从现在起,每一次竞选的经费相关新闻和公共信息将刊登于Vaalirahoitus.fi这个网站上。 2. 集思广益
第二届HS公开赛的参赛者由20个不同的数据处理原型所组成。所有的原型均可在我们的网站上获取(网站为芬兰文)。
一位名叫 Janne Peltola 的生物信息研究人员发现竞选经费数据和他们研究的基因数据有很多类似的互相依赖性。在生物信息学中,有一项用来勘察这种依赖性的开源工具称为Cytoscape。我们通过Cytoscape 运行数据会得出非常有趣的原型。 3. 将想法落实到纸上和网上
有关竞选经费的法律规定,议会当选人必须在大选两个月后申报自己的经费。这实际上
61
意味着我们能在六月中旬取得真实数据。在HS公开赛进行时,我们只有国会议员在截止日期前提交的数据。
数据格式也存在着问题。国际审计署以两份CSV格式的文件提供数据。一份文件包含了竞选的全部预算,另一份罗列出所有的捐助者。我们必须建立一个结合这两者的文档,并分为三列:捐赠方,接受方与金额。如果政治家用的是自己的钱,在我们的数据格式里显示时就是政治家A捐赠了X欧元给政治家A。也许有点违反直觉,但它在Cytoscape里起效。
当数据被清理和转置之后,我们只需用Cytoscape来运算数据。然后我们的图形部门就会制作出一页完整的图形。
最后,它将以完美的可视化图呈现在我们网站上。这不仅是网络分析图形。我们希望以简单的方式告诉人们竞选经费的数额以及捐赠者的姓名。第一种观点显示了国会议员之间经费的分配。当你点击一位国会议员时就能查看他/她的经费明细。你也能对捐助方的合理与否进行投票。可视化由Satumaa广告代理机构的Juha Rouvinen和Jukka Kokko开发。
竞选经费可视化的网络版与网络分析使用了同样的数据。 4. 发布数据
当然,国际审计署已经公布了这些数据,所以无需重新发布。但是,既然我们已经清理并赋予了数据更好的结构,我们决定对这些数据进行发布。我们给予数据Creative Commons署名许可证。 随后几名独立开发者已经让数据可视化,我们也已发布了其中一些数据。
用于此项目的工具有:Excel、Google数据清理分析优化、Cytoscape网络分析以及用于可视化的Illustrator和Flash。Flash应该为HTML5支持的,但我们时间不够了。
我们从中学到了什么?也许最重要的一课是:我们数据构造的复杂性。如果初始数据的格式不符,那么重新计算和转换需要花费很长时间。
六、实时竞选黑客 (黑客/骇客Hacks/Hackers 布宜诺斯·艾利斯分会)
62
Figure 13. 2011竞选 (黑客/骇客Hacks/Hackers 布宜诺斯·艾利斯分会)
“竞选黑客”是对阿根廷2011年10月23日选举的最新投票结果的可视化数据进行政治分析的项目。此系统也着重于过去的选举信息和本国的社会人口特征的统计。此项目对2011年阿国大选的最新结果进行同步实时更新,并发布大选结果的速报。这项倡议来自黑客/骇客布宜诺斯·艾利斯分会和政治分析家安迪·透(Andy Tow),同时还有记者、开发者、设计师、分析师、政治科学家和其他地方黑客/骇客分会的人们的协力。 我们使用的是什么数据?
所有的数据均来自官方:国家竞选局提供了因陀罗(Indra)最新票选的数据;内政部提供了选举职位和不同政党候选人的信息;某大学的科研项目提供了每位总统候选人的履历资料和政策平台信息;同时也包括2001年度与2010年度的全国人口与住房普查(INDEC)与卫生部提供了社会人口信息。 它是怎样被开发的?
2011年10月23日,即大选的前一天,此项应用程序由黑客/骇客布宜诺斯·艾利斯分会的成员在2011竞选数据黑客马拉松比赛中开发的。共有30名拥有不同背景的志愿者参赛。竞选黑客被塑造成可以即时更新的开发式平台。技术上我们使用的是谷歌Fusion Tables、谷歌地图以及相关矢量图形库。
我们利用多边形的架构来显示地图与选举人口统计。结合地理信息系统软件与谷歌Fusion Tables中公开数据里的几何图形,我们开发了能与全国人口与住房普查中内政部、
63
因陀罗和社会人口数据重点对应的竞选数据表格。凭此,我们在谷歌地图中让这些数据可视化。
通过谷歌地图API我们发布了数个专题地图,不同颜色代表了不同的投票意见,颜色的深度代表了在不同行政部门与投票站所投选票的总统候选人支持率,并且着重强调了这些主要城市中心:布宜诺斯·艾利斯市、大布宜诺斯·艾利斯地区的24个区、科尔多瓦市和罗萨里奥市。
以前的竞选我们也使用了同样的技术来制作专题地图,例如2011年的总统初选和2007年的大选。对于如贫困人口、儿童死亡率及生活条件等社会人口数据分布的分析与比较,我们也采取同样的方法。此项计划也显示出八月初选较十月大选的得票分布差异。
此后,我们使用临时票选数的部分数据,建立了一个描绘票选数剖析的动画地图,能显示出当地从投票结束到第二天早晨的计票进程。 优点
我们着手查找并再现数据,并成功搞定了它。我们有联合国儿童基金会有关儿童社会人口的数据库,我们也有Torcuato Di Tella 大学yoquierosaber.org 小组创建的候选人数据库。在夜以继日的鏖战中,我们汇集了额外的大量数据,包括一些没有结束处理的数据。
虽然,新闻与编程工作需要学者的支持。要是没有安迪·透(Andy Tow)和希拉里奥·莫雷诺·坎波斯(Hilario Moreno Campos)的贡献,我们的计划将无法得到实现。 缺点
我们能使用的社会人口数据不是最新数据(大部分来自2001年的人口普查),数据也并不是非常精细。比如它不包括当地的国内平均生产总值、主要经济活动、受教育程度、学校数量、人均医生数量以及其他许多重要的信息。
起初,这系统的目的在于组合并显示任意数据,这样一来记者就能很简单地在网上看到他们感兴趣的数据。但我们不得不放弃这一初衷,并另起炉灶。
由于该计划是志愿者在短期内发起的,它无法做到尽善尽美。尽管如此,我们还是朝正确的方向取得了很大进步。
同样地,30人的协同工作最后凝结成一项简洁的程序设计器,当政府发布数据后,我们在实时输入数据时遇到了一些问题。好在这些问题都在几小时内解决了。 启示
因为“竞选黑客”平台在电视、广播、报纸和网络舆论有很大的反响。因此在媒体中有很大的反响。在大选期间和后续几天中,已经有数个媒体平台使用该项计划的地图。随着日
64
期的推移而更新地图与可视化图标,访问量更是与日俱增。大选当天,该网站创下了2万独立访客的日记录,接下去两天中,它的地图更是出现在 Página/12 报的封面上,同时还出现在 La Nación的文章里。有些地图刊登在Clarín报的印刷版上。这是阿根廷新闻史上第一次使用交互式的实时地图显示。在中央地图上,人们能透过不平衡的色彩饱和度清楚地看到克里斯蒂娜·费尔南德斯·基什内尔54%票数的压倒性胜利。它还有助于让用户了解当地候选人在该省取得压倒性胜利的具体情形。
— Mariano Blejman, Mariana Berruezo, Sergio Sorín, Andy Tow, and Martín Sarsale 来自黑客/骇客Hacks/Hackers 布宜诺斯·艾利斯分会
七、新闻中的数据玄机:维基解密
让我们以一个调研性报道记者团提出的问题开始,“你善于制作电子数据表吗?”而且这简直是个表格的梦魇:它一共有92,201行数据,每行数据都包含着在阿富汗的重大军事行动的细目。维基解密中的第一部分就是关于阿富汗的战争记录。除此之外还有其他两个部分,分别是伊拉克的军事行动和一部分外交密电。官方称这份资料为SIGACTS(重要行动)——美国军方重要行动数据库。
由纽约时报和德国的明镜周刊协同披露的阿富汗战争日志报道中,数据新闻大显身手。我们致力于让我们专业的报道团队从纷繁复杂的信息中找到有价值的报道内容,通过对资料的分析还原现场,向公众解释战争究竟是如何开始并发展的。
对我们而言,关键是要及早行动起来,毕竟我们不准备披露全部的数据。维基解密已经决定披露全部数据了,而我们应该确保:不泄露线人的名字或可能对北约军队造成威胁的信息。与此同时,我们还需要使大卫·雷夫(David Leigh)和尼克·戴维斯(Nick Davies)(两位已经同阿桑奇就使用数据达成了协议)领导的记者团队能够更方便地使用这些数据。我们同时希望能更便捷地获取关键信息,并向外界公布,力求一切尽可能地透明和公开。
这些超过92,201行的Excel表对于我们来说简直是卷帙浩繁,并且其中的有些数据毫无意义或者毫无格式可言。这些没有被整理且十分庞大的数据对于调研记者们的“撒网捕鱼”没有任何帮助,不可能据此写出有意义的报道。
我们的团队用SQL建立了一个简单的内部数据库。如今,记者们可以通过关键词或者事件搜索内容,这样一来,检索数据库轻而易举,记者的报道也有据可查了。
65
数据库构造合理:每个事件都有以下几个关键数据(供查询用):时间 、日期、相关说明。伤亡人数,还有最重要的就是事件发生地的具体经纬度。
同时,我们也在筛选数据,以帮助我们能专注讲述战争中关键的新闻故事:简易爆炸装置,自制的路边炸弹制造的袭击数量的增长,面对这种防不胜防攻击,盟军束手无策。这个数据集虽然仍旧庞杂,但是便于管理多了。在2004年到2009年,这五年间发生约7500起简易炸弹袭击和伏击(此类伏击通常还会遭遇如武器交火或火箭弹袭击)。并且在这五年间,还有8000起被检查出并成功清理的炸弹袭击案。我们想要看看这5年来袭击都经历什么变化,对比起来,又会有怎样的结果,就可以从数据库中找到答案。通过数据库我们了解到,在阿富汗南部,也就是英国和加拿大军队的驻地是袭击频率最高的地方,这数据也有力地支撑了我们记者已经做出的战争报道。
伊拉克战争记录于2010年10月曝光,也使其他391,000份和伊战有关的资料也进入了公众的视野。
这次伊拉克战争资料的泄露程度是前所未有的。这可以说是个很好的案例使得战争被最大程度记载于史册。每一个细枝末节都可以供我们去分析并深入挖掘。但是有一点不容忽略:在数量庞大的遇害者中,大多数都是平民百姓。
英国卫报决定不会再版阿富汗全部的数据库,主要因为我们还不能确定数据库表格中是否有涉及线人的重要信息等。
不过,用户可以下载其他的六万份数据表,其中的事件相关人员早已过世。我们也移除概要,只保留了一些基本的数据,诸如,行动代号、死者、地区分类等。
我们搜集了所有有死亡的事故,并通过谷歌Fusion Table 制作成了一个电子地图。虽然它不够完美,但至少是一个不错的开始,它试着描绘出惨遭蹂躏的伊拉克是如何一步步被摧毁的。
2010年12月,大量的密电被曝光,牵涉到一个隐秘的外交世界。庞大的官方文件数据,包括了来自世界范围内美国外交使节和顾问的251,287份急件。这无疑是美国外交史上最独一无二的一道景观了——曝光了超过5万份涉及奥巴马政府的密电。但是这些数据包含了什么内容呢?
这些密电是发布自庞大的的密保IP路由网络,或称为机密互连协议路由网。该网络是美国军方专属的,独立于民用的网络系统。这一网络由设在美国华盛顿的五角大楼负责管理。在过去10年,越来越多的美国驻外使馆开始连接了这一网络。因此,外交和军方的信息可以获得共享。2002年,125家大使馆开始运用该系统,2005年增长到了180个。而如今绝
66
大多数美国代表团已在世界范围内应用该系统。这也就解释了为什么大量密电都是在2008-2009年这个时间段发布的了。正如大卫·雷夫所写的那样:
标有SIPDIS(秘密互联网协议分布)的大使馆急件是可以自动下载到它的大使馆机密网站上的。在这网站上,这些信息不仅可以被政府部门人掌握,同样也能被美国军方人士掌握。只要他们通过安全审查,获得一个秘密等级(接入等级权限)和密码以及一台链接SIPRNet的电脑。
令人吃惊的是,能读到这些资料的人数超过了三百万。所有信息和数据都应有若干个密级,从最基础一直到_SECRET NOFORN_层级(不对非美国公民公布的机密)。然而事实是,这些资料本应该只限于华盛顿的官员以及像国务卿希拉里这样的高官阅读。通常情况下,这些密电由当地大使或其下属撰写。一些密级在“绝密”以及上的国外情报文件是不能通过SIPRNet.系统获得的。
与之前的内容不同,现在的数据以文本为主,没有量化或包含重复数据。包括以下内容: 来源
发送方,大使或具体个人 收件人列表
一般来说,电报发送给许多其他大使馆和个人。 主题
电文的简要描述。 标签
每一条电文都会用几个关键词缩写进行标注。 正文
电文内容。出于显而易见的安全考虑,我们不会全文公布内容。
在整个泄密事件中,一个值得玩味的细节是:这些密电如何正好泄露了我们需要的信息。这些泄露的信息主导着最近几周新闻界的话题。但是直到现在,每当这个世界上出现腐败政权的丑闻或者国际性的流言蜚语时,我们总能通过这些密电得知故事的新进展。 分析电文的工作是艰巨的,可以说是没有尽头的。
— 本文摘编自《伟大的真相:数据的力量》(第一版)的第一章,由卫报的西蒙·罗杰斯撰写(出版于Kindle平台)
67
八、Mapa76 黑客马拉松
2011年4月,我们启动了“黑客/骇客”(Hacks/Hackers)布宜诺斯艾利斯大会。我们举办了两次初步会面交流,来宣传扩大记者和软件开发者之间合作的想法,每次会面都有120至150人参与。第三次会议是在罗萨里奥(Rosario),距离宜诺斯艾利斯300公里,在这场数字新闻的会议上我们举行了一场8个人30小时的“黑客马拉松”。
在这些会议中,我们一直重申的主题是希望从网络上获取更大量的数据,然后用视觉的方法再现出来。为了协助实现这一点,一个叫作“Mapa76.info”的项目应运而生,它帮助用户提取数据,然后通过地图和时间轴显示出来。但这并非易事。
为什么叫“Mapa76”呢?1976年3月24日,阿根廷发生了一场政变,一直持续到1983年。在那段时间里,约有3万人失踪,数千人死亡,还有500名孩童因为军事独裁不得不在牢狱中降生。30多年后,承认在军事独裁时期犯有反人道罪行的人数达到了262人(2011年9月)。现有仍有14个案件正在审理,7次案件已有明确的开庭日期。有802人仍牵连于各种公开审理案件中。
这些控诉产生了大量的数据,对研究者、记者、人权组织、法官、检察官来说以及其他人来说都是很难处理的。数据的产生是分散式的,调查人员通常不会利用软件工具去协助他们解读这些数据。最终这也意味着:事实往往被忽略,假设往往被限制。“Mapa76”是一个调查工具,为新闻、法律、审判和历史研究不同目的提供开放的信息接入。
为了准备这场黑客马拉松,我们创建了一个平台,开发者和记者在活动当天可以通过这个平台来进行协作。马丁·撒塞尔(Martin Sarsale)开发了从简单的文本文档中提取结构化数据的一些基本算法。我们也通过“文档云”(DocumentCloud.org)项目使用了一些图书馆资料,不过并不多。这个平台会自动从文本中分析和提取姓名、日期和地点——这可以让用户去发现不同的案件的重要事实(如生日、逮捕的地点、所谓的消失地点等等)。
我们的目标是提供一个阿根廷军事独裁审判数据的自动提取平台。我们希望找到一种方法,基于成文的证据、申辨和判决,可以自动(或至少半自动的)展示从1976年到1983年的与案件有关的重要数据。所提取的数据(姓名、地点和日期)被收集和储存起来,可供研究者分析和调整,也可以使用地图、时间轴和网络分析工具去深入探索。
这个项目让记者、调查者、检察官和证人追溯一个人的人生故事,包括他们被囚禁的过程和接下来的失踪或释放。信息缺失的地方,用户可以通过梳理大量的文档来寻找,这也可能与案件存在可能的联系。
为了这项编程马拉松,我们通过“黑客/骇客”(Hacks/Hackers)布宜诺斯艾利斯大会
68
发布了一个公告——这个群组当时大约200个成员(写作此文之时,大约已有540个成员)。我们同时联系了许多人权组织。参与此次会议的大约有40人,包括记者、相关组织、开发者和设计者。
“黑客马拉松”期间,为了进展顺利,我们明确了不同类型的参与者可以独立完成的任务。举例来说,我们要求设计者设计一个将地图和时间轴结合起来的界面;我们要求开发者考察不同的提取结构化数据的方式,并且研究消除姓名歧义的算法;我们要求记者研究某个人身上究竟发生了什么,并且比较故事的不同版本,以及梳理文档来讲述某个案件的故事。
“黑客马拉松”遗留的主要问题也许是:这个项目非常宏大,我们的短期目标又相当高,而协调志愿者之间松散的网络比较困难。几乎参与这个项目的所有人白天工作都很繁忙,其中有许多人会参加其它的活动和项目。黑客/骇客布宜诺斯艾利斯2011年共举行了9次会议。
这个项目现在还在正常进行中。核心小组有四个成员,再加上十几个协作者。我们有一个公共邮件列表和GitHub代码仓库,任何人可以通过它们参与到这个项目中来。 — 马里亚诺·布雷曼(Mariano Blejman),黑客/骇客Hacks/Hackers 布宜诺斯·艾利斯
九、《卫报》的数据博客对英国暴动的报道
2011年夏,英国发生的骚乱事件,此起彼伏。当时,政客们认为这些不法行为绝对与贫困无关,那些趁乱打劫者只不过是罪犯而已。此外,首相(the Prime Minister)和其领导的保守派政客一起异口同声地把矛头对准社交媒体,他们认为,在这些平台上充斥着煽动性言论,而且暴徒们利用脸谱网(Facebook)、推特(Twitter)和黑莓信使(BlackBerry Messenger,BBM)进行组织,因此社交媒体是引发这场暴动的罪魁祸首。有人叫嚣着要暂时关闭社交媒体。因为英国政府并没有对暴乱发生的起因展开调查,故《卫报》与伦敦政治经济学院合作创建了史无前例的解读暴乱项目以解决这些问题。
69
Figure 16. 英国暴动:每个铁证如山的事件(卫报)
卫报已经广泛地采用数据新闻的手段,以使公众能更好地理解谁是趁乱打劫者,他们为何要参与抢劫。不仅如此,他们还与另一支由英国曼彻斯特大学(University of Manchester)的罗伯·普克特教授(Professor Rob Procter)领导的学术小组合作以便更好地理解社交媒体所扮演的角色。在暴乱期间,《卫报》本身在报导暴动时便广泛使用了社交媒体。“解读暴乱”小组由《卫报》“特别企划”栏目的编辑保罗·路易斯(Paul Lewis)领导。在暴动发生期间,保罗走遍全国暴动的第一现场 (大部分的报导尤其通过其微博帐号@paullewis发布)。第二支小组主要对推特网提供的260万条有关暴动的信息进行分析。关于对社交媒体的调查,其主要目的在于想看看谣言是如何在推特网中传播的,不同用户与参与者在信息流的宣传和传播方面所起的作用;也想看看这些网络平台是否被用于煽动骚乱并且要检测一下其他形式的组织。
就数据新闻的使用和数据可视化而言,区别如下两个关键期则有益无弊:第一阶段是暴动自行暴发时期和随着暴动的进一步发展,数据有助于故事叙述的方式;第二阶段是两班学术人士与《卫报》携手并肩更深入研究以便收集数据、分析数据并对调查结果写出有深度的报告。2011年12月初,《卫报》对“解读暴乱”项目第一阶段的的研究结果进行了为期一周长的系列的报道。接下来要讲的数据新闻如何应用于这两个阶段的一些关键案例。 第一阶段:暴乱的发生
通过使用一些简图,《卫报》数据小组标示出已确定无疑的骚乱地点,且通过将贫困人
70
口数据与发生暴动的地点相结合在一起,开始驳斥了骚动与贫困无关的主要政治言论。这两种例子都是使用现成的制图工具,且第二个例子将地点数据与其他数据集合并开始建立起其他关系和联接。
有关在暴乱期间对社交媒体的使用(在本案例中即特指推特),《卫报》创建了一个暴乱期间在推特上与其有关的标签使用情况的可视化作品,这凸显出推特主要用于对暴乱的回应而非组织人员参与抢劫,_#riotcleanup_(暴动清理)——即在暴动后自发组织的清洁街头运动,表明这才是暴动期间使用推特最高峰期。 第二阶段:解读暴乱
当《卫报》报导其多个月来深入研究并与两个学术小组密切合作的调查结果时,出现了两个引人瞩目的可视化作品并引起公众热烈讨论。第一个可视化作品是一小段视频,表明将暴动的已知地点与参与者家庭住址相结合的结果,并表明存在所谓的“暴乱与家的路径”。对此,《卫报》与交通绘图专家ITO世界(ITO World)齐心协力模拟出参与者到达不同地点实施趁火打劫时最有可能经过的路线,突出不同城市的迥异模式,有的案例中劫徒长途跋涉。
第二个可视化作品涉及到谣言在推特上传播的方式。 通过与学术小组的讨论,大家一致同意分析七种谣言。之后,学术小组收集与每种谣言相关的所有数据并设计出编码表,根据如下四种主代码对微博信息进行编码:重复谣言者(发表声明)、抗拒者(提出针锋相对的言论)、质疑者(提出疑问)或只评论者(点评)。所有微博信息被编成一式三分,且结果由《卫报》的交互小组进行可视化。《卫报》小组已经把他们是如何建立可视化数据作品的过程写了下来。
这种可视化的好处在于有力地展现那些难以描述的东西,表明了谣言病毒传播的本质,以及谣言的生命周期如何随时间变化的方式。对于一些谣言的传播,主流媒体的作用是不言而喻(例如,有的将其批得体无完肤,又或者把他当作新闻一样充分肯定)正如,在处理这些流言蜚语方面,推特存在自我纠正的特征。这种可视化不仅对故事的讲述大有帮助,而且对于谣言是在推特上流传提出了真知灼见,这为应对未来事件提供了实用的信息参考。
最后一个例子清楚地表明,报纸和学术小组之间能够深入分析260万条参与暴动的推特信息的强协同效应。尽管学术小组量身定制了一套工具用以对数据进行分析,他们现在正努力在适当时候让那些希望使用这些工具的人能随时随地使用到,从而为他们的分析提供一个工作平台。结合由《卫报》小组提供的描述指引,这将向大家提供一个有用的个案研究。该案例讲述此类社交媒体分析和可视化如何能被人用于讲述类似影响深远的故事。
— 法利达·维斯(Farida Vis), 英国莱切斯特大学
71
十、伊利诺伊州学校报告卡片
每年,伊利诺伊州教育委员会都会发布学校的“报告卡(report cards)”,公布伊利诺伊州所有公立学校的人口统计和工作表现评价的数据。这是一组庞杂的数据集——今年的数据有~9500个_变量(columns)_之多。如此大量的数据带来一个问题:应当选择哪些数据来呈现?(和其它软件开发项目一样,最难的部分并不是_开发_这个软件,而是开发_合适_的软件。)
我们和负责教育的记者和编辑共同协作,来挑选有趣的数据。(有许多数据看起来相当有趣,但是记者会告诉你这些数据事实上存在缺陷或者带有误导性。)
我们也找来编辑部里几个学龄儿童的家长做了调查和访问。这样做是因为有移情差异(empathy gap)——新闻app的团队成员都没有适龄的孩子。同时,这也使我们更了解我们的用户,并且更了解之前版本的易用性(或者哪里不够易用!)。
Figure 17. 2011伊利诺伊州学校报告卡片(芝加哥论坛报)
我们针对于以下一些特定的用户及使用情况进行设计: 家中已有上学孩子的家长,他们想要知道这所学校的评分
想要决定在哪里居住的家长,因为学校质量通常是作出这一决定的主要影响因素
第一个版本的学校报告卡网站项目差不多花费了2个程序员6周时间。2011年这次更新使用了2个程序员4周时间。(事实上,有三个人为这个项目工作,但是他们都不是全职,所以加起来大约相当于2个全职程序员)
信息设计是这个项目的关键部分之一。虽然我们呈现出来的数据已经远远少于所有可得
72
的数据,但数据量仍然_非常大_,让这些数据可以被理解消化是难点所在。我们很幸运地从平面设计部门借调了一位设计师,他的专长是呈现复杂的信息。他教了我们许多关于图表设计的内容,同时引导我们进行强可读性的展现,但并不要低估读者理解数字的能力与愿望。
这个网站用Python和Django开发。数据存放在MongoDB中——学校数据相当混杂且有层级关系,所以并不适合使用关系型数据库。(不然的话,我们可能会使用PostgreSQL。)
我们在这个项目中首次尝试使用了Twitter的Bootstrap用户界面框架,结果令人非常满意。图表则用Flot绘制。
我们写过的很多关于学校表现的文章都来源于这个app。从某种意义上来说,它扮演着类似“门户(portal)”的角色;当有一篇新的学校工作报道的时候,我们把它放在这个app的顶端位置,边上同时配有与这篇报道相关的学校列表。(当一篇新的报道出现,芝加哥论坛报网站的读者会被带到这个app上,而不仅仅是这篇报道本身)
早期报告就表明读者们非常喜欢这个学校app。我们收到的反馈总体来说是正面的(或者至少是建设性的!),访问量也创了新高。还有个额外好处,这些数据一整年都会炙手可热。关于学校的报道从网站首页换下来之后,我们相信这个app的点击会慢慢减少,不过,我们过去的经验是,这整年中许多读者会主动来寻找这个app。 从这个项目中我们得到的一些关键收获:
平面设计部门是你的朋友,他们擅长将复杂的信息变得可以理解消化。
向编辑部寻求帮助。这是我们第二个在整个编辑部范围内展开调查和访谈的项目,这也是一个从对此问题有深入思考的人那里得到意见的上佳方式,正如我们的读者,有多元的背景,但是通常对使用电脑并非游刃有余。
秀出你的作品!我们收到的许多反馈都是请求这个应用的背后的数据。我们编写了大量的API以让公众能够方便的获取数据,并且我们也会给出一些我们起初并没打算使用的数据。
— 布莱恩·博耶(Brian Boyer),芝加哥论坛报
十一、医护费用
加利福尼亚观察网的调研员们收到情报,加州一个大型医疗连锁机构可能正有计划地利用联邦医疗保险项目(Medicare)牟取超额利润,此项目旨在替美国65岁以上的老人支付医疗费用。这种骗局就是所谓的_upcoding_,典型做法是夸大病人症状的复杂性,以获得更多的政府补偿金。但提供消息的关键信源是正与这家医疗连锁机构管理层抗争的工会,而且
73
加利福尼亚观察网的团队明白,为保证故事的可信度必须提供独立的调查验证。
幸运的是,加利福利亚州卫生部对所有州立医院的每一次治疗都有详细的档案记录,并且档案是公开的。128个数据变量中有25个是按照世界卫生组织发布的“国际疾病分类统计和相关的健康问题”手册(俗称ICD-9)编码。数据中不会出现病人的姓名,其他变量如病人的年龄、治疗的花费、接待的医院也不会出现。记者们清楚这些档案意味着什么。他们可以通过这些档案来检视连锁医院中不寻常的病例报告是否明显高于其他医院。
数据集十分庞大,每年几乎有四百万病例;而记者们想要研究六年来的档案,以发现报告模式是如何变化的。他们向州政府机构订购了载有数据的CD光盘,其中的数据可以很容易地从光盘导入到台式计算机。记者用SAS系统来分析数据。SAS十分强大(可以分析数百万档案记录)并且被许多政府机构使用,包括加州卫生局,但它也十分昂贵——而同样的分析工作我们可以用其他数据库分析工具来达成,比如说微软Access或者开源的MySQL
数据在手,程序已备,找到令人生疑的模式就水到渠成了。举例来说,其中一个发现是连锁医院里各种程度的营养不良的报告频率要远远高于其他医院。数据分析家利用SAS提取出一些频率表,它们显示了加州超过300家急症护理医院每年营养不良病例的报告数量。之后,这些未加工的频率表被导入到Excel中,以便更好地检查每家医院的数据模式; Excel对原始数据的分类、过滤和计算等处理能力让模式监测变得容易。
报告中特别高发的情况是一种被称作恶性营养不良的疾病,又称蛋白缺乏综合征。这种疾病在受灾荒的发展中国家的挨饿的婴儿中普遍可见。然而,连锁医院所报告的加州老年人恶性营养不良的发病率是加州所有医院平均水平的70倍。
至于其他报道,数据分析家们采用了类似的技术去检验像败血症、疯牛病、恶性高血压和自主神经系统紊乱这样的疾病的发病率报告。另外一个报道指出这家连锁医院通过急诊室把病人转移到拥有不同寻常的高医疗保险的病人护理医院,这些病人为医疗护理的支付来源相较于很多其他急诊室病人更为稳固。
总结来说,之所以会有这样的报道,是因为你可以利用数据独立地验证信息源提出的指控,毕竟信息源有自己的议程意图。这些报道也表明强大的公共数据记录法的必要;政府要求医院报告这些数据的理由就在于,不论是政府、学术机构、调查者还是公民记者都可以进行这样的分析。这些报道的主题也十分重要,因为它事关大量公共财政的支出是否合理。 — 史蒂夫·多伊格(Steve Doig),沃尔特·克朗凯特新闻学院,亚利桑那州立大学
74
十二、养老院危机
《金融时报》一篇关于私立养老院行业的的调查报道揭露了一些私募投资者如何将养老变成赚钱机器,并且着重指出这个商业模式中令人难以招架的人力成本让颐养天年让位于投资回报。
这篇分析非常及时,因为“南方十字(South Cross)”当时是英国最大的养老院运营商,它的财务问题正浮出水面。近几十年来,政府都在推进护理行业的私有化,继续向精明的私人资本商业运作抛出橄榄枝。
我们分析了从英国养老行业管理部门获得的数据,并以此开始我们的追问。这些信息是公开的,但是要把这些数据整理成可用的形式却需要大量耐心。
数据当中包括了对于每个养老院业绩的评分(现在已不再进行),以及关于它们是私立、政府所有还是非赢利的分项统计。养护质量委员会(CQC)为养老院的质量打分(0颗星为很差,3颗星为非常好),这一工作持续到了2010年6月。
第一步必须要进行全面的数据清理,例如养护质量委员会提供的数据中,有一些分类标准不同,所以并不统一。这个步骤主要使用Excel完成。我们也通过案头文件和电话访谈来确定一家养老院是否归私募团队所有。在金融危机之前,养老行业吸引了大量私募和地产投资商,但是其中一些养老院——例如南方十字——已经开始面临严重的财务问题。我们希望确定私募所有权对于养护质量的影响——如果影响真实存在的话。
通过一组相对直观的Excel计算,我们确定,平均来看,非赢利和政府运营的养老院的业绩表现明显好过私立养老院。有一些私募持有的养老院集团的质量表现高过平均值,其它则远低于平均。
加上实地采访报道、失职(neglect)的案例分析、对于管制政策失败的深入观察,以及其它工资水平、人员流动率等数据,我们的分析报道得以描述出养老行业的真实情况。 一些提示:
请确保你记录下来对于原始数据进行了哪些操作。 保留一份原始数据的拷贝,并且决不要改动原始数据。
检查并且再次检查数据。重复作几次分析(如果需要的话,从头做起)。 如果你提到了某个公司或者个人,给他们回复申辨的权利。
— 辛西娅·奥墨楚(Cynthia O”Murchu),金融时报
75
十三、无所不知的电话
手机提供的数据能用来做什么?大多数人对此的理解都是基于理论,而很少有现实的例子。这就是德国绿党的(Green party)马耳他·施皮茨(Malte Spitz)决定发表他自己的数据的原因。为了获取信息,他必须向电信巨头——德意志电信(Deutsche Telekom)提起诉讼。数据是Zeit在线附带的交互式地图的基础,它们包涵在了大量的Excel文档中。电子数据表中35,831行里的每一行数据都是施皮茨的手机在半年内传送信息的例证。
单独来看,数据片段通常是无害的。但是把它们放在一起之后,就会显现出调查者们所称的个人写照。它是人的习惯和偏好的清晰写照,实际上,也是他或她的整个生活的写照。它可以揭示施皮茨在什么时候上街散步,什么时候乘火车,又是什么时候坐飞机。它也显示了施皮茨的工作地柏林,他游览过的城市,他什么时候醒着,又是在什么时候睡觉。
Figure 19. 无所不知的电话 (Zeit在线)
德意志电信已经将施皮茨的部分数据加密,也就是说不会公开他呼叫了谁和谁呼叫了他。毕竟这样的信息不仅侵犯了其他许多人的隐私权(即使那些号码是加密的),也会过多地暴露施皮茨的隐私(但是现实中政府部门可以获取这些信息)。
我们寻问了来自数据开放城市(Open Data City)洛伦兹·马特札特(Lorenz Matzat)和迈克尔·克雷尔(Michael Kreil),如何去探索这些数据又如何很好的进行视觉展现。“最早我们用像Excel和谷歌Fusion Tables这样的工具去理解数据。之后我们开始开发一个地图界面允许受众能够以非线性的方式进行互动,”玛特扎特说。为了说明个人生活细节可以从
76
这些储存数据中被发掘出来的程度,最终通过获取公开的个人行踪数据(推特,博文,党务信息比如来自他网站上的公开日历项)大大扩展了通话数据的信息量。任何好的调查记者都很可能用这种方式观察一个人的个人信息。与Zeit在线内部的图形和研发部门一起,他们最终完成了一个很好的导航界面:通过按下播放按钮,你就能沿着玛特施皮茨的生活踏上一段旅途。
在这个项目在德国成功上线一段时间之后,我们留意到我们大量的流量都来自德国以外的地区,随后我们决定再创建一个英文版的应用。在赢得德国“格林在线新闻奖”之后,这个项目又在2011年9月被授予了“在线新闻协会奖(ONA Award)\"(由在线新闻协会颁发),这是德国新闻网站首次获此殊荣。
全部数据可以从这个谷歌在线表格里获取。 阅读新闻故事见Zeit在线。
— 萨沙·凡诺(Sascha Venohr),Zeit在线
十四、哪种车型最有保障?MOT测试失败率报道
2010年1月,英国广播公司(BBC)得到了不同品牌、不同型号的汽车在MOT测试中的通过率和失败率数据。所谓MOT测试,就是评定一辆汽车的安全性能和驾驶性能的——车龄超过3年的汽车每年都要进行一次MOT测试。
依据信息自由法(FOI),我们与VOSA(车辆与驾驶员服务机构,即监管MOT体系的交通部门)进行了长达18个月的“拉锯战”,最终才得到了宝贵的数据。之前,VOSA就声称,披露这些数据会侵犯商业机密,因而将我们的FOI要求拒之门外,并表示这种做法会对MOT测试失败率较高的汽车厂商产生'商业损失'。然而,我们向信息委员会进行了申诉,其最终认定,将信息公之于众是符合公众利益的。在我们提出申请的18个月之后,VOSA最终披露了有关数据。
我们对数据进行了分析,重点着眼于最受欢迎的车型,并对车龄相同的各类车辆进行了比较。研究结果显示,各类车辆的性能表现参差不齐。举例来说,在所有车龄为3年的汽车中,雷诺梅甘娜(Méganes)在MOT测试中的失败率为28%,而丰田科罗拉的失败率只有11%所有数据都已在电视、广播和网络上公之于众。
77
Figure 20. 发布的MOT测试失败率数据 (BBC)
数据是以1,200页的PDF文件格式呈现在我们面前的,我们得将其转换为电子表格,以供分析研究之用。除了我们的分析报道之外,我们还在BBC新闻网站上与分析报道一同公布了数据电子表格(共计14,000多行)。这样一来,所有人都能获取这些便捷可用的数据。
这些数据可供他人利用自行分析,以能够进一步拓展我们因为时间和技术限制下有限的报道。进一步的分析包括,研究其它车龄车辆的测试失败率,比较各大生产商的测试记录而非个别车型的性能表现,建立可检索的数据库以查询各种车型的测试结果。我们的在线新闻报道随后添加了这些网站的链接,从而为读者带来了更多的福利。
这个项目把发布原始数据同时配套相应的数据驱动的新闻故事所带来的优势描绘的淋漓尽致。当然也可能有一些例外情况(例如,你打算将数据用于一些后续报道中,或者想暂时保留数据),但总体来说,数据的公布会带来一些重要益处:
你的任务是发现与共享。当你在获取数据过程中遭遇麻烦时,你有责任将接力棒传给其他人。
其他人或许会找出你遗漏的重要部分,或者找出对你的报道不太重要却对他人举足轻重的重要细节。
其他人可以利用自己的想法或技能在你的基础上进一步深入、细致地研究数据,或者运用不同方式呈现数据,实现视觉化。这或许是高效研究数据的新方式。
可以说,这是将问责制和透明度融入到新闻报道过程中的一部分。假若他人乐意,他们可以来理解你的方法并检验你的工作。
78
— 马丁·罗森鲍姆(Martin Rosenbaum),英国广播公司BBC
十五、阿根廷的公车补贴
从2002年起,阿根廷的公交系统补贴数额就开始呈指数上升,数字每年都会出现破表式刷新。但在2011年,阿根廷新政府在大选胜利之后宣布,从同年12月起开始大刀阔斧地削减公车补贴。与此同时,国家政府决定将地方公车线和地铁线的管理权转交给布宜诺斯·艾利斯市政厅。由于对地方政府的公车补贴转移并不明确,再加上地方政府缺乏足够的资金来保证交通系统的安全,布宜诺斯·艾利斯市政厅断然拒绝了这一决定。
事情发生时,我和阿根廷《国家报》(La Nación)的同事首次见面,并讨论如何开展我们的数据新闻行动。负责金融版区的编辑表示,若从交通部所公布的补贴数据入手,我们将会遇到一个不小的挑战,因为其格式和术语十分晦涩。
阿根廷杂乱无章的公交系统每天影响到5,800,000位乘客的生命安全。延误、罢工、车辆故障甚至是事故早已成为家常便饭。因此,我们决定刨根问底,调查出阿根廷公交系统补贴到底花落谁家,并且通过“交通补贴探查器”(仍在制作中)使每位阿根廷公民都能轻而易举地了解这一补贴数据。
首先,我们开始计算每家公交公司每月会从政府得到多少补贴。为此我们仔细查阅了阿根廷交通部网站上公布的有关数据,这些数据包括从2006年开始政府每月对1,300多家公交公司的现金支付金额,数据在400项PDF文件中予以记录。
Figure 22. 各公交公司补贴数额排名 (La Nación)
79
我们联手一位资深程序员开发了一个数据抓取工具,它能自动进行常规下载,自动将PDF文件转换成Excel电子表格和数据库文件。我们正在使用抓取到的含超过285,000条记录的数据集来进行调查和可视化工作。除此之外,我们也正在努力将这些数据制作成机器可读格式,以供每位阿根廷居民再利用和分享。
下一步,我们开始调查一辆公交车平均每月从政府获得多少数额的维修保养费用。因此,我们登录了另一个政府网站,即全国交通监管委员会(CNRT)。该机构负责监管和规范阿根廷全国的交通系统。我们在网站上找到了公交公司的名单,这些公司拥有车辆共计9,000部。之后,我们制作了一个数据标准化工具,来核对各家公交公司的名称与信息,并将两大数据集记录前后比照。
要想使工作进一步继续下去,我们需要得到每辆车的车牌号。我们在CNRT网站上找到了每家公司每条公交线路每辆公车的牌照名单。阿根廷车辆的车牌号是由字母和数字组成的,从中就能得知每辆车的车龄。举例来说,我的车牌号是IDF234,字母“I”就与2011年3月-4月前后对应。我们反向分析处理了所有名单中公交公司的汽车牌照,得出了每家公司的平均车龄,从而显示出每家公司所获得的补贴金额,并基于每家公司汽车的平均车龄对补贴金额进行了比较。
在工作进程中,政府公布的包含所需数据的PDF文件内容出现离奇的变动,不过好在文件的URL连接和名称并未更改。其中出现变动的一项是一些PDF文件中的纵向“总计”列,这一变动使我们无法核对2002到2011整个调查时期的补贴总额。
我们将这一案子提交到了一家由波士顿黑客所组织的黑客马拉松(hackathon)那里,开发员马特·佩里(Matt Perry)十分慷慨的为我们建立了一个所谓“PDF间谍”的软件。这一应用最终荣膺该事件中“最引人注目”软件之殊荣。神奇之处在于,“PDF间谍”会时刻瞄准并监视载有PDF文件的网页,一旦PDF内容出现变动,间谍软件会即刻进行核对检查。“再也不要愚蠢地相信政府所谓的‘透明度’了,”马特·佩里写到。 都有谁参与到这个项目的工作中?
七名记者,若干程序员和一位交互式设计师联手参与了为期13个月的研究调查活动。 此项目中我们所需的人员技能:
记者需了解公交系统补贴的运转流程和风险所在;熟稔公交公司市场。
程序员需深谙网络数据抓取、解析和标准化数据,以及能将数据从PDF格式转换为Excel 电子表格等技能。
统计师需进行数据分析和不同计算。
80
设计师需制作交互式数据可视化。 我们用了哪些工具?
我们运用了VBasic应用,Excel Marcos,Tableau Public,Junar Open Data Platform,Ruby on Rails,谷歌图表API以及MYSQL来制作补贴探查器。
该项目的完成带来了深远影响。网络的浏览点击率达数万次,除此之外,调查过程和结果也公布在了《国家报》的纸质版的头版头条。
第一个数据新闻项目的大功告成助了我们一臂之力,使我们有理由在国内建立起一个数据运转中心,从而进行调查性报道,并向公众提供服务。Data.lanacion.com.ar因此应运而生,并成为了我们以机器可读格式发布涉及到公众利益的各种话题数据的一个重要平台。 — 安赫利卡·佩拉塔·拉莫斯(Angélica Peralta Ramos), 阿根廷国家报(La Nación)
十六、公民数字记者
大型新闻编辑室并非产生基于数字的新闻报道的专属地点。这种以数字为源的报道手段对于数字记者来说大有裨益,它能帮助公民记者掌握其所在地点的数据,并将这些数据转化成新闻报道。
这就是巴西的一个公民媒体项目珍纽瑞亚之友(Friends of Januária)的创办初衷,该项目得到全球之声(Global Voices Online)的外延项目发声计划(Rising Voices)的授权,并得到了民权组织条款19(Article 19)的额外支持。位于巴西米纳斯吉拉斯州(Minas Gerais)北部小城市是巴西境内最贫困的地区之一,2011年九月至十月,一批当地青年接受了有关基础新闻技术和预算监督方面的训练。他们同样学会了如何提出“信息自由”(Freedom of Information)的要求,以及如何进入互联网上的官方数据库,获取公开披露的可用信息。 珍纽瑞亚,这个约有65,000居民的小城市,另一个让其声名远播的原因便是当地政客的无能。在连续三届、每届四年的任期内,该市共有7名市长如走马灯般上任。他们中几乎所有人都因为在公共管理上的不当行为,其中包括被指控贪污受贿,而引咎离职。
诸如珍纽瑞亚这样小城市通常不在巴西媒体的关注范围之内,巴西媒体的视线往往锁定在较大城市以及州府。然而却有这样一个机会,可以让小城市的居民组成一个监督政府行政管理的潜在同盟,因为这些来自小城市的居民比其他任何人更清楚地了解当地居民区日常所面临的挑战。互联网可谓是另一强大的同盟,通过互联网,现在,居民能够更方便地接触到有关当地预算以及当地其它方面的数据信息。
81
参加完十二期的研习班后,对于如何将在小城市里公开获取可利用数据的理念转化成实践,一些来自珍纽瑞亚的公民记者新手们开始展露头角。举例来说,22岁的公民记者索莱娅·阿莫瑞姆(Soraia Amorim)曾根据联邦政府的数据写了一篇关于该城所雇医生数量的新闻报道。然而,她发现,官方给出统计数据与该城的实际情况并不相符。为了完成这篇报道,索莱娅需要获取医疗数据,这些数据能够在SUS(Sistema Único de Saúde,独立医疗系统)的网站上在线获得,SUS是一个为巴西居民提供免费医疗救助的联邦项目。根据SUS所提供的数据,珍纽瑞亚市应配有各个专业的医师共计71人。
SUS所提供的关于该城医生数量的数据与索莱娅所了解的该地区医生的状况并不相符:当地居民总是在抱怨医生少,一些病患甚至需要跑到临近城市去看病。 之后,她采访了一位刚刚发生了摩托车事故的女患者,该妇女在珍纽瑞亚市的医院里没有得到医疗救助,因为这里根本没有可以为她治疗的医生。她还同该市的卫生部部长进行过交谈,该部长坦言,该市实际的医生数量少于SUS上所公布的医生数量。
索莱娅说:“我过去住在乡村,费了好大的劲儿才读完高中。”“当别人问我想要做什么时,我总是告诉他们,我要成为一名记者。但在我看来,因为我所生活的环境,这个梦想几乎不可能实现。”完成了珍纽瑞亚之友的培训之后,索莱娅相信,获取数据是改变珍纽瑞亚市现状的一个重要的工具。她补充道:“我觉得自己有能力为改变我的家乡,我的国家,甚至是整个世界出一份力。”
另一位来自该项目的公民记者是20岁的阿莱逊·蒙特尔里顿(Alysson Montiériton),它同样在文章中使用数据。在该项目的第一堂课上,公民记者们行走于珍纽瑞亚市,以期找到能够写成新闻报道的合适选题,阿莱逊决定写一篇关于该市一交通枢纽上交通灯被毁坏的文章。这个交通灯自年初就已损坏,至今仍没修好。他先是学会了如何在互联网上搜寻数据,之后,他又搜寻了该市现存的机动车的数量以及机动车拥有者所交纳的税额。他写道:
珍纽瑞亚市机动车数量非常多,因此交通状况不断恶化。根据IBGE(巴西最重要的统计研究机构)的统计,2010年,珍纽瑞亚市共有机动车13,771辆(其中摩托车7,979辆)。……该市的居民相信,市政部门一直拖延维修交通灯并不是因为缺少资源。根据米纳斯吉拉斯州财政部的数据,2010年,珍纽瑞亚市在机动车上的税收所得为470,000雷亚尔(约258,500美元)。
阿莱逊用这些数据可说明,珍纽瑞亚市机动车数量多(每5人中就有1人驾驶机动车),而这个毁坏了的交通灯会给很多人带来安全隐患。他甚至能够告诉读者,该镇从机动车拥有者所缴税款中所得资金数额,并且,根据这一数据,他能够质疑这些税款是否不足于维修这
82
些坏了的交通灯,从而为司机和行人营造安全的交通环境。
索莱娅和阿莱逊写得这两篇报道虽十分简单,但向我们表明:公民记者能够利用数据。你不需要同大批专业人员一起,呆在某个大型新闻编辑室中,用数据完成新闻稿。索莱娅和阿莱逊这两位完全没有任何记者背景的年轻人,经过该项目12期的培训,能在报道中以数据说话,增加说服力,并且编写出有关珍纽瑞亚市非常有趣的民生百态。此外,他们的文章表明,数据本身非常有用,即便它的规模可能不大。换言之,小规模的数据库和数据表上也存在有价值的信息——它们不仅仅存在于大型数据库中。
— 阿曼达·罗西(Amanda Rossi),珍纽瑞亚之友Friends of Januária
十七、选举结果大看板
对于任何的新闻组织来说,美国大选的结果给我们提供了一个叙述视觉故事的机会。但是,一直以来,我们都忽视了这个机会。在2008年,我们与绘图表为伴,力图改变这一局面。
我们一直想找到一种通过生动的新闻故事来展示总统选举结果的方法,而不是让人感觉仅仅是把数据堆在表格中或者地图上。在过去的几次选举中,我们恰恰也是这样、这样、或是这样做的。
但这也不是说给出一堆数据就必然就是错的,摆出数据也是一种方法。比如被我称之为“CNN式”的表格,就是表格、表格,不断地给出表格。这也行之有效,因为它非常确切地告诉读者想要了解的东西:谁赢得了总统大选?
但是这种方式的缺陷也非常明显,会让整个本是连贯的故事显得十分断裂。然而,如果彻底放弃这种形式而做一些与此完全迥异的东西,就会偏离人们所期待的结果。那么,我们所做的就会使事情变得更加混乱,而不是变得更清晰。
直到最后,图表部门的珊·卡特(Shan Carter)找到了合理的解决方案。我们后来把这种方式称之为“大看板”。当我第一次看到草图的时候,毫不夸张的说,它让我恍然大悟。这恰恰是我们想要的。
83
Figure 25. 总统选举结果[板(纽约时报)
具体来说,这一出色的视觉新闻是怎么组成的呢?首先,读者的目光会立马被顶栏中的选举团投票情况所吸引,我们在新闻写作中称之为_导语_。这种方式快速、简单、没有任何视觉干扰,一上来就能给到读者他们最想知道的内容。
接下去,读者视线将转移到美国各州选票分布的大看板。该看板由时报按照奥巴马和麦凯恩赢取每个州选票的可能性分成五列制图。大看板的最中间一列可对等于新闻写作中的主体段落,解释了为何奥巴马可以获胜。这种交互对比的制表明确显示了奥巴马拿下了所有预期的各州,以及五个“摇摆州”中的四个。
对我来说,五列的构造方法是视觉新闻的典型,它不同于其他形式的设计。理想情况是,一个真正出色的视觉新闻兼具美观与实用性。但是当我们要在故事和审美上做出抉择的时候,记者们必然会选择故事性这一边。虽然,这样呈现数据的版式布局并非专业的设计师所设想的那样,但是能将故事表达得非常清楚,让新闻充满可读性。
最后,和任何优秀的网络交互应用一样,我们要让读者进行更深度的阅读。同时我们也会淡化一些细节,例如各州的选票比例,选举人的票数以及比例。这样可以避免与故事主题发生冲突。
以上所有谈到的一切使得“大看板”成为一个非常优秀的视觉新闻作品,几乎完美的展现出了倒金字塔结构。
— 阿隆·菲尔霍夫(Aron Pilhofer),纽约时报
84
十八、众包水价
自2011年3月以来,整个法国境内对自来水价格信息的收集是通过对众包(crowdsourcing)的尝试实现的。仅仅4个月,5000多名对企业控制的自来水市场忍无可忍的民众花了不少时间找出他们的水费帐单,扫描并上传至水价(Prix de l’Eau)项目。结果,极客、非政府组织(NGO)和传统媒体共同带来一场史无前例的调查,来增加饮水工程的透明度。
Figure 26. 水价(法国自由基金会)
法国的水资源公用服务市场由一万多名客户(各城市购买的水资源,分销给纳税人)和廖若晨星的供水公司组成。这一寡头垄断的权力平衡偏向于供水企业,它们有时甚至对相邻城镇收取不同的价格!
在过去25年间,法国的非政府组织法国自由基金会(France Libertés)已在处理全球水资源问题。现在它将注意力放到了提高法国水资源市场的透明度上,提升公民和那些与供水公司谈判的市长们的权力。两年前,法国政府决定启动一次全国性的水价和水质普查来解决这一问题。迄今为止,只收集了3%的数据。为了加快进程, 法国自由基金会希望号召公民直接参与进来。
与OWNI小组一起,我为水价的网站设计了一个众包界面,用户可扫描水费帐单,并且输入他们支付的水费。在过去的4个月里,共有8500 人在这个网站注册,上传了超过5000份通过验证的水费单。
虽然,这对市场情况的评估来说并非万全之策,却向诸如国家水资源监察机构的利益相
85
关者表明草根阶层对自来水价格发自肺腑的的关注。起初,他们质疑存在透明度的问题,然而随着这一运作过程的不断推进,他们的态度有所改观,逐渐加入到法国自由基金会与暗箱操作和企业的不当行为作斗争。媒体组织从中能借鉴些什么呢? 牵手非政府组织
非政府组织需要大量数据以设计政策文件。比起报纸的管理层,他们更愿意为数据采集买单。
用户可以提供原始数据
一旦用户承担起数据的采集和提炼任务,众包能起到最佳效果。 提出数据源需求
我们反复掂量着是否要求用户扫描原始水费单,考虑到有些用户会望而却步(尤其因为我们目标受众的年龄偏高)。虽然我们可能因此失去一些用户,却增加了数据的可信度。 建立验证机制
我们设计了积分系统和用户互评机制以便评估用户的贡献。对于缺少重复访问动力的用户来说,这些机制被证明太过于复杂了。法国自由基金会的团队也曾使用过这一机制,对于十个左右的员工这套积分系统的确能起激励作用。 操作简单化
我们建立了一个自动邮寄机制,用户仅需点击几下鼠标,便可提交有关水价格的信息自由(Freedom of Information)请求。尽管创新独特且设计精美,但这个功能并没有带来高投资回报率(只寄出100份请求)。 瞄准目标受众
法国自由基金会与消费者权益新闻杂志_六千万消费者_(60 Millions de Consommateurs)合作,该杂志大张旗鼓地鼓励其读者参与这个活动。这一操作,两者可谓是珠联璧合。
精心挑选关键成绩指标(KPI)
在四个月内,这个项目只获得了4.5万名访客,相当于纽约时报网站15分钟的流量。然而真正重要的是,有五分之一的访客成为注册用户,有十分之一的访客花费时间扫描并上传了他/她的水费单。
— 尼古拉斯·凯瑟-布瑞尔(Nicolas Kayser-Bril),Journalism++
86
第四章 获取数据
一、5
分钟的学科指南
二、你对数据的权利
三、试试游说(Wobbing)数据! 四、从网络获取数据 五、把网页作为数据来源
六、《卫报》数据博客的众包式数据
七、《卫报》数据博客利用众包的报道奥运票务 八、数据的使用与分享:大纲,细则和现实
那么,你已经准备开始第一个数据新闻项目。下一步呢?首先,你需要一些数据。这章节讨论从何处获得数据。我们将会学习到如何在网上找到数据,如何运用信息自由法律向有关方面请求数据,如何使用“截屏”从非结构化的来源搜集数据以及如何使用“众包”从你的读者收集数据集。最后是哪些法律如何规定重新发布数据集,以及如何使用简单的法律工具确保别人也能够重复使用你的数据。。
一、5分钟的学科指南
寻找关于一个特定的主题或问题的数据?不确定有什么数据或在哪儿找到这些数据?不知道如何入手?在这一小节我们来看看如何在网上寻找公共数据资源。 精细你的搜索关键词
尽管这些数据常常不容易找到,但是实际上很多数据库都已经被搜索引擎所收录,不论这是否出于发布者的本意。这里有几点建议:
当你搜索数据时,一定要包括与你所要寻找的数据内容相关的搜索术语,以及你所希望的格式或来源的信息。谷歌和其他搜索引擎都允许你通过文件类型搜索。例如,你可以只搜寻电子表格(通过添加您搜索的文件类型:\"filetype:XLS filetype:CSV\"),地理数据
87
(\"filetype:shp\"),或数据库提取(\"filetype:MDB,filetype:SQL, filetype:DB\")。可能的话,你甚至可以查找PDF格式的(‘文件类型:pdf’)
您也可以通过搜索URL的一部分。Google的\"inurl:downloads filetype:xls\"功能能帮你找到所有的已经“下载”'到在他们网络服务器上Excel文件(如果你已经找到了单个下载文件,这个搜索关键词往往能帮你在服务器上同一文件夹中的找到其他结果)。你还可以限制只在某一个单一的域名中的结果,比如通过搜索\"site:agency.gov\"。
另一个经常使用的诀窍是,不直接搜索内容,而是搜索可提供批量数据的位置。例如,\"site:agency.gov Directory Listing\"可以给你一些由服务器生成的容易获得的源文件的列表,如果用\"site:agency.gov Database Download\"的话就会为你搜寻人工创建的列表。 直接寻找源文件
要说如何拿到公共数据,我的第一个绝招就是尝试直奔数据持有者,不是公众人物,也不是通过信息自由申请。我当然能精心制作一份通过信息自由法案的申请或者公开记录的请求,但是效率会很慢。很可能我就会得到回应说数据跟我申请的格式不一样,或者(像有些案例里那样)政府部门会使用专有软件,无法按我请求的数据格式那样提取出来。但是,如果我一来就成功联系上持有某组织数据的人,我就可以直接问他关于某主题都有什么数据和存储方式。再者,我熟悉数据语言,知道如何成功地请求获取数据。你要问这种途径的障碍?障碍时有发生,你很难联系上这些人。公开信息官员(PIO) 会想让我去跟他们谈。我发现在有的案例中,最好的方式是发起一个会议请求,当然如果能和公开信息官员,数据高手一起私下会面就再好不过了。我也能用一种让他们很难拒绝的方式来请求。“我不想给他们增麻烦,''我说。``我不想给他们增添不必要的负担或者漫无边际的请求,所以一次会面能让我确切地了解他们有什么,以及对我能最顺利准确请求到数据所必须知道的那些。”
如果这种方法不奏效,我的备案是在请求中首先就问他们数据记录的结构和数据字典。下一步我才真正的去申请数据本身。我有时也会问他们如何存放数据,存在什么系统里。通过这种方式我就可以研究这些数据都能用哪些方法导出,这对申请来说非常有好处。
最后要说的是,我最成功的一次经历来在当我还为蒙特纳的一家小报工作的时候。我需要一些统计数据,但是我被告知我想要的数据没法从主机中导出来。我当时研究了一番,然后主动请缨去帮助他们一起解决数据导出的问题。我和管数据的人一同,写了一些简短的代码,最终把数据打印到了软盘里(那是很久以前的事了)。我得到了我的数据,并且我们开发的这个统计小工具也被他们所配备,就能给请求数据的人提供数据了。他们没料想到这样的事会发生,但是有时他们自己也需要提取一些数据。他们完全不了解他们的系统,所以我
88
们互相帮助。
— 谢丽尔·菲利普斯(Cheryl Philips),西雅图时报 浏览数据网站和服务
近几年在网络上涌现出大量专门的数据门户网站、数据中心和其他数据网站,在这里你可以找到各种公开的数据。如果你是个新手,可以先去看看这些资源:
Figure 1. datacatalogs.org(开放知识基金会)
官方数据门户
政府发布数据的意愿在国家之间差别很大。越来越多的国家都开设了数据门户网站(受美国的data.gov以及英国的data.gov.uk所启发)去促进民众或企业对政府数据的再利用。在datacatalogs.org这个网站上,你可以找到这些数据门户网站最新的索引信息。。另一个有用的网站是卫报世界政府数据,这是一个元数据搜索引擎,囊括了许多国家的政府数据条目。
The Data Hub
一个由开放知识基金会运作的以社区推动型(community-driven)数据资源,这让寻找、分享、再利用这些开放数据变的非常简单,特别是以机器自动化的方式来进行数据操作。 ScraperWiki
89
一个在线工具,其目的是“简化有用数据的提取,使这些数据便于应用到其他应用程序,或者提供给记者和研究人员”。大多数的数据提取网站及其数据库都是公开的,可以重复使用。
世界银行 和联合国 数据门户网站
世界银行和联合国的数据门户网站:为所有国家提供高水平的指标参数,数据通常可以追溯到多年以前。
Buzzdata,Infochimps, 和DataMarket
一些旨在建立社区数据分享和转售的新兴公司。 DataCouch
一个能上传、完善、分享及数据可视化的网站。 Freebase
Freebase是谷歌旗下的一个很有意思的子公司,“由一帮热爱开放数据的团体开发,提供人、地址以及物体的实体图”。 研究数据
许多国家和学科都会对科研数据进行汇总,如英国数据档案。其中有大量的数据可以免费访问,但也有不少是需要订阅,或需要管理机构同意才可使用和分发。 从纸质文档中获取数据
正是在维基解密发布美国军方在阿富汗和伊拉克战争文档之后,我们决定遵循着这种概念,发布阿尔及利亚战争日记以纪念阿尔及利亚战争五十周年。我们开始去搜集并数字化法军在阿尔及利亚战争中的档案。这些可以在巴黎战争档案部都可以拿到,尽管都是纸质的。我们把这些档案分发给记者和学生,让他们把这些纸质档案拍成照片。我们也曾尝试过用佳能P-150便携扫描仪把他们扫描下来,但效果不是很好,主要因为这些档案都被装订过了。 最后,在几周之内收集到了大概有一万页的档案。我们试过用文字识别软件(ABBYY FineReader)去识别这些图片,但是结果不尽人意。还有就是,战争档案部门断然拒绝向我们提供另外几箱最有价值的档案。最重要的是,战争档案部禁止任何人再出版那些能被随意拍照关于地点的文档,所以我们决定不去冒这个风险,这个项目也就被搁置了。 — 尼古拉斯·凯瑟-布瑞尔(Nicolas Kayser-Bril),Journalism++ 在论坛上发问
在Get The Data或Quora上搜索现成的答案或者提出问题。GetTheData是一个问答网站,你可以在上面问数据相关的问题,包括在哪里可以找到有关某一具体问题的数据、如何
90
查询或检索某个特定的数据源、使用什么工具对数据进行可视化探索、如何净化数据或是如何转变成你可以使用的格式。 在邮件列表中发问
邮件列表是整个团体在某个特定主题上的的智慧结晶。对于数据记者而言,数据驱动新闻列表(Data Driven Journalism List)和NICAR-L列表都是非常好的例子,不妨从它们开始。这些邮件列表上长期驻扎着从事各种项目的数据记者和计算机辅助报告 (CAR, Computer Assisted Reporting) 的极客。很可能其中有人做过跟你类似的项目,他即使不知道数据本身的链接,也可能有从何入手的想法。你也可以试试Wombat项目(“`一个针对引用困难问题的讨论列表”)开放知识基金会的许多邮件列表、theInfo上的邮件列表,或寻找关于你所感兴趣的主题或领域的邮件列表。 加入黑客/骇客(Hacks/Hackers)
Hacks/Hackers是一个在迅速扩张的国际草根新闻组织,在四大洲有着数十个分会和成千上万的成员。其任务是建立一个重新思考新闻和信息的未来的记者(\"hacks\")和技术专家(\"hackers\")的网络。在这样一个广泛的网络中,很有可能有人知道去哪里搜索你所要的数据。 请教专家
教授、公务员和业界人士通常知道到哪里查找数据。给他们打电话、发电子邮件、找机会跟他们搭讪、拜访他们的办公室。然后彬彬有礼的询问:“我正在做一个关于 X 的报道。我在哪儿能找到相关数据吗?你知道谁有这方面的信息吗?” 了解政府信息技术
了解各国政府在维护信息中所使用的技术和管理体系,这在访问数据时常常会很有帮助。不论是CORDIS(欧盟研究与发展计划相关资料库)、COINS或THOMAS,一旦你了解到一些关于这些缩略词所代表的大型数据库的预期目标,它们经常会成为你最有用的资料来源。 查找政府组织结构图,找出具有交叉职能(如报告、IT服务部门)的部门或单位,然后浏览他们的网站。很多数据保存在多个部门,可能在一个部门视作掌上明珠的某个数据库,在另一个部门就是免费的午餐。
在政府网站上寻找动态信息图表。这些图表通常是由可独立使用的结构化的数据源或应用程序编程接口所支持的(例如,飞行跟踪程序和天气预报的java应用程序)。 用电话记录来“钓鱼”
几个月之前,我想去剖析时任总统候选人所在的得克萨斯州政府。具体来说,我想要瑞
91
克佩里(Rick Perry)的手机通话记录。那是我们已经期待已久的国家公开记录的申请结果。拿到手的数据是120页以上只有传真质量的档案。我们颇费了一番功夫进行数据录入和清理,再通过WhitePages.com的API去反向查询电话号码。
将这些人名与州和联邦政府(FEC)选举数据对应起来以后,我们发现佩里通过州政府工作电话伸手拿到了大量的选举经费和超级政治行动委员会(PAC, Political Action Committee)资助,这种令人不悦的做法掀起了对他和他所倾心的“`超级政治行动委员会”之间勾连的质疑。
— 杰克·吉勒姆(Jack Gillum),美联社 重复尝试搜索
当你知道更多数据相关的信息后,用你上次搜索所注意到的重要关键词组再搜索一次。这样你没准就走运搜到了你想要的数据! 撰写一个信息自由请求
如果你认为政府机构握有你所需要的数据,写一个信息自由(Freedom of Information)请求书可能是最好的办法。有关如何撰写文件更多信息请参阅下一章节。
— 布赖恩·博耶(芝加哥论坛报),约翰·基夫(美国纽约公共广播公司),弗里德瑞克·林登伯格(开放知识基金会),简·帕克(Creative Commons), 克里斯·吴(Hacks/Hackers) 当法律失效
我阅读过一篇学术文章 scholarly article 解释说公布洛杉矶的餐馆卫生状况检查结果可减少食品相关的病例, 于是我要求巴黎卫生系统提供其检查清单。据法国自由信息条例规定的程序,我等了三十天才收到了他们拒绝的答复,随后我转到可以裁决信息公开有效性的公众数据公开委员会(CADA法文)。 CADA支持我的请求,命令行政系统发布数据。行政部门于是要求两个月的宽限期,并获得CADA同意。两个月后,行政系统仍然无动于衷。 我试图通过一些支持数据公开的公众人物(以及有钱人)打官司(这是5千欧元的官司,有CADA撑腰包赚不输),可惜他们担心损害了他们与官方数据项目的关系。这只是众多案例中之一,但可看出法国政府部门完全罔顾法律,官方无意支持基层民众对于数据的需求。 — Nicolas Kayser-Bril, 记者++
92
二、你对数据的权利
在发出信息自由 (FOI) 申请之前,你应该查一下正在搜索的数据是否已经公开,或者是否已经有人提出过申请。你可以从上一章查阅其中的几个建议。如果你已经找了一圈还是没有得到所需要的数据,你可能就想要提交一份正式的申请。这里有一些提示,可以让你的申请更为有效。 提前计划 节省时间
每当你在搜索信息的时候,就要考虑提交一份正式的访问请求。最好不要等到用尽其他办法再作打算。在研究开始之时提交请求,同时开展其他调研,这样会为你节省时间。对拖延有所准备:公共机构有时需要一段时间来处理请求,所以你最好是对这一情况有所预期。 查看收费规定
在开始提交申请之前,查一下有关提交申请或接收信息的收费规定。这样一来,如果政府官员突然问你要钱,你会对自己的权利心里有数。你可以索要电子文档来避免拷贝和粘贴的成本,所以在申请中要写清楚你更希望获得电子格式的信息。这样就可以避免支付费用,除非是信息没有电子文档。不过现今通常可以将没有数字化的文件扫描,而后以电子邮件的附件的形式发送。 知晓你的权利
在开始之前搞清楚自己的权利,这样你就知道自己拥有何种权利以及公共部门的义务所在。例如,大部分信息自由法对当局的回复有一个时间限制。在全世界大多数法律中,该范围从几天到一个月不等。在你申请之前确定这一期限,并在提交申请时作好记录。 政府没有为你处理数据的义务,但应当向你提供他们所有的资料。如果根据政府所履行的法律能力应当提供某个数据,那么他们肯定应当为你制作。 声明你知道自己的权利
通常法律并没有要求你提及访问信息法或者信息自由法案,但建议你这样做,因为它表明你知道自己的合法权利,并且可能鼓励依法正确处理申请。我们注意到对于欧盟的申请,其中重要的一点是写明这是一个文件访问申请,而且最好具体写明是提案1049 /2001。 保持简洁
不论在哪个国家,最好都从一个简单的信息申请开始,如果得到了初步信息,然后再增加更多的问题。这样,你就不会因为提出一个“复杂的请求”而冒被公共机构申请延期的风险。 保证重点
93
申请由公共部门的一部分保有的信息,可能会比需要搜索整个部门的回复来得更快。需要官方咨询第三方(例如提供信息的私营公司、受其影响的其他政府)的申请可能会花费特别长的时间。你要持之以恒。 考虑文件所包含的信息
试着找出所整理的数据。举个例子,假如你在交通事故后拿到一张警察填写的表单空白副本,你就可以看出他们记录了哪些有关车祸的信息。 针对具体问题
在你提交申请之前,想想:它有什么含糊不清的地方吗?如果你计划比较来自不同官方部门的数据,这一点尤其重要。打个比方,如果你索要过去三年的数字,一些部门会发给你过去三个日历年的信息,而其它部门则发给你过去三个财政年的信息,你不可能直接比较这些信息。如果你决定要把你真正的申请隐藏在一个更普遍的申请当中,那么你的申请范围应当足以获取你想要的信息,但也能太过泛泛而用意不明或有碍回复。具体而明确的申请往往能够获得更快更好的答案。 提交多个申请
如果你不确定向谁提交申请,你完全可以在同一时间向两三个或更多的机构提交申请。在某些情况下,各机构会返回不同的答案,但这实际上是有帮助的,可以为你所调查的项目上提供更全面的信息。 提交国际申请
越来越多的申请可以以电子方式提交,所以你住在哪里并不重要。或者,如果你没有生活想要提交申请的国家中,有时可以将申请发送到大使馆,而他们应将其转移给公共机构。你需要先查看相关使馆是否有这类服务,有时使馆工作人员没有接受过对信息权利的培训,如果看似是这种情况,直接向有关公共机构提交申请是更安全的做法。 进行申请测试
如果在你打算给许多公共当局发送同一申请,开始的时候可以给几个部门发一份初步的申请草案作为提前测试。这会告诉你是否使用了正确的术语来获取想要的材料,以及回复你问题的可行性,这样你就可以在发送给各个部门之前对申请进行必要的修改。 考虑好意外情况
如果觉得你的申请可能会出现意外,那么在准备申请之时,你可以把可能存在敏感信息的问题与其它根据常识不会出现意外的信息分开。然后把你的问题分成两项申请并分别提交。
94
请求对文件的访问
如果你住在保存信息的机构附近(例如在存放文件的首都),你也可以要求查看文件的正本。当研究信息可能保存在大量的你想查阅的文献中时,这会是非常有用的。这类查阅应当是免收费用的,而且可以给你安排在一个合理和方便的时间。 自己留一份记录!
以书面形式作出申请,并保存一份副本或记录,以便在将来如果未收到答复需要作出上诉时,能够证明你的申请已经发送。并且假如你打算做一个有关报道,这也可以提供了申请提交的证据。 公开你的申请
通过把你提交的申请公开化可以加速回复的速度:如果你撰写或广播一个关于你已提交申请的报道,这可以对公共机构施加压力使其处理和回复你的申请。在收到对申请的回复后,你可以更新信息;如果超过截止时间仍没有回复,你也可以把这做为一个新闻报道。这样做还有一个好处,就是教育大众有关信息的访问权以及如何实践。
Figure 2. What Do They Know? (My Society)
发展你的同事
95
如果你的同事对信息申请访问的意义持怀疑态度,说服他们的最佳途径之一就是根据信息法所访问到信息写一篇报道。在最后一篇文章或广播片段中也把你所用到的法律推荐给公众,作为一种强调其价值并提高公众的权利意识的方法。 索要原始数据
如果你想要用电脑分析、挖掘或整理数据,那么你应当明确索要电子化的机器可读的数据格式。你可以通过详细说明来阐明你的要求,例如你需要“`适用于会计软件分析”格式的预算信息。你可能还希望明确索要非汇总过的或松散表格的信息。关于这一点,你可以扩展阅读此报告。
询问FOI法律之外的组织
你可能希望找到有关非政府组织、私营公司、宗教组织和其他组织中在FOI法律下并不需要公开的文件。但是通过询问FOI法律所涵盖的公共机构你可能找到有关的信息。例如,你可以询问政府部门或部委是否资助过或处理过某个特定私人公司或非政府组织,并申请支持文件。如果在 进行FOI申请需要进一步帮助,你还可以查阅 记者所应该知道的法律漏洞(Legal Leaks tookit for journalists)。
— 海伦·达比希尔(Access Info Europe)、Djordje·Padejski(斯坦福大学奈特新闻会员)、马丁·罗森鲍姆(英国广播公司)和法布里齐奥·斯科诺利尼(伦敦政治经济学院)
利用“信息自由”了解公共支出
我曾经用不少方式应用FOI,以更好的了解COINS,它是最大的英国政府开支、预算、财政信息数据库。在2010年开始的时候,乔治·奥斯本透露他如果当选财政大臣,就会开放COINS,以促进财政部的信息公开透明。这看起来是个研究COINS中的各项数据的好时机,我便递出了几个FOI申请,一个是数据库的架构,一个是财政部官员在使用COINS时的指南,一个是财政部和数据库提供者之间 签订的合同。这些都最终被以实用信息而 被公开了。我还申请了公开所有的开支项目代码,也被公开了。乔治·奥斯本当2010年5月当选财政大臣,并于6月公开了COINS,而前面这些工作,都让我们对COINS有了更好的了解。数据库中的数据被多个网站应用,并鼓励公众自行研究这些数据,包括OpenSpending.org和《卫报》的Coins Data Explorer。
经过一段时间的研究,发现数据库中似乎有很大一部分的数据是缺失的,政府整体财务报告(Whole of Government Accounts (WGA)),其中包括1500组公共部门的合并财务报告,就是不公开的。我曾经用FOI申请了2008-2009年度的WGA信息,但是显示无效。我还申请
96
了负责WGA的审计部门的报告,希望能解释为什么WGA的信息是不能公开的,不过这个申请也被拒绝了。
2011年12月,WGA在COINS中被公开了。我想为WGA提供的合并财务报告中的1500个组织各自建立一个完整的信息包,为了在这样的实践中得到足够的指导和帮助,我用另外一个理由使用了FOI:为了确保在英国信息透明计划指导下公布的信息都被合理的解释并包含必要的内容。我通过FOI申请了WGA中各个公共部门的完整财务信息。
— 丽莎·埃文斯(Lisa Evans),卫报
三、试试游说(Wobbing)数据!
利用信息自由法案,有时也被称之为数据游说,是非常有效的工具。但它需要一定的方式方法,往往更要靠毅力。这里用三个我作为调查记者的亲身经历,来说明数据游说的长处与挑战。
个案研究1:农业补贴
欧盟每年将近补贴600亿欧元给农民以及整个种植业。没错,是每年。从20世纪50年代后期开始持续到现在,这一直作为政策上对贫穷农民补贴。然而在2004年丹麦,作为FOI的第一次突破,揭露了这仅仅是政策上的表述而已,并没有落到实处。小农场主们像他们时常私下里或公开抱怨的那样不断挣扎着,事实上大部分的钱都流向了少数大地主手中或农产业里。所以,很显然我想知道:在欧洲都是这样的吗?
2004年的夏天,我向欧盟委员会索要数据。每年二月,委员会都会收到各成员国的数据。数据显示谁申请欧盟拨款,受资助的受益人得到多少,以及他们是否通过耕作他们的土地、开发他们的地区或者出口奶粉而得到。当时,委员会以存在CD光盘的CSV格式文件收到数据。虽然数据量很大,但原则上这都很容易完成的工作。只要你能拿到数据,那就简单了。
在2004年,委员会拒绝公开数据;主要的争论点是,数据上传到数据库之后还要做大量工作,才能把想要的数据提取出来。按欧洲司法监察机构的说法来看,这就是_行政失当_。现在你可以在wobbing.edu的网站上找到有关这个案例的全部文档。回到2004年,我们那时候可没有时间一步一步走法律程序。我们想要的是数据。
97
Figure 3. 农业补贴网站 (Farmsubsidy.org)
所以我们和一些同伴组成团队,为了获取数据跑遍了欧洲的每一个国家。英国、 瑞典、和荷兰的同事拿到了2005 年的数据。芬兰、 波兰、 葡萄牙、 西班牙、 斯洛文尼亚和其他一些国家也开放了他们的数据。即使在最难的德国,我也获得了重大突破,拿到了威斯特伐中省的北莱茵-利亚(North Rhine-Westfalia)一些2007 年的数据。为了拿到数据我不得不走上法庭——最终的结果是,一些相当优秀的报道文章刊登在了Stern and Stern在线新闻杂志上。
难道丹麦和英国最早开放他们的数据是巧合吗?不一定。从更大的政治图景来看,彼时农业补贴问题正在世界贸易组织谈判中被施压。因为丹麦和英国属于欧洲里更偏向自由派的国家,所以这些透明的政治风向更可能吹向他们。
报道仍在继续,更多的事件和数据请查阅农业补贴官方网站。
心得:去各个地方“游说”数据。在欧洲,我们有多种多样到令人吃惊的信息自由法,并且不同的国家在不同时期会有不同的政治利益关系。你大可以好好利用。 知晓你的权利
当你发布数据的时候,你不是应该考虑一下版权问题和其他有关数据的权利?虽然你应该和你的法律团队一起搞清所有的法律问题,但一般来说:如果数据是由政府发布的,那你既不用请求宽恕也不用请求许可;如果这是由组织发布的,且数据并不是为了盈利,那你也不用太过操心;如果这是组织发布的数据且是出于盈利目的,那你一定要请求允许。
98
— 西蒙·罗杰斯(Simon Rogers),卫报 个案研究2:副作用
吃药的时候我们都是被拿来作试验的小白鼠。药物都会有副作用。尽管众所周知,我们会在衡量过潜在的好处和风险之后,再作出(是否服用的)决定,但不幸的是这一决定往往都不是明智的。
青少年们是为了拥有更光滑的皮肤服而服用抗粉刺药,而不是想让自己变的抑郁。这样的事恰恰就发生在一种抗粉刺药上,青少年服用之后变得抑郁,甚至导致自杀。这种危险的特定药物副作用,显然是记者们追逐的新闻题材,可惜副作用案例不易找到。
有关药物副作用的数据是有的。生产者必须定期向卫生当局提供观察到的有关副作用的情况。从药物获准上市开始,国家或者欧洲有关当局就已经拿到这些数据。
同样,在国家层面的最初突破口始于丹麦。在一个由丹麦-荷兰-比利时三国团队进行的跨境研究期间,荷兰也开放了他们的数据。数据游说的另一个例子: 我们的这个案例可以明确指出一点,荷兰当局的数据可以在丹麦拿到。
但这是个真实的故事:在欧洲已经发现有自杀倾向的年轻人很悲剧地因为服食药物而最终自杀。新闻工作者、 研究人员和年轻受害者的家属都在用尽全力去获取这些信息。欧洲监察员也在帮助推动在欧洲药品管理局的透明公开,而且看起来好像成功了。所以现在的任务落到了记者头上,摆出数据并彻底剖析这些材料。我们都是豚鼠吗?或正如一位研究人员所说,监控机制健全吗?
心得:关于信息透明公开的问题绝对不要妥协。坚持下去并且随着故事的发展推进下去。事情可能会有很好的转机,或许因此在短时间内就能拿到更好的数据,写出更好的报道。 个案研究3:走私死亡
最近的历史发展对全人类来说都异常煎熬,尤其是在战后和转型时期。记者又如何可以获得“干货”数据进行调查, 譬如,当最近十年战争的赢家开始掌权的时候?这正是一个由斯洛文尼亚、 克罗地亚、 波斯尼亚记者所组成的团队所追求的目标。
该团队旨在调查90年代初联合国禁运期间前南斯拉夫境内的武器交易。工作的基础是议会对这个议题的调查记录。然而,为了记录下来他们的运送路线并了解交易结构,记者们还必须要去跟踪港口的船只数量和卡车的车牌。
斯洛文尼亚议会委员会曾主持调查从巴尔干战争谋取暴利的问题,但从来没有得出什么结论。然而他们尚有解密文件和数据中极富价值的线索,包括斯洛文尼亚团队通过信息自由请求拿到的6,000页文件。
99
在这种情况下,数据还必须从文件中提取出来并在数据库中分类整理好。通过补充更多数据一同进行分析和研究,他们绘制出了大量的非法武器贸易路线。
整个团队非常的成功,结果也很独特,并且为团队赢得了他们的第一个奖项。最重要的是,这些报道影响了整个地区。同时,其他国家的记者还能够跟进调查,继续挖掘这些杀伤武器货物运输路径的报道。
心得:关键是挖掘好的原素材,哪怕是从最意想不到的地方着手,再结合一些已经公开的数据进行分析。
— 布里奇特·阿尔夫特(Brigitte Alfter),Journalismfund.eu FOI with Friends
许多巴尔干地区国家都有政府腐败的问题。腐败问题在这些地方政府的问责中尤为严重。几个月以来,贝尔格莱德的调查报道中心附近一批塞尔维亚记者,一直在探询2009年当地三十多个自治区政府不同的FOI文件。这之前,几乎没有任何公众可以接触到的此类信息。这样做是想得到各报告中的原始信息,通过电子表格检查、对比,得出各个自治区中的最大值、最小值。基本的项目包括预算数字、常规和特殊开支、官员薪水、差旅费、雇员数量、手机话费、每日津贴、政府采购等等。这是记者第一次申请这类信息。
得出的结果是一个综合性的数据库,揭露了数不清的虚假陈述、违法行为、腐败案例。一份收入最高的市长的名单展示了其中几名的收入甚至高于塞尔维亚总统。许多官员的收入都过高,大多数都收到巨额的差旅报销和津贴。辛苦得来的政府采购数据,更是揭露了官方面临的烂摊子。这个数据库造就了超过150个专题报道,其中许多都被塞尔维亚地方和中央媒体报道了。
由此我们知道,来自同级政府的这些可以对比的数据,比较后可以展示出明显的违规行为并阻止潜在的腐败行为。夸张、不正常的开支只能通过对比发现。
— Djordje Padejski,奈特新闻基金会,斯坦福大学
四、从网络获取数据
你是否已尝试了各种方法,却仍未获得需要的数据?也许有时你在网页上已经找到所需数据了,只是上面并没有下载按钮,复制粘贴功能也用不了。不要着急,这里有一些实用的方法,比如你可以:
从基于网页的API接口获得数据,这包括在线数据库提供的用户界面以及各种新式的网
100
络应用(比如Twitter、Facebook等等)。这是获得政府和商业机构数据的好方法,在社交网站上也很有效。
从PDF文档提取数据。这很困难,因为PDF是一种针对打印机的格式,里面存储的数据结构和一般文档极为不同。从PDF提取数据比从一本书中提取要困难得多,但还是有一些工具和操作指南可以帮助你完成这项工作。
利用有网页抓取功能的网站。在这类网站上,你可以借助其提供的实用工具或是自己写一段建议代码从普通网页上提取结构化的内容。这种方法十分强大,适用于许多情况,但这要求你了解一些关于网页的知识。
借助这些强大科技功能的同时,也别忘了简单易用的方法:花点时间搜索机器可读的数据,或者给持有所需数据的机构打电话都可能会帮助你拿到你想要的数据。
在本节我们将展示一则从HTML网页上极为简单的抓取范例。 什么是机器可读的数据?
大多数方法的目的都是为了获得机器可读的数据。机器可读的数据是为方便计算机处理而生成的,而不是为了向人类用户展示。这些数据的结构与其内容相关,但与数据的最终展示形式不同。简单的机器可读数据格式包括CSV、XML、JSON和Excel文档等等,而Word文档、HTML网页和PDF文档则更侧重于数据在视觉上的呈现。PDF是一种与打印机交互的语言,它记录的信息并不是一个个字母,而是线与点在页面上的位置。 从网页上抓取什么?
这种事情每个人都做过:你在某网站上浏览时发现一个有趣的表格,想把它复制到Excel中便于计算或是存储下来。但有时这种方法并不奏效,有时你所需要的数据又分布在好几个网站的页面上。手动复制粘贴太乏味了,而用一些小代码可以令你事半功倍。 网页抓取的一大优势是其几乎可以用于所有网站,无论是天气预报还是政府预算。即便该网站并未提供针对原始数据访问的API接口,你同样可以抓取。 网页抓取的局限性
抓取不是万能的,也会遇到障碍。网页难以抓取的主要因素有: HTML编码拙劣,结构信息很少或者压根没有,常见于早期的政府网站。 网站有防止机器自动访问的验证系统,如CAPTCHA验证码和付费系统。 使用浏览器Cookies存储用户信息获得用户动作再给出内容的会话系统。 网站未提供完整的分类列表和通配符搜索功能。 服务器管理员对大量访问做出了限制。
101
另一方面,法律限制也会成为障碍。部分国际承认关于数据库的权利,这会限制你重复利用在网络上公开发表的信息。有的时候,你可以无视这些法律条款仍然进行抓取,这取决你所在地的司法管辖权,如果你是记者的话也会有一些特殊的便利。抓取免费的政府数据一般没事,不过在发表之前还是应当再查一遍。商业组织和部分NGO对数据抓取行为采取几乎零容忍的态度,他们会指控你“破坏”他们的系统。其他可能侵犯个人隐私的数据则会触犯数据隐私法令,也与职业道德相背。 Patching, Scraping, Compiling, Cleaning
英国面临的挑战不是公开这些数据,而是如何让数据以可使用的形式呈现。例如外事接待、议员的外部利益、游说等等数据都是按照常规定时公布的,但是却很难展开分析。 有些信息要想有价值,只能是非常费劲的的把很多excel文件拼凑在一起,每个文件都是又很多报告数据组成的,例如内阁会议。但是对另外一些信息来说,网络抓取是十分有效的途径。
使用类似ScraperWiki的服务,请程序员制作一个抓取例如议员利益登记表的程序,我们工作的一半就已经完成了:所有议员的信息都在一个表格里,等着我们去分析和整理。 类似的服务(或者类似Outwit Hub)对于不会编程的记者来说,是尝试处理复杂数据的好帮手。
— 詹姆斯·贝尔(James Ball),卫报 抓取工具
有许多程序可用于从网站提取大量信息,包括浏览器扩展程序和一些网络服务。Readability(从网页上抓取正文)和DownThemAll(批量下载文件)工具可以在部分浏览器上自动处理繁琐的任务,Chrome浏览器的Scraper插件可以从网站上提取表格。针对开发者的扩展程序FireBug(针对Firefox浏览器,Chrome、Safari和IE已内置类似功能)可以让你清晰了解网站结构和浏览器与服务器之间的通讯。
ScraperWiki网站提供包括Python、Ruby、PHP在内的多种语言供用户自行编写抓取代码。这使得用户不再需要在本地安装语言环境便可编码进行抓取工作。另外Google电子表格和Yahoo! Pipes等网页服务也提供从其他网站提取内容的服务。 网页抓取工具如何运作?
网络抓取工具通常是用Python、Ruby或PHP写成了一小段程序代码。具体选择哪一种语言取决于你的周围,如果你的新闻机构或者同城市的同行中有人已开始用某种语言进行编写,你最好也采用同样的语言。
102
虽然前文提到的点击选择工具可以帮助你上手,但真正复杂的步骤是确定正确的页面和页面上存储所需信息的正确元素。这些步骤的关键并不在于编程,而在于对网站和数据库结构的了解。
浏览器在展现网页时主要运用以下两种技术:通过HTTP协议与服务器通讯,请求获得文档、图片、视频等指定资源;然后获得以HTML编码写成的网页内容。 网页的构造
每个HTML网页都是由有一定结构层次的“盒子”构造的(由HTML“标签”定义)。大的“盒子”中又会包含小的“盒子”,就像一个表格中有行、列和单元格一样。不同的标签有不同的功能,可以定义“盒子”、表格、图片或者是超级链接。标签也有附加属性(比如唯一标识符),并可被定义在“类”中,这便于我们定位和获取文档中的独立元素。编写抓取工具的核心就是选择合适的元素从而获取对应的内容。 查看网页元素时,所有代码都可按照“盒子”进行分割。
在开始抓取网页之前,你需要了解HTML文档中会出现哪些类型的元素。举例来说,