搜索
您的当前位置:首页正文

数据新闻手册

来源:榕意旅游网
数据新闻手册

前言

本书讲了哪些内容(又没讲哪些内容)

本书计划成为所有想成为数据记者或者对数据新闻感兴趣的人的实用参考资源。 很多人都参与到本书的撰写当中,通过我们的编辑,我们尽可能的想让他们不同的声音与观点通过这本书产生更大的影响。我们希望整个阅读过程就像是一段宝贵又有价值的对话,关于什么是数据新闻,为什么它很重要,如何去做数据新闻。

可悲的是读本书并不能提供给你足够多内容,涵盖所有成为数据记者所需要的知识与技能。那需要一个囊括几百名专家就成百上千个话题下相关问题答案的图书馆才行。幸运的是,这个图书馆确确实实存在于世上,它叫做互联网。我们希望此书能告诉你如何才能开始,你应当看些什么才能让你走的更远。本书中的例子和教程都是一些概览性和说明性的,而并没有详尽的展开。

我觉得我们很幸运有能从所有贡献者身上获得足够多时间、能量和耐心,我们也尽可能发挥得恰到好处。我们希望——更作为一份有用的参考来源——这本书能记录下这一新兴发展中所有的激情与热血,眼光与能量。本书想要

本数据新闻手册仍在进展当中。如果你认为有任何需要增加的或者明显缺少的,请大声告诉我们以包含在下一个版本中。本书可以在Creative Commons Attribution-ShareAlike下自由获取,我们大力鼓励你与任何可能对本书感兴趣的人分享这本书。 Liliana Bounegru (@bb_liliana) Lucy Chambers (@lucyfedia) Jonathan Gray (@jwyg) 2012年3月

1

第一章 入门

一、何为数据新闻 二、为何记者要运用数据 三、经典案例 四、数据新闻的视角

第一节 何为数据新闻

何谓数据新闻?简而言之,就是用数据处理的新闻。但这种解释也不甚明了。

“数据”和“新闻”都是令人棘手的词语。有些人认为数据就是就是大多出现在电子表格中的一堆数字。二十年前,这很可能是新闻的唯一处理内容。然而如今,我们生活在一个数字化的世界---这世上几乎任何事物都能用数字来描述。

你的就职经历,包括你的朋友圈中的人物,在长达三十万份的机密文件中被“1”和“0”所取代。照片、视频和音频,乃至凶杀、疾病、政选投票和腐败、谎言也是依样画葫芦处之被 “0”和“1”所取代 。

数据新闻同其他新闻形式的不同之处在哪里呢?数据新闻为把传统的新闻敏感性和有说服力的叙事能力,与海量的数字信息相结合创造了新的可能。

同样的可能性也出现在记者的工作过程中。正如阿德里亚·哈罗瓦提(Adrian Holovaty)在芝加哥犯罪数据与街区网中所做的一样,通过计算机编程对当地政府、警署以及其他城市来源的信息进行自动化的采集与整合。甚至可以使用软件来找出千万份文件之间的联系,就像《每日电报》对议员消费的数据分析一样。

2

Figure 1. 议员消费调查 (卫报)

数据新闻能够帮助新闻工作者通过信息图表来报道一个复杂的故事。比如说,汉斯·罗思令(Hans Rosling)通过Gapminder这款软件以可视化的方式讲述世界贫困问题,他这种打动人心的表现方式吸引了全球几十万人的关注。还有大卫·麦克坎德雷斯(David McCandless)从大数据中提炼关键的工作——如把公众消费、冰岛火山爆发所产生和防止的污染计入数据,这些关于清晰设计的重要性都在他的著作—— Information is Beautiful. 中展露无遗。

这或许也能解释一个故事是如何与个人产生共鸣的,就像BBC广播公司和《财经时代》杂志开始惯常地互相监督对方的财政预算(这样你就能发现预算是怎么影响你的个人生活的,而不是从《卫报》的“Joe Public”栏目中获知)一样。数据新闻能够自己汇聚新闻信息,正如《卫报》通过它的数据博客成功地分享其数据、文章和问题。

数据可以是数据新闻的来源,也可以是讲述新闻故事的工具,还可以两者兼具。像其他信息源一样,我们应该持怀疑态度对待它;如任何工具一样,我们应该对于随新闻衍生的数据如何影响和左右新闻故事的发展持清醒态度。 — 保罗·布拉德肖(Paul Bradshaw), 伯明翰城市大学

第二节 为何记者要运用数据

新闻业正腹背受敌。过去,媒体能够成为一种产业,是因为我们是唯一能利用技术大规

3

模生产和传播新闻,告诉大众昨夜发生了什么的机构。印刷媒体就像一条必经之路,如果有人想要知道第二天某城市的人或某地区发生了什么事,印刷媒体是他们的唯一选择。然而这种光景已经一去不复返了。

而今,新闻在事情正在发生的时候就通过目击者的记录、博客等多种途径扩散开来。并且这些消息在传播过程中被巨大的社会关系网络所筛选,同时被排名与评论,但更常见的则是被忽略。

这就解释了数据新闻为何如此重要。收集、筛选、并呈现那些表象背后的原因与真相有着越来越高的价值。例如,你早上喝的果汁和泡的咖啡——在今天全球经济的背景下,这些商品与你和他人之间就存在着某种无形的联系。而讲述这种关系的语言就是数据:一个孤立的事件当中的少量信息往往缺少关联度,但如果从正确的角度观察却能发现极为重要的价值。

眼下,一些具有开拓精神的记者已经向我们展示了如何利用数据更深层次地洞察正在发生的新闻事件,以及这些事件可能对我们产生的影响。

数据分析可以为我们呈现“故事的轮廓”(Sarah Cohen语),或提供“新的视角” (David McCandless语)。对数据的使用使得记者的工作核心由追求最先报道新闻向讲述某一事态变化展背后的真正含义转变。话题的范围十分宽泛。从“正在孕育中的下一个金融危机”到“我们消费的商品背后的经济规律”,以及“基金滥用”或“政治失误”,这些问题通过强大的数据图表展现出来清晰明了且极具说服力。

这就是为什么新闻记者应该把数据视做机会。比如,他们可以告诉不同年龄、性别和教育背景的受众,诸如“失业率”这样抽象的威胁会对其产生怎样的影响。利用数据使每个人都能够好的理解这些抽象的事务,并与他们自身的情况联系在一起。

他们还可以制作人性化计算器来帮助人们做出决策。这些决策可以是买车买房,也可以是教育或专业的道路抉择,还可以是进行支出核算避免债务问题的发生。他们也可以透析诸如社会动乱或政治争议这些复杂情境下的态势发展,去伪存真,让每个人对解决这些复杂问题的可能方案都了然于胸。。

通晓搜索、清理并呈现数据是对专业信息搜集工作的巨大变革。掌握这些技能的记者对于撰写新闻事实与事件洞察将会十分容易。不必费心推测,也不必四处引证——相反,记者能够在数据佐证的基础上写出一篇观点有力的文章,这深刻地影响新闻业所扮演的角色。

此外,对数据新闻实践也预示着未来。如今随着新闻业的萎缩,大部分记者开始希望转战公共关系,而数据记者和数据研究者则成了一个越发吃香的团体。这种现象不仅存在于媒

4

体界,全世界的公司和相关机构也都在寻求这种“(数据)意义建构者”和业内专家,因为这些人知道如何充分挖掘数据并把它们转变成有形的实体。

数据有着巨大的前景,这令媒体兴奋不已,促使他们开始寻求这种新型报道人才。对于自由职业者来说,熟知数据也能够带来新的工作机会和稳定的收入。从这种角度来看,与其雇佣记者向报纸版面与网站页面塞满低劣内容,还不如使用数据来创造编读的双向需求,而唯一的办法就是用一个星期来解决一个问题。这对于媒体业的各个部门来说都是一个令人欣喜的变化。

而限制记者挖掘这块潜在领域的阻碍在于: 他们需要接受训练才能够知晓从问出第一个问题到做出一个由数据驱动的重磅独家新闻的所有步骤。

同数据打交道就如同踏入广袤的未知领域。第一眼看过去,原始的数据令人眼花缭乱、头脑混沌。这种繁杂得数据,的确难以恰当地将其可视化。它需要经验老到的记者,这些人拥有从混淆、乏味的原始数据中“看出”其中暗藏故事的能力。 — 米尔科·洛伦兹(Mirko Lorenz),德国之声

调 查

欧洲新闻中心进行了一项调查,目的在于了解新闻工作者对于职业能力培训的需求。我们发现他们对于跳出传统新闻模式的安全地带,想要花时间去掌握新的技能有非常大的意愿。调查的结果显示新闻工作者看到了机会,但是缺少一点点对于他们刚开始接触数据工作所遇到的困难的帮助。但是应该对数据新闻的工作流程、所需要的工具、所得到的应用及其结果将会很快进步发展充满信心。像卫报、纽约时报、德克萨斯论坛报、德国时代周报这些先驱者已经在提高数据驱动新闻数量上继续前行。 数据新闻能继续保留一小部分为之发展不断探索的人吗?每一家新闻组织都能够很快拥有自己的专注于数据新闻的团队吗?我们希望这本手册能够帮助更多的新闻工作者和新闻编辑室能够在这个新兴领域中保持优势。

5

Figure 2. 欧洲新闻中心对记者培训需求所做的调查

===数据新闻为何重要?

我们曾向数据新闻领域的领先实践者和提倡者发问:为什么他们认为数据新闻是一个重要的发展领域?我们得到如下回答。

过滤数据流

以前信息匮乏的时候,我们的大多数精力都放在寻找和搜集信息上。而如今信息日益丰富,信息处理变得更加重要。我们处理数据时,分两个层面进行:(1)分析数据,从无限的数据流中建构意义与结构(2)展现数据,让消费者能够理解并记住那些重要且息息相关的信息。同科学研究一样,数据新闻所告知的研究方法与展示研究结果是应当能被重复检验的。 — 菲利普·梅耶(Philip Meyer),名誉教授,北卡罗来纳大学教堂山分校 新闻叙事的新方法

在我看来,数据新闻是一个概括性术语,它囊括了一套仍在不断增多的用于新闻叙事的工具、技巧与方法,涵盖了从传统的计算机辅助报道(使用数据作为“信源”)到最前沿的数据可视化和新闻应用等一切叙事方式。其统一的目标是新闻业意义上的:提供信息和分析以帮助告知我们一天内所有最重要的事件。 — 阿隆·菲尔霍夫(Aron Pilhofer),纽约时报

6

就像用笔记本电脑完成的图片新闻

“数据新闻”和“文字新闻”的唯一不同在于我们使用了不同的工具包。我们都以探寻、报道和讲述故事为生。“数据新闻”就像是“图片新闻”;无非是把相机换成了笔记本电脑。 — 布莱恩特·博耶(Brain Boyer), 芝加哥论坛报 数据新闻是未来

数据驱动的新闻代表着未来。新闻工作者需要精通数据。过去你可能通过在酒吧和人聊天获取新闻故事素材,尽管现在这种方式有时可能仍被采用,但目前你同样要钻研数据并借助数据工具进行分析和筛选出令人关注的信息。并对信息加以正确地处理,帮助人们真正看到它反映了什么,在这个国家正在发生什么。 — 蒂姆·伯纳斯-李, 万维网创始人 当数字运算遇上文字游戏

数据新闻打通了统计技术人员与写作为生的人之间的差异。定位离群值和识别趋势不只在有显著的统计意义,还与解码当今的复杂世界息息相关。 — 戴维·安德顿(David Anderton),自由撰稿记者 更新你的技能组合

数据新闻是一套用于搜索、理解和可视化数字信源的全新技能组合。在如今的时代,单纯掌握传统新闻学的基本技能已经远远不够。数据新闻不是要代替传统的新闻业,而是它的一个补充。

在这个信源走向数字化的时代,记者可以而且必须要更接近信源。互联网开辟的各种可能性已经超出了我们目前的可知范围。数据新闻正处在革新过去的操作手法以适应互联网的初始阶段。

数据新闻可以帮助新闻机构达成的两个重要目的:寻找独特的故事(而不是从通讯社获得)和执行看门狗的功能。尤其是在金融危险的时候,这两者都是报纸设法达到的重要目标。

从地区性报纸的立场来看,数据新闻是至关重要的。我们有一句谚语是,“你门前一块松散的瓷砖被认为比一个遥远国家发生的暴乱更为重要”。它出现在你面前,并且更直接影响你的生活。同时,数字化是无处不在的。由于当地报纸对周围居民有如此直接的影响,而信源逐渐数字化,所以记者必须知道如何利用数据寻找、分析和可视化新闻故事。 — 杰里·维曼(Jerry Vermanen),NU.nl 一种信息不对称的补救

信息不对称并不是缺乏信息,而是赶不上信息出现的速度和数量,因而无法吸收和处理

7

这些信息。这是市民选择如何生活所面临的最关键的问题之一。从印刷、视觉和听觉媒体所提取的信息影响着市民的选择和行动。优质的数据新闻有助于对抗信息不对称所造成的负面影响。

— 汤姆·弗莱斯(Tom Fries),贝塔斯曼基金会 数据驱动公关的答案

测量工具变得可获,且其价格不断下降,加上对社会各方面的表现和效率的重视,导致决策者量化政策的进展,监测趋势和寻找机会。

企业不断更新展示他们的表现的数据。政客喜欢吹嘘他们减少了多少失业人扣和增长了多少国内生产总值。安然,世通,麦道夫或Solyndra等公司事件所表现出的新闻洞察力的缺乏,证明了许多记者无法清楚地看懂数字。相对于其他事实,数字更可能被粗浅地解读,因为数字被蒙上了象征严谨的神圣光环,即使是完全捏造的也不例外。

数据的熟悉运用将帮助记者提高他们在遇到数字时的批判意识,并很可能帮助他们在与公关部门交易时占据有利地位。

— 尼古拉斯·凯瑟-布瑞尔(Nicolas Kayser-Bril),Journalism++ 提供对于官方资料的独立阐释

日本是一个数据新闻发展滞后的国家。2011年的破坏性地震和随后的福岛核电厂灾难发生后,数据新闻的重要性已经被日本的媒体人所认识。

对于灾难所造成的破坏,政府和专家的提供的数据并不可靠,这让我们感觉迷茫不知所措。当官员隐藏SPEEDI数据(预测放射性物质扩散)不让公众知道时,即使它被泄露了,我们也无法解码数据。志愿者开始通过使用自己的设备收集放射性数据,但我们并不了解统计学、插补、可视化等知识。记者需要获得原始数据,并要学会不依赖于它的官方解释。 — 功松波(Isao Matsunami),东京新闻 处理海量数据

数字革命带来的挑战和机会将继续分裂新闻业。在一个信息丰富的时代,所有的记者和公民都需要更好的工具,无论是用于21世纪在中东的地下出版物,一个在深夜进行的数据转储处理,还是为某国消费者寻找最好的可视化水质的方法。尽管我们需要设法解决如何消化海量数据的难题,然而我们需要意识到,新兴的发布平台赋予了每个人数字化收集和共享数据并把它转化为信息的能力。虽然记者和编辑是传统的信息收集和传播的载体,然而扁平化的信息环境已经使得2012年现在的许多新闻最先在网上出现,而不是新闻采编部的桌上。

8

事实上,世界各地的数据和新闻之间的纽带都在不断增强。在大数据的时代,数据新闻日益增强的重要性取决于其从业者所提供的背景和清晰度的能力,而也许最重要的是,在全球不断扩大的数字内容中找到真相的能力。这并不意味着今天的综合性媒体组织没有起到关键作用。事实恰恰相反。在信息时代,记者们比以往任何时候都更需要组织、验证、分析和综合数据的洪流。在这种情况下,数据新闻具有深刻的社会意义。

今天,理解大数据,特别是非结构化数据,将是世界各地的数据科学家的一个中心目标,无论他们就职于新闻编辑室,华尔街还是硅谷。值得注意的是,越来越多的常用工具将使这一目标变成可能。开放芝加哥的政府技术专家,医疗保险专家或者编辑部程序员都可能使用这些工具。

— 亚历克斯·霍华德(Alex Howard),O”Reilly Media 我们的生活就是数据

做出好的数据新闻很难,因为做出好的新闻本身就很难。也就是说,如何寻找数据,如何理解数据,还有如何找到故事都是很难的。有时你会陷入僵局,有时没有好的故事。毕竟如果新闻只需要按部就班去做,它就不叫新闻了。而这种困难正是使得新闻有价值的原因。我们的生活是不断增加的数据, 在这样一个世界里,新闻对于一个自由和公平的社会至关重要。

— 克里斯·塔格特(Chris Taggart),OpenCorporates

一种节省时间的方法

记者不必再浪费时间在手工抄写和试图从PDF获取数据上了。学习一点点代码,或知道去哪里找人帮助,是非常有价值的。

一位来自圣保罗之报负责报道地方预算的的记者打电话给我,感谢我们在网上发布了圣保罗市市政财务数据(这是一个黑客两天的工作量!)。他说,他在过去3个月都在手工抄写这些数据,试图构筑一个故事。此外我还记得我曾为“Contas Abertas”解决了PDF方面的问题,这是一个监督议会的新闻机构:15分钟和15行代码解决他们一个月的工作量。 — 佩德罗·马昆(Pedro Markun),Transparência黑客 记者的工具包的基本组成部分

我认为强调“新闻”或“数据新闻”的报道方面是重要的。这项工作不应该只是目的性的分析数据或数据可视化,而是把它作为一种工具来接近世界上正在发生的事情的真相。我认为能够分析和解释数据的能力是当今记者的工具包的一个重要组成部分,而不是一门独立

9

的学科。归根到底,它关系到能否写出好的故事,还有能否在最恰当的方式来叙述故事。 数据新闻是审视世界和监管权力的另一种方法。随着越来越多的数据可获得,记者必需了解数据新闻技术,这一点在现在比以往任何时候都更重要。任何一位记者的工具箱中都应该有这个工具:要么学习如何直接处理数据,要么与可以处理数据的人合作。

数据新闻真正的用途在于帮助你获得用其他方法很难找到或证明的信息。史蒂夫·多伊格分析了安德鲁飓风的破坏模式,这是一个很好的例子。他使用了两种不同的数据集:一个映射飓风造成的破坏水平,一个显示风速。这让他得以查明缺少建筑规范的地区和恶劣的施工将加重灾害的负面影响。凭借这个新闻故事,他在1993年获得普利策奖。这是一个很大的启发,让我们了解到数据的可能性。

在理想的情况下,你可以使用数据来指出异常值,人们感兴趣的领域,或是令人惊讶的事物。在这种情况下,数据可作为导语或内幕信息。虽然数字可以富含趣味,但仅仅写出数据是不够的。你仍然需要新闻报道来解释这些数据意味着什么。 — 辛西娅·奥墨楚(Cynthia O”Murchu),金融时报 适应我们信息环境的变化

新的数字技术为整个社会生产和传递知识带来新的方法。数据新闻可以被理解为媒体为适应和回应我们的信息环境变化所作出的尝试 – 包括增强互动性,讲述多维故事,帮助读者探索新闻相关信息,并鼓励他们参与到创作和评估故事的过程中。

— 塞萨尔·维亚纳(César Viana),巴西戈亚斯州大学 一种独一无二的看待事物的方法

有些故事只能通过分析或者可视化数据才能被理解和阐释。有权势的人和团体之间的联系很难被揭露,药物政策所造成的死亡人数将被继续隐藏,破坏景观的环境政策将继续有增无减。但上述的每一项都因为记者在获取、分析数据,并向读者揭示之后取得了重要的变革。数据既可以简单如电子表格或手机通话记录,也可以复杂如学校考试成绩或医院感染数据,但共同点是这些数据都蕴含着值得讲述的故事。 — 谢丽尔·菲利普斯(Cheryl Phillips),西雅图时报 一种使新闻故事更加丰富的叙事方式

我们可以用我们所留下的数字轨迹描绘出我们的全部生活。从我们消费和浏览过的物品,到我们旅行的时间和地点,从我们的音乐喜好,到我们的初恋,从我们的孩子的里程碑,乃至我们最后的愿望,都可以被跟踪、被数字化、被存储在云里并被传播。通过这个数据的

10

世界来讲故事,回答问题,传递对生活的理解正逐渐开始被人采纳。这种方式胜过重现最严谨细致的名人轶事。

— 莎拉·斯洛宾(Sarah Slobin),华尔街日报 你并不需要挖掘最新的数据

有时数据是已经公开并可用的,但不是每一个都被深入挖掘过。比如美联社关于4500页记录伊拉克战争期间私人安保承包商行为解密文档报告的案例中,实际上这份材料已经被独立记者通过向美国国务院的信息自由申请拿到有很多年了。他们扫描了这些纸质结果并且传到了云端,这就让我们有可能进行更深入的分析。

— 乔纳森·史特里(Jonathan Stray),The Overview Project

第三节 经典案例

我们向本书撰稿者寻问了他们最喜欢的数据新闻案例及其原因。以下就是我们得到的答案。

拉斯维加斯太阳报之\"拒绝伤害\"

我最喜欢的案例是拉斯维加斯太阳报在2010年对医院治疗拒绝伤害的系列报道。太阳报通过分析超过29万条医院帐单纪录揭示了3600件以上可避免的损伤、传染和手术医疗事故。他们通过公共记录申请获得数据并且认定了超过300件由于可预防的医疗事故导致的死亡案例。这项数据新闻系列报道运用了各种元素,包括能让读者自行查阅医院中超乎预料的手术损伤情况的互动图表;还包括了医院间疾病传染扩散情况的时间轴地图;另外还有一个能让用户按可预防的损伤类型或按医院分类查看人们受到伤害数据情况的互动图表。我喜欢这个作品因为他非常容易理解,导航也做的很到位。用户不加思考便能很容易的去探索这些数据。

同时这个系列报道也产生了真正的影响:内华达州立法会就此颁布了六条法规。记者们投入了巨大的精力去获取并清理数据。其中一名记者,亚历山大理查德,至少十二次发还数据给医院和州政府以核实、订正数据。

— Angélica Peralta Ramos, La Nación (阿根廷) 译者注:拒绝伤害(Do No Harm)英文用词源自希波克拉底医书第一条,\"First Do No Harm\"。希波克拉底是古希腊著名医学家,被后人尊称西医鼻祖。

11

Figure 3. 拒绝伤害(拉斯维加斯太阳报)

Government Employee Salary Database

我非常喜欢一些小的独立机构每天发布的作品,比如ProPublica或者芝加哥论坛报一名优秀的数据新闻记者瑞恩·墨菲(Ryan Murphy)。如果必须选择一个最喜欢的作品的话,我认为是芝加哥论坛报的政府雇员薪资数据库。这个项目收集了66万名政府雇员的薪水情况且建立了一个数据库以便用户检索,同时帮助人们从中挖掘故事。你能按机构、姓名和工资去分类检索。它十分简单但又很有意义,把这些平时接触不到的数据公之于众。它使用简单还能自动生成许多故事。这个案例就很好的解释了为什么芝加哥论坛报网站的大部分访问量都是从数据页来的。 — 西蒙·罗杰斯,卫报

12

Figure 4. 政府雇员薪水(芝加哥论坛报)

伊拉克战争记录全文可视化,美联社

乔纳森·史特里(Jonathan Stray)和朱利安·伯格斯(Julian Burgess)进军文本分析和可视化领域用于处理伊拉克战争日志的工作非常具有启发性,通过使用这些试验性的科技,将有利于在大量的文本数据集中挖掘与主题相关的更深层次的见解。

通过文本分析技术和算法,乔纳森和朱利安创造了一种方法,以视觉化方式呈现维基解密泄露出的成千上万个有关伊拉克战争的美国政府报告中关键词的聚类。

虽然这种呈现的方法比较有限,整个方式也是实验性质的,但至少是一种创新的途径。相比于带着这样一种放入特定关键词搜索再检阅输出结构就能得到些什么的先入为主的观念去尝试读遍所有文件或者检阅战争日志,这种技术能够计算并且可视化特定相关内容的主题或关键词。

随着不断增长的数据——既包括文本的(电子邮件、报告等)也包括数字的——正在进入大众领域,找出能准确定位关键兴趣区域的方法变得越来越重要。这是数据新闻下一个非常令人振奋的分支。

— 辛西娅·奥墨楚(Cynthia O”Murchu),金融时报

Figure 5. 分析战争日志(美联社)

13

谋杀秘闻

谋杀秘闻项目是我最喜欢的数据新闻之一。这个项目由斯克里普斯·霍华德新闻服务研究机构的汤姆·哈格罗夫负责。他建立了一个数据库,数据是向政府数据和公共记录申请到的超过18.5万件未破谋杀案件的详细人口统计记录,然后他设计了一个算法,试图从中找到作案模式,推测可能存在的连环杀手。这个项目包括了下列所有的优点:精心搜集到的优于政府所有的数据,独到的运用社会科学技术的分析,还有交互的在线数据展示以便读者能够自己对数据进行探索。

— 史蒂夫·多伊格(Steve Doig),沃尔特·克朗凯特新闻学院,亚利桑那州立大学

Figure 6. 谋杀秘闻(斯克里普斯·霍华德新闻服务研究)

消息机器

我非常喜爱ProPulica的消息机这个呆瓜博客帖子。这些最早都来源于一些推特用户对大家所收到的奥巴马竞选邮件会有什么差别,所表示出来的好奇心。ProPublica的记者留意到这个现象,并且要求读者转发所收到的任何关于竞选的邮件给他们。将当天晚上几类不同邮件的视觉差异呈现出来非常绝妙。这很精彩因为他们在搜集自己独有的数据(必须承认这是个小样本,但对讲述整个故事来说足够大了)。但实际上更精彩之处在于他们在描述一个正在发生的现象,大数据在政治竞选当中正在运用于定制因人而异的消息内容。 — 布莱恩·博耶(Brian Boyer),芝加哥论坛报

14

Figure 7. 消息机(ProPublica)

气泡图表

安德鲁·加西亚·菲利普所制作的气泡图表网站是我最喜欢的数据新闻项目之一。安德鲁是个对数据十分痴迷的铁杆体育迷,又同时具备极好的极好的设计感与写代码的能力。他通过气泡图这个网站不仅可视化出历史的广度,还在深度上把个人与球队胜败的细节一并呈现。他的制作能传达整个语境,而且他做的图表引人入胜并且深度、幽默、有趣并存他的作品当中。

— 莎拉·斯洛宾(Sarah Slobin),华尔街日报

15

Figure 8. 胜利与失败图表(气泡图表)

第四节 数据新闻的视角

在2010年8月,我和一些同事组织了一个相信是首届国际数据新闻会议,在阿姆斯特丹举行。那时,会议里并没有大量围绕主题的讨论,只有个别广为人知致力于这个领域的组织参加。

使该术语出名的主要原因之一,是如英国卫报和纽约时报等媒体单位处理维基解密所公布的大量数据的方式。当时数据新闻开始被更广泛的用(和“计算机辅助新闻报道”一道)于描述记者如何使用数据以提高新闻报道内容和加强特定主题下的深入调查。

根据Twitter上那些经验丰富的数据新闻记者和新闻学者所谈论到的,我们现在所认识的数据新闻最早的表述之一,是由EveryBlock的创始人阿德里安.哈罗瓦提(Adrian Holovaty)在2006年提出的。EveryBlock是一项信息服务,旨在帮助用户了解他们居住的当地发生了什么事情。在他的一篇短文“报纸网站所需要的根本变革”中,他认为,记者应公布结构化的、机器可读的数据,而抛开传统的“大量文字”:

例如,报纸写了一则有关当地火灾的故事。能够用手机阅读该故事是最好的。万岁,技术!但我真正想要能够做到的是探索这个故事的原始事实,然后逐层归纳事实的出处,最后能够比较此次火灾与以往火灾以及往后可能发生的火灾的具体细节 —日期,时间,地点,受害人,消防站数量,与消防部门的距离,在场消防员姓名和从业年数,消防员到达了所用的时间。

16

但是,数据新闻与其他使用数据库或计算机的新闻形式的区别在哪里呢?数据新闻是怎样,又在何种程度上不同于过去其他形式的新闻呢? “计算机辅助报道”和“精确新闻学”

使用数据提高新闻报道水平,向公众提供结构化的(如果不是机器可读的)信息有着很长的历史。也许最直接相关我们现在所说的数据新闻是“计算机辅助报道”或“CAR”,这是第一个有组织结构的、系统化的改善新闻的方法,它使用电脑来收集和分析数据。

CAR最早被哥伦比亚广播公司用来预测1952年总统选举的结果。自1960年以来,(主要是调查新闻并且总部设在美国的)记者开始寻求通过科学方法分析公共记录的数据库以独立地监察权力。它也称为“公共服务新闻”,这些电脑辅助技术的倡导者们试图展示趋势,揭穿流行知识的假面具,和揭露公共部门和私营机构犯下的不公。例如,菲利普·迈耶试图揭露他收到的关于1967年底特律骚乱的材料,以证明不只是教育程度较低的南方人参加了这场骚乱。比尔·戴德曼(Bill Dedman)的“金钱的颜色”的故事发生在20世纪80年代,它发现了主要金融机构贷款政策中系统性的种族偏见。史蒂夫·多伊格(Steve Doig)的“是什么出错了”试图分析20世纪90年代初早期安德鲁飓风的破坏模式,以了解有缺陷的城市发展政策和做法所导致的后果。数据驱动的报道带来了极具价值的公共服务,并赢得了很多著名的记者奖项。

在20世纪70年代初,精确新闻 (The New Precision Journalism 菲利普·梅耶 著)。 按照设想,能把精确新闻学付诸实践的主要是受到过专业新闻学和社会科学训练的主流媒体机构。它为回应“新新闻学”, 一种使用小说技巧的新闻报道形式而诞生的。而迈耶认为,新闻所追求的目标是客观性和真理,因此新闻报道所需要的手段是数据收集和分析的科学技术,而不是文学技巧。

精确新闻学可以理解为对新闻业的一些普遍不足和薄弱环节的反应:对新闻稿的依赖(后来被称为“抄闻”),对权威来源的偏见等。迈耶认为这些问题的来源是缺乏对信息科学技术和科学研究方法的应用,比如缺少民意调查和公共记录。精确新闻如在20世纪60年代所进行的实践,被用来呈现边缘群体和他们的故事。梅耶认为:

精确新闻是一种扩大记者的工具包的方式,使记者可以接触到以前无法了解的,只能粗略访问的,或是受到新闻审查的主题。这对于了解少数民族和持不同政见者团体代表起了很大作用。

一篇发表在20世纪80年代关于新闻和社会科学之间的关系的文章颇具影响力。它呼应了目前数据新闻相关的话语。这篇文章的作者是两名美国新闻学教授,他们认为在20世纪

17

70年代和80年代,公众对于新闻的理解从狭义概念的“新闻事件”扩大到“情景报道”,或是对社会发展趋势的报告。通过使用数据库,例如普查数据或调查数据,记者能够“超越具体的、孤立的事件,提供背景从而解释这些事件的意义”。

正如我们所预料的,使用数据以改善新闻报道的做法可追溯到“数据”问世的年代。正如西蒙·罗杰斯(Simon Rogers)所指出的,卫报的首个使用数据新闻的案例可以追溯到1821年。这个案例是一个表格,它列出了曼彻斯特的各个学校的学生人数和所付的学杂费用。据罗杰斯表示,它首次展示了接受免费教育的学生数量,而这个数字是远远高于官方数字的。

Figure 9. 1821年卫报的数据新闻(卫报)

一个早期在欧洲的例子是佛罗伦斯·南丁格尔和她的于1858年发表的关键报告,“英国陆军的死亡情况”。在她向议会提交的报告中,她使用图表来倡议改善英国军队的医疗服务。最有名的是她的“鸡冠图”(coxcomb),用盘旋上升的数据来展示每月死亡人数,这些数据突出了一个事实,那就是死亡的绝大多数是可以预防的疾病,而不是子弹。

Figure 10. 佛罗伦斯·南丁格尔的英国陆军的死亡情况(图片来源自维基百科)

数据新闻与计算机辅助报道

目前,围绕数据新闻的标签和其与早前的使用计算技术、分析数据集的新闻实践的关系,人们展开了关于“连续性和变化”的辩论。

一些人认为CAR和数据新闻之间是有区别的。他们说,CAR是收集和分析数据以加强(通常是调查性)新闻报道的一种技术,而数据新闻注重整个新闻工作流程中处理数据的方式。在这个意义上,数据新闻也注重数据本身(有时比CAR更甚),而不是使用数据作为一种手段来寻找故事或者增强故事的趣味性。因此,我们发现卫报的数据博客和德州论坛报在发表故事的时候也添加了数据集,甚至只提供数据集,让人们自己分析和发现。

两者的另一个区别是,调查记者对于他们想试图找到答案的问题或者想处理的难题来说常受信息匮乏之苦。虽然如今这种问题依然存在,但是我们有了相当丰富的信息资源,多到记者并不知道要如何使用它们。他们不知道如何从数据中获取价值。最近的一个例子是联合在线信息系统,这是英国最大的消费信息数据库。它受到信息透明倡导者的长期追捧,但是它发表的一些数据难倒了许多记者。正如菲利普·梅耶最近写信给我说:“过去信息匮乏的时候,我们的精力大部分用于搜寻和采集信息。现在,信息丰富了,如何加工更为重要。”

另一方面,有些人认为,数据新闻和计算机辅助报道没有实质上的差异。哪怕是在最近期的媒体实践中,也有历史和创新,这是一个常识。把数据新闻看作传统中的一部分,但应

18

对的是新的情况和条件,比辩论它是否是完全新型的更有成果。即使可能两者在目标和技术上没有区别,但是在本世纪初出现的“数据新闻”的标签标志着一个新的阶段的诞生。在这个新阶段中,网上免费提供庞大的数据量,并结合了先进的以用户为中心的如自媒体发行和众包等工具,使更多的人比以往任何时候都更轻松地获得更多的数据。

数据新闻关乎大数据(Mass data)素养

数字技术和网络从根本上改变了信息发布的方式。数据新闻业是围绕数据站点和服务展开的生态系统工具和实践的一部分。引用和共享源素材是网站超链接结构的本质,也是我们今天所习惯的浏览信息的方式中的一部分。回溯到更早时期,网页超链接结构的基础原则是用于学术著作的引用。引用和共享源材料和数据背后的故事是数据新闻提高新闻的基本途径之一,维基解密创始人朱利安·阿桑奇把它称为“科学新闻学”。

数据新闻使任何人能深入到数据源当中,找到与他们相关的信息,去验证推断并挑战被普遍接受的假设,它有效地代表了大规模民主化进程,其使用资源、工具、技术和方法等,在过去仅限于专家使用,如调查记者,社会科学家,统计学家,分析师或其他专家。虽然目前引用和连接到数据源主要是数据新闻领域的,但我们正努力创造一个世界,在这个世界中,数据无缝地融入到媒体内。数据记者在帮助降低了解和查询数据的壁垒,大规模地增加读者的数据知识水平等方面起到了重要作用。

目前,这些新兴的自称为数据记者的社群与更成熟的CAR的社群是非常不同的。希望在未来,我们将看到这两个社群的关系变得更紧密,就像我们看到了新的非政府组织和公民媒体组织,比如ProPublica和新闻调查局,携手与传统新闻媒体一起参与调查。虽然数据新闻社群可能有更创新的提供数据和和展现故事的方式,CAR社群中深入分析与批判的方法是数据新闻所应必须学习的。

— 莉莉安娜·博内格鲁(Liliana Bounegru),欧洲新闻中心

19

第二章 新闻编辑室的运作

一、ABC的数据新闻实践 二、数据新闻在BBC

三、新闻应用团队在芝加哥论坛报是如何工作的 四、卫报数据博客的幕后 五、数据新闻在Zeit在线 六、如何雇佣一个黑客? 七、通过黑客马拉松聚集外部专家 八、追踪赃款:数据新闻与跨国境协作 九、我们的新闻以代码呈现

十、Kaas & Mulvad:组织机构的半成品内容提供商 十一、数据新闻的商业模式

第一节 ABC的数据新闻实践

如今已有70年历史的澳大利亚广播公司是澳大利亚全国性的公共广播。每年有10亿澳大利亚元左右的资金用于7个广播网络、60家当地的广播站、3个数字电视服务商、1个新的互联网电视服务商和1个网络平台去推送不断扩充的数字的和用户产生的内容。据最新统计有超过4500名的全职员工,其中近70%的人生产内容。

作为一家国家级广播公司,我们对自身的独立性感到非常自豪——尽管由政府资助,我们却因由法律的保护与政府保持“一臂之距”。我们传承的是独立、公共、服务的新闻理念。ABC被认为是澳大利亚国内最值得信任的新闻机构。现在正是辉煌的时期:在前任报纸主管马克·斯科特(Mark Scott)的管理和指导下,ABC的内容生产者们正如公司准则描述的一样——变得“敏捷”。

20

当然,说得容易做得难。

但是,最近有一个旨在激励内容生产者的创举——为了培育创新跨平台项目而举办的资金竞标会。

这也促成了ABC第一个数据新闻项目的诞生。

在2010年的早些时候,我在竞标会现场闲逛了一圈,带着我的提案与三个资深“创意”人士碰面。

关于这件事情我反复琢磨了一段时间。我浸泡在卫报数据新闻博客学习其提供的数据新闻教程,这也是为初学者准备的。

我个人的观点是,不出5年,ABC将毫无疑问地拥有自己的数据新闻部门。这是不可避免的。但问题在于如何实现,以及由谁开始。

对于那些不太熟悉ABC的受众来说,想想一家拥有超过70年历史的庞大机构吧。它最初提供的大多是广播和电视节目。随着过去十多年间网络的崛起,内容的提供方式逐渐延伸至文本,同时还加入前所未有的互动元素。网络空间迫使ABC重新思考该如何切蛋糕(资金)以及该做怎样的蛋糕(内容)。

这自然是一项具有进步意义的工作。

与此同时,还有其他与数据新闻相关的事情正在发生。在国内广受关注的政府2.0已经开始运用新的方式讲故事,而迄今为止这些方式都离不开电脑代码。

以上就是我在资金竞标会上的发言。我还提出,我们需要引入新的技术设备,训练记者使用新的器材。我们需要一个项目来正式加入这个领域。

然后,他们就把钱给了我。

2011年11月24日,ABC的跨平台媒体项目、也即ABC在线新闻网正式上线,首个推出的专题是“数字上的煤层气”。

Figure 1. 数字上的煤层气(ABC新闻在线)

21

这个专题由5个页面的互动式地图、可视化数据和文本组成。

这称不上纯粹的数据新闻团队,只是混合了一群来自不同团队的人,把时下澳大利亚国内的热点话题表现出来。

整个专题的亮点是一份澳大利亚煤层气气井分布及租赁情况的交互地图。读者可以按地理位置搜索,以及在租赁情况和气井分布两种模式之间自由切换。读者还可以通过放大地图,查看某个气井的开发商名称、开发状态以及钻井日期。另外一份地图则是澳大利亚的煤层气活跃区域与地下水系统区域之间的对比。

Figure 2. 澳大利亚煤层气气井分布及租赁情况交互地图(ABC在线新闻) 此外,我们结合煤层气的发展现状,专门分析可能带来的废盐和废水问题,并将数据以可视化的方式呈现。

专题的另一部分调查了流入当地河流系统的化学物质排放情况。 我们的团队:

一位网页开发及设计人员 一位主编记者

一位兼职研究员,专长于数据采集、分析与整理 一位兼职初级记者 一位制作人顾问

22

一位学术顾问,专长于数据挖掘、图形可视化以及其他先进的研究技巧 一位项目经理,以及ABC跨媒体平台部门的行政支持

尤为重要的是,我们还有一支由记者及相关人员构成的顾问团队,以备不时之需

我们的数据来源?

互动地图的数据出自政府网站下载的shapefiles(一种常见的地理数据格式)。 关于盐和水的数据出自大量的报告文件。化学物质的排放数据则出自由政府颁发的环境许可证。 我们的收获?

“数字上的煤层气”专题体现了我们在内容和规模上的野心。但眼下我最为关注的,是我们从中获得了什么启示,以及下一次要如何做出新意?

数据新闻项目把很多之前从未碰面的ABC同事聚集在一起。用时髦的话来说,就是黑客和骇客。我们中不少人说着不同的语言,甚至拥有不同的价值观。数据新闻就是这么分裂! 经验之谈:

共同的办公地点至关重要。我们的开发和设计人员只有开会时才出现,这显然不是最理想的状态!他们应该和记者们在同一屋檐下工作。

我们的制作人顾问和我们也不在同一层楼。最好可以离得更近,以便随时沟通。 选择一个完全由数据主导的话题。 对全局的几个观点:

大型的媒体机构必须具备应对数据新闻挑战的能力。我的直觉告诉我,大批的极客和黑客正隐藏在媒体的技术部门里摩拳擦掌。所以我们有必要举办主题为“黑客与骇客”的研讨会,让那些深藏不露的极客、年轻的记者、网页开发和设计人员与资深的新闻工作者有更多的交流机会,从后者身上汲取更多的经验和技能。任务:下载本书,行动吧!

真正的数据新闻应是跨领域的。数据新闻的团队由过去从未共事过的人员组成。可以说,网络空间使得彼此之间的界限日渐模糊。

我们生存在一个断裂的、不值得信任的政治体制下。过去以专业、独立的新闻产品为核心的商业模式——事实上并不完美——正濒临瓦解边缘。如今,我们应该不断地扪心自问:如果没了充满活力的第四权力(即新闻业),这个世界将会变成什么样子?美国记者及学者沃尔特·李普曼(Walter Lippman)在20世纪20年代曾说过:“必须承认的是,良好的公众舆论是离不开新闻的。”这一观点至今仍然正确。进入21世纪,人们沉迷于博客的世界。

23

很难将骗子、造谣人、伪君子和特定利益团体与真正的专业新闻人区分开来。任何网页或消息来源都极有可能包装得可靠、稳重、诚实。而那些值得信赖的的报纸正逐渐被人们遗弃在角落。在这个充斥着垃圾新闻的新空间中,超链接技术引领读者无止境地通向更多毫无意义但外观闪亮的页面。有个描述这种情形的专用术语是:大脑积水。

在数字世界里,人人都是新闻人,对吗?不是的。然而,假如专业新闻——我指的是尊重伦理、适度均衡、勇敢真实的事实性叙述——想要继续生存的话,必须重新以适应于数字时代的技能武装自己。数据新闻正是我们在数字海洋中航行的又一新工具。我们会在无数的0和1之中定位、挑选、分类、过滤、提取并分析出有用的信息。接下来的日子,我们将与电脑黑客、开发设计师、编程人员并肩作战。眼下正是过渡时期,需要认真做好能力重塑。我们需要能够有效“发掘”技术与新闻之间联结的项目管理者来实现这一过程。 — 温蒂·卡利斯勒(Wendy Carlisle),澳大利亚广播公司

第二节 数据新闻在BBC

“数据新闻”一词涵盖了一系列的学科,并被广泛应用于各大新闻机构,了解这一点对我们理解“数据新闻”在BBC是大有裨益的。大体说来,“数据新闻”是指通过使用数据来实现以下一个或多个目标:

帮助读者找到对个人有重要意义的信息 报道一些重大却鲜为人知的新闻

帮助读者更好地理解一些复杂的问题

以上三方面可能会有所重复,而如果在线使用的话,不同层面的数据可视化则有益于这些目标的实现。 个性化

以上三方面可能会有所重复,而如果在线使用的话,数据的视觉化则有益于这些目标的实现。

最典型的例子是我们在1999年首次推出的学校排行榜,榜单所使用的是每年由政府公布的数据。读者只要输入邮政编码,就能找到当地的学校,并根据一系列的指标进行对比。跑教育新闻的记者为了先于出版物拿到数据做报道,常常和开发团队的人一起合作。

我们刚开始做这件事时,还没有一家政府网站能为市民提供数据查询,但现在,英国的

24

教育部已经有了类似的服务,而我们的工作重心也转向以挖掘数据中的新闻为主。

现在,这一领域所面临的一大挑战是,如何让市民能够查询到那些与公共利益明确相关的数据。最近的一个例子是,我们推出了一个通常不为公众所知的庞大数据库“每条道路上的的每例死亡”,用户通过使用邮编进行搜索,就能找到过去十年中每场道路事故发生的具体位置。

通常,我们会根据警方提供的数据,把每场交通事故的主要事实和特点相关数据进行可视化。为使该项目更加动态化和人性化,我们和伦敦急救协会以及BBC伦敦电台和电视台进行合作,即时追踪城中发生的每场车祸。这些报道都会进行在线直播,还会在Twitter上冠以#crash24的标签进行报道,同时会在地图上标出车祸发生的具体地点。 简便的工具

除了为用户提供大型数据库的搜索渠道外,我们还成功创建了一批简便的工具,为用户提供他们所需要的信息。这些工具大大赢得了那些诸事缠身者的喜爱,因为他们通常没有时间去做冗长的分析和搜索。此外,个人信息分享的便利性也开始成为我们开发新工具的标准之一。

在这方面,一个极为轻松愉快的尝试是我们做的一个专题“70亿人口的世界:你是第几个出生的人?”该应用程序的发布日期与世界人口达七亿的官方日期刚巧一致,用户只要输入自己的出生年月日,就可以立即计算出自己是全球第几个出生的人,并通过Twitter和Facebook分享自己在全球的出生排名。该应用使用了联合国人口发展基金提供的数据,并大受欢迎,成为英国2011年Facebook上人气最旺的分享链接。

Figure 3. 70亿人口的世界(英国广播公司)

25

另一个新近的案例是BBC推出的预算计算器。用户通过使用该计算器,可以预见财政大臣的预算一旦生效后可能产生的更好或更坏的的影响,然后分享计算结果。我们与全球四大会计师事务所之一的毕马威建立了合作,他们根据年度财政预算为我们提供计算器,而我们则致力于创建一个抓人眼球的界面,以鼓励用户完成任务。

挖掘数据

然而,在这一切中“新闻”又在哪里呢?对于数据新闻,一个相对传统的定义是报道数据中的新闻故事。作为一名借助数据或电脑做报道的记者,面对数据,你首先得问问自己,这些数据中是否潜藏着某条独家新闻?数据是否精确?是否证明或反正了某个问题?不过要想在一个庞大的数据库中发现有价值的新闻,就必须花大量的时间对数据进行筛选。

而在这方面,我们已经找到了最快捷有效的方法,那便是与一些调查性团队或项目进行合作,他们在新闻调查方面十分在行,而且时间充足。比如,BBC的时事节目《全景》与新闻调查中心合作,花费数月时间,收集了有关公共部门薪酬的数据,不仅制作出了一部电视纪录片,还在网上推出了一个“公共部门薪酬:一些数字”的特别报道,并从行业分析的角度,对所有已公布的数据进行了可视化处理。

除了与调查记者合作外,拥有具备专业知识和数学头脑的记者也是至关重要的。当政府提出削减开支审查的数据时,团队中的工商记者在经过分析后能得出这样的结论:实际上的削减数字并没有他们所宣称的那么大。就是这条充分理解数据,加以清晰的可视化呈现辅助的独家新闻\"Make sense of the data\",赢得了英国皇家统计学会奖。 理解问题

不过,数据新闻不必成为那种不能被别人报道的独家新闻。数据可视化团队的工作就是将一些很棒的设计和编辑叙述结合起来,从而为用户提供引人入胜的体验。对一些准确的数据进行可视化处理有助于用户更好的理解某一问题或报道,这一招儿在BBC的新闻报道中屡试不爽。热力图数据技术的运用,就能够清晰地追踪英国救济金领取随时间的变化。

我们在欧元区债务网上的专题报道,探讨了欧元区各国错综复杂的国内贷款,我们运用颜色和比例箭头,并辅之以简明易懂的文字,以视觉化的方式来阐释复杂的问题。其中极为重要的一个考量是,如何鼓励用户去关注这样的网站,阅读其中的报道,并不会被这些数字吓到。

26

团队概况

我们的团队由20人组成,包括记者、设计师和研发人员,负责为BBC的新闻网站制作数据新闻。

除了承担数据项目和视觉效果的制作外,团队还包揽了新闻网站所有的信息图表和多媒体专题的制作。这些综合起来催生了一种新的新闻报道模式,即所谓的视觉新闻。 虽然,团队中并没有哪个记者专门司职处理数据,但所有的编辑人员都必须熟练掌握一些基本电子表格的应用技巧,如Excel 和谷歌文档等,以便对数据进行分析。

研发人员的技术和建议,以及设计师的可视化处理技术构成了每一个数据项目的核心组成部分。尽管我们首先是记者、设计师或研发人员,但我们努力工作,勤于学习,不断增加对彼此专业领域的熟悉和了解。

审校数据最常用的工具是Excel,谷歌文档和聚合图表(Fusion Tables)。不过,对于比较庞大的数据集,我们使用MySQL、Access数据库和全文检索进行处理,此外通过运用关联数据技术,我们还会用RDF数据模型以及SPARQL查询语言和数据访问协议,来模拟事件的发生,但总的来说这些都不太常用。研发人员也会使用自己首先的编程语言,如ActionScript, Python , Perl,来对我们正在做的数据进行比较、分析,甚至提出严厉的批评。Perl经常用于一些出版物。

在探索地理数据,并对其进行可视化时,我们则使用必应地图和谷歌地图,以及美国环境研究所(Esri)的ArcMAP程序。

在制图方面,我们采用Abode 套件,包括影视特效,Illustrator, Photoshop 以及 Flash软件等。尽管如今JavaScrip,尤其是JQuery和其他JavaScript 函数库诸如Highcharts, Raphael 和 D3 越来越符合团队制作数据可视化效果的要求,但我们仍很少发布Flsah 文件。

— 贝拉·赫里尔(Bella Hurrell)和安德鲁·莱姆德菲尔(Andrew Leimdorfer),BBC

第三节 新闻应用团队在芝加哥论坛报是如何工作的

芝加哥论坛报新闻应用团队就像一支潜入新闻编辑部的快乐黑客团队。我们与编辑和记者密切合作,帮助他们:(1)调查和报道故事,(2)在线描绘故事(3)为芝加哥当地的特定群体建立永久的网络资源。

27

最重要的一点是我们就在编辑部里工作。我们常常在与记者面对面交谈中找到我们需要做的东西。他们都知道我们十分乐于帮助他们编写对低劣政府网站进行屏幕抓取的工具、解析大量的PDF文档或者将非数据类型的信息转换成可供分析的形式。这样的工作方式在某种程度上帮助了我们小组发现存在的不足,在最开始找出潜在的数据项目。

与这个领域的其他很多团队不同,我们的团队是由一群技术专家组成的,且对他们而言,新闻还是他们事业的转折点。我们当中的一些人从事过几年商业编程之后又获得了新闻学硕士学位,还有一些人则来自开放政府(Open government)社群。

我们的工作是与时俱进的。为了确保我们的工作能与社会需求相同步,每天早晨的工作都以一个5分钟的非正式简短会议开始。我们常常以两人为一组负责一个项目——两人一台电脑共同开发比两人各自一台分头开发更具效率。大多数项目都可以一周之内完成,但是在一些长期项目中,我们常常采用以一星期为一个周期的工作方式,每周向我们工作的利益相关方(通常是记者和编辑们)展示我们的工作。要遵循这样一种魔咒:“快速地发现错误”。这句话地意思就是如果你们做错,那就必须及时发现,尤其当你们的工作接近截止日期的时候!

在截止日期前,都有巨大的不断推翻自我的上升空间:我们可以不断地更新我们的工具包。每个星期我们都会设计出一个或两个应用,不像一般的软件商店,我们接下来会将这些新产品置之脑后,将注意力转移到新的项目上。因此我们每个星期都能学到新的东西,这是我们与记者们一起分享的快乐。

Figure 4. 芝加哥论坛报新闻应用团队 (希瑟·比灵斯(Heather Billings) 摄) 所有与应用相关的想法都来自于编辑部的记者和编辑们。我相信这是我们与其他编辑部的应用团队不同的地方,他们往往是依靠自己构思应用。我们在编辑部建立了坚实的私人 专业化的关系,我们的伙伴发现数据的时候都会主动来找我们。

我们大部分在编辑部的工作主要是为记者们服务。我们帮助记者挖掘数据、将PDF文件转换回表格文件以及抓取网站屏幕等等。我们乐于提供这样的服务,因为这能让我们尽早地参与进编辑部内的数据工作中。这其中的一些工作会成为一个新闻应用,例如地图、表格或一个较大规模的网站。

以往,我们从文字新闻页面链接到APP,但这没能带来很多访问量。那么最近,我们首先把应用几乎放在网站的最上端,然后改成从应用链接到相关的报道页面。这种方式对应用和新闻故事来说都表现不错。同时,网站中的数据专栏这块也是我们在负责,但访问量并不多。这也是意料之中的事情。对读者来说,像“嗨,我今天需要一些数据!”这样的需求并

28

不是一个非常频繁的事儿。

我们喜欢网页流览量,也喜欢同伴的夸奖,但是这都是其次的。我们真正的的动力应该来源于我们的作品对人们生活、法律以及对政治家的监督等等。文字报道能够反映社会趋势并且通过几个具体的故事使之更加人性化。但是当读者读完报道之后他们会做些什么呢?他们的家庭是否安全?他们的孩子是否受到公平合理的教育?我们工作的意义在于能够帮助读者在数据中发现他们自己的故事。我们做过的具有影响力的、个性化的作品包括养老院安全报道以及学校报道卡片的应用。

— 布莱恩·博耶(Brian Boyer),芝加哥论坛报

第四节 卫报数据博客的幕后

当我们启动数据博客(Datablog)的时候,并不知道是否会有人对这些原始数据、统计和可视化感兴趣。就像我办公室里一些颇有地位的人问的一样:“为什么会有人想要这玩意儿?”

《卫报》数据博客(Guardian Datablog)——目前由我编辑——曾经是一个小小的博客,专门提供我们新闻报道背后的完整数据集。现在,它包括一个首页 、各国和全球范围的发展数据的搜索引擎、网络上和卫报的视觉艺术家们的数据视觉化作品,以及探索公共开支数据的工具。每天,我们使用谷歌电子表单(Google spreadsheets)来分享完整的数据。我们分析这些数据,并将之可视化。之后,我们用这些数据为报纸和网站提供新闻故事。

积累数据集,与数据“搏斗”,使它可以让当天的新闻报道变得有意义—.作为一名与图形打交道的新闻编辑和记者,这是我一贯工作的合乎逻辑的延伸。

之前那个被问及的问题已经有了答案。对于公共数据而言,这几年简直是不可思议。奥巴马 将公开美国政府的数据错误作为其第一个法案。紧随其后,一系列的政府数据网站如雨后春笋般在全世界建立起来:澳大利亚,新西兰,还有英国政府的Data.gov.uk。

我们已经有了整个不列颠最非比寻常的数据新闻报道——议员开支丑闻案。这一事件的余波使得威斯敏斯特决意每年都发布海量的数据。

我们已经有了一次大选,大选中所有的主要政党都同意数据透明化,要将我们的数据“金库”向全世界开放。我们还有报纸发表专栏文章,为督促财政部发布综合在线信息系统(COINS,Combined Online Information System)数据库作坚持不懈的努力。

29

与此同时,网络上涌现出越来越多的数据也说明了更多的人开始对新闻背后的原始事实感兴趣。我们启动数据博客(Datablog)的时候,以为读者应该是那些制作应用程序的开发者们。实际上,恰恰是广大的普通读者更想深入了解各种数据,包括碳排放、东欧移民、阿富汗发生的死亡事件,甚至是甲壳虫乐队在他们的歌里面使用“爱(Love)”的次数(613)。

渐渐地,新闻报道中开始反映并加入数据博客的工作。我们众包了458,000份与议员花销的相关文档,并详尽分析了议员们所声称的那些数据。我们帮助用户们仔细探索财政部的开支数据库,并发布新闻报道背后的数据。

不过真正改变数据新闻的事情发生在2010年的春天,它开始于一份电子表单:92,201行数据,每一行都包括一条发生在阿富汗的军事事件的详尽信息。那是维基解密战争档案,以上内容便是它的第一部分。它还有两部分:伊拉克和密电。档案的前两部分有个官方的名称:美国重要军事行动数据库(SIGACTS: the US military Significant Actions Database)。

新闻机构一贯讲究“地缘”,也就是跟编辑部的接近程度:如果离编辑部近,你就更容易提议故事并参与其中进程;与之相反,如果人家看不到你,他也就不会想到你。在维基解密之前,我们与图形部门在一起,跟编辑部在不同的楼层。维基解密事件之后,我们就跟编辑部做起了邻居,待在同一个楼层。这意味着我们能够更容易地向编辑提出想法。新闻室另一端的记者们也会想到让我们为新闻报道提供帮助。

不久之前,记者还是官方数据的看门人。记者们会撰写跟数字相关的报道,发布给对原始的统计数据毫无兴趣的公众。而今天我们会想着让原始信息进入报纸,这在过去简直就是诅咒。

现在情况已经截然不同。我们的角色正在向解释者转变——帮助人们理解数据。有时候我们发布数据仅仅是因为数据本身很有趣。

但是,没有经过分析的数字仅仅是数字而已,这恰是我们的价值所在。当英国首相声称2011年8月发生的暴乱与贫困无关时,我们在有贫困指数的地图上标注骚乱者的地址,以此来揭示这份声明背后的真相。

所有的数据新闻背后都是一系列作业流程。随着新的工具与技术的出现,它也在不断变化。有些人说这项工作要跟超级黑客一样,自己编写代码,然后被淹没在SQL中。你确实可以这么干,不过我们的很多工作其实仅仅使用了Excel。

首先,我们定位数据,或者从不同的渠道获取数据,比如说突发新闻、政府数据、记者的调查等等。接着,我们开始考虑用这些数据我们能做什么——我们需要把它跟另外一个数据集整合到一起么?如何展示数据随着时间的变化?电子表单通常会被整理得非常规整—

30

—无关的数据栏和奇怪的合并单元格没有丝毫价值。我们通常还期望数据文档不是PDF——对数据来说,这可谓人类已知的最差的格式。

通常官方数据会附带官方代号。每所学校、医院,每个选区和当地政府,都会有独一无二的识别代号。

国家同样也会有代号(比如说,英国的代号是GB)。它们非常有用,因为当你想将不同的数据集整合到一起时,你会惊奇地发现它们的单词顺序与拼写方式居然会如此不同。比如说,Burma、Myanmar都是缅甸。又比如说,从乔治亚州到西维吉尼亚州,美国一共有11个费耶特郡(Fayette County)。代号可以让我们在比较数据时避免牛头不对马嘴。

流程的最后部分是输出结果。它最后是一篇报道,还是图形,亦或可视化?要使用什么工具?我们最为常用的工具都是免费的,它们简单易用,让我们可以很快就有所产出。更为精心设计的图表则由我们的开发团队制作。

我们通常使用Google charts来制作小型的线形图和饼图,用Google Fusion Tables来快速创建地图。

这一切看上去是新奇事物,不过其实不是。

1821年五月5日,周六,曼切斯特《卫报》发行了它的第一期报纸。就跟当时的所有新闻纸一样,新闻被印在封底——头版头条是一副寻找走失的拉布拉多犬的广告。

在故事和诗歌摘录中间,“事实”居然占据了封底三分之一的位置。那是一个署名“NH”的表格。该表格全面地、“前所未有”地向公众呈现了就读当地学校的各项花费。

NH希望他能够公开发布他的数据,要不然其中的内容就要交给没有受过训练的事务员来报道。他认为:“它所包含的信息极具价值;假如不知道教育………的普遍程度,不清楚当下环境和未来的社会进程,我们哪怕最好的观点都会有所纰漏。”也就是说,如果人们连发生了什么都不知道,我们的社会如何变得更好?

为我们正在所尝试做的一切找不到更好的理由了。曾经只是在封底的东西,如今可以成为头版新闻。

— 西蒙·罗杰斯(Simon Rogers),卫报

第五节 数据新闻在Zeit在线

基于PISA(Programme for International Student Assessment,国际学生评估项目)的财富比较项目是一个比较不同国家生活标准的交互性可视化。这个交互性使用的数据来源于OECD(Organization for Economic Co-operation and Development,经济合作与发展

31

组织)出版于2010年12月的的全球教育排名报告,PISA2009。这个报告基于一份询问15岁的学生家庭生活情况的问卷。

我们的想法就是去分析并可视化这个数据,从而提供一种独特的方式去比较在不同国家的生活标准。

Figure 6. 基于PISA的财富比较项目(Zeit 在线)

首先我们的编辑团队决定哪些事实对于比较生活标准而言是有用的,并且应该被可视化,包括:

财富(拥有电视机、汽车以及家里浴室的数量);

家庭情况(是否与祖父母住在一起,只有一个孩子的家庭比重,父母的失业率以及妈妈的工作状况);

获得知识的来源(家里的网络状况,使用e-mail的频率以及拥有书籍的数量);

基于每个国家不同发展状况另外三个补充性指标。

在内部设计团队的帮助下,这些事实被翻译成自我解释性的图标。一个前端设计被制作出来去实现不同国家之间的比较,就像一个纸牌游戏。

接下来我们联系了来自德国公开数据网络,希望找到一些可以帮助这个项目实施的开发者。这个动力十足的团队推荐了Gregor Aisch,一个非常有天赋的信息设计师来进行程序开发,帮助我们梦想成真(不使用Flash,这对我们非常重要)。基于Raphael-Javascript类库,Gregor创作出一个高质量且漂亮的交互气泡图可视化作品。

我们合作的成果是一个成功的交互作品,带来了巨大的访问量。它能非常容易的去比对

32

任意两个国家,使之成为一个非常有用的参考工具。这意味着在日常的编辑工作中我们能够反复使用。例如,如果想报道有关印度尼西亚生活状况,我们能够快速便捷地嵌入一个图形去比较印度尼西亚和德国的生活状况。这种知识的变迁对我们内部团队未来项目来说是十分重要的投资。

在Zeit在线上,我们已经发现我们的数据新闻项目给我们带来了很大的流量,帮助我们以一种新的方式吸引受众。举例来说,针对日本海啸后福岛核泄露状况有非常广泛的报道。在放射性物质从核电站中泄露之后,方圆30千米以内的群众都被疏散。人们能够看到很多关于疏散的新闻。Zeit在线找到了一种创新的方式去向德国受众解释这件事情的影响。我们问道:在德国有多少人住在核电站附近?又有多少人住在核电站方圆30千米以内?我们用一张地图展示了如果相似的情况发生在德国,有多少人会被疏散。其结果是:给网站带来了很多很多的访问量,在整个社交媒体空间内也如病毒式的迅速扩散开来。相对而言,数据新闻更容易被其他语言的用户所接受。我们尝试制作了一个针对美国类似情况的英文版本,同样吸引了大量的访问。媒体机构希望在他们的受众中树立可信和权威的形象。我们发现数据新闻不仅能让受众阅读还能让他们再利用这些原数据,大大提升了我们的公信度。

两年来,Zeit在线的研发部门和总编辑沃尔夫冈·布罗(Wolfgang Blau)一直提倡将数据新闻作为一种重要的叙事方式。透明度、公信力和受众参与是我们运营哲学的重要部分。这也是为什么数据新闻已经自然而然地成为我们目前和未来工作的一个部分。数据可视化能够提升读者对故事的接受程度,也是整个编辑团队展示内容的一种很有吸引力的方式。

例如,2011年11月9日,德意志银行承诺停止向集束炸弹制作商提供资金。但是根据一个名为直面金融的非盈利组织(Facing Finance)的调查,该银行却在作出上述承诺后,继续向集束炸弹制造商提供贷款。我们的可视化项目从展现资金多样流向的数据出发。上方是德意志银行的不同部门,下方是一些被控接受集束炸弹制造资金的公司。中间按照时间线展示出每一桩交易的信息。把鼠标指向圆圈,可以查看每笔交易的细节。当然,这个故事也可以通过文章的形式呈现。但是,可视化的方式能够使我们的读者以一种更加直观的方式理解并挖掘金融依赖。

33

Figure 7. 炸弹交易(Zeit在线)

再举一个例子:the 德国联邦统计局出版了一个囊括德国各类重要数据的优秀数据集,当中包括预测至2060年的各类人口统计场景模型。一般来说,展示这类数据的典型方式就是人口金字塔,就像来自联邦统计局的这个一样。

在科技部门同事的协助下,我们试图为我们的读者提供一种探索关于我们未来社会人口统计信息的更好的方式。利用可视化,我们通过一个具有统计代表性的40人群体展示了从1950年到2060年间不同时代的情况的。他们被划分为8个不同的小组。这就像是不同时点上德国社会的集体照。同样的数据,以传统的金字塔的方式呈现,只能提供非常抽象感觉;但以一个拥有小孩子、年轻人、成年人和老年人的群体呈现,则意味着我们的读者能够更轻易地理解数据。你只需轻轻点击按钮,就可以开启一段穿越110年的旅程。你也可以输入自己的出生年份和性别,从而成为集体照中的一员:去观看属于你的人口发展历程和自身生命轨迹。

— 萨沙·费诺尔(Sascha Venohr),Zeit在线

第六节 如何雇佣一个黑客?

我经常被记者问到的一个问题就是“我是如何找到一个程序员帮助我做项目”?不要认为这是一个单向的过程,有公民意识的黑客和数据玩家也很渴望和记者接触。

记者是数据驱动的工具和服务的强力使用者。从开发者的角度来看,记者能够跳出思维

34

定势,以一种开发者从未考虑过的视角(反馈是无价的!)去使用数据工具。他们也能够帮助建立语境,在项目周围东奔西忙,并且使他们产生联系。这是一种共生的关系。

幸运的是,这意味着不管你是想雇用一个黑客还是以小额预算寻找可能的合作,都会更有可能找到一个对于帮助你感兴趣的人。

所以怎样才能找到他们呢?来自纽约时报的阿隆·费尔霍夫(Aron Pilhofer)说: 你可能发现在你的组织中有人拥有你所需要的所有技巧,但是他们不在你的新闻编辑室。四处走走,去拜访技术部门和IT部门,你可能找到金子。还有一点很重要,要尊重编码文化:偶遇一个有电脑的人且他又在这工作Figure 9…你很可能取得成功.

Figure 9. 荣誉勋章: 黑客通常很容易就能找到 (露西·钱伯斯Lucy Chambers 摄) 这儿还有一些其他的主意: 在求职网站上张贴启事

在旨在面向运用不同编程语言的开发者的网站上张贴启示,例如Python Job Board。 联系相关的邮箱列表

例如,NICAR-L和Data Driven Journalism邮件列表。 联系相关组织

如果你想清理或从网上抓取数据,你可以联系一个像Scraperwiki这样的组织,他们有一些值得信任并有意愿的程序员的地址。 加入相关的小组\\网络

寻找一些如Hacks/Hackers这样能使记者和工程师聚在一起创新组织。Hacks/Hackers组织现在在全世界都开始涌现。你也可以尝试在他们的工作通讯上张贴一些东西。

本地兴趣小组

你可以尝试使用你的专业领域和地区进行一个快速搜索(例如,“JavaScript”+“伦敦”)。像Meetup.com这类的网站也不妨是一个开始的好地方。 黑客马拉松和比赛

不管有没有奖金,应用、可视化比赛和开发者大会都是产生合作和连接的硕果之地。 直接去问一个极客!

极客们都有自己的圈子。行内人介绍总是找到合适一起工作的人的好办法。

— 露西·钱伯斯(Lucy Chambers),开放知识基金会 黑客技术

一旦你找到了一个黑客,怎么才能知道他的水平高低?我们询问了来自卫报的阿拉斯泰

35

尔·丹特(Alastair Dant,卫报的首席互动工程师),看看他认为如何鉴别一个好的黑客: 他们能编写整个架构

对于时间管理来说, 有一个能搞定所有的人要比一个方面的专才好。新闻应用需要驾驭数据,动态制图并且敢想敢干。 他们能看到整个图景

整体的思考喜欢叙述价值胜过技术细节。我更喜欢听一个有感情的叙述而不是在模糊的尺度上无尽的追求精湛。不信去问问人们和一个设计师工作能有多开心。 他们能讲述一个好故事

叙述性的展示要求能够很好对时空进行安排。调查他们最自豪的项目,问他们项目是如何实施的,这能够揭示出他们表达技术理解的能力。 他们能够充分讨论

迅速的构造事物需要混合的团队合作但有共享的目标。每一个参与者都应该尊重他们的同事,愿意去沟通。无法预见的障碍经常需要迅速的重新规划和相互让步。 他们能够自学

技术发展的十分迅速。能够跟上变化需要努力。遇到的来自各种背景的好的开发者的共同特点就是他们愿意学习新的事物

— 露西·钱伯斯(Lucy Chambers),开放知识基金会,采访阿拉斯泰尔·丹特(Alastair Dant), 首席 交互 工程师, 卫报

如何找到理想的开发者

一个比较好的和一个非常优秀的开发者之间,他们的效率差异不是一丁点的,而是指数倍增的。雇佣合适人选十分重要。不幸地是,那也非常困难。如果你不是一个有经验的工程师的话,很难去审查候选人的资质。再加上新闻机构组织所能负担的薪资,你的确面临一个挑战。

在芝加哥论坛报,我们招聘会打两张牌:感情牌和技术牌。感情牌就是:新闻对于民主的运转非常必要。在这儿工作你能够改变世界。技术上,我们能提升你的所学。我们的项目都很小、很快、可重复。每一个项目都是一系列新的工具、新的语言、新的主题(火的安全、保险金体系),这些你都必须学习。新闻编辑室是一个考验之地。我从来没有管理过一个能学到这么多、这么快的地方。

36

至于在哪儿能找到,我们很幸运地在开放的政府社团中找到了很棒的黑客。The Sunlight Labs的邮件地址列表上有很多优秀的技术痴迷者,他们的日常工作很糟糕,但经常夜晚在网上聚在一起。另一个潜在的来源是Code for America。每一年都会从CfA中涌现一批同事,在寻找他们的下一个大项目。同时因为CfA有很严酷的面试过程,他们已经替你做了审查的工作。现在,新闻院校里也涌现了很多对编程感兴趣的记者,他们虽然还很青涩,但有无尽的潜力。

最后,仅仅雇佣开发者还是不够的。你还需要技术上的管理。一个单枪匹马的开发者(特别是没有行业经验的刚刚从新闻院校毕业的人)很容易做出一些错误的决定。即便是最好的编程者,也会选择她技术上感兴趣的而不是对受众来说最重要的东西做。雇用一个新闻应用编辑或是一个项目管理或是什么。就像作者需要编辑一样,编程者也需要编辑、指导者或是某个能催促他们在截止日期前做出软件的人。

雇用一个新闻应用编辑,或是一个项目经理,或是类似的人。就像作者需要编辑一样,编程者也需要编辑、指导者或是某个能催促他们在截止日期前做出软件的人。

— 布莱恩·博耶(Brian Boyer),芝加哥论坛报

第七节 通过黑客马拉松聚集外部专家

2010年3月,位于荷兰乌得勒支的数字文化组织SETUP开始了一个名为Hacking Journalism的项目。这个项目旨在鼓励开发人员与记者间更广泛的合作。

程序员们说:“我们组织黑客马拉松来做很酷的应用,但我们无法识别出数据中有趣的故事。我们所做的没有社会实用性。”记者们说:“我们意识到了数据新闻的重要性,但我们没有技术去构建我们想要的东西。”

Figure 10. 记者与开发人员在RegioHack黑客马拉松上 (Heinze Havinga 摄影)

对于一个地区性报纸来说,尚没有意向和预算为新闻编辑室雇佣一个程序员。对于当时的荷兰报纸来说,数据新闻仍是个未知数。

黑客马拉松模式非常完美。它是一个放松的合作环境,有很多比萨和能量饮料。RegioHack是个黑客马拉松比赛,由我们的雇主,一家地域性报纸De Stentor,以及我们姐妹刊物TC Tubantia和Saxion Hogescholen Enschede所组织。Saxion Hogescholen Enschede提供了项目场地。

Setup组织是这样的:每人都能获得一个30小时的黑客马拉松。我们提供食物和饮料。针对30位参与者,我们把他们分成6组。这些组可以聚焦于不同的主题,比如犯罪行为、

37

健康、运输、安全、老龄化和能源。对于我们,以下是三个主要的目标: 找到故事

对我们来说,数据新闻是崭新的和未知的。写出精雕细琢的故事是唯一能证明其用途的方法。我们计划创作至少三个数据故事。 连接人与人

我们记者不知道也不假装知道数据新闻是怎么做出来的。通过将记者们(学生及程序员)聚在一起长达30小时,我们希望他们去分享知识和见解。 举办一个社交活动

报纸不会组织太多社交活动,更不用说举办黑客马拉松了。我们想去体验一次活动能激发出多少成果。事实上,这种活动听来很考验人:跟陌生人呆在一起30个小时、用大量术语、基本问题去冲击你的大脑、在你的舒适区之外工作。还记得那些比萨和能量饮料吗?用这样一个活动,我们想去创造一个记者和程序员能感到舒适和能高效合作的环境。 这活动之前,TC Tubantia对一名警察的遗孀做了一个采访,她写了一本有关她丈夫工作岁月的书。她同时拥有一个她丈夫从1945年开始维护的文档,记录着所有荷兰东部注册在案的谋杀案。一般我们会在我们的网站上公布这个文档。而这次,我们用Tableau这个软件做了一个仪表盘。我们同时在RegioHack网站上发了博客来解释这些都是如何做出来的。

黑客马拉松期间,一个项目组提出了学校发展和地区老龄化的主题。通过对未来预测的可视化,我们知道了哪些城市将会在入学率连年下降时遇到问题。利用这个想法,我们写了一篇我们的地区学校将因此受到何种影响的文章。

我们同时开始了一个野心勃勃的项目,叫做De Tweehonderd van Twente(英语叫200个特温特。特温特,德国地名)去决定谁在我们这个地区最有影响力,并且建了一个最有影响力的人的数据库。通过一项谷歌的计算(Google-ish)——谁和哪些有影响力的组织联系最密切——形成一个有影响力的人的名单。这将引出一系列的文章,但它也是记者强有力的工具。谁跟谁有关联?你可以向这个数据库提问题,并应用于日常工作。并且,这个数据库还有文化价值。艺术家们已经询问过作者作品完成以后是否能用这个数据库,想拿去制作交互艺术装置。

在RegioHack之后,我们注意到记者们认为数据新闻是对传统新闻的一个可行的补充。我的同事继续在使用和建立当天学到的技术去创建更多雄心勃勃的技术项目,比如房屋管理成本的数据库。用这些数据,我通过Fusion Tables建了一个交互式地图。我们要求读者玩玩这个交互地图和众包结果,比如这个。在被问了太多次我们是如何在Fusion Tables中做

38

的这个地图之后,我录了一个视频教程。

我们学到了什么?我们学到了很多,但我们也遇到了很多困难。我们意识到了如下四点: 从哪儿开始:问题还是数据?

几乎所有的项目在搜索信息时都会止步不前。大多数时候,他们从一个新闻业上的问题开始。但是然后呢?什么数据是可用的?在哪儿能找到?并且,当你找到这些数据后,它们能回答你的问题吗?在为一篇文章做调查时,记者们在写文章的时候通常知道在哪儿能找到信息。而在数据新闻中,大多数记者不知道哪里能够获得数据什么信息是可用的。 少许技术知识

数据新闻完全是一门技术学科。有时你不得不妥协,有时你要做一些编程去可视化你的结果。对于杰出的数据新闻,你需要两方面:经验老道的记者在新闻业上的洞见,和数字全能型选手的技术知识。RegioHack在期间,能做到这些并不常见。 它是新闻吗?

参与者经常用一个数据集去发现新闻,而不是在不同的数据源中搜寻相互联系。原因是:你需要一些统计学知识去从数据新闻的角度来验证新闻。 有标准流程可循嘛?

以上这些可以归结为,没有标准流程。参与者本身有一些技能,但不知道何时、怎样用它们。一个记者用烤蛋糕来打比方。“我们有所有的原料:面粉、鸡蛋、牛奶等等。现在我们把它们全抛进一个袋子里,摇一摇然后希望能做出一个蛋糕来。”的确,我们有所有的原料,但不知道菜谱是什么。

现在呢?我们对数据新闻的初次体验能帮助其他记者或程序员立志于相同领域的工作,并且我们正在做一份报告。

同时,我们也在考虑如何以一个黑客马拉松的形式将RegioHack继续下去。我们发现它很有趣、有教育意义并富有成效,是一个对数据新闻的极好介绍。

但想要数据新闻运作起来,我们必须在新闻编辑部内进行很好的整合。除了引用、发布新闻稿、召开会议以外,记者们需要开始思考数据。通过做RegioHack,我们向受众证明了数据新闻不是炒作。我们能写出更好的消息与更多不同的文章,同时在实体及线上出版物中向读者呈现不同的文章。

— 杰里·维曼(Jerry Vermanen),NU.nl

39

第八节 追踪赃款:数据新闻与跨国境协作

对揭密有组织犯罪和腐败感兴趣的调查记者和市民来说,在过去的每一天里都在接触到前所未有的信息,这影响着全球数以亿计人民的福祉。在政府和其他组织的努力下,在网上可以找到海量的数据,且似乎对每个人而言,这些亟需的信息越来越触手可得。然而,与此同时,政府腐败官员和有组织犯罪团伙也在尽其可能的掩盖这些信息以隐埋他们的不法行为。他们在不遗余力的蒙蔽着人民的同时,进行着丑恶的交易,导致社会各个层面的崩塌,引发战乱、饥荒等等各类危机。

曝光这些罪行以遏制腐败和犯罪的机制恰恰是调查记者的职责。

Figure 12. 调查仪表盘(OCCRP)

如果跟随下列的三条指导,即便在最严峻的环境下也能调查出主要的腐败和犯罪行径,做出优秀且深入的新闻: 从你所在国家之外进行思考

在许多案例表明从海外获得数据要比从调查记者自己国家的获取要容易得多。通过国外的数据库或者使用其他国家获取信息的法律来搜集信息可能恰恰是解开调查谜团所需。除此之外,犯罪分子和腐败官员也不会把他们的钱放在他们所偷盗的地方。他们更会把这些钱存在海外银行或者投资到其他国家。犯罪是全球性的。能够辅助调查记者在全球范围内追踪赃款的数据库能在网上很多地方找到。例如,这个调查仪表盘就能够让记者追踪跨国境的赃款。 利用现有调查新闻协作网络

全世界的调查记者会形成一些组织,如有组织犯罪和腐败报道项目,调查性报道非洲论坛,调查性新闻阿拉伯记者组织,全球调查性新闻网络等。记者还能够利用一些专业新闻平台,如国际记者网,每天都会就全球性的新闻专业内容进行交流。很多面对相似问题、面临

40

相近情况的记者形成协作网络,他们在其中交流信息和方法十分有意义。协作网络内会有一些邮件列表或社交网络群组,这能让你很容易的接触到记者同伴,向他们询问相关信息或者意见。从这样的论坛和邮件列表搜集调查性新闻的主意也不失为一个不错的方法。 运用科技手段并与黑客进行合作

软件能帮助调查记者获得并且处理信息。不同类型的软件能协助调查记者完成不同的工作,如减少噪音、挖掘大量数据中的价值还能从中准确找到帮助你有所突破的那一份文档。有很多现成的软件都能用作分析、搜集、阐释数据的工具,并且,更重要的是,调查记者需要知道的是,还有很多只要你开口他们便会答应帮助你的计算机程序员。这些程序员或者黑客知道如何去获取和玩转这些数据。他们能为你调查能帮上大忙。这些编程人员,他们其中的一些是全球数据开源运动的成员,能成为打击犯罪与腐败的无价盟友。他们能够帮助记者搜集并分析数据信息。

Scraperwiki就是一个让公民与程序员能进行很好对接的例子。Scraperwiki是一个能让记者在此向程序员寻求帮助,帮助他们从网站提取数据的网站。在调查仪表盘中可以找到一个能帮助记者搜集、塑造、和分析数据的现成的工具列表。

上面提到三个实用的指导在很多例子中都能看到。卡萨迦伊斯马伊洛娃( Khadija Ismayilova)的作品就是一个很好的例子。她是一名来自阿塞拜疆很有经验的调查记者。她处在一个非常严峻的环境中很难拿到数据。伊斯马伊洛娃小姐为了向阿塞拜疆的公众提供优秀且可靠的信息,每天都必须克服种种障碍。2011年六月,卡萨迦伊斯马伊洛娃作为欧洲自由电台/自由者电台(RFE/RL)巴库分部调查记者,就阿塞拜疆总统阿利耶夫的女儿通过在巴拿马注册的离岸公司,对Azerfon电信公司迅速崛起的秘密运作进行了报道。这家公司用户据称有17万人,覆盖整个国家80%的地区,并且还是阿塞拜疆唯一的3G服务提供商。伊斯马伊洛娃花了三年时间尝试去找到谁是这家电信公司所有者,但是政府拒绝披露股东信息还就公司所属情况编造了无数谎言。他们甚至宣称这家公司属于德国西门子AG,但这一宣称被西门子断然否认。这个阿塞拜疆记者设法找出Azerfon是由几家巴拿马注册的私人公司控股。调查难有继续进展,直到她得到了外界的帮助。在2011年初,伊斯马伊洛娃通过网站“调查仪表盘(Investigative Dashboard )”找到了程序员兼活动家丹·奥希金斯(Dan O’Huiginn)开发的一款应用,可用于追踪这些巴拿马注册的公司的资金状况。然后当她最终揭开事实真相,总统的两个女儿通过巴拿马当地的生意圈控制电信公司。

事实上奥希金斯创造的这款工具能够帮助全世界的记者报道像巴拿马这样的腐败案件。巴拿马是个非常著名的离岸天堂,被世界各地的腐败官员广泛运用于藏匿赃款:从前埃及总

41

统的亲信胡斯尼穆巴拉克到巴尔干或者拉丁美洲的丑恶官员。像这种程序员活动家所做的就被称为网络搜刮:一种调查者可用来提取和重构信息的方法。奥希金斯对巴拿马注册公司进行了“网络搜刮”,虽然这些信息是公开的,但仅在知道所寻找的商业公司的名字才能够在数据库里查询。这就限制了记者通常对人名进行调查,追踪他们财产情况的可能性。程序员把数据提取出来并创建了一个新的网站能够通过人名来进行查询。这个新的网站让许多国家的调查记者都可以“钓取”信息,从中查询政府或者议会官员的姓名,看他们是否在巴拿马拥有秘密私有公司(就像阿塞拜疆总统的家人一样)。

除了能更好的获取信息之外,遵循上文强调的三个指导还有其他益处。其中一个最重要的就是尽可能减小处在危险环境中的调查记者受到伤害的可能,尽可能地提供更好的保护。在这个协作网络中的记者不是孤单一人奋战,这些调查记者与其他国家的同行协力合作,这样对犯罪分子来说就很难盯上导致他们不良行径被曝光的某一个人。这就让政府和腐败官员就很难达成报复。

同样要记住,一则信息可能对某一地理区域毫无价值,但对另外一个地方十分关键。通过调查协作网络进行信息交换能够激发出很多非常重要的新闻。例如,一名罗马尼亚人在哥伦比亚因为一千克可卡因被捕的信息在波哥大来说不是什么重磅新闻,但对罗马尼亚公众来说就非常重要,因为一名当地记者发现这个因毒品被捕的人在布加勒斯特为政府工作。

颇有成效的调查报道往往是调查记者、程序员还有其他任何想通过运用数据为创造一个干净、公平更加全球化的社会的做出贡献人联手协作的结果。

— 保罗·瑞杜(Paul Radu),有组织犯罪和腐败报导项目

第九节 我们的新闻以代码呈现

开放数据城市在2010年底成立。那时在德国还没有出现很多你们所谓的数据新闻。 我们为什么要做开放数据城市呢?我们多次听到报纸和广播的工作人员说:“不,我们编辑室内部还没有做好开设一个精致的数据新闻板块做好准备。但我们非常愿意把这些外包给其他人。”

我们所知,我们是德国唯一一家专注于数据新闻的公司。我们团队目前有三个人:其中的两个是新闻学背景,另外一个对编程和可视化非常专精。我们还与一些得力的自由职业黑客、设计师和记者进行协作。

在最近的十二个月里我们在为媒体进行四个数据新闻项目,并且我们还提供对媒体工作者、科学家以及新闻院校的培训和咨询服务。我们做的第一个app是与TAZ一同完成的一个

42

查看柏林新建机场噪音的交互工具。我们下一个知名项目是和ZEIT在线共同完成的一项应用,关于德国一位政治家的手机使用数据记录。因此我们在德国赢得了格林在线新闻奖和里德奖。还有一个由在线新闻协会在美国颁发的在线新闻奖。在这个项目编程过程中,我们还有其他几个项目也在进行当中——从简单的交互信息图表到设计开发一种数据新闻中间组件。

当然,赢得奖项能帮助我们建立声誉。但是当我们与那些负责这些项目的出版人交谈的时候,我们对投身数据新闻主要谈论的话题不是去拿奖项,而是如何能够可持续性地获得长久的关注。建立他们长久的影响力,而不仅仅是一则通常几天后就被人遗忘的独家新闻。 这有三个我们通常用来鼓励出版人进行长期项目的关键点: 数据项目不会过时

这些数据项目的设计都能够让新的数据不断填充进过去制作好的数据新闻应用当中。并且这些应用也不仅仅是针对用户的,还可以用于内部的报道与分析。如果你担心你的竞争者也会因此而受益的话,你可以保留一些功能或数据仅供内部使用。 可以利用过往项目

当正在进行一个数据项目的时候,通常你所开发的这些代码都是可以重复利用或者进行升级的。这样一来下一个项目可能只用一半的时间就够了,因为你已经非常了解该做什么(和不该做什么),并且你可以利用原来的一些代码。 数据新闻省钱

数据驱动的项目比传统的营销战要便宜。在线新闻的产出往往还会转化投入到搜索引擎优化(SEO)或者搜索引擎营销(SEM)中。一个运作的数据项目正常情况下都会产生大量的点击与讨论,还可能会病毒式的传播。出版者们通常可以因此减少开支,还能够获得与SEM同样效果的点击与链接,吸引同样等级的注意力。

我们所做的工作对于其他新媒体机构来说也不是很困难:也都能提供针对新闻报道的应用开发或者相关服务。所不同的是,我们首先并首要地认为自己是新闻工作者。我们相信这些产品是在传递文章或故事,尽管不是用文字和图片、声音或视频而是用代码来制作。当我们谈论数据新闻的时候我们必须去讲关于科技、软件和设备以及如何用他们去讲一个故事。

举一个例子:我们刚刚完成了一个应用,实时地通过爬虫从德国铁路网站抓取数据。这样就能够让我们为南德意志报开发一个火车监测交互应用,实时展示长途火车延误情况。这款应用的数据每分钟左右更新一次,我们同时还提供了API接口。我们几个月以前就开始做这些工作,到目前为止已经收集了一个庞大的,每小时都在不断增长的数据库。到现在已经

43

积累了几十万行数据。这个项目能够让用户去探索实时的数据,还能根据前几个月的数据进行研究。最后我们所讲述的这个故事会与这些用户的个人行为密切相关。

在传统新闻当中,由于文字或者广播媒体线性的特征,我们必须去思索如何开头、结尾、起承转合以及文章的长度和角度。数据新闻则完全不同。当然,同样会有开头。人们来到网站会有对界面的第一印象。但接下来就是他们自己的事情。可能他们会停留一分钟——或者半个小时。

我们数据新闻记者的工作是为此提供一个框架或者一个环境。无论是编程还是数据管理软件,我们都必须考虑设计良好体验的巧妙方法。用户体验(User Experience, UX)大部分从(图形化)用户界面(GUI)而来。到最后,这就是决定这个项目成败与否的关键部分。你可能有最好的后台程序在操控一个让人振奋的数据库。但是如果你的前端很烂,没人会关注这个产品。

仍有很多需要去学习和实验的东西。但是很幸运的是游戏行业依旧存在,几十年以来在数字化叙事、数字生态系统和界面上不断创新。那么当开发数据新闻应用的时候我们应该密切关注游戏设计是如何进行的,且游戏中是如何讲述故事的。为什么像俄罗斯方块这样很普通的游戏有非常有趣?是什么让像侠盗猎车手或者上古卷轴天际这样的开放世界沙盘游戏如此的引人入迷?

— 洛伦兹·马察特(Lorenz Matzat), 开放数据城市OpenDataCity

第十节 Kaas & Mulvad:组织机构的半成品内容提供商

作为业内新兴的板块,利益相关者媒体(Stakeholder media)拥有以自有网络或公共媒体发布信息引发巨大影响的潜力,却处于被大多数理论学者忽视的状态。利益相关者媒体可被定义为:由组织化或机构代表的利益相关者操控的、用于促进特定利益或是特殊群体的(通常是网络)媒体。NGO是最早使用这类媒体的典型组织,此外还包括消费者社团、专业组织、工会联盟等。制约这类媒体影响公众或其他利益干系者的关键因素在于缺乏发现重要信息的能力,甚至还不如一些正在走下坡路的新闻媒体。Kaas og Mulvad,一家来自丹麦的营利性企业,正是世界上首批为利益相关者媒体提供专业服务的研究型媒体机构。

这家公司成立于2007年,起初是非营利性的丹麦计算机辅助报道协会(Danish Institute for Computer-Assisted Reporting ,简称Dicar)旗下的子公司,主营业务包括向媒体售卖调研报告以及为新闻工作者提供数据分析方向的培训。该公司的两位创始人,Tommy Kaas和Nils Mulvad,均有新闻行业的从业经验。他们声称公司产品是“融入记者视

44

角的数据”(实际多是些处于半完成状态的内容,需要进一步的编辑和改写)。利益相关者媒体则将这些内容完善后置入新闻稿件,并通过公共的和自有的发布平台(如网站)向外传播。公司的直接客户包括政府机构、公关公司、工会联盟和NGO,例如欧盟透明度(EU Transparency)和世界野生动物基金会(World Wildlife Fund)等。他们为NGO提供的服务包括定时监看相关网站的更新信息,“抓取”有关农渔业津贴、欧盟政客动态等方面的有用数据。公司的间接客户包括为NGO项目提供资金支持的基金会等。新闻机构也是公司的客户来源之一,例如就有通俗小报购买其名人动态监控服务。 在该公司的诸多业务中,涉及数据新闻的项目包括: 为3F提供的失业状况地图

这是一个为丹麦非技术型劳动者联盟3F提供的关于丹麦失业关键指标的数据可视化项目。

为3F提供的生存状况地图

这是另一个为3F提供的项目,通过24个指标展现国内不同地区的生存状况差异。 为“Ugebrevet A4”提供的债务指数

这是一个计算“债务指数”的项目,用于呈现私有经济中存在的差异。 丹麦濒危设施地图

这是一个用于标识并分析幼儿园等日托服务机构与濒危公共设施之间邻近程度的项目。该项目的购买方是丹麦幼儿与青少年教育者联盟(Danish Union of Early Childhood and Youth Educators,BUPL)出版的《Børn&Unge》杂志。 为Vestas提供的企业社会责任数据

这是一个为丹麦风力涡轮企业Vestas提供的数据可视化项目,以季度为周期,自动监测并集成处理五个特定领域、全球范围内400余个网页的企业社会责任数据。 为益百利提供的姓名地图

输入你的姓氏,就可以查看自己的姓氏在国内不同区域的分布情况。 为Ekstra Bladet提供的“微笑地图”

每天Kaas & Mulvad为丹麦通俗小报Ekstra Bladet提取各种有害食品监测信息,并且在地图上标识最新的数据。(地图见于网页下半部分)

Kass & Mulvad并不是最早与利益相关者媒体有合作关系的新闻工作者。举例而言,绿色和平组织(Greenpeace)会定期邀请新闻工作者作为合作伙伴,参与其活动报道。但据我们所知,新闻工作者通常是以记者、编辑或作家的身份与NGO合作,Kass & Mulvad是唯一

45

一家以数据为基础的服务提供商。与此同时,随着计算机辅助功能日渐完善,新闻媒体的焦点已经转移到信息的探寻和发掘上(想想Wikileaks吧),于是Kaas & Mulvad以数据分析为核心的创新能力再一次脱颖而出。其生产过程不仅要求一流的编程技术,还要求识别何种信息可以赋予故事足够影响力的敏锐知觉。我们可以放心地说,任何人想要复制Kaas & Mulvad的服务模式,大多要通过企业并购的方式,才能同时拥有上述两种能力,因为能够两者兼备的单个机构实在少之又少。 流程:创新科技+数据分析

这家公司每年承接大约100个项目,耗时从数小时到数个月不等。此外,它还不断投入一些有助于拓展自身能力和扩充产品序列的实验项目。上文提到的名人动向监控服务就是其中之一。另一个实验项目是关于房屋止赎信息的抓取和视觉化。公司的合伙人表示,他们选择项目的首要标准在于是否能从中发现乐趣并获得启发;而市场开发的工作则是在某项服务定义完成后才着手进行的。他们明确指出,在现有的新闻行业中,已经难以诞生新方法和新业务。 Mulvad评论说:

我们并不是由所谓的主编或者老板来决定该做哪些项目,该买哪些软件或硬件。我们可以根据项目需求购买任何工具——例如用于文本抓取和挖掘的最佳解决方案。我们的目标是在所涉足的领域做到最好。我们试图找到愿意为项目付钱的客户,要是项目足够有趣我们也会考虑给点优惠。

价值创造:个人与公司的品牌以及收入

2009年的营业额接近250万丹麦克朗,约合336,000欧元。而个人和公司的品牌价值可谓相得益彰:一方面,公司优异的运营表现让两位合伙人跻身顶尖新闻工作者之列,培训和演讲的邀约源源不断;另一方面,合伙人在公开场合的频频露面,也进一步提升了公司品牌的知名度。 本例中的关键启示

新闻行业水平不断下降的危机,实质也是从业者才华未能充分施展的危机。Kaas & Mulvad恰是在离开新闻行业之后才找到发挥自身能力的舞台,并且取得成功。毋庸置疑的是,新闻机构才最应该拥有这种能力。

至少在某些领域,为利益相关者群体的需求供应“半成品”内容,是有利可图的。 然而,伴随机遇而来的,还有新闻工作者对于这些由自己创造、却由第三方机构呈现和使用的内容拥有多少控制权的议题。我们对于这个议题并不陌生:在新闻行业内部早已存在

46

(编辑可以对记者的作品强加修改),其他的媒体领域也普遍存在(如电影行业中,导演和制作室对“最后一刀”的争夺并不罕见)。这并不是利益相关者媒体中特有的道德危机,但它确实存在。因此,我们不能对这个还处于成长期的现实和市场掉以轻心。

从收入的角度来看,单一的产品或服务是不够的。也许成功的新闻集团会做得更好,通过不断整合产品组合,融入咨询、培训、演讲等多种服务,从而创造额外的盈利点,以此支撑自身新闻品牌发展。

— 节选自Mark Lee Hunter和Luk N. Van Wassenhove合著:“破坏性的新闻技术:利益干系媒体和新闻看门人商业模式的未来”, INSEAD Working Paper, 2010

第十一节 数据新闻的商业模式

在所有关于数据新闻的兴趣和希望之中,有一个问题最为新闻编辑部关注:它的商业模式是什么?

我们不能轻率地预言,也许可以从媒体行业的近况和现状中发现线索。事实是,已有很多新闻机构从这新生事物中获益。

诸如“数据新闻”、包括当下最热门的“数据科学”等术语,乍听起来新鲜,实际不然。相反地,这些新标签不过是对一股数十年前就已出现、并且正愈演愈烈的潮流的描述而已。

许多新闻从业者似乎还没完全意识到,数据采集、分析及可视化所能达到的利润规模。这是一门有关提纯信息的生意。有了数据工具和技术,人们越来越有能力把握和理解那些极其繁复的议题:国际金融、债券、人口、教育等等。所谓“商业智能”,正是这样一堆科技概念的统称,它们试图清晰地说明发生在公司里的事。那些属于我们时代的大规模、高利润公司,例如麦当劳、Zara、H&M之类,无不依赖数据跟踪来赚钱,而且赚得不少。

眼下,这些工具和技术的应用范围逐渐扩大,开始从商业延伸到其他领域,例如传媒业。某些新闻从业者敏锐地发现并抓住这一机遇。以Tableau公司为例,他们为客户提供成套的可视化工具。又如“大数据”运动,众多科技公司利用(通常是开源的)软件包从大量数据中探寻、挖掘,眨眼的功夫就能提取有效信息,得出深度见解。

的确,这些技术如今可被应用于新闻业。《卫报》和《纽约时报》的团队正孜孜不倦地进行尝试和突破,希望不断扩展该领域的疆界。我们现在所看到的,无疑只是冰山一角。

然而,数据新闻到底怎么赚钱?在这个向我们敞开的全球性的大市场里,目前只有一件事情:把数据从人们的身边转入脑中。也就是说,让数据可见、可知。我们希望和每天都出

47

现在新闻中的天文数字发生联系——究竟那几百万、几十亿对我们这些平民而言,意味着什么。

早有部分数据导向型的媒体企业将上述原则应用于实际,并获得丰厚的回报。它们拥有良好的增长势头,有时还能创出眼前一亮的利润收入。布隆伯格就是代表之一。该公司共有30万台终端设备,向它的客户提供金融数据。这在金融行业中,无疑是一个极有力的竞争工具。每台终端设备都配有彩色按键的键盘,提供多达3万种功能选项,客户可以用其查询、比较、分析并作出决策。根据《纽约时报》2008年的一份评估报告,该项核心业务每年至少能为公司带来约63亿美元的收入。正因如此,布隆伯格持续不断进行扩张,包括大范围招聘新闻记者,收购业内颇负盛名但处于亏损状态的“商业周刊”等。

另一个代表性的例子是来自加拿大的汤森路透媒体集团。该集团最早是当地的一家报纸,以购买英国知名的新闻标题为业。20多年前,他们决定撤出报业,转投信息服务业,旨在为客户提供关于若干行业的关键信息和深度分析。假如你对如何利用专业化信息赚钱稍有疑虑的话,建议阅读一下维基百科上关于这家集团的历史。

再把目光转向《经济学人》。这本杂志无疑已在媒体领域树立起卓越的、有影响力的品牌。与此同时,杂志中的“经济学人智库”单元表现得更像是一个咨询部门,提供几乎所有国家的相关发展趋势预测。他们旗下拥有数百位专业记者,声称为全球范围内150万客户服务。

除此以外,我们还可以从许多微型的数据导向型业务中汲取灵感。例如来自美国的eMarketer,为任何感兴趣于互联网营销的人提供业务对比、数据图表和实施建议。又如来自德国的Stiftung Warentest,是一家专注于调查产品和服务水平的机构。还有同样来自德国的Statista,对公众信息的可视化工作提供入门式辅助。

目前,在该领域,全球各地涌现出一波创业潮,当然涵盖各领域——例如,旨在“彻底改造商业研究”的Timetric及OpenCorporates、Kasabi、Infochimps和数据市场(Data Market)。可以说,这当中许多公司的业务还只是实验性的,但是,放到一起,他们可被看成是变革的重要标志。

说回大众传媒,就数据为导向的新闻业而言,就像沉睡的巨人。在德国,每年有72亿欧元流入该领域。新闻业是个与众不同的产品:若经营得好,不仅仅有利可图,而且在社会起举足轻重的作用。一旦认清了数据新闻业可更轻而易举地提供更好、更可靠的见解这个事实,那么将在新闻编辑部创造更多的工作岗位。

48

对于数据新闻业,并不仅仅在于先发制人,而在于提供可信的信息来源。在这个选择众多的世界,要吸引受众的方式不胜列举,但_信任_是日益稀缺的资源。数据新闻记者可协助收集、合成并呈现各种各样且常很难获取的信息,帮助受众真正深刻理解复杂问题。相比单纯地循环使用新闻稿,并将其他地方听到的新闻事件再重述一遍,数据新闻记者能用交互式图表和直接接触第一手来源给读者一个清晰明了、可理解且最好是量身定制的观点。他们的工作并非微不足道的,而确实是弥足珍贵。

因此,让有抱负的数据新闻记者探索此领域并说服管理层支持这一创新项目的最佳办法是什么?

首先,应寻找与正中要害最接近的机会:唾手可得的目标。例如,你有可能已经收集了大有用处的结构化文本和数据。最好的例证便是《洛杉矶时报》的“杀人犯数据库”。此时,数据化和可视化是核心内容,而非补充材料。编辑汇总所有记录的罪行,其后才能写出以此为基础的文章。假以时日,此类资料的收集变得更好、更有深度且更有价值。

这些并非一蹴而成。而是需要假以时日的。对此,一个蛮有希望的指示器便是《德克萨斯论坛报》(Texas Tribune)和ProPublica, 可以认为这是两家后印刷媒体时代的公司,据说他们作为非营利的新闻组织所筹集的资金比原计划早早达标。

要成为一切数据方面的行家,不管你是作为多面手或关注于数据食物链的专家,为那些相信新闻业的人提供有价值的观点。一位知名的德国出版商最近在采访中说“有一个自称为数据新闻记者的新兴群体,而他们所追求的不再是小打小闹的东西。”

— 米尔科·洛伦兹(Mirko Lorenz),德国之声

49

第三章 案例分析

一、机遇鸿沟

二、对欧盟结构基金为期九个月的调查 三、欧元区的垮台

四、通过OpenSpending.org报道公共开销 五、芬兰议会选举与竞选经费

六、实时竞选黑客 (黑客/骇客Hacks/Hackers 布宜诺斯·艾利斯分会)

七、新闻中的数据玄机:维基解密 八、Mapa76 黑客马拉松

九、《卫报》的数据博客对英国暴动的报道 十、伊利诺伊州学校报告卡片 十一、医护费用 十二、养老院危机 十三、无所不知的电话

十四、哪种车型最有保障?MOT测试失败率报道 十五、阿根廷的公车补贴 十六、公民数字记者 十七、选举结果大看板 十八、众包水价 十九、HomeNext: 获取数

50

这一部分我们会更加深入,从一天内开发出APP应用到为时九个月的调查,看看几个数据新闻项目的幕后工作是如何进行的。我们将会学习到如何运用数据来源从而增强与提高针对所有领域从竞选花销,腐败暴乱,学校表现到水价的报道。同时,我们除了会看到大型媒介组织如BBC,芝加哥论坛报,卫报,金融时报,芬兰赫尔辛基新闻报,哥斯达黎加民族报,华尔街日报和Zeit在线中的数据新闻案例以外,还会看到小型创新机构如加州观察,黑客/骇客(Hacks/Hackers)布宜诺斯艾利斯,Propublica,以及被称作记者的朋友的一组巴西本土公民记者是如何进行数据新闻的。

一、机遇鸿沟

机遇鸿沟使用了之前从未:公布的美国教育部民权数据,这些数据表明,美国一些州像弗罗里达州,学生享有公平的受教育权,该州提供给学生均等的机会,让他们都能够学习到高级课程,不论他们来自贫困还是富裕的家庭;而在其他一些州,像堪萨斯州、马里兰州、俄克拉何马州,贫困家庭的孩子得到的机会相对就较少。

该数据包括了一个地区内所有规模大于3000名学生的公立学校。超过四分之三的公立学校的学生都包括在内。我们新闻编辑部的一位记者得到了这些数据, “计算机辅助报道”部门的主任对它进行了全面整理。

该项目为期约三个月,总共有六人参与了该事件的报道和新闻应用的开发工作:两位编辑、一位记者、一位计算机检索人员和两位开发人员。我们中的大多数人在那段时间里,并不是完全投入到这件事中。

这个项目确实需要将各自不同的技能——精深的专业知识、对数据实现最优化的理解、设计与编程能力等融汇起来。更重要的是,它要求我们具备一种在数据中发现新闻的能力。同时我们还需要具备编辑能力,这不仅是新闻的需要,也是因为新闻应用本身。

除了概述性的新闻报道,我们还涵盖了交互式的新闻应用,它能让读者理解并从这个庞大的全国数据库中找到与他们相关的实例。通过我们的新闻应用,读者可以找到他们当地的学校——举个例子, 新泽西纽瓦克中央高中--很快他们就能看到该校在不同地区的表现。接下来,他可以点击一个“赤贫学校与贫困学校比较”的按钮,马上,他就能看到其它一些相对比较贫困的高中并且了解到他们所提供高等数学、高级人员配置和其它重要课程的范围。在我们的例子中,中央高中是由Millburn Sr. High支持。机遇鸿沟告诉我们,为何1%的Millburn学生获得免费或减价午餐,而72%的学生都上了至少一门高级人员配置(AP)课程。另一方面,国际高中有85%学生获得免费或减价午餐,而只有1%学生上了高级人员配

51

置(AP)课程。

通过这个例子我们了解到,读者可以用他们已知的东西——当地学校,来了解他们尚不明白的事——教育资源的配置,以及贫困在多大程度上决定教育资源的配置。

我们还将此应用集成到Facebook上,只要读者登陆Facebook,我们的应用就会自动帮助他们了解可能感兴趣的学校。

我们所有新闻应用的访问流量都表现非常不错,尤其让我们自豪的是,这种应用能够用来讲述一个复杂的新闻故事——更确切地说,它帮助读者向他们讲述自己的故事。

和许多以官方数据为基础的项目一样,这些数据需要大量的整理工作。比如说,有些学校可能只有大概30个《高级人员配置》课程,而他们却报告说自己有上百个。这就需要大量人工复查,打电话对这些学校进行确认并改正。

我们必须认真工作以保证该应用能讲述一个“整体”又“详尽”的故事。也就是说,该应用要向读者呈现一个宽泛的、梗概性的全国图景——尤其需要有一种方式对各州在教育资源分配上的表现进行比较。然而概括性的文字有时会让读者困惑,不知道这些数据对他们来说意味着什么,我们希望读者能够找到他们自己的本地学校,并能与该地区不同贫困程度的学校进行对比。

如果让我给那些有兴趣参与此类项目的数据新闻工作者一些建议,我想说的是,你要理解这些材料,并且要细致入微。那些适用于其它新闻的规则在这里同样适用。你要把握新闻的真实性,保证自己能很好地讲故事。至关重要的一点是,你要确保的新闻应用没有与你所写新闻不一致——否则,二者必有一失。

如果你想学习编程,迈出第一步至关重要,你可能喜欢通过参加一些课程来学习,也可能是书或录像——这些都是很方便也是很不错的方式——但是要确保你对项目有个不错的想法,并能在最后期限之内完成它。如果你脑中有个故事非用到新闻应用不可,那么不会编程也并不是什么障碍。

— 斯科特•克伦(Scott Klein), ProPublica

二、对欧盟结构基金为期九个月的调查

2010年,金融时报与调查新闻局(Bureau of Investigative Journalism (BIJ))联手调查欧盟结构基金(European Structural Funds),旨在查明谁是欧盟结构基金的受惠者以及这笔钱是否得到有效利用。欧盟结构基金是欧元区内第二大经济补助项目,过去的七年里,其补助金额已达三千四百七十亿欧元。该计划至今已存在逾数十年,但除去其浮光掠影

52

式的概述总结,对于谁是其受惠者,它们则一直表现得讳莫如深。在最近一轮的融资回合中,作为该基金规则改变的一部分,官方有义务向公众出具该基金受惠者的名单,这其中应包括对计划的说明以及欧盟和各政府拨款的资金数额。

该项目组由多达十二名记者和一名全职的程序员组成,他们一起工作了九个月。仅数据搜集这一项工作就耗时数月。

金融时报及新闻调查局连续五天对此次调查进行了报道,英国广播公司(BBC)为此制作了一期纪实性广播节目,以及多集电视纪录片。

在从事这种规模的项目之前,你得首先确定自己调查发现的原创性,这样你才能最终完成独一无二的优秀新闻报道。 该项目可清楚地分为以下几步: 1. 确定数据由何人保存以及如何保存

欧盟委员会(The European Commission)区域总署设有一个门户网站。它将欧盟各地区官方所设的网站汇集起来,各有关当局通过它们的网站发布数据。我们相信,欧盟委员会设有一个关于项目数据的中心数据库,我们可以直接进入该数据库,或是通过《信息自由法》的要求获取数据。但没有一个数据库能够满足我们对于数据详实程度的要求。我们很快意识到,欧盟委员会提供的很多链接都是错误的,并且绝大多数官方所发布的数据都是PDF格式,而不是其它便于进行数据分析的格式,比方说CSV或是XML格式。

团队由多达12名成员组成,其工作是识别最新的数据并将这些链接整理到一份可供我们协同使用的大型电子表格中。由于各数据字段格式并不统一(举例来说,标题可以用不同的语言来写,某些数据集使用不同的货币单位,另外一些数据集则包涵了欧盟和国家基金的衰退),因此在翻译和描述每个数据集中可供利用的数据字段时,我们要尽量做到准确无误。 2. 下载并准备数据

下一步包括下载所有的电子表格、PDF文件,在某些情况下,还需从网络抓取原始数据 之后,每一个数据集都必须标准化。我们最艰巨的任务就是从PDF文件中提取数据,其中一些PDF文件长达数百页。通过使用UnPDF和泰比PDF编辑器(ABBYY FineReader)这样的PDF提取软件,我们完成了大部分的数据集标准化任务,这些软件能将数据从PDF文件中提取,并转换成CSV、Excel等格式。

我们还需要检查并仔细核对,保证PDF提取工具所捕捉数据的准确性。检查以及复核可通过对数据进行过滤、分类以及总计来完成(保证所得数据与PDF文件上的内容完全一致)。

53

3. 创建数据库

团队中的编码员建立一个SQL(Structured Query Language, 结构化查询语言)数据库。之前所准备的每个文件都被用作建造整个SQL数据库的组成部分。每天都必须做的一件事就是将所有个体的数据文件上传到大型的SQL数据库中,使用数据库的查询功能,人们可以通过数据库前端飞速地进行查询。 4. 复核与分析

团队主要通过以下两种方法分析数据: 通过数据库前端

该方法需要我们在搜索引擎栏中键入自己感兴趣的关键词,比方说:烟草、酒店、A公司。我们在数据库的搜索功能中加入了谷歌翻译,有了它的帮助,所有这些关键词都将被翻译成21种语言,并得出最佳的搜索结果。这些搜索结果能够下载下来,记者们可以以此对他们所感兴趣的个体项目进行更加深入的调查。 通过对整个数据库的宏观分析

有时,我们可能要下载一个完整的数据集,该数据集可通过使用关键词,或是通过国家、区域、支出种类、受益人的项目数量等总计数据来进行分析。

通过这两种分析方法以及通过实地调研、案头调研得到的信息组成了我们的新闻线。 对数据完整性的复核(通过合计并检查当局所提及的内容是否已经分配完毕)需要花费大量的时间。其中一个主要的问题是,在大多数情况下,当局只会发布“欧盟和国家基金”的数额。在欧盟的条款之下,每一个项目只允许使用欧盟基金募集在总花费总占有一定的比例的资金。欧盟基金的等级在项目层面上由我们通常所说的共同筹资率来决定。每个项目(比如区域竞争力)由众多子项目组成。在子项目层面上,技术上讲,一个子项目可以100%得到欧盟资金的资助,但另一个子项目可能拿不到一分钱,但只要这两个子项目集合在一起,欧盟基金的筹资数额在项目层面上不会大于批准的共同筹资率。

这意味着,我们需要核查在新闻报道中提及每一笔受益公司有争议的资金数额。 — 辛西娅·奥莫舒(Cynthia O”Murchu),金融时报

三、欧元区的垮台

是的,我们正在报道欧元区的垮台 ,报道它的每个细节:政府破产损失了无数救命钱;世界领导人的反应,财政紧缩措施和反对紧缩的抗议游行。每天,我们在《华尔街日报》上看到关于失业、GDP下降、利率全球市场行情暴跌的各色表格。报道在增加,麻木着我们的

54

神经。

《华尔街日报》的头版编辑们召开会议讨论年终报道,在散会的时候我发现自己头脑里仍在好奇:生活在这样的情况下到底是什么感觉?

这难道是回到了2008年?这一年,我被解雇,各种坏消息接踵而至?我们每天晚餐时讨论的都是工作、金钱,完全忽略了我女儿的悲伤情绪。周末是最糟糕的时候。我试图逃避,恐惧就好像从脖子后面将我钳住,过度焦虑又让我感觉呼吸不过来。现在,希腊的某个家庭也在遭遇这一切吗?西班牙的家庭里又会是什么情况呢?

我转过身,跟着头版编辑Mike Allen进入他的办公室,向他展示了自己的想法:先搜集分析数据,找到人口统计特征去理解典型家庭的构成,然后再配上图片、采访和视频充实内容,通过全方面展现欧元区的家庭来讲述欧债危机的故事。我们要使用打动人心的肖像摄影,声音——以及数据。

回到我的办公桌,我写下了摘要并画了一个logo。

Figure 3. 欧元区的垮台:摘要(华尔街日报)

接下来的三个礼拜我都与数字打交道:婚姻指标、死亡率、家庭规模和健康开支。我研读家庭开销和离婚率,调查关于家庭生活指标和储蓄率的研究报告。我遍览了国家统计部门的资料,例如联合国人口资料局,国际货币组织,欧盟统计局和经济合作发展组织,直到我发现了一位经济学家,他一直都在研究观察家庭。他又给我介绍了一位从事家庭组成研究的学者,她替我找到关于这个话题的论文。

55

我和我的编辑Sam Enriquez一起缩小了调查国家的范围。我们召集了一个团队讨论视觉传达方式,以及哪些记者可以分头负责文案、视频和报道。头版图片编辑Matt Craig开始寻找他的摄影师。负责世界报道的副主编Matt Murray提交了一个备忘录给机构领导以寻求记者们的帮助。(这很重要:上头的同意。)

但首先要处理好数据。在早晨我会把数据导入到电子表格中,然后做出图表标出趋势:储蓄大幅缩水、养老金消失、母亲重返工作岗位、健康方面的支出随着政府债务与失业率飙升。下午我一般用来观察一组一组的数据,比较不同的国家找出新闻。

做了一个礼拜后,我完全迷失在数据的海洋中,并且开始怀疑自己所作的事情。也许这个办法行不通。也许这无关乎国家,而是关于父亲母亲、祖祖孙孙。数据不断在增加。

数据同时也在缩小。有时候我花了数小时收集数据,结果发现它们没有一点用。我挖掘了一大堆错误的数字。有时候它仅仅是因为它们太过时了。

Figure 4. 判断数据集是否有用是一个耗时极长的任务 (Sarah Slobin) 然后数据又在不断积累,因为我明白我仍有很多问题,我也没有理解这些家庭。 我需要去看数据,画出图表。因此,我迅速地制作了几个图表,并着手排列、编辑这些图表。

随着图表不断被制作及完善,这些家庭的全景图像也逐渐浮现。

56

Figure 5. 图表视觉化:理解数据库埋藏的趋势与模式 (Sarah Slobin)

Figure 6. 数字代表着人:数据的意义在于他们所代表的每个人的故事 (Wall Street Journal)

我们开动起来了。我打电话给每一个记者,给他们寄了这些表格和报道计划,也为他们铺好了路,让他们去探索有趣的故事,能让我们的读者更近距离感受欧债危机。我们需要一

57

个来自阿姆斯特丹小型家庭,以及来自西班牙和意大利的规模较大的家庭。我们想听到不同世代的声音,看看不同经历的人会有怎样不同的回应。

从这以后我得留意时差,早起去检查电子邮件。记者们带回了一些颇为有趣的主题,故事概述甚至是一些意想不到的惊喜。

我们知道我们想要不同世代人的肖像摄影。Matt的设想是让他的摄影师跟随拍摄每一个家庭成员的一天的生活。他挑选了很多视觉新闻记者,他们报道过世界新闻,甚至活动在战地前沿。Matt希望在利用晚饭时间完成对每个人的拍摄。Sam提议拍摄他们的菜单。

问题出现了,我们在等待,读者在观看这些完这些照片后要告诉我们什么故事呢?。等待这些家庭成员都说了什么。我们设计了交互性的页面。我借鉴了《丁丁历险记》的配色,并将其使用到整个交互过程中。所有东西整合在一起后我们有了情节串联版,我们又添加了一些原始表格,但数量不多,刚刚足够来突出每个故事,强化主题。数据变为故事的一个暂停,一种换挡的方式。

Figure 7. 欧元区的生活(华尔街日报)

最终,数据总是代表着人,它们既是图片又是故事。它们形成舆论叙述,更加剧了不同国家间的紧张态势。

岁末之际,恰恰到了我们发布报道的时候,我们每个人都在思考接下来会发生什么,我知道他们每一个家庭成员的姓名。我仍在想象他们现在过得如何这看起来不太像一个数据工程,但我却觉得尚且不错。因为这些被记录下来的欧元区内家庭生活,这些大家在晚饭餐桌上与家人慢慢分享的工作和生活,就是我们能与读者分享的。理解数据的意义才能让这一切变为可能。

— 莎拉·史洛宾 (Sarah Slobin),华尔街日报

58

四、通过OpenSpending.org报道公共开销

2007年,乔纳森(Jonathan Gary)拿着一纸提案来到“开放知识基金会”,为的是一个叫做我的钱都去哪了? 的项目,这个项目旨在帮助英国人民了解公共基金的去向。而这只是一个更大项目的初步概念,它是基于奥托和玛丽•尼拉斯图教协会在十九世纪四十年代的一些早期成就,以期进一步让公共信息透明化,

“我的钱都去哪了?”项目让用户得以用更直观的开源工具来了解不同来源的公共数据。我们有幸开发出这个项目的样品,并在不久以后获得来自4号频道的4个IP,将它变成一个成熟的网络应用。信息设计大师大卫•麦克坎德里斯(David McCandless)(来自信息之美)创造了几种不同的数据视图来让人们认识这些大型数据——包括“国家和地区分析”,它告诉我们资金在国家的不同地区是如何分配的,以及“每日消耗”,告诉人们他们每天的税金是如何一分一分被消耗掉的。

在那个时候,该项目的最终目标可以简单说是“综合网络信息系统”数据,它是英国政府最为全面和详尽的数据库。和丽莎•伊万斯(在她加入《卫报》数据博客团队之前)一起工作,还有朱利安•陶德和弗郎西斯•奥福林(现在是Scraperwiki的知名人士),马丁•罗森博(BBC)以及其他人,我们将大量数据请求归档,其中很多都是不成功的请求。(这些特别被Lisa记录在 使用FOI去理解花销页面的边栏中)

2010年年中这些数据最终得以公布,它被视作“透明化”提倡者的一次意外之举。我们获得更高的权限来将这些数据载入我们的网络应用,当这些事实被公之于众之时,我们备受关注。公布当天,几十位新闻工作者在我们的讨论区讨论这次数据公布,他们还咨询如何来使用(这些文件有几十GB)。当一些专家还在声称这种大面积数据公布太过复杂而不可能完全有效透明化,很多勇敢的新闻工作者已经下定决心要以前所未有的方式向人们展示公共基金是如何被花掉的。《卫报》以实时博客的方式对这次数据公布进行了报道,很多其它媒体也谈到了此事,并对数据中的发现做了分析。

不久我们就收到了在世界其它国家开展类似项目的申请。在建立OffenerHaushalt后不久—这个项目的另一个版本,是关于德国国家预算的,由弗雷德克•林顿伯格(Friedrich Lindenberg)——我们又建立了OpenSpending,这个项目的国际版本,旨在帮助用户了解世界各地公共基金的去向,有点像OpenStreetMap帮助人们了解地理特征。在颇有天赋的格雷格•艾斯克的帮助下,我们应用了新的设计,其中部分是基于大卫•麦克坎德里斯的原创设计。

Figure 10. OffenerHaushalt, 德国版本的我的钱去哪儿了? (开放知识基金会) 在OpenSpending项目中,我们和一些新闻工作者做了大量工作来获取、反映/描述、解

59

析和向人们呈现公共基金的使用数据。首要的一点,OpenSpending是一个庞大的、可搜索的公共基金使用数据库——既包括了高层次预算信息,也包括低层次交易。最后是要建立一 系列易理解的形象,例如树形图。人人都可载入地方议会数据并生成可视化图像。

起初我们还以为,对于我们更为高级的可视化图表会有更大的需求,但和新闻机构交流后我们才意识到,还有许多基本需求要去满足,比如说将动态数据表嵌入到他们的博客中去。为了鼓励新闻机构在他们的新闻故事边上设置数据访问入口,我们也开发了这个小玩意。

我们的第一次大的数据公布是秘鲁吉亚第一届“国际新闻节”。一群开发者,新闻工作者和公务员齐心协作,将意大利数据上载到了OpenSpending平台,这些数据清楚展示了中央、地区和本地政府的财政系统是如何崩溃的。它覆盖了日报、邮报、快报、共和报、意大利无线以及卫报。

2011年,我们与“推出你的发现”和“海外开发协会”一起向人们呈现乌干达2003到2006年间的资助基金状况。这还是很不一样的,因为人们最初看到的是,资助基金总是和国家预算一起流动——让人们看到是什么让“捐献者优先”和“政府优先”结合在一起的。结果颇有意思,比如说“抗击艾滋病病毒项目”和计划生育的发展几乎全部是由外部资助完成的,这在《卫报》就有谈到。

我们也一直在和非政府组织以及倡议团体一起努力把开销数据和其它来源的信息进行比对和对照。比如说,国际隐私组织向我们提供了一大串监察技术公司和机构名单,它们正在参与一个国际监察交易展,常被称作“窃听者舞会”。通过系统地将公司名称和消费数据进行比对,可能确定哪些公司与政府有合同关系,接着就可以以信息自由申请来跟进。这些在《卫报》中有报道。

我们目前的工作是增加新闻工作者和公众对财政的了解,这也是花销的故事项目的一部分,它让使用者将公共支出和有关公共支出的报道联系起来,来看新闻背后的数据和数据背后的新闻。

通过我们在这个领域的研究工作,我们了解到:

新闻工作者不习惯于使用未加工的数据,并且很多人都不认为这是他们报道的必要基础,在未加工过的数据中寻找故事还是个比较新的想法;

即便是有必要的技能,分析与理解数据仍是个耗时的过程。将之用于一个短期的新闻周期并非易事,因此数据新闻常用于长期调查性项目的之中;

政府公布的数据往往残缺不全或缺乏时效。很多时候,如果没有额外的来自“信息自由”的具体信息,公共数据库是不能用于调查目的的;

60

与新闻工作者相比,倡导团体、学者和研究人士往往有更多时间和资源来从事更为全面的数据研究。与他们合作,必将大有收获。

— 露西·钱伯斯(Lucy Chambers)和乔纳森·格雷(Jonathan Gray),开放知识基金会

五、芬兰议会选举与竞选经费

最近几个月来,有关芬兰2007年大选经费的案件正在审理当中。

2007年大选过后,有报道称选举的宣传经费没有落实到政治家们身上。竞选经费一般是用来给政治家们买支持,但后来他们未能澄清自己的经费用途符合芬兰法律。

经历了这些事件后,法律也愈发严格起来。2011年3月份的大选过后,赫尔辛基决定全面查究一切有关竞选经费的数据。新的法律规定竞选经费必须进行申报,只有低于1500欧元的捐款可以匿名。 1. 找到数据与开发者

赫尔辛基自2011年3月起就开始举办”HS公开黑客联赛”。芬兰编程员、记者和图表设计师受邀来到我们大楼的地下室。参赛者们被分成三人一组,被鼓励开发应用程序和使其形象化。三次活动至今,每次都有大约60人参赛。我们决定将2011年5月第二届HS公开赛的主题定为竞选经费数据。

芬兰国家审计署是持有竞选经费记录的官方机构。这是最容易的部分。首席情报官Jaakko Hamunen建立了一个能实时访问他们竞选经费数据库的网站。国际审计署应我们的要求后仅用了两个月时间就做到了这点。

从现在起,每一次竞选的经费相关新闻和公共信息将刊登于Vaalirahoitus.fi这个网站上。 2. 集思广益

第二届HS公开赛的参赛者由20个不同的数据处理原型所组成。所有的原型均可在我们的网站上获取(网站为芬兰文)。

一位名叫 Janne Peltola 的生物信息研究人员发现竞选经费数据和他们研究的基因数据有很多类似的互相依赖性。在生物信息学中,有一项用来勘察这种依赖性的开源工具称为Cytoscape。我们通过Cytoscape 运行数据会得出非常有趣的原型。 3. 将想法落实到纸上和网上

有关竞选经费的法律规定,议会当选人必须在大选两个月后申报自己的经费。这实际上

61

意味着我们能在六月中旬取得真实数据。在HS公开赛进行时,我们只有国会议员在截止日期前提交的数据。

数据格式也存在着问题。国际审计署以两份CSV格式的文件提供数据。一份文件包含了竞选的全部预算,另一份罗列出所有的捐助者。我们必须建立一个结合这两者的文档,并分为三列:捐赠方,接受方与金额。如果政治家用的是自己的钱,在我们的数据格式里显示时就是政治家A捐赠了X欧元给政治家A。也许有点违反直觉,但它在Cytoscape里起效。

当数据被清理和转置之后,我们只需用Cytoscape来运算数据。然后我们的图形部门就会制作出一页完整的图形。

最后,它将以完美的可视化图呈现在我们网站上。这不仅是网络分析图形。我们希望以简单的方式告诉人们竞选经费的数额以及捐赠者的姓名。第一种观点显示了国会议员之间经费的分配。当你点击一位国会议员时就能查看他/她的经费明细。你也能对捐助方的合理与否进行投票。可视化由Satumaa广告代理机构的Juha Rouvinen和Jukka Kokko开发。

竞选经费可视化的网络版与网络分析使用了同样的数据。 4. 发布数据

当然,国际审计署已经公布了这些数据,所以无需重新发布。但是,既然我们已经清理并赋予了数据更好的结构,我们决定对这些数据进行发布。我们给予数据Creative Commons署名许可证。 随后几名独立开发者已经让数据可视化,我们也已发布了其中一些数据。

用于此项目的工具有:Excel、Google数据清理分析优化、Cytoscape网络分析以及用于可视化的Illustrator和Flash。Flash应该为HTML5支持的,但我们时间不够了。

我们从中学到了什么?也许最重要的一课是:我们数据构造的复杂性。如果初始数据的格式不符,那么重新计算和转换需要花费很长时间。

六、实时竞选黑客 (黑客/骇客Hacks/Hackers 布宜诺斯·艾利斯分会)

62

Figure 13. 2011竞选 (黑客/骇客Hacks/Hackers 布宜诺斯·艾利斯分会)

“竞选黑客”是对阿根廷2011年10月23日选举的最新投票结果的可视化数据进行政治分析的项目。此系统也着重于过去的选举信息和本国的社会人口特征的统计。此项目对2011年阿国大选的最新结果进行同步实时更新,并发布大选结果的速报。这项倡议来自黑客/骇客布宜诺斯·艾利斯分会和政治分析家安迪·透(Andy Tow),同时还有记者、开发者、设计师、分析师、政治科学家和其他地方黑客/骇客分会的人们的协力。 我们使用的是什么数据?

所有的数据均来自官方:国家竞选局提供了因陀罗(Indra)最新票选的数据;内政部提供了选举职位和不同政党候选人的信息;某大学的科研项目提供了每位总统候选人的履历资料和政策平台信息;同时也包括2001年度与2010年度的全国人口与住房普查(INDEC)与卫生部提供了社会人口信息。 它是怎样被开发的?

2011年10月23日,即大选的前一天,此项应用程序由黑客/骇客布宜诺斯·艾利斯分会的成员在2011竞选数据黑客马拉松比赛中开发的。共有30名拥有不同背景的志愿者参赛。竞选黑客被塑造成可以即时更新的开发式平台。技术上我们使用的是谷歌Fusion Tables、谷歌地图以及相关矢量图形库。

我们利用多边形的架构来显示地图与选举人口统计。结合地理信息系统软件与谷歌Fusion Tables中公开数据里的几何图形,我们开发了能与全国人口与住房普查中内政部、

63

因陀罗和社会人口数据重点对应的竞选数据表格。凭此,我们在谷歌地图中让这些数据可视化。

通过谷歌地图API我们发布了数个专题地图,不同颜色代表了不同的投票意见,颜色的深度代表了在不同行政部门与投票站所投选票的总统候选人支持率,并且着重强调了这些主要城市中心:布宜诺斯·艾利斯市、大布宜诺斯·艾利斯地区的24个区、科尔多瓦市和罗萨里奥市。

以前的竞选我们也使用了同样的技术来制作专题地图,例如2011年的总统初选和2007年的大选。对于如贫困人口、儿童死亡率及生活条件等社会人口数据分布的分析与比较,我们也采取同样的方法。此项计划也显示出八月初选较十月大选的得票分布差异。

此后,我们使用临时票选数的部分数据,建立了一个描绘票选数剖析的动画地图,能显示出当地从投票结束到第二天早晨的计票进程。 优点

我们着手查找并再现数据,并成功搞定了它。我们有联合国儿童基金会有关儿童社会人口的数据库,我们也有Torcuato Di Tella 大学yoquierosaber.org 小组创建的候选人数据库。在夜以继日的鏖战中,我们汇集了额外的大量数据,包括一些没有结束处理的数据。

虽然,新闻与编程工作需要学者的支持。要是没有安迪·透(Andy Tow)和希拉里奥·莫雷诺·坎波斯(Hilario Moreno Campos)的贡献,我们的计划将无法得到实现。 缺点

我们能使用的社会人口数据不是最新数据(大部分来自2001年的人口普查),数据也并不是非常精细。比如它不包括当地的国内平均生产总值、主要经济活动、受教育程度、学校数量、人均医生数量以及其他许多重要的信息。

起初,这系统的目的在于组合并显示任意数据,这样一来记者就能很简单地在网上看到他们感兴趣的数据。但我们不得不放弃这一初衷,并另起炉灶。

由于该计划是志愿者在短期内发起的,它无法做到尽善尽美。尽管如此,我们还是朝正确的方向取得了很大进步。

同样地,30人的协同工作最后凝结成一项简洁的程序设计器,当政府发布数据后,我们在实时输入数据时遇到了一些问题。好在这些问题都在几小时内解决了。 启示

因为“竞选黑客”平台在电视、广播、报纸和网络舆论有很大的反响。因此在媒体中有很大的反响。在大选期间和后续几天中,已经有数个媒体平台使用该项计划的地图。随着日

64

期的推移而更新地图与可视化图标,访问量更是与日俱增。大选当天,该网站创下了2万独立访客的日记录,接下去两天中,它的地图更是出现在 Página/12 报的封面上,同时还出现在 La Nación的文章里。有些地图刊登在Clarín报的印刷版上。这是阿根廷新闻史上第一次使用交互式的实时地图显示。在中央地图上,人们能透过不平衡的色彩饱和度清楚地看到克里斯蒂娜·费尔南德斯·基什内尔54%票数的压倒性胜利。它还有助于让用户了解当地候选人在该省取得压倒性胜利的具体情形。

— Mariano Blejman, Mariana Berruezo, Sergio Sorín, Andy Tow, and Martín Sarsale 来自黑客/骇客Hacks/Hackers 布宜诺斯·艾利斯分会

七、新闻中的数据玄机:维基解密

让我们以一个调研性报道记者团提出的问题开始,“你善于制作电子数据表吗?”而且这简直是个表格的梦魇:它一共有92,201行数据,每行数据都包含着在阿富汗的重大军事行动的细目。维基解密中的第一部分就是关于阿富汗的战争记录。除此之外还有其他两个部分,分别是伊拉克的军事行动和一部分外交密电。官方称这份资料为SIGACTS(重要行动)——美国军方重要行动数据库。

由纽约时报和德国的明镜周刊协同披露的阿富汗战争日志报道中,数据新闻大显身手。我们致力于让我们专业的报道团队从纷繁复杂的信息中找到有价值的报道内容,通过对资料的分析还原现场,向公众解释战争究竟是如何开始并发展的。

对我们而言,关键是要及早行动起来,毕竟我们不准备披露全部的数据。维基解密已经决定披露全部数据了,而我们应该确保:不泄露线人的名字或可能对北约军队造成威胁的信息。与此同时,我们还需要使大卫·雷夫(David Leigh)和尼克·戴维斯(Nick Davies)(两位已经同阿桑奇就使用数据达成了协议)领导的记者团队能够更方便地使用这些数据。我们同时希望能更便捷地获取关键信息,并向外界公布,力求一切尽可能地透明和公开。

这些超过92,201行的Excel表对于我们来说简直是卷帙浩繁,并且其中的有些数据毫无意义或者毫无格式可言。这些没有被整理且十分庞大的数据对于调研记者们的“撒网捕鱼”没有任何帮助,不可能据此写出有意义的报道。

我们的团队用SQL建立了一个简单的内部数据库。如今,记者们可以通过关键词或者事件搜索内容,这样一来,检索数据库轻而易举,记者的报道也有据可查了。

65

数据库构造合理:每个事件都有以下几个关键数据(供查询用):时间 、日期、相关说明。伤亡人数,还有最重要的就是事件发生地的具体经纬度。

同时,我们也在筛选数据,以帮助我们能专注讲述战争中关键的新闻故事:简易爆炸装置,自制的路边炸弹制造的袭击数量的增长,面对这种防不胜防攻击,盟军束手无策。这个数据集虽然仍旧庞杂,但是便于管理多了。在2004年到2009年,这五年间发生约7500起简易炸弹袭击和伏击(此类伏击通常还会遭遇如武器交火或火箭弹袭击)。并且在这五年间,还有8000起被检查出并成功清理的炸弹袭击案。我们想要看看这5年来袭击都经历什么变化,对比起来,又会有怎样的结果,就可以从数据库中找到答案。通过数据库我们了解到,在阿富汗南部,也就是英国和加拿大军队的驻地是袭击频率最高的地方,这数据也有力地支撑了我们记者已经做出的战争报道。

伊拉克战争记录于2010年10月曝光,也使其他391,000份和伊战有关的资料也进入了公众的视野。

这次伊拉克战争资料的泄露程度是前所未有的。这可以说是个很好的案例使得战争被最大程度记载于史册。每一个细枝末节都可以供我们去分析并深入挖掘。但是有一点不容忽略:在数量庞大的遇害者中,大多数都是平民百姓。

英国卫报决定不会再版阿富汗全部的数据库,主要因为我们还不能确定数据库表格中是否有涉及线人的重要信息等。

不过,用户可以下载其他的六万份数据表,其中的事件相关人员早已过世。我们也移除概要,只保留了一些基本的数据,诸如,行动代号、死者、地区分类等。

我们搜集了所有有死亡的事故,并通过谷歌Fusion Table 制作成了一个电子地图。虽然它不够完美,但至少是一个不错的开始,它试着描绘出惨遭蹂躏的伊拉克是如何一步步被摧毁的。

2010年12月,大量的密电被曝光,牵涉到一个隐秘的外交世界。庞大的官方文件数据,包括了来自世界范围内美国外交使节和顾问的251,287份急件。这无疑是美国外交史上最独一无二的一道景观了——曝光了超过5万份涉及奥巴马政府的密电。但是这些数据包含了什么内容呢?

这些密电是发布自庞大的的密保IP路由网络,或称为机密互连协议路由网。该网络是美国军方专属的,独立于民用的网络系统。这一网络由设在美国华盛顿的五角大楼负责管理。在过去10年,越来越多的美国驻外使馆开始连接了这一网络。因此,外交和军方的信息可以获得共享。2002年,125家大使馆开始运用该系统,2005年增长到了180个。而如今绝

66

大多数美国代表团已在世界范围内应用该系统。这也就解释了为什么大量密电都是在2008-2009年这个时间段发布的了。正如大卫·雷夫所写的那样:

标有SIPDIS(秘密互联网协议分布)的大使馆急件是可以自动下载到它的大使馆机密网站上的。在这网站上,这些信息不仅可以被政府部门人掌握,同样也能被美国军方人士掌握。只要他们通过安全审查,获得一个秘密等级(接入等级权限)和密码以及一台链接SIPRNet的电脑。

令人吃惊的是,能读到这些资料的人数超过了三百万。所有信息和数据都应有若干个密级,从最基础一直到_SECRET NOFORN_层级(不对非美国公民公布的机密)。然而事实是,这些资料本应该只限于华盛顿的官员以及像国务卿希拉里这样的高官阅读。通常情况下,这些密电由当地大使或其下属撰写。一些密级在“绝密”以及上的国外情报文件是不能通过SIPRNet.系统获得的。

与之前的内容不同,现在的数据以文本为主,没有量化或包含重复数据。包括以下内容: 来源

发送方,大使或具体个人 收件人列表

一般来说,电报发送给许多其他大使馆和个人。 主题

电文的简要描述。 标签

每一条电文都会用几个关键词缩写进行标注。 正文

电文内容。出于显而易见的安全考虑,我们不会全文公布内容。

在整个泄密事件中,一个值得玩味的细节是:这些密电如何正好泄露了我们需要的信息。这些泄露的信息主导着最近几周新闻界的话题。但是直到现在,每当这个世界上出现腐败政权的丑闻或者国际性的流言蜚语时,我们总能通过这些密电得知故事的新进展。 分析电文的工作是艰巨的,可以说是没有尽头的。

— 本文摘编自《伟大的真相:数据的力量》(第一版)的第一章,由卫报的西蒙·罗杰斯撰写(出版于Kindle平台)

67

八、Mapa76 黑客马拉松

2011年4月,我们启动了“黑客/骇客”(Hacks/Hackers)布宜诺斯艾利斯大会。我们举办了两次初步会面交流,来宣传扩大记者和软件开发者之间合作的想法,每次会面都有120至150人参与。第三次会议是在罗萨里奥(Rosario),距离宜诺斯艾利斯300公里,在这场数字新闻的会议上我们举行了一场8个人30小时的“黑客马拉松”。

在这些会议中,我们一直重申的主题是希望从网络上获取更大量的数据,然后用视觉的方法再现出来。为了协助实现这一点,一个叫作“Mapa76.info”的项目应运而生,它帮助用户提取数据,然后通过地图和时间轴显示出来。但这并非易事。

为什么叫“Mapa76”呢?1976年3月24日,阿根廷发生了一场政变,一直持续到1983年。在那段时间里,约有3万人失踪,数千人死亡,还有500名孩童因为军事独裁不得不在牢狱中降生。30多年后,承认在军事独裁时期犯有反人道罪行的人数达到了262人(2011年9月)。现有仍有14个案件正在审理,7次案件已有明确的开庭日期。有802人仍牵连于各种公开审理案件中。

这些控诉产生了大量的数据,对研究者、记者、人权组织、法官、检察官来说以及其他人来说都是很难处理的。数据的产生是分散式的,调查人员通常不会利用软件工具去协助他们解读这些数据。最终这也意味着:事实往往被忽略,假设往往被限制。“Mapa76”是一个调查工具,为新闻、法律、审判和历史研究不同目的提供开放的信息接入。

为了准备这场黑客马拉松,我们创建了一个平台,开发者和记者在活动当天可以通过这个平台来进行协作。马丁·撒塞尔(Martin Sarsale)开发了从简单的文本文档中提取结构化数据的一些基本算法。我们也通过“文档云”(DocumentCloud.org)项目使用了一些图书馆资料,不过并不多。这个平台会自动从文本中分析和提取姓名、日期和地点——这可以让用户去发现不同的案件的重要事实(如生日、逮捕的地点、所谓的消失地点等等)。

我们的目标是提供一个阿根廷军事独裁审判数据的自动提取平台。我们希望找到一种方法,基于成文的证据、申辨和判决,可以自动(或至少半自动的)展示从1976年到1983年的与案件有关的重要数据。所提取的数据(姓名、地点和日期)被收集和储存起来,可供研究者分析和调整,也可以使用地图、时间轴和网络分析工具去深入探索。

这个项目让记者、调查者、检察官和证人追溯一个人的人生故事,包括他们被囚禁的过程和接下来的失踪或释放。信息缺失的地方,用户可以通过梳理大量的文档来寻找,这也可能与案件存在可能的联系。

为了这项编程马拉松,我们通过“黑客/骇客”(Hacks/Hackers)布宜诺斯艾利斯大会

68

发布了一个公告——这个群组当时大约200个成员(写作此文之时,大约已有540个成员)。我们同时联系了许多人权组织。参与此次会议的大约有40人,包括记者、相关组织、开发者和设计者。

“黑客马拉松”期间,为了进展顺利,我们明确了不同类型的参与者可以独立完成的任务。举例来说,我们要求设计者设计一个将地图和时间轴结合起来的界面;我们要求开发者考察不同的提取结构化数据的方式,并且研究消除姓名歧义的算法;我们要求记者研究某个人身上究竟发生了什么,并且比较故事的不同版本,以及梳理文档来讲述某个案件的故事。

“黑客马拉松”遗留的主要问题也许是:这个项目非常宏大,我们的短期目标又相当高,而协调志愿者之间松散的网络比较困难。几乎参与这个项目的所有人白天工作都很繁忙,其中有许多人会参加其它的活动和项目。黑客/骇客布宜诺斯艾利斯2011年共举行了9次会议。

这个项目现在还在正常进行中。核心小组有四个成员,再加上十几个协作者。我们有一个公共邮件列表和GitHub代码仓库,任何人可以通过它们参与到这个项目中来。 — 马里亚诺·布雷曼(Mariano Blejman),黑客/骇客Hacks/Hackers 布宜诺斯·艾利斯

九、《卫报》的数据博客对英国暴动的报道

2011年夏,英国发生的骚乱事件,此起彼伏。当时,政客们认为这些不法行为绝对与贫困无关,那些趁乱打劫者只不过是罪犯而已。此外,首相(the Prime Minister)和其领导的保守派政客一起异口同声地把矛头对准社交媒体,他们认为,在这些平台上充斥着煽动性言论,而且暴徒们利用脸谱网(Facebook)、推特(Twitter)和黑莓信使(BlackBerry Messenger,BBM)进行组织,因此社交媒体是引发这场暴动的罪魁祸首。有人叫嚣着要暂时关闭社交媒体。因为英国政府并没有对暴乱发生的起因展开调查,故《卫报》与伦敦政治经济学院合作创建了史无前例的解读暴乱项目以解决这些问题。

69

Figure 16. 英国暴动:每个铁证如山的事件(卫报)

卫报已经广泛地采用数据新闻的手段,以使公众能更好地理解谁是趁乱打劫者,他们为何要参与抢劫。不仅如此,他们还与另一支由英国曼彻斯特大学(University of Manchester)的罗伯·普克特教授(Professor Rob Procter)领导的学术小组合作以便更好地理解社交媒体所扮演的角色。在暴乱期间,《卫报》本身在报导暴动时便广泛使用了社交媒体。“解读暴乱”小组由《卫报》“特别企划”栏目的编辑保罗·路易斯(Paul Lewis)领导。在暴动发生期间,保罗走遍全国暴动的第一现场 (大部分的报导尤其通过其微博帐号@paullewis发布)。第二支小组主要对推特网提供的260万条有关暴动的信息进行分析。关于对社交媒体的调查,其主要目的在于想看看谣言是如何在推特网中传播的,不同用户与参与者在信息流的宣传和传播方面所起的作用;也想看看这些网络平台是否被用于煽动骚乱并且要检测一下其他形式的组织。

就数据新闻的使用和数据可视化而言,区别如下两个关键期则有益无弊:第一阶段是暴动自行暴发时期和随着暴动的进一步发展,数据有助于故事叙述的方式;第二阶段是两班学术人士与《卫报》携手并肩更深入研究以便收集数据、分析数据并对调查结果写出有深度的报告。2011年12月初,《卫报》对“解读暴乱”项目第一阶段的的研究结果进行了为期一周长的系列的报道。接下来要讲的数据新闻如何应用于这两个阶段的一些关键案例。 第一阶段:暴乱的发生

通过使用一些简图,《卫报》数据小组标示出已确定无疑的骚乱地点,且通过将贫困人

70

口数据与发生暴动的地点相结合在一起,开始驳斥了骚动与贫困无关的主要政治言论。这两种例子都是使用现成的制图工具,且第二个例子将地点数据与其他数据集合并开始建立起其他关系和联接。

有关在暴乱期间对社交媒体的使用(在本案例中即特指推特),《卫报》创建了一个暴乱期间在推特上与其有关的标签使用情况的可视化作品,这凸显出推特主要用于对暴乱的回应而非组织人员参与抢劫,_#riotcleanup_(暴动清理)——即在暴动后自发组织的清洁街头运动,表明这才是暴动期间使用推特最高峰期。 第二阶段:解读暴乱

当《卫报》报导其多个月来深入研究并与两个学术小组密切合作的调查结果时,出现了两个引人瞩目的可视化作品并引起公众热烈讨论。第一个可视化作品是一小段视频,表明将暴动的已知地点与参与者家庭住址相结合的结果,并表明存在所谓的“暴乱与家的路径”。对此,《卫报》与交通绘图专家ITO世界(ITO World)齐心协力模拟出参与者到达不同地点实施趁火打劫时最有可能经过的路线,突出不同城市的迥异模式,有的案例中劫徒长途跋涉。

第二个可视化作品涉及到谣言在推特上传播的方式。 通过与学术小组的讨论,大家一致同意分析七种谣言。之后,学术小组收集与每种谣言相关的所有数据并设计出编码表,根据如下四种主代码对微博信息进行编码:重复谣言者(发表声明)、抗拒者(提出针锋相对的言论)、质疑者(提出疑问)或只评论者(点评)。所有微博信息被编成一式三分,且结果由《卫报》的交互小组进行可视化。《卫报》小组已经把他们是如何建立可视化数据作品的过程写了下来。

这种可视化的好处在于有力地展现那些难以描述的东西,表明了谣言病毒传播的本质,以及谣言的生命周期如何随时间变化的方式。对于一些谣言的传播,主流媒体的作用是不言而喻(例如,有的将其批得体无完肤,又或者把他当作新闻一样充分肯定)正如,在处理这些流言蜚语方面,推特存在自我纠正的特征。这种可视化不仅对故事的讲述大有帮助,而且对于谣言是在推特上流传提出了真知灼见,这为应对未来事件提供了实用的信息参考。

最后一个例子清楚地表明,报纸和学术小组之间能够深入分析260万条参与暴动的推特信息的强协同效应。尽管学术小组量身定制了一套工具用以对数据进行分析,他们现在正努力在适当时候让那些希望使用这些工具的人能随时随地使用到,从而为他们的分析提供一个工作平台。结合由《卫报》小组提供的描述指引,这将向大家提供一个有用的个案研究。该案例讲述此类社交媒体分析和可视化如何能被人用于讲述类似影响深远的故事。

— 法利达·维斯(Farida Vis), 英国莱切斯特大学

71

十、伊利诺伊州学校报告卡片

每年,伊利诺伊州教育委员会都会发布学校的“报告卡(report cards)”,公布伊利诺伊州所有公立学校的人口统计和工作表现评价的数据。这是一组庞杂的数据集——今年的数据有~9500个_变量(columns)_之多。如此大量的数据带来一个问题:应当选择哪些数据来呈现?(和其它软件开发项目一样,最难的部分并不是_开发_这个软件,而是开发_合适_的软件。)

我们和负责教育的记者和编辑共同协作,来挑选有趣的数据。(有许多数据看起来相当有趣,但是记者会告诉你这些数据事实上存在缺陷或者带有误导性。)

我们也找来编辑部里几个学龄儿童的家长做了调查和访问。这样做是因为有移情差异(empathy gap)——新闻app的团队成员都没有适龄的孩子。同时,这也使我们更了解我们的用户,并且更了解之前版本的易用性(或者哪里不够易用!)。

Figure 17. 2011伊利诺伊州学校报告卡片(芝加哥论坛报)

我们针对于以下一些特定的用户及使用情况进行设计: 家中已有上学孩子的家长,他们想要知道这所学校的评分

想要决定在哪里居住的家长,因为学校质量通常是作出这一决定的主要影响因素

第一个版本的学校报告卡网站项目差不多花费了2个程序员6周时间。2011年这次更新使用了2个程序员4周时间。(事实上,有三个人为这个项目工作,但是他们都不是全职,所以加起来大约相当于2个全职程序员)

信息设计是这个项目的关键部分之一。虽然我们呈现出来的数据已经远远少于所有可得

72

的数据,但数据量仍然_非常大_,让这些数据可以被理解消化是难点所在。我们很幸运地从平面设计部门借调了一位设计师,他的专长是呈现复杂的信息。他教了我们许多关于图表设计的内容,同时引导我们进行强可读性的展现,但并不要低估读者理解数字的能力与愿望。

这个网站用Python和Django开发。数据存放在MongoDB中——学校数据相当混杂且有层级关系,所以并不适合使用关系型数据库。(不然的话,我们可能会使用PostgreSQL。)

我们在这个项目中首次尝试使用了Twitter的Bootstrap用户界面框架,结果令人非常满意。图表则用Flot绘制。

我们写过的很多关于学校表现的文章都来源于这个app。从某种意义上来说,它扮演着类似“门户(portal)”的角色;当有一篇新的学校工作报道的时候,我们把它放在这个app的顶端位置,边上同时配有与这篇报道相关的学校列表。(当一篇新的报道出现,芝加哥论坛报网站的读者会被带到这个app上,而不仅仅是这篇报道本身)

早期报告就表明读者们非常喜欢这个学校app。我们收到的反馈总体来说是正面的(或者至少是建设性的!),访问量也创了新高。还有个额外好处,这些数据一整年都会炙手可热。关于学校的报道从网站首页换下来之后,我们相信这个app的点击会慢慢减少,不过,我们过去的经验是,这整年中许多读者会主动来寻找这个app。 从这个项目中我们得到的一些关键收获:

平面设计部门是你的朋友,他们擅长将复杂的信息变得可以理解消化。

向编辑部寻求帮助。这是我们第二个在整个编辑部范围内展开调查和访谈的项目,这也是一个从对此问题有深入思考的人那里得到意见的上佳方式,正如我们的读者,有多元的背景,但是通常对使用电脑并非游刃有余。

秀出你的作品!我们收到的许多反馈都是请求这个应用的背后的数据。我们编写了大量的API以让公众能够方便的获取数据,并且我们也会给出一些我们起初并没打算使用的数据。

— 布莱恩·博耶(Brian Boyer),芝加哥论坛报

十一、医护费用

加利福尼亚观察网的调研员们收到情报,加州一个大型医疗连锁机构可能正有计划地利用联邦医疗保险项目(Medicare)牟取超额利润,此项目旨在替美国65岁以上的老人支付医疗费用。这种骗局就是所谓的_upcoding_,典型做法是夸大病人症状的复杂性,以获得更多的政府补偿金。但提供消息的关键信源是正与这家医疗连锁机构管理层抗争的工会,而且

73

加利福尼亚观察网的团队明白,为保证故事的可信度必须提供独立的调查验证。

幸运的是,加利福利亚州卫生部对所有州立医院的每一次治疗都有详细的档案记录,并且档案是公开的。128个数据变量中有25个是按照世界卫生组织发布的“国际疾病分类统计和相关的健康问题”手册(俗称ICD-9)编码。数据中不会出现病人的姓名,其他变量如病人的年龄、治疗的花费、接待的医院也不会出现。记者们清楚这些档案意味着什么。他们可以通过这些档案来检视连锁医院中不寻常的病例报告是否明显高于其他医院。

数据集十分庞大,每年几乎有四百万病例;而记者们想要研究六年来的档案,以发现报告模式是如何变化的。他们向州政府机构订购了载有数据的CD光盘,其中的数据可以很容易地从光盘导入到台式计算机。记者用SAS系统来分析数据。SAS十分强大(可以分析数百万档案记录)并且被许多政府机构使用,包括加州卫生局,但它也十分昂贵——而同样的分析工作我们可以用其他数据库分析工具来达成,比如说微软Access或者开源的MySQL

数据在手,程序已备,找到令人生疑的模式就水到渠成了。举例来说,其中一个发现是连锁医院里各种程度的营养不良的报告频率要远远高于其他医院。数据分析家利用SAS提取出一些频率表,它们显示了加州超过300家急症护理医院每年营养不良病例的报告数量。之后,这些未加工的频率表被导入到Excel中,以便更好地检查每家医院的数据模式; Excel对原始数据的分类、过滤和计算等处理能力让模式监测变得容易。

报告中特别高发的情况是一种被称作恶性营养不良的疾病,又称蛋白缺乏综合征。这种疾病在受灾荒的发展中国家的挨饿的婴儿中普遍可见。然而,连锁医院所报告的加州老年人恶性营养不良的发病率是加州所有医院平均水平的70倍。

至于其他报道,数据分析家们采用了类似的技术去检验像败血症、疯牛病、恶性高血压和自主神经系统紊乱这样的疾病的发病率报告。另外一个报道指出这家连锁医院通过急诊室把病人转移到拥有不同寻常的高医疗保险的病人护理医院,这些病人为医疗护理的支付来源相较于很多其他急诊室病人更为稳固。

总结来说,之所以会有这样的报道,是因为你可以利用数据独立地验证信息源提出的指控,毕竟信息源有自己的议程意图。这些报道也表明强大的公共数据记录法的必要;政府要求医院报告这些数据的理由就在于,不论是政府、学术机构、调查者还是公民记者都可以进行这样的分析。这些报道的主题也十分重要,因为它事关大量公共财政的支出是否合理。 — 史蒂夫·多伊格(Steve Doig),沃尔特·克朗凯特新闻学院,亚利桑那州立大学

74

十二、养老院危机

《金融时报》一篇关于私立养老院行业的的调查报道揭露了一些私募投资者如何将养老变成赚钱机器,并且着重指出这个商业模式中令人难以招架的人力成本让颐养天年让位于投资回报。

这篇分析非常及时,因为“南方十字(South Cross)”当时是英国最大的养老院运营商,它的财务问题正浮出水面。近几十年来,政府都在推进护理行业的私有化,继续向精明的私人资本商业运作抛出橄榄枝。

我们分析了从英国养老行业管理部门获得的数据,并以此开始我们的追问。这些信息是公开的,但是要把这些数据整理成可用的形式却需要大量耐心。

数据当中包括了对于每个养老院业绩的评分(现在已不再进行),以及关于它们是私立、政府所有还是非赢利的分项统计。养护质量委员会(CQC)为养老院的质量打分(0颗星为很差,3颗星为非常好),这一工作持续到了2010年6月。

第一步必须要进行全面的数据清理,例如养护质量委员会提供的数据中,有一些分类标准不同,所以并不统一。这个步骤主要使用Excel完成。我们也通过案头文件和电话访谈来确定一家养老院是否归私募团队所有。在金融危机之前,养老行业吸引了大量私募和地产投资商,但是其中一些养老院——例如南方十字——已经开始面临严重的财务问题。我们希望确定私募所有权对于养护质量的影响——如果影响真实存在的话。

通过一组相对直观的Excel计算,我们确定,平均来看,非赢利和政府运营的养老院的业绩表现明显好过私立养老院。有一些私募持有的养老院集团的质量表现高过平均值,其它则远低于平均。

加上实地采访报道、失职(neglect)的案例分析、对于管制政策失败的深入观察,以及其它工资水平、人员流动率等数据,我们的分析报道得以描述出养老行业的真实情况。 一些提示:

请确保你记录下来对于原始数据进行了哪些操作。 保留一份原始数据的拷贝,并且决不要改动原始数据。

检查并且再次检查数据。重复作几次分析(如果需要的话,从头做起)。 如果你提到了某个公司或者个人,给他们回复申辨的权利。

— 辛西娅·奥墨楚(Cynthia O”Murchu),金融时报

75

十三、无所不知的电话

手机提供的数据能用来做什么?大多数人对此的理解都是基于理论,而很少有现实的例子。这就是德国绿党的(Green party)马耳他·施皮茨(Malte Spitz)决定发表他自己的数据的原因。为了获取信息,他必须向电信巨头——德意志电信(Deutsche Telekom)提起诉讼。数据是Zeit在线附带的交互式地图的基础,它们包涵在了大量的Excel文档中。电子数据表中35,831行里的每一行数据都是施皮茨的手机在半年内传送信息的例证。

单独来看,数据片段通常是无害的。但是把它们放在一起之后,就会显现出调查者们所称的个人写照。它是人的习惯和偏好的清晰写照,实际上,也是他或她的整个生活的写照。它可以揭示施皮茨在什么时候上街散步,什么时候乘火车,又是什么时候坐飞机。它也显示了施皮茨的工作地柏林,他游览过的城市,他什么时候醒着,又是在什么时候睡觉。

Figure 19. 无所不知的电话 (Zeit在线)

德意志电信已经将施皮茨的部分数据加密,也就是说不会公开他呼叫了谁和谁呼叫了他。毕竟这样的信息不仅侵犯了其他许多人的隐私权(即使那些号码是加密的),也会过多地暴露施皮茨的隐私(但是现实中政府部门可以获取这些信息)。

我们寻问了来自数据开放城市(Open Data City)洛伦兹·马特札特(Lorenz Matzat)和迈克尔·克雷尔(Michael Kreil),如何去探索这些数据又如何很好的进行视觉展现。“最早我们用像Excel和谷歌Fusion Tables这样的工具去理解数据。之后我们开始开发一个地图界面允许受众能够以非线性的方式进行互动,”玛特扎特说。为了说明个人生活细节可以从

76

这些储存数据中被发掘出来的程度,最终通过获取公开的个人行踪数据(推特,博文,党务信息比如来自他网站上的公开日历项)大大扩展了通话数据的信息量。任何好的调查记者都很可能用这种方式观察一个人的个人信息。与Zeit在线内部的图形和研发部门一起,他们最终完成了一个很好的导航界面:通过按下播放按钮,你就能沿着玛特施皮茨的生活踏上一段旅途。

在这个项目在德国成功上线一段时间之后,我们留意到我们大量的流量都来自德国以外的地区,随后我们决定再创建一个英文版的应用。在赢得德国“格林在线新闻奖”之后,这个项目又在2011年9月被授予了“在线新闻协会奖(ONA Award)\"(由在线新闻协会颁发),这是德国新闻网站首次获此殊荣。

全部数据可以从这个谷歌在线表格里获取。 阅读新闻故事见Zeit在线。

— 萨沙·凡诺(Sascha Venohr),Zeit在线

十四、哪种车型最有保障?MOT测试失败率报道

2010年1月,英国广播公司(BBC)得到了不同品牌、不同型号的汽车在MOT测试中的通过率和失败率数据。所谓MOT测试,就是评定一辆汽车的安全性能和驾驶性能的——车龄超过3年的汽车每年都要进行一次MOT测试。

依据信息自由法(FOI),我们与VOSA(车辆与驾驶员服务机构,即监管MOT体系的交通部门)进行了长达18个月的“拉锯战”,最终才得到了宝贵的数据。之前,VOSA就声称,披露这些数据会侵犯商业机密,因而将我们的FOI要求拒之门外,并表示这种做法会对MOT测试失败率较高的汽车厂商产生'商业损失'。然而,我们向信息委员会进行了申诉,其最终认定,将信息公之于众是符合公众利益的。在我们提出申请的18个月之后,VOSA最终披露了有关数据。

我们对数据进行了分析,重点着眼于最受欢迎的车型,并对车龄相同的各类车辆进行了比较。研究结果显示,各类车辆的性能表现参差不齐。举例来说,在所有车龄为3年的汽车中,雷诺梅甘娜(Méganes)在MOT测试中的失败率为28%,而丰田科罗拉的失败率只有11%所有数据都已在电视、广播和网络上公之于众。

77

Figure 20. 发布的MOT测试失败率数据 (BBC)

数据是以1,200页的PDF文件格式呈现在我们面前的,我们得将其转换为电子表格,以供分析研究之用。除了我们的分析报道之外,我们还在BBC新闻网站上与分析报道一同公布了数据电子表格(共计14,000多行)。这样一来,所有人都能获取这些便捷可用的数据。

这些数据可供他人利用自行分析,以能够进一步拓展我们因为时间和技术限制下有限的报道。进一步的分析包括,研究其它车龄车辆的测试失败率,比较各大生产商的测试记录而非个别车型的性能表现,建立可检索的数据库以查询各种车型的测试结果。我们的在线新闻报道随后添加了这些网站的链接,从而为读者带来了更多的福利。

这个项目把发布原始数据同时配套相应的数据驱动的新闻故事所带来的优势描绘的淋漓尽致。当然也可能有一些例外情况(例如,你打算将数据用于一些后续报道中,或者想暂时保留数据),但总体来说,数据的公布会带来一些重要益处:

你的任务是发现与共享。当你在获取数据过程中遭遇麻烦时,你有责任将接力棒传给其他人。

其他人或许会找出你遗漏的重要部分,或者找出对你的报道不太重要却对他人举足轻重的重要细节。

其他人可以利用自己的想法或技能在你的基础上进一步深入、细致地研究数据,或者运用不同方式呈现数据,实现视觉化。这或许是高效研究数据的新方式。

可以说,这是将问责制和透明度融入到新闻报道过程中的一部分。假若他人乐意,他们可以来理解你的方法并检验你的工作。

78

— 马丁·罗森鲍姆(Martin Rosenbaum),英国广播公司BBC

十五、阿根廷的公车补贴

从2002年起,阿根廷的公交系统补贴数额就开始呈指数上升,数字每年都会出现破表式刷新。但在2011年,阿根廷新政府在大选胜利之后宣布,从同年12月起开始大刀阔斧地削减公车补贴。与此同时,国家政府决定将地方公车线和地铁线的管理权转交给布宜诺斯·艾利斯市政厅。由于对地方政府的公车补贴转移并不明确,再加上地方政府缺乏足够的资金来保证交通系统的安全,布宜诺斯·艾利斯市政厅断然拒绝了这一决定。

事情发生时,我和阿根廷《国家报》(La Nación)的同事首次见面,并讨论如何开展我们的数据新闻行动。负责金融版区的编辑表示,若从交通部所公布的补贴数据入手,我们将会遇到一个不小的挑战,因为其格式和术语十分晦涩。

阿根廷杂乱无章的公交系统每天影响到5,800,000位乘客的生命安全。延误、罢工、车辆故障甚至是事故早已成为家常便饭。因此,我们决定刨根问底,调查出阿根廷公交系统补贴到底花落谁家,并且通过“交通补贴探查器”(仍在制作中)使每位阿根廷公民都能轻而易举地了解这一补贴数据。

首先,我们开始计算每家公交公司每月会从政府得到多少补贴。为此我们仔细查阅了阿根廷交通部网站上公布的有关数据,这些数据包括从2006年开始政府每月对1,300多家公交公司的现金支付金额,数据在400项PDF文件中予以记录。

Figure 22. 各公交公司补贴数额排名 (La Nación)

79

我们联手一位资深程序员开发了一个数据抓取工具,它能自动进行常规下载,自动将PDF文件转换成Excel电子表格和数据库文件。我们正在使用抓取到的含超过285,000条记录的数据集来进行调查和可视化工作。除此之外,我们也正在努力将这些数据制作成机器可读格式,以供每位阿根廷居民再利用和分享。

下一步,我们开始调查一辆公交车平均每月从政府获得多少数额的维修保养费用。因此,我们登录了另一个政府网站,即全国交通监管委员会(CNRT)。该机构负责监管和规范阿根廷全国的交通系统。我们在网站上找到了公交公司的名单,这些公司拥有车辆共计9,000部。之后,我们制作了一个数据标准化工具,来核对各家公交公司的名称与信息,并将两大数据集记录前后比照。

要想使工作进一步继续下去,我们需要得到每辆车的车牌号。我们在CNRT网站上找到了每家公司每条公交线路每辆公车的牌照名单。阿根廷车辆的车牌号是由字母和数字组成的,从中就能得知每辆车的车龄。举例来说,我的车牌号是IDF234,字母“I”就与2011年3月-4月前后对应。我们反向分析处理了所有名单中公交公司的汽车牌照,得出了每家公司的平均车龄,从而显示出每家公司所获得的补贴金额,并基于每家公司汽车的平均车龄对补贴金额进行了比较。

在工作进程中,政府公布的包含所需数据的PDF文件内容出现离奇的变动,不过好在文件的URL连接和名称并未更改。其中出现变动的一项是一些PDF文件中的纵向“总计”列,这一变动使我们无法核对2002到2011整个调查时期的补贴总额。

我们将这一案子提交到了一家由波士顿黑客所组织的黑客马拉松(hackathon)那里,开发员马特·佩里(Matt Perry)十分慷慨的为我们建立了一个所谓“PDF间谍”的软件。这一应用最终荣膺该事件中“最引人注目”软件之殊荣。神奇之处在于,“PDF间谍”会时刻瞄准并监视载有PDF文件的网页,一旦PDF内容出现变动,间谍软件会即刻进行核对检查。“再也不要愚蠢地相信政府所谓的‘透明度’了,”马特·佩里写到。 都有谁参与到这个项目的工作中?

七名记者,若干程序员和一位交互式设计师联手参与了为期13个月的研究调查活动。 此项目中我们所需的人员技能:

记者需了解公交系统补贴的运转流程和风险所在;熟稔公交公司市场。

程序员需深谙网络数据抓取、解析和标准化数据,以及能将数据从PDF格式转换为Excel 电子表格等技能。

统计师需进行数据分析和不同计算。

80

设计师需制作交互式数据可视化。 我们用了哪些工具?

我们运用了VBasic应用,Excel Marcos,Tableau Public,Junar Open Data Platform,Ruby on Rails,谷歌图表API以及MYSQL来制作补贴探查器。

该项目的完成带来了深远影响。网络的浏览点击率达数万次,除此之外,调查过程和结果也公布在了《国家报》的纸质版的头版头条。

第一个数据新闻项目的大功告成助了我们一臂之力,使我们有理由在国内建立起一个数据运转中心,从而进行调查性报道,并向公众提供服务。Data.lanacion.com.ar因此应运而生,并成为了我们以机器可读格式发布涉及到公众利益的各种话题数据的一个重要平台。 — 安赫利卡·佩拉塔·拉莫斯(Angélica Peralta Ramos), 阿根廷国家报(La Nación)

十六、公民数字记者

大型新闻编辑室并非产生基于数字的新闻报道的专属地点。这种以数字为源的报道手段对于数字记者来说大有裨益,它能帮助公民记者掌握其所在地点的数据,并将这些数据转化成新闻报道。

这就是巴西的一个公民媒体项目珍纽瑞亚之友(Friends of Januária)的创办初衷,该项目得到全球之声(Global Voices Online)的外延项目发声计划(Rising Voices)的授权,并得到了民权组织条款19(Article 19)的额外支持。位于巴西米纳斯吉拉斯州(Minas Gerais)北部小城市是巴西境内最贫困的地区之一,2011年九月至十月,一批当地青年接受了有关基础新闻技术和预算监督方面的训练。他们同样学会了如何提出“信息自由”(Freedom of Information)的要求,以及如何进入互联网上的官方数据库,获取公开披露的可用信息。 珍纽瑞亚,这个约有65,000居民的小城市,另一个让其声名远播的原因便是当地政客的无能。在连续三届、每届四年的任期内,该市共有7名市长如走马灯般上任。他们中几乎所有人都因为在公共管理上的不当行为,其中包括被指控贪污受贿,而引咎离职。

诸如珍纽瑞亚这样小城市通常不在巴西媒体的关注范围之内,巴西媒体的视线往往锁定在较大城市以及州府。然而却有这样一个机会,可以让小城市的居民组成一个监督政府行政管理的潜在同盟,因为这些来自小城市的居民比其他任何人更清楚地了解当地居民区日常所面临的挑战。互联网可谓是另一强大的同盟,通过互联网,现在,居民能够更方便地接触到有关当地预算以及当地其它方面的数据信息。

81

参加完十二期的研习班后,对于如何将在小城市里公开获取可利用数据的理念转化成实践,一些来自珍纽瑞亚的公民记者新手们开始展露头角。举例来说,22岁的公民记者索莱娅·阿莫瑞姆(Soraia Amorim)曾根据联邦政府的数据写了一篇关于该城所雇医生数量的新闻报道。然而,她发现,官方给出统计数据与该城的实际情况并不相符。为了完成这篇报道,索莱娅需要获取医疗数据,这些数据能够在SUS(Sistema Único de Saúde,独立医疗系统)的网站上在线获得,SUS是一个为巴西居民提供免费医疗救助的联邦项目。根据SUS所提供的数据,珍纽瑞亚市应配有各个专业的医师共计71人。

SUS所提供的关于该城医生数量的数据与索莱娅所了解的该地区医生的状况并不相符:当地居民总是在抱怨医生少,一些病患甚至需要跑到临近城市去看病。 之后,她采访了一位刚刚发生了摩托车事故的女患者,该妇女在珍纽瑞亚市的医院里没有得到医疗救助,因为这里根本没有可以为她治疗的医生。她还同该市的卫生部部长进行过交谈,该部长坦言,该市实际的医生数量少于SUS上所公布的医生数量。

索莱娅说:“我过去住在乡村,费了好大的劲儿才读完高中。”“当别人问我想要做什么时,我总是告诉他们,我要成为一名记者。但在我看来,因为我所生活的环境,这个梦想几乎不可能实现。”完成了珍纽瑞亚之友的培训之后,索莱娅相信,获取数据是改变珍纽瑞亚市现状的一个重要的工具。她补充道:“我觉得自己有能力为改变我的家乡,我的国家,甚至是整个世界出一份力。”

另一位来自该项目的公民记者是20岁的阿莱逊·蒙特尔里顿(Alysson Montiériton),它同样在文章中使用数据。在该项目的第一堂课上,公民记者们行走于珍纽瑞亚市,以期找到能够写成新闻报道的合适选题,阿莱逊决定写一篇关于该市一交通枢纽上交通灯被毁坏的文章。这个交通灯自年初就已损坏,至今仍没修好。他先是学会了如何在互联网上搜寻数据,之后,他又搜寻了该市现存的机动车的数量以及机动车拥有者所交纳的税额。他写道:

珍纽瑞亚市机动车数量非常多,因此交通状况不断恶化。根据IBGE(巴西最重要的统计研究机构)的统计,2010年,珍纽瑞亚市共有机动车13,771辆(其中摩托车7,979辆)。……该市的居民相信,市政部门一直拖延维修交通灯并不是因为缺少资源。根据米纳斯吉拉斯州财政部的数据,2010年,珍纽瑞亚市在机动车上的税收所得为470,000雷亚尔(约258,500美元)。

阿莱逊用这些数据可说明,珍纽瑞亚市机动车数量多(每5人中就有1人驾驶机动车),而这个毁坏了的交通灯会给很多人带来安全隐患。他甚至能够告诉读者,该镇从机动车拥有者所缴税款中所得资金数额,并且,根据这一数据,他能够质疑这些税款是否不足于维修这

82

些坏了的交通灯,从而为司机和行人营造安全的交通环境。

索莱娅和阿莱逊写得这两篇报道虽十分简单,但向我们表明:公民记者能够利用数据。你不需要同大批专业人员一起,呆在某个大型新闻编辑室中,用数据完成新闻稿。索莱娅和阿莱逊这两位完全没有任何记者背景的年轻人,经过该项目12期的培训,能在报道中以数据说话,增加说服力,并且编写出有关珍纽瑞亚市非常有趣的民生百态。此外,他们的文章表明,数据本身非常有用,即便它的规模可能不大。换言之,小规模的数据库和数据表上也存在有价值的信息——它们不仅仅存在于大型数据库中。

— 阿曼达·罗西(Amanda Rossi),珍纽瑞亚之友Friends of Januária

十七、选举结果大看板

对于任何的新闻组织来说,美国大选的结果给我们提供了一个叙述视觉故事的机会。但是,一直以来,我们都忽视了这个机会。在2008年,我们与绘图表为伴,力图改变这一局面。

我们一直想找到一种通过生动的新闻故事来展示总统选举结果的方法,而不是让人感觉仅仅是把数据堆在表格中或者地图上。在过去的几次选举中,我们恰恰也是这样、这样、或是这样做的。

但这也不是说给出一堆数据就必然就是错的,摆出数据也是一种方法。比如被我称之为“CNN式”的表格,就是表格、表格,不断地给出表格。这也行之有效,因为它非常确切地告诉读者想要了解的东西:谁赢得了总统大选?

但是这种方式的缺陷也非常明显,会让整个本是连贯的故事显得十分断裂。然而,如果彻底放弃这种形式而做一些与此完全迥异的东西,就会偏离人们所期待的结果。那么,我们所做的就会使事情变得更加混乱,而不是变得更清晰。

直到最后,图表部门的珊·卡特(Shan Carter)找到了合理的解决方案。我们后来把这种方式称之为“大看板”。当我第一次看到草图的时候,毫不夸张的说,它让我恍然大悟。这恰恰是我们想要的。

83

Figure 25. 总统选举结果[板(纽约时报)

具体来说,这一出色的视觉新闻是怎么组成的呢?首先,读者的目光会立马被顶栏中的选举团投票情况所吸引,我们在新闻写作中称之为_导语_。这种方式快速、简单、没有任何视觉干扰,一上来就能给到读者他们最想知道的内容。

接下去,读者视线将转移到美国各州选票分布的大看板。该看板由时报按照奥巴马和麦凯恩赢取每个州选票的可能性分成五列制图。大看板的最中间一列可对等于新闻写作中的主体段落,解释了为何奥巴马可以获胜。这种交互对比的制表明确显示了奥巴马拿下了所有预期的各州,以及五个“摇摆州”中的四个。

对我来说,五列的构造方法是视觉新闻的典型,它不同于其他形式的设计。理想情况是,一个真正出色的视觉新闻兼具美观与实用性。但是当我们要在故事和审美上做出抉择的时候,记者们必然会选择故事性这一边。虽然,这样呈现数据的版式布局并非专业的设计师所设想的那样,但是能将故事表达得非常清楚,让新闻充满可读性。

最后,和任何优秀的网络交互应用一样,我们要让读者进行更深度的阅读。同时我们也会淡化一些细节,例如各州的选票比例,选举人的票数以及比例。这样可以避免与故事主题发生冲突。

以上所有谈到的一切使得“大看板”成为一个非常优秀的视觉新闻作品,几乎完美的展现出了倒金字塔结构。

— 阿隆·菲尔霍夫(Aron Pilhofer),纽约时报

84

十八、众包水价

自2011年3月以来,整个法国境内对自来水价格信息的收集是通过对众包(crowdsourcing)的尝试实现的。仅仅4个月,5000多名对企业控制的自来水市场忍无可忍的民众花了不少时间找出他们的水费帐单,扫描并上传至水价(Prix de l’Eau)项目。结果,极客、非政府组织(NGO)和传统媒体共同带来一场史无前例的调查,来增加饮水工程的透明度。

Figure 26. 水价(法国自由基金会)

法国的水资源公用服务市场由一万多名客户(各城市购买的水资源,分销给纳税人)和廖若晨星的供水公司组成。这一寡头垄断的权力平衡偏向于供水企业,它们有时甚至对相邻城镇收取不同的价格!

在过去25年间,法国的非政府组织法国自由基金会(France Libertés)已在处理全球水资源问题。现在它将注意力放到了提高法国水资源市场的透明度上,提升公民和那些与供水公司谈判的市长们的权力。两年前,法国政府决定启动一次全国性的水价和水质普查来解决这一问题。迄今为止,只收集了3%的数据。为了加快进程, 法国自由基金会希望号召公民直接参与进来。

与OWNI小组一起,我为水价的网站设计了一个众包界面,用户可扫描水费帐单,并且输入他们支付的水费。在过去的4个月里,共有8500 人在这个网站注册,上传了超过5000份通过验证的水费单。

虽然,这对市场情况的评估来说并非万全之策,却向诸如国家水资源监察机构的利益相

85

关者表明草根阶层对自来水价格发自肺腑的的关注。起初,他们质疑存在透明度的问题,然而随着这一运作过程的不断推进,他们的态度有所改观,逐渐加入到法国自由基金会与暗箱操作和企业的不当行为作斗争。媒体组织从中能借鉴些什么呢? 牵手非政府组织

非政府组织需要大量数据以设计政策文件。比起报纸的管理层,他们更愿意为数据采集买单。

用户可以提供原始数据

一旦用户承担起数据的采集和提炼任务,众包能起到最佳效果。 提出数据源需求

我们反复掂量着是否要求用户扫描原始水费单,考虑到有些用户会望而却步(尤其因为我们目标受众的年龄偏高)。虽然我们可能因此失去一些用户,却增加了数据的可信度。 建立验证机制

我们设计了积分系统和用户互评机制以便评估用户的贡献。对于缺少重复访问动力的用户来说,这些机制被证明太过于复杂了。法国自由基金会的团队也曾使用过这一机制,对于十个左右的员工这套积分系统的确能起激励作用。 操作简单化

我们建立了一个自动邮寄机制,用户仅需点击几下鼠标,便可提交有关水价格的信息自由(Freedom of Information)请求。尽管创新独特且设计精美,但这个功能并没有带来高投资回报率(只寄出100份请求)。 瞄准目标受众

法国自由基金会与消费者权益新闻杂志_六千万消费者_(60 Millions de Consommateurs)合作,该杂志大张旗鼓地鼓励其读者参与这个活动。这一操作,两者可谓是珠联璧合。

精心挑选关键成绩指标(KPI)

在四个月内,这个项目只获得了4.5万名访客,相当于纽约时报网站15分钟的流量。然而真正重要的是,有五分之一的访客成为注册用户,有十分之一的访客花费时间扫描并上传了他/她的水费单。

— 尼古拉斯·凯瑟-布瑞尔(Nicolas Kayser-Bril),Journalism++

86

第四章 获取数据

一、5

分钟的学科指南

二、你对数据的权利

三、试试游说(Wobbing)数据! 四、从网络获取数据 五、把网页作为数据来源

六、《卫报》数据博客的众包式数据

七、《卫报》数据博客利用众包的报道奥运票务 八、数据的使用与分享:大纲,细则和现实

那么,你已经准备开始第一个数据新闻项目。下一步呢?首先,你需要一些数据。这章节讨论从何处获得数据。我们将会学习到如何在网上找到数据,如何运用信息自由法律向有关方面请求数据,如何使用“截屏”从非结构化的来源搜集数据以及如何使用“众包”从你的读者收集数据集。最后是哪些法律如何规定重新发布数据集,以及如何使用简单的法律工具确保别人也能够重复使用你的数据。。

一、5分钟的学科指南

寻找关于一个特定的主题或问题的数据?不确定有什么数据或在哪儿找到这些数据?不知道如何入手?在这一小节我们来看看如何在网上寻找公共数据资源。 精细你的搜索关键词

尽管这些数据常常不容易找到,但是实际上很多数据库都已经被搜索引擎所收录,不论这是否出于发布者的本意。这里有几点建议:

当你搜索数据时,一定要包括与你所要寻找的数据内容相关的搜索术语,以及你所希望的格式或来源的信息。谷歌和其他搜索引擎都允许你通过文件类型搜索。例如,你可以只搜寻电子表格(通过添加您搜索的文件类型:\"filetype:XLS filetype:CSV\"),地理数据

87

(\"filetype:shp\"),或数据库提取(\"filetype:MDB,filetype:SQL, filetype:DB\")。可能的话,你甚至可以查找PDF格式的(‘文件类型:pdf’)

您也可以通过搜索URL的一部分。Google的\"inurl:downloads filetype:xls\"功能能帮你找到所有的已经“下载”'到在他们网络服务器上Excel文件(如果你已经找到了单个下载文件,这个搜索关键词往往能帮你在服务器上同一文件夹中的找到其他结果)。你还可以限制只在某一个单一的域名中的结果,比如通过搜索\"site:agency.gov\"。

另一个经常使用的诀窍是,不直接搜索内容,而是搜索可提供批量数据的位置。例如,\"site:agency.gov Directory Listing\"可以给你一些由服务器生成的容易获得的源文件的列表,如果用\"site:agency.gov Database Download\"的话就会为你搜寻人工创建的列表。 直接寻找源文件

要说如何拿到公共数据,我的第一个绝招就是尝试直奔数据持有者,不是公众人物,也不是通过信息自由申请。我当然能精心制作一份通过信息自由法案的申请或者公开记录的请求,但是效率会很慢。很可能我就会得到回应说数据跟我申请的格式不一样,或者(像有些案例里那样)政府部门会使用专有软件,无法按我请求的数据格式那样提取出来。但是,如果我一来就成功联系上持有某组织数据的人,我就可以直接问他关于某主题都有什么数据和存储方式。再者,我熟悉数据语言,知道如何成功地请求获取数据。你要问这种途径的障碍?障碍时有发生,你很难联系上这些人。公开信息官员(PIO) 会想让我去跟他们谈。我发现在有的案例中,最好的方式是发起一个会议请求,当然如果能和公开信息官员,数据高手一起私下会面就再好不过了。我也能用一种让他们很难拒绝的方式来请求。“我不想给他们增麻烦,''我说。``我不想给他们增添不必要的负担或者漫无边际的请求,所以一次会面能让我确切地了解他们有什么,以及对我能最顺利准确请求到数据所必须知道的那些。”

如果这种方法不奏效,我的备案是在请求中首先就问他们数据记录的结构和数据字典。下一步我才真正的去申请数据本身。我有时也会问他们如何存放数据,存在什么系统里。通过这种方式我就可以研究这些数据都能用哪些方法导出,这对申请来说非常有好处。

最后要说的是,我最成功的一次经历来在当我还为蒙特纳的一家小报工作的时候。我需要一些统计数据,但是我被告知我想要的数据没法从主机中导出来。我当时研究了一番,然后主动请缨去帮助他们一起解决数据导出的问题。我和管数据的人一同,写了一些简短的代码,最终把数据打印到了软盘里(那是很久以前的事了)。我得到了我的数据,并且我们开发的这个统计小工具也被他们所配备,就能给请求数据的人提供数据了。他们没料想到这样的事会发生,但是有时他们自己也需要提取一些数据。他们完全不了解他们的系统,所以我

88

们互相帮助。

— 谢丽尔·菲利普斯(Cheryl Philips),西雅图时报 浏览数据网站和服务

近几年在网络上涌现出大量专门的数据门户网站、数据中心和其他数据网站,在这里你可以找到各种公开的数据。如果你是个新手,可以先去看看这些资源:

Figure 1. datacatalogs.org(开放知识基金会)

官方数据门户

政府发布数据的意愿在国家之间差别很大。越来越多的国家都开设了数据门户网站(受美国的data.gov以及英国的data.gov.uk所启发)去促进民众或企业对政府数据的再利用。在datacatalogs.org这个网站上,你可以找到这些数据门户网站最新的索引信息。。另一个有用的网站是卫报世界政府数据,这是一个元数据搜索引擎,囊括了许多国家的政府数据条目。

The Data Hub

一个由开放知识基金会运作的以社区推动型(community-driven)数据资源,这让寻找、分享、再利用这些开放数据变的非常简单,特别是以机器自动化的方式来进行数据操作。 ScraperWiki

89

一个在线工具,其目的是“简化有用数据的提取,使这些数据便于应用到其他应用程序,或者提供给记者和研究人员”。大多数的数据提取网站及其数据库都是公开的,可以重复使用。

世界银行 和联合国 数据门户网站

世界银行和联合国的数据门户网站:为所有国家提供高水平的指标参数,数据通常可以追溯到多年以前。

Buzzdata,Infochimps, 和DataMarket

一些旨在建立社区数据分享和转售的新兴公司。 DataCouch

一个能上传、完善、分享及数据可视化的网站。 Freebase

Freebase是谷歌旗下的一个很有意思的子公司,“由一帮热爱开放数据的团体开发,提供人、地址以及物体的实体图”。 研究数据

许多国家和学科都会对科研数据进行汇总,如英国数据档案。其中有大量的数据可以免费访问,但也有不少是需要订阅,或需要管理机构同意才可使用和分发。 从纸质文档中获取数据

正是在维基解密发布美国军方在阿富汗和伊拉克战争文档之后,我们决定遵循着这种概念,发布阿尔及利亚战争日记以纪念阿尔及利亚战争五十周年。我们开始去搜集并数字化法军在阿尔及利亚战争中的档案。这些可以在巴黎战争档案部都可以拿到,尽管都是纸质的。我们把这些档案分发给记者和学生,让他们把这些纸质档案拍成照片。我们也曾尝试过用佳能P-150便携扫描仪把他们扫描下来,但效果不是很好,主要因为这些档案都被装订过了。 最后,在几周之内收集到了大概有一万页的档案。我们试过用文字识别软件(ABBYY FineReader)去识别这些图片,但是结果不尽人意。还有就是,战争档案部门断然拒绝向我们提供另外几箱最有价值的档案。最重要的是,战争档案部禁止任何人再出版那些能被随意拍照关于地点的文档,所以我们决定不去冒这个风险,这个项目也就被搁置了。 — 尼古拉斯·凯瑟-布瑞尔(Nicolas Kayser-Bril),Journalism++ 在论坛上发问

在Get The Data或Quora上搜索现成的答案或者提出问题。GetTheData是一个问答网站,你可以在上面问数据相关的问题,包括在哪里可以找到有关某一具体问题的数据、如何

90

查询或检索某个特定的数据源、使用什么工具对数据进行可视化探索、如何净化数据或是如何转变成你可以使用的格式。 在邮件列表中发问

邮件列表是整个团体在某个特定主题上的的智慧结晶。对于数据记者而言,数据驱动新闻列表(Data Driven Journalism List)和NICAR-L列表都是非常好的例子,不妨从它们开始。这些邮件列表上长期驻扎着从事各种项目的数据记者和计算机辅助报告 (CAR, Computer Assisted Reporting) 的极客。很可能其中有人做过跟你类似的项目,他即使不知道数据本身的链接,也可能有从何入手的想法。你也可以试试Wombat项目(“`一个针对引用困难问题的讨论列表”)开放知识基金会的许多邮件列表、theInfo上的邮件列表,或寻找关于你所感兴趣的主题或领域的邮件列表。 加入黑客/骇客(Hacks/Hackers)

Hacks/Hackers是一个在迅速扩张的国际草根新闻组织,在四大洲有着数十个分会和成千上万的成员。其任务是建立一个重新思考新闻和信息的未来的记者(\"hacks\")和技术专家(\"hackers\")的网络。在这样一个广泛的网络中,很有可能有人知道去哪里搜索你所要的数据。 请教专家

教授、公务员和业界人士通常知道到哪里查找数据。给他们打电话、发电子邮件、找机会跟他们搭讪、拜访他们的办公室。然后彬彬有礼的询问:“我正在做一个关于 X 的报道。我在哪儿能找到相关数据吗?你知道谁有这方面的信息吗?” 了解政府信息技术

了解各国政府在维护信息中所使用的技术和管理体系,这在访问数据时常常会很有帮助。不论是CORDIS(欧盟研究与发展计划相关资料库)、COINS或THOMAS,一旦你了解到一些关于这些缩略词所代表的大型数据库的预期目标,它们经常会成为你最有用的资料来源。 查找政府组织结构图,找出具有交叉职能(如报告、IT服务部门)的部门或单位,然后浏览他们的网站。很多数据保存在多个部门,可能在一个部门视作掌上明珠的某个数据库,在另一个部门就是免费的午餐。

在政府网站上寻找动态信息图表。这些图表通常是由可独立使用的结构化的数据源或应用程序编程接口所支持的(例如,飞行跟踪程序和天气预报的java应用程序)。 用电话记录来“钓鱼”

几个月之前,我想去剖析时任总统候选人所在的得克萨斯州政府。具体来说,我想要瑞

91

克佩里(Rick Perry)的手机通话记录。那是我们已经期待已久的国家公开记录的申请结果。拿到手的数据是120页以上只有传真质量的档案。我们颇费了一番功夫进行数据录入和清理,再通过WhitePages.com的API去反向查询电话号码。

将这些人名与州和联邦政府(FEC)选举数据对应起来以后,我们发现佩里通过州政府工作电话伸手拿到了大量的选举经费和超级政治行动委员会(PAC, Political Action Committee)资助,这种令人不悦的做法掀起了对他和他所倾心的“`超级政治行动委员会”之间勾连的质疑。

— 杰克·吉勒姆(Jack Gillum),美联社 重复尝试搜索

当你知道更多数据相关的信息后,用你上次搜索所注意到的重要关键词组再搜索一次。这样你没准就走运搜到了你想要的数据! 撰写一个信息自由请求

如果你认为政府机构握有你所需要的数据,写一个信息自由(Freedom of Information)请求书可能是最好的办法。有关如何撰写文件更多信息请参阅下一章节。

— 布赖恩·博耶(芝加哥论坛报),约翰·基夫(美国纽约公共广播公司),弗里德瑞克·林登伯格(开放知识基金会),简·帕克(Creative Commons), 克里斯·吴(Hacks/Hackers) 当法律失效

我阅读过一篇学术文章 scholarly article 解释说公布洛杉矶的餐馆卫生状况检查结果可减少食品相关的病例, 于是我要求巴黎卫生系统提供其检查清单。据法国自由信息条例规定的程序,我等了三十天才收到了他们拒绝的答复,随后我转到可以裁决信息公开有效性的公众数据公开委员会(CADA法文)。 CADA支持我的请求,命令行政系统发布数据。行政部门于是要求两个月的宽限期,并获得CADA同意。两个月后,行政系统仍然无动于衷。 我试图通过一些支持数据公开的公众人物(以及有钱人)打官司(这是5千欧元的官司,有CADA撑腰包赚不输),可惜他们担心损害了他们与官方数据项目的关系。这只是众多案例中之一,但可看出法国政府部门完全罔顾法律,官方无意支持基层民众对于数据的需求。 — Nicolas Kayser-Bril, 记者++

92

二、你对数据的权利

在发出信息自由 (FOI) 申请之前,你应该查一下正在搜索的数据是否已经公开,或者是否已经有人提出过申请。你可以从上一章查阅其中的几个建议。如果你已经找了一圈还是没有得到所需要的数据,你可能就想要提交一份正式的申请。这里有一些提示,可以让你的申请更为有效。 提前计划 节省时间

每当你在搜索信息的时候,就要考虑提交一份正式的访问请求。最好不要等到用尽其他办法再作打算。在研究开始之时提交请求,同时开展其他调研,这样会为你节省时间。对拖延有所准备:公共机构有时需要一段时间来处理请求,所以你最好是对这一情况有所预期。 查看收费规定

在开始提交申请之前,查一下有关提交申请或接收信息的收费规定。这样一来,如果政府官员突然问你要钱,你会对自己的权利心里有数。你可以索要电子文档来避免拷贝和粘贴的成本,所以在申请中要写清楚你更希望获得电子格式的信息。这样就可以避免支付费用,除非是信息没有电子文档。不过现今通常可以将没有数字化的文件扫描,而后以电子邮件的附件的形式发送。 知晓你的权利

在开始之前搞清楚自己的权利,这样你就知道自己拥有何种权利以及公共部门的义务所在。例如,大部分信息自由法对当局的回复有一个时间限制。在全世界大多数法律中,该范围从几天到一个月不等。在你申请之前确定这一期限,并在提交申请时作好记录。 政府没有为你处理数据的义务,但应当向你提供他们所有的资料。如果根据政府所履行的法律能力应当提供某个数据,那么他们肯定应当为你制作。 声明你知道自己的权利

通常法律并没有要求你提及访问信息法或者信息自由法案,但建议你这样做,因为它表明你知道自己的合法权利,并且可能鼓励依法正确处理申请。我们注意到对于欧盟的申请,其中重要的一点是写明这是一个文件访问申请,而且最好具体写明是提案1049 /2001。 保持简洁

不论在哪个国家,最好都从一个简单的信息申请开始,如果得到了初步信息,然后再增加更多的问题。这样,你就不会因为提出一个“复杂的请求”而冒被公共机构申请延期的风险。 保证重点

93

申请由公共部门的一部分保有的信息,可能会比需要搜索整个部门的回复来得更快。需要官方咨询第三方(例如提供信息的私营公司、受其影响的其他政府)的申请可能会花费特别长的时间。你要持之以恒。 考虑文件所包含的信息

试着找出所整理的数据。举个例子,假如你在交通事故后拿到一张警察填写的表单空白副本,你就可以看出他们记录了哪些有关车祸的信息。 针对具体问题

在你提交申请之前,想想:它有什么含糊不清的地方吗?如果你计划比较来自不同官方部门的数据,这一点尤其重要。打个比方,如果你索要过去三年的数字,一些部门会发给你过去三个日历年的信息,而其它部门则发给你过去三个财政年的信息,你不可能直接比较这些信息。如果你决定要把你真正的申请隐藏在一个更普遍的申请当中,那么你的申请范围应当足以获取你想要的信息,但也能太过泛泛而用意不明或有碍回复。具体而明确的申请往往能够获得更快更好的答案。 提交多个申请

如果你不确定向谁提交申请,你完全可以在同一时间向两三个或更多的机构提交申请。在某些情况下,各机构会返回不同的答案,但这实际上是有帮助的,可以为你所调查的项目上提供更全面的信息。 提交国际申请

越来越多的申请可以以电子方式提交,所以你住在哪里并不重要。或者,如果你没有生活想要提交申请的国家中,有时可以将申请发送到大使馆,而他们应将其转移给公共机构。你需要先查看相关使馆是否有这类服务,有时使馆工作人员没有接受过对信息权利的培训,如果看似是这种情况,直接向有关公共机构提交申请是更安全的做法。 进行申请测试

如果在你打算给许多公共当局发送同一申请,开始的时候可以给几个部门发一份初步的申请草案作为提前测试。这会告诉你是否使用了正确的术语来获取想要的材料,以及回复你问题的可行性,这样你就可以在发送给各个部门之前对申请进行必要的修改。 考虑好意外情况

如果觉得你的申请可能会出现意外,那么在准备申请之时,你可以把可能存在敏感信息的问题与其它根据常识不会出现意外的信息分开。然后把你的问题分成两项申请并分别提交。

94

请求对文件的访问

如果你住在保存信息的机构附近(例如在存放文件的首都),你也可以要求查看文件的正本。当研究信息可能保存在大量的你想查阅的文献中时,这会是非常有用的。这类查阅应当是免收费用的,而且可以给你安排在一个合理和方便的时间。 自己留一份记录!

以书面形式作出申请,并保存一份副本或记录,以便在将来如果未收到答复需要作出上诉时,能够证明你的申请已经发送。并且假如你打算做一个有关报道,这也可以提供了申请提交的证据。 公开你的申请

通过把你提交的申请公开化可以加速回复的速度:如果你撰写或广播一个关于你已提交申请的报道,这可以对公共机构施加压力使其处理和回复你的申请。在收到对申请的回复后,你可以更新信息;如果超过截止时间仍没有回复,你也可以把这做为一个新闻报道。这样做还有一个好处,就是教育大众有关信息的访问权以及如何实践。

Figure 2. What Do They Know? (My Society)

发展你的同事

95

如果你的同事对信息申请访问的意义持怀疑态度,说服他们的最佳途径之一就是根据信息法所访问到信息写一篇报道。在最后一篇文章或广播片段中也把你所用到的法律推荐给公众,作为一种强调其价值并提高公众的权利意识的方法。 索要原始数据

如果你想要用电脑分析、挖掘或整理数据,那么你应当明确索要电子化的机器可读的数据格式。你可以通过详细说明来阐明你的要求,例如你需要“`适用于会计软件分析”格式的预算信息。你可能还希望明确索要非汇总过的或松散表格的信息。关于这一点,你可以扩展阅读此报告。

询问FOI法律之外的组织

你可能希望找到有关非政府组织、私营公司、宗教组织和其他组织中在FOI法律下并不需要公开的文件。但是通过询问FOI法律所涵盖的公共机构你可能找到有关的信息。例如,你可以询问政府部门或部委是否资助过或处理过某个特定私人公司或非政府组织,并申请支持文件。如果在 进行FOI申请需要进一步帮助,你还可以查阅 记者所应该知道的法律漏洞(Legal Leaks tookit for journalists)。

— 海伦·达比希尔(Access Info Europe)、Djordje·Padejski(斯坦福大学奈特新闻会员)、马丁·罗森鲍姆(英国广播公司)和法布里齐奥·斯科诺利尼(伦敦政治经济学院)

利用“信息自由”了解公共支出

我曾经用不少方式应用FOI,以更好的了解COINS,它是最大的英国政府开支、预算、财政信息数据库。在2010年开始的时候,乔治·奥斯本透露他如果当选财政大臣,就会开放COINS,以促进财政部的信息公开透明。这看起来是个研究COINS中的各项数据的好时机,我便递出了几个FOI申请,一个是数据库的架构,一个是财政部官员在使用COINS时的指南,一个是财政部和数据库提供者之间 签订的合同。这些都最终被以实用信息而 被公开了。我还申请了公开所有的开支项目代码,也被公开了。乔治·奥斯本当2010年5月当选财政大臣,并于6月公开了COINS,而前面这些工作,都让我们对COINS有了更好的了解。数据库中的数据被多个网站应用,并鼓励公众自行研究这些数据,包括OpenSpending.org和《卫报》的Coins Data Explorer。

经过一段时间的研究,发现数据库中似乎有很大一部分的数据是缺失的,政府整体财务报告(Whole of Government Accounts (WGA)),其中包括1500组公共部门的合并财务报告,就是不公开的。我曾经用FOI申请了2008-2009年度的WGA信息,但是显示无效。我还申请

96

了负责WGA的审计部门的报告,希望能解释为什么WGA的信息是不能公开的,不过这个申请也被拒绝了。

2011年12月,WGA在COINS中被公开了。我想为WGA提供的合并财务报告中的1500个组织各自建立一个完整的信息包,为了在这样的实践中得到足够的指导和帮助,我用另外一个理由使用了FOI:为了确保在英国信息透明计划指导下公布的信息都被合理的解释并包含必要的内容。我通过FOI申请了WGA中各个公共部门的完整财务信息。

— 丽莎·埃文斯(Lisa Evans),卫报

三、试试游说(Wobbing)数据!

利用信息自由法案,有时也被称之为数据游说,是非常有效的工具。但它需要一定的方式方法,往往更要靠毅力。这里用三个我作为调查记者的亲身经历,来说明数据游说的长处与挑战。

个案研究1:农业补贴

欧盟每年将近补贴600亿欧元给农民以及整个种植业。没错,是每年。从20世纪50年代后期开始持续到现在,这一直作为政策上对贫穷农民补贴。然而在2004年丹麦,作为FOI的第一次突破,揭露了这仅仅是政策上的表述而已,并没有落到实处。小农场主们像他们时常私下里或公开抱怨的那样不断挣扎着,事实上大部分的钱都流向了少数大地主手中或农产业里。所以,很显然我想知道:在欧洲都是这样的吗?

2004年的夏天,我向欧盟委员会索要数据。每年二月,委员会都会收到各成员国的数据。数据显示谁申请欧盟拨款,受资助的受益人得到多少,以及他们是否通过耕作他们的土地、开发他们的地区或者出口奶粉而得到。当时,委员会以存在CD光盘的CSV格式文件收到数据。虽然数据量很大,但原则上这都很容易完成的工作。只要你能拿到数据,那就简单了。

在2004年,委员会拒绝公开数据;主要的争论点是,数据上传到数据库之后还要做大量工作,才能把想要的数据提取出来。按欧洲司法监察机构的说法来看,这就是_行政失当_。现在你可以在wobbing.edu的网站上找到有关这个案例的全部文档。回到2004年,我们那时候可没有时间一步一步走法律程序。我们想要的是数据。

97

Figure 3. 农业补贴网站 (Farmsubsidy.org)

所以我们和一些同伴组成团队,为了获取数据跑遍了欧洲的每一个国家。英国、 瑞典、和荷兰的同事拿到了2005 年的数据。芬兰、 波兰、 葡萄牙、 西班牙、 斯洛文尼亚和其他一些国家也开放了他们的数据。即使在最难的德国,我也获得了重大突破,拿到了威斯特伐中省的北莱茵-利亚(North Rhine-Westfalia)一些2007 年的数据。为了拿到数据我不得不走上法庭——最终的结果是,一些相当优秀的报道文章刊登在了Stern and Stern在线新闻杂志上。

难道丹麦和英国最早开放他们的数据是巧合吗?不一定。从更大的政治图景来看,彼时农业补贴问题正在世界贸易组织谈判中被施压。因为丹麦和英国属于欧洲里更偏向自由派的国家,所以这些透明的政治风向更可能吹向他们。

报道仍在继续,更多的事件和数据请查阅农业补贴官方网站。

心得:去各个地方“游说”数据。在欧洲,我们有多种多样到令人吃惊的信息自由法,并且不同的国家在不同时期会有不同的政治利益关系。你大可以好好利用。 知晓你的权利

当你发布数据的时候,你不是应该考虑一下版权问题和其他有关数据的权利?虽然你应该和你的法律团队一起搞清所有的法律问题,但一般来说:如果数据是由政府发布的,那你既不用请求宽恕也不用请求许可;如果这是由组织发布的,且数据并不是为了盈利,那你也不用太过操心;如果这是组织发布的数据且是出于盈利目的,那你一定要请求允许。

98

— 西蒙·罗杰斯(Simon Rogers),卫报 个案研究2:副作用

吃药的时候我们都是被拿来作试验的小白鼠。药物都会有副作用。尽管众所周知,我们会在衡量过潜在的好处和风险之后,再作出(是否服用的)决定,但不幸的是这一决定往往都不是明智的。

青少年们是为了拥有更光滑的皮肤服而服用抗粉刺药,而不是想让自己变的抑郁。这样的事恰恰就发生在一种抗粉刺药上,青少年服用之后变得抑郁,甚至导致自杀。这种危险的特定药物副作用,显然是记者们追逐的新闻题材,可惜副作用案例不易找到。

有关药物副作用的数据是有的。生产者必须定期向卫生当局提供观察到的有关副作用的情况。从药物获准上市开始,国家或者欧洲有关当局就已经拿到这些数据。

同样,在国家层面的最初突破口始于丹麦。在一个由丹麦-荷兰-比利时三国团队进行的跨境研究期间,荷兰也开放了他们的数据。数据游说的另一个例子: 我们的这个案例可以明确指出一点,荷兰当局的数据可以在丹麦拿到。

但这是个真实的故事:在欧洲已经发现有自杀倾向的年轻人很悲剧地因为服食药物而最终自杀。新闻工作者、 研究人员和年轻受害者的家属都在用尽全力去获取这些信息。欧洲监察员也在帮助推动在欧洲药品管理局的透明公开,而且看起来好像成功了。所以现在的任务落到了记者头上,摆出数据并彻底剖析这些材料。我们都是豚鼠吗?或正如一位研究人员所说,监控机制健全吗?

心得:关于信息透明公开的问题绝对不要妥协。坚持下去并且随着故事的发展推进下去。事情可能会有很好的转机,或许因此在短时间内就能拿到更好的数据,写出更好的报道。 个案研究3:走私死亡

最近的历史发展对全人类来说都异常煎熬,尤其是在战后和转型时期。记者又如何可以获得“干货”数据进行调查, 譬如,当最近十年战争的赢家开始掌权的时候?这正是一个由斯洛文尼亚、 克罗地亚、 波斯尼亚记者所组成的团队所追求的目标。

该团队旨在调查90年代初联合国禁运期间前南斯拉夫境内的武器交易。工作的基础是议会对这个议题的调查记录。然而,为了记录下来他们的运送路线并了解交易结构,记者们还必须要去跟踪港口的船只数量和卡车的车牌。

斯洛文尼亚议会委员会曾主持调查从巴尔干战争谋取暴利的问题,但从来没有得出什么结论。然而他们尚有解密文件和数据中极富价值的线索,包括斯洛文尼亚团队通过信息自由请求拿到的6,000页文件。

99

在这种情况下,数据还必须从文件中提取出来并在数据库中分类整理好。通过补充更多数据一同进行分析和研究,他们绘制出了大量的非法武器贸易路线。

整个团队非常的成功,结果也很独特,并且为团队赢得了他们的第一个奖项。最重要的是,这些报道影响了整个地区。同时,其他国家的记者还能够跟进调查,继续挖掘这些杀伤武器货物运输路径的报道。

心得:关键是挖掘好的原素材,哪怕是从最意想不到的地方着手,再结合一些已经公开的数据进行分析。

— 布里奇特·阿尔夫特(Brigitte Alfter),Journalismfund.eu FOI with Friends

许多巴尔干地区国家都有政府腐败的问题。腐败问题在这些地方政府的问责中尤为严重。几个月以来,贝尔格莱德的调查报道中心附近一批塞尔维亚记者,一直在探询2009年当地三十多个自治区政府不同的FOI文件。这之前,几乎没有任何公众可以接触到的此类信息。这样做是想得到各报告中的原始信息,通过电子表格检查、对比,得出各个自治区中的最大值、最小值。基本的项目包括预算数字、常规和特殊开支、官员薪水、差旅费、雇员数量、手机话费、每日津贴、政府采购等等。这是记者第一次申请这类信息。

得出的结果是一个综合性的数据库,揭露了数不清的虚假陈述、违法行为、腐败案例。一份收入最高的市长的名单展示了其中几名的收入甚至高于塞尔维亚总统。许多官员的收入都过高,大多数都收到巨额的差旅报销和津贴。辛苦得来的政府采购数据,更是揭露了官方面临的烂摊子。这个数据库造就了超过150个专题报道,其中许多都被塞尔维亚地方和中央媒体报道了。

由此我们知道,来自同级政府的这些可以对比的数据,比较后可以展示出明显的违规行为并阻止潜在的腐败行为。夸张、不正常的开支只能通过对比发现。

— Djordje Padejski,奈特新闻基金会,斯坦福大学

四、从网络获取数据

你是否已尝试了各种方法,却仍未获得需要的数据?也许有时你在网页上已经找到所需数据了,只是上面并没有下载按钮,复制粘贴功能也用不了。不要着急,这里有一些实用的方法,比如你可以:

从基于网页的API接口获得数据,这包括在线数据库提供的用户界面以及各种新式的网

100

络应用(比如Twitter、Facebook等等)。这是获得政府和商业机构数据的好方法,在社交网站上也很有效。

从PDF文档提取数据。这很困难,因为PDF是一种针对打印机的格式,里面存储的数据结构和一般文档极为不同。从PDF提取数据比从一本书中提取要困难得多,但还是有一些工具和操作指南可以帮助你完成这项工作。

利用有网页抓取功能的网站。在这类网站上,你可以借助其提供的实用工具或是自己写一段建议代码从普通网页上提取结构化的内容。这种方法十分强大,适用于许多情况,但这要求你了解一些关于网页的知识。

借助这些强大科技功能的同时,也别忘了简单易用的方法:花点时间搜索机器可读的数据,或者给持有所需数据的机构打电话都可能会帮助你拿到你想要的数据。

在本节我们将展示一则从HTML网页上极为简单的抓取范例。 什么是机器可读的数据?

大多数方法的目的都是为了获得机器可读的数据。机器可读的数据是为方便计算机处理而生成的,而不是为了向人类用户展示。这些数据的结构与其内容相关,但与数据的最终展示形式不同。简单的机器可读数据格式包括CSV、XML、JSON和Excel文档等等,而Word文档、HTML网页和PDF文档则更侧重于数据在视觉上的呈现。PDF是一种与打印机交互的语言,它记录的信息并不是一个个字母,而是线与点在页面上的位置。 从网页上抓取什么?

这种事情每个人都做过:你在某网站上浏览时发现一个有趣的表格,想把它复制到Excel中便于计算或是存储下来。但有时这种方法并不奏效,有时你所需要的数据又分布在好几个网站的页面上。手动复制粘贴太乏味了,而用一些小代码可以令你事半功倍。 网页抓取的一大优势是其几乎可以用于所有网站,无论是天气预报还是政府预算。即便该网站并未提供针对原始数据访问的API接口,你同样可以抓取。 网页抓取的局限性

抓取不是万能的,也会遇到障碍。网页难以抓取的主要因素有: HTML编码拙劣,结构信息很少或者压根没有,常见于早期的政府网站。 网站有防止机器自动访问的验证系统,如CAPTCHA验证码和付费系统。 使用浏览器Cookies存储用户信息获得用户动作再给出内容的会话系统。 网站未提供完整的分类列表和通配符搜索功能。 服务器管理员对大量访问做出了限制。

101

另一方面,法律限制也会成为障碍。部分国际承认关于数据库的权利,这会限制你重复利用在网络上公开发表的信息。有的时候,你可以无视这些法律条款仍然进行抓取,这取决你所在地的司法管辖权,如果你是记者的话也会有一些特殊的便利。抓取免费的政府数据一般没事,不过在发表之前还是应当再查一遍。商业组织和部分NGO对数据抓取行为采取几乎零容忍的态度,他们会指控你“破坏”他们的系统。其他可能侵犯个人隐私的数据则会触犯数据隐私法令,也与职业道德相背。 Patching, Scraping, Compiling, Cleaning

英国面临的挑战不是公开这些数据,而是如何让数据以可使用的形式呈现。例如外事接待、议员的外部利益、游说等等数据都是按照常规定时公布的,但是却很难展开分析。 有些信息要想有价值,只能是非常费劲的的把很多excel文件拼凑在一起,每个文件都是又很多报告数据组成的,例如内阁会议。但是对另外一些信息来说,网络抓取是十分有效的途径。

使用类似ScraperWiki的服务,请程序员制作一个抓取例如议员利益登记表的程序,我们工作的一半就已经完成了:所有议员的信息都在一个表格里,等着我们去分析和整理。 类似的服务(或者类似Outwit Hub)对于不会编程的记者来说,是尝试处理复杂数据的好帮手。

— 詹姆斯·贝尔(James Ball),卫报 抓取工具

有许多程序可用于从网站提取大量信息,包括浏览器扩展程序和一些网络服务。Readability(从网页上抓取正文)和DownThemAll(批量下载文件)工具可以在部分浏览器上自动处理繁琐的任务,Chrome浏览器的Scraper插件可以从网站上提取表格。针对开发者的扩展程序FireBug(针对Firefox浏览器,Chrome、Safari和IE已内置类似功能)可以让你清晰了解网站结构和浏览器与服务器之间的通讯。

ScraperWiki网站提供包括Python、Ruby、PHP在内的多种语言供用户自行编写抓取代码。这使得用户不再需要在本地安装语言环境便可编码进行抓取工作。另外Google电子表格和Yahoo! Pipes等网页服务也提供从其他网站提取内容的服务。 网页抓取工具如何运作?

网络抓取工具通常是用Python、Ruby或PHP写成了一小段程序代码。具体选择哪一种语言取决于你的周围,如果你的新闻机构或者同城市的同行中有人已开始用某种语言进行编写,你最好也采用同样的语言。

102

虽然前文提到的点击选择工具可以帮助你上手,但真正复杂的步骤是确定正确的页面和页面上存储所需信息的正确元素。这些步骤的关键并不在于编程,而在于对网站和数据库结构的了解。

浏览器在展现网页时主要运用以下两种技术:通过HTTP协议与服务器通讯,请求获得文档、图片、视频等指定资源;然后获得以HTML编码写成的网页内容。 网页的构造

每个HTML网页都是由有一定结构层次的“盒子”构造的(由HTML“标签”定义)。大的“盒子”中又会包含小的“盒子”,就像一个表格中有行、列和单元格一样。不同的标签有不同的功能,可以定义“盒子”、表格、图片或者是超级链接。标签也有附加属性(比如唯一标识符),并可被定义在“类”中,这便于我们定位和获取文档中的独立元素。编写抓取工具的核心就是选择合适的元素从而获取对应的内容。 查看网页元素时,所有代码都可按照“盒子”进行分割。

在开始抓取网页之前,你需要了解HTML文档中会出现哪些类型的元素。举例来说,

会形成一个表格,在其中定义了行,
又把行细分为单元格。最常见的元素类型是
,简单来说它可以定义任何内容区域。认知这些元素最简单的方法就是利用浏览器上的开发者工具,在将鼠标悬停在网页的特定区域上时,这些工具就会自动显示该区域对应的代码。

标签就像书的封面一样,告诉你哪里是开头,哪里是结尾。表示文字从此处开始以斜体显示_,则标明斜体字到此结束。多简单! 例子:使用Python抓取核事件

国际原子能机构(IAEA)门户网站上的新闻栏目下记录了全球各地的放射性事故(栏目名正申请加入“怪异标题俱乐部”)。该网页使用简单、类似博客形式的结构,便于抓取。

Figure 4. 国际原子能机构(IAEA)门户网站 (news.iaea.org)

103

首先,在ScraperWiki上新建一个Python抓取工具,然后你将看到一个基本空白的文本框,里面有些基本的框架代码。同时在另一个窗口中打开IAEA网站,并打开浏览器的开发者工具。在“元素”视图下,找到每条新闻标题所对应的HTML元素,开发者工具会明确指出定义标题的代码。

进一步观察可以发现,标题用

+定义在+中。每个事件都有一个单独的++行,里面还有事件描述和日期。为了获取所有事件的标题,我们应当用一定的方法按顺序选择表格中每一行,然后获得标题元素中的文本。

要将这些进程写成代码,我们需要明确具体的步骤。我们先玩个小游戏感受一下什么是步骤。在ScraperWiki的界面中,先尝试为自己写一些指引,你要通过代码完成哪些工作,就像食谱中的工序一样(每行开始前写一个“#”以告诉Python这行不是计算机代码)。例如:

寻找表格中的所有行

不要让独角兽在左侧溢出(注:IT冷笑话)

写的时候要尽可能准确,不要认为程序真的懂你要抓取哪些内容。 写了几行伪代码后,我们再来看看真正代码的前几行吧: import scraperwiki from lxml import html

在第一段中,我们从库(预先写好的代码片段)中调用了已经存在的功能,ScraperWiki在此段代码中已经提供了下载网站的功能,+lxml+则是一个用来对HTML文档进行结构分析的工具。告诉你个好消息,在ScraperWiki中写Python的抓取工具,前两行都是一样的。 url = \"http://www-news.iaea.org/EventList.aspx\" doc_text = scraperwiki.scrape(url) doc = html.fromstring(doc_text)

然后,代码定义了变量名称:url,其值为IAEA的网页地址。这行告诉抓取工具,有这么个事情,我们要对他做些动作。注意这段URL网址在引号中,表明这不是一段代码,而是一个_字符串_,一串字符序列。

然后我们将这段URL变量放入一个指令,scraperwiki.scrape。这段指令会执行已定义好的动作:下载网页。这段工作完成后,它将执行指令将内容输出到另一个变量doc_text中,然后在doc_text中存储的就是网页的文本了。不过这段文本并不是你在浏览器中看到的样子,它是以源代码形式存储的,包含了所有的标签。由于这些代码不容易解析,我们再

104

用另一个指令html.fromstring生成一个特殊的格式,方便我们分析其中元素,这种格式叫做文档对象模型(DOM)。

for row in doc.cssselect(\"#tblEvents tr\"): link_in_header = row.cssselect(\"h4 a\").pop() event_title = link_in_header.text print event_title

最后一步,我们使用DOM搜索表格中的每一行,并获取事件的头部获取标题。这里有两个新感念:for循环和元素选择器(.cssselect)。for循环的工作很简单,它会遍历项目清单,给每个项目分配一个别名(在本段中就是每行+row+),然后对每个项目都执行一次缩进部分的指令。

另一个概念——元素选择器,指的是利用特定语言在文档中查找元素。CSS选择器通常被用来在HTML元素上添加布局信息,我们可以利用它在页面中精确的定位元素。在本段代码的第6行,我们使用#tblEvents tr选出

标签中所有选择器ID为tblEvents的行(ID前需加“#”作为标识)。这段代码将会返回符合条件的元素列表。

接着在第7行,我们使用另一个选择器查找

标签(标题)中的标签(超级链接)。这里我们一次只找出一个元素(因为一行中只有一个标题),所以在找到后我们需要通过.pop()命令将其输出。

请注意,DOM中的某些元素含有实际的文本,也就是非程序语言的文本。对于这些文本,我们在第8行使用[element].text命令。最后,在第9行,我们将结果输出至ScraperWiki的控制台。完成后,只需在抓取工具中点击“运行”,小窗口上便会一一列出IAEA网站上的事件名称了。

现在一个基础的抓取工具就开始运行了。它将下载网页,将其转换为DOM格式,然后你就可以从中选择、获取特定内容了。在这个框架下,你可以试着利用ScraperWiki和Python的帮助文档解决剩下的问题:

你能找到每个事件标题中的超级链接地址吗?

你能利用CSS类名选择包含日期和时间的小“盒子”并将其中文本输出吗?

ScraperWiki为每个抓取工具分配了一个小的数据库用于存储结果,请从文档中复制相关事例,将获取到的事件标题、超级链接和日期存储在一起。 事件列表不止一页,你能让抓取工具翻页获得之前的事件信息吗?

在尝试解决这些问题的同时,你也可以在ScraperWiki上逛逛。网站上很多现成抓取工

105

具中都有实用的案例,其中的数据也很有用。这样你就不需要从头开始敲代码了,利用类似的案例,对代码进行改动,再部署到自己的问题上就可以了。 — 弗里德瑞克·林登伯格(Friedrich Lindenberg),开放知识基金会 抓取公开的数据集

举例来说,一些法国物理学家制定了自由出价的方式,这样你就可以选择付不低于€70,不高于€500来获得三十分钟oncologist的使用时间。这份数据的费率是合法公开的,但是管理员提供的是一个很难被定位找到的在线数据库。为了能够找到一个好的角度去看这些的资费,我决定为Le Monde报把整个数据库爬下来。

乐趣才刚刚开始。前端的搜索表单本来是个以POST请求重定向到HTML结果页的Flash应用。在Nicolas Kayser-Bril的帮助下,花了我们不少时间最后发现这个应用在搜索表单和结果页面中还调用了另一个“隐藏”页面。这个页面才真正的储存了搜索表单的cookie值,然后得意进入到结果页中。本来这应该是很难以被理解的过程,但是PHP下cURL的这个库中的设置帮我们很容易的克服了这个障碍。其实你只要发现了障碍在哪儿,都很容易能去解决。最后我们把整个数据库爬下来一共花了10个小时,但是非常值得。 — Alexandre Léchenet, Le Monde

五、把网页作为数据来源

如何找到只在网络上存在的事物?不管你要找电邮地址、网址、图片或是维基百科条目,在本章你都可以了解到相关的工具可它们背后的故事。 网页工具

首先,你需要了解一些探索一整个网站而不是几个页面的服务。 Whois

如果你访问whois.domaintools.com(或在Mac上的Terminal应用中输入whois www.example.com),你就可以得到任意网站的基本注册信息。近年来,很多网站所有者在注册域名时选择“隐私保护”模式,将注册信息隐藏。但大多数情况下你还是能够查到域名注册者的姓名、住址、电邮地址和电话号码。同时,你也可以输入数字型的IP地址,查找拥有该IP的服务器所属的组织或个人。在追查散播侮辱性言论和恶意攻击的用户时,这些服务特别方便,因为大多数网站都会记录访问者的IP地址。 Blekko

106

搜索引擎Blekko在抓取网页时使用了不常用的技术获得更核心的统计数据。在域名后输入“/seo”即可获得该URL包含的信息。 Figure 7网页的第一个标签按人气将链入该域名的网站进行了排序。这对于获知网站的覆盖面范围有多大极有帮助,由于Blekko使用了进站地址作为排序依据,部分网站的排名会比他们的Google排名更高。Figure 8展示了与该网站位于同一主机的其他网站域名。诈骗和垃圾网站常常会在同一个主机上建多个网站,在他们之间互相引用和链接,形成人气的假象。这些网站看起来都是各自独立的,甚至连注册信息都截然不同,但他们经常因为节省成本的原因架设在一个主机上。这些数据可以让你了解所搜索的网站背后的商业架构。

Figure 6. 搜索引擎Blekko (Blekko.com)

Figure 7. 了解网站的人气排行:谁链接了谁?另一项实用的功能标签是“抓取数据”,尤其是“共用主机”部分. (Blekko.com) Compete.com

compete.com通过对美国网民的调查,为大多数网站提供细节化的用户数据,其中一些基本的数据是免费开放的。选择“站点信息”标签后输入域名(Figure 9),就可得到该站点在过去一年的流量,以及用户的访问数量及频率(Figure 10)。由于这些数据是基于调查所

107

得,所以有些模糊,不过我通过将此数据与网站内部分析数据对比发现,他们还是相当准确的。在比较两家网站方面,这是相当好的数据来源,尽管双方的数据都不太精确,但仍能准确反映两者相对的人气状况。由于只对美国网民进行调查,Compete.com在对面向国际用户的网站支持上很弱。

Figure 9. Compete.com的站点信息服务 (Compete.com)

Figure 10. 用户的趋势和需求是什么?分析网络上的热点 (Compete.com) Google的站点搜索

使用“site:”参数搜索特定域名下的内容是个好方法。在关键词后加入“site:example.com”搜索,Google会仅展示指定域名下的内容。你还可以将范围进一步缩小的域名下的目录,比如“site:example.com/pages/”,获得更精细的结果。有时域名所有者发布的一些信息并没有刻意去展示,使用正确的关键词可以有效发掘出这些内容。 网页、图片和视频

有时你并没有对整个网站产生兴致,或许只关心特定事件的相关消息。以下的工具将展示网民在网上阅读、反馈、复制和分享内容的不同视角。 Bit.ly

在分析用户分享特定链接的行为时,我总是会用Bit.ly。在网站上输入需要查询的网址,然后点击“信息页+”链接,便可得到完整的数据统计页面(首次使用时需要选择“整合Bit.ly链接”)。你会从中了解该页面的人气情况,包括在Facebook和Twitter上的热度,在下方还会呈现由backtype.com生成的用户关于该网页的公开对话。我发现在试图了解一

108

个网站或网页为何如此热门时,这种流量和对话的组合统计十分有帮助,还可以精确定位目标人群。例如,它让我了解到主流对草根分享和莎拉•佩林的认识都是错的。 推特

随着越来越多的人开始使用微博客服务,微博已成为衡量用户对特定内容分享和交流的实用工具。操作起来十分简单,你只需将网址放入搜索框,也许还需要在搜索结果页面上点一下“更多推文”获得所有结果。 Google网页快照

网站发布者在发现页面内容有争议时,可能会将其删除或是在不做任何通知的情况下进行修正。如果你怀疑自己遇到了这种情况,首先就应当看看Google对该页生成的上一次快照。由于Google抓取网页的频率越来越高,这要求你必须在发现情况可疑后的几小时内就进行快照查询。在搜索框中输入要查询的网址,然后在结果页上点击向右的箭头,即可看到页面预览。运气好的话,预览结果上方会有“网页快照”链接,点击即可获得Google对该网页的存档结果。如果网页加载缓慢,你可以试试页面最上方的“纯文本”选项获得更简洁的页面。打开快照后,你最好进行截屏,或者把相关的信息复制下来,因为随着Google的下一次页面抓取,这一结果可能在任何时刻被覆盖。 互联网档案馆的时间机器

你也许会需要特定页面在过去数年、数月间的长期改动情况,互联网档案馆的时间机器服务可以帮你,它会定时对人气最高的页面进行截图。访问网站,输入需要查找的网页地址,如果有存档的话,页面上就会显示出带有链接的日历,接下来选择具体日期即可查看。时间机器服务将展示该网页在当时的大致情形,其中的版式和图片可能已经失效,但通常这对于理解网页内容没什么影响。 查看源代码

这可能会花点时间,但开发者的确经常在网页的HTML代码中留下评论或者其他线索。不同的浏览器有不同的菜单设置,但你总能找到“查看源代码”获得原始HTML的选项。你不需要理解其中的机器语言,只需要找寻散落在其中的文本内容。即使代码中只提到过版权声明和作者的名字,这通常也成为了解页面创建过程和目的的重要线索。 TinEye

有时网络上的图片没有标注来源,传统的搜索引擎功能没什么用,但你又需要知道它的来源。TinEye提供了一种特别的“反向图片搜索”功能,提交图片后它就会在网络上中找出相似的图片。TinEye使用了图像识别技术,对于被裁减、失真和压缩的图片也很有很好

109

效果。当你怀疑某图片被裁减过用来伪造原创作品或是曲解原意时,这个功能可以帮你找到原始来源。 YouTube

点击每个视频右下方的“统计”按钮就可得到观看者的详细信息。尽管数据有些笼统,但其对于了解观看者的所在地和观看时间很有帮助。 电子邮件

在研究电子邮件时,你经常想了解发件人的具体身份和位置。虽然没有现成的工具完成这项供需,但了解一些所有电邮中有的隐藏报头十分有帮助。报头类似邮戳,可以揭示发件人数量惊人的信息。尤其是,它往往包含了电邮发送时使用机器的IP地址,这类似于电话中的来电号码。接下来,你可以对该IP地址进行whois查询,得到其所属的组织。如果得到Comcase或AT&T之类向消费者提供网络的服务商,则可去MaxMind查询该IP的大致位置。 在Gmail中查看邮件报头,打开信件后,展开上方“回复”按钮右侧的下拉菜单,选择“显示原始邮件”,然后在新窗口就会展示信件的隐藏信息了。

代码最上方会有十几行以冒号结尾的参数,你所需要的IP地址就在其中某行。表示IP的参数多种多样,如果发件人使用Hotmail,则该行显示+X-Originating-IP:+,而Outlook和Yahoo的信件会在首行标记+Received:+。

查询该IP我得知其属于英国的一家名为“Virgin Media”的ISP,然后我通过MaxMind定位服务得知其来自我的家乡——剑桥。这意味着我可以充分确信发件人的确是我的父母,而不是诈骗犯。 流量趋势

如果你需要调查一个很广泛的话题,而不是特定的网站或事物,那你需要这些让你洞察细节的工具:

维基百科条目流量

如果你对公众对特定话题或人物的热度变化有兴趣,可以在stats.grok.se查看维基百科任意页面每日的访问量。网站页面略显错草,但它可以让你深度挖掘所需信息。输入你感兴趣的事物就可得到该页面一个月以来的流量情况。图表会显示指定月份中每日的访问量。不过你每次只能选一个月的数据查看,这要求你多次选择才能得到更长时期的数据。 Google Insights

使用Google Insight(Figure 11)可以帮助你了解公众的搜索习惯。输入一对热门关键词,比如“Justin Bieber vs Lady Gaga”,就可以得到两人搜索数据随时间变化的关系图

110

标。Google还提供多种选项提炼数据,可以限定地理位置和时间参数。此服务唯一的劣势是其只提供搜索数据的相对关系,而不提供绝对值,在转换数据时会有困难。

Figure 11. Google Insights (Google)

— _皮特·沃登(Pete Warden),独立数据分析师、开发者_

六、《卫报》数据博客的众包式数据

根据维基百科的定义,\"众包(Crowdsourcing)是指一种分布式的解决问题和完成工作的做法,通常包括将任务外包给多个人组成的网络,即'大众(Crowds)'\"。以下是对西蒙·罗杰斯的采访记录,他在其中介绍了《卫报》数据博客如何通过众包服务,对议员开支丑闻、毒品滥用以及莎拉·佩林(Sarah Palin)的邮件进行的数据挖掘:

有时候,你会拿到大量的文件、统计数字或者文字报告,但你不可能一个人看完全部资料。还有就是,虽然你可能有资料在手,但是却很难看懂或者格式混乱,在这种情况下你也无计可施。这就是为什么众包可以帮大忙。

《卫报》有很多读者,可以说是帮手众多。如果现在有一个有意思的项目,我们需要人来录入数据,就可以让这些读者帮助我们。这是我们在调查国会议员开销时所采用的方法。我们有45万个文件,但时间非常少,几乎干不了什么事情。那除了向读者开放项目,还能有什么更好的方法么?

111

Figure 12. 史蒂芬·庞德(Stephen Pound)杂项开销的摘要副本(卫报) 调查议员花销的项目中,我们得到了大量的线报。我们知道了比数据本身更多的背后故事。从信息交流方面讲,这个项目是非常成功的。大家真的很喜欢参与进来。

我们现在正在与《MixMag》杂志在一个吸毒调查项目上展开合作,结果也是异常出色。如果从调查人数上来说,这个项目的覆盖面估计要比英国犯罪调查还要大,这真是一个非常聪明的做法。

这两个项目所关注正是大众切实关心的问题,所以大家都愿意花时间参与。我们做过的大部分众包服务其实都是依赖于一些对资料异常感兴趣的人。在调查议员费用的项目伊始,我们收到了大量信息,但这种势头很快就没有了。但有是有人坚持不懈地翻看每页资料,寻找数据中的异常和故事。其中有个人看了3万页。他们知道不少东西。

我们还利用众包来做莎拉佩林邮件的项目。众包再次帮了我们很大忙,帮助我们整理原始信息并且提炼故事。

在提炼故事上,众包在我们的项目中发挥了出色的作用。大家很喜欢参与,而这也让《卫报》'看起来很棒'。但就收集数据方面来看,我们尚无频繁使用众包服务。

112

一些我们运作得好的众包项目,多半是传统的调查。当你问别人的经历、生活或者工作,他们会很配合,因为对这些问题大家不太可能编故事。他们会说出他们的感受。当我们向大众参与我们的项目工作时,必须设定一个框架,好让大家给出你所能信任的数据。

说到数据的可靠性,我想以前的天气那个项目的结果就非常好。每个问题他们都会找十个人来回答,这就很好确保了数据的准确性。而在调查国会议员费用项目中,为了避免议员给自己脸上贴金,我们尽量减少议员自己上网和篡改记录的可能。但这种情况不可能一直避免。你所能做的只是注意某些特定的URLs,或者看它们是否来自于伦敦的西南城区。所以,想要完全避免这种情况有点难度。分发出去的数据也并不总是可靠的。即使故事很好,但拿不到原始数字的话我们也不敢放心使用。

如果让我给有抱负的数据记者就众包服务收集数据方面提点建议,我会说选题很重要,选择那些大众切实关注的,并且淡出媒体视野后持续关注的事情去做调研。而且,如果你做的东西更像是个游戏,这会更吸引民众参与。我们第二次做议员费用调查项目的时候,就很像一个游戏,大家会有一个一个任务去完成。设计特别的任务确实会有明显的效果。这其中有很大差别。这就像指着山一样的大量资料,然后对大家说“把它们看完”,我觉得这会让你的工作困难重重而且吃力不讨好。所以我想,把整件事儿做得有意思还是很重要的。

— 摘自数据新闻博客的 玛丽安·包查特(Marianne Bouchart) 对 卫报西蒙·罗杰斯(Simon Rogers) 的采访

七、《卫报》数据博客利用众包的报道奥运票务

我认为,大众反响最热烈的众包项目就是对奥运门票抽签的调研。成千上万的英国人都想得到2012奥运会的门票,那些没买到票的人就很生气。人们花了几百英镑订票,但最后得知什么都没买到。但其实谁也不知道实际情况,说不定大多数都很满意,而只有少数人在大声抱怨。于是,我们试图查明事情真相。

我们认为,由于没有任何相关的数据,最好的办法就是去问人们的想法。由于样本的不平衡性,我们觉得这不是小事。

我们做了一个谷歌问卷,在其中问了非常具体的问题。这份问卷本身比较长,包括订了多少钱的门票,信用卡扣款多少,最后结果如何等等诸如此类的问题。

113

Figure 13. How many Olympic tickets did you get?: the readers' results (the Guardian)

我们在网站的上方放了一小张图片,很快这份问卷就传播开来。这里有一个关键,你不能只是想“关于这个故事我想要知道什么?”,而是“大家现在有什么愿意告诉我的?”。只有当你勾起大家的交流热情,众包才会成功。虽然这是我们对众包服务的初期尝试,但大家对这个项目的回应异常热烈。头一个小时我们收到一千份调查结果,而到了第一天末就有七千份了。

拿到这么多数据,我们对数据的展示也变得认真起来。最开始我们不知道这个项目能做成什么样。所以我们添加了一些说明:比如《卫报》的读者群可能比其他人富有一些,购票时比较失望的人可能更愿意回应我们的调研,等等。

我们当时还不知道这些调查结果有多大的价值。最后我们整理出七千份不错的回复用于数据分析,发现大约一半订购门票的人一无所获。我们把数据整理出来,由于大量民众的参与,结果也非常有意思。

几个星期后官方报告出来了,结果和我们的数据令人震惊的接近。几乎是完全正确。我

114

觉得这个项目的成功有部分运气的成份,但这么多人的参与也是原因之一。

比如一开始你只是让读者对这个事情进行评论,那么你得到的结果将会非常有限。所以从开始就要考虑:“对于我想要的信息,最好的工具是什么?”是论坛评论么?或是做一个应用程序?如果需要做应用程序,你必须考虑“中间投入的时间是值得的么?还有投入的资源是值得的么?”

在这种情况下,我们想到了谷歌调查问卷。别人回答了问卷,返回给你的结果就是电子表格中的一行。这意味着,即使数据仍在更新,结果仍在产生,打开电子表格就可以很直接看到所有的结果。

我可以用谷歌进行后续分析,但我还是把结果下载到微软Excel里面进行整理,比如从低到高排序之类的。有人在花销一栏填写的是文字而不是数字,我也要把这类问题进行修改。我决定尽量少的剔除调查结果。所以我不光选取了符合标准的问卷,而是试着解决各种书写问题。有人使用外国货币,所以我得把它们换算成英镑,这些事做起来是有点辛苦。 但整个分析也就用了几个小时,我去掉了那些明显胡填的结果。很多人在问卷中承认他们在门票上没花一分钱。这有点搞笑,但也没问题。在超过七千万个条目中只有不到一百个是这样。

还有几十份问卷想扭曲结果,说他们花了大笔的钱在门票上面,这些数字一看就是假的。比如有人写了一千万英磅。最后我拿到一份整理好的结果,可以用每天常用的一般数据分析方法进行分析。我做了所谓的“数据透视表”。我算了一些平均值。诸如此类的分析。

我们最开始也不知道这个项目会有多大规模,所以就是我和体育博客编辑两个人。我们商量了一下,觉得这可能是个有趣的项目。我们做到了,从开始到结束不到24小时。我们想出工作思路,在午餐时间设计好问卷,并把它放在网站上方。接着,问卷受到高度的关注,我们把它在网站上挂了一天,第二天一早结果就发表出来了。

我们之所以决定使用谷歌文档,就是因为它可以完全控制结果。不需要借用其他任何分析工具。我可以很容易的把结果导入数据库软件或者电子表格。如果你开始的时候使用专门的调查软件,通常会受到这些工具的限制。如果问题比较敏感,我们可以会在使用谷歌工具之前慎重思考一下,考虑是否只做“内部”调研。但一般来说,把谷歌问卷挂到《卫报》网页上非常容易,而用户基本上不知道我们在用谷歌来做调研。所以这很方便。

对那些想要使用众包服务的数据记者而言,我的建议是,你必须设计非常具体的问题。而且回答的选择越多越好。对你的调查对象尽量做一些基本的人群信息分析,这样你可以知道你的样本是否存在偏好。如果询问某一事物的数额或者类似的问题,尝试去让大家填写数

115

字,限定使用某一货币单位,等等。这些引导很多可能不会有实际效果,但问卷对民众的引导越多,你得到的结果也会越好。还有一件事,就是记得设计一个评论栏。因为许多人虽然会把问卷填完,但他们真正想做的是让你倾听他们的想法。特别是对消费或者暴力事件的调研项目。

— 摘自数据新闻博客的 玛丽安·包查特(Marianne Bouchart) 对 卫报西蒙·罗杰斯(Simon Rogers) 的采访

八、数据的使用与分享:大纲,细则和现实

这一章节我们将快速浏览与数据和数据库有关的法规,以及如何利用容易获得的公开式许可和合法工具公布数据。切不要让以下任何状况消磨你对数据新闻的热情。法律对数据的限制既不是你的绊脚石,也无法阻碍别人使用你发布的数据。

不言自明的是,数据的获得并不容易。在数据开放的网络时代之前,即使找到了自己需要的数据集,你还是需要向拥有它的人索取一份副本,可能是纸质,也可能需要你亲自拜访。而现在,获取副本的工作只需通过电脑便能完成。虽然概念上很类似,但是你已经拥有了数据的版权,而那些数据的原创或发布者却什么也没做,甚至不知道你已经下载了一份副本。

那么通过程序(俗称“`抓数据”)和服务条款(ToS)下载数据时该怎么做?想想前面讲的:你的浏览器就是一个这样的程序。服务条款是否只允许特定程序获得数据?如果你有大量的时间和金钱,当然可以选择去阅读此类文件或者咨询律师。但在通常情况下,不要表现得素质低下——如果你的程序攻击了别人的网站,你会被该网站屏蔽,咎由自取。如今网络上有大量访问数据和抓数据的行为,如果你计划这么做,研究一下诸如ScraperWiki等网站上的例子会是个不错的开始。

一旦你拥有了感兴趣的数据,便可以查询、钻研、分类、视觉化,利用数据副本进行相关性或任何其他类型的分析。你还可以发布引用了其中任何数据的分析。在言论自由的情况下,``事实是免费的''这个标语言符其实。但对于需要考虑很多合法性问题、甚至是掌控数据层面的人来说,这可能只是一个标语而已。

身为一个优秀的或渴望优秀的数据新闻从业者,如果你想要发布的不只是包含事实和数据的分析,还有在分析过程中援引的其他数据,应该怎么做呢?当然,你可能只是正在监护数据,还并没有进行任何分析——这点很好,因为这个世界需要数据监护。如果你打算使用其他实体收集来的数据,也许会遇到意外的麻烦。(如果你亲自组建了数据库,那就阅读下

116

一段,当作看下下段“数据分享”的动力吧!)

如果熟悉版权对创意作品的限制使用,你会知道,当版权所有者未对某作品授权(除非你的作品属于公共领域,或你在例外允许的情况下使用,或符合“合理使用”的范围),版权所有者可以强迫你停止使用和发布其作品。尽管事实是免费的,即使与其相关的法律比创意作品版权的法律有着更多的变化,事实收集却很相似地被限制 。简而言之,数据可以作为创意作品受版权制约。在很多司法管辖区内,仅凭“`辛勤搜集原则(sweat of the brow)”组建一个数据库,即使用毫无原创性的方式,也可以获得版权。尤其在美国,有更高的“最低原创性”标准(可以参考费斯特出版公司有关电话薄版权纠纷的经典案例)。但在某些地区,也存在着从版权中分离出来用以规范数据的“数据权”(两者实则有很多交集,特别是在版权的获得几乎不需要原创性的时候)。其中最知名的就是欧盟对数据库的“特殊权利保护”(拉丁语sui generis),如果你在欧盟国家发布来自其他实体的数据,一定要确认是否拥有相关许可。

这些限制显然不是培养数据新闻生态系统的最好方式,对社会普遍来说也没有好处(在“特殊保护权利”制定之前,社会科学家曾警告欧盟这一点,之后也被研究证实是正确的)。幸运的是,作为数据库的发布者,你可以通过事先准许将这些限制移除(假使其中不包含你无权进一步授权的部分)。你可以通过公开式许可或贡献给公共领域而发布数据——像许多程序员通过免费和开放资源许可发布代码一样,这样别人就可以直接取用(数据新闻不仅是数据,也包含代码;发布数据的同时也要发布代码,这样你的数据和分析才有再生价值)。

公开数据有太多好处——比如,受众可以利用你的数据创造新的视觉化或应用方式并与你建立链接,就像英国卫报在Flickr上建立的数据视觉化群组;此外,你的数据还可以和其他数据结合起来,令你和读者更深入了解一个话题;别人利用你的数据做的事可能引导你发现新故事以及新故事或其他数据项目的构思。这些做法必会给你带来声誉。

当你意识到在公共许可下发布数据是必需的,问题就变成了——哪个许可?能回答这个棘手问题的,一般是你在作品中借鉴过数据和分析的项目或组织,或者你想要将作品贡献给的人或组织——简而言之,沿用它们的许可。如果你想要走得更远,那就从免费和公开的许可组合开始,意味着任何人都拥有被用于任何用途的许可(可能要求署名和相同方式分享)。像Free Software Definition(自由软件定义)和Open Source Definition(自由资源定义)之于软件,Open Knowledge Definition(开放知识定义)被用于包括数据在内的任何其他知识资源,用以定义自由作品的属性和开放式许可允许用户做的事。

你可以前去开放知识定义的网站查阅符合一系列被认定的许可。总结来看,基本上有三

117

个等级的公开式许可: 贡献给公共领域

也称最大化许可——使用其作品无需任何条件. 仅在许可或署名情况下发布 对作品进行署名是唯一实际条件. 对称版权、互惠或相同方式共享许可

要求发布被修改作品时使用与原作品相同的许可。

如果你在公开式许可下使用别人发布的数据,可以把以上几点当作如何满足公共式许可条件的简要指南。你可能遇到的从Creative Commons到Open Data Commons和各级政府机构的大多数许可,都会用大纲的形式让你更容易地了解到这些实际条件。通常情况这些许可会在下载数据(或者“抓数据”,理所应当的,网页里也包含数据集)的网页上显示,或者在数据文件里的显眼位置,形式不同而已。在你公开自己的数据时,也要如此标示。

回到最初的问题,万一你需要的数据无法通过网络获得,或者受制于某种访问控制?你可以考虑,除了为自己争取访问权利之外,也要争取这些数据对全世界公开以得到再利用。你可以指点他们,一旦数据被公开,将会有怎样伟大的事情发生。

与世界分享可能会令你想到,对于某些数据而言,隐私、其他方面的考虑和规范可能将发挥作用。的确,仅仅因为公开的数据降低了很多技术、版权和版权相关的门槛,并不意味着你不需要遵守其他适用的法律。但这些情况古而有之。当你出于常理驱动去做一项研究时候,你会发现新闻从业者拥有庞大资源,以及不时存在的保护措施。

祝你好运!但是相比于控制(并不高的)法律风险,你更需要补充关于数据新闻项目中其他方面的知识与技能。

— 麦克·林克斯维耶(Mike Linksvayer),Creative Commons

118

第五章 理解数据

一、简单三步让自己变的有数据素养 二、新闻中的数字运用技巧 三、处理数据的基本步骤 四、32英镑的一条面包 五、从数据开始,以故事结尾 六、用数字说话

七、数据记者对工具选择的讨论 八、使用数据可视化洞察数据

一旦你有了数据,那你应该对这些数据做什么呢?你应当寻找什么?你应该使用哪些工具?这一部分以一些能提高你数据素养的意见,处理数字和统计的小提醒,以及在处理复杂棘手,经常有缺失数据时候需要牢牢记住的东西开始,接着讲述学习如何从数据中讲故事,数据新闻记者对工具的选择还有如何使用数据可视化提供你关心话题的洞察。

一、简单三步让自己变的有数据素养

正如文字素养着重于“`通过阅读获取知识,能条理写作,并可以批判性分析书面材料的能力”,数据素养是一种消化数据获取知识、梳理并批判性分析数据的能力。数据素养不仅包括统计素养,更需要懂得如何处理庞大的数据集,明白这些数据集是怎样产生的,知道怎样把各种数据集联系起来,且懂得解释它们。

波音特新闻大学(Poynter”s News University)开设了针对新闻工作者的数学课程,帮助他们去理解诸如比例变化和平均数等概念。有趣的是,与此同时,在距离波特因学院不远的佛罗里达州的小学里也面向5年级的学生(10-11岁的孩子)开设涵盖同样知识的课程作为必修课。

这些新闻从业者急需的数学知识竟然来自高中之前的课程,可见如今新闻编辑部的数据素养有多欠缺。这是个大问题。如果一个数据新闻从业者连什么是“置信区间”都不知道,怎么去利用全球气候变化的系列数据呢?如果一个数据新闻记者连中位数和平均数都无法区分,怎么写关于收入分配的报道?

当然,一个记者不需要为了更高效率地处理数据而去专门拿一个统计学的学位。不过,如果掌握一些数据处理的小技巧,那么,他们面对数字的时候会从中挖掘出更有价值的信息

119

来,进而写出更为出色的报道。正如马克思·普朗克学院教授杰德·吉仁泽所说(Gerd Gigerenzer),如果缺少洞察,那么再好的数据处理工具也无助于新闻质量的提升。

所以,接下来,你只需要问三个简单的问题,即使你在数学或者统计学知识方面有所欠缺你也可以成为一名老练的数据记者。 1. 数据是怎么被收集的? 惊人的GDP增长

伪造数据是利用重大数据出风头的捷径。这听起来毫不稀奇,但正如GDP数据通常被人们评论的那样,数据很可能是假的。前英国大使卡瑞吉·默里在其著作《撒马尔罕城谋杀》中称,乌兹别克斯坦的经济增长率受制于地方政府和国际经济体之间的紧张谈判。换句话说,它与地方经济没有任何关系。

GDP被作为首要经济发展情况参考指标,是因为政府需要用它来监控自己的主要收入来源——增值税。一旦当一个政府不靠增值税提供资金,或当它不公布财政预算时,就没有采集GDP数据的理由了,并且通过伪造GDP数据,国家会看起来富足繁荣。 犯罪率永远在增加

《国度报》报道称,“`西班牙的犯罪率上升了3%。”RTL电视台说,布鲁塞尔正在打击非法侨民和吸毒者犯罪。这类基于警方统计资料的报道很常见,但关于犯罪的更多情况,它没有反映出来。

我们可以相信,在欧盟内部,数据没有被篡改。但警方应对犯罪发生的诱因做出更多回应。比如,当工作业绩与打击犯罪率挂钩时,警察就被鼓励尽可能多地汇报不需要调查的犯罪事件。这类罪行之一就是吸毒。从而,这就解释了为什么在法国与毒品相关的犯罪在过去15年中翻了四倍,但毒品消耗量却不变。 你能做些什么?

当怀疑一个数字的可信度时,往往要进行反复检查,就像你寻找数据时那样——就算它引用自官方。在乌兹别克事件中,给在当地居民打个电话就完全足以证实数据的可信性了(“问问该国是不是像官方数字显示的(那样),(感觉像是)比1995年时富裕了3倍”)。 针对警方数据的可信性,社会学家常常会进行受害者研究。在这个过程中,他们会询问人们是否遭遇犯罪事件,以此来验证警方数据的真实度。这些研究所得数据要比警方数据更平稳。因此,也许这就是它们上不了头条新闻的原因。

虽然其他检验方法可以让你准确评估数据的可靠性,比如本福德法则(Benford”s law),但最重要和有效的方法还是你自己的批判性思考。

120

2. 我们应该从中学到什么?

夜里工作会使多发性硬化症的风险加倍

相信一些理智的德国人在读了本篇新闻这个标题后都会停止在夜里工作。但这篇文章最后并没有告诉我们真实的风险是什么。

1000个德国人中,只有一个会在有生之年患上多发性硬化症。假设现在,如果这1000个德国人都上夜班,那么多发性硬化症患者的数量将上升到2个。因为上班时间改变而增加的患多发性硬化症的风险是1/1000,不是100%。所以,当你在考虑是否接受一份工作时这个信息或许更有用。

平均15个欧洲人里就有一个是彻底的文盲

上面的标题看起来很唬人,但是它也绝对是真实的。在50亿欧洲人中,有3,600万可能都不识字。但是,即使文盲数量达到3600万,其比例也仍然低于7%(数据来自欧洲统计局)。

在采用平均值的时候,要时刻思考“是什么的平均值?” 涉及的基数是同质的吗?例如,非均匀分布的样本就解释了为什么大多数人的驾驶水平都高于平均值。很多人一生都没有或仅出过一次事故。但是,几个鲁莽的司机制造了大量事故,就会推高事故的平均值,使其高于大多数人的经历。对于收入分配也是同样的道理:即,大多数人的收入低于平均值。 你能做些什么

随时注意数据分布和基数比率。通过检验其平均值和中位值,以及靠众数(分布中最常见的数值),来进行数据洞察分析。就像在多发性硬化症报道的例子中,分辨出哪种数据更重要,就能更容易地配合主题合理运用数据。最后可知,从本盏率的角度进行报道(1000个中有1个)比用百分比(1%)更易于读者理解。 3. 信息有多可靠? 样本量的问题

由萨拉戈萨出资的公布的一份调查称“`80%的人对司法系统不满意。”仅仅从4.6千万西班牙人中找了800名受访者进行调查,怎么能做出这一推断?这一数据明显被夸大了。

在对大量人口进行研究时(数以千计),要控制误差率低于3%,只需要不到1000的抽样人口。这意味着,如果你找完全不同的样本重新调查,10次中有9次,你得到的结果和你最初得到的结果之间的误差不会超过3%。统计学是很有用的东西,而且在狡猾的调查中,抽样出来的样本量几乎不会受到质询。

121

喝茶能降低中风的风险

关于喝茶益处的文章司空见惯。《德国世界报》上的这篇短文称,茶叶能完全地降低心肌梗塞风险。虽然一些人认真研究茶叶的功效,但很多研究没有考虑到生活方式的因素,例如减肥、消遣或运动。

在大多数国家,茶是有保健意识的上层人的饮料。如果研究者不能在对茶的研究中考虑进生活方式的因素,那么他们能告诉我们的就只是“富人更健康,原因可能是他们很可能喝了茶”。 你能做些什么

在有关茶的报道案例中,在很多情况下,相关性和误差背后的数学规律同样适用。但如果研究者不寻找相互关联的因素(例如喝茶与做运动的联系),他们的研究结果将毫无价值。 作为一名新闻工作者,去挑战一项研究的数值例如样本量的结果毫无意义,除非严重怀疑数据的可信性。但是,观察研究者是否考虑了相关信息则很容易做到的。

— 尼古拉斯·凯瑟-布瑞尔(Nicolas Kayser-Bril),Journalism++

二、新闻中的数字运用技巧

处理数据的最佳技巧就是让自己乐在其中。数据看起来令人生畏,但如果被它吓住,你将一无所获。如果像做游戏和探险一样对待它,那么,它将变得格外容易地透露秘密和真相。所以,就像你处理其它证据一样简单地处理它吧,不用害怕也不用另眼相看,甚至可以将之当成一次想象力训练。在选择报道角度时,不妨更具创造性一点,使之能更符合数据、更好地解读数据,然后再用更多论据去印证它。“其它报道会怎样解读?”是个简便的参考方法,帮助你思考这个数字——这个明显偏大或不正常的数字、明显反映出这种或那种状态的证据,怎么会被解读出截然不同的结果。

不要把对数据的质疑和轻视搞混淆。质疑是好的,轻视却是粗暴地放弃数据。如果你相信数据新闻,不管你是否阅读本书,你都必须相信,数据能提供的东西,远远好于那些讽刺文章中的谎言和胡言乱语,以及倾向性报道中经过筛选,意图诋毁某人的客观事实。如果好好利用,数据常常能带给我们深刻的认识。所以,我们在运用它时既不能轻视也不能轻信,而需要慎重。

如果我告诉你经济衰退时饮酒率上升,你可能会说那是因为人人都心情低落;可如果我告诉你饮酒率下降,你可能会说那是因为人人都经济窘迫。换句话说,数据说什么,不影响

122

你已经认定了的理由(诠释),也就是说,你通过不同方式,总可以证明情况很糟糕。这里要提出的观点是,如果你相信数据有用,试着在你凭着情绪、信仰和预期展开辩论前,先让它说话。数据那么多,只要你随便找一找,基本都能发现足以印证你之前观点的证据。换句话说,如果你不够虚心,至少在我看来,数据新闻对你的帮助不大。你想做的只是达到你的目的,而非解读出基于数字(之)上的事件本质。

数据新闻的结论不确定是正常的。因为,我们习惯于将数据看作权威的和确定的,但事实常常并非如此。答案是没有答案,或者答案是我们能得到的最好的但仍不能保证绝对正确的。我想我们应该面对这些事实。如果你认为它听起来像是毁掉报道的好方法,那我要告诉你,其实它恰恰是一个发现新问题的好方法。同样的,常常有多种裁剪数据的合理方法。数字并不是只有对或错两种情况。

调查过程就是一篇报道。在你逐个寻找证据时,你如何努力发掘真相的经历就能做一篇好新闻——这种寻找肯定有助于从数据中获取证据,因为仅仅一个数字几乎不能形成证据。不同的消息源能提供全新的角度、全新的构想,更多元的理解。我想我们是太急于成为权威并告诉人们答案了——所以,我们因为没有公布调查过程而失去了一个做出好新闻的诀窍。 最好的问题还是老问题:这个数字真的重要吗?从哪里能够获得?你确定它真的如你认为的一样有价值?这些通常只是提醒你全盘考虑数据,只看单个数字会使眼光狭隘。现实生活环境、将数据作纵向对比时覆盖的时间长度、数据的分类和结构…简而言之,所有关于数据的背景,都要考虑。

— _迈克尔·布拉斯兰(Michael Blastland),自由记者_

三、处理数据的基本步骤

在对数据进行处理之前,你至少需要知道以下三个关键点 数据需求的提出取决于你想要解决的问题。 数据通常是不规范的,在使用之前需要进行清洗。 数据可能包含未记录的内容。 下文将详细展开这三点: 了解你想弄清楚的问题

在很多时候,与数据打交道跟采访(现场)信息源一样,你需要通过挖掘跟数据相关的问题来揭示答案。但正如同信息源只能告知其掌握的相关信息,数据也只有在被正确地记录、

123

拥有恰当变量的情况下才能回答你提出的问题。这意味着,在获取数据之前你就需要仔细考虑清楚你想要通过数据来回答什么问题。因此,通常你的数据处理工作是回溯性的。首先,列出你想在报道中通过数据来证明的论点。然后,为了证明这些论述,确定该获取、分析哪些变量和数据记录。

以当地犯罪报道为例子。比方说,你想写一篇揭示所在城市犯罪模式的报道,那么就会涉及到在一天中的哪个时段,或者是在一周中哪几天最容易发生犯罪行为;又或者,哪些地方是各种犯罪行为的“热点”区域。

那么,你会意识到,你需要的数据包括(报导中每次)犯罪的日期和时间、犯罪的类型(杀人,盗窃,爆窃等)以及犯罪发生的地点。因此,为了回答你所提出的问题,你至少需要日期、时间、犯罪类型和地点这四个变量。

不过,需要注意的是,如果数据集只包括这四个变量,一些潜在的有趣问题就_无法_得到回答。比如说,受害者的性别与种族、被盗窃财产的总价值,以及哪位警官逮捕罪犯最卓有成效等。此外,你获得的相关数据记录可能只涵盖一段时间,比如说过去三年。这意味着你没法说明犯罪模式在一个更长的时间段里是否发生了变化。这些问题可能并不在你原本的报道计划当中,那么,这就没有问题。但是,你一定不会希望当你一股脑扎进数据分析之后,突然决定要知道这些不在计划当中的数据,例如,在不同的地区,犯罪分子被绳之于法的比例是多少的情况发生的。

这里的经验教训是,数据需求应当是包括数据库中所有变量和记录的_完整_数据,而不是为了解决当下报道中需要回答的问题而获取的子数据集。(事实上,如果你需要花钱来获得所需要的数据,那么获取完整数据往往比只要一个子数据集便宜。)你可以随时从数据中截取需要的那部分,而获得完整的数据后,还可以帮助你回答报导中可能遇到的新问题;你甚至还可能从中为后续报道找到新点子。虽然,某些信息,比如受害人的身份或是秘密线人的姓名,可能会因为保密法或者其他法规而无法公开。但在报道当中即使是部分的数据呈现也远远比没有好,只要你明白哪些问题是通过数据分析可以回答的,而哪些不能。 清洗数据

数据库工作中最大问题之一是,你需要将基于官僚管理需要而收集的数据拿来做分析使用,可问题是,这两类数据的精确标准大不一样。

例如,犯罪司法系统数据库的一个重要的作用是轮到被告人琼斯被听证的时候,确保他能够从监狱里被带到法官史密斯面前。出于此目的,琼斯的出生日期是否准确、住址的街道名称有没有拼写错误,甚至他的中间名缩写有误,真的一点都不重要。一般情况下,该系统

124

仍能用这份不完美记录在指定时间把琼斯带到史密斯的法庭上。

但是,这些错误会严重影响记者试图通过数据库来发现当地犯罪模式而所做的努力。基于这个原因,当你获得一个新数据库时,首要任务是确定它到底有多凌乱,然后把它清理干净。一个有效快速的方法可以找到错误数据:创建统计绝对变量的频次表,绝对变量即那些预计变值会相对较少的变量。(如果是用Excel,你可以通过在每个绝对变量上使用筛选或者透视表来实现)。

用“性别'来举个简单例子。你会发现,你的性别栏中有各种数据值:男性、女性、男、女、1、0、男人、女人等等,甚至还有诸如“Femal”这样的错误拼写。为了做一个合理的性别分析,你需要制订一个标准——比如说用M和F来分别表示男性和女性——然后改写所有的不同写法以符合该标准。另一个常常会碰到这类问题的数据库是美国竞选财务记录。在这个数据库中,职业一栏中,(比如律师这一职业)会有诸如“Lawyer、”``Attorney、”“Atty、”“Counsel、”``Trial Lawyer'等多种多样的写法以及拼写错误。同样的,解决问题的诀窍是规范职业称呼,避免过多的变化。

处理名字的时候,数据清理的工作变得更加棘手。``约瑟夫·T·史密斯'、``约瑟·史密斯'、``J.T.·史密斯'、``约什·史密斯'是同一个人吗?这时候需要查看其它的变量,比如说地址或是出生日期。有时候甚至需要仔细研究别的数据记录才能够确定。通过使用类似于Google Refine这样的工具可以让清理和标准化的工作更加快捷,不那么劳累。 脏数据

多亏美国总体来说完善的公共档案法规,得到数据并不像在某些国家一样是个很大的问题。但是我们得到这些数据后,仍然面临着处理数据的一些麻烦,这些麻烦并非分析技巧上的,而是官僚系统带来的。这些数据大多都是“`脏”的,大多都是不标准的。有几次我收到的数据和它应该又的数据格式并不相符,也没有数据词典可供参考。有些机构仍然坚持发放尴尬的类似.pdf格式的数据,还要重新转换格式。这样的问题让你偶尔得到一些干净整洁的数据包的时候会十分欣喜。

— 史蒂夫·多伊格(Steve Doig),沃尔特·克朗凯特新闻学院,亚利桑那州立大学

数据可能包含未记录的内容

任何数据库的“罗塞塔石碑”就是所谓的数据字典。一般而言,这个文件(通常是text或者PDF甚至是电子表格)会告诉你这个数据的格式(delimited text、fixed width text、Excel、dBase等),变量的顺序、各个变量的名字以及各个变量的数据类型(文本字符串、

125

整形、浮点等)。你可以利用这些信息帮助你把数据文件恰当地将导入到你想使用的分析软件中(Excel、Access、SPSS、Fusion Tables、各种SQL等)。

数据字典中还有另一个关键元素——解释特定变量的信息使用的代码。例如,性别可能被编码,使“1 =男“和”0 =女“。罪犯们的罪行种类可能会以司法管辖区的法规号码来代替。医院治疗记录可能会用数以百计的五位数代码中任何一个来表示对受诊病人的诊断。没有数据字典,这些数据集很难、甚至不可能被正确地分析。

但是,即使数据字典在手,还是会出现问题。一个例子是,若干年前佛罗里达州的《迈阿密先驱报》记者分析因酒醉被捕的人们受到的判罚如何因不同的法官而发生变化。记者从法院系统获得定罪纪录,并根据数据字典分析了三个不同的处罚变量的数据:监禁时常(时长)、拘留时常(时长)和罚款金额。这三个数据会因法官的不同而有所变化。记者以此为证据,写了篇关于有些法官判罚严厉、有判罚些温和的报道。

但每一位法官都有约1-2%的判决数据没有显示监禁时间、拘留时间和罚款金额。因此,在展现(展示)不同(每个)法官的判决模式的图表中,都有一小部分案子显示“没有惩罚(零处罚)”,(即使在复审时)。当新闻报道和图表出现在报纸上后,法官们厉声抱怨《迈哈密先驱报》是在控告(控诉)他们违反州法律,因为根据州法律,任何人酒后驾驶都要受到惩罚。

因此,记者又回到了生产(制作)这些数据文件的法院办公室(书记员那里),询问是什么造成了这个错误。他们被告知,这些(被质疑的)案件涉及的是首次被捕而经济窘迫的被告。一般情况下,他们会被要求支付罚款,但他们没钱。所以法官判罚他们去进行社区服务,比如说清理街道上的垃圾。由此导致的结果是,数据库结构创建完成后,这些法律要求的惩罚被忽略了。因此,每一位书记员都知道,在数据中,监禁、拘留、罚款都显示空白就意味着社区服务。然而,这_并没有_在数据字典中被标注出来,并因此造成《迈哈密先驱报》发布撰写(更正)启事。

在这种情况下(这件事)的教训是,要向给你数据的工作人员(机构)咨询,数据中是否有未记录的数据(元素),无论它是新近创建、还未被收录入数据字典的代号(代码),还是文件布局改变(编排的改动),亦或者是别的什么东西。此外,不要忘记检查你的分析结果,并问:“这有意义(讲得通)吗?”《迈哈密先驱报》的记者绘制图表已经临近截稿时间,并且他们过于专注在每名法官的平均判罚水平,没有注意到那些看上去“没有收到惩罚(零处罚)”的(容易忽略的)少数案件。他们应该问自己,如果真是如此,所有的法官(看起来)都违反了州法律(是否讲得通),哪怕仅仅是在很小的程度上。

126

— 史蒂夫·多伊格(Steve Doig),沃尔特·克朗凯特新闻学院,亚利桑那州立大学 混合、隐藏和缺失的数据

我记得一个有趣的事情,我们尝试从欧盟农业津贴中整理出匈牙利的数据,虽然数据就在那,但那是一个巨大的pdf文件,还混杂了各种国家农业津贴的数据,我们的程序员工作了很长时间才让数据终于可以使用了。

那次处理关于欧盟渔业津贴数据的经历也很有意思,27个成员国家的支付机构都有义务公开这类信息。这是我们撰写的这个项目的报告摘要:“以英国为例,提供的数据格式从人性化的html搜索页到pdf样样都有,甚至还有藏在新闻稿底部的各种格式的接受津贴人员名单。这些都还只是一个成员国的报告。在德国和保加利亚的报告中,空的名单仍然会被发布。报表的标题十分有用但是下面没有任何数据。”

— 布里奇特·阿尔夫特(Brigitte Alfter),Journalismfund.eu

四、32英镑的一条面包

这是一篇周日威尔士地区报道的有关威尔士政府在无麸产品配方上的花费的新闻稿。大标题中标明一块面包需要花费32英镑。但是,实际情况却是11块面包,每块2.82英镑。 这个数字来源于威尔士议会的书面答复,以及威尔士地区国民健康保障体系(NHS)发布的有关每一配方所花费的款项。但是,却没在数据字典里额外列明每个配方的的定义和在数量栏的每一项统计单位如何界定。

因此,就导致人们理所当然的假设这针对的是每个个体,即是,一块面包的花费,而不是事实上一个包装的好几块面包费用。

没有一个人,无论就这个数据书面回复者还是发布新闻的官员,都没有发现这个问题,直到这则报道在星期一刊发出来,大家才发现了数量上的问题。

所以,这个事件告诉我们,不能想当然地认为政府发布的数据中那些说明背景信息的注释能有效地把数据解释清楚,或一厢情愿相信负责数据的官员会意识到数据表述不够清晰,即便你已经把自己错误的数据解读传达给对方。

众所周知,报纸都追求报道的标题可以抓人眼球,除非显而易见存在无法解释得通的情况下。否则这些能够吸引人眼球的报道标题都很容易通过,没人会太仔细的去检查核实,特别在临近截止日期时还要冒着报道被砍掉的风险。

但是,即使可能导致新闻报道被砍掉,记者也有责任去核查那些荒谬的论断。

127

— 克莱尔·米勒(Claire Miller),威尔士在线(WalesOnline)

五、从数据开始,以故事结尾

为了吸引读者,你得用标题中的数字让读者打起精神并引起他们的注意;即便是不知道背后的数据集,你也应当可以阅读故事;要让故事激动人心,并时刻牢记哪些人是你的读者。 其中一个例子是,新闻调查局(Bureau of Investigative Journalism)实施的一个项目中,使用了欧盟委员会的财务公开系统。那么这个报道也正是来源自我们最初想在数据库中查询的一些数据。

我们利用诸如“鸡尾酒”、“高尔夫”和“假期”等关键词搜索数据。这让我们确定了委员会在这些项目上的花费,并让随后我们提出大量的问题并作报道。

但是通过关键词不是每次都能找到你要的,有时你得坐定思考你真正寻求的东西。项目进行过程中,我们还想得知委员们在私人(喷气式)飞机旅行上的花费,但数据里没有“私人喷气式飞机”这个条目,我们不得不靠其他方法得知他们旅行供应商的名字。一旦我们知道为委员会提供服务的供应商名字叫“Abelag”,我们就能通过查询数据得知由Abelag提供的服务开销是多少了。

通过这个方法,我们在查询数据时就有了定义确切的对象;找到能够支撑标题的数字,以及整个的基调。

另一种方法是从黑名单着手,查找额外项目。从数据中找到故事的简单办法就是知道有哪些东西是数据库中不应该有的。《金融时报》与新闻调查局联合的欧盟结构基金项目对此作出了很好的说明。

委员会自己制定了规则,规定了哪种类型的公司和协会应当被禁止领取结构基金(译者按:Structural Fund,欧盟设立旨在支持落后地区或产业衰退地区的经济发展与产业结构调整的调控基金)。对香烟和烟草生产商的开支是其中一个例子。

以烟草公司、生产商和种植商的名字来查询数据,我们找到数据显示英美烟草集团处于德国的一家工厂接收了150万欧元,这笔资金违反了委员会关于开支的规定——这是从数据中找到故事的快捷办法。

你永远不会知道自己将在数据集里得到什么讯息,所以尽管来看一眼。你需要多一点野心,当你使用筛选工具(最大、极端、最普遍,等等)来确定一些明显的特征时,往往就能有所斩获。

128

— 克莱恩·巴(Caelainn Barr),Citywire

六、用数字说话

数据新闻有时会给人一个印象,即它主要是关于数据展现的。比如数据可视化,迅速而又强大地传达对一堆数字某一方面的理解;再比如可搜索的交互式数据库,任何人都可以在里面查询比方说自己当地的街道或者医院信息等。所有这些都非常有价值,但是跟其他类型的新闻一样,数据新闻也应当是一个个的故事。那么你能在浩瀚的数据中发掘哪些故事呢?基于我在BBC的从业经历,我写了如下一个列表,或者说是各种不同类型数据故事的“类别模型”吧。

不管你是在分析数据,还是处于搜集数据这前一阶段(无论是寻找公开数据还是发起信息自由申请),我认为牢牢记住下面列出的这些信息都是很有帮助的。 测量

最精简的新闻故事;计数与求和: “去年,全国各地的地方议会总共在采购回形针上花了X万亿英镑。” 但通常这样一个笼统的数字很难让人明白到底是花多了还是花少了。因此,你得把数字放进特定的语境中——比如,可以运用: 比例

“去年,全国的地方议会在回形针上的支出占到全部文具预算的三分之二。” 国内比较

“地方议会在回形针上的支出多过为空巢老人送餐到家服务上的支出。” 海外比较

“去年,议会在回形针上的支出是国家海外救援预算的两倍。”

当然在特定语境下或者用比较的方法来探索数据还有其他各种各样的方式。 随时间变化

“四年来,议会在回形针上的开销增长了两倍。” “排名表”

因为通常会有地域或惯例上的差异,所以你得确保用来做比较的基础是公平的(即要把当地人口规模的考虑进去)。“Borsetshire议会的工作人员在回形针上的人均花销要高于其他地方议会。前者的数值是全国平均水平的四倍。” 或者你可以把整个数据分成几组:

129

分类分析法

“紫党政务委员会用于购买纸夹的开销比黄党的多出50%。” 或者你可以用数字把各个因素联系在一起: 关联比较法

”接受过文具用品公司捐款的那些政务委员会用在纸夹的开销更大,平均每一英磅的捐款,开销增长100英镑。“

当然,你要记住,相关性和因果关系不是一回事。

因此,如果是在调查购买纸夹的开销,你是不是也获得了以下的数据? 能提供语境的总支出是多少?

能作为参照的各地区数据、历史记录和其他的统计数据? 辅助性的数据,比如人口参数?这能保证对比的公平。

其他的数据?有意思的、有联系的数据可拿来与此项开销进行对比。

— 马丁·罗森鲍姆(Martin Rosenbaum),BBC

七、数据记者对工具选择的讨论

噗嘶嘶嘶…这是你的数据从压缩包里解压的声音。现在怎么办?你想要从数据里寻找到什么? 准备用什么数据处理工具?对此,我们询问了一些数据新闻记者,看他们是如何处理数据的。以下是他们的经历…

《卫报》的数据博客非常看重与读者互动,这使读者能够在我们的基础上,快速复制《卫报》的数据新闻报道,并且发现一些我们没有发现的东西。因此,越直观的数据处理工具就越好。我们尽量挑选任何人都不用学习编程语言或经过特殊训练就能掌握、并没有高额附加费用的数据处理工具。

基于这个原因,目前我们大量使用谷歌的有关数据处理的产品。我们整理和发布的所有数据集都可以通过谷歌电子表格呈现,这意味着任何有谷歌帐户的人都可以下载数据,导入到自己的帐户,制作自己的图表,对数据进行排序,并创建数据透视表,也可以将数据导入到他们所选择的工具里。

我们使用谷歌的融合表(Google Fusion tables)来组织数据。当我们在融合表中创建热力图时,也将我们的KML文件分享到网站上,这样读者可以下载并建立自己的热力图,包括在数据博客的原始图上加入新的数据层。这些谷歌工具还有一个不错的功能是,他们适用于读者访问博客的不同终端,比如台式电脑、手机和平板电脑。

130

除了谷歌电子表格和融合表,我们在日常工作中还使用了其他两个工具。一是tableau,一个多维数据集可视化的工具,二是ManyEyes,用来对数据进行快速分析的工具。不过,这些工具都不够完美,所以我们将继续寻找让读者喜欢的更好的可视化工具。 卫报 — 丽莎·埃文斯(Lisa Evans) 我会变成一个程序员吗?不太可能!我当然不认为每一位的记者都需要知道如何编程。但我认为具有对可能性更为普遍的认知,并知道如何跟程序员对话,是非常有帮助的。 如果你开始了,先学走路别急着跑。你需要说服你的同事和编辑,使用数据可以让你们得到其他方法得不到且值得去做的报道。一旦他们看到了这种方法的价值,你就可以向更复杂的报道和项目进军了。

我的建议是先学习Excel然后用它做一些简单的报道。从小处着手逐渐到数据库分析及数据制图。你可以在Excel中做很多事情——它是一个及其强大的工具,但大多数人对Excel功能的使用却是那么可怜兮兮。如果可以的话,参加一个为记者开设的Excel课程,比如新闻调查中心提供的课程。

带着敬畏之心去解读数据,不要轻视它。你必须要认真,要注重细节并且质疑你得出的结果。你需要保留处理数据的记录和原始数据的副本,因为在处理数据时候是很容易犯错误的。我经常要几乎从头到尾反复做两到三次分析来进行检查和验证。如果能让你的编辑或其他人分别分析数据并比较彼此的结果就更好了。

金融时报 — 辛西娅·奥墨楚(Cynthia O'Murchu) 像记者撰写一个新闻报道那样一边快速写作,一边使用复杂的数据处理软件是一件相当了不起的事情。这在过去要花很长的时间。好在得益于在二十一世纪头十年的中期首次发布的Django和Ruby on Rails,这两个免费/开源的快速开发框架的出现,事情发生了变化。 Django是基于Python编程语言开发的,由阿德里安·霍洛瓦季和他位于堪萨斯州劳伦斯的劳伦斯日报世界版编辑部团队开发的。Ruby on Rails是由大卫·海涅迈尔·汉森和一个网络应用程序公司37Signals,在芝加哥开发的。

虽然这两个框架采取不同的方法来实现“`MVC模式”,但它们都很出色,能快速地建立即使是非常复杂的网络应用程序。他们可以完成建立一个应用程序的基本工作。比如创建并从数据库中获取项目、将URL与应用中特定的代码匹配。这些都被写进了程序的框架里,使开发人员并不需要编写代码来做这些基本的东西。

虽然一直没有对美国新闻app团队的正式调查,但通常大多数团队都使用这两个框架之一作为数据库支持的新闻应用。在ProPublica(一个非盈利调查机构)我们使用的就是

131

Ruby on Rails。

提供像亚马逊网络服务这样的快速网络服务器“`切片”的发展,同样给过去开发一个应用缓慢的过程带来改观。

此外,我们有很标准的工具去处理数据:用Google Refine和Microsoft Excel清理数据;用SPSS和R做统计; 用ArcGIS和QGIS去做GIS;用Git做源代码管理;用TextMate、VIM和Sublime Text写代码;用MySQL、PostgreSQL和SQL Server的组合做数据库。我们建立了我们自己的JavaScript框架,“`Glass”,来帮助我们快速建立在JavaScript前端的大量应用。

ProPublica — 斯科特·克雷恩(Scott Klein)

有时最好的工具就是最简单的工具——电子表格就是一种简便而又力量强大,却常常被我们被低估的工具。当所有东西都存储在DOS系统下的时候,通过使用电子表格,我能够理解得克萨斯巡警棒球队股东们合伙协议中的复杂公式——而时逢乔治·W·布什恰是主要股东之一。电子表格可以帮助我标出异常值或计算错误。由此,我可以撰写出框架脉络或者更多的东西。

而这是数据记者“工具箱”里的基本装备。也就是说,我最喜爱的工具拥有更强大的功能——用SPSS做统计分析和地图程序,使我能看到地理上的模式。

西雅图时报 — 谢丽尔·菲利普斯(Cheryl Phillips) 我是Python的超级粉丝。 Python是一种奇妙的开源编程语言,它很容易读写(例如,你不必在每行后键入一个分号)。更重要的是Python有一个庞大的用户群,因此对于你需要的一切都有插件(称为包)来实现。

我认为Django是数据记者很少会用到的东西。它是Python的一个网络应用框架,又称作创建大的、数据库驱动的网络应用工具。这对于小型交互式信息图表肯定有些“杀鸡焉用宰牛刀”了。

我也用QGIS,这是一个开源工具包,为需要不时处理地理数据的数据记者提供广泛的地理信息系统功能。如果您需要把地理空间数据从一种格式转换成另一种,那么QGIS就是你需要的。它可以处理几乎每一种地理数据格式(Shapefiles, KML, GeoJSON等)。如果你需要剪切出几个区域,QGIS也可以做到。并且,围绕着QGIS有一个庞大的讨论交流社区,所以你能够在网上找到众多像教程这样的自学资源。

R主要是作为一种科学可视化工具被创建的。很难找到一种还没有创建到R中的可视化方法或数据分析技术。R本身就是一个世界,是可视化数据分析的圣地“麦加城”。不够完

132

美的一点是你需要(再一次)学习编程语言,因为R都有它自己的语言。但是,一旦你开始了在学习曲线上的攀爬,就没有什么工具比R更强大了。经过培训的数据记者可以用R来分析庞大的数据集,跨越Excel的限制(比如,你有一个一百万行的表)。

R有一点非常不错,那就是对于处理数据的全过程,从读取CSV文件到生成表格,你都能够精确地记录下来。如果数据发生变化,可以一键再生成图表。如果有人怀疑图表的完整性,你可以向他展示确切的数据源,让每个人都可以自己生成这张图(或者找到你犯过的错误)。

NumPy + MatPlotLib几乎跟Python的功能是一样的。如果你已经很好地掌握了Python,NumPy + MatPlotLib只是你的一种选择。事实上,NumPy和MatPlotLib是Python程序包的两个例子。它们可以用于数据分析和数据可视化,但都局限于静态的可视化。它们不能被用于制作带有提示工具和高级素材的交互性图表

我不用MapBox,但我听说如果你想基于OpenStreetMap做较为复杂地图的话,它会是一个强大的工具。例如,它可以自定义地图风格(颜色、标签等等)。同时MapBox搭配一个叫Leaflet软件,基本上是用于绘制地图的一个更高级的JavaScript库,可以让你轻易地在地图供应商之间切换(OSM、MapBox、谷歌地图、必应……)。

RaphaelJS是一个相对低水平的可视化语言,允许你进行基本元素的处理(圆、线、文本),并把它们做成动画、进行交互等等。RaphaelJS里没有现成的图表,如柱状图,你得自己画。

但是,Raphael的优点是你做的一切都能在IE浏览器上正常运转。但其他很多的(令人赞叹的)可视化库,像d3,就都不支持IE了。悲剧的是很多用户仍用IE,但没有哪个编辑部能无视占据它们30%的用户需求。

除了RaphaelJS,也其它可以给制作IE 版本Flash的工具替代品。《纽约时报》目前就在做这件事情。这意味着你得把每个应用开发两次。

我始终不认为存在为IE和主流浏览器做可视化的所谓“`最好”的工具。我经常发现Raphael在IE上跑得巨慢,几乎比在主流的浏览器中跑Flash慢上十倍。所以如果你想给所有的用户提供高质量的动画可视化,Flash替代版本也许是一个更好的选择。 开放知识基金会 — 格雷格·艾许(Gregor Aisch) 我用的工具是Excel,它可以处理大部分CAR(计算机辅助报道)问题,并具有简单易学、大多数记者可快速掌握的优点。当需要合并表时,我通常使用Access,但会把合并后的表导出到Excel,做进一步的工作。我使用ESRI的ArcMap做地理分析,它很强大并且被

133

收集地理编码数据的机构所使用。 TextWrangler在快速分析文本数据的布局及分隔方面很强大,并能用规则的表达式进行复杂的搜索和替换。当需要如线性回归这样的统计技术时,我用SPSS,它有一个友好的操作菜单。对于确实繁重的工作,比如处理数百万计的记录、需要认真筛选和程序化变量转换的数据集,我用SAS软件。

沃尔特·克朗凯特新闻学院 — 史蒂夫·多伊格(Steve Doig) 我们选择的工具包括Python和Django,用于破解、抓取和操控数据;PostGIS,QGIS和MapBox工具箱,用于建设复杂的网络地图。 我们正在考虑选择R语言还是NumPy+ MatPlotLib做探索性数据分析的工具,虽然目前我们最喜欢的数据工具是自主研发的CSVKit。我们所做的一切或多或少都是在云端部署的。 芝加哥论坛报

— 布莱恩·博耶(Brian Boyer) 在《国家报》,我们使用: Excel去清洗、组织和分析数据;

谷歌电子表格去发布、连接像谷歌Fusion Tables、Junar开放数据平台这样的服务; *Junar用于分享我们的数据,并嵌入我们的文章和博客里; *Tableau用于发布我们的交互式数据的可视化;

*Qlikview,一个非常快速的商业智能工具,我们用它来分析、筛选大型数据集; *NitroPDF用来把PDF文件转换成文档和Excel文件; *谷歌Fusion Tables用于地图可视化。

国家报 (阿根廷) — 安赫利卡·佩拉塔·拉莫斯(Angélica Peralta Ramos)

作为一个没有任何技术偏见的草根社区,我们“领军黑客”(Transparência Hacker)使用了很多不同的工具和编程语言。每一个成员都有他一套自己的喜好,这种巨大的差异性既是我们的长处也是我们的弱点。其实我们正在建设一个“透明黑客Linux发行版”,我们可以在任何地方live-boot,并随时进行数据破解。该工具包有一些有趣的工具,比如说Refine,RStudio和OpenOffice Calc(它是个被“聪明人”忽视的工具,但是在快速处理小型数据时确实非常有用)。此外,我们还使用了很多Scraperwiki快速制作原型和在线保存数据和结果。

对于数据可视化及作图,有很多我们喜欢使用的工具。Python和NumPy是很强大的。论坛里有人一直在用R语言,但归根结底我仍然认为Javascript绘图库,如d3,、Flot 和 Raphael,更为大部分项目所使用。最后,我们在绘制地图上进行了许多尝试,而Tilemill

134

确实是一个有趣的工具。

Transparência Hacker — Pedro Markun

八、使用数据可视化洞察数据

可视化对数据分析至关重要。它是进行数据分析的第一个战场,可以揭示出数据内在的错综复杂的关系,在这一点上可视化的优势是其它方法无可比拟。“我们寻找意想不到的发现,我们挑战料想之中的观点。”(Visualizing Data一书作者,Hobart 出版社) — 威廉·克利夫兰(William S. Cleveland)

数据本身是不可见的,它们以比特和字节的形式存储在计算机硬盘驱动器的某个文件里。为了能让数据的意义得以体现,我们需要将其进行可视化。在这一章里,我将采用广义的_可视化_概念,包括用纯文本展示的数据。例如,把一个数据集加载到某个电子表格软件里,这一过程就可以被认为是数据的可视化。看不见的数据瞬间就变成了屏幕上看得见的“图像”。因此,我们要探讨的问题不是新闻记者需不需要对数据进行可视化处理,而是在何种情况下用何种可视化方法,能够让数据分析达到最佳的效果。

换句话说,什么时候需要采用除表格以外的方式来进行数据的可视化呈现呢?答案很简单:_几乎任何时候_。仅仅使用表格肯定不足以让我们得到对数据集的整体把握。而且,光用表格也不能帮我们直接识别出数据的内在模式。一个最常见的例子就是,与地理位置相关的这一类型的数据,只有当数据在地图上被可视化之后,其具有的特点才能显现出来。然而,除此之外,还有很多其他的模式,我们将在本章的后面看到。 利用可视化进行数据发掘

想要通过可视化工具和技术从数据集中找到一大堆的现成新闻报道,这种想法是不现实的。在数据可视化分析中,没有任何的技术或方法,可以保证你一定能找到数据背后隐藏的故事。相反,通过对数据进行挖掘,洞察数据背后隐藏的秘密对新闻记者来说反而更有用。借此,优秀的新闻记者会将这些数据和洞察巧妙的编织到新闻报道当中。

每一种新的可视化方法都可能会为我们揭示数据的一些新的意义。在这其中,某些可能已经被人们所熟知(但是,可能尚未被证实);而某些又可能是闻所未闻,甚至让人大吃一惊;一些新的洞见可能会开启一个新闻报道;而其他的可能仅仅是错误数据的结果,所有这些都很可能通过数据可视化来发现。

135

下面的流程Figure 4对于更有效的进行数据挖掘很有效:

Figure 4. 数据洞察:可视化 (格雷格·艾许)

学习如何进行数据可视化

可视化为数据集提供了一个独特的视角,进行数据可视化的方法有很多种。

对于处理相对简单的维度的数据,表格的功能是非常强大的。表格可以以最为结构化和组织化的方式显示数据标签和数量,而且结合排序和筛选可以让其功能得到最大程度的发挥。此外,爱德华·塔夫特(Edward Tufte)建议在表格中添加一些小的数据图,例如在每一行加一个柱状图,或者画一个小的线形图(后来也被称为迷你图)。但是,正如在简介中所提到的,表格无疑有其局限性。表格可以轻松帮你找到一维数据的异常值,比如排名前10的数据;但当要同时比较多维数据时(例如每个国家的人口随时间的变化),用表格就力不从心了。

一般来说,数据图可以让你把数据的不同维度通过几何形状表现出来。关于每种视觉效果的功能可以说上很多,但简单来说就是:颜色不太好用,位置决定一切。比如,在散点图中,数据的两个维度映射到散点图的x轴和y轴。通过改变图标的颜色或大小,你还可以显示出第三个维度的数据。线形图特别适用于显示数据随时间的演变,而柱形图可以很好的用来比较分类数据。你还可以把图表元素相互堆在一起。如果你想比较少数几个组别的数据,那么,用同一类型数据图表示多个实例是一种强大的方法(也称为网格图)。在各种数据图中,你可以使用不同的刻度去发掘数据不同方面的信息(例如使用线性或对数刻度)。 事实上,我们处理的大多数据,都以某种方式与现实大众有所联系。地图的作用就是重新建

136

立数据与我们的物理世界之间的联系。想象一个犯罪事件的地理分布数据集,这其中你最想知道的就是犯罪发生的_地点_,而数据地图可以揭示数据中地理位置的关系,例如从北部到南部,或者从城市到农村地区的趋势。

Figure 6. 等值区域地图(格雷格·艾许)

说到关联,第四种最重要的可视化类型就是网络图谱。网络图谱的功能就是显示数据点(节点)之间的相互联系(边)。节点的位置可以通过简单或复杂的图形布局算法计算得到,使我们能够直观的看到网络内部的结构。一般来说,使用网络图谱进行可视化时,需要注意的是要找到一种合适的方式来对网络本身进行建模。并不是所有的数据集都包含内在联系,即使有,可能也不是数据最有意思的地方。某些时候,节点之间的联系是由新闻记者来定义的。一个完美的例子就是美国参议院的社交网络图,网络的边用于连接相同投票超过65%的参议员。

对结果进行分析和解释

对数据进行了可视化之后,下一步就是要研究你所创建的数据图。你可以这样问自己: 我可以从这幅图片里看出什么?这是我想要的吗?有什么有趣的模式?在其语境中,它有什么意义?

有的时候,你最后可能会发现,虽然做出来的图非常漂亮,但好像不能提供给你任何有趣的东西。不过,即使没什么价值,你都能够从可视化结果中发现_一些东西_。 记录你的分析步骤和洞察结果

如果把可视化分析看作一段在数据集中的旅程,那么对数据分析过程的记录就是你的旅

137

行日记。它会告诉你到过哪些地方,看见了怎样的景色,以及你如何作出的下一步决定。你甚至可以在看到数据之前,就开始你的记录。

大多数情况下,在开始分析一个未曾见过的数据集之前,我们的头脑中就已经充满了关于它的预想和假设。我们对手头的数据集感兴趣,通常是有原因的。记录下最初的想法是个聪明的做法。通过对预想的记录可以可以帮助我们识别偏见,降低误读的风险。

我坚持认为记录是这个流程中最重要的一步,而它也是我们最容易忽略跳过的一步。在下面你将要看到的例子中,我所描述的流程中涉及了大量的作图和数据加工。看着一组15张你做的图,你可能会摸不着头脑,特别是经过一段时间之后。实际上,这些图只有呈现在其产生的语境中才是有价值的(对你或其他你想要与之分享你的发现的人)。因此,你应该花时间做些这样的笔记: 我为什么要做这个图?

为了做这张图,我对数据做了哪些处理? 这张图想表达什么意思? 转换数据

自然地,带着从上一步可视化处理中收获的洞察,你可能对下一步想看到什么有了想法。可能你已经在数据集中发现了一些有趣的模式,那么,现在你想要对其进行更细致的分析。 可以进行的数据转换包括: 缩放

能够看可视化图中某一特定部分的细节 汇总

将多个数据点合并到一个组 过滤

(暂时性的)移除不是主要关注对象的数据点。 去除异常值

排除异于99%数据的的单个的数据点。

让我们想象一下你所得到的可视化图表,其中能看到的只是一堆杂乱无章的点和成百上千的连线(在可视化所谓的密集连接网络中经常出现这种情况),一个常用的转换步骤是过滤掉某些连线。例如,如果一些边代表捐助国向受援国方向的资金流动,我们可以去掉低于某一金额的资金流动的数据。 使用什么工具

138

选择恰当的数据可视化工具并不是一件容易的事。每一种数据可视化工具都有其擅长的地方。可视化和数据加工应当是简单和高效的。如果你需要几个小时来调整参数,你就不会作出太多的尝试。这并不是说你不需要学习如何使用工具。不过一旦你学会了,它就应该是非常高效的。

通常,选择一个可以兼顾数据加工和数据可视化的工具是很有必要的。把任务分散在不同的工具中意味着你不得不把数据导来导去。下面简短列出了一些数据可视化和数据处理的工具:

电子表格,如LibreOffice、Excel或Google文档。

统计编程架构,如R(r-project.org)或Pandas(pandas.pydata.org) 地理信息系统(GIS),如Quantum GIS、ArcGIS和GRASS

可视化程序包,如d3.js(mbostock.github.com/d3)、Prefuse(prefuse.org)和Flare(flare.prefuse.org)

数据加工工具,如Google Refine、Datawrangler 非编程可视化软件,如ManyEyes和Tableau Public(tableausoftware.com/products/public)

下一节中的可视化实例就是用R语言创建的,它是(科学)数据可视化的利器。 可视化实例:感知美国总统大选捐款数据

让我们来看看美国总统竞选财务数据库,其中包含约45万笔捐给各个总统候选人的款项。 这份数据保存在60兆大小的一个CSV文件里,用Excel这样的程序处理这么大的数据是非常吃力的。

首先,我会明确地写下对联邦选举委员会捐款数据的初步猜测:  奥巴马应该会得到最多的捐款,(因为他是现任总统且人气最高)。  随着选举日临近,捐款数目增加。

 奥巴马比共和党候选人获得更多的小额捐款。

要回答第一个问题,需要对数据做些_转换_。我们不能只看每笔单独的捐款,而需要把每位候选人收到的捐款总金额算出来。在用分类汇总表对结果进行_可视化_后,可以确认我们的假设是正确的,奥巴马确实收到了最多的捐款: 候选人 奥巴马, 巴拉克

金额 ($) 72,453,620.39

139

罗姆尼, 米特 佩里, 里特 保罗, 荣恩 凯恩, 赫尔曼 金里奇, 纽特 波伦提, 提摩西 亨斯迈, 乔恩 巴赫曼, 米歇尔 桑托伦, 里特 约翰逊, 加里·厄尔 罗默,查尔斯·E·布迪三世 麦克寇特,赛迪斯

50,372,334.87 18,529,490.47 11,844,361.96 7,010,445.99 6,311,193.03 4,202,769.03 2,955,726.98 2,607,916.06 1,413,552.45 413,276.89 291,218.80 37,030.00

虽然从这个表能看出候选人收到捐款的最大值、最小值和排序情况,但它并没有揭示候选人排名的潜在模式。Figure 7是这份数据的另一种可视化,被称为“点状图”,从中我们可以看出表格所呈现的所有信息,以及数据的内在模式。例如,在点状图里我们不需要做减法运算,就可以直接比较奥巴马与罗姆尼或者罗姆尼与佩里之间的差距。(注:这张图由R语言创建,你可以在本章末尾找到源代码的链接)。

Figure 7. 用散点将潜在的模式可视化(格雷格·艾许)

140

现在,让我们接着做一张更大的图。首先,我用一个简单的散点图_显示_捐款金额随时间的变化情况。可以看到,有三个巨大的离群值,跟它相比其他捐款都微乎其微。进一步调查发现,这些巨额捐款都来自“奥巴马胜利基金2012”(又名超级PAC),该基金分别在去年6月29日捐款45万美元, 9月29日捐款150万美元, 12月30日捐款190万美元。

Figure 8. 三个明显离群值(格雷格·艾许)

超级PAC(政治行动委员会)的巨额捐款无疑是这一数据最大的发现,但除此以外可能还有其他有意思的地方。现在的问题是,这些巨额捐款会影响我们对来自个人的小额捐款的分析,所以要把它们从数据中剔除出去。这种转换通常称为去除离群值。再次进行可视化,可以看到,大多数捐款都在5千到1万美元的范围内。

141

Figure 9. 删除离群值(格雷格·艾许)

根据联邦竞选法对个人捐款所设置的限制,每位候选人不允许接受超过2500美元的个人捐款。但我们从图中看到,很多捐款都超出了这一限额。特别是五月的两笔大额捐款引起了我们的注意。它们看起来与六月和七月的负数金额(退款)相对应。进一步的数据调查,发现了以下交易:

 受聘于班纳克事务所(律师)来自旧金山的斯蒂芬·詹姆斯·戴维斯,在5月10日向

奥巴马捐款$25,800。

 受聘于墨菲集团(公共关系)来自小石城的辛西娅·墨菲,在5月25日奥巴马捐款

$33,300。

 6月15日,$30,800被退还给辛西娅·墨菲,其中扣除了$2500的捐款。

 7月8日,$25,800被退还给斯蒂芬·詹姆斯·戴维斯,其中并没有扣除任何捐款。 这些数字有什么特别的意义吗?退还给辛西娅·墨菲的30,800美元,等于每年个人向全国各政党委员会捐款的最高金额。或许她只是想把给总统选举的钱和给民主党的一次捐了,但最后被拒了。而退还斯蒂芬·詹姆斯·戴维斯的25,800美元等于30,800减去5000美元,而5000美元是个人向其他政党委员会捐款的限额。

上一张图里另一个有趣的发现,就是可以看到向共和党候选人的捐款分别在5000美元和-2500美元有一条水平线。为了看得更清楚,我单独把共和党的捐款可视化。如果不进行可视化,是不可能发现这些内在的模式的,这里做出来的数据图也是对此最好的佐证。这些图是数据内在模式的完美实例,没有数据可视化,它们是不可能被发现的。

Figure 10. 删除离群值2(格雷格·艾许)

142

我们可以看到,向共和党候选人捐款的数值主要集中在5000美元,但实际去看一下数据你会发现,这样的捐款有1243笔,只占捐款总笔数的有0.3%,但因为其他的捐款数额随时间分布比较均匀,所以在这里才能看出这条线。有意思的是,个人的捐款限额是2500美元。因此,超过额度的捐款会退还给捐助者,这就是为什么在-2500美元的位置出现了第二条线。相反,对奥巴马的捐助没有呈现类似的情况。

Figure 11. 删除离群值2(格雷格·艾许)

接下来,就来看看为什么数以千计的共和党捐助者都没注意到个人捐款限额这件事。可能会非常有趣。为了进一步分析这个议题,我们看看各位候选人获得的5000美元捐款的总笔数。

Figure 12. 每个候选人获得的捐款(格雷格·艾许)

143

当然,这是一幅被曲解的图因为它没有考虑各候选人收到的捐款总额。下图显示每位侯选人收到的超过5000美元的捐款在总捐款笔数中的比例。

Figure 13. 参议员的钱从何而来?每个候选人的捐款(格雷格·艾许)

我们能从中学到什么

这样一个对未知数据集进行可视化分析的过程,常常让人感觉像在一个陌生的国度进行一次令人兴奋的旅行。你凭借仅有的数据和一些假想,就像一个外国人一样开始,,但每进行一步,每做出一张图表,你都会获得有关这个议题的新的洞察。基于这些洞察,你再确定下一步的分析方向,以及数据的哪些方面值得去深入研究。正如你在这一章所看到的,这种数据可视化、分析以及转换的过程几乎可以无限重复下去。 获得源代码

本章中的所有图表都是通过美妙而强大的R语言绘制的。R语言主要用作科学的可视化工具,它几乎可以实现任何已有的可视化或者数据加工方法。如果你对利用R来进行可视化或数据加工感兴趣,下面是绘制本章图表所用的源代码。此外,还有种类繁多的书籍和教程可供选择。 dotch

 点状图:每个候选人得到的选款  散点图:捐款随时间的变化  散点图:授权委员会的捐款

还有种类繁多的书籍和教程可供选择。

— 格雷格·艾许(Gregor Aisch),开放知识基金会

144

第六章 传达数据 一、向公众展示数据 二、如何创建新闻APP 三、ProPublica的新闻应用 四、可视化作为数据新闻的重要工具 五、用可视化来讲故事

六、不同的图表和图形讲述不同的故事 七、数据可视化DIY: 我们的主要工具 八、我们挪威《世界之路报》如何处理数据 九、公共数据社会化

十、让人们活跃于你的数据周围

当你已经很好的理解了数据并且决定开始写一些有趣的东西的时候,你怎样才能够把这些向公众传递呢?这部分以一些有关那些领先的数据新闻记者如何运用信息图表、开放数据平台或者下载链接,向公众提供数据的小故事开始,再进一步看看如何制作新闻应用,数据可视化是如何开始又是如何呈现结果的。最后我们将总结你需要如何做才能够使受众对你的项目产生兴趣。

一、向公众展示数据

要向公众展示数据信息,可采用多种方法。例如,从发布带有新闻故事的原始数据,到创建漂亮的可视化和交互网络应用。我们就“怎样向公众展示数据”请教了开拓前沿的数据新闻记者。

可视化?不可视化?

与文字和图片相比,有些时候数据能更好地讲述故事。这就是为什么``新闻应用'、``数据可视化'这些术语近来成为许多新闻编辑部的热门词语的原因。同时,此般热情也促使了新工具和新技术的涌现(大多是免费的),它们的设计初衷就是帮助技术上一窍不通的记者将数据转换成视觉化的叙事。

像Google Fusion Tables、Many Eyes、Tableau、Dipity等等这样的工具使得创建地图、图表、图形甚至是以往只属于专业领域的那些非常成熟数据应用,都变得更为简单。然

145

而,要说当下的难点,记者们面临的问题不是你是否有能力将数据集转化为可视化作品,而是你是否有必要这么做。在许多方面来说,数据可视化宁缺毋滥。

— 阿隆·菲尔霍夫(Aron Pilhofer),纽约时报 运用运动图形(Motion Graphics)

有了严密的脚本、适时的动画、清晰的解释,Motion Graphics可以使复杂的数字或想法生动起来,从而指引你的受众穿梭于故事中。汉斯·罗斯林的视频讲座便是一个很好的例子,他告诉我们如何能让数据在屏幕上生动地讲述一个故事。不论你认同与否,我认为《经济学人》的扔鞋指数也是一个不错的例子,它用视频讲述了一个基于数字的故事。你不会也不该将这里的图像视作静态图像,那或许仅仅是个开始。一旦你一步步地构建这种图像,就会理解“扔鞋指数”是如何又为何被做出来的。有了动态图像和动画短片,你可以让你的受众对旁白所叙述的事印象更深刻,同时,解释性的视觉传达也提供了强有力的、令人难忘的讲故事方法。

— 露露·平尼(Lulu Pinney),自由信息图设计师 告诉全世界

我们的工作流程大多以Excel作为开始。假如数据中包含有趣的信息,我们就能以此快速地完成工作。倘若我们认为数据中包含特殊的信息,我们就会去采编部。庆幸的是,我们就位于《卫报》主要采编部的旁边。然后,我们会思考怎样将数据进行可视化或者呈现在舞台上。我们会写一个与之相关的帖子。写帖子时,我总是拿一份从文本编辑器得到的缩略版电子数据表,做一些分析,以便挑出有趣的事。接着,我发表帖子,并花些时间在推特上进行推广,我会将它发给不同的人,以便它的链接能够出现在所有适宜的地方。

博文的浏览量有一半来自Twitter和Facebook。人们浏览数据博客Datablog的文章,平均耗时6分钟,而浏览《卫报》的其他网站平均耗时仅为1分钟,对此我们很自豪。6分钟是一个极品数字,是花费在每一页上的最佳时间,是分析浏览量时一项重要的指标。 这一事实也让我们的同事相信我们所做的事很有价值。编辑部每个人都知道,我们一直致力于挖掘具有数据导向的大事件,例如计算机和信息科学会议、维基解密、英国骚乱。在计算机和信息科学会议事件中,我们《卫报》有五、六名专业报道员,专门负责在英国政府发布数据后发表自己的观点。我们还有一支与此相似的小组,我们还有一个5-6人的小组,成员包括像波利•柯蒂斯这样的著名报道员。每当英国政府的支出超过25000英镑时,他们就会发表数据。维基解密显然也是一件大事,涉及了很多有关伊拉克和阿富汗的报道。英国骚乱也是如此,短短两天就有55万点击量。

146

然而,我们并不是只着眼于短期的点击量,我们还要成为有用信息的可靠来源。我们试图做到这一点:只要某个话题在我们的报道范围之内,你就可以获得相关的、高质量、有意义的信息。

— 西蒙·罗杰斯(Simon Rogers),卫报 发布数据

我们经常将数据以可视化或方便下载的方式嵌入网站。我们的读者可以通过可视化互动或其他数据使用方式来探寻一个故事的背后发生了什么。这件事重要的原因是它增进了《西雅图时报》的透明性。我们展示给用户的数据也使我们得到强有力的结论。使用者的队伍中,肯定有评论家,还有那些对故事及其细节感兴趣的人。使用数据后,我们从他们那里获得关于我们曾错过的以及我们可以探索的事物的窍门——这对于新闻学的重要追求都是很有价值的。

— 谢丽尔·菲利普斯(Cheryl Phillips),西雅图时报 开放你的数据

使新闻用户方便地获得我们用在工作上的数据是有必要的,原因如下:读者可以确信我们并没有为了得到不公正的结论而践踏数据;开放数据符合社会科学的传统,它让研究人员能够重复我们的工作;鼓励读者学习数据可以激发他们总结出找到后续报道的窍门;最后,一旦读者对你的数据产生了兴趣,他很可能成为你的忠实读者。

— 史蒂夫·多伊格(Steve Doig),沃尔特·克朗凯特新闻学院, 亚利桑那州立大学 开设开放数据平台

在《国家报》,发布开放的数据是数据新闻工作者活动的一个重要组成部分。阿根廷既没有自由信息法案,也没有国家级数据门户网站,因此,我们对于给予读者权利、让他们接触到我们在报道中使用的数据这件事特别重视。

因此,通过整合后的Junar平台以及谷歌电子数据表格,我们发布了拥有初始结构的数据。我们明确地授权并鼓励他人重新使用我们的数据,同时利用文档与视频教程进行了解释。 此外,我们在《民族报》的数据博客中展示了某些数据集和可视化效果。这么做的目的是在阿根廷宣传数据与数据发布工具,向他人展示我们是如何收集并使用数据的、而其它人又是如何对于这些数据进行再利用的。

在2012年2月,我们开设了这一平台,此后,我们收到了许多关于数据集的意见和建议,它们大多来自学术研究人员和大学生。每次我们回复了解决方案或特殊数据集时,学生们都表示感激。人们通过公告栏了解、评价我们的数据,我们曾多次成为此项服务的评论及

147

浏览热门。2011年,我们在浏览次数前100名的可视化中排名第七

— 安赫利卡·佩拉塔·拉莫斯(Angélica Peralta Ramos), 国家报 (阿根廷) 让数据变的人性化

当人们对海量数据的讨论突然进入到更广阔的层面时,一个重要的部分——人为因素——显然被忽视了。很多人将数据视作分离的、独立的数字,但它们实际上是对有形的(人性化的)事物的一种测量。数据与真实人类的真实生活绑在一起,当我们了解数字时,我们必须考虑产生数字的现实系统。

例如,现如今有数以亿计的电话及移动设备正在收集着定位数据。我们很容易将它们(代表经纬、时间的数字)视作“数字消耗”,然而正是他们才把我们中生活的点点滴滴串联起来。人们读电子数据表时,可能会觉得那是客观却乏味的,但是如果人们可以将他们自己的事情展示出来并进行重新演绎,他们就会觉得自己的记忆被重新激活了。这样的体验是非常鲜活并且人性的。

如今,许多“第三方” ——应用开发者、大品牌公司以及广告商——正在使用定位数据。“乙方”(电信及设备管理器)拥有数据,而“甲方”(你自己)既接触不到也不能控制这一信息。在《纽约时报》研发组里,我们发布了一个叫OpenPaths的原型设计,为的是让公众探索自己的定位数据,同时让他们体会数据所有权的概念。毕竟,人们应该控制这些数据,因为它们与人们的生活和经历紧密相连。

在揭示数据内在的人性化这一点上,新闻工作者扮演了重要的角色。通过这种做法,他们有能力改变公众对数据以及对数字产生系统的理解¬。

— 杰·索普(Jer Thorp),常驻《纽约时报》研发组的数据艺术家 开放数据,开源,开放新闻

2012年很可能是开放新闻的一年,它位于编辑学理念的中心,是当前品牌化的关键信息。在这一年,我们需要一个过程来开放以数据为导向的新闻学,这是不言自明的。这一过程不仅需要开放数据的支持,而且要启用开放的工具。到今年年底,我们希望自己发布的每个可视化信息都能附上其背后的原始数据和推动代码。

如今用在可视化信息上的许多工具都还不是开源的。还有一些是有限制性许可证,禁止人们使用其衍生数据。现存的开源库可以很好地解决单一问题,但是无法提供更多的解决方法。综上所述,如今的环境还是相对封闭的,人们很难去相互协作。为此,我们正在为交互式叙述开发一系列的开源工具,即Miso Project系列(@themisoproject)。

就这一产品,我们与许多其他的新闻性组织进行了讨论。它采取社区参与的办法,挖掘

148

了开源软件的全部潜能。如果我们获得成功,我们将为读者打开一个完全不同以往的局面。其贡献可以超越对产品分流、缺陷修复或者以意想不到的方式实现数据再利用。 — 阿拉斯泰尔·丹特(Alastair Dant),卫报 添加下载链接

过去的几年内,我做过一些GB级别的数据项目或数据新闻,上至20世纪60年代出现的打字机文稿,下至维基解密发布的1.5G的密电。说服编辑以一个开放的、可读的格式去系统地发布源数据始终是非常难的。为了回避这个问题,我在文章中添加了“数据下载”的链接,点击后便可找到包含该文件的文献或者是相关的谷歌文档。尽管来自对数据再利用的读者的关注与我们在政府赞助计划中估计的一致(很低很低)。然而,确实没有几个数据再利用的例子能做到提供新见解、刺激新对话,让人觉得他们值得在每个项目上多花费几分钟! — 尼古拉斯·凯瑟-布瑞尔(Nicolas Kayser-Bril),Journalism++ 了解你的能力范围

你需要了解你的能力范围。为了找乐子而侵入他人的系统和为了扩大规模、提高性能而进行设计是两回事。你务必要与人合作,因为他们有你的设计所需要的技能。不要忘记设计环节,毕竟,可用性、用户体验和呈现方式会大大影响设计的成败。 — 克里斯·吴(Chrys Wu), Hacks/Ha

二、如何创建新闻APP

新闻应用程序是窗口,用来了解一个故事背后发生了什么。它们也许是可供搜索的数据库,也许是美观的视觉化呈现,也许完全是另一码事。然而,无论形式是什么,新闻应用都鼓励读者在一个对自身有意义的内容前提下与数据进行互动,例如:查阅自己所住辖区的犯罪动态,查找当地医生的安全记录,或者调查他们选择的政界候选人所得到的捐款。

与高科技的信息图表相比,最佳新闻应用经久耐用。它们存在于新闻周期之外,总是能帮助读者解决实际问题,或是以一种有用的、新颖的方式来回答问题,使之成为经久不衰的资源。当ProPublica的记者想要探寻美国肾透析诊所的安全性时,他们会构建一个新闻应用,帮助用户核实当地的设备是否安全。通过提供如此重要的服务,他们与用户建立了一种联系,其成效大大超出了故事自身的能量。

在构建过程中,挑战与“创造永久价值”这一构建尖端新闻应用程序的誓言是并存的。

149

不论你是开发者还是管理者,任何关于如何构建好的新闻应用程序的讨论都应该以产品开发思路为前提,即“以用户为中心,努力做出最货真价实的东西”。所以,在你开始构建程序之前,你需要问自己三个具有建设性的问题:

Figure 1. 透析设备跟踪器 (ProPublica)

谁是我的受众?他们有何需求?

新闻应用并不是为报道自身而服务的。它们为用户服务。在应用中,用户可能是一名接受透析的病人,她想要知道自己的临床安全记录;也可能是一位房东,他还不知道自己的房屋附近是否会遭受地震危害。如同好的产品一样,任何关于构建新闻应用程序的讨论都应该从用户开始着手,不论他们是谁。

单一的应用可能服务于很多用户。例如,内布拉斯加州的《奥马哈世界先驱报》发明了一款叫Curbwise的应用程序,它为以下群体服务:认为自己赋税过重的房东、对附近的房价感兴趣的房客、试图了解近期销售额的房地产人员。不管面对的是谁,应用都能满足其特殊需求,这样,用户便成了回头客。

举例来说,房东可能需要搜集附近房产的信息,然后根据这些信息,证明自己赋税过高。搜集信息既耗时,又复杂,但Curbwise能为用户解决这一问题:首先,它搜集房东需要的所有信息;接着将它们编辑成用户友好报告;然后,以此向当地政府就他们的不动产税提出质疑。仅这一份报告就卖20美元,但人们仍会购买,因为它解决了生活中的实际问题。 不论你的应用能否像Curbwise那样解决现实问题,或者通过有趣的可视化作品来阐述故事,首先需要做的都是要了解你的潜在用户。然后,根据他们的需求再着手设计环节,在用户需求的基础上建立产品特质。

150

我应该投入多少时间?

编辑部里的开发者好比沙漠中的绿洲,总是供不应求。构建新闻应用程序意味着要在新闻编辑部的日常需求和它许下的“创造真正好产品”的长期承诺之间找到平衡。

比方说,主编和你分享了一个想法,即“市政厅下周就是否拆除本市某些文物要举行一次投票”。他建议构建一个简单的应用,能让用户在地图上找到这些建筑物的所在位置。

作为开发者,你有两个选择:一,用定制软件制作一张漂亮的地图,以此来施展你在工程学上的技能;二,用现有的工具(如Google Fusion Tables或开源绘图库)花费几个小时来完成此项任务。前者为你提供了更好的应用,后者会给你更多时间去处理其它环节的问题,以此收获持久的影响。

正是因为故事本身就很复杂,所以漂亮的新闻应用就意味着你不需要做的那么复杂。权衡之中的重要性至关重要。这里的窍门是:记住你每构建一个应用都要付出代价,所以,你不如制作一个更具潜在影响力的应用程序。 怎样才能更进一步?

构建高端新闻应用程序既耗时间又耗财力,这就是为什么付款人总要打听收益的原因。你要怎样将昙花一现的热门应用变得与众不同呢?

创造出超过新闻周期的持久性设计是一条出路。方法是:要么创造一个工具,为你节省将来某个时刻的时间(同时开放了原始代码!),要么采用先进的分析方法,以便对受众有更多的了解。

许多组织构建了人口统计图,用以展示其城市内部的人口变化。而《芝加哥论坛报》的新闻应用程序小组在构建自己的人口统计图时,通过开发工具和技术,做到了快速构建统计图,从而进入了下一个阶段。这些工具和技术随后可被其他的组织使用。

在调查报道中心(我所就职的地方),我们将一个简单的、可被搜索到的数据库与一件细致的事相结合,一方面用来追踪我们能够学习的框架,另一方面,用来追踪用户有多么重视新闻应用程序包含的意外新发现和探索。

即使有人说你精于算计,你也要经常想想投资的回报。你需要做的是:解决一个普遍性问题;找出吸引用户的新方法;将你的部分工作进行开源;利用分析方法更多地了解你的用户;或是找到像Curbwise这样的应用,即使它只有一部分能产生收益。 结束语

在很短的时间里,新闻应用程序的开发取得了很大的进展。新闻应用1.0很像信息图2.0,它拥有交互式数据可视化,与可搜寻数据库结合在一起,设计的主旨是增强故事的叙

151

述性。如今,记者可以利用开源工具在截稿日期前设计出许多这样的应用,这样就能让开发者空闲下来,思考更重要的事情。

新闻应用2.0由新闻产业为主导,将讲故事、新闻学的公共服务优势同产品开发规则、技术界的专业知识结合起来。毫无疑问,这将是一次有关于怎样使数据相互关联、提升趣味并对受众有用的创新大爆炸。同时,我们希望它能帮助新闻学达到同样的目的。 — 蔡斯•戴维斯(Chase Davis),调查性报道中心

三、ProPublica的新闻应用

一个新闻应用就是一个讲述新闻故事的巨大交互式数据库。你可以象对待其它任何一条新闻作品一样看待它。它只是用软件替代了文字和图片。

通过向每位读者展现针对性的数据,新闻应用能够帮助他们以具有个人意义的方式理解新闻。它能帮助读者理解自己与一个广泛的全国现象之间有何关系,帮助他们以已知联系未知,从而促进对抽象概念的深入理解。

我们倾向于在拥有一个范围覆盖全国、粒度足够揭示有意义的细节的数据集(或认为我们可以获得这样的数据集)时创建新闻应用。

新闻应用应该讲述一个故事,而且正如其它的好新闻一样,需要标题、署名、导语和中心段落。在一个交互式软件中上述部分概念可能难以分辨,但仔细观察就能发现它们的存在。 同时,新闻应用应该具备生成性(generative)——它应该能派生出更多的故事和报道。 ProPulica最优秀的应用已经成为地方报道的基础。

以我们的金钱医生(Dollars for Docs)新闻应用为例。它首次追踪医药公司以咨询、演讲等形式付给医生的数以百万的美元。我们创建的这一新闻应用使读者能够查询自己的医生,看到他们收取酬劳的情况。其它新闻机构的记者也使用这些数据。包括《波士顿环球报》《芝加哥论坛报》和《圣路易斯邮报》在内,超过125家地方新闻机构基于这一应用的数据对当地医生进行了调查报道。

在这些地方新闻中,只有少数是正式合作的结果,而大多数是独立进行的——某些情况下,在文章问世前我们对正在实施的调查报道毫不知情。作为一家小规模但是全国性的新闻机构,这种事情对我们至关重要。我们不可能掌握125个城市的本地信息,但如果我们的数据能够帮助了解当地情况的报道者讲述有冲击力的故事,我们就完成了自身的使命。 我最喜欢的一个新闻应用是洛杉矶时报的绘图洛杉矶(Mapping L.A.),它最初是以众包的形

152

式描绘洛杉矶众多街区地图,许多街区此前并没有独立的、被广泛接受的边界。在最初的众包项目之后,《洛杉矶时报》已经能够使用街区地图为框架生产优秀的数据新闻——如街区犯罪率、街区学校质量等主题,在此之前根本无法做到。所以说“绘图洛杉矶”项目兼具广泛性和具体性,而且具备生成性,能告诉人们关于他们的故事。

创建一个新闻应用所必需的资源范围相当广泛。《纽约时报》有几十人的团队负责新闻应用和交互式图表工作。但是Talking Points Memo 只用两位员工就做出了一个尖端的政治选举追踪应用,他们都没有计算机科学学位。

像大多数编辑部程序员一样,我们使用修正版的敏捷方法论来构建应用。我们快速迭代并将初稿展示给编辑部内的其他人员。至关重要的是,我们和记者密切配合,并阅读他们的草稿——甚至是非常早期的版本。我们更像记者而非传统程序员那样工作。除了写代码外,我们给信源打电话,收集信息,培养专业技能。利用不能理解的材料创建优秀的新闻应用将相当困难。

编辑部为什么要对生产数据驱动的新闻应用感兴趣?原因有三:这是优秀的新闻形态,这饱受欢迎——ProPubilca最受欢迎的内容就是新闻应用——以及如果我们不做别人也会。想想我们将会错失的独家新闻!而最重要的是,编辑部应该知道他们都能够做好。它比看上去要容易。

— 斯科特·克雷恩(Scott Klein), ProPublica

四、可视化作为数据新闻的重要工具

在开始尝试将图表或地图应用到数据之前,花些时间思考下静态和交互的图表元素在你的新闻中扮演的众多角色。 在报道阶段,可视化能够:

 帮助你确定报道其余部分的主题和问题

 识别异常值:在你的数据中(这些异常值)包含的是精彩的故事还是只是错误  帮你找到典型的例子  展现你的新闻点

 可视化在发布阶段也扮演了多重角色:  以更令人信服的方式展现报道中的要点  从行文中移除不需要的技术信息

153

 特别当它们是交互式和允许探索时,能向你的读者展现报道过程的透明度

这些角色表明你应该在报道中尽早开始并经常使用可视化,无论你是否启用了电子化的资料或记录。不要把它视为一个独立的步骤,那种在报道快写完时才开始的东西。要让这项工作指导你的报道。

着手实施有时意味着只是把你已经记下的笔记采用可视化的形式。思考下Figure 2,这是华盛顿邮报2006年的报道。

Figure 2. 农业补贴时间变化(华盛顿邮报)

它显示了过去45年中农场收入中与补贴有关的比例及关键事件,并按月建立图表。发现随着时间的推移具有相同定义和内涵而可以使用的数据是一项挑战。调查所有的波峰和波谷帮助我们在完成报道其它部分时对背景信息谨记于心。这也意味着在开始写作之前就已基本完成了一项苦差。

下面是借助可视化探索数据集的一些技巧。 技巧一:使用小而多的组图在大数据集中快速定位

在《华盛顿邮报》,我们在调查乔治·W·布什政府是基于政治考虑而不是实质理由实施补助这一观点时,采用了这一技巧。大多数补助计划按规则完成,其它一些已经实施多年,所以我们想知道能不能从近1500个不同的自由裁量流中发现模式。

我为每个项目创建了一个图表,红点代表总统竞选年,绿点代表国会选举年。问题是:的确在一些项目中总统选举前六个月会出现一个高峰——旁边标有峰值的红点——但那不是我们要找的选举年。这个模式模式持续在2000年那次总统大选,阿尔·戈尔与乔治·W·布什竞争的年份出现,而不是出现在2004年大选。

154

Figure 3. 美国健康与公众服务部补助资金:用迷你图协助发现报道角度 (华盛顿邮报)

通过一组图表而不是数字表格很容易发现这一事实。而互动形式使我们能根据地区和机构检查拨款。一系列小而多的地图能将时间和地点展示在静态图形上,方便比较——有时比互动形式还要方便。

例图是由PHP编写的一个小程序生成的,而现在使用Excel2007或2010的迷你图(sparkline)功能更容易做到。视觉化专家爱德华·塔夫特发明了这些“(数据)密集、(设计)简单、文字大小的图表” 来传递信息一览大型数据集。现在从股票行情到体育赛事胜负情况,你随处可以看到这种图表。

155

技巧二:换个角度看你的数据

当你尝试理解一篇报道或一个数据集时,所有看待它的方式都是正确的;尝试能想到的所有方式,你将获得不一样的视角。如果你在报道犯罪,你可以看一组代表暴力犯罪一年中变化情况的图表;可以从百分比变化的角度来看;还可以与其它城市对比着看;也可以看随时间的变化情况。试着使用原始数字、百分比和指数。

从不同的尺度看数据。尝试遵循X轴必须为0的规则。然后打破这个规则看你能否了解更多。对非常规分布尝试用对数和平方根处理。

记住视觉感知方面的研究成果。威廉姆·克利夫兰(William Cleveland)的实验结果表明,当平均坡度大约45度时,眼睛能看到图像的变化。这要求你忽略总是从0开始的戒规,向最能提供洞见的图形努力。流行病学方面的研究也提醒你要为图表找到一个目标水准作为边界。每一种方法都帮助你用不同的方式理解数据。当你获得它们能告诉你的所有事情时,你就大功告成了。 Tip 3: 不要想当然

现在你已经用不同的方式分析过你的数据了,你可能已经发现一些似乎不太正常的记录——一开始你可能没有就理解它们意味着什么,或者有些异常值似乎是录入错误,或者有些趋势呈相反方向。

如果你想基于早期的探索发布什么东西,或者公布可视化内容,你需要解决这些问题而不能想当然。它们要么是有趣的故事要么只是错误;通往常识还是误读,这是一项有趣的挑战。

地方政府提供充满错误的电子表格并不罕见,数据中的政府术语也很容易被误解。 首先,回头检查自己的工作。你是否阅读了说明文档和注意事项,问题是否存在原始数据中?如果你这方面一切正常,那么是时候拿起电话了。如果你打算使用这些数据,你就需要解决存在的问题,所以你最好立刻开始。

并不是每条错误都重要。在竞选资金记录中,10万条数据中有几百条邮编不存在是很正常的事。只要它们不是出现在同一个城市,或者属于同一个竞选人,这种偶尔的坏数据无关紧要。

你需要问问自己:如果我要使用这些数据,读者会不会对它们的含义形成基本准确的看法?

技巧四:避免过分追求精确

没有提出足够问题的另一面是过分纠缠琐碎的细节。你的探索性图表应当大致准确,但

156

是如果面对不统一的取整方式,或者数据加总不是恰好100%,或者缺少20年中一两年的数据,你也不必担心。这是探索过程的一部分。你仍然能看到大的趋势,知道在发布之前需要收集什么。

事实上,你可能要考虑移除标签和刻度,象上面的图表所作的那样,以更好地得从整体上理解数据。

技巧五:创建案例和事件的年表

在任何复杂故事的最初就开始创建关键事件和案例的年表。你可以用Excel、Word文档或TimeFlow这样的特殊工具来完成这一任务,但在有些时候,你会发现数据集你可以分层。周期性地读这些数据,将告诉你在报道中需要去填充的那个新闻洞。 技巧六:与你的图形部门尽早并经常接触

在你的编辑部与艺术家和设计师围绕可能的图表展开头脑风暴。他们将提供好的看数据方式,好的互动建议,知道如何将数据和报道相连接。尽早知道需要收集什么数据将使报道更加容易,或者当你无法收集到时可以提醒团队图表无法实现。 发布建议

你可能在数据探索上只花费了几天或几个小时,或者为了报道已经花费了几月。但当到了发布的时候,两方面变得更加重要。

还记得在早期探索时缺失了某年的数据么?突然间,没有它你寸步难进。还记得在报道中你曾经忽略过的所有坏数据?它们全都跑回来困扰你。原因在于你不能围绕坏数据写稿件。但是在图表中,你要么拥有所需的一切数据,要么一无所有,没有中间地带。 在收集数据上的精力大大影响最终的交互式图表

在互动图形中无从隐藏。如果你真的要让你的读者以他们想要的任何方式探索数据,那么所有的数据元素必须如其所声称的那样。用户可能在任何时候发现各种错误,这将长年累月的困扰你。如果你建立自己的数据库,这意味着你应该做校对、事实核查、审稿整个数据库。如果你使用政府提供的记录,你要决定要做多少抽查,当你发现不可避免的错误时如何处理。

为两种读者做设计

图表——无论是独立的交互式形态还是报道的静态可视化配图——应当满足两类不同的读者。它应当一目了然易于理解,也应足够复杂、能为希望了解更多的人提供有趣的内容。如果你让它互动,确保你的读者得到的东西比单一的数字或姓名更多。 传达一个理念——然后简化

157

确定你只想让人们看到一样东西?决定你希望给读者的压倒性印象,然后让其他所有东西消失。在很多情况下,这意味即便互联网允许提供一切,你还是要移除信息。除非你的主要目的是报告的透明度,不然时间轴或年表中包含的大多数细节都并不十分重要。在静态图形中,它们是种干扰。在交互式图形中,那将十分枯燥。

— 莎拉·科恩(Sarah Cohen),杜克大学

五、用可视化来讲故事

数据可视化受到关注有好几个原因。不仅因为它特别炫、特别吸引眼球——在分享和吸引读者方面是有价值的社会化硬通货——还因为它具备强大的认知优势:人类大脑的一半完全是用于处理可视化信息的。当你给用户展示一张信息图的时候,你已经以大脑的最大带宽路径在影响他了。一张设计优良的数据可视化图能即时给予观者深刻的印象,并能穿透一个复杂故事的芜杂直抵问题的核心。

但是,不同于其他视觉媒介——比如图片和视频——数据可视化深深地植根于核心事实上。虽然加入美化设计的元素,数据可视化图却少受情绪掌控。在这个媒体专业化程度越来越高的时代,为了迎合受众口味经过裁制供应的信息产品往往为独特的观点。而数据可视化——通常表述为数据新闻——给植根于事实的故事讲述提供撩人的机会,而不是狂热的盲信。

此外,跟其他类型的叙事新闻一样,数据可视化对突发新闻——例如在当地一起事故中迅速报道最新信息和伤亡人数——和特写故事同样有用,它能深入一个话题并提供新的观点,帮助你以全新的方式重新审视熟悉的事物。 以全新的角度看待熟悉的事物

事实上,在全球经济危机开始一年后,也就是2009年晚些时候,《纽约时报》发布的一张互动式图表即例证了数据可视化在检验公众惯常看法方面的能力。当时美国全国的失业率徘徊在9%上下,用户通过各种人口统计学和受教育程度等指标来筛选美国的人口,可以此来查看会得到怎样戏剧性变化的比率。结果是这样的,该比率在受过高等教育的中年女性中只占到4%以下,却几乎涵盖了一半未完成中学学业的年轻男性黑人。并且,这种“不同”并不是什么新鲜事——这是一个被反反复复多加强调的事实,展示的是不同群体不同的历史地位。

158

Figure 4. The Jobless Rate for People Like You (New York Times) 好的数据可视化图会在你的脑海里久久留下关于事实、趋势或者过程的心理模型。有多少人看过2004年12月由海啸研究者们发布的一个动画?动画展示了由印度尼西亚地震引发往外辐射的阶式波浪横贯了整个印度洋,威胁南亚和东非沿海的数以百万计的居民。

数据可视化——连同它们带来的相关审美趣味——甚至能成为文化上的试金石。比方说在2000年和2004年美国大选中用以表现深奥的政治分区。“`红色”代表共和党控制的州占据了中心地带,“`蓝色'代表民主党控制的州则聚集在东北和中西部。而在2000年前,美国主要的广播电视网络则很随意地切换红色和蓝色来代表两个党派,有一些更是每4年切换一次。因此,美国民众对共和党人的记忆就总停留在1984年总统大选中,罗纳德·里根以压倒性的优势赢得了(50个州里的)49个``蓝色”州。

鉴于每个图表都会造成视觉疲劳,另一种提供强大事实证据的图表产生了。例如《纽约时报》发布的2006地图运用了大小不等的圆饼来表示(古斯塔夫飓风发生后)新奥尔良大疏散中成百上千的民众目前居住何地,还有在疏散过程中他们是如何通过个人联系和安置工程横贯散布于整个(美国)大陆的。这些被疏散的流离失所的民众能否重返家园?

所以,现在当我们讨论数据可视化的强大的功能时,必须先清晰地回答下述问题:什么时候应该运用数据可视化?什么时候不用?首先,让我们通过一些例子来了解,数据可视化用于何处才能帮助你给读者讲故事。 展示随时间推移产生的变化

数据可视化图最普通的用途——最常见的是折线图表——可能就是展现数值是如何随

159

时间推移而变化的。比如,1960年代以来中国人口如何增长;2008年经济危机以来失业率的居高不下,这都是很好的例子。当然,数据可视化对随时间推移产生的变化也可以通过其他图表形式来展示。葡萄牙研究者Pedro M. Cruz运用动画圆环图表戏剧化地展示自19世纪早期以来,西欧帝国的衰落。以人口多寡为参照,分别代表英国、法国、西班牙和葡萄牙的大小不等的气泡随着它们海外领地的独立而一一爆裂开来。爆裂的气泡中迸出墨西哥、巴西、澳大利亚、印度,等等……六十年代早期迸出的一大批非洲殖民地几乎让法国的那个气泡消耗殆尽。

《华尔街日报》发布的一个图表展示了100位企业家获取5000万收益需要多少个月。作者用一款免费的数据图表分析软件Tableau Public来制图,100位企业家被一一描绘成飞机,之间相互的对比关系通过飞机起飞轨迹来表示,它们或快、或慢、或沉重。

说到飞机,另外一个有趣的图表则展示了产业大联合的几十年间,美国主要航空公司的市场份额是如何随着时间推移而变化的。卡特政府对民航解除控制之后,大量债务融资的购并在地区性小型航空公司的基础上创立了全国性的航运公司。正如《纽约时报》发布的图表中所显示的。

Figure 5. 不断融合的飞行航线(纽约时报)

考虑到几乎所有读者都会留意到图表中的水平“X”轴代表时间,那么不难想见所有的数据可视化图都应当展示随时间推移产生的变化。 比较数值

160

Figure 6. 计算战争的人力成本 (BBC)

数据可视化在帮助读者比较两个或更多个离散值(孤立的点集)时,功能也是很出众的。可以带入伊拉克和阿富汗战争中不幸丧生的军人人数(用越南战争中数以千计的牺牲和二战中数以百万计的牺牲人数对比。BBC的一个动画幻灯片就是这么操作的,用作搭配上述战争伤亡的数据库)。《国家地理》杂志则用一张极简的抽象图表来展示,你有多大可能性会死于心脏病(1:5的概率)、中风(1:24),或者空难(1:5051)、蜜蜂叮咬(1:56789)。图中一条巨大的弧线代表总体状况下的死亡几率,1:1的概率让图中其他数字相形见绌,即代表——当灾祸来临,无人可以生还。

BBC和Berg Design设计工作室合作开发了一个网络维度,你在上面可以运用谷歌地图来标记和绘制国际重大时事轮廓模型,比如(墨西哥湾)深海钻井平台漏油事件和巴基斯坦洪水。

展现关联与流向

法国1981年引进的高铁表面看来并没能使整个国家变小。不过,一个很棒的视觉再现图展示了跟过去乘坐普通火车相比,乘坐高铁去往不同目的地到底能节省多少时间。在“`之前'这张图中,一个近乎方形的格子覆盖了全国,到了``之后'图中,朝向巴黎方向的格子被从中砸扁,展示了不仅只有驶往国外目的地的距离``变近了”,省时效率最高的时候发生

161

在旅途最初阶段,也就是在火车行驶至未经改良的轨道不得不减速之前。

在对比两组不同的变量时,请参看Ben Fry的(美国)职业棒球联盟队表现评估图表,是纳入球员的薪酬水平来对比的。左边这一栏列了球队迄今为止的纪录,右边这一栏则是球员薪酬水平。红线(表现不佳)或者蓝线(超常发挥)连接了两纵栏的两组值,非常容易让人感觉出哪些球队老板正在为他们身价昂贵的球员们的破产深表遗憾呢。此外,时间轴的原型,把季度锦标赛的始末以生动的动画形式展现出来。

Figure 7. 薪资 vs. 表现 (Ben Fry)

数据设计

类似于为表现“关系”绘制图表的方式,数据流图将信息编码为粗细和颜色各不相同的

162

连接线。例如,《纽约时报》发布的数据可视化图借贷关系网就是针对欧元区数个无力还贷的成员国来的,图中用线将欧盟成员国跟其在亚太地区的贸易伙伴连接到了一起。这组可视化图的第一张,用带箭头的连接线表示贷款从一国流向另一国,线的粗细取决于贷款额的大小。黄色和橙色的连接线表明“`麻烦大了”——即不大可能收得回的贷款。

换个开心点的话题吧,《国家地理》杂志制作了一张看起来很简单的图,用以展示美国的三个城市——纽约、芝加哥、洛杉矶——跟主要葡萄酒产区的关联,以及不同的运输方式会造成如何截然不同的碳足迹。最终得出的结果是,对于纽约买家来说,从波尔多购买葡萄酒比从加州购进更环保。

“`源地图”是麻省理工商学院开展的一个研究项目,运用数据流图对工业制品零部件和原材料的全球采购进行严谨的研究。多亏他们进行了大量重要的研究,现在用户可以用“源地图”查找从Ecco鞋到橙汁等一干产自世界各地的产品,以及它们相应的碳足迹是多少。 展现层级

早在1991年,研究者Ben Shneiderman发明了一种新型可视化形式叫做“树状图”。这种图由多个同心矩形彼此嵌套,每个矩形代表了不同的量,无论是就每个矩形个体而言,还是作为一个内容聚类而言都是这样。不管是用可视化来表现国家机构总体预算和附属机构预算,还是用可视化的行业和公司报告来剖析股市,抑或是把一门编程语言用可视化的全集和子集来表现,(矩形式)树状图对展现某一实体及其构成来说都是一个简洁而直观的界面。此外,另一种有效的图表是(树枝式)树状图,看起来更像典型的组织图,代表其子类的树枝又会作为源枝干继续伸发开去。

Figure 8. OpenSpending.org(开放知识基金会)

163

浏览大型数据库

有时数据可视化可以把人们熟识的信息以让人耳目一新的方式展现出来,那么,当你握有人们想要浏览的全新信息时,会发生什么?伴随数据时代而来的就是几乎每一天都有惊人新发现诞生,从Eric Fischer作品Flickr快照的地理分布分析到纽约市数万教师的评分结果。

当用户深入挖掘和钻研的时候,这些数据集便能发挥其最强大的效能,让人发掘数据背后的相关信息。

2010年初,《纽约时报》获准取得Netflix(收费视频网站)普通级别的记录——哪些地区最频繁租赁哪些影片。虽然Netflix拒绝公开原始数据,但《纽约时报》还是制作了一个很炫的交互式数据库图,用户可以从图中浏览美国12大城市人们花最多的钱去租来看的前100个影片是哪些,每个城市地图中还可以查看不同邮编的街区人们最爱租来看的前10个影片是哪些。颜色深浅分级的“`热图”叠加在每一个社区上,方便用户速览找到每一个影片在哪些社区最受欢迎。

同年末,《纽约时报》发布美国每十年一次的人口普查结果—几小时后相应的数据可视化图就出来了。界面是用flash动画做的,提供了若干可视化选项并允许用户浏览参与人口普查的每一个街区(约有820万人口)居民的种族分布状况、收入状况和受教育程度。数据精度如此之高,以致于当你最初浏览的时候会认为自己可能是探索这个数据库的第一人 同样值得赞赏的是BBC以数据库前端的形式运用可视化,例如他们发布的交通事故死亡调查。另外,还有很多针对大规模数据导出快速索引方面的尝试,例如维基解密发布的伊拉克和阿富汗战争日志。 The 65k Rule

Upon receiving the first dump of Afghan war log data from WikiLeaks, the team processing it started talking about how excited they were to have access to 65,000 military records.

This immediately set alarms ringing amongst those who had experience with Microsoft Excel. Thanks to an historic limitation in the way that rows are addressed, the Excel import tool won”t process more than 65,536 records. In this case, it emerged that a mere 25,000 rows were missing!

The moral of this story (aside from avoiding using Excel for such tasks), is to always be suspicious of anyone boasting about 65,000 rows of data.

164

— Alastair Dant, the Guardian

Figure 9. 英国道路上的每例死亡 1999-2010 (BBC)

想象交叉变化结果

Amanda Cox发表于《纽约时报》的“豪猪图”(porcupine chart)描绘了多年来乐观美国的悲剧赤字预测,该图显示了有时候“发生了什么”比“什么都没发生”要没意思的多。Cox的曲线图展示了战后(越南战争)十年以及税收减免政策实施后财政赤字的变化曲线,可以看出经事实验证,之前的预期是多么的不切实际。

Figure 10. 预算预测与真实对比 (纽约时报)

165

布拉得·维克托(Bret Victor)是一位长期就职于苹果公司的界面设计师(用可视化传达量化信息,“干掉数学”理论的鼻祖),他创建了一种_活性文件_的原型。在他的例子中,节约能源的创意包括若干可编辑前提,比如关闭无人房间的灯这个小小的举动能帮美国人节约2-40个煤炭发电厂的输出电力。改变对文本段落中引用的比例,当页剩余文本内容则会相应进行自动更新!

《纽约时报》的马修·埃里克森(Matthew Ericson)编译了“可视化、制图和交互式图表的各种运用” 列表,可以帮助您查看更多例子和建议。 什么时候不宜使用数据可视化

总而言之,有用的数据可视化取决于所用信息是否干净、精确、有意义。如同极好的叙事新闻总是充斥着大量的引语、事实和描述,数据可视化是否优秀也仅取决于其数据质量高不高。

当文本和多媒体能够更好地讲述你的故事

有时候,孤立的数据并无法讲出一个吸引人的故事。虽然一张包含趋势线或者统计数值概要的简单图表能起到一定作用,但是一个跟现实影响紧密结合的故事更能在第一时间有力地吸引读者。

当你掌握数据量过少的时候

正如俗话说,``一个数字说明不了任何问题。'新闻编辑在引用数据时通常比较克制,他们会先考虑``(这个数字)是跟什么去对比的?'趋势走向是往上还是往下?它表现正常吗?

当你所掌握的数据变化很小,没有明晰的趋势或者结论的时候

有时候你把数据导入Excel或其他类似的制图app后会发现信息很杂——一大堆波动曲线,或者相对平直的趋势线。这是因为你把基线从零调整到你所掌握数据中的最低值,为了给予线条更多样的形状吗?不是!看来你掌握的是一堆模糊不清的数据,你需要做更多数据挖掘和分析工作。 当地图不是地图的时候

当空间要素不那么重要和有吸引力的时候,或者关注焦点更多聚集在数值趋势上,比方说随时间推移发生的变化;或者所展示的有相似点的区域并不毗邻。 别忘了还有表格

如果你所掌握的数据量相对较少,但其中一些信息可能会对你的部分读者有用,那么你不妨考虑直接用表格形式展示这些数据。表格简洁、易读,并且不会臆造一个与预期不符的

166

“故事”。事实上,表格在基础信息罗列方面是非常高效且美观大方的。

— 吉奥夫·麦克金(Geoff McGhee),斯坦福大学

六、不同的图表和图形讲述不同的故事

在当今数码世界中,我们期待着置身于3D体验,而倾向于忘记多年以来人们只有纸和墨。我们把这种静态的平面媒介当作二等公民,事实上追溯到数百年间,我们一直在书写和印刷,达成了难以置信的知识宝藏和在页面上表达数据的各种实践。虽然交互图表,数据可视化和信息图正在广泛流行,它们却放弃许多我们通晓的最好实践。只有沿着已然完成的图表和图形长河上溯,我们才会理解既有的知识宝库,并且把它引进到各种新的环境中。

一些最著名图表和图形的产生,是为了更好解释密集的数据表格。在十七世纪末到十八世纪初叶,苏格兰有位叫威廉·普雷菲尔(William Playfair)的先生,他通晓多种语言,并且独立完成了引入许多今天依然使用的图表和图形。在他1786年问世的书商业和政治地图(Commercial and Political Atlas)中,Playfair引入条形图,以便用一种新的直观的方法显示苏格兰入口和出口数量。

随后,在他1801年问世的书统计摘要(Statistical Breviary)中,推广了著名的饼形图。 这些新形式的图表和图形起源于商业,但随着时间推移,出现了另外一些图表,却是用于挽救生命。在1854年,约翰·斯诺(John Snow)创造了享誉至今的“`伦敦霍乱地图”,在报告灾情的每个地址处添加一个小黑条,经过一段时间便可以看到明显的爆发密集区,从而采取行动控制疫情。

随着时间推移,使用这些新型图表和图形的人们变得越大胆,而且深入进行实验,推动这种媒介发展到今天我们所知晓的状态。安德-麦克·古瑞(André-Michel Guerry)曾率先发表一个绘制地图的想法,其中每一个单独区域的不同着色是基于某种变量。1829年,他创建了第一个定量专题地图,通过选取法国各个区域并且打上阴影来表示犯罪水平。今天,我们看到用以显示政治投票区域的地图,谁投票赞成谁,还有财富分布,以及其他与地理相关的变量。看起来如此简单的想法,不过即使在今天,如果不能精明地运用,掌握和理解它还是困难的。

一个好的记者需要了解许多工具并把它们保存在工具箱里,以便构建可视化。自然不是要马上跳进深水,在图表和图形方面有一个良好的基础是重要的。你开创的每一件工作需要起源于一系列基本图形和图表。如果你能掌握这个基础,你可以进而构建更加复杂的可视化,

167

而这是由这些基础单元构成的。

两个最基本的图表类型是条形图和折线图。虽然在应用场合它们十分相似,但在它们的内涵上可以相当不同。作为例子,我们采用年度内公司逐月销售额予以说明。我们要用12条竖线代表每个月中营收货币总量(Figure 14).

Figure 14. 简单的条形图:适于表现离散信息

我们来观察,为什么是条形图而不是折线图。折线图是应对连续数据的思想方式。我们的销售数字是该月的和数,不是连续的。作为条形图,我们知道公司在一月份营收100美元,而在二月份120美元。如果我们把逐月盈利做成折线图,在每个月第一天依旧代表100美元和120美元,但利用折线图我们会估计,15日这一天公司好像营利110美元,这是不对的。条形图用于表示测量的离散单元,而当我们处理连续数值时,比如温度,就要用折线图。

Figure 15. 简单的折线图:适于表现连续的信息

我们看到,8点钟温度是摄氏20度,而在9点是22度。如果我们仔细观察这条曲线来猜测在8点30分的温度,我们会说21度,这个估计是对的,由于温度是连续的而且每个节点不是其他温度值的和数,它代表那个时刻的精确值或者两处精确测量之间的估算值。 条形图和折线图两者都有叠放的变化(Figure 17)。这个优秀的故事说明,可以用不同的方式使用工具。下面考虑一个拥有三个营业点的公司作为例子

168

每个月相应三条条形,每条表示一个营业点,总共36条表示全年。当我们把这些竖线相邻排开(Figure 16),便能很快看出哪个月哪个营业点挣得最多。这是一个有趣而恰当的故事,但在这批数据中还另有隐藏。如果我们把三条竖线叠起来,对于每个月只有一条,因而不能轻易看出哪个营业点最能挣钱,但现在我们可以看到,本公司作为一个整体哪个月干得最好。

Figure 16. 一组条形图

Figure 17. 叠放的条形图

这两张图表都是同一信息的有效显示,但它们使用相同的原始数据讲述两个不同的故事。作为一名记者,工作中使用数据的要领在于,你首先要选择有兴趣讲解的故事。是哪个月经营最好还是哪个商店成为旗舰?这只是一个简单的例子,但它确实处于整个数据新闻的焦点,在走得太远之前要设问正确的问题。故事本身将引导对于可视化方式的选择。 条形图和折线图对于任何数据记者就像面包和奶油一样重要。由此出发,你可以扩展为直方图,水平图,微线表,流图,以及其他图表,彼此性质相似而适应于略微不同的场合,从文本角度着眼,这会涉及数据总量或数据来源,以及制图的坐落位置。

新闻工作中,经常使用的制图特质之一的就是地图。时间,总量和地理信息总是共同具备的。我们总是想知道,一个地区与另一个地区相比差距是多少,或者数据如何从一个地区

169

流向另一个。处理新闻可视化时,收进你的技能包中的流程图和定量专题地图是很有用的工具。知道如何适当地用彩色标识一张地图,而不是误报或者误导读者才是关键。政治地图通常对某些地区用彩色填满或者留白,即使所在地区仅仅赢得1%。使用彩色不必是二进制的专业选择,基于群组的彩色梯度可以谨慎地予以运用。理解地图是新闻工作的一大部分。各种地图能够轻易地回答5W原则中的“Where”。

一旦你掌握图表和图形的基本类型,才能开始构建富于想象力的数据可视化。如果你不理解这个基础,那么,你好比在不牢固的地基上盖房子。类似于你学习如何成为一个好作家,保持语句简短,把读者放在心里,以及不要自作聪明地把事情复杂化,而在于传达意义给读者。你也不应当借助于数据鲁莽行事。从小处入手乃是讲述故事最有效的方式,仅当需要的时候,慢慢地构筑你的新闻信息图。

有力的写作是简洁的。一个语句不应包含不必要的词汇,一个章节不应包含不必要的语句,事同此理,一张绘画不应有不必要的线条,而一架机器不应有不必要的部件。此处不是要求作家把他的所有语句缩短,或者避免所有细节,以及只在轮廓上处理主题,并且要求言简意赅。

Elements of Style (1918)

— 小威廉·斯特伦克(William Strunk Jr.)

在你的故事讲述中,可以不使用每一段数据。为了简洁,你不必请求认可,这应当成为规则。 — 布莱恩·苏达(Brian Suda), (optional.is)

七、数据可视化DIY: 我们的主要工具

在网络上会有什么样的数据可视化工具,易于使用而且免费?在数据博客和数据存储基础上,我们尝试运用互联网强大的自由选择来尽量做得更多。

这也许听起来有点儿不实在,实际上,我们显然可以访问卫报令人惊异的制图和交互群组,为那些我们还有点时间予以处理的片断——比如这张公共支出地图(用Adobe Illustrator制作)或者这份Twitter暴乱交互图表。

但是对于日常的工作,我们常常使用他人也用的工具—而且制作类同于他人的图形。 那么,我们使用什么工具呢? Google Fusion Tables

已经变成我们的默认手段,以求绘制快速和详尽的地图,特别是在需要缩放的场合。你能够获取全部高分辨率的Google地图,还能打开100MB的CSV数据。第一次试用它时,Fusion

170

Tables也许显得不易操作——要坚持下去。我们用它生成各种地图,像前面的伊拉克地图 主要的优点是灵活性——比如,上传一个有关地区边界的kml文件——随后把它与一个数据表合并。这也会得到一个新的用户界面,使得更便于应用。

你不必为了绘制地图成为程序员,——这个Fusion图层工具使你能够接合不同的地图,或者创建搜索和过滤选项.你之后可以把这所有地图嵌入一个博客或者网站。 这个由Google的Kathryn Hurleyk制作的教程,可以作为一个不错的起点。

用shpescape把官方的shp文件转变成你使用的Fusion表。而且,当心过于复杂的地Note

图—融合表不能处理在一个单元格中多于一百万个点。 Tableau Public

如果你不需要专业编辑的无限空间,Tableau Public是免费的。通过它,你可以方便地制作相当复杂 的可视化,处理十万行数据不在话下。当我们需要把不同类型的图表接合到一起时,我们同样也用它来实现 ——如同在这张环球最高税率图中所呈现的(其中也包含条形图)。

或者,你甚至可以使用它作为数据探索器——这就是我们下面Figure 20 通过美国联邦选举支出数据所做的。 (虽然在免费公众版本中我们耗尽了内存空间——这是需要注意的地方)。Tableau也需要以相当特殊的方法把数据格式化,才能倒入大部分数据。但经过数据整理之后,你就能够享受非常流畅的用户体验。例如,阿根廷国家报已经完全围绕 Tableau进行数据新闻运作。

Tableau有一些很好的在线教程供你起步。

Tableau是为PC机设计的,虽然有一个Mac版本正在准备中。如果你用的是Mac,可以Note

通过Parallels建立双系统来运行。 Google 电子表格图表

你可以在这里使用这个工具.

除基本图表以外(比如条形图、折线图或饼状图),你将会发现Google电子数据表(通过你的Google账户中的文档生成)可以创建某种相当优秀的图表——包括像汉斯·罗斯令(Hans Rosling)的Gapminder制作出的动画气泡图。与图表API不同,你完全不必担心代码的问题;和在Excel里制作图表没什么区别,你只需标识出重要的数据,然后在制图工具上点击几下即可。自定义选项也值得一试——你可以改变色彩、标题和大小。它们在设计上相当中性的,适用于小型图表制作。对于折线图也有一些不错的功能,包括注释。

171

Datamarket

作为众所周知的数据供应商,Datamarket实际上也是一件数据可视化利器。你可以上传你自己的数据或者使用一些他们提供的各种数据集——不过,如果你拥有专业版账户,选择的范围也会更广。 Many Eyes

如果有什么网站需要你特别关注的,那就是IBM的Many Eyes。它由Fernanda B. Viégas和Martin Wattenberg创立,对于允许用户轻松上传数据并且可视化来说,它的问世在当时是独一无二的。今天,因为它的创建者已经去为Google工作了,网站的配色变得有些单调而不那么招人喜爱了;而且在可视化方式上未见新意,显得有些过时。 Color Brewer

严格地说Color Brewer不是一个可视化工具,而是一个配色工具。你可以选取你的基本色彩然后得到整个配色编码。 更多

如果这些工具都不适合你,那么DailyTekk piece也是不错的推荐,它甚至拥有更多的选项功能。前面所述并不是说只有这些工具可用,只是那些是我们经常使用的。还有很多其他工具可供选择,包括:

Chartsbin,可用于制作交互数据地图 iCharts,擅长制作小型图表的控件

Geocommons,提供公开分享的数据与边界数据,一边制作全球和区域地图。 对了,还有piktochart.com,提供了很多当下流行的文字/数字可视化模板。 — 西蒙·罗杰斯(Simon Rogers),卫报

八、我们挪威《世界之路报》如何处理数据

新闻就是要把最新的信息尽快带给读者。最快的方式可以是视频、照片、文本、图表、表格或者是这些方式的结合。涉及到可视化,目的本是相同的: 快速传递信息。新的数据工具使记者得以找到各种故事,而且以新的方式呈现给读者。这里有几个例子说明,我们挪威最畅销的《世界之路报》是如何处理数据。 数字

这个新闻故事的基础是来自挪威统计局的数据,纳税人数据和来自洛托(Lotto)垄断

172

者的数据。在这张交互图表中,读者应能发现来自每个挪威郡县和市政当局的各种类型的信息。这张实际的表格显示用于游戏的收入百分比。此表使用Access, Excel, Mysql, 和Flash创建。 网络

我们使用社会网络分析对挪威最富有人群的157个儿子和女儿的彼此关系进行分析。我们的分析表明,挪威最富有人群的继承人也继承他们双亲的社交网络。虽然曾有多于26,000个连接,这张绘图是用Photoshop手工完成的。我们还会使用: Access, Excel, Notepad, 和社会网络分析工具Ucinet。

Figure 23. 绘制纳税人和彩票数据(世界之路报)

地图

从这张结合简单条形图的动画热图你可以看到,犯罪事件出现在奥斯陆闹市区地图上,在几个月时间里,整个周末,一小时接着一小时。你可以知道工作在同一时间警官数量。当犯罪真正发生时,警官数量常是最低的。使用ArcView并结合Spatial Analyst制成。

Figure 25. 动画热力图(世界之路报)

173

文本挖掘

对于这个可视化作品来说,我们对七个挪威政党领袖在他们大会上的演讲进行文本挖掘。所有演讲都经过深入分析,这些分析结果为新闻故事提供了独特视角。我们将每一个新闻故事联系到这张图表,这样读者就能对政治家们的说辞进行探索研究。这个图表是用Excel, Access, Flash 和 Illustrator创建的。假如这个可视化作品在2012年做的话,我们就会用Javascript来做成交互的图表。

Figure 26. 对政党领袖演讲进行文本挖掘(世界之路报)

总结词

什么时候我们需要可视化一个故事呢?大多时候我们不需要去做,但是,有时候我们这么做来帮助读者更好的理解新闻。包含大量数据的新闻故事往往需要可视化。然而,我们必须对所要展现的数据进行严格的挑选。我们自己当然知道关于报道的所有事情,但是读者真的需要知道这些吗? 或许一个表格便足已,或者仅仅是一张简单的图表展示出年A到年C的发展。从事数据新闻,提供大量数据不是必须的,要义在于新闻。

近两三年来,创建交互式图表和表格是个明显的趋势,这些交互工具能让读者深入探讨不同的主题。一个优秀可视化像是一幅优美的绘画。你看上一眼便会理解它在表达什么,仔细的看下去你就能获得更多。不过,当读者看得一头雾水,弄不清开头和终了,或者承载了过多的信息的时候,这个可视化就非常糟糕。在这种情况下,或许一段文本会更好些? — 乔治·波恩斯(John Bones),挪威世界之路报

174

九、公共数据社会化

数据是无价的。依靠数据有可能以触发问题解决的方式使问题明了。但是,数据处理不当可以使事实朦胧模糊而无法说明问题。如果它不利于促进讨论或者提供特定语境下的理解,那么对公众来说数据的价值是有限的。

经历了长年的军事统治,尼日利亚在1999年回归民主。探讨数据背后的事实曾经被认为是对权威的冒犯,被看作想要质疑和损害军政府的声誉。政府机密法案强制政府官员不能泄漏政府信息。尽管已经民主了13年,民众对于公众数据访问仍然是困难的。对于大多数不精通财经和会计,还有复杂的数学的人来说,公众消费的数据说明不了什么问题。 随着移动设备的不断增多,尼日利亚上网人数的不断上升,在BudgIT的帮助下,我们看到了通过数据可视化技术来解释并让公众参与公共开支的良机。为了做到这一点,我们不得不整合各个平台,并且通过各个NGO组织让民众能够参与近来。这个项目是要把公共数据社会化并建立一个值得改变的广泛网络平台。

Figure 27. The BudgIT cut app (BudgIT尼日利亚)

为了成功地让用户参与进来,我们必须理解他们的需求。什么是尼日利亚公民所关注的?他们觉得信息鸿沟体现在何处?我们怎样把数据跟他们的生活联系起来?BudgIT当下的目标受众是那些使用在线论坛和社交媒体的,且受到过平均教育水平的尼日利亚民众。用户的注意力是有限的,为了跟沉沁在丰富趣味的(网游,电子书,和网上社交)注意力进行

175

竞争,我们需要以一种简短有力的方式呈现数据。通过在一条推特或者是一个信息图表,受众就有可能更长久的通过一种更交互的体验参与其中。由此,用户也能看到更广阔的图景。 当可视化数据的时候,了解我们用户的数据素养水准是很重要的。复杂的图表和一些交互应用也许不能有效的与用户产生有效交流,是因为他们对数据的理解是基于之前的经验。一个好的数据可视化作品是要跟用户以一种他们能理解的语言进行交谈,并且讲述一个他们能够非常容易联系到自己的故事。

我们已经在预算内吸引了超过10,000尼日利亚公众参与其中。我们把用户分成三组,针对不同的组别传递不同的信息,以保证得到最好的传播效果。简单地说,有以下几类: 偶尔上网的用户

这些用户只需要简短、快捷的信息,他们只关心数据概况而不是细节的分析。因此,我们通过几条推特或是互动图表来吸引这类用户。 活跃用户

他们是那些会激发讨论,并且使用数据来增加他们在某一领域的知识,或者是会挑战数据的假设结果的用户。对这些用户来说,我们想要提供反馈的机制并通过社会网络与他们的相同类型的人分享见解的可能性。 数据爱好者

这些用户需要原始的数据用来进行自己的分析和可视化。那我们仅仅提供他们所需的数据就可以了。

在BudgIT的帮助下,我们的用户在以下几个方面参与了互动: 围绕目前的趋势刺激讨论

BudgIT追踪线上和线下的讨论并且努力题提供与话题有关的数据。比如,在2012年的一月发生的燃料罢工中,抗议者中对于燃料替代品,减少奢侈浪费和不必要的公众开销的呼声持续升温。BudgIT通过大众传媒追踪了这些舆论并且在繁忙的36小时内建立起了允许公民去重组尼日利亚预算的应用软件。 好的反馈机制

我们通过讨论渠道和社交媒体来使更多的用户活跃其中。很多用户想要知道数据背后的故事,还有很多人会寻求我们的意见。我们确保我们的回复仅解释数据背后隐含的事实,提供我们非个人且没有政治倾向的观点。我们需要保持反馈渠道畅通,为的是积极地回应社会评论和让用户创造性地参与,从而使建立在数据周围的社区得以持续。 本土化

176

对于一个定向于特定人群的数据系统,BudgIT旨在本土化它的内容和促进建立一个联系特定用户群的需要和利益的舆论渠道。具体说就是我们专注于建立一个短信平台,让我们的用户可以对他们感兴趣的事件进行互动。

自从在yourbudgit.com上实现数据的分享后,我们通过不同的NGO组织来接触到广大的民众。我们还计划发展一个可参与系统,在那里公众和政府机构可以在市政厅开会,决定那些需要优先处理的预算中的关键问题。

这个项目已经受到了从CP-Africa到BBC等本地和海外媒体的报道。我们为美联社的记者,Yinka Ibukun,验查了安全部门2002年至2011年度的预算。大多数媒体组织都是“数据爱好者”,也都希望从我们这里拿相关数据来进行他们的报道。我们正计划更进一步地跟记者和新闻组织日后的合作。

— Oluseun Onigbinde, 尼日利亚BudgIT

十、让人们活跃于你的数据周围

几乎跟公布你的数据一样重要的是从你的听众中得到反馈。你是人,不是神——是人就会犯错误,忘记事情,时不时地有错误的想法。你的听众是你能得到的最有用的资产之一——他们会复核你的事实,指出你也许从未考虑过的事情。

即便如此,但让你的受众参与进来却是很棘手的事。你将要跟一群多年来在特定条件下从一个网站跳跃至另一个网站的互联网用户打交道,而他们很可能除了讽刺的评论外不给你任何有价值的东西。建立起你的用户和你之间的信任是非常关键的。用户需要知道他们会得到什么,他们要怎样与之互动和提供反馈,并且知道这个反馈会被听取和采纳。

但是,首先你必须考虑你有什么样的受众,或者想要什么样的受众。如果这一点明确了,你就会明白你要什么样的数据,又要展现什么样的数据。假如这是关于一个特定的领域,那么你就要去探索与之相适应的交流与沟通方式。会不会有这样的行业机构组织,他们会愿意宣传你已有的资源和你已取得的成就给更广大的群体,并且你能够联系上他们呢?会有你能联系上的社区网站或者论坛吗?有没有特殊的行业刊物会想要报道你在数据中发现的故事呢?

社交传媒仍然是一个很重要的工具,尽管它还会取决于你正研究的数据类型。比如,你正查找全球航运统计数据,你很可能不会在Facebook或者Twitter上找到对你的工作特别感兴趣的群体。可是,如果你正筛选全球的腐败指数或者本地犯罪统计数据,那很可能是被更广大的群体所关注的。

177

一旦你在某个页面上赢得了大众,你需要考虑他们如何跟你的工作互动。确实,他们可能会读你写的故事,去看那些图表,可是我认为给他们提供一个回应的渠道是具有无穷的价值的。它很可能会给你关于你研究课题的更丰富的真知灼见,也许会提示你未来可能要做的话题。

首先,毋庸置疑,你得把原始数据和你的文章一同发布。你既可以发布一个CSV的数据文件,或者把它放在类似Google Docs的第三方数据服务上。这样就保证了单一版本的数据,如果后来你发现有需要更正的地方,你就可以随时根据需要更新他们。最好是两者都做。让人们尽可能方便地接触到你的原始资料。最好是两者都做,让人民尽可能容易地得到你的原始资料。

接下来开始考虑是否有其他能让你跟你的受众互动的方法。注意观察全局,看看哪部分数据受到关注——受到点击最多的地方很可能可以说明一些你可能遗漏的问题。比如,你也许不会考虑去考察冰岛的贫困统计数据,可是如果这些问题正在吸引足够多的注意力,或许这里有值得考察的东西。

跳脱评论窗口之外来看其本身,你能把评论和与电子表格中之有关的单元格联系到一起吗?或者是信息图表的特定区域?虽然大多数可嵌入的发布系统不能让我们这样做,如果你能创作出与众不同的东西,那还是非常值得一看的。万万不可低估这给你数据带来的好处。 确保别的用户也能看到那些评论——很多情况下,他们几乎具有跟你的原始数据一样多的价值,并且如果你独占这些信息,那么你是在剥夺他们享有这种价值的权利。

最后,别人可能想要出版他们自己的信息图和故事基于同样的数据来源——想想如何最好地把他们联系起来并宣传他们的作品。你可以使用一个\"#\"符号特别指向这个数据集,或者如果它是高度图画型的你可以在Flickr群组上分享。

提供一个更隐秘的途径来分享信息也许也是有用的---有时在大庭广众之下分享其他人对一个数据集的贡献对他们来说是不安全的,或者他们很可能仅仅是感到不自在。这些人会宁愿通过邮件或者匿名评论箱来提供信息。

最重要事情就是尽可能广泛和开放地分享你的数据。使读者有机会检查你的作品,发现你的错误,并且挑出你很可能疏忽的东西,这会使你的报道和读者体验都无限地改进和提升。 — 邓肯·金(Duncan Geere), Wired.co.uk

178

Top