数据新闻20:变与不变 数据创作者大会演讲实录

时间:2019-06-19

  大会围绕“数据新闻2.0的局面”、“数据叙事的新思路”、“可视化的理念与应用”、“数据新闻的未来出路”四大主题展开讨论,本文为大会演讲精华实录的第一篇——数据新闻2.0的局面。

  如何理解数据新闻2.0?它或存在于由多元创作个体与团体形成的“众创”生态中,或体现在数据新闻对传统新闻生产的革新上,或启发自数据新闻奖背后蕴含的国际新趋势,或由资深媒体人讲述七年实践经历的所思所感。

  大概七年前,我在美国密苏里新闻学院第一次接触到数据新闻。同时,我在美国的主流媒体NPR也见证了美国数据新闻的大发展。五年前我加入了当时尚未上线的澎湃新闻,并且参与筹备数据新闻栏目“美数课”。

  五年时间里,我们经历了从0到1的转变。团队里能够熟练掌握数据分析和挖掘能力的人,从最初两个人到十多个人。现在我们是一个从数据分析挖掘、采访,到可视化呈现、创意编程,以及前后端开发、2D3D设计、插画创作一条龙的全能团队,也收获了一些国际奖项的认可。

  比如我们连续五年时间获得了英国“信息之美”长名单入围。在最新的一届,我们挺进了短名单。就在前几天,我们去年制作的UGC产品《汶川记忆地图》,获得了亚洲出版协会“2019年度卓越新闻奖”的honorable mention。

  我见证了数据新闻从新生到成熟一步步向前发展。过程中有欣喜也有困惑:总觉得同行还不够多、数据还太少、专业性还不够。一直到去年七月创作者平台湃客·有数栏目的上线,我找到了一些答案。

  10个月时间,我们共花了529100元扶持数据创作者,总计发布1348篇稿件,39篇流量达到100万+,最终有了大家进场时看到的“数据创作者画像”。

  这群人中,有爱写文章的大厂程序员小哥哥,有带着学生一起严肃认真地“八卦”人口学的高校老师,还有在国家知识产权局工作的专利审查员,持续地做专利分析可视化……这些都是我们之前意想不到的数据创作者。

  他们关注的题材非常丰富,图中是发布在湃客·有数栏目上获得百万加流量的作品。标注颜色的是原本相对窄众的传播内容。也就是说,这些稿件它原来可能只是关注了垂直领域的热门话题,又或者说它只是面向专业读者的,甚至于只是一份课堂作业。但是当它放在正确的时间,正确的地方,就爆发出了巨大的能量。

  从湃客平台上数据创作者发布的稿件来看,除了我们所熟知的,经常被数据创作者关注的领域,还有文化娱乐、教育、司法等领域,都有很多的创作出现。接下来,我们想在各个垂直领域发现更多的数据创作者,这张图表上的空白会被一点一点地填满。

  我们畅想的未来数据传播格局,可能是这样的:量化研究和数据分析机构、垂类媒体可以贡献专业的分析能力;可视化制作机构可以推动可视化创新;数据和工具供应商可以补充公共数据的不足,并对公开数据进行深加工;机构媒体应该承担把关人的角色,结合自己的整合传播能力,把重要议题推向大众,驱动公共话题中的精确思考。

  我想给大家报告数据新闻对于传统新闻生产三个价值上面的革新。第一,数据新闻拓宽了传统新闻生产中的新闻来源。《聊斋》是我们复旦大学的学生作品,通过对《聊斋》白话版本进行文本挖掘,制定内容分析编码表,然后给五个族群的战斗力打分。

  在这个议题里,它研究的是《聊斋》的文本,但对于传统新闻生产来说,类似这样的文本它不大可能是你的新闻生产来源,但在数据新闻领域,它可以重新被盘活,将历史沉淀的文本资源重新利用。被盘活之后,它拓宽了原本新闻生产内容来源的储备,这是它的第一个价值。

  在传统新闻生产中,时间通常会放在开头,时效性对新闻来说非常重要。但是在ProPublica一则关注美国医药公司和医生之间金钱往来的情况的报道《Dollars for Docs》中,我们会发现它并没有一个明显的时间节点。

  同样地,在新闻消费的过程当中,是不是说我今天看过了这个新闻,明天这个新闻就已经成为故纸堆当中的垃圾了呢?也不是的。也许我搜索了我认识的一个医生,跟医药公司之间的往来,明天我搬家了之后,可能会搜索另外一个医生。

  无论是新闻生产还是新闻消费,时效性都被消弭了,时间节点不那么重要了,这可能是数据新闻对于新闻生产,或者说新闻价值的第二个挑战,不能说是挑战,应该叫革新,它打破了新闻生产原有的速朽特征,延长了新闻生产时间维度上的价值。

  这则报道展示了1860—2011年,全世界主要的20个国家二氧化碳的排放情况。在传统新闻生产中,我们认为发生了一个事件才要去做报道,因为新闻生产是以事件为基准而生产出来的。

  但是在数据新闻中,我们越来越多地看到,从历史维度出发,挖掘事件趋势,或者是寻找规律的报道。在80多年前,芝加哥学派的创始人帕克曾经说过:如果新闻能够以科学般的精准,来挖掘趋势和规律,将无异于一场持久而深远的革命。那么现在在数据新闻领域,也许我们正在见证这场革命的展开。这是我认为数据新闻对于我们新闻生产所带来的第三个革新。

  经历了多年发展,如今数据新闻或许正经历一个新的发展时期。下一个新的焦点可能是用数据来探索如何监督算法。比如说我跟谁相遇?我在网上回答谁的提问?我选择哪一条新闻观看?可能算法在默默的介入乃至影响我们的生活,它甚至有可能成为一个新的媒介。

  很多人好奇奖项是怎样评出来的,我简单地说一下,这600多件作品,首先由评委进行初选,保证每个作品至少有两个评委看。分作品的时候,也会考虑语言的成分,比如中国的作品会找一位懂中文的评委看。100多个初选作品入围后,包括我在内的21位评委进行终选,我们会打一个大概有六个小时长的电话会议,每个评委看三到四个不同的类别,大家一起讨论,这是个非常激烈的辩论过程。

  今天,我希望从我参与评委工作的这几年,和大家分享一下参评过程中所看出来的一些最新趋势。

  首先最明显的就是过去这几年,整个数据新闻从业者呈现出丰富的多样性。除了传统意义上的欧美国家,越来越多的国家和地区参与数据新闻的创作,亚洲地区参与度逐年上升,中国大陆现在已经排名第四。从参赛机构来看,早些年更多是传统意义上的大媒体,《纽约时报》、《彭博社》、《路透社》这样的,现在越来越多小型媒体、创业机构,或者以前没有参与数据新闻的国家比如古巴和蒙古,都参与进来了。

  近年来,业界的发展趋于成熟。成熟体现在几个不同的方面,在这种成熟之上,创新越来越难,但是创新也越来越被大家所认可。比如下图,十年前刚刚出现时,是让人很惊艳的可视化操作。但今天我们评委讨论时就会觉得,nothing new,也就是说,随着时间的发展,传统意义上酷炫的可视化越来越多地被常规化了。另外从人员构成上,数据新闻团队也越来越成熟,有各种各样技能不一的同事参与其中。

  与此同时,创新的可能性也越来越丰富。Vox的这则新闻中,Kavanaugh是当时美国最高法院官的候选人,被美国某大学心理学教授Ford指控性骚扰,这在当时是个很大的事情。

  这个可视化作品是基于两人在参议院的作证证词绘制的,蓝色和粉红色,它代表的是什么?代表了他们有没有回避某一个问题,持续五个多小时的听证会采用了问和答的形式,粉红色线条代表了他在回避这个问题,并且根据发言类型定义了几种不同的回避模式。这个可视化一目了然,心理学教授Ford没有任何一次回避问题,她一直在回答问题,尽管回答本身可能并不完整,官候选人则一直在回避问题。

  这是个交互作品,当你打开网页时,点击每一条线都能看到它原本的证词,读者可以自己做判断。作品本身没有任何算法介入,没有任何文本分析,全都是人为的分析,但是它是在24小时之内做完的。评委们都非常喜欢这个作品。它虽然没有很酷炫的可视化,但是它帮助每一个读者在24小时之内make sense,去理解到底发生了什么,从而理解那些情绪背后的事实。

  我想强调的第三点:对影响力的坚持。21个终选评委中,有很多都是老一辈的新闻人,他们对媒体价值的坚持,在我看来非常令人动容,在讨论的时候能明显地感觉到他们的坚持。

  这一点体现在三个不同的方面,一是从公共议题出发。在有选举制度的国家,每个人的选票都会影响最终结果。如今互联网非常发达,当很多虚假信息在网络上传播时,会影响到每一个个体信息的摄入和判断,从而影响他最后投出的那一票。Rappler是菲律宾的一个媒体团队,他们做了一个专题报道,不光看菲律宾本身,也看整个亚太。从民主的角度,看互联网对社会政治的影响,由始至终都围绕公共议题展开。

  二是坚持不懈的发掘真相本身。marshall project是一个美国团队,他们研究的问题非常简单,特朗普政府一直在缩紧移民政策,背后的一个假设就是新移民上升,导致了犯罪率升高。他们通过和大学合作,拿到数据做了一些研究,最后得出的结论恰恰相反:新移民虽然在上升,但在美国的大部分地区犯罪率都在降低。它其实是打破了一个被广泛传播的伪假设。

  另外,所有的评委都会一致性地追问,你的报道做出来很好,做得很漂亮、很扎实,然后呢?报道之后发生了什么?

  La Nación是阿根廷的一家媒体,《The Drivers 8 notebooks of curruption in Argentina 2005-2015》从标题中可以看出,这是一则围绕八本笔记本展开的新闻报道,笔记本属于一个阿根廷高官的私人驾驶员。在阿根廷,政府官员的贪污是一个很大的问题。那个驾驶员把他十年来亲眼见到的权钱交易记录了下来,并且是纯手写。

  媒体拿到这八本笔记本后,把手写文字全部数字化,从地点到金额,有哪些人介入,然后花了九个月的时间去调查,最后启动了司法程序。报道发表当天,直接逮捕了14个人,香港开码结果。发了30多个搜捕令。到它提交作品进入奖项时,已经有70多个官员落马,其中40多个已经在监狱里面。这就是经典意义上的一个媒体通过报道所希望达到的目的,能够真正推动一些实际的改变。

  在准备这个主题演讲的时候,我和另外几位评委都沟通了,我问他们如果给中国的从业者有些什么建议,他们会说什么。有两个人,一位总监、一位主席,他们都不约而同地讲到,不要纯粹地追求可视化。

  “待势乘时 勿忘初心”,我以这样八个字来结束我今天的主题演讲,趋势一直在变化,每年都在变,每年也会有更多的新人参与进来。如果你选择做数据新闻,这并不是一个简单的选择,但希望无论你在这个行业做多久,都能够不忘初心。

  这是我们最近做的一个题,讲的是美国网络电视平台巨头的布局情况。把每一个平台类比成一棵树,这棵树的树干代表了平台集资情况,树叶代表这个平台上的节目,红颜色和蓝颜色分别表示平台上的原创电视剧和电影。这就是把数据编码成了一个大家比较熟悉的东西,来帮助大家理解这个行业。

  这是第二个作品,我们发现现在奢侈品品牌非常喜欢卖跑鞋,并且这些跑鞋都是一些运动鞋的经典款。图上显示的是耐克1960年卖的特别火的,叫NIKE DUNK的一个款型,一些大牌就学这个款型来卖特别贵的鞋。我们做了一个交互图,把很多鞋摆在一起,你可以划过屏幕,看到每一只鞋的具体情况。

  这些作品想要达到的目的是一样的,就是如何有效地来传递数据和信息,如何有效地用数据来讲故事。

  我再给大家讲个很有趣的项目。过了25岁之后,我感觉特别焦虑,快30岁了,自己好像还一事无成。那个时候我读了很多书,比如说《习惯的力量》、《20到30岁决定性的十年》,还有比如说《Grit》,翻译成中文叫做《恒毅力》。

  这些书在美国被称为是Self-Help Books,就是励志书籍,或者鸡汤书。有很多女性和我一起读这些书,有一次我就问一个男同事说,你有没有读这些书?他说他不读鸡汤书,因为他不想让这些书代替他思考。那个时候我就想,这是不是一个性别问题?我觉得这是一个很有趣的现象,然后我在想是不是能够找数据来回答这个问题。

  Goodreads,美国一个类似于豆瓣的读书评分网站,我找了励志书籍这个分类下面最畅销的一百本书,来分析它的读者构成。我发现这一百本书中大概有30%的书是由女性作者写的,另外70%的书是由男性作者写的,但是真正读这些书的读者,大概有百分之七十几都是女性。这说明了一个什么问题?也就是很多女性在遇到事业、家庭、生活上的问题时,她是在听取男性的意见。

  分享这个是想说明什么呢?你有一个疑问,你可以通过数据证实,或者证伪你所发现的事情。从一个单一的事件上升到社会规律,社会现象,这件事情和很多社会科学做的事情很像,都是用定量的方法来回答问题。所以说学新闻,学点社会学也是非常有好处的。

  最后我想讲的这个项目是我去年花了非常非常久的时间,和我们Quartz的一个记者,联合另外两个媒体,一起做的一个比较大的调查新闻报道。

  2017年9月份,飓风玛利亚席卷了美属波多黎各岛,官方通报岛上一共死了64个人。但其实你去当地做报道,和当地的人聊,会发现有几千人死了,远不止这64个人。那为什么政府会说是64呢?我们想知道到底有多少人死了。

  于是,我们做了一个网络调查问卷,放在Quartz的网站上,同时和波多黎各的一个非营利调查新闻机构合作,让尽可能多的人来填这个问卷。问卷上收集的是填问卷人的基本信息,和他们所知道的死者情况的详细信息。最后有很多人填了这个表,这份问卷我们从2017年12月份开始收集,一直到2018年7月份,还有人在填这个表,告诉我们,他们认识的人过世了。但网络问卷有一个问题,信息真实度很难核实。我们还做了一件事,向波多黎各的卫生局申请公开信息,要求他们把这一年内的所有死亡登记信息给到我们,最后一共拿到了两万多条数据。我们把这两个数据库配对分析,看问卷中收集到的死亡信息,是不是能够在政府的死亡信息登记上找到。最后筛选出了一份二次问卷。

  我们在第二份问卷中加了更多详细的问题,然后对填表人进行电话回访。一方面是核实填问卷人的信息,另一方面又做了一次采访,了解这些人为什么会在飓风中死亡。

  电话核实后,我们最后一共收集了487个案例,可以看到第二年的2、3月份,还有人因为飓风而过世。为什么会发生这样的事情呢?通过这个数据库,我们发现很多人死于断电。没有电,医院里面输液的病人不行了。老人下楼,因为没有电摔倒了。或者有时候我想打个急救电话,没有电,我打不出去。还有一些人他可能到了医药站,但因为这个医药站没有电,拿不到药,他需要去下一个医药站,那他去不了。所以有很多问题是没有电造成的。

  还有一些人是因为他喝了受污染的水,感染了一些疾病。他没有在飓风发生的第一个礼拜,死于溺水或者房屋倒塌,而是过了两三个月之后死于疾病。

  还有一些人,他是抑郁自杀死的,大水把它的房子冲走了,他一辈子的财产没有了,最后抑郁自杀。这都是我们通过打电话,通过收集数据得到的一些结论。这个项目我全程参与了数据库的建立及后续统筹、问卷收集、打电话,过程持续了好几个月,因为参与了整个过程,我的感受非常深刻。数据新闻在介入公共服务领域,也可以产生很大的影响力,是非常有力量的。

  这件事情也可以说是政府的责任,为什么呢?政府一开始低估了数字,导致了后续的急救措施没到位。半个波多黎各岛在飓风过去三个月之后还处于断电中。这也是一个通过数据报道反思政府行为的数据新闻项目,最后产生了一些影响力。这是《纽约时报》数据新闻编辑Amanda Cox说过的一句话,当你不再区分数据新闻和新闻的区别时,数据新闻就成功了。

  那么,成功的数据新闻都有哪些特征?数据可以有哪些超乎想象的使用方式?明日组委会将奉上演讲精华实录第二篇:数据叙事的新思路。