1、1大数据时代的传播观念变革摘要:以大数据时代的特点为背景,分析了当代传播观念的变革,特别是大数据分析及其价值发现对新闻传播的影响。主要从重新理解数据、信息、新闻的相关关系,以及从“用事实说话”到“让数据发声”的数据新闻学兴起两个方面对相关主题进行了阐述,以期为新闻传播观念的创新理解提供思路。 关键词:大数据;新闻传播;数据新闻;数据分析;信息 中图分类号:G206 文献标识码:A 文章编号:1000-2731(2014)01-0139-07 大数据(big data) ,或称巨量资料,根据 IBM 的定义,大数据的特点可以用 4V 概括:Volume、Veloci-ty、Variety、Ver
2、acity。Volume 是指数据体积量大,一般在 10TB(1TB=1024GB)或跃升到 PB 级别的规模;Variety 是指数据类型繁多,如网络日志、视频、图片、地理位置信息等等;Veracity(也有人认为是 Value)指其价值密度低,以视频为例,在数十小时连续监控录像中,有利用价值的数据可能仅有数秒。也正因此,其数据真实性高。Velocity 是指数据处理速度快,基本能够做到对数据的实时处理。有 1 秒定律之称,这一点和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、手机、平板电脑、PC 以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载和解读的方式。
3、 2当然,从表面上来看,大数据时代的关键是如何在各样类型的巨量数据中,快速获得有价值信息的技术。但其深层的目标,即非技术层面的目标更值得我们从事社会科学研究的人们关注,我们更需要关注的是如何顺应潮流,在思想、观念层面进行自我更新。目前主要是指,经过对数据处理和分析,如何在合理时间和空间内达到撷取、管理、处理、并整理成为帮助信息获取者或决策者对目标达成新的认识和理解的信息。这个概念涵盖了人们在大规模数据的基础上可以做的事情,而这些事情在小规模数据的基础上是无法实现的。也是当今数字化时代应掌握的一种新型能力,是“以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见
4、”的能力。掌握这种能力即把握住了社会思想的“变革之力” 。 一、重新理解数据、信息、新闻的相关关系 数字化时代来临后,社会经历了这样一个过程:信息数据(大量的)信息爆炸(从量变到质变)信息形态的变化(大数据) 。我们可以在大数据的基础上做到一些在小规模数据基础上无法做到和完成的事情。 对于理论研究者来说,要关注的不是承载数据的产品,而是数据本身和我们如何运用这些数据。当我们十多年前在谈论信息爆炸的到来时,我们的数字世界一直在扩张,2012 年每天都会有数亿条微博发布。有研究者试图对人类所创造、存储和传播的一切信息的确切数目进行估计,包括书籍、图册、报刊、信件、电话、照片、音乐、音视频(模拟和数
5、字,包括电视、电台节目) 、电子邮件、电子游戏、导航应用等等,这些3数据有着非常庞大的数量。研究者发现,2000 年时,在全部数据存储量中,数字信息只占四分之一,但到 2007 年,在全部数据中存储量中只有7%是以模拟数据存储在报纸、书刊、图片等媒介上的。至 2013 年,世界上存储数据中的非数字数据只占不到 2%。互联网上“每天新浪微博用户发博量超过 1 亿条,百度大约要处理数十亿次搜索请求,淘宝网站的交易达数千万笔,联通的用户上网记录一天达到 10TB” 这种量的增加对我们来说意味着什么? 如果我们翻阅史料看到一则一千三百多年前邸报上的新闻,再看看现在报刊上的新闻,会发现这两篇文字之所以被
6、认为是新闻,因为它们都具有新闻的“内核” ,即具备新闻的五要素,读后知道何时何地发生了什么事情。我们是否也会像毕加索那样,在看到一万七千多年前旧石器时代洞穴壁画上的马,和一张马的照片或画时说,自那以后我们就再也没有创造出什么东西了。这种说法既正确又不完全正确。正确是因为这些文字仍是一则新闻;不完全正确的是,改变还是存在的,唐朝的报纸上写出一条新闻要历时很长时间,而现在不需要那么久了。想象一下,数字化时代,微博和自媒体的运用,使一则新闻瞬时产生。还有,获得新闻的读者或许存疑新闻信息中有不准确的信息,但疑惑很快又被几十则文字新闻或数幅、数十幅照片解释了。一则纸媒时代不起眼的“豆腐块儿”新闻,可能在
7、几十分钟内被百万、千万次拷贝、转载,变成社会大新闻,甚至引发一场社会变革。这就是一种由量变导致的质变。物理学和生物学告诉我们,当我们改变规模时,事物的状态有时也会发生改变。如纳米技术专注于将东西变小而不是变大,到小到一定程度时,物4质的物理性质就会发生改变。新闻信息也是一样,虽然新闻还是那则新闻,质没变,但量变了,情况就会发生改变。 大数据的核心是预测,它通常被视为人工智能的一部分,但它不是要让机器像人一样思考,而是用一定的分析方法,通过对海量数据的分析来预测事情发生的可能性。一则新闻的“跟贴”数量能说明什么?一则新闻被转载的次数又说明什么?面对海量的跟贴,我们只要通过关键词输入和搜索,就能了
8、解跟贴的基本态度。不久的将来,许多现在单纯依靠人类判断力的领域也都会被计算机系统改变和取代。在我们还没有对传播学上的“议题设置功能”理论完全失去热情时,网民已转向,他们只关注他们想看的新闻,他们只附和和他们意见相同的观点,表达他们想说的话。当研究广告市场、消费者的人员还没有从问卷调查、抽样、访谈等传统手法中脱离出来,大数据时代的“全员”调查数据已经出来。大数据时代应有三大观念转变:第一,在分析处理时使用的是全部数据,不再依赖随机抽样。第二,不再一味地追求数据的精确性,而是适应数据的多样性、丰富性、甚至要容忍错误的数据。第三,了解数据之间的相关性,胜于对因果关系的探索。 “是什么”比“为什么”重
9、要。 19 世纪以来,社会研究一直依赖于抽样分析,这是信息缺乏时代和传播受限制的模拟数据时代的产物。20 世纪以来,传播学经验学派一直执著于调查抽样的研究方法。以前我们通常将之视为理所当然的接受了,因为大面积区域,广泛的调查是人力物力所不能及的。但大数据时代为我们获得相关的所有数据提供了可能。另外,信息的数字化,使得所有5信息都能以最简单的方式获得不失真的完美的副本,而且越来越廉价的存储技术和存储设备,使得大规模存储信息变得成本低和易于提取,数据提取使用的无地域、无国界性,为人们带来更大的便利。 在传统抽样调查中,我们最关心的是样本设计的科学性、抽样的典型性、分析的有效性等,这是适用于掌握“小
10、数据量”的情况。当我们测量事物的能力受限时,关注的最重要的事情和获得最精确的结果是可取的,也是正常的,因为我们不得不精准地量化记录。但是,在大数据时代,我们可以凭自己的意愿,分析“所有”相关的数据,但绝对的精准已不再是我们追求的主要目标,面对海量的数据,我们只需要掌握大体的方向就可以了。这就像我们用人民币“分”的单位去精确度量国民生产总值一样没有意义。当然,这么说也不意味着精确在大数据时代不再重要,只是“我们不再将之作为追求的主要目标。因为适当忽略微观层面的精确,会使我们在宏观层面拥有更好的洞察力” 。 传统新闻写作中强调一则新闻要素齐全,即 5 个 W,一个 H 都要交待清楚。这其中的 1
11、个 W 是 WHY,即事件为什么会发生。寻找因果是人类长久以来的习惯,也是人类智慧的象征。在以往,空间相对独立的社会中,这种追问是必要的,因为找到原因后我们才能尽量避免悲剧和痛苦的发生。但随着技术的发展,社会主体相互的关联度越来越高,在多数情况下,一件事情的发生,原因都是多方面的。如社会上发生某个事件,当我们追问为什么时,最有可能得到的回答是:综合原因。当然, “如果能从中得到因果关系更好。问题是,因果关系往往很难找到,通常我们认为找到了的时候,都是在自欺欺人” 。 6在大数据时代,我们没有必要再将关注的重点放在事物之间的因果关系上,而是需要寻找事物之间存在的相关关系。即使相关关系不能准确告知
12、我们某件事情为何发生,但会提醒我们这件事情正在发生。对于被海量信息包围着的每个个体来说,正在发生什么的各种提醒已经足够多了。当然,同样,这里说的不再热衷于寻找因果关系,并不是不寻找因果关系。人类永远可能不会放弃追求了解因果性,因为对因果关系认识的追求是人类超越计算机的智力优势。这里只是让我们了解到另一种新颖的价值观,之前预设的立场或“假设”暂时不存在了,用数据说明,看数据能告诉我们什么。 “大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。 ”数字工具将数据化提升到新的高度,不
13、仅移动电话能跟踪到某人的位置,数据还能用于断定人是否生病了。 大数据为精确性新闻和预测性新闻提供了延伸报道的空间。模拟时代为精确性新闻而作的数据分析耗时耗力,每个问题都需要我们去收集和分析数据。而将模拟数据转换成计算机可以读取的数字化技术的使用,使数据的存储和处理变得便捷和容易。过去几个月才能完成的数据收集,现在只要几天就能完成,大大提高了其运用效率。 在新闻传播领域,大数据时代多媒体的运用,使人人都可能成为新闻信息的提供者,专业性变得不那么重要了,也使各种可能性和相关性占主导地位,这就是为什么网络传播普及后,我们经常听到“每个网民都可以成为把关人” “草根媒体人”的说法,但即便如此,媒介行业
14、专业7人士仍将存在,只是他们必须学会去发掘海量数据中可能与新闻信息有关联的、有价值的东西。随着数据化工具和方法成本的不断降低,越来越多的事物均将数据化(文字、方位、内容等等) 。新技术使这种数据分析和转换使用成为可能。大数据为我们创造了前所未有的可量化的维度,大数据已经成为新发现和新服务的源泉。当然这句话表达的意思也适用新闻信息传播。 上述第二个特征是建立在第一点的基础上的。传统手段中使用抽样的方法,需要在具体运算上非常精确,否则会有“差之毫厘,失之千里”的情况。可以设想一下,在一个总样本是 20 万的报刊订户中,随机抽取200 人,如果在这 200 人的相关运算上出现错误的话,那么,放大到
15、20万中,会有多大的偏差?但在当前的全样本时代,有多少偏差就是多少偏差,不会被放大。大数据背景下,调查者能快速获得相关问题的样态轮廓和发展脉络,要比对其精确性的追求重要得多。 上述第三个特征是关注相关性,表明变量 A 和变量 B 有关,或者说A 变量的变化和 B 变量的变化之间存在一定的正比关系或反比关系。但是,相关性不一定是因果关系(A 未必是 B 的因) 。人们都知道著名的亚马逊的推荐算法,即这种算法能够根据消费记录,了解到用户可能会喜欢什么。当然这些消费记录也有可能是其他第三人或第四人的,或是该用户历史上的,但它不追寻其中原因,只承认,A 和 B 的相关性很高。 二、从“用事实说话”到“
16、让数据发声”数据新闻学兴起 2013 年又被人们称为“大数据元年” 。目前,世界上几乎所有的与互联网相关的企业,都将其业务触角延伸至大数据产业。2012 年美国政府8启动“大数据研究和发展计划” ,投资 2 亿美元将大数据应用提升到国家战略层面,使大数据由一个技术名词演变成信息社会变革的引擎,影响着社会生活的方方面面。这也提醒我们,大数据时代的媒体转型既是技术进步的课题,也是发展战略课题,将对目前媒体形态和格局发展走向产生深远影响。 “如果数据被赋予背景,它就成了信息;如果数据能够提炼出规律,它就是知识;如果数据能够借助于各种各样的工具在分析的基础之上为我们提供正确的决策,它就是资源。 ” 大
17、数据时代要求媒体必须适应新的信息生产和传播方式,在获取、生成、解读、分析数据方面,探索为受众和用户提供分众化信息服务的媒体发展之路,这也将成为媒体竞争力的要素。 因此,目前对媒体来说,数据新闻(Data Journalism)将是一种新的新闻生产方式。如 1990 年开始的电脑辅助新闻、2000 年开始数据库新闻。计算机在社会上应用以后,新闻业有精确新闻报道的形式。信息化时代来临的上世纪 80 年代开始的精确新闻,90 年代,西方新闻学界提出计算机辅助新闻(Com-puter Aided Journalism/Reporting) ,它们都是传统新闻接受数字化挑战而做出的转型努力。2010 年
18、后,面对大数据时代的来临,新闻业界又在新闻实践中引入数据新闻的概念。与精准新闻相比较,数据新闻主要在三个方面有所变化。首先,数据新闻所分析的数据量级已远远超过传统新闻操作中数据图表。其次,网络媒体的出现,使得互动式可视化效果在新闻作品中的呈现成为可能。最后,精确性新闻更多的是文字为主、数据为辅(data for the joumalism)或是数据与文字相辅相成(data with the iournalism) ,而数据新闻则是数据为9先、文字在后。数据新闻更多的是对数据的展示。因而数据可视化(data visualiza-tion,也有人称之为信息可视化 information visua
19、lization)成为数据新闻的重要组成部分之一。2010 年 8 月,著名记者米尔科?洛伦兹(Mirko Lorenz)在他负责的一个名为“数据驱动型新闻” (data-driven iour-nalisra)项目中提出,数据新闻报道有四个步骤,即挖掘数据过滤数据数据可视化新闻报道制作完成。这是一个线型且立体的报道流程:一方面是处理数据;另一方面,要对这些获得的数据不断检验,包括要质询数据的信度与价值。最后再通过多种运算手段与传播渠道发布完成。从数据新闻可以更简单而清晰地让受众明了复杂的情境。从某种意义上说,数据新闻实际上整合了从传统的调查新闻到统计、从设计到编程的若干个专业领域。它对新闻从
20、业人员提出了更高的要求,除传统的文字写作、音视频制作外,还要求从业者熟练掌握社科研究方法,以及数据抓取、处理,并将数据可视化,还需要运用平面/交互设计、计算机编程等多个领域的能力展示新闻事实。数据新闻学是运用多学科、多种技术手段,将数据以交互性的可视化作品呈现给人们,即是以一种客观、易于理解的报道方式呈现给公众。 伯明翰城市大学的教授保罗?布拉德肖(Paul Bradshaw)在其数据新闻的倒金字塔结构一文中,用“双金字塔模型”来表示数据处理的过程,其中包括数据汇集、数据整理、数据理解和数据整合四个部分。当然,数据处理的最终目的是要完成数据的可视化并实现有效传播。这种数据新闻的传播是以“正金字
21、塔结构”进行,操作顺序包括了可视化、叙事化、社会化、人性化、个人订制化和使用等六个步骤。 10当然,上述这些努力和尝试还处于探索阶段。研究者们还将继续摸索大数据时代新闻报道的经验。2012 年 4 月 30 日,哥伦比亚大学新闻学院宣布接受某基金会提供的 20 亿美元经费进行数据新闻学研究项目,这项研究将专注于以下三个方面:第一,发现并寻找新运算方法工具(围绕数据所设计和运用的) ,衡量其是如何影响受众及媒体资源。第二,关注所有公开的大数据,发现哪些是可利用的,哪些是不可利用的,其中价值的隐藏有何规律;什么类型的数据可能与人们的生活息息相关的;发现大数据带给新闻报道的价值。第三,将数据以可视化
22、、形象化的方式在报道中呈现,衡量并发现哪种方法传达信息、吸引读者最有效。 数据新闻的完成需要电脑程序员、数据分析师与编辑、记者密切配合。程序员的工作是辅助记者并帮助他们挖掘数据,将庞杂的各类数据转化为可以被普通记者识别的电子数据表,然后,记者在分析这些电子数据表的基础上,与程序员一起将其转化为易读的和可视的文字、图片或表格。 数据新闻一般会占据新闻页面最显著的位置,并与记者的文字报道相辅相成。例如,英国卫报 (Guardian)在 2011 年的伦敦骚乱中运用数据新闻的方法,即运用城市地图清楚标出发生骚乱的地点,并用色块的大小来标明骚乱发生的严重程度,帮助读者更好地理解事态进展和及背后原因。 数据的价值并不仅限于特定的用途,它可以为了同一目的而被多次使用,也可以用于其他目的。数据可以通过重组、扩展等多种方式再利用,这就是数据的价值。这些数据已经或将会存在,但还需要人类通过