1、 西南政法大学 本科毕业论文 ( 20 届) 大数据对传媒行业运行的挑战和问题应对 所在学院 专业班级 新闻 学生姓名 学号 指导教师 职称 完成日期 年 月 2 大数据对传媒行业运行的挑战和 问题应对 基于 卫报、头条新闻案例的 思考 分析 摘要 随着数据绝 对量的无限扩张和人们利用数据能力的大大提升,大数据对各领域的影响也越来越明显。以信息生产、传播为核心的媒体行业对大数据的利用更是首当其冲。一方面,大数据渗透到了信息采集、制作、流通、反馈等各个环节。另一方面,由于大数据本身的特点以及监管体制的不完善,一些弊端也逐渐凸显出来。本文在分析大数据的概念、特征基础之上,结合具体案例,探索了大数据
2、对媒介产品生产、流通过程的具体影响,由此提出了“完善大数据时代信息来源渠道”、“培养媒体内部大数据技术人才”、“生产标准化大数据产品”等解决方案。 关键词 大数据 ; 传媒行业 ; 新闻生产;网络安全 ;著作权 3 Impact and Challenges of Big Data on the Media Industry Abstract: With the unlimited expansion of the amount of data and the improvement of peoples ability in using the data, the influences of
3、 Big Data in various fields have become increasingly evident. Information production and dissemination being its core business, media industry becomes the first to be affected in the utilization of Big Data. On one hand, Big Data has influenced every aspect of the information collection, production,
4、 circulation, feedback, and so on. On the other, some defects of Big Data also gradually emerged as a result of the characteristics of Big Data itself and the imperfect regulatory system as well. Based on the analysis of the Big Data concept and characteristics, and with reference to specific cases,
5、 this paper probes into the specific impact of Big Data on the production and distribution of media products, and reveals some of the problems the media industry may encounter when using Big Data, and thereby presenting a complete picture of the status of media industry development in the age of Big
6、 Data. Key words: Big Data media industry story producing Internet security copyright 4 按 照美国未来学家阿尔温 托夫勒在第三次浪潮的 中的说法, 迄今为止的人类文明分为三个革命性的阶段:第一阶段是从从原始的渔猎采集时代到农业革命之前的漫长年代;第二阶段是以工业革命为标志起点的文明,这一阶段以群体化、标准化、同步化、大型化、集权化为特征;目前人类正经历着以信息革命为代表的第三次浪潮,进入了信息绝对量高度发达的信息社会。二十一世纪以来,随着新的信息技术以及互联网的发展,信息社会迈向了新的阶段 大数据时代。 大
7、数据时代 意味着信息绝对量巨大,同时也要求人对这些空前泛滥信息数据的挖掘、处理、整合、利用的能力大大提升。因而以信息为逻辑起点的传媒行业必然会面临一定的机遇和挑战。传媒行业由此产生的的变革在新闻生产过程、新闻内容形式、受众参与传播以 及传播效果方面都有一定的体现,而与此同时表现出来的种种弊端也应引起相应的重视。 一、 “ 大数据”的概念及特征 (一)大数据的概念 大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理,成为帮助机构经营决策更积极目的的资讯。大数据对象既可能是实际的、有限的数据集合,如某个政府部门或企业掌握的数据库,
8、也可能是虚拟的、无限的数据集合,如微博、微信、社交网络上的全部信息。 1 最早提出“大数据时代”的机构是国际权威咨询公司麦肯锡,2011麦肯锡在 其年发布 的大数据:下一个创新、竞争和生产力的前沿报告中指出:“ 大数据是指大小超过了典型数据库软件工具、存储、管理和分析能力的数据集。” 该定义有两方面含义:第一,目前符合这一标准的数据集大小并不固定,会随着技术的差异和时间的推进而变化增长;第二,不同部门对这一标准也有区别。目前来看,这一范围大概在几 TB到数 PB之间。 (二) 大数据的特征 学界对大数据的特征的定义有 3V、 4V和 3V1S,其中价值( Value)既是特征又是 第三次浪潮:
9、美国社会未来学家阿尔温 托夫勒著, 着力于研究当代社会的变革方向,书中主要观点认为, 今天的变革是继 农业文明 、工业文明之后的第三次浪潮,这是 人类文明 史的新阶段,是一种独特的 社会状态 。 大数据:下一个创新、竞争和生产力的前沿 :第一份具体阐述“大数据”概念、技术、应用的研究报告,由美国麦肯锡研究院发布。 5 对大数据应用的描述。笔者重点对大量、速度和多样三个特征进行阐释。 1.Volume(大量), 指数 据量是非常庞大的,主要体现在数据储存量和计算量上。大数据中的数据不再以 GB或几个 TB为单位来进行衡量,而是 以 PB、 EB或 ZB为计量单位。以照片为例,目前人类社会总共拍摄
10、了超过 3.5万亿张照片,绝大多数以数码储存,如今人们每两分钟拍摄的照片数就比整个十九世纪拍摄的照片总数还多。而对调查研究来说, 大数据将随机样本转变为了全体数据,得到的结论具有绝对性。在某种意义上,意味着抽样调查的时代已经结束,调研的科学性、准确性上升到了更高的境界。 2.Variety(多样),一是指数据不断增新,增长速度快;二是指数据储存、传输 等处理速度快。大数据的多样性体现在三方面:第一,数据来源多,相对于传统数据,大数据广泛来自泛互联网数据、机器互联数据和行业企业数据等,其中尤为明显的是互联网和物联网的发展,带来了诸如社交网站、传感器等多样数据;第二,数据类型多,并且以非结构化数据
11、为主。大数据中有 70%到 85%的数据是图片、音频、视频、网络日志、连接信息等非结构化和半结构化的数据。而在传统模式中数据大多以表格等形式保存;第三,数据之间关联性强,频繁交互,如个人在社交网络上上传的照片和日志等可以定位出其具体位置、行程等。 3.Velocity(迅速 ),首先,大数据的增长速度极快,未来的网络流量将快速增长。 Facebook创始人 Mark表示:“社交分享信息量正在以倍数增长,每年用户所生产的信息总量将会翻番。”其次,要求对大数据的处理速度极快。传统的数据系统都采用批量处理的方式,但对于大数据应用来说,必须要应用实时数据流处理。速度对于大数据至关重要,比如对灾难的预测
12、,需要极快的对灾难的程度、影响区域进行量化。 2 二、 大数据对媒介产品生产机制变革 媒介产品生产 可以分为 生产方式和信息内容两个部分。 大数据作为一种技术和储存手段,对上述两个方面均产生了明显的 影响,笔者将以新闻产品的生产为例,对其依次展开分析。 (一) 大数据对媒介机构生产方式的影响 1.大数据成为信息产品生产的重要资源 传统的新闻生产主要依靠媒体记者根据各种新闻线索进行调查、采访写出新闻6 稿件,再经过媒介机构的一系列把关环节最后形成新闻成品。在大数据时代,这种新闻生产方式会发生根本性的变革。首先,信息源变有限为无限,打破了官方的垄断情况,记者自主调查的范围也大大扩大。 另外, 与记
13、者的个人观察得出的判断相比,这些直接的采集自物体本身的数据将更为精确。 为此,传媒机构通常会建构大型数据库或设立专门 部门制作数据产品。 “卫报”集团对此的应用值得借鉴。 2011年英国骚乱 期间,“卫报”在 伦敦 暴乱的关键事实与数据 这一报道中 ,对有关 骚乱 的 260万条 Twitter内容进行综合整理,并做出清晰的可视化图表,得出了“在此期间 Twitter主要被用来应对骚乱事件而非起到煽动左右”这一结论,直接否定了一些权威传统媒体对此的分析报道。该 报道 后来 获得了由 GEN ( Global Editors Networks) 和谷歌联合颁发的 2012 年首届“数据新闻奖”
14、( Data Journalism Awards)。由此可见,大数据成为了媒体正确报道客观、可靠的来源。 2.大数据催生出全新的新闻“二次生产”模式 前述以“卫报”为代表的例子中,媒体 虽 依靠大数据的庞大资源使得新闻报道的 优势变得更 加突出 ,但其依旧是遵循传统的媒介信息生产方式, 生产的中心环节仍然以人工把关为主。 而今, 大数据已然可以冲出数据储存这一功能限制,本身成为新闻生产的核心环节 。 3 “今日头条” 新闻应用软件 正是 这一方式的代表。“ 今日头条 ” 是 北京 字节跳动科技有限公司推出的一款基于数据化 挖掘 的个性化信息推荐 引擎,目前属于用户增长最快的 新闻 资讯 类客户
15、端 。 4 与 普通阅读类应用的个性化推荐模式 不同 , “今日头条”直接根据人们在网页上浏览信息产生的浏览数据,向受众提供与其最相关的信息。在其整个运作 过程不涉及任何人工筛选、加工,也不产生新的数据, 而是将各个新闻媒体发布的巨量新闻数据进行撷取、分析,进而根据新闻数据的重要性和关注程度推送给用户阅读 。 对数据的“二次加工”成了这一应用产品的核心生产环节。 (二) 大数据对媒介内容的影响 英国骚乱: 2011 年 8 月 6 日在 英国 首都 伦敦 开始的一系列社会 骚乱 事件。骚导火索是 2011年 8 月 4 日在 伦敦 北部的 托特纳姆 ,一名 29 岁的黑人男性平民 马克达根 被
16、伦敦警察厅的警务人员枪杀,民众上街抗 议警察暴行。 骚乱波及了英国诸多大城市。 伦敦暴乱的关键事实与数据 : 卫报对英国骚乱所做一系列的数据化报道之一,发布于 2011 年 8 月 10 日。 7 在媒介内容方面,大数据的应用催生出了新类型的媒介内容,并为传统形式的媒介内容提供了新的检验标准。以传 统新闻产业为例,新闻媒体在大数据的支撑下发展了新形式的数据新闻和预测新闻,同时提高了传统新闻产品价值评价的标准。5 1.数据新闻 数据新闻又称驱动新闻,即 用数据处理 ,以数据及分析为主要内容的新闻。 6 一方面,数据新闻将 传统的新闻敏感性和讲故事的能力与大规模的数字信息结合起来。另一方面, 从数
17、据新闻流程来 看,在数据新闻生产过程中,媒体 对海量数据进行提纯、分析, 可以 挖掘 出 数据背后的故事,帮助公众理解 其中蕴含的 深意 。 2014年全国两会期间,央视特别节目 “两会大数据” 就是一个完全以数据新闻为内容的新闻 栏目。栏目组 与 亿赞普 ( AJS) 大 数据公司 合作, 制作 出了全球各地对中国两会关注程度的 3D图像,配以主持人欧阳夏丹的解读, 新闻信息变得形象、准确、生动。 另外, 焦点访谈系列节目“问计两会” 也以数据分析的方法来制作新闻,完善了之前略为单一的评述形式。 7由此可见,依托于大数据而出现数据新闻已经独立成为一种新的新闻报道形式,并已经在主流媒体上得到广
18、泛应用并获得了相当的肯定。 2.预测新闻 大数据预测是基于大数据和 既有的预测模型 去预测未来某件事情的概率 ,使得 分析从“面向已经发生的过去”转向 了 “面向即将发生的未来” 。近 年来互联网巨头依次开发了众多的预测产品。 2014 年巴西世界杯期间, 百度大数据成功预测了淘汰赛阶段 16 场比赛中 15 场的比赛结果 ,引得了业界的赞叹。因而基于大数据的预测功能,预测新闻的前景则是一片看好。新闻媒体依托大数据的预测功能更好的完善其预测新闻有着很好的前景可言。 预测新闻并非大数据时代开创的新闻形式,然而大数据的运用可以使得预测新闻得到了进一步的发展。 如果媒体能广泛借助大数据技术来进行重大
19、趋势的预测与分析,那么它的预测准确程度 就会 得到有效提升, 其对社会的作用也便会提升。 三、 大数据对传媒行业运行的挑战 (一) 大数 据时代,网络与信息安全面临新的问题 在 大数据 时代,信息安全危机加重的原因及表现有以下几个方面: 8 第一,网络黑客的主要攻击目标转移到了大数据上。首先,大数据囊括内容的复杂性与敏感性使得更多黑客对此感兴趣。其次 , 由于大数据使大量相关数据的汇集,因而网络攻击往往一次可以获得更多信息。 第 二 , 是大数据加大个人信息安全风险 。当下的法律当中名没有对于 敏感 信息数据作出明确界定 , 而 很多 技术方在对大数据利用分析时也并 未考虑到其中 的隐私问题,
20、而是将所有信息“一视同仁”的对待 。 8 第 三 , 大数据存储带来新的安全问题。 大数据储存 的一个特点就是“信息乱放” ,对数据的管理并没有明确制度, 因而很多不法分子便会轻易接触到各种私密信息。 (二) 大数据时代, “二次加工”的 信息版权问题惹争议 上文提及,以大数据为核心环节的新闻生产模式即“二次加工”模式对媒介产品的生产行为产生了巨大变革。然而这种机制的不完善,导致其面临了诸多的法律侵权问题。 1.“二次加工”模式直接呈现的信息内容涉及版权问题 依靠 “大数据”模式 生产的新闻信息实则 是将 规模庞大 的 信息数据进行整合、分析、筛选,这种“搬运工”的角色必然使得信息的版权归属引
21、发争议。例如, “今日头条” 所 筛选的新闻信息包括并无著作权的 时事新闻 和 享受著作权保护的文字作品。 对于这些有著作权的信息,以商业目的加以刊载的 “今日头条” 就必然要争取得著作权人或传播者权人的“使用许可”。 然而,就目前来看,“今日头条”并不存在任何征求著作权人许可的程序,其高速的运作机制也不允许这种程序存在,因而在此问题上,“今日头条”便面对了许多质疑。 2.深度链接模式凸显了版权问题 深度链接行为不同于普通搜索引擎所提供的链接行为,搜索引擎的行为是基于 户自主行为而发起的,而深度链接体现了链接提供方的主动性与针对性,即 通过大数据技术, 提供方根 据不同受众的不同需求提供了为其
22、“定制”的链接信息,这种深度链接 模式 其实已经完全脱离了搜索引擎被动性和中立性的特点,已经演变成为对内容进行特殊推送服务“内容发布者” 。 因此 ,从法律层面来看也就 不能以普通搜索引擎免责事由进行抗辩。 (三)大数据给媒体机构及从业人员带来新挑战 1.媒体人员数据意识不足 9 传统媒体从业人员依赖文字、感性表达的习惯根深蒂固。一方面,由新闻媒体发展的历史以及其在社会系统中的角色所决定,传统媒体往往注重新闻记者调查、采访以及理性分析的能力,新闻产品一般是这一系列活动的产物,新闻成品再现了事物 的一系列因果关系,其间数据很少是媒体从业人员所重点考虑的因素。即便是很大程度上依赖数据的经济新闻报道
23、,其更多的也只是原始数据的罗列,不能很好地将数据做到“可视化”处理,展现给受众。长久而来,记者便普遍缺乏数据意识。大数据时代的到来要求记者对数据变得敏感,甚至要求数据成为新闻成品中重要的要素,这一要求使得很多媒体从业人员很难马上适应,因而媒体的转型依旧缓慢。 就国内情况来看,数据新闻等依托大数据的媒介形式仍然没有收到足够的重视记者和编辑的个人作用仍然主要控制着新闻内容的呈现。 2.国内数据库水平受限,媒体机构缺 乏专业数据分析员 实时数据库 是 唯一可以支撑海量数据的数据平台 ,是媒体在进行向数化转型的重要依托。然而在现今阶段,媒体自己拥有的数据库在规模和质量上都难以达到先进的水平,因而往往需
24、要和数据库公司进行合作。 目前 中国 的国产数据库产品 以 达梦数据库、 OSCAR 数据库 、 iBASE 数据库 和 GBase 数据库为代表, 些数据库 主要以 电子政务 为主要市场,与媒体行业合作较少。相比而言,在 广大的商用市场 上 , 主导的仍然是国外的数据库公司,如 Oracle、 MySQL 和 DB2。然而,在很多方面,国外数据库都不能与国内媒体完成较好的 对接。媒体在所取数据产品的信息来源时受到了很大的限制。另一方面,媒体本身缺乏专门的数据分析人员,在面对已经获得的大数据之后,很难从中提取出具有新闻价值的内容,国内目前从大数据所揭示的依然是一些浅层次的内容。这一点上与国外主
25、流媒体差距很大。例如,中央电视台对大数据的运用处理代表了国内主流媒体的的领先水平,然而在央视以一系列主打大数据的栏目,如 2014 年的“据说春运”和“据说春节”栏目 ,基本都是对数据直接的展示,分析综合的内容较少。 四、 传媒行业对大数据的挑战的应对 基于以上分析,大数据的诞生对媒体机构、媒体从业人 员以及信息产业的运行模式等都带了相应的冲击。在此情况下,我们应以意识到大数据给传媒行业带了广阔发展前景的前提下采取相应的应对措施,使得大数据对传媒行业发挥更多正面的作用。 10 (一)完善信息来源的渠道 大数据影响媒体运行机制变革的一个重要方面在于,海量的数据丰富了媒介产品生产的信息资源。但与此
26、而来的一个问题时,面纷繁复杂的信息资源,目前尚无一条合理的渠道使得媒介对此有效提纯处理。对此,媒体应主动积极和各数据库交流,完成对接,形成专门针对媒体行业的报道的数据库。实际上,数据库的专门化发展对于大数据 产业来说也是一条势在必行之路,从而,各行业对数据利用和处理的效率便会大大加快。 (二)在媒体内部培养大数据技术人才 大数据的发展方方面面,既有针对传媒行业也有针对广阔其他领域的部分。而在此情况下,媒体机构若想利用大数据获得更好的发展,就需要培养针对媒体大数据的专业化人才。首先,这部分人员要熟悉了解媒体生产、运营方式,有充分的媒介素养,对传媒产业发展现状有明确把握。其次,在此基础上,他们需要
27、具备云计算等大数据的分析、处理能力,着重对新闻来源等与媒相关的信息提取、处理、综合,挖掘出大数据中具有新闻价值的内容。最 后,通过对信息的可视化处理等,清晰地把数据及分析展现给媒介受众。此一系列流程可以通过在媒体内部组建大数据新闻报道团队、专门的数据化新闻处理部门等加以解决。 (三)生产大数据的标准化产品 由于网络资源的开放性与便捷性,媒体机构在应用大数据之时会产生侵犯著作权、隐私权等情况,如上述“头条新闻”面临的困境。因此,媒体行业应该致力使得生产过程流程化、规模化、合法化。首先,媒体要确立一套数据管理、应用、核实的机制,对数据的准确性、真实性进行严格把关。第二,争取信息产业“二次加工”的合理合法性。媒介搬运、组集信 息产品的生产模式已经被实践证明是面对受众需求的高效信息生产方式,然而这种方式面临的侵犯版权等问题成了制约其发展的最大障碍。对此情况,相关媒介机构之间应该达成某方面的转载许可,使这种二次加工成为一种互利的形式。 四、结语 在以信息技术革命为代表的第三次浪潮中,许多国家都纷纷把发展信息化作为国家战略进行推进。今天,信息产业的发育和发达程度已经成为衡量一个国家经济水平和综合国力的重要尺度。 1993 年,美国率先提出建设信息高速公路计划,我国