1、1在线内容早期传播的影响因素研究摘要:随着信息技术快速发展和新媒体的兴起,海量互联网用户对信息的贡献和传播使得在线内容展现出了前所未有的繁荣;然而,在线内容中的大多数在发布后不久便淡出了人们的视线,只有少数内容能够持续传播并成为网络热点,其中的原因尚有待研究和解释。以信息分享和在线内容传播相关理论为基础,通过访谈关注微博新闻消息的用户,识别影响内容早期传播的因素,并抓取相应传播数据进行验证,结果表明,在线内容的初期传播与内容的信息质量有关,同时受发布时在线用户活跃度影响。 关键词:在线内容;早期传播;信息分享;微博 中图分类号:F062.9 文献标识码:A 文章编号:1003-3890(201
2、3)05-0085-05 一、引言 随着信息技术的快速发展,以社会化媒体为代表的新型互联网应用不断诞生和繁荣,从最早的博客、播客、维基一直到最近流行的社交网络、微博客,不同的互联网服务平台上累积了庞大的用户基础。据iUserTracker 最新的调查显示,截至 2012 年 5 月,社区交友服务覆盖人数超 4 亿,渗透率达 80%,其中,微博及 SNS 的覆盖人数最多,微博覆盖人数约为 2.7 亿人,SNS 覆盖人数约为 2.6 亿人。借助这些平台,用户持续不断地发布和传播着各种各样的信息,使得互联网在线内容呈现出2欣欣向荣的景象。 在繁荣的背后,可以关注到在线内容特有的现象:少数内容在短期内
3、获得了大量的关注和传播而成为热点,而大多数内容则人气平庸,在诞生后不久便退出了人们的视线。这一现象,在具有协同过滤(collaborative filtering)功能特性的社会化媒体中显得尤为突出:用户往往只关注和传播自身感兴趣的人发布的内容,从而形成基于兴趣的关注链条,当内容符合用户群体的兴趣时将得以沿着链条持续传播,否则将很快停止传播并消退。这使得在线内容的传播成为了包括企业组织和政府机构在内的许多社会化媒体用户所关注的问题,因为准确而实时的在线内容流行度预测一方面使得企业能够通过对内容访问的定价和广告投放实现收益的最大化(Lerman 和 Hogg,2010)1,另一方面有助于政府把握
4、和掌控网络舆情,积极回应民众通过网络渠道的诉求并治理传播中的有害信息。 尽管对在线内容的流行度(popularity)和网络热点的研究提出了不少能实时发现热门话题的算法和模型,然而对于特定在线内容是否能够成为热点的问题则有待进一步的研究探索。基于此,本研究首先对国内外有关研究进行介绍和评述,然后以新闻微博帐号为研究对象,采用用户访谈与历史数据抓取与分析相结合的方式,探索并验证在线内容早期传播的影响因素。 二、相关研究评述 在国外,在线内容流行度的预测已经受到学者们的关注。Wu 和Huberman(2007)通过分析 上近 100 万人的互动情况,确定数3千个新故事的关注的增长和消退,并验证了
5、一个用于预测故事生命周期的动力学和统计分布的理论模型2;Saha 和 Sindhwani(2012)提出了一个基于文本内容的在线非负矩阵因子分解框架,用于预测即将产生的热点主题,并且取得良好效果3。 在国内,不少学者也提出了不同的网络热点探索和发现方法,如刘星星等(2008)面向互联网新闻设计了热点事件发现系统,能够根据大规模数据自动发现特定时期内的热点事件4;基于已有的热点挖掘和舆情分析技术,吴方照(2012)实现了一个完整的网络热点话题挖掘与分析系统,能够确保获取的热点话题的时效性5。这些研究的特点在于基于一定的算法构建模型,然后通过网站的宏观历史数据对模型进行验证,并且能够用于新热点的发
6、掘和预测。然而,这些模型无法用于对具体内容的传播以及流行度的预测,而对于具体的用户而言,更关心的往往是特定的内容(通常是用户自身发布的内容)能否获得广泛传播并成为热点。要回答这一问题,首先需要理解在线内容传播的过程。 在线内容的传播通常可以分为早期传播和长期传播两个阶段。在早期传播阶段,内容的传播主要受到哈罗德拉斯韦尔提出的传播“5W”(Who says what in which channel to who with what effect)模式,即内容发布者、内容本身、传播媒体(渠道) 、内容接收者以及传播效果的影响,因为在这一阶段,内容往往只是传播至发布源的直接关注者,二次传播尚未开始
7、;而长期传播,则受到包括协同过滤机制在内的许多其他因素的影响:一方面,一些内容的接收者进一步也成为内容的分发者,因而后来的内容接收者将可能感受到多个层次的内容来源4(Sundar,2007)6;另一方面,媒体对多次传播的内容提供了多样化的线索,这些线索能够帮助用户评估内容,从而也会影响内容的进一步传播,如在新浪微博中,已被用户大量讨论的话题会成为热门话题,从而出现在首页右侧的热门话题榜中,进一步引发了其他用户的关注和讨论。 尽管内容的长期传播机制十分复杂,然而多个研究表明,内容的早期传播情况对长期传播有良好的预测能力。例如,Szabo 和Huberman(2010)的研究表明,在线内容的长期流
8、行度(popularity)可以通过早期的用户访问量来预测,其误差不高于 10%7;Lerman 和Hogg(2010)指出,尽管大量因素在影响内容传播的先验预测,但基于早期内容出现的用户反应能够预测内容未来的流行度1。因此,部分学者将研究重点放在了在线内容的早期传播上,并探索出了一些可能影响用户分享内容的意愿并最终影响内容流行度的因素,如发布者(来源)的可信度(Ha 和 Ahn,2011)8、内容质量(Agarwal 等,2008)9、接收者对内容质量、风险的感知和信任(厉钟灵,2012)10、用户的动机(Marett 和 Joshi,2009)11以及对在线社区的参与度(Chang和 Ch
9、uang,2011)12等。这些研究的特点在于回归到微观的传播行为中,基于对个体用户行为意愿的研究得出结论,所采用的模型的因变量往往是用户对内容的分享或转发意愿而非实际的早期传播效果,因而有待在实际的传播情境中进行验证。 综上所述,本研究将从内容发布者的实践出发,重点关注与内容发布相关的因素对早期传播的影响。 三、研究设计 5(一)研究对象的选取 本研究选取了目前国内最为流行的一类社会化媒体中的内容传播,即微博中的消息转发作为具体的研究对象。微博(micro-blogging,又称微博客)作为继博客、视频网站、社交网络和维基以后出现的一种新型社会化媒体,其特点在于信息技术的集成化与信息传播的社
10、会化,它一方面允许用户通过多种渠道随时在上面发布文本、图片、链接和地理位置,另一方面允许用户关注并分享自身感兴趣的内容,具有信息发布门槛低、信息传播速度快和信息收发干预难的特点(刘渊,2011)13。这些特点结合微博庞大的用户基础,使得微博多次在国内外重大公共事件中发挥重大作用,如国外的 2009 年的伊朗绿色革命、2011 年日本东北地方太平洋近海地震以及国内的 2011 年“723”甬温线特别重大铁路交通事故等。由于具备较强的媒体影响力,不少企业乃至于政府均试图利用微博成为自身信息发布及宣传、营销的渠道。因此,选取微博作为具体的研究对象,有助于增强本研究对现实的指导意义。 进一步地,本研究
11、选取了新浪微博中的“头条新闻”帐号(http:/ 1 600 万的关注用户,有助于降低单个关注者对内容传播的影响,使得该帐号所发布的内容的流行度更能视作海量用户传播行为的结果,否则,内容传播可能高度依赖个别具有较大影响力的关注者的转发,从而不利于对影响因素的研究。该帐号所发布的消息均为新闻6消息,内容具有较强的同质性,有助于控制用户对消息类型的偏好对传播的影响。该帐号 7 天 24 小时实时发布新闻消息,有助于研究在不同时段发布内容是否对传播造成影响。 (二)研究变量的选取 内容的信息质量影响了用户对信息的使用(Nicolaou 和McKnight,200614;厉钟灵,201210) ,在具
12、体的研究中,学者通常用感知信息质量(perceived information quality,PIQ) ,即用户对其信息期望和实际信息产出之间的差距的感受来测量实际的信息质量(Bailey 和 Pearson,1983)15。根据这一定义,对于同样的内容,不同用户可能由于具有不同的期望而产生不同的感知;当内容本身有差异时,由于不同的学者在不同的研究中发展出了不同的 PIQ 框架,因此对 PIQ 的测量可能缺乏信度,因为此时无法区分所测量到的 PIQ 差异到底是来自内容的不同,还是来自用户之间的感知差异。不过,根据双重加工理论,如精细加工可能性模型(ELM)和启发式-系统模型(HSM) ,以及
13、以此为基础的一系列研究,用户可能会依赖于一些简单的、易于判断的线索来对内容进行判断(Petty 和 Cacioppo,198616;Chaiken,198017;Sundar,20076) 。例如,用户可能会认为图片有助于帮助说明事实,因为比起文本内容来说,图片更难伪造,因此对于附带图片的内容,用户可能有更高的感知信息质量;消息的长度可能会给人以论述更为详细、完善的感觉,从而具有更高的质量;附带链接的内容,能够予用户以旁征博引、引经据典的感受,使得用户感到发布者客观、严谨的态度,从而对其发布的内容有更高的感知质量(Ha 和7Ahn,2012)8;等等。与内容本身内在的质量相比,这些与内容高度相
14、关的、客观的内容线索一方面能够影响用户对信息质量的感知,从而可能影响了用户转发消息的意愿;另一方面则是易于观察和测量的客观因素,能够提高研究的信度。 为探索可能影响用户转发意愿的影响因素,本研究基于前人的研究,对“头条新闻”帐号所发布的消息进行观察分析,整理出可能影响用户转发的因素。由于“头条新闻”帐号在自身发布消息的同时也会转发其他帐号所发布的消息,对于这些消息,用户可能在对消息来源的感知上产生不可控制的差异,因此本研究排除了这部分转发的消息,只考虑该帐号原创发布的消息。这些消息的基本特点如下:新闻内容在一开始先以“”符号给出新闻标题,然后通过一段不超过 160 字的文本对新闻内容进行摘要描
15、述,然后附上详细的新闻链接,部分新闻消息还附上了图片。鉴于所有的新闻都附有链接,因此本研究只选取新闻消息的长度以及新闻消息是否附带图片这两个变量,作为测量新闻消息的信息质量的变量。 由于信息质量与具体的应用情境有关(Eppler 和 Wittig,200018),为了进一步确认在微博的情境下,所选取的变量是否确实影响了用户对信息质量的感知,本研究设计了相应的访谈提纲,并且邀请“头条新闻”帐号的关注者和消息转发者进行访谈。访谈提纲具体如下: (1)你是“头条新闻”帐号的关注者吗? (2)你曾经转发过“头条新闻”帐号发布的原创消息吗?如有,请指出你最近转发的一条消息。 8(3)你通常通过何种渠道看
16、到并转发“头条新闻”帐号发布的:a.在自己微博首页上看到原消息 b.看到他人转发后自己再进行转发 c.其它,请说明_ (4)你是否认同更详尽的新闻更有价值/有说服力/质量更高?请探讨你的看法。 (5)你是否会查看新闻消息附带的图片?你是否认同附带图片的新闻更有价值/有说服力/质量更高?请探讨你的看法。 (6)你的微博首页上显示的最早一条消息与最新一条消息相差_分钟。 (7)请描述你访问微博的习惯和频率。 (8)收集人口统计数据,包括性别、年龄、学历、职业等。 本研究共向 9 位微博用户发出了访谈邀请,其中 7 位做出了回应,6位最终完成了所有问题。6 位受访者的人口统计数据如表 1。 6 名受
17、访者均为“头条新闻”帐号的关注者,并且至少通过自身微博首页看到并转发过一条该帐号原创发布的新闻消息;其中 5 位受访者认同更详细的消息更有价值的观点,除了 FLR 认为“短的消息便于用户快速理解和接收,可能更利于传播” ;尽管只有 2 名受访者会点开新闻附带的图片,但所有受访者均认同附带图片的新闻会更有说服力。 此外,由于本研究关注的是内容的早期传播,而微博的内容呈现采用的是将关注者发布的消息按照发布时间的倒序呈现在用户微博首页的“时间线”机制,因此在用户访问微博首页的时刻,过早的消息可能会从首页消失,用户只有通过翻页或点进发布者页面才能看到。由于不同9媒体的早期传播持续时间不同(Szabo
18、和 Huberman,20107) ,本研究首先统计了用户首页所呈现的消息的时间范围:6 名受访者微博首页上最早一条消息与最新一条消息平均相差 10 分钟,因此本研究假定, “头条新闻”帐号发布新闻消息后的 10 分钟内属于早期传播阶段,在这一阶段发生的消息转发绝大部分均为帐号关注者直接从自身微博首页中关注到所发布的消息(而非通过他人的转发)的行为。 最后,根据“时间线”机制,在内容发布的时间点,有多少关注者正在使用微博,将对消息的早期传播有重要影响。本研究通过了解受访者的微博使用习惯,发现在一天当中的几个时间段(下文简称“黄金时段” )里,用户访问的频率较高,具体为:8:30-10:00;1
19、1:30-14:00;16:30-18:00;22:00-23:00。此外,对于上班族的受访者,周末的访问习惯与工作日有所差异。 根据访谈结果,本研究建立了如下的多元回归模型: TMR=0+1L+2P+3W+2G+ 其中 TMR 代表消息在发布后 10 分钟内的转发次数,L 代表消息的长度;P、W 和 G 为虚变量,P 代表消息是否附带图片(0无,1有) ;W代表消息发布日是否为周末(0否,1是) ;G 代表消息发布时间是否处于黄金时段(0否,1是) 。 四、数据收集及处理 本研究通过新浪微博开放平台,对“头条新闻”帐号的发布和传播数据进行抓取。新浪微博开放平台是基于新浪微博系统的信息获取和发
20、布平台,被广泛用于各类基于微博的网页端、电脑客户端以及移动客户10端应用的开发。该平台提供了丰富的访问接口以供开发者使用。本研究采用了 Python 脚本语言与 SQLite3 数据库,基于新浪微博开放平台提供的 Python 软件开发工具包构建数据抓取程序,收集了“头条新闻”自2012 年 12 月 2 日 0 时至 2013 年 1 月 19 日 24 时期间所原创发布的 1113新闻消息,以及这些消息在发布后 10 分钟内的 234283 条转发消息。 抓取完成后,研究人员利用 SQL 语句对数据库中的数据进行了整理和合并,形成回归模型所使用的数据。在这 1 113 条微博数据中,10
21、分钟内的最少和最多转发数分别为 0 次和 2 193 次,平均被转发 210.50 次;最短和最长的消息分别为 74 字和 198 字,平均为 144.85 字;其中 425条消息附带图片,282 条消息发布于周末,351 条消息发布于黄金时段。 最后,本模型利用 SPSS 17.0 中的多元线性回归功能,对数据进行回归分析。由于模型中包含控制变量 W 和 G,因此回归时采用 ENTER 方法,使得所有自变量均包含在模型当中。对回归方程拟合优度的检验结果显示,调整后的可决系数 R2 为 0.63;方程总体显著性F=19.744(p0.001) ,表明回归模型在 0.1%的水平上显著。对自变量的显著性检验结果如表 2: 结果表明,在微博新闻消息的早期传播阶段:(1)消息中的平均每个字能贡献 1 次转发,显示用户更加青睐详尽的消息;(2)附带图片的消息平均能增加约 55 次转发,这表明“图文并茂”确实能够帮助内容的传播;(3)发布时间是否位于黄金时段对传播的影响较为显著,一方面表明 10 分钟的早期传播假定具有其合理性,另一方面与用户访谈结果相吻合;而是否位于周末则不太显著,其原因可能在于使用微博已经成为