1、1微博搜索、网页搜索对用户信息需求满足能力的对比分析摘 要:文章通过对已有研究成果的分析总结,结合专家建议,将用户进行微博搜索时的信息需求归纳为七类:新闻信息、实时信息、明星公众人物信息、社交人际关系信息、公众舆论信息、机构公司信息、知识性信息,并基于这七类信息需求设计调查问卷,考察了微博搜索对用户信息需求的满足能力,同时与网页搜索进行对比研究,分析了两种搜索方式在满足用户不同信息需求方面的能力差异,以及产生差异的原因。 关键词:微博搜索;网页搜索;信息需求;问卷调查 中图分类号: G254.97 文献标识码: A DOI:10.11968/tsyqb.1003-6938.2016104 Ab
2、stract Based on the study of existing research results and expert suggestions, the information needs of users when searching in micro-blog are divided into 7 categories: news information, real time information, celebrity information, people information, public opinion, organization information and i
3、nformative information. According to these categories, a questionnaire is designed to examine the ability of micro-blog search and web search in meeting users information need. A 2comparative study is conducted to show the differences of two search engines ability and the reasons behind the differen
4、ces. Key words micro-blog search;web search;information need;questionnaire survey 1 引言 随着互联网技术的发展,互联网应用模式已经由传统的“人-机”交互模式变为“社会化”交互模式1。在用户生成海量内容的 Web2.0 时代,如何对信息资源进行再组织,使得用户快速高效地搜索到所需信息或知识,已经成为业界学界广泛关注的话题和研究领域。 传统的网页搜索引擎利用爬虫软件采集资源,而爬虫软件抓取信息的滞后性会影响搜索结果的质量,此外,许多用户不再满足于旧式的“人-机”搜索体验,他们更期望利用在线社会网络(Online S
5、ocial Networks,OSN)进行沟通协作来获得质量更高的智能化搜索结果2。于是, “社会化搜索”的理念应运而生。 Teevan J 等3认为传统搜索引擎建立了信息与信息之间的关系,在线社会网络建立了人与人之间的关系,而社会化搜索则将信息与人关联起来,重建了一种人与信息之间的映射。当前,实现社会化搜索的平台与工具可以分为四类:一是专业的社会化搜索引擎,如谷歌的 Social Searcher;二是在线问答社区,如知乎、百度知道;三是社会化标注系统,如 CiteULike;第四类则是社会化媒体,包括 Facebook、Twitter、人人网以及本文讨论的新浪微博等。 微博因其开放、简洁、
6、易操作的特点吸引了众多用户,而用户在发3布、传播信息的同时使得微博又成为一个重要的信息平台。Jansen B J等4研究表明,人们不仅利用微博分享信息,还利用微博搜索所需信息。据中国互联网络信息中心发布的2014 年中国网民搜索行为研究报告显示,截至 2014 年 6 月,中国互联网用户在微博上进行搜索的比例达到57.1%。作为社会化搜索的重要实现方式,微博搜索也引起了学界的关注与研究。当前学界对微博搜索的研究多着眼于微博短文本的特征,通过改善、革新算法、检索策略等方式提高检索结果的质量,很少有研究从用户的视角对当前各类微博平台的搜索功能进行探索与评价。 本文通过对已有研究成果的分析总结,结合
7、专家建议,将用户进行微博搜索时的信息需求归纳为七类:新闻信息、实时信息、明星公众人物信息、社交人际关系信息、公众舆论信息、机构公司信息、知识性信息,并基于这七类信息需求设计调查问卷,考察微博搜索对用户信息需求的满足能力,同时与网页搜索进行对比研究,分析两种搜索方式在满足用户不同信息需求方面的能力差异,并探究产生差异的原因。希望研究结果对改进现有微博搜索系统的工作有参考价值。 2 相关研究 微博自出现就吸引了众多学者的研究兴趣,早期的微博研究多集中于微博的文本特征、微博用户及其行为、微博传播模式等方面5。如曹鹏等6认为 Twitter 允许用户以多种格式自由转发消息,使得系统中存在大量重复或近似
8、消息,他们提出通过统计字符种类和最短编辑距离两种字符串距离计算方法来判定 Twitter 中近似或重复的消息。J Weng 等7在分析 Twitter 用户之间的关注(follow)与被关注关系后,提出了4一种基于 PageRank 的扩展算法 Twitter Rank,用以衡量微博用户的影响力。B Suh 等8在大规模数据分析基础之上,总结影响微博转发率的因素,并据此建立了一个预测微博转发模型。 微博在不同情景下的应用与影响一直是一个研究热点。如 Hawn C9探究了包括微博在内的一系列社会化媒体为现代医疗行业带来的变革;吴敏10通过实例分析研究了媒体微博营销的现状,通过分析微博的传播特性指
9、出微博用于商业营销的可能性以及优势,并结合媒体特点提出对未来微博营销的设想和建议,等等。 近年来,随着微博信息量的快速增长,用户从微博中获取信息的需求逐渐增多,微博检索也得到了越来越多的关注与研究。当前,国内外学界对微博搜索的研究多从搜索服务提供方的角度出发,通过改进各类搜索引擎的检索策略与算法,来提高检索结果的质量。 微博检索与传统文本检索之间的差异使得传统的网页检索技术不能满足微博搜索的需求:一是微博文档相较于网页具有很多独有特征,如文本短小(不超过 140 个字符) 、含有大量缩写、表情符号之类的不规范用语以及有特殊含义的标签“” 、 “#”等;二是在对微博搜索结果进行排序展示时,除了要
10、考虑文本的语义相似度外,还需要考虑时间远近、微博发布者的影响力等因素11。围绕以上问题,学者们做了大量相关研究。如李锐等12认为:每条微博都有发布者,发布者都有或多或少的个人信息,如果将作者的信息融入检索模型,作为对微博短文本的补充,可以提高检索效果,他们在 TREC 公开数据集上进行了实验,验证了新模型的合理性; Massoudi 等13在微博检索过程中考虑了多种能刻5画微博质量的因子,如是否包含表情符号、用户的粉丝数、微博长度、转发数等,通过对这些因素经验性的线性加权来提高检索结果的质量;除了对检索策略的改进外,还有学者研究可视化在微博搜索结果中的应用,如周霞娟等14用关注度传递算法对搜索
11、进行扩展,将返回的特征词对微博用户进行可视化展示,并提供用户可查看的,与选定特征词或用户相关的微博,方便用户高效地定位感兴趣的微博信息。 有少量学者也从用户角度出发,对微博的搜索功能进行研究。如Golovchinsky G 等15在分析 Twitter 现有搜索功能的不足后,通过问卷调查的方式研究 Twitter 用户进行微博搜索的原因,并提出了一种新的、改进的 twitter 搜索结果展示方法;Teevan J 等3先以小部分人群为样本,通过访谈调查等形式总结用户为何使用微博搜索功能,又通过对大规模 Web 搜索日志和 Twitter 搜索日志进行对比研究分析,验证上述动机,发现人们在微博检
12、索中更加趋向于搜索实时性的内容 ,而且在 Twitter 中的检索表达式平均长度短于网页检索; Elsweiler D 等16结合日记研究和网上问卷调查两种方式,调查了用户进行微博搜索的动机以了解他们的信息需求,相关结论有助于设计出更好的微博搜索系统。这些学者关于用户使用微博搜索原因的研究是本文对微博搜索中的用户信息需求进行分类的基础。 3 研究方法 3.1 问卷设计 3.1.1 信息需求种类的确定 调查微博搜索对用户信息需求的满足能力,首先要确定用户想借助6微博搜索满足哪些方面的信息需求,更简明的说法就是用户利用微博搜索哪些方面的信息。 通过文献调研可以发现,已经有多名学者对“用户利用微博搜
13、索寻找什么?”这一问题进行了研究,如 Gene Golovchinsky 和 Miles Efron15探讨了用户进行微博搜索的原因,他们通过发放网络问卷的方法获得了 23 名 Twitter 用户关于搜索频率、信息需求类型的反馈。结果显示,最为常见的四类信息需求是事件、找人、流行话题、文档信息;Jaime Teevand 等对微软公司的 54 名 Twitter 用户进行问卷调查,让被调查者用文字描绘自己使用 Twitter 搜索什么类型的信息。在得到调查结果后,用扎根理论总结出 Twitter 搜索的信息需求类型,并请 4 位Twitter 活跃用户对结果进行了改进完善,最后共总结出三大类
14、信息需求。第一类是即时信息,其中又包括新闻事件信息与实时信息两小类,其中实时信息指的是如路况、天气、网络状况等信息;第二大类是社会信息,社会信息又分为几小类,第一小类是关于“人”的信息,如公众人物、用户自身、用户相识的人、陌生人等;第二小类社会信息是社会群体对某一特定事物的整体意见,可概括为公众意见及舆论;第三大类信息需求是话题信息,指的是 Twitter 中有标签标注的特定讨论话题。David Elsweiler 和 Morgan Harvey16探讨了用户进行微博搜索的原因,其中对用户的信息需求类型有简单提及,如寻找公众意见等,但更多侧重于用户的动机,如反复搜索以跟进事件信息、寻找之前浏览
15、过的微博等。由于对本文关于信息需求类型的界定帮助不大,在此不再赘述。 通过对比参照可以发现,上述三个研究关于“微博搜索满足用户哪7些方面的信息需求”的研究结果有很多共同之处,同时也存在一些差异。通过对三篇文献研究结果的整合、改进,并结合 3 位专家的建议,本文决定从新闻、实时信息、明星公众人物、社交人际关系、公众舆论、机构公司、知识性信息七个方面设计问卷问题,以考察微博搜索满足用户信息需求的能力。 3.1.2 具体问题设置 由于问卷问题多、耗时长,且被访者要具有相当的网络检索能力,所以可以获得的样本数量比较少,约 100 人。为了避免因为样本数量少产生偶然性偏差以致得出不正确的结论,本文以七个
16、方面的信息需求为基础,设计相似但不相同的两份问卷(问卷 A、B) ,将被访者分为两组,一组作答 A 卷,另一组作答 B 卷,方便在结果分析阶段进行对照。 传统的网络搜索引擎(如百度搜索)与新兴的微博搜索有着密切的关系,为了对这二者进行对比研究,每份问卷的 11 道大题下又分为A、B 两小题(见表 1) 。同一道大题的两小题题干相同,不同之处在于题A 要求用新浪微博搜索完成,题 B 要求用百度搜索完成。 3.1.3 问项设置 在每一道小题之后,都会请参与调查者记录下完成该题的搜索次数、所用时间、使用的搜索功能,同时请用户对自己完成任务的程度、以及任务难度进行评估(时间单位为分钟) ;微博搜索功能
17、提供“1.综合 2.找人 3.图片 4.兴趣主页”四个选项,百度的搜索功能提供“1.网页 2.新闻 3.视频 4.地图 5.贴吧 6.其他”六个选项;完成程度提供“1.无从下手 2.基本解决 3.完全解决”三个选项;任务难度提供“1.很容易 82.容易 3.一般 4.困难 5.很困难”五个选项。 此外,每道大题之后,被访者已经分别用微博搜索、百度搜索完成了同样任务,会请他们选择更倾向用新浪微博还是百度搜索完成这种类型的题,以做后续分析。除了上述必填问项外,每道小题后还提供填写检索结果页面网址的空格以及检索表达式的空格,但不是必填项(以问卷 A 的第四大题为例,问题及必填问项设置见表 2,问卷
18、A、B 完整内容见附录) 。 3.2 样本选择及问卷发放 本文通过参与调查者完成任务的程度来衡量微博对用户信息需求的满足能力,而参与调查者的信息检索能力会影响任务的完成程度。本次问卷调查选取重点高校信息管理专业的本科生参与调查,因为相较于其他群体,他们具有较高的信息检索能力,并且能力差别不大。 由于问卷需要边进行网络检索边填写,故采取了网络问卷调查方式。为了使被参与调查者能够充分利用微博、百度的搜索功能完成检索任务,在填写问卷之前,对被参与调查者进行了简单但是必要的 检索功能说明。 4 调查结果及分析 4.1 调查结果 本次调查共回收 98 份合格问卷,其中 A 问卷 48 份,B 问卷 50
19、 份(进行数据处理、分析后的部分结果见表 3、表 4) 。 4.2 结果分析 对表 3 中的数据进行分析,可以发现:参与调查者在用微博搜索完9成 11 项任务后,对于每项任务的完成程度的评估均值均大于 2(从 1 到3 分别为无从下手、基本完成、完全解决) ,其中问卷 A 中 11 项任务的完成程度均值为 2.4,问卷 B 则为 2.6;而在网页搜索方面,虽然有个别任务完成程度高于微博搜索,但与此同时,也存在完成度低于 2,即不能基本满足此类信息需求的任务,如问卷 A 中的第 6 题,问卷 6 中的第 5 题,这两项任务目标都是搜寻关于社交人际关系方面信息。由此可以得到如下两个结论: 结论 1
20、:微博搜索可以基本满足用户对于新闻、实时信息、公众人物、社交人际关系、公众舆论、机构公司以及知识性信息这七个方面的信息需求; 结论 2:在微博搜索可以满足的信息需求类型中,百度搜索可以满足其中部分需求,但在如社交人际关系类信息方面,微博搜索有网页搜索不可替代的优势。 为了更直观地分析微博搜索与网页搜索在满足 7 类信息需求方面的能力,对同种搜索方式在满足不同类型信息需求方面的表现进行比较,根据表 3 中的数据,对考察同一类信息需求的任务数据进行计算汇总(见表 5) ,以分别找出微博搜索、百度搜索中完成难度最高、最低及完成程度最高、最低的信息需求类型,并在表中加粗显示。 可以发现,无论是微博搜索
21、还是百度搜索,难度最低且完成程度最高的,都是对机构公司信息进行搜寻的任务。结合具体题目设置,以及对部分参与调查者的询问,笔者发现:问卷 A 及问卷 B 中通过寻找公司机构的官微、官网来考察两种搜索方式满足用户对公司机构信息需求的10能力,而无论是搜索官微还是官网,对于参与调查者来说步骤操作都十分简单:用微博搜索时只需要在找人功能中输入所要寻找的机构名称,如果该机构建立了官方微博账户,就可以轻松找到;同样,用百度搜索寻找机构官网时,也只需要在搜索框中输入该机构的名称,如果机构设有官方网站,就会在搜索结果中相对靠前的位置出现,并且会标有“官网”字样。并且,寻找帐号的任务只要搜索到结果,便可以评测为
22、“完全解决” ,所以,完成程度较其他需要考虑检索结果质量高低的任务更高。在微博搜索中,完成难度最高的是新闻信息的搜寻,结合具体题目设置、对部分参与调查者的询问及微博搜索的特点,笔者认为原因在于问卷 A、B 中对搜索的新闻信息附加了时间限制,一个要求最新发生,一个要求最早发布,因而参与调查者要在大量搜索结果中再进行筛选,加大了任务难度。并且,微博搜索在进行检索结果展示时,通常将最新发布的微博显示在前面,这给搜寻发布时间较早但更有价值的微博增加了难度。 在微博搜索中,完成程度最低的是对明星、公众人物信息的搜索,结合题目设置及微博信息的特点进行分析,得出的结论是问卷 A、B 要求参与调查者对明星一段时间内的活动信息进行搜集,而微博信息具有文本短、信息零碎片段化等特点,参与调查者需要搜集多条微博并进行整合才能完成任务,因而任务完成度较低。 在百度搜索中,任务难度最大且完成度最低的是对社交、人际关系类信息的搜索,原因在于社交、人际关系类涉及个人隐私的信息多集中