1、1基于 Tag 的高校图书馆虚拟读书社区构建研究摘要随着 Web2.0 技术在图书馆的广泛应用,不少学者开始关注在图书馆构建虚拟社区。Tag 能反映用户的阅读兴趣,然而基于 Tag 构建虚拟社区的研究相对欠缺。为此文章首先阐述了构建高校图书馆虚拟读书社区的必要性,通过分析用户的标注动机及影响用户标注的因素,提出了优化用户标注过程的策略,在此基础上就基于 Tag 构建虚拟读书社区的相关算法和实现方案进行了探讨。 关键词Tag;高校图书馆;虚拟社区;社区构建;用户相似度;兴趣相似度 中图分类号G250.7文献标识码A文章编号1008-0821(2013)08-0167-05 高校图书馆拥有丰富的馆
2、藏资源,能否帮助用户在海量的资源中挖掘出感兴趣且有用的资源,将直接影响用户获取信息和知识的效率。为此,许多图书馆提供了类似“热门借阅” 、 “热门图书”的功能为用户推荐图书,且多数图书馆以借阅频次来决定图书热度。然而,即使最热门的图书也不一定是读者感兴趣或需求的图书,因此,热门推荐这种单向模式对满足用户个体需求来说作用不大。 随着互联网和 Web2.0 等技术的发展,虚拟社区应运而生,这为图书馆用户筛选图书提供了一个良好的途径。Tag 作为 Web 2.0 时代的产物,近年来在图书馆中逐步得以应用。Tag 的意义不仅在于分类,更在于它可2以体现出用户个人的兴趣倾向。以用户的核心 Tag 集表示
3、用户兴趣,从而构建以兴趣为聚合点的虚拟读书社区。社区成员可推荐自己认为有价值的图书,并赋予内容说明,供其他成员参考选择。甚至可以“以书为媒”1,在社区内相互结识,相互信任,将用户交互扩展到线下,如成员之间可以协商,实现图书暂时转借。其次,高校往往拥有方便的网络,用户可以随时访问图书馆,利于社区内部互动。此外,从社会心理学角度来看,人类有归属于群体并被他人认可的心理需求。在归属感的驱动下成员之间可共享知识、相互学习,社区其他成员的反馈在一定程度上能够满足成员本人对认同感的心理需求。 “归属感参与社区认同感参与社区”这一过程有利于虚拟读书社区的构建。因此,基于 Tag构建高校图书馆虚拟读书社区很有
4、必要。 瑞格尔德(Rheingole)提出虚拟社区的定义2之后,国内外学者关于虚拟社区展开了系列研究3-8。其中,Hagel 和 Armstrong 根据用户需求,将虚拟社区分为交易社区、兴趣社区、关系社区、幻想社区3。本文构建的是兴趣社区。近年来,随着 Web2.0 技术在图书馆的应用,不少学者开始关注在图书馆构建虚拟社区。首先,提出了图书馆虚拟社区的组成部分9。其次,部分学者提出了图书馆虚拟社区构建的实现算法10。此外,还有学者探讨了虚拟社区的构建对图书馆用户教育的影响11。 笔者发现,一方面,国内外关于虚拟社区的研究正逐步走向成熟,为图书馆构建虚拟社区奠定了基础。另一方面,目前国内关于图
5、书馆构建虚拟社区的研究多停留在诸如构建原则、功能模块、实现条件及方法、3对用户产生的作用这些理论层面。虽然部分学者提出了实现算法,但基于 Tag 构建图书馆虚拟社区的算法研究还不够。随着 Web2.0 的到来,Tag 正逐步应用到图书馆服务中,用户能方便的为已阅读的或感兴趣的资源标注标签,Tag 能很好的反映用户兴趣。为此,本文抽取用户的核心Tag 集并赋予权重来表征用户的阅读兴趣,通过相应的算法计算不同用户之间阅读兴趣的相关度,进而构建虚拟读书社区。 1 概述 本文基于 Tag 构建虚拟读书社区原因如下:Tag 是用户对图书馆资源内容个人理解的反映,是其思维内容外化的一种表达方式12。相对于
6、专业的、用户本身不熟悉的分类体系,用户从心理上更倾向采用简单易懂的自然语言对图书进行标注。Tag 的灵活自由、非受控性相对于不了解的传统分类体系更易于读者将感知的内容表达出来。因此,Tag 与被标注资源之间有着较高的相关性,核心 Tag 集能体现用户的阅读兴趣。另一方面,经常标注资源的用户会获得一个 Tag 集,通过计算不同用户之间核心 Tag 集的相关性,能够很容易将有共同兴趣和关注点的用户聚合在一起,从而构建虚拟社区。 1.1Tag 的分类及用户标注动机 标签通常可分为内容标签(Content-based tags) 、情境标签(Context-based tags) 、主观标签(Subj
7、ective tags) 、组织标签(Organizational tags)四大类13。内容标签是对图书内容的揭示,情境标签包括国家、图书内容所描述的时间、地点等,主观标签是对图书质量及个人喜好的主观表达(如经典,讨厌等) ,组织标签通常是用户4为便于个人信息组织而标注的标签,如数字或特殊符号等,一般对他人意义不大。 对于归属于群体的成员来说,标注的动机通常来自个人和群体两方面。前者指自发的、个人的需求,包括其使用上的需要和心理上的满足14;后者主要来自群体中的各种驱动力,比如当个人发现标注给社区其他成员带来了有用的信息,产生了群体价值,而个人也因此受到其他成员的认可和尊敬时,会产生积极标注
8、的欲望。具体说来,个人动机往往来自以下几个方面的综合: 1.1.1 内容分类 主要是对资源的内容给予揭示,方便日后依据内容属性检索资源,为用户是否使用该资源提供决策支持。基于此动机,用户往往为资源添加内容标签。 1.1.2 情感表达 当用户阅读或使用资源时,自身的知识结构自然地使其对资源形成一定的认识,个人情感也随之流露,如喜欢、讨厌。情感一旦产生,很大程度上会刺激用户为资源添加主观标签,以表达内心的想法和感受。 1.1.3 个人资源组织 对个人信息资源不同的组织方式决定了用户添加何种类型的标签。如以时间为主线组织,则会添加情景标签;按内容分类组织,则会添加内容标签等。 从用户标注动机来看,4
9、 种类型的标签都有被用户使用的可能性。而内容标签最能反映用户个人的阅读兴趣,对构建虚拟社区意义重大。情5景标签次之。主观标签和组织标签则与具体内容无关,无法利用这些标签计算用户兴趣相似度。 1.2 用户标注过程优化 基于 Tag 构建虚拟读书社区,前提需获取用户的核心 Tag 集。因此,鼓励用户添加高质量的内容标签是重中之重。然而,与图书分享网站(如豆瓣网)相比,高校图书馆用户标注的积极性较低。此外,标签本身属于非受控语言,存在诸如语义模糊、一词多义、同义等问题。由于用户的知识水平、兴趣爱好、习惯等不同,标签添加具有盲目性、随意性。一些多义标签被不同的用户使用可能包含着不同的语义。这将影响用户
10、核心 Tag 集的数量及质量。 基于以上分析,笔者认为,图书馆标注系统可以通过推荐的方式影响用户的标签选择,促进用户标签聚合,方便系统计算不同用户标签集合之间的相关性,判定用户兴趣相似度。然而,在海量的标签中,有选择的为用户推荐才能提高标签召回率。豆瓣网将标签分为文学、流行、文化、生活、经管、科技六大类,每类下列有用户所添加的各种标签。图书馆可借鉴豆瓣网分类管理标签的思想,以图书馆馆藏资源为基础结合分类表或主题表,构建一个“基本大类” 。当用户标注图书时,系统自动提供“基本大类” ,供用户勾选将要添加标签所属的类别,实现用户对标签自主归类。一旦选定类别,系统自动显示此类别下有关这本书的其他用户
11、使用频次较多的标签以及用户个人的标签集合供用户选择参考。在用户自由的前提下,依据社会认同理论,通过影响用户的意识,对标签加以规范和控制。此外,系统可对标签形式加以规范,如规定字母大小写、标点符号等,改进标签质量。 6为促进用户标注积极性。图书馆可采取一定的奖励措施,若用户对资源进行规范标注(如勾选了大类、所添加标签中包含内容标签、标签形式规范)可换取积分,积分达到一定值即可延长借书时间、增加借书数量或享受其他权利。 2 用户阅读兴趣相似度判定 用户阅读兴趣相似度判定的第一步是抽取用户核心 Tag 集,为保证算法的准确度,需对标签进行预处理(如去掉连字符等) ,去除垃圾标签、主观标签、组织标签。
12、 2.1 计算标签之间的相似度 传统的向量空间模型,把对文本内容的处理简化为向量空间中的向量运算。抽取文档特征值,将文档表示为文档空间的向量,通过计算向量之间的相似性来度量文档之间的相似性。而在图书馆,用户所添加的标签一般都是单个的字、词或短语,包含的信息量很小,计算机难以自动抽取其特征16。因此,笔者选取某一标签的相关标签作为描述项来表征此标签,并建立词表以减少同义标签导致的计算结果不准确,构造标签的特征向量,然后利用向量空间模型(VSM)计算标签之间的相似度。4 结语 Tag 作为 Web2.0 时代的产物,已在图书馆得以应用并将广泛应用。为此,本文利用用户的核心 Tag 集并赋予权重表征
13、用户的阅读兴趣,提出了计算标签之间相似度的算法,并以实例分析了该算法的可行性。在此基础上计算用户阅读兴趣相似度,并就高校图书馆虚拟读书社区构建7方案进行了探讨。对具备条件的高校图书馆有一定的参考和启发意义。相信随着图书馆的发展和技术的进步,图书馆构建虚拟社区的算法也会越来越完善。 参考文献 1周建昌,廖恒.高校图书馆虚拟社区服务初探J.漳州师范学院学报,2010, (2):174-176. 2百度百科.虚拟社区DB/OL.http: 3Armstrong Arthur,Hagel John.The Real Value of ON-LINE communitiesJ.Harvard Busin
14、ess Review,1996,74(3):134-141. 4Stanoevska-slabeva Katarina.Toward a Community-Oriented Design of Internet PlatformsJ.International Journal of Electronic Commerce,2002,6(3):71-95. 5许博,胥正川,邵兵家.影响网络社区用户参与的社会因素及其实证研究J.现代管理科学,2010, (3):8-10. 6Lee Matthew K.O.,Cheung Christy M.K.,Lim,Kai H.,Choon,Ling Si
15、a.Understanding customer knowledge sharing in web-based discussion boards:An exploratory studyJ.Internet Research,2006,16(3):289-303. 7尹盛.E-mail 社会网络的社群挖掘和分析算法研究D.北京:北京交通大学,2009. 88杜海峰,悦中山,李树茁,等.基于模块性指标的动态网络社群结构探测方法J.系统工程理论与实践,2009, (3):162-171. 9袁辉,杨新涯,周红.图书馆虚拟知识社区建设的实践与探讨J.图书情报工作,2012, (3):80-83.
16、10胡昌平,乐庆玲.高校图书馆虚拟社区构建初探J.现代图书情报技术,2007, (11):87-90. 11周玉陶.网络虚拟社区建设对图书馆用户教育的影响J.大学图书情报学刊,2002,20(2):73-75. 12李枫林,张景.基于用户标注行为的相关性分析及重排序J.情报理论与实践,2010,33(10):57-61. 13吴丹,许小梅.图书馆与图书分享网站的用户标注行为比较研究J.图书情报知识,2013, (1):85-93. 14常唯.论网络环境下用户标注的价值和应用J.图书情报工作,2008,52(1):9-12. 15Shilad Sen.Tagging,Communities,Vocabulary,EvolutionEB/OL.http:portal.acm.org/citation.cfmdoid=1180875.1180904,2013-05-28. 16曹高辉,焦玉英,成全.基于凝聚式层次聚类算法的标签聚类研究J.现代图书情报技术,2008, (4):23-28. 17陈林,杨丹,赵俊芹.基于语义理解的智能搜索引擎研究J.计算机科学,2008, (6):152-154. 918刘亚军,徐易.一种基于加权语义相似度模型的自动问答系统J.东南大学学报,2004,34(5):609-612. (本文责任编辑:王涓)