1、1基于移动设备的数字图书馆检索新技术研究摘 要文章针对移动设备的数字图书馆检索过程中出现的实际问题,全面分析研究了目前轻型文档匹配新算法的发展,深入讨论了该检索技术的预处理、前后端具体实现等内容,另外,文章介绍了目前二分网络聚类方法在数字图书馆推荐系统中的应用,为目前的数字图书馆的检索提供了一种比较实用的方法。 数字图书馆就是对有价值的文本、图像、语音、影像、软件和科学数据等多媒体信息进行收集、组织规范性的加工、进行高质量保存和管理、实施知识增值,并提供在广域网上高速横向跨库连接的电子存取服务。在现代社会中,数字图书馆所收藏的各类信息对于知识经济的整个过程都是必不可少的,它们凭借高新技术快速地
2、传播文化知识,不断推动全民族文化素质的不断提高,促进社会的进步和发展。同时,随着科技的日新月异,使用智能化移动设备访问数字图书馆的受众不断增多,这就给数字图书馆的发展提出了更高的要求,主要是如何将网络服务逐渐移植到移动设备上,让用户更加方便、快捷地使用数字图书馆资源。但伴随着我国各个数字图书馆的数据资源不断的快速增长,由于数字图书馆信息资源的异构性、复杂性等特点,面对浩如烟海的信息,用户想在最短时间内获取需要的信息却经常会相当困难。产生这些困难的主要有以下几个原因:(1)数字图书馆的信息以几何级数急剧膨胀,而信息同时呈现出异构、庞大、分散的特点,以至于图书馆的信息维护和用户2获取有用信息的困难
3、较大;(2)基于移动设备数字图书馆检索工具的功能直接关系到浏览者的阅读效果,由于各个数字图书馆索引编制和标引方式以及开发方式的不同,会造成索引信息的查找速度、覆盖面和检索结果的差别较大;(3)数字图书馆检索带有一定的主观性,直接和用户信息检索能力相关,而目前的大部分用户缺少检索方面的专业知识,从而直接影响到信息检索的效果。 1 问题阐述现今,我们可以注意到许多人在利用移动设备访问基于服务器的数字图书馆。数字图书馆检索引擎最常用的搜索方法为分类检索(目录检索) 、多元检索和关键词检索。分类检索主要是采用图书分类或者学科分类方法对数字图书资料进行加工整理,最终提供一种等级结构式检索目录,该方法检索
4、质量高,但是检索信息数量有限。多元检索可以同时检索多个数据库资源,整合后输出检索结果。目前,国内的清华知网和万方数据系统等均提供该种检索方式,但是由于检索机制及检索算法的差异,致使检索结果的准确性差、速度慢。基于关键字的索引是移动设备访问数字图书馆最常见的方式,该方式只需移动用户在搜索提问框中输入关键词,确认后,远程数字图书馆服务器会将与关键词匹配的结果罗列出来,发给移动用户终端,这以看似简单步骤其实需要大量的存储和计算资源。移动设备数字图书检索需要的是能接收理想长度的输入,并给出类似搜索引擎(对匹配的文档进行排序)的结果,这些过程要在移动设备快速进行。另外,目前一些数字图书馆的搜索采用数据挖
5、掘或者基于案例的分析方法来查找匹配输入的文档,这些方法只能是关键字索引的补充,在用户有需求的情况下进行。 3解决概览目前,业界提出一种解决移动设备检索数字图书馆的新方法,该方法主要基于轻型文档匹配的新算法。该快速评价算法在移动设备上计算非常高效,而且仅需极小的数据结构。该算法的具体处理过程主要是首先做一个预处理过程,根据图书馆中的文档生成一组数据结构,该数据结构包含了每篇文档的本地字典和具有惟一关键字的全局字典,该数据字典中主要包括了每篇文档的文档标题、关键字、特定标签内容的提取,以及出现频率最高的单词,该数据结构的数据量较小,当用户浏览数字图书馆时,直接缓存到移动设备中,当用户利用关键字查找
6、资源时,直接利用提取出的关键字和数字图书馆中的文档作比较,这样就保证了过程的高速性,预处理步骤如图 1 所示。 图 1 匹配预处理图 接下来,需要一个在线的匹配计算过程,找到用户检索的相关文档。这一个过程其实就是一个文档相似度的计算问题,即求取两篇文章之间的相似程度的数值。因为两篇文章相似度越高,则表明两篇文章越有可能是同一类型。首先要做的一个工作是特征向量的选取,大部分数字图书馆采用的是中文分词机制,即先把文本切分为关键词序列,再进行信息处理。把经过处理之后得到的关键词进行停用词的处理,即把各种标点符号、汉语中最常用的虚词,包括介词、连词、助词和叹词作为停用词,这些处理后的关键词构成了文本的
7、特征向量。接下来。多采用基于空间向量模型(VSM)的文本进行分类,文本的特征向量与各类代表向量的夹角是决定文档归属的重要依据,这些夹角的余弦被称为“相似度” 。上述过程相对是一个比较传统的处理方式,而针对移动设备未必适用。而目前的对本地文档与输入文档的相关量度的评价4算法是利用匹配成功的单词数作为基础分,然后再抬高权重的单词加分。其中文章题目、特定域的标签在匹配单词成功的过程中优先得到加分。在线处理过程如图 2 所示。 图 2 在线处理过程图 该检索的具体工作方法分为前后端两部分,后端生成能保证匹配器正常工作的数据结构部分,主要就是将与文本相关的内容利用一种 XML 风格的标记语言进行描述,并
8、呈现给最终用户。具体派生出的数据结构包括两部分:(1)本地字典主要包含了与特定文档相关的内容,一般每篇文档被赋予 10 个关键字,但是这些单词并不是惟一的,同一个词可以出现在多个文档中。 (2)全局字典是经过合并后的内容,它包含了与所有文档相关的单词,这组单词是惟一的。完整的 XML格式的文件包括了本地字典和附加的属性信息,譬如文档的标题以及某些特定应用的属性比如结构标识。最终的全局字典加上一个包含本地字典和附加属性的提取文件,就是用来评价新文档的标准。前端处理过程主要是接收用户的输入,最终产生与之匹配的排好序的文档。这一过程的前提保证是新文档的单词与全局字典的单词完全匹配,而且全局字典的单词
9、要指向存储文档的本地字典。在检索匹配过程中,每篇本地文档都有一个基础分值,就是该文档关键字在新文档中出现的个数,对于出现在题目或特殊标签(产品或发行号)中的匹配单词有额外的加分,给其加上等同于它权重的分数单词权重为 1/num,num 是包含了该单词的本地文档的数量,最终使用哈希表完成即时查询。该数字图书馆新检索方式的特点在于单词加分算法非常简单,而且匹配机制具有较大的透明性,特定关键字在匹配文档检索时的作用一目了然。其次,该索引使用了精5确地同义词匹配,根本没有文本特征向量的复杂求解过程,检索效果明显高效。整个索引排除文档频率的索引,这一点极大地降低了复杂性存储需求,缩小化的索引作为整个匹配
10、过程的基础,省去了所有需要的计算,非常适合数字图书馆的移动设备检索。 3 检索系统扩展伴随着数字图书馆检索技术的迅速发展,同时也带来了“信息爆炸”的问题,即信息较大丰富而只是相对匮乏。在数字图书馆大量、异质的信息资源中,蕴含有巨大潜在价值的知识,这就是数字图书馆信息挖掘技术。信息挖掘是数据挖掘的分支,它能够帮助用户从大量的信息中迅速发现对自己有用的信息,并在一定程度上揭示信息与信息的关联。针对移动用户对数字图书馆检索的更深入需求,目前业界提出一种基于复杂网络二分网络的聚类推荐检索机制,该方法是上述数字图书馆轻型文档检索的良好补充,它主要针对需要关联分析与文本挖掘的用户。用图论的语言来描述,一个
11、网络可以抽象为一个由节点的集合 V 和边集 E 组成的图G=(V,E) 。节点数记为 N=V,边数记为 M=E。E 中每条边都有 V 中一对点与之相对应。对于数字图书馆系统而言,点集指的是一个个独立的图书和阅读者,而边集就是图书与阅读者之间的链接,一个图书系统的这些大量信息被提取出来就构成了一个完整的复杂网络。该复杂网络同时具备了一个显著的特点,该网络由两类节点以及两类节点之间的连边组成,同类节点之间不存在连边,U 代表阅读者,B 代表书籍,这样的网络在复杂网络中被称为二分网络,如图 3 所示。数字图书馆借阅图书节点呈现出若干个“群”或“团”的结构,二分网络称之为社团结构。通过数字图书馆后台服
12、务器的运行计算,可以挖掘出“群”或“团”的特点,它6们就是给用户提供系统推荐的依据。 图 3 高校图书借阅系统二分网络示图 目前,国内外众多划分二分网络社团结构的算法被设计出来,主要包括凝聚算法、分裂算法,搜索算法及其他算法 4 大类。国内的学者考虑到计算复杂度及效率等问题,提出直接基于原始二分网络进行社团划分的算法,该方法首先准确的把握了二分网络社团结构的根本信息,提出二分网络社团结构的比较性定义,这个定义允许社团之间存在重叠,并定义了在二分网络中顶点与社团之间的作用力。接下来,在不引进额外参数的情况下,设计了针对二分网络社团结构定义的算法,算法主要应用于探测社团结构明显的人工网,譬如,该算
13、法应用于经济物理科学家与文章网络中,它是一个具有 777个科学家和 818 篇文章的二分网络,算法首先找到这个网络的最大连通子集,该子集中任何两个点都是连通的,然后经过顶点 10 次移动,对科学家这类顶点进行聚类,发现 38 个社团,对文章这类顶点进行聚类,划分出社团 53 个,这个算法具有较高的准确度,可以比较准确地对网络进行聚类,其结果可以为数字图书馆的用户提供较可靠的检索推荐内容。 4 结束语基于移动设备的数字图书馆浏览业务的开展,为图书馆的发展注入了强大的生命力,与此同时也改变了传统的图书管理工作思维模式,但该项工作却存在着诸多挑战。目前的数字图书馆普遍关注于提供海量的数字资源,而忽略
14、了基于移动设备的检索和推荐等功能的具体开发。文章针对这一实际问题,介绍了轻型文档匹配检索技术,它与“传统”文档匹配有着本质的区别, “传统”文档匹配需要计算复杂的距离度量, “传统”文档匹配用到的主要是全文索引技术,它对文档参考的7数量、单词匹配的计算量及存储需求提出过高的要求,在不限资源的前提下,它的效果会更好,但对于利用移动设备浏览数字图书馆的用户,利用轻型文档匹配可以更快的检索图书信息。另外,文章将二分网络聚类与数字图书馆检索紧密的联系在一起,这也是数字图书馆深入发展的一个趋势,就是加强数字图书馆的后台数据管理与分析处理能力,带给用户更加实用的个性化检索体验。 参考文献 1李亚子.跨数字
15、图书馆检索关键技术研究J.图书馆杂志,2010, (5):65-70. 2申飞驹.基于 XML 的数字图书馆检索技术研究J.现代情报,2010, (7):97-98. 3唐吉深.图书馆数据挖掘技术研究现状述评J.图书馆界,2011, (1):42-44. 4刘振义.高等教育统计中图书统计问题探析J.图书馆建设,2011, (5):70-72. 5涂军,曹鹏.数字图书馆中基于本体的语义检索模型研究J.情报杂志,2012, (7):191-194. 6吴亚晶,张鹏,狄增如,等.二分网络研究J.复杂系统与复杂性科学,2010,7(1):1-12. 7李晓佳,张鹏,狄增如,等.复杂网络中的社团结构J.复杂系统与复杂性科学,2008,5(3):19-42. (本文责任编辑:马 卓)