1、近十年我国信息检索相关性研究现状分析基于共词分析的视角摘要:相关性是信息检索领域的核心研究的内容之一,对其进行深入研究将有助于提高信息检索的效率,推动信息检索的研究。本文将通过共词分析的方法,利用知识图谱对其进行可视化分析研究。关键词:信息检索;相关性;共词分析前言相关性一直以来都是信息检索领域的核心研究内容之一,其概念的起源可以追溯到 17 世纪的早期图书馆用户认识到查找相关信息的问题。但由于客观原因,相关性只是作为一种朦胧意识停留在人们头脑中,直到 20 世纪 20 年代少数学者 Lotka(1926) 、Zipf(1949) 、Urquhart(1959) 、Price(1965)才陆续
2、从各个领域开始了相关性的研究工作。在信息科学界 Saracevic 认为 Bradford 是最先使用相关性一词的学者。其在 20 世纪 30 年代发表的文献的混沌状态一文中首次提出“主题相关”的概念。而此后关于“相关性”的探讨并未引起学界更大范围的关注。直到 1958 年国际科学信息会议(ICSI)的召开,相关性(Relevance)才作为信息科学领域的一个重要概念被学术界认可。至此“相关性”逐渐成为信息科学尤其是信息检索领域经久不衰的研究课题,甚至知识交流学派的代表人物Saracevic 认为信息科学之所以成为独立学科,而不再隶属于图书馆学或文献学的原因就在于它开展了相关性的研究也在于相关
3、性能够解释科学交流中的诸多问题。足见“相关性”在信息科学中的重要地位。当前, 各国学者已对信息检索的相关性问题展开了深入研究,本文将通过共词分析法,使用知识图谱对其进行可视化处理分析。 1信息检索相关性基本概念对信息检索相关性基本概念方面的研究工作始于 20 世纪 50 年代末,各国学者借助数学工具及各种概念提取方法从各个角度对“相关性”的含义及内容进行了深入剖析。而相关性的基本概念研究以 1976 年为边界经历了前后两个阶段第一阶段 1959-1976 的主要成果有 Maron 和 Kuhns 利用概率论定义相关性的概念,提出相关性并非只是简单的是/非选择问题。 Rees 认为相关性受文档所
4、包含的信息概念的影响,认为相关信息是对用户原来所具备的知识而言有用的信息 Goffman 和 Newill 把相关性当成连接有效性的一种测度,并试图用数学方法证明相关性(Relevance )与关联性(Relation)之间具有等价关系。Saracevic 则建议从文档、词与文献引用等各种文献特征上来定义检索的相关性。Cooper 利用数理逻辑给相关性做了一个明确的定义。Wilson 则在 Cooper 研究的基础上对数理逻辑相关性描述做了进一步扩充,并将“情境相关性”的概念首次引入到相关性的研究中,这些成果成为第二阶段研究工作的基础。在第二阶段,1977 年至今,由于相关性各领域研究成果的相
5、继出现,使相关性的概念描述也呈现出许多新的时代特征。首先是从面向用户及认知方法的观点重新审视相关性,认为相关性是个多维的认知概念,在很大程度上依赖于用户个人对信息的理解以及信息需求的情境。相关性是一个动态的概念它依赖于信息与用户某一特定时间所需信息之间关系质量的评价,以用户的观点来看,相关性是个复杂的、系统的、可测度的概念。其次是一些学者试图给信息检索定义一个逻辑模型来理解相关性概念这项工作由 Rijsbergen 开创 之后又吸引了众多学者的参与。2.信息检索相关性共词分析2.1 数据收集处理本文研究的数据收集是以中国知网(cnki)中文数据库中的期刊文献为基础,期刊来源为 SCI、EI、C
6、SSCI,以“信息检索”并含“相关性”作为主题进行检索,检索年限为2004 年至 2013 年,共检索文献 95 篇。对其关键词进行统计分析,共有关键词 202 个,对其进行词频统计,将词频超过 2 次的关键词作为高频关键词,共有高频关键词 42 个(表 1) ,本文的数据分析将基于这些高频关键词。表 1 高频关键词及其频次统计关键词 频次 关键词 频次信息检索 59 信息系统成功模型 2相关性 29 信息素养 2搜索引擎 8 信息检索模型 2用户相关性 5 相关性判据 2情报学 4 模糊聚类 2评价 4 模糊矩阵 2检索模型 4 模糊方法 2查准率 4 可视化 2用户交互 3 检索系统 2信
7、息检索系统 3 检索评价 2相关性判断 3 关联理论 2相关性反馈 3 个性化 2相关度 3 次序效应 2系统相关性 3 词频矩阵 2网络信息检索 3 查询扩展 2数字图书馆 3 查全率 2模型 3 测试集 2跨语言信息检索 3 标准 2检索 3 本体 2用户需求 2 TEDS 模型 2用户行为 2 学术信息检索系统 22.2 建立共词矩阵在 EXCEL 表格中,删除低频关键词之后,对确定的 42 个关键词所在列进行两两配对,统计其在文献同时出现的频次,建立透视表,并通过 Ucinet 软件将 42 个关键词建立共词矩阵,图 1 为共词矩阵部分效果图。图 1 共词矩阵效果图(部分)2.3 分析
8、数据结果本文利用社会网络分析软件 Ucinet6.0 版本和 Netdraw2.0 版本对获取的关键词数据进行分析并绘制出社会网络分析图谱。2.3.1K-core 分析在本文中,首先使用 Ucinet6.0 软件建立共词矩阵的电子表格,然后采用 Netdraw2.0软件绘制科学知识图谱,在此基础上,采用 K-core 分析法进行社会网络分析,建立不同连接度 k 核(最高为 4)的共词网络图谱,经过处理后得到可视化结果,如图 2 所示,其中红色代表关联度为 4 的关键词,绿色为关联度为 3 的关键词,蓝色为关联度为 2 的关键词,黑色为关联度为 1 的关键词。图 2 K-core 分析效果图2.
9、3.2 多维尺度分析使用 Ucinet6.0 软件中的非量纲式多维尺度分析方法分析近十年我国信息检索相关性的关键词的数据结构,统计这些关键词坐标,统计结果如表 2 所示,并形成散点图,效果如图 3 所示。表 2 关键词分布坐标关键词 X 坐标 Y 坐标 所处象限 关键词 X 坐标 Y 坐标 所处象限TEDS 模型 -0.794 1.984第 2 象限 评价 -0.234 -0.438 第 3 象限本体 0.4 -0.145 第 4 象限 情报学 -0.018 0.168 第 2 象限标准 -0.368 -0.089 第 3 象限 数字图书馆 -0.215 -0.92 第 3 象限测试集 -0.
10、859 0.175 第 2 象限 搜索引擎 -0.317 0.409 第 2 象限查全率 -0.048 -0.261 第 3 象限 网络信息检索 -0.716 0.905 第 2 象限查询扩展 0.315 -0.505第 4 象限 系统相关性 0.317 0.358第 1 象限查准率 -0.056 -0.524 第 3 象限 相关度 0.253 0.135 第 1 象限词频矩阵 0.676 -0.556第 4 象限 相关性 0.023 -0.057 第 4 象限次序效应 -0.449 0.128第 2 象限 相关性反馈 0.902 -0.545第 4 象限个性化 -0.689 -0.11 第
11、3 象限 相关性判断 -0.231 0.057 第 2 象限关联理论 0.54 0.056第 1 象限 相关性判据 -0.485 2.055第 2 象限检索 -0.52 -0.571 第 3 象限 信息检索 0.175 -0.256 第 4 象限检索模型 0.127 -0.858第 4 象限 信息检索模型 -0.062 0.363第 2 象限检索评价 -0.244 -0.73第 3 象限 信息检索系统 0.558 -0.773第 4 象限检索系统 0.542 0.268第 1 象限 信息素养 0.699 -0.233第 4 象限可视化 -1.164 0.349第 2 象限 信息系统成功模型-0
12、.405 2.366第 2 象限跨语言信息检索0.389 -1.334第 4 象限 学术信息检索系统-0.803 2.397第 2 象限模糊方法 0.111 -0.689第 4 象限 用户交互 0.384 -0.956第 4 象限模糊矩阵 0.6 -0.374第 4 象限 用户相关性 0.127 0.471第 1 象限模糊聚类 0.846 -0.061第 4 象限 用户行为 0.057 -1.102第 4 象限模型 -0.4 -0.284 第 3 象限 用户需求 1.036 -0.275 第 4 象限2.62.42.221.81.61.41.210.80.60.40.20-0.2-0.4-0.
13、6-0.8-1-1.2-1.42.62.42.221.81.61.41.210.80.60.40.20-0.2-0.4-0.6-0.8-1-1.2-1.4TEDS个个个个个个个个个个个个个个个个个个个 个个个个个个个个个个个 个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个 个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个个图 3 多维尺度分析散点图分布效果图根据多维尺度分析图和表 2 的统计可以看出,42 个关键词中,
14、分布在第一象限的有:关联理论、检索系统、系统相关性、相关度、用户相关性,共五个;分布在第二象限的有:TEDS 模型、测试集、次序效应、可视化、情报、搜索引擎、网络信息检索、相关性判断、相关性判据、信息检索模型、信息系统成功模型、学术信息检索系统;分布在第三象限的有:标准、查全率、查准率、个性化、检索、检索评价、模型、评价、数字图书馆;分布在第四象限的有:本体、查询扩展、词频矩阵、检索模型、跨语言信息检索、模糊方法、模糊矩阵、模糊聚类、相关性、相关性反馈、信息检索、信息检索系统、信息素养、用户交互、用户行为、用户需求。3.信息检索相关性研究分析通过核心关键词所处的象限分布情况以及 K-core
15、分析图所示,我国信息检索相关性的研究热点主要集中在两个方面:第一,信息检索系统的相关性评价标准及模型的研究,包括查全率、查准率、相关度、TEDS 模型、学术信息检索系统、信息系统成功模型等;第二,有关用户的研究,包括用户需求、用户行为、用户相关性、信息素养等。3.1 信息检索系统的相关性评价及模型研究对于信息检索系统的相关性评价研究是这一研究领域的研究重点,也一直是研究者们关注的重点。传统的相关性评价指标为查全率和查准率,目前系统相关性评价可用相关度作为相关性好坏的评价指标,相关度是文档表示与查询表达式间的匹配程度,相关度越高则说明文档与表达式越相近。作为相关性的量化指标, 相关度已广为接受。
16、系统相关性评价的模型包括布尔模型、向量空间模型、概率模型、模糊模型、逻辑模型、概念模型、网络模型等。信息检索系统是相关性评价的一个重要极点,检索系统性能的好坏直接影响到反馈结果质量的高低,从而影响用户相关性的判断。从系统的角度看,提高信息检索的相关性可以从以下五个方面来考虑:系统设计的用户观。信息组织的合理化。系统实现的智能化。检索功能的全面化。相关算法的最优化。3.2 与用户有关的信息检索系统相关性的关系研究信息检索的 目的是要预言信息对于用户需求的适用性,即信息能否满足用户需求或在何种程度上满足用户需求,但情报检索系统所能提供给我们的只是信息表示和查询表示之 间的关系。一般认为相关性是最终
17、用户对信息检索结果输出的认可或明确的判定,它隐含地表明了用户对使用系统的满意程度。因此在信息检索的相关性研究中,与用户相关的研究显得十分必要。用户是信息检索活动的主体, 是检索结果的最终判定者和使用者, 从提出信息需求的时刻起, 用户所进行的每一个步骤都与最后的检索结果相关, 是相关性评价的另一极点。从用户的角度看, 提高信息检索相关性需提高信息用户的五种能力:提高用户对信息需求的认知能力。提高用户对信息需求的表达能力。提高用户对检索系统的选择能力。提高用户对领域知识的识别能力。提高用户对检索结果的判断能力。4.结论目前,信息检索的相关性研究已经越来越引起人们的重视,其发展也已经取得了一定的成
18、效。但纵观现有的研究成果,主要还是集中于相关性的理论探讨阶段。由于相关性研究领域的技术不成熟而导致的相关性实验验证及判据性的实证研究成果还十分有限,尤其在网络信息资源飞速发展,而网络已成为信息用户主要信息检索环境的今天。基于网络环境,侧重语义视角、面向用户需求、体现用户行为的信息检索相关性实证研究还需要进一步得到重视和研究。参考文献 杨丽英.相关性研究与情报检索系统评价.J.图书情报工作 ,2004(7),44-46 成全,司辉. 信息检索相关性评价及其改善策略研究.J.情报杂志,2008(2),129-133 王雅坤,成全. 信息检索相关性研究综述及发展趋势.J.图书与情报,2012(1),88-94