浅谈信息检索工具.docx

上传人:hw****26 文档编号:3115096 上传时间:2019-05-21 格式:DOCX 页数:8 大小:35.21KB
下载 相关 举报
浅谈信息检索工具.docx_第1页
第1页 / 共8页
浅谈信息检索工具.docx_第2页
第2页 / 共8页
浅谈信息检索工具.docx_第3页
第3页 / 共8页
浅谈信息检索工具.docx_第4页
第4页 / 共8页
浅谈信息检索工具.docx_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、摘 要文章由信息检索的分析和发展状况出发,阐述了一些常用的信息检索工具和相关技术。然后对常用的信息检索工具做了一个简要的评价,并由此讨论了信息检索工具的现状和发展趋势。关键词:信息检索工具、技术、评价标准、发展趋势AbstractPost by information retrieval and analysis of development, and expounds a number of commonly used information retrieval tools and related technologies. Then used the information retriev

2、al tools to do a brief evaluation, and then discuss the status of information retrieval tools and trends.Keywords: information retrieval tools, techniques, evaluation criteria, trends浅谈信息检索工具第一章 信息检索分析及发展状况步入 21 世纪,人们对信息检索的完备、准确、快捷会有更加严格的要求和期盼,与时俱进、不断完善的信息检索技术将得到越来越广泛的应用,信息的检索与访问方式无疑将发生深刻的变化。然而网上的信息

3、浩如烟海,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各个主题都做得精确又专业,使得检索结果中出现太多无用的信息。如何在浩瀚的信息海洋中准确、方便、快速地找到自己所需的信息,成了一个迫切需要解决的问题。信息检索主要是指信息的表示、存储、组织和访问,即根据用户的查询要求,从信息数据库中检索与之有关的信息资料。信息检索的目的是获取所需信息,而这要基于比较完善的检索工具和技术。1.1 从传统检索到信息分析目前,随着信息检索技术的发展,信息检索已经由手工检索、计算机检索发展到了网络化、智能化、认知化阶段,这一阶段的信息检索平台具备了初步的信息分析功能,

4、从而使传统检索信息向信息分析层次发展。例如,在 ISIWeb of Science 检索平台上,当某一主题的检索结果出来后,检索者还可以利用该平台提供的信息分析功能,对检索结果从以下几个方面进行深入分析:按照论文发表时间进行分析,了解不同时间阶段课题研究的状态; 按照国家分析,了解该领域的主要研究国家以及国内该领域研究情况;按照机构分析,了解领域的主要研究机构;按照作者分析,了解该领域的核心研究人员;按照来源期刊分析,了解该领域研究论文发表的重点期刊以及对某刊物收录论文情况进一步了解;按照学科进行分析,了解该课题涉及哪些学科领域以及对感兴趣学科进行更深入的分析。很显然,通过对检索结果从 6 个

5、方面进行深入分析,将使读者对检索结果作进一步的深入了解。1.2 信息检索的发展状况信息检索经过先组式索引检索、穿孔卡片检索、缩微胶卷检索发展到计算机信息检索。计算机信息检索大致可分为脱机检索、联机检索、国际联机检索、光盘检索、超文本的网络检索几个阶段。目前,以文献单元描述体结构为基础、手工检索方式为主导的传统文献检索已发展到以信息单元组织结构为基础、网上浏览式信息查询方式的信息检索,计算机信息检索呈现联机检索、光盘检索以及网络检索多元并存的格局,面对用户群体、互相竞争、互相融合,谋求个性化基础上的共同发展。如下表所示,传统检索技术和网上检索技术无论是在检索策略还是在检索手段上都发生了本质的变化

6、。传统检索技术与网上检索技术的比较传统检索技术 网上检索技术概念模型 布尔逻辑 概率推理、空间向量前期处理 赋词、自动抽词 超文本标记语言、标准通用标记语言文档结构 顺/ 倒排文档 超文本链接浅谈信息检索工具访问方式 单向检索 双向交互式检索后期处理 文字编辑 用输出方式输出结果第二章 信息检索工具及相关技术2. 1 网上检索工具及相关技术为了快速、有效地获得信息,人们非常注重信息检索工具及相关技术的研究。现在,因特网上著名的搜索引擎有 Yahoo 、Alto vista 、Infoseek 和 Lycos 等;中文搜索引擎有 Sohoo (搜狐) 、Robot (若比邻)等。搜索引擎是 In

7、ternet 上提供公共检索服务的 Web 网站,它是新一代信息检索工具。搜索引擎的关键技术主要是“自动跟踪技术”和“指引库” 。目前,网上检索工具正向多语种化、综合化、专业化方向发展,已出现元检索工具(即检索工具的检索工具),对选择和评估更新检索工具有着不可替代的作用,多元搜索引擎(集成式的搜索引擎) 具有去重功能,对检索结果进行统一的相关评估,能实现搜索引擎间的优化组合,通过电子邮件向用户随时提供网上信息。检索界面简洁、易学易用,检索结果格式清晰、内容充实、数据更新及时,检索所提供的网页链接可靠。2.1 文本检索与多媒体检索按照检索的信息形式,信息检索分为文本检索和多媒体检索。即使在文本信

8、息检索领域,全文本和超文本检索技术的作用和重要性也正在超越二次文献文本信息的检索。文本检索现在比较实用的技术是全文检索和自然语言检索。全文检索采用对全部文本内容建立索引信息的方法实现对海量文本信息的秒级查询。自然语言检索是指使用文献作者和文摘提要的编写者原来使用的语言,利用计算机进行自动标引(或少量人工干预)和自动检索文献的方法,包括文本检索、关键词检索、自然语言和自然语言与人工语言并用的检索方法。目前面向中文的全文检索已是一种成熟的技术,得到了广泛的应用。自然语言检索方面也取得了进展,主要问题集中在中文语词的切分技术上。2.2 多媒体信息检索的关键技术对多媒体信息检索早期的方法是基于文本描述

9、(即对多媒体信息添加文本说明) ,现在主要研究基于内容的多媒体检索技术。基于内容的检索指根据媒体和媒体对象的内容语义及上下文联系进行检索,它利用图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法作为部分基础技术,首先进行特征抽取,再计算其相似性。多媒体文档不同于文本文档只有单一的线性结构关系,收录一个多媒体文档,首先要对其进行内容和结构分析,提取多媒体文档的视听、语义和结构特征,作为用户浏览和检索的依据,同时为自适应的网络浅谈信息检索工具传输、互动式操作提供基本依据。目前,计算机识别技术的不成熟,以及不存在通用、高效的算法已成为多媒体基于内容检索技术发展的障碍。对多媒体内容的分析、自动

10、摘要、索引和查询方法的研究已取得较大的进步。为解决多媒体数据的检索问题,除了可以分别利用基于关键字和基于内容等检索方法各自的优势外,还可以通过相关反馈技术(Relevant Feedback) 、语义传播技术( SemanticPropagation)以及交互学习技术(Interactive Learn2ing)把这两种方法有机地结合起来,从而大幅度地提高检索系统的检索效率。第三章 信息检索工具的评价随着互联网上各种信息的急剧增长, 网络信息检索工具的地位越来越重要, 搜索引擎的数量、种类有了长足的发展, 特别是随着网上中文信息日益增多, 网络中文检索工具应运而生, 它们为广大用户快速、准确地

11、查询与获取网上中文信息创造了便利的条件。面对众多的网络信息检索工具, 为了帮助用户有效的选择, 也为了对检索工具的改进和完善提供参考, 下面将探讨信息检索工具的评价标准。3.1 传统评价指标体系遇到的困难对传统的信息检索系统进行评价时,主要的性能评价指标包括信息收录范围、查全率、查准率、响应时间、输出方式、新颖率、用户友好程度等。因特网的出现使信息环境发生了变化,传统的检索性能评价指标在对新兴的网络检索工具进行评价时遇到了很大的困难。首先,在网络信息环境下,响应时间在相当大的程度上取决于用户使用的通讯设备、网络的拥挤程度等外部因素。就算是同一检索工具,在不同时间检索同一课题,其响应时间也会不一

12、样,实际上该指标无太大实际意义。其次,真实的查准率和查全率在网络环境下也很难获得。真实的查全率,即检索出的相关文献量和文献空间中所有相关文献量的比率,对整个因特网的文献空间来说是很难计算的,甚至连估算都困难。因为网上的信息是瞬息万变的,今天存在的信息,明天就可能不在了,同时又会出现更多的新的信息,而且至今对因特网上存在的信息量的准确估算都没有公认的说法。要计算或者估算查全率,就意味着要检验检索工具返回的所有检索结果,这在数量上可能成千上万。并且,要知道整个文献空间的相关文献量也是不可能的。真实查准率,即检索出相关文献的数量和检索出的文献总量的比率,也是很难计算的。因为对于命中结果数太大的检索课

13、题来说,相关性判断的工作量极大,不具有现实可操作性。再次,新颖率这个指标在网络环境下也不再是问题了。因为因特网上的信息更新的速度很快,以新闻尤甚,与学术科研有关的信息也不会在网上存在很长时间,因此检索到的信息基本上都是新颖的。新颖率这个指标也没有很大意义。浅谈信息检索工具32 关于新的检索性能评价指标的讨论为了解决传统的检索性能评价指标体系遇到的困难,有必要对原有的评价指标体系做一些修正,形成新的体系,以适应新的信息环境的要求。如前所述,响应时间、新颖率、查全率和查准率等传统评价指标在全新的网络信息环境下都遇到了前所未有的困难。但是数据库的收录范围、输出格式的灵活性、数据更新频率和用户界面友好

14、程度等传统评价指标则因为很好地适应了新环境而得以保留。此外,出现了链接的可靠性这样的新的评价指标。但是,查准率和查全率一直是评价信息检索系统检索性能的最有说服力的指标,也是最应该保留的评价指标。查全率在网络环境下遇到的困难:整个网络空间的文献总量难以计算;整个网络空间中和检索课题相关的文献量更加难以计算;很多时候,检出文献中的相关文献量的计算要花费巨大的人力和物力成本。也就是说,在网络信息环境下,计算真实查全率不具有现实可操作性。从另一个角度来说,在网络信息环境下,进行全面的回溯检索的现实可操作性也不大,因为网络上的信息是动态存在的。网络信息动态存在的特性决定了网络信息环境下的信息检索只能求新

15、而不能求全。如果要进行全面的回溯检索,则要求助于 DIALOG 这样专业的联机情报检索系统。在这种情况下,查准率似乎是更必要的检索评价指标。前面已经讨论过,网络信息环境下的真实查准率是难于计算的。因为有的检索命中记录数太多,有时候可以多至成千上万,其相关性判断的工作量极其巨大。因此,有必要寻求一种可操作的替代办法。比较成功的一种计算查准率的替代方法是两位美国研究人员 H.Vernon Leighton 和 JaideepSrivastava提出的“相关性范畴”概念和“前 X 命中记录查准率”。3.3 新检索性能评价指标体系的建立新评价指标体系以“前 X 命中记录查准率”为核心,继承和发展了原有

16、的评价指标体系,包括输出数据库的收录范围、格式的灵活性、数据更新频率、链接的可靠性、用户界面友好程度等。“前 X 命中记录查准率”是一个易于操作的评价网络检索工具检索性能的指标。虽然“前 X 命中记录查准率”有着这样那样的不足,但是它确实能比较客观地反映检索工具在前 X 条命中记录中提供有用信息的能力。输出格式的灵活性是网络信息检索性能评价的一个重要指标。检索工具应该能够灵活地定义检索结果输出格式。和传统检索性能评价指标相同,检索工具应该能够输出尽量多的有关信息,如标题、说明语、URL 、文件尺寸、语种等。除此之外,网络信息环境的特点使网络检索工具可以用超链接来实现检索结果的输出。例如, Ex

17、cite 在每个命中记录的最后有“Searchmore like this ”这一项,使得用户可以方便地找到更多的相关记录。数据更新频率是网络信息检索性能评价的另一个重要指标。在不考虑成本的情况下,检索工具数据浅谈信息检索工具更新频率当然是越快越好。如果更新频率太慢,跟不上网上信息的更新速度,就会出现死链。链接的可靠性是网络信息检索性能评价特有的评价指标。这个指标和数据更新频率有关。显而易见,如果链接的可靠性很差,断链、死链太多,就会出现找不到原始文献的情况,那么命中记录再多也没有用。用户界面友好程度是所有检索工具是否易于使用的衡量标准。检索工具的目的就是尽可能完美地服务于信息检索用户,简单、

18、易用应该是检索工具永恒的特点。第四章 信息检索工具的现状与发展趋势4.1 基于网页的网络信息检索工具网络信息检索工具的发展主要体现在进一步改进、完善检索工具和检索技术,以提高检索服务质量,改变网络信息检索不尽人意的地方。主要体现在以下几个方面:一是网络检索工具开发提供商之间的合作越来越紧密。过去一般网络检索工具提供商只依靠自己建立的数据库来提供检索服务,检索范围有限,而现在某些著名的搜索引擎购买了其他公司的数据库或者技术内核,有的与其他搜索引擎建立伙伴关系,以便用户使用。二是信息检索工具专业化及服务内容不断深化。一些检索工具已经不再盲目追求加大收录和标引量,而更加注重突出专业特色。在 lyco

19、s 搜索引擎目录中,我们可以看到商业搜索引擎、IT 搜索引擎、人才搜索引擎、金融搜索引擎、医学搜索引擎等专业化的网络信息检索工具纷纷出现,信息检索工具的专业化已经成为一种不可逆转的趋势。4.2 基于 FTP 文件的搜索工具FTP 文件搜索引擎技术还不是很成熟,但其发展非常迅速。其发展趋势主要表现在以下几个方面:一是检索功能日益丰富。天网 FTP 文件搜索引擎现在可以实现以文件大小、文件的上传日期以及网段(如华北网、华东网等)等多个条件的高级检索来限制检索结果;AlltheW 增加了检索方式(规则表达检索、准确检索、浏览、对大小写敏感与否等),限制主机类型(是 edu 还是 gov 或者 com

20、 等)、文件类型以及文件大小、日期等功能。二是检索服务的个性化。现在 FTP 搜索引擎研究者已经开始注意这一问题,天网 ftp 搜索引擎已经有了很多个性化的选项:可以设置用户不同偏好的排序方式,可以设定国外文件优先还是本国文件优先,对于国外用户是不是应该国外文件优先,是 FTP 上文件优先还是WWW 上的文件优先, 是选择中文还是英文等。AlltheW 可以完成更为丰富的个性化设置,如可以选择一个主机提供一个结果、设置语言、搜索文件大小的设置、是否亮度显示搜索关键词、设置使用者语言以及键盘快捷键等。4.3 基于网络检索工具的检索技术这类检索工具的发展趋势主要表现在下面几个方面:一是检索结果整理

21、的深化。如浅谈信息检索工具Vivisimo,EZ2WWW,MetaCrawler 等可以实现搜索结果的自动分类,用户可以利用传统的方式浏览结果,也可以利用其同屏的分类结果提示找寻自己需要的内容。通过 EZ2WWW 高级搜索功能可提供 1000 多种专项资源检索,可进行目录检索。SurfWax 有一个其他元搜索引擎没有的独特功能,即点击每条结果左边的“网址揿钮”图标,可浏览该结果包括的任何页面,并显示搜索语句在文件中的位置,也可把搜索结果和文件存储起来以备后用。天网搜霸已经拥有了独特的链接检测功能,可在几秒钟内检查当前页面查询结果是否可以访问,如果标注为绿色,则链接可连通(目前仅检测页面内以 h

22、ttp:/ 和 ftp:/开头的链接)。二是检索界面的个性化趋势。天网搜霸和 Goggle 提供了 IE 浏览器的插件,安装后就会被嵌到 IE的工具栏,用户不用登陆天网主页就可实现检索。用户可将自己喜欢的搜索引擎设置为主要搜索,也可添加自己喜欢的搜索引擎。不久前天网搜霸刚刚推出了可嵌在 Windows 系统任务栏上的插件,现在用户连打开 IE 浏览器都不需要了。Mamma 可选择使用短语检索功能、设定检索时间、设定每页可显示记录数,还提供了专门检索页面文件标题的特殊检索服务,以及通过 E-mail 传输检索结果的特色功能。MetaCrawler 可实现搜索引擎的选择调用,基于域名、地区或国家的

23、检索结果过滤,最长检索时间设置,每页可显示的和允许每个搜索引擎返回的检索结果数量的设定,设定检索结果排序依据(包括相关度、域名、源搜索引擎)个性化定制保存。三是智能化。ProFusion 可自动实现符合特殊检索语法要求的转换。浅谈信息检索工具参考文献1 敬卿 王群 从传统信息检索到面向知识创新2孙桂荣 从网络信息检索工具的现状看其发展特点3金芳 浅谈信息检索与信息检索技术4李宪民 网络时代文献信息检索工具及其选择5高琳 龚立群 网络信息检索工具的分类及其发展趋势6张喜年 网络信息检索工具的检索功能述略7张琪玉 网络信息检索工具的竞争力要素8张健 信息检索工具的现状与发展趋势9韩圣龙 网络信息检索工具评价指标10史维 网络信息检索工具浅析11乔华 网络信息检索工具透视12杨爱群 网络信息检索工具研究13王爱玲 网络中文信息检索工具的评价14仇恢 信息时代信息检索工具发展的新走向15何俊伟 丁丽珊 因特网信息检索对传统信息检索的影响及对策

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 精品笔记

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。