毕业论文:基于Web的信息检索系统的研究.docx

上传人:文****钱 文档编号:49130 上传时间:2018-05-24 格式:DOCX 页数:30 大小:79.03KB
下载 相关 举报
毕业论文:基于Web的信息检索系统的研究.docx_第1页
第1页 / 共30页
毕业论文:基于Web的信息检索系统的研究.docx_第2页
第2页 / 共30页
毕业论文:基于Web的信息检索系统的研究.docx_第3页
第3页 / 共30页
毕业论文:基于Web的信息检索系统的研究.docx_第4页
第4页 / 共30页
毕业论文:基于Web的信息检索系统的研究.docx_第5页
第5页 / 共30页
点击查看更多>>
资源描述

1、1 基于 Web 的信息检索系统的研究 摘 要 基于 Web的信息检索系统的研究,讨论了信息检索的原理、评价方法、研究现状和发展方向,也研究了主流的信息检索算法,对信息检索进行了仿真实验。重点介绍了信息检索的理论、算法和技术框架。提出了面向 Web的个性化语义信息检索技术。 为了解决或减少 检索算法中 Hash地址的 “ 碰撞 ”, 把 HASH的思想和索引顺序表检索的思想 ,以及二分检索法的思想结合起来提出一种基于 HASH表的二分检索法,通过理论分析和实验证明,该算法检索效率极高。 关键词: 信息检索 ; 原理; 算法 ; 软件框架 2 目录 第 I 条 一、前言 . 3 第 II 条二、

2、信息检索的研究目的 . 3 节 2.01 (一)研究目的 . 3 第 III 条三、信息检索的 原理与技术方法 . 3 节 3.01 (一)、信息检索原理 . 3 节 3.02 (二) 信息检索的技术方法 . 6 第 IV 条四、信息检索仿真实验 . 12 节 4.01 (一)、 文本处理与倒排文档的建立 . 12 第 V 条 总 结 . 29 第 VI 条 参考文献 . 29 第 VII 条 致 谢 . 30 3 第 I 条 一、前言 1990 年以前,没有任何人能够检索互联网上的信息。应该说, 所有的网络信息检索工具都是从 1990年的 Alan Emtage 等人发明的 Archie 开

3、的,虽然它只可以实现简单意义上的 FTP 文件检索。随着 world wide web 的出现和发展,基于网页的信息检索工具出现并迅速发展起来。 1995 年基于网络信息检索工具本身的检索工具元搜索引擎由美国华盛顿大学的 Eric Selberg 等发明。伴随着网络技术的发展,网络信息检索技术工具也取得了十足的发展,已成为人们获取信息的重要手段。 本文对信息检索的研究内容和研究目的、信息检索的研究现状、传统检索模型等基础内容进行简单介 绍;在此基础上,重点介绍了个性化信息检索的相关理论、算法和技术框架。 第 II 条 二、信息检索的研究目的 节 2.01 (一)研究目的 随着计算机的普及和互联

4、网的发展,要想从海量的信息中找到自己需要的信息无疑是一项极具挑战性的工作。显然,仅仅依靠人工搜索和提取,其操作过程将非常繁琐,并且速度和效率极低,信息质量也得不到保证。解决人们获取信息的困难,迫切需要一些自动化的工具帮助人们快速找到真正需要的信息,这就是信息检索的任务。信息检索是互联网上最基础、最核心的技术。一个搜索引擎就是一个检索系统,它掌控着人们从信息海洋中获取有用信息的路径。 第 III 条 三、信息检索的原理与技术方法 节 3.01 (一)、信息检索原理 广义地讲,信息检索包含信息储存和信息检索两个过程 。信息储存是对文献进行收集、标引及著录,并加以有序化编排,编制信息检索的工具的过程

5、;信息检索是从大量的信息中查找出用户所需的特定信息的过程。而实施检索的主要方法就是利用各种检索工具(见图 3.1)。 4 信息存储过程 信息检索过程 图 3.1 信息检索的原理 (i) 1.信息储存 信息储存的工作内容,主要是由标引人员通过对原始文献的阅读分析,对文献中的信息进行鉴别、提炼和浓缩,并采用特定的方式予以整理、保存起来。它大致有如下几个步骤: ( 1)选择文献。根据信息检索系统的主题、性质及任务等,结合原始文献本身的研究水平、角度及其信息质量,对原始文献进行适当的评价,从中筛选出符合要求的文献。 ( 2)文献的概念分析。对所选文献进行仔细的主题分析,提炼出文献所论述的内容主题,归纳

6、为代表文献内容的 若干主题概念,并确定这些主题概念之间的关系。 ( 3)词汇转换。把文献的主题概念转换为适当的文献标识(或标引词),并以这此标识来表达文献的主题内容。这种转换需要严谨地建立在两个依据之上:一是必须以对文献的主题概念分析为依据,二是必须以信息检索语言为依据。前者主要决定转换什么的问题,即需要对文献中的哪些信息主题做出转换;后者主要决定怎样转换的问题,即把主题概念转换为哪些标识。 ( 4)信息检索工具的编制。概括地讲,检索工具是信息检索系统的核心和概括,它主要包括两个有序化的序列,即文献序列和文献标识序列。 文献序列 是由文献描述体或文献本身按照一定的方式组织形成的有序化序列,构成

7、文信息资源 信息 选择 收集 主题概念分析 信息标引 信息用户 信息需主题概念检索提检索结果 信息检检索(标引)语 言 5 献库。文献描述体是对原始文献内容的浓缩,常见的有文摘、题录等,这是信息检索所采用的传统和主要的方式。其主要作用是,使用户能够对文献内容有较为全面和准确的了解,进而做出是否需要获取原始文献的选择。随着计算机技术和通信技术的发展,现在已经有越来越多的信息检索系统采用全文本的方式,直接把原始文献本身组织为有序化的序列,尤其是因特网的迅猛发展,为全文本检索拓展了更大的发展空间。 文献标识的序列,是由文献标识按照特定的顺序形成的有序化序列,构成文献库的 索引。最常见的排列方式为字顺

8、,即按照字母顺序或汉语拼音,排列为文献标识的序列。其作用主要是依靠字顺组织,提供对文献标识的快速查找,并与提问标识加以比较,据此做出文献是否与提问相符的判断。这个标识比较的过程,也称为检索的匹配。 (ii) 2信息检索 信息检索的工作内容,主要是由检索人员接受用户的检索提问,对提问进行细致的主题分析,提炼出检索的主题概念,并编制出相应的检索策略。 其工作步骤如下: ( 1)用户提问。在特定的条件下,用户会把头脑中信息需求转变为具体的检索行为。 ( 2)提问的概念分析。分析检索提问,识别检索的 真正主题内容,把检索主题分解为若干概念,并明确这些概念之间的关系。 ( 3)词汇转换。把检索提问的主题

9、概念转换为相应的提问标识(或称为检索词),并以这些标识来表达检索提问的主题内容。其依据同样有两个方面:一是对提问的主题概念分析,二是信息检索语言。 ( 4)检索的实施。根据所得到的提问标识,在文献标识序列中,按照其排序的规则,迅速地进行查找,并对文献标识与提问标识进行匹配比较。如果文献标识与提问标识相同,那就表明包含有该标识的文献与用户提问相符合,该文献被作为命中文献而进行检索输出;如果文献标识与提问标识不相同 ,则表明文献与用户提问不相符合,该文献被作为不命中的文献而排除。 综合上述信息储存和检索两个方面,信息检索的原理是:由标引人员以文献或文献描述体构成文献库,同时把文献压缩转换为文献标识

10、,以此表达文献的特征和主题内容,并对这些文献库和文献标识,按一定的方式分别予以有序化组织,从而形成信息检索系统。这也就是信息储存的过程。检索时,把用户的检索提问压缩转换为提问标识(检索词),以此表达提问的特征和主题内容,并将提问标识与信息检索系统中的文献标识进行对比,进而依据匹配与否,做出文献是否符合检索提问的判断。这也就是信 息检索的过程。 6 因此,信息检索的原理就是提问标识与文献标识的对比。 节 3.02 (二) 信息检索的技术方法 (i) 1 手工信息检索的技术方法 ( 1)手工信息检索工具 在手工信息检索工具中,目前主要使用的检索工具包括: ( 2)目录 目录是图书或其他单独出版物规

11、律化、系统化的记载,主要用于检索出版单位和藏书单位是否拥有信息检索者所需要的书刊。目录只涉及这些出版物的外部特征,如书名、卷数、作者、出版年月、版本号、出版社名称、页数等,但有的附有十分简单明了的内容摘要。目录是历史上最早出现的信息检索工具,种类繁多,其中较为重要的有:国家书目、出版社目录、书店目录、馆藏目录、联合目录、专题目录等。 ( 3)索引 索引是把一种或多种书刊里的具体内容按一定的方式分别摘录,并注明出处,以便检索的一种工具。索引的种类也很多。按寻找文献内容 特征的编制方法来分,有分类索引与主题索引;按取材来源,又分为图书索引、期刊索引、报纸索引及其他文献索引;按著录对象,可分为篇目索

12、引、主题索引、条目索引、词语索引及辅助索引等。 ( 4)文摘 文摘是把文献资料的主要内容,如主要论点、论据、原理、重要数据、结论、适用范围等,由有一定水平和经验的编者将其准确、简要地摘录出来,并注明出处后,经分类排序而编制成的检索工具。文摘的主要作用是供快速而准确的阅读和检索,对查全率和查准率要求比较高。因此,文摘的编纂远较目录、索引来得艰巨、复杂,但所含的信息量远高于目录和索引。文 摘主要类型包括指示性文摘、报道性文摘、统计性文摘等。 ( 5)年鉴 年鉴是以描述和统计的方式逐年提供某年度某一领域信息的工具书。年鉴包含的内容很丰富,从一部商贸年鉴中可以得到专家对某一行业或市场的综述、分析、回顾

13、和展望,了解新出台的政策法规,最新的统计数据和企业介绍、调研报告、经济团体和研究机构的名录、经贸知识、理论研究、重要或最新产品、大事记、经济形势分析和预测等,因而最适合于各类现行资料的查询。作为一种年度出版物,年鉴还能连续地反映事物的发展、停滞甚至倒退的趋势。年鉴种类很多,如中国经济年鉴、中国 商业年鉴、中国广告年鉴、中7 国金融年鉴、中国物价年鉴、中国证券业年鉴等。 ( 6)手册 手册是汇集某一学科领域或业务部门专门知识的工具书,多是针对当前实践中的需要,以简明扼要的方式提供具体、实用的资料,供随时翻检查阅,故又称便览,也常冠以“概鉴”、“大全”、“要览”、“指南”、“必备”等名称。英文用

14、Handbook和 Manual 表示,前者侧重反映“何物”( what)一类的信息,如数据、事实等,后者偏重“如何做”( how-to)之类的问题。手册种类也相当繁多,如市场预测实务全书、公司开办与经营手册等 。 ( 7)百科全书 百科全书是荟萃一切门类或某一门类知识、以概要方式介绍为主的多功能工具书。如果说词典的功能仅仅说明某一概念,则百科全书是“接着定义往下说”的工具书,它可以回答诸如“何时”、“何地”、“如何”、“为何”等背景性知识,内容详尽完备,查阅、检索功能都很突出,条目多由标题、释文、图表和参考文献组成,有的内容专深,卷帐浩繁,是补充知识的常用工具。中国大百科全书,不列颠百科全书

15、等都是非常实用的检索工具。 (ii) 2.手工信息检索工具的排检技术 ( 1)字顺排检技术 字顺排检技术是指将检索工具 的内容按字、词的一定顺序或规律,有系统地组织排列起来的技术。 ( 2)分类排检技术 分类排检技术是指将信息素材按学科或事物性质系统地加以排列。该技术有按一种方式单独编排的,也有与按时间、地区排列技术相互配合使用的。 ( 3)主题排检技术 主题排检技术是指以规范化的自然语言为标识符号,来标引信息内容的排检技术。主题排检技术的一般形式是以主题词来揭示信息素材记述的中心内容或对象,主题词本身按读音或笔画或字母顺序加以排序。这种排检技术把属于不同学科、不同知识体系中论述同一问题的信息

16、素材集中 标引出来,揭示信息素材内容比较深入、广泛。 ( 4)时序排检技术 时序排检技术是指按时间的顺序组合信息素材的技术,多用于编制年表、年谱等检索工具。 ( 5)地序排检技术 地序排检技术是指按一定时期的行政区域来排列信息素材的技术。这种技术可以把同8 一地区的有关信息素材集中在一起,全面地反映某一地区、某一国家的历史和现状。 (iii) 3、 计算机信息检索的技术方法 ( 1)联机信息检索的技术原理 联机检索起源于 20世纪 60年代的美国。目前,联机检索业已形成了覆盖全球的信息检索系统,如 DIALOG、 OCLC 等。我国从 20 世纪 80 年代开始从事国际联机检索,经过20 余年

17、的发展也已建立起了自己的联机信息检索系统,如 ISTIC、 MEIRS 等。 联机信息检索系统是一个典型的计算机信息系统,能完成数据收集、分析、加工处理、存储、传递通信和检索信息的全过程。在信息存储的过程中,由系统按一定的规律对信息进行加工处理,并赋予特征标识;在信息检索的过程中,由用户通过系统提供的检索指令,向系统提交含有需求特征 的检索表达式。计算机信息检索系统接收到正确的指令后,自动地将相关信息集合的特征标识与用户提交的检索特征进行“匹配”。这种匹配完全是一种字符串的类比运算。匹配结束,系统自动给出存储信息的特征与检索提问的特征相符的记录篇数,即命中数量。用户通过显示命中记录的内容,判断

18、检索是否成功,这就是联机信息检索技术的基本原理。 ( 2)联机信息检索的服务方式 联机信息检索的服务方式主要有以下几种: 1)定题信息提供。这种服务是由检索系统工作人员将用户信息需求转换成一定的检索提问式,并将此提问式存入计算机中,信息检索系统定期从新的文献信息中为用户检索,并按用户指定的格式为用户加以编排和打印。利用 SDI服务,用户可定期获得所需要的最新信息,及时掌握同类专题的动态和进展。 2)专题回溯检索。这是用户对检索系统中积累多年文献资料的数据库进行检索,查找一定时间范围以内或特定时间以前的文献,通常采用联机检索方式进行。此种服务的结果一般要求切题,但又无大的遗漏,尽量做到省机时、省

19、费用。通过专题回溯检索进行专题查询或情报调研时,可全面系统地了解有关文献的线索。 3)联机订购原文。联机检索的结果通常是一些文摘或题录形式的二次文献形式。用户通过阅读这些二次文献了解大致的内容,然后根据这些文献线索查找全文或通过E-mail方式索取。 (iv) 4光盘信息检索 光盘是继纸张、缩微胶片、磁存储器之后的一种用激光束记录和再现信息的存储载体。用于检索和阅读的光盘通常为只读光盘( CD-ROM)。它是一种信息载体,而要对其中的信9 息进行检索和利用则需要计算机的配合。光盘产品自 20世纪 70年代出现以来,最初只用于娱乐,直到 1985年人们 才研制出第一种专用于信息服务的光盘。自此,

20、以光盘为载体的数据库产品层出不穷,为信息产业的发展注入了新的生命力,特别是光盘与计算机的结合,使得信息检索模式发生了革命性的变化。 ( 1)光盘信息检索技术 光盘信息检索系统由微机、驱动器及连接设备、 CD ROM数据库(光盘)及其检索软件构成。 使用 CD-ROM光盘需要在计算机上装配 CD-ROM 驱动器,驱动器可安装在诸如 IBMPC、XT、 AT、 Pentium以及绝大多数 IBM兼容机上。驱动器是读取光盘数据的专用设备,在微机扩展槽上插入 CD-ROM驱动器的接口卡就可将 微机与驱动器连成一体。 CD-ROM驱动器有内置式和外置式两种,前者装在微机机箱内。可节省台面空间,价格较便宜

21、;后者可很方便地移动到不同的计算机上。选择驱动器时主要考虑以下性能:一是速度,一般为185-500ms之间;二是查找速度,一般在 250-400ms 之间;三是数据缓冲区越大,可直接从存储器存取的数据就越多,节省查询时间;四是数据传送速度,有单速、双倍速乃至40 倍速以上的驱动器。 ( 2)光盘信息检索方法 光盘检索系统的功能与指令与联机检索没有很大区别,但更方便。各个系统一般都有如下功能键: Help(帮助 )、 Index(索引)、 History(查阅历史)、 Display(显示)、 Print(打印)、 Select Database(选择数据库)、 Format Window(格式

22、窗)、 Quit(退出)等。当然,系统一般不显示当前没有使用的功能键,只列出正在使用的功能键。 检索信息时可用单元词、多元词(短语)、数字及布尔运算符和位置运算符把几个检索术语组配成一个提问逻辑式。在编制提问式时,可以用有关功能键弹出索引菜单,通过浏览各种索引获取数据库记录中的关键词、词组和系统提供的主题词表,以便选择拼法、可能的截断术语 和查找范围。当系统将检中的记录用标题形式显示出来时,用户可以用方向键在屏幕上移动至所需题名,然后以全记录形式显示或打印它。 系统保持着用户的一切提问和每一结果,因此,用户可以随时回顾其查找历史,重新使用或修改以前的任何提问。也可以在另一数据库中选择回顾历史并

23、执行同样的检索策略,而不必重复键入或重新处理检索术语。 屏幕帮助是光盘数据库最常用,也是重要的功能之一,对计算机检索不熟悉的用户在几乎每一个重要步骤都可以得到指导。帮助的菜单内容一般是针对正在检索中的某一个步10 骤,其内容有:了解系统功能、提问句法、检索策略 、记录字段的描述、限制符、禁用词和标点、索引的使用、主题查找、从记录中抽词、截断和排列、如何显示记录、改变显示格式、打印记录、保留记录、结束查找、获得文献以及各种功能键的使用法。 (v) 5网络信息检索的技术方法 ( 1)网络信息检索技术 自 20 世纪 90 年代以来, Internet 已成为世界上最大的信息资源宝库,网络信息的查找

24、和检索,已远远超出了信息检索领域,基于 Internet的信息检索系统成为网络信息检索阶段的代表。网络信息检索的特点是:信息检索范围宽,用户操作方便,但信息检索准确率不高。 1)布尔检索 即按照布尔逻辑,采用逻辑算符将检索提问转换为相应的逻辑表达式进行检索。一般情况下,逻辑加用“ +”为运算符,表示概念的联合;逻辑乘以“ *”为运算符,表示概念的限定;逻辑非以“ -”为运算符,表示概念的排除。计算机根据表达式给出的关系进行检索匹配,予以输出。 使用布尔检索,可以利用上述演算符,通过逻辑复杂的演算方式,对信息资源进行确切查找。这对具有海量信息的检索系统中信息资源的查找十分有效。例:以“北京 *空

25、气污染 *(汽车 +可吸入颗粒物) -冬季”表示对“北京除冬季外汽车和可吸入颗粒物造成的空气污染状况”这一 主题的检索。 2)截词检索 即采用截断的方式,利用词的片段进行检索。通常用“ *”符号来表示截断。截词检索又分为: 右截词,如 infor*,可检索出所有以 infor 字符开头的语词的资源。 左截词,如 *infor,可检索出所有结尾为 infor字符的语词的资源。 中间截词,如 inf*mation,可检索出所有以 inf头,以 mation结尾的语词的资源。 左右截词,如 *format*,可检索出所有中部具有 format语词的资源。 截词检索是一种用字面相近度检索相关资料的检索方法,具有提高检全率的作用,在英文 等西文检索中十分普遍。汉字检索时,一般只在对标引词精确匹配时才使用。此外不少系统还具有模糊检索、容错检索等功能,这实际上也是截词检索的一种应用。 3)精确检索 即通过规定各种检索方式,限定和缩小检索对象范围,提高检准率。

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。