个性化搜索引擎及相关技术研究 基于Lucene索引机制的研究与实现---毕业论文.doc

上传人:滴答 文档编号:1273697 上传时间:2019-01-26 格式:DOC 页数:73 大小:1.50MB
下载 相关 举报
个性化搜索引擎及相关技术研究 基于Lucene索引机制的研究与实现---毕业论文.doc_第1页
第1页 / 共73页
个性化搜索引擎及相关技术研究 基于Lucene索引机制的研究与实现---毕业论文.doc_第2页
第2页 / 共73页
个性化搜索引擎及相关技术研究 基于Lucene索引机制的研究与实现---毕业论文.doc_第3页
第3页 / 共73页
个性化搜索引擎及相关技术研究 基于Lucene索引机制的研究与实现---毕业论文.doc_第4页
第4页 / 共73页
个性化搜索引擎及相关技术研究 基于Lucene索引机制的研究与实现---毕业论文.doc_第5页
第5页 / 共73页
点击查看更多>>
资源描述

1、 本 科 毕 业 论 文 个性化搜索引擎及相关技术研究 : 基于 Lucene 索引机制的研究与实现Personalized search engine and related technology research: The research and implementation of Lucene indexing mechanism 姓 名: 学 号: 学 院:软件学院 系:软件工程 专 业:软件工程 年 级: 指导教师: 年 月 摘 要 随着互联网的快速发展和网络信息的爆炸性膨胀,基于 Internet 的各种信息搜索服务应运而生并迅速发展。但现有搜索引擎基本上采用“一个搜索适用所有用

2、户”的模型 ,体现不出特定用户的真正需求所在。因此,搜索引擎的个性化成为当今 Internet 信息检索的一个重要课题。本研究小组基于此,研究相关搜索及个性化技术,并开发实现了个性化搜索引擎系统。 本文首先简要介绍了搜索引擎技 术及索引技术的相关理论,并通过对全文检索中的正排表、倒排表,以及倒排表的字表法、词表法的研究与实践,深入了解了全文检索索引的构建使用。并通过对 Apache 全文检索技术 Lucene 源码的剖析和实践,理解 Lucene 的系统组织结构、基本数据类型、索引内存结构及索引库文件结构,深刻理解了其索引过程以及索引方式,掌握了索引维护和索引优化的方法。在此基础上,利用 Lu

3、cene API 函数,设计了个性化搜索引擎的索引器。使其可以实现批量索引、增量索引、索引删除、索引更新等方法,并成功为个性化搜索引擎系统生成了所需索引库, 供查询检索模块使用。在设计开发过程中,严格按照软件工程代码重用的要求重用了 Lucene 的源码,并在此基础上根据系统实际情况进行了改进和扩充。 基于 Lucene 的索引器可以对不同格式文档进行预处理和过滤,并 可 结合中文分词器迅速为文档建立全文索引库,具有良好扩展性,不仅适用于搜索引擎系统,还适用于 目前运用广泛的全文检索系统。 关键词 : 索引器;个性化搜索引擎; Lucene ABSTRACT With the rapid de

4、velopment of Internet and the information explosive expansion, many kinds of search services emerged and developed fast. However, most of the existing search engines use the “a search for all users” model, which cannot reflects the real needs of the specific user. Therefore, the personalized search

5、engine has become an important topic in the Internet information field. For this reason, the research team studies the relevant technology in search engines and personalized search. The team also developed a real personalized search engine system. This article briefly introduced the theories of sear

6、ch engine and index technology. Through the study and practice of the ranked list, inverted list, single word table and vocabulary table in full-text search, deeply understand the using of indexing. And through the research in the source of Apache Lucene, understand the structure of Lucene system, t

7、he basic data types, the memory structure of index and the indexing file. Also understand the indexing process and the method of maintaining and optimization of indexing database. Basic on this, designed the indexer for personalized search engine system using Lucene API. The indexer can implement in

8、dexing, incremental indexing, index deletion, index update and so on. It built the index file successfully for the system and the query module. In the process of design and development, reuse the Lucene source code strictly according the code reuse requirements in software engineering. Improved and

9、expanded it basic on the actual situation. The indexer based on Lucene can handle different format files and filter them. Combine with the Chinese tokenizer, the indexer can build the full-text index rapidly for the documents. It has the good scalability, not only applicable to the search engine sys

10、tem, also applies to the full-text retrieval system which is used widely. Key words: Indexer; Personalized search engine; Lucene 目录 第一章 引言 . 1 1.1 研究背景 . 1 1.2 本文主要工作 . 1 第二章 搜索引擎及索引模块概述 . 3 2.1 搜索引擎的概念 .3 2.2 搜索引擎的关键技术 .5 2.2.1 搜索引擎的搜索技术 . 5 2.2.2 搜索引擎的索引技术 . 6 2.2.3 搜索引擎的查询技术 . 7 2.2.4 搜索引擎的接口技术 .

11、 7 2.3 索引原理 .8 2.3.1 索引概述 . 8 2.3.2 索引基本结构 . 8 2.4 全文检索中的索引组织 . 10 2.4.1 全文检索概述 . 10 2.4.2 索引模块在搜索中的重要性 . 11 2.4.3 索引的组织方式 . 11 2.4.4 倒排表的组织 字表和词表 . 13 第三章 全文检索系统 Lucene 的技术分析 . 15 3.1 Lucene 系统概述 . 15 3.2 Lucene 结构分析 . 16 3.2.1 系统结构组织 . 16 3.2.2 数据流 . 18 3.3 Lucene 索引器 . 19 3.3.1 Lucene 索引器概述 . 19

12、3.3.2 Lucene 索引结构 . 20 3.3.3 Lucene 索引文件结构 . 22 第四章 系统设计与实现 . 25 4.1 系统概述 . 25 4.1.1 系统结构 . 25 4.1.2 系统平台及开发环境 . 26 4.2 索引模块设计与实现 . 26 4.2.1 索引模块的组成概述 . 26 4.2.2 索引模块的数据流图 . 28 4.2.3 索引构建部分的数据流图 . 29 4.3 索引过程的分析与实践 . 30 4.3.1 原始语料的预处理过程 . 30 4.3.2 索引建立过 程 . 33 4.3.3 索引参数优化 . 39 4.3.4 使用 RAMDirectory

13、 提高效率 . 40 4.3.5 索引优化 . 41 4.4 索引库的实现 . 42 4.4.1 批量索引 . 42 4.4.2 增量索引 . 44 第五章 运行结果与性能分析 . 45 5.1 索引建立 . 45 5.2 查询测试 . 47 第六章 结论 . 50 致 谢 . 51 参考文献 . 52 Contents Chapter1 Introduction . 1 1.1 Background . 1 1.2 Content . 1 Chapter2 Search engine and Indexing module . 3 2.1 Concept of Search Engine.

14、3 2.2 The key technology of Search Engine. 5 2.2.1 Searching Technology. 5 2.2.2 Indexing Technology. 6 2.2.3 Querying Technology. 7 2.2.4 Interface Technology. 7 2.3 Indexing principle . 8 2.3.1 Summary of Indexing. 8 2.3.2 Basic framework of Indexing. 8 2.4 Indexing structure in Full-text Retrieva

15、l . 10 2.4.1 Summary of Full-text Retrieval. 10 2.4.2 The importance of Indexing module. 11 2.4.3 The organisation of Indexing. 11 2.4.4 The organisation of inverse table. 13 Chapter3 The analysis of Lucene Technology . 15 3.1 Summary of Lucene . 15 3.2 Structure of Lucene . 16 3.2.1 Structure of Sy

16、stem. 16 3.2.2 Data stream. 18 3.3 Indexer in Lucene . 19 3.3.1 Summary. 19 3.3.2 Indexing structure. 20 3.3.3 Indexing file structure. 22 Chapter4 Design and Implementation of System . 25 4.1 Summary . 25 4.1.1 Framework. 25 4.1.2 Development Platform. 26 4.2 Design and implementation of Indeing mo

17、dule . 26 4.2.1 Summary of Indexing module. 26 4.2.2 Data stream of Indexing module. 28 4.2.3 Data stream of building index. 29 4.3 Analysis and Practice of indexing process . 30 4.3.1 Pretreatment for original document. 30 4.3.2 Process of Indexing. 33 4.3.3 Parameter Optimazation. 39 4.3.4 Using o

18、f RAMDirectory. 40 4.3.5 Indexing Optimazation. 41 4.4 Implement of Indexing . 42 4.4.1 Batch Indexing. 42 4.4.2 Increment Indexing. 44 Chapter5 Test Result and Analyses . 45 5.1 Building Index . 45 5.2 Search Test . 47 Chapter6 Conclusions . 50 Acknowledgements . 51 References . 52 个性化搜索引擎及相关技术研究 基

19、于 Lucene 索引机制的研究与实现 1 第一章 引言 1.1 研究背景 Internet 的出现改变了全球通讯和信息资源的共享方式,它将各种各样的资源整合联系在一起,构成了一个巨大的网络。 而 互联网的快速发展带来的是网上信息爆炸性的增长。 2008 年, Google 宣称其目前索引的网页数量已经达到一万亿,这些信息都 具有 无固定结构、分布无规律性和动态性极强的特点。虽然 Internet 上的信息量每天 成 指数 级 增长,但对于用户只有少数 是 相关或有用 的 。 如何将这些信息有效的组织利用,让人们可以比较容易的找到自 己所需的资源,这已经成为了现代互联网研究的关键课题。 搜索

20、引擎正是在这种情况下应运而生,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。但是,随着信息多元化的增长,千篇一律的给所有用户提供同样的搜索结果已经不能满足特定用户更深入查询的需求。通常,不同领域背景、不同知识结构的用户对文档相关性的判断及检索结果的要求是不同的 。因此,未来的搜索引擎,必将体现这种“个性化”的信息检索,减少垃圾信息,提高查准率, 并 能够根据用户背景、兴趣爱好、行为、 检索目的等信息,检索出适量的、高质量的查询结果。 针对上述问题,本项目组主要研究 搜索 引擎的相关技术,及如何充分挖掘用户浏览网页过程中的

21、各种信息,来构造用户兴趣模型,对检索结果进行过滤、排序,选择更有针对性的信息,提高用户对检索的满意度。并尝试搭建个性化搜索引擎平台,将理论研究转化为实际产品。 1.2 本文主要工作 “个性化搜索引擎”项目组的课题内容是研究并建立一个基于用户行为模式的个性化搜索服务平台,主要包括系统建构的搭建、索引器模块、检索器模块、用户行为分析模块的开发。本文主要是研究索引器模块,设计个性化搜索个性化搜索引擎及相关技术研究 基于 Lucene 索引机制的研究与实现 2 引 擎中的全文检索索引器,生成高效率、高性能的索引库。文中通过对现有搜索引擎技术及索引技术、全文检索中正排表、倒排表,以及倒排表的字表法、词表

22、法的研究与实践,深入了解了全文检索 搜索 引擎的构建 和 使用。 并 通过对Apache 全文检索系统 Lucene 源码的剖析,理解 Lucene 的系统组织结构、基本数据类型、索引内存结构以及索引库的文件结构。深刻掌握了 Lucene 的索引过程及索引方式,并了解了 其对 索引优化的方法。在此基础上,利用 Lucene API函数,设计了索引器批量索引、增量索引、索引删除、索引更新等功能模块,成功生 成了 可供系统检索模块 使用的高效索引库,实现了个性化搜索引擎中的索引器模块。 个性化搜索引擎及相关技术研究 基于 Lucene 索引机制的研究与实现 3 第二章 搜索引擎 及索引模块概述 2

23、.1 搜索引擎的概念 搜索引擎 ,指的是一种在 Web 上应用的软件系统,它以一定的策略在 Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供 Web 信息查询服务。 1从使用者的角度看,这种软件系统提供一个网页界面,让他通过浏览器提交一个词语或者短语,然 后 很快返回一个可能和用户输入内容相关的信息列表(通常会是很长一个列 表,如包含 1 万个条目)。 通过浏览列表,用户对相应的网页是否真正包含他所需的信息进行判断。比较肯定的话则可点击对应URL,从而得到该网页的全文。 但搜索引擎提供信息查询服务的时候,它面对的只是查询词。而 有 不同背景的人可能提交相同的查询词,关心的 却是和这

24、个查询词 不同方面的信息 ,但搜索引擎通常是不知道用户背景的,因此搜索引擎既要争取不漏掉任何相关的信息,还要争取将那些“最可能被关心”的信息排在列表的前面。 1 搜索引擎还有 两个重要方面与传统信息检索系统区别。第一,当用户提交查询的时候,搜索引擎并不是即刻在 Web 上“搜索”一通,发现那些相关的网页,形成列表呈现给用户;而是事先已“搜集”了一批网页,以某种方式存放在系统中,此时的搜索只是在系统内部进行而已。第二,当用户感到返回结果列表中的某一项很可能是他需要的,从而点击 URL,获得网页全文的时候,他此刻访问的则是网页的原始出处,于是,从理论上讲搜索引擎并不保证用户在返回结果列表上看到的标题和摘要内容与他点击 URL 所看到的内容一致,甚至不保证那个网页还存在。为了弥补这个差别,现代搜 索引擎都保存网页搜集过程中得到的网页全文,并在返回结果列表中提供“网页快照”或“历史网页”链接,保证用户能看到和摘要信息一致的内容。 2 按照信息搜集方式和服务提供方式的不同,现代搜索引擎系统可以分为 五大类: 4 1) 基于 目录 的 搜索引擎 基于目录的搜索引擎将收集到的信息分到某一个类中 , 典型的基于目录

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。