基于Nutch + Lucene搜索引擎的搭建 -爬虫系统的设计与主题相关的若干探索-毕业论文.doc

上传人:滴答 文档编号:1273309 上传时间:2019-01-26 格式:DOC 页数:61 大小:1.07MB
下载 相关 举报
基于Nutch + Lucene搜索引擎的搭建 -爬虫系统的设计与主题相关的若干探索-毕业论文.doc_第1页
第1页 / 共61页
基于Nutch + Lucene搜索引擎的搭建 -爬虫系统的设计与主题相关的若干探索-毕业论文.doc_第2页
第2页 / 共61页
基于Nutch + Lucene搜索引擎的搭建 -爬虫系统的设计与主题相关的若干探索-毕业论文.doc_第3页
第3页 / 共61页
基于Nutch + Lucene搜索引擎的搭建 -爬虫系统的设计与主题相关的若干探索-毕业论文.doc_第4页
第4页 / 共61页
基于Nutch + Lucene搜索引擎的搭建 -爬虫系统的设计与主题相关的若干探索-毕业论文.doc_第5页
第5页 / 共61页
点击查看更多>>
资源描述

1、 本科毕业论文 (科研训练、毕业设计 ) 题 目: 基于 Nutch + Lucene 搜索引擎 的搭建 -爬虫系统的设计与主题相关的若干探索 姓 名: 学 院: 软件学院 系: 软件工程 专 业: 软件工程 年 级: 学 号: 指导教师: 职称: 年 月摘 要 I 摘 要 搜索引擎是为满足人们对网络信息的搜索需求而发展起来的技术。 近年来,随着网络信息量的与日俱增,人们已经越来越离不开搜索引擎了。 搜索引擎以一定的策略利用网络爬虫爬取网络上 的各种资源,建立索引,并对信息进行分析,提取,组织和处理,从而起到信息导航的作用。 本文阐述了搜索引擎的基本运作流程,并通过 Nutch 深入了解,分析

2、了网络爬虫 部分 的工作流程 , 最后 构建出了一个基于 Nutch + Lucene 的搜索引擎。通过网络爬虫在爬取阶段与主题 关键字的比较判别实现了主题判别。 关键 词 : Nutch; Lucene; 主题搜索 厦门大学学士学位论文 II Construction of Search Engine based on Nutch plus Lucene -Several explorations of the topical network spider and the Reptile system design Abstract Search Engine is a burgeoning

3、 technology which help us in the information era to meet our searching demands of information through TBs of data on the Internet. Based on using the core functions of the Network Spider strategeticaly, Search Engines could act like an information navigator to build indexes, analysis the data, abstr

4、act and organize information, so as to hunt what we need from the rich resources of the Internet. This thesis introduces the basic theories of the search engine, analyze the working procedures of the crawling part thoroughly by the example of Nutch, and construct a Search engine based on Nutch + Luc

5、ene, which impliments the topic discrimination by comparing the topic keywords with the contents from web pages. Key Words: Nutch Lucene topical crawl目 录 III 目 录 第一章 绪论 . 1 1.1 课题研究背景 . 1 1.2 搜索引擎的原理 . 4 1.3 本文主要工作 . 6 1.4 论文组织 . 6 第二章 Nutch 及其相关技术 . 7 2.1 Nutch. 7 2.2 Lucene. 13 2.3 Hadoop. 13 2.4

6、MapReduce. 14 第三章 系统概要设计 . 16 3.1 系统总体架构 . 16 3.2 系统爬虫模块 . 18 3.3 主题判别 . 19 3.4 系统界面模块 . 19 第四章 系统的设计与实现 . 25 4.1 基础设施平台 . 25 4.2 系统爬虫部分的实现 . 25 4.3 系统界面部分的实现 . 31 4.4 爬虫爬取结果分析 . 34 第五章 总结与展望 . 39 5.1 工作总结 . 39 5.2 工作展望 . 39 致 谢 语 . 40 参考文献 . 41 附录 A. 42 A.1 Nutch 在 cygwin 下的配置与使用 . 42 厦门大学学士学位论文 IV

7、 Content CHAPTER 1 INTRODUCTION . 1 1.1 Research Background . 1 1.2 The Principles of Search Engine . 4 1.3 Main Task of This Thesis . 6 1.4 Thesis Organization . 6 CHAPTER 2 NUTCH AND RELATED TECHNOLOGIES. 7 2.1 Nutch . 7 2.2 Lucene .13 2.3 Hadoop .14 2.4 MapReduce .15 CHAPTER 3 SYSTEM OUTLINE DESI

8、GN.16 3.1 System Overall Framework.16 3.2 Systems Crawl Module .18 3.3 Topical Discriminant .19 3.4 Systems Interface Module .20 CHAPTER 4 DESIGN AND IMPLEMENTATION OF SYSTEM .25 4.1 Basic Implementation Platform .25 4.2 Implementation of The Crawl Part .25 4.3 Implementation of The Systems Interfac

9、e .31 4.4 Analyze The Crawled Results .34 CHAPTER 5 CONCLUSIONS AND FUTURE WORK .39 5.1 Conclusions .31 5.2 Future Work .34 Acknowledgements .40 References .41 Appendix A .42 A.1 Allocation and Use Nutch in Cygwin .42 第一章 绪论 1 第一章 绪论 本章节介绍了本文的项目背景,研究现状以及本项目主要内容。作为全文的开始,本章节还总结了全文的章节组织架构,给出了全文的脉络,方便读者

10、进行更加深入地阅读。 1.1 课题研究背景 随着计算机与互联网的日益普及 和 应用,现在的全球网站数量已经超过 1.6 亿个,而网页数量则早已超过了 50亿。普通用户想找到所需的资料简直如同大海捞针,而在这时,为满足大众信息检索需求的搜索网站便应运而生了。现代意义上的搜索引擎的祖先,是 1990 年由加拿大麦吉尔大学( University of McGill)计算机学院的师生开 发出的 Archie1。 Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。而此后的数十年,一个个搜索引擎巨头也陆续诞生了: Goo

11、gle, Yahoo, Baidu。 当人们对上述这些通用搜索引擎的依赖程度越来越高时,人们的满意程度却 变地 越来越低了。根据 iResearch 艾瑞市场咨询发布的个人门户发展趋势研究报告 2,网 民 对搜索结果 主要不满意的 地方 主要集中在冗余信息多,找不到足够的资料、有价值信息太少等方面。 1.1.1 搜索引擎 的现状 搜索引擎是为满足人们对网络信息的搜索需求而发展起来的技术。 它 以一定的策略利用网络爬虫爬取网络上的各种资源,建立索引,并对信息进行分析,提取,组织和处理,从而起到信息导航的作用。 在美国, Hitwise 在 2008 年 3月发表的美国搜索引擎市场份额统计结果 3

12、。从中可以看出大部分用户都会选择 Google, Yahoo 和微软提供的搜索引擎进行搜索。具体 市场份额 如下图 所示 : 厦门大学学士学位论文 2 图 1- 1 美国 2008 年 3 月搜索引擎市场份额 资料来源: 而在国内市场,据 易观国际 2008 年第 1季度中国搜索引擎市场季度监测报告显示 4,百度牢牢占据老大的地位,谷歌位居第二,具体数据如下图 所示 : 图 1- 2 中国 2008 年第一季度搜索引擎市场份额 资料来源: 1.1.2 搜索引擎 的发展趋势 经过多年的发展,搜索引擎的功能已经越来越强大,也更加地贴近人们的需求。 一方面Google, Yahoo 等搜索引擎巨

13、头 开始整合资源,使自己的搜索引擎更 人性化: 比如当用户在搜索城市的地名时,很有可能,搜索结果页面的开始会显示出你搜索城市的天气情况。另一方面, 虽然 Google, Yahoo 等通用搜索引擎虽然能够很大程度上解决人们在互联网上找信息的困难,但是由于随着信息多元化,千篇一律给所有用户同一个入口显然不能满足特定用户第一章 绪论 3 更深入的查询需求 5。 另外值得注意的一点在于 ,通用搜索引擎不能遍历所有互联网上的信息。 面对通用搜索引擎发展所遇到的困难和人们对信息的新需求,一种只爬取特定领域的主题搜索引擎展现在我们的眼前。 我会在下 面的 小节中介绍主题搜索引擎 的相关概念 。 1.1.3

14、 主题 网络爬虫 网上的信 息浩如烟海,网络资源以 几何级的速度 增长,一个搜索引擎很难收集全所有主题的 网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将每个 主题都做得精确而又专业,使得检索结果垃圾太多。这样 一 来,主题搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一系席之地,比如 像 股票、天气、新闻 的主题 搜索引擎,具有很高的针对性,用户对查询结果的满意度较高 6。 主题网络爬虫就是根 据一定的网页分析算法过滤 掉 与主题无关的链接 , 保留主题相关的链接并将其放入待抓取的 URL 队列中 ; 然后根据一定的搜索策略从队列中选择 下 一步要抓取的网页 URL,

15、并重复上述过程 , 直到达到系统的某一条件时停止 7。所有被网络爬虫抓取的网页将会被系统存储 , 进行一定的分析、过滤 , 并建立索引 , 对于主题网络爬虫来说 , 这一过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。 1.1.4 主题网络爬虫研究进展 为了高效地抓取与主题相关的网络资源,研究者提出了许多主题定制爬行策略和相关算法,使得网络爬虫尽可能多地爬行主题相关的网 页,尽可能少地爬行无关网页,并且确保网页的质量。主要的方法有 三 种: 1. 基于文字内容的启发式方法: 基于文字内容的启发策略主要是利用了 Web 网页文本内容、 URL 字符串、锚文字等文字内容信息。 其缺点是

16、没有考虑到通过超链而形成的 Web 有向图对主题网络爬虫的影响 。 2. 基于 Web 超链图评价的方法: 基于 Web 图的启发策略的基本思想来自于文献计量学的引文分析理论。尽管引文分析理论的应用环境与 Web 并不相同,但到目前为止,网页之间的超链还是比较有价值的一种信息。 3. 基于分类器预测的方法 : 为了克服基于文字内容 难以精确描述用户感兴趣的主题 , 以及基于 Web 超链图分析的低厦门大学学士学位论文 4 效率 , 研究者提出了基于分类器导引的主题网络爬虫 8, 从而可以基于分类模型来描述用户感兴趣的主题和预测网页的主题相关度。通过文本分类模型可以从更深的层次来描述用户感兴趣的

17、主 题信息 , 并可以更加准确地计算网页的主题相关性 , 而不只停留在基于关键词的匹配上。文本分类技术应用于主题信息搜索中有利于提高主题搜索的正确率和准确率。有关实验结果表明 , 使用主题分类器来指导网络爬虫爬行主题相关网页的效果要好得多。 1.2 搜索引擎的原理 搜索引擎一般由搜集器,分析器,索引器和用户接口五个部分组成。如下图所示: 图 1- 3 搜索引擎体系结构 9 资料来源: 搜索引擎 -原理、技术与系统 1.2.1 搜集器 搜集器 10的功能是在互联网中漫游、发现和搜集信息。通常情况是一个计算机程序日夜第一章 绪论 5 不停地运行,根据设定尽可能多、尽可能快地爬取系统所指定的内容。同

18、时还需要进行定期地更新已经搜索过的信息,以避免死链接和无效链接。 搜索器的实现常常使用分布式、并行计算技术,以提高 网页 爬取和更新的速度。 1.2.2 分析器 分析器对检索器搜集下来的本地文档库进行分析,以便于索引,文档分析技术包括分词,过滤和转换等。 一般“词”能够表达完整的语义对象,所以通常选用词作为文本特征的元数据。在分词时,大部分系统从全文中抽取词条。由于中文的基础元数据是字儿不是词,句子中各词语间没有固定的分隔符,汉语语义及结构上的复杂性和多边性给中文分词带来极大的困难。 汉语分词主要有两大类分法 11:基于词典与规则,或者基于统计。前者应用词典匹配,汉语词法或其他汉语语言知识进行

19、分词。后者基于字和词的统计信息。 分词后通常要使用禁用词表来去除出现频率很高的无意义词条,与此之外,还需要对词条进行单,复数转换,词缀去除等工作。 1.2.3 索引器 索引器从分析器提取的信息中抽取出索引项,用于表示文档以及生成文档库的索引表。 索引项有客观索引项和内容索引项两种。客观索引项与文档的语义内容无关,如作者名、URL、更新时间等;而内容索引项 用来反映文档的内容,如关键词,短语,单字等。 索引器可以使用集中式索引 算法或分布式索引算法。当数据量很大时,必须实现及时索引,否则会造成跟不上信息量急剧增加的速度。 1.2.4 检索器 检索器根据用户的查询在索引库中找出文档,根据其内部评分机制,对将要输出的结果进行排序。检索器常用的信息检索模型有几何理论模型,袋鼠模型,概率模型和混合模型。 1.2.5 用户接口 用户接口 10为用户提供可视化的查询输入和结果输出界面,提供用户相关性反馈机制。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。