基于Nutch海关主题搜索引擎的研究与设计.doc

上传人:gs****r 文档编号:1757421 上传时间:2019-03-14 格式:DOC 页数:7 大小:109KB
下载 相关 举报
基于Nutch海关主题搜索引擎的研究与设计.doc_第1页
第1页 / 共7页
基于Nutch海关主题搜索引擎的研究与设计.doc_第2页
第2页 / 共7页
基于Nutch海关主题搜索引擎的研究与设计.doc_第3页
第3页 / 共7页
基于Nutch海关主题搜索引擎的研究与设计.doc_第4页
第4页 / 共7页
基于Nutch海关主题搜索引擎的研究与设计.doc_第5页
第5页 / 共7页
点击查看更多>>
资源描述

1、1基于 Nutch 海关主题搜索引擎的研究与设计【内容摘要】运用 Nutch 搜索引擎技术开源和完整网络搜索的设计思想,构建了基于 Nutch 的海关情报资源主题搜索引擎系统模型,分析研究了系统各功能子模块的主要作用和功能整合方案,并提出了系统实施运行的相关技术路线;从而较好地解决了海关系统目前尚无专业化的主题搜索引擎的问题,实现了在统一的技术平台进行海关情报和文献资源的全文检索,为各级海关用户提供了一个方便、快捷、准确地获取情报信息的有效工具。 【关 键 词】Nutch 海关 主题型 搜索引擎 统一检索 海关系统不断加大科技和资金投入,陆续开通了各级海关门户网站及海关统计咨询网、中国通关网、

2、电子口岸数据中心网等专业性站点。这些站点为宏观经济和社会各界提供海量的资讯和详尽的统计数据。同时,与外界物理隔绝的海关内部业务网站也在关际交流、学术研究、互助协作方面起到了积极作用。 无论从海关内部的业务协作、科学研究的角度,还是从海关外部对海关资讯、统计数据的检索需求角度考虑,都需要寻求一种有效的手段以便从海量信息中获取有价值的信息。 目前,通用型搜索引擎的内部排序算法和商业化的竞价排名机制决定了搜索结果的准确率不是很高,且涉及领域太广,需要用户的二次筛选。尤其在海关领域的查询上,更显得不够深入和专业化。因此,社会2和海关内部都迫切需要一个以海关为主题的专业化搜索引擎。 一、相关概念 1.搜

3、索引擎 搜索引擎,简而言之,是现代信息检索技术在大规模文本集合上的实际应用。从 1993 年诞生第一个搜索引擎“Excite“至今,搜索引擎已经进入到第四个发展阶段,即面向主题的搜索引擎。所谓主题型搜索引擎,就是以构筑某一专题领域或学科领域的网络信息资源库为目标,智能地在网络上搜集符合设定专题或满足学科需要的信息资源。一个搜索引擎在一个主题下的主题度越高,证明这个搜索引擎越贴近这个主题,用户就越容易找到跟这个主题相关的资料。 2.Nutch Nutch 是一个基于 Lucene、开源的、Java 实现的完整网络搜索引擎解决方案。Nutch 基于 Hadoop 的分布式处理模型可以保证执行效率;

4、同时拥有类似 Eclipse 的插件机制,足以保证系统良好的适应性,而且很容易集成到客户的应用之中。 3.采用 Nutch 构建主题型搜索引擎的优势 (1)透明度好 与商业化搜索引擎不同,Nutch 是开放源代码的,任何人都可以查看并修改其排序算法。因此 Nutch 对学术搜索和政府类站点的搜索来说,有着更好的透明性,比较适合专业化和学术研究的要求。 (2)扩展性强 Nutch 是非常灵活的,可以按需定制并集成到相应的应用程序中。如3借助 Nutch 的插件机制,可将 Nutch 作为一个搜索个性化信息载体的搜索平台。根据海关主题型搜索引擎的检索需求,将其集成到海关主题型搜索引擎的主页,即可实

5、现为用户提供具有针对性的搜索服务的目标。 (3)性价比高 使用 Nutch 本身并不需要支付任何费用,在以最小的成本运作的前提下能够做到: 每个月抓取几十亿网页;为每一个抓取到的网页维护一个索引;对索引文件进行每秒上千次的搜索;提供高质量的搜索结果。 二、系统模型 面向海关主题的网络爬虫的设计思路是:以 Nutch 的 crawl 为基础,对 crawl 进行功能上的限定并明确其运行的范围,即根据目标用户的需求,将面向海关主题的 web 信息提取限定在已知的、正式上线的官方网站站点内,以此作为 URL 集合,实现对面向主题的信息的自动采集;获得链接数据后,通过主题筛选和分析建立全文索引库;用户

6、对索引库进行检索。系统大致可以分为三个层次: (1)数据层:将 URL 集注入 crawldb 数据库,根据 crawl- db 数据库创建抓取列表,执行“创建列表/抓取网页/更新数据库”的循环直到完成抓取。 (2)中间层:根据抓取的网页所生成的片段内容更新链接数据库,再进一步建立全文索引 (3)应用层:用户通过用户接口进行查询操作,通过 Tomcat 服务器将用户查询转化为 lucene 查询,最后返回结果。 三、功能模块及实现路径 41.抓取 (1)建立初始 URL 集 初始 URL 集的建立有两种方式:超链接和站长提交。本系统拟采用站长提交模式:即通过管理员建立以海关站点为主题的 web

7、 地址集作为初始 URL 集,搜索引擎经过核查之后,便将该类网站 URL 加入到 crawldb数据库中,进行抓取。 (2)注入(inject) inject 操作调用的是 Nutch 的核心包之一 crawl 包中的类injector,其主要作用是:将 URL 集合进行格式化和过滤,设定 URL 状态为:未抓取(UNFETCHED) ,并按照一定方法进行初始化分值;将 URL进行合并,消除重复的 URL 入口。 (3)生成(generate) generate 操作调用的是 crawl 包中的类 generator,主要作用是:从 crawldb 数据库中将 URL 取出并进行过滤;对 UR

8、L 进行排序,通过域名、链接数并通过一种 hash 算法处理后进行降序排列;将排列列表写入segment 。 (4)抓取(fetch) fetch 操作调用的是 fetcher 包中的类 fercher,其主要操作是按照segment 文件夹下的抓取列表进行抓取作业,在抓取过程中,页面的 URL地址可能因为链接发生改变,从而需要更新 URL 地址,为了达到理想的信息获取速度,一般采用多线程并行信息抓取的策略。 (5)解析(parse) 5parse 操作调用的是 parse 包中的类 parsesegment,解析 segment中由 fetch 得到的页面,并进行整理,将页面分成为 pars

9、e-date 和parse-text,在 parse-date 中保存的是页面的题名、作者、日期、链接等内容,在 parse-text 中保存的是页面的文本内容。 (6)更新数据库(updatedb) updatedb 操作调用的是 crawl 包中的类 crawldb,其主要作用是根据 segment 目录下 fetch 文件夹和 parse 文件夹中的内容,对 crawldb进行更新,增加新的 URL,更换旧的 URL。 2.索引 (1)索引模块 Lucene 是 Jakarta Apache 的开源项目,提供了非常简单的索引建立方法。在建立文档类型的对象时,文档的域(Field)与数据库

10、的表或视图的结构对应,因此,可以根据元数据类别控制检索权重,还能指定需要索引的域、需要分词的域等。Lucene 为文档建立索引的过程,对文档格式没有要求,无论其格式为 Html、MS word、Pdf、Excel、XML 还是纯粹的文本文件,只要能从这些文件中抽取出文本信息即可。为此,Nutch采用了插件机制(plugin) ,通过各种对应的文档解析器,将文档转换成纯文字字符流。Lucene Analyzer 负责过滤掉标点符号和诸如“的、是、了“等无具体意义的字,将字符流转换成各个关键字,对关键字按照“词典文件(Term Dictionary) 、频率文件(frequencies) 、位置文

11、件 (positions) ”的结构存入索引文件中。 (2)分词算法 6不同于英文文章中的空格可以自然区分每个词的边界,中文文章需要对句子加以切分,才能形成词,这就是分词算法。系统拟采用包含112967 个不同词的分词词典 THDic,以逆向最大匹配法(RMM)进行分词操作。分词词典 THDic 的最大词组的字数为 17,则从文章或句子的末尾开始 17 个字为一组,与分词词典比对,若吻合则匹配成功,否则去掉第一个字后再次与分词词典比对,直至最后一个字。据统计,这种方法的错误率仅为 1/245。 (3)检索 笔者通过逐一访问国内 100 所排名靠前的高校图书馆的网站,得到如下统计数据:在其主页设

12、置统一检索窗口的占 62%,而网站具备统一检索功能的占 83%。可见:对于拥有为数众多、异构的数字资源的高校图书馆,实现统一、便捷的一站式检索方式是提升服务的必然趋势。因此,必须设计制作出简洁美观、功能实用的统一检索界面,通过页面表单接受用户的查询请求,后台的 Tomcat 服务器接受到检索请求后,对用户输入的搜索关键词进行切词操作,将切分出的每个词作为参数传递到Lucene 索引文件库,进行比对查找,如果命中则对搜索的结果进行排序汇总,反馈给 Tomcat 服务器,最终输出到 Web 页面,如果没有命中则显示失败信息。作为用户方,呈现在页面上的就是一个类似于百度或谷歌搜索的检索输入框,以及按

13、相关度排序的检索结果集。 本文以我国海关系统对于一个行业主题领域搜索引擎的迫切需求为出发点,介绍了搜索引擎、主题型搜索引擎及其相关技术,着重对如何将目前较为成熟的专业型 Nutch 搜索引擎的设计思想和主要功能应用于7构建个性化搜索引擎的构思进行了分析讨论。通过分析 Nutch 的功能、结构和优势,提出了完整的海关主题型搜索引擎的系统框架模型,进而研究了实现这一系统的各个功能模块及其实现方法,初步解决了海关主题搜索引擎及海关内网资源检索系统的构建问题。 参考文献: 1W.Bruce,Croft Search Engines Information Retrieval in Practice M,2009 New Jersey Addison-Wesley. 2吴敏琦,丁岳伟,基于 Nutch 的 XML 网站全文搜索引擎实现J.计算机工程,2008.34.(15)95-96 3严良达,基于 Lucene 搜索引擎的设计与实现J.宁波职业技术学院学报,2009.13.(2)57-60 4汲业,陈燕,杨健,慕蓉,生活服务领域垂直搜索引擎的设计与实现A.计算机工程,2010.36.(24)24-26 5潘雪峰,花贵春,梁斌,走进搜索引擎M.北京:电子工业出版社,2011.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 学科论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。