1、搜索引擎的研究与实现Search engine s research and implement毕业设计的意义互联网的最大优点就是拥有海量的信息,而且每8个月就翻一倍,现今的网页数量已经超过10亿。要想在这浩如烟海的网络世界中快速、有效地搜索信息,就不能离开现代信息获取技术搜索引擎毕业设计的两个目标1. 研究www搜索引擎的系统结构,并重点对网络机器人、索引与搜索程序以及用于查询的Web服务器三个方面进行详细分析。2. 在这些研究的基础上利用Java TM相关技术和一些开源工具包实现一个简单的搜索引擎新闻搜索引擎搜索引擎的系统结构网络机器人、索引与搜索程序、Web查询服务器终用Web服务器索引
2、数网络机器人程序是网络机器人是一 能 大的Web 程序。 以 过超 有Web页面 页面 程如 页面 行 现URL 结 现URL Jeff Heaton的Bot开 包开源代的三方开 包用Java实现的网络机器人 包currency1 析HTTP、 “Form、分析Cookie、实现Spider fi网fl http:/网络机器人的具 实现构Spider,并实现IspiderReportable 过”数 网页具 代如 Public void processPage(HTTP http)/ 实 代 要索引数 海量数 如 过数 搜索 ,而索引 以大地查询速 索是 过 term ,这 以对中 实现 索引
3、 以 用 的 查询 结 搜索引擎 要索引Lucene索引引擎开 包 Jakarta Apache的开源 目一个用Java实现的索引引擎开 包,以 程序实现索引、 索数 过索引并且一一索引 实现快速、效索引机网 http:/jakarta.apache.org/lucene/ Lucene进行索引的实现方 构一个 索引器IndexWriter(Path, new SimpleAnalyzer( ), false)构一个包 Field的Document对 Document doc = new Document( )Doc.add(Field.Text()Document对 索引器writer.addDocument(doc)