1、利用开源工具利用开源工具搭建小型搭建小型 Web搜索引擎搜索引擎2 *l联系人:刘文飞lEmail: lURL: http:/l地址:创新园大厦 A0923室联系方式3 *l 理解搜索引擎的工作原理l 搭建一个可运行的实验系统 在理解搜索引擎原理及整体流程的基 础 上,通 过 亲 自 动 手搭建一个 完整 、 可运行 的小型全文 检 索 实验 系 统训练目标4 *搜索引擎基本框架www 索引库索引检索用户接口spiderspider文档库信息采集 索引与 检 索 Web接口5 *l Web信息的搜集l 基于 Lucene的索引与检索 l 基于 Tomcat的 Web服务提纲6 *信息的搜集 概
2、念l 原理: 把整个互 联 网看成一个大的 图 , 则 信息搜集可以看成是 图 的遍 历 。 信息采集系 统 也常常称 为 Robot, Spider, Crawler等等l 目标: 快速 获 得高 质 量的网 页l 实际上是图的遍历过程 通 过 种子 页 面或站点 (Seed), 获 取更多的 链 接,将它 们 作 为 下一步种子,不断循 环 。 这 个 过 程一般永 远 不会 结 束!7 *信息的搜集 策略l 广度优先广度优先 vs. 深度优先深度优先 广度广度 优优 先:先采集完同一先:先采集完同一 层层 的网的网 页页 ,再采集下一,再采集下一 层层 网网 页页 深度深度 优优 先:先
3、沿一条路径采到叶先:先沿一条路径采到叶 节节 点,再从同点,再从同 层层 其他路径其他路径 进进 行采集行采集 有研究表明:广度有研究表明:广度 优优 先的方法得到的网先的方法得到的网 页页 集合的重要性更好集合的重要性更好l 网站采集网站采集 vs. 全局全局 URL采集采集 网站采集:一个网站一个网站采集网站采集:一个网站一个网站采集 全局全局 URL采集:将所有采集:将所有 URL放入一个放入一个 URL池,从中使用某种方法池,从中使用某种方法 进进 行行 选选择择 网站采集在采集效率上可能不如全局网站采集在采集效率上可能不如全局 URL采集,通常的搜索引擎采用全采集,通常的搜索引擎采用
4、全局局 URL采集的方法。采集的方法。l 孤立站点孤立站点 用用 户户 提交提交8 *信息的搜集 信息指纹的应用l 概念 任何一段文字信息,都可以 对应 一个不太 长 的随机数,作 为 区 别 它和其它信息的指 纹 ( Fingerprint)。 如: MD5算法,可以把任意 长 信息 变换 成定 长 ( 128b)的整数l 信息指纹在爬虫中的应用 去 重、 压缩9 *信息的搜集 网页的维护与更新l 批量搜集 每次搜集替 换 上一次的内容 l 增量搜集 开始 时 搜集一批 往后: 1、搜集新出 现 的网 页 ; 2、搜集在上次搜集后有改 变 的网 页 ; 3、 删 除上次搜集后不存在的网 页l 比较: 定期批量重采非常 简单 ,但是浪 费带宽 ,周期也 长 ; 增量采集可以 节 省 带宽 ,网 页 更新周期相 对较 短,但是系 统 的复 杂 性增大。10 *信息的搜集 速度保证l 多机分布式并行多机分布式并行 局域网 联 接多机 进 行并行采集 广域网分布式采集l 单机多程序并行单机多程序并行 多 进 程并行 多 线 程并行