ImageVerifierCode 换一换
格式:PPT , 页数:57 ,大小:1.84MB ,
资源ID:1419594      下载积分:15 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-1419594.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(大连理工大学搜索引擎与文本挖掘课程设计说明---搭建小型搜索引擎.ppt)为本站会员(99****p)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

大连理工大学搜索引擎与文本挖掘课程设计说明---搭建小型搜索引擎.ppt

1、利用开源工具利用开源工具搭建小型搭建小型 Web搜索引擎搜索引擎2 *l联系人:刘文飞lEmail: lURL: http:/l地址:创新园大厦 A0923室联系方式3 *l 理解搜索引擎的工作原理l 搭建一个可运行的实验系统 在理解搜索引擎原理及整体流程的基 础 上,通 过 亲 自 动 手搭建一个 完整 、 可运行 的小型全文 检 索 实验 系 统训练目标4 *搜索引擎基本框架www 索引库索引检索用户接口spiderspider文档库信息采集 索引与 检 索 Web接口5 *l Web信息的搜集l 基于 Lucene的索引与检索 l 基于 Tomcat的 Web服务提纲6 *信息的搜集 概

2、念l 原理: 把整个互 联 网看成一个大的 图 , 则 信息搜集可以看成是 图 的遍 历 。 信息采集系 统 也常常称 为 Robot, Spider, Crawler等等l 目标: 快速 获 得高 质 量的网 页l 实际上是图的遍历过程 通 过 种子 页 面或站点 (Seed), 获 取更多的 链 接,将它 们 作 为 下一步种子,不断循 环 。 这 个 过 程一般永 远 不会 结 束!7 *信息的搜集 策略l 广度优先广度优先 vs. 深度优先深度优先 广度广度 优优 先:先采集完同一先:先采集完同一 层层 的网的网 页页 ,再采集下一,再采集下一 层层 网网 页页 深度深度 优优 先:先

3、沿一条路径采到叶先:先沿一条路径采到叶 节节 点,再从同点,再从同 层层 其他路径其他路径 进进 行采集行采集 有研究表明:广度有研究表明:广度 优优 先的方法得到的网先的方法得到的网 页页 集合的重要性更好集合的重要性更好l 网站采集网站采集 vs. 全局全局 URL采集采集 网站采集:一个网站一个网站采集网站采集:一个网站一个网站采集 全局全局 URL采集:将所有采集:将所有 URL放入一个放入一个 URL池,从中使用某种方法池,从中使用某种方法 进进 行行 选选择择 网站采集在采集效率上可能不如全局网站采集在采集效率上可能不如全局 URL采集,通常的搜索引擎采用全采集,通常的搜索引擎采用

4、全局局 URL采集的方法。采集的方法。l 孤立站点孤立站点 用用 户户 提交提交8 *信息的搜集 信息指纹的应用l 概念 任何一段文字信息,都可以 对应 一个不太 长 的随机数,作 为 区 别 它和其它信息的指 纹 ( Fingerprint)。 如: MD5算法,可以把任意 长 信息 变换 成定 长 ( 128b)的整数l 信息指纹在爬虫中的应用 去 重、 压缩9 *信息的搜集 网页的维护与更新l 批量搜集 每次搜集替 换 上一次的内容 l 增量搜集 开始 时 搜集一批 往后: 1、搜集新出 现 的网 页 ; 2、搜集在上次搜集后有改 变 的网 页 ; 3、 删 除上次搜集后不存在的网 页l 比较: 定期批量重采非常 简单 ,但是浪 费带宽 ,周期也 长 ; 增量采集可以 节 省 带宽 ,网 页 更新周期相 对较 短,但是系 统 的复 杂 性增大。10 *信息的搜集 速度保证l 多机分布式并行多机分布式并行 局域网 联 接多机 进 行并行采集 广域网分布式采集l 单机多程序并行单机多程序并行 多 进 程并行 多 线 程并行

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。