信息资源组织与管理课件.ppt

上传人:晟*** 文档编号:14458692 上传时间:2022-10-21 格式:PPT 页数:79 大小:1.12MB
下载 相关 举报
信息资源组织与管理课件.ppt_第1页
第1页 / 共79页
信息资源组织与管理课件.ppt_第2页
第2页 / 共79页
信息资源组织与管理课件.ppt_第3页
第3页 / 共79页
信息资源组织与管理课件.ppt_第4页
第4页 / 共79页
信息资源组织与管理课件.ppt_第5页
第5页 / 共79页
点击查看更多>>
资源描述

第5章 信息资源采集-网络爬虫与Mashup主要内容5.1 网络爬虫5.2 Mashup5.1 网络爬虫5.1.1 网络爬虫概述 网络爬虫是负责通过互联网自动抓取网页的系统程序,在抓取的过程中下载Web页面,再根据所得到页面内的超链接关系进一步实现页面抓取,通过不断地这样迭代动作,从而完成Web页面的采集工作。传统网络爬虫结构开始运行后,使用种子URL地址初始化抓取地址池,抓取地址池里的URL地址就是爬虫所要爬行的范围,然后判断任务是否终止,如果是,就直接停止抓取任务;如果不是,就从地址池中取出下一个URL,访问该地址所指向的页面,保存到磁盘上,然后解析网页中的超链接元素,提取出其中的uRL地址,将其添加到抓取地址池中,再返回判断任务是否终止的步骤,如此循环。传统网络爬虫结构存在的问题 传统的网络爬虫都不约而同的避开了网页内容的分析,而是将重点放在了网页的超链接上,这就不可避免的存在一个问题,就是爬虫所抓取的页面是不是用户在搜索时所关心的内容? 所以需要想办法来约束网络爬虫,约束的方法主要是在网络爬虫的爬行范围和抓取对象上实现。约束网络爬虫的方法 限制解析出来的URL地址添加到抓取地址

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。