信息资源组织与管理课件.ppt

上传人：晟*** 文档编号：14458692 上传时间：2022-10-21 格式：PPT 页数：79 大小：1.12MB

下载相关举报

第1页 / 共79页

第2页 / 共79页

第3页 / 共79页

第4页 / 共79页

第5页 / 共79页

点击查看更多>>

资源描述

第5章信息资源采集-网络爬虫与Mashup主要内容5.1 网络爬虫5.2 Mashup5.1 网络爬虫5.1.1 网络爬虫概述网络爬虫是负责通过互联网自动抓取网页的系统程序，在抓取的过程中下载Web页面，再根据所得到页面内的超链接关系进一步实现页面抓取，通过不断地这样迭代动作，从而完成Web页面的采集工作。传统网络爬虫结构开始运行后,使用种子URL地址初始化抓取地址池,抓取地址池里的URL地址就是爬虫所要爬行的范围,然后判断任务是否终止,如果是,就直接停止抓取任务;如果不是,就从地址池中取出下一个URL,访问该地址所指向的页面,保存到磁盘上,然后解析网页中的超链接元素,提取出其中的uRL地址,将其添加到抓取地址池中,再返回判断任务是否终止的步骤,如此循环。传统网络爬虫结构存在的问题传统的网络爬虫都不约而同的避开了网页内容的分析，而是将重点放在了网页的超链接上,这就不可避免的存在一个问题，就是爬虫所抓取的页面是不是用户在搜索时所关心的内容？所以需要想办法来约束网络爬虫，约束的方法主要是在网络爬虫的爬行范围和抓取对象上实现。约束网络爬虫的方法限制解析出来的URL地址添加到抓取地址

展开阅读全文

相关资源