第5章 信息资源采集-网络爬虫与Mashup主要内容5.1 网络爬虫5.2 Mashup5.1 网络爬虫5.1.1 网络爬虫概述 网络爬虫是负责通过互联网自动抓取网页的系统程序,在抓取的过程中下载Web页面,再根据所得到页面内的超链接关系进一步实现页面抓取,通过不断地这样迭代动作,从而完成Web页面的采集工作。传统网络爬虫结构开始运行后,使用种子URL地址初始化抓取地址池,抓取地址池里的URL地址就是爬虫所要爬行的范围,然后判断任务是否终止,如果是,就直接停止抓取任务;如果不是,就从地址池中取出下一个URL,访问该地址所指向的页面,保存到磁盘上,然后解析网页中的超链接元素,提取出其中的uRL地址,将其添加到抓取地址池中,再返回判断任务是否终止的步骤,如此循环。传统网络爬虫结构存在的问题 传统的网络爬虫都不约而同的避开了网页内容的分析,而是将重点放在了网页的超链接上,这就不可避免的存在一个问题,就是爬虫所抓取的页面是不是用户在搜索时所关心的内容? 所以需要想办法来约束网络爬虫,约束的方法主要是在网络爬虫的爬行范围和抓取对象上实现。约束网络爬虫的方法 限制解析出来的URL地址添加到抓取地址