教育技术系 1网络爬虫 1、网络爬虫简介 2、通用网络爬虫和聚焦爬虫 3、网络爬虫的抓取策略 4、几种常见的网络爬虫 5、Metaseeker1、网络爬虫简介 1.1 定义 1.2 用途 1.3 原理 1.1 网络爬虫定义 网络爬虫(Crawler)又被称为网页蜘蛛 ,网络机器人,在FOAF社区中,更经常的 被称为网页追逐者,它是一种按照一定的规 则,自动的抓取万维网信息的程序或者脚本 。 另外一些不常使用的名字还有蚂蚁,自 动索引,模拟程序或者蠕虫。 1.2 用途 很多站点,尤其是搜索引擎,都使用 爬虫提供最新的数据,它主要用于提供它访 问过页面的一个副本,然后,搜索引擎就可 以对得到的页面进行索引,以提供快速访问 。蜘蛛也可以在web上用来自动执行一些任 务,例如检查链接,确认html代码;也可以 用来抓取网页上某种特定类型信息,例如抓 取电子邮件地址(通常用于垃圾邮件)。 1.3 原理 一个网络蜘蛛就是一种机器人,或者软 件代理。大体上,它从一组要访问的URL链 接开始,可以称这些URL为种子。爬虫访问 这些链接,它辨认出这些页面的所有超链接 ,然后添加到这个URL列表,可以称作