网络爬虫技术网络机器人1.概念:它们是Web上独自运行的软件程序,它们不断地筛选数据,做出自己的 决定,能够使用Web获取文本或者进行搜索查询,按部就班地完成各自的任务。2.分类:购物机器人、聊天机器人、搜索机器人(网络爬虫)等。搜索引擎1.概念:从网络上获得网站网页资料,能够建立数据库并提供查询的系统。2.分类(按工作原理):全文搜索引擎、分类目录。 1 全文搜索引擎数据库是依靠网络爬虫通过网络上的各种链接自动获取大量网页信息内容,并按一定的规则分析整理形成的。(百度、Google) 2 分类目录:按目录分类的网站链接列表而已,通过人工的方式收集整理网站资料形成的数据库。(国内的搜狐)网络爬虫1.概念:网络爬虫也叫网络蜘蛛,它是一个按照一定的规则自动提取网页程序,其会自动的通过网络抓取互联网上的网页,这种技术一般可能用来检查你的站点上所有的链接是否是都是有效的。当然,更为高级的技术是把网页中的相关数据保存下来,可以成为搜索引擎。搜索引擎使用网络爬虫寻找网络内容,网络上的HTML文档使用超链接连接了起来