网络爬虫简介ppt课件.ppt

上传人:晟*** 文档编号:10036172 上传时间:2021-12-31 格式:PPT 页数:47 大小:1.04MB
下载 相关 举报
网络爬虫简介ppt课件.ppt_第1页
第1页 / 共47页
网络爬虫简介ppt课件.ppt_第2页
第2页 / 共47页
网络爬虫简介ppt课件.ppt_第3页
第3页 / 共47页
网络爬虫简介ppt课件.ppt_第4页
第4页 / 共47页
网络爬虫简介ppt课件.ppt_第5页
第5页 / 共47页
点击查看更多>>
资源描述

教育技术系 1网络爬虫 1、网络爬虫简介 2、通用网络爬虫和聚焦爬虫 3、网络爬虫的抓取策略 4、几种常见的网络爬虫 5、Metaseeker1、网络爬虫简介 1.1 定义 1.2 用途 1.3 原理 1.1 网络爬虫定义 网络爬虫(Crawler)又被称为网页蜘蛛 ,网络机器人,在FOAF社区中,更经常的 被称为网页追逐者,它是一种按照一定的规 则,自动的抓取万维网信息的程序或者脚本 。 另外一些不常使用的名字还有蚂蚁,自 动索引,模拟程序或者蠕虫。 1.2 用途 很多站点,尤其是搜索引擎,都使用 爬虫提供最新的数据,它主要用于提供它访 问过页面的一个副本,然后,搜索引擎就可 以对得到的页面进行索引,以提供快速访问 。蜘蛛也可以在web上用来自动执行一些任 务,例如检查链接,确认html代码;也可以 用来抓取网页上某种特定类型信息,例如抓 取电子邮件地址(通常用于垃圾邮件)。 1.3 原理 一个网络蜘蛛就是一种机器人,或者软 件代理。大体上,它从一组要访问的URL链 接开始,可以称这些URL为种子。爬虫访问 这些链接,它辨认出这些页面的所有超链接 ,然后添加到这个URL列表,可以称作

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 演示文稿

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。