分布式网络爬虫关键技术分析与实现.doc

上传人:顺腾 文档编号:5165277 上传时间:2020-12-07 格式:DOC 页数:6 大小:141.50KB
下载 相关 举报
分布式网络爬虫关键技术分析与实现.doc_第1页
第1页 / 共6页
分布式网络爬虫关键技术分析与实现.doc_第2页
第2页 / 共6页
分布式网络爬虫关键技术分析与实现.doc_第3页
第3页 / 共6页
分布式网络爬虫关键技术分析与实现.doc_第4页
第4页 / 共6页
分布式网络爬虫关键技术分析与实现.doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

.分布式网络爬虫关键技术分析与实现分布式网络爬虫体系结构设计 一、研究所属范围分布式网络爬虫包含多个爬虫,每个爬虫需要完成的任务和单个的爬行器类似,它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务,可能爬虫会将自己抽取的URL发送给其他爬虫。这些爬虫可能分布在同一个局域网之中,或者分散在不同的地理位置。根据爬虫的分散程度不同,可以把分布式爬行器分成以下两大类:1、基于局域网分布式网络爬虫:这种分布式爬行器的所有爬虫在同一个局域网里运行,通过高速的网络连接相互通信。这些爬虫通过同一个网络去访问外部互联网,下载网页,所有的网络负载都集中在他们所在的那个局域网的出口上。由于局域网的带宽较高,爬虫之间的通信的效率能够得到保证;但是网络出口的总带宽上限是固定的,爬虫的数量会受到局域网出口带宽的限制。2、基于广域网分布式网络爬虫:当并行爬行器的爬虫分别运行在不同地理位置(或网络位置),我们称这种并行爬行器为分布式爬行器。例如,分布式爬行器的爬虫可能位于中国,日本,和美国,分别负责下载这

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 表格模板

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。