分布式网络爬虫设计文档(共4页).docx

上传人:晟*** 文档编号:10429842 上传时间:2022-01-14 格式:DOCX 页数:4 大小:376.81KB
下载 相关 举报
分布式网络爬虫设计文档(共4页).docx_第1页
第1页 / 共4页
分布式网络爬虫设计文档(共4页).docx_第2页
第2页 / 共4页
分布式网络爬虫设计文档(共4页).docx_第3页
第3页 / 共4页
分布式网络爬虫设计文档(共4页).docx_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

精选优质文档-倾情为你奉上分布式网络爬虫设计文档刘祎睿 陈蔚瀚 李嘉一、实验目标:本次实验目标为设计一个分布式网络爬虫实现一下功能:1. 从一个给定的网址中分析其所包含的URL并爬取对应的网页,直到爬取完全部不重复的网页为止。2. 支持分布式爬取,同时记录输出每一个网页的大小。3. 采用多线程结构设计,实现高性能的网络爬虫。二、整体架构设计:本系统整体架构如下图,由主线程、异步抓取线程、网页解析线程三类线程构成,其中,网页分析线程由网页分析线程池统一分配调度。线程间的通信由网页结果队列和URL人任务队列负责,两个消息队列由轻量级消息队列Nanomsg创建采用Pipeline模式。主线程主要负责异步抓取线程和网页解析线程池的创建。异步抓取线程主要负责从URL任务队列中获取网页网址,然后完成网页的Socket抓取,并将得到的网页存入网页结果队列中。网页解析线程池主要负责分配网页解析线程从网页结果队列提取网页进行分析。网页解析线程主要负责从网页内容中提取出有效的URL并存入URL任务队列。三、架构实现要点:完成本爬虫系统主要需要

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 公文范文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。