精选优质文档-倾情为你奉上分布式网络爬虫设计文档刘祎睿 陈蔚瀚 李嘉一、实验目标:本次实验目标为设计一个分布式网络爬虫实现一下功能:1. 从一个给定的网址中分析其所包含的URL并爬取对应的网页,直到爬取完全部不重复的网页为止。2. 支持分布式爬取,同时记录输出每一个网页的大小。3. 采用多线程结构设计,实现高性能的网络爬虫。二、整体架构设计:本系统整体架构如下图,由主线程、异步抓取线程、网页解析线程三类线程构成,其中,网页分析线程由网页分析线程池统一分配调度。线程间的通信由网页结果队列和URL人任务队列负责,两个消息队列由轻量级消息队列Nanomsg创建采用Pipeline模式。主线程主要负责异步抓取线程和网页解析线程池的创建。异步抓取线程主要负责从URL任务队列中获取网页网址,然后完成网页的Socket抓取,并将得到的网页存入网页结果队列中。网页解析线程池主要负责分配网页解析线程从网页结果队列提取网页进行分析。网页解析线程主要负责从网页内容中提取出有效的URL并存入URL任务队列。三、架构实现要点:完成本爬虫系统主要需要