用python编写网络爬虫.doc

上传人:ng****60 文档编号:3208646 上传时间:2019-05-25 格式:DOC 页数:5 大小:53.50KB
下载 相关 举报
用python编写网络爬虫.doc_第1页
第1页 / 共5页
用python编写网络爬虫.doc_第2页
第2页 / 共5页
用python编写网络爬虫.doc_第3页
第3页 / 共5页
用python编写网络爬虫.doc_第4页
第4页 / 共5页
用python编写网络爬虫.doc_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、刚刚开了一个计算机网络的课,觉得很有用。正好师兄让我练习编写一个能下载网站网页的程序,正好能用上课上的知识了。为了想作一个效率不差的,而下载网页的性能瓶颈是在网络上,所有决定用 Python 编写代码。刚学 python 没几天,学习一种语言的最好方法就是写 code.下面的是我用的多线程实现的网络爬虫,并用 py2exe 生成了一个 exe,自身觉得 py2exe 不太好,又不会更好的,只能.这是我这些天的成果。希望有人能提出好的建议,先谢谢了!一共两个文件,一个是 toolbox_insight.py,是一个工具文件另一个是 test.py,是一个用到 toolbox_insight.py

2、中工具的测试文件 #FileName: toolbox_insight.pyfrom sgmllib import SGMLParserimport threadingimport timeimport urllib2import StringIOimport gzipimport stringimport os#rewrite SGMLParser for start_aclass Basegeturls(SGMLParser): #这个 Basegeturls 类作用是分析下载的网页,把网页中的所有链接放在 self.url 中。def reset(self):self.url = SGM

3、LParser.reset(self)def start_a(self, attrs):href = v for k, v in attrs if k = hrefif href:self.url.extend(href)#for quickly findingclass Newlist(list):#这个类其实是一个添加了 find 方法的 LIST。当 num 变量在 LIST 中,返回 True,当不在 LIST 中,返回 False 并把 num 按二分法插入 LIST 中def find(self, num):l = len(self)first = 0end = l - 1mid

4、= 0if l = 0:self.insert(0,num)return Falsewhile first selfmid:first = mid + 1elif num num:self.insert(first, num)return Falseelif selffirst end:self.insert(first, num)return Falseelse:return True#下面的 reptile 顾名思义是一个爬虫 class reptile(threading.Thread):#Name: 是爬虫是名字,queue 是任务队列,所有的爬虫共用同一个任务队列#从中取出一个任务项

5、进行运行,每个任务项是一个要下载网页的 URL#result: 也是一个队列,将下载的网页中包含的 URL 放入该队列中#inittime: 在本程序中没有用,只是一个为了以后扩展用的#downloadway:是下载的网页存放的路径#configfile: 是配置文件,存放网页的 URL 和下载下后的路径#maxnum: 每个爬虫有个最大下载量,当下载了这么多网页后,爬虫 deaddef _init_(self, Name, queue, result, Flcok, inittime = 0.00001, downloadway = D:bbs,configfile = D:bbsconf.

6、txt, maxnum = 10000):threading.Thread._init_(self, name = Name)self.queue = queueself.result = resultself.Flcok = Flcokself.inittime = inittimeself.mainway = downloadwayself.configfile = configfileself.num = 0 #已下载的网页个数self.maxnum = maxnumos.makedirs(downloadway + self.getName() #系统调用:在存放网页的文件夹中创建一个

7、以该爬虫 name 为名字的文件夹self.way = downloadway + self.getName() + def run(self):opener = urllib2.build_opener() #创建一个开启器while True:url = self.queue.get() #从队列中取一个 URLif url = None: #当取得一个 None 后表示爬虫结束工作,用于外部方便控制爬虫的生命期breakparser = Basegeturls() #创建一个网页分析器request = urllib2.Request(url) #网页请求request.add_head

8、er(Accept-encoding, gzip)#下载的方式是 gzip 压缩后的网页,gzip 是大多数服务器支持的一种格式try: #这样可以减轻网络压力page = opener.open(request)#发送请求报文if page.code = 200: #当请求成功predata = page.read() #下载 gzip 格式的网页pdata = StringIO.StringIO(predata)#下面 6 行是实现解压缩gzipper = gzip.GzipFile(fileobj = pdata)try:data = gzipper.read()except(IOErr

9、or):print unused gzipdata = predata#当有的服务器不支持 gzip 格式,那么下载的就是网页本身try:parser.feed(data)#分析网页except:print I am here#有的网页分析不了,如整个网页就是一个图片for item in parser.url:self.result.put(item)#分析后的 URL 放入队列中way = self.way + str(self.num) + .html#下面的是网页的保存,不多说了self.num += 1file = open(way, w)file.write(data)file.c

10、lose()self.Flcok.acquire()confile = open(self.configfile, a)confile.write( way + + url + n)confile.close()self.Flcok.release()page.close()if self.num = self.maxnum:#达到最大量后退出breakexcept:print end error#和爬虫一样是个线程类,作用是将爬虫中的 result 中存入的 URL 加以处理。只要同一个服务器的网页class proinsight(threading.Thread):def _init_(s

11、elf, queue, list, homepage, inqueue):threading.Thread._init_(self)self.queue = queue#和爬虫中的 result 队列是同一个self.list = list#是上面 Newlist 的对象self.homepage = homepage#主页self.inqueue = inqueue#处理完后的 URL 的去处def run(self):length = len(self.homepage)while True:item = self.queue.get()if item = None:breakif ite

12、m0:4 = rn:item = item4:if item-1 = /:item = item:-1if len(item) = len(http:/) and item0:7 = http:/:if len(item) = length and item0:length = self.homepage:if self.list.find(item) = False:self.inqueue.put(item)elif item0:5 = /java or item0:4 = java:passelse: if item0 != /:item = / + itemitem = self.ho

13、mepage + itemif self.list.find(item) = False:self.inqueue.put(item)下面的是一个主函数过程我下载的网站是 http:/开始网页是 http:/ toolbox_insight import *from Queue import Queueimport threadingimport sysnum = int(raw_input(Enter the number of thread:)pnum = int(raw_input(Enter the number of download pages:)mainpage = str(ra

14、w_input(The mainpage:)startpage = str(raw_input(Start page:)queue = Queue()key = Queue()inqueue = Queue()list = Newlist()thlist = Flock = threading.RLock()for i in range(num):th = reptile(th + str(i), queue, key, Flock)thlist.append(th)pro = proinsight(key, list, mainpage, inqueue)pro.start()for i in thlist:i.start()queue.put(startpage)for i in range(pnum):queue.put(inqueue.get()for i in range(num):queue.put(None)个人觉得用 wxpython 来实现用户界面和用数据库知识查找 URL 是更好的扩展方向原文地址:http:/

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 策划方案

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。