Python网络爬虫实习报告.doc

上传人:gs****r 文档编号:1505253 上传时间:2019-03-03 格式:DOC 页数:13 大小:187.38KB
下载 相关 举报
Python网络爬虫实习报告.doc_第1页
第1页 / 共13页
Python网络爬虫实习报告.doc_第2页
第2页 / 共13页
Python网络爬虫实习报告.doc_第3页
第3页 / 共13页
Python网络爬虫实习报告.doc_第4页
第4页 / 共13页
Python网络爬虫实习报告.doc_第5页
第5页 / 共13页
点击查看更多>>
资源描述

1、Python 网络爬虫实习报告Python 网络爬虫实习(报告)- 0 -目录一、选题背景 .- 2 -二、爬虫原理 .- 2 -三、爬虫历史和分类 .- 2 -四、常用爬虫框架比较 .- 5 -五、数据爬取实战(豆瓣网爬取电影数据) .- 6 -1 分析网页 .- 6 -2 爬取数据 .- 7 -3 数据整理、转换 .- 10 -4 数据保存、展示 .- 12 -5 技术难点关键点 .- 12 -六、总结 .- 14 -Python 网络爬虫实习(报告)- 1 -一、 选题背景二、 爬虫原理三、 爬虫历史和分类四、 常用爬虫框架比较Scrapy 框架:Scrapy 框架是一套比较成熟的 Py

2、thon 爬虫框架,是使用 Python 开发的快速、高层次的信息爬取框架,可以高效的爬取web 页面并提取出结构化数据。Scrapy 应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。Crawley 框架:Crawley 也是 Python 开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。Portia 框架:Portia 框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。newspaper 框架:newspaper 框架是一个用来提取新闻、文章以及内容分析的 Python 爬虫框架。Python-goose 框架:Python-goose 框架可提取的信

3、息包括:文章主体内容;文章主要图片;文章中嵌入的任 heYoutube/Vimeo 视频;元描述;元标签Python 网络爬虫实习(报告)- 2 -五、数据爬取实战(豆瓣网爬取电影数据)1 分析网页 # 获取 html 源代码def _getHtml():data = pageNum = 1pageSize = 0try:while (pageSize “)f.write(“Insert title here“)f.write(“)f.write(“爬取豆瓣电影“)f.write(“ 作者:刘文斌“)f.write(“ 时间:“ + nowtime + “)Python 网络爬虫实习(报告)-

4、 6 -f.write(“)f.write(“)f.write(“)f.write(“)f.write(“电影“)#f.write(“评分 “)f.write(“排名“)#f.write(“评价人数 “)f.write(“导演“)f.write(“)f.write(“)f.write(“)for data in datas:for i in range(0, 25):f.write(“)f.write(“%s“ % datatitlei)Python 网络爬虫实习(报告)- 7 -# f.write(“%s“ % datarating_numi)f.write(“%s“ % datarange

5、_numi)# f.write(“%s“ % datarating_people_numi)f.write(“%s“ % datamovie_authori)f.write(“)f.write(“)f.write(“)f.write(“)f.write(“)f.write(“)f.close()if _name_ = _main_:datas = htmls = _getHtml()for i in range(len(htmls):data = _getData(htmlsi)datas.append(data)Python 网络爬虫实习(报告)- 8 -_getMovies(datas)4 数据保存、展示结果如后图所示:5 技术难点关键点数据爬取实战(搜房网爬取房屋数据)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 企业管理资料库 > 生产营运

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。