Python 网络爬虫实习报告 目录 一、选题背景 .- 2 - 二、爬虫原理 .- 2 - 三、爬虫历史和分类 .- 2 - 四、常用爬虫框架比较 .- 5 - 五、数据爬取实战(豆瓣网爬取电影数据) .- 6 - 1 分析网页 .- 6 - 2 爬取数据 .- 7 - 3 数据整理、转换 .- 10 - 4 数据保存、展示 .- 12 - 5 技术难点关键点 .- 12 - 六、总结 .- 14 - 一、 选题背景 二、 爬虫原理 三、 爬虫历史和分类 四、 常用爬虫框架比较 Scrapy 框架:Scrapy 框架是一套比较成熟的 Python 爬虫框架,是使 用 Python 开发的快速、高层次的信息爬取框架,可以高效的爬取 web 页面并提取出结构化数据。Scrapy 应用范围很广,爬虫开发、数 据挖掘、数据监测、自动化测试等。 Crawley 框架:Crawley 也是 Python 开发出的爬虫框架,该框架致力 于改变人们从互联网中提取数据的方式。 Portia 框架:Portia 框架是一款允许没有任何编程基础的用户可视化 地爬取网页的爬虫框架。 newspaper 框架