1、 本 科 毕 业 论 文 主题 网络爬虫的设计与实现 Design and implementation of subject-oriented crawler 姓 名: 学 号: 学 院:软件学院 系:软件工程 专 业:软件工程 年 级: 指导教师: 年 月 I 摘 要 目前信息网上蕴含了大量的信息,但通过人工浏览的方法很难做到对信息的安全浏览、整理,很多有用的信息也就白白流失,产生了大量信息不能及时应用的矛盾,给用户造成了很大的不便,为了解决这一问题,搜索引擎这一新热点技术应运而生,本文结合信息网的特征,运用信息抽取和网页解析技术,设计和实现了搜索引擎中最重要的部分 网络爬虫,以提供分类更
2、细致精确、数据更全面深入、更新更及时的因特网搜索服务。 本文首先对概述了网络爬虫的发展概况,然后分析了网络爬虫的体系结构以及实现原理,并深入分析了主题页 面在 Web 上的分布特征与主题相关性的判别算法,具体工作如下: (1)爬虫部分,通过设计种子网站进行爬虫,下载尽可能全且与用户要求相符合的网站。 (2)网页预处理过程,包括分词、 HTML 解析和网页消噪。在对树节点进行裁剪的基础上,设计了基于样式的网页消噪方法,进一步提高网页消噪过程。 (3)主题相关性判断,包括特征提取和权值计算阶段。在特征提取阶段,通过组合文档频率,得到新的特征,达到降维和提高分类精度的效果。在权值计算阶段,结合信息增
3、益、传统 TFIDF 算法和空间向量模型 VSM 算法,得到了更适合主题相关性判断 的权值计算方法。 (4)最后,在 MYECLIPSE 平台上,实现了一个简易的网络爬虫系统,并简要分析了爬虫的运行效果,达到了令人满意的效果。 关键词 :网页解析; TFIDF 算法; VSM 算法 II Abstract Currently there is lot of information in the public security information website,but it is not possible to visit and clean up all information only
4、 through artifical manner,so much import information would be lost,also would go aginst cracking a criminal case,which causes a great deal of inconvenience to users.To deal with this problem,search engine technology came into being the new hot spot.Based on the characteristics of information network
5、s,the paper designed and implemented the most important part of search engine Web Spider,using information extraction and web analytic technology to provide more detailed classification accuracy, data is more comprehensive and in-depth, more timely updates of Internet search services. This paper fir
6、st outlined the development of search engines and reptile research network status and then analyzed the architecture of topic search engine and depthly analysd the theme of the page in the Web on the distribution of subject characteristics and the identification algorithm.In this paper,the concrete
7、work as follows: (1)Spider part. By set seeds through the design of website, download as much as possible and with the whole site in line with user requirements. (2)Page pre-processing process, including Word particiling, HTML parsing and page de-noising. (3) To determine the relevance of the theme,
8、 including the feature extraction stage and the right value. In the feature extraction stage, through the combination of document frequency, new features, to achieve dimensionality reduction and improving the classification accuracy results. Value in the right phase, combined with information gain,
9、TFIDF algorithm and the traditional vector space model algorithm, have been more suitable for the theme of the relevance of the right to determine the value of the calculation. (4) Finally, in MYECLIPSE platform to realize a simple network system reptiles, and reptiles a brief analysis of the effect
10、 of the operation, reached a satisfactory result. Key words: page analysis; TFIDF algorithm; space vector algorithm. I 目录 第一章 绪论 . 1 1.1 选题背景和研究意义 . 1 1.2 搜索引擎的发展 . 1 1.3 国内外研究现状 . 3 1.4 本文的主要工作和论文结构 . 5 第二章 网络爬虫工作原理 . 7 2.1 网络爬虫在搜索引攀中的地位 . 7 2.2 网络爬虫的基本原理 . 9 2.2.1 主题网络爬虫的体系结构 . 9 2.2.2 系统模块功能说明 .
11、10 2.3 内容提取 . 11 2.4 主题页面在 WEB 上的分布特征 . 12 2.5 本章小结 . 14 第三章 网络爬虫的关键算法 . 15 3.1 网页搜索策略 . 15 3.2 主题爬虫的搜索策略 . 16 3.2.1 基于内容评价的搜索策略 . 16 3.2.2 基于链接结构评价的搜索策略 . 19 3.3 主题相关性算法 . 21 3.3.1 向量空间模型 (VSM). 21 3.3.2 页面主题相关性算法 . 23 3.4 本章小结 . 24 第四章 主题爬虫的分析与设计 . 25 4.1 主题爬虫的体系结构 . 25 4.2 初始种子选取和 URL 队列维护 . 26 I
12、I 4.2.1 初始种子选取 . 26 4.2.2 URL 队列维护 . 27 4.3 网页解析 . 28 4.3.1 HTML 语法的分析 . 28 4.3.2 网页中信息资源的提取 . 29 4.4 主题相关性算法实现 . 30 4.4.1 分词算法 . 31 4.4.2 权值计算 :TF-IDF 算法 . 31 4.4.3 权值算法的改进: IG 算法 . 34 4.4.4 VSM 算法 . 37 4.5 建立索引 . 38 4.6 系统实现 . 39 4.6 总结 . 41 第五章 总结与展望 . 42 5.1 本文总结 . 42 5.2 研究展望 . 42 参考文献 . 43 致谢
13、. 44 III Contents Chapter 1 Introduction . 1 1.1 Background of the topics and research significance . 1 1.2 History of the development of search engines. 1 1.3 Research status at home and abroad . 3 1.4 Main work and structure of this paper . 5 Chapter 2 Working principle of crawler. 7 2.1 Status of
14、 crawler in search engine domain. 7 2.2 The basic principles of crawler. 9 2.2.1 Architecture of subject-oriented crawler. 9 2.2.2 Introduction of module function . 10 2.3 Information extraction . 11 2.4 Distribution features of subject-oriented page on web. 12 2.5 Summary of this chapter . 14 Chapt
15、er 3 Key algorithm of crawler . 15 3.1 Web searching strategy. 15 3.2 Searching strategy of subject-oriented crawler . 16 3.2.1 Link-based relevance algorithm . 16 3.2.2 Content-based relevance algorithm . 19 3.3 Subject relevance algorithm. 21 3.3.1 VSM(Vector Space Model). 21 3.3.2 Relevance algor
16、ithm about web page subject . 23 3.4 Summary of this chapter . 24 Chapter 4 Analysis and design about subject-oriented crawler . 25 4.1 Architecture of subject-oriented crawler . 25 4.2 Beginning seeds selection and URL queue maintaince. 26 4.2.1 Beginning seeds selection. 26 IV 4.2.2 URL queue maintaince. 27 4.3 Web page extraction . 28 4.3.1 HTMLsyntax analyze . 28 4.3.2 Information resources extraction of the web page . 29 4.4 Implementation of Relevance algorithm .