1、 本科毕业论文 (科研训练、毕业设计 ) 题 目: 主题网络爬虫的设计与实现 界面及数据库模块设计 姓 名: 学 院: 软件学院 系: 软件工程 专 业: 软件工程 年 级: 学 号: 指导教师: 职称: 年 月 主题网络爬虫的设计与实现 1 摘要 随着网络信息的迅速发展 , 搜索引擎已成为人们获取有用信息必不可少的工具 。 以何种策略有效地访问网络资源是专业搜索引擎中网络爬虫研究的主要问题 。 本文对搜索引擎中网络爬虫的搜索策略 进行简要分析 , 总结提高搜索效率的因素 , 使人们对网络爬虫的搜索算法有个大概了解 , 以及对新一代搜索引擎的期望 , 以便更快捷获取自己需要的信息 。 搜索引擎
2、作为网络信息搜寻的工具 , 它以一定的策略在互联网中搜集、发现信息 , 对信息进行理解、提取、组织和处理 , 并为用户提供检索服务。 爬虫 搜索引擎主要由三部分组成 : 搜索器 、 数据库和用户界面。搜索器搜索到 Internet的Web页面后 ,将页面信息存入索引数据库 , 最后通过用户界面提供给用户。 文章主要 介绍数据库的组织和索引过程的实现。 本文 简要描述了主 题 爬虫设计中主 题 相关度分析 以及爬虫具体实现过程,侧重点在于系统的界面设计及数据库设计模块 。界面部分通过引入插件来改变原有面板的外观,以达到美化的效果;数据库部分 对数据库的设计特点、方法以及步骤等做了简单的介绍,通过
3、对系统的需求分析进行 数据库的 概念结构设计 、逻辑结构设计和物理结构设计。 另外本文还介绍了爬虫系统的各模块之间的相互关系,结合图例给于说明分析,通过对爬虫系统的运行流程进行简要分析,测试并验证了系统的可行性和有效性。最后对开发工具以及所用到的插件做了相关说明。 关键词 : 网络爬虫 搜索引擎 插件 索引 主题网络爬虫的设计与实现 2 Abstract In recent years, search engine turns more and more impo rtant for us to get useful info rmation. How can Web crawler visi
4、t the web efficiently in the domain of Topic Specific Search Engine has become the main problem. Th is paper analysizes web craw lers search ing st rategies. This paper wants to make people know the web crawlers strategy and long for the new search ing engine so as to get info rmation quickly which
5、they need. Search engine is a tool of serching information in the internet, it collect, discovers an information in the Internet by certain strategy and carry on comprehension, withdraw to the information, organization and processing, and provide an index service for the customer. Web crawlers searc
6、h engine of a Internet consists of three parts: searcher, Database and user interface. Searcher searches Web page of a Internet and then saves the page information into index Database and provides them for users by interface in the end. This paper introduces organization of Database and the implemen
7、t of index process. This paper synopsis introduce the related degree analysis and the process of the web crawler design.The main part is the interface design and the database design. The interface part leads plug-ins to change original external appearance of front-panel so as to change the effect of
8、 beautification. And simply introduce the design characteristics, method and step of database part, design the logic structure, the concept structure and the physical structure of the database after the need analysis. Moreover this paper also introduced the correlation of of each mold piece of web c
9、raler system and combine a diagram example to give an ordinary explain. After analysing the process of the web craler system, we test and verified the possibility and usefulness of system. Finally we also make a simple introduction to the develop tool and plug-ins. Key words: web crawler search engi
10、ne plug-in index 主题网络爬虫的设计与实现 3 目录 第一章 主题网络爬虫概述 . 7 1.1 主题网络爬虫的目标 . 7 1.2 主题网络爬虫的系统组成 . 8 1.3 主题爬虫的解决方案 . 9 1.3.1 基于关键词的主题爬虫 . 9 1.3.2 基于概念分析的主题爬虫 . 10 1.3.3 基于本体语义分析的主题爬虫 . 11 1.4 主题爬虫界面和数据库设计概述 . 13 1.4.1 界面设计概述 . 13 1.4.2 数据库设计概述 . 13 第二章 系统界面设计 . 15 2.1 界面设计目标 . 15 2.2 爬虫界面设计 . 15 2.2.1 界面功能 . 1
11、5 2.2.2 界面元素分析 . 16 2.2.3 过程分析 . 17 2.3 用户搜索界面设计 . 17 2.3.1 界面功能 . 17 2.3.2 界面元素分析 . 17 2.3.3 过程分析 . 19 第三章 系统数据库设计 . 20 3.1 数据库设计目标 . 21 3.2 系统需求分析 . 21 3.2.1 需求分析的任务 . 21 3.2.2 需求分析的方法 . 22 3.3 概念结构设计 . 22 主题网络爬虫的设计与实现 4 3.3.1 概念结构 . 22 3.3.2 概念结构设计 . 23 3.4 逻辑结构设计 . 25 3.4.1 逻辑结构 . 25 3.4.2 逻辑结构设
12、计 . 25 3.5 数据库物理结构设计 . 26 3.5.1 物理结构 . 26 3.5.2 物理结构设计 . 26 第四章 开发工具简析及实验结果 . 29 4.1 .net 平台 . 29 4.2 SQL server 2005 . 30 4.3 AJAX 技术 . 31 4.4 实验结果数据 . 32 第五章 总结 . 33 致谢语 . 34 参考文献 . 35 附录 . 36 主题网络爬虫的设计与实现 5 Contents Chapter 1 The summarize of the subject web crawler . 7 1.1 The gole of the subjec
13、t web crawler . 7 1.2 The makeup of the subject web crawler. 8 1.3 The scheme of the subject web crawler . 9 1.3.1 The subject web crawler based on keywords . 9 1.3.2 The subject web crawler based on conception analysing . 10 1.3.3 The subject web crawler based on itself . 11 1.4 The interface and d
14、atabase of the web crawler . 13 1.4.1 The introduction of the interface design. 13 1.4.2 The introduction of the database design . 13 Chapter 2 The interface design of system . 15 2.1 The gole of the interface design . 15 2.2 Design of the crawler interface . 15 2.2.1 The function of the interface .
15、 15 2.2.2 Elements of the interface . 16 2.2.3 Process analysing. 17 2.3 Design of the searching interface. 17 2.3.1 The function of the interface . 17 2.3.2 Elements of the interface . 17 2.3.3 Process analysing. 19 Chapter 1 Design of the system database . 20 3.1 The gole of the database designing
16、 . 21 3.2 Requirement of the system. 21 3.2.1 The method of analysing system requirement . 21 3.2.2 Data dictionary . 22 3.3 Design of notional structure . 22 3.3.1 Notional structure . 22 3.3.2 Design of notional structure . 23 主题网络爬虫的设计与实现 6 3.4 Design of logistic structure . 25 3.4.1 Logistic str
17、ucture . 25 3.4.2 Design of logistic structure. 25 3.5 Design of physical structure. 26 3.5.1 Physical structure. 26 3.5.2 Design of physical structure . 26 Chapter 4 Introduction of the tools and the result of the program . 29 4.1 .net flat . 29 4.2 SQL server 2005 . 30 4.3 AJAX plug-in . 31 4.4 Th
18、e result of the program. 32 Chapter 5 Summarize. 33 Acknowledgement . 34 References . 35 Supplement. 36 主题网络爬虫的设计与实现 7 第一章 主题网 络爬虫概述 搜索引擎为用户提供信息检索服务 1,大约经历了三代的更新发展:第一代出现于 1994年,此类搜索引擎索引网页少,极少重新搜集网页并刷新索引,检索速度非常慢;第二代大约出现在 1996年,大多采用分布式方案来提高数据规模、响应速度和用户数量; 1998年至今为第三代,索引数据库的规模继续增大,开始出现主题搜索和地域搜索,检索结果相关度
19、评价成为研究的焦点,开始使用自动分类技术。 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类 2:目录式搜索引擎、机器人搜索引擎和元搜索引擎。 不论 是从纵向看还是横向看,目前的搜索引擎大多数是面向所有信息,可称之为综合性搜索引擎 3。随着信息多元化的增长,适用于所有用户的综合性搜索引擎显然已经不能满足特定用户更深入的查询需求,他们对信息的需求往往是针对受限领域和面向特定主题,综合性搜索引擎的召回率和精确率都很低。针对这种情况,需要一个分类细致精确、数据全面深入、更新及时的面向主题的搜索引擎,有人认为这种主题搜索引擎是第四代搜索引擎的发展方向。 主题爬虫是主题搜索引擎的基础和核
20、心 4。本文主要研究主题爬虫的相关设计 , 包括界面设计和数据库方面的设计, 其 目的是人从网上尽可能多地获取受限领域的针对特定主题的信息, 并保证所得到信息的完整性和有效性, 从而更好的满足用户的需求。 1.1 主题网络爬虫的 目标 主题爬虫是主题搜索引擎的核心部分。主题爬虫在网络中漫游,从中搜集优等的与主题相关的网络资源,通过索引器的索引再由检索器排序输出给用户,以此完成主题搜索引擎整个 过程。因此,对于主题搜索引擎来说,主题爬虫的性能优劣直接影响到整个搜索引擎的性能。 主题爬虫中另一个重要方面的设计就是数据库的设计,因为所有经过爬行系统筛选后的主题及其内容等都是整个系统运行的最主要结果,对这些 数据信息保存的完整性和安全性相当重要,因此设计一个高效可行的数据库也是爬虫系统设计不容忽略的一个重要部分。 主题网络爬虫的设计与实现 8 主题爬虫的基本工作流程是按照事先给出的主题,分析 Web中的超链接和已经下载的网页内容,来预测下一个要爬行的 URL,保证尽可能多地下载与主题相关的网页的,尽可能少的下载无关的网页,以此来提高主题爬虫的效率与准确