基于本体的武器装备定题爬虫的设计与实现——数据库与查询系统设计-毕业设计.doc

上传人:滴答 文档编号:1272911 上传时间:2019-01-26 格式:DOC 页数:39 大小:503.50KB
下载 相关 举报
基于本体的武器装备定题爬虫的设计与实现——数据库与查询系统设计-毕业设计.doc_第1页
第1页 / 共39页
基于本体的武器装备定题爬虫的设计与实现——数据库与查询系统设计-毕业设计.doc_第2页
第2页 / 共39页
基于本体的武器装备定题爬虫的设计与实现——数据库与查询系统设计-毕业设计.doc_第3页
第3页 / 共39页
基于本体的武器装备定题爬虫的设计与实现——数据库与查询系统设计-毕业设计.doc_第4页
第4页 / 共39页
基于本体的武器装备定题爬虫的设计与实现——数据库与查询系统设计-毕业设计.doc_第5页
第5页 / 共39页
点击查看更多>>
资源描述

1、厦门大学本科毕业论文 本科毕业论文 (科研训练、毕业设计 ) 题 目: 基于本体的武器 装备 定题爬虫的设计与实现 数据库与查询系统设计 姓 名: 学 院: 软件学院 系: 软件工程 专 业: 软件工程 年 级: 学 号: 指导教师(校内): 职称: 指导教师(校外): 职称: 年 月 厦门大学本科毕业论文 I 武器 装备 本体 在 定题爬虫 中的应用 数据库与查询系统设计 摘要 随着网络信 息的迅速发展 ,搜索引擎已成为人们获取有用信息必不可少的工具 。 以何种策略有效地访问网络资源是专业搜索引擎中网络爬虫研究的主要问题 。 基于本体的查询是当前的研究热点, 本体的语义表达能力 有效的提高描

2、述逻辑 能力, 表达 出 一般形式的规则,因此 给予本体语义的 定题爬虫能迅速获取网络上特定主题的大量信息 ,对专业搜索引擎 具有重大价值 。 针对目前通用的基于关键词主题过滤策略的不足 ,提出了基于本体语义的主题过滤策略 。 本文对搜索引擎中网络爬虫的搜索策略进行简要分析 ,总结提高搜索效率的因素 ,使人们对网络爬虫的搜索算法有个大概了解 ,以及对新 一代搜索引擎的期望 ,以便更快捷获取自己需要的信息 . 关键词 本体 语义 定题爬虫 搜索引擎 厦门大学本科毕业论文 II Weapon Ontology base on focused crawler Design of Database a

3、nd Search System Abstract With the fast development of the internet, search engines become one of the necessary tools to get useful information. Researches on ontology-based queries are current research concerns. And the semantic expressive ability of ontology is helpful to the Description Logic, be

4、ing able to express the regulative rules. So focused crawler can fetch large quantities of domain resources from the Web in a short time. It is very helpful in both focused search engines. In order to overcome the deficiency of topic filtering strategy based on keywords widly used nowadays , it prop

5、osed a topic filtering stratege based on ontology semantic. Keywords ontology semantic focused crawler search engines 厦门大学本科毕业论文 III 目录 第一章 引言 . 1 第二章 概念和开发工具 . 3 2.1 基于本体的定题爬虫概念介绍 . 3 2.1.1 本体概念 . 3 2.1.2 网络爬虫介绍 . 3 2.2 开发工具介绍 . 4 2.2.1 Eclipse3.2.1. 4 2.2.2 Tomcat5.5. 5 2.2.3 JSP. 5 2.2.4 Mysql 数据

6、库 . 6 第三章 武器本体的建立 . 7 3.1 武器本体介绍 . 7 3.2 武器本体构造的技术路线 . 7 3.3 武器本体的设计原则 . 7 3.4 武器本体的生命周期模型 . 8 3.5 武器本体的开发 . 10 3.5.1 武器领域概念层次的确定 . 10 3.5.2 武器本体模型创建 . 10 第四章 系统的设计与实现 . 11 4.1 介绍 . 11 4.2 总体设计 . 11 4.2.1 程序设计模式 . 11 4.2.2 总体设计思想 . 12 4.2.3 爬虫总体框架结构 . 13 4.3 模块设计 . 15 4.3.1 页面处理模块 . 15 4.3.1.1 模块功能说

7、明 . 15 4.3.1.2 模块的处理流程 . 16 4.3.1.3 模块的输入与输出 . 16 4.3.1.4 算法的实现 . 17 4.3.2 主题过滤模块 . 17 4.3.2.1 模块功能说明 . 18 4.3.2.2 模块的处理流程 . 18 4.3.2.3 模块的输入与输出 . 19 4.3.2.4 算法的实现 . 20 4.3.3 链接算法模块 . 20 4.3.3.1 模块 功能说明 . 20 4.3.3.2 模块的处理流程 . 21 4.3.3.3 模块的输入与输出 . 21 4.3.3.4 算法的实现 . 22 厦门大学本科毕业论文 IV 4.4 数据库设计 . 22 4

8、.4.1 表的创建 . 22 4.4.2 数据库功能描述 . 23 4.5 查询接口的设计 . 24 第五章 搜索结果分析 . 26 5.1 原始的搜索结果 . 26 5.2 爬虫系统改进的搜索结果 . 27 第六章 结论 . 30 致谢 . 31 参考文献 . 32 厦门大学本科毕业论文 V CONTENT Chapter 1 Introduction.1 Chapter 2 Concepts and Development Toolkits .3 2.1 Concepts Introduction .3 2.1.1 Ontology.3 2.1.2 Crawler .3 2.2 Devel

9、opment Toolkits Introduction .4 2.2.1 Eclipse3.2.1 .4 2.2.2 Tomcat5.5.5 2.2.3 JSP .5 2.2.4 Mysql .6 Chapter 3 Build Ontology of Weapon.7 3.1 Weapon Ontology Introduction .7 3.2 Technology .7 3.3 Design Principle .7 3.4 Ontologe Lifecycle .8 3.5 Build Weapon Ontology . 10 3.5.1 Weapon Concepts. 10 3.

10、5.2 Build Ontologe Model . 10 Chaper 4 Design of Crawler System . 11 4.1 Introduction .11 4.2 Design .11 4.2.1 Mode Design .11 4.2.2 Design Kernel . 12 4.2.3 Frame Design . 13 4.3 Module Design . 15 4.3.1 Page Dispose Module . 15 4.3.1.1 Description . 15 4.3.1.2 Module Flow. 16 4.3.1.3 Input and Out

11、put . 16 4.3.1.4 Arithmetic. 17 4.3.2 Keyword Filter Module . 17 4.3.2.1 Description . 18 4.3.2.2 Module Flow. 18 4.3.2.3 Input and Output . 19 4.3.2.4 Arithmetic. 20 4.3.3 Links Arithmetic Module . 20 4.3.3.1 Description . 20 4.3.3.2 Module Flow. 21 4.3.3.3 Input and Output . 21 4.3.3.4 Arithmetic.

12、 22 厦门大学本科毕业论文 VI 4.4 Database Design . 22 4.4.1 Create Table . 22 4.4.2 Function Description . 23 4.5 Design of Interface of Query . 24 Chapter 5 Analyse Search Result. 26 5.1 Original Result. 26 5.2 Improve Result . 27 Chapter 6 Summary. 30 Acknowlegement . 31 Reference . 32 厦门大学本科毕业论文 第 1 页 共 32

13、页 第一章 引言 目前的搜索引擎大多数是面向所有信息的 ,可以称之为综合性搜索引擎 ,它们普遍存在以下问题 : (1)综合性搜索引擎试图满足各类用户的查询需求 ,所搜集的网页内容广而泛 ,随着信息的日益多元化 ,用户对信息的需求往往是针对特定主题的 ,在这种面向主题的搜索中 ,由于各个用户的需求都不尽相同 ,综合性搜索引擎在主题的选取方面无法满足所有用户的需要 ,如 Yahoo的网页目录不可能枚举出所有主题。 (2)即使是使用了 PageRank这样的排序技术 ,但由于其对新出现的网页存在有偏性 ,导致新出现的网页排序较后而不易被用户 所发现。 (3)即使搜索引擎采用增量搜集策略 ,也可能会有

14、一大批网页因为更新或删除而无法搜到。针对上述问题 ,本文提出了基于本体 的 定题爬虫 搜索引擎这一概念。 网络爬虫是因特网上一个自动下载网页的程序 。 网络爬虫已被广泛应用于搜索引擎 。 随着用户个性化与专业化需求的增加 ,传统爬虫已不能满足这种需求 ,因而出现了定题爬虫 。 定题爬虫会根据特定的抓取目标 ,有选择地访问网络链接 ,并迅速获取网络上特定主题的大量信息 ,因而对专业搜索引擎或需获取某主题信息进行数据挖掘的应用具有极大的价值 。 为了实现特定领域信息的获取 ,需要某种主题 。 过滤策略 , 目前通用的做法是根据网页中的关键词判定 , 由于存在一词多义及一义多词的现象 ,这种基于关键

15、词的判定策略已被证实精确度不高 ,会遗漏许多相关页面或添加许多 不相关的 页面 . 因此我们提出一种基于语义的主题相关性判定策略 ,利用 ontology 对领域概念及概念间关系的明确定义来提高判定精度 。 基于本体的定题爬虫 搜索引擎 ,就是一种运行在个人计算机上的搜索引擎 ,它能根据用户自由定制的主题 领域 实时在 Internet上搜索与之相关的信息。实时性保证了每次搜集到的信息都是某个主题 领域 中最新的 ,解决了综合性搜索引擎中普遍存 在的时效性不高和对新出现网页存在有偏性的问题。主题 领域 的可定制厦门大学本科毕业论文 第 2 页 共 32 页 性大大提高了搜索的灵活性 ,解决了主

16、题 领域枚举难的问题。 此类搜索引擎只 可以 运行于个人计算机 上, 其核心是一个实时的 Web Crawler服务程序。它通过启发式搜索算法 ,根据用户定制的主题 领域 实时在 Internet上展开搜索 ,并将搜索结果以特定格式存入对应的主题文件。相信此类搜索引擎将成为综合性搜索引擎的又一重要补充。 基于本体的搜索引擎也是未来搜索引擎的一种发展趋势所在,其搜索质量的高效性为广大网民提供更为有效的搜索信息,节约了搜索过程中所耗用的人力 、财力、物力等各种资源,提供了极大的方便。 厦门大学本科毕业论文 第 3 页 共 32 页 第二章 概念和开发工具 2.1 基于本体的定题爬虫概念介绍 2.1

17、.1 本体 概念 本体来自希腊词汇, onto表示 being, logos表示 to reason,最初是哲学上的一个分支,用来表示事物的本质和组织。虽然这个术语在 17世纪诞生,但是它和亚里斯多德在公元前四世纪所给出的定义 (Metaphysics)同义,哲学家们用它来回答一些基本的问题如“什 么是本质 ?”、 “所有事物的一般特征是什么 ?”。本体在计算机领域研究 的应用和人工智能 (AI)、信息技术的发展密切相关。在 AI领域,为了建立相关领域的通用知识库,需要考虑在一个领域中哪些知识是可以复用的或共享的,以及怎样获取和描述一个领域中的一般性知识等问题 ; 在数据库管理系统领域,虽然数

18、据库技术己经成熟,但是数据库的异构给数据的集成和共享带来很多困难 ; 在软件工程领域,应用程序需要具体、统一的领域建模形式化基础而实现软件的复用。这三个领域的发展都需要解决对特定领域的概念进行通用的描述,这正是本体回答的问题。 2.1.2 网络 爬虫 介绍 网络爬虫是一个自动提取网页 的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的 URL开始,获得初始网页上的 URL,在抓取网页的过程中,不断从当前页面上抽取新的 URL放入队列 ,直到满足系统的一定停止条件。 聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。