高等教育动态资讯收集查询系统的设计与实现 ——毕业论文.docx

上传人:滴答 文档编号:1255940 上传时间:2019-01-19 格式:DOCX 页数:52 大小:2.13MB
下载 相关 举报
高等教育动态资讯收集查询系统的设计与实现 ——毕业论文.docx_第1页
第1页 / 共52页
高等教育动态资讯收集查询系统的设计与实现 ——毕业论文.docx_第2页
第2页 / 共52页
高等教育动态资讯收集查询系统的设计与实现 ——毕业论文.docx_第3页
第3页 / 共52页
高等教育动态资讯收集查询系统的设计与实现 ——毕业论文.docx_第4页
第4页 / 共52页
高等教育动态资讯收集查询系统的设计与实现 ——毕业论文.docx_第5页
第5页 / 共52页
点击查看更多>>
资源描述

1、 编号 毕业设计(论文)题目 高等教育动态资讯收集 查询系统的设计与实现 二级学院 计算机科学与工程 专 业 计算机科学与技术 班 级 XXXXXXXXX 学生姓名 学号 XXXXXXXX 指导教师 职称 XXX 时 间 XXXXXXXXX 重庆理工大学毕业论文 高等教育动态资讯收集查询系统的设计与实现目 录摘 要 .IAbstract.II1 绪论 .11.1 课题背景 .11.2 国内外研究现状 .11.3 研究目的 .21.4 论文的组织结构 .22.开发技术与原理简介 .42.1 搜索引擎发展概述 .42.1.1 搜索引擎简介及发展目标 .42.1.2 搜索引擎分类 .42.2 基本工

2、作原理及技术分析 .52.2.1 网页抓取 .52.2.2 建立索引 .82.2.3 检索查询处理 .103. 需求分析 .133.1 功能需求 .133.1.1 高等教育的垂直搜索引擎需求 .133.1.2 功能模块需求分析 .133.2 性能需求 .163.3 技术可行性分析 .16重庆理工大学毕业论文 高等教育动态资讯收集查询系统的设计与实现4. 系统设计 .174.1 系统流程图 .174.2 软件结构与模块划分 .174.3 程序流程设计 .194.3.1 客户端程序流程设计 .194.3.2 服务器端程序流程设计 .194.4 数据结构设计 .234.4.1 数据库端 .234.4

3、.2 服务器端 .245.2.3 文件夹端 .244.5 界面实现 .244.5.1 客户端界面: .245.3.2 服务器端维护界面 .255. 系统实现 .275.1 界面实现 .275.1.1 客户端界面: .275.1.2 服务器端维护界面 .275.2 代码实现 .295.2.1 网络爬虫实现代码 .295.2.2 索引建立实现代码 .305.2.3 查询模块实现代码 .306. 系统测试 .326.1 测试环境的搭建过程 .326.2 功能实现测试 .326.2.1 网页数据爬取测试: .326.2.2 分词模块测试 .356.2.3 索引数据库建立模块测试 .35重庆理工大学毕业

4、论文 高等教育动态资讯收集查询系统的设计与实现6.2.4 搜索模块测试 .367.总结 .37致 谢 .38参 考 文 献 .39文献综述 .40重庆理工大学毕业论文 高等教育动态资讯收集查询系统的设计与实现I摘 要从传统搜索引擎中衍生出来的垂直搜索引擎,从刚开始的发展就备受人们和研究者的关注,它相对于传统的搜索引擎,针对性更强,目的性更明确,目标人群更显明,相关信息更精准。垂直搜索引擎是一种对于目标明确的一个行业或者专业的一方面,进行针对特定目标人群的一种搜索引擎服务。在与其相关的专业方面进行信息的深度提取,并进行更加专业的分析。在自己查阅相关书籍和资料以后,本篇论文主要是用于开发一个关于高

5、等教育方面的动态资讯的垂直搜索引擎。该系统采用网络爬虫,从相关的教育网站,例如中国教育网作为其实网站,进行与高等教育相关信息的提取,在这之中,可以采取深度优先的Shark-Search算法,或者是广度优先的PageRank算法。之后对提取的数据信息进行分析,然后建立索引,对它们做倒排索引等。该系统最终实现了对高等教育动态资讯的收集和存取。主要有网络爬虫、建立索引、关键字搜索等功能模块。本文首先介绍了关于该课题研究的背景以及重要性等方面,之后针对与其有关的技术的原理进行了一定的解释,同时结合文章以及自己的设计,开发一个关于高等教育动态资讯的收集的系统。该搜索引擎主要涉及到网络爬虫,页面分析,建立

6、索引等相关的知识和算法结构。关键词:高等教育 垂直搜索引擎 网络爬虫 倒排索引 信息抓取重庆理工大学毕业论文 高等教育动态资讯收集查询系统的设计与实现IIAbstractVertical search engine derived from the traditional search engine with the people and scholars have paid attention to it from the beginning.It compared with the traditional search engine,more targeted,more targeted,

7、 the target population is more obvious, the relevant information is more accurate.Vertical search engine is a kind of industry or profession which is specific to the target with a search engine service for a specific target population.Depth extraction and its related professional information, and pr

8、ofessional analysis.After consulting related books and materials,this paper is mainly used to develop a vertical search engine on the dynamic information of higher education.The system uses web crawler to extract information related to higher education from the relevant educational websites, such as

9、 the Chinese education network as a web site.In this, we can take the depth first Shark-Search algorithm, or the breadth first PageRank algorithm.After the analysis of the data extracted information, and then set up the index, doing inverted index, etc.The system finally realizes the collection and

10、access of the dynamic information of higher education.There are web crawler, the establishment of index, keyword search and other functional modules.This paper firstly introduces the background of the research on the subject and its importance.Then explain the principles of the technology,at the sam

11、e time, combined with the article and its own design, the development of a dynamic information on the collection of higher education system.The search engine mainly related to web crawler, page analysis, the establishment of index and other related knowledge and algorithm structure.Key words: Higher

12、 Education, Vertical search engine,web crawler,Inverted index,Information capture.重庆理工大学毕业论文 高等教育动态资讯收集查询系统的设计与实现11 绪论1.1 课题背景随着互联网的快速发展,互联网技术已经应用到普通百姓的生活的方方面面,其中搜索引擎的使用尤为广泛。在最近的15年时间段,是搜索引擎爆炸性快速发展的阶段。搜索引擎的发展从最早的分类目录的一代,经历文本检索,链接分析,到现在的以用户为中心的一代。而随着社会的发展,我们了解到一个国家的高等教育发展状况,也反映了它的国际竞争力,因此关注和研究高等教育的动态

13、资讯越来越受教育界的重视,并且高校老师和学生也越来越喜欢关注与自己切身相关的各种信息。因此,当再给每个用户相同的一个入口的时候,已经不能够满足他们的搜索要求了。并且,一般的搜索引擎想要保存以及更新所有的动态资讯是不可能的。对于上述情况,就必须需要一个能够挖掘更加准确,更有深度,主题信息保存更完整的高等教育垂直搜索引擎,用来满足学者,老师,高校同学等受众人群的使用。1.2 国内外研究现状目前国内外有很多的垂直搜索引擎,但是还没有单独针对高等教育方面的垂直搜索引擎。像中国教育信息网、中国教育考试网等是一些提供了关于教育方面信息的门户网站,但是还并没有一个单独适用于高等教育方面的搜索引擎。垂直搜索引

14、擎爬取的信息来源应该是与该事项有关的行业网站。比如关于工作信息方面的垂直搜索引擎 ,它的数据信息来自于 , ,以及 。垂直搜索引擎的所有的搜索动作都是属于一种结构化的搜索,该行为是在结构化数据以及元数据的基础上成立的。中国的垂直搜索引擎市场规模在年得到很大程度的扩大发展,根据易观国际的监测以及研究数据可以看出,在垂直搜索引擎的市场规模从上半年的 21.5 亿元发展到其年底的 53.2 亿元,其中垂直搜索引擎占据了很大的分量。现在国内外的垂直搜索引擎所囊括的行业五花八门,关系生活的方方面面,比如就有找工作方面,医疗方面,旅游方面,图书方面以及购物方面。在中国的垂直搜索引擎领域内,排行前面的是

15、赛迪 IT 罗盘,其网址是:/http:/,作为赛迪网推出的在中文领域内的首个关于 IT方面的垂直搜索引擎,它具有不同凡响的意义。到 2011 年为止,它就已经收集了关重庆理工大学毕业论文 高等教育动态资讯收集查询系统的设计与实现2于 IT 方面的网址有 2 万多条,而关于 IT 方面的网页的数据数以百万。但即使是这样,中国的垂直搜索引擎技术的发展与国外水平仍然有很大的差距,主要体现在对于数据的挖掘方面,接口开放方面以及对于信息的共享等层面。在国外发展比较好的几个垂直搜索引擎有关于法律信息方面的 LIBClient-IRISWeb 系统,针对科学信息开发的 Seirus 系统等。1.3 研究目

16、的现在互联网的发展很迅速,有各种的消息渠道如微博,网页,朋友圈可以获取各种世界上正在发生或已经发生的事情。但是太多的信息轰炸,反而很快就覆盖了我们真正想要关心的事情,比如许多的高校学生,老师以及高等教育的研究者就很关注每天发生了哪些与自己也就是高等教育方面的事件,同时,也想要了解在以前是不是也发生过相似的事件。但是,社会发展日新月异,每天都有大量的事情在发生,而他们关注的信息就会马上被覆盖,很难再重新查到。关于教育方面的网站有中国教育网,中国考试网,但是它们是包括了所有有关教育方面的一个大型的信息门户网站,随着每天的各种事件的发生,我们想要了解的关于高等教育方面的信息也会很快就被淘汰。因此,专

17、门设计一个系统,用于收集高等教育的动态资讯,是一件势在必行的事情。而该系统就是一个关于高等教育方面的垂直搜索引擎,主要就是供各方人士查询阅读只和高等教育方面相关的事件。垂直搜索引擎主要是从与该行业相关的其他网站抓取所需信息,是一种机构化的搜索引擎。通过开发的高等教育动态资讯收集的系统,每个人就可以每天都能在该搜索引擎上面看到所有的高等教育方面的事件,以及是否以前也有相关事件的发生,从而也不再担心是否这些信息会被覆盖,因为它们在被网络爬虫抓取之后,进行页面分析,以及索引的建立之后就存储在数据库里面,方便以后的随时查询和阅读。1.4 论文的组织结构在本篇论文中,各章的论文组织结构如下:第 2 章对

18、开发技术和原理进行一个简介。首先是对搜索引擎的发展进行简单的描述,主要包括两个方面:其一是发展至今的 3 个目标,其二是对搜索引擎按照功能进行的分类和简介。同时也介绍了垂直搜索引擎的基本开发原理和流程,然后还有垂直搜索引擎需要的基本技术。第 3 章是一个需求分析。它一共分为 3 个部分:第一部分是对垂直搜索引擎的重庆理工大学毕业论文 高等教育动态资讯收集查询系统的设计与实现3功能需求进行一个分析介绍。第二部分是对它的性能需求进行阐述,第三部分是对该系统的技术可行性分析。第 4 章是总体设计。它主要包含了对系统流程图的设计和软件结构与模块划分的设计。在第一模块我主要是对本系统做了一个总体的流程框

19、架的设计。在第二模块简单介绍了一下其软件的结构,将本系统分为客户端和服务器端两个模块来介绍。第 5 章是一个详细设计的描述。里面分别对本系统的程序作了一个流程设计,还有数据结构设计。在数据结构模块,我一共分了数据库端、服务器端和文件夹端三个方面。同时也展示了一下前台和后端的界面设计。第 6 章主要是对实现本系统的一些核心代码展示。主要包括信息采集,信息处理以及信息检索三个方面的。第 7 章一个系统测试版块,先描述了对测试环境的框架的搭建,之后是对系统的功能实现进行了一个简单的测试。第 8 章对全文进行总结,并且给出本系统的一些还不完善的地方,期望以后可以改进。重庆理工大学毕业论文 高等教育动态

20、资讯收集查询系统的设计与实现42.开发技术与原理简介2.1 搜索引擎发展概述 2.1.1 搜索引擎简介及发展目标随着互联网如火如荼的发展,IT 技术已经应用到普通百姓的生活的方方面面,其中每个人对于搜索引擎的使用尤为广泛,在中国尤为百度和搜狗的最频繁。在2000年之后的最近15年时间段内,是搜索引擎迅猛发展的阶段。搜索引擎的发展从最早的一代是分类目录,之后再经历了文本检索,链接分析,发展到现在的是一代以用户为中心。如今互联网主要是以用户的个性化以及社交化作为发展的趋势,从中,垂直搜索引擎得到产生和发展。可以看出垂直搜索引擎就是一个针对明确的目标人群和行业领域的特色搜索服务。搜索引擎发展至今,一

21、共有3个目标,分别是“更全、更快、更准”:(1)针对“更全”:从网页数量来考虑,要做好一个好的搜索引擎,尽量追求索引的网页数量能够更全,从而满足人们更全的需求。这个可以通过网络爬虫来解决。(2)针对“更快”:在前一个目标的要求下,有了相对较全的索引网页之后,对索引以及缓存等技术的要求,就是更快。这个可以通过各种最佳的算法来实现此目标。(3)针对“更准”:有了更全和更快之后,接下来的是最重要的一部分,也就是更准。在对索引网页进行排序,以及对链接结果进行分析的时候,都需要做到力求更准,从而能够加强使用者的印象。作为一个搜索引擎,如果能够做到更准,那么它就增加了很强的竞争资本。2.1.2 搜索引擎分类在搜索引擎发展的历史长河中,经过不断的完善和修订,现在可以分为3种类型,分别是元搜索引擎、目录搜索引擎和全文搜索引擎。(1)全文搜索引擎:现在的互联网上出现的搜索引擎大多是由全文搜索引擎演变而来的,是通用搜索引擎的主要形式。像我们比较熟悉的百度就是全文搜索引擎。它的主要工作原理就是首先在网络上通过蜘蛛爬取数据,之后建立索引,用户通

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。