1、 编号 毕业设计(论文) 题目 大学生热点事件搜集 查询系统的设计与实现 二级学院 计算机科学与工程 专 业 计算机科学与技术 班 级 XXXXXXXXXXXXXXX 学生姓名 XXXXXXXXX学号 XXXXXX 指导教师 XXXX 职称 XXXX 时 间 XXXXXXXX 重庆理工大学毕业论文 大学生热点事件搜集查询系统的设计与实现 目 录 摘 要 . I Abstract . II 1. 绪 论 . 1 1.1 本课题的背景简述 . 1 1.2 本课题的研究现状 . 2 1.3 本课题的研究目的 . 2 1.4 本课题的论文结构 . 3 2.搜索引擎技术 . 5 2.1 搜索引擎技术简介
2、 . 5 2.1.1 搜索引擎的历史发展 . 5 2.1.2 搜索引擎的分类 . 5 2.2 垂直搜索引擎技术分析 . 6 2.2.1 系统基本原理 . 6 2.2.2 系统技术简述 . 7 3.需求分析 . 13 3.1 功能需求 . 13 3.2 性能需求 . 13 3.3 模块结构的分析 . 13 3.4 UML 图 . 16 3.5 可行性分析 . 18 4.系统设计 . 19 4.1 总体设计 . 19 4.1.1 系统流程图 . 19 4.1.2 软件结构模块 . 20 重庆理工大学毕业论文 大学生热点事件搜集查询系统的设计与实现 4.2 详细设计 . 21 4.2.1 程序流程设
3、计 . 21 4.2.2 客户端界面设计 . 24 4.2.3 服务器端界面设计 . 25 4.3 数据结构设计 . 26 5.系统实现 . 29 5.1 网页爬取实现代码 . 29 5.2 索引模块建立实现代码 . 30 5.2.1 正向索引建立实现代码 . 30 5.2.2 倒排索引建立实现代码 . 30 5.3 检索模块实现代码 . 31 5.4 数据库模块实现代码 . 32 5.5 客户端模块实现代码 . 33 6.系统测试 . 34 6.1 网页爬取模块测试 . 34 6.2 本地索引建立模块测试 . 35 6.3 服务器端检索模块测试 . 36 6.4 用户端检索模块测试 . 37
4、 7.总 结 . 38 致 谢 . 39 参考文献 . 40 文献综述 . 41 重庆理工大学毕业论文 大学生热点事件搜集查询系统的设计与实现 I 摘 要 这些年来,总所周知的是互联网日新月异的不断发展着,网络上的各种文化各种信息深入到我们生活的各方各面, 在这样的大背景下 搜索引擎技术逐渐的成熟起来,给我们 带来了很多的便捷之处,因此搜索引擎技术在无论是国内还是国外都发挥着举重若轻的大作用。 但是,随着时代的进步,通用的搜索引擎的缺点渐渐暴露出来,比如说网页重复,数据量大,页面太杂乱等,现在已经渐渐不能满足大家的需求了。现在需要的是一种面向特定领域的,而且具有着针对性的检索范围的垂直搜索引擎
5、技术。 在当代的时代背景下,每天都会发生大量的有关大学生的新闻事件产生大量的资讯,过一段时间后这些信息被新的信息取代,而且也不好进行搜索查询。而现在中国的大学生是社会的储备人才,除开大学生本身之外还有更多的人想了解这个群体,但是由于没有一个系统的专门为大学生服务的平台,造成了很多的不便之处。我这次研究的课题就是设计一个专门与大学生有的新闻系统,将互联网上出现的与大学生有关的动态资讯收集到一个数据库中,并为大家提供搜索服务,以便于那些希望查询这些信息的人员可以查询到,同时也便于他们对此的研究与分析。 本论文开篇阐述了课题产生的背景,介绍了研究现状研究目的,然后对搜索引擎核心技术也有一定的探讨,最
6、后的目的是设计出大学生热点事件搜集查询系统,本系统涉及到的重点技术有索引技术,分词算法,网络爬虫,向量空间模型等。我主要完成功能模块有网页 爬取模块,索引建立模块,检索模块以及用户接口模块的设计。 关键词: 搜索引擎,主题检索,大学生,热点事件 重庆理工大学毕业论文 大学生热点事件搜集查询系统的设计与实现 II Abstract Over the years, is known as the continuous development of the Internet, all kinds of culture, all kinds of information on the network
7、into all of our lives, in such a big background of search engine technology is gradually mature, brings us a lot of convenient, so the search engine technology at home and abroad are an easy role. But with the progress of The Times, the shortcoming of general search engine gradually exposed, such as
8、 web pages repeat, large amount of data, the page is too messy, etc., is now gradually cannot meet the needs of people. What is needed is a kind of feature oriented domain has targeted search engine technology, that is, vertical search engine technology. Under the background of the contemporary era,
9、 happen every day a lot of news about college students information, after a period of time the information was replaced by the new information, and also is not good for the search query. Now Chinas college students are reserve talents of the society, besides itself there are more and more people wan
10、t to know the college students group, but since there is no a system service platform for college students, has caused a lot of inconvenience. My topic of this research is to design a special and some news system, college students will appear on the Internet related to college students dynamic infor
11、mation collected from a database, and to provide search service for everyone, for those who wish to query the information personnel can query to, also facilitate their research and analysis. This paper expounds the background of subject, and introduced the research purpose, research status of search
12、 engine technology also has the certain discussion, the final purpose is to design the hot issues college students collect query system, this system is the index technology, key technology involved segmentation algorithm, web crawler, vector space model, etc. I have a web crawl module mainly complet
13、e function module, indexing module, search module and user interface module design. Key words: search engine , subject retrieval, hot issues, college students 重庆理工大学毕业论文 大学生热点事件搜集查询系统的设计与实现 1 1.绪 论 1.1 本课题的背景简述 在中国,网络的发展日新月异,根据 CNNIC中国互联网信息中心发布第 37次调查报告可以分析:“截至 2015年 12月底,中国网民规模达 6.88亿,已然超过半数中国人已与互联
14、网接轨,互联网普及率为 50.3%;同时在国内 78.9%的中国网民上网使用搜索引擎,在其中很大一部分用户使用搜索引擎查找网站,超过 3成用户将搜索引擎网页设置为首页。” 1从这些种种的迹象可以看出,互联网技术成为了现在的社会全新的生活形态,而同时搜索引擎技术是其中至关重要的一个环节,巨大的影响了我们生活环境。它 通过在网上浩瀚的信息中检索,让我们可以快速而准确的找到我们所需要的内容。而现在这个互联网大环境下应运而生的大型搜索引擎,例如 Baidu, Sougou,Google, Yahoo等,它们的出现基本满足了用户的需求,在搜索引擎技术上的市场份额中遥遥领先。 随着科技的进步,通用搜索引擎
15、无论是在技术上还是在硬件条件上都有了明显的提高。但是,即使最大的搜索引擎目前也仅能覆盖 30%-40%的网络,而更新一次索引数据库,一般需要几个星期,甚至几个月。这主要是因为通用搜索引擎的指导思想是试图迎合每一种可能出现的查询请求,虽然 这种讲究高覆盖率的搜索引擎有其不可估量的价值,但却往往导致搜索内容过于分散。而且这种基于关键词的搜索通常会在查询时产生很多不相关的网页,让用户觉得沮丧。因此,需要一种小巧、精致的搜索系统,只针对某一类主题、一类网页,例如新闻、娱乐、体育、音乐、电影、软件等等进行搜索。也就是说只搜索网络的一个子集,是有选择性的在网络上搜索与事先确定的主题相关的网页,这就是主题的
16、搜索引擎。 在生活中发生了大量有关大学生的热点新闻,而在这些通用的搜索引擎中没有专门为大学生服务的平台,很快的这些信息会被其他的娱乐新闻所替代。这次我 们所研究的便是对大学生热点事件这个主题编译一个搜索系统,建立垂直领域也就是大学生这个方面的的主题资源库,提供这部分内容的专项搜索,让用户可以只搜索网络中有关于大学生热点事件的内容。本系统涉及到的便是一个垂直领域的搜索引擎,主题是针对大学生这一群体,让需要检索这方面的信息的人提供一个方便之门,不然像现在重庆理工大学毕业论文 大学生热点事件搜集查询系统的设计与实现 2 网络上的信息不仅多种多样,还杂乱无序分布广散,所以设计出一个这样的搜索引擎是很有
17、必要的也是现在的大学生所希望看到的。 1.2 本课题的研究现状 在国外有关于垂直搜索引擎技术的研究正处于一个高速发展的时期,很多国家 都在努力致力于这方面的研究,而且取得了较大的突破性成果。采用导向词和权值相结合的方式,按照一定的策略引导索引器检索整个网络,以便于得到数据量精准快速的信息。因为可以通过设置关键字和关键字所对应的权值,会优先考虑权值比重高的网页,使用起来比通用搜索引擎技术更加快捷准确有效。而在国内有关于垂直搜索技术还处与萌芽阶段,现在还没有比较完善的技术,相对来说,国内比较出名有北大计算机系研究出来的天网主题搜索、赛迪网研发的“ IT罗盘”、慧聪网的行业搜索,这些都是在国内做的比
18、较成功的垂直领域的搜索引擎技术,他们采用的方法就 是进行特征提取,分析样本网页,提取特征信息。在之后的搜索过程中,根据这些特征信息,对每一张被搜索的网页都赋予一定的相关度,相关度越高就说明与主题越相似。同时它还收录了大量教育网内的资源,使得教育网内的资源也能被广泛利用起来,特别是它的 FTP搜索部分,提供了非常丰富的下载资源。现在来说,垂直搜索引擎技术是全世界研究的热点,难点。 现在我的首要任务是基于现在的研究现状尽全力设计出和我课题需求符合系统。因为我的系统主要涉及的大学生热点事件的搜集查询,而现在的国内网站还没有针对这方面专门的一个门户网站,当我们在网页 上输入大学生热点事件的时候,基本都
19、是来自于一些大型的门户网站的信息,例如中国新闻网,搜狐,中国教育新闻网站等,但是还缺乏这样的一个垂直领域的网站,专门提供大学生方面的信息检索。在有关于大学生这方面的垂直领域的检索中,信息来源都是来自于各方面的行业领域的网站,其中垂直领域的搜索引擎是一种结构化的技术检索,目前我国在这方面的研究还处于国际上的初级水平,因此加大研究力度争取技术突破是迫不及待的。 1.3 本课题的研究目的 了解到搜索引擎技术现在的研究现状我们可以知道,通用的搜索引擎技术的缺点被大家所熟知,例如查询 信息量广,查询也不够准确,有大量的干扰信息,深度也不够等。现在最火热的垂直搜索引擎技术便是针对通用搜索引擎技术的缺点,所
20、扩展出来的搜索子系统。 相对于通用的搜索引擎来说,因为对主题领域有着一定的限制所以重庆理工大学毕业论文 大学生热点事件搜集查询系统的设计与实现 3 在计算开销这一模块也会较之通用引擎技术低一些。通过结合了主题检索和分级目录的方法更有利于专业信息的查询,这样针对某一具体领域便有了更加具有专业度的结果剔除了无用的信息,提高了网页相关度的显示能力。 经过主题相关度分析后会尽量爬取的网页是根据用户需求来的,建立主题资源库,然后提供专题领域方面的信息检索类的服务,让用 户可以得到高效准确的信息资源。通用搜索引擎的缺点主要来源于它们力图覆盖整个网络,并为所有可能的主题提供查询服务的目标。面向主题的搜索引擎
21、克服了以上的缺点,拥有更好的查全率和查准率,因为它们将搜索网页的内容限定在一定的领域里,有效所建了搜集的范围。一个面向大学生领域的搜索引擎用一部分事先选定好的网页作为体现用户兴趣的样本。为了获得更多相关的网页,垂直领域的搜索引擎从一个给定的集合出发,对基于内容的网页相关度算法进行分析。 我的课题便是基于搜索引擎的工作原理设计出有关于大学生热点事件的收集查询的垂直搜索引擎系统 ,针对大学生这一个群体,具有高度的专业性和行业性分化,因为在现在的大社会背景下,每天网络上都会发表大量的新闻,即使是例如百度这样的大型搜索网站,也没有专门为大学生服务的平台,过一段时间后这些信息被新的信息取代,而且也不好进
22、行搜索查询。本课题就是设计一个专门与大学生有的搜索引擎系统,将互联网上出现的与大学生有关的动态资讯收集到一个数据库中,并为大家提供搜索服务,以便于那些希望查询这些信息的人员可以查询到,同时也便于他们对此的研究与分析。本次课题研究的意义是,在提供查询的过程中,可以实现对大学生领域的垂直搜索, 显示的全是关于大学生方面的内容,这样可以减少了索引的数据量,提高了网页相关度的能力。 1.4 本课题的论文结构 在本篇论文中,大致的论文结构如下: 第一章 是绪论主要是简述了一些研究本课题的背景资料以及目的现状等,论证了对本系系统设计的充分性和必要性,对课题的研究方向有一定的了解乃至深度。 第二章 是对本系
23、统搜索引擎技术有一个简单的介绍,首先对整个的发展历史进行阐述,搜索引擎技术经过了几代的变迁,以及现在的环境下对它的分类,然后对我所涉及的搜索引擎核心技术工作原理也有一个大致的介绍,还有关于系统涉及到的一些核心技术也有一定 的简述。 第三章 是对本系统的需求分析,包括了功能需求和性能需求以及可行性分析,功能需求是将系统分成了几个模块然后分别进行阐述,然后画出了设计的客户端和服务重庆理工大学毕业论文 大学生热点事件搜集查询系统的设计与实现 4 器端的用例图,性能需求则是对本系统设计的一个时间特性, CPU 占用率等一个分析,可行性分析则是对系统运行是否成功可行的环境分析。 第四章 是则是开始对我的
24、系统进行设计,包含了详细设计和总体设计还有数据结构设计。首先是对系统一个总体体系结构的描述,有一个总体的流程图,然后分模块对系统进行分析,详细设计则是对系统的核心模块的流程进行设计。 第五章 是对系统实现的分析,将实现系统核心技 术的代码呈现出来,其中包含了爬虫,索引,检索等技术。 第六章 则是对系统的测试,通过每一个部分的效果截屏展示,可以看出系统实现了那些功能。 第七章 便是对本系统的设计实现过程中的一些总结,首先是对系统设计的技术原理有一定的总结,然后就是介绍一下系统实现方面还有那些不足的地方。 重庆理工大学毕业论文 大学生热点事件搜集查询系统的设计与实现 5 2.搜索引擎技术 2.1
25、搜索引擎技术简介 2.1.1 搜索引擎的历史发展 目前大部分人所公认的最早的搜索引擎时代是以 Yahoo 为代表的史前时代:人工目录分级导航的检索网站,通过人工收集整理各种高质量的网站将网站类,用户则根据分级目录来查找信 息。随着互联网的发展,这种纯人工的方式已经远远不能满足人们对信息的需求,它的检索速度太慢,而且耗费了大量的人工成本,数据量也很有限。 第一代以 Google 为代表搜索引擎采用的是通过关键字索引和网页文本内容等相关程度为基本的搜索网站。相对应分类目录,这种文本检索的方式可以获取到大部分的网页,随着人们对所需求信息质量不断的精细,它的局限性慢慢的暴露出来。 第二代搜索引擎充分的
26、利用网页的链接,结合网页上的相似度以便于可以改变搜索引擎技术的准确性。虽然这个技术没有考虑到用户的个性化的要求,但是搜索引擎的技术相较之前 几代已经有了显著的提升。 目前来说,现在的搜索引擎大部分都可以归纳为第三代,即以用户为中心的一代,以理解用户需求为第一要务,简单来说,就是不同的用户即使输入的同一关键字,出来的结果则是根据时间场合历史记录等的不同而不同,这一代的搜索引擎技术是智能搜索引擎技术,给我们铺面而来展示出个性,智能,多元性的发展趋势。 随着网络用户对检索精确度和效率的不断提高,更多的搜索引擎门户网站可以根据用户的需求建立主题资源库,提供真正关于专题领域的信息检索服务。于是垂直搜索引擎技术便可称为第四代搜索引擎,它运用了人工分类以及策 略获取的技术快速有效的提供用户所需求的信息,是现在最先进的搜索引擎技术。 2.1.2 搜索引擎的分类 目前,世界上大部分人所公认的搜索引擎有三种服务方式,因此,搜索引擎便可以大概分为以下三类: (1)目录式搜索引擎 这种方式的搜索引擎严格来说,并不是真正的搜索引擎,它通常是通过人工搜集