毕业设计论文 网络搜索引擎应用研究.doc

上传人:创****公 文档编号:81706 上传时间:2018-07-02 格式:DOC 页数:31 大小:963.78KB
下载 相关 举报
毕业设计论文 网络搜索引擎应用研究.doc_第1页
第1页 / 共31页
毕业设计论文 网络搜索引擎应用研究.doc_第2页
第2页 / 共31页
毕业设计论文 网络搜索引擎应用研究.doc_第3页
第3页 / 共31页
毕业设计论文 网络搜索引擎应用研究.doc_第4页
第4页 / 共31页
毕业设计论文 网络搜索引擎应用研究.doc_第5页
第5页 / 共31页
点击查看更多>>
资源描述

1、第 1 页 共 31 页 毕业论文 题 目: 网络搜索引擎应用研究 _ 摘 要 搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关第 2 页 共 31 页 度高低,依次排列 ,方便用户查找 。 如何更加快捷、准确地查找到用户所需的网络信息资源,是各大搜索引擎服务提供商和计算机网络研究 人员的研究热点。 作为计算机专业的学生,搜索引擎技术对我们有很大的诱惑力,了解搜索引擎的

2、发展现状、原理和技术手段,从算法的角度来认识搜索引擎,是我们必须掌握的知识之一。 本文主要研究搜索引擎的基本原理、搜索算法及实现技术。 关键字 :搜索引擎、基本原理、搜索算法、技术。 目 录 摘 要 1 第一章 引言 5 1.1搜索引擎的初现与发展 6 1.1.1搜索引擎的初显 6 1.1.2搜索引擎的发展 6 第 3 页 共 31 页 1.2 搜索引擎在我国的发展现状 8 1.2.1我国搜索引擎的背景 8 1.2.2 搜索引擎的现状 9 1.3 本文的研究内容 10 第二章 搜索引擎的原 理 11 2.1 搜索引擎的原理概述 11 2.2 搜索引擎的实现原理 12 2.2.1 从互联网上抓取

3、网页 12 2.2.2 建立索引数据库 12 2.2.3 在索引数据库中搜索 13 2.2.4 对搜索结果进行处理排序 13 2.3 垂直搜索引擎的工作原理 14 2.3.1 垂直搜索引擎的基本原理 14 2.3.2 垂直搜索引擎的技术原理 14 2.3.3 垂直搜索引擎技术框架 15 第三章 搜索引擎的核心 -网络蜘蛛 16 3.1 网络蜘蛛 16 3.1.1 网络蜘蛛的介绍 16 3.1.2 网络蜘蛛的工作原理 16 3.2 网络蜘蛛的结构分析 17 3.2.1 如何解析 HTML 17 3.2.2Spider 程序结构 19 3.2.3 如何构建 Spider 程序 19 3.2.4 如

4、何提高程序性能 20 3.2.5 网络蜘蛛的代码分析 21 3.3 网络蜘蛛的处理对象 23 3.4 网络蜘蛛面临的难题 23 第四章 搜索引擎的主要技术 25 4.1 搜索器、索引器、检索器及用户接口 25 4.1.1 搜索器 25 第 4 页 共 31 页 4.1.2 索引器 25 4.1.3 检索器 25 4.1.4 用户接口 26 4.2 中文搜索引擎的中文分词技术 26 第五章 搜索引擎的系统构架 27 5.1 搜索引擎的系统构架图 27 5.2 搜索引擎的系统构架 27 5.2.1 从互联网上抓取网页 27 5.2.2 建立索引数据库 28 5.2.3 在索引数据库中排序 28 5

5、.2.4 对搜索结果进行排序 28 总结 29 致谢 30 参考文献 31 第 5 页 共 31 页 第一章 引 言 近几年,随 着网络的不断发展和壮大, 搜索引擎越来越成为人们生活中重要的一部分,找资料、查地图、听音乐,只有想不到的,没有搜索不到的 。 中国十年多来互联网的不断发展 ,造就出 1.3 亿的网民,搜索引擎也出现空前的火热。在互联网出现的初期,雅虎、新浪、网易等大型门户网站拥有着绝对多的浏览量,原因在于当初的大部分网站在技术上无法与门户网站相媲美,多数质量较差,内容不丰富,所以大型门户网站优秀的网页设计风格,大量的信息及时更新赢得了用户的认可,创造了第一次互联网的高峰。然而随之近

6、年来网络技术的普及与应用,建立一个专业的网站已经不存在 太多的技术门槛。于是看好互联网前景的网站纷纷涌现在我们的面前。相对比而言在某些领域中,大型门户网站的页面风格反而不如一些中小型网站的界面漂亮,同时各种分类的行业网站也慢慢的兴起,使得搜索引擎越来越成为人们生活中必不可少的实用工具。 搜索引擎的出现,整合了众多网站信息,恰恰起到了信息导航的作用。通用搜索引擎就如同互联网第一次出现的门户网站一样,大量的信息整合导航,极快的查询,将所有网站上的信息整理在一个平台上供网民使用,于是信息的价值第一次普遍的被众多商家认可,迅速成为互联网中最有价值的领域。互联网的低谷由此 演变为第二次高峰。大家熟知的搜

7、索引擎 Google、百度、雅虎等是通用搜索引擎现如今的杰出代,他们为互联网的发展做出了重要的贡献。然而,搜索引擎行业也不是一家公司就可以独撑天下的,从百度的上市、 yahoo 中国的并购一系列动作表明,如今的搜索引擎大战如同门户网站初期的竞争一样激烈。相信,通用搜索引擎在经历过一段时间的角逐后,也将会继续维持几大服务商各自分控一部分市场的局面。 总而言之搜索引擎改变了人们的生活给人们的生活工作学习带来了巨大的帮助。 第 6 页 共 31 页 1.1 搜索引擎的初现与发展 1.1.1 搜索引擎的初显 搜索引擎从 1990 年原型初显,到现在成为人们生活中必不可少的一部分,它经历了太多技术和观念

8、的变革。 出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。这些资源当时主要存在于各种允许匿名访问的 FTP 站点。为了便于人们在分散的 FTP 资源中找到所需的东西, 1990 年,加拿大麦吉尔大学( McGillUniversity)的几个大学生开发了一个软件 Archie。它是一个可搜索的 FTP 文件名列表,用户必须输入精确的文件名搜索,然后 Archie 会告诉用户哪一个 FTP 地址可以下载这个文件。Archie 实际上是一 个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。 Archie 虽然还不是搜索引擎 ,但是从它的工作原理上看,它是所有搜索引擎的祖先。

9、当万维网( WorldWideWeb)出现后,人们可以通过 html 传播网页信息,网络上的信息开始成倍增长。人们纷纷使用各种方法将网络上的信息搜集来,进行分类、整理,以方便查找。现在人们很熟悉的网站雅虎( Yahoo)就是在这个环境下诞生的。还在 Stanford 大学读书的美籍华人杨致远和他的同学迷上了互联网。他们将互联网上有趣的网页搜集过来,与同学一起分享。后来, 1994 年 4月,他们俩共同办了雅虎。随着访问量和收录链接数的增长,雅虎目录开始支持简单的数据库搜索。但是因为雅虎的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。 1.1.2 搜索引擎的发展 当

10、“蜘蛛 ”程序出现时,现代意义上的搜索引擎才初露端倪。它实际上是一种电脑 “机器人 ”( Computer Robot),电脑 “机器人 ”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的 “机器人 ”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。所以,搜索引擎的 “机器人 ”程序就被称为 “蜘蛛 ”程序。 第 7 页 共 31 页 这种程序实际是利用 html 文档之间的链接关系,在 Web 上一个网页一个网页的爬取( crawl),将这些网页抓到系统来进行分析,并放入数据库中。第一个开发出 “蜘蛛 ”程序的是 Matthew Gray,他于 19

11、93 年开发了 World Wide Web Wanderer,它最初建立时是为了统计互联网上的服务器数量,到后来发展到能够捕获网址。现代搜索引擎的思路就来源于 Wanderer,后来很多人在此基础上对蜘蛛程序进行了改进。 1994 年 7 月 20 日发布的 Lycos 网站第一个将 “蜘蛛 ”程序接 入到其索引程序中。引入 “蜘蛛 ”后给其带来的最大优势就在于其远胜于其它搜索引擎的数据量。自此之后几乎所有占据主导地位的搜索引擎中,都靠 “蜘蛛 ”来搜集网页信息。Infoseek 是另一个重要的搜索引擎,于 1994 年年底才与公众见面。起初, Infoseek只是一个不起眼的搜索引擎,它沿

12、袭 Yahoo!和 Lycos 的概念,并没有什么独特的革新。但是它友善的用户界面、大量附加服务使它在用户中赢得了口碑。 1995 年12 月,它与 Netscape 的战略性协议,使它成为一个强势搜索引擎:当用户点击Netscape 浏览器上的搜索按 钮时,弹出 Infoseek 的搜索服务,而此前由 Yahoo!提供该服务。 1995 年 12 月 15 日, Alta Vista 正式上线。它是第一个支持高级搜索语法的搜索引擎,成功地整合了此前人类所有的信息检索技术,解决了包括字根处理、关键词检索、布尔逻辑,以及通过向量空间模型的查询排名等关键问题。正式公开之前, Alta Vista

13、就已经拥有 20 万访问用户,在短短三个星期之内,到访人数由每天 30万次增加到 200 万次。它的成功在于满足了用户三个方面的需求:网上索引范围超过了此前任何一家搜索引擎;短短几秒钟内便可从庞大的数 据库中为用户返回搜索结果; Alta Vista 小组从一开始就采用了一种模块设计技术,能够跟踪网站的流行趋势,同时不断扩大处理能力。在当时许多搜索引擎之中, Alta Vista 脱颖而出,成为网络搜索的代名词。 Google 就是站在这样的巨人的肩膀上颠覆并创造着。 “上网即搜索 ” 改变了人们上网方式的,就是现在鼎鼎大名的Google。 Google 并不是搜索引擎的发明者,甚至有点落后,

14、但是它却让人们爱上了搜索。 1998 年 9 月,在佩奇和布林创建 Google 之时,业界对互联网搜索功能的理解是:某个关键词在一个文档中出现 的频率越高,该文档在搜索结果中的排列位置就要越显著。这就引出了这样一个问题,如果一个页面充斥着某一个关键字的话,那么它将排在很显著的位置,但这样一个页面对于用户来说,却没有任何意第 8 页 共 31 页 义。佩奇和布林发明了 “网页级别 ”( PageRank)技术,来排列搜索结果。即考察该页面在网上被链接的频率和重要性来排列,互联网上指向这一页面的重要网站越多,该页面的位次也就越高。当从网页 A 链接到网页 B 时, Google 就认为 “网页

15、A 投了网页 B 一票 ”。 Google 根据网页的得票数评定其重要性。然而,除了考虑网页得票数的纯数量之外, Google 还要分析投票的网页, “重要 ”的网页所投出的票就会有更高的权重,并且有助于提高其他网页的 “重要性 ”。 Google 以其复杂而全自动的搜索方法排除了任何人为因素对搜索结果的影响。没人能花钱买到更高的网页级别,从而保证了网页排名的客观公正。除此之外,动态摘要、网页快照、多文档格式支持、地图股票词典寻人等集成搜索也都深得网民的喜爱。其他众多搜索引擎也都紧跟 Google,推出这些服务。 Fast( Alltheweb)公司发布的搜索引擎 AllTheWeb,总部位于

16、挪威,其在海外的风头直逼 Google。 Alltheweb 的网页搜索支持 Flash 和 pdf 搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、 MP3、和 FTP 搜索,拥有极其强大的高级搜索功能。而中国的百度更是凭借 “更懂中文 ”而吸引着中国的网络受众,它拥有超过 10 亿的中文网页数据库,并且,这些网页的数量每天正以千万级的速度在增长。 搜索引擎 就 越来越成为人们生活中重要的一部分 。 1.2 搜索引擎的现状 1.2.1 我国搜索引擎的背景 百度上市后, 我国的 搜索市场一下子热了起来。越来越多的企业围绕着搜索市场作起了文章。而且,在搜索大战的同时,一些企业也抛出了一些惊

17、 人言论。近日,记者从专业做人脉交际的联络家( )技术总监冉征处了解到,联络家正在加紧研发人脉相关领域的专业垂直 , 联络家之所以涉足专业垂直搜索引擎领域,是看到未来垂直专业搜索引擎市场的巨大商机,他认为未来搜索市场将进一步细分,象 Google、百度等主张大而全的全球式搜索引擎将会面临垂直专业搜索引擎更大的竞争与挑战,他们的市场分额将会被逐渐瓜分,专业的行业性垂直搜索将受到网民的青睐。 那么缘何能得出如此结论呢 ? CNNIC 第十四次互联网调查显示,搜索以71.9的绝对优势成 为用户从互联网上获得信息的主要方式。几乎在全球所有的第 9 页 共 31 页 调查中,搜索引擎都是互联网上使用程度

18、仅次于电子邮箱的服务,搜索引擎服务能成为最受欢迎的服务是因为他解决了用户在浩瀚的互联网海量快速定位信息屏颈问题,在海量的网页里找信息按照传统方式需要用户一个网站一个网站一级目录一级目录下找,要耗费大量的精力和时间,几乎是不可能实现的任务。 1.2.2 搜索引擎的现状 随着 互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几千万页,而现在已经达到几十亿页,数量增加带来的是搜索服务的品质下降,查询的结果集就是 海量的,经常是几十万笔的资料,结果里存在大量的重复信息和垃圾信息,用户越来越难迅速的找到符合的信息,现在经常使用搜索引擎可以感觉到很难在短时间内准确的筛选出需要的内容,而垂

19、直搜索引擎针对专业特定的领域或行业的内容做了专业和深入的分析挖掘,精细分类,过滤筛选等,信息定位更精准,因此在此垂直领域或行业提供的搜索服务势必更好更强,更为用户所欢迎。 比如,对于一个网民来说如果有对特定的领域或行业的信息需求的时候,如果一个是专业的垂直搜索能做到精确锁定内容,但内容量偏小,而另一个是能检索出大量内容,但搜索到的内容一 大部分都是 “ 垃圾 ” 并且很难找到符合的信息,这样的话,你会选择哪个呢,就如用户想购买一个商品,他是会去专门的比价购物搜索引擎上找还是会去 Google 上找,如果你想找一份工作,是会去专门的工作搜索引擎上找还是会去百度上找?答案很明显,更多的用户会舍弃后

20、者,即使前者品牌小名声小,但结果往往是最令网民看重的。 联络家 LINKIST一直做人脉交际圈的拓展,也就是现在炙手可热的 SNS网站,SNS 网站的目的就是要建立一个庞大的人脉圈,参与其中的人都能通过站内人脉的搜索引擎找到自己想找的人,可以找工作、搜罗 人才、寻找合作商机。联络家LINKIST 短短几个月的时间已经聚敛起了近 7万多位高级商务人士。有了一定的用户基础做铺垫,联络家 LINKIST 目前大力开发人脉专业领域的垂直搜索引擎,如工作搜索引擎的人脉搜索引擎,而这比以往的 “ 贴简历、翻招聘信息 ” 的机械作法要灵活的多。 而且,能做出这样的预测显然并不是空穴来风。据记者了解,现在搜索

21、市场大量的的垂直专业搜索引擎的诞生如雨后春笋般,如比价购物搜索引擎,工作搜第 10 页 共 31 页 索引擎,博客搜索引擎等等,占了百度几乎一半以上的流量的 MP3 搜索,其实也可以说是专业的搜索 MP3 的 垂直搜索引擎,许多垂直门户也纷纷推出了自己的搜索引擎系统。 那么,象 Google、百度能会不会通过 “ 补课 ” 挤掉这部分专用搜索市场呢?冉先生对记者表示, Google、百度注定了走的是大而全的粗犷路线,而专用的垂直搜索引擎则不同,需要对做内容的深度挖掘,做精细的分类,构建专业领域的知识库体系等等,而这些都是 Google、百度等无法做到的,他们根本就没有精力做这些,也不可能针对每

22、个行业领域都能做透, “ 术业有专攻 ” 就是这个道理。 就象门户网站与专业垂直的行业性网站可以共存一样,网民也有不同的胃口,有的仅仅是 简单模糊的信息就已经满足了,而一些寻找精确内容的网民则更青睐于专业引擎,比如你打算换一份工作,以前去人才招聘网站贴简历往往都尿杳无音信,现在,就可以去联络家 LINKIST 试试,还能跟同行的朋友交换下最新的行业信息,探讨下行业发展趋势。而且,以后联络家 LINKIST 推出人脉引擎后,只需轻轻点击便能收获颇丰。 有专家预测,未来,专业的垂直搜索将掀起一轮热潮,而且,垂直搜索引擎不会是一个简单的文本框、一个按纽就走遍天下了,更需要专业的信息辅助和配套的增值内

23、容的支持,也就是对相关内容的二次 “ 加工 ” 。而这恰 恰是 Google、百度类所不能提供的。相信,届时很多 VC 的眼球会聚焦于此,而 Google、百度又将面临怎样的挑战呢?我们只能拭目以待了 。 1.3 本文的研究内容 本文研究的最终目的是可以让我们更详细的了解目前基本上人人都在使用的百度、谷歌、搜狗,也就是搜索引擎,但在大部分人眼中所谓的搜索引擎也就是我之前提到过的那些大型的搜索引擎,所以我们想让更多的人详细的了解已经深入大家学习、工作、生活中的搜索引擎。 所做的工作是:对 搜索引擎的 初显、发展、现状做了大概的叙述,对搜索引擎的技术原理、工作的原理、系统构架等做 了具体的了解,希望大家可以对搜索引擎有更进一步的了解

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。