信息存储与检2.doc

上传人:11****ws 文档编号:3183652 上传时间:2019-05-24 格式:DOC 页数:9 大小:52KB
下载 相关 举报
信息存储与检2.doc_第1页
第1页 / 共9页
信息存储与检2.doc_第2页
第2页 / 共9页
信息存储与检2.doc_第3页
第3页 / 共9页
信息存储与检2.doc_第4页
第4页 / 共9页
信息存储与检2.doc_第5页
第5页 / 共9页
点击查看更多>>
资源描述

1、信息存储与检索课程实验报告开课实验室: 2011 年 11 月 5 日学院 年级、专业、班 姓名 成绩课程名称实验项目名 称网络搜索引擎 指导教师教师评语教师签名:年 月 日一、实验目的掌握网络检索的主要工具(特别是 Google)的基本使用方法、技巧和步骤,采集并了解网络搜索引擎的工作原理,采集并了解 Google 公司的发展历史、技术进展与企业经营战略和企业文化。二、实验步骤1 了解网络检索的主要工具2 掌握其(特别是 Google 与 Baidu)基本使用方法、技巧和步骤。3 自己熟悉应用搜索引擎查找所需信息4 总结网络搜索引擎的工作原理、结构与流程。5 利用搜索引擎收集整理并写出本虚拟

2、企业所处行业的发展状况的评述6 了解谷歌、百度公司的发展历史、技术进展与企业经营战略和企业文化7 谈谈网络搜索引擎未来的发展趋势三、实验结果及分析随着互联网的迅速发展,网上信息夜以惊人的速度增长,为了快速地检索网上信息,人马开发了一种信息检索工具,即搜索引擎。搜索引擎实际上就是对 www 站点资源和其他网络资源进行标引并提供检索服务的服务器或网站,是一个基于互联网的信息搜集、组织和用户查询的平台。搜索引擎的基本功能就是它的检索功能。随着信息技术的发展,搜索引擎又具备了一些高级检索功能,如加权检索、自然语言检索、多语种检索、区分大小写的检索。相关信息反馈、模糊检索和概念检索等。搜索引擎是一个集多

3、种技术于一体的综合性网络应用系统,包括网络技术、数据库技术、自动标引技术、检索技术、自动分类技术、机器学习人工智能技术等。虽然它们表现为不同的形势,但基本上有收集器、索引器、检索器和用户接口 4 部分组成。搜集 1、搜集信息(抓取网页):搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛(Network Spider)的自动搜索机器人程序来连上每一个网页上的超连结。机器人程序根据网页链到其他中的超链接,就象日常生活中所说的“一传十,十传百”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超连结,机器人便可以遍历绝大部分网页此过程基本都是自动完成的。每

4、个独立的搜索引擎都有自己的网页抓取程序(又叫网络蜘蛛或蜘蛛) 。网络蜘蛛会顺着网页中的链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。所以目前绝大多数的网站都会制作一个专门的页面来详细的介绍站点的版块及结构并附上链接以更好的让搜索引擎顺利的抓取站点的信息,这样的页面通常称之为网站地图。 整理信息:搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。想象一下,如果信息是不按任何规则地

5、随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来再快的计算机系统也没有用。 搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度等一系列用于评价网站的指标(PageRank、Alexa 排名、收录数、链接数等) 。接受查询:用户向搜索引擎发出查询请求,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。用户输入关键词进行检索,搜索引

6、擎从索引数据库中找到匹配该关键词的网页;目前,搜索引擎返回主要是以网页链接的形式提供,通过这些链接,用户便能到达含有自己所需资料的网页。 为了用户便于判断,除了网页标题和 URL 外,还会提供一段来自网页的摘要以及其他信息以帮助用户判断此网页是否含有自己需要的内容。1)搜索器在互联网中发现并且取回尽量多的网页信息;2)索引器将搜索器所搜索到的网页信息切分成多个关键字,以关键字作为索引项,用于表示文件以及生成文件库的索引表;3)检索器根据用户的查询在索引库中快速检索文件,进行相关度匹配,对检索到的结果进行排序,返回相应的网页给用户;4)查询器的作用是接纳用户查询,显示查询结果,提供个性化查询项。

7、索引器的好坏直接影响搜索引擎的质量,索引器从搜索器获取的资源中抽取信息,并建立利于检索的索引表。目前搜索引擎中最流行也最有效的索引方式是倒排文件,先将切词形成的顺排文件组织成索引数据,然后再进行倒排处理。1.搜索器 搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有两种搜集信息的策略: 从一个起始 URL 集合开始,顺着这些 URL 中的超链(Hyperlink) ,以宽度优先、深度优先或启发式方式循环地在互联网中发

8、现信息。这些起始 URL 可以是任意的 URL,但常常是一些非常流行、包含很多链接的站点(如 Yahoo!) 。 将 Web 空间按照域名、IP 地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。 搜索器搜集的信息类型多种多样,包括 HTML、XML、Newsgroup 文章、FTP 文件、字处理文档、多媒体信息。 搜索器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。 Google 的蜘蛛程序 Spider 对网页数据的抓取是通过读取网页文本内容,并顺着页面中的链接层层深入,从而获得对全站内容的抓取。有一些网页制作技术如框架结

9、构(frame:帧) 、Flash 等生成的网页内容是蜘蛛程序比较排斥、不愿意抓取的,因此内嵌于其中的文字或链接往往被蜘蛛忽略了,从而影响到对全站重要数据的抓取。要想知道某个网页的内容能否被 Google 蜘蛛正常抓取到,可以借用蜘蛛 Spider 模拟程序,它罗列出一页中能够读到的所有文本,以及能够进入的所有链接,以帮助诊断重要网页内容是否可见。网络营销指南将搜索引擎蜘蛛模拟器视作重要的搜索引擎优化检测工具之一。 搜索器在工作过程中主要需考虑以下几个问题:(1)Web 信息的选择 在大多数情况下,搜索器不可能搜集所有 Web 信息,只能选择下载其中一部分。这样,如何下载比较“重要”的 Web

10、 信息就是一个很现实的问题。判断一个网页是否重要的依据主要有兴趣驱动、流行性驱动和位置驱动三个指标。(2)Web 页面的更新频率当网页被下载后,搜索器应以一定的频率对全部网页进行刷新或对网页重新访问,其频率应与网页自身更新的频率相适应,但不是成正比。(3)减少搜索器对 Web 服务器的负担当很多搜索器在工作时,将大大消耗服务器资源,对 Web 服务器而言是一个不小的负担,如何减少服务器负担和避免阻塞也是设计搜索器应该考虑的问题。例如,有的搜索引擎与网站达成协议,只有在网站服务器端放置特殊标记文件,搜索器才采集,有的网站服务器按照搜索器的要求建立索引文件,搜索器只采集这个索引文件即可。(4)并行

11、工作由于网页数量庞大,许多搜索器在多台机器上工作,并行下载网页,从而使得在最短的时间内下载更多的网页,而这些并行工作的搜索器必须协同工作,以便使得不同搜索器不会重复访问。并行工作处理的好坏,将直接影响搜索器的效率。目前的搜索引擎蜘蛛已经不在是以前的发现一张网页,并收录。现在 网页的收录,将比以往更加严格。以前搜索引擎蜘蛛面临的问题是大部分站点的网页不太友好,不利于搜索引擎的蜘蛛爬取。而现在的问题,网页的路径很友好,但是搜索引擎蜘蛛需要分辨其价值,从而再决定要不要收录。也正是这个原因,让很多内容主要是靠采集但是网站结构很有利于搜索引擎蜘蛛爬行的网站,并没有得到搜索引擎大量收录的原因。通过网站结构

12、、外部链接等因素来促进搜索引擎的收录,依然是主要的方法之一。但是相比较而言,现在搜索引擎已经不那么依赖这两者的作用了。所以对 SEO 来说,难度已经明显增加。2.索引器 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。 索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之

13、间有天然的分隔符(空格) ;对于中文等连续书写的语言,必须进行词语的切分( 中文分词技术) 。为了快速查找到特定的信息,建立索引数据库是一个常用的方法,即将文档表示为一种便于检索的方式并存储在索引数据库中。索引数据库的格式是一种依赖于索引机制和算法的特殊数据存储格式。索引的质量是 Web 信息检索系统成功的关键因素之一。一个好的索引模型应该易于实现和维护、检索速度快、空间需求低。搜索引擎普遍借鉴了传统信息检索中的索引模型,包括倒排文档、矢量空间模型、概率模型等。3.检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相

14、关性反馈机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型等多种,可以查询到文本信息中的任意字词,无论出现在标题还是正文中。检索器从索引中找出与用户查询请求相关的文档,采用与分析索引文档相识的方法来处理用户查询请求。如在矢量空间索引模型中,用户查询 q 首先被表示为一个范化矢量 V(q)=(t1,w1(q); ; ti,wi(q); ; tn,wn(q),然后按照某种方法来计算用户查询与索引数据库中每个文档之间的相关度,而相关度可以表示为查询矢量 V(q)与文档矢量 V(d)之间的夹角余弦,最后将相关度大于阀值的所有文档按照相关度递减的顺序排列并返还给用户。当然搜索引擎

15、的相关度判断并不一定与用户的需求完全吻合,所以我们在搜索结果往最后面翻页后会看到很多的搜索结果基本和我们想要搜索得到的东西根本没有关系。这也有待于搜索引擎提供他们的搜索技术4.用户接口 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。 用户输入接口可以分为简单接口和复杂接口两种。 简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如逻辑运算(与、或、非; 、-) 、相近关系(相邻、NEAR) 、域名

16、范围(如.edu、.com) 、出现位置(如标题、内容) 、信息时间、长度等等。目前一些公司和机构正在考虑制定查询选项的标准。 其他非主流搜索引擎形式: 集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如 HotBot 在 2002 年底推出的搜索引擎。 门户搜索引擎:AOL Search、MSN Search 等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。 免费链接列表(Free For All Links 简称 FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,

17、不过规模要比 Yahoo!等目录索引小很多。搜索引擎按其工作方式主要可分为三种:1、全文搜索引擎(Full Text Search Engine) ;2、目录索引类搜索引擎( Search Index/Directory)、元搜索引擎(Meta Search EngineGoogle 搜索引擎是由两个斯坦福大学博士生 Larry Page 与 Sergey Brin 于1998 年 9 月设计,Google Inc. 于 1999 年创立。2000 年 7 月份,Google 替代Inktomi 成为 Yahoo 公司的搜索引擎,同年 9 月份,Google 成为中国网易公司的搜索引擎。在取名

18、时取的其实是数学名词“古戈尔”(googol,10 的 100 次方,即数字 1 后跟 100个零,常指巨大的数字)的谐音。这显然是一个充满勃勃野心的创业梦想,用创建人佩奇的话说:“我们的任务就是要对世界上的信息编组“。特色在于网络结构挖掘技术,分析互联网上的链接结构并进行相关的数据挖掘,能够提供给用户权威结果。Google 开发出了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。(股价超600$/股)通过对近 40 多亿网页进行整理,可为世界各地的用户提供适合需要的搜索结果,而且搜索时间通常不到半秒现在,Google 每天提供 2 亿次查询服务使用 Google 图像搜索您可以搜索超过

19、 10 亿个图像。(1)Google 并非只使用关键词或代理搜索技术,它将自身建立在高级的 PageRank(网页级别)技术基础之上,这项技术可确保始终将最重要的搜索结果首先呈现给用户。(2)网页级别可对网页的重要性进行客观的分析。用于计算网页级别的公式包含 5 亿个变量和 20 多亿个项。网页级别利用巨大的网络链接结构对网页进行组织整理。实质上,当从网页 A 链接到网页 B 时,Google 就认为“网页 A 投了网页 B 一票”。(3)Google 复杂的自动搜索方法可以避免任何人为感情因素。与其他搜索引擎不同,Google 的结构设计即确保了它绝对诚实公正,任何人都无法用钱换取较高的排名

20、。Google可以诚实、客观并且方便地帮助用户在网上找到有价值的信息。最新 Google 排名算法公式 2010 版详细介绍!Google 排名算法公式(原文):GoogleScore = (KW Usage Score * 0.3) + (Domain Strength * 0.25) +(Inbound Link Score * 0.25) + (User Data * 0.1) + (Content QualityScore * 0.1) + (Manual Boosts) (Automated & Manual Penalties)Google 排名算法公式(中文):Google 得分

21、=(关键词得分 X0.3)+(域名权重 X0.25)+(外链得分 X0.25)+(用户数据X0.1)+(内容质量得分 X0.1)+(人工提分)-(人工/自动降分)得分影响因子分析关键词:网页 Title、Hx(h1-h6)、文本内容、外链中、域名/网址域名权重:注册历史、域名年龄、外链权重、导入导出链接相关度、使用历史链接形式外链得分:链接时间、链接域名权重、锚文本、链接数量/链接权重(PR 或其他参数)、外链网页的主题用户数据:搜索引擎结果页面(SERPs)的点击率、用户在网页上停留的时间、域名或 URL 搜索量、访问量及其他 Google 可以监测到的数据(工具条、GA 等)内容质量得分:

22、流行的内容/关键词人工加分、Google 投票人员、机器算法新的 PR 算法中,nofollow 也将被计入链接得分。公式符合 Google 的排名方针,内容 域名权重 | 外链,虽然这些参数都是很基本、众所周知的,值得从业人员去验证一下。Google 在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网页时使用。单击“网页快照”时,您将看到 Google 将该网页编入索引时的页面。Google 依据这些快照来分析网页是否符合您的需求。在显示网页快照时,其顶部有一个标题,用来提醒您这不是实际的网页。符合搜索条件的词语在网页快照上突出显示,便于您快速查找所需的相关资料。尚未编入索引

23、的网站没有“网页快照”,另外,如果网站的所有者要求 Google 删除其快照,这些网站也没有“网页快照”。百度是目前全球最优秀的中文信息检索与传递技术供应商。中国所有提供搜索引擎的门户网站中,超过 80%以上都由百度提供搜索引擎技术支持,其客户包括新浪、sohu、腾讯、263、21cn、上海热线、广州视窗、新华网、北方时空、西部时空、重庆热线、吉林信息港、大庆信息港、东方热线、湖南信息港、南阳信息港、顺德信息网 百度搜索引擎使用了高性能的“网络蜘蛛”程序自动的在互联网中搜索信息,可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息。百度在中国各地和美国均设有服务器,搜

24、索范围涵盖了中国大陆、香港、台湾、澳门、新加坡等华语地区以及北美、欧洲的部分站点。百度搜索引擎拥有目前世界上最大的中文信息库,总量达到 6000 万页以上,并且还在以每天几十万页的速度快速增长。由于后台应用了高效的信息索引算法,大大提高了检索时的响应速度和承受大访问量时的稳定性,百度搜索引擎对超过 6000 万网页检索一次的本地平均响应时间小于 0.5 秒。1. 基于字词结合的信息处理方式。巧妙解决了中文信息的理解问题,极大地提高了搜索的准确性和查全率。 2. 支持主流的中文编码标准。包括 GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的编码之间转换。 3.

25、 智能相关度算法。采用了基于内容和基于超链分析相结合的方法进行相关度评价,能够客观分析网页所包含的信息,从而最大限度保证了检索结果相关性。4. 检索结果能标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等) ,并突出用户的查询串,便于用户判断是否阅读原文。5. 百度搜索支持二次检索(又称渐进检索或逼进检索) 。可在上次检索结果中继续检索,逐步缩小查找范围,直至达到最小、最准确的结果集。利于用户更加方便地在海量信息中找到自己真正感兴趣的内容。 6. 相关检索词智能推荐技术。在用户第一次检索后,会提示相关的检索词,帮助用户查找更相关的结果,统计表明可以促进检索量提升 10-20%。 7. 运用多线程技术、高效的搜索算法、稳定的 UNIX 平台、和本地化的服务器,保证了最快的响应速度。百度搜索引擎在中国境内提供搜索服务,可大大缩短检索的响应时间(一个检索的平均响应时间小于 0.5 秒) 8. 可以提供一周、二周、四周等多种服务方式。可以在 7 天之内完成网页的更新,是目前更新时间最快、数据量最大的中文搜索引擎。 未来搜索引擎的发展将会达到很高的水准 搜索引擎发展趋势1.十分注意提高信息查询结果的精度,提高检索的有效性 2.基于智能代理的信息过滤和个性化服务3.采用分布式体系结构提高系统规模和性能4.重视交叉语言检索的研究和开发

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 精品笔记

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。