搜索引擎原理与检索技巧.PPT

上传人:天*** 文档编号:368884 上传时间:2018-09-28 格式:PPT 页数:36 大小:620.50KB
下载 相关 举报
搜索引擎原理与检索技巧.PPT_第1页
第1页 / 共36页
搜索引擎原理与检索技巧.PPT_第2页
第2页 / 共36页
搜索引擎原理与检索技巧.PPT_第3页
第3页 / 共36页
搜索引擎原理与检索技巧.PPT_第4页
第4页 / 共36页
搜索引擎原理与检索技巧.PPT_第5页
第5页 / 共36页
点击查看更多>>
资源描述

1、搜索引擎原理与检索技巧,搜索引擎的概念,搜索引擎: 就是在Internet上执行信息搜索的专门站点,它们可以对主页进行分类与搜索。如果输入一个特定的搜索词,搜索引擎就会自动进入索引清单,将所有与搜索词相匹配的内容找出,并显示一个指向存放这些信息的连接清单。,搜索引擎的分类,搜索引擎按其工作方式主要可分为三种:全文搜索引擎(Full Text Search Engine) 如:Google、Baidu、Yahoo、Bing目录索引类搜索引擎(Search Index/Directory) 如:搜狐、新浪、网易、Yahoo元搜索引擎(Meta Search Engine) 如:,全文搜索引擎工作原

2、理,全文搜索引擎是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。全文搜索引擎都拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用。,全文搜索引擎工作原理,搜索引擎的自动信息搜集功能分两种。一种是每天24小时不间断地,搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库;另一种是提交网站搜索,即网

3、站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。,全文搜索引擎工作原理,当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

4、,全文搜索引擎工作原理,关于网站搜索的更新频率: 百度搜索可以设定网站的更新频率和时间,一般对于大网站更新频度很快,而且会专门开设独立的爬虫进行跟踪,不过百度是比较勤奋的,中小网站一般也会每天更新。因此,如果你希望自己的网站更新得更快,最好是在大型的分类目录(例如yahoo sina 网易)中有你的链接,或者在百度自己的相关网站中,有你网站的超链接,在或者你的网站就在一些大型网站里面,例如大型网站的blog。,全文搜索引擎工作原理,关于采集的深度 百度搜索可以定义采集的深度,就是说不见得百度会检索你网站的全部内容,有可能只索引你的网站的首页的内容,尤其对小型网站来说。关于对时常不通网站的采集

5、百度对于网站的通断是有专门的判断的,如果一旦发现某个网站不通,尤其是一些中小网站,百度将自动停止往这些网站派出爬虫。,谷歌搜索排名技术,对于搜索来说,谷歌强于百度,主要的原因就是谷歌更加公正,而百度有很多人为的因素(这也符合我国的国情),google之所以公正,源于他的排名技术Page Rank。很多人知道Page Rank,是网站的质量等级,越小表示网站越优秀。其实Page Rank是依靠一个专门的公式计算出来的,当我们在google搜索关键词的时候,页面等级小的网页排序会越靠前,这个公式并没有人工干预,因此公正。Page Rank的最初想法来自于论文档案的管理,我们知道每篇论文结尾都有参考

6、文献,假如某篇文章被不同论文引用了多次,就可以认为这篇文章是篇优秀的文章。同理,简单的说,PageRank 能够对网页的重要性做出客观的评价。PageRank 并不计算直接链接的数量,而是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票。这样,PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。此外,PageRank 还会评估每个投票网页的重要性,因为某些网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值。,谷歌搜索排名技术,Page Rank的公式这里省略,说说影响Page Rank的主要因素1、指向你的网站的超链接数量(你的网

7、站被别人引用),这个数值越大,表示你的网站越重要,通俗的说,就是其它网站是否友情链接,或者推荐链接到你的网站; 文章来源 2、超链接你的网站的重要程度,意思就是一个质量好的网站有你的网站的超链接,说明你的网站也很优秀。3、网页特定性因素:包括网页的内容、标题及URL等,也就是网页的关键词及位置。,目录索引工作原理,目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺

8、序决定(也有例外)。目前,搜索引擎与目录索引有相互融合渗透的趋势。,目录索引工作原理,与全文搜索引擎相比,目录索引有许多不同之处。首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Sina这样的超级索引,登录更是困难。,目录索引工作原理,此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放

9、在一个最合适的目录(Directory)。最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。,主要的全文搜索引擎介绍,Google(http:/ 百度是国内最早的商业化(早期为其它门户网站提供搜索服务,现在的竞价排名更是日进斗金)全文搜索引擎,拥有自己的网络机器人和索引数据库,专注于中文的搜索引擎市场,除有网页搜索外,百度还有新闻、MP3、图片等搜索,并在2003年底推出

10、“贴吧”、按地域搜索等功能。,检索技巧,分析检索的主题选择合适的搜索引擎抽取适当的关键词正确构造检索式及时调整检索策略,分析检索的主题,了解查询目的和要求,确定需要的 信息类型(全文、文本、图像、声音等) 查询方式(浏览、分类检索、关键词检索等) 查询范围(全文、网页、标题、FTP、软件、外文等) 查询时间,选择合适的搜索引擎,要选择合适的检索工具时,就要先了解所要使用的搜索引擎GOOGLE 特点:有庞大的数据库,提供全面的结果信息,例如,文章的日期,大小等等。可搜索所有网站,快速有效的搜索到自己所需内容,是一个快速、强大的搜索引擎,它具有足够的响应能力来处理任何极度复杂的搜索,用户界面相当

11、好。并且具有一定的大写、名词识别能力的快速搜索引擎,它的数据库是最大的,能找到别的搜索引擎所不能找到的东西。,选择合适的搜索引擎,雅虎 Yahoo! 是一个涵盖全球120多亿网页(其中雅虎中国为12亿)的强大数据库,拥有数十项技术专利、精准运算能力,支持38种语言,近10,000台服务器,服务全球50%以上互联网用户的搜索需求。,选择合适的搜索引擎,百度 百度搜索引擎拥有目前世界上最大的中文搜索引擎,总量超过3亿页以上,并且还在保持快速的增长。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点,在中文搜索方面,百度甚至比GOOGLE更胜一筹。,选择合适的搜索引擎,搜狐分类目录 ht

12、tp:/ 50,000主题分类,500,000优选网站,人工精选分类 Google 网页目录 http:/ Google 的网路目录内容是依据Open Directory,经由全球各地的义务编辑人员精心挑选,再由 Google 著名的网页级别技术(专利申请中)分析,让网页依照其重要性先后排列出,并透过网页介绍里的横线长度,来标明此网页的重要程度。 网易搜索分类目录 http:/ 一个由网上的志愿人员编辑的分类网站目录。 新浪搜索分类目录 http:/ 由新浪搜索专业编辑挑选和分类的网站结果。,抽取适当的关键词,如何抽取关键词:使用名词或物体做关键词检索式中使用2-3个关键词要注意同义词、近义词

13、、相关词或同一术语的不同表达方式。如,internet、 web 、www 、the net 对固定短语,用“”括起来进行检索,以提高检索的精确度。如,“worle wide web”,及时调整检索策略,扩大检索范围:检索结果为0或太少时,就需要扩大检索范围使用同义词、近义词或相关词减少最不重要的概念词,或使用较普遍的词,或改用上位词。利用某些搜索引擎的自动扩检功能进行相关检索。使用多个搜索引擎。,及时调整检索策略,缩小检索范围:如果得到的检索结果太多,或检索结果不相关,则需要缩小检索范围。使用布尔逻辑使用词组检索使用高级检索语法,布尔逻辑检索,布尔逻辑: 是指适用AND、OR或NOT等运算符

14、查找含有某种词语或特定组配形式的那些网页(记录)。格式:关键词A AND(空格)关键词B 例:查找胰岛素治疗糖尿病 胰岛素AND(空格) 糖尿病,布尔逻辑检索,格式:关键词A OR(|)关键词B(|前面必须有空格) 例:查找电脑 电脑 OR(|)计算机格式:关键词A NOT(-)关键词B(减号前面必须有空格) 例:查找佳能的产品(相机除外) 佳能 NOT(-)相机,词组检索,使用双引号(在输入法半角的状态中输入) 当您输入较长的查询词时,搜索引擎会依据查询词的字符串做拆字处理。若您需要得到精确、不拆字的搜索结果,可在查询词前后加上双引号。 例如:华南师范大学考研 与 “华南师范大学考研”,高级

15、搜索语法,Intitle(在GOOGLE中是allintitle) intitle的意思是所有搜索结果的网页的标题中都要包含“关键词A”。 格式:关键词B intitle:关键词A(多个个关键词中最重要的词放此)只适用在百度中 allintitle:关键词A用于GOOGLE中例:查找有关温总理访日融冰之旅方面的信息 温家宝 融冰之旅 与intitle:温家宝融冰之旅 又例:查找圆明园的历史 由于“圆明园”这个词非常关键,如果选择”圆明园 历史“这个搜索式不如选”历史 intitle:圆明园“(结果是:在所有标题中包含”圆明园“这个词的网页中寻找出现”历史“这个关键词的结果),高级搜索语法,In

16、url(在GOOGLE中是allinurl) url是Uniform Resource Locator(统一资源定位符)的缩写,简单地说,就是地址栏里的东西。意思是在url中含有关键词B的网页中,寻找关于关键词A的信息。格式:关键词A inurl:关键词B(关键词A与inurl之间要用空格隔开) 例:图书馆 inurl:lib,高级搜索语法,SITE site是限定在某个网站内搜索关键词A格式:关键词A site:(即某个域名/网站)例:在新浪网中查找有关融冰之旅的信息 融冰之旅 site:,高级搜索语法,FILETYPE filetype 是限定搜索结果的文件类型。互联网上,存在大量非网页格

17、式的资料,如word文件、pdf文件等。filetype是专门特定格式文件的。格式:关键词A filetype:文件格式后缀名例:入党申请书 filetype:doc,搜索结果全都是word文件。,Google中的其它功能,翻译:T在线文档处理 :D,搜索引擎的发展趋势,一个好的搜索引擎,不仅数据库容量要大,更新频率、检索速度要快,支持对多语言的搜索,而且随着数据库容量的不断膨胀,还要能从庞大的资料库中精确地找到正确的资料,搜索引擎的发展趋势,提高搜索引擎对用户检索提问的理解。为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言。为了克服关键词检索和目录查询的缺点,现在已经出现了

18、自然语言智能答询。用户可以输入简单的疑问句,比如“如何能杀死计算机中的病毒”,搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的例子来讲,如果用关键词查询,多半人会用“病毒”这个词来检索,结果中必然会包括各类病毒的介绍,病毒是怎样产生的等等许多无用信息,而用“如何能杀死计算机中的病毒”检索,搜索引擎会将怎样杀死病毒的信息提供给用户,提高了检索效率。,搜索引擎的发展趋势,垂直主题搜索引擎有着极大的发展空间。网上的信息浩如烟海,网络资源以惊人的速度增长

19、,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一席之地。目前,一些主要的搜索引擎,都提供了新闻、Mp3、图片、Flash等的搜索,加强了检索的针对性。,搜索引擎的发展趋势,元搜索引擎,能够提供全面且较为准确的查询结果。现在的许多搜索引擎,其收集信息的范围、索引方法、排名规则等都各不相同,每个搜索引擎平均只能涉及到整个Web资源的3050%,这样导致同一个搜索请求在不同搜索引擎中获得的查询结果的重复率不足34%,而每一个搜索引擎的查准率不到45%。元搜索引擎(META Search Engine)是将用户提交的检索请求发送到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性化搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高。,

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 重点行业资料库 > 1

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。