搜索引擎的产生背景.doc

上传人:sk****8 文档编号:4253788 上传时间:2019-10-08 格式:DOC 页数:8 大小:343.50KB
下载 相关 举报
搜索引擎的产生背景.doc_第1页
第1页 / 共8页
搜索引擎的产生背景.doc_第2页
第2页 / 共8页
搜索引擎的产生背景.doc_第3页
第3页 / 共8页
搜索引擎的产生背景.doc_第4页
第4页 / 共8页
搜索引擎的产生背景.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、搜索引擎技术的理解认识1、 搜索引擎技术的产生背景 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表搜索引擎的发生背景在因特网发展初期,网站相对较少,新闻查找比较容易。然而随着新闻技术的飞速发展,特别是因特网应用的迅速普及,网站越来越多,并且每天全球互联网网页数目以千万级的数量增加。要在浩瀚的网络新闻中寻找所需要的材料无异于大海捞针。这时为满足人人新闻检索需求的

2、搜索网站应运而生。搜索引擎从发生到发展大概阅历履历了如下四个步骤:(1) Archie的出现Archie已经具备了现代搜索引擎的雏形。1990年,加拿大蒙特利尔大学艾伦伊米杰等三个学生在查询文件的时候感触非常不便,当时需要到散布在各个地方的FIP主机中去搜索,于是他们三人开发了用文件称号查找文件体例的想法。经过精心设计,终于开发出了Archie程序。Archie是第一个自动搜索互联网上匿名FTP网站文件的程序。Archie是一个可搜索的FTP文件称号排列表,当用户输入精确的文件称号时,Archie会告诉用户哪一个FTP地址可以下载该文件。Archie还不是真正的搜索引擎,只是实现了自动索引互联

3、网上匿名FIP网站文件的技术,但无疑是在搜索引擎技术发展上迈出的第一步。(2) Spider的出现为搜索引擎的发展奠定了基础,由于特地用于检索新闻的机器人(Robot)程序像蜘蛛(Spider)一样在网络间爬来爬去,因此,Robot程序又被称之为Spider程序。世界上第一个Spider程序,是由1993年6月美国麻省理工学院学生马杰杰瑞开发出来的,它可以用来捕捉互联网上的网址,追踪互联网发展规模。虽然它也还不是真正意义上的搜索引擎,但Wanderer的原理与技术已经被今天的搜索引擎广泛采用。随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在www Wanderer基础上,

4、一些编程者将传统的spider程序工作原理作了些改进。其原理是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,优化。就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷繁涌现,其中以 Jumpstinsideion、TheWorldWideWebWorm(Goto的前身, 也就是今天Overture), 和RepositoryBasedSoftware Engineering(RBSE)最负盈盛名。然而Jumpstinsideion和wwwwo只是以搜索工具在数据库中找到匹配新闻的先后次序排列搜索结果,因此毫无新闻关联度可言。而RBSE是是第一个索引H

5、TML文件正文的搜索引擎,是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。(3) Lycos的发明Lycos(CarnegieMellonUniversityCenter forMacine Translinsideion Announces Lycos)是搜索引擎史上又一个重要的进步。CarnegieMellonUniversity的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。1994年7月20日,Lycos正式发布。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自

6、动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。同时期的Infoseek(Steve Kirsch AnnouncesFree Demos Of the Infoseek SearchEngine)是另一个重要的搜索引擎。起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。但它的友善的用户界面、大量附加服务使它名望日隆。随着Lycos和Infoseek在国际互联网上的亮相,有人把这时期称之为搜索引擎的春天。尔后应用这两种技术的搜索引擎的出现如雨后春笋。从此搜索引擎进入了高速发展时期。(4) 搜索引擎的搜索引擎元搜索引擎。元搜索引擎的

7、出现与其说是技术的发展,不如说是管理的发展。随着互联网规模的急剧膨胀,搜索引擎光靠自己单打独斗己无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。如国外的Inkt,它本身并不是直接面向用户的搜索引擎,但向包括overture、Looksmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。Google在其成立之初也是作为元搜索引擎,向Yahoo提供全文网页搜索服务例。国内的百度也属于这一类,搜索引擎的优化。搜狐和新浪用的就是它的技术。因此从这个意义上说,百度搜索引擎优化。它们是搜索引擎的搜索引擎。图1 搜索引擎原理

8、图 二、 搜索引擎技术能解决的问题 1、搜索引擎的主要功能及工作机制 搜索引擎是 In ternet 上的一个网站, 它的主要任务是在Internet 上主动搜索 Web 服务器信息并将其自动索引, 其索引内容存储于可供查询的大型数据库中。当用户输入关键字 (Keyword )查询时, 该网站会告诉用户包含该关键字信息的所有网址, 并提供通向该网站的链接。对于各种搜索引擎, 它们的工作过程基本一样, 包括以下三个方面: (1) 派出 “网页搜索程序”在网上搜寻所有信息, 并将它们带回搜索引擎; (2) 将信息进行分类整理, 建立搜索引擎数据库; (3) 通过Web 服务器端软件, 为用户提供浏

9、览 器界面下的信息查询。 2、优秀搜索引擎的基本特点 目前各种各样的中西文搜索有10余种或更多, 比较著名的搜索引擎有 Yahoo、Excite、InfoSeek。 一个优秀的搜索引擎应具有以 Lycos、 ltaVista 等。 以下几个特点: (1) 支持全文检索 (FullTextSearch ) 。全文搜 索引擎的优点是查询全面而充分, 用户能够对各网 站的每篇文章中的每个词进行搜索。当全文搜索引擎遇到一个网站时, 会将该网站上所有的文章 (网页) 全部获取下来, 并收入到引擎的数据库中。只要用户输入查询的 “关键字”在引擎库的某篇文章 中出现过, 则这篇文章就会作为匹配结果返回给用户

10、。 (2) 支持目录式分类结构 (Directory )。分类搜索引擎的优点是将信息系统地分门归类, 当遇到一个网站时, 它并不像全文搜索引擎那样, 将网站上的所有文章和信息都收录进去, 而是首先将该网站 划分到某个分类下, 再记录一些摘要信息,对该网站进行概述性的简要介绍。最具代表性的目录式分类搜索引擎是Yahoo网站。 (3) 能够区分搜索结果的相关性 (Pertinency )。搜索引擎应该能够找到与搜索要求相对应的站点, 并按其相关程度将搜索结果排序。 (4) 检索方法多样, 查找手段完备。 (5) 其他性能。 一个优秀的搜索引擎产品还必须查询速度快, 具有较好的可维护、 可更新性能。

11、 现有的搜索引擎在信息维护 、信息重复、网络及站点负载方面还存在很多的不足, 索引数据库往往很大, 检索的查准率不高。 现有搜索引擎的缺陷: (1) 运算符合布尔运算组合运用数量有限; (2) 仅使用关键词提问, 但关键词检索不能完全满足用户的要求, 而且它是一种盲目的匹配; (3) 不能检索历史信息; (4) 简单的结果表示方法使用户显得茫无头绪; (5) 单个引擎的限制。 3、搜索引擎的语法规则 如果想要得到最佳的搜索效果, 就要使用搜索的基本语法来组织要搜索的条件。 (1) 使用逻辑操作符。 搜索引擎中常用的操作逻辑符是: AND、OR、NOT、AND 表示逻辑 “与” 可用 “&”表示

12、, OR表示逻辑 “或” 可用 “ ”来表示, NOT表示逻辑“非”可用 “! ”来表示。 (2) 使用 “+ 、 - ”连接号和通配符。 4、搜索引擎研究的主要问题 由于现有的搜索引擎有上述很多的缺陷, 因此搜索引擎仍是网络和情报检索的研究热点。 当前主要的研究热点有: (1) 能充分表达用户查询要求的查询语言。一套能充分表达用户要求但又不增加网络负载的查询语言是搜索给用户的第一个良好印象。 (2) 索引数据库的组织和管理。如何对大容量、非结构化的信息进行增、删、改操作也是一个值得研究的问题。 (3) 信息的自动加工。如何对信息进行准确的分类和标引是搜索引擎要研究的主要问题。 (4) 提高检

13、索的查准率。现在搜索引擎的问题不再是能找到多少文献, 且很多文献不一定与用户要求非常相关。因此, 提高查准率是搜索引擎查找 效率的主要体现。 (5) Web 信息的发掘。如何迅速发现和搜索网 上新加入的信息和被删除的信息。 三、 搜索引擎技术概览 搜索引擎经过几年的发展和摸索,越来越贴近人们的需求,搜索引擎的技术也得到了很大的发展。搜 索引擎的最新技术发展包括以下几个方面: (1)提高搜索引擎对用户检索提问的理解 为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言,为了克服关键词检索和 目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单的疑问句,比如“how ca

14、n kill virus of computer?”。搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的例子来讲,如果用关键词查询,多半人会用“virus”这个词来检索,结 果中必然会包括各类病毒的介绍、病毒是怎样产生的等等许多无效信息,而用“how can kill virus of computer?”,搜索引擎会将怎样杀病毒的信息提供给用户,提高了检索效率。 (2)对检索结果进行处理 1、基于链接评价的搜索引擎 基于链接评价的搜索引擎的优秀代

15、表是Google,它独创的“链接评价体系”是基于这样一种认识,一个网页的重要性取决于它被其它网页链接的数量,特别是一些已经被认定是“重要”的网页的链接数量。这种评价体制与科技引文索引的思路非常相似, 但是由于互联网是在一个商业化的环境中发展起来的,一个网站的被链接数量还与它的商业推广有着密切的联系,因此这种评价体制在某种程度上缺乏客观性。 2、基于访问大众性的搜索引擎 基于访问大众性的搜索引擎的代表是direct hit,它的基本理念是多数人选择访问的网站就是最重要的网站。根据以前成千上万的网络用户在检索结果中实际所挑选并访问的网站和他们在这些网站上花费的 时间来统计确定有关网站的重要性排名,

16、并以此来确定哪些网站最符合用户的检索要求。因此具有典型的趋众性特点。这种评价体制与基于链接评价的搜索引擎有着 同样的缺点。 3、去掉检索结果中附加的多余信息 有调查指出,过多的附加信息加重了用户的信息负担,为了去掉这些过多的附加信息,可以采用用户定制、内容过滤等检索技术。 (3) 确定搜索引擎信息搜集范围 1、垂直主题搜索引擎 网上的信息浩如烟海,网络资源以十倍速的增长,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一系席之地

17、,比如象股票、天气、新闻等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。作者认为,垂直主题有着极大的发展空间。 2、非www信息的搜索 提供FTP等类信息的检索 3、多媒体搜索引擎 多媒体检索主要包括声音、图像、视频的检索。关于图片搜索引擎的原理,浅谈图片搜索引擎的实现中提出了具有跨时代意义设计思路。 (4)提供更优化的检索结果 1、纯净搜索引擎 这类搜索引擎没有自己的信息采集系统,利用别人现有的索引数据库,主要关注检索的理念、技术和机制等。 2、元搜索引擎 现在出现了许多的搜索引擎,其收集信息的范围、搜索机制、算法等都不同,用户不得不去学习多个搜索引擎的用法。每个搜索引擎平均只

18、能涉及到整个www资源的30-50%(search engine watch数据),这样导致同一个搜索请求在不同搜索引擎中获得的查询结果的重复率不足34%,而每一个搜索引擎的查准率不到45%。 元搜索引擎(metasearch engining)是将用户提交的检索请求到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索 引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高。目前比较成功的元 搜索引擎有metacrawler、dopile、ixquick、搜客等。 3、集

19、成搜索引擎 集成搜索引擎( AllinOne Search Page),亦称为“多引擎同步检索系统 ”(如百度)是在一个WWW页面上链接若干种独立的搜索引擎,检索时需点选或指定搜索引擎,一次检索输入,多引擎同时搜索,用起来相当方便。 集成搜索引擎无自建数据库,不需研发支持技术,当然也不能控制和优化检索结果。但集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业(如FLASH、MP3等)搜索引擎集成链接,深受特定用户群欢迎。 4、垂直搜索引擎 垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领

20、域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一。一种方式通过搜索引擎的社区化产品(即对注册用户提供服务)的方式来组织个人信息,然后在搜索引擎基础信息库的检索中引入个人因素进行分析,获得针对个人不同的搜索结果。自2004年10月yahoo推出myweb测试版,到11月a9推出个性化功能,到2005年Googlesearchhistory基本上都沿着一条路子走,分析特定用户的搜索需求限定的范围,然后按照用户

21、需求范围扩展到互联网上其他的同类网站给出最相关的结果。另外一种是针对大众化的,Google个性化搜索引擎,或者yahooMindSet,或者我们都知道的前台聚类的vivisimo。但是无论其中的哪一种实现方式,即Google的主动选择搜索范围,还是yahoo,vivisimo的在结果中重新组织自己需要的信息,都是一种实验或者创想,短期内无法成为主流的搜索引擎应用产品。走进网吧,不难发现各个网吧内的电脑浏览器首页或工具条上都会有google或百度的标志。百度甚至还推出了网吧联盟,可见搜索引擎们对网吧行业都格外的青睐。现在我们常用的搜索引擎无非就是百度和google两种。从百度方面来看,百度联盟可

22、以算是目前唯一一个能够覆盖所有网吧并和几乎所有主流网吧软件缔结合作关系的媒体运营平台。而google方面也不甘示弱,谷歌已经注意到了网吧市场,网吧已经成为了谷歌的新型合作伙伴。网吧的首页和工具条上都会出现谷歌的标志,相应地会给谷歌带去流量。谷歌对网吧市场的关注,表明谷歌注意到网吧作为中国互联网市场的特色之一。由于我国PC拥有量远落后于美国等西方国家,网吧作为网民主要上网地点的比例逐年在上升,我国网民在网吧上网的比例偏高。据CNNIC 第20次中国互联网络发展状况统计报告显示,超过1/3(37.2%)的网民表示经常去网吧上网,比2006年12月的32.3%高了5个百分点,第一次超过网民在工作单位

23、上网的比例而成为第二大上网场所。一个网站的命脉就是流量,而网站的流量可以分为两类。一类是自然流量,一类就是通过搜索引擎而来的流量。如果搜索引擎能够更多更有效的抓取网站内容,那么对于网站的好处是不言而喻的。所以,SEO也应运而生了。 在百度和谷歌两大搜索引擎的工作中,百度的工作周期相对来说短一些,百度大约在10天左右重新访问网站一次,Google大约在15天左右重新访问一次网站。由于一天之内不能游历全球所有的网站,如果推广网站时,能到更多的网站上提交相应的网站信息,也是加快蜘蛛收录网站内容的重要环节。搜索引擎营销可分为四个层次,可分别简单描述为:存在层、表现层、关注层和转化层。 第一层是搜索引擎

24、营销的存在层,其目标是在主要的搜索引擎/分类目录中获得被收录的机会,这是搜索引擎营销的基础,离开这个层次,搜索引擎营销的其他目标也就不可能实现。 第二层的目标则是在被搜索引擎收录的基础上尽可能获得好的排名,即在搜索结果中有良好的表现,因而可称为表现层。 搜索引擎营销的第三个目标则直接表现为网站访问量指标方面,也就是通过搜索结果点击率的增加来达到提高网站访问量的目的。由于只有受到用户关注,经过用户选择后的信息才可能被点击,因此可称为关注层。 搜索引擎营销的第四个目标,即通过访问量的增加转化为企业最终实现收益的提高,可称为转化层。转化层是前面三个目标层次的进一步提升,是各种搜索引擎方法所实现效果的

25、集中体现,但并不是搜索引擎营销的直接效果。搜索引擎是网站建设中针对“用户使用网站的便利性”所提供的必要功能,同时也是“研究网站用户行为的一个有效工具”。高效的站内检索可以让用户快速准确地找到目标信息,从而更有效地促进产品/服务的销售,而且通过对网站访问者搜索行为的深度分析,对于进一步制定更为有效的网络营销策略具有重要价值。 1、 从网络营销的环境看,搜索引擎营销的环境发展为网络营销的推动起到举足轻重的作用; 2、 从效果营销看,很多公司之所以可以应用网络营销是利用了搜索引擎营销; 3、 就完整型电子商务概念组成部分来看,网络营销是其中最重要的组成部分,是向终端客户传递信息的重要环节。在搜索引擎

26、发展早期,多是作为技术提供商为其他网站提供搜索服务,网站付钱给搜索引擎。后来,随着2001年互联网泡沫的破灭,大多转向为竞价排名方式。 现在搜索引擎的主流商务模式(百度的竞价排名、Google的AdWords)都是在搜索结果页面放置广告,通过用户的点击向广告主收费。这种模式最早是比尔格罗斯(Bill Gross)提出的。他于1998年6月创立GoTo公司(后于2001年9月更名为Overture),实施这种模式,取得了很大的成功,并且申请了专利。这种模式有两个特点,一是点击付费(Pay Per Click),用户不点击则广告主不用付费。二是竞价排序,根据广告主的付费多少排列结果。 2001年1

27、0月,Google推出AdWords,也采用点击付费和竞价的方式。2002年,Overture起诉Google侵犯了其专利。2004年8月,和Yahoo!(Yahoo!于2003年7月收购Overture)达成和解,向后者支付了270万普通股(合3亿美元不到)作为和解费。 AdSense是Google于2003年推出的一种新的广告方式。AdSense使各种规模的的第三方网页发布者进入Google庞大的广告商网络。Google在这些第三方网页放置跟网页内容相关的广告,当浏览者点击这些广告时,网页发布者能获得收入。AdSense在blogger中很受欢迎。同时,Google武断地删除一些帐号,引起

28、部分人的不满。类似的广告方式,其他搜索引擎也先后推出。雅虎的广告方式是YPN(Yahoo Publisher Network),YPN 除了可以在网页上显示与内容相关的广告以外,还可以通过在 RSS 订阅中来显示广告。微软的广告计划叫AdCenter。百度也推出主题推广。4、 心得体会 在传统的网站分类目录搜索方面,新浪、网易、搜狐各出奇兵。新浪依托自身良好的技术实力和新闻优势,推出了综合搜索,省却了用户分门别类搜索的麻烦,只要输入一次想搜索的关键词,就能得到网站、网页、新闻、商品等常用信息,层次分明,一目了然,在保持快速、准确的基础上,给用户提供了更多的选择。 网易则利用它良好的网虫资源,网

29、聚人的力量,做起了开放式目录。互联网上各行各业的高手纷纷加盟,使得网易的网站分类目录一天比一天好。网易还进一步挖掘搜索引擎的潜力,推出了把搜索结果通过手机短信发送的功能。而搜狐,则主要把大量的人力物力花在网站分类目录的整理上,成为分类合理的网站分类目录。 要谈国内搜索引擎技术应用现状则不能不谈百度.美国的网络门户多是以搜索引擎起家的,国内搜索引擎的发展一直不如人意,这种状况直到2000年下半年才结束:年轻的百度公司迅速地拿下了硅谷动力、中国人、搜狐、新浪、21CN、TOM等门网站的全文搜索引擎服务,成为中文检索市场中的佼佼者。百度的成功对中文搜索的贡献很大,不但提供给门户网站以质优价平的搜索引

30、擎,使中国网民有更好的搜索体验,也因为百度的成功,激励了同行的进取心,使得国内中文搜索引擎的发展进入你争我赶的良性发展时代。最近一年来,中文搜索引擎的进步成了互联网行业的一个亮点。搜索引擎本事再大,也搜索不到网上没有的内容,而且,有些内容虽然存在网上,却因为各种原因,而成为漏网之鱼。所以在你使用搜索引擎搜索之前,应该先花几秒种想一下,我要找的东西网上可能有吗?如果有,可能在哪里,是什么样子的?网页上会含有哪些关键字?有些东西你根本用不着麻烦搜索引擎的,比如要找个公司的电话,打个114的速度大概比搜索引擎快得多。又有些问题,可能很难用合适的关键字描述,或者不能直接用搜索引擎搜到,那你可以尝试找个精通这个问题的朋友,或者寻找这方面的热门论坛来问,这也是一种搜索方法。有时,你能选择的最好搜索方法是放弃网络,跑一趟附近的图书馆,图书馆里有网上找不到的成吨的“信息”。当你确认你要找的信息适合通过搜索引擎在网上找之后,搜索到满意结果的概率就大得多了。各种搜索引擎的特点泾渭分明,如果你没有为每次搜索分别选择正确的搜索工具,你将浪费掉大量的时间。这次搜索,你应该使用新浪还是搜狐? Google还是百度? 分析你的需求,比较不同搜索引擎的强项和弱点,然后为这次搜索选择最适合的搜索工具。 所以在使用新技术时,也应该有所取舍以及恰当的使用。 - 8 -

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 自然科学

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。