基于关键词的网页检索和排序【文献综述】.doc

上传人:文初 文档编号:17546 上传时间:2018-04-26 格式:DOC 页数:4 大小:27KB
下载 相关 举报
基于关键词的网页检索和排序【文献综述】.doc_第1页
第1页 / 共4页
基于关键词的网页检索和排序【文献综述】.doc_第2页
第2页 / 共4页
基于关键词的网页检索和排序【文献综述】.doc_第3页
第3页 / 共4页
基于关键词的网页检索和排序【文献综述】.doc_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

1、毕业设计文献综述计算机科学与技术基于关键词的网页检索和排序摘要随着INTERNET的发展,整个网络正在不断累积成一个前所未有的超级大型数据库。面对如此海量存储的信息空间,快速获取所需的信息已成为信息时代最基本的问题。网页检索系统作为INTERNET上必不可少的信息资源检索工具,几乎每个网络用户都在使用它来寻找自己需要的信息。网页检索系统可以为用户进行网络导航,帮助用户在数以亿计的网络信息中快速查找所需的站点或网页,筛选出符合用户需求的有用信息。它是各类网络信息处理工具中比较稳定而最具效率的部分。网页检索系统是引领我们在浩瀚的网络信息资源中寻找真正所需的重要工具。关键词网页检索系统中文分词相关度

2、计算,网页排序一、网页检索研究的历史和现状目前国际上的网页检索主要分成以下几类1基于目录的网页检索基于目录的网页检索将收集到的信息分配到不同的类别中,典型的基于目录的网页检索有两大问题1分类是按分类者或分类软件的分析而定,不一定与用户的意见一致。2如果你查找的信息没有对应的分类项,则无法进行检索。2基于机器人的网页检索基于机器人的网页检索从一组已知的文档出发,通过文档的超文本连接确定新的检索点,然后用索引机器人周游这些新的线索点,标引这些检索点上的新文档,将这些新文档,加入到索引数据库。以后网页检索系统可以用这个索引数据库去回答用户的提问,检索方法有深度优先和广度优先两种,广度优先算法先标引新

3、服务器上的新文档,然后标引已知的服务器上的新文档,即找到尽量多的服务器,它保证一个服务器上至少有一片文档加入索引数据库。它能降低服务器被访问的频度,缺点是不能深入文档。深度优先的算法能较好地发掘文档结构,如相互参照的链接结构,而且相对比较稳定,缺点是有可能进入无限循环。数据检索方法有基于全文和基于标题两类。基于机器人的网页检索的缺点是不安全及产生大量的网络负载和网络服务器负载。3基于关键词的网页检索基于关键词的网页检索从一组客户输入的关键词出发,检索WWW上的包含此关键字的文档并传送这些文档,在提交给客户前,网页检索系统会对所有检索的的文档进行排序,新一代的基于关键词的网页检索会根据访问用户的

4、相关信息给用户提供个性化的服务,这也正是我们所希望达到的目标。4元网页检索元网页检索将用户的查找要求递交给其他的网页检索系统,它的注意力在改进用户界面及用不同的方法过滤它从其他网页检索系统接收到的相关文档,包括消除重复信息。元网页检索系统设计简单,但网络的负载太大。5分布式网页检索分布式检索系统按区域、主题或其他标砖创建分布式索引服务器,索引服务器之间相互可以交换中间信息,且相互可以被重新定向,如果一个检索服务器没有满足查询请求的信息,它可以将查询请求发送到具有相应信息的检索服务器,由于分布式网页检索系统将索引数据库划到几个分布的数据库,每个数据库变得小一些,但所有网页检索系统覆盖的范围变大,

5、且很少有信息重复,而作为分布式系统特征之一的可扩充新也是分布式网页检索系统的优点之一,然后分布式网页检索系统需要多个索引数据库协同工作,实现交困难,目前尚没有真正的、使用的分布式网页检索系统。二、网页检索的发展和趋势元网页检索系统是共享多个独立的外部网页检索系统信息库为用户提供信息服务的系统。它的工作原理比一般的网页检索系统要简单,但在检索效果上比一般网页检索系统要优越。元网页检索系统不仅极大地扩充了传统网页检索系统的检索范围,实现真正意义上遍历整个WEB,并且它的智能化程度较高,尤其是AGENT技术的应用,独立外部网页检索系统的每一组成部分以及众多独立的外部网页检索系统的组合都是采用基于AG

6、ENT的智能化代理。严格说来,元网页检索系统不是真正的网页检索系统,只能算作一种用户代理。它自己不进行WWW的遍历,本身不需要检索和标引网页,所以也没有自己的索引数据库。当用户查询一个关键词时,它把查询请求转换为外部网页检索系统的命令格式,分别向外部网页检索系统提交,由外部网页检索系统来同时完成查询要求,然后整合外部网页检索系统返回的结果,去除重复的查询结果,统一格式,按照一定的算法重新进行结果排序,最后把结果统一返回到用户查询接口。一个优良的元网页检索系统并不是机械地使用各个独立的外部网页检索系统来工作。它在发送机制,包括外部网页检索系统的强度上都是有针对性地为提高网页检索系统的检索功能而设

7、计的。在发送机制上,用户可以设定资源来源外部网页检索系统、检索范围、排序策略等,也就意味着用户在查询上更具有主动性。如果用户没有对外部网页检索系统加以限定,那在元网页检索系统的查询代理模块中,需要外部引擎之间达到优化组合,从而提高网页检索系统检索的广度和精度。有实验表明,一般同时采用不超过5个网页检索系统的组合比较合适,而这种外部引擎的动态调度组合的优化,采用遗传算法GENETICALGORITHM可以达到一个比较好的效果。和独立的网页检索系统相比,元网页检索系统具有以下特点可以一次让多个外部网页检索系统并发查询,能够获得较高的查全率。利用外部网页检索系统的查询结果,不需要维护庞大的网页标引数

8、据库,大大降低了工程的复杂度。处在用户与外部网页检索系统之间,它可以很方便地添加各种智能软件AGENT,根据用户要求对检索信息进行过滤,提高查询的精度。而基于AGENT智能代理的方法更有利于用户行为的研究,它可以学习用户行为并做出自适应的调整。由于各个外部网页检索系统的性能有很大差异,元网页检索系统的性能为各个引擎性能的最小交集,即元网页检索系统的性能不会优于外部网页检索系统中性能最好的;但它在更新频度、时效性上是各个引擎的并集。检索结果的满意程度,是各个外部网页检索系统的加权平均值,加权系数由结果在返回给用户时的先后次序、用户对源网站的信任程度决定,因人而异。查询速度为各个外部网页检索系统检

9、索网站所用时间的最大值与处理返回数据处理的时间。总体上,元网页检索系统的性能要优于单一的外部网页检索系统的性能。我们选取以基于关键词的网页检索作为研究方向。我们采用VSM实现基于关键词的网页检索。向量空间模型VSM是近年来使用较多且效果较好的一种信息检索模型。在VSM中,将文档看作是由相互独立的词条组(T1,T2,TN)构成,对于每一词条TI都根据其再文档中的重要程度赋予一定权值WI,并将T1T2TN看成一个N维坐标系中的坐标轴,W1,W2WN为对应的坐标值。这样由(T1,T2,TN)分解而得到的正交词条矢量组就构成一个文档向量空间,文档则映射成为空间中的一个点。对于所有文档和用户查询都可映射

10、到此文档向量空间,用词条矢量(T1,W1,T2,W2TN,WN)来表示,从而将文档信息的匹配问题转化为向量空间中的矢量匹配问题。假设用户查询为Q被检索文档为D两者的相关程度可用向量之间的夹角来度量,夹角越小,说明相关度越高,相关度计算公式如下NKDKNKQKNKDKQKWWWWDQDQSIM12121,COS,通过对相关度的计算得到服务的相关度,以此作为网络服务检索的查找和排序的依据。而相关性越高的服务也就是应该排序到高的位置,可以让用户知道哪些对自己的服务请求匹配度高的服务,以此给予用户满意的服务需求。结语在最近几年里,WWW更是得到了长足的发展。全球的域名都7690万个了,要说网站应该少于

11、这个数,要说加入互联网的计算机那就没办法数了,网页更是天方夜谭。那么用户如何在浩瀚如海的信息空间里,快速查找并获取所需的信息,已成为这新的信息时代里最根本的问题之一。这就需要形成一些网页的信息检索系统,它是在互联网产生后伴随着网上用户快速查询信息的需求而产生的新生事物,即提供信息检索服务的计算机系统,检索的对象包括互联网的站点、新闻组中的文章、软件存放的地址及作者、某个企业和个人的主页等,我们难以想象没有网页检索系统,人们如何在浩瀚无边、拥有着各种各样信息的因特网上冲浪。因此可见的未来几年中,网页检索依然会是一个研究热点。参考文献1PAPAZOGLOUMP,TRAVERSOP,DUSTDARS

12、ETALSERVICEORIENTEDCOMPUTINGSTATEOFTHEARTANDRESEARCHCHALLENGESJCOMPUTER,2007,338452EVOORHEESOVERVIEWOFTHETREC9QUESTIONANSWERINGTRACKAINPROCEEDINGSOFTHE9THTEXTRETRIEVALCONFERENCETREC9C,NIST,GAITHERSBURG,MD,2000,71803SWARTZAMUSICBRAINZASEMANTICWEBSERVICEJIEEEINTELLIGENTSYSTEMS,2002,17176774罗三定,黄勇一个应用模

13、糊方法的智能搜索引擎的构建,计算机工程,2000,26(12)1131155廖明宏,程光明,吴翔虎一个WWW智能搜索引擎,计算机应用研究,2001,529316崔桓,蔡东风,苗雪雷问答系统中疑问句理解的分析研究A中国人工智能进展C,北京邮电大学出版社,2003,11,102310277张钋,徐剑军,李涓子,王克宏WODOS一个语义WEB支撑软件的研究与实现小型微型计算机系统,2004,25(11)196519698陈新明搜索引擎中的信息采集技术的研究与改进D上海复旦大学20029贾自艳中文智能搜索引擎关键技术研究D北京北京工业大学200110赵喜鸿一个面向WEB的个性化智能搜索系统的研究与应用D上海东华大学2001

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 开题报告

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。