基于关键词的网页检索和排序【开题报告+文献综述+毕业设计】.Doc

上传人:一*** 文档编号:17281 上传时间:2018-04-26 格式:DOC 页数:53 大小:566.71KB
下载 相关 举报
基于关键词的网页检索和排序【开题报告+文献综述+毕业设计】.Doc_第1页
第1页 / 共53页
基于关键词的网页检索和排序【开题报告+文献综述+毕业设计】.Doc_第2页
第2页 / 共53页
基于关键词的网页检索和排序【开题报告+文献综述+毕业设计】.Doc_第3页
第3页 / 共53页
基于关键词的网页检索和排序【开题报告+文献综述+毕业设计】.Doc_第4页
第4页 / 共53页
基于关键词的网页检索和排序【开题报告+文献综述+毕业设计】.Doc_第5页
第5页 / 共53页
点击查看更多>>
资源描述

1、1毕业设计开题报告计算机科学与技术基于关键词的网页检索和排序一、选题的背景与意义随着INTERNET的发展,整个网络正在不断累积成一个前所未有的超级大型数据库。面对如此海量存储的信息空间,快速获取所需的信息已成为信息时代最基本的问题。网页检索系统作为INTERNET上必不可少的信息资源检索工具,几乎每个网络用户都在使用它来寻找自己需要的信息。网页检索系统可以为用户进行网络导航,帮助用户在数以亿计的网络信息中快速查找所需的站点或网页,筛选出符合用户需求的有用信息。它是各类网络信息处理工具中比较稳定而最具效率的部分。网页检索系统是引领我们在浩瀚的网络信息资源中寻找真正所需的重要工具。在最近几年里,

2、WWW更是得到了长足的发展。全球的域名都7690万个了,要说网站应该少于这个数,但要说加入互联网的计算机那就没办法数了,网页更是天方夜谭。那么用户如何在浩瀚如海的信息空间里,快速查找并获取所需的信息,已成为这新的信息时代里最根本的问题之一。这就需要形成一些网页的信息检索系统,它是在互联网产生后伴随着网上用户快速查询信息的需求而产生的新生事物,即提供信息检索服务的计算机系统,检索的对象包括互联网的站点、新闻组中的文章、软件存放的地址及作者、某个企业和个人的主页等,我们难以想象没有网页检索系统,人们如何在浩瀚无边、拥有着各种各样信息的因特网上冲浪。大大缓解了这个矛盾,它为人们大大缩短了浪费无用功的

3、时间,让人们尽快地得到了自己所需要的信息和服务。二、研究的基本内容与拟解决的主要问题目标是要用智能的方式查找网页,只要给出想要用户输入的关键词,就能够从可获得的网页中选择优先服务满足用户的要求。预定想解决的问题1如何确定网页优先权。22如何衡量用户输入的关键词与网页的相关度。3如何计算用户输入的关键词与网页的相关度。4如何得到网页的的排序。网页的优先权通过用户输入的关键词与网页的相关度来体现假设用户查询为Q被检索文档为D两者的相关程度可用向量之间的夹角来度量,夹角越小,说明相关度越高。(2)如何得到网页的排序网页的排序通过相关度的的计算,按相关度从高到低进行排序输出。三、研究的方法与技术路线一

4、抓取网页1用HTMLPARSER抓取所需网页并保存为文本。二分词1对网页文本进行分词并保存到对应的分词文本。2对输入的请求进行分词。三相关度的计算1对网页文件构造向量空间模型,将输入汉字串向量中的每一项作为网页向量中的项,然后对输入汉字串向量中的每一项,查找网页的二元分词表根据每一项在分此表中出现的次数,来构造网页的向量。2对输入向量和网页向量进行相关度匹配采用夹角余弦计算方法作为相关性的计算。夹角余弦计算法向量空间模型VSM是近年来使用较多且效果较好的一种信息检索模型。在VSM中,将文档看作是由相互独立的词条组(T1,T2,TN)构成,对于每一词条TI都根据其再文档中的重要程度赋予一定权值W

5、I,并将T1T2TN看成一个N维坐标系中的坐标轴,W1,W2WN为对应的坐标值。这样由(T1,T2,TN)分解而得到的正交词条矢量组就构成一个文档向量空间,文档则映射成为空间中的一个点。对于所有文档和用户查询都可映射到此文档向量空间,用词条矢量(T1,W1,T2,W2TN,WN)来表示,从而将文档信息的匹配问题转化为向量空间中的矢量匹配问题3假设用户查询为Q被检索文档为D两者的相关程度可用向量之间的夹角来度量,夹角越小,说明相关度越高,相关度计算公式如下NKDKNKQKNKDKQKWWWWDQDQSIM12121,COS,四按相关度的高低进行排序输出相关度计算的得出结果在(0,1)。越接近1说

6、明相关度越高,则排在前面。程序开发MYECLIPSE四、研究的总体安排与进度截止时间要求完成的工作2010112020101126在老师指导下进行毕业设计选题2010112720101128明确课题的目标和内容及做好相应技术准备201011292010126下发毕业设计课题任务书2010121320101219学生撰写开题报告2010122020101226完成开题答辩201012272011131查找文献,完成文献综述和翻译2011212011430完成课题主要内容并进行实验验证2011512011520撰写毕业设计论文,整理材料,毕业设计论文完善,修改及定稿20115212011531完成

7、毕业论文答辩五、主要参考文献【1】PAPAZOGLOUMP,TRAVERSOP,DUSTDARSETALSERVICEORIENTEDCOMPUTINGSTATEOFTHEARTANDRESEARCHCHALLENGESJCOMPUTER,2007,33845【2】EVOORHEESOVERVIEWOFTHETREC9QUESTIONANSWERINGTRACKAINPROCEEDINGSOFTHE9THTEXTRETRIEVALCONFERENCETREC9C,NIST,GAITHERSBURG,MD,2000,7180【3】SWARTZAMUSICBRAINZASEMANTICWEBSER

8、VICEJIEEEINTELLIGENTSYSTEMS,2002,1717677【4】罗三定,黄勇一个应用模糊方法的智能搜索引擎的构建,计算机工程,2000,26(12)4113115【5】廖明宏,程光明,吴翔虎一个WWW智能搜索引擎,计算机应用研究,2001,52931【6】崔桓,蔡东风,苗雪雷问答系统中疑问句理解的分析研究A中国人工智能进展C,北京邮电大学出版社,2003,11,10231027【7】张钋,徐剑军,李涓子,王克宏WODOS一个语义WEB支撑软件的研究与实现小型微型计算机系统,2004,25(11)19651969【8】陈新明搜索引擎中的信息采集技术的研究与改进D上海复旦大学

9、2002【9】贾自艳中文智能搜索引擎关键技术研究D北京北京工业大学2001【10】赵喜鸿一个面向WEB的个性化智能搜索系统的研究与应用D上海东华大学20015毕业设计文献综述计算机科学与技术基于关键词的网页检索和排序摘要随着INTERNET的发展,整个网络正在不断累积成一个前所未有的超级大型数据库。面对如此海量存储的信息空间,快速获取所需的信息已成为信息时代最基本的问题。网页检索系统作为INTERNET上必不可少的信息资源检索工具,几乎每个网络用户都在使用它来寻找自己需要的信息。网页检索系统可以为用户进行网络导航,帮助用户在数以亿计的网络信息中快速查找所需的站点或网页,筛选出符合用户需求的有用

10、信息。它是各类网络信息处理工具中比较稳定而最具效率的部分。网页检索系统是引领我们在浩瀚的网络信息资源中寻找真正所需的重要工具。关键词网页检索系统中文分词相关度计算,网页排序一、网页检索研究的历史和现状目前国际上的网页检索主要分成以下几类1基于目录的网页检索基于目录的网页检索将收集到的信息分配到不同的类别中,典型的基于目录的网页检索有两大问题1分类是按分类者或分类软件的分析而定,不一定与用户的意见一致。2如果你查找的信息没有对应的分类项,则无法进行检索。2基于机器人的网页检索基于机器人的网页检索从一组已知的文档出发,通过文档的超文本连接确定新的检索点,然后用索引机器人周游这些新的线索点,标引这些

11、检索点上的新文档,将这些新文档,加入到索引数据库。以后网页检索系统可以用这个索引数据库去回答用户的提问,检索方法有深度优先和广度优先两种,广度优先算法先标引新服务器上的新文档,然后标引已知的服务器上的新文档,即找到尽量多的服务器,它保证一个服务器上至少有一片文档加入索引数据库。它能降低服务器被访问的频度,缺点是不能深入文档。深度优先的算法能较好地发掘文档结构,如相互参照的链接结构,而且相对比较稳定,缺点是有可能进入无限循环。数据检索方法有基于全文和基于标题两类。基于机器人的网页检索的缺点是不安全及产生大量的6网络负载和网络服务器负载。3基于关键词的网页检索基于关键词的网页检索从一组客户输入的关

12、键词出发,检索WWW上的包含此关键字的文档并传送这些文档,在提交给客户前,网页检索系统会对所有检索的的文档进行排序,新一代的基于关键词的网页检索会根据访问用户的相关信息给用户提供个性化的服务,这也正是我们所希望达到的目标。4元网页检索元网页检索将用户的查找要求递交给其他的网页检索系统,它的注意力在改进用户界面及用不同的方法过滤它从其他网页检索系统接收到的相关文档,包括消除重复信息。元网页检索系统设计简单,但网络的负载太大。5分布式网页检索分布式检索系统按区域、主题或其他标砖创建分布式索引服务器,索引服务器之间相互可以交换中间信息,且相互可以被重新定向,如果一个检索服务器没有满足查询请求的信息,

13、它可以将查询请求发送到具有相应信息的检索服务器,由于分布式网页检索系统将索引数据库划到几个分布的数据库,每个数据库变得小一些,但所有网页检索系统覆盖的范围变大,且很少有信息重复,而作为分布式系统特征之一的可扩充新也是分布式网页检索系统的优点之一,然后分布式网页检索系统需要多个索引数据库协同工作,实现交困难,目前尚没有真正的、使用的分布式网页检索系统。二、网页检索的发展和趋势元网页检索系统是共享多个独立的外部网页检索系统信息库为用户提供信息服务的系统。它的工作原理比一般的网页检索系统要简单,但在检索效果上比一般网页检索系统要优越。元网页检索系统不仅极大地扩充了传统网页检索系统的检索范围,实现真正

14、意义上遍历整个WEB,并且它的智能化程度较高,尤其是AGENT技术的应用,独立外部网页检索系统的每一组成部分以及众多独立的外部网页检索系统的组合都是采用基于AGENT的智能化代理。严格说来,元网页检索系统不是真正的网页检索系统,只能算作一种用户代理。它自己不进行WWW的遍历,本身不需要检索和标引网页,所以也没有自己的索引数据库。当用户查询一个关键词时,它把查询请求转换为外部网页检索系统的命令格式,分别向外部网页检索系统提交,由外部网页检索系统来同时完成查询要求,然后整合外部网页检索系统返回的结果,去除重复的查询结果,统一格式,按照一定的算法重新进行结果排序,最后把结果统一返回到用户查询接口。7

15、一个优良的元网页检索系统并不是机械地使用各个独立的外部网页检索系统来工作。它在发送机制,包括外部网页检索系统的强度上都是有针对性地为提高网页检索系统的检索功能而设计的。在发送机制上,用户可以设定资源来源外部网页检索系统、检索范围、排序策略等,也就意味着用户在查询上更具有主动性。如果用户没有对外部网页检索系统加以限定,那在元网页检索系统的查询代理模块中,需要外部引擎之间达到优化组合,从而提高网页检索系统检索的广度和精度。有实验表明,一般同时采用不超过5个网页检索系统的组合比较合适,而这种外部引擎的动态调度组合的优化,采用遗传算法GENETICALGORITHM可以达到一个比较好的效果。和独立的网

16、页检索系统相比,元网页检索系统具有以下特点可以一次让多个外部网页检索系统并发查询,能够获得较高的查全率。利用外部网页检索系统的查询结果,不需要维护庞大的网页标引数据库,大大降低了工程的复杂度。处在用户与外部网页检索系统之间,它可以很方便地添加各种智能软件AGENT,根据用户要求对检索信息进行过滤,提高查询的精度。而基于AGENT智能代理的方法更有利于用户行为的研究,它可以学习用户行为并做出自适应的调整。由于各个外部网页检索系统的性能有很大差异,元网页检索系统的性能为各个引擎性能的最小交集,即元网页检索系统的性能不会优于外部网页检索系统中性能最好的;但它在更新频度、时效性上是各个引擎的并集。检索

17、结果的满意程度,是各个外部网页检索系统的加权平均值,加权系数由结果在返回给用户时的先后次序、用户对源网站的信任程度决定,因人而异。查询速度为各个外部网页检索系统检索网站所用时间的最大值与处理返回数据处理的时间。总体上,元网页检索系统的性能要优于单一的外部网页检索系统的性能。我们选取以基于关键词的网页检索作为研究方向。我们采用VSM实现基于关键词的网页检索。向量空间模型VSM是近年来使用较多且效果较好的一种信息检索模型。在VSM中,将文档看作是由相互独立的词条组(T1,T2,TN)构成,对于每一词条TI都根据其再文档中的重要程度赋予一定权值WI,并将T1T2TN看成一个N维坐标系中的坐标轴,W1

18、,W2WN为对应的坐标值。这样由(T1,T2,TN)分解而得到的正交词条矢量组就构成一个文档向量空间,文档则映射成为空间中的一个点。对于所有文档和用户查询都可映射到此文档向量空间,用词条矢量(T1,W1,T2,W2TN,WN)来表示,从而将文档信息的匹配问题转化为向量空间中的矢量匹配问题。假设用户查询为Q被检索文档为D两者的相关程度可用向量之间的夹8角来度量,夹角越小,说明相关度越高,相关度计算公式如下NKDKNKQKNKDKQKWWWWDQDQSIM12121,COS,通过对相关度的计算得到服务的相关度,以此作为网络服务检索的查找和排序的依据。而相关性越高的服务也就是应该排序到高的位置,可以

19、让用户知道哪些对自己的服务请求匹配度高的服务,以此给予用户满意的服务需求。结语在最近几年里,WWW更是得到了长足的发展。全球的域名都7690万个了,要说网站应该少于这个数,要说加入互联网的计算机那就没办法数了,网页更是天方夜谭。那么用户如何在浩瀚如海的信息空间里,快速查找并获取所需的信息,已成为这新的信息时代里最根本的问题之一。这就需要形成一些网页的信息检索系统,它是在互联网产生后伴随着网上用户快速查询信息的需求而产生的新生事物,即提供信息检索服务的计算机系统,检索的对象包括互联网的站点、新闻组中的文章、软件存放的地址及作者、某个企业和个人的主页等,我们难以想象没有网页检索系统,人们如何在浩瀚

20、无边、拥有着各种各样信息的因特网上冲浪。因此可见的未来几年中,网页检索依然会是一个研究热点。参考文献1PAPAZOGLOUMP,TRAVERSOP,DUSTDARSETALSERVICEORIENTEDCOMPUTINGSTATEOFTHEARTANDRESEARCHCHALLENGESJCOMPUTER,2007,338452EVOORHEESOVERVIEWOFTHETREC9QUESTIONANSWERINGTRACKAINPROCEEDINGSOFTHE9THTEXTRETRIEVALCONFERENCETREC9C,NIST,GAITHERSBURG,MD,2000,71803SWA

21、RTZAMUSICBRAINZASEMANTICWEBSERVICEJIEEEINTELLIGENTSYSTEMS,2002,17176774罗三定,黄勇一个应用模糊方法的智能搜索引擎的构建,计算机工程,2000,26(12)1131155廖明宏,程光明,吴翔虎一个WWW智能搜索引擎,计算机应用研究,2001,529316崔桓,蔡东风,苗雪雷问答系统中疑问句理解的分析研究A中国人工智能进展C,北京邮电大学出版社,2003,11,102310277张钋,徐剑军,李涓子,王克宏WODOS一个语义WEB支撑软件的研究与实现小型9微型计算机系统,2004,25(11)196519698陈新明搜索引擎中

22、的信息采集技术的研究与改进D上海复旦大学20029贾自艳中文智能搜索引擎关键技术研究D北京北京工业大学200110赵喜鸿一个面向WEB的个性化智能搜索系统的研究与应用D上海东华大学200110本科毕业设计(20届)基于关键词的网页检索和排序11【摘要】【摘要】随着互联网的发展,整个网络正在不断累积成一个前所未有的超级大型数据库。面对如此海量存储的信息空间,快速获取所需的信息已成为信息时代最基本的问题。网页检索系统作为互联网上不可或缺的信息资源检索工具,几乎所有的网络用户都用它来查询自己需要的信息。本文以网页检索系统为研究背景,使用关键词的网页检索的并融合中文分词的原理,通过引入统计法和TFID

23、F赋权重的方法于VSM中来计算网页相关度,并对网页进行相关度的排序,给予用户想要的网页地址。【关键词】网页检索系统中文分词相关度计算网页排序12【ABSTRACT】WITHTHEDEVELOPMENTOFTHEINTERNET,THEENTIRENETWORKISTOACCUMULATEINTOANUNPRECEDENTEDSUPERLARGEDATABASEWITHSUCHAMASSSTORAGESPACE,THEINFORMATIONNEEDEDTOQUICKLYGETTHEINFORMATIONHASBECOMETHEMOSTBASICINFORMATIONERAWEBPAGERETRI

24、EVALSYSTEMASTHEINTERNETINDISPENSABLEINFORMATIONRETRIEVALTOOL,ALMOSTALLTHENETWORKUSERSUSEITTOINQUIRESTHEINFORMATIONTHEYNEEDBASEDONPAGERETRIEVALSYSTEMASTHERESEARCHBACKGROUND,THEUSEOFKEYWORDSWEBSEARCHANDFUSIONOFCHINESEWORDSEGMENTATIONANDTHROUGHINTRODUCINGTHESTATISTICSANDTHEPRINCIPLEOFTHETFIDFEMPOWERMEN

25、TOFVSMWEIGHTCALCULATEDMETHODINWEB,ANDTHECORRELATIONWEBPAGEFORRELATEDNESSSORTING,GIVINGUSERSWANTWEBADDRESSES【KEYWORD】WEBPAGERETRIEVALSYSTEMTHECHINESEWORDSEGMENTATIONCORRELATIONCALCULATIONWEBSORT13目录基于关键词的网页检索和排序错误未定义书签。【摘要】11【ABSTRACT】错误未定义书签。目录13第一章引言1411网页的概述1412网页检索的必要性1413网页检索的类型1514网页检索主要技术分析171

26、41网页的解析17142网页文档检索1815本文的安排18第二章网页的抓取及解析和中文分词2021HTMLPARSER解析器概述2022网页的选取2123网页的文本信息提取2224中文分词概述2425ICTCLAS4J工具概述2626输入的请求分词2727对文本文件分词27第三章基于关键词的网页文本相关度计算3031基于空间向量模型的相关度计算30311对输入汉字串进行二元分词31312确定每一项的权值313121用统计法确定每一项的权值323122用TFIDF确定每一项权值333123用统计法和TFIDF法确定权值的区别39313用余弦法进行相关度的计算413131基于统计法确定权值的余弦法

27、进行相关度的计算423132基于TFIDF确定权值的余弦法进行相关度的计算43第四章网页的相关度排序的实现4541基于统计法的相关度排序4542基于TFIDF的相关度排序48第五章体会52参考文献53致谢错误未定义书签。第一章引言11网页的概述网页是构成网站的基本元素,是承载各种网站应用的平台。网页(英文WEBPAGE)是一个文件,它存放在某一台与互联网相连的计算机中。文字和图片是两个构成对页面的基本元素。你可以简单的理解为文字,就是网页内容,图片,就是网页的点缀。此外,网页内容包括动画,音乐,程序等。网页经由网址(URL)来识别与访问,当我们在浏览器输入网址后,经过一段复杂和快速的程序,网页

28、文件会被发送到你的计算机,你的眼前展示的是已经由浏览器解释过的网页内容。网页要透过网页浏览器来阅读,网页经常使用图像提供图片。网页通常是HTML格式(文件扩展名为HTML或HTM)。右键点击网页页面,选择菜单“查看源文件“来查看在记事本中的网页实际内容。你可以看到,该网页实际上只是一个纯文本文件,通过网页上标记对文字,图片,表格,声音和其他元素进行描述(如字体,颜色,大小),浏览器解释这些标记并产生网页,所以你就能在屏幕上看到了。为什么没有看到任何图片源文件因为网页文件存储的是图像链接位置,而图像文件和网页文件的是存储相互独立的,甚至不是在同一台计算机上。12网页检索的必要性随着信息科技的进步

29、和互联网的日益普及,人类正在实施史上最大的一次信息工程,即实现世界现有的信息,如期刊、报纸、书籍、专利文献放到网络上,但是网上也产生出了无数的新信息。整个网络正在步入前所未有的超级大型数据库。互联网是一个庞大的信息资源宝库,几乎所有的互联网用户都希望资源越来越丰富。每天都有新用户连接到因特网,有新的信息资源增加到互联网,使得信息在互联网上以惊人的速度增长。近年来,WWW获得了长足的发展。全球的域名有7690万,网站数目倒是应该小于这个数,但是加入互联网的计算机就没法数了,网页更是天方夜谭。所以用户如何在浩瀚如海的信息空间,快速找到并获取信息,已成为新的信息时代的一个最基本的问题。这就需要形成了

30、一些网页的信息检索系统,它是产生于互联网伴随着网上用户快速查询信息的需求后产生的新事物,即提供信息检索服务的计算机系统。检索对象包括互联网网站,新闻组中的文章、软件和作者,商业地址和个人主页等等,我们很难想象没有网页检索系统,人们如何在广阔无垠,有各种各样的信息的网上进行冲浪。网页检索系统为人们极大地缓解了这矛盾,它极大地缩短了我们浪费在无用功的时间,让人们尽快地得到了所需要的信息和服务。但是信息量大,查询精度低,网络开销大困扰了网页检索的发展,因此对于精度高,开销低,速度快的网页检索的探究一直都是热点,这也体现了人类对更好生活的向往以及付出的努力。13网页检索的类型目前国际上的网页检索主要分

31、成以下几类1基于目录的网页检索基于目录的网页检索将收集到的信息分配到不同的类别中,典型的基于目录的网页检索有两大问题1分类是按分类者或分类软件的分析而定,与用户的意见可能不一致。2如果你查找的信息没有对应的分类项,就无法进行检索。2基于关键词的网页检索基于关键词的网页检索从一组客户输入的关键词出发,一份网页文档若包含此关键词则并发送这些文档,在提交给用户前,网页检索系统会对所有检索的的文档进行排序,基于关键词的网页检索的新一代系统会根据访问用户的相关信息的基础上提供个性化服务,这就是我们想要达到的目标。3基于机器人的网页检索基于机器人的网页检索就是从一个已知的文档开始,通过文档超文本链接,以确

32、定新的接入点,然后索引机器人随着这些新的线索点,标引这些检索点上的新文档,添加到索引库中。将来网页检索系统可以使用这个索引数据库来回答用户的问题。检索方法有深度优先和广度优先两种。深度优先算法可以更好地开拓文件的结构,如交叉引用链接结构,而且相对稳定的,缺点是可能进入一个无限循环。广度优先算法在新的服务器标引一个新文档,然后标引已知服务器上的新文档的标引,找到尽可能多的服务器,一个服务器它保证至少有一个文档添加到索引数据库。它可以减少服务器被访问的频率,缺点是不能深入文档。数据检索方法是基于全文和基于标题的两种。基于机器人的网页检索的缺点是不安全和大量的网络负载以及网络服务器的负载。4分布式网

33、页检索分布式检索系统按地区,主题或其它标准来创建一个分布式索引服务器,索引服务器之间可以对中间信息进行交换,而且每个可以被重定向,如果检索服务器不符合查询所需的信息,也可以将查询请求发送到有相应信息的检索服务器。因为分布式的网页检索系统将索引的数据库分发到多个数据库,每个数据库会变得小一点,但所有的网页检索系统的覆盖面越来越大,并少有重复信息。而作为分布式系统之一的可扩充性也是分布式网页检索系统的优点之一,然后分布式网页检索系统需要多个索引数据库协同工作,实现较困难,目前还没有真正的有使用价值的分布式网页检索系统。5元网页检索共享多个独立的外部网页检索系统数据库为用户提供信息服务的系统。它比一

34、般的网页检索系统要简单,但在检索结果却超越了一般的检索系统。元检索系统,不仅大大拓展了传统的网页检索系统范围,实现真正意义上遍历整个WEB,且它相当智能化,特别是AGENT技术的运用,各个独立外部网页检索系统的组成部分,以及许多独立外部网页检索系统的组合是基于AGENT的智能化代理。严格地说,元检索系统不是真正的网页检索系统,只能作为用户代理。它不遍历万维网,本身并不需要检索和索引的网页,因此它不拥有索引数据库。当用户查询的某个词汇,它转换查询请求为外部网页检索系统的命令格式,分别提交到外部网页检索系统,从外部网页检索系统来同时完成查询请求,然后整合外部网站检索系统返回的结果,移除重复的查询结

35、果,统一格式按照一定排序算法,并最终将结果返回给用户的查询接口。一款优秀的元网页检索系统不只是笼统地对各个独立的外部网页检索系统来工作。它在发送机制,包括外部网页检索系统的强度都是以改善检索功能而设计的。在发送机制上,用户可以设置资源来源(外部网站检索系统),排序策略,检索范围,这显示了用户在查询中更积极主动。如果用户没有限定网页检索系统,那么在元网页检索系统的查询代理模块中,需要获得外部检索系统之间的优化组合,以提高网页检索系统检索的广度和精度。有实验表明,不超过5个的网页的检索系统更适合组合,而这种外部检索系统优化组合利用遗传算法(GENETICALGORITHM),一般使用可以达到更好的

36、效果。和独立的网页检索系统相比,元网页检索系统具有以下特点1对外部网页检索系统查询结果的使用,不用维护庞大的网页标引数据库,大大降低了项目的复杂性。2处在网页检索系统与用户之间,它可以轻松地添加多种智能软件(AGENT),检索信息的过滤根据用户的要求,提高查询精度。基于AGENT的智能代理方式更有利于研究用户的行为的,能适应学习的用户行为而作出调整。3能让多个外部网页检索系统并发查询,得到较高的查全率。4因为每个外部网页检索系统的性能有很大的不同,元网页检索系统的性能为各个引擎性能的最小交集,即元网页检索系统的性能比外部网页检索系统的性能最好要弱,但它是在更新频率,及时性是各个系统的并集。5检

37、索结果的满意程度是各个外部网页检索系统加权平均值,加权系数由结果再返回给用户时的先后次序。6查询各个外部网部检索系统检索网页的时间的最大值和处理返回的数据处理时间。7总体而言,元网页检索系统比单一的外部网页检索系统的性能要好。14网页检索主要技术分析141网页的解析如今的互联网上有数以亿计的网页,越来越多的应用程序把这些网页作为对象进行数据处理和分析。这些网页大多是含有许多标签和嵌套结构的半结构化文本。当我们自己进行一些网页应用程序开发时,会觉得建立一个独立的网页解析器,这部分工作将需要付出相当的精力和时间。HTMLPARSER的出现为开发者节省了大量的时间,它提供了强大和灵活的开源库来写一个

38、网页解析器。HTMLPARSER是HTTP/SOURCEFORGENET上活跃的一个开源项目,它提供了线性和嵌套两种方式来解析网页,主要用于在HTML页面转换TRANSFORMATION和网页内容提取EXTRACTION。以下是HTMLPARSER的一些容易使用的功能访问者模式VISITORS,过滤器FILTERS,处理自定义标签和容易使用的JAVABEANS。正如HTMLPARSER首页说这是一种快速,稳健和严格测试的元件,其设计简单,运行和处理互联网上真实网页的能力吸引着越来越多的开发者。HTMLPARSER基本功能1信息提取1链接检查,用来检查链接的HTML是否有效。2链接提取,用于自动

39、给页面的链接文本加上链接的标签。3文本信息抽取,可以对HTML有效信息的检索。4资源提取,例如,一些图片,声音资源的处理。5网页内容的监测。2信息转换1链接重写,用于修改页面中的所有超链接。2清洁的HTML信息,格式化原本乱七八糟的HTML信息。3内容检查,可以用来过滤网页不愉快的字词。4网页内容复制,用于将该网页内容保存到本地。5转成XML格式的数据。142网页文档检索网页检索的最终目标,是提供高品质的查询结果。查询结果的好坏在很大程度上取决于用户查询和结果文件的相关性。SALTON教授提出了向量空间模型(VSM向量空间模型)在网页检索模块的相关性计算中使用。利用VSM计算用户查询和检索结果

40、和相关度并进行相关度排序,是网页检索系统的一个应该实现的功能。由于一半网页检索的查询结果都很多,用户往往又把重点放在前几个检索结果中,很少会有用户去点击查询的所有结果,结果的翻页频率不高,从而提供给用户的相关度较高的检索结果会得到户高的满意度。因此,相关度排序是网页检索优劣的一个重要评价指标。网络检索开发员对检索结果的相关度排序也做了很多研究,而VSM在当前网页检索的应用相当广泛。与此同时,VSM也是大多网页检索自动分类技术的理论基础。在VSM中,把文档看成是由相互独立的词条组T1,T2,TN构成,并对每一词条TI根据其在文档中的重要程度赋以相应的权值WI。由T1,T2,TN分解得到的正文词条

41、矢量就构成了一个以T1,T2,TN为坐标轴W1,W2,WN为坐标值的文档向量空间,文档为空间中的一个点。如果把检索器中所有的WEB文档和用户查询映射到这个文档向量空间,则把文档信息匹配转化为向量空间的矢量匹配。换句话说,用户查询与被检索文档的相关度取决于向量之间的余弦值,向量夹角越小,相关度越高。15本文的安排本文以网页检索系统为应用背景,以关键词的网页检索技术为原理,调用HTMLPARSER,使用中文分词工具,采用VSM对网页进行相关度计算并排序。通过引入统计法和TFIDF赋权重的方法于VSM中计算网页相关度,对网页进行相关度的排序,给予用户想要的网页地址。同时熟悉了VSM应用于网页检索的原

42、理。本文的整体结构如下第一章是引言部分,主要介绍网页检索的研究背景;介绍目前的研究现状;概括本文的主要工作;说明论文的整体结构。第二章介绍了HTMLPARSER软件和理论知识,简要叙述使用HTMLPARSER进行网页抓取和解析;介绍了中文分词,简要地介绍了ICTCLAS4J,并采用ICTCLAS4J对用户的输入字符串及网页文本进行中文分词。第三章主要介绍了两种用户输入关键词与网页文本相关度计算的方法。第四章主要介绍了基于冒泡排序的网页相关度排序。第五章是对全文工作的总结。第二章网页的抓取及解析和中文分词21HTMLPARSER解析器概述HTMLPARSER是一个纯JAVA编写HTML解析库,H

43、TMLPARSER不依赖于其它的JAVA库,HTMLPARSER主要用于改造或提取的HTML。HTMLPARSER能超高速解析HTML且不会出问题。可以毫不夸张地说,HTMLPARSER是目前最好的HTML解析和分析工具。无论是想抓取网页数据还是改造HTML的内容,HTMLPARSER都获得了一致好评。HTMLPARSER结构设计精良,使扩展HTMLPARSER非常方便。HTMLPARSER对HTML页面处理的数据结构HTMLPARSER主要由NODE,ABSTRACTNODE和TAG表达HTML,因为REMARK和TEXT相对简单,此处就将其忽略了。1NODE是形成树结构表示HTML的基础,

44、接口NODE的实现了所有数据的表示,NODE定义了与页面树结构所表达的页面PAGE对象,定义了取得父、子、兄弟节点的方法,节点到对应HTML文本的方法,该节点开始和结束位置,过滤方法和VISITOR的访问机制。2ABSTRACTNODE是NODE的一种具体的类实现,它的作用是构成树形结构,除了同具体NODE相关的ACCEPT方法,TOHTML,TOPLAINTEXTSTRING,TOSTRING方法以外,ABSTRACTNODE实现了大多数的基本的方法,因此它的子类不用在意具体的树操作。3TAG是具体分析的主要内容。TAG分成不可以包含其他TAG的简单TAG和COMPOSITE的TAG两类,简

45、单TAG有JSPTAG,DOCTYPETAG,IMAGETAG,INPUTTAG,FRAMETAG,BASEHREFTAG,METATAG,PROCESSINGINSTRUCTIONTAG这八类;而后者的基类是COMPOSITETAG,其子类包含BODYTAG,FRAMESETTAG,OPTIONTAG,DIV,等27个子类;NODE分成三类1TAGNODE标签节点,为种类最多的类型。2TEXTNODE文本节点3REMARKNODE表示HTML中的注释取得一段HTML代码里面所有的链接地址和链接名称IMPORTORGHTMLPARSERPARSERIMPORTORGHTMLPARSERNODE

46、IMPORTORGHTMLPARSERNODEFILTERIMPORTORGHTMLPARSERPARSERIMPORTORGHTMLPARSERFILTERSTAGNAMEFILTERIMPORTORGHTMLPARSERTAGSLINKTAGIMPORTORGHTMLPARSERTAGSTABLETAGIMPORTORGHTMLPARSERUTILNODELISTIMPORTORGHTMLPARSERUTILPARSEREXCEPTIONIMPORTORGHTMLPARSERVISITORSHTMLPAGE22网页的选取为了对网页内容的检索,我们首先将需要用的网页进行文本信息提取。如果服务

47、器允许,按理论只要花足够长的时间可以把互联网上的所有网页都进行文本信息提取(免费网页)。但由于在此我们只进行算法的实现,我们不需要那么大量的网页。所以我们只对8个网页进行了文本信息提取。又由于要照顾检索,所以8个网页分别代表了不同内容的网页,分别是动漫HTTP/COMICQQCOM/,汽车HTTP/AUTOQQCOM/,房产HTTP/HOUSEQQCOM/NAVHTM,体育HTTP/SPORTSQQCOM/,股票HTTP/FINANCEQQCOM/STOCK/,新闻HTTP/NEWSQQCOM/,游戏HTTP/GAMESQQCOM/和科技HTTP/TECHQQCOM/。均来自腾讯网。23网页的

48、文本信息提取下面对所选取的网页进行文本提取的代码。此代码来自作者CHENGUOYONG。以下是部分代码TRYBUFFEREDWRITEROUTNEWBUFFEREDWRITERNEWFILEWRITER“F/1TXT“OUTWRITESTROUTCLOSEPUBLICSTATICVOIDMAINSTRINGARGSSTRINGURL“HTTP/COMICQQCOM/“NEWGETCONTENTGETCONTENTUSINGSTRINGBEANURLSTINGURL”是所抓取的网页的网址,如此代码中为HTTP/COMICQQCOM/。而BUFFEREDWRITEROUTNEWBUFFEREDWR

49、ITERNEWFILEWRITER“F/1TXT“中的”F/11TXT”是将解析的网页文件内容写入到F/1TXT中。若无此文本,会被自动创建。解析后的网页的文本F/1TXT内容如21图图21HTTP/COMICQQCOM/解析的网页文本我们所需要的实验的网页如22小节所述,各自的网页解析文本文件别为F/1TXT,F/2TXT,F/3TXT,F/4TXT,F/5TXT,F/6TXT,F/7TXT,F/8TXT。如22图图22网页解析文本24中文分词概述中文分词CHINESEWORDSEGMENTATION,是指一个单词一个单词的割汉字序列。分词就是按照一定的规范重新组合连续的字序列的过程。之所以存在中文分词技术,是由于中文在基本文法上有其特殊性,具体表现在1与英文相比,英文单词之间是以空格作为自然分界符的,而中文从古代汉语继承,词与词之间没有分隔。古汉语词汇除了名字,地名,连绵词等,词通常是单一汉字,所以没有书面文字分词的需要。但是现代汉语中双字或多字词变得越来越多,不再是一个字相当于一个词。例如英语TIMEISMONEY“,可自然分割为TIME/IS/MONEY三个词。而汉语里“时间就是金钱”,由于没有词语之间的分隔符

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。