基于关键词的网页检索和排序【毕业论文】.doc

资源描述

1、本科毕业设计（20届）基于关键词的网页检索和排序所在学院专业班级计算机科学与技术学生姓名学号指导教师职称完成日期年月2【摘要】【摘要】随着互联网的发展，整个网络正在不断累积成一个前所未有的超级大型数据库。面对如此海量存储的信息空间，快速获取所需的信息已成为信息时代最基本的问题。网页检索系统作为互联网上不可或缺的信息资源检索工具，几乎所有的网络用户都用它来查询自己需要的信息。本文以网页检索系统为研究背景，使用关键词的网页检索的并融合中文分词的原理，通过引入统计法和TFIDF赋权重的方法于VSM中来计算网页相关度，并对网页进行相关度的排序，给予用户想要的网页地址。【关键词】网页检索系统中文分词相关

2、度计算网页排序3【ABSTRACT】WITHTHEDEVELOPMENTOFTHEINTERNET,THEENTIRENETWORKISTOACCUMULATEINTOANUNPRECEDENTEDSUPERLARGEDATABASEWITHSUCHAMASSSTORAGESPACE,THEINFORMATIONNEEDEDTOQUICKLYGETTHEINFORMATIONHASBECOMETHEMOSTBASICINFORMATIONERAWEBPAGERETRIEVALSYSTEMASTHEINTERNETINDISPENSABLEINFORMATIONRETRIEVALTOOL,ALM

3、OSTALLTHENETWORKUSERSUSEITTOINQUIRESTHEINFORMATIONTHEYNEEDBASEDONPAGERETRIEVALSYSTEMASTHERESEARCHBACKGROUND,THEUSEOFKEYWORDSWEBSEARCHANDFUSIONOFCHINESEWORDSEGMENTATIONANDTHROUGHINTRODUCINGTHESTATISTICSANDTHEPRINCIPLEOFTHETFIDFEMPOWERMENTOFVSMWEIGHTCALCULATEDMETHODINWEB,ANDTHECORRELATIONWEBPAGEFORREL

4、ATEDNESSSORTING,GIVINGUSERSWANTWEBADDRESSES【KEYWORD】WEBPAGERETRIEVALSYSTEMTHECHINESEWORDSEGMENTATIONCORRELATIONCALCULATIONWEBSORT4目录基于关键词的网页检索和排序错误未定义书签。【摘要】2【ABSTRACT】错误未定义书签。目录4第一章引言511网页的概述512网页检索的必要性513网页检索的类型614网页检索主要技术分析8141网页的解析8142网页文档检索915本文的安排9第二章网页的抓取及解析和中文分词1121HTMLPARSER解析器概述1122网页的选取12

5、23网页的文本信息提取1224中文分词概述1425ICTCLAS4J工具概述1626输入的请求分词1627对文本文件分词17第三章基于关键词的网页文本相关度计算2031基于空间向量模型的相关度计算20311对输入汉字串进行二元分词20312确定每一项的权值213121用统计法确定每一项的权值213122用TFIDF确定每一项权值233123用统计法和TFIDF法确定权值的区别28313用余弦法进行相关度的计算303131基于统计法确定权值的余弦法进行相关度的计算313132基于TFIDF确定权值的余弦法进行相关度的计算32第四章网页的相关度排序的实现3441基于统计法的相关度排序3442基于T

6、FIDF的相关度排序37第五章体会41参考文献42致谢错误未定义书签。5第一章引言11网页的概述网页是构成网站的基本元素，是承载各种网站应用的平台。网页（英文WEBPAGE）是一个文件，它存放在某一台与互联网相连的计算机中。文字和图片是两个构成对页面的基本元素。你可以简单的理解为文字，就是网页内容，图片，就是网页的点缀。此外，网页内容包括动画，音乐，程序等。网页经由网址（URL）来识别与访问，当我们在浏览器输入网址后，经过一段复杂和快速的程序，网页文件会被发送到你的计算机，你的眼前展示的是已经由浏览器解释过的网页内容。网页要透过网页浏览器来阅读，网页经常使用图像提供图片。网页通常是HTML格式

7、（文件扩展名为HTML或HTM）。右键点击网页页面，选择菜单“查看源文件“来查看在记事本中的网页实际内容。你可以看到，该网页实际上只是一个纯文本文件，通过网页上标记对文字，图片，表格，声音和其他元素进行描述（如字体，颜色，大小），浏览器解释这些标记并产生网页，所以你就能在屏幕上看到了。为什么没有看到任何图片源文件因为网页文件存储的是图像链接位置，而图像文件和网页文件的是存储相互独立的，甚至不是在同一台计算机上。12网页检索的必要性随着信息科技的进步和互联网的日益普及，人类正在实施史上最大的一次信息工程，即实现世界现有的信息，如期刊、报纸、书籍、专利文献放到网络上，但是网上也产生出了无数的新信息

8、。整个网络正在步入前所未有的超级大型数据库。互联网是一个庞大的信息资源宝库，几乎所有的互联网用户都希望资源越来越丰富。每天都有新用户连接到因特网，有新的信息资源增加到互联网，使得信息在互联网上以惊人的速度增长。近年来，WWW获得了长足的发展。全球的域名有7690万，网站数目倒是应该小于这个数，但是加入互联网的计算机就没法数了，网页更是天方夜谭。所以用户如何在浩瀚如海的信息空间，快速找到并获取信息，已成为新的信息时代的一个最基本的问题。这就需要形成了一些网页的信息检索系统，它是产生于互联网伴随着网上用户快速查询信息的需求后产生的新事物，6即提供信息检索服务的计算机系统。检索对象包括互联网网站，新

9、闻组中的文章、软件和作者，商业地址和个人主页等等，我们很难想象没有网页检索系统，人们如何在广阔无垠，有各种各样的信息的网上进行冲浪。网页检索系统为人们极大地缓解了这矛盾，它极大地缩短了我们浪费在无用功的时间，让人们尽快地得到了所需要的信息和服务。但是信息量大，查询精度低，网络开销大困扰了网页检索的发展，因此对于精度高，开销低，速度快的网页检索的探究一直都是热点，这也体现了人类对更好生活的向往以及付出的努力。13网页检索的类型目前国际上的网页检索主要分成以下几类1基于目录的网页检索基于目录的网页检索将收集到的信息分配到不同的类别中，典型的基于目录的网页检索有两大问题1分类是按分类者或分类软件的分

10、析而定，与用户的意见可能不一致。2如果你查找的信息没有对应的分类项，就无法进行检索。2基于关键词的网页检索基于关键词的网页检索从一组客户输入的关键词出发，一份网页文档若包含此关键词则并发送这些文档，在提交给用户前，网页检索系统会对所有检索的的文档进行排序，基于关键词的网页检索的新一代系统会根据访问用户的相关信息的基础上提供个性化服务，这就是我们想要达到的目标。3基于机器人的网页检索基于机器人的网页检索就是从一个已知的文档开始，通过文档超文本链接，以确定新的接入点，然后索引机器人随着这些新的线索点，标引这些检索点上的新文档，添加到索引库中。将来网页检索系统可以使用这个索引数据库来回答用户的问题。

11、检索方法有深度优先和广度优先两种。深度优先算法可以更好地开拓文件的结构，如交叉引用链接结构，而且相对稳定的，缺点是可能进入一个无限循环。广度优先算法在新的服务器标引一个新文档，然后标引已知服务器上的新文档的标引，找到尽可能多的服务器，一个服务器它保证至少有一个文档添加到索引数据库。它可以减少服务器被访问的频率，缺点是不能深入文档。数据检索方法是基于全文和基于标题的两种。基于机器人的网页检索的缺点是不安全和大量的网络负载以及网络服务器的负载。4分布式网页检索分布式检索系统按地区，主题或其它标准来创建一个分布式索引服务器，索引服务器之间7可以对中间信息进行交换，而且每个可以被重定向，如果检索服务器

12、不符合查询所需的信息，也可以将查询请求发送到有相应信息的检索服务器。因为分布式的网页检索系统将索引的数据库分发到多个数据库，每个数据库会变得小一点，但所有的网页检索系统的覆盖面越来越大，并少有重复信息。而作为分布式系统之一的可扩充性也是分布式网页检索系统的优点之一，然后分布式网页检索系统需要多个索引数据库协同工作，实现较困难，目前还没有真正的有使用价值的分布式网页检索系统。5元网页检索共享多个独立的外部网页检索系统数据库为用户提供信息服务的系统。它比一般的网页检索系统要简单，但在检索结果却超越了一般的检索系统。元检索系统，不仅大大拓展了传统的网页检索系统范围，实现真正意义上遍历整个WEB，且它

13、相当智能化，特别是AGENT技术的运用，各个独立外部网页检索系统的组成部分，以及许多独立外部网页检索系统的组合是基于AGENT的智能化代理。严格地说，元检索系统不是真正的网页检索系统，只能作为用户代理。它不遍历万维网，本身并不需要检索和索引的网页，因此它不拥有索引数据库。当用户查询的某个词汇，它转换查询请求为外部网页检索系统的命令格式，分别提交到外部网页检索系统，从外部网页检索系统来同时完成查询请求，然后整合外部网站检索系统返回的结果，移除重复的查询结果，统一格式按照一定排序算法，并最终将结果返回给用户的查询接口。一款优秀的元网页检索系统不只是笼统地对各个独立的外部网页检索系统来工作。它在发送

14、机制，包括外部网页检索系统的强度都是以改善检索功能而设计的。在发送机制上，用户可以设置资源来源（外部网站检索系统），排序策略，检索范围，这显示了用户在查询中更积极主动。如果用户没有限定网页检索系统，那么在元网页检索系统的查询代理模块中，需要获得外部检索系统之间的优化组合，以提高网页检索系统检索的广度和精度。有实验表明，不超过5个的网页的检索系统更适合组合，而这种外部检索系统优化组合利用遗传算法（GENETICALGORITHM），一般使用可以达到更好的效果。和独立的网页检索系统相比，元网页检索系统具有以下特点1对外部网页检索系统查询结果的使用，不用维护庞大的网页标引数据库，大大降低了项目的复杂

15、性。2处在网页检索系统与用户之间，它可以轻松地添加多种智能软件（AGENT），检索信息的过滤根据用户的要求，提高查询精度。基于AGENT的智能代理方式更有利于研究用户的行为的，能适应学习的用户行为而作出调整。3能让多个外部网页检索系统并发查询，得到较高的查全率。4因为每个外部网页检索系统的性能有很大的不同，元网页检索系统的性能为各个引擎性8能的最小交集，即元网页检索系统的性能比外部网页检索系统的性能最好要弱，但它是在更新频率，及时性是各个系统的并集。5检索结果的满意程度是各个外部网页检索系统加权平均值，加权系数由结果再返回给用户时的先后次序。6查询各个外部网部检索系统检索网页的时间的最大值和处

16、理返回的数据处理时间。7总体而言，元网页检索系统比单一的外部网页检索系统的性能要好。14网页检索主要技术分析141网页的解析如今的互联网上有数以亿计的网页，越来越多的应用程序把这些网页作为对象进行数据处理和分析。这些网页大多是含有许多标签和嵌套结构的半结构化文本。当我们自己进行一些网页应用程序开发时，会觉得建立一个独立的网页解析器，这部分工作将需要付出相当的精力和时间。HTMLPARSER的出现为开发者节省了大量的时间，它提供了强大和灵活的开源库来写一个网页解析器。HTMLPARSER是HTTP/SOURCEFORGENET上活跃的一个开源项目，它提供了线性和嵌套两种方式来解析网页，主要用于在

17、HTML页面转换TRANSFORMATION和网页内容提取EXTRACTION。以下是HTMLPARSER的一些容易使用的功能访问者模式VISITORS，过滤器FILTERS，处理自定义标签和容易使用的JAVABEANS。正如HTMLPARSER首页说这是一种快速，稳健和严格测试的元件，其设计简单，运行和处理互联网上真实网页的能力吸引着越来越多的开发者。HTMLPARSER基本功能1信息提取1链接检查，用来检查链接的HTML是否有效。2链接提取，用于自动给页面的链接文本加上链接的标签。3文本信息抽取，可以对HTML有效信息的检索。4资源提取，例如，一些图片，声音资源的处理。5网页内容的监测。2

18、信息转换1链接重写，用于修改页面中的所有超链接。2清洁的HTML信息，格式化原本乱七八糟的HTML信息。3内容检查，可以用来过滤网页不愉快的字词。4网页内容复制，用于将该网页内容保存到本地。95转成XML格式的数据。142网页文档检索网页检索的最终目标，是提供高品质的查询结果。查询结果的好坏在很大程度上取决于用户查询和结果文件的相关性。SALTON教授提出了向量空间模型（VSM向量空间模型）在网页检索模块的相关性计算中使用。利用VSM计算用户查询和检索结果和相关度并进行相关度排序，是网页检索系统的一个应该实现的功能。由于一半网页检索的查询结果都很多，用户往往又把重点放在前几个检索结果中，很少会

19、有用户去点击查询的所有结果，结果的翻页频率不高，从而提供给用户的相关度较高的检索结果会得到户高的满意度。因此，相关度排序是网页检索优劣的一个重要评价指标。网络检索开发员对检索结果的相关度排序也做了很多研究，而VSM在当前网页检索的应用相当广泛。与此同时，VSM也是大多网页检索自动分类技术的理论基础。在VSM中，把文档看成是由相互独立的词条组T1，T2，TN构成，并对每一词条TI根据其在文档中的重要程度赋以相应的权值WI。由T1，T2，TN分解得到的正文词条矢量就构成了一个以T1，T2，TN为坐标轴W1，W2，WN为坐标值的文档向量空间，文档为空间中的一个点。如果把检索器中所有的WEB文档和用户

20、查询映射到这个文档向量空间，则把文档信息匹配转化为向量空间的矢量匹配。换句话说，用户查询与被检索文档的相关度取决于向量之间的余弦值，向量夹角越小，相关度越高。15本文的安排本文以网页检索系统为应用背景，以关键词的网页检索技术为原理，调用HTMLPARSER，使用中文分词工具，采用VSM对网页进行相关度计算并排序。通过引入统计法和TFIDF赋权重的方法于VSM中计算网页相关度，对网页进行相关度的排序，给予用户想要的网页地址。同时熟悉了VSM应用于网页检索的原理。本文的整体结构如下第一章是引言部分，主要介绍网页检索的研究背景；介绍目前的研究现状；概括本文的主要工作；说明论文的整体结构。第二章介绍了

21、HTMLPARSER软件和理论知识，简要叙述使用HTMLPARSER进行网页抓取和解析；介绍了中文分词，简要地介绍了ICTCLAS4J，并采用ICTCLAS4J对用户的输入字符串及网页文本进行中文分词。第三章主要介绍了两种用户输入关键词与网页文本相关度计算的方法。10第四章主要介绍了基于冒泡排序的网页相关度排序。第五章是对全文工作的总结。11第二章网页的抓取及解析和中文分词21HTMLPARSER解析器概述HTMLPARSER是一个纯JAVA编写HTML解析库，HTMLPARSER不依赖于其它的JAVA库，HTMLPARSER主要用于改造或提取的HTML。HTMLPARSER能超高速解析HTM

22、L且不会出问题。可以毫不夸张地说，HTMLPARSER是目前最好的HTML解析和分析工具。无论是想抓取网页数据还是改造HTML的内容，HTMLPARSER都获得了一致好评。HTMLPARSER结构设计精良，使扩展HTMLPARSER非常方便。HTMLPARSER对HTML页面处理的数据结构HTMLPARSER主要由NODE，ABSTRACTNODE和TAG表达HTML，因为REMARK和TEXT相对简单，此处就将其忽略了。1NODE是形成树结构表示HTML的基础，接口NODE的实现了所有数据的表示，NODE定义了与页面树结构所表达的页面PAGE对象，定义了取得父、子、兄弟节点的方法，节点到对应

23、HTML文本的方法，该节点开始和结束位置，过滤方法和VISITOR的访问机制。2ABSTRACTNODE是NODE的一种具体的类实现，它的作用是构成树形结构，除了同具体NODE相关的ACCEPT方法，TOHTML，TOPLAINTEXTSTRING，TOSTRING方法以外，ABSTRACTNODE实现了大多数的基本的方法，因此它的子类不用在意具体的树操作。3TAG是具体分析的主要内容。TAG分成不可以包含其他TAG的简单TAG和COMPOSITE的TAG两类，简单TAG有JSPTAG，DOCTYPETAG，IMAGETAG，INPUTTAG，FRAMETAG，BASEHREFTAG，META

24、TAG，PROCESSINGINSTRUCTIONTAG这八类；而后者的基类是COMPOSITETAG，其子类包含BODYTAG，FRAMESETTAG，OPTIONTAG，DIV，等27个子类；NODE分成三类1TAGNODE标签节点，为种类最多的类型。2TEXTNODE文本节点3REMARKNODE表示HTML中的注释取得一段HTML代码里面所有的链接地址和链接名称IMPORTORGHTMLPARSERPARSERIMPORTORGHTMLPARSERNODEIMPORTORGHTMLPARSERNODEFILTERIMPORTORGHTMLPARSERPARSERIMPORTORGHTM

25、LPARSERFILTERSTAGNAMEFILTER12IMPORTORGHTMLPARSERTAGSLINKTAGIMPORTORGHTMLPARSERTAGSTABLETAGIMPORTORGHTMLPARSERUTILNODELISTIMPORTORGHTMLPARSERUTILPARSEREXCEPTIONIMPORTORGHTMLPARSERVISITORSHTMLPAGE22网页的选取为了对网页内容的检索，我们首先将需要用的网页进行文本信息提取。如果服务器允许，按理论只要花足够长的时间可以把互联网上的所有网页都进行文本信息提取（免费网页）。但由于在此我们只进行算法的实现，我们不需

26、要那么大量的网页。所以我们只对8个网页进行了文本信息提取。又由于要照顾检索，所以8个网页分别代表了不同内容的网页，分别是动漫HTTP/COMICQQCOM/，汽车HTTP/AUTOQQCOM/，房产HTTP/HOUSEQQCOM/NAVHTM，体育HTTP/SPORTSQQCOM/，股票HTTP/FINANCEQQCOM/STOCK/，新闻HTTP/NEWSQQCOM/，游戏HTTP/GAMESQQCOM/和科技HTTP/TECHQQCOM/。均来自腾讯网。23网页的文本信息提取下面对所选取的网页进行文本提取的代码。此代码来自作者CHENGUOYONG。以下是部分代码TRYBUFFEREDWR

27、ITEROUTNEWBUFFEREDWRITERNEWFILEWRITER“F/1TXT“OUTWRITESTROUTCLOSEPUBLICSTATICVOIDMAINSTRINGARGSSTRINGURL“HTTP/COMICQQCOM/“NEWGETCONTENTGETCONTENTUSINGSTRINGBEANURLSTINGURL”是所抓取的网页的网址，如此代码中为HTTP/COMICQQCOM/。而BUFFEREDWRITEROUTNEWBUFFEREDWRITERNEWFILEWRITER“F/1TXT“中的”F/11TXT”是将解析的网页文件内容写入到F/1TXT中。若无此文本，

28、会被自动创建。13解析后的网页的文本F/1TXT内容如21图图21HTTP/COMICQQCOM/解析的网页文本我们所需要的实验的网页如22小节所述，各自的网页解析文本文件别为F/1TXT，F/2TXT，F/3TXT，F/4TXT，F/5TXT，F/6TXT，F/7TXT，F/8TXT。如22图14图22网页解析文本24中文分词概述中文分词CHINESEWORDSEGMENTATION，是指一个单词一个单词的割汉字序列。分词就是按照一定的规范重新组合连续的字序列的过程。之所以存在中文分词技术，是由于中文在基本文法上有其特殊性，具体表现在1与英文相比，英文单词之间是以空格作为自然分界符的，而中文

29、从古代汉语继承，词与词之间没有分隔。古汉语词汇除了名字，地名，连绵词等，词通常是单一汉字，所以没有书面文字分词的需要。但是现代汉语中双字或多字词变得越来越多，不再是一个字相当于一个词。例如英语TIMEISMONEY“，可自然分割为TIME/IS/MONEY三个词。而汉语里“时间就是金钱”，由于没有词语之间的分隔符，书写时无法切分成时间/就是/金钱。2在中文里，“词”和“词组”模糊不清。现代汉语的基本单位虽然为“词”，且以双字或多字词为多数，但由于人们认知水平不同，词和词组的界限很难区分。例如“对酒后驾车者给予处罚”，“酒后驾车者”本身是一个词还是一个短语，不同的人会有不同的标准，同样的“天上”

30、“塑料厂”等等，即使是同一个人也可能会作出不同的判断，如果中文真的想用分词书写，势必混乱，这是非常困难的。现有的分词算法可分为三大类基于字符串匹配的分词方法、基于理解的分词方法和15基于统计的分词方法。分词的精度对于网络检索非常重要，但如果分词速度太慢，即使准确性再高，对于网页检索也没有用，因为网页检索有数以亿计的网页需要检索，如果分词耗时过长的话，会严重影响网页检索内容更新速度。因此对于网页检索来说，分词的准确性和速度，这两者都需要满足很高的要求。但是在中文分词过程中，有两大难题一直没有完全突破1歧义识别歧义是同一个话可能有两个或更多的分割方法。主要有两种歧义交集型歧义和组合型歧义，例如从表

31、面上看，因为“表面“和“面的“均为词，这句短语可分为“表面、的”和“表/面的”。这种叫交叉歧义。像这种交集型歧义相当常见，其实就是因为交集型歧义引起的错误。例如，”化妆和服装”可以分成“化妆/和/服装”或者“化妆/和服/装”。由于没有人的理解能力，计算机分不清哪个分法是正确的。交集型歧义相对组合型歧义仍然是相对比较容易处理，组合型歧义就必需根据整个句子来判断了。例如，在句子“元帅任命了一名中将“中，“中将“是一个词，但在句子“产量三年中将增长三倍，“中将“不再是词；在句子“去干活“，“把手“是一个词，但在句子“请把手拿开“的”把手“缺不是一个词。这些词，电脑如何识别呢如果交集型歧义和组合型歧义

32、计算机都可以解决的话，在歧义中还有一个难题，是真歧义。真歧义意思是给出一句话，让人去判断哪个应该是词，哪个应该不是词。例如“羽毛球拍卖完了”，可以切分成“羽毛/球拍/卖/完/了”、也可切分成“羽毛球/拍卖/完/了”，如果没有上下文，恐怕谁也不知道“拍卖”在这里算不算一个词。2新词识别命名实体（人名，地名），新词，专业术语称为未登录词。也就是说，在分词的字典不包括在内，但这些词确实真得能称为词。最有代表性的就是名字，人可以很容易理解。一句“李军虎去上海了”中的”“李军虎”是一个词，因为它是一个人的名字，但如果让电脑去查则很困难。如果“李军虎“作为一个词收录到字典，可是世界上有这么多的名字，而且每

33、一刻都有新的名字，收录这些名字本身就是一项既费时费力又不划算的工程。即使工作可以完成，问题依然存在，例如在句子中“李军虎头虎脑的“中，“李军虎“还能算词吗除了名字以外，还有地名、产品名、机构名、简称等都是很难处理的问题，而且这些又是人们常用的词，因此对于网页检索来说，分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统优劣的重要标志。1625ICTCLAS4J工具概述ICTCLAS4J中文分词系统是SINBOY在中科院张华平和刘群老师的研制的FREEICTCLAS的基础上完成的一个JAVA开源分词项目，简化了原分词程序的复杂度，旨在提供广大的中文分词爱好者一个更好的学习机会

34、。而且这是最早的中文开源分词项目之一，ICTCLAS在第一届国际中文处理研究机构SIGHAN组织的评测中都获得了多项第一名，在国内973专家组组织的评测中活动获得了第一名。ICTCLAS30分词速度单机996KB/S，分词精度9845，API不超过200KB，各种词典数据压缩后不到3M。ICTCLAS4J全部采用JAVA编写，支持LINUX、FREEBSD及WINDOWS系列操作系统，支持C/C、C、DELPHI、JAVA等主流的开发语言。ICTCLAS4J切分是词语切分与词性标注是结合起来进行的，共有26个此类代码（名词N、时间词T、方位词F、数词M、处所词S、量词Q、区别词B、代词R、形容

35、词A、状态词Z、动词V、副词D、介词P、助词U、连词C、拟声词O、叹词E、语气词Y、成语I、简称J、习用语L、前接成分H、后接成分K、语素G、非语素字X、标点符号W）外，还增加了以下3类标记1专有名词的分类标记，即人名NR，地名NS，团体机关单位名称NT，其他专有名词NZ，英语等其他非汉字的字符串NX。2动词和形容词的特殊用法标记，即名动词VN（具有名词功能的动词），名形词AN（具有名词功能的形容词），副动词VD（直接作状语的动词），副形词AD（直接作状语的形容词）。3语素的子类标记，即名语素NG，动语素VG，形容语素AG，时语素TG，副语素DG等；由于标注时只使用这些子类标记，故语素标记G不

36、在标注语料库中出现。比如下句话“咱们中国这么大的一个多民族的国家如果不团结，就不可能发展经济，人民生活水平也就不可能得到改善和提高。”通过ICTCLAS4J分词变变为咱们/R中国/NS这么/R大/A的/U一个/M多/A民族/N的/U国家/N如果/C不/D团结/A，/W就/D不/D可能/V发展/V经济/N，/W人民/N生活/N水平/N也/D就/D不/D可能/V得到/V改善/VN和/C提高/VN。/W26输入的请求分词相关度的比较要对输入的请求和网页文本文件进行分词。对输入的请求分词代码STRINGQUESTION“漫画连载“SEGTAGSEGTAGNEWSEGTAG1SEGRESULTSEGRE

37、SULTSEGTAGSPLITQUESTIONTRIMSTRINGCLASSIFYCONTENTSEGRESULTGETFINALRESULT17S3S3CLASSIFYCONTENT“STRINGQUESTION“漫画连载“中的”漫画连载”是输入的请求。经过分词，“漫画连载”被分为“漫画/N连载/V”27对文本文件分词打开源文件FILEREADERFRNEWFILEREADER“F/8TXT“BUFFEREDREADERBRNEWBUFFEREDREADERFR调用分词代码WHILESBRREADLINENULLIFSLENGTH0SEGTAGSEGTAGNEWSEGTAG1/分词路径的数目

38、SEGRESULTSEGRESULTSEGTAGSPLITSTRIMSTRINGCLASSIFYCONTENTSEGRESULTGETFINALRESULTSYSTEMOUTPRINTLN“分词结果N“CLASSIFYCONTENTS1CLASSIFYCONTENT打开要输入内容的文件，F/18TXT是在F盘建的18TXT文件，是要保存分词的结果。而我们为了将来进行相关度计算的时候不用次次都对已有的网页文本文件进行分词，所以我们先将网页文本文件分词并保存到指定文件。这样可以减少将来程序运行时间。BUFFEREDWRITERBWNEWBUFFEREDWRITERNEWFILEWRITER“F/1

39、8TXT“，TRUE此代码是将网页文本文件”F/8TXT”如图23所示分词结果并保存到”F/18TXT”中，如图24所示18图23F/8TXT图24F/18TXT19不过我们从分词的结果里也可以看出，有些词分的不正确，如图23中除去空白行，第七行中“马云复盘“欺诈们”被分词为图24中十三行的“马/J云/N复/DG盘/V”/W欺诈/VN门/N”/W/W”。而正确的应是“马云”作为一个人名，“欺诈门”作为一个专用名词。正确的影视“马云/NR复/DG盘/V”/W欺诈门/NZ”/W/W”。不过分词精度在本文不做深入探讨。以下是F/1TXT到F/8TXT对应的分词本文，F/11TXT到F/18TXT。如

40、图25所示图25分词文本20第三章基于关键词的网页文本相关度计算网页文本经过中文分词，那就可以跟用户输入的关键词进行相关度计算了。相关度排序是网页检索优劣的一个重要评价指标。网页检索开发人员在检索结果的相关度排序上也做了不少研究，而VSM在目前的网页检索的应用较为广泛。同时，VSM也是大多网页检索自动分类技术的理论基础。31基于空间向量模型的相关度计算向量空间模型VSM是近年来使用较多且效果较好的一种信息检索模型。在VSM中，将文档看作是由相互独立的词条组（T1，T2，TN）构成，对于每一词条TI都根据其再文档中的重要程度赋予一定权值WI，并将T1T2TN看成一个N维坐标系中的坐标轴，W1，W

41、2WN为对应的坐标值。这样由（T1，T2，TN）分解而得到的正交词条矢量组就构成一个文档向量空间，单个文档则映射成为空间中的一个点。所有文档和用户查询都可映射到此文档向量空间，并用词条矢量（T1，W1，T2，W2TN，WN）来表示，这样就将文档信息的匹配问题转化成了向量空间中的矢量匹配问题。假设用户查询为Q被检索文档为D两者的相关程度可用向量之间的夹角来度量，夹角越小，说明相关度越高，相关度计算公式如下NKDKNKQKNKDKQKWWWWDQDQSIM12121,COS,我们用采用VSM的方法进行相关度的计算主要有以下三个步骤1对用户输入的关键词进行分词，最后得到由所有正确的分词项组成的集合就

42、构成了一个向量空间。而其中的每一个正确的分词项就是向量空间中的一项。2确定每一个项的权值根据每一个正确的分词项在网页文本中的重要性赋予权重。3用余弦法进行相关度计算311对输入汉字串进行分词对输入汉字串的分词已经在第三章部分已经给予叙述，并且对实验要用的网页文件进行了抓取和分词。我们现在就是要确定每一个项的权值。21对输入汉字串进行分词的代码STRINGQUESTION“漫画连载“SEGTAGSEGTAGNEWSEGTAG1/分词路径的数目SEGRESULTSEGRESULTSEGTAGSPLITQUESTIONTRIMSTRINGCLASSIFYCONTENTSEGRESULTGETFINA

43、LRESULTS3S3CLASSIFYCONTENT“漫画连载被分词成漫画/N连载/V312确定每一项的权值为了构造空间向量，我们要对每个分词项在不同文本赋予不同的权值。以下是两种赋予权值的方法。3121用统计法确定每一项的权值统计法的思想一个正确分词项通常在文本中出现次数越多，该项重要性也越高。用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征。但是当这个词条在大量文档中频繁出现，现在这个词条代表性就急剧下降。我们对“漫画连载”在F/11TXT到F/18TXT文件中出现次数进行统计。以下面分词的

44、正确项的次数统计的部分代码为例FORJ0J0M1JK1J/S1LENGTH/CJ/80M2JK2J/S2LENGTH/CJ/80M3JK3J/S3LENGTH/CJ/80M4JK4J/S4LENGTH/CJ/80M5JK5J/S5LENGTH/CJ/80M6JK6J/S6LENGTH/CJ/80M7JK7J/S7LENGTH/CJ/80M8JK8J/S8LENGTH/CJ/80SYSTEMOUTPRINTLNM1JSYSTEMOUTPRINTLNM2JSYSTEMOUTPRINTLNM3JSYSTEMOUTPRINTLNM4JSYSTEMOUTPRINTLNM5JSYSTEMOUTPRINTL

45、NM6JSYSTEMOUTPRINTLNM7JSYSTEMOUTPRINTLNM8J注1M1J是输入字符串的某个分词项。2K1J是某个分词项的在F/11TXT中出现的次数。3S1LENGTH是F/11TXT是词语的数目。4CJ表示含有某个分词项的网页文件数目。580表示有8个网页文件。图34所示是“漫画连载”按TFIDF法在F/11TXT到F/18TXT的中的权值27图34“漫画连载”按TFIDF法在F/11TXT到F/18TXT的中的权值之前“漫画连载”被分词成“漫画”和“连载”。这里所示第1行到第8行表示“漫画”分别在F/11TXT到F/18TXT的权值。第9行到第16行表示“连载”分别在

46、F/11TXT到F/18TXT的权值。由此可见“漫画”在F/11TXT中的权值为003531376759723216，在F/17TXT中的权值为00026755852842809363，其余文本均不含“漫画”；“连载”在F/11TXT中的权值为000763540921021236，其余文本均不含“连载”。在确定权值以后，各个网络文件文本的向量也已确定。以下为在输入字符串为“漫画连载”时，各网络文件文本向量F/11TXT003531376759723216，000763540921021236F/12TXT0，0F/13TXT0，0F/14TXT0，0F/15TXT0，0F/16TXT0，0F/

47、17TXT00026755852842809363，0F/18TXT0，0TFIDF的理论依据及不足之处28TFIDF算法是这个假设的基础之上的，对最能区别文档的词语应该是那些在文档中出现频率高，但是在整个文档集合的其他文档中出现频率少的词语，因此要是特征空间坐标系以TF词频作为测度，那么可以代表同类文本的特点。再者还考虑到了单词区别不同类别的能力，TFIDF法以一个词语出现的文件频率越小，那么它区别不同类别文本的能力就越大。所以又引入逆文本频度IDF的概念，以TF和IDF的乘积作为特征空间坐标系的取值测度，并用它完成对权值TF的调整，权值的调整是为了抑制次要单词，突出重要单词。但是在本质上I

48、DF是一种试图抑制噪音的加权，而且单纯地认为文件频率小的单词就越重要，文件频率大的单词就越无关紧要，明显这不是完全正确的。IDF的简单结构还不能有效地表现单词的重要程度和特征词的分布情况，于是无法很好地完成对权值调整的功能，因此TFIDF法的精度并不是很高。再者，在TFIDF算法中并没有显示出单词的位置信息，对于WEB文档而言，权重的计算方法应该表明出HTML的结构特征。特征词在不同的标记符中对文章内容的反映程度不同，那么其权重的计算方法也应该不同。因此应该对于处于网页不同位置的特征词分别赋予不同的系数，然后乘以特征词的词频，以提高文本表示的效果。3123用统计法和TFIDF法确定权值的区别我

49、们这边在实验的过程中还发现，按统计法一个文本可以独自按照输入字符串地确定权值而可以不知道其他文件的信息。以下是统计法确定权值的部分代码INTK1NEWINT10FORJ0J0CJFORJ0J0CJFORJ0J0M1JK1J/S1LENGTH/CJ/80M2JK2J/S2LENGTH/CJ/80M3JK3J/S3LENGTH/CJ/8030M4JK4J/S4LENGTH/CJ/80M5JK5J/S5LENGTH/CJ/80M6JK6J/S6LENGTH/CJ/80M7JK7J/S7LENGTH/CJ/80M8JK8J/S8LENGTH/CJ/80注1CJ用来统计含有某一分词项的文本数目。2K1J，K2JK3J，K4J，K5J，K6J，K7J，K8J分别表示F/11TXT到F/18TXT含有某一分词项的数目。3当K1不为0，说明F/11TXT含有某分词项，那么CJ加1表明，含有某分词项的文本数目加1，依次类推，当K8也计算完，那么最后CJ的数值就确定即含有某分词项的文本数目。图35是“漫画连载”经过分词后，F/11TXT到F/18TXT分别含有“漫画”和“连载”的

展开阅读全文