学士学位论文：Research of Text Classification Mining based on WEB.docx

资源描述

1、1论文编码TP181首都师范大学学士学位论文院系信息工程学院专业计算机科学与技术系（师范）年级2001学号1011000035指导老师论文作者完成日期2005年6月6日首都师范大学计算机科学与技术专业学士学位论文第1页共33页基于WEB的文本分类挖掘的研究中文提要互联网现在已经成为一个巨大的信息源，如何让互联网信息更好地为人类服务，如何快速、准确获取所需信息，是我们面临的一个重要课题。因此，基于WEB的网络信息处理成了当前的研究热点，其中，WEB上的文本分类方法的研究是网络数据挖掘的研究重点之一。本文介绍了数据挖掘，WEB挖掘和文本分类的理论，对WEB数据的特点作了分析，比较了HTML与传统数

2、据的区别，分析了文本分类的几种算法，重点研究了朴素贝叶斯分类算法和算法改进的具体过程。尝试利用HTML标记权重来改善朴素贝叶斯算法的条件独立假设的不足。简述了现有的对网页的标记过滤的知识，并利用标记中的有用信息结合文本分类算法进行文本分类。最后，针对改进的分类器的在精确率上不太理想的特点，对本课题下一步要研究的内容进行了总结，并提出了自己的一些看法。关键词WEB挖掘朴素贝叶斯数据挖掘文本分类网页标记首都师范大学计算机科学与技术专业学士学位论文第2页共33页RESEARCHOFTEXTCLASSIFICATIONMININGBASEDONWEBABSTRACTINTERNETHASBECOMEA

3、GREATINFORMATIONSOURCEITISANIMPORTANTISSUESFORUSTOCONFRONTTHATHOWTOMAKETHEINTERNETINFORMATIONSERVEPEOPLEBETTERANDHOWTOOBTAINTHEINFORMATIONQUICKLYANDACCURATELYNOWADAYSTHERESEARCHOFINFORMATIONPROCESSINGBASEDONWEBISAHOTSPOTTHETEXTCATEGORIZATIONOFWEBHASBECAMEMOREIMPORTANTTHANTHEOTHERRESEARCHOFWEBMININGT

4、HETHEORETICALDEVELOPMENTOFDATAMINING,WEBMININGANDTEXTCLASSIFICATIONAREINTRODUCED,ANALYZESTHEFEATUREOFWEBDATA,COMPARESWITHTHEOTHERDATANAIVEBAYESCLASSIFIERANALYZESSOMEARITHMETICSOFTEXTCATEGORIZATIONANDTHECONCRETEPROCESSOFTHEIMPROVEMENTOFARITHMETICINNAIVEBAYESCLASSIFIERAREPUTEMPHASISONTHISTHESISTRIESTO

5、MAKEUSEOFHTMLTAGSTOIMPROVETHEARITHMETICOFNAIVEBAYESCLASSIFIERWHOSEBUGISITSHYPOTHESISINTHEPRACTICEOFTHECLASSIFIER,THETHESISSUMMARIZESTHEMETHODWHICHCANLEACHHTMLTAGS,THENTRIESTOUSETHEINFORMATIONFROMTHETAGSANDTHETEXTCATEGORIZATIONARITHMETICTOCLASSIFYTHETEXTFINALLY,THEPRECISIONOFTHECLASSIFIERWHICHHASBEEN

6、IMPROVEDISNOTIDEAL,SOTHENEXTCONTENTSOFTHISSUBJECTARESUMMARIZEDANDSOMEONESOWNVIEWSAREALSOPRESENTEDXUYINGDIRECTEDBYLIULIZHENKEYWORDWEBMININGNAVEBAYESDATAMININGTEXTCATEGORIZATIONHTMLTAGS首都师范大学计算机科学与技术专业学士学位论文第3页共33页目录中文提要1外文提要错误未定义书签。第一章绪论411选题背景及意义412数据挖掘413WEB挖掘514WEB挖掘的研究现状与发展815本文的主要研究内容与组织结构9第二章基于

7、WEB的文本分类挖掘921引言922WEB文本的预处理10221WEB文本数据采集10222文本分词10223文本特征库1123文本分类11231常用的文本分类方法12232文本分类方法的比较13233WEB文本分类的特点1424分类性能评价方法1425本章小结15第三章朴素贝叶斯分类方法的研究1531朴素贝叶斯分类简介1532问题的提出1633具体的解决方法1734实验结果2035本章小结21第四章WEB文本分类系统的设计与实现2241引言2242WEB文本分类系统的设计与实现2243本章小结24第五章结论及进一步的工作2551论文总结2552进一步的工作25致谢32引言首都师范大学计算机科

8、学与技术专业学士学位论文第4页共33页WEB文本分类挖掘作为数据挖掘的一个重要研究方向，有着潜在广阔的应用环境。因此，WEB文本分类挖掘是很值得研究的内容。特别是文本的特征提取和文本分类的算法，对提高分类器的效率和实用性都有一定的帮助。本文在研究了现有的文本分类方法和文本分类系统的基础上，尝试改进朴素贝叶斯分类的假设。第一章绪论11选题背景及意义当今世界计算机的广泛发展，数据库技术的成熟，使得人类积累的数据量越来越庞大，形成了数据丰富但知识匮乏的问题。各个领域的人们都期待有一种方法能高效率地从大量的数据中发现有用信息，即知识。在这种情况下，知识发现和数据挖掘的研究成为热点，尝试解决以上问题。数

9、据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程，这些模型和关系可以用来做出预测。数据挖掘涉及数据库、人工智能、机器学习和统计分析等多个领域的理论和技术。数据挖掘技术能从大型数据库或数据仓库中自动分析数据，进行归纳性推理，从中发掘出潜在的模式；或者产生联想，建立新的业务模型，帮助决策者调整市场策略，做出正确的决策。伴随计算能力的增长，算法及大规模数据存储技术的成熟，数据挖掘逐渐走出实验室，在生产领域发挥着积极的作用。20世纪90年代以来，互联网迅速地发展。海量信息的管理和利用问题，向传统的数据挖掘提出了新的技术要求如何从这些众多的信息资源中快速的发现自己所需要的知识。因此，迫

10、切需要一种高效快速的信息资源分析工具，帮助用户快速浏览网络，并能从这些大量的信息中找出隐含的知识，减少用户的负担。面对这种需求，WEB挖掘成为近几年来新兴的研究领域。它从数据挖掘发展而来，又面临很多前所未有的问题比如数据量不断膨胀，处在动态变化中难以控制，数据安全难以保证，数据形式不一致难以统一处理等。由于WEB在当今社会扮演越来越重要的角色，有关WEB内容挖掘、WEB日志挖掘和与WEB有关的数据挖掘服务，成为数据挖掘中一个重要和逐渐繁荣的领域。为了能够准确、快速、合理的利用WEB上不断增长的信息，WEB挖掘的研究显得更加重要了。利用WEB的特性，应用和改进原有的一些数据挖掘技术和原理在WEB

11、文档中发现和分析有用信息逐渐成为知识发现研究的重要方向。12数据挖掘数据挖掘的任务主要是从大量的、不完全的、有噪声的、模糊的、随机的数据中发现隐含的、潜在的、可能的数据模式、内在联系、规律、发展趋势等有用的信息，而这些数据经常是以结构化的静态数据库数据仓库的形式存储的，还包括一些其他形式的数据集合。数据挖掘是知识发现过程中的一个基本步骤。它融合了数据库、人工智能、机器学习、首都师范大学计算机科学与技术专业学士学位论文第5页共33页统计学等多个领域的理论和技术。相近的术语有数据融合、数据分析、决策支持、KDD、知识挖掘、知识提取等。鉴于数据、数据挖掘任务和数据挖掘方法的多样性，数据挖掘要面对许多

12、挑战性的新课题。数据挖掘语言的设计，高效而有用的数据挖掘方法和系统的开发，交互和集成的数据挖掘环境的建立，以及应用数据挖掘技术解决大型实际应用问题，都是目前数据挖掘研究人员、系统和应用开发人员所面临的主要问题1。数据挖掘研究的对象很广泛，包括数据库、文本、WEB上的信息、图象、视频等。以WEB信息为研究对象的数据挖掘，称为WEB数据挖掘，简称WEB挖掘。WEB数据资源的大量、异质、分布等特点导致传统数据挖掘算法的效率、有效性受到了影响，WEB数据挖掘的研究尝试弥补这种影响。13WEB挖掘WEB挖掘是一项综合技术，是根据面向INTERNET的分布式信息资源的特点的一种模式抽取过程，它不仅能查找到

13、分布式信息资源中已存在的信息，还能识别出大量存在于数据中的隐含的、有效的规律。131WEB挖掘的概念、对象及特点从一般的角度出发，为WEB挖掘下了定义3WEB挖掘是指从大量WEB文档的集合C中发现隐含的模式，如果将C看作输入，将看作输出,那么WEB挖掘的过程就是从输入到输出的一个映射C。WEB挖掘就是WEB上的知识发现，即WEB挖掘的对象是WEB文档。而以WEB作为中间件的挖掘，比如通过WEB对数据库进行挖掘，对WEB服务器上的日志、用户信息等相关数据的挖掘，都属于传统的数据挖掘的范畴1，而非WEB挖掘。WEB挖掘是从数据挖掘发展而来，但是它同传统的数据挖掘相比又有许多独特之处。比如，WEB挖

14、掘的研究对象WEB文档就有以下特点首先，WEB文档的数据量庞大。计算WEB文档的数据量早就以几百兆兆字节计算，并且它时刻有可能增长，一些研究者致力于存储WEB上的数据的研究2，因为传统的数据仓库不能满足这样不断膨胀的巨大的数据量的存储。其次，WEB文档十分复杂，具体表现在数据的异构，信息来源动态更新。WEB文档上数据的最大特点是就是半结构化或无结构数据没有严格的结构模式、含有不同格式的数据文本数据、音频数据、视频数据、图形图像数据等各种非结构化的数据，、面向显示的HTML文本无法区分数据类型等。而传统的数据库都有一定的数据模型，可以根据模型来具体描述特定的数据。显然，面向WEB的数据挖掘比面向

15、单个数据仓库的数据挖掘要复杂得多。WEB上每一站点的数据都各自独立设计，并且数据本身具有自述性，数据来源具有动态可变性。WEB上的每一个站点就是一个数据源，每个数据源都是异构的，因而每一站点之间的信息和组织都不一样，这就构成了一个巨大的异构数据库环境。这些庞大的数据源分布在首都师范大学计算机科学与技术专业学士学位论文第6页共33页不同的站点，并且时刻可能增加新的信息。这就面临对数据如何有效的存储等困难，并且无法进一步对数据进行分析、集成、处理。再次，WEB在逻辑上是一个由文档集合超链接构成的图，因此，WEB文本挖掘所得到的模式可能是关于WEB内容的，也可能是关于WEB结构的。由于WEB文本是一

16、个半结构化或无结构化的，且缺乏机器所能理解的语义，从而使有些数据挖掘技术并不适用于WEB挖掘。因而，开发新的WEB挖掘技术以及对WEB文本进行预处理，以提取该文本的特征，便成为WEB挖掘研究的重点1。还有就是由于互联网的接入廉价而普及，WEB文档的分布很广泛，用户群多样，需求的信息多样而模糊。基于WEB的数据挖掘用户往往只对要挖掘的主题有一个粗浅的认识，提不出很明确的目标来，经常得不到期望的知识，或者由于付出的时间太长而放弃等待有用的知识被挖掘出来。这就需要数据挖掘系统具有一定的智能性和学习机制，不断地跟踪用户的兴趣，清晰明白地阐述挖掘结果。WEB上的信息只有很小的一部分是相关的或有用的。据统

17、计，99的WEB信息对于99的用户是无用的，这些无用的信息会淹没用户所希望得到的结果。132WEB挖掘的分类WEB挖掘一般分为三类，如图11图11WEB挖掘的分类WEB挖掘对象包含三方面的内容WEB上的文档内容，WEB结构数据，用户浏览WEB页面的记录数据；对应地，根据对WEB挖掘对象的感兴趣程度不同，WEB挖掘一般可以分为三类WEB内容挖掘（WEBCONTENTMINING）、WEB结构挖掘（WEBSTRUCTUREMINING）、WEB使用挖掘（WEBUSAGEMINING）。1WEB内容挖掘WEBCONTENTMININGWEB内容挖掘是从WEB文档内容或其描述中抽取知识，可以采取两种策

18、略直接挖掘WEB挖掘内容挖掘使用挖掘结构挖掘文本挖掘多媒体挖掘超链挖掘URL挖掘内部结构挖掘首都师范大学计算机科学与技术专业学士学位论文第7页共33页文档的内容，或在其它工具搜索的基础上进行改进。采用第一种策略的有针对WEB的查询语言，利用启发式规则来寻找个人主页信息等。采用第二种策略的方法主要是对搜索引擎的查询结果进行进一步的处理，得到更为精确和有用的信息。WEB内容挖掘又可分为WEB文本挖掘和WEB多媒体挖掘，针对的对象分别是WEB文本信息和WEB多媒体信息。WEB文本挖掘在WEB环境下，大量存在的是各种文档，如电子邮件，新闻，电子出版物等。这些文档中除了少量的结构内容外，包含了大量的各种

19、无结构的信息。如何分析和处理这些文本信息一直是人们所关注的问题。WEB文本挖掘可以对WEB上大量文档集合的内容进行摘要、分类、聚类、关联分析，以及利用WEB文档进行趋势预测等。WEB多媒体挖掘WEB多媒体挖掘是对多媒体文档包括图像、声音、图片等媒体类型的挖掘。WEB多媒体挖掘与WEB文本挖掘的不同点就在于需要提取的特征不同。WEB多媒体挖掘需要提取的特征一般包括图像或视频的文件名、URL、类型、键值表、颜色向量等。然后可以对这些特征进行挖掘操作。2WEB结构挖掘WEBSTRUCTUREMININGWEB结构挖掘是从网页的组织结构和链接关系中推导知识。由于文档之间的互连，能够提供除文档内容之外的

20、有用信息，可以对页面进行排序，发现重要的页面。这方面工作的代表有PAGERANK和CLEVER。此外，在多层次WEB数据仓库中也利用了页面的链接结构。3WEB使用记录的挖掘WEBUSAGEMININGWEB使用记录的挖掘是对用户访问WEB时服务器方留下的访问记录进行挖掘，从中可以得出用户的访问模式和访问兴趣。万维网中的每个服务器都保留了访问日志WEBACCESSLOG，记录了关于用户访问和交互的信息。分析这些数据可以帮助理解用户的行为，从而改进站点的结构，或为用户提供个性化的服务。133WEB挖掘的过程WEB挖掘主要的处理过程是对WEB文档集合的内容进行分词处理、特征提取、结构分析、文本摘要、

21、文本分类、文本聚类、关联分析等。WEB挖掘过程一般可分成以下四个阶段，如图12数据采集模式发现预处理模式分析首都师范大学计算机科学与技术专业学士学位论文第8页共33页（1）数据采集主要是采集WEB网页，即检索所需的网络文档。WEB使用记录挖掘通过挖掘WEB日志记录，这些数据包括网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问式等等。直接对WEBSERVER的日志文件或日志行为进行统计分析处理，包括了几乎所有的LOG属性项，如CLIENTHOST、REMOTEUSER、REQUESTTIME、SERVERNAME/SERVERIP、TIME

22、LENGTH、BYTERECEIVED、BYTESENDED、STATUS、REQUEST、URL，这些属性项之间可以单独进行统计分析，也可以适当以一定的逻辑关系组合起来进行统计分析。（2）信息筛选和预处理从获取的网页中自动筛选和预处理特定的信息。预处理过程是WEB挖掘过程中最关键的一环，处理的质量关系到后面挖掘过程和模式分析过程的质量。WEB产生的日志数据细节程度非常高，它们太过详细，既不能用于分析也不能装入数据库。要使之能够进入数据库，必须对日志数据进行读取和提炼。如下图所示，WEB日志数据在进入数据仓库环境之前，必须经过一个“粒度管理器“的处理。粒度管理器对数据进行编辑、过滤、汇总、转换

23、和重组之后，进入数据仓库。（3）模式发现通过实施算法挖掘，例如关联规则挖掘算法，序列模式挖掘算法和分类、聚类算法，发现存在于单个网站或跨越多个网站的潜在的、有用的模式。（4）分析对所挖掘的模式进行评估和解释。主要是利用一些方法和工具对挖掘出来的模式、规则进行分析，找出我们感兴趣的模式和规则。可以采用可视化的信息导航机制、WEB路径图，OLAP技术例如数据立方和类SQL语言机制来可视化，解释挖掘出来的规则和模式。发现用户访问模型、提供网站描述性统计、网络用户聚类、页面聚类、频繁访问路径发现以及基于其上的网络用户个性化推荐服务。134WEB挖掘的方法WEB内容挖掘常用的方法有页面内容摘要、分类、聚

24、类以及关联规则发现等。WEB使用挖掘常用的方法有路径分析、分类、聚类、关联规则和序列模式发现等。WEB结构挖掘常用的方法有PAGERANK方法和HITS方法等。14WEB挖掘的研究现状与发展将数据挖掘的技术应用到文本处理的领域进行文本挖掘是一个重要的研究课题，目前受到关注的问题如下1基于关键字的关联分析基于关键字的关联分析的目标是找出经常一起出现的关键字或词汇之间的关联或相首都师范大学计算机科学与技术专业学士学位论文第9页共33页互关系。一组经常连续出现或紧密相关的关键字可以形成一个词或词组，关联挖掘可以找出复合关联，即领域相关的词或词组。利用这种词和词组的识别，可以进行更高层次的关联分析，找

25、出词或关键字间的关联。2文档分类分析自动文档分类是一种重要的文本挖掘工作，由于现在存在大量的联机文档，自动对其分类组织以便于对文档的检索和分析，是至关重要的。文本文档的分类与关系数据的分类存在本质区别关系数据是结构化的，每个元组定义为一组属性值对。而文档则不是结构化的，它没有属性值对的结构，与一组文档相关的关键字并不能用一组属性或维化。因此通常面对关系数据的分类方法并不适用于对文档的分类。WEB内容挖掘研究主要集中在基于文本内容的检索、信息过滤的提炼、重复数据消除、数据模式抽取、中间形式表示、异构集成、文本分类和聚类、文档总结和结构提取、数据仓库及OLAP等几个方面，尤其是基于XML的上述专题

26、研究。WEB结构挖掘主要的研究集中在网络虚拟视图生成与网络导航、信息分类与索引结构重组、文本分类、文本重要性确定等几个方面。文本分类为识别来自于蕴藏在电子形式中的大量的文本的类别，是进一步进行文本挖掘的准备。随着互联网及其信息服务的飞速发展,网络信息资源的获取更加棘手,而基于WEB的文本分类挖掘的发展及应用对于解决这一问题将会起到至关重要的作用。15本文的主要研究内容与组织结构本文的结构以如下的方式进行组织。全文共有五章。本文内容安排如下第一章本章对选题的研究背景、意义和当前的发展状况进行了叙述，介绍了WEB挖掘的过程，所采用的方法与技术，WEB挖掘的现状，最后给出了整个论文的组织结构。第二章

27、介绍了几种常用的分类算法，包括K最近邻参照分类算法（KNEARESTNEIGHBOR，KNN）、支持向量机分类算法（SUPPORTVECTORMACHINESVM）等，并对本文提到的各种分类算法的特点进行了分析比较。第三章针对对朴素贝叶斯分类方法中的条件独立性假设问题进行了研究，尝试通过改善条件独立性的限制来提高分类性能。第四章在现有文本分类系统的基础上，设计并实现了一个WEB文本分类系统。第五章对本文的工作进行了全面的总结，并讨论了今后需要进一步研究的问题。第二章基于WEB的文本分类挖掘21引言WEB的数据挖掘要考虑WEB的特征因素。首先，WEB上的网页数量巨大。第二，网页的格式非常灵活，有

28、HTML、ASP、XML等多种格式并存；而且由于任何人、任何单位都可首都师范大学计算机科学与技术专业学士学位论文第10页共33页以把自己制作的网页发布到互联网上，因此网页的写作风格、网页的内容变化很大。第三，一个网页内的内容也不单一，通常包含了许多与主题无关的内容，如版权信息、欢迎信息、广告信息等，这些对网页分类来说都构成了噪声。最后，网页的结构信息、万维网上的链接信息以及日益丰富的一些其他网络资源如查询日志又为WEB的数据挖掘提供了有利的信息。22WEB文本的预处理在数据挖掘中，数据的预处理包括数据集成，数据清洗，数据变换，数据简化。对于普通文本，预处理的过程为首先排除出现频率高但是含义虚泛

29、的词语,例如英文中的A,THE,EACH,FOR,汉语中的“地、得、的、这、虽然”等；然后排除那些在文档集合中出现频率很低的单字；在英文中还可以去除前缀、后缀等，找到词根,如WALKER,WALKING,WALKED都可以是同一个词WALK。而WEB文本的预处理则要考虑到它自身的结构特点等，比如为了去除噪声数据和无关数据要进行标记的过滤等。221WEB文本数据采集如12图，WEB挖掘首先要进行数据采集，也就是从网络收集数据的过程。它是进行后续挖掘处理的基础。如何快速、准确地获取所需要的信息，是数据采集研究的主要内容。在大规模内容计算中，信息获取分为主动获取和被动获取。被动获取通常是将设备介入网

30、络的特定部位进行获取。而主动获取主要是指基于WEB的信息采集，即直接从WEB上采集或下载信息。下面介绍几种WEB信息采集技术。WEB信息采集技术可以分成基于整个WEB的信息采集（SCALABLEWC），增量式WEB信息采集（INCREMENTALWC），基于主题的WEB信息采集（FOCUSEDWC），基于用户个性化的WEB信息采集（CUSTOMIZEDWC），基于AGENT的信息采集（AGENTBASEDWC），迁移的信息采集（RELOCATABLEWC）等等。实际的系统往往是以上几个采集技术的组合。采集系统主要研究的是如何高效稳定地以较小的代价获取最相关的信息。为了提高采集速度，大规模的采集

31、系统往往采用并行采集结构。为了降低采集的空间代价，更新策略是研究的重点之一。最理想的是采集系统能够自动学到每个网站或站点的更新规律，从而能够指导采集器的刷新策略，尽量做到没有变化的网页不采集，只采集那些更新的网页。222文本分词中文文本TEXT,HTML挖掘技术成败的关键在于文本中词汇切分的成功与否。由于汉语语言的特殊性和复杂性,使中文词汇的切分成为一个很伤脑筋的问题。而如果不进行分词,中文信息处理的其它很多研究就无法进行。中文与英文不同，句子中各词条之间没有固定的分隔符空格，进行中文文本的词频首都师范大学计算机科学与技术专业学士学位论文第11页共33页统计前，首先需要对中文文本进行分词处理。

32、中文文本的分词就是在中文文本的各词条间加入分隔符，将中文文本的连续字流形式转化为离散的词流形式。分词技术中基于词库的算法目前使用较广，也较为成熟，如最佳匹配法、最大匹配法、逆向最大匹配法、联想回溯法。这类算法分词的正确性很大程度上取决于所建的词库。一个词库应具有完备性和完全性两个方面,建立一个同时满足这两个要求的词库具有很大的难度。所以,对于中文文本挖掘来说，基于词库的分词技术可能会使某些具有重要意义的词汇被疏漏，从而导致挖掘的内容不是十分准确。最大匹配法（MAXIMUMMATCHINGMETHOD,MM法）选取包含68个汉字的符号串作为最大符号串，把最大符号串与词典中的单词条目相匹配，如果不

33、能匹配，就削掉一个汉字继续匹配，直到在词典中找到相应的单词为止。匹配的方向是从右向左。逆向最大匹配法（REVERSEMAXIMUMMETHOD,RMM法）匹配方向与MM法相反，是从左向右。实验表明对于汉语来说，逆向最大匹配法比最大匹配法更有效。双向匹配法（BIDIRECTIONMATCHINGMETHOD,BM法）比较MM法与RMM法的分词结果，从而决定正确的分词。最佳匹配法（OPTIMUMMATCHINGMETHOD,OM法）将词典中的单词按它们在文本中的出现频度的大小排列，高频度的单词排在前，频度低的单词排在后，从而提高匹配的速度。联想回溯法（ASSOCIATIONBACKTRACKING

34、METHOD,AB法）采用联想和回溯的机制来进行匹配。223文本特征库文档特征是指关于文本的元数据，分为描述性特征如文本的名称、日期、大小、类型等和语义性特征如文件的作者、机构、标题、内容等。描述性特征较易获取，语义性特征获取较难。W3C互联网联合组织制定的XMLEXTENDABLEMARKUPLANGUAGE，RDFRESOURCEDESCRIPTIONFRAMEWORK等规范提供了对WEB文档资源进行描述的语言和框架。文献6中给出了一些可能的特征抽取方法用网页内的文本来表示网页（纯本文，网页内不同域中的文本），用网页内图像、音频、视频的信息来表示网页，用网页中存在的模式来表示网页，用网页间

35、的链接信息来表示网页，用网页的URL信息来表示网页，用网页的布局来表示网页，用网页的摘要来表示网页。23文本分类文本分类是指按照预先定义的主体类别，为每个文档确定一个类别。文本分类是一种首都师范大学计算机科学与技术专业学士学位论文第12页共33页典型的有教师的机器学习，一般分为训练和分类两个阶段，具体过程如下1定义阶段定义类别集合MICCC,C1，这些类别可以是层次式的，也可以是平行式的；给出训练文档集合NISSS,S1，每个训练文档IS被标上所属的类别属性IC；统计S中所有文件的特征矢量ISV，确定代表C中每个类别的特征矢量ICV；该步是训练阶段的一个关键。2分类阶段对于测试文件集合TK1D

36、,D,DI中的每个尚待分类的文件KD，计算其特征矢量KDV与每个CCCVJJ之间的相似度JKC,DSIM选取相似度最大的一个类别CC,CC,DSIMMAXCJTJKT作为的类别。在计算JKC,DSIM时有多种方法，最简单的方法就是进考虑两个特征是两种所包含词条的重叠程度，最常用的方法是考虑两个特征矢量间的夹角余弦。231常用的文本分类方法在WEB挖掘出现之前，人们已经研究过许多普通文本分类的方法，例如朴素贝叶斯NAIVEBAYES，简称NB,K最近邻KNEARESTNEIGHBOR，简称KNN,线性最小方差匹配LINEARLEASTSQUARESFIT，简称LLSF、神经网络NEURALNET

37、WORK,简称NN、支持向量机SUPPORTVECTORMACHINE，简称SVM等，形成了各种文本自动分类技术。（1）支持向量机（SUPPORTVECTORMACHINES，SVM）由VAPNIK在1995年提出，用于解决二分类模式识别问题。JOACHIMS最早将SVM方法用于文本分类。支持向量机将文本分类问题变为一系列二分类问题。支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限样本信息在模型的复杂性（即对特定训练样本的学习精度，ACCURACY）和学习能力（即无错误的识别任意样本的能力）之间寻求最佳折中，以期获得最好的推广能力（GENERALIZATION

38、ABILITY）。从几何上说，支持向量机就是要在R维空间中寻找最佳决策面，该决策面能最好的区分正例和反例，使正例和反例之间的分类间隔最大。SVM的基本思想可用正例和反例线性可分的情况来说明，对于非线性问题，可以通过非线性变换转化为某个高维空间中的线性问题，在变换空间中寻找最优分类面。SVM方法具有很坚实的理论基础，SVM训练的本质是解决一个二次规划（QP）问题，得到全局最优解，这使它有着其他统计学习技术难以比拟的优越性。SVM分类器的文本分类效果很好，是最好的分类器之一。其缺点是其核函数的选择缺乏指导，难以针对具体的问题选择最佳的核函数；另外SVM训练速度极大的受到训练集规模的影响，计算开销比

39、较首都师范大学计算机科学与技术专业学士学位论文第13页共33页大。（2）朴素贝叶斯算法（NAIVEBAYES，NB）它是一种基于概率模型进行网页分类的算法。该算法首先提出一些关于待分类网页产生方式的假设，然后建立一个能体现这些假设的随机模型，再根据训练集估计这个随机模型的参数，最后把待分类网页按贝叶斯规则标记为最有可能产生这个网页的类。朴素贝叶斯算法是所有贝叶斯算法中最简单一种，它基于“朴素贝叶斯”假设，也就是“表示网页的各个特征分量之间是相互独立的”。朴素贝叶斯算法主要包括以下两个计算步骤第一步，计算特征词属于每个类别的几率向量。第二步，在新WEB网页到达时，根据特征词分词，然后按公式计算该

40、文本DI属于类CJ的几率。（3）K近邻分类器（KNN）KNN是目前广泛应用的统计方法，是与LLSF、决策树、神经网络同级的分类算法。其过程如下给定一个测试文本，系统在训练文本集中找到K个最近邻，用K个近邻分配权重，每个近邻文本与测试文本的近似程度作为权重，如果几个近邻是一类，则每个权重相加，总和作为与测试文本的近似度。为了方便，使用余弦值来表示向量间的相似度，也可以使用欧式距离作为相似度的测量。此方法的缺点是K值定义比较困难，一般采用不同的K值进行一系列试验才能决定哪个取值较好。文档D属于C类文档的概率为P（C/D）JKIIJIKIIIDCPDDSIMDCPDDSIM11/,/,SIM（D，D

41、I）表示文档D与DI的相似度。DI为与D最邻接的K个文档之一，它可属于同一类别文档，也可属于不同类别文档。232文本分类方法的比较1KNN是没有学习过程，只是存放所有的训练例，直到接到未知文本的时候才建立分类。KNN的训练过程较快，而且可以随时添加或更新训练例来调整。但它分类的开销会很大，因为需要很大的空间来保存训练例，而且分类效率很差。有看法认为在小数据集上KNN的表现优异。2支持向量机（SVM）是公认的分类效果最好的算法之一，但在大数据集上训练速度比较慢；朴素贝叶斯法（NB）的训练速度和分类速度都很快，是很多研究中常用的分类算法之一。首都师范大学计算机科学与技术专业学士学位论文第14页共3

42、3页3NB对于有较大噪音和非均匀的超文本集难以稳定和最有利的发挥性能。从理论上讲，贝叶斯分类的出错率最小，就试验结果来看，朴素贝叶斯在大型的数据集上表现出来难得的速度和准确度。并且如果特征选取做的好，减少了无关或不重要的特征值，会使得朴素贝叶斯算法在计算时减少很多运算量。可见，朴素贝叶斯算法是一个简单易实现的算法，因此很多研究围绕着怎样改进朴素贝叶斯算法的条件独立性假设来进行。鉴于它在大数据集上的准确性，它也很适合于WEB文本挖掘。233WEB文本分类的特点WEB上的文本分类的特点1巨大的数据资源结合HTML的特点来看，基于WEB的文本分类具有优势在于，您所感兴趣的数据通常可以用HTML树中深

43、度嵌套的单个或标记隔离开来。这使得分类过程可以专门在文档的一小部分内执行。但是，HTML中有很多格式编排，并且由于要动态添加标题以及编写其它服务器端脚本，所以文档结构可能在每次连接到页面时都需要进行更改，所以使分类问题变得更为复杂，其结果是现在的WEB浏览器在进行HTML语法分析时非常不严谨。2半结构化的数据结构WEB的文本分类最根本的特点在于它所处理的对象是网页中的文本。网页的特征直接影响了文本分类的性能。多数的网页是用HTML表示，因此导致了网页自身成为半结构化的数据，并且网页间的关系也由于链接的存在而清晰，可以利用这些特点改进文本分类算法，提高分类性能。3动态的信息源WEB上的信息每时每

44、刻都有可能被更新，信息源的静止是相对的，变化是绝对的。这就在速度和准确率上给WEB挖掘算法提出了更高的要求。只有效率高的挖掘才能更好的适应动态的信息源。4）重要的文本预处理由于WEB的大量，复杂等特点，文本预处理更为重要，过滤掉无关的信息，有效的表示文本，为后面的工作节约运算时间。其中，特征提取也起到相当重要的作用，可以有效降低运算次数。24分类性能评价方法通常采用以下五种标准在不同的方面来评价一个分类器1精度PRECISION，分类器在一个类别中做出的正确分类与分类器在该类上做出的所有分类的百分比，精度越高表明分类器在该类上出错的概率越小；2查全率RECALL，分类器在一个类别中做出的正确分

45、类与该类实际应有分类数目首都师范大学计算机科学与技术专业学士学位论文第15页共33页的百分比，查全率越高表明分类器在该类上可能漏掉的分类越少；3F1标准综合了精度和查全率，将两者赋予同样的重要性来考虑，F1（R，P）PR2RP，其中R代表查全率，P代表精度。这三个标准都只用于分类器在单个类别上分类准确度的评价。4宏观平均值MACROAVERAGEDSCORE，用于评价分类器的整体表现。将PRECISION,RECALL及F标准在单个类别上的数值进行平均则分别得到它们的宏观平均值。宏观平均值更多的受到稀有类别包含实例较少，出现概率较小的类别的影响。5微观平均值MICROAVERAGEDSCORE

46、，也用于评价分类器的整体表现，它是分类器在整个测试集上做出的分类中正确的比率，即在整体上来平均。25本章小结本章介绍了基于WEB的文本分类的特点，也结合了传统的文本分类算法，考虑到根据HTML格式的网页的特点，即都有由“”组成的标记，可以很容易地过滤掉标记，成为纯文本，再进行文本分类。提出了下一章的改进方法。第三章朴素贝叶斯分类方法的研究31朴素贝叶斯分类简介贝叶斯分类是一种统计学分类方法，它基于贝叶斯定理，可以用来预测类成员关系的可能性，给出文本属于某特定类别的概率。分类时根据预测结果将该样本分到概率最高的类别中去。在一个具有许多属性的事例中，计算PX|CI的开销会非常大，为了降低这种开销而

47、首都师范大学计算机科学与技术专业学士学位论文第16页共33页引出了称为类条件独立的朴素假定假定文档的一个属性对于分类的影响独立于其他属性，即文档的属性之间是不相关的。即为NB（NAIVEBAYES）朴素贝叶斯算法。朴素贝叶斯算法主要包括以下两个计算步骤第一步，计算特征词属于每个类别的几率向量。第二步，在新WEB网页到达时，根据特征词分词，然后按公式计算该文本DI属于类CJ的几率。具体就是利用下列公式通过类别的先验概率和词的分布来计算未知文本属于某一类别的概率PCJX|CJXPCXPPJ（公式31）其中，PCJX为样本X属于类CJ的概率，PXCJ为类CJ中含有样本X的概率。在所有PCJXJ1,2

48、,M中，若P（CKX）值最大，则文本X归为CK类。由于P（X）是常数，因此将要求解PCJX的问题转换为只要求解PCJPXCJ。假设文本中词（属性）的分布是条件独立的，则PCJXPCJPXCJ其中，PCJ总文本个数中文本个数JC（公式32）PDICJ中所有词的个数中出现的次数在类JJCCDI（公式33）虽然这种条件独立的假设在许多应用领域未必能很好满足，但这种朴素贝叶斯分类器在许多实际应用中还是得到了较好的分类精度。其有计算简单的优点，并且在大量的数据集上分类也能取得不错的效果，因此是一种实用选择。32问题的提出WEB包含了丰富的信息，合理有效的利用这些信息可以帮助分类，相反则会降低分类的效果。

49、网页信息特点1由文本和TAG串组成。对于客户端接受到的信息中，除去视频信息、音频信息等等二进制数据外，剩余的文本信息可以分为两部分一部分是起控制作用的标识符，属于HTML语法的一部分，称为TAG串，他们的特点是由“”以及它们中间的字串组成，如,等等另一部分就是文本串，也就是浏览网页时真正看到的文字信息，这些文字信息才是网页的真正内容。2大多数语句都是间断的。在大多数的网页中，文本信息并不是很多，再加上控制标识符的分割，因此真正完整的句子很少，由此导致语义上的跳跃性比较大，给文本的分首都师范大学计算机科学与技术专业学士学位论文第17页共33页析造成了一定难度。3文本属性信息较为丰富。与纯文本不同，网页中的文本可以具有丰富的属性，如颜色、字体、是否加粗等等。在进行分类处理时，这些属性信息具有一定的参考价值。4结构信息明显。对于普通的文本文档，识别标题、小标题、段首句等结构信息是一项十分困难的工作，然而在HTML中，由于有控制标识符标明这些结构信息，识别他们就变得比较简单，在分类的过程中可以参考这些信息。对于在HTML文档中出现的各种控制符号，我们

展开阅读全文