1、JIANGSUUNIVERSITY本科毕业论文口语考试试题分类器的设计与实现THEDESIGNBUDGETIMPLEMENTATIONOFTHETESTCLASSIFIERFORTHEORALEXAM学院名称电气信息工程学院专业班级电信1102班学生姓名(3110503041)指导教师姓名指导教师职称副教授2015年6月江苏大学本科生毕业论文口语考试试题分类器的设计与实现I口语考试试题分类器的设计与实现专业班级电信1102学生姓名指导教师职称副教授摘要随着计算机多媒体技术的快速发展,多媒体阅卷越来越受到教育部门的重视。这使得口语考试试题分类系器越来越受人们重视,而支持向量机和口语考试试题分类有
2、着良好的结合点,从而使得基于支持向量机的口语考试试题分类成为这个领域的研究热点,支持向量机是一种基于结构风险最小化准则的分类学习机模型,它的应用十分广泛。口语考试试题分类中,口语文本特征的提取和合理选择是实现口语文本分类的一个关键步骤。口语文本分类一般分为预处理、统计、特征提取、训练和测试评价这几个步骤。本文主要研究基于支持向量机的口语考试试题分类,首先,把口语考试的语音转化为文本作为语料,在根据口语考试得分不同将口语语料进行分类,把口语分类的问题转化为文本分类的问题;其次是对这些口语文本进行特征的提取,组成特征向量,这些特征主要包括口语文本中的字符长度、名词代词比和定冠词频率误差等方面;最后
3、利用支持向量机分类器根据提取的特征对口语进行分类,对比语料分类结果、看分类器的准确率,调整惩罚参数C来提高分类器的性能。实验表明C154时,分类器的准确率达到最高8180。关键词特征提取文本分类支持向量机江苏大学本科生毕业论文口语考试试题分类器的设计与实现IITHEDESIGNBUDGETIMPLEMENTATIONOFTHETESTCLASSIFIERFORTHEORALEXAMABSTRACTWITHTHERAPIDDEVELOPMENTOFCOMPUTERMULTIMEDIATECHNOLOGY,MULTIMEDIASCORINGMOREANDMOREATTENTIONTOTHEEDUC
4、ATIONSECTORTHISMAKESORALEXAMCLASSIFICATIONSYSTEMISMOREANDMOREPEOPLESATTENTION,ANDSUPPORTVECTORMACHINESANDCLASSIFICATIONORALEXAMHASAGOODCOMBINATIONOFPOINTS,SOTHATBASEDONSVMCLASSIFICATIONORALEXAMINATIONPAPERSBECOMEAHOTTOPICINTHISAREA,SUPPORTVECTORMACHINEISASTRUCTURALRISKMINIMIZATIONCRITERIONOFCLASSIFI
5、CATIONBASEDLEARNINGMODEL,WHICHISWIDELYUSEDORALEXAMCLASSIFICATION,EXTRACTIONANDREASONABLECHOICESPOKENTEXTFEATUREISACRITICALSTEPTOWARDSSPOKENTEXTCLASSIFICATIONSPOKENTEXTCLASSIFICATIONISGENERALLYDIVIDEDINTOPREPROCESSING,STATISTICS,FEATUREEXTRACTION,TRAINING,TESTINGANDEVALUATIONTHESESTEPSINTHISPAPER,BAS
6、EDONSUPPORTVECTORMACHINECLASSIFICATIONORALEXAM,FIRST,ORALEXAMVOICEINTOTEXTASACORPUS,INSPEECHANDDIFFERENTWILLBECLASSIFIED,WILLBECLASSIFIEDACCORDINGTOORALQUESTIONORALEXAMSCOREINTOATEXTCLASSIFICATIONPROBLEMFOLLOWEDBYTHEEXTRACTIONOFTHESEFEATURESSPOKENTEXT,COMPOSITIONFEATUREVECTOR,THESEFEATURESINCLUDEASP
7、ECTSOFSPOKENTEXTCHARACTERSINLENGTH,NOUNSANDPRONOUNSTHANTHEDEFINITEARTICLETHEFREQUENCYERRORANDTHELIKEFINALLY,SUPPORTVECTORMACHINECLASSIFIERBASEDONEXTRACTEDFEATURESOFSPOKENLANGUAGETOCLASSIFY,COMPARECORPUSCLASSIFICATION,SEECLASSIFIERACCURACY,ADJUSTTHEPENALTYPARAMETERCTOIMPROVETHECLASSIFICATIONPERFORMAN
8、CEEXPERIMENTALRESULTSSHOWTHAT154,THECLASSIFICATIONACCURACYOF8180THEHIGHESTKEYWORDSFEATUREEXTRACTIONTEXTCLASSIFICATIONSUPPORTVECTORMACHINES江苏大学本科生毕业论文口语考试试题分类器的设计与实现III目录第一章绪论311课题研究背景和意义312国内外研究的现状与发展313论文内容的介绍4第二章语音分类621语音自动分类概述622语音文本分类的发展历史623语音文本分类关键技术8231语音文本的表示8232语音文本特征的提取10233权重计算12234常用的文本分
9、类算法1324文本分类的主要应用14第三章支持向量机的产生与发展1631SVM产生与发展1632支持向量机简介1733支持向量机分类17331线性可分支持向量分类机17332近似线性可分问题19333线性不可分问题1934常用的核函数21341核函数及特征21342核函数的判定和常用的核函数21343常用的核函数21第四章基于支持向量机的二分类文本分类器设计23江苏大学本科生毕业论文口语考试试题分类器的设计与实现IV41实验平台简介2342语音分类特征简介2343特征提取流程2444语音特征数据处理29441特征数据分析处理步骤29442单词文本特征数据降维35443整体特征数据降维3644惩
10、罚参数C的选取3745分类器性能测试38第五章总结4051本文总结4052工作展望40致谢42参考文献43江苏大学本科生毕业论文口语考试试题分类器的设计与实现1江苏大学本科生毕业论文口语考试试题分类器的设计与实现2江苏大学本科生毕业论文口语考试试题分类器的设计与实现3第一章绪论近年来,伴随着互联网的崛起,人们对口语考试试题自动分类器的需求越来越大。口语考试试题分类就是利用计算机技术对口语进行评分和评估。而且当下考试也已成为一种重要的考核形式,选拔人才、学生晋升、官员晋升等,但是如何利用计算机进行对口语评分的问题,仍然是一个亟待解决的问题。眼下对口语的评分主要还是由阅卷老师进行,这样的方法耗费了
11、大量的人力物力,而且阅卷老师还带有主观性,会因阅卷老师的兴趣爱好、心态情趣和当时的状态等多种主管因素带来偏差,从而造成不公平。因此最大限度的降低主观因素对评分造成的影响是很有必要的,实现客观有效而方便快捷的口语自动评分系统就很有必要。11课题研究背景和意义随着全球计算机与通讯技术的飞速发展、互联网络的普及与应用,传统口语考试的考试形式的弊端日益明显。传统口语考试效率低下,耗时长、成本高,需要大量的口语考官进行面试,一场考试只能对几名学生进行考评,若想对全体专业学生进行一次统一的口语考试,将是一项巨大的耗时耗力的工程;难以保证评分的公正、公平性,考官的考查点不同,势必会影响学生的分数,存在印象分
12、,很难有一个水平的考评标准。但是,口语考试试题分类器的技术将口语考试的文本语料进行文本分类进而判定其与主题的相关性,恰恰解决了传统考试存在的一些弊端。节省人力物力,是口语考试更加的客观,公正。同时语言文本信息的激增不仅增加了对于快速、自动文本分类的迫切需求,而且又为语料信息与客观主题的方法做了充分的准备。12国内外研究的现状与发展现行高校所采用的口语考试形式主要是师生间“人人对话”这种面对面的考试形式。这种“人人对话”式口语考试的主要优点有真实情景性(考虑到交际真实情景)、交互性师生交互、考生之间交互,这让学生能够在真实的情景环境中进行自我发挥,利于互动交流。而这种考试形式也有其缺陷考试效率低
13、下,耗时长、成本高。人人对话就需要大量的口语考官进行面试,一场考试只能对几名学生进行考评,若想对全体专业学生进行一次统一的口语考试,将是一项巨大的耗时耗力的工程;难以保证评分的公正、公平性,考官的考查点不同,势必会江苏大学本科生毕业论文口语考试试题分类器的设计与实现4影响学生的分数,存在印象分,很难有一个水平的考评标准。所以“人人对话”式的口语考试形式不能满足学校英语口语考试的需求,我们必须要重新规划和设计全新的口语考试模式,以适应高校日常的考试要求。针对传统的人与人面对面口语考试模式的弊端,利用文本分类技术设计并开发出一套“语音文本语料文本分类与主题相关性”的自动评分系统8。上个世纪50年代
14、末开始的自动文本分类研究,其中HPUHN在这个领域的研究拥有开创性的表现。到了1961年,MARON发表了他的第一篇自动分类的论文,在当时引起了不小的轰动,在这之后还有很多比较有影响力的科学家发表了自己关于自动分类的论文,其中著名的如情报学家SPARCK,SALTON等在这一领域进行了卓有成效的研究,直到90年代以来,统计方法和机器学习的这俩种方法被人们引进到文本自动分类中,并且取得了一定的成果而且逐渐取代了知识工程方法;机器学习方法较少的考虑文本语料的语义信息,因此将文本语料的的特征值提取并依据特征值判断主题匹配性的分类十分重要1。相比于外国的口语考试语料分类器的研究,口语考试语料分类器的研
15、究在国内还是比较晚的,据相关资料而知,国内的口语考试语料分类器研究工作是在上个世纪80年代开始的,大体而言国内的文本分类基本上还是处在一个实验阶段。13论文内容的介绍本文主要研究基于支持向量机的口语考试试题分类算法,文中主要介绍了支持向量机、以及支持向量机在口语考试中的应用,惩罚参数对SVM的影响等,结构安排如下第一章,绪论。主要介绍了课题的研究背景、研究意义、国内外现状,概述本论文的的主要工作以及结构安排。第二章,语音文本分类相关知识。由于基于支持向量机的文本分类是众多文本分类方法中的一种,它以文本分类为基础。因此本文对文本分类的相关知识做了详细的介绍,如语音文本表示、特征选择。权重计算。文
16、本分类算法等文本分类的关键技术。第三章,支持向量机相关知识。支持向量机的应用领域十分广泛,口语考试试题分类器是其中中一种比较典型的应用。本文研究的是基于支持向量机的口语考试语料分类的算法,所以也有必要介绍支持向量机的相关知识。本章中主要介江苏大学本科生毕业论文口语考试试题分类器的设计与实现5绍了支持向量机的基本原理、支持向量机的分类、支持向量机的核函数。支持向量机的应用步骤以及支持向量机分类方法的优缺点。第四章,主要讲使用支持向量机在口语语料自动分类方面的应用,详细的介绍了如何建立二分类文本分类器,以及对支持向量机的性能的测试,从而使支持向量机的性能达到最佳第五章,总结和展望。本章总结了通过实
17、验得出的结论,并叙述了本文中所用方法的不足,对将来的工作进行展望。江苏大学本科生毕业论文口语考试试题分类器的设计与实现6第二章语音分类21语音自动分类概述语音自动分类,首先是把口语考试的语音转化为文本作为语料,在根据口语考试得分不同将口语语料进行分类,这样就把对口语分类的问题转化为文本分类的问题,简称为文本分类,对大量的非结构化的文字信息由计算机系统根据待分类文本的内容自动分派到指定的类别中去,是一种有指导的学习过程,分类体系一般由人工构造。从数学的角度而言,文本分类是一种映射的过程,它是将待分类的文本映射到已有的类别当中去,这个映射机制可以是一对一,也可以是一对多的映射机制,这是因为一篇文章
18、可能会涉及多个主题。用数学表达式表示如下FAB其中,A是待分类的文本集合,B是分类体系中的类别集合,F则是这个映射的法则,由A到0JAC这么一个过程是在F的规则下完成的。其中F是系统根据待分类文本的数据信息,总结出来的分类公式和分类规则。文本自动分类的过程一般而言可以划分为训练和分类两个部分。训练的目的是通过样本和类别之间的联系构造分类模型,使其用于分类。分类则是依据训练结果对未知样本进行分类,给出类别标识的过程。如下图测试集训练集预处理选择特征向量空间模型特征表示向量空间模型训练过程支持向量机分类器测试过程类别图21文本分类一般过程22语音文本分类的发展历史文本分类的研究可以追溯到上世纪六十
19、年代,早期的文本分类主要是在知识江苏大学本科生毕业论文口语考试试题分类器的设计与实现7工程(KNOWLEDGEENGINEERING)的基础上展开的,其方法是认为的手工指定一些规则来对文本进行自动分类,可想而知,这种方法耗时耗力,而且还必须要对所涉及的这个领域有足够的了解,这样才能够写出合理的法则出来才。到了20世纪90年代初,互联网上涌现了大量的在线文本和兴起了机器学习的浪潮,研究者们对大规模的文本(包括网页)的分类和检索产生了浓厚的兴趣。文本分类系统先是在已经分类好的文本集上进行训练,以此来确定一个判别准则或则是建立一个分类器,进而对未知类别的待分类文本的样本进行自动分类。通过大量的实验数
20、据表明,这样的分类的精度和那些专家以手工分类的结果不相上下,更值得一提的是它的学习过程不需要任何专家作任何干涉,它能够适应任何领域的学习,使得它成为目前文本分类的主流方法15。1971年,ROCCHIO首次提出了一种交互的方法,这种方法就是用户在查询的过程中不断地会有一些反馈,通过用户的这些反馈来修正类权重向量,从而构成简单的线性分类器。MARKVANUDEN、MUN等还给出了另外一些修改权重的方法。1979年,VANRIJSBERGEN系统的总结了信息检索领域,这其中有一些关于信息检索的新概念,如向量空间模型VECTORSPACEMODEL8和评估标准如准确率PRECISION、回召率REC
21、ALL等等,这些概念后来陆陆续续的被凌辱到了文本自动分类当中来,VANRIJSBERGEN还重点的探讨了信息检索的概率模型,至此后来的文本分类研究基本上是建立在这个概率模型上的6。1992年,LEWIS发表了他的一篇博士论文REPRESENTATIONANDLEARNINGININFORMATIONRETRIEVAL,在这片博士论文中他向人们系统地介绍了实现文本分类系统的各个细节,他还在自己建立的数据集REUTERS22173上进行了测试。这篇博士论文奠定了LEWIS在文本分类领域的地位,他的这篇博士论文也是文本分类领域的经典之作。后继的研究者们还在特征的降维和分类器的设计方面做了大量的研究工
22、作,YIMINGYANG对各种特征选择方法以实验的方法进行了分析和比较,包括信息增益INFORMATIONGAIN、互信息MUTUALINFORMATION、统计量等等方法,她还参阅了大量的文献并对文献当中所提到的所有的文本分类方法进行了一次详细的审阅,还对这些分类器的性能作了详细的比较并发表在公开数据集REUTERS21578和OHSUMED上,她所发表的这些对后来的研究起到了重要的参考作用。江苏大学本科生毕业论文口语考试试题分类器的设计与实现8到了1995年,VIPNIK在统计理论的基础提出了支持矢量机SUPPORTVECTORMACHINE方法,其基本思想是寻找最优的高维分类超平面。因为
23、这种方法是以成熟的小样本作为统计理论的基础,所以它在机器学习领域得到了广泛的重视。后来THORSTENJOACHIMS还第一次将线性核函数的支持矢量机用于文本分类,这种方法与传统的算法相比,大大的提高了支持矢量机的分类性能,而且它还在其他不同的数据集上体现了算法的鲁棒性。至今,文本分类研究的热点依旧是支持矢量机的理论。就在出现支持矢量机的同时,1995年及其后,以YOAVFREUND和ROBERTESCHAPIRE等人共同发表的关于ADABOOST的论文为标志,在机器学习算法的研究方面出现了另一个高峰。ROBERTESCHAPIRE通过理论和实验两个方面总结出ADABOOST算法框架的合理性。
24、后继的研究者们还在这个框架的基础下得到了很到类似于BOOSTING的算法,这其中比较有代表性的有REALADABOOST,LOGITBOOST,GENTLEBOOST等等。而且后来的文本分类研究中都应用到了这些算法,并且取得和支持矢量机一样好的效果。总之,尽管机器学习理论在文本分类研究中起到了不可或缺的作用,并且在这之前它的作用也一直被低估,但是它在文本分类中所扮演的角色决定了它所固有的特性给及其学习提出了全新的挑战,这就是的文本分类的研究任就处在信息处理领域一个相对开放的、重要的研究方向。23语音文本分类关键技术231语音文本的表示一般而言,文本是有众多字符构成的一个集合,这样的一个集合是无
25、法被计算机中的学习算法直接训练或者分类的5。那么如何才能够将机器学习运用到文本分类的问题当中去呢,首先要坐的就是将训练和待分类的文本对象,转化为计算机学习语言能够接受和易于处理的那么一种形式,这就运用到文本的特征表示方法,顾名思义文本的特征表示方法就是指用文本的一定的特征量来代表文本本身,随后自对文本进行分类的时候就对这些特征项进行处理,从而实现对非结构化文本的处理。做这样一个工作的前提是现有文本分类技术的特征和文本类别密切相关,要使得计算机能高效的处理真实文本,就必须找到一种理想的形式化表示方法,这种表示一方面能真实的反映文档内容主题、领域或结构等,另一方江苏大学本科生毕业论文口语考试试题分
26、类器的设计与实现9面也要有对不同文档的区分能力。现今有多种特征表示模型,常用的有布尔模型、概率模型、向量空间模型等。向量空间模型是近年来应用较多且效果较好的方法之一。目前文本表示通常采用向量空间模型VECTORSPACEMODEL,VSM。20世纪60年代末期是由GSALTON等人提出的,是当前自然语言处理中常用的主流模型。下面我们简单的介绍这几种比较常用的模型(1)布尔模型(BOOLEANMODEL)布尔(BOOLEAN)模型是基于集合论和布尔代数的一种简单检索模型。在传统的信息检索中较为广发使用的就是布尔模型,这是因为它的检索最简单,同时也是其他检索模型的基础。它是一种简单的严格匹配模型(
27、EXACTMATCHMODEL),它定义了一个二值变量集合来表示文本。布尔模型的优点是它实现起来比较简单,执行的速度快,但同时它的缺点也比较明显,它有以下两个较为突出的缺点一是它是基于二元判断的检索策略,缺乏文档分级,这就在一定程度上限定了检索的功能。二是虽然布尔表达式语义很精准,但常常还是很难将用户的信息需求转换为布尔表达式,事实也是这样很多用户也会发现他们很很难将检索转化为布尔表达式。(2)概率模型(PROBABILISTICMODEL)概率模型考虑词与词的相关性,会把文本集当中的文本分为相关文本和物管文本。然后以概率论为基本原理,再通过给某些词赋予一定的概率值来确定这些词在相关文本和无关
28、文本当中出现的概率,再然后计算文本相关的概率,最后系统根据这些概率作出决策。概率模型有多种形式,比较常见的就是第二概率模型,其基础思想是词的概率值一般是对重复若干次相关性计算,每重复一次,就由用户对检出文本进行人工判断。然后利用这种反馈信息,根据每个词在相关文本集合和无关文本集合的分布情况来计算它们的相关概率。概率模型的优点是采用严格的数学理论为依据,为人们提供了一种数学理论基础来进行匹配,采用相关性反馈原理,可开发出理论上更为坚实的方法。缺点是增加了存储和计算资源的开销,且参数估计难度较大。还有就是开始时需要猜想把文档分为相关和不相关的两个集合,实际上这种模型没有考虑索引术语在文档中的频率(
29、因为所有的权重都是二元的),而索引术语都是相互独立的。(3)向量空间模型(VECTORSPACEMODEL,VSM)江苏大学本科生毕业论文口语考试试题分类器的设计与实现10向量空间模型(VSMVECTORSPACEMODEL)由SALTON等人于20世纪70年代提出11,并成功地应用于著名的SMART文本检索系统。它自诞生以来一直就是信息检索领域最为经典的计算模型。一般情况空间向量模型是使用词来代表文本的特征信息,每个词都成为一个特征项。所以在向量空间模型中,每个文本都能表示为由一组规范化正交矢量所组成的向量空间中的一个个点,也就是说是形式化为空间中的向量。232语音文本特征的提取文本中词空间
30、维度很高,而且不同的词对文本的贡献是不一样的,所以我们要先度量一下词在文本中的权重,只有那些达到一定权重阀值的词才能够作为代表文本的关键词。关键词的提取过程就是文本特征提取的过程,特征提取可以在一定程度上缓解过匹配现象。采用统计方法的模式识别使用特征参数将模式表达为特征空间的向量,然后使用判别函数进行分类。当数据量越来越大,提取特征变得相对比较困难,这里所谓的特征提取就是对一开始的数据进行初始分析,从中来发现最能反映模式分类的本质特征。这个过程会伴随着维数的增长,随着维数增长所需要的计算开销也会急剧增加,为了降低计算的复杂程度就需要对空间的维度作降维处理。因此模式的特征提取和选择是文本处理技术
31、的关键一环。文本特征提取的本质就是高维数据的降维技术,即将高维数据通过变换映射到低维空间。如何才能处理好降维问题,因为在降维过程中可能掩盖数据的原有信息,有可能原本在高维空间存在明显差异的特征映射到低维空间是这些特征的差异就难以判别。因此,需要一个合适的映射来处理丛高伟向低维的转变,这样才能将高维空间中的目标信息尽可能的映射到低维空间当中去。特征提取的方式有四种第一种方式是用映射或变换的方法把原始特征变换为较少的新特征;第二种方式是从原始特征中挑选出一些最具代表性的特征;第三种方式是根据专家的知识挑选最有影响的特征;第四种方式是用数学的方法进行选取,找出最具分类信息的特征,由于这种方法没有什么
32、认为干扰因数,所以这种方法很适合文本自动分类挖掘系统的应用。目前,常用的方法有评估函数法、主成分分析法、模拟退火算法等。本文在这里只介绍一下评估函数方法不同的特征项对于文档的重要性和区分度是不同的,通常高频特征项在多个类中出现,江苏大学本科生毕业论文口语考试试题分类器的设计与实现11并且分布较为均匀,因此区分度较小,而低频特征项由于对文档向量的贡献较小,因此重要性也较低。去除区分度较小的噪音特征项可以提高分类正确率,去除重要性较低的低频特征项可以加快运行速度。因此需要建立合适的特征评价函数,对特征项进行选择12。用评估函数的方法进行特征提取的思想是对特征集中的每个特征进行独立的评估,这样每个特
33、征将获得一个评估分值,然后对所有的特征按照其评估分值的大小进行排序,选取预定数目的最佳特征作为特征子集,其中阈值的选取要根据具体问题的实验来确定。常用的方法有词频DFDOCUMENTFREQUENCY、互信息MIMUTUALINFORMATION、信息增益IGINFORMATIONGAIN、统计量等方法,下面将对其进行简要介绍。(1)词频方法词频就是文档集合中出现某个特征项的文本数目。在特征项选择中,计算每个特征项在训练集合中出现的频次,根据预先设定的阈值去除那些词频特别低和特别高的特征项词频的计算复杂度较低,随训练集的增加而线性增加,能够适用于大规模语料,因此是特征降维的常用方法。其基本原则
34、是很少出现的特征对分类价值极小,对整个分类系统的效果影响也很小,因此,将这些特征去掉有助于降低特征空间维数,并且当这些不常出现的特征为噪音时,还会有助于提高分类正确率。但在信息检索领域,词频较低的特征项被认为是信息含量较高,与文本分类中的原则是相反的。词频是最简单的特征降维方法,易用于线性计算的集合,但是不适用于回归词语的排除。(2)互信息方法互信息可以度量特征项和类别的共现关系,特征项对于类别的互信息越大,它们之间的共现概率也越大。下面给出基于互信息的特征提取算法步骤1)初始情况下,该特征集合包含所有该类中出现的词;2)对于每个词,按照上面的公式计算词和类别的互信息量;3)对于该类中所有的词
35、,依据它们的互信息量排序;4)提取一定数量的词作为特征项,具体需要抽取多少维的特征项,目前无很好的解决方法,一般采用先定初始值,然后根据实验测试和统计结果确定最佳值;5)将每类中所有的训练文本,根据抽取的特征项,进行向量维数压缩,精江苏大学本科生毕业论文口语考试试题分类器的设计与实现12简向量表示。互信息的不足之处在于互信息量非常容易受词条的边缘概率的影响,使得互信息评估函数经常倾向于选择稀有词条。(3)信息增益方法信息增益在机器学习中经常被用做特征词评判的标准,它是一个基于熵的评估方法,涉及较多的数学理论和复杂的熵理论公式,定义为某特征在文本中出现前后的信息熵之差。信息增益可以度量特征项在某
36、种分类下表示信息量的多少,以正反两类用1,1来代表的情况为例,通过计算信息熵得到那些在正例样本中出现频率高而在反例样本中出现频率低的特征项,以及那些在反例样本中出现频率高而在正例样本中出现频率低的特征项。根据训练文本,计算出各个特征词的信息增益,按照信息增益的值从大到小排序,根据给定阈值,删除信息增益较小的特征项。信息增益的不足之处在于,它考虑了词条未发生的情况。虽然某个词条不出现也可能对判断文本类别有贡献,但实验证明,这种贡献往往远远小于考虑词条不出现情况所带来的干扰。(4)统计统计得分的计算有二次复杂度,相似于互信息和信息增益。在统计和互信息之间主要的不同是是规格化评价,因而评估分值对在同
37、类中的词是可比的,但是统计对于低频词来说是不可靠的。233权重计算不同的特征项对文本的重要程度和区分度是不同的,所以在对文本分类模型进行形式化的时候,需要对所有特征项进行赋权重处理13,常用的加权函数有布尔权重、词频权重、TFIDF权重等。(1)布尔权重BINARYWEIGHTING布尔权重是最简单的一种加权方法,特征词出现的次数为0,则权重赋为0特征词出现的次数大于O,则权重赋为1。10KTKDW如果特征在文中出现其它(27)(2)词频权重词频权重以该特征词在文档中出现的次数作为其的权重。使用文档中特征词江苏大学本科生毕业论文口语考试试题分类器的设计与实现13的频率做权重可以提高文本分类的查
38、全率,但对准确率不好。这种方法比较简单,因为有些词出现的频率虽然非常高,但是没有什么代表性,这样使一些噪音词的权重比较高,从而降低了分类的准确率。234常用的文本分类算法(1)K最近邻接分类算法KNNKNN方法是最著名的模式识别统计学方法之一,它是在最近邻方法NNNEARESTNEIGHBOR的基础上为了克服NN法错判率较高的缺陷而被广泛推广。KNN最常见的应用是用于由向量空间模型表示的文档的分类问题。KNN的做法是给定一个测试文档,系统在训练集中查找离他最近的K个邻居,并根据这些邻居的分类来给该文档的候选分类评分。把邻居文档和测试文档的相似度作为邻居文档所在分类的权重,如果这K个邻居中的部分
39、文档属于同一个类,则将该分类中的每个邻居的权重求和并作为该分类和测试文档的相似度。通过对候选分类评分的排序,给出一个阈值,就可以判定测试文档的分类。有许多实验表明KNN是非常有效的,有更高的分类准确性和稳定性。它是一种基于要求的或懒惰的学习方法,它存放所有的训练样本,无需事先对文本进行训练,直到测试样本需要分类时才建立分类。但它最大的缺陷是占用大量的分类时间,对一个线性分类器来说,只需要计算一个点积就可以对测试实例进行分类了,而KNN则需要把整个训练集按与测试实例的相似度排序,因此当训练文档数增加时,其分类时间将急剧增加。(2)朴素贝叶斯分类算法NB朴素贝叶斯NAIVEBAYES,NB是一种简
40、单的线性分类器。它在文本分类中应用得非常普遍。朴素贝叶斯是基于一个基本的假设上假定样本的特征项是相互独立的。这个假设,一方面大大简化了贝叶斯分类器的计算量;另一方面它也导致了贝叶斯分类器的分类质量不太理想。纯粹贝叶斯假设文本是基于特征的一元模型,即文档中特征的出现只与文档类别有关,与文档中的其它特征及文档长度无关。也就是说,特征与特征之间彼此相互独立。尽管这个假设在实际文本中是不成立的,但在实际中应用中NB分类器一般都能取得相对较好的结果。(3)基于支持向量基的分类方法支持向量机SUPPORTVECTORMACHINES,SVM由VAPNIK在1995年提出,是江苏大学本科生毕业论文口语考试试
41、题分类器的设计与实现14一种基于统计学习理论的新型的通用学习方法,它建立在统计学习理论的VC理论和结构风险最小化原理的基础上,根据有限样本信息在模型的复杂性即对特定训练样本的学习精度和学习能力即无错误的识别任意样本的能力之间寻求最佳折衷,以期获得更好的泛化能力。其基本思想是首先通过非线性变换将输入空间映射到一个高维特征空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的内积函数核函数来实现的。24文本分类的主要应用文本分类技术的研究目标就是实现文本分类的自动化,以达到降低分类费用、改善分类性能如提高分类精度和分类的一致性等目的15。文本分类作为信息检索、信息过滤、文本数
42、据库、数字化图书馆等领域的技术基础,有着广泛的应用前景。1信息检索文本分类最早应用于信息检索领域,把大量的文本信息按主题层次归类组织可以极大地简化对信息的检索。如果按照类别对文本进行检索或对检索结果进行一次文本分类,都可以提高检索的查准率。2信息过滤网络的发展与普及,大大方便了我们获取信息。但信息量之大给人们对信息的处理带来了很大困难,无法快速地得到用户所需的信息,同时还会带来一些反面的信息。信息过滤技术可以用来解决这些问题,信息过滤本质上是一个两类分类问题,既可以用来将用户反感的信息过滤掉,也可以将用户感兴趣的信息过滤出来,主动地推送给用户。现在较典型的应用就是邮件过滤。3文本数据库随着研究
43、的深入,文本数据库的功能已经不再局限于存储、组织和查询文本信息,而是要提供多层次的服务,如文本挖掘。文本分类技术不仅对文本数据库如何存储、组织具有重要的意义,而且也是文本挖掘的重要内容。4数字图书馆图书馆的数字化管理是大势所趋,图书期刊全文数字化的比重正日益增大。对图书归类时,使用自动文本分类技术,可以正确地对图书资料进行迅速归类。以上所介绍的只是文本分类技术应用的几个方面,它们还可以用在搜索引江苏大学本科生毕业论文口语考试试题分类器的设计与实现15擎、元数据提取、构建索引、歧义消解等领域。因此,意大利科学家认为文本分类技术可以被看作是所有基于内容的文本信息管理的基础。由此可以看出文本分类技术
44、在信息处理领域的重要性。江苏大学本科生毕业论文口语考试试题分类器的设计与实现16第三章支持向量机的产生与发展31SVM产生与发展基于数据的机器学习是现代智能技术中的重要研究内容,它研究如何从观测数据样本出发寻找规律,并利用这些规律对未来数据或无法观测的数据进行预测。现有的机器学习方法包括模式识别、神经网络等共同的重要理论基础之一是统计学,传统统计学研究的是样本数目趋于无穷大时的渐进理论,但在实际问题中,样本数往往是有限的,因此一些理论上很优秀的学习方法实际中却可能表现得不尽人意。自1995年VAPNIK在统计学习理论的基础上提出SVM作为模式识别的新方法之后,SVM一直倍受关注。同年,VAPN
45、IK和CORTES提出软间隔SOFTMARGINSVM,通过引进松弛变量I度量数据IX的误分类分类出现错误时I大于0,同时在目标函数中增加一个分量用来惩罚非零松弛变量即代价函数,SVM的寻优过程即是大的分隔间距和小的误差补偿之间的平衡过程;1996年,VAPNIK等人又提出支持向量回归SUPPORTVECTORREGRESSION,SVR的方法用于解决拟合问题。SVR同SVM的出发点都是寻找最优超平面,但SVR的目的不是找到两种数据的分割平面,而是找到能准确预测数据分布的平面,两者最终都转换为最优化问题的求解;1998年,WESTON等人根据SVM原理提出了用于解决多类分类的SVM方法MULT
46、ICLASSSUPPORTVECTORMACHINES,MULTISVM,通过将多类分类转化成二类分类,将SVM应用于多分类问题的判断2。此外,在SVM算法的基本框架下,研究者针对不同的方面提出了很多相关的改进算法。例如SUYKENS提出的最小二乘支持向量机LEASTSQUARESUPPORTVECTORMACHINE,LSSVM算法,JOACHIMS等人提出的SVM1IGHT,张学工提出的中心支持向量机CENTRALSUPPORTVECTORMACHINE,CSVM,SCHOLKOPH和SMOLA基于二次规划提出的VSVM等。此后,台湾大学林智仁LINCHIHJEN教授等对SVM的典型应用进
47、行总结,并设计开发出较为完善的SVM工具包,也就是LIBSVMALIBRARYFORSUPPORTVECTORMACHINES。上述改进模型中,VSVM是一种软间隔分类器模型,其原理是通过引进参数V,来调整支持向量数占输入数据比例的下限,以及参数来度量超平面偏差,代替通常依靠经验选取的软间隔分类惩罚参数,改善分类效江苏大学本科生毕业论文口语考试试题分类器的设计与实现17果;LSSVM则是用等式约束代替传统SVM中的不等式约束,将求解QP问题变成解一组等式方程来提高算法效率;LIBSVM是一个通用的SVM软件包,可以解决分类、回归以及分布估计等问题,它提供常用的几种核函数可由用户选择,并且具有不
48、平衡样本加权和多类分类等功能,此外,交叉验证CROSSVALIDATION方法也是LIBSVM对核函数参数选取问题所做的一个突出贡献;SVM1IGHT的特点则是通过引进缩水SHRINKING逐步简化QP问题,以及缓存CACHING技术降低迭代运算的计算代价来解决大规模样本条件下SVM学习的复杂性问题。32支持向量机简介SVM是在高维特征空间使用线性函数假设空间的学习系统,它集成了最大间隔超平面、MERCER核、凸二次规划、稀疏矩阵核松弛变量等多项技术16。训练集是训练文本的集合,通常表示为11111,YXYXLYXS31其中L是文本数目,XI指文本,IY是它们的标记,X表示输入空间,Y表示输出
49、域。如图31所示,假设空心和实心点表示两类训练样本,实线为分类面,虚线为平行于实线的平面,并且是经过两类训练样本中离分类面最近的平面。如果训练集中的所有训练样本均能被某超平面正确划分,且距该平面最近的异类向量之间的距离最大,该平面为最优超平面,用0BXW表示3。其中W为分类面的法线,B为分类面的偏移量,向量X位于分类面上,其中位于虚线上的向量被称为支持向量图31中加圈的点。图31二维训练集的分类超平面33支持向量机分类331线性可分支持向量分类机对于图31所示的问题,很容易用一条直线把训练集正确地分开即两类点江苏大学本科生毕业论文口语考试试题分类器的设计与实现18分别在直线的两侧,没有错分点,这类问题称为线性可分问题。对于这类问题,应用最大“间隔”的思想,就是求解最优化问题4。2,12MINWBW1BXWYTS(34)MI,1进一步,支持向量机方法首先求解该问题的对偶问题最小化形式,,21MIN11AJIJIJMIMJIXXAAYY3501IMIIAYTS0IA,MI,1然后根据对偶问题的解得到原问题的解,具体求解过程就是根据原始问题的LAGRANGE函数以及KKT条件可以计算得到IXIMIIAYW1选择的一个分量JO,1JIMIIJXXIYYAB,从而来确定决策函数
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。