基于SVM的汉语问句分类研究【毕业论文】.doc

上传人:文初 文档编号:17415 上传时间:2018-04-26 格式:DOC 页数:32 大小:373.88KB
下载 相关 举报
基于SVM的汉语问句分类研究【毕业论文】.doc_第1页
第1页 / 共32页
基于SVM的汉语问句分类研究【毕业论文】.doc_第2页
第2页 / 共32页
基于SVM的汉语问句分类研究【毕业论文】.doc_第3页
第3页 / 共32页
基于SVM的汉语问句分类研究【毕业论文】.doc_第4页
第4页 / 共32页
基于SVM的汉语问句分类研究【毕业论文】.doc_第5页
第5页 / 共32页
点击查看更多>>
资源描述

1、本科毕业设计(20届)基于SVM的汉语问句分类研究所在学院专业班级计算机科学与技术学生姓名学号指导教师职称完成日期年月I摘要【摘要】问答系统是搜索信息的高级形式,其中问句理解模块中的问句分类任务能够为后续的信息搜索模块缩小搜索的范围,并对答案抽取模块制定抽取策略起到帮助的作用,对整个问答系统的性能提高具有推动作用。目前汉语问答系统尚处在发展阶段,尤其需要追求每个过程的品质,所以汉语问句分类作为首要子过程极具研究价值。借鉴国外英语问答系统中问句分类的方法,引入统计学理论,采取支持向量机SVM对汉语问句进行分类比较可行且有效,由于问句集经过处理后得到的特征向量模型的空间维数较高,SVM可以有效解决

2、高维问题;问句向量特征独立性较大,SVM能够不受特征独立性假设的影响;问句向量特征较少,SVM具有主动学习能力。此外,如果缺乏用于公测的问句集,支持向量机在自行构建的问句集上仍然可以得到相对最优的结果,具有良好的泛化和推广性。【关键词】问答系统;汉语问句分类;支持向量机;特征词。IIABSTRACT【ABSTRACT】QAQUESTIONANSWERINGSYSTEMISAHIGHLEVELFORMFORSEARCHINGINFORMATION,AMONGTHEQUESTIONCOMPREHENSIONMODULE,THETASKOFQUESTIONSCLASSIFICATIONCANSHRI

3、NKTHESEARCHINGRANGEFORTHEINFORMATIONSEARCHMODULEWHICHISFOLLOWUP,ANDHELPTHEANSWEREXTRACTIONMODULETOFORMULATEEXTRACTIONSTRATEGY,IMPROVETHEPERFORMANCEOFTHEQASYSTEMATPRESENTCHINESEQASYSTEMISSTILLATTHEDEVELOPMENTSTAGE,ESPECIALLYSHOULDPURSUITQUALITYATEVERYPROCESS,SOASTHEPRIMARYSUBPROCESS,CHINESEQUESTIONCL

4、ASSIFICATIONDESERVESAHIGHSTUDYVALUETAKEEXAMPLEBYTHEQUESTIONCLASSIFICATIONMETHODINFOREIGNENGLISHQASYSTEM,INTRODUCINGSTATISTICALLEARNINGTHEORY,ANDUSINGSUPPORTVECTORMACHINESVMTOCLASSIFYCHINESEQUESTIONSISMOREFEASIBLEANDEFFECTIVEBECAUSEAFTERWORDTODATACONVERSION,THECORPUSARERECEIVEDAHIGHERDIMENSIONFEATURE

5、SPACE,SVMJUSTCANSOLVESUCHPROBLEMOFHIGHDIMENSIONTHECORRELATIONSOFCHARACTERISTICSINQUESTIONVECTORAREWEAK,SVMCANBEUNAFFECTEDONTHEIMPACTOFCHARACTERISTICSINDEPENDENCEASSUMPTIONTHECHARACTERISTICSOFQUESTIONVECTORAREVERYSPARSE,SVMHASTHEABILITYOFACTIVELEARNINGINADDITION,UNDERTHECONDITIONOFLACKINGCORPUSFOROPE

6、NTEST,SVMWITHGOODGENERALIZATIONANDEXTENSIONCANSTILLTOREACHRELATIVEBESTRESULTSONSELFBUILTCORPUS【KEYWORDS】QUESTIONANSWERINGSYSTEM;CHINESEQUESTIONCLASSIFICATION;SUPPORTVECTORMACHINECHARACTERISTICWORD。III目录摘要IABSTRACTII目录III1绪论111课题背景1111国外问答系统研究现状1112国内问答系统研究现状1113问答系统基本原理2114汉语问句分类概论212文章概要3121课题研究内容3

7、122论文组织结构32支持向量机理论521问句分类中的统计学5211统计学习理论5212VC维和推广性的界5213结构风险最小化SRM原则6214支持向量机发展622支持向量机原理6221最优分类面与线性问题6222核函数与非线性问题8223支持向量机在分类上的应用923本章小结93汉语问句表示过程1031自然语言处理技术10311分词技术11312停词处理11313分类体系1132自然语言转换技术13321计算特征词的权重13322特征词词表13323向量空间模型14324构造矩阵形式的空间模型1433本章小结154汉语问句分类过程1641系统实现16411系统结构设计16412软件的编程开

8、发1642基于LIBSVM的分类17421参数选择及分类流程18422分类准确率的分析1943本章小结20IV5全文总结2151总结2152展望21参考文献22致谢错误未定义书签。附录2311绪论11课题背景如今已是网络信息爆炸的时代,信息浩如烟海,人们对于网络的普遍需求是怎样快速寻找到自己想要的信息。尽管目前有比较知名的搜索引擎如百度、谷歌等,但是都存在很多不足,而对于更加准确、高效、人性的智能检索系统的研发成为人们迫切的愿望。问答系统QUESTIONANSWERINGSYSTEM,QA正是在这个关键时期应运而生,它是指系统接受用户以自然语言形式输入一个问句,随后能够从大量的数据中查找出并且

9、为用户返回一个简洁、准确的答案,是属于信息搜索系统的高级形式。目前,已开发出的问答系统与理想的模型还存在较大差距,搜索效果仍达不到实际应用的要求。经过搜集大量资料进行研究发现,其中一个重要原因就是系统对问句的理解程度不够准确,如果对问句分析模糊或者判断失误,那么必然会导致答案的错误。所以只有首先明确问句的正确含义,确定类别范围,才能使后续操作得到满意的结果。问句分类作为问句理解阶段的核心任务,正是担负着明确问句主题信息的功能去主导后续的操作,比如定位搜索范围和确定抽取算法策略,所以,问题分类的研究对提高问答系统的准确率有着尤其重要的意义。111国外问答系统研究现状60年代初,当人工智能的理论刚

10、刚诞生的时候,人们就开始研究用计算机来回答自然语言形式的提问。正如图灵实验所表明的那样,如果计算机能够用自然语言和人进行交互,那么计算机就拥有了智能。许多计算机科学家和研究爱好者为了探索机器对语言的理解技术,都纷纷在问答系统领域里开展研究。但是由于当时技术条件的限制,问答系统只局限于专业领域或是在固定段落上进行答案搜索。后来由于大规模文本处理技术的兴起,问答系统的研究被暂时搁置。随着时代发展,网络和信息技术已经逐渐普及全世界。搜索引擎的出现促使了人们对于获取高效而且准确的信息的迫切愿望。在文本检索会议TREC(TEXTRETRIEVALCONFERENCE)的支持下,问答系统的研究重新被重视起

11、来。目前国外已经开发出很多成功的问答系统。在大规模开放域问答系统方面,有基于知识库的START,基于句法分析的MURAX,基于语义分析的ASKJEEVES和借助网络搜索引擎的MULDER等;而在小规模受限域问答系统方面,德国和日本的发展水平较为领先,他们先后开发了关于旅游领域常识的问答系统和基于垂直搜索引擎的专业领域知识的问答系统等。112国内问答系统研究现状相比之下,汉语问答系统还没有显著的成果,国内的开发热情也较为低迷。主要原因是涉及汉语语言形式处理的特点和难点,以及用于处理汉语语言形式的基础资源比较缺乏,导致许多关键技术2的应用没有用武之地,另外国家投入和重视程度也不够充分。目前国内的一

12、些高校和科研机构参与了自动问答技术的研究和开发,比如中科院研究所、复旦大学、哈尔滨工业大学、北京大学、香港科技大学、台湾大学、台湾NATIONALDEFENSEMANAGEMENTCOLLEGE机构等,但是研究关于汉语自动问答技术的相对较少,而且基本没有理想的汉语自动问答系统。哈尔滨工业大学是最早开始研究汉语问答系统的高校之一,经过多年的不懈努力,产出了许多成果,涉及到的领域面和知识面也非常多元和广泛。其中的问车总动员问答演示平台,其核心思想是利用数据挖掘技术挖掘论坛中的信息来构造一个知识库,论坛是集中了大量人类知识的平台,包括娱乐、新闻、教育、旅游等多个方面,并提供多用户提问解答和参与讨论的

13、功能。台湾的NATIONALDEFENSEMANAGEMENTCOLLEGE研制的CQAS问答系统,则基于命名实体识别及其关系处理的技术,通过特征因子表示文本的方法,将汉语文本转换成关系串列方式(ERE),并借助这个关系串列方式来查找答案。实验结果表明,系统分析的关系串列方式资料越多,答案的正确率越高。113问答系统基本原理问答系统是信息搜索的一种形式,而传统的信息搜索方式只是基于关键词的搜索,问答系统则是在此基础上发展起来的,不仅具有更为精确的结果,而且具有对问答关系更为深入理解的技术。问答系统基本由问句处理,信息搜索和答案抽取三部分组成。问句处理是对用户输入的问句进行分析、分解。具体细致的

14、处理过程包括句法分析,词法分析,问句类型划分,语义分析,命名实体识别等。信息搜索与传统的基于关键词的信息搜索类似,主要负责获取信息,信息来源可以是INTENET、数据库或知识库中所有可能包含答案的网页或文本,并对大量的信息进行初步筛选。答案抽取是问答系统的最终环节,也是整个系统的核心部分。该阶段的任务是从信息搜索模块获取的结果中抽取对应问句的答案,返回给用户。其关键是对搜索结果的内容解析,使之与问句处理的结果相匹配。114汉语问句分类概论问句分类的任务是以人工确定的分类体系为模板,通过分析问句内容或判断问句模式而得到问句的类型。问句类型与分类体系的关系就相当于数学概念中的映射关系,也就是未知类

15、别的问题和已有的类别形成映射关系。问句分类是问句理解阶段的核心模块,主要有两方面作用一、缩小信息搜索范围以提高系统效率;二、为答案抽取策略的制定提供类别信息。由此可见,信息搜索和答案抽取两个模块的工作流程都需要问句分类输出的信息,问句分类的效果贯穿整个问答系统。在汉语中应用分类技术源于搜索引擎中的文本分类技术,问句分类基本沿用文本分类的思想,但由于其语法结构和语义信息的特殊性,在处理过程中又有所不同。目前,关于英语问句分类的研究成3果很多,并且已经相当成熟。汉语问句分类由于汉语的复杂性和多样性以及语言处理技术发展的缓慢而受到牵制,始终未有质的突破。12文章概要本文的研究工作建立在已有的理论和成

16、果之上,构建出一个一定规模的汉语问句分类体系、将问句转换空间模型进行表示,应用中科院分词技术和支持向量机实现汉语问句分类。121课题研究内容1构建问句分类体系。凭借个人力量手动构建一个合理且完善的汉语问句集是一项非常艰巨的任务,而这样的问句集资源也很少,已经经过分类标注的就更少了。但如果没有这个基础资源,课题就无法开展和实施。所以如何寻找和组织一套较为全面、合理的问句集是首要问题,以后还要考虑怎么收集更多的信息来完善这个资源。2将文本转换成数据。机器无法识别汉语表达的问句,所以自然语言和机器语言之间的相互转换是应用支持向量机对问句进行分类的前提。目前可以借助已有的中科院分词包和空间模型理论实现

17、其中的若干步骤,并且考虑到支持向量机的分类过程,就要构思转换流程的策略,设计好接口。3选择支持向量机模型。对于不同的训练样本,所选择的最优核函数和参数不是固定的。根据以往的经验和实验数据,核函数相对容易确定,径向基核函数(RBF)也就是高斯核函数,它对不同规模的数据集的适应性最强,得到的分类效果也最稳定。而C和GAMMA两个参数的选择没有可以遵循的理论依据,只能依靠样本本身特性和实践经验。在实际应用中,参数对分类效果的影响力具有明显的表现,所以选择的模型直接关系着系统的分类性能。4基于支持向量机的汉语问句分类的实现过程。实践是检验理论的标准,构建问句集、转换问句数据、选择支持向量机模型都是单独

18、的子过程,将所有的子过程连接起来,把理论变成实践才具有实用价值。因此,本文的目的旨在实现一个汉语问句分类系统。122论文组织结构本文共分五章,文章结构及各章主要内容组织如下第一章绪论。总体介绍国内外问答系统的研究现状,阐释了问句分类的重要性和汉语问句分类的难度,并描述了分类的目标和分类的手段,声明了论文主题是基于SVM支持向量机的问句分类。第二章支持向量机理论。此章全文的理论依据,该章论述了统计学习理论和SVM的内部原理,并解释了利用核函数将低维空间向量映射到高维空间的过程,从而提出了将非线性问题转化为线性问题来解决的快捷方法。第三章汉语问句表示过程。本章阐述了汉语问句分类与自然语言处理技术和

19、转换技术的关系、问句分类体系的划分和汉语问句转换成机器可识别数据的步骤。4第四章汉语问句分类系统。本章论述了模型选择和参数选择的方法、意义及过程。在已有成果的基础上设计了汉语问句分类系统,实现了基本功能并取得一定效果,是应用机器学习方法在自然语言处理领域的一次尝试。第五章总结。对全文的工作进行了简要总结,分析了影响系统性能的一些因素和今后需要进一步完善的地方。52支持向量机理论21问句分类中的统计学对于问句分类方法的研究,目前主要集中在两个方面,一是基于规则的方法,通过专家提取各种问句类型的疑问词与其他相关词组合的特征规则,通过规则来判定问句所属类型。另一种是通过统计的方法,通过对经过标注的问

20、句语料进行统计学习,提取各种问句中能表达类型的特征词,建立学习模型,实现对问句的类型识别和预测。统计法具有通用、易于移植和扩展的特点,处理方式都是遵循数学原理或公式,对不同的语料库没有择优或者排斥的现象,所以在系统应用方面得到了普及。但是分类效果也就在很大程度上取决于语料库的质量和规模了。211统计学习理论区别于传统统计学,统计学习理论(STATISTICALLEARNINGTHEORY或SLT)是一种专门针对小样本情况研究机器学习规律的理论。早在六七十年代,VAPNIK等人就开始致力于这方面的研究,到九十年代中期,当时神经网络等学习方法缺乏理论上的实质性进展,统计学习理论随着其理论的不断发展

21、和成熟开始脱颖而出,并受到越来越广泛的重视。机器学习的目的是根据给定的训练样本求对某系统输入输出之间依赖关系的估计,使它能够对未知输出作出尽可能准确的预测。可以一般地表示为变量Y与X存在一定的未知依赖关系,即遵循某一未知的联合概率FX,Y,(X和Y之间的确定性关系可以看作是其特例),机器学习问题就是根据N个独立同分布观测样本在学习函数集(或预测函数集)FX,W中求一个最优的函数FX,W0对依赖关系进行估计,使期望风险最小。212VC维和推广性的界VC维定义样本能被指示函数集中的函数以所有可能性分成两类样本的最大数目H。VC维反映了函数集的学习能力,VC维越大则学习机器越复杂,但是每个函数集具有

22、特异性和各自适用的算法,所以目前尚没有通用的关于任意函数集VC维计算的理论。统计学习理论系统地研究了对于各种类型的函数集,经验风险和实际风险之间的关系,即推广性的界,它规定了经验风险和真实风险之间至少以1的概率满足如下公式所示RWREMPW|4/LN1/2LN|NHNH的关系,其中H是函数集的VC维,N是样本数,为介于0、1之间的参数,根式部分的意义是置信范围,它与VC维数和训练样本数有关,关系表示为RWREMPWH/N。这表明,在训练样本数6固定的情况下,VC维越高则置信范围越大,导致经验风险过于偏离真实风险,这也就形成了机器学习的现象。213结构风险最小化SRM原则传统的机器学习方法主张最

23、小化经验风险和优化置信范围,这种策略依赖先验知识和使用者的技巧和经验。统计学习理论则提出了一种新的策略,即把函数集构造为一个函数子集序列,使各个子集按照VC维的大小排列;在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得实际风险的最小。这种思想称作结构风险最小化(STRUCTURERISKMINIMIZATION),即SRM原则。214支持向量机发展支持向量机(SUPPORTVECTORMACHINE,SVM)是由VAPNIK等人在1995年提出的建立在统计学习理论基础上的一种新型机器学习方法,融合了统计学习理论中VC维、推广性的界以及结构风险最小化等理论思想,SVM能够根

24、据有限样本的信息,在样本学习精度(模型复杂性)和识别能力(学习能力)之间寻求最佳折衷。支持向量机被广泛的应用于处理回归、分类和模式识别等许多问题,并可推广到预测、评价和函数拟合,尤其在解决小样本问题上能表现出特有的优势。在理论上,支持向量机遵循结构风险最小化的原则来设计学习机制,折衷地优化经验风险和置信范围;在方法上,SVM借助核函数将非线性问题映射到高维特征空间转化成线性问题,再实现样本分类。目前,对支持向量机的研究主要集中在核函数及参数选取、如何提升训练速度、SVM算法的优化以及多分类问题的应用实现等方面。支持向量机在文本上的主要应用是分类,随着研究的深入,具有优良性能的支持向量机表逐渐取

25、代了基于知识工程的传统方法,成为文本分类的主要手段。在英语问句分类方面,已有关于应用SVM对问句分类的研究,通常借助词法特征和语法特征,分类准确率都在80至90,所以进行应用SVM对汉语问句分类的研究很有必要。本文使用SVM支持向量机对汉语问句进行分类是基于它的以下三个优点1问句集经过处理后得到的特征向量模型的空间维数较高,而SVM可以有效解决高维问题。2问句的向量特征独立性较大,而SVM不受特征独立性假设的影响。3问句信息量不充分导致向量特征较少,而SVM具有主动学习能力。22支持向量机原理SVM原理是通过预先选择的核函数将输入的向量X映射到一个高维空间,并构造一个最优超平面,将高维空间中的

26、两类样本(标记为Y1,1)准确无误的分开,而且要使两类的分类间隙最大。221最优分类面与线性问题SVM方法是从线性可分情况下的最优分类面提出的,它是实现统计学习理论思想的方法。如下图所示,能够正确无误的划分样本的实线,称作最优分类线。在最优分类线两侧的虚线是与分类线平行7的且能够使两类样本的距离最大,两条虚线之间的距离称作分类间隔(MARGIN)。分类的准确度决定了经验风险的大小,而分类间隔就相当于置信范围。在实际分类应用当中,要保证分类结果的正确,又要争取分类间隔的最大化,从而保证真实风险的最小化。将此推广到高维空间,就是最优分类面。设样本集(XI,YI),XDR线性可分,Y1,1表示两个类

27、的标记,决策平面是XB0。对两个类的判别表达式进行归一化,然后计算,可得到分类间隔M2|,而最大间隔就是1MINYIXI。求超平面其实就是约束优化的过程2|21STYI(XIB)10使上述公式等号成立的样本称作支持向量(SUPPORTVECTORS,SV)。利用拉格朗日优化法将这个约束优化的问题转换成对偶问题。/121|21,IIBXIYIBL其中I是拉格朗日因子,对、B和I分别求导,并令偏微分方程等于0,得到的二次规划的目标函数为/1/1,21MAXIJIJIJIJIIXXYYWST/102,1,0IIIIYNI根据KKT条件,/11IIBXIYI0,如果I是最优解并且不为0,那么就可以计算

28、、B的值8/1IIIIXYIIXYB由此便求解得到这个分类面。如果训练样本不是完全线性可分的,那么就得减去一些错分向量以实现分类的目标。要使减去的错分向量最少,就要引入一个松弛变量I(I0)来削弱约束条件NIBXYIII,2,11由于I在区间0,1的变化决定了分类面的改变,所以相应的目标函数也就要添加一个惩罚因子C/12|21MINIICSTCIIIIIBXY001用最大间隔法构造的这个最优分类面,和采用平分最近点法求解得到的是同一个超平面。总的来说,这种最优化问题求解方法就称作“线性可分支持向量分类机”。222核函数与非线性问题对于非线性问题,超平面已经满足不了需求,取而代之的是复杂的超曲面

29、。在这种情况下,可以通过非线性变换将低维的非线性问题转化为某个高维空间中的线性问题,在变换空间求最优分类面。如下图所示其次,如果将原问题转化为其对偶问题,那么计算的复杂度就不再取决于空间维数,而是取决于9样本大小了,严密的说,是样本中的支持向量数。在对偶问题中,对于寻优函数和分类函数来说都只涉及到训练样本之间的内积运算。这样,就不必知道变换形式,而只需在高维空间中进行内积运算。假设X从输入空间DR到特征空间H的变换为TLXXXX,21则预测函数为/1SGNIJIIIBXXYXFJIXX就是内积运算的主体,如果用一种函数K(JIXX,)实现这种内积运算,就可以实现非线性问题向线性问题的转换。函数

30、K就被称为核函数,它降低了问题的空间维数,减小了算法复杂度,避免了无休止的内积运算。典型的核函数有线性核函数,多项式核函数,径向基核函数(RBF),SIGMOID核函数。概括的讲,支持向量机就是首先通过用核函数定义的非线性变换将输入空间映射到一个高维空间,然后在这个空间中求(广义)最优分类面。223支持向量机在分类上的应用SVM的算法是一个2值分类算法,而问句分类是一个多值分类问题。通常的解决方法是将多个2值支持向量机组合成一个多值支持向量机。组合模式主要有一对一和一对多。一对一(ONEAGAINSTONE),是由KRESSEL提出的,对于任意两个不同类别,构造一个分类器,只对这两个类别进行分

31、类。对于一个样本,要统计每一个分类器的分类结果,分到哪个类别的次数多,最终就归在哪一类,这种方法类似于投票法,得到票数最多的类为样本所属的类。一对多(ONEAGAINSTREST),是由VAPNIK提出的,有多少类就构造多少个分类器,第N个分类器将第N类重新标号为1,其他类标号为1,从而将这个类与其他的类分开。完成这个过程需要计算与类别数目相同次的二次规划,根据标号区分每个样本,输出的是两类分类器输出为最大的那一类。对于N值分类问题,一对一需要构造N(N1)/2个分类器,一对多需要构造N个分类器。在训练过程中,这两种方法计算量和耗费的时间都非常庞大。借鉴以往实践证明,一对一的性能优于一对多,而

32、LIBSVM的算法模式采用的是一对一,所以采用LIBSVM软件包来实现汉语问句多类分类器的构造。23本章小结支持向量机SVM能够根据有限样本的信息,在样本学习精度(模型复杂性)和识别能力(学习能力)之间寻求最佳折衷。它的基础是统计学习理论,并且沿用了VC维、推广性的界以及结构风险最小化这些优秀思想。核函数能够科学合理的将非线性问题映射到高维空间,从而转化为线性问题,10为多类问题分类的解决方法提供了捷径。3汉语问句表示过程31自然语言处理技术11问句分类的处理对象是大量以自然语言描述的非结构化的无规律的文本数据,在提取问句文本中的特征向量之前,需要对问句文本进行预处理,处理结果的好坏直接影响分

33、类的准确性。311分词技术词是句子的最基本组成单位,一个句子是由多个词组成的。词具有词性,借助词性可以分析句子的结构。在特征提取的过程中,词和词性相对较为容易,所以选择词和词性作为基本的特征空间。要将词和词性提取出来进行后续操作就必须先把问句切分成词。分词的任务正是从自然语言处理的需要出发,按照特定的规范,对汉语按词的单位进行划分。本文直接使用中科院开发的ICTCLAS词法分析系统。该系统主要功能有文本分词、词性标注、命名实体识别,判断和划分的准确度较高。使用者可以直接在系统中调用ICTCLAS,建立用户专有词库,根据需要输出若干结果。312停词处理问句经过分词处理后得到若干个独立的词,这些词

34、统称特征,它们在表达问句含义的作用程度各不相同。名词和动词的意义最为鲜明,然后是形容词和一些限定性的副词,它们能很好的表达问句的主题,称作特征词。而介词、叹词、助词和连词等无实义的词和一些高频词或歧义词则被称为停用词,在对问句分词之后应该剔除增加噪声的停用词,选出最能代表问句类别信息的特征词。目前英语停用词的研究已经取得了一些成果,而汉语停用词研究还很少,本文使用的是普遍用于文本分类的停用词表。下表列出了停用表的部分内容啊呀吧哼哼呢哪啦哇哦把被对于关于在以比方但是你我他根据此外313分类体系问句分类所依照的模板被称作分类体系,分类体系的覆盖面和区分精度直接关系到分类系统的质量。目前,大部分问答

35、系统采用基于答案类型的分类体系。这种分类体系以人、时间、地点、数字等概念为类别,类型数目少、易构建、覆盖面广,但区分精度不够高,对分类结果的范围细化也不足。本文参考了如下图所示的一种较为公认的分类体系,这种分类体系分为两层类别体系,覆盖率高、层次清晰,一共分7大类55小类。12本文在不考虑大类限制的情况下,分析了55小类之间的关系,合并归纳了相近的类别,如将“河流”、“湖泊”、“海洋”、“山脉”、“岛屿”合并为“江河湖海岛屿山脉”;对整个体系进行了适当的修改和裁剪,并结合一些问答系统的分类习惯增加了一些类别,如删去了“实体事件”,增加了“学术作品”;最后以优化系统分类效果为目的,在7大类55小

36、类的基础上确立了一个单层37类的分类体系。1名称或说法11地点描述21温湿度31食物2描述或定义12省份城市22重量32娱乐活动3判断或比较13大陆国家23号码33物质成分或颜色4方法或方式14江河湖海岛屿山脉24顺序位次34学术作品5概念或含义15地名描述25范围35日常实物6原因或缘由16星球天体26时间或年龄36世纪年代7特定人物17数量值或百分比27宗教37其他8团体机构18面积或距离28动植物9人物团体描述列举19频率或速度29工具器械10地址20货币价格30语言文字1332自然语言转换技术人类具有对语言的认知能力,但是计算机无法理解自然语言的表示形式。所以问句处理的关键是将问句数据

37、化,转换成计算机或分类系统可以识别的格式。321计算特征词的权重权重是一个相对的概念,在问句分类系统中,它是衡量一个特征词对整个问句信息的贡献度的指标。根据目前已有较为普遍采用的转换方法,以特征词的TFIDF值作为权重,可以有效的将特征词在整个问句中所起的作用转化为数字的形式。依照下列三个公式分别计算每个特征词的TF、IDF以及TFIDF值TFI,J词I在问句J中出现的次数/问句J中出现最多词的次数IDFILOGE问句总数/出现词语I的问句数TFIDFTFIDF例如对于以下问句集1宁波大学的简称是什么2宁波大学的地址在哪3宁波有哪些宾馆4毛泽东是谁5毛泽东的生日是哪一天对上述问句进行分词后得到

38、的特征词为宁波、大学、简称、地址、宾馆、毛泽东、生日。按公式计算后得到的结果词语宁波大学简称地址宾馆毛泽东生日TF值1111111IDF值LN167LN25LN5LN5LN5LN25LN5TFIDF05128091631609416094160940916316094由于问句样本的特殊性,TF的值始终为1,所以TFIDF直接等于IDF的值。322特征词词表由于计算每个问句中特征词的IDF值需要对数据库中的样本问句集进行一次遍历,对于训练过程而言,耗费时间过多,所以本文自行构建了一个特征词词表。它是样本问句集中所有不重复特征词的集合,包含了特征词本身和所带的权值。针对训练过程,每个样本问句经过分

39、词和删停处理后只需对特征词表进行遍历和权值的提取,而不用繁琐的遍历具有14庞大信息量的数据库,有效的缩短了文本向数据转换过程的时间。323向量空间模型对问句抽取有效的特征词并表示成向量,每一维都对应着特征词词表中的一个特征词,词表中所有词的个数N就是维数。用IDF值填充每一维的向量值,那么一个问句就可以表示为Q(IDF1),(IDF2),(IDFN),如果问句中的特征词在词表中出现,则记录下该词在词表中的位置,并填入IDF值;如果没有出现,则值为0。向量空间模型(VSM)是被普遍认可的一种表达能力较优的方法。在这种模型中,一个问句被看作是一组向量,特征词就是向量中的元素,问句表示为V(D)(T

40、1,W1),(T2,W2),(TN,WN)用维数N取代向量模型中的T,用IDF值取代向量模型中的W值,例如,对“人体血压的正常范围是多少”这一问句进行分词和删停后得到“人体、血压、正常、范围”等特征词,通过与特征词词表进行比对后得到了维度信息和权值大小,最终转换而成的向量为(3448,469134788222914),(3469,571373280550936),(3679,509375020080676),(3735,766246781520023)324构造矩阵形式的空间模型如果把整个问句集都用向量表示,则可得到一个矩阵形式的空间模型首先构造原始矩阵D,D中每一行代表问句集中的一个问句,每

41、一列代表特征词词表中的一个词,如果问句中的特征词与词表中的特征词相对应,则为1,反之则为0;D00000110000010100010011010001110000然后对特征词词表的每一个词进行权值计算,得到一个权值矩阵W,W是一个对角矩阵;W60941916306094160941609419163051280最后将D和W相乘即可得到加权后的矩阵DW。15DW609419163000000091630000000060941000512800006094109163051280000060941916305128033本章小结本章阐述了汉语问句分类与自然语言处理技术和转换技术之间的关系、问句

42、分类体系的划分和汉语问句转换成计算机可识别的数据的步骤。当然,在进行类别预测的时候,这些数据并非最终的决策依据,而是输给SVM分类器,在学习训练之后便转换为更精准的模型性质的数据。164汉语问句分类过程41系统实现系统的主要部分是LIBSVM分类包,LIBSVM是由台湾大学林智仁(LINCHIHJEN)教授开发的具有分类、回归和分布预测等功能的SVM应用软件包。411系统结构设计根据机器学习的机制,整个过程分为训练和分类两个部分。具体设计如下图所示问句处理包括分词、删停、权重计算和转换四个步骤。本系统接收用户输入问句,先调用分词包进行分词。然后提取这些独立的词对照停词表进行删停,保留特征词并计

43、算各个词的权重。最后按照问句表示过程,将所有特征词转换成空间矩阵。训练使用的问句集和用户输入的问句都要经过此步处理。训练过程是让分类器通过对训练样本集进行学习,获得预测所需的模型文件。在此之前,要确定参数和选取核函数,经过训练后分类器输出一个分类模型,在几何上的表示就是一个空间超曲面,作为预测类别的依据被保存在模型格式的数据文件中。分类过程是设置好最优参数,让分类器参考已有的分类模型对用户输入的问句进行类别的预测。分类器的作用贯穿两个过程,所起的作用也是不同的。412软件的编程开发系统的开发环境为ECLIPSE,编程语言为JAVA,界面设计为GUI,辅助工具包有ICTCLAS4J分词包和问句预

44、处理问句特征提取问句特征转换训练分类算法设置分类器参数使用分类器预测所属类别分类模型分类过程学习过程17LIBSVM分类包。具体的功能模块如下1JIEMIANJAVA系统程序的人机交互界面,包含问句输入文本框,“分类”按钮和分类结果显示框。鼠标点击“分类”按钮后,该类将用户输入的问句递交给后台的分类器。2FENCIJAVA该类负责分词功能,对问句进行以词为单位的切分。3STOPWORDSJAVA该类完成读取数据库中的停用词表,对问句中的停用词进行删除的工作。4TIQUTEZHENGJAVA该类将分词和删停之后的特征词取出并保存在一个字符串数组中。5ZHUANHUANJAVA该类完成数据转换的工

45、作,读取数据库中的特征词表完成特征词的权值提取。训练学习6IDFJAVA该类在训练样本的过程中担负着计算特征词表里每个特征词权值的工作,将样本中提取出的特征词都保存在一个字符串数组中,记录每一个特征词在问句集中的出现次数,并去除重复的词。7TRAINJAVA该类读取TXT格式的样本数据,输入参数后完成对样本的训练,并输出一个TXT格式的学习模型文件。预测分类8PREDICTJAVA该类接收MODEL格式的模型文件,和问句转换成标准格式的数据,对用户输入的问句进行类别预测。42基于LIBSVM的分类本系统使用了JAVA版本的LIBSVM的分类功能,它需要的数据格式是一种属性项与属性值对应的排布的

46、表单。其中,是预先设定的标记,它是训练样本数据的参考值,同时也是预测未知数据的所求值;是从1开始的递增整数,表示特征向量的坐标;为实数,表示特征向量的权18重。从样本集中提炼出的权值矩阵将依照该标准数据格式进行转换,删去属性值为零的项,属性项从小到大依次排列。421参数选择及分类流程在对标注好的数据集进行学习前,需要对软件包做一番了解。下面就关键参数和分类实现进行分析1S代表SVM功能模型,用以区分回归和分类,本系统主要使用了CSVC和VSVC两种模型,对应的参数值是0和1。2T代表核函数类型。系统默认径向基(RBF)核函数,对应参数为2。3C代表惩罚因子。影响样本数据的分类精度和对未知数据的

47、预测能力。4W代表样本的权重。不同样本包含的支持向量的个数不同,对分类的贡献就有差别,所以适当地修正可以提高分类精度。5G代表GAMMA,径向基函数的宽度系数。6M代表内存容量。默认大小是100M,可根据实验需要进行扩充。7H代表是否使用SHRINKING技术。SHRINKING技术能够排除非支持向量来缩小数据集,简化问题最优化求解的规模。8交叉验证的划分额度。分类流程首先用程序将汉语形式的问句集转换成用于分类器学习的数据格式,如果是第一次分类,也就是学习训练的过程,没有模型也没有最优参数,所以采用交叉验证的方式,输入预选的核函数和参数,选择9/10的数据进行建模,其他1/10的数据用建立的模

48、型进行预报,以寻得最优参数。获得最优参数后,输给TRAIN类以获得最优学习模型。如果要进行类别预测,则将学习模型提供给PREDICT类,输入要归类的问句,具体的程序流程图如下19422分类准确率的分析以第三章提出的问句集构建方式和分类体系来组织样本实验。在实验过程中会发现随着问句集内容和格式的变化会出现两种现象。一、如果不同类别之间的样例数量差别太大,即存在了数据极度不平衡的情况,这样分类就会产生很高的错误率,尤其是对小规模样本的情况。所以针对已标注的问句集,应该对每个类别分配等额的样例数目,避免机器学习不均衡的状况。二、如果样例的特征向量过少,分类精度就会保持在较低水平。通过多次的训练实验,

49、如果把每个样例的特征项数减半,分类准确率降低将近40。所以,每行的特征词保持在较多的水平,会提高分类的准确率。借助多次实验和以往的实践经验,利用交叉验证两个参数C和GAMMA。对于训练样本集,GAMMA值的变化对预测的影响可以忽略。而惩罚因子C的影响较为明显,值为1时,最后的预测准确率为89,C值为2时,最后的预测准确率提高到98,已经接近100,之后C的递增对预测准确率的提升意义已不大。开始文本输入分词删停提取特征转换成标准数据格式SVM预测归类结束是否进行训练是否训练样本获得学习模型20C1正确率89C2正确率98C3正确率99C4正确率99对于预测样本集,C值的变化对预测的影响可以忽略,而高斯核函数的参数GAMMA的影响比较明显。GAMMA值正确率0390032600037200003380000033由此可见GA

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。