1、1毕业设计开题报告计算机科学与技术基于SVM的汉语问句分类研究一、选题的背景与意义如今已是网络信息爆炸的时代,信息浩如烟海,人们对于网络的普遍需求是怎样快速寻找到自己想要的信息。尽管目前有比较知名的搜索引擎如百度、谷歌、雅虎等,但是都存在很多不足,而对于更加准确、高效、人性的智能检索系统的研发成为人们迫切的愿望。自动问答(QUESTIONANSWERING,QA)系统,是指系统接受用户以自然语言形式描述的提问,随后能够从大量的数据中查找出并且为用户返回一个简洁、准确的答案。问答系统是目前自然语言处理领域一个非常热门的问题,它被认为是新一代智能检索系统。不同的问答系统具有不同的结构,但大部分系统
2、有着相同的框架,包括问句理解、信息检索和答案抽取三部分。问题理解虽然是问答系统的一个子过程,但却是第一个重要的模块,这直接影响到了信息检索和答案选取的正确率。因此,找出能够良好识别汉语问句的方法,将使中文自动问答系统朝着应用于多领域的普遍方向发展。特征选取是问句分类中最关键的一部分,这与文本分类有很多相似的地方,但是除了提取问句中的词、词性、语块句法特征外,还需提取问句中一些隐含的语义特征。目前流行的方法有识别同义词、关联词,计算语义相似度和语义相关度,语义块和命名实体识别。对于问句分类方法的研究,目前主要集中在两个方面,一是基于规则的方法,通过专家提取各种问句类型的疑问词与其他相关词组合的特
3、征规则,通过规则来判定问句所属类型。另一种是通过统计的方法实现问句的分类,通过对真实的经过标注的问句语料进行统计学习,提取能表达各种问句类型的特征规则,建立学习模型,实现各种问句的类型识别。二、研究的基本内容与拟解决的主要问题2汉语问句分类目标是根据实际问句特征将其归为一定集合的汉语问句类型中的一种,本文的分类标准参考文献9中的问句分类体系,将汉语问句分成50多个类型,两个层次,第一层分为6个大类,每个大类下又分多个小类,具体见表1。表1问句分类体系大类小类缩写缩写表达式人物特定人物团体机构人物描述人物列举其他地点星球城市国家大陆省河流湖泊山脉海洋岛屿其他数量编码总数价格百分比速度温度年龄距离
4、重量面积范围顺序频率其他时间日期时间时间范围时间列举其他实体动物植物食物身体事件机械交通工具语言宗教货币颜色其他描述定义描述方式原因其他描述需要解决的问题是1特征选取是问句分类中关键的一部分,和文本分类有许多类似的地方,但是问句中包含较少的词,所有又有不同。特征选取的方法有句法特征选取和语义特征选取。2问句分类算法采用统计学的机器学习算法,如K近邻算法(KNN),简单贝叶斯(NB),决策树(DT),支持向量机(SVM)等等,实现对特征集的分类。3数据集利用问句事件抽取器(CQEE)提取哈工大问题集和TREC免费问题集中的一部分,并根据表1的问句分类体系选择若干小类进行测试。三、研究方法与技术路
5、线1、句法特征选取词是句子的最基本的组成单位,一个句子是由多个词组成,词性是分析句3子结构的基础,因此选择词和词性作为基本的特征空间词或词性特征的提取相对比较容易,采用中科院计算所开发的分词和词性标注工具ICTCLAS对问句进行词切分和词性标注,其中词性标注按照北大的词性标注集规范进行。2、用支持向量机(SVM)进行统计分类SVM分类器中的特征都是数字型,为此必须对特征进行编码,将其转化为数字型,并提取相应编码项的特征值,作为LIBSVM的训练特征向量输入其向量输入格式为LABELINDEX1VALUE1INDEX2VALUE2INDEXNVALUEN,其中LABEL为问句相应类别的编号,IN
6、DEX是问句中特征定义的编号,VALUE为其对应的特征项的特征值对于每一个问句,要求提取出一个上面表达形式的特征向量用于训练和测试问句分类器选取了语义相似度的特征,因此对该特征进行编码,即确定INDEX项序号和具体特征之间的对应关系特征编码要借助于问句类别表、FAQ标准问句库、中科院词表。特征编码确定后,对于每一个问句只需确定这个特征编号INDEX在问句中对应的特征值VALUE,对选取特征只取两个值0或1。对问句与标准问句库进行相似度计算后,判断该问句是否包含相关特征项若问句中出现该对应编码的特征,则对应的特征值为1,否则为0。然后对每一个训练和测试问句构建出一个表达问句的SVM特征向量。按照
7、上述方式构造分类器的问句特征维数很大,SVM能够处理高维特征,但是训练时间较长。四、研究的总体安排与进度20102011第一学年12月20日1月9日查阅相关书籍资料,对于中文自动问答系统作整体上的了解。1月10日2月16日学习基于词和词性的句法特征选择方法和SVM算法的分类方法。20102011第二学年2月17日3月20日应用这两种方法构造分类器并实现对给定训练集和测试集的分类。3月21日4月10日对分类器进行测试、修改,使分类效果尽可能的理想。4月11日5月1日对最后的结果进行误差分析、总结并撰写毕业论文。4五、主要参考文献1余正涛,樊孝忠,郭剑毅基于支持向量机的汉语问句分类华南理工大学学报
8、,200592吕德新中文自动问答系统中问题理解技术的研究,沈阳航空工业学院,200613张莉,刘雅举,李东明,侯晨伟中文问句分类系统的分析,河北农业大学机电工程学院,200764文勖中文问答系统中问题分类及答案候选句抽取的研究,哈尔滨工业大学,200665张亮面向开方域的中文问答系统问句处理相关技术研究,南京理工大学,2005,116付斌受限领域自动问答系统中的问句标注与组块技术,北京理工大学,200637王树西问答系统核心技术、发展趋势,中国科学院计算机工程与应用,20058ZHANGDELL,LEEWEESUNQUESTIONCLASSIFICATIONUSINGSUPPORTVECTOR
9、MACHINESAPROCEEDINGSOFTHE26THANNUALINTERNATIONALACMSIGIRCONFERENCEONRESEARCHANDDEVELOPMENTININFORMATIONRETRIEVALCNEWYORKACMPRESS,200326329贾可亮,樊孝忠,陈康,许进忠基于知网的汉语问句分类,北京理工大学,200510王洋,秦兵,郑实福句子相似度计算在FAQ中的应用,哈尔滨工业大学11吕德新,张桂平,蔡东风,朱江涛基于SVM的疑问句问点语义角色标注,200612JUNSUZUKI,HIROTOSHITAIRA,YUTAKASASAKI,ANDETALQUEST
10、IONCLASSIFICATIONUSINGHDAGKERNELINPROCEEDINGOF6THINFORMATIONBASEDINDUCTIONSCIENCES,PP217222,20035毕业设计文献综述计算机科学技术基于SVM的汉语问句分类研究摘要问答系统是信息检索的高级形式,其中问句理解模块的问句分类任务能够为后续的信息检索模块缩小搜索范围,并有助于答案抽取模块制定抽取策略,对问答系统整体性能的提高具有重要作用。处在发展初期的中文问答系统尤其需要追求每个阶段的品质,所以汉语问句分类作为首要子过程极具研究价值。采取支持向量机的方法对汉语问句进行分类比较可行且有效,因为处理问题集得到的特
11、征空间维数较高,支持向量机可以有效解决高维问题;问题向量特征相关性小,支持向量机能够不受特征独立性假设的影响;问题向量特征稀疏,支持向量机具有主动学习能力。此外,如果缺乏用于公测的问题集,支持向量机在自行构建的问题集上仍然可以得到相对最优的结果,具有良好的泛化和推广性。关键词问答系统;汉语问句分类;支持向量机;统计学原理信息时代,网络发展日行千里,搜索引擎深入到知识工程的各个领域。人们生活中的科技含量飞速上升,信息需求与日俱增,对搜索引擎性能的要求也愈发苛刻。问答系统QUESTIONANSWERINGSYSTEM,QA正是在这个关键时期开发而成,它属于信息检索系统的高级形式,能够对自然语言表述
12、的问题输出精准、明确的答案。自1999年文本检索会议TEXTRETRIEVALCONFERENCE,简称TREC引入问答系统评测专项QUESTIONANSWERINGTRACK,简称QATRACK后,各种研究机构对基于自然语言的问答系统再次产生了浓厚的兴趣,在往年的TREC比赛中,QATRACK是最受关注的评测项目之一。在TREC的支持下,国外已经开发许多成熟的问答系统。在大规模开放域问答系统方面,有回答领域常识的START,面向WEB在线问答的MULDER,具有语义分析功能的ASKJEEVES和支持多语种提问的ANSWERBUS等;而在受限域问答系统方面,英日德的发展水平较为领先,开发了旅游
13、问答系统TCS和类似于垂直搜索引擎业务取向的专业领域问答系统等。对问答系统的错误结果进行分析证明,有364的错误是由于问句分类系统造成的。人工分类固然比较简单,也不需要大规模的训练语料,但分类比较粗糙,而且可移植性较差。为了避免这些问题,概率方法逐渐应用到问句分类当中并取得了很好的成绩。一些研究使用6的概率方法是基于模板的匹配方法,即每一种类型问题对应若干条模板,新的问题利用这些模板分类。另一种概率方法是应用机器学习算法,并且取得了较好的成绩。ZHANG采用支持向量机SVM对问句进行训练,采用了一种TREEKENEL作为SVM的核并利用少许简单的句法特征,准确率达到了90。英文的问句分类取得了
14、较好的成绩,相比之下,汉语问答系统还没有显著的成果,业界的开发热情并不高涨,汉语问句分类还在研究起步阶段。主要原因是汉语语言处理基础资源的极其匮乏,使得许多关键技术成为瓶颈,与英语相比,汉语语法更复杂,且顺序不定,分析起来更麻烦。另外国家投入和重视程度也不充分。目前国内的一些高校和专有机构借助问答系统的思想开发了一些应用类的系统,做为科研或商业用途。哈尔滨工业大学是率先研究问答系统的高校之一,历经多年的不懈努力,硕果累累,涉及的领域面非常多元。问句分类的目标是以分类体系为模板,通过分析问句内容或判断问句模式而得到问句的类型。问句类型与分类体系的关系就相当于数学概念中的映射关系,也就是把未知类别
15、的问题映射到已有的类别中。问句分类是问句理解模块的核心部分,主要有两方面作用一、缩小信息检索范围,提高效率;二、指导答案抽取策略,提供类别信息。由此可见,信息检索和答案抽取两个模块的工作流程都需要问句分类输出的信息,问句分类的效果贯穿整个问答系统。问句分类的处理对象是大量非结构化的用自然语言描述的无规律文本数据,在对问句特征提取前,需要对问句文本进行相应的预处理,处理结果的优劣直接影响分类效率和准确度以及最终模式的有效性。首先调用中科院开发的JAVA版ICTCLAS分词包,实现对汉语问句分词、词性标注、命名实体识别和新词识别等功能,其次,问句中的主谓、动宾、定语修饰等关系非常典型,尤其是疑问意
16、向词指示鲜明,很大程度可以通过判断意向词得到问句类型,分类精度依赖待分类向量的特征稠密度,只有得到充分的信息才能保证准确性。而问题包含的信息非常少,提取出的有效特征往往不足十个,在高维空间中很难对稀疏向量归类,因此需要对原始问句中的关键词进行词义扩展。董振东和董强两位专家开发的知网(HOWNET),是作为概念扩展的基础资源。分类方法是基于统计学习理论的方法。通过对标注的语料统计学习,分析问句类型的特征分布规律,建立模型以实现分类。统计法具有通用、易于移植和扩展的特点,它对不同的语料库没有择优或者排斥的现象,处理方式都是遵循数学原理或公式,所以很大程度上,分类效果取决于语料库的质量和规模。采用基
17、于支持向量机SVM的LIBSVM分类包,整个过程分为学习和分类两个阶段学习阶段是从具有标注信息的语料库中学习出一个分类模型;分7类阶段以分类模型为依据对新的问题进行判定。基于自然语言的问句分类已取得了可观的成绩,但现有的自然语言处理工具都是针对某一种语言的,一种语言的问句分类系统经常很难不加修改地应用到另一种语言中去,因此独立于语言的问句分类是另一个发展方向。随着视频、音频、图像等多媒体在网上的发展,多媒体QA应该是一个发展趋势。视频、音频、图像、文本的存储包含了大量的语义信息,比如视频的语音内容SPEECHTOTEXT、视频类型等,这些都是我们在问句分类时可用到的信息,因此,对多媒体的问句分
18、类成为另一个研究趋势。参考文献1余正涛,樊孝忠,郭剑毅基于支持向量机的汉语问句分类华南理工大学学报,200592吕德新中文自动问答系统中问题理解技术的研究,沈阳航空工业学院,200613张莉,刘雅举,李东明,侯晨伟中文问句分类系统的分析,河北农业大学机电工程学院,200764文勖中文问答系统中问题分类及答案候选句抽取的研究,哈尔滨工业大学,200665张亮面向开方域的中文问答系统问句处理相关技术研究,南京理工大学,2005,116付斌受限领域自动问答系统中的问句标注与组块技术,北京理工大学,200637王树西问答系统核心技术、发展趋势,中国科学院计算机工程与应用,20058ZHANGDELL,
19、LEEWEESUNQUESTIONCLASSIFICATIONUSINGSUPPORTVECTORMACHINESAPROCEEDINGSOFTHE26THANNUALINTERNATIONALACMSIGIRCONFERENCEONRESEARCHANDDEVELOPMENTININFORMATIONRETRIEVALCNEWYORKACMPRESS,200326329贾可亮,樊孝忠,陈康,许进忠基于知网的汉语问句分类,北京理工大学,200510王洋,秦兵,郑实福句子相似度计算在FAQ中的应用,哈尔滨工业大学11吕德新,张桂平,蔡东风,朱江涛基于SVM的疑问句问点语义角色标注,200612J
20、UNSUZUKI,HIROTOSHITAIRA,YUTAKASASAKI,ANDETALQUESTIONCLASSIFICATIONUSINGHDAGKERNELINPROCEEDINGOF6THINFORMATIONBASEDINDUCTIONSCIENCES,PP217222,200313MITSTARTSTARTQASYSTEMEB/OLHTTP/WWWAIMITEDU/PROJECTS/INFOLAB14KWOKC,ETZIONIO,WELDDSCALINGQUESTIONANSWERINGTOTHEWEBACMTRANSACTIONSONINFORMATIONSYSTEMS,2001
21、,19324226215ASKJEEVESASKQASYSTEMEB/OLHTTP/WWWASKCOM16刘向东,骆斌,陈兆乾支持向量机最优模型选择的研究计算机研究与发展,2005,42257658117秦玉平基于支持向量机的文本分类算法研究博士学位论文。大连大连理工大学,2008818姚悦自动答疑系统中问题定位方法的研究硕士学位论文。南京东南大学,20069本科毕业设计(20届)基于SVM的汉语问句分类研究摘要【摘要】问答系统是搜索信息的高级形式,其中问句理解模块中的问句分类任务能够为后续的信息搜10索模块缩小搜索的范围,并对答案抽取模块制定抽取策略起到帮助的作用,对整个问答系统的性能提高具
22、有推动作用。目前汉语问答系统尚处在发展阶段,尤其需要追求每个过程的品质,所以汉语问句分类作为首要子过程极具研究价值。借鉴国外英语问答系统中问句分类的方法,引入统计学理论,采取支持向量机SVM对汉语问句进行分类比较可行且有效,由于问句集经过处理后得到的特征向量模型的空间维数较高,SVM可以有效解决高维问题;问句向量特征独立性较大,SVM能够不受特征独立性假设的影响;问句向量特征较少,SVM具有主动学习能力。此外,如果缺乏用于公测的问句集,支持向量机在自行构建的问句集上仍然可以得到相对最优的结果,具有良好的泛化和推广性。【关键词】问答系统;汉语问句分类;支持向量机;特征词。11ABSTRACT【A
23、BSTRACT】QAQUESTIONANSWERINGSYSTEMISAHIGHLEVELFORMFORSEARCHINGINFORMATION,AMONGTHEQUESTIONCOMPREHENSIONMODULE,THETASKOFQUESTIONSCLASSIFICATIONCANSHRINKTHESEARCHINGRANGEFORTHEINFORMATIONSEARCHMODULEWHICHISFOLLOWUP,ANDHELPTHEANSWEREXTRACTIONMODULETOFORMULATEEXTRACTIONSTRATEGY,IMPROVETHEPERFORMANCEOFTHE
24、QASYSTEMATPRESENTCHINESEQASYSTEMISSTILLATTHEDEVELOPMENTSTAGE,ESPECIALLYSHOULDPURSUITQUALITYATEVERYPROCESS,SOASTHEPRIMARYSUBPROCESS,CHINESEQUESTIONCLASSIFICATIONDESERVESAHIGHSTUDYVALUETAKEEXAMPLEBYTHEQUESTIONCLASSIFICATIONMETHODINFOREIGNENGLISHQASYSTEM,INTRODUCINGSTATISTICALLEARNINGTHEORY,ANDUSINGSUP
25、PORTVECTORMACHINESVMTOCLASSIFYCHINESEQUESTIONSISMOREFEASIBLEANDEFFECTIVEBECAUSEAFTERWORDTODATACONVERSION,THECORPUSARERECEIVEDAHIGHERDIMENSIONFEATURESPACE,SVMJUSTCANSOLVESUCHPROBLEMOFHIGHDIMENSIONTHECORRELATIONSOFCHARACTERISTICSINQUESTIONVECTORAREWEAK,SVMCANBEUNAFFECTEDONTHEIMPACTOFCHARACTERISTICSIND
26、EPENDENCEASSUMPTIONTHECHARACTERISTICSOFQUESTIONVECTORAREVERYSPARSE,SVMHASTHEABILITYOFACTIVELEARNINGINADDITION,UNDERTHECONDITIONOFLACKINGCORPUSFOROPENTEST,SVMWITHGOODGENERALIZATIONANDEXTENSIONCANSTILLTOREACHRELATIVEBESTRESULTSONSELFBUILTCORPUS【KEYWORDS】QUESTIONANSWERINGSYSTEM;CHINESEQUESTIONCLASSIFIC
27、ATION;SUPPORTVECTORMACHINECHARACTERISTICWORD。12目录摘要9ABSTRACT11目录121绪论1411课题背景14111国外问答系统研究现状14112国内问答系统研究现状15113问答系统基本原理15114汉语问句分类概论1512文章概要16121课题研究内容16122论文组织结构162支持向量机理论1821问句分类中的统计学18211统计学习理论18212VC维和推广性的界18213结构风险最小化SRM原则19214支持向量机发展1922支持向量机原理19221最优分类面与线性问题20222核函数与非线性问题21223支持向量机在分类上的应用222
28、3本章小结233汉语问句表示过程2431自然语言处理技术24311分词技术24312停词处理24313分类体系2532自然语言转换技术26321计算特征词的权重26322特征词词表27323向量空间模型27324构造矩阵形式的空间模型2833本章小结284汉语问句分类过程2941系统实现29411系统结构设计2913412软件的编程开发2942基于LIBSVM的分类30421参数选择及分类流程31422分类准确率的分析3243本章小结335全文总结3451总结3452展望34参考文献35致谢错误未定义书签。附录36141绪论11课题背景如今已是网络信息爆炸的时代,信息浩如烟海,人们对于网络的普
29、遍需求是怎样快速寻找到自己想要的信息。尽管目前有比较知名的搜索引擎如百度、谷歌等,但是都存在很多不足,而对于更加准确、高效、人性的智能检索系统的研发成为人们迫切的愿望。问答系统QUESTIONANSWERINGSYSTEM,QA正是在这个关键时期应运而生,它是指系统接受用户以自然语言形式输入一个问句,随后能够从大量的数据中查找出并且为用户返回一个简洁、准确的答案,是属于信息搜索系统的高级形式。目前,已开发出的问答系统与理想的模型还存在较大差距,搜索效果仍达不到实际应用的要求。经过搜集大量资料进行研究发现,其中一个重要原因就是系统对问句的理解程度不够准确,如果对问句分析模糊或者判断失误,那么必然
30、会导致答案的错误。所以只有首先明确问句的正确含义,确定类别范围,才能使后续操作得到满意的结果。问句分类作为问句理解阶段的核心任务,正是担负着明确问句主题信息的功能去主导后续的操作,比如定位搜索范围和确定抽取算法策略,所以,问题分类的研究对提高问答系统的准确率有着尤其重要的意义。111国外问答系统研究现状60年代初,当人工智能的理论刚刚诞生的时候,人们就开始研究用计算机来回答自然语言形式的提问。正如图灵实验所表明的那样,如果计算机能够用自然语言和人进行交互,那么计算机就拥有了智能。许多计算机科学家和研究爱好者为了探索机器对语言的理解技术,都纷纷在问答系统领域里开展研究。但是由于当时技术条件的限制
31、,问答系统只局限于专业领域或是在固定段落上进行答案搜索。后来由于大规模文本处理技术的兴起,问答系统的研究被暂时搁置。随着时代发展,网络和信息技术已经逐渐普及全世界。搜索引擎的出现促使了人们对于获取高效而且准确的信息的迫切愿望。在文本检索会议TREC(TEXTRETRIEVALCONFERENCE)的支持下,问答系统的研究重新被重视起来。目前国外已经开发出很多成功的问答系统。在大规模开放域问答系统方面,有基于知识库的START,基于句法分析的MURAX,基于语义分析的ASKJEEVES和借助网络搜索引擎的MULDER等;而在小规模受限域问答系统方面,德国和日本的发展水平较为领先,他们先后开发了关
32、于旅游领域常识的问答系统和基于垂直15搜索引擎的专业领域知识的问答系统等。112国内问答系统研究现状相比之下,汉语问答系统还没有显著的成果,国内的开发热情也较为低迷。主要原因是涉及汉语语言形式处理的特点和难点,以及用于处理汉语语言形式的基础资源比较缺乏,导致许多关键技术的应用没有用武之地,另外国家投入和重视程度也不够充分。目前国内的一些高校和科研机构参与了自动问答技术的研究和开发,比如中科院研究所、复旦大学、哈尔滨工业大学、北京大学、香港科技大学、台湾大学、台湾NATIONALDEFENSEMANAGEMENTCOLLEGE机构等,但是研究关于汉语自动问答技术的相对较少,而且基本没有理想的汉语
33、自动问答系统。哈尔滨工业大学是最早开始研究汉语问答系统的高校之一,经过多年的不懈努力,产出了许多成果,涉及到的领域面和知识面也非常多元和广泛。其中的问车总动员问答演示平台,其核心思想是利用数据挖掘技术挖掘论坛中的信息来构造一个知识库,论坛是集中了大量人类知识的平台,包括娱乐、新闻、教育、旅游等多个方面,并提供多用户提问解答和参与讨论的功能。台湾的NATIONALDEFENSEMANAGEMENTCOLLEGE研制的CQAS问答系统,则基于命名实体识别及其关系处理的技术,通过特征因子表示文本的方法,将汉语文本转换成关系串列方式(ERE),并借助这个关系串列方式来查找答案。实验结果表明,系统分析的
34、关系串列方式资料越多,答案的正确率越高。113问答系统基本原理问答系统是信息搜索的一种形式,而传统的信息搜索方式只是基于关键词的搜索,问答系统则是在此基础上发展起来的,不仅具有更为精确的结果,而且具有对问答关系更为深入理解的技术。问答系统基本由问句处理,信息搜索和答案抽取三部分组成。问句处理是对用户输入的问句进行分析、分解。具体细致的处理过程包括句法分析,词法分析,问句类型划分,语义分析,命名实体识别等。信息搜索与传统的基于关键词的信息搜索类似,主要负责获取信息,信息来源可以是INTENET、数据库或知识库中所有可能包含答案的网页或文本,并对大量的信息进行初步筛选。答案抽取是问答系统的最终环节
35、,也是整个系统的核心部分。该阶段的任务是从信息搜索模块获取的结果中抽取对应问句的答案,返回给用户。其关键是对搜索结果的内容解析,使之与问句处理的结果相匹配。114汉语问句分类概论问句分类的任务是以人工确定的分类体系为模板,通过分析问句内容或判断问句模式16而得到问句的类型。问句类型与分类体系的关系就相当于数学概念中的映射关系,也就是未知类别的问题和已有的类别形成映射关系。问句分类是问句理解阶段的核心模块,主要有两方面作用一、缩小信息搜索范围以提高系统效率;二、为答案抽取策略的制定提供类别信息。由此可见,信息搜索和答案抽取两个模块的工作流程都需要问句分类输出的信息,问句分类的效果贯穿整个问答系统
36、。在汉语中应用分类技术源于搜索引擎中的文本分类技术,问句分类基本沿用文本分类的思想,但由于其语法结构和语义信息的特殊性,在处理过程中又有所不同。目前,关于英语问句分类的研究成果很多,并且已经相当成熟。汉语问句分类由于汉语的复杂性和多样性以及语言处理技术发展的缓慢而受到牵制,始终未有质的突破。12文章概要本文的研究工作建立在已有的理论和成果之上,构建出一个一定规模的汉语问句分类体系、将问句转换空间模型进行表示,应用中科院分词技术和支持向量机实现汉语问句分类。121课题研究内容1构建问句分类体系。凭借个人力量手动构建一个合理且完善的汉语问句集是一项非常艰巨的任务,而这样的问句集资源也很少,已经经过
37、分类标注的就更少了。但如果没有这个基础资源,课题就无法开展和实施。所以如何寻找和组织一套较为全面、合理的问句集是首要问题,以后还要考虑怎么收集更多的信息来完善这个资源。2将文本转换成数据。机器无法识别汉语表达的问句,所以自然语言和机器语言之间的相互转换是应用支持向量机对问句进行分类的前提。目前可以借助已有的中科院分词包和空间模型理论实现其中的若干步骤,并且考虑到支持向量机的分类过程,就要构思转换流程的策略,设计好接口。3选择支持向量机模型。对于不同的训练样本,所选择的最优核函数和参数不是固定的。根据以往的经验和实验数据,核函数相对容易确定,径向基核函数(RBF)也就是高斯核函数,它对不同规模的
38、数据集的适应性最强,得到的分类效果也最稳定。而C和GAMMA两个参数的选择没有可以遵循的理论依据,只能依靠样本本身特性和实践经验。在实际应用中,参数对分类效果的影响力具有明显的表现,所以选择的模型直接关系着系统的分类性能。4基于支持向量机的汉语问句分类的实现过程。实践是检验理论的标准,构建问句集、转换问句数据、选择支持向量机模型都是单独的子过程,将所有的子过程连接起来,把理论变成实践才具有实用价值。因此,本文的目的旨在实现一个汉语问句分类系统。122论文组织结构17本文共分五章,文章结构及各章主要内容组织如下第一章绪论。总体介绍国内外问答系统的研究现状,阐释了问句分类的重要性和汉语问句分类的难
39、度,并描述了分类的目标和分类的手段,声明了论文主题是基于SVM支持向量机的问句分类。第二章支持向量机理论。此章全文的理论依据,该章论述了统计学习理论和SVM的内部原理,并解释了利用核函数将低维空间向量映射到高维空间的过程,从而提出了将非线性问题转化为线性问题来解决的快捷方法。第三章汉语问句表示过程。本章阐述了汉语问句分类与自然语言处理技术和转换技术的关系、问句分类体系的划分和汉语问句转换成机器可识别数据的步骤。第四章汉语问句分类系统。本章论述了模型选择和参数选择的方法、意义及过程。在已有成果的基础上设计了汉语问句分类系统,实现了基本功能并取得一定效果,是应用机器学习方法在自然语言处理领域的一次
40、尝试。第五章总结。对全文的工作进行了简要总结,分析了影响系统性能的一些因素和今后需要进一步完善的地方。182支持向量机理论21问句分类中的统计学对于问句分类方法的研究,目前主要集中在两个方面,一是基于规则的方法,通过专家提取各种问句类型的疑问词与其他相关词组合的特征规则,通过规则来判定问句所属类型。另一种是通过统计的方法,通过对经过标注的问句语料进行统计学习,提取各种问句中能表达类型的特征词,建立学习模型,实现对问句的类型识别和预测。统计法具有通用、易于移植和扩展的特点,处理方式都是遵循数学原理或公式,对不同的语料库没有择优或者排斥的现象,所以在系统应用方面得到了普及。但是分类效果也就在很大程
41、度上取决于语料库的质量和规模了。211统计学习理论区别于传统统计学,统计学习理论(STATISTICALLEARNINGTHEORY或SLT)是一种专门针对小样本情况研究机器学习规律的理论。早在六七十年代,VAPNIK等人就开始致力于这方面的研究,到九十年代中期,当时神经网络等学习方法缺乏理论上的实质性进展,统计学习理论随着其理论的不断发展和成熟开始脱颖而出,并受到越来越广泛的重视。机器学习的目的是根据给定的训练样本求对某系统输入输出之间依赖关系的估计,使它能够对未知输出作出尽可能准确的预测。可以一般地表示为变量Y与X存在一定的未知依赖关系,即遵循某一未知的联合概率FX,Y,(X和Y之间的确定
42、性关系可以看作是其特例),机器学习问题就是根据N个独立同分布观测样本在学习函数集(或预测函数集)FX,W中求一个最优的函数FX,W0对依赖关系进行估计,使期望风险最小。212VC维和推广性的界VC维定义样本能被指示函数集中的函数以所有可能性分成两类样本的最大数目H。VC维反映了函数集的学习能力,VC维越大则学习机器越复杂,但是每个函数集具有特异性和各自适用的算法,所以目前尚没有通用的关于任意函数集VC维计算的理论。统计学习理论系统地研究了对于各种类型的函数集,经验风险和实际风险之间的关系,即推广性的界,它规定了经验风险和真实风险之间至少以1的概率满足如下公式所示RWREMPW|4/LN1/2L
43、N|NHNH19的关系,其中H是函数集的VC维,N是样本数,为介于0、1之间的参数,根式部分的意义是置信范围,它与VC维数和训练样本数有关,关系表示为RWREMPWH/N。这表明,在训练样本数固定的情况下,VC维越高则置信范围越大,导致经验风险过于偏离真实风险,这也就形成了机器学习的现象。213结构风险最小化SRM原则传统的机器学习方法主张最小化经验风险和优化置信范围,这种策略依赖先验知识和使用者的技巧和经验。统计学习理论则提出了一种新的策略,即把函数集构造为一个函数子集序列,使各个子集按照VC维的大小排列;在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得实际风险的最小。
44、这种思想称作结构风险最小化(STRUCTURERISKMINIMIZATION),即SRM原则。214支持向量机发展支持向量机(SUPPORTVECTORMACHINE,SVM)是由VAPNIK等人在1995年提出的建立在统计学习理论基础上的一种新型机器学习方法,融合了统计学习理论中VC维、推广性的界以及结构风险最小化等理论思想,SVM能够根据有限样本的信息,在样本学习精度(模型复杂性)和识别能力(学习能力)之间寻求最佳折衷。支持向量机被广泛的应用于处理回归、分类和模式识别等许多问题,并可推广到预测、评价和函数拟合,尤其在解决小样本问题上能表现出特有的优势。在理论上,支持向量机遵循结构风险最小
45、化的原则来设计学习机制,折衷地优化经验风险和置信范围;在方法上,SVM借助核函数将非线性问题映射到高维特征空间转化成线性问题,再实现样本分类。目前,对支持向量机的研究主要集中在核函数及参数选取、如何提升训练速度、SVM算法的优化以及多分类问题的应用实现等方面。支持向量机在文本上的主要应用是分类,随着研究的深入,具有优良性能的支持向量机表逐渐取代了基于知识工程的传统方法,成为文本分类的主要手段。在英语问句分类方面,已有关于应用SVM对问句分类的研究,通常借助词法特征和语法特征,分类准确率都在80至90,所以进行应用SVM对汉语问句分类的研究很有必要。本文使用SVM支持向量机对汉语问句进行分类是基
46、于它的以下三个优点1问句集经过处理后得到的特征向量模型的空间维数较高,而SVM可以有效解决高维问题。2问句的向量特征独立性较大,而SVM不受特征独立性假设的影响。3问句信息量不充分导致向量特征较少,而SVM具有主动学习能力。22支持向量机原理SVM原理是通过预先选择的核函数将输入的向量X映射到一个高维空间,并构造一个20最优超平面,将高维空间中的两类样本(标记为Y1,1)准确无误的分开,而且要使两类的分类间隙最大。221最优分类面与线性问题SVM方法是从线性可分情况下的最优分类面提出的,它是实现统计学习理论思想的方法。如下图所示,能够正确无误的划分样本的实线,称作最优分类线。在最优分类线两侧的
47、虚线是与分类线平行的且能够使两类样本的距离最大,两条虚线之间的距离称作分类间隔(MARGIN)。分类的准确度决定了经验风险的大小,而分类间隔就相当于置信范围。在实际分类应用当中,要保证分类结果的正确,又要争取分类间隔的最大化,从而保证真实风险的最小化。将此推广到高维空间,就是最优分类面。设样本集(XI,YI),XDR线性可分,Y1,1表示两个类的标记,决策平面是XB0。对两个类的判别表达式进行归一化,然后计算,可得到分类间隔M2|,而最大间隔就是1MINYIXI。求超平面其实就是约束优化的过程2|21STYI(XIB)10使上述公式等号成立的样本称作支持向量(SUPPORTVECTORS,SV
48、)。利用拉格朗日优化法将这个约束优化的问题转换成对偶问题。/121|21,IIBXIYIBL其中I是拉格朗日因子,对、B和I分别求导,并令偏微分方程等于0,得到的二次规划的目标函数为21/1/1,21MAXIJIJIJIJIIXXYYWST/102,1,0IIIIYNI根据KKT条件,/11IIBXIYI0,如果I是最优解并且不为0,那么就可以计算、B的值/1IIIIXYIIXYB由此便求解得到这个分类面。如果训练样本不是完全线性可分的,那么就得减去一些错分向量以实现分类的目标。要使减去的错分向量最少,就要引入一个松弛变量I(I0)来削弱约束条件NIBXYIII,2,11由于I在区间0,1的变
49、化决定了分类面的改变,所以相应的目标函数也就要添加一个惩罚因子C/12|21MINIICSTCIIIIIBXY001用最大间隔法构造的这个最优分类面,和采用平分最近点法求解得到的是同一个超平面。总的来说,这种最优化问题求解方法就称作“线性可分支持向量分类机”。222核函数与非线性问题对于非线性问题,超平面已经满足不了需求,取而代之的是复杂的超曲面。在这种情况下,可以通过非线性变换将低维的非线性问题转化为某个高维空间中的线性问题,在变换空间求最优分类面。如下图所示22其次,如果将原问题转化为其对偶问题,那么计算的复杂度就不再取决于空间维数,而是取决于样本大小了,严密的说,是样本中的支持向量数。在对偶问题中,对于寻优函数和分类函数来说都只涉及到训练样本之间的内积运算。这样,就不必知道变换形式,而只需在高维空间中进行内积运算。假设X从输入空间DR到特征空间H的变换为TLXXXX,21则预测函数为/1SGNIJIIIBXXYXFJIXX