1、 分类号 密级 UDC 编号 中国科学院研究生院硕士学位论文大规模平衡语料的收集分析及文本分类方法研究陈克利指导教师 宗成庆 研究员 博士 中科院自动化所 申请学位级别 工程硕士 学科专业名称 模式识别与智能系统 论文提交日期 2004 年 6 月 论文答辩日期 2004 年 6 月 培养单位 中国科学院自动化研究所 学位授予单位 中国科学院研究生院 答辩委员会主席 Dissertation Submitted toInstitute of Automation, Chinese Academy of Sciencesin partial fulfillment of the requirem
2、entsfor the degree ofMaster of EngineeringbyKeli Chen(Pattern Recognition and Intelligence System)Dissertation Supervisor: Professor Chengqing ZongCollection and Analysis of Large-Scale Balance-Corpus and Approach to Text CategorizationI摘 要语料库和词典是进行自然语言处理研究的重要资源。语言学的研究必须以语言事实作为依据,语言现象的复杂性决定了要全面的了解其特
3、点必须有大规模语料库的支持,否则只能是无源之水,无本之木。尤其是随着统计模型在自然语言处理领域的应用,大规模语料库的作用更加突出,无论对于语言现象本身的研究,还是对于信息检索、机器翻译、文本分类、自动分词等应用系统的研究和开发,都具有非常重要的意义。同样,词典开发不仅是自然语言处理研究的基础性工作,也是字典编纂、语言教学等工作的重要环节。因此,本论文从事的大规模平衡语料的收集和分析工作,以及在该工作基础上开展的文本分类技术研究,具有重要的理论意义和实用价值。本文首先在欧共体项目(LC-STAR)的资助下,开展了大规模汉语平衡语料的收集与分析工作,其主要目的是建立一个反映现代汉语语言特点的、适用
4、于汉语语言分析、语音识别和语音合成的汉语标注语料库,并以此为基础建立相应的信息词典。该工作主要包括:(1)在对大规模汉语平衡语料的收集方法进行调研和分析的基础上,收集并标注了规模达 3087 万字的汉语平衡语料;(2)以收集的语料为基础,建立了一个大规模(10 多万词)的现代汉语信息词典,词条标注信息包括词性、注音、词频和专用词的领域信息等。以上述工作为基础,我们对文本分类方法进行了深入的研究,主要创新包括:第一,在特征权重计算方面,通过对常见特征权重算法的分析和比较,提出了在 TF*IDF 算法中用 TF 的 n 次方代替 TF,并引入 DBV 变量的处理方法,使得该算法的 F1-Measu
5、re 测度分别提高了 45%。第二,类似于上面的处理方法,在 TF*IWF 算法中用 TF 的 n 次方代替TF,并引入 DBV 变量,使得该算法的 F1-Measure 测度分别提高了12.28。第三,在特征向量抽取方面,在 Rocchio 分类器上对常见的特征向量抽取方法进行了全面对比,然后提出了将 TF*IDF 算法用于特征抽取的处理方法,并通过实验证明,该方法在不同数目关键词下的分类效II果均优于其它常见的特征向量抽取算法。关键词:平衡语料,语料库,文本分类,特征抽取IIIAbstractCorpus and lexicon are important linguistic resou
6、rce for Natural Language Processing. Linguistic research should be based on linguistic facts, and large-scale corpus is necessary for probing into linguistic research because of its complexity. Especially, along with wide application of statistical model in Natural Language Processing, large-scale c
7、orpus is playing a more important role. Large-scale copus is important to not only research of linguistic phenomena,but also system for Information Retrieval, Machine Translation, Text Classification, or Automatic POS-Tagging and so on. In addition, Chinese dictionary is the base of Natural Language
8、 Processing, as well as a necessary part of creation of Chinese characters dictionary and linguistic teaching. Therefore, the collection and analysis of large-scale balance-corpus in our work, on which text classification is based, has theoretic significance and utilitarian value.Our work supported
9、by European Unions project of LC-STAR, which includes collection and analysis of a large-scale balance-corpus, aims to build a Chinese tagged corpus and an information lexicon for Speech Recognition and Speech Systhesis. The main work can be conluded as: (1) After investigating and analyzing the str
10、ategies for large-scale Chinese balance-corpus, we have collected and tagged a Chinese corpus consisting of 30.87M Chinese characters; (2) Based on the collected corpus, we have created a Chinese information lexicon consisting of 103192 words (including POS-tag, phonesization, wordss frequency and d
11、omain information for application words). We have done some research work on Text Classification based on all the above. Our inovation in Text Classification can be concluded as follows: 3 About feature weighting, we have analyzed the advantages and disadvantages of common feature weighting algorith
12、ms, and introduced two improvements into TF*IDF which is among common feature weighting alogrithms. The two improvements are replacing TF with its nth root and introducing DBV into the expression. F1-M of classifier has been improved by 45%, so the effectiveness has been proved. IV4 Similarly, we ha
13、ve introduced the two improvements into TF*IWF feature weighting algorithm, resulting in 12.28% improvement of F1-M.5 About feature extraction, we have compared several common feature extraction algorithms, and presented to introduce TF*IDF algorithm for feature extraction. Our comsequent expriments
14、 have proved this algorithm more effective than other ones.Keywords: Balance Corpus, Corpora, Text Categorization, Feature ExtractionV目 录摘 要 .IAbstract.III第一章 绪 言 .1第二章 大规模平衡语料的收集分析 .32.1 研究背景 .32.2 国内外语料库概况冯志伟,2000 .32.2.1 国内语料库概况 .32.2.2 国内语料库概况 .42.3 大规模平衡语料的收集分析 .52.3.1 通用语料的收集和通用词汇的抽取 .52.3.2 专
15、有名词的收集 .112.3.3 专用词汇的收集 .142.3.4 注音 .162.3.5 词典形式 .162.3.6 大规模平衡语料的分析陈克利,2003 .18第三章 基于大规模真实语料的文本分类方法 .223.1 已有的文本分类方法简介 .223.1.1 纯贝叶斯方法 .233.1.2 Rocchio 算法 .243.1.3 k 近邻算法 .253.1.4 支持向量机算法(SVM) .253.1.5 决策树算法 .273.1.6 其他分类算法 .273.2 特征向量的权重算法 .283.2.1 常用的特征权重算法 .293.2.2 特征权重算法的改进 .323.3 特征向量的抽取 .353
16、.4 评价函数 .383.4.1 微平均和宏平均 .383.4.2 F-Measure.393.4.3 Break-even point Aas, 1999.393.4.4 11-point average precision Taghva, 2004.393.5 阀值函数 .413.6 实验 .413.6.1 实验:TF*IWF 算法和改进后的 TF*IWF*DBV 算法的比较 .413.6.2 实验: DBV 和 DBV2的比较 .46VI3.6.3 实验: TF*IDF 算法和 TF*IDF*DBV 算法的对比 .473.6.4 实验: 不同特征选取方法的对比 .51第四章 结束语 .5
17、4参考文献 .56绪言1第一章 绪 言语料库和词典是进行自然语言处理研究的重要资源。语言学的研究必须以语言事实作为依据,语言现象的复杂性决定了要全面的了解其特点必须有大规模语料库的支持,否则只能是无源之水、无本之木。尤其是随着统计模型在自然语言处理领域的应用,大规模语料库的作用更加突出,无论对于语言现象本身的研究,还是对于信息检索、机器翻译、文本分类、自动分词等应用系统的研究和开发,都具有非常重要的意义。同样,词典开发不仅是自然语言处理研究的基础性工作,也是字典编纂、语言教学等工作的重要环节。因此,本论文从事的大规模平衡语料的收集和分析工作,具有重要的理论意义和实用价值。自动文本分类技术是在给
18、定分类体系下,根据文本内容确定其所属类别Kjersti et al., 1999。随着网络和信息时代的到来,人们获取信息的手段越来越丰富,可供选择的信息量也成指数级膨胀。数据量的增长一方面为人们进行各种活动提供了充分的信息资源,另一方面也增加了人们选择有用信息的难度,如何才能从浩如烟云的结果中找到自己需要的信息成为摆在人们面前一个新课题,最好的方式是让计算机以一种自动的方式代替人去搜索,而一个好的搜索系统,首先必须能对千差万别、来源各异的文本合理的分类和索引,这就是文本分类技术一个最重要的应用信息检索。自动文本分类技术是自然语言处理领域的一个重要课题。除了上面提到的信息检索以外,文本分类还应用
19、在其他许多方面,如:信息过滤、文档索引、数字图书馆的分类和管理、词义消歧、主题识别、语料库建设、元数据生成等。本文主要包括三部分内容。第二章是大规模平衡语料的收集分析,主要介绍 LC-STAR 词典和语料建设项目,并以此为基础,比较和分析了不同领域的用词特点。这一部分又可以分成两大部分,第一部分主要是介绍与 LC-STAR 项目相关的语料收集和词典建设工作,包括通用语料的收集和各种词表(包括通用词表、专有名词、专用词表、总词表等)的抽取、词性标注、注音等一系列工作。第二部分依据生成的词表对不同词类在各领域的分布情况从两方面(词汇量和各种词类所占比例)进行了比较分析。2第三章是基于大规模真实语料的文本分类研究。根据第二章的分析我们知道不同领域各种词类的分布差别比较大,所以我们选取词作为文本分类的特征进行分类的研究。在这一部分,我们主要做了三方面的工作,第一部分介绍了现有的一些特征权重算法,比较了其优劣,并提出了我们的改进算法;第二部分介绍了现有的一些特征抽取算法,并在对这些算法分析后,提出了我们的特征抽取算法;第三部分设计了五个实验,对上述提到的算法进行了对比,从实验上证明了改进算法的有效性。最后一章对全文进行了总结。