1、 本 科 毕 业 论 文 汉语分词技术研究 Study of Chinese Word Segmentation Technology 姓 名: 学 号: 学 院:软件学院 系 : 软件工程 年 级 : 指导教师 : 年 月 摘 要 摘 要 中文分词技术是中文信息处理的一项基础性工作,也是一项关键性工作。它是我国计算机科学研究领域的重要课题。 信息检索是当前中文分词系统的主要应用领域。面向信息检索的中文分词技术是中文分词技术研究中的一个重要方向。面向信息检索的中文分词系统首先要有较高的分词速度,对于中文分词中存在的两大难点:歧义字段处理和未登录词识别也要有较完善的解决方案。 本文从理论上比较和
2、分析中文分词的三类主要方法:基于字符串匹配的方法,基于统计的方法,基于理解的方法。并对 其技术特点进行阐述,在此基础上提出了各方法存在的问题。基于字符串匹配的方法速度快,具有一定的歧义处理能力 ,但对于未登录词的识别存在明显的缺陷;基于统计的方法在有大型语料库的支持下可以具备很高的准确度,但是速度不易提高;基于理解的方法目前还处于初级阶段,难以实用化。针对信息检索领域和上述算法的特点,本文提出了基于字符串匹配和基于语言统计模型相结合的思想,利用语言统计模型在识别未登录词和歧义处理上的优势,来弥补基于字符串匹配方法的不足,同时发挥其速度快的优势。 基于上述思想,本文设计并开发出了基于 Java
3、平台的 中文分词基础工具包和分词系统。该工具包实现了基本的分词算法及本人提出的改进算法,能够满足通用中文分词的基本需求。工具包预留了接口,具有较好的可扩展性。此外,它也能与 Lucene 全文检索引擎协同工作,用于满足信息检索的需求。 最后,本文对系统进行了测评,在中文分词的三项指标:分词速度、准确率、召回率上,系统都达到了不错的效果。其较出色的分词速度决定其较适合于信息检索领域使用。根据测评结果,本文提出了系统存在的不足,对课题进行了总结,并提出了进一步研究的方向。 关键词 : 中文分词;信息检索;最大匹配法 Abstract Abstract Chinese word segmentati
4、on is the foundation of NLP(Natural Language Processing), and is also a key technology in the area of Chinese NLP. It is a important task at the present time. Information retrieval is the main application area of Chinese word segmentation. So ChineseWord segmentation for information retrieval is an
5、important direction. The system should be fast and capable of identification of ambiguities and unlisted word, which are difficult in Chinese word segmentation. There are three main methods of the word segmentation. The mechanical word segmentation based on matching, The method based on statistical
6、language model, The method based on artificial intelligent. The author analyses and compares them theoretically, describe the technical features of them, and point out that the method based on matching is fast, and is able to identification of ambiguities in some way, however , it cant resolve the u
7、nlisted word problem; the method based on statistical language model has a high precision when it has a large of natural language resource, but it is difficult to improve its speed; the method based on artificial intelligent is not practical at the present time. The author aims at these problems and
8、 the features of information retrieval, and makes use of advantages of the method based on statistical language model for remedying the disadvantage of mechanical word segmentation. On this basis, the author develops a basic Chinese word segmentation tool package and Chinese word segmentation system
9、 on Java platform. The basic segmentation methods and the advanced method are implemented to satisfy the basic requirements of Chinese segmentation. For it provide the interfaces, it can be expended easily. And it can also work with Lucene for information retrieval. Finally, the paper evaluates the
10、performance of the system. It has quite good segmentation speed , and not bad precision and recall mark, so it is more fit for information retrieval. Then the paper point out the disadvantage of the system, Abstract summarizes all the work and give suggestion for the future researches. Key words:Chi
11、nese Word Segmentation; Information retrieval; Maximum Matching Method;目 录 目 录 第一章 绪论 . 1 1.1 汉语分词技术的背景与意义 . 1 1.2 汉语分词技术国内外发展历程和研究现状 . 2 1.3 论文研究目标与思路 . 2 1.4 论文组织架构 . 3 第二章 汉语分词技术 . 5 2.1 汉语分词标准 . 5 2.2 汉语分词术语定义 . 7 2.3 汉语分词的基本方法 . 8 2.3.1 基于字符串匹配的分词方法 . 8 2.3.2 基于理解的分词方法 . 11 2.3.3 基于语言统计模型的分词方法
12、. 11 2.4 汉语分词技术的难点 . 13 2.4.1 歧义字段概述 . 13 2.4.2 歧义字段的识别 . 14 2.4.3 歧义字段的产生原因 . 14 2.4.4 未登录词的识别 . 15 2.5 汉语分词系统的测评指标 . 15 2.6 Lucene 全文检索引擎介绍 . 17 第三章 汉语分词算法的改进 . 18 3.1 基础算法的选择 . 18 3.2 改进算法的提出 . 20 3.2.1 对交集型歧义处理的改进 . 20 3.2.2 对未登录词识别能力的改进 . 21 3.2.3 对词典机制的改进 . 25 3.2.4 改进小结 . 27 第四章 汉语分词系统设计 . 29
13、 4.1 系统总体设计 . 29 4.2 基本算法模块设计 . 31 4.3 歧义字段处理模块设计 . 32 4.4 未登录词识别模块设计 . 33 第五章 系统实现与测评 . 35 5.1 系统开发环境简介 . 35 5.2 系统测试与结论 . 36 目录 第六章 总结与展望 . 37 6.1 工作总结 . 37 6.2 存在问题 . 37 6.3 系统展望 . 37 Content Content Chapter 1 Introduction . 1 1.1 Background and significance of Chinese word segmentation. 1 1.2 Co
14、urse of development and research status of Chinese word segmentation . 2 1.3 The main purposes and content of this paper . 2 1.4 Structure of this paper . 3 Chapter 2 Chinese word segmentation technology . 5 2.1 Standard of Chinese word segmentation . 5 2.2 Definition of Terms of Chinese word segmen
15、tation . 7 2.3 Basic methods of Chinese word segmentation. 8 2.3.1 The machenical method . 8 2.3.2 The method based on artificial intelligent. 11 2.3.3 The method based on statistics. 11 2.4 Difficulty of Chinese word segmentation . 13 2.4.1 Introductions of ambiguities . 13 2.4.2 Identification of
16、ambiguities . 14 2.4.3 Causes of ambiguities . 14 2.4.4 Identification of unlisted word . 15 2.5 Chinese word segmentation evaluation. 15 2.6 Introduction of Lucene . 17 Chapter 3 Improving Chinese word segmentation . 18 3.1 Choice of the basic algorithm. 18 3.2 Improving the algorithm . 20 3.2.1 Im
17、proving the ability of handing ambiguities. 20 3.2.2 Improving the ability of identification of unlisted word. 21 3.2.3 Improving the dictionary structure. 25 3.2.4 Summary . 27 Chapter 4 Chinese word segmentation sytem design . 29 4.1 System design . 29 4.2 Basic algorithm module design . 31 4.3 Am
18、biguities module design . 32 4.4 Unlisted word module design . 33 Chapter 5 Design of Chinese word segmentation . 35 5.1 Development Environment. 35 5.2 System Evaluation. 36 Contents Chapter 6 Summary and Outlook . 37 6.1 Summary. 37 6.2 Problem . 37 6.3 Outlook. 37 第一章 绪论 1 第一章 绪论 1.1 汉语分词技术的背景与意义
19、 随着信息时代的来临, Internet 上的信息急速增长,高效、快速、准确地进行信息处理成为重要而紧迫的任务。中文信 息处理也不例外。鉴于中文的语言特性, 可以概括地把中文信息处理分为三个平台 1:字处理平台、词处理平台和句处理平台,每个平台以前一个平台为基础。其中,字处理平台技术主要包括汉字编码输入、汉字识别及文书处理软件等。经过近 20 年的研究,已经达到比较成熟的阶段。词处理平台最受关注的是面向因特网、不限文本的中文信息检索技术,包括通用搜索引擎、文本自动过滤、文本自动分类以及个性化服务软件等,语音识别也是其重要应用领域。它是连接字处理平台和句处理平台的纽带。句处理平台的主要应用有两个
20、方面:一是机器翻译,目前翻译质量还不 令人满意,需要同人工智能联系起来;二是汉语文语转换,即不诉诸句的韵律结构。句处理平台的研究虽然已经取得一定成果,但还是处于初级阶段。因此,目前中文信息处理技术的重心还是词处理平台。 词处理平台进行处理的基本单位是词。众所周知,英文以词为单位,词和词之间靠空格隔开,因此在这方面有着天然的优势;而中文和英文不同,词之间并没有明显的分词标志,而是表现为一连串的中文字符序列。因此,在词处理平台对中文进行其他处理之前,必须先将中文字符串切分为有意义的词,这种技术称为“中文分词技术”。而绝大部分的中文文献都是汉语文献, 因此,这种技术又称为“汉语分词技术”。 汉语分词
21、技术是中文信息处理技术的基础。词是中文文本语义的基本单位,要对中文句子进行句法分析,必须先对词进行分析,因此,只有解决了汉语分词问题,其他基于词处理平台的技术才有用武之地。 第一章 绪论 2 1.2 汉语分词技术国内外发展历程和研究现状 早期的汉语分词系统主要采用基于字符串匹配的方法。北京航空航天大学计算机科学与工程系于 1983年设计完成了我国第一个实用性的自动分词系统CDWS。它采用最大匹配的机械分词方法,辅助以词尾字构词检错技术,实用知识库进行纠错。随着研究的发展,近年来 采用统计方法的分词系统逐渐增多,如清华大学人工智能实验室于 90年代末研制的 “CSeg&Tag 系统 ”、中科院计
22、算所ICTCLAS 分词系统。此外,较为出名的分词系统还有复旦分词系统、哈工大统计分词系统、杭州大学改进的 MM分词系统、北大计算语言所分词系统、 Microsoft Research 汉语句法分析器等 2。其中,中科院计算所 ICTCLAS 分词系统将中文分词和词性标注功能一体化,据 973专家组评测,正确率高达 97.58%3,分词和词性标注速度为 31.5KB/s,是目前广受好评的分词系统。更难能可贵的是, 该系统的免费版开放了源代码,为广大中文分词技术的学习者和研究者提供了宝贵的学习资料。 1.3 论文研究目标与思路 从上节可以看到 ,目前研究汉语分词的大多是科研院校,他们在这方面取得了瞩目的成果。遗憾的是,科研院校研究的技术大部分都不能很快地产品化、实用化;另一方面,中文信息检索领域对实用汉语分词系统的需求越来越迫切,一般人员无法接触到这些高新分词技术,所用的分词技术往往只能是较原始的,这二者间形成了极大的反差。鉴于这样的现状,本文尝试在基本的分词算法上进行改进,提出一种能满足通用分词系统基本需求,且能适用 于信息检索领域的分词算法,并开发应用此算法的分词系统,以满足这方面的需求。该算法的目标是能够在较低的资源需求和实施难度下获得较好的分词效果,为中文分词技术的实用化做出有益的尝试。 本文的基本研究思路如下: