一种基于统计的汉语切词方法刘海峰 王元元(解放军理工大学理 江苏南京 )【摘要】汉语分词是中文信息处理系统的基础。本文的主要目的是:提出一种概率模式与统计手段相结合的方法进行汉语切词。首先采用一种基于概率的算法对汉语文本进行切分,然后在此基础上借助样本方差这一统计手段对切分结果进行检验、修正;利用两种模型相结合的方式,提高切分的准确率。【关键词】自动分词 搭配 最大概率 样本均值 样本方差1 汉语切词的意义对于利用计算机进行汉语自动翻译的工作者来说,汉语文本的切词是必须面对的问题。一般说来,如果我们能在两种不同的语言中找到对应的模式,那么翻译将是非常理想的。但是书面汉语不像英语、法语等印欧语言那样,词与词之间用空格分开,一个汉语的句子却是由前后连续的字符串组成,词与词之间并没有明显的分界标志。这样,计算机面对的是汉语整句输入,要使计算机像人一样对句子进行处理,就必需把这一串字符切分成合乎人的语感的一串词。而这一步骤几乎又是我们进行其它所有与自然语言处理相关的应用诸如中文信息处理、人机对话等的前提。其次,语言中的词往往具有多种词性和多种词义,这虽然是各种语言的一