基于隐马模型的中国人名自动识别研究.doc

上传人:创****公 文档编号:3943519 上传时间:2019-08-29 格式:DOC 页数:8 大小:86.50KB
下载 相关 举报
基于隐马模型的中国人名自动识别研究.doc_第1页
第1页 / 共8页
基于隐马模型的中国人名自动识别研究.doc_第2页
第2页 / 共8页
基于隐马模型的中国人名自动识别研究.doc_第3页
第3页 / 共8页
基于隐马模型的中国人名自动识别研究.doc_第4页
第4页 / 共8页
基于隐马模型的中国人名自动识别研究.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、1Automatic Recognition of Chinese Unknown Words Using HMM基于角色标注的中国人名自动识别研究张华平刘群 (Liu Qun)Liuqun 中国科学院计算技术研究所软件实验室 北京 100080摘要:中国人名的识别是中文未登录词识别的重点和难点,目前的解决方案自身存在一些本质的缺陷,实际效果还难以满足实际需求。本文提出了一种基于角色标注的中国人名自动识别方法。即:利用从语料库中自动抽取的角色信息,采取 Viterbi 算法对切词结果进行角色标注,在角色序列的基础上,进行模式最大匹配,最终实现中国人名的识别。通过对16M 字节真实语料库的封闭与

2、开放测试,该方法取得了接近 98%的召回率,准确率也得到了实际提高。实验数据证明:该方法是行之有效、能够成功解决中国人名的自动识别问题。关键词:未登录词识别;中国人名;角色标注1.引言词语分析是中文自然语言处理的前提和基础,中文词语分析的研究已经取得较大的进展,但在处理含有未登录词的文本时,其结果一般难以满足实际的需求。未登录词的错误识别,不仅仅使自身无法正确识别召回,而且往往与前后的其他字词交叉组合,严重地影响其他词的正确识别,从而直接的降低了词语分析乃至整个句子分析的正确率。未登录词的自动识别已经成为了中文词语分析质量的实际瓶颈。中国人名在未登录词占有较大比重,也是未登录词识别的主要难点。

3、根据我们对人民日报 1998 年 1 月的语料库(共计 2,305,896 字)进行的统计,每 100 字中含未登录词1.192 个( 不计数词、时间词),其中 48.6%的是中国人名。而中国人名的召回率仅为68.77%1,其切分错误高达 50%以上,对所有分词错误进行统计,姓名错误占了将近90%2。因此中国人名的自动识别是未登录识别问题的重点和关键,中国人名识别问题的解决也会改善汉语词语分析、句法分析乃至中文信息处理的最终质量。1.1 中国人名自动识别的困难中国人名数量众多,规律各异,有很大的随意性。其主要的困难在于:1中国人名构成的多样性;2人名内部相互成词;3人名与其上下文组合成词;4歧

4、义理解。1中国人名构成的多样性:(1)姓+名: 张华平 、 张浩 、 西门吹雪 、 诸葛亮 ;(2)有名无姓:“ 春花 点点头” ;“ 杰 ,你好吗?” (3)有姓无名:“ 刘 称 赵 已离开江西” ;(4) 姓+ 前后缀 刘总 、 张老 、 小李 、 邱某 ;(5) 港台已婚妇女: 范徐丽泰 、 彭张青 。2人名内部相互成词,指的是姓与名、名与名之间本身就是一个已经被收录的词。如:王国 维 、 高峰 、 汪洋 、 张 朝阳 。根据我们对 80,000 条中国人名的统计,内部成词的比例高达 8.49%。3人名与其上下文组合成词的情况包括人名的首部(姓或名的首字)与人名的上文成词和人名的尾部(姓

5、或名的首字)与人名的下文成词。例如:“这里 有 关 天培 的壮烈” ;2“费孝 通向 人大常委会提交书面报告” 。在人民日报 1998 年 1 月的语料库中,这种情况接近 200 例。4歧义理解的主要是由同源冲突3引起的:例如:“河北省 刘庄 ”;中的“ 刘庄 ”就是中国人名与地名的歧义, “周鹏和 同学”存在人名“ 周鹏 ”和“ 周鹏和 ”的歧义4。1.2 现有解决方案及其不足针对中国人名的自动识别问题,人们已经作过很多的探索,并提出了多种解决方案。根据其使用的方法不同,这些方案大致可以分为三种:规则方法2,4,5、统计方法6 以及规则与统计相结合的方法1,7,8。规则方法主要利用两种信息:

6、姓氏用字分类5和限制性成分 8。即:分析姓名用字,驱动对姓名的识别过程,并采集姓名前后相关的成分,对姓名的前后位置进行限制。小规模测试的结果表明,其准确率可以高达 97%4。在缺乏特大规模熟语料库的时候,规则方法是唯一可行的方法。统计方法主要是针对姓名语料库来训练某个字作为姓名组成部分的概率值,并用它们来计算某个候选字段作为姓名的概率,其中概率值大于一定阈值的字段为识别出的中国人名6。规则与统计相结合的办法,可以通过概率计算减少规则方法的复杂性与盲目性,而且可以降低统计方法对语料库规模的要求。目前的研究基本上都是采取规则与统计的方法,不同之处仅仅在于规则与统计的侧重不同而已。现有解决方案存在着

7、本身固有的一些不足:首先,一般采取“单点(首或尾)激活”4的机制来触发人名的识别处理。即扫描到姓氏用字、职衔、称呼等具有明显姓名特征的字段时,才将前后的几个字列为候选姓名字段进行人名的识别。那些不具备明显特征的姓名往往会被丢失,如上文中提到的“有名无姓”的人名。其次,姓名候选字段大都是选取切分后的单字碎片1,2,4,6,也有研究者将少量的二字或多字词纳入候选字段的选取范围 4。在这种选取机制的作用下,人名内部成词以及人名与上下文成词的情况基本上是无法召回的。根据上文提供的统计数据,由于这两种机制所引起的召回率损失将不小于 10%。最后,人名识别采取的大量规则往往代价昂贵而且难以扩展。文献4中,

8、研究者就是从 10 万条人名库、2 亿字的真实语料库中将姓名用字分为了 9 类,并总结了 21 条识别规则。无论是收集如此巨大的人名库、真实语料库,还是提炼规则,都是一个浩大的工程。这无疑是非常费时、昂贵的。如果增加新的人名形式,也必须增加新的规则,并对以前的规则重新修订,因此规则方法很难扩展。规则可以保证很高的准确率,但是任何规则都不可能覆盖尽可能多的人名,对于规则之外的姓名就完全无能为力。本文将提供一种可以避免上述不足的解决方案基于角色标注的中国人名自动识别方法。该方法主要采用隐马模型对分词结果进行人名构成角色的标注,然后根据各个不同的角色,进行简单的模式匹配并最终识别出人名。某个字词的人

9、名构成角色定义主要依据于其在人名构成中的不同作用,如姓、名、上文、下文等。字词不同角色的概率以及各个角色之间的转移概率,完全从语料库训练过程中自动抽取。该方法自动学习、自动识别,无需人工的直接干预,改变训练样本,就可以适应新的情况。一次扫描,无需回溯,选取所有的可能字段作为候选姓名,识别处理不需激活。经过大规模的真实语料库测试,我们取得让人满意的实际效果。本文第二节阐述该方法的理论依据,然后给出具体的实现过程,最后提供人名识别的实验结果并进行分析。32、基于角色标注的中国人名自动识别方法2.1 中国人名的构成角色中国人名的内部构成与上下文比较集中,而且有一定的规律性。在 83,077 条人名库

10、中,姓氏用字仅有 820 个,其中王、张、李三大姓,就占了 20%;20,631 个单名中,单名用字为 1,489 个; 双名的首字与末用字数均不到 2000 个。人名的上下文种类也很有限。上文一般是称呼、职衔以及一些连词、动词,如:“总统” 、 “主任” 、 “打” 、 “向”等。下文大多是像“说” 、 “表示” 、 “主席”之类的词。我们将人名的内部组成、上下文等与人名识别相关的成分称为中国人名的构成角色(为行文方便,以下简称角色)。我们利用角色表 (见表 1)对“馆/ 内/ 陈列/周/恩/来/ 和/邓/颖/超生/前/使用/过/的/物品/。”进行角色标注,其结果为: “馆 /A 内/A 陈

11、列/K 周/B 恩/C 来/D 和/M 邓/B 颖/C 超生/V 前/A 使用/A 过/A 的/A 物品/A。/A”编码 代码 意义 例子B Pf 姓氏 张 华平先生C Pm 双名的首字 张 华 平先生D Pt 双名的末字 张华 平 先生E Ps 单名 张 浩 说:“我是一个好人” F Ppf 前缀 老 刘、 小 李 G Plf 后缀 王 总 、刘 老 、肖 氏 、吴 妈 、叶 帅K Pp 人名的上文 又 来到 于洪洋的家。L Pn 人名的下文 新华社记者黄文 摄M Ppn 两个中国人名之间的成分 编剧邵钧林 和 稽道青说U Ppf 人名的上文和姓成词 这里 有关 天培的壮烈V Pnw 人名的

12、末字和下文成词 龚学 平等 领导, 邓颖 超生 前X Pfm 姓与双名的首字成词 王国 维、Y Pfs 姓与单名成词 高峰 、 汪洋Z Pmt 双名本身成词 张 朝阳A Po 以上之外其他的角色表 1 中国人名的构成角色表2.2 角色自动标注与中国人名识别既然含中国人名的句子包含姓、名、上下文等构成角色,那么换一个角度说:我们就可以通过对构成角色进行标注,通过对角色序列简单的模式匹配来实现中国人名的识别。而中国人名构成角色的标注实质是一个简单的词性标注过程。我们采用的是 Viterbi 算法9进行角色自动标注。即:从所有可能的标注序列中优选出概率最大的标注作为最终标注结果。其理论及推导如下:我

13、们假定 W 是分词后的 Token 序列( 即未登录词识别前的分词结果),T 是 W 某个可能的角色标注序列.其中 T# 为最终标注结果,即概率最大的角色序列。则有:W=(w1, w 2, , w m),4T=(t1, t2, , tm), m0,T#= arg T max P(T| W).E1 根据 Bayes 公式,有: P(T|W)= P(T)P(W|T)/P(W) . E2对于一个特定的 Token 序列来说,P(W) 是一个常数,因此根据 E1 和 E2 我们可以得到T#= arg T max P(T)P(W|T) .E3我们引入隐马尔科夫模型10来计算 P(T)P(W|T)。其中

14、wi 为观察值,角色 ti 为状态值。则 W 是观察值序列,而 T 为隐藏在 W 后的状态值序列。因此:P(T) P(W|T) mi iitpt01)|()|(T #=arg T max .E4mi iitptw01)|()|( T#= arg T min . .E5 i iitt0 1)|(ln)|(ln角色自动标注问题就转换为求解 E5 表达式最小化的问题。利用 Viterbi 算法 9 就可以求解 T#。 为了解决人名与其上下文组合成词的问题,在人名识别之前,我们要对角色 U(人名的上文和姓成词)和 V(人名的末字和下文成词 )进行分裂处理。相应地分裂为KB、DL 或者 EL。最后,基于

15、角色序列的人名识别就是一个简单的模式最大匹配问题。我们使用到的人名识别模式集为: BBCD, BBE, BBZ, BCD, BEE,BE,BG,BXD,BZ,CD,EE,FB, Y,XD。只要符合其中一个模式,我们就人们对应的 Token 片段组成一个人名。2.1 节中的例句“馆/内/陈列/周/恩/来/和/ 邓/ 颖/超生/ 前/使用/ 过/的/ 物品 /。”对应的 T#为:“AAKBCDMBCVAAAAAA”。V 分裂处理后,最终的角色序列为:“AAKBCDMBC DLAAAAAA”。模式最大匹配后,我们识别出的人名是:“周恩来”和“邓颖超”。2.3 角色信息的自动抽取p(wi|ti) 和

16、p(ti|ti-1)是 E5 中两个很关键的角色信息参数。其中 p(wi|ti)指的是角色为 ti的 Token 集合中 wi 的概率; p(ti|ti-1)表示的是角色 ti-1 到角色 ti 的转移概率。在大规模语料库训练的前提下,我们可以得到:p(wi|ti)C(w i,ti)/C(ti) .E6其中 C(wi,ti):w i 作为角色 ti 出现的次数;C(t i):角色 ti 出现的次数。p(ti|ti-1)C(t i-1,ti)/C(ti-1) .E7其中 C(ti-1,ti):角色 ti-1 下一个角色是 ti 的次数;C(wi,ti), C(ti), C(ti-1,ti)可以通

17、过对已经切分标注好的熟语料库进行学习训练,自动抽取得到。我们训练用的语料库来自于 1998 年 1、2 月人民日报,共计 14,806K 字节的。在统计训练之前,我们还必须对实际的语料库按照表 1 制定的角色表重新进行标注转换,因为实际的语料库是按照词性进行标注的。例如:语料库中的“政务司/n 司长/n 陈/nr 方/nr 安生/nr 出任 /v 委员会/n 主席/n ” 应当转换为: “政务司/A 司长/K 陈/B 方 /B 安/C 生/D 出任/L 委员会/A 主席/A”。53、方法的具体实现基于角色标注的中国人名自动识别主要包括三个过程:角色信息的自动抽取;角色标注和人名的最终识别。角色

18、标注实质上就是一个小型的词性标注过程,主要是从所有可能的角色标注中,尽快求取满足 E5 的标注序列。Viterbi 算法专门解决这类问题已经非常成熟。在此不作介绍。下面分别给出角色信息自动抽取和中国人名的识别的算法。角色信息自动抽取流程算法:(1) 从语料库依次读入标注好的句子;(2) 将中国人名以外的片断一律重新标注为 A。(3) 若人名前面的片断 p 和人名的首部 f 成为新词 pf,将 pf 标注为 U,否则将 p 标为K(若 p 原来标注的角色是 A)或 M(若 p 原来标注的角色是 L)。(4) 若人名的尾部 t 和人名后面的片断 n 成为新词 tn,将 tn 标注为 V,否则将 n

19、 标为L。(5) 根据本文 1.1 节中人名的 5 种类别,分别对姓、双名首字、双名末字、单名、前缀、后缀相应地标注为角色 B、C、D、 E、F、G。内部成词的情况,相应地标注为X、Y、Z。(6) 在句子的角色序列中,将角色不是 A 的词 wi 存入词典,并统计 wi 作为 ti 的出现次数 C(wi,ti)。同时累计所有不同角色的出现次数 C(ti)以及相邻角色的共现次数 C(ti-1,ti)。中国人名的识别流程:(1) 对句子进行分词(基于统计方法或者是最大匹配法) ,用 Viterbi 算法求出概率最大的角色序列 T#。(2) 将角色为 U 的片断 pf 分裂为 pKfB(若 f 为姓)

20、 、pKfC(若 f 为双名首字)或pKfE(若 f 为单名) 。(3) 将角色为 V 的片断 tn 分裂为 tDnL(若 t 为双名末字)或 tEnL(若 t 为单名) 。(4) 对分裂处理后的角色序列在姓名识别模式集中进行模式最大匹配,输出对应片段组成人名,同时记录它们在句子当中的位置。(5) 对识别出来的结果加入一些限制规则排除一些错误的中国人名。如中国人名前后不能是“” (这种情况下往往是外国人的译名) 。4、实验结果与分析我们分别作了针对大规模的真实语料库进行了封闭和开放测试,取得了十分不错的效果。实验结果如表 2 所示:类别 封闭测试语料 1 封闭测试语料 2 开放测试语料来源(均

21、为人民日报 ) 98 年 1 月 98 年 2 月 1 日-20 日 98 年 2 月 20 日-28日语料库大小(字节) 8,621K 6,185K 2,605K实际人名数 13360 7224 2967识别出的人名数 17505 10929 4259正确识别的人名数 13079 7106 27396准确率 74.72% 65.02 64.32%召回率 97.90% 98.37% 92.32%F 值 84.75% 78.29% 75.81%表 2 中国人名自动识别实验结果其中:准确率=正确识别的人名数/识别出的人名数*100%召回率=正确识别的人名数/实际人名数 *100%F 值=2准确率召

22、回率/(准确率+召回率)从表 2 中,我们可以看到:基于角色标注方法识别人名的召回率在封闭测试的情况下能达到 98%,开放测试的召回率也超过 92%。现在的一些解决方案仅为 68.77%1,最近一些方法小规模测试的召回率一般也很难达到 90%2,3,5,6。对人名识别来说,召回率比准确率更加重要,因为低召回率就意味着没有办法再作后续处理,而低准确率完全可以通过增加限制条件或者后续处理(如:词性标注、句法分析等)等方法将错误的人名排除掉,从而提高最终的准确率。目前我们采用的限制规则仅仅是淘汰部分外国人名,如果再增加一些有效的消除规则,准确率还有很大的上升空间。另外,我们所作测试实验的特色还在于:

23、(1) 完全真实的语料环境:目前常用的测试手段是只提取含有中国人名的句子,然后进行识别,统计实际识别出的人名,并计算正确率与召回率。这种测试方法的问题在于:它回避了其他大量的不含中国人名的句子,而这种句子在真实语料环境中,超过 90%。他们很可能被错误的识别出人名来。例如:“吕梁的特点是贫困人口占全省的左右。 ”中的“吕梁”很可能被识别为人名。我们的测试是完全真实的语料库环境,没有做任何的筛选。采用传统的办法,我们对 12,507 个只含人名的句子重新进行识别测试实验,无论是封闭测试还是开放测试,准确率、召回率均超过 92%以上。 因此传统的测试方法得出的准确率往往会比真实语料环境高出 20%

24、以上。我们的测试实验可能更符合真实的语言环境。 (2) 超大规模:就我们目前掌握的资料,以前测试的人名规模均不足 1000 个2,4 。不及我们的1/20。小规模的测试数据在统计意义上不足以说明问题。我们的测试语料库高达 16M 字节,含人名超过 23,000 个。应当说,我们的数据更具有统计上的意义。5、结论本文研究了中国人名的多种表现形式、交叉成词的各种情况。并分析了目前解决方案中激活机制和候选姓名选取的本质缺陷。针对实际问题与已有方法的不足,作者提出了一种基于角色标注的中国人名识别方法。即采用 Viterbi 算法,利用 中国人名构成角色表及其相关统计信息,对句子中的不同成分进行角色标注

25、,对角色进行模式最大匹配,从而识别出中国人名。中国人名构成角色指的是各个不同分词片断在人名识别过程中所扮演的不同角色,如:姓、单名、上下文等。某个词作为特定角色的概率以及角色之间的转移概率,全部从训练语料库中自动抽取,从而降低了人工总结规则的高成本与内在缺陷。角色的标7注过程就是选取角色序列概率最大的过程,避免了以前方法盲目触发的不足。通过对大规模完全真实语料库的封闭与开放测试,该方法取得相当好的效果,证明了是行之有效的,完全能够满足实际的需求。我们下一步的研究工作是将基于角色标注的方法推广到对中国地名、译名、缩略语等其他未登录词的识别。致谢:感谢北京大学计算语言所提供的 2 个月人民日报语料

26、库! 参考文献1 季姮 罗振声.基于反比概率模型和规则的中文姓名自动辨识系统.见:黄昌宁 张普.自然语言理解与机器翻译.北京:清华大学出版社,2001.p.123-128.2 吕雅娟 赵铁军等.基于分解与动态规划策略的汉语未登录词识别.中文信息学报,2001, Vol. 15 No. 1. P.123-128.3 孙茂松等.中文姓名的自动辨识.中文信息学报,1994, No.2. 4 罗智勇 宋柔 . 现代汉语自动分词中专名的一体化、快速识别方法.见:Ji Dong Hong 等.2001.国际中文电脑学术会议.新加坡:,2001.p.323-328.5 郑家恒 刘开瑛. 自动分词系统中姓氏人

27、名的处理策略探讨.见:陈力为.计算语言研究与应用.北京:北京语言学院出版社:,1993.6 宋柔 朱宏等. 基于语料库和规则库的人名识别法.见:陈力为.计算语言研究与应用.北京:北京语言学院出版社:,1993.7 王省 黄德根 杨元生. 基于统计和规则相结合的中文姓名识别.见:黄昌宁 董振东.计算语言学文集.北京:清华大学出版社:,1999.8 陈小荷. 现代汉语自动分析. 北京:北京语言文化大学出版社,2000. p.104-114. 9L. R.Rabiner (1989) A Tutorial on Hidden Markov Models and Selected Applicatio

28、ns in Speech Recognition. Proceedings of IEEE 77(2): pp.257-286.10L.R. Rabiner and B.H. Juang, (Jun. 1986) An Introduction to Hidden Markov Models. IEEE ASSP Mag., Pp.4-166. Automatic Recognition of Chinese Person Name Based on Role TaggingAbstract This paper presents a universal approach for Chines

29、e unknown words recognition using Hidden Markov Model (HMM). We identify an unknown word based on its lexical components, contexts and their mutual transitive relations. Such linguistic knowledge is automatically learned in the process of HMM training on a corpus. Just like a POS tagger, tokens prod

30、uced by sentence segmentation are tagged according to their roles in the formation of unknown words. After that, unknown words recognition process is performed on the tag sequence with the maximum probability. Remarkably, we can successfully resolve ambiguities brought forth by unknown words togethe

31、r with some special contexts. Experiments show that our method is practicable. We have got excellent precision and recalling rates, especially for person names, and other usual types of unknown words. As to the problem of data sparseness weve met, we have also given some countermeasures.Keywords: Un

32、known words recognition; Chinese person name; Role tagging.作者:张华平 :男,1978年2月出生,江西波阳人,中国科学院计算技术研究所2000届硕士研究生,1999年获北方工业大学计算机专业学士学位。研究方向:自然语言处理与中文词语分析。(通讯地址:北京2704信箱中科院计算所软件室 100080;电话:62587953,13641366312)8刘群 : 男,1966 年 10 月出生,江西人,中国科学院计算技术研究所副研究员,1989 年获得中国科学与技术大学计算机专业学士学位,1992 年获得中国科学院计算技术研究所计算机硕士学位,1999 年起,在北京大学攻读计算机在职博士。研究领域包括:机器翻译,自然语言处理与中文信息处理。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。