1、消歧需要词例知识黄昌宁微软亚洲研究院提 纲对 NLP的误识消歧需要词例知识( 1) OAS的侦察和消歧( 2)语块分析结论对 NLP的误识 有人认为:中文信息处理 = 汉语理解句法 -语义方法是唯一出路 事实是:绝大多数 NLP系统建立在语言表层信息的基础上,还谈不上 “理解 ”分布在各个层面上的歧义是自然语言的一个本质属性,句法 -语义方法在消歧方面的能力尚待证实句法 -语义的神话 三种自动分词方法:形式分词 (MM), 句法分词,语义分词 (王永成 ) 句法分词 “解决切分歧义的 95%”(何克抗 ) 句法分析可解决切分歧义 (Wu,1998)事实证明:句法 -语义方法在消解切分歧义方面,
2、效果并不理想 (Wu, SIGHAN-2003)把自然语言处理看成是一个物理符号处理系统也许更现实一些 CFG规则不能做什么? 短语边界歧义:NP 经营 /农产品 /的 /加工 /潜力 /很大 NP 农产品 /的 /加工 /VP 经营 / NP农产品 /的 /加工 / 重视 NP发挥 v/高素质 /人才 /的 /作用 /NP 高素质 /人才 /的 /作用 / VP发挥 v/ NP高素质 /人才 /的 /作用 / 切分歧义:对路 /a 的 渴望 竟 如此 强烈 ,PP 对 /p路 /n 的 渴望“ 的 ” 字前的 NP边界 /精力 /充沛 /的 /吴彬 /脑子 /里 /想 /的 /全 /是 /武
3、术 /的 /事儿 /。 /充沛 /的 /吴彬 /脑子 /里 /想 /的 /全 /是 /武术 /的 / /吴彬 /脑子 /里 /想 /的 /全 /是 /武术 /的 / /脑子 /里 /想 /的 /全 /是 /武术 /的 / /想 /的 /全 /是 /武术 /的 / /全 /是 /武术 /的 / /武术 /的 /句法分析调查 一个实用化句法分析器的正确率约 73%,其错误分布 (按句子计算 ):分词 词性 组块 中心词40% 24% 12% 24% NLP底层工作不扎实是 MT性能低下的原因分词歧义调查 (933句 ) 一个基于句法分析器的分词系统 (PBWS) 对交集型歧义字段 (OAS) 的误
4、切 : 决定在全省 /戒 /玩 /风 /, /兴学 /风 /,LW: 兴学 v, 学风 n, 兴 v, 风 n, suf构词法n v+suf: 抢购 |吃喝 |出国 |兴学n n+suf: 世 |球 |文 |学 |玩句法vpv+n : /戒 /玩 风 /, /兴 /学风 /,n v+suf: /戒玩 /风 /, /兴学 /风 /,OAS误切示例(续) 最大限度地防止 /NP 有害 /a 信息流 /n VP 入 /v 和 /c 传播 /v 保修条款亦 /不详 /尽 /, 挽救一 /个 /人生 /命 /的义务将凌驾于不侵犯别人隐私的义务。 改变 “一手硬, /一 /手软 /”的状态,有新闻界的一份功劳。CAS误切示例 PBWS 对覆盖型歧义字段 (CAS) 的误切 东 /中西部 /地区要按照优势互补、互惠互利、真诚合作的原则,加强联合。 过去思想封闭的赞皇人, /对路 /的渴望竟如此强烈, 你们这 /群山 /里的女娃娃有了学本领、闯世界的志气。 希望你们再 /创新 /的业绩。 进书店 /跟进 /超市买柴米油盐 /一 /样 /,