1、中文信息处理介绍 Introduction to Chinese Information Processing,YU Shiwen ZHU XuefengInstitute of Computational Linguistics,School of electronics engineering and computer science,Peking University ( ICL/PKU )April, 23, 2007, Moscow,主要内容,中文信息处理概要 汉语信息处理的主攻方向 综合型语言知识库介绍研究中的课题与 CIP 相关的信息结语与致谢,*主要内容,中文信息处理概要 汉语
2、信息处理的主攻方向 综合型语言知识库介绍研究中的课题与 CIP 相关的信息结语与致谢,*相关的术语及其所指,Chinese Information Processing(CIP) 中文信息处理 Chinese character Information Processing 汉字信息处理CIP Chinese character (IT) = Chinese ideograph (Sinology) Chinese language Information Processing 汉语信息处理 Natural Language Processing(NLP) 自然语言处理Language Inf
3、ormation Processing 语言信息处理(1) NLP/ CIP(2) Chinese-centered Multi-lingual Information Processing 以汉语为核心的多语言信息处理,*相关的术语及其所指,Natural Language Understanding 自然语言理解自然语言处理的最高境界Computational Linguistics 计算语言学ABBYY Headquarters V. Selegey:“both linguistic and computational aspects of Chinese modeling”ICL/PK
4、U 以文科学科命名,设在理科的信息科学技术学院,正好显著地反映了文理交叉的特点。,*“汉语信息处理” 在研究什么?,实用系统: (1)人工系统的自然语言界面(问答系统) (2)机器翻译与机器辅助翻译 (3)信息检索、信息提取与搜索引擎 (4)文本管理(文本分类与聚类、文献摘要与述评、OCR后处理) (5)词典计算机辅助编纂 (6)领域知识工程(术语提取、知识元数据库、百科全书编撰) (7)语音接口技术(语音识别的后处理、语音合成的预处理) (8)自然语言处理系统评测技术 (9)面向语言本体研究与语言教学的应用 汉语信息处理既立足于汉字信息处理,又区别于汉字信息处理。处理对象不再是单个的汉字或字
5、符串,而是语言学的单位:词、短语、句子乃至篇章、文档集合。两者之间也有联系:拼音汉字转换、简繁转换、OCR 后处理、 文献检索、语音识别与合成等等。,*关于“汉语信息处理”的基本认识,自然语言处理是数值型计算机在非数值领域最早的应用(MT)。但在“自然语言理解” 的层次上,至今没有突破:(1)依据对人类语言机制的认识(2)语言既是对象,又是工具 (3)依据对当代计算机能力的认识(4)依据NLP技术发展的历史经验汉语理解研究和其他语言一样困难。需要交流。希望与俄国同行交流。在技术层面上,汉语信息处理又有特殊的课题。,*主要内容,中文信息处理概要 汉语信息处理的主攻方向 综合型语言知识库介绍研究中
6、的课题与 CIP 相关的信息结语与致谢,实例之一关于自动升降晾衣架的对话妻子:“嘿,过了一年才坏。”Wife: 丈夫:“什么呀,才一年就坏了。”Husband: 丈夫理解了妻子的意思吗?虚词词义:才(数量词前后,意义不同)背景知识:保修期知识激活机制?,自然语言(汉语)理解的困难,实例之二关于“沙漠化”的文章 “几年前由于种植籽瓜有利可图,使大批的种植者就到过渡带来开垦,。在这样的绿洲和沙漠过渡带开垦,极易造成风蚀。” 2001年9月号就/ 到/ 就到/ 到/ 到过/ 过/ 过渡/ 带/ 来/ 带来/未登录词的识别知识背景认知机制,*自然语言(汉语)理解的困难,汉语信息处理的主攻方向,自然语言
7、理解研究特别困难,目前难以突破。退而求其次:自然语言处理(汉语信息处理)。计算机处理自然语言的第一个障碍是歧义问题。人能够利用语言知识、语境信息、背景知识消解歧义。计算机进行机械式的分析,面临的困难要大得多。以下介绍信息处理所遇到的汉语歧义的类型和 求解之道。,词语切分问题: 白天鹅可能的切分:白天鹅/-白/ 天鹅/-白天/ 鹅/-白/ 天/ 鹅/计算机程序可以按某种算法实现这种切分,给出一种或多种结果。对否?白天鹅飞过来了白/ 天鹅/ 飞/ 过来/ 了白天鹅可以看家白天/ 鹅/ 可以/ 看/ 家/白天鹅在湖里游泳白/ 天鹅/ ?白天/ 鹅/ ?同形词辨析:只量词 q zhi1 ?副词 d z
8、hi3?这只会测水温的鸭子这/ 只/ 会/ 测/ 水温/ 的/ 鸭子/ (切分无歧义)这/r 只/q 会/v 测/v 水温/n 的/u 鸭子/n , 挺有用的这/r 只/d 会/v 测/v 水温/n 的/u 鸭子/n ,没什么用,汉语信息处理主攻方向歧义消解,读音相同的“连”也有不同的词性(意义): 一个连有三个排“连”是名词 n 我们兄弟心连心“连”是动词 v 苹果可以连皮吃“连”是介词 p词义辨析:讲真话 / 讲卫生短语结构的歧义: m + q + n + “的” + n三个大学的老师 三/m 个/q 大学/n 的/u 老师/n 三/m 个/q 大学/n 的/u 老师/n 三/m 个/q
9、大学/n 的/u 老师/n 三所大学的老师 三/m 所/q 大学/n 的/u 老师/n 三位大学的老师 三/m 位/q 大学/n 的/u 老师/n ,汉语信息处理主攻方向歧义消解,句子结构的歧义,例1 会员 选举 他 当 主席 例2 学生 认为 他 是 校长 n v r v n (切分、标注无歧义),句法结构(树)不同,汉语语义分析(切分、标注、句法分析都无歧义) 熊猫/n 吃/v 竹笋/n 学生/n 吃/v 食堂/n 民工/n 吃/v 大碗/n 老师/n 写/v 毛笔/n汉语语义指向分析 写/v 好/a 了/u (文章) 写/v 累/a 了/u (老师) 写/v 秃/a 了/u (毛笔)汉语
10、语境分析 小张/n 打针/v 去/v 了/u (护士?病人?),语义歧义以及依赖语境的歧义消解,其他:长句与句号、逗号,中文中常有长句子,一逗到底。例:“新一届测绘学名词审定委员会的主要特点是年青化,吸收了一些工作在教学、科研前沿的青年专家学者,充分发挥他们接触新知识多,对名词工作热情高、活力大的特长,同中老年专家共同做好新一届委员会的名词审定工作。” 形式上的一句话包含100多个汉字。除第一个分句外,后面的分句都没有主语。,1. 你得藏在一个你看得见他,可是 他看不见你的地方。(逗号断开了结构)2. 车臣武装分子和世界其他地区的 恐怖分子是一丘之貉,应该合力 打击他们。 (分句的主语省略,“
11、他们”又指谁?),其他:长句与句号、逗号,小明要求他爸爸给他弟弟买一件他喜欢的衣服,他同意了。(4 个 “他” ,各指谁?)重庆队得88分,客场负于台湾队2分。(CBA, 台湾队和重庆队各得多少分?比赛地点?),其他:指代与省略,我在家里。(be) 我在家里看书。(in) 我在看书。 (-ing) 你在干什么?看书。 你喜欢干什么?看书。 如果我是你,我就去了。 如果我有时间,我就去。,其他:时态、语态、语气,汉语信息处理还有其他障碍,隐喻 幽默 夸张 双关 影射 2006年11月“中国中文信息学会二十五周年学术会议”俞士汶报告:“文学语言与自然语言理解研究”,*主要内容,中文信息处理概要 汉
12、语信息处理的主攻方向 综合型语言知识库介绍研究中的课题与 CIP 相关的信息结语与致谢,关于一般的自然语言处理系统,语言知识库,应用程序,-,语言知识库是自然语言处理系统不可或缺的组成部分,语言知识库的规模和质量在很大程度上决定了自然语言处理系统的成败。面向自然语言处理的语言知识库对语言本体研究和语言教学也有重要意义。,自然语言处理系统,语言单位不清晰:语素、词、短语、句子词缺乏形态变化:词类多功能与词的兼类虚词: 词形与实词无区别、隐现不定 句子与句法结构:嵌套不需要附加成分 主谓结构作谓语 不完整,缺省主语 时态、语态和语气的表现缺乏形式标记形式和意义之间的对应关系复杂 (吃香蕉、吃筷子、
13、吃食堂),*书面汉语特点及其对信息处理的影响,吕叔湘:“有了形态变化,语法分析就比较容易进行。没有严格的形态变化,在语法分析上就比较容易引起问题。” 汉语缺乏形态变化,缺乏形式标记,自动分析也就缺少可以把握的线索。汉语自动分析如果不比其他的语言更困难,至少不会比其他的语言更容易。 汉语信息处理尤其需要 大规模的高质量的 语言知识库的支持。,书面汉语特点及其对信息处理的影响,ICL/PKU的现代汉语语言知识库,基于上述认识,积20余年之努力,ICL/PKU已经开发:(1)现代汉语语法信息词典(8万词语)(2)面向汉英机器翻译的现代汉语语义词典(6万记录)(3)面向跨语言文本处理的中英文概念词典
14、(约10万概念)(4)大规模现代汉语基本标注语料库(6000多万汉字)(5)句子对齐的双语语料库 (80万英汉句对)(6)多个专业领域的术语库 (35万条英汉对照术语)(7)现代汉语短语结构规则库(600条规则)(8)用于语言知识库开发的各种工具软件 规模大、种类多、质量上乘,已经在诸多实用系统的开发中得到应用,产生了广泛影响,仍期待合作与进一步发展。,(1)现代汉语语法信息词典GKB,“现代汉语语法信息词典是一部面向语言信息处理的大型电子词典。它按照语法功能和意义相结合的准则收录了7.3万余词语。依照语法功能分布的原则,建立了词类体系,完成了这7.3万词语的归类。并在此基础上,分类描述每个词语的各种语法属性。” 引自中国工程院编20世纪我国重大工程技术成就之第二项汉字信息处理与印刷革命(暨南大学出版社2002年第一版31页) 清华大学出版社出版了介绍这部电子词典的专著现代汉语语法信息词典详解第一版1998年,第二版2003年词典采用数据库文件格式。目前已扩充到8万词语。,