1、广义虚词知识库与汉语理解研究,俞士汶 朱学锋 刘云 北京大学计算语言学研究所 Email: 2007年2月1日, 云南西双版纳,第十一届全国少数民族语言文字信息处理学术研讨会特邀报告973课题“文本内容理解的数据基础(2004CB318102)”,主要内容,虚词对语言理解的影响 汉语中的虚词汉语自动分析中的虚词广义虚词知识库的建设结语与致谢,主要内容,虚词对语言理解的影响 汉语中的虚词汉语自动分析中的虚词广义虚词知识库的建设结语与致谢,关于 “语言”,英国新科学家周刊 2005年4月9日 的文章生命进化的十大奇迹:脑(第3项)和语言(第4项)脑常常被视作进化过程中的最高成就,因为它赋予了人类
2、一些高级特征,例如 语言、智慧、意识。语言是进化的终极发明。在令人类区别于动物的特征中,语言处于核心地位。语言也许称得上是人类的决定性特征之一。我们的祖先如何实现了语言从无到有的飞跃,这也许是科学史上最大的谜。语言是生物进化的最后一笔。这是因为语言令那些掌握了它的动物超越了纯生物的范畴。 语言系统是动物进化到人的两大标志之一。人类语言系统的特征:丰富的词汇、复杂的结构、 虚词的作用,文本内容理解与其他数字内容理解的关系,婴儿学习语言离不开对母亲(包括家人)的心率、体温、声音、形象、动作的感知。人阅读文本时,语音、影像、经验对文本理解有着不可分离的巨大作用。文本中的插图对文本理解也有辅助作用。甚
3、至一张照片所讲的故事胜过千言万语。 文本可以超越时空的局限准确地传达信息(口说无凭,以书为证),记录逻辑思维产生的创造性成果。 戏剧、影视、歌曲等艺术形式的传情达意也离不开语言(戏文、歌词、对白)、文字的帮助。多数乐曲的标题、绘画的题词对这些艺术的理解有相当明显的启示作用。,文本内容理解是其他形式的数字内容理解的子课题。 文本内容理解和其他数字形式的信息理解需要相互融合。,文本内容理解的数据基础,凤凰卫视中文台(2005729)介绍了美国的一幅漫画 一美元纸币上的华盛顿头像扭头瞧着纸币左半边的一行字:“Made in China”,一脸无可奈何的表情。,在其他信息传播形式中,言简意赅的文字 往
4、往能起到画龙点睛的作用,一个实例关于自动升降晾衣架的对话妻子:“嘿,过了一年才坏。”丈夫:“什么呀,才一年就坏了。” 丈夫理解了妻子的意思吗?背景知识:保修期知识激活机制?虚词词义:才(数量词前后,意义不同),虚词对语义的影响,主要内容,虚词对语言理解的影响 汉语中的虚词汉语自动分析中的虚词广义虚词知识库的建设结语与致谢,虚词不是内容词,而是功能词。虚词不能充任汉语主要句法结构中的句法成分:主语、谓语、述语、宾语、补语,定语、状语、中心语。虚词对于语句、会话、篇章的完整结构(也是句法功能)和意义的表达却是不可缺少的。 汉语是典型的分析语,虚词在汉语中的语法作用不同于屈折语的英语、俄语和黏着语的
5、日语。虚词研究一直是汉语语法研究的重要组成部分。虚词基本上是封闭的,词典中的虚词数量有限。,2. 汉语中的虚词(1),新的虚词产生的速度远远比不上新的实词。尽管词典中虚词的数量有限(静态出现),但在真实文本中单个虚词的平均频度(动态出现)远远高于单个实词的平均频度。而且虚词是通用的高频词。虚词的个性比实词显著。助词是最典型的虚词,数量很少。同属助词的“的”、“得”、“着”、“了”、“过”、“所”几乎没有什么共同的语法属性。面向语言信息处理,有必要加大对虚词研究的力度,有必要建立“广义虚词知识库”。,2. 汉语中的虚词(2),主要内容,虚词对语言理解的影响 汉语中的虚词汉语自动分析中的虚词广义虚
6、词知识库的建设结语与致谢,虚词的辨析 从文本中识别虚词分析线索神经紧张得到了崩溃的程度。神经紧张得到了缓解。,汉语自动分析中的虚词(1),虚词的句法语义功能及其表述 现代汉语语法信息词典依托词组本位语法体系现代汉语语义词典采用“广义配价模式” “的”接在动词后面构成的“的”字结构,体词性的,功能:(1)可以作定语修饰名词,即形成“动词+的+名词”结构;(2)代替名词,即可以出现在主宾语的位置上。自指意义,只能出现于(1):“驾驶的技术”,“走的姿势” 转指意义,可以出现于(2):“走的出发了”,“有吃的”。还要进一步给出“动词+的”表示自指或转指的条件。配价信息:“走”主体应该是人,“吃”的客
7、体是食物。 “技术”、“姿势”分别是“驾驶”、“走”这些动作或行为本身的属性,只是自指。虚词(“的”)的句法语义信息不是能够孤立描述的, 同其前后搭配的词语是密切关联的。,汉语自动分析中的虚词(2),虚词的隐现与冗余分配学生一个任务。接受老师一个任务。等价于给学生分配一个任务。从老师(那里)接受一个任务。“的”的作用 *分配学生的一个任务。 接受老师的一个任务。,汉语自动分析中的虚词(3),主要内容,虚词对语言理解的影响 汉语中的虚词汉语自动分析中的虚词广义虚词知识库的建设结语与致谢,关于一般的自然语言处理系统,语言知识库,应用程序,-,语言知识库是自然语言处理系统不可或缺的组成部分,语言知识
8、库的规模和质量在很大程度上决定了自然语言处理系统的成败。面向自然语言处理的语言知识库对语言本体研究和语言教学也有重要意义。,自然语言处理系统,语言知识库与应用系统,在语言知识库搭建的平台上可以上演威武雄壮生动活泼的应用系统的剧目,语言知识库1,语言知识库2,语言知识库3,语言知识库4,平台 / API,应用程序1,应用程序2,吕叔湘:“有了形态变化,语法分析就比较容易进行。没有严格的形态变化,在语法分析上就比较容易引起问题。” 汉语缺乏形态变化,缺乏形式标记,自动分析也就缺少可以把握的线索。汉语自动分析如果不比其他的语言更困难,至少不会比其他的语言更容易。 汉语信息处理尤其需要大规模的高质量的
9、语言知识库的支持。,书面汉语特点及其对信息处理的影响,北大开发的现代汉语语言知识库,(1)现代汉语语法信息词典(8万词语)(2)大规模现代汉语基本标注语料库(6000多万汉字)(3)面向汉英机器翻译的现代汉语语义词典(6万)(4)面向跨语言文本处理的中文概念词典 (10万概念)(5)句子对齐的双语语料库 (80万句对)(6)多个专业领域的术语库 (35万术语)(7)现代汉语短语结构规则库(600条规则)(8)用于语言知识库开发的各种工具软件 规模大、种类多、质量上乘,已产生广泛影响,仍期待发展与合作 虚词知识库还是一个空缺,“广义虚词”之所指现代汉语语法信息词典中的全部虚词副词方位词:“上”、
10、“下”、“中”、“里” 量词:“个” 代词部分动词 形式动词 助动词 补语动词 趋向动词形式名词,广义虚词知识库(1),“广义虚词知识库”的主要内容确认每一个广义虚词的各个功能语义项 ID 副词“都”有3个ID: “总括全部”、“甚至”、“已经”对每一个ID ,建立判别条件 “都”之 “总括全部” :表示复数的主语,后面的动词常是肯定式 “甚至” :后面的动词常是否定式 “已经” :句末常有语气词“了”虚词隐现、冗余的条件描述错误例句分析,广义虚词知识库(2),“广义虚词知识库”的构成(1)一部富含句法、语义信息的虚词机器词典 (静态信息);(2)标注了每个虚词的确定 ID 及确定属性信息的语
11、料库 (训练语料);(3)基于 (1)和 (2), 抽象出来的(真实语料中)一套虚词ID以及确定属性 的判别规则,广义虚词知识库(3),“广义虚词知识库”的发展轨迹2002年 俞士汶提出“广义虚词知识库”的建设任务 俞士汶、朱学锋、刘云现代汉语广义虚词知识库的建设 第二届肯特岗汉语语言学圆桌会议(新加坡),2002年11月27日 又刊载于汉语语言与计算学报,2003年3月,第13卷1期,89-982003年 俞士汶、朱学锋、刘云虚词与汉语理解研究 “第四届词汇语义学网络研讨会” ,2003年6月23日至7月25日,香港城市大学主办 2004年-2005年 863 中文信息处理应用基础研究之子课
12、题 “广义虚词知识库的建设” 刘云(2002年7月-2004年9月,博士后,华中师范大学) 主持,重点研究 表征复句关系之虚词 彭爽 (2004年7月-2006年3月,博士后,吉林师范大学) 重点研究 介词2004年-2009年 973 课题 “文本内容理解的数据基础(2004CB318102)之子任务 昝红英 (郑州大学) 重点研究 方位词、副词等并负责集成,广义虚词知识库(4),主要内容,虚词对语言理解的影响 汉语中的虚词汉语自动分析中的虚词广义虚词知识库的建设结语与致谢,结语与致谢,汉语信息处理研究与少数民族语言信息处理研究相互借鉴,相互支持。少数民族专家在语言信息处理研究中有 独特的优势。 感谢第十一届全国少数民族语言文字信息处理学术研讨会 的邀请,讲者获此殊荣,能在此和大家分享心得和成果。 感谢大会主席和与会听众。恳请批评指正。 欢迎访问北大计算语言学研究所 欢迎访问北大软件学院语言信息工程系 www.ChineseNLP.com/ (Blog 燕园时语),