汉蒙藏维语言翻译方法研究 - 模式识别国家重点实验室.doc

上传人:da****u 文档编号:1075861 上传时间:2018-11-29 格式:DOC 页数:6 大小:97KB
下载 相关 举报
汉蒙藏维语言翻译方法研究 - 模式识别国家重点实验室.doc_第1页
第1页 / 共6页
汉蒙藏维语言翻译方法研究 - 模式识别国家重点实验室.doc_第2页
第2页 / 共6页
汉蒙藏维语言翻译方法研究 - 模式识别国家重点实验室.doc_第3页
第3页 / 共6页
汉蒙藏维语言翻译方法研究 - 模式识别国家重点实验室.doc_第4页
第4页 / 共6页
汉蒙藏维语言翻译方法研究 - 模式识别国家重点实验室.doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

1、汉、藏、蒙、维多民族语言语音翻译方法研究解国栋 曹文洁 宗成庆 徐波 中国科学院自动化所模式识别国家重点实验室,北京 100080,中国E-mail:gdxie,caowj, cqzong, Tel:+86-10-82614468摘 要汉语与少数民族语言之间机器翻译的研究对于促进少数民族地区经济文化发展具有很重要的意义,目前这方面可投入的人力物力是十分有限的。对于汉、藏、蒙、维语言之间互译来说,基于中间语言的翻译方法,是一种经济有效的途径。本文介绍了一种基于中间语义表示(IF)实现汉、藏、蒙、维多语言语音翻译的基本思想,并介绍了面向 IF 的鲁棒的汉语口语解析方法以及基于 IF 的汉语英语生

2、成方法。关键词:少数民族语言,中间语言,IF, 解析,生成1. 引言我国有 56 个民族,大多数的民族都有自己独特的语言。随着社会的发展,各民族之间的经济文化交流越来越频繁,在此过程中,语言的差异是一个客观现实,由此带来的相关问题,是制约少数民族地区经济文化发展一个重要因素,因此,有必要进行少数民族语言与汉语之间的多语言机器翻译研究,这对促进少数民族地区经济发展、促进各民族之间文化交流以及民族团结都具有重大的意义。另外,各个少数民族都有自己独有的风俗文化,对这些风俗文化进行研究、保护和开发,无论从社会还是经济上,都有着深远的意义,而语言是这些风俗文化最直接的载体,这也对语言翻译提出了要求。目前

3、,少数民族语言的机器翻译研究,虽然取得了一定的成绩,但是,由于经济、文化、资源、历史等众多的原因,还停留在起步阶段,很多问题都有待进一步研究 12。少数民族中,藏族、蒙古族和维吾尔族各自拥有本民族的语言,在自然语言处理方面的研究起步也比较早,有了一定的基础,而且这三个民族地区人口比较多,因此,有必要把汉、藏、蒙、维语言之间的机器翻译研究作为当前的少数民族语言机器翻译研究的一个主要任务。目前蒙古文机器翻译系统有王斯日古楞等人研制的英蒙机器翻译(English Mongolian Machine Translation,简称 EMMT)系统,内蒙古大学那顺乌日图等研制的汉蒙机器翻译系统,这两个系统

4、目前都尚处于研究阶段 12。藏语的计算机处理目前的研究重点大致包括藏文编码标准及平台建设、藏语语法研究、分词标准、电子词典建设等阶段,也有一些机器翻译系统 15。关于维吾尔族语的计算机处理方面研究也主要集中在维吾尔语的编码标准及平台建设方面。在诸多的机器翻译实现方法中,有一种基于中间语言的方法,这种方法利用一种人工制定的标准语言作为语言翻译的中介,即首先把源语言解析为中间语言的表示形式,然后再由这种中间语言生成目标语言。对于一个多语言翻译系统,如果采用转换的方法,则不同方向的翻译需要不同的翻译模块,比如英译汉和汉译英分别需要一个翻译模块。假设有 N 种语言需要进行互译,总共则需要 N*(N-1

5、)个翻译模块,而采用中间语言的方法,由于对每一种语言只需实现将该种语言翻译成中间语言和把中间语言翻译成该种语言这两个模块,对于 N 种语言之间的互译,总共只需要 2N 个翻译模块,这一过程如 图 1 所示,因此,采用基于中间语言的翻译方法进行多语言的互译,能够降低系统的复杂性,是一种经济有效的途径。非基于中间语言的方法,包括基于规则的转换方法和基于语料库的统计方法。基于规则的方法,首先需要对源语言进行分析,然后根据目标语言的特点,把分析结果转换成目标语言。这一过程中,除了要对源语言进行各方面的研究外,还要对目标语言进行研究,需要懂源语言和目标语言的专业人员编写大量的规则和建立词典。而基于语料库

6、的统计方法,则首先需要收集大量的双语语料,即一句源语言对应一句目标语言,然后对双语语料进行对齐,在此基础之上,进行统计模型的训练。总之,无论是基于规则的转换方法还是基于语料库的统计方法,都需要投入比较多的人力和物力,而少数民族语言的机器翻译研究,受到各种条件的限制,可投入的资源特别是人力是很有限的, 因此,采用中间语言作为中介进行翻译,每个民族只需负责把本民族语言转换为中间语言和把中间语言产转换为本民族语言,就可以实现本民族语言和其他语言的互译,这在一定程度上,能够节省人力和物力,不失为一种可行的途径。语言 1语言3语言 4语言2语言 1语言3语言 4语言2 中间语言a. 基于转换的方法 b.

7、 基于中间语言的方法图 1 转换方法和中间语言方法所需不同翻译模块的比较早期的中间语言主要有法国的 CETA 实验室的“枢轴语言”(pivot language),该中心利用它进行了数学、物理文献方面的俄法翻译系统 16, 2000 年日本联合国大学的 Uchida 提出了一种 UNL(Universal Network Language)语言 19,用来进行多种语言的翻译。成立于 1990 年的成立 C-STAR(Consortium of Speech Translation Advanced Research),提出了一种中间语义表示格式 IF(Interchange Format)8。

8、IF 是针对特定领域的多语言电话语音同声翻译而设计的,目前 IF 涵盖的领域包括旅游、就医、体育比赛等特定场景。C-STAR 由 11 个国家的著名研究机构组成,目前该组织采纳的语言包括汉语,英语,日语,德语,韩语,意大利语,法语等多种语言,并且其成员国以及包括的语言正在逐年地增加。我国中科院自动化所模式识别实验室是 C-STAR 的中文代表,在 2002 年 3 月,他们与韩国电信研究所联合演示了一个电话对话翻译的原型系统,该系统面向旅馆预定领域,首次实现了汉语韩语之间的电话双向翻译。利用 IF作为中介进行语音翻译的过程如 图 2 所示。语音识别 语言解析 语言生成 语音合成源语言语音输入源

9、语言文本 IF目标语言文本目标语言语音图 2 基于 IF 的语言翻译方法示意本文将介绍一种基于中间语言的多民族语言翻译构架以及相应的实现方法。本文的安排是这样的:第 2 部分介绍多民族语言语音翻译的构架,其中包括基本思想,需要解决的问题等;第三部分介绍了多民族语言语音翻译系统的实现基础,主要介绍了已有的研究成果,包括面向中间语义表示格式(IF)的汉语解析方法和基于 IF 的生成方法;第四部分为结语。2. 多民族语言语音翻译构架2.1 基本思想本文所提出的多民族语言语音翻译构架的基本思想是采用基于中间语义表示格式 IF 作为多语言语音翻译的中介,各个民族集中有限的力量,针对 IF,开发基于 IF

10、 的本民族语言解析模块和本民族语言生成模块,最终,把各个模块进行集成,就可以完成多民族语音翻译。这一构架如 图 3 所示。比如,要完成汉语到藏语的翻译,则首先把汉语分析成为中间语义表示格式 IF,然后根据 IF 生成藏语,反之亦然。中间语义表示(IF )藏语藏语蒙语蒙语维语维语汉语汉语图 3 基于 IF 的汉、藏、蒙、维多民族语言互译示意图2.2 需要解决的问题2.2.1 限定领域的选择自然语言的机器翻译一直人类梦寐以求但似乎难以企及的梦想,经过多年的探索和思考,人们逐渐认识到,完全不受限制的机器翻译是不可能或者说至少在短期内是不可能实现的,因此,人们提出了“成功的机器翻译” 17的概念,其本

11、质是一个折中的方案,比如, “对机器翻译的期望值不要太高,应该接受质量低的译文” ;“机器翻译是有用的,但机器翻译绝不是万能的” 17等等。从目前的研究水平和实践来看,把机器翻译的内容限定到某个领域,则能够大大的提高机器翻译的效果,有达到实用的可能。从通用领域到限定领域,这实际上是人们对机器翻译认识的一个前进。文12中认为“限定场景和功能型翻译是语音翻译的发展方向” 。所谓限定场景,从领域角度看可以理解为对限定领域的进一步分解,具体为针对特定领域下的子领域(Sub-domain),如在旅馆预定中,可以进一步分解为电话预定、开房间、退房、住店过程中所需要的一些帮助等等。所谓的功能型翻译,是指具有

12、很明确的对话意向,即用户所说出的每一句话都有一个明确的询问意向和目的,而不是无的放矢或让人感觉说话不知所云 12。因此,对于汉、藏、蒙、维多民族语言语音互译来说,首先有必要选定一个特定的领域作为研究的起点,比如旅游、体育比赛、就医等领域。将来随着研究水平的提高,可以进一步扩大领域或者移植到别的领域中。2.2.2 语料的收集一定的语料是开展研究的基础,有了一定的语料,才会有相应的算法,因此,语料的收集是一个很重要方面。国内真实口语语料资源十分缺乏,大规模的双语对照口语语料尤其匮乏,尤其是对语少数民族语言,语料收集就更困难,完全从本民族语言的资源中收集也是不太现实的,因此,少数民族语言的语料收集,

13、一方面要从本民族语言资源中收集,另一方面,可以利用现有的资源,对现有的口语语料进行翻译,从而建立其本民族语言的口语语料库。自动化所模式识别实验室作为 C-STAR 的中文成员,已经和其他几个成员建立起了良好的合作关系,经过多年的积累,目前他们已经建立了多个大规模多语口语对照语料库及专用语料库 13。主要包括:(1) 收集旅游咨询真实场景下的口语对话约 90 段,3000 个自然口语语句,并在此基础上对全部口语语料进行了标注和分析。(2) 与 C-STAR 成员联合收集日常多领域多语言口语对照语句(每种语言)约 20 万句。2.2.3 中间语义表示格式 IFIF 的理论基础是话语行为理论 20。

14、话语行为理论的基本思想是认为语言不只用来陈述事实,而是附载着说话者的意图。一个 IF 表达式通常由说话者(speaker) 、话语行为(speech act) 、概念序列(concepts ,与话语行为合称为领域行为)和参数属性值对的列表四部分组成。下面简要介绍一下关于各部分的具体含义。(1)说话人标志。用来表示谁在说话。有两种,分别是c 代表顾客(client)和a 代表代理(agent) 。(2)语句意图(Speech Act)。表示句子的类型。是询问信息或者是回答问题等等。如“give-information”表示提供了某种信息;“Pardon ”表示请求重复刚才所说的内容。(3)概念(

15、Concept)。表示句子的主题。各个概念之间按照一定的规则可以进一步组合成更加广泛的主题。概念之间用+连接。如 reservation 表示预订,room 表示房间,而 reservation+room 则表示预订房间。(4)具体信息(Arguments)。表示句子的具体内容。比如要预订的房间个数、房间标准等。具体信息由Argument 和对应的 Value 构成。Argument 和 Value 中间用等号连接 4。比如参数“room-spec ”表示房间种类,它对应的值可以是:single 表示单间,double 表示双人间等等。比如:room-spec=single 表示原来句子中所描

16、述的房间种类为单间。IF 通过 IF 表达式具体代表每一句话。每一个 IF 表达式都由一个说话人标志和至少一个的语句意图以及数目可选的概念和参数组成。语句意图,概念和参数之间按照 IF 的规则可以进行组合。其组合方式如下所示:speaker: speech-act+concept*(argument*),其中 “*”表示可以重复出现。IF 由下面给出一个句子以及对应的 IF 表示。例句 1:明天我想预定一个单人间IF: c:give-information+reservation+room(room-spec=(room-type=single, quantity=1),reservation

17、-spec=(time=(relatinve-time=tomorrow)例句 2:我想预定明天下午的火车票IF: c:give-information+reservation+ticket(ticket-spec=(ticket-type=train,time=(relative-time=tomorrow, tod=afternoon)2.2.3 面向 IF 的语言解析和生成多民族语言语音翻译构架中,每个民族负责把本民族语言的解析为 IF 和从 IF 生成本民族的语言,只要在开发的过程中,严格的遵守 IF 的标准,那么,最终就会很顺利的实现本民族语言和其他语言的互译。3、多民族语言语音翻译

18、系统的实现基础语言解析和语言生成是多民族语言语音翻译系统的实现基础,目前我们已经提出了一种面向 IF 的汉语口语解析方法以及基于 IF 的中英文生成方法,并且得以实现。应用该方法,我们已经和 C-STAR 其他的成员国进行了多次的多语言翻译的实验。这里,我们简要的介绍一下我们的解析和生成方法。3.1 面向 IF 的汉语口语解析方法语音识别结果 词汇分类语义组块分析语义组块解释统计解析IF生成语义组块序列词类序列 IF 框架IF 表达式片段IF 表达式图 4. 基于语义组块的统计解析方法面向 IF 的汉语口语解析方法如 图 4 所示,我们采用了一种基于语义组块的统计解析方法,该方法首先利用规则对

19、句子进行语义组块分析,在此基础上,利用 HMM(Hidden Markov Model),对句子进行解析。其特点在于对句子进行深层次语义分析的同时,保持了统计方法较高的鲁棒性。该方法的步骤如 图 4 所示,对于一个待解析的句子,首先由词汇分类部分对其词汇进行分类,即把句子中的每一个词映射到相应的词义类中去。语义组块分析部分从句子对应的词义类序列中分析出语义组块,它的输出是一个语义组块序列。统计解析部分从语义组块序列分析出句子 IF 表示的主要框架。语义组块解释部分把语义组块解释为相应的 IF 表达式片段。最后,经过对上述两部分的合并,得到最终的 IF 表达式。关于解析方法的详细情况可以参考文3

20、3.1 基于 IF 的汉语英语生成方法我们采用了基于模板与特征的混合生成方法,该方法包括微观规划和表层生成。当中间语义表示格式 IF 进入生成器,首先经过微观规划得到一个句法功能结构,再由这个句法功能结构通过表层生成得到目标语言句子。我们所用的句法功能结构是基于系统功能语法而定义的,其格式是多个特征属性值对的集合,包含生成一个句子所必须的各部分信息(语气、时态、语态、谓词框架等) 。表层生成部分则相应的采用功能合一文法,利用目标语言的句法知识,把作为过渡的句法功能结构中的各个特征逐步聚合,最终线性化得到目标语句。具体可以参考文献21四、结语本文提出了一个基于中间语义表示格式 IF 的多民族语言

21、语音翻译构架,并就该翻译构架中面临的问题进行了讨论,给出了我们的思路。同时,本文还介绍了中间语义表示格式 IF 以及我们目前所做的面向IF 的汉语口语解析方法以及基于 IF 的汉语英语生成方法。参 考 文 献1 翁富良,王野翊. 计算语言学导论. 中国社会科学出版社 1998 2 吴华,黄泰翼. 基于中间语义框架的系统响应生成.全国第五届计算语言联合学术会议论文集. pp248255. 1999 3 解国栋,宗成庆,徐波. 面向中间语义表示格式的汉语口语解析方法. 中文信息学报, Vol.17(1) pp.16. 20034 程葳,赵军,徐波,刘非凡. 一种面向汉英口语翻译的双语语块处理方法.

22、 Vol. 17(2) pp.2127. 20035 Guodong Xie, Chengqing Zong, Bo Xu. Chinese Spoken Language Analyzing Based On Combination of Statistical and Rule Method. Proc. of ICSLP. pp.613616. 20026 Yunbin Deng, Bo Xu. Chinese Spoken Language Understanding Across Domain. Proc ICSLP. Vol.1. pp.230234. 2000.107 W.Min

23、ker, S.Bennacef. A Stochastic Case Approach for Natural Language Understanding. Proc. ICSLP. 19968 Lori Levin, Donna Gates. An Interlingua Based on Domain Actions for Machine Translation of Task-Oriented Dialogues. Proc. of ICSLP. 19989 Chad Langley, Alon Lavie. Spoken language Parsing Using Phrase-

24、Level Grammars and Trainable Classifiers , Proc. of ACL 2002, pp.1522. Philadelphia, 200210 Jun Park, Jae-Woo Yang, ETRI Speech Translation System, C-STAR Workshop, Schwetzingen. 199911 梅家驹,竺一鸣,高蕴琦,殷鸿翔,同义词词林,上海辞书出版社,1996 年第二版12 徐波,程葳,语音翻译中统计与规则方法的融合,中文信息处理若干重要问题,科学出版社,pp.1426, 北京,200313 宗成庆, 口语翻译中的问

25、题、方法与应用可能性 , 中文信息处理若干重要问题,科学出版社,pp.403414, 北京,200314 嘎日迪,蒙古文自然语言处理技术的现状,中文信息处理若干重要问题,科学出版社,pp.423437, 北京,200315 江荻,现代藏语的机器处理及发展之路, 中文信息处理若干重要问题,科学出版社,pp.438448, 北京,200316 赵铁军等,机器翻译原理,哈尔滨工业大学出版社,北京,200017 冯志伟,机器翻译的现状和问题, 中文信息处理若干重要问题 ,科学出版社,pp. 353377, 北京,200318 P.F.Brown,V.J.Della Pietra,S.A.Della P

26、ietra,et.al. The mathematics of statistical machine translation: parameter estimation. Computational Linguistics.1993,Vol.19(2),pp.26331119 The Universal Networking Language (UNL) Specification, UNU/IAS/UNL Center, Tokyo20 Searle, J. “Speech Acts: An Essay in the Philosophy of Language”. Cambridge, Eng.: Cambridge University Press, 196921 Wenjie Cao, Chengqing Zong, Bo Xu, Research on IF-based Chinese and English generation approach, Journal of Chinese Language and Computing, 2004.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 公文范文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。