机器翻译句法错误分析.doc

上传人:gs****r 文档编号:1713363 上传时间:2019-03-12 格式:DOC 页数:11 大小:116.50KB
下载 相关 举报
机器翻译句法错误分析.doc_第1页
第1页 / 共11页
机器翻译句法错误分析.doc_第2页
第2页 / 共11页
机器翻译句法错误分析.doc_第3页
第3页 / 共11页
机器翻译句法错误分析.doc_第4页
第4页 / 共11页
机器翻译句法错误分析.doc_第5页
第5页 / 共11页
点击查看更多>>
资源描述

1、1机器翻译句法错误分析对机器翻译的研究从 20 世纪 40 年代第一台计算机诞生至今,无论在理论研究方面还是工程实践方面都已经积累了丰富的经验。随着计算机和因特网的普及,机器翻译已经得到广泛推广,产生了巨大的社会效益和经济效益。中国的改革开放也给中国翻译服务提供了巨大的市场,市场对翻译的巨大需求再一次激起人们对机器翻译研究的强烈兴趣。一、机器翻译的适用范畴 “计算机翻译不适用于文学性很强或文化味很浓的文本,而适用于科普文献、金融商业交易、行政管理备忘录、法律文件、说明书、农业及医学资料、工业专利、宣传册、报纸报道等”25。1976 年加拿大蒙特利尔大学和加拿大联邦政府翻译局联合开发的“天气预报

2、”英-法机器翻译系统 TAUM-METEO 成为在受限语言内机器成功翻译最早的一个例证。为在全球范围内推销其产品和服务,让国外用户能够读懂其产品说明书和用户手册等技术文件,降低语言转换成本,欧洲航空航天工业协会也为其文件中使用的英语限定了 985 个术语和 60 条写作规则3。 “十五”期间,中国科学院计算机研究所对我国现有的机器翻译系统进行了测评,结合机器翻译系统对诗歌、散文、小说、剧本和受限语言等不同体裁、不同风格的文本翻译,在对译文进行具体分析、对比和综合评价的基础上,确定了英汉机器翻译在受限语言处理中取得了最高的 5 级适用级别和 85%以上的可翻译度6131162。机器翻译取得的成就

3、2与受限语言的五大基本特征密切相关,其常用性、有限性、简明性、单义性和规范性110 可以大大简化基于某一受限语言范畴的机器翻译规则的制定。由此可见要提高机器翻译的译文质量,在受限语言范畴内展开机器翻译研究应该是行之有效的方法。二、 机器译文句法错译研究的方法和目的 基于对机器翻译适用范畴的研究成果, 机器翻译后译文编辑模式研究项目选择了同济大学汽车学院的“汽车技术文献翻译语料库”中某一知名品牌汽车操作手册作为研究对象,在这一限定专业范围内,由人工对英语原语、其机器译文和人工译文十万句对展开了句子一级的平行对比研究。语料中的机器译文由“华建机器翻译系统” (中国科学院计算机语言信息工程研究中心研

4、发)生成获取,人工译文来源于同济大学汽车学院资料翻译研究所专业技术人员。 本文将对机器译文中出现的句法错误加以描述和分析,从纷繁复杂的语言现象中寻找和归纳出机器在汽车技术文献这一受限专业领域内进行翻译处理时表现出的句法错误特征,为翻译系统补充建立形式化的句法规则提供语言基础,最终提高机器翻译的质量。罗季美:机器翻译句法错误分析三、 机器译文句法错误的统计和主要表现形式 机器翻译后译文编辑模式研究课题组在完成 1000 句抽样对比基础上归类设定了机器在词序、名词短语、动词短语、介词短语、被动语态、不定式短语和分词短语翻译处理上可能出现的七类句法错误4。在对句法错误进行标注和统计中发现,词序错译表

5、现最为复杂,错译率在各类句法错译中高居榜首,达到 29.35%5。但因词序错译与机器对名词3短语、动词短语、介词短语、被动态、不定式短语和分词短语等的错误处理存在很大的交错,以下不再将词序错译作为单独的错误形式进行讨论。此次译文对比也发现,机器对被动语态的翻译处理达到了很高的准确性,对被动语态的错译主要表现在机器对动词不定式中被动语态的处理上,以下将在不定式短语错译中讨论被动语态错译。撇开词序错译和被动语态错译,我们得到了表 1 所示的机器译文五类句法错译发生率。错译率为出现某类句法翻译错误的机器译文总句数/机器译文的总句数100%。对同一句子中多次出现的同一类型句法翻译错误进行一次标注和统计

6、;对同一句子中出现的不同类型句法错误分别加以标注和统计。 表 1 机器译文五类句法错译发生率 以下将根据机器译文句法错误的分类,结合统计结果,举例对语料对比中出现的机器译文典型句法错误加以描述、归纳和分析。在所举各例中,A 句为机器译文,B 句为人工译文。另外,为了使译文的对比更方便清晰,在所给例句中,每次只对所述的单一句法错译类型进行比较,并用下划线以示区分。 1. 名词短语错译 为了追求语言的简练,科技英语中大量使用名词短语,名词短语错译在整个语料中达到 695%。错译主要发生在对结构比较复杂的名词短语进行翻译时,如以下两例。 Install the new service hole co

7、ver. A:安装洞包括的新服务。 B:安装新的检修孔盖。 4此例中的名词短语 “the new service hole cover”由形容词“new”+起修饰作用的名词短语“service hole”+名词“cover”构成,人工译文表现出了与原英语词序完全相同的顺序,将其译为“新的检修孔盖” 。机器对“cover”词性的错误判断,对其前起定语作用的形容词“new”和名词短语“service hole”的错误切割,使得整个译文词序呈现出颠三倒四的乱象。 Remove the 4 bolts and engine moving control rod. A:除去移动操纵杆的 4 个螺栓和发动

8、机。 B:拆下 4 个螺栓和发动机移动控制杆。 对比人工译文可以发现,此例中“and”连接了两个名词短语“the 4 bolts”和“engine moving control rod”。机器将这两个并列名词短语错误判断为由现在分词短语“moving control rod”修饰的两个并列名词“the 4 bolts”和“engine” ,由此产生错误译文。以上两例充分体现了对结构复杂的名词短语进行翻译时机器对词序处理的随意性。 2. 动词短语错译 出现动词短语错译的句子在整个十万句的机器译文中占 3.7%。错译率本身似乎并不高,而事实是并非每句句子都会使用动词短语。因动词本身在句子中的重要性

9、,出现错译往往会使原句语义大打折扣。对比发现动词短语错译的表现形式主要有以下四种类型: (1) 由“动词+副词”构成的动词短语误译为由“动词+介词”构成的动词短语 Using SST and a hammer,tap in the oil seal. A:使用 SST 和一把铁锤,在这个油封条内轻拍。 5B:使用 SST 和锤子,敲入油封。 对比两句译文可以看到 A 句中机器误将原句中由“动词+副词”构成的动词词组“tap in”和宾语“the oil seal”分析成了动词“tap” 和由“介词+宾语”构成的地点状语“in the oil seal”,使译文与原句表示的意义不相符。 (2)由

10、“动词+介词”构成的动词短语中介词与动词的分离 Align the thermostat jiggle valve with the upper stud bolt, and insert the thermostat in the water inlet housing. A:调整好这台恒温器轻摇有这上面双头螺栓的阀门,并且把恒温器插入这进水口住房中。 B:将节温器跳阀与上双头螺栓对正,并将节温器插入进水口壳内。 对比两句译文可以看到在此例中机器没有识别“align X with Y”(将 X 与 Y 对正)这一固定动词词组,误将介词短语“with the upper stud bolt”当

11、作名词“valve”的定语,造成错译。 When disconnecting the fuel line,cover it with a shop rag or a piece of cloth to prevent fuel from spraying or coming out. A:拆开这条燃料线时,与一块商店碎布或者一块布包括它防止燃料喷或者出来。 B:断开燃油管路时,用棉丝抹布或一块布盖住,以防燃油喷出或涌出。 在此例中,机器没有识别“cover X with Y”(用 Y 盖住 X)这一固6定动词词组,误将表示方式的介词短语“with a shop rag or a piece o

12、f cloth”解释为表示伴随状态的状语“与一块商店碎布或者一块布(一起) ”。 (3)对动词短语的翻译不符合汉语表达语序 Install a new gasket to the No. 1 oil cooler bracket. A:对 1 号油更凉爽的方括号安装一个新垫片。 B:将新衬垫安装到 1 号机油冷却器支架上。 此例中机器将动词短语“install X to Y”译为“对 X 安装 Y”。对比人工译文“将 Y 安装到 X 上” ,A 句的译文显然不符合汉语的表达习惯。Install the exhaust front pipe to the exhaust manifolds wi

13、th the 2 nuts and 2 bolts. A:安装对排气歧管用 2 颗螺母和 2 个螺栓的排气前面管。 B:用 2 个螺母和 2 个螺栓将前排气管安装到排气歧管上。 对比此例中的两句译文会发现,译员将动词短语“install X to Y with Z” 译为“用 Z 将 X 安装到 Y 上” ,汉语句义清晰明了;而机器没有按照汉语表达习惯解释动词短语,使得译文中由动词词组串联起来的三组名词短语关系混乱,严重影响译文的可理解性。 (4) “动词短语+多个并列宾语”的错译 The automatic headlight beam level control system mainly

14、 consists of the AFS ECU, rear height control sensor, and two headlight leveling motors. 7A:自动前灯梁水平控制系统主要由 AFS ECU 组成,后高度控制传感器并且两盏前灯使电动机成水平。 B:前大灯光束高度自动控制系统主要包括 AFS ECU、后高度控制传感器和两个前大灯光束高度调整电动机。 在此例中,动词短语“consists of”后接三个作宾语的并列名词短语“the AFS ECU”、 “rear height control sensor”和“two headlight leveling mo

15、tors”,但机器译文表明机器未能准确识别动词短语后三个宾语的并列关系。 3.介词短语错译 英语中的介词总数并不多,但一些常用介词如“in” 、 “on”、 “for”、“with”和“as”等使用的频率却非常高,其构成的介词短语在句子中可以表示多种句法功能。介词短语的使用频率也充分体现在介词短语机器译文 13.3%的错误率上,这一比例在五类句法错译中位列第一。本次语料对比发现介词短语错译主要发生在介词短语在句子中作定语和状语时。(1)介词短语作定语 机器对作定语的介词短语的错误处理主要表现在以下两方面:一是介词短语作定语时序位处理不当;二是作定语的介词短语误译为状语。 Only for mo

16、dels without the intelligent AFS. A:只为模型没有聪明的 AFS。 B:只用于不带智能 AFS 的车型。 在英语中作定语的介词短语后置于被修饰词,但汉语中的定语通常8置于被修饰词前。在此例的机器译文中,作定语的介词短语 “without the intelligent AFS”没有调整到被修饰词“models”之前,翻译处理时完全遵照原文词序,导致译文错误。 Calculate changes in the vehicle posture based on the signals from the height control sensor and each

17、ECU. When person carrying electrical key enters detection area, door will enter unlock standby mode and front map light will illuminate. A:传播电钥匙的人加入察觉地区什么时候,门将进入开锁备用方式和前面地图光将亮。 B:当有人携带电子钥匙进入检测区域,车门将进入解锁待命模式并且前阅读灯将亮起。 The AFS ECU performs the medium-to-high speed control when all the following condit

18、ions are fulfilled. A:这 AFS ECU 执行这种媒介给高速度控制到那时全部下列状况都被履行。 B:当符合所有下列条件时,AFS ECU 执行中高速控制。 在以上两例中,机器将两句状语从句的引导词“when”分别处理成了 “什么时候”和“到那时候” ,与从句中的主谓结构完全分离,造成译文的重大错误。另外,机器译文也表现出对状语从句引导词“when”在句子中语序处理的不稳定性。 本次语料所涉及的条件状语从句主要由 “if”引导,错译主要发生9在对 “if”序位的不当处理上,错误形式基本相同,即机器将从句的引导词“if”错误置于整个从句的句尾,如下例 A 句所示。 If th

19、ere is a problem in this intercommunication, the active control engine mount ECU sets a DTC. A:有在这相互联系内的一问题如果,积极控制器骑在马上 ECU 确定DTC。 B:如果互相通信有故障,则主动控制发动机支座 ECU 设置一个 DTC。 (3)宾语从句错译 语料中涉及的宾语从句主要为由“that” 、 “if”和“whether”引导的宾语从句,错译占所有宾语从句的 56.41%。机器对宾语从句的错误处理主要表现在其对“that”引导的宾语从句的处理上,包括以“that”为引导词的宾语从句错译为定

20、语从句及宾语从句引导词“that”的词义错译。 Check that the striker can engage with the hood lock smoothly. A:罢工者能顺利与罩锁接合的检查。 B:检查并确认锁扣能够与发动机盖锁顺利接合。 “that”既可以用作定语从句的引导词,也可用作宾语从句的引导词,显然机器在此处将两者混淆,错译应该与机器无法准确判断从句前“check”的动词词性有关。 Check that all functions in the smart entry and start 10system cannot be operated. A:检查那全部在这聪明

21、进入内的功能并且启动系统不能被经营。 B:检查并确认智能上车和起动系统中的所有功能都不能操作。 在此例中,机器错误将宾语从句引导词“that”误译为指示代词“那” ,导致对宾语从句的错译。对比以上两例的机器译文也可发现,机器在对这两句同类句型的处理上,表现出其对“check”词性的判断和对宾语从句引导词“that”的分析呈现不稳定性。 英语具有“形合”的特征,句法是其“形合”实现的重要方式,是组织零散词汇构成句子的手段。机器在对名词短语、动词短语、介词短语、不定式短语、分词短语和从句的翻译处理中表现出的错误可以说是纷繁复杂,严重的句法错误甚至使整个句子变得凌乱不堪,不知所云,这也充分证实了对机

22、器译文句法错误展开研究、进行归纳的必要性。我们对“汽车技术文献翻译语料库”中机器译文和人工译文进行的精确对比、标注、统计、分析和归纳也确实发现了各类句法错译中存在的特征和共性。四、 结语 在汽车技术文件这一限定领域内的译文精确对比表明生成本次汉语译文的华建机器翻译系统具备了一定的英汉翻译能力,对英语中大部分主要时态、被动语态、大部分的动词不定式的句法作用及某些特殊句型等的处理都达到了相当高的准确性,确保了机器译文基本的可懂度,保证了机器译文的一定价值,为译后编辑,特别是建立译后编辑模式打下了一定的语言基础。另一方面,译文对比也发现,句子结构稍一复杂,修饰成分和限定成分一多,机器处理就开始力不从心。在句法上要为每

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 学科论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。