1、CWMT2008机器翻译评测总结报告中科院计算所机器翻译评测组赵红梅 谢军 吕雅娟 刘群2008年 11月提纲 概述 参评单位和参评系统 评测语料 评测流程 评测方法 评测结果 评测结果分析 总结和展望概述 机器翻译核心技术的评测 目的: 推进机器翻译技术的交流和发展 15个参评单位 2个语种方向(汉英、英汉) 两种领域(新闻、科技),其中科技翻译为 新增 项目 新增 了汉英新闻系统融合项目 新增 了 WoodPecker评测 新增 了 BLEU-SBP参考指标参评单位 厦门大学人工智能研究所 中国软件与技术服务股份有限公司 东北大学自然语言处理实验室 中科院自动化研究所系统 1 中科院自动化
2、研究所系统 2 北京迈创语通软件有限公司 北京赛迪翻译技术有限公司 中国科学院软件研究所 西安汇申软件有限公司 中科院计算技术研究所多语言交互技术研究室 北京航空航天大学计算机学院智能信息处理研究所 微软亚洲研究院 北京工业大学 哈尔滨工业大学机器智能与翻译研究室 SYSTRAN Software, Inc参评单位和系统数量 项 目 受限 不受限 合 计单 位 系 统 单 位 系 统 单 位 系 统汉 英新 闻 翻 译 7 13 7 10 12 23汉 英新 闻 系 统 融合 6 10英 汉 新 闻 翻 译 4 9 8 11 11 20英 汉 科技翻 译 4 10 6 10 9 20合 计 1
3、5 73评测语料机器翻语译料 训练语料 :新闻、科技公共训练语料: 868,947句对;科技独有训练语料: 620,985句对 其中, 万方数据: 320,985句对 中信所语料: 300,000句对。 6家单位参加了万方数据论文摘要句对齐语料的校对 测试语料 : 新闻语料按照分割日期规定均采自国内外新闻网站;所有测试集中均混入了 3倍的干扰集,真实测试集规模:机器翻 译评测语 料 句数 汉 字数 /单词 数 制作 单 位汉 英新 闻 翻 译汉语语料 1006 41042 计 算所英 汉 新 闻 翻 译 英 语语料 1000 21767 计 算所英 汉 科技翻 译 英 语语料 1008 213
4、39 中信所 参考译文每句 4个参考译文4个以目标语言为母语的翻译者独立翻译新闻的参考译文由计算所制作,科技的参考译文由中信所提供系统融合语料 训练语料 SSMT2007汉英新闻测试集、参考集和本次评测中 10家参评单位提交的 17个系统在 SSMT2007汉英新闻真实测试语料上的翻译结果(共 1,002句对) 测试语料 以上 17个系统在 CWMT2008汉英新闻测试集上的翻译结果。 其中, 12个系统提交了 n-best结果, 5个系统提交了 1-best结果 。 参考译文 同本次评测汉英新闻翻译项目的参考集评测语料评测流程 本次评测采用了网上评测的方式,流程如下: 8月 31日 评测组织
5、方发放各个项目的训练数据 10月 8日 评测组织方发放新闻翻译项目的测试数据 10月 10日 参评单位提交新闻翻译项目的测试运行结果和系统描述 10月 13日 评测组织方发放英汉科技翻译项目的测试数据 10月 15日 各参评单位提交英汉科技翻译项目的测试运行结果和系统描述 10月 20日 评测组织方发放汉英系统融合项目的测试数据 ( 即机器翻译项目参评单位提交的运行结果的汇总) 10月 22日 各参评单位提交汉英系统融合项目的测试运行结果和系统描述评测方法 格式预处理 : 各系统翻译的结果首先需要转换为评测软件能够处理的内部格式; 此次评测的内部格式更加接近 NIST评测格式; 部分单位提交的
6、结果格式不符合要求; 解决办法 :下次评测提供格式检测程序! 10月 22日收到提交结果后开始进行自动评测, 10月 28日全部完成。 体会 :评测中最麻烦的问题莫过于格式和编码 统一采用 UTF-8编码,但是: 带编码(如 utf-8)的文件在 Windows下复制到剪贴板上时(包括使用写字版和UltraEdit),很多符号如引号和连字符等都会被转换成默认的编码方式(如 ANSI编码),从而出现乱码。 不能采用 utf-8、 无 BOM编码:因其不识别英镑符号 评测方法 评测指标 :本次评测采用多种自动评价指标,包括:BLEU、 NIST、 GTM、 mWER、 mPER、 ICT 参考指标 :BLEU-SBP:采用修改 bp的 BLEUWoodPecker:提供基于检测点的评测结果以上指标均为: 大小写敏感的 中文的评测是基于字的,而不是基于词的