CWMT2008机器翻译评测总结报告.PPT

资源描述

1、CWMT2008机器翻译评测总结报告中科院计算所机器翻译评测组赵红梅谢军吕雅娟刘群2008年 11月提纲概述参评单位和参评系统评测语料评测流程评测方法评测结果评测结果分析总结和展望概述机器翻译核心技术的评测目的：推进机器翻译技术的交流和发展 15个参评单位 2个语种方向（汉英、英汉）两种领域（新闻、科技），其中科技翻译为新增项目新增了汉英新闻系统融合项目新增了 WoodPecker评测新增了 BLEU-SBP参考指标参评单位厦门大学人工智能研究所中国软件与技术服务股份有限公司东北大学自然语言处理实验室中科院自动化研究所系统 1 中科院自动化

2、研究所系统 2 北京迈创语通软件有限公司北京赛迪翻译技术有限公司中国科学院软件研究所西安汇申软件有限公司中科院计算技术研究所多语言交互技术研究室北京航空航天大学计算机学院智能信息处理研究所微软亚洲研究院北京工业大学哈尔滨工业大学机器智能与翻译研究室 SYSTRAN Software, Inc参评单位和系统数量项目受限不受限合计单位系统单位系统单位系统汉英新闻翻译 7 13 7 10 12 23汉英新闻系统融合 6 10英汉新闻翻译 4 9 8 11 11 20英汉科技翻译 4 10 6 10 9 20合计 1

3、5 73评测语料机器翻语译料训练语料：新闻、科技公共训练语料： 868,947句对；科技独有训练语料： 620,985句对其中，万方数据： 320,985句对中信所语料： 300,000句对。 6家单位参加了万方数据论文摘要句对齐语料的校对测试语料：新闻语料按照分割日期规定均采自国内外新闻网站；所有测试集中均混入了 3倍的干扰集，真实测试集规模：机器翻译评测语料句数汉字数 /单词数制作单位汉英新闻翻译汉语语料 1006 41042 计算所英汉新闻翻译英语语料 1000 21767 计算所英汉科技翻译英语语料 1008 213

4、39 中信所参考译文每句 4个参考译文4个以目标语言为母语的翻译者独立翻译新闻的参考译文由计算所制作，科技的参考译文由中信所提供系统融合语料训练语料 SSMT2007汉英新闻测试集、参考集和本次评测中 10家参评单位提交的 17个系统在 SSMT2007汉英新闻真实测试语料上的翻译结果（共 1,002句对）测试语料以上 17个系统在 CWMT2008汉英新闻测试集上的翻译结果。其中， 12个系统提交了 n-best结果， 5个系统提交了 1-best结果。参考译文同本次评测汉英新闻翻译项目的参考集评测语料评测流程本次评测采用了网上评测的方式，流程如下： 8月 31日评测组织

5、方发放各个项目的训练数据 10月 8日评测组织方发放新闻翻译项目的测试数据 10月 10日参评单位提交新闻翻译项目的测试运行结果和系统描述 10月 13日评测组织方发放英汉科技翻译项目的测试数据 10月 15日各参评单位提交英汉科技翻译项目的测试运行结果和系统描述 10月 20日评测组织方发放汉英系统融合项目的测试数据（即机器翻译项目参评单位提交的运行结果的汇总） 10月 22日各参评单位提交汉英系统融合项目的测试运行结果和系统描述评测方法格式预处理：各系统翻译的结果首先需要转换为评测软件能够处理的内部格式；此次评测的内部格式更加接近 NIST评测格式；部分单位提交的

6、结果格式不符合要求；解决办法：下次评测提供格式检测程序！ 10月 22日收到提交结果后开始进行自动评测， 10月 28日全部完成。体会：评测中最麻烦的问题莫过于格式和编码统一采用 UTF-8编码，但是：带编码（如 utf-8）的文件在 Windows下复制到剪贴板上时（包括使用写字版和UltraEdit），很多符号如引号和连字符等都会被转换成默认的编码方式（如 ANSI编码），从而出现乱码。不能采用 utf-8、无 BOM编码：因其不识别英镑符号评测方法评测指标：本次评测采用多种自动评价指标，包括：BLEU、 NIST、 GTM、 mWER、 mPER、 ICT 参考指标：BLEU-SBP：采用修改 bp的 BLEUWoodPecker：提供基于检测点的评测结果以上指标均为：大小写敏感的中文的评测是基于字的，而不是基于词的

展开阅读全文