ImageVerifierCode 换一换
格式:PPT , 页数:46 ,大小:2.17MB ,
资源ID:1109754      下载积分:10 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-1109754.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(CWMT2008机器翻译评测总结报告.PPT)为本站会员(国***)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

CWMT2008机器翻译评测总结报告.PPT

1、CWMT2008机器翻译评测总结报告中科院计算所机器翻译评测组赵红梅 谢军 吕雅娟 刘群2008年 11月提纲 概述 参评单位和参评系统 评测语料 评测流程 评测方法 评测结果 评测结果分析 总结和展望概述 机器翻译核心技术的评测 目的: 推进机器翻译技术的交流和发展 15个参评单位 2个语种方向(汉英、英汉) 两种领域(新闻、科技),其中科技翻译为 新增 项目 新增 了汉英新闻系统融合项目 新增 了 WoodPecker评测 新增 了 BLEU-SBP参考指标参评单位 厦门大学人工智能研究所 中国软件与技术服务股份有限公司 东北大学自然语言处理实验室 中科院自动化研究所系统 1 中科院自动化

2、研究所系统 2 北京迈创语通软件有限公司 北京赛迪翻译技术有限公司 中国科学院软件研究所 西安汇申软件有限公司 中科院计算技术研究所多语言交互技术研究室 北京航空航天大学计算机学院智能信息处理研究所 微软亚洲研究院 北京工业大学 哈尔滨工业大学机器智能与翻译研究室 SYSTRAN Software, Inc参评单位和系统数量 项 目 受限 不受限 合 计单 位 系 统 单 位 系 统 单 位 系 统汉 英新 闻 翻 译 7 13 7 10 12 23汉 英新 闻 系 统 融合 6 10英 汉 新 闻 翻 译 4 9 8 11 11 20英 汉 科技翻 译 4 10 6 10 9 20合 计 1

3、5 73评测语料机器翻语译料 训练语料 :新闻、科技公共训练语料: 868,947句对;科技独有训练语料: 620,985句对 其中, 万方数据: 320,985句对 中信所语料: 300,000句对。 6家单位参加了万方数据论文摘要句对齐语料的校对 测试语料 : 新闻语料按照分割日期规定均采自国内外新闻网站;所有测试集中均混入了 3倍的干扰集,真实测试集规模:机器翻 译评测语 料 句数 汉 字数 /单词 数 制作 单 位汉 英新 闻 翻 译汉语语料 1006 41042 计 算所英 汉 新 闻 翻 译 英 语语料 1000 21767 计 算所英 汉 科技翻 译 英 语语料 1008 213

4、39 中信所 参考译文每句 4个参考译文4个以目标语言为母语的翻译者独立翻译新闻的参考译文由计算所制作,科技的参考译文由中信所提供系统融合语料 训练语料 SSMT2007汉英新闻测试集、参考集和本次评测中 10家参评单位提交的 17个系统在 SSMT2007汉英新闻真实测试语料上的翻译结果(共 1,002句对) 测试语料 以上 17个系统在 CWMT2008汉英新闻测试集上的翻译结果。 其中, 12个系统提交了 n-best结果, 5个系统提交了 1-best结果 。 参考译文 同本次评测汉英新闻翻译项目的参考集评测语料评测流程 本次评测采用了网上评测的方式,流程如下: 8月 31日 评测组织

5、方发放各个项目的训练数据 10月 8日 评测组织方发放新闻翻译项目的测试数据 10月 10日 参评单位提交新闻翻译项目的测试运行结果和系统描述 10月 13日 评测组织方发放英汉科技翻译项目的测试数据 10月 15日 各参评单位提交英汉科技翻译项目的测试运行结果和系统描述 10月 20日 评测组织方发放汉英系统融合项目的测试数据 ( 即机器翻译项目参评单位提交的运行结果的汇总) 10月 22日 各参评单位提交汉英系统融合项目的测试运行结果和系统描述评测方法 格式预处理 : 各系统翻译的结果首先需要转换为评测软件能够处理的内部格式; 此次评测的内部格式更加接近 NIST评测格式; 部分单位提交的

6、结果格式不符合要求; 解决办法 :下次评测提供格式检测程序! 10月 22日收到提交结果后开始进行自动评测, 10月 28日全部完成。 体会 :评测中最麻烦的问题莫过于格式和编码 统一采用 UTF-8编码,但是: 带编码(如 utf-8)的文件在 Windows下复制到剪贴板上时(包括使用写字版和UltraEdit),很多符号如引号和连字符等都会被转换成默认的编码方式(如 ANSI编码),从而出现乱码。 不能采用 utf-8、 无 BOM编码:因其不识别英镑符号 评测方法 评测指标 :本次评测采用多种自动评价指标,包括:BLEU、 NIST、 GTM、 mWER、 mPER、 ICT 参考指标 :BLEU-SBP:采用修改 bp的 BLEUWoodPecker:提供基于检测点的评测结果以上指标均为: 大小写敏感的 中文的评测是基于字的,而不是基于词的

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。