ImageVerifierCode 换一换
格式:PPT , 页数:19 ,大小:2.92MB ,
资源ID:448974      下载积分:12 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-448974.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(工作报告-模式识别国家重点实验室.ppt)为本站会员(ga****84)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

工作报告-模式识别国家重点实验室.ppt

1、基于统计方法的短语翻译模型过滤器设计,杨 攀,08-11-28,总体框架,引言统计方法介绍过滤器设计实验及分析结束语,引言,基于短语的统计机器翻译的最大特点就是其翻译模型为短语级的,这里的短语并非是语言学意义上的短语,而是连续的语言片段。翻译模型的好坏对于翻译结果的影响举足轻重。翻译模型的生成要经历词对齐,短语对齐,短语评分等不同的阶段,最终生成的翻译模型必含有一些不正确的短语翻译对,本文称之为“噪音”。,引言,Johnson等(2007)在ACL07上提出的基于Fisher准确检验的方法去除翻译模型噪音的方法是最早利用统计方法对翻译模型进行降噪的文章,但追本溯源,这个方法的真正来源还是早期单

2、语的搭配或双语的词对齐研究中的统计方法的新的应用而已,正所谓老瓶装新醋。本文的着眼点不是提出新的方法进行翻译模型的降噪,而是想站在巨人的肩膀上,既在早期基于统计的搭配,词对齐等研究成果及开源项目Ngram Statistics Package (NSP) 的支持下,设计了一个短语翻译模型过滤器。,统计方法介绍,本文中用到的几个关键统计值说明:s为翻译模型中的源短语;t为目标短语;c(s)为双语对齐语料库中含有源短语的源句子数; c(t)为含有目标短语的目标句子数;c(s,t)为同时含有源短语及目标短语的句子数;N为语料库中对齐句子数;,统计方法介绍,假设检验:假设检验是用来判断样本与样本,样本

3、与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。利用假设检验处理翻译模型的关键就是用它来评价源短语到目标短语的翻译是偶然的还是必然的,若是偶然,就否定它;若是必然,就肯定它;t 检验:,统计方法介绍,列联表:列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数表,本文仅使用两个属性的列联表,既2x2表。它直观,简单,方便,并且利于计算机进行统计值的计算。表1是翻译模型过滤器中的设计的列联表:,统计方法介绍,基于列联表计算的三种统计值:令似然比:互信息:Fisher准确检验值:,过滤器设计,过滤器总体框架,实验及分析,按ACL07统计机器翻译讨论会(ACL 2007 SEC

4、OND WORKSHOP ON STATISTICAL MACHINE TRANSLATION)的介绍搭建了Moses测试平台,其核心框架仍是Kohen的基于短语的SMT框架。平台采用GIZA+进行翻译模型的训练,SRILM工具进行语言模型的训练,Moses工具包进行生成模型的训练及解码,mteval工具包对实验结果进行BLEU评分。,实验及分析,训练语料库来源于内蒙古大学提供的38,000句对日常用语汉蒙平行语料库。由于目前还没有汉蒙机器翻译公共测试平台,我们选用训练集以外的350句(含200句对话,150句日常用语)作为测试集,由以蒙古语为母语的专业人员进行翻译,每个汉语句子对应4种译文。

5、蒙古语部分采用拉丁转写形式。,实验及分析,似然比的NIST,BLEU评测实验结果:,实验及分析,互信息的NIST,BLEU评测实验结果:,实验及分析,Fisher值的NIST,BLEU评测实验结果:,实验及分析,结果分析在三个表中,都有一个明显的阈值“拐点”,依次为10.5453、23.0907、0.0004,这与翻译模型中存在着大量的1-1-1型翻译短语有关。所谓1-1-1型翻译短语,即在语料库中其源短语,目标短语及二者同现的频率仅为1次。我们统计了一下,在本实验的翻译模型中为1-1-1型翻译短语约占了48.9%。阈值“拐点”亦即1-1-1型的相应值,特别,对于fisher值,我们取其值的负

6、对数,按照Moore(2004)的文章的讨论,在Fisher准确检验下其P值为1/N,负对数值为log(N),由于实验中N=38000,log(N)= 10.5453,其理论值与实验值完全吻合。,实验及分析,结果分析从表中可以看出,阈值拐点左右的NIST、BLEU值跳跃均比较大,这与翻译模型被过滤了一半有极大关系。但是,仔细观察这三个表,我们发现随着阈值的不断升高,似然比、互信息的评分值在拐点前的降低比较理想,其过滤效果比较好,而Fisher准确检验的评分值则有一个明显的下滑,且评分效果不尽如人意。,实验及分析,结果分析我们以效果最好的似然比实验结果进一步分析,当阈值设置为10.0时,翻译模型

7、被过滤掉了6352行,但其NIST、BLEU值均有很小幅度的提高,这表明在取得合适的阈值的情况下,机器翻译系统的翻译质量在翻译模型过滤的情况下反而能得到提高。我们又以阈值拐点a左右为例,当阈值为a-e时,过滤后的翻译模型为原翻译模型的62.9%,而其BLEU值仅降低了0.0033,对于一般的机器翻译系统来说,用户对翻译质量的降低感受是不明显的;而当阈值为a+e时,过滤后的翻译模型为原翻译模型的14.0%,BLEU值降低了0.0239,这对于一些对内存占用要求比较高的机器翻译系统来说亦是完全可以接受的。,结束语,本文利用统计方法设计了短语翻译模型过滤器,并且针对汉蒙统计机器翻译做了三组实验,实验结果表明,如果选用统计方法及阈值得当,翻译模型的过滤效果是非常好的。但是,由于统计机器翻译中语料库的种类、规模、领域的不同,所生成的翻译模型必然有不同的“噪音”,因此,对于不同机器翻译系统,我们必须根据实验来选用合理的统计方法及经验阈值,这有时候是极为繁琐的。所以下一步的工作中,主要考虑的是如何利用这些统计值及其排序输出结果,对其进行综合的评判及阈值设计。另外,引入新的统计方法也是很必要的。,谢谢各位专家!,

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。