精选优质文档-倾情为你奉上从各类数据库下载的中文文档的质量并不好,尤其是化工医药等上下标较多的文档更是需要投入大量的精力进行前期处理。除非提供的是高质量中英文文件对,在匹配中英文句对之前,有必要对文档(尤其是中文文档)进行处理,在此对常见的需要处理的问题及处理的方法进行简单归纳,实际工作过程中请根据实际情况选择进行其中必要的处理。注意:本文中中文方括号【】表示范围,在输入原来内容和替换内容时,仅输入中文方括号内的内容!一、 文档处理的内容及方法以下对常用的文档处理内容和方法进行归纳。在Word中,弹出搜索和替换画面的快捷键为Ctrl+h。1. 不完全的回车符文档中的标准回车符应为回车换行符,而下载的文档中常常会有一些不完全的回车符(一般显示为【】),这样的不完全回车符在进行WinAlign句对匹配时,有可能不能正常地断句;因此,建议将全部这样的不完全回车符替换为标准回车符。解决方法:替换所有【l】为【p】(在英文输入状态下shift+6;l和p分别为小写的字母l和p)2. 句首和句尾的空格由于作为语料库的内容,格式没有任何意义,所以