1、字幕提取所需要用的软件:Esrxp,尚书 7 号,word 等。废话少说,让我们进入正题1. 软件的安装过于简单本节省略2准备工作你需要准备一台电脑,还有用来提取字幕的 rmvb。3 Esrxp 软件的介绍与调整Esr 的使用是提取字幕的关键,识别出来的字幕越完美。你后期所需要的时间就越少Esr 里面的其他设置建议使用我提供的下载里默认的,如有需要改动设置的地方,我会在文说明。首先我们依次点 文件 打开影片(快捷键为工具栏第 2 个)本文使用 TSKS 的聚光灯12 集的 rmvb 版本作为例子Rmvb 文件载入后,依次点 字幕 过滤器(快捷键为工具栏第 6 个)出现如下界面拉一下进度栏(这个
2、应该不需要我告诉你在哪里了吧) 找到有字幕的地方进行调整字幕截取的边框要根据影片字幕的位置来设置,一般字幕为 2 行。所以截取的时候注意一下上下边框可以用鼠标来调整 也可以使用 区域 内的上下数值来调整完整宽度 请勾选上(一般设置好后,下次启动软件时候会使用上次设置)过滤器设置 请钩上 这样我们才能调整一些参数便于识别出完美的字幕请选择“颜色和边线”字幕颜色 设置成和 rmvb 中字幕的主颜色的同色(如何正确知道字幕的颜色:可以把鼠标移动到字体上,在设置的左下角会出现当前鼠标所在处的 RGB 值)边线颜色 设置成和 rmvb 中字幕的边线颜色的同色(一般都是白色字体,其他的边线颜色都可以用黑色
3、来代替)后处理设置请按照下图设置,这个基本是固定的,不需要按照影片设置,除非rmvb 字体太小。进阶设置(此处很重要,为识别的核心部分,识别出来的字幕完美不完美就靠它了)点击如下图所示大家可参考我图中的设置说明:没有打勾的不生效,意味着随便什么数值都可以(软件自动默认为最高或者最低)不要随便勾选其他的,除非你研究了很透彻了需要调整的地方有 2 个:边线里的最高光度和最后阶段的 RGB 差距(图中2 处的数值无参考意义,需自行根据影片设置)最高光度需要根据不同的 rmvb 设置不同的值,调整到识别出来的字幕不丢字,也无太多的杂点即可。当然最好识别出来和我图中的字幕那样完美.RG 差距为字幕的清晰
4、度,越高越清晰,但是也同时会带来非字幕地方出现杂点,影响到后面的 OCR 识别。所以我们的原则是:只要能看了比较清楚,OCR 软件能够顺利识别就可以了。此处设置的时候可以拖动进度栏,观察总体字幕识别情况,不要总是盯着一出字幕来设置。那样容易会出现本处字幕识别了完美,其他时间字幕出现丢字或者杂点太多的情况设置完毕后我们可以开始识别了,返回到软件的主界面。点左下角的开始,让软件自己开始识别吧。识别时间需要看机器的配制和字幕的多与少。为了节约时间,本文中只识别的影片的前几分钟。现在我们会发现识别出来会多很多无用的字幕(到底会多多少,这个要看你设置的情况了一般设置了比较好的话,基本没有太多的无用字幕)
5、我们需要手动删除他们依次点 字幕 字幕管理 (快捷键为工具栏第 8 个)出现如下界面删除的时候可以点最缩小的那个放大镜 这样屏幕可以同时显示更多字幕,提高删除效率删除的方法:最基本的是用鼠标点,点一次选中,再点一次不选中。下面再告诉大家几个技巧:点好鼠标左键后不放,放下拖,鼠标所过之处会自动选上。选择多行无字幕的图象时(就是有一大段都没有字幕,是乱七八糟的杂点)可以在开始字幕处点右键选中,结束字幕处点左键。这样这一大段的字幕就全部被选中了。合并重复字幕:有时候会出现这样的情况,多行字幕为同一字幕,我们需要合并之,方法为在重复字幕的第一个字幕处点右键选中,在重复字幕结束处点右键。无用字幕选择好之
6、后,我们点字幕管理中的删除(下图红圈所示)关闭字幕管理,返回软件主界面。现在我们开始输出 OCR 所需要使用的 bmp图片。依次打开 文件 保存 OCR 影象(快捷键为工具栏第 5 个)说明:先建立一个文件夹用来保存 ocr 图片,选择好图片输出位置后,出现下图设置。请按照本图设置,每张图片不宜太大,否则 OCR 软件无法识别输出图片结束后,我们需要把刚才提供的 esr 文件另存为一下。这个习惯要养成,不然会很麻烦。下面我们开始介绍 OCR 软件:尚书 7 号的使用打开软件,打开图片。(这里需要提醒的是,一集字幕我们按 60 行字幕一张图片的话会出现 10 多张图片,我们在打开图片时候需要一次
7、性选择全部图片,而且第一张选种的图片必须是编号最后的图片,最后选种的图片必须是编号为1 的图片,这样在尚书 7 号里面才会按照 1 2 3 4 这样的顺序排列,否则是反过来的)图片全部打开之后,我们先点全选图片(快捷键为工具栏第 5 个)然后开始识别(快捷键为工具栏第 6 个)识别很快,几秒一个图片。识别结束后,再按一次全选(快捷键为工具栏第 5 个)然后依次点 输出 输出到指定文件(把识别出来的文字存为一个 txt 文件)到了这里我们会发现,文中提示所需要的 word 还没派上用场,这个时候我们就需要用上它了。因为识别出来的文字,偶尔有几个会有识别错误,而且是批量的,我们需要用到 word 的全部替换功能,把一些常用字的识别错误给修正(不要问我有哪些常用字会识别错误,基本很少。做过这么一两个字幕后你就会知道那些字需要全部替换下)OK 现在我们所需要做的是把 word 里调整过文字复制到 exrxp 软件的左边的文字框里去注意,一行对应一行哦。可以把文字的字体大小该大点,这样眼睛不累减少错字。- -|然后开始我们最为辛苦的校对过程,结束后如下图