1、 1 纸质档案数字化加工方法 研究 中牟县档案局 辛向阳 纸质档案数字化就是采用扫描仪或数码相机等数码设备对纸质档案进行数字化加工,将其转化为存储在磁盘、光盘等载体上并能被计算机识别的数字图像或数字文本的处理过程。 纸质档案数字化的基本原则是使档案信息资源准确 、 方便 、 快捷地提供利用,使可以公开的档案信息资源得到共享,以满足社会对档案利用的需求。 纸质档案 数字化加工的范围 是 永久或长期保存的、社会利用价值高的档案。 工作中,原则上只扫描密级为公开的档案, 有电子稿的文件 可以暂时不扫描 (可在转换为 PDF 文档后挂接)。 纸质档案数字化的基本环节主要包括: 档案整理、 条目录入 、
2、档案扫描、图像处理、 图像存储、 数据挂接、数据备份、 数据验收 。 一、 档案整理 纸质档案的归档是纸质档案数字化的基础。 纸质档案的整理要根据文书档案整理办法归档。 纸质档案整理后,根据不同的保管理期限也可以很方便2 的区分需要数字化的范围。 二、条目录入 本文所讲 条目录入、批量挂接 、数据库等,都是指 PDE档案管理 系统。 (一) 选择目录数据库。 新法归档用归档文件数据库,老法归档用卷内文件数据库。 (二) 新法归档目录录入方法。 打开归档文件数据库,点左上角增加, 出现档案 目录管理对话框,在相应的栏目录入目录著录项即可。如果数据库内已录入条目,点最新目录就把最后保存的目录调出来
3、,在最新目录上修改就可以了,有些重复项目不用再录了,这样就更加方便快速了。 条目录入要求: 1、 文件时间用 8位数,不足 8位的用 “ 0” 补齐 ,如文件时间: 20080403; 2、 文件题名字数不宜超过 50字, 因为目录输出时只能显示三行,超过三行字体就不能完整显示( PDE 系统自身的问题)。 3、 全宗号、件号用三位数编号。如 001、 002 999。 三、档案扫描 和 图像处理、存储 档案扫描和 图像处理、存储 环节联系 紧密,一并介绍 (一) 扫描仪种类。 扫描仪主要可以分为下面 3种类型。 平板扫描仪 : 平板扫描仪有时也叫作 CCD扫描仪, 使用3 平板扫描仪扫描时,
4、直接将图片或照片放在扫描仪的平台上即可开始工作。 幻灯片扫描仪 : 幻灯片扫描仪的光学系统通常比平板扫描仪好,其分辨率一般为 5000dpi-6000dpi。 滚筒式扫描仪 : 滚筒式扫描仪不是利用 CCD来感光,而是使用通常称为 PMT的光电倍增管。滚筒式扫描仪比大多数CCD 扫描仪对亮度和阴影更为敏感 ,也能得到更高的数字化质量 。 档案数字化常用的是平板式扫描仪和 滚筒式 高速扫描仪。 (二 ) 扫描的准备 在使用高速扫描仪前, 应拆除装订物。拆除装订物时应注意保护档案不受损害。扫描工作完成后,拆除过装订物的档案应按档案保管的要求重新装订。恢复装订时,应注意保持档案的排列顺序不变,做到安
5、全、准确、无遗漏。破损严重、无法直接进行扫描的档案,应先进行技术修复,折皱不平影响扫描质量的原件应先进行相应处理 (压平或烫平等 )后再进行数字化加工。 (三) 常用扫描软件 的使用方法 1、 星震零边距 扫描系统 星震零边距 档案 扫描系统是虹光扫描仪自带的扫描系统,使用时需单独安装,并插入加密狗。 4 第一步:新建项目 新建项目 : 填 写项目名称。即需 进行档案数字化的 全宗,如 : 档案局 , 也可以是全宗号,如 : 013; 存放路径 :找一个空间比较大的盘,建一个文件夹用来存放扫描的文档。例如,在 E 盘建一个档案局文件夹 ; 用数字编号将文件名补齐至 : 3; 图像储存格式 :
6、TIF; 彩色图像压缩格式 :不压缩; 然后点确定,新建项目完成 第二步 : 建立目录 在档案局下建子目录,也就是我们要扫描的归档文件的件号 。如: 001、 002、 003 第 三 步:扫描设置 选中件号,点工具栏里的顺序扫描打开扫描界面。 图像 :选黑白正面 。 黑白文档数据小,适合服务器管理 ; 二值 化 :固定处理 。选固定处理可以避免每次扫描都要调整扫描参数 ; 亮度 :可根据纸张情况选择,纸张 明暗 和 亮度成反比,纸越暗亮度越高,纸越 白 亮度越低。 有些字迹比较模糊的文档,亮度可以调低点,扫出的字迹会更清晰。同时,噪点的产生也随着亮度的变化而改变,亮度越 低 ,噪点越多,亮度
7、越高,噪点越少,扫描中可灵活掌握。 5 分辨率 : 300。 300的分辨率可以满足演示和打印的需要。 黑白反相 :白底黑字。 第 四 步:扫描 放入文档,点扫描开始扫描,扫描的文档为单页 TIF文件,自动保存在你选中的件号。连续扫描完成一件文档的扫描。打开下一个件 号,依次扫描即可。 第 五 步:修整 图像 巧用清除键:打开件号,选中单页 TIF 文件,点左侧清除,然后选中页面全部文字内容,按空格键,选择范围之外的四周所有黑边、噪点全部去除。如有必要 再点相应工具 进行校正、居中、补齐处理。 依次处理下余页面。 组合优化当前目录下的所有 图像 : 目录树中 选中全宗号,点右键,选组合优化当前
8、目录下的所有 图像 。可以组合选择清除黑边、自动除噪、自动纠偏、 图像 居中、补齐 图像至 A4 等。设置好后点开始优化即可。这样 组合优化 处理 的优点是速度快, 可以整个全宗文档批量优化,缺点是,黑边不能全部清除,还需逐件 逐页检查。 第 六 步:合成多面 TIF 文件。 选中件号,点右键,选转存为多页 TIF,单击打开转换界面,转存目录和转存文件名自动生成,不必设置,点确定即可。 依次 再将其它件号 全部转存为多页 TIF。 在归档文件中,还有一部分 A3 幅面的报表,如果使用6 的是 A4 幅面的扫描仪, 就需要我们采用图像的“合并”技术,保证整 个页面 转换为电子图像。 我们把 A3
9、 页面文件 分 两 次进行扫描,形成图像 1 和 图像 2,再对扫描形成的 两 张图像进行拼接,为了找到合适的拼接切入点,在扫描的过程中图像 1与图像 2之间要有一定的重叠,我们在拼接前要把重叠的部分 进行“裁减”,裁减选中的部分就是我们所要保留的部分,裁减时以竖线为裁减的基准线进行裁减。选中裁剪好的两张图像点击“合并”即可将两张图像合并为一张完整的 页面 。 星震零边距扫描系统在 图像 处理上有一定的优势,但成本比较高, 且 只能单机使用。例如:购买一台虹光 2080E扫描仪,不带星震零边距扫描系统价格为 2500 元,带星震零边距扫描系统 最新报价为 5320-5700元。( 2009年
10、7月报价)。 2、 pde 影像扫描系统 第一步: 软件安装 ( 1) 安装光盘中的扫描仪的驱动程序 ; ( 2) 连接扫描仪 ; ( 3) 发现扫描仪,根据默认安装 ; ( 4) 安装应用软件,进行扫描。 说明:出现 “ 没有经过数字签名 ” 时,选择 仍然 继 续就可以。 第二步: 文档扫描 ( 1) 平板扫描: 打开 pde 影像扫描系统,点扫描打开7 扫描界面 。 扫描 设置 和星震零边距扫描系统扫描设置相同。 图像 :选黑白正面 ; 二值化 :固定处理 ; 亮度 :扫描中可灵活掌握 ; 分辨率 : 300; 黑白反相 :白底黑字。 设置完毕 点扫描 , 逐页扫完一件,关闭扫描界面,点
11、保存,选择路径,在空间比较大的盘上建一个文件夹并打开,文件名为 3 位数件号,保存类型为 TIF,点保存即可,文档自动保存为多 页 TIF 文档。 扫描下一件时 ,先点 新建 再点扫描,不点新建的话,新扫描的文件还是随在上一件的后面。循环扫描、关闭、保存、新建、扫描步骤完成其它文件的扫描。 实际工作中,还会遇到文件漏扫、扫坏页面或暂时未扫完下次还需接着扫描等情况。文件漏扫时,选中漏扫页面的后一页,点工具栏中页面,选插入扫描 即可,漏扫页面扫完后退出,转入正常扫描;文件页面扫坏时,选中扫坏页面,点工具栏中页面,选重新扫描即可,扫完后退出,转入正常扫描;暂时未扫完的情况,只需把未扫完的文件打开,接
12、着正常扫描即可。 ( 2) 高速扫描: 扫描设置同上。 将整 理过的整件或整8 卷文档放 在 送纸架上,设定 单 面扫描或正反双面扫描,点扫描开始。 扫描后,在每件 起 始页上点右键,选从此 拆 分,依次 拆分所有件号,剔除空白页,保存。 第三步: 图像 处理。 pde 影像扫描系统具有比较齐全的 图像 处理功能,可以单页去黑边、噪点、 倾斜校正,也可 批量去黑边、去噪点、倾斜 校正 。在处理文件时,点相应的菜单即可。 在菜单中还有一个经常要用的工具,上移和下移,可以用它们来调整页面的顺序。 和星震零边距扫描系统相比, 用 PDE扫描 系统扫描的文件自动保存为多页 TIF,不需要再进行转换,同
13、时也具备文件处理的大部分 功能,最大的优势不必为软件买单,只要档案馆建立了 PDE 数字档案馆系统,所有档案室都可以使用。 缺点是功能不全,没有居中、补齐 A4 功能,也不能利用清除键同时去掉四周的黑边 、噪点 。 3、 ACDsee 5.0 系统 ACDsee 5.0是一个免费的看图软件,它占用空间小,功能齐全,用它来扫描文档,也是一个不错的选择。星震零边距扫描系统、 pde 影像扫描系统都是在它的基础上开发的。 第一步:打开 ACDsee 5.0,打开文件,点获取 图像 ,选扫描仪 。 9 第二步:扫描设置 格式 :选 TIFF; 文件夹 :指定路径,即扫描文档存放 的文件夹; 文件名模板
14、 : 001; 勾选保存多重 图像 为单一页面图像; 点立即获取开始文档扫描。 第三步:文档扫描。 ACDsee 5.0扫描界面打开后我们会发现和以上两种扫描系统的扫描界面完全一样。 扫描方法也基本一样,扫描完一件,关 闭扫描界面,文件自动保存为多页 TIF,不过文件名需要 对照目录件号 重新名命。 第四步:文档处理。 ACDsee 5.0系统图像处理功能比较强大,很多功能有待使用者摸索和开发。 清除四周黑边: 在 ACDsee 5.0中打开需处理的多页 TIF文档,打开图像在编辑器,点下面工具条中的选择键,然后用鼠标选取页面中全部文字内容,在上面选择 菜单 中选反转,此时页 面 上出现两层虚
15、线,两层虚线中间部分即四周黑边 和噪点 ,点删除键删除四周黑边。再点下一页,出现是否保存提示,点是即可,同时下一页面出现,而两条虚线还在,如果 选择范围 也适合本页,直接点删除键即可 。 这样,下一页、保存、删除 ; 下一页、保存、删除循环,可极大的提高修整的工作效率,最后点保存,保存修改结果。 图像居中:在图像编辑器中,点下面工具条中的选择键,10 然后用鼠标选取页面中全部文字内容,点左键不放,移动鼠标,文字内容相应的跟着移动,选择最合适位置,释放鼠标,单击虚线外任一点,完成图像居中,点保存,保存修改结果。 ACDsee 5.0还有一个重要功能,它可以把单页 TIF文件合成多页 TIF 文件
16、,同样也可以把多页 TIF 文件拆分为单页TIF 文件。在工作中遇到这样一些情况,有些单位用其它扫描系统把文档扫描为单页 TIF 文件,这时,就需要用 ACDsee 5.0 系统合成多页 TIF 文件。 单页 TIF 方法 合成多页 TIF 文件的方法: 在 ACDsee 5.0 中打开单页 TIF 文件夹,在右侧的编辑区选中全部单页 TIF 文件,在工具菜单中选格式转换 。 格式 :选 TIFF; 文件选项 : 在来源文 件夹中放置已修改的图像; 覆盖已存在的文件 : 选重命名,然后点确定。 格式设置 :选 CCITT 组 4,用这种格式合并后的文件最小。勾选保存这些设置为默认值,确定。 多页设置 :点合并,确定。 以上内容全部设置好后, 返回 图像格式转换栏 , 点确定开始转换。 下面再转换的文件,就不需要再设置了,选中全部单页文件后,只在格式栏中选中 TIFF,点确定即可。 最后在转换过的每个单页 TIFF 文 件 夹 中 都 有 一 个