档案数字副本OCR规范.doc

上传人:da****u 文档编号:1194151 上传时间:2018-12-18 格式:DOC 页数:12 大小:165.46KB
下载 相关 举报
档案数字副本OCR规范.doc_第1页
第1页 / 共12页
档案数字副本OCR规范.doc_第2页
第2页 / 共12页
档案数字副本OCR规范.doc_第3页
第3页 / 共12页
档案数字副本OCR规范.doc_第4页
第4页 / 共12页
档案数字副本OCR规范.doc_第5页
第5页 / 共12页
点击查看更多>>
资源描述

1、0ICS 01.140.20A 14备案号:中华人民共和国档案行业标准DA/T XX2017 档 案 数 字 副 本 光 学 字 符 识 别( OCR) 规 范OCR Specification for Digital copy(征求意见稿)2017-XX-XX 发布 2017-XX-XX 实施国 家 档 案 局 发 布1前 言本标准的附录 A 是资料性附录。本标准由国家档案局提出并归口。本标准起草单位:本标准主要起草人:2档案数字副本光学字符识别(OCR)规范1 范围本标准规定了档案数字化副本光学字符识别(OCR)基本要求。本标准适用于档案部门指导OCR工作规划、管理和应用。2 规范性引用文

2、件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 2828.1-2003 计数抽样检验程序 第 1 部分:按接收质量限(AQL)检索的逐批检验抽样计划DA/T 31-2005 纸质档案数字化技术规范3 术语和定义3.1图像格式 image format记录、组织和存储图像像素的方式。3.2字符 character各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。3.3字符集 character set多个字符的集合。字符集包含的字符个数不同,常见字符集名称有A

3、SCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode 字符集等。3.4光学字符识别 Optical Character Recognition;OCR3电子设备检查纸上显示的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。OCR文件包括处理后的高清图像,识别后的电子文件,校验文件及工作中产生的文件、存储载体等。3.5识别准确率 recognition accuracy通过OCR识别正确文字的比率。识别准确率R=(识别正确文字数应识别文字总数)100%3.6识别速度 recognition speed单位时间内通过OCR

4、识别文字的数量。4 总则4.1 各单位在纸质档案数字化的基础上,为方便利用、数据挖掘统筹规划开展档案数字副本 OCR 工作。4.2 档案数字副本原始图像、OCR 高清图像与识别后的电子文件之间应建立正确、可靠的关联。4.3 应采取有效的管理和技术手段,确保档案数字副本 OCR 后的成果质量。4.4 处理涉密档案时,应按照涉密档案相关的管理和技术要求开展工作。5 工作组织5.1 机构及人员5.1.1 应建立完善的工作组织架构,以支持对档案数字副本 OCR 工作进行统筹规划、组织实施、协调管理、安全保障、技术保障、监督检查、成果验收等,确保档案数字副本OCR 工作的顺利开展。5.1.2 应配备具备

5、相应素质和技术水平的工作人员,并通过科学规范的管理制度对工作人员进行规范化管理。为强化安全性,应加强对外聘工作人员的审核。5.2 基础设施5.2.1 应配备专用工作场地、机房等,应合理规划、配备和管理设施设备,确保设施设备安全、先进,能够满足档案数字副本 OCR 工作的需要。配备基础设施应考虑的因素包括:4 与档案库房的距离要求; 场地和环境(如面积、温度、湿度、防火、电力和工作时间等)要求; 运行维护和管理要求。5.2.2 可选用以下三种方式获取基础设施: 由组织所有或运行; 多方共建或通过互惠协议获取; 租用商业化数字化公司的基础设施。5.3 工作流程控制5.3.1 档案数字副本 OCR

6、工作包括图像输入、图像预处理、比对识别、修改校正、结果整理输出等流程。5.3.2 应依据相关的法律法规和各类技术标准,制定相关的工作流程和各环节操作规范,对全过程进行有效的控制,确保识别质量。5.3.3 应加强对整个流程的安全管理,及时对产生的数据进行备份。5.3.4 应建立完善的问题反馈机制,对档案数字副本 OCR 工作过程中后端环节发现前端环节中产生的问题前及时反馈和修正。及时获取 OCR 成果后续管理和利用过程中的效果进行反馈,提高 OCR 工作质量。5.4 工作文件管理应针对 OCR 全过程,建立完善的管理工作文件,以此加强对 OCR 工作的管理。6 方案制定6.1 制定 OCR 识别

7、策略6.1.1 制定OCR识别策略应考虑如下要素:图像资源,即符合输入标准的可识别的彩色(24BITS)、灰度(256阶)和黑白二值图像。一般应为TIFF、BMP、JPG、PDF格式的图像文件。 OCR引擎,对影像包含文字进行高速和高识别率的OCR识别引擎。 OCR识别系统,装备OCR引擎的OCR 识别软件系统,可以高速稳定输出识别结果。应根需要识别的目标,按照成本风险平衡原则,确定: 数据识别的范围; 数据识别的质量;数据识别的技术及介质; 数据识别设备的规格和要求。 基础设施:支持系统运行的建筑、设施和设备,包括介质的场外存放场所、备用的机房及辅助设施。5 专业技术支持能力:对系统的运转提

8、供支撑和综合保障的能力,以实现系统的预期目标。包括硬件、系统软件和应用软件的问题分析和处理能力、网络系统安全运行管理能力、沟通协调能力等。 运行维护管理能力:保障系统相关的设备和软件正常运行,向用户提供长期、及时、全面的技术支持的能力。包括运行环境管理、系统管理、安全管理和变更管理等。 灾难恢复预案:对系统灾难实行快速、有效的响应和恢复。包括灾难紧急响应,灾后系统重建及重续运行,通信、后勤、技术等相关保障机制建设。6.1.2 应根据项目目标,按照项目资源的成本与风险可能造成的损失之间取得平衡的原则(以下简称“ 成本风险平衡原则”)确定每项关键业务功能的工作策略,不同的业务功能可采用不同的OCR

9、 识别策略。6.2 制定总体方案6.2.1 应在充分调研的基础上,制定科学合理的总体方案,确保档案数字副本 OCR 工作达到预期目标。6.2.2 档案数字副本 OCR 工作总体方案的制定应综合考虑 OCR 目的、利用情况、费用情况等,做出合理规划。6.2.3 档案数字副本 OCR 工作总体方案应经相关领导审批后严格执行。6.3 制定技术方案6.3.1 技术方案的确定根据 OCR 识别系统策略制定相应的识别系统技术方案,包含数据系统、数据处理系统和网络系统。技术方案中所涉及的系统应满足如下条件: 获得同主系统相当的安全保护; 具有可扩展性; 考虑其对主系统可用性和性能的影响。6.3.2 技术方案

10、的验证、确认和系统开发为确保技术方案满足OCR识别系统策略的要求,应由组织的相关部门对技术方案进行确认和验证,并记录和保存验证及确认的结果。 按照确认的 OCR识别系统技术方案进行开发,实现所要求的数据系统、数据处理系统和网络系统。6.3.3 系统安装和测试按照经过确认的技术方案,OCR识别系统规划实施的组织应制定各阶段的系统安装及测试计划,以及支持不同关键业务功能的系统安装及测试计划,并组织最终用户共同进行测试。确认以下各项功能可正确实现: 数据识别及数据存储备份功能;6 在限定的时间内,利用识别数据正确运行系统、应用软件及各类数据并储存识别结果,并可正确运行各项关键业务功能; 客户端可与数

11、据处理系统通信正常。7 图像输入7.1 总体评估7.1.1 对需进行OCR识别的档案数字副本质量进行总体评估。图像的大小,分辨率,清晰度,对比度,灰度等是否能到达OCR所需最基本的要求。分辨率典型设置参考:a)1、2、 3号字的文章段,推荐使用200dpi。b)小4、4、5号字的文章段,推荐使用 300dplc)小5、 6号字的文章段,推荐使用400dpld)7、8号字的文章段,推荐使用600dpi。7.1.2 分辨率低会影响识别率,一般文档选择300dpi 或400dpi分辨率。7.2 图像分类OCR主要识别文档为主的文件,对非文档类的图像进行自动检测并标注,对文档类图片内容为手写体,印刷体

12、等特征进行标注。7.3 图像导入将筛选后需进行OCR识别的档案数字副本以图片的形式导入,对质量无法达到要求的图片,重新扫描后再导入。8 图像预处理8.1 二值化8.1.1 在对彩色图像中印刷体字符进行识别处理前,需要对图像进行二值化处理,使图像只包含黑色的前景信息和白色的背景信息,提升识别处理的效率和精确度。8.1.2 OCR识别软件应根据图片情况自动调节灰度阀值,使其达到识别准确率最佳,系统应支持手动阈值调节功能。8.1.3 OCR识别软件可以设置或自动调整亮度和对比度值,使扫描文件黑白分明。图片亮度和对比度值的设定以观察调整后的图像中汉字的笔画较细但又不断开为原则。如果图像存在黑点或黑斑时

13、或文字线条很粗很黑,分不清笔画时,应增加亮度值;如果文字线条凹凸不平,有断线甚至图像中汉字轮廓严重残缺时,应减小亮度值。8.2 图像降噪78.2.1 由于待识别图像的品质受限于输入设备、环境、以及文档的印刷质量,在对图像中印刷体字符进行识别处理前,需要根据噪声的特征对待识别图像进行降噪处理,提升识别处理的精确度。8.2.2 降噪处理包括去除在扫描过程中产生的污点、污线、黑边等影响图像质量的杂质,去除档案页面原有的纸张褪变斑点、水渍、污点、装订孔等影响识别的地方。8.3 倾斜校正图像字符倾斜会影响OCR的识别。在对图像进行识别前,需要进行图像方向检测,并校正图像方向。在矫正过程中应保证图像不失真

14、。8.4 其他预处理为方便识别,可对图像进行其他预处理操作。操作过程需保证原文件的信息不缺损。保存处理后的图像,并与原图片建立连接。9 比对识别9.1 版式分析9.1.1 版式分析是指对图片文字块结构的分析,是对图片的一种分解,把图片中相似的版块信息划分到一起。9.1.2 为了能精确划分版块,可采取多种分析方法,对文档内部区域进行逻辑归类。划分时要兼顾全局和局部的信息,记录各板块的位置,存储版面信息。检测出各板块类型如文本、表格、图片等,文本和表格板块准备进一步处理,图片(特别是印章)等板块进行扣取后存储,在版面恢复时可直接插入使用。9.2 行分割和字符切割可采用“分割-识别-分割” 的动态调

15、整策略,提高字符分割阶段的分割准确率。9.3 文字特征抽取文字特征抽取是指识别图像文字的编排方向、字体及字体大小。应支持一般文字格式的样式识别,如粗体、斜体、首行缩进等,并尽可能多的分析记录文字特征,以防识别时出现乱码,版面恢复时丢失格式。9.4 字符识别和匹配9.4.1 字符识别和匹配是指抽取字符特征,通过相似度计算方法,与特征数据库比对,识别为计算机可以处理的文字。9.4.2 特征数据库要存储多种印刷体字符,具备可更新和可扩充性。对使用频率高的汉字、英文、数字以及常用的符号建立高频库,提高OCR的识别效率。9.4.3 为提高OCR的识别率,可通过将比对后的识别文字根据上下文在可能的相似候选

16、字群中找出最合乎逻辑的字词对识别文字进行除错或更正。810 修改校正10.1 系统自动校对对识别的文本进行自动语义识别和校正,建立词汇库和语义库,对识别后文本中的字符、词汇、语句进行自动进行逐层分析更正,词汇库和语义库具备更新和自动学习功能。对候选字、拒认字和可能有问题的字词、语句进行标记。10.2 人工校对系统应支持将图像与识别文字的对照,进行人工方式对OCR识别结果进行校正的功能,以进一步提高OCR 的识别率。11 结果整理输出11.1 版式恢复对识别图像的版式进行恢复,按照原图像的文本字体、字号、特征、位置等显示OCR识别结果,插入未进行识别的图像等信息。识别后的电子文件应具有调用、编辑

17、、备份、导出等功能,支持对文字、符号的搜索等功能。11.2 结果输出根据需要,也可以选择直接以纯文本形式输出、显示OCR识别结果。识别后的文件管理权限应与原始图像相同,保证数据的安全。12 OCR 识别性能和指标12.1 高识别率要求OCR识别软件对档案中文印刷体识别率达到96% 以上,数字印刷体识别率达到98%以上,英文印刷体识别准确率在99%以上。对手写体的识别要给出合适的解决方案。12.2 高稳定性要求OCR识别软件在档案扫描影像识别过程中可以长时间,大批量的输出识别结果,由于档案识别的数据量大,自动化识别软件需具备高稳定性。12.3 强抗噪能力OCR识别软件具备对噪点的强抵抗能力,识别

18、过程中能够有效屏蔽较大程度上的噪点干扰。12.4 自动学习功能9OCR识别软件具备系统自动学习功能,借助用户手工输入、修改系统无法自动识别或识别错误的具有特殊字体特征的字符,可使系统可以不断丰富其字符特征库,从而提高自身在识别时对字符的适应能力。13 OCR 识别业务评价13.1 OCR识别工作开展前,OCR 识别系统规划实施的组织应当依据档案 OCR识别项目的计划、合同、招投标书等有关项目文件,按照OCR识别业务评价指标(见附录A)项目,对档案OCR识别业务的识别系统、网络系统、基础设施、保障能力等方面进行评价。对不符合要求的评价项目须整改达到评价指标要求后方能开展档案OCR识别工作。13.2 识别业务评价计数抽样检验程序按照GB/T 2828.1执行。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。