1、1ICS 01.140.20A 14备案号:中华人民共和国档案行业标准DA/T XX2017 纸质档案数字副本光学字符识别(OCR )工作规范Specification for optical character recognition(OCR) of digital copies of paper-based records(征求意见稿)2017-XX-XX 发布 2017-XX-XX 实施国 家 档 案 局 发 布2前 言本标准按照 GB/T 1.12009 给出的规则起草。本标准的附录 A 是资料性附录,附录 B 是规范性附录。本标准由国家档案局提出并归口。本标准起草单位:本标准主要起草
2、人:3纸质档案数字副本光学字符识别(OCR)规范1 范围本标准规定了纸质档案数字副本光学字符识别(OCR)的工作组织、方案制定、实施过程、成果管理与应用、性能和指标、业务评价要求。本标准适用于形成的、印刷字迹清晰、文本规范的纸质档案数字副本的光学字符识别(OCR)工作。2 规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB 23121980 信息交换用汉字编码字符集 基本集GB/T 97042012 党政机关公文格式GB 180302005 信息技术 中文编码字符集DA
3、/T 131994 档号编制规则DA/T 181999 档案著录规则DA/T 222015 归档文件整理规则DA/T 31 纸质档案数字化技术规范3 术语和定义3.1字符 character供组织、控制或表示数据用的元素集合中的一个元素。GB 18030-2005,4 术语和定义3.2字符集 character set多个字符的集合。字符集包含的字符个数不同,常见字符集名称有ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode 字符集等。43.3光学字符识别(OCR)Optical Character Recognition;OCR通过信息技术对图像文件
4、中的字符形状进行识别、文字转换和文本输出、呈现的过程。3.4纸质档案数字副本 digital copies of paper-based records 纸质档案经过数字化加工过程后形成的,存储在磁带、磁盘、光盘等载体上并能被计算机等电子设备识别的数字图像。3.5档案 OCR 成果 OCR achievements of records记录通过OCR技术获取的纸质档案数字副本文字内容的文件。3.6识别准确率 recognition accuracy通过OCR技术识别正确字符的比率。识别准确率=(识别正确字符数/应识别字符总数)100%3.7识别速度 recognition speed单位时间内
5、通过OCR技术识别字符的数量。4 总则4.1 档案 OCR 应当纳入数字档案馆(室)资源建设范畴,统筹规划,有序实施,逐步实现常态化。4.2 档案 OCR 应当科学开展,以有利于实现档案信息检索、计算机辅助编目、编研开发和数据挖掘为原则。4.3 档案 OCR 应当基于档案数字化工作,档案 OCR 成果与纸质档案数字副本之间应建立准确、可靠的关联关系。4.4 应当釆取有效的管理和技术手段,加强档案 OCR 的过程管理和质量控制,确保档案OCR 过程规范、成果可靠、数据安全。4.5 涉密纸质档案数字副本的 OCR 工作,应符合涉密档案相关的管理和技术要求。55 工作组织5.1 机构及人员5.1.1
6、 应建立或依托档案数字化工作机构,配备相应素质和技术水平的工作人员,组织开展档案 OCR 工作的统筹规划、组织实施、协调管理、技术保障、安全保障、监督检查、成果验收和长期保存等。5.1.2 档案 OCR 工作实行服务外包的,应建立权责明确、覆盖工作全过程的监督机制和安全防范机制,确保档案信息安全。对外聘的工作人员,应进行安全审查。5.2 基础设施5.2.1 应配备或依托档案数字化工作场地、机房等,合理规划、配备和管理设施设备,确保设施设备能够满足档案 OCR 的实际需要。5.2.2 应配备或开发相应性能先进、安全可靠的电子档案管理系统、 OCR 软件系统,建立有助于档案 OCR 的式样库、特征
7、数据库等,提升档案 OCR 质量。5.3 流程控制5.3.1 档案 OCR 流程包括图像输入、图像预处理、比对识别、修改校正、成果整理输出等业务环节。应依据相关技术标准,制定档案 OCR 工作流程和业务环节的操作规范,对全过程进行有效控制。5.3.2 应加强对档案 OCR 工作全流程的质量管理和安全管理,建立完善的质量问题发现、修正机制,确保档案信息安全。5.4 工作文件与元数据5.4.1 应建立档案 OCR 工作方案、技术方案、工作审批材料、流程控制材料、数据验收材料、项目验收报告、成果移交材料等的管理工作文件,采取服务外包的还应包括项目招标文件、投标文件、中标通知书、项目合同、保密协议、操
8、作规程、监管记录等,加强对档案 OCR 工作的管理。5.4.2 应参照相关标准,提出档案 OCR 工作流程中相关元数据设计、捕获、著录和管理的基本要求,与对应的纸质档案数字副本管理过程元数据实施融合管理,并纳入入数字档案馆(室)应用系统数据库。6 方案制定6.1 确定工作策略 6.1.1 OCR 工作开展前,应当依据纸质档案数字副本 OCR 项目的计划、合同、招投标书等有关项目文件对 OCR 工作的识别系统(OCR 软件,见附录 A)、网络系统、基础设施、保障能力等方面进行业务评价。对不符合要求的评价项目须整改达到评价指标要求后方能开展纸质档案数字副本 OCR 工作。6.2.2 评价通过后,应
9、根据以下因素,制定档案 OCR 的工作策略:6图像资源:即符合输入标准的可识别的彩色(24BITS)、灰度(256 阶)和黑白二值图像。一般应为 TIFF、BMP、JPG、PDF(图像)、 OFD(图像)格式文件。OCR 引擎:对图像包含文字进行高速和高识别率的 OCR 软件开发包。OCR 软件:装备 OCR 引擎的软件,可高速稳定输出识别结果。应根需要识别的目标,按照项目资源的成本风险平衡原则确定 OCR 的范围、质量、效率、技术等要求。基础设施:支持系统运行的建筑、设施和设备,包括介质的场外存放场所、备用的机房及辅助设施。专业技术支持能力:对系统的运转提供支撑和综合保障的能力,以实现系统的
10、预期目标。包括硬件、系统软件和应用软件的问题分析和处理能力、网络系统安全运行管理能力、沟通协调能力等。运行维护管理能力:保障系统相关的设备和软件正常运行,提供长期、及时、全面的技术支持的能力。包括运行环境管理、系统管理、安全管理和变更管理等。灾难恢复预案:对系统灾难实行快速、有效的响应和恢复。包括灾难紧急响应,灾后系统重建及重续运行,通信、后勤、技术等相关保障机制建设。6.2 制定技术方案6.2.1 应当根据确定的档案 OCR 工作策略制定 OCR 各工作系统技术方案,包含 OCR 的数据管理系统、OCR 识别处理系统和网络系统。技术方案中所涉及的系统应满足如下条件: 与档案管理系统相当的安全
11、保护级别; 具有可扩展性; 对档案管理系统无明显可用性和性能影响。6.2.2 为确保技术方案满足档案 OCR 工作策略的要求,应对技术方案进行确认和验证,并记录和保存验证及确认的结果。按照确认的 OCR 软件技术方案进行开发,实现所要求的数据系统、数据处理系统和网络系统。6.2.3 按照经过确认的技术方案,应制定 OCR 软件各阶段的系统安装及测试计划,以及支持不同关键业务功能的系统安装及测试计划,并组织最终用户共同进行测试。确认以下各项功能可正确实现:对识别图像进行预处理;数据识别及校验;输出档案 OCR 成果;数据安全管理。7 档案 OCR 的实施7.1 图像输入7.1.1 档案 OCR
12、实施前,应当先评估纸质档案数字副本质量是否符合 OCR 的基本要求。评估内容一般应包括图像分辨率、偏斜度、清晰度、失真度、亮度、对比度、灰度等。7.1.2 纸质档案数字副本的图像分辨率宜为 300dpi,不应低于 200dpi。特殊情况下,如文字偏小、密集、清晰度较差等,可以适当提高分辨率。文件命名应符合 DA/T 131994 7、DA/T 222015 、DA/T 31 的规定。7.1.3 对质量不能达到档案 OCR 工作基本要求的纸质档案数字副本,应按照 DA/T 31 的要求重新数字化后导入。7.2 图像预处理7.2.1 二值化7.2.1.1 在识别处理前,应对彩色图像进行灰度化和二值
13、化处理;对灰度图像进行二值化处理。OCR 软件应采取局部自适应二值化等算法,并支持自动或手动调节。7.2.1.2 OCR 软件应具备亮度和对比度值自动、手动调节功能。亮度和对比度值的设定以调整后的图像中文字的笔画连贯清晰为准。7.2.2 图像降噪7.2.2.1 对图像中印刷体字符进行识别处理前,需要根据噪声的特征对待识别图像进行降噪处理,提升识别处理的精确度。7.2.2.2 OCR 软件的降噪处理应去除在扫描过程中产生的污点、污线、黑边等影响图像质量的杂质,去除档案页面原有的纸张褪变斑点、水渍、污点、装订孔等影响识别的地方。7.2.3 倾斜校正7.2.3.1 对图像进行识别前,应进行图像方向检
14、测并进行自动水平或垂直倾斜校正。软件应支持由用户指定图像倾斜的角度,并然后采用相应的图像旋转算法进行手工倾斜校正。7.2.3.1 图像质量控制程序应自动检测图像处理质量。对无法达到质量要求的图像进行标注。7.3 比对识别7.3.1 版式分析7.3.1.1 OCR 软件在对比识别前应对图像中的字符块结构进行版式分析,把图像中相似的版块信息划分到一起。如横排文本、竖排文本、表格、图形等。7.3.1 .2 OCR 软件可采取多种分析方法,自动检测各版块类型,对图像内部区域进行逻辑归类,记录各版块的位置,存储版面信息。7.3.2 档案特征分析7.3.2.1 归档章分析。建立归档章式样库,自动识别图像中
15、的归档章,并根据归档章样式,识别出字段位置,如全宗号、年度、机构、保管期限、件号、页数等。7.3.2.2 公文内容分析。建立公文格式库,可准确识别公文的版头、主体、版记三部分,识别公章、签章等区域,比照公文样式,识别份密级、发文单位、标题、日期等公文要素。公文要素 OCR 识别要求参见附录 B。7.3.2.3 表格分析。建立单独表格处理模块,建立专用表格模板定义工具,自定义文件处理单、发文稿纸、备考表等表格模板,识别表格中的字段位置。7.3.2.4 印章分析。识别印章图像位置,存储印章图像,建立印章名称与印章图像的关系库,用于版式恢复。7.3.3 识别和匹配7.3.3.1 OCR 软件应抽取字
16、体、字号、粗体、斜体、首行缩进等字符特征,通过相似度计算8方法,与特征数据库比对,识别为计算机文字内码。7.3.3.2 OCR 软件的特征数据库应存储多种印刷体字符、常用签名和批注手写体字符,具备可更新和可扩充性。对使用频率高的汉字、英文、数字以及常用的符号、常用签名和批注手写体字符应建立高频库。OCR 软件应将无法识别的手写体筛选出来,通过人工识别,并将识别结果存入字符库。7.3.3.3 OCR 软件应通过将比对后的识别文字根据上下文在可能的相似候选字群中找出最合乎逻辑的字词对识别文字进行除错或更正,以提高 OCR 识别准确率。7.4 修改校正7.4.1 OCR 软件应对识别的文本进行自动语
17、义识别和校正,通过词汇库和语义库,对识别后文本中的字符、词汇、语句进行自动进行逐层分析更正。词汇库和语义库应具备更新和自动学习功能。7.4.2 OCR 软件应对候选字、拒认字和可能有问题的字词、语句进行标记。7.4.3 OCR 软件应支持以人工方式对 OCR 结果进行图像与识别文字对照、修正等校正的功能,以满足更高识别准确率的特殊要求。7.5 成果整理输出7.5.1 成果整理7.5.1.1 OCR 软件可按照纸质档案数字化图像的版式对 OCR 结果的段落和表格进行版面理解与重建。重建后 OCR 结果的段落编排、表格样式应与纸质档案数字副本图像一致。7.5.1.2 OCR 软件应自动分析、提取符
18、合 GB/T 9704-2012 要求党政机关公文的各公文要素,包括份号、密级和保密期限、紧急程度、发文机关名称、发文字号、签发人、标题、主送机关等。档案 OCR 成果结果中各公文要素位置应与纸质档案数字副本图像一致。7.5.1.3 OCR 软件应具备调用、编辑、备份、导出 OCR 结果等功能,支持对文字、符号的搜索等功能。7.5.2 成果输出7.5.2.1 OCR 软件应以纯文本形式,以纸质档案的件为单位输出、保存档案 OCR 成果。7.5.2.2 OCR 软件可根据纸质档案数字副本版式文件格式,自动形成支持全文检索的双层PDF 或 OFD 文件,方便全文检索后对文件的阅读。7.5.2.3
19、OCR 软件应自动保存档案 OCR 成果中的党政机关公文要素。相关公文要素应保存到数字档案馆(室)应用系统数据库。7.5.2.4 OCR 软件应支持档案 OCR 成果中文简繁体的自动转换功能。8 档案 OCR 成果的管理与应用8.1 成果管理8.1.1 应保持档案 OCR 成果各组成要素对应的纸质档案数字副本、档案目录、元数据之间的逻辑层次和关联关系。8.1.2 以纯文本形式保存的档案 OCR 成果应使用档号作为文件名,可在存储载体中以档号9为基础逐级建立层次文件夹单独保存,也可与纸质档案数字副本统一保存。8.1.3 支持全文检索的双层 PDF 或 OFD 文件可与对应的纸质档案数字副本统一存
20、储。数字档案馆(室)应用系统应记录并维护不同文件版本之间的联系。8.1.4 档案 OCR 成果文件管理权限应与纸质档案数字副本相同。8.1.5 应按规定对档案 OCR 成果实施近线备份、离线备份和异地灾备。8.2 成果应用8.2.1 档案 OCR 成果应通过数字档案馆(室)应用系统实现全文检索,提高档案信息检索效率。8.2.2 可发挥档案 OCR 成果提取的归档信息和党政机关公文要素的作用,辅助开展档案自动著录、目录质量核查,以及纸质档案话成果挂接准确性核查等业务工作。8.1.3 可利用档案 OCR 成果的数据资源,结合数据挖掘技术开展数据挖掘、知识管理、词库建设等工作。9 档案 OCR 质量
21、要求9.1 识别准确率9.1.1 档案 OCR 对档案中文印刷体识别准确率达到 96%以上,数字印刷体识别准确率达到98%以上,英文印刷体识别准确率在 99%以上。9.1.2 档案 OCR 对常用签名、批注手写体识别准确率达到 95%以上,一般手写体识别准确率达到 80%以上。9.2 强抗噪能力9.2.1 档案 OCR 应当具备对噪点的强抵抗能力,识别过程中能够有效屏蔽较大程度上的噪点干扰。9.2.2 档案数字副本在扫描过程中产生的污点、污线、黑边、纸张褪变斑点、水渍、污点、装订孔等不应影响正常识别。9.3 识别速度9.3.1 识别速度指标应与识别准确率指标应同时适用。9.3.2 在主流计算机
22、软硬件平台下,A4 纸幅面中文识别速度不低于 1000 字/秒,英文识别速度不低于 2000 字/秒。9.4 版面还原度9.4.1 OCR 软件应实现复杂版面的精确还原,采用 分栏技术,智能分析中、英、繁字体,文、表、图混排文本,识别后无需人工干预,自动还原排版。9.4.2 识别后的文档与原输入图像版面相似度应达到 90%以上。10附 录 A(资料性附录)OCR 识别系统(OCR 软件)评价指标项目 评价指标 评价细则1. 输入字符集 可正常识别GB2312、GB18030、BIG5、ASCII 、Unicode 等字符集文本2. 输入图像格式 可正常识别彩色(24BITS)、灰度( 256
23、阶)和黑白二值图像。支持 TIFF、BMP、JPG、PDF(图像)、OFD(图像)格式的文件3. 输入图像分辨率 可正常识别图像分辨率 200dpi 以上的图像文件4. 输入文字版式 可自动分析图像文件中的横排文本、竖排文本、表格和图像等区域,并对文本和表格区域的文字进行识别5. 输入语种 可正常识别中文简繁体(含台湾繁体和香港繁体)、英文及中英混排、简繁混排等印刷文本6. 输入字体 可正常识别宋体、仿宋体、楷体、黑体、魏碑体、隶书体、行楷体、幼圆体等常用中文字体和 Times new roman、 Verdana、Arial、Calibri、Impact 等常用外文字体。7. 输入字号 可正
24、常识别字号介于“小六号”和“ 初号”之间的中外文文本8. 输出字符集 可正常输出GB2312、GB18030、BIG5、ASCII 、Unicode 等字符集文本9. 输出识别结果 可输出 TXT 文本文件。10. 输出版式还原 可根据输入图像文件的版式、表格和文字的字体、字号等特征还原识别结果11. 版面理解正确率 正确恢复图像文件段落编排、表格样式,识别符合 GB/T 97042012 公文要素12. 识别准确率 对在识别范围内中文印刷体(打印体)、数字、英文的识别准确率在 95%以上13. 识别速度 在主流计算机软硬件平台下,A4 纸幅面中文识别速度不低于 1000 字/秒,英文识别速度不低于 2000 字/ 秒14. 识别结果人工校正功能 具备自动高亮对照图像与识别文字,显示识别文字的候选字、拒认字,标记可能有问题的字词等功能15. 自动学习功能 具备根据人工校正结果自动学习功能16. 二次开发环境 支持使用 JAVA、DotNet、C+、VC、VB、Delphi 等 2种或多种计算机语言进行系统二次开发能力17. 软硬件平台 系统可以在目前主流的软硬件平台,尤其是在国产化软