1、保密类别 编 号 毕 业 论 文数字识别实现学 院 计算机学院专 业 软件工程班 级 2 班姓 名 王 茜指导教师 黄祥林中 国 传 媒 大 学年 月 日中国传媒大学本科毕业论文数字识别实现王茜摘 要在信息化飞速发展的时代,光学字符识别是一种重要的信息录入与信息转化的手段。数字识别作为光学字符识别中的一个分支,在车牌识别、邮政编码识别、统计报中等领域有着非常广泛的应用,用数字识别系统代替手工录入,可节约大量的人力和财力。因此,数字识别的研究有着重大的现实意义。本文主要研究的即数字识别问题。首先,对数字图像的预处理工作进行了详细的介绍,其中包括:二值化、字符切分、归一化等。接着介绍了当前数字识别
2、的几种常用方法。然后重点描述了用于印刷体数字识别的模板匹配法和基于整体特征的快速手写体数字识别法的原理,并给出了算法实现的过程。实验结果证明,上述算法能取得较好的识别效果。 关键词:数字识别,图像预处理,模板匹配,整体特征中国传媒大学本科毕业论文Xi. WangABSTRACTOCR (Optical Character Recognition) has become one of the important methods in gathering information and information transformation. Digit recognition has a prom
3、ising business feature in many fields in society, for example the car license plate recognition、postcode recognition, the statistics of report forms, financial report forms. So the researching on the Digit recognition is one of the important things.The paper describes the basic process and methods o
4、f numeral recognition system. First,Keywords: Numeral recognition 中国传媒大学本科毕业论文一、绪论(一)问题的提出光学字符识别(Optical Character Recognition) ,是属于图型识别的范畴。一个 OCR 识别系统,其目的是把图像中的内容转化为文本格式,便于计算机进行后续处理,使图像资料的储存量减少,同时也可节省因键盘输入的人力与时间。数字识别技术作为光学字符识别中的一个分支,也是现在非常受人们关注的问题。目前,数字识别技术主要分为印刷体数字识别技术和手写体数字识别技术。印刷体数字识别在许多领域都有广泛的应
5、用价值。如印刷字体的邮政编码识别系统,通过印刷体识别技术识别邮件上的邮政编码,帮助邮局做快速区域分信的作业;另外,身份证号码的识别、汽车牌照的识别、电话号码识别等 1也是印刷体数字识别技术的应用领域,通过此技术的应用,可以节约大量的人力录入时间和财力。手写体数字识别,是使计算机能够识别手写的数字,包括联机手写体数字识别和脱机手写体数字识别。联机手写数字的识别目前在实际生活中已经有了很多的应用,如在带有写字板的手机中,电话号码的写入,及各种商务伴侣中手写字符的录入等。脱机手写体数字识别是整个数字识别领域中最为困难的部分,但经过多年的研究,研究者们已经开始把各种理论方法实用化,为手写数据的高速自动
6、录入提供了一种解决方案。近些年来,我国开始大力推广的“三金”工程在很大程度上要依赖数据信息的输入,如果能通过手写数字识别技术实现信息的自动录入,无疑会促使这一事业的进展。因此,手写数字的识别研究有着重大的实现意义,一旦研究成功并投入使用,将产生巨大的社会和经济效益。 2在各种应用领域,由于相关软硬件技术性能的不断提升,新的方法理论不断涌现并应用,同时原有方法也不断被重新组合利用以达到更好的性能。因此,该问题的提出有很大的现实意义。(二)论文的内容本文主要研究的是数字识别技术。数字识别技术通过提取代表数字的特征,再根据提取的特征设计相应的分类器进行分类识别,得到正确的识别结果。根据印刷体和手写体
7、的特点,本文分别提出了相应地特征提取技术和分类方法,主要内容包括一下几个方面:1、介绍了数字识别技术的主要流程,对流程中的各个功能模块进行了系统的阐述,并对目前常用的方法进行了概括。中国传媒大学本科毕业论文2、详细介绍了基于模板匹配的印刷体数字识别方法,对原理和算法实现都进行了细致的描述。3、分析了手写数字的特点,提出一种基于整体特征的手写体数字快速识别方法,并详细阐述了其算法思想和实现方法。(三)论文结构根据论文的主要内容,安排论文的结构如下:第一章 绪论,介绍了数字识别问题的研究意义,论文的主要内容与结构安排。第二章 数字识别技术的概述,对各个功能模块进行详细的介绍。第三章 介绍基于模板匹
8、配的印刷体数字识别技术的实现过程及实验结果。第四章 介绍基于整体特征的快速手写识别的原理和算法实现过程及实验结果。第五章 对整个研究工作做出总结回顾,并做出一些后续工作的难点和展望,以作为论文的结束语。中国传媒大学本科毕业论文二、数字识别概述数字识别,其目的是实现数字识别,首先要对数字图像进行预处理,然后提取数字的特征,最后进行分类识别,输出识别结果,基本流程图如图 2.1 所示: 字符图像输入图像预处理特征提取 分类识别 字符输出2.1 计算机数字识别流程图下面对数字识别中的每个功能模块进行详细的阐述:(一)图像的输入图像的输入就是图像数字化的过程。BMP 文件格式是微软公司定义的一种广泛使
9、用的图像文件格式,本文所讨论的数字识别的识别对象字符点阵图像就是 BMP 文件格式。(二)图像预处理预处理作为后续工作的基础,是一个相当重要的部分,图像预处理工作的好坏直接影响到识别的效率。预处理一般包括二值化,行字切分、归一化和细化等。不同的识别方法,对预处理的项目和要求有所差别。 1二值化字符图像的二值化即把字符灰度图像处理成二值图像的过程。二值化的关键是要找到合适的阈值来区分对象和背景。灰度图像二值化能显著减小数据存储的容量,并能够降低后续处理的复杂度。根据阈值选取方法的不同,二值化方法主要分为三类:全局阈值法、局部阈值法和动态阈值法。(1)全局阈值二值化全局阈值二值化方法是根据图像的直
10、方图或灰度空间分布确定一个阈值,并根据此阈值实现灰度图像到二值化图像的转化。典型的全局阈值法包括 Ostu13方法、最大熵方法 14等。全局阈值方法的优点在于算法简单,对目标和背景明显分离、直方图分布是双峰的图像效果良好,但对输入图像量化噪声或不均匀光照等情况抵抗力差,应用受到限制。(2)局部阈值二值化中国传媒大学本科毕业论文由像素 的灰度值 和像素周围点的局部灰度特性确定阈值的方法称为局ji,jif,部阈值选择法。非均匀光照条件等情况虽然影响整体图像的灰度分布却不影响局部的图像性质。邻域的规定及邻域计算模板的选取都是决定算法效果的关键因素。局部阈值法也存在缺点和问题,如实现速度慢,不能保证字
11、符笔画连通性,以及容易出现伪影现象等。(3)动态阈值二值化当阈值选择不仅取决于该像素阈值以及其周围像素的灰度值,而且还和该像素坐标位置有关时,称之为动态阈值选择法。由于充分考虑了每个像素邻域的特征,能更好的突出背景和目标的边界,使相距很近的两条线不会产生粘连现象,可以处理低质量甚至单峰值直方图图像。但是,这种方法的计算量很大,运算速度一般比较慢。2字符的切分灰度图像经过二值化处理后,文字图像就变成了一些二值数字信号,它是一个整体,要想识别单个文字,就需要把每个文字从文字图像中分离出来,这就是所谓的切分。目前,已提出的字符切分方法有很多种,下面对几种比较常用的方法作简单的介绍:(1)垂直投影法垂
12、直投影法是最常用的一种切分方法,利用字符间的空隙在直方图上呈现波谷状进行字符的切分,该方法速度快,实现简单。但简单的投影图法存在很大的缺陷,由于字符中经常存在的空洞或者字符的粘连,导致字符的垂直投影有多处波谷,因此在进行分割时难以依据波谷来确定字符的分割点。(2)基于多行的垂直投影法这种切分方法实际上是垂直投影法的变形形式。它通过多行文字在垂直扫描中进行多行信息点个数的统计,然后根据统计特征进行字符切分。这种方法可以有效的解决由于个别字符断裂产生的错误切分问题。但是这种方法主要用于字符排列很规整的文本图像,因而该种方法的局限性也很大。(3)连通域法连通域法是一种应用比较普遍的字符切分方法。字符
13、的根本特征在于其连通性,无论字符如何倾斜或变形,其连通特征不会改变。如果把书写的笔画看成连通域,那么数字和英文字母都是由一个连通域构成。依据字符的这一特点,连通域方法可以实现字符的分割。总体来说,上述的切分方法各有利弊,但没有一种通用的切分方法能够实现字符的精确切分。因此,我们可以考虑将几种方法结合起来,以提高切分的速度和准确度。中国传媒大学本科毕业论文3字符的归一化字符图像的归一化包括位置,大小,旋转和倾斜归一化。下面主要介绍位置归一化和大小归一化。(1)位置归一化位置归一化就是把数字图像都放到某一固定的位置,能够消除数字点阵位置上的偏差,并能方便数字特征描述、提取。位置归一化后的数字图像图
14、 2.3 所示(图中以数字图像外围框的左上角作为归一化基准位置):2.3 数字位置归一化前后图像(2)大小归一化 12大小归一化是指对不同大小的数字图像作变换,使之成为同一尺寸大小的文字,图像大小归一化方法分为两大类:线性归一化和非线性归一化。1)线性归一化线性归一化是将数字图像的笔画按比例线性放缩或缩小到规定尺寸的图像,仅与原始数字图像和归一化后图像的大小有关系。设 为原图像像素点坐标, 为归一化后的像素点坐标,则其变换关系如yx, nm,式 2-1 所示:= + (2-1)n21abyx21c其中系数矩阵 决定了图像的比例和旋转变换尺度, 体现了图像的平21 21c移变换。如果数字图像已经
15、经过位置归一化,且没有旋转,则上述公式可简化为式2-2:= (2-2)nm0xfy其结果如图 2.4: 中国传媒大学本科毕业论文2.4 大小归一化前后图像2)非线性归一化。线性归一化的变换函数为线性函数,不能解决图像的变形问题,故提出了非线性归一化方法。非线性归一化是通过密度均衡的方法实现大小归一化,以消除输入模式的各种变形,这些方法大致分以下三种:点密度均衡法、线密度均衡法和笔画穿透数均衡法。4字符的细化细化是指在保持原图像拓扑结构的情况下,尽可能快地抽取出单像素宽的骨架的过程。细化的必要性不仅仅只是压缩冗余信息的需要,同时还是对模式进行结构分析的需要。同时,细化能消除笔画边缘上的噪声点,更
16、有利于字符特征的提取。近年来,许多学者相继提出了许多细化算法,依据考虑问题的角度不同,图像细化的方法主要有基于边缘点删除法6768和基于内点保留法70两种。传统的基于边缘点删除的细化算法在细化过程中,只对边缘点的可删除性进行判断并作相应处理,由于受跟踪顺序及所考察邻域的影响,易产生骨架的非对称性;基于内点保留的细化算法易使所获得的骨架大于一个像素。(三)特征提取图像特征是指图像场中可用作标志的属性,其中有些是视觉直接感受到的自然特征,如区域的亮度、彩色、纹理、或轮廓等,有些是需要通过变换或测量才能得到的人为特征,如各种变换频谱、直方图、矩等。图像特征提取就是从图像中提取出某些可能涉及到的高层语
17、义信息的图像特征,以进行后续分析。特征提取是识别系统中一个非常重要的步骤,因为它提取的特征是识别的依据。同一字符可以有不同的表现形式,表示这些形式的特征必须相同或非常相似,此即为特征的不变性,它主要体现在大小、旋转角度、倾斜度和拉伸程度等方面。良好的特征应具有以下五个特点:1、区分力强:对于属于不同类别的对象来说,它们的特征值应具有明显的差异;2、可靠性:同类的对象特征应比较接近;3、独立性:所用的各种特征之间应彼此不相关;4、易于提取:所用的特征要易于计算机的提取;5、数量少:识别系统的复杂度随着特征维数的增加迅速增长,所以特征不能太繁琐。数字识别特征提取的方法大致可以分为基于结构的特征提取
18、和基于统计的特征提取。字符图形含有丰富的结构信息,可以设法提取含有这种信息的结构特征及其组字规律,作为识别字符的依据,这就是基于结构的特征提取。统计特征是提取待识别模中国传媒大学本科毕业论文式的一组统计特征,作为识别的依据。结构法比较直观,能较好反映事物的结构特性,但是结构基元的提取很不容易,各基元的关系也比较复杂,抗干扰性能也较差;统计法利用计算机来抽取特征,比较方便,抗干扰性能好;缺点是没有充分利用模式的结构特性。近多年来把这两种特征提取方法结合起来,提取出各种行之有效的字符特征,取得了很好的效果。目前较常用的特征提取方法如下几种,一般来说,对于印刷体数字识别,只要用到其中一种方法即可,而
19、手写体数字识别常常把这些方法组合起来使用。1关键背景点法如图 2.5 所示,在数字字符的背景区域指定两个特殊点,称为关键背景点。从这两个关键背景点出发,分别向上、下、左、右四个方向引出一条射线,根据各射线穿越的字符笔画次数,求出字符四方向上的三值编码。从而,对 10 个数字,每个关键背景点周围的笔画分布情况可用表 2.6 所示编码表示出来 34。2.5 印刷体数字字符的关键背景点2.6 背景特征点编码因此,印刷体数字字符的识别变得非常容易,只要对输入的待识别字符经规范化处理后,然后根据关键背景点的数目以及其与笔划的相交次数编码情况,就可以判断出输入的字符。213 点特征提取法 513 点特征提取法,即提取能够代表数字的 13 个点作为数字的识别特征。具体提取方法为:首先,把字符平均分成 8 份,统计每一份内黑色像素点的个数作为 8 个特征,如图 2.7(a)所示;然后统计水平方向中间两列和竖直方向中间两列的黑色像素点的个数作为 4 个特征,如图 2.7(a) 、 (b)所示;最后统计所有黑色像素点的个数作为第