1、 毕业设计文献综述 计算机科学与技术 图片文字提取系统的设计与实现 一、前言部分 图片文字的检测与识别技术在计算机网络日益发展的今天有着大量的应用,特别是对于基于内容的图片或视频过滤、检索等应用来讲,有重要意义,它可以帮助我们了解图片内容或者视频内容 1。 图片中的文字可分为两大类:一类是图片中场景本身包含的文字,称为场景文字;另一类是图片后期制作中加入的文字,称为人工文字。一般人工文字的特点:文字位于前端,且不会被遮挡;文字一半是单色的;文字大小在一幅图片中固定,并且宽度和高度答题相同,从满足人眼视觉感受 的角度来说,图片中文字的尺寸不会过大也不会过小;文字的分布比较集中;文字的排列一般为水
2、平方向或是垂直方向;多行文字之间,以及单行内各个字之间存在不同于文字区域的空隙等 2。而场景文字的特点却与之正好相反:文字和其他自然景物混杂在一起,背景复杂;文字的颜色多种多样;文字的字体和大小复杂多变;光照的变化等 3。 在分析图像算法之前,我们先了解一下我们所要分析的 BMP 位图的基本知识。 BMP 是英文 Bitmap(位图)的简写,它是 Windows操作系统中的标准图像文件格式,能够被多种 Windows应用程序所支持。 位图文件可看成由 4 个部分组成:位图文件头 (bitmap-file header)、位图信息头 (bitmap-information header)、彩色表
3、 (color table)和定义位图的字节阵列。 图像边缘的定义。图像的大部分信息都存在于图像的边缘中 ,主要表现为图像局部特征的不连续性 ,即图像中灰度变化比较剧烈的地方。因此 ,我们把边缘定义为图像中灰度发生急剧变化的区域边界。根据灰度变化的剧烈程度 ,通常将边缘划分为阶跃状和屋顶状两种类型。阶跃边缘两边的灰度值变化明显 ,而屋顶边缘位于灰度值增加与减少的交界处 。那么 ,对阶跃边缘和屋顶边缘分别求取一阶、二阶导数就可以表示边缘点的变化。因此 ,对于一个阶跃边缘点 ,其灰度变化曲线的一阶导数在该点达到极大值 ,二阶导数在该点与零交叉 ;对于一个屋顶边缘点 ,其灰度变化曲线的一阶导数在该点
4、与零交叉 ;二阶导数在该点达到极大值 4。 图像二值化对于提取文本信息非常重要。二值化的结果好坏 ,直接影响着最终的处理结果。对于文本标签的提取 ,如果能够将图像文字区域合适二值化 ,就可以应用基于区域的灰度聚类方法实现文字区域的检测定位 1。 通过参考了 2002 2009 年间发表于计算机应用研究 、计算机应用、光学技术、计算机科学、计算机工程与设计、计算机工程与应用等学术杂志中的研究论文,借鉴了天津理工大学学报、通信学报、延边大学学报 (自然科学版 )、电子与信息学报等大学学报文章,通过分析和总结这些文章,对图片文字提取的算法有了深刻的理解。 二、主题部分 (一 )图片提取技术的历史背景
5、 随着计算机科学的飞速发展,以图像为主的多媒体信息迅速成为重要的信息传递媒介。从图像中提取文字属于信息智能化处理的前沿课题,是当前人工智能与模式识别领域中的研究热点。文字具有高级语义特征,因此图像中的 文本是图像内容的一个重要来源,如果这些文本能自动地被检测、分割、识别出来,则对图像语义的自动理解、索引和检索是非常有价值的。所以,研究图片文字提取就具有了重要的实际意义。 静态图片中文本提取方面的文献不是很丰富 ,之前的研究更多关注文档图像的分析和处理 . 而对于复杂图像中的文本或者嵌入图像的文本标签进行提取和分析研究刚刚引起人们的兴趣 . 目前提出的纹理特征主要包括有原始像素抽样 5、局部方差
6、 6、梯度分布 7、强边缘的密度及方向分布等空域统计特征,以及小波、 FFT、 Gabor 变换系数的统计特征,如矩、直 方图、共生矩阵等。通过梯度特征进行边缘检测 ,可以达到快速的定位效果 ,然而同时约束参数设置非常复杂 ,并且检测错误率也很高 ;利用纹理特征决定像素块是否属于文字 ,可以在复杂背景的条件下检测文字信息 , 但是计算非常耗时 , 而且文字精确定位的稳定性也不够理想 ;对于视频文字 ,可以利用相邻帧的相关性大体确定字幕位置 ,然而这种方法不能用来处理静态图像 . 另外 ,基于支持向量机 (SVM) 分类器的多尺度定位算法也得到了广泛的研究 ,虽然其检测效果较好 ,但算法复杂 ,
7、需事先有样本进行学习分类器的训练 8 . (二 )发展现状 图片 文字提取算法的研究 1、人工文字提取的算法 (1)为了能够清楚地辨识出每个字的结构 ,文字在颜色上与其背景总是存在一定差异。因此 ,文字提取的实质就是描述文字图层与背景图层之间的差异 ,并以这种差异对像素进行聚类。对彩色图像在 HSV 颜色空间进行色彩聚类形成颜色图层 ,再通过投影算法将颜色图层进一步细分为子图层进行图层分析 ,最后通过子图层合并产生备选文字图层,能够良好地从各种复杂颜色背景中提取垂直或平行于图像边缘的单色文字。具体方法:颜色聚类;子图层分割;图层分析;图层合并 9。 (2) 视频文字大小自适应提取算法 基于离散
8、傅里叶变换 ( discrete Fourier transform, DFT)特征、多分辨率处理及支持向量机分类技术。算法在不同分辨率下结合梯度信息、文字边界定位技术提取出文字候选区域 ,然后用支持向量机对于候选图像块 DFT 特征作进一步分类。具体方法:提取候选区域;分割候选区域块及文字边界定位;多分辨率融合处理;验证候选块 10。 (3) 彩色图像下的文本提取方法,该方法对彩色图像在 R、 G、 B 三个颜色层分别进行亮度分级,以避开传统颜色聚类方法的聚类数目选择问题,降低图像复杂度;考虑到文字笔画的显著 方向性特征,并且通常具有稳定的颜色,利用方向梯度算法进行文本粗定位;然后进一步利用
9、多类 SVM 分类器实现文本区域精确判别。具体方法:亮度分级;笔画检测算法; SVM 精确判别 11。 (4) 自动提取图像中的文本对图像视频检索具有重要意义。提出了一种基于颜色和笔画特征 , 应用无监督聚类方法进行复杂背景下的文本分割算法。首先在对文本进行图像增强的基础上 , 应用颜色约减和直方图确定文本颜色。然后提取颜色和笔画特征 , 应用 k均值聚类算法分割出文本和背景像素。最后应用后处理优化分割结果。具体方法:图像增强预处理; 文本颜色估计;特征提取;无监督聚类;基于连通成分的后处理 12。 (5) 为解决渐变色给文字提取聚类算法带来的问题 ,研究与实现了基于二值化聚类的图像文字提取算
10、法。图像通过一系列预处理后 ,得到了利于聚类的二值图像 ,根据背景图像区域特征 ,对图像进行聚类分块 ,再利用文字图像区域特征 ,聚类识别出文字区域。具体方法:预处理,包括灰度化、二值化、长线剔除;文本聚类,包括背景查找、文字分割 13。 (6) 一种利用笔画线条的统计特征基于支持向量机进行图像中叠加文字检测的方法。该算法首先通过一种改进的线段检测算子提取出 笔画线段;然后对笔画线条通过区域合并定位出候选文字块;接着对候选文字块提取一个反映文字笔画线条空间分布特点的 32 维特征,并通过支持向量机建立的模型对候选文字块进行确认分类。具体方法:基于笔画线条的特征抽取;基于 SVM 的候选文字块分
11、类确认;基于笔画线条粗定位候选文字块 14。 2、场景文字提取算法 (1) 基于边缘检测的文本提取方法对自然场景文本的提取进行研究。通过改进彩色图像边缘检测和二值边缘图像的形态学文本定位的算法,从而实现场景文本的提取。先将原始图片进行金字塔分解,然后进行图片预处理,对图像进行边 缘提取和二值化,再形态学文本定位,最后文本区域字符提取 3。 (2) 自然环境下文本图像背景复杂,常规阈值分割方法往往无法有效分割;基于谱聚类的图像分割方法利用图分割理论可以有效地实现图像分割,但过高的计算复杂度和空间复杂度使其在处理大图像时不能满足实际需求。基于灰度直方图的谱聚类分割方法来实现字符提取,利用像素灰度计
12、算相似性,在灰度直方图上构造相似矩阵,并通过实验确定直方图的理想等级数及相关参数。通过将像素级上的划分转化为灰度等级上的划分,从而大大减少特征值求解时的计算量和开销,提高算法的实用性及有效性 15。 3、图像边缘检测算法 基于灰度直方图的边缘检测,基于梯度的边缘检测包括 Roberts 边缘算子、 Sobel 边缘检测算子、 Prewitt 边缘算子、 Laplacan 边缘算子, Canny 边缘检测算子,模糊推理的边缘检测, Mallat 小波边缘检测算子等 4。 三、总结部分 上述不同算法实际上反映了学术界对图片文字提取技术研究方向的不同。同时,这些算法之间也是相互联系的,其所达成的共识
13、是:文字具有高级语义特征,对图片内容的理解、索引、检索等具有重要作用,因此,研究图片文字提取具有重要的实际意义。由 于不同的方法并不是孤立的 , 它们各自具有其局限性和应用范围, 因此在实际应用中 , 应该结合多种方法, 以实现有效地提取文字的目的。为此 , 在以后的研究中, 我们不但需要研究自适应的文字提取算法 ,也应研究多种方法的融合机制 , 从而实现对包括渐变、场景文字等复杂情况在内的图像进行文字检测与提取。此外, 还可将提取出的文字从原图中除去,同时修复被文字所遮挡的背景区域, 然后添加上多语种的文字, 这对于不同语种间的图像交流和图像的再次使用是很有意义的。 四、参考文献 1 王健
14、,王晨 . 基于静态图片的文本提取技术 的研究 J.延边大学学报 (自然科学版 ),2007,33(2):124-128. 2 田 其 冲 ,董 恒 强 ,何 新 求 .静 态 图 像 提 取 文 字 技 术 J.电 脑 编 程 技 巧 与 维护 ,2008,6(13):96-97,104. 3 何 兴 恒 , 胡 德 婷 . 有 效 的 场 景 文 本 提 取 算 法 J. 计 算 机 工 程 与 设计 ,2008,29(10):2598-2599,2603. 4 段 瑞 玲 , 李 庆 祥 , 李 玉 和 . 图 像 边 缘 检 测 方 法 研 究 综 述 J. 光 学 技术 ,2005,
15、31(3):415-419. 5 KIM K I,JUNG K ,KIM J H.Texture-based approach for text detection in images using support vector machines and continuously adaptive mean shift algorithmJ.IEEE Transactions on Pattern Analysis and Machine Intelligence,2003,25(12): 1631-1639. 6 ZHONG Y,KARU K,JAIN A K.Locating text in
16、 complex color imagesJ.Pattern Recognition,1995,28(10):1523-1535. 7 LIENHART R, WERNICKE A. Localizing and segmenting text in images and videosJ. IEEE Transactions on Circuits and Systems for Video Technology,2002,12(4): 256-268. 8 庄越挺 ,刘骏伟 ,吴飞 .基 于支持向量机的视频字幕自动定位与提取 J.计算机辅助设计与图形学学报 ,2002,14(8):750-7
17、53. 9 刘 世 与 , 曹 作 良 . 复 杂 色 彩 单 帧 图 像 中 的 文 字 提 取 J. 天 津 理 工 大 学 学报 ,2007,23(6):58-61. 10 薛卫 ,都思丹 ,吴书凯 .视频文字大小自适应提取算法 J.计算机应用研究,2009,26(3):1146-1147,1159. 11 刘琼 ,周慧灿 ,王耀南 .结合亮度分级和笔画检测的彩色图像文本提取 J. 计算机工程与应用 ,2008,44(18):157-159,162. 12 黄百钢 ,李俊山 ,胡双演 .基于颜色和笔画特征的文本分割算法 J.计算机科学 ,2009,36(7):292-294. 13 戴维 , 张申生 . 基 于 二 值 化 聚 类 的 图 像 文 字 提 取 算 法 J. 计 算 机 应用 ,2009,29(1):57-59,77. 14 王伟强 ,付立波 ,高文 ,黄庆明 ,蒋树强 .基于笔画特征的叠加文字检测方法 J.通信学报 ,2007,28(12):116-120. 15 吴锐 ,黄剑华 ,唐降龙 ,刘家锋 .基于灰度直方图和谱聚类的文本图像二值化方法 J.电子与信息学报 ,2009,31(10):2460-2464