1、毕业设计开题报告 计算机科学与技术 图片文字提取系统的设计与实现 一、选题的背景、意义 (一 )图片提取技术的历史背景 随着计算机科学的飞速发展,以图像为主的多媒体信息迅速成为重要的信息传递媒介。从图像中提取文字属于信息智能化处理的前沿课题,是当前人工智能与模式识别领域中的研究热点。文字具有高级语义特征,因此图像中的文本是图像内容的一个重要来源,如果这些文本能自动地被检测、分割、识别出来,则对图像语义的自动理解、索引和检索是非常有价值的。所以,研究图片文字提取就具有了重要的实际意义。 静态图片中文本提取方面的 文献不是很丰富 ,之前的研究更多关注文档图像的分析和处理 . 而对于复杂图像中的文本
2、或者嵌入图像的文本标签进行提取和分析研究刚刚引起人们的兴趣 . 目前提出的纹理特征主要包括有原始像素抽样、局部方差、梯度分布、强边缘的密度及方向分布等空域统计特征,以及小波、 FFT、 Gabor 变换系数的统计特征,如矩、直方图、共生矩阵等。通过梯度特征进行边缘检测 ,可以达到快速的定位效果 ,然而同时约束参数设置非常复杂 ,并且检测错误率也很高 ;利用纹理特征决定像素块是否属于文字 ,可以在复杂背景的条件下检测文字信息 , 但是计算非常耗时 , 而且文字精确定位的稳定性也不够理想 ;对于视频文字 ,可以利用相邻帧的相关性大体确定字幕位置 ,然而这种方法不能用来处理静态图像 . 另外 ,基于
3、支持向量机 (SVM) 分类器的多尺度定位算法也得到了广泛的研究 ,虽然其检测效果较好 ,但算法复杂 ,需事先有样本进行学习分类器的训练 1 . (二 )发展现状 图片文字提取算法的研究 1、人工文字提取的算法 (1)为了能够清楚地辨识出每个字的结构 ,文字在颜色上与其背景总是存在一定差异。因此 ,文字提取的实质就是描述文字图层与背景图层之间的差异 ,并以这种差异对像素进行聚类。对彩色 图像在 HSV 颜色空间进行色彩聚类形成颜色图层 ,再通过投影算法将颜色图层进一步细分为子图层进行图层分析 ,最后通过子图层合并产生备选文字图层,能够良好地从各种复杂颜色背景中提取垂直或平行于图像边缘的单色文字
4、。具体方法:颜色聚类;子图层分割;图层分析;图层合并 2。 (2) 视频文字大小自适应提取算法基于离散傅里叶变换 ( discrete Fourier transform, DFT)特征、多分辨率处理及支持向量机分类技术。算法在不同分辨率下结合梯度信息、文字边界定位技术提取出文字候选区域 ,然后用支持向量机对于 候选图像块 DFT 特征作进一步分类。具体方法:提取候选区域;分割候选区域块及文字边界定位;多分辨率融合处理;验证候选块 3。 (3) 彩色图像下的文本提取方法,该方法对彩色图像在 R、 G、 B 三个颜色层分别进行亮度分级,以避开传统颜色聚类方法的聚类数目选择问题,降低图像复杂度;考
5、虑到文字笔画的显著方向性特征,并且通常具有稳定的颜色,利用方向梯度算法进行文本粗定位;然后进一步利用多类 SVM 分类器实现文本区域精确判别。具体方法:亮度分级;笔画检测算法;SVM 精确判别 4。 (4) 自动提取图像中的文本对图像视 频检索具有重要意义。提出了一种基于颜色和笔画特征 , 应用无监督聚类方法进行复杂背景下的文本分割算法。首先在对文本进行图像增强的基础上 , 应用颜色约减和直方图确定文本颜色。然后提取颜色和笔画特征 , 应用 k均值聚类算法分割出文本和背景像素。最后应用后处理优化分割结果。具体方法:图像增强预处理;文本颜色估计;特征提取;无监督聚类;基于连通成分的后处理 5。
6、(5) 为解决渐变色给文字提取聚类算法带来的问题 ,研究与实现了基于二值化聚类的图像文字提取算法。图像通过一系列预处理后 ,得到了利于聚类的二值图像 ,根据背 景图像区域特征 ,对图像进行聚类分块 ,再利用文字图像区域特征 ,聚类识别出文字区域。具体方法:预处理,包括灰度化、二值化、长线剔除;文本聚类,包括背景查找、文字分割 6。 (6) 一种利用笔画线条的统计特征基于支持向量机进行图像中叠加文字检测的方法。该算法首先通过一种改进的线段检测算子提取出笔画线段;然后对笔画线条通过区域合并定位出候选文字块;接着对候选文字块提取一个反映文字笔画线条空间分布特点的 32 维特征,并通过支持向量机建立的
7、模型对候选文字块进行确认分类。具体方法:基于笔画线条的特征抽取;基于 SVM 的候 选文字块分类确认;基于笔画线条粗定位候选文字块 7。 2、场景文字提取算法 (1) 基于边缘检测的文本提取方法对自然场景文本的提取进行研究。通过改进彩色图像边缘检测和二值边缘图像的形态学文本定位的算法,从而实现场景文本的提取。先将原始图片进行金字塔分解,然后进行图片预处理,对图像进行边缘提取和二值化,再形态学文本定位,最后文本区域字符提取 8。 (2) 自然环境下文本图像背景复杂,常规阈值分割方法往往无法有效分割;基于谱聚类的图像分割方法利用图分割理论可以有效地实现图像分割,但过高的计算复杂度和空间复杂度使其在
8、处理大图像时不能满足实际需求。基于灰度直方图的谱聚类分割方法来实现字符提取,利用像素灰度计算相似性,在灰度直方图上构造相似矩阵,并通过实验确定直方图的理想等级数及相关参数。通过将像素级上的划分转化为灰度等级上的划分,从而大大减少特征值求解时的计算量和开销,提高算法的实用性及有效性 9。 3、图像边缘检测算法 基于灰度直方图的边缘检测,基于梯度的边缘检测包括 Roberts 边缘算子、 Sobel 边缘检测算子、 Prewitt 边缘算子、 Laplacan 边缘算子, Canny 边缘检测算子,模糊推理的边缘检测, Mallat 小波边缘检测算子等 10。 二、研究的基本内容与拟解决的主要问题
9、 1)学习掌握 BMP 位图格式,知道位图操作的基本方法; 2)继续学习 C+语言,达到能用它熟练的实现位图基本操作; 3)阅读一定量的相关参考文献,了解常见的文字检测算法,包括其主要使用的颜色空间、一些常见的变换手段; 4)能够对文字检测算法进行评判,指出其优缺点和其适用的场合; 5)选择一个深刻理解的检测算法对其做一定改进,要求算法有较强的鲁棒性,对图片文字有较高的检出率和较低的误检率; 6)在 vc 环境下完成模拟系统,并完成测试; 7)学会处理实验结果,能对实验结果进行分析,指出其不足; 三、研究的方法与技术路线、研究难点,预期达到的目标 (一)研究方法 文献研究法 文献法主要指搜集、
10、鉴别、整理文献,并通过对文献的研究形成对事实的科学认识的方法。文献法是一种古老、而又富有生命力的科学研究方法。对现状的研究,不可能全部通过观察与调查,它还需要对与现状有关的种种文献做出分析。 (二)技术路线 图片文字提取过程人工文字提取一般分为以下步骤:文字区域检测与定位、文字分割与文字提取、文字后处理。场景文字提取的一般方法是先将原始图片进行分解,然 后进行图像边缘提取,再进行文本定位,最后文本区域字符提取。 (三)研究难点 1)能够对文字检测算法进行评判,指出其优缺点和其适用的场合; 2)选择一个深刻理解的检测算法对其做一定改进,要求算法有较强的鲁棒性,对图片文字有较高的检出率和较低的误检
11、率; 3)在 vc 环境下完成模拟系统,并完成测试; (四)预期达到的目标 设计实现一个静态图片中文字提取的系统。在阅读一定量的参考文献的基础上,分析理解各种常见的文字检测算法,并能对其做一定评价。选择其中的一个算法,对其进行适当改进,以此为核心,在老师指导下完成一个模拟 系统。在此过程中锻炼自学习能力,文献阅读能力,程序设计能力,实验结果分析能力,和文档整理能力。 四、论文详细工作进度和安排 2010.11.18-2010.12.10 完成文献综述,了解常见的文字检测算法; 2010.12.11-2010.12.25 完成开题报告,在前面文献阅读的基础上,整理工作思路,确定工作目标; 201
12、0.12.26-2011.01.06 完成外文翻译; 2011.01.07-2011.02.10 选择一个熟悉的文字检测算法,进行深入分析,并对其进行改进,完成算法设计; 2011.02.11-2011.04.01 完成模拟系统的开发; 2011.04.02-2011.04.10 实验测试,分析实验结果 2011.04.11-2011.05.10 撰写毕业论文 2011.05.11-2011.05.31 论文修改 2011.06.01-2011.06.13 论文评阅 五、主要参考文献: 1 庄越挺 ,刘骏伟 ,吴飞 .基于支持向量机的视频字幕自动定位与提取 J.计算机辅助设计与图形学学报 ,2
13、002,14(8):750-753. 2 刘 世 与 , 曹 作 良 . 复 杂 色 彩 单 帧 图 像 中 的 文 字 提 取 J. 天 津 理 工 大 学 学报 ,2007,23(6):58-61. 3 薛卫 ,都思丹 ,吴书凯 .视频文字大小自适应提取算法 J.计算机应用研究,2009,26(3):1146-1147,1159. 4 刘琼 ,周慧灿 ,王耀南 .结合亮度分级和笔画检测的彩色图像文本提取 J. 计算机工程与应用 ,2008,44(18):157-159,162. 5 黄百钢 ,李俊山 ,胡双演 .基于颜色和笔画特征的文本分割算法 J.计算机科学 ,2009,36(7):29
14、2-294. 6 戴维 , 张申生 . 基于二值化聚类的图像文字提取算法 J. 计算机应用 ,2009,29(1):57-59,77. 7 王伟强 ,付立波 ,高文 ,黄庆明 ,蒋树强 .基于笔画特征的叠加文字检测方法 J.通信学报 ,2007,28(12):116-120. 8 何 兴 恒 , 胡 德 婷 . 有 效 的 场 景 文 本 提 取 算 法 J. 计 算 机 工 程 与 设计 ,2008,29(10):2598-2599,2603. 9 吴锐 ,黄剑华 ,唐降龙 ,刘家锋 .基于灰度直方图和谱聚类的文本图像二值化方法 J.电子与信息学报 ,2009,31(10):2460-246
15、4. 10 段 瑞 玲 , 李 庆 祥 , 李 玉 和 . 图像 边 缘 检 测 方 法 研 究 综 述 J. 光 学 技术 ,2005,31(3):415-419. 11 Rainer Lienhart, Axel Wernicke. Localizing and Segmenting Text in Images and VideosJ.IEEE Transactions on Circuits and Systems for Video Technology,2002,12(4):256-268. 12 Malik J. Visual C+ GuidedTour. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 15(8): 888-905.