1、课程报告基于内容的图像检索综述1. 前言伴随网络时代数字家庭概念的产生,20世纪90年代多媒体硬件和软件技术得到迅速发展,多媒体已广泛地应用于多个领域,如公共信息业、广告、教育、医学、商业及娱乐等。可获取的图像等多媒体数据急剧增长。如何组织、表达、存储、管理、查询和检索这些海量的数据,是对传统数据库技术的一个重大挑战 1。由于图像具有形象、直观、内容丰富等特点,接近人们的认知方式,成为不可或缺的多媒体内容。如果没有对图像等多媒体数据有效存储、检索的方法,大量信息将淹没在数据的海洋之中,而无法被人们识别和利用。因此,如何将数字图像处理、模式识别技术、计算机视觉技术与传统数据库技术结合起来,建立高
2、效的图像检索机制成为迫切需要解决的问题。2. 图像检索概述图像检索的本质是对图像特征的提取与基于特征的匹配技术,图像的特征包括图像的文本特征、视觉特征,所谓图像的文本特征是指与图像相关的文本信息,比如图像的名称、对图像的注解文字等,而目前比较成熟应用于网络环境下的图像检索系统比如Google、百度等均属于这类。图像的视觉特征是指图像本身所拥有的视觉信息,又可以进一步分为通用的视觉特征和领域特征,如颜色、纹理、形状等属于图像通用特征,而光谱特征则属于地理科学中遥感影像独有的特征。从发展演变历程来看,根据图像检索系统所提取图像特征可分为两类,第一类即基于图像文本特征的检索,TBIR ,第二类即基于
3、图像视觉特征的内容检索,CBIR 。传统的TBIR技术应用于早期的图像检索,其研究主要在数据库领域中进行,首先对图像用文本进行手工注解,然后用基于文本的数据库管理系统进行检索。这种方法实现容易被广泛应用,但是它依赖于人对图像的注解,当图像数量急剧增大时,人工注解的方法所需工作量太大,而且不同人对同一幅图像的理解角度也是不同的,注解的主观性导致检索的查全率偏低。90年代以来,基于内容的检索成为一个研究热点,它是直接根据图像内部的各种物理课程报告特征,在数据库中检索具有相似特征的图像。基于内容图像检索与传统的基于文本检索方式相比,具有如下特点 2:(1)突破了关键词检索基于文本特征的局限,直接从媒
4、体内容中提取特征线索。(2)检索方式多种多样。基于内容的图像检索可以提供浏览方式、基于实例的检索方式以及基于草图的检索方式等等。(3)人机交互式检索。基于内容的图像检索系统通常采用参数调整方法、聚类分析方法、概率学习方法和神经网络方法等,通过人机交互的方式来捕捉和建立图像低层特征和高层语义之间的关联,即相关反馈技术。(4)相似性匹配检索:基于内容的检索是按照一定的匹配算法将输入图像的特征与特征库中的特征元数据进行相似性匹配,将满足一定相似性的一组初始结果按照相似度大小排列,提供给用户。尽管CBIR相对于TBIR有了很大进步,但是这种基于机器对图像各种特征的理解在某些场景中不能替代基于文本的描述
5、,比如一幅图像下面可能蕴含着某种寓意或者一个事件,但是单纯从内容是无法获取这一切的,如果能将对图像的注解应用于基于内容的检索,无疑将极大的提高检索查准率。在Internet环境下, MPEG专家组制定了一个基于内容的多媒体描述方案,即MPEG-7 3标准,对各种不同类型的多媒体信息内容的描述方式进行了标准化定义,从而实现CBIR与TBIR的互连。3. 基于内容的图像检索图像的内容包括图像的视觉信息等物理特征,还包括视觉特征所带来的高层语义特征。物理特征属于低层视觉信息,主要包括颜色、纹理、形状;语义信息属于图像的高层视觉信息,主要包括对象、空间关系、场景、行为、情感等图像内容。基于内容的图像检
6、索的目的一般可为三类:(1)准确查询,找出一致的复制件;(2)范围查询,找出与输入图像特征相差在一定范围内的图像;(3)K-最近邻查询,根据输入图像与待检测图像的相似度对检索结果进行排序 2。3.1 CBIR 的应用对图像内容检索的研究起步于二十世纪80年代,到了网络技术逐渐普及的90年代才取课程报告得较大的突破,多种成果开始转化为应用技术,而日益增长的应用需求反过来推动其研究向更高的层次发展。如下领域开始应用和驱动图像检索技术的发展。 防止犯罪等司法部门应用人脸识别技术,根据专家对犯罪嫌疑人的头像特征的描绘图像,定位犯罪人的真实面目。 军事领域可以用于武器的精确制导,通过实时获取的图像信息,
7、对其进行解译,保证打击的准确性。 版权保护领域针对商标与设计专利类的图像进行检索,防止专利纠纷的产生。 建筑和工程设计通过对建筑及工程设计物体的图像检索,可以聚类相同风格特色的建筑及工程设计产品。 广告业、艺术设计应用图像检索,可以找到需要的各种素材,进行艺术设计的再创造。 医学领域对各种医学透视CT图像进行检索,可以快速定位类似病例,及时快速的帮助病人找到病因,会对临床、医学研究、远程医疗、异地会诊乃至医学教育等方面产生积极和深远的影响。 古生物学、考古学通过对古生物化石图像的解释,确定古生物所属类型等信息,便于发现新的物种;应用于古文物的图像检索,通过对比,签定文物的真伪、所属历史时期等。
8、 地理信息系统和遥感对遥感图像的检索,主要是解译影像数据中的建筑、村庄、耕地等不同种类地物信息,制作实时、准确、逼真效果的专题图件,应用于地理信息系统中矢量处理模块。 安全技术应用指纹、眼膜识别技术,对用户的指纹或者眼膜提取图像特征进行匹配,鉴定用户真实身份。课程报告3.2 CBIR 的基本原理CBIR的基本原理形式化定义:任给定一个检索图像示例P ,计算其特征向量F=(F1,F 2,F 3,F n),其中F i为图像的第i 种特征;根据F 检索图像特征索引库,得到与F距离最小的特征向量F ,则F 所对应的图像P 即为与P最相似的检索结果 1。CBIR系统典型的架构如下所示。特 征 向 量 计
9、 算 相 似 度 匹 配数字图像对象特征索引库原始图像库检索结果系统主要包括用户界面、检索和存储系统三部分,其中图像特征索引技术和相似度匹配技术是系统的核心部分,直接影响着系统检索的查全率和查准率。其中检索和存储系统都要对原始图像进行特征向量计算,不同之处在于索引库的生成采用离线方式,而查询检索部分需要实时在线计算。匹配度的计算将决定检索结果的产生以及结果的排序,因此也具有十分重要的意义。除此之外,图像检索一般不是一蹴而就的过程,中间需要用户的干预和交互,应用反馈模型可以增强系统的理解能力,从而提高查准率。3.3 图像内容的索引表示方法3.3.1 低层图像特征1) 颜色特征颜色是图像最显著的特
10、征,具有稳定,旋转、平移、尺度变化无关性,而且颜色特征计算简单,表现出很强的鲁棒性,因此基于颜色的检索成为现有图像检索系统中应用最基本的方法。基于颜色特征的图像检索需要解决三个问题:颜色的表示、颜色特征的提取和课程报告基于颜色的相似度量 2。颜色的表示取决于色彩空间的选择,不同的场合采用的方式也是不同,在大多数彩色图形显示器使用红、绿、蓝三原色,但RGB色彩空间中不能与人的感知颜色相联系。在所有的色彩空间中,HSV模型(Hue,Saturation ,Value) 对应于画家配色模型,具有与人观察颜色方式相一致的特点,能较好反映人对色彩的感知和鉴别能力,其中H代表色度(0H 360),S 代表
11、饱和度 (0S1) ,V 代表亮度值(0V1)。对于不同格式的图像文件,需要将其转化到对应的颜色空间。RGB图像到HSV色彩空间的转化方程如下:在基于颜色特征的索引算法中通常用颜色统计直方图(Swain & Ballard,1991) 4、累积直方图(Striker & Orengo,1995) 5来表示图像的颜色特征。颜色直方图最大的缺点是应用颜色的全局的概率分布,完全丢失了图像颜色的空间信息,后来的相关研究提出了很多改进方法。如Pass等人提出了颜色聚合矢量CCV(color coherence vector)方法 6;Stricker和Orengo提出了累计颜色直方图方法,并且提出了颜色
12、矩的方法 5。上述方法都保留了颜色在图像中出现的概率信息,但也丢失了很多颜色的空间信息,因此不同的图像有可能具有相同颜色特征表示:许多人提出了局部颜色特征索引方法。Hsu等试图结合图像的颜色信息和图像颜色的部分空间信息对颜色的直方图进行检索 8。Smith和Chang采用颜色的自动分割方法 9,形成一个二进制的颜色索引集。在图像匹配中,比较这些图像颜色集的距离和颜色区域的空间信息。人类肉眼一般对主色调比较敏感,因此有人提出了基于主色调的检索方法 10,11。由于颜色在按色彩量化时会产生误差,从而使得原本非常相似的颜色被量化到了不同的范围之内,导致图像匹配时漏选。采用正态分布拟和法来获取指定颜色
13、的扩展值,对主色调进行扩展,可弥补量化等引起的误差。颜色特征索引的相似度匹配算法根据其颜色索引内容和算法的不同而不同,主要包括直方图相交法、Manhattan距离、绝对距离 (L1)、二次距离 (L2)、欧几里德距离等 12。课程报告2) 纹理特征纹理是指图像像素灰度集或颜色的某种规律性变化,可认为是灰度(颜色) 在空间以一定的形式变化而产生的图案。一般纹理图像中灰度分布具有某种周期性,具有一定的统计特性,而且通常和图像频谱中的高频分量是密切联系的。图像的基本纹理特征主要有六方面:粗糙度(coarseness) 、对比度(contrast ) 、方向度( directionality) 、线像
14、度( line-likeness) 、规整度( regularity) 和粗略度 ( rough-ness) 13,其中最重要的特征主要是纹理的粗糙度、对比度和方向度。目前纹理分析的方法基本可以分为统计法、结构法、模型法和空间/频率域联合分析法等四类 14,并将统计、分析的结果作为图像的索引。基于统计的方法是对图像中的颜色强度的空间分布信息进行统计,包括共生矩阵法(Haralick&Shanmugam,1973)、Laws 纹理能量法等 15,16;基于结构的方法将重点放在分析纹理元之间的相互关系和排列规则上;基于模型的方法假设纹理按某种类型分布,如Markov随机场模型、分形模型等;基于空间
15、 /频率域联合分析法主要包括Gabor变换法和小波变换法等。在70年代,Haralick 等人纯粹从数学上研究了图像纹理中灰度级的空间依赖关系,提出了纹理特征的共生矩阵表示法 17。而Tamura等人则从视觉的心理学角度提出了纹理表示方法,表示的所有纹理性质都具有直观的视觉意义,很好地对应于人类视觉感知 13。80年代,随机场模型开始用于纹理的分类和识别。F.S.Cohen等采用 Gaussian Markov随机场模型(GMRF ),对9种自然纹理的识别达到了99% 至100%的正确率 18。D.K.Panjwani和G-Healy进一步采用GMRF模型用于彩色纹理图像的分割,也取得了较好的
16、效果 19。进入90年代,小波变换理论被应用于纹理表示之中。人们采用小波变换后的系数作为图像的索引,如Smith和Chang从小波子波段中提取统计特征作为图像的纹理表示,取得了很好的检索效果 20。 Chang和 Kuo探索了小波中波段的特征,采用树结构小波变换来进一步提高图像分类能力的准确度 21。Ma 和Manjunath评价了各种小波变换形式,发现基于Gabor 小波变换的纹理检索方法的效果最好 22。3) 形状特征形状是图像的一个显著特征,形状通常被认为是一条封闭的轮廓曲线所包围的区域,对形状的描述涉及到对轮廓边界的描述以及对这个边界所包围区域的描述。描述的结果是对图像区域边界的逼近表
17、示。目前的基于形状检索方法大多围绕着从形状的轮廓特征和形状的区域特征建立图像索引。关于对形状轮廓特征的描述主要有:直线段描述、样条拟合曲线、傅立叶描述子以及课程报告高斯参数曲线等等。Jain等人将形状用封闭的直线段来描述,然后依靠线段斜率的统计斜率直方图进行匹配 23。Gudivada采用样条曲线对形状的边界进行拟合,然后依靠形状边界上的各个控制点计算斜率、曲率的正负等信息进行检索 24。Gunsel提出了采用傅立叶描述子描述形状的边界信息基于特征形状的图像检索方法 25。实际上更常用的办法是采用区域特征和边界特征相结合来进行形状的相似检索。Eakins等人提出了一组重画规则并对形状轮廓用线段
18、和圆弧进行简化表达,然后定义形状的邻接族和形状族,两种分族函数对形状进行分类 26。利用形状特征进行检索匹配的方法都是基于在图像中准确提取形状区域的前提下,但是模式识别中自动提取形状区域的各种方法还很不成熟,需要发展一种更加准确的方法。4) 多特征综合检索基于颜色、纹理、形状特征的图像检索都各有优、缺点,分别从不同角度反映图像的某个特征,为了更完整的描述图像内容,有效地提高检索的准确率,人们经常将不同类型的综合特征来检索图像,以取长补短。如综合颜色和纹理特征进行检索 27,综合颜色和形状特征进行检索 28,29,综合纹理和形状特征的检索 30,31,综合颜色和空间关系特征的检索32等。对于多特
19、征综合检索而言,除了特征的选择及其组合方式的选择之外,合理设置各个特征的权重是影响检索结果的另一个重要因素。3.3.2 高层语义特征无论是基于颜色、纹理、形状的检索方法,还是多特征综合的检索方法,都是属于对图像低层视觉内容表示的方法。基于颜色特征的图像检索技术将图像从计算机的角度看成一个个离散的像元点,像元之间是孤立的,只能表示图像在整体上所呈现的颜色一致性,而无法区分图像内部特征;基于纹理特征的检索是在颜色的基础上,考虑了相邻像元之间的关系,提出了规整度、粗糙度、方向度等来衡量图像的线性特征;基于形状的检索则将图像分割成封闭的区域,屏蔽图像中的诸如背景等细节元素,更加逼近人对图像的认知。实际
20、上图像是人对世界认知的间接表示,一幅图像充满了丰富语义信息,而不仅仅是颜色、纹理、形状,除此之外,图像上充满了一个个实体对象,对象之间在空间上存在某种关系,一幅或一系列图像可以表示一个具体的场景和动作,甚至某些图像蕴含了著作者丰富的感情色彩和寓意。用户在图像检索时总是存在一个大致的概念,这个概念建立在图像所描述的对象、场课程报告景事件以及所表达的情感等图像的高层语义上,包含了人对图像内容的理解,所以近年来出现了对高层的基于语义内容的图像检索技术的研究,成为解决图像简单视觉特征和用户语义之间存在的鸿沟的关键 33。1) 对象类别与空间关系用图像中的对象及对象间的空间关系特征来进行图像检索一直是图
21、像数据库检索的重要研究方向,Tanimoto 提出了用图元方法来表示图像中的实体,并提出了用图元来作为图像对象索引 34。随后被Chang采纳,并提出用二维符号串 (2D-String)的表示方法来进行图像空间关系的检索 35,该方法简单并且对于部分图像来说可以从2D-String重构它们的符号图,因此被许多人采用和改进:Jungert根据图像对象的最小包围盒分别在x轴上和y轴上的投影区间之间的交叠关系来表示对象之间的空间关系 36;Lee和Hsu等人提出了2DC-String的方法 37,38; Nabil综合2D-String方法和二维平面中对象之间的点集拓扑关系,提出了2D-PIR检索方
22、法 39。对图像内容的理解上升到了对象及其空间关系的理解,弥补了前面提到的方法中缺少空间信息约束的缺陷,如下是空间关系语义提取的结构图: 图 像 分 割 特 征 提 取对 象 关 系 分 析对 象 识 别数 字 图 像对象特征库 对 象 区 域 特征描述物体类别 空 间 对 象 关 系2) 场景与行为识别出的对象及其空间关系可以成为获取场景语义的基础,作为获取场景和描述事件的辅助手段。然而由于现实图像场景的复杂性,以及目前通用对象识别技术还不完善,这种方法还只在一些有限领域得到运用。在图像分割技术和对象识别技术不能满足需求的情况下,一些学者采用新的方法来是绕过对象识别这一过程,Smith等提出
23、了组合区域模板方法;Cheong Yiu Fung提出的方法最有代表性,这些方法也进行图象分割,但它的分割是对图像的固定分割,即将图像划分课程报告成固定大小的子块,然后对这些图像子块分别确定其各自的语义类别,然后根据子块间的关系来确定整幅图像的语义。一旦子块的语义确定了,场景语义就能有效地使用现有统计方法从子块的相关模式中获得,而特定场景对应的子块组台模式就要通过训练集学习获得。最简单的场景分类是户内和野外场景分类,现在的实验系统是进行十几种场景的分类。对于行为语义,通常无法通过单幅或者单帧图像来提取,往往要考虑图像序列的运动信息。固定划分图像的场景分类的结构图如下 40:3) 情感语义图像表
24、达的情感语义相对其他特征而言,具有更多的主观成分,它涉及到人的认知模型、文化背景以及美学标准。目前只是在艺术图像这个特定领域对于图像的情感语义有了一定程度的研究,因为艺术家在创造艺术图像的过程中,往往有意识地采用一些常用的艺术手法。而在这些艺术手法中,有艺术家们普遍认同的特定视觉特征和情感的对应。对艺术图像与心理学关系的研究中,Arnheim探讨了艺术形式和视觉特征的关系 41;Itten 提出艺术图像中颜色的使用所表达的语义理论,提出了判断颜色组合是否和谐的Itten球模型(Itten,1985 )。Itten 发现不同的颜色组合导致和谐、不和谐、平静和兴奋等效果,比如红黄色调导致温暖的感觉
25、,往往表达快乐、荣耀或者力量等,相反蓝绿色调会导致冷的感觉,常表达平静、放松或者忠诚等情感 42。除了颜色之外,纹理的疏密、线条的倾斜度、光滑度不同所表达的情感语意也截然不同,光滑的纹理给人细腻感,粗糙的纹理给人苍老感,坚硬的纹理给人以刚强感 43。正方形易给人庄重感, 三角形的锐角易产生好斗和进取的感觉, 而圆形则容易产生松弛平易的运动感 44。我国著名画家潘天寿指出绘画艺术主要是以笔、墨、色、形、位置的近远,光与影的配置、虚实与疏密的分布以及艺术神情风韵来表达它的艺术情感 45。如下两张图,线条的倾斜度比较平缓时带来安宁、祥和的氛围,而角度比较大时传递了一种紧张、动感的环境。课程报告基于情
26、感的图像检索系统框架图如下所示 33:以用户情感为线索检索图像,其目标是以图像可能激发的人的主观体验(即情感语义特征,或者感性特征) 为中间桥梁,实现用户检索需求与图像之间的匹配 46。其检索流程包括感性提问的接收和转化、检索匹配、检索结果的反馈、相关反馈等几个过程。3.4 国内外系统实例简介近年来,CBIR已经成为一个非常活跃的研究领域,各国科研机构与公司已陆续推出了一些CBIR系统的产品 47,有的已经成功应用到医学、商标、专利检索等领域。1) QBIC48,49http:/IBM 的QBIC(Query By Image Content) 是第一个商业性的CBIR 系统。它提供了基于颜色
27、、纹理、形状和手绘草图的图像索引方法。颜色特征的表达采用了平均色和颜色直方图两种方法;纹理特征的表达采用了纹理的粗糙度、对比度和方向性三者的综合。目前,QBIC 系统的基于内容检索技术已经在IBM 数字图书馆中得到了应用,实现了自动索引、归并、对比、特征抽取和翻译功能。2) Visual Seek & Web Seek50http:/www.ee.columbia.edu/afchang/demos.htmlColumbia 大学的Visual SEEK 提供了基于色彩和纹理的索引方法 . 在Visual SEEK 中,整幅图像色彩的分布使用了全局色彩直方图,区域色彩的索引采用二进制色彩集表达方法. 它采用基于小波变换的方法来表示图像的纹理特征. 为加快检索速度,还开发出了基于二叉树的索引算法. 该系统具有Java 浏览器,可以在SGL 、SUN 和IBM PC平台上运行。