1、数据挖掘结课题 目 数据挖掘在图像相似性检索当中的应用目录1.引言 .32数据挖掘技术理论与发展 .33.图像数据挖掘简介 .53.1 图像数据挖掘的定义 .53.2 图像数据挖掘的过程 .54.数据挖掘在图像相似检索中的应用 .64.1 基于特征描述的 CBIR.64.2 数据挖掘在 CBIR 中的应用模型 .64.2.1 关键字查询模型 .84.2.2 图像查询模型 .85 总结 .9引用 .9数据挖掘在图像相似性检索当中的应用摘要:随着计算机网络的发展,我们需要检索的图像内容也在迅猛的增加,互联上的一些传统的检索方案无法满足现在人们日益增加的要求。图像数据挖掘就是在这样的大环境中产生的。
2、图像数据挖掘是用来挖掘大规模的图像数据中隐含的知识、图像内或者图像间的各种关系,以及其他隐藏在图像数据中的各种模式的一种模式的一种技术。本文主要简单的介绍了数据挖掘还有图像数据挖掘的一些简单的知识,以及数据挖掘在图像相似检索上的一些应用。关键词:数据挖掘,图像检索,应用模型1.引言随着科学技术的迅速发展,图像的存储,图像的获取,使得我们能够便捷的获取大量的有用的图像数据,例如:遥感数据图像,医疗数据图像等。可是随着计算机网络的发展,我们需要检索的图像内容也在迅猛的增加,互联上的一些传统的检索方案无法满足现在人们日益增加的要求。如何在日趋庞大的图像数据当中挖掘出对于我们来说的有用的信息,并且利用
3、这些信息中所含有的巨大的利用价值。图像数据挖掘就是在这样的大环境中产生的。图像数据挖掘是用来挖掘大规模的图像数据中隐含的知识、图像内或者图像间的各种关系,以及其他隐藏在图像数据中的各种模式的一种模式的一种技术。早期的图像数据挖掘仅仅就是针对图像的某一些预处理,包括基于数据挖掘的图像分割、基于数据挖掘的额图像特征提取 1。随着图像挖掘的发展,数据图像挖掘的实现,需要包括计算机视觉,图像处理,图像检、数据挖掘,机器学习、数据库和人工智能等的综合学科共同实现,其中某些领域已经发展地非常成熟, 而图像挖掘到数据挖掘还在成长研究期, 处于经验阶段 2。本文中我们主要介绍了数据挖掘的一些简单的理论,图像数
4、据挖掘的一些简单的相关知识,以及数据挖掘在图像的相似性检索上的一些简单的应用模型。2.数据挖掘技术理论与发展数据挖掘(Data Mining 简称 DM)又称为数据库中的知识发现(Knowledge Discovery Database 简称 KDD),就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。目前 KDD 的主要对象仍然是关系数据库 3。数据挖掘的全过程定义描述如图 1.1 所示图 1.1 知识挖掘全过程数据挖掘的过程主要包括以下四个步骤:(1)数据采集(2)数据预处理(3)数据采掘(4)评价、解释模
5、式模型以上的数据挖掘过程是一个交互式的迭代的过程,其中需由用户做出许多选择,每一个步骤,一旦与预期目标不符,都要回到前面的步骤,重新调整,重新执行。数据挖掘的实质就是从数据中发现未知的关系和模式,而发现的关系和模式就是我们的目标知识。数据是指一个有关事实的集合,它是用来描述事物有关方面的信息,一般说来这些数据应该是准确无误的。模式是一个用语言来表示的一个表达式,它可以用来描述数据中数据的特性。3.图像数据挖掘简介3.1 图像数据挖掘的定义图像数据挖掘(Image Mining,IM)是指从大规模的图像集中提取或挖掘出有用的信息或知识 4。从理论上来讲,图像数据挖掘是数据挖掘的一个很重要的分支。
6、尽管如此,图像数据挖掘并不是传统的数据挖掘理论和技术在图像数据上的简单的扩展或者延伸。因为图像数据的组织结构有不同于其他数据的组织结构特点,因为,所涉及到的挖掘的方法,跟挖掘的领域知识比一般对数据挖掘的技术更加的广泛 3。图像数据挖掘概念的两个根本点是“大规模图像集”和“提取挖掘出有用的信息和知识” 。从“大规模图像集”的角度,涉及到图像获取、图像存储、图像压缩、多媒体数据库等领域 5,6 ; 从“挖掘出有用的信息和知识”角度,其又涉及到图像处理和分析、模式识别、计算机视觉、图像检索、机器学习、人工智能、知识表现等领域。因此,图像数据挖掘是一个多学科交叉的新兴领域,其所涉及到的其他领域大部分也
7、都处于发展阶段,其自身也是处于试验阶段。3.2 图像数据挖掘的过程本文提出的是一个基于目标识别的图像挖掘的框架, 图像挖掘在目标识别的基础上实现, 期望得到目标之间及目标和背景之间的潜在关系, 得到的潜在关系可以用于后续的目标识别的任务。图像数据挖掘的一个关键的问题是图像数据本身的表示问题,这也是图像处理和模式识别的关键问题。一般可以用颜色、纹理等特征来表示图像基本特征。高级概念可以看成是一种特征模式。比如、河流可认为是具有某种颜色特征的长条形;庄稼区可以认为是具有某种颜色分布和纹理特征的大片区域。底层的基本特征与高层概念之间必然存在着某种映射关系,这种关系可以用数据挖掘的方法来发现。图像挖掘
8、过程所示:4.数据挖掘在图像相似检索中的应用 4.1 基于特征描述的 CBIR文章的前面我们已经提到了,数据挖掘在图像上的研究,就是为了从大规模的图像集当中,提取挖掘出有用的信息和知识。本文主要就数据挖掘在我们图像的相似性检索上的具体应用。相似检索系统主要有:基于描述的检索系统,基于内容的检索系统(CBIR) 。本文主要讲的是基于内容的检索系统。基于内容的检索系统是通过对图像的低级别特征如颜色构成、纹理、形状等的匹配实现相似性搜索。对基于内容的检索,通常有两种查询方法:基于图像样本的查询,该方法找出所有与给定的图像样本相似的图像。图像特征描述查询,该方法给出图像的特征描述或概括并把其转换为特征
9、向量,与数据库中已有的图像特征向量相匹配 3。本文主要讲的是基于特征描述的 CBIR。4.2 数据挖掘在 CBIR 中的应用模型数据挖掘在 CBIR 中的应用模型,简单来说就是我们输入一个关键词/一幅图图片,例如“小狗” ,系统自动会在我们的左右图片库中查询出所有与小狗有关系的图片,并且返还给需要的用户。听起来确实就是我们会在搜索引擎用直接查询图片。可是现实生活中,我们的图片库数量庞大,我们并不可能做到,人工来对每一张图片进行标识,比如一幅图片,人工标记为:有小狗,有蓝天,有太阳怎样能够准确,且全面的找到我们用户所需要图片,就需要我们的数据挖掘。数据挖掘就是提取有用的我们需要的信息。例如我们对
10、图像提取特征,发现所有有类似的一种特征的图片可能是同一类图片,然后计算机就能够将这一类图片标记出来,便于日后的查找。本文详细建立的是一个以关键词检索图片、以图片检索图片的一个数据挖掘在 CBIR 上的应用模型。这个模型当中我们定义了几个简单的算法:(1) 图像预处理图像预处理算法并不是必须的,采用图像预处理主要为了将图像处理成为统一的大小,去噪或者其他一些操作,便于后面的操作。(2) 特征提取本文采用的特征提取算法为颜色直方图。我们图像每一个像素的颜色值是由 RGB 三个维度的三个值(每一个值的范围为 0255)来确定的,我们将一幅图提取颜色特征就是根据在三个维度,每一个值的频率来确定一个颜色
11、直方图。(3) 建立词汇树本文采用的是 BOVW( Bag of vision Word) , 顾名思义,即将某些 Word 打包,就像我们经常会把类似的物品装到一个柜子,或者即使是随意打包一些物品,也是为了我们能够方便的携带,在对大数据作处理的时候,为了能够方便的携带这些数据中的信息,与其一个一个的处理,还不如打包来的容易一点。(4) 建立一个挖掘模型挖掘模型,就是根据我们已经建立的一个词汇树,建立一个挖掘的模型,简单来说就是一个视觉词汇,我们会在后面标注:出自哪张图片,代表的是什么物体等等一些我们所需要的信息。4.2.1 关键字检索模型以关键字,关键词检索图片,顾名思义,就是输入关键字、关
12、键词,系统根据关键字/词找到相关的图片返还给用户。刚刚已经提到定义的一些算法,根据这些算法最后建立的一个挖掘模型,魔门就能够很容易的实现我们的关键词、关键字的检索。如下图所示,用户输入一个关键词/字,我们会再建立的挖掘模型里,找到我们标注的有关的关键的所有词,并且找出原图,返还给我们的用户。预处理图片集 图片库 特征提取 特征bovw词汇树挖掘模型关键词相关图片用户4.2.2 图像检索模型以图片检索图片,就是我们用户上传或者输入一张图片,系统根据图片找到相似的图片返还给用户。与关键词/ 字检索检索相同的是,都是与建立的挖掘模型相似匹配。不同的是,系统在接收到用户提交的查询图片,他首先用预先定义
13、好的特征提取的算法对我们的图片进行特征提取,特征提取之后,从我们建立的词汇树上找出一个最能够代表这张图片的一个视觉词汇,然后用这张视觉词汇在我们的挖掘模型上进行信息的匹配。我们的挖掘模型可以根据视觉单词,还有一些计算方法,例如汉明句子,EMD 距离等,找出最相近的 K 张图(K 是我们自己定义的常数,这个 k 可以变化) ,返还给我们的用户。图片集 图片库特征提取特征bovw词汇树挖掘模型待检索图片预处理处理后图片特征提取特征视觉单词分数功能最接近的 k 张图用户预处理5.总结本文简单的介绍了数据挖掘的一些简单的知识,同时也简单的介绍了一些简单的数据挖掘中的应用。根据现有的一些数据挖掘在图像中的一些应用,建立了数据挖掘在基于内容的图像检索中的应用。本文就数据挖掘在图像检索中的两个应用,并且提出了现在图像处理中最常用的几个算法来进行检索。数据挖掘可以挖掘出很多有用的信息,数据挖掘近几年来发展的很好,但是我觉得他可以应用的的地方远远超出了我们每一个人的想象。引用1 杜琳, 陈云亮 , 朱静. 图像数据挖掘研究综述J. 计算机应用与软件, 2011, 28(2):125-128.2 薄华, 马缚龙 , 焦李成. 图像数据挖掘的模型和技术J. 西安邮电大学学报, 2004, 9(3):81-