1、 题目 数据挖掘在图像检索当中的应用院 系 计算机与软件学院专 业 计算机科学与技术年 级 学 号 姓 名 任课教师 学 期 1目录1.引言 .12.数据挖掘技术理论与发展 .23.图像数据挖掘简介 .33.1 图像数据挖掘的定义 .33.2 图像数据挖掘的过程 .44.数据挖掘在图像检索中的应用 .54.1 基于特征描述的 CBIR.54.2 数据挖掘在 CBIR 中的应用模型 .64.2.1 图像检索模型 .64.2.2 关键字检索模型 .85.总结 .9参考文献: .101数据挖掘在图像相似性检索当中的应用摘要:随着计算机网络的发展,我们需要检索的图像内容也在迅猛的增加,互联上的一些传统
2、的检索方案无法满足现在人们日益增加的要求。图像数据挖掘就是在这样的大环境中产生的。图像数据挖掘是用来挖掘大规模的图像数据中隐含的知识、图像内或者图像间的各种关系,以及其他隐藏在图像数据中的各种模式的一种模式的一种技术。本文主要简单的介绍了数据挖掘还有图像数据挖掘的一些简单的知识,以及数据挖掘在图像相似检索上的一些应用。关键词:数据挖掘,图像检索,应用模型11.引言随着科学技术的迅速发展,图像的存储,图像的获取,使得我们能够便捷的获取大量的有用的图像数据,例如:遥感数据图像,医疗数据图像等。可是随着计算机网络的发展,我们需要检索的图像内容也在迅猛的增加,互联上的一些传统的检索方案无法满足现在人们
3、日益增加的要求。如何在日趋庞大的图像数据当中挖掘出对于我们来说的有用的信息,并且利用这些信息中所含有的巨大的利用价值。图像数据挖掘就是在这样的大环境中产生的。图像数据挖掘是用来挖掘大规模的图像数据中隐含的知识、图像内或者图像间的各种关系,以及其他隐藏在图像数据中的各种模式的一种模式的一种技术。早期的图像数据挖掘仅仅就是针对图像的某一些预处理,包括基于数据挖掘的图像分割、基于数据挖掘的额图像特征提取 1。随着图像挖掘的发展,数据图像挖掘的实现,需要包括计算机视觉,图像处理,图像检、数据挖掘,机器学习、数据库和人工智能等的综合学科共同实现,其中某些领域已经发展地非常成熟, 而图像挖掘到数据挖掘还在
4、成长研究期, 处于经验阶段 2。本文中我们主要介绍了数据挖掘的一些简单的理论,图像数据挖掘的一些简单的相关知识,以及数据挖掘在图像的相似性检索上的一些简单的应用模型。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。数据挖掘现在改变着我们生活的很多的方方面面,这篇文章当中,主要是数据挖掘在图像检索中的应用。本文第二部分简单的介绍了数据挖掘技术理论与发展,第三部分主要介绍图像数据挖掘的简介,最主要的就是在第四部分介绍数据挖掘
5、在图像检索当中的应用,分别建立了一个以图片搜索图片,还有以关键词搜索图片的两个模型。2.数据挖掘技术理论与发展数据挖掘(Data Mining 简称 DM)又称为数据库中的知识发现(Knowledge Discovery Database 简称KDD),就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。目前 KDD 的主要对象仍然是关系数据库 3。2数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地
6、接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。数据挖掘的全过程定义描述如图 1.1 所示:图 1.1 知识挖掘全过程数据挖掘的过程主要包括以下四个步骤:(1)数据采集(2)数据预处理(3)数据采掘(4)评价、解释模式模型以上的数据挖掘过程是一个交互式的迭代的过程,其中需由用户做出许多选择,每一个步骤,一旦与预期目标不符,都
7、要回到前面的步骤,重新调整,重新执行。数据挖掘的实质就是从数据中发现未知的关系和模式,而发现的关系和模式就是我们的目标知识。数据是指一个有关事实的集合,它是用来描述事物有关方面的信息,一般说来这些数据应该是准确无误的。模式是一个用语言来表示的一个表达式,它可以用来描述数据中数据的特性。33.图像数据挖掘简介3.1 图像数据挖掘的定义图像数据挖掘(Image Mining,IM)是指从大规模的图像集中提取或挖掘出有用的信息或知识 4。从理论上来讲,图像数据挖掘是数据挖掘的一个很重要的分支。尽管如此,图像数据挖掘并不是传统的数据挖掘理论和技术在图像数据上的简单的扩展或者延伸。因为图像数据的组织结构
8、有不同于其他数据的组织结构特点,因为,所涉及到的挖掘的方法,跟挖掘的领域知识比一般对数据挖掘的技术更加的广泛 3。图像数据挖掘概念的两个根本点是“大规模图像集”和“提取挖掘出有用的信息和知识” 。从“大规模图像集”的角度,涉及到图像获取、图像存储、图像压缩、多媒体数据库等领域 5,6 ; 从“挖掘出有用的信息和知识”角度,其又涉及到图像处理和分析、模式识别、计算机视觉、图像检索、机器学习、人工智能、知识表现等领域。因此,图像数据挖掘是一个多学科交叉的新兴领域,其所涉及到的其他领域大部分也都处于发展阶段,其自身也是处于试验阶段。数据挖掘是在大量数据中发现隐含其中的模式、特征、规律和知识。根据实际
9、的模式可以分为分类、聚类、回归、序列、时间序列。图像数据挖掘是在图像数据库中抽取隐含知识的过程,并用于知道分类。常规分类有:贝叶斯、决策树、最大似然发、最小距离法、神经网络、支持向量机、模糊分类、k-均值,如果在分类时,单一的属性或者很少的属性就能把类别分出来,就更好了,当然这些方法中还有很多混合的地方。分类的一般过程为:1) 获取数据集2) 数据预处理(数据清理、数据集成和数据变换、数据规约)3) 特征的选择与提取4) 选择合适的挖掘算法5) 实施数据挖掘6) 解释和评估挖掘算法7) 使用发现的规则和模式单一的属性分类采用阈值分割,嵌套在决策树中;而多个属性分类则使用向量机,加强型的使用模糊
10、分类隶属度最后得出类别。在图像解译中,总是会或多或少的参入先验知识,如何使计算机再不需要先验知识的情况下进行分类一直是一个难点,数据挖掘也常常带有不确定性,最后得出的类别错分现象也在所难免。43.2 图像数据挖掘的过程本文提出的是一个基于目标识别的图像挖掘的框架, 图像挖掘在目标识别的基础上实现, 期望得到目标之间及目标和背景之间的潜在关系, 得到的潜在关系可以用于后续的目标识别的任务。图像数据挖掘的一个关键的问题是图像数据本身的表示问题,这也是图像处理和模式识别的关键问题。一般可以用颜色、纹理等特征来表示图像基本特征。高级概念可以看成是一种特征模式。比如、河流可认为是具有某种颜色特征的长条形
11、;庄稼区可以认为是具有某种颜色分布和纹理特征的大片区域。底层的基本特征与高层概念之间必然存在着某种映射关系,这种关系可以用数据挖掘的方法来发现。图像挖掘过程所示:4.数据挖掘在图像检索中的应用 4.1 基于特征描述的 CBIR文章的前面我们已经提到了,数据挖掘在图像上的研究,就是为了从大规模的图像集当中,提取挖掘出有用的信息和知识。本文主要就数据挖掘在我们图像的相似性检索上的具体应用。相似检索系统主要有:基于描述的检索系统,基于内容的检索系统(CBIR) 。CBIR(Content-Based Image Retrieval,基于内容的图像检索) 。传统的图像检索过程,先通过人工对图像进行文字
12、标注,再利用关键字来检索图像,这种依据图像描述的字符匹配程度提供检索结果的方法,简称“以字找图” ,既耗时又主观多义。基于内容的图像检索客服“以字找图”方式的不足,直接从待查找的图像视觉特征出发,在图像库(查找范围)中找出与之相似的图像,这种依据视觉相似程度给出图像检索结果的方式,简称“以图找图” 。基于内容的图像检索5分为三个层次:(1)依据提取图像本身的颜色、形状、纹理等低层特征进行检索;(2)基于图像的低层特征,通过识别图像中的对象类别以及对象之间的空间拓扑关系进行检索;(3)基于图像抽象属性(场景语义、行为语义、情感语义等)的推理学习进行检索;本文主要讲的是基于内容的检索系统。基于内容
13、的检索系统是通过对图像的低级别特征如颜色构成、纹理、形状等的匹配实现相似性搜索。对基于内容的检索,通常有两种查询方法:基于图像样本的查询,该方法找出所有与给定的图像样本相似的图像。图像特征描述查询,该方法给出图像的特征描述或概括并把其转换为特征向量,与数据库中已有的图像特征向量相匹配 3。本文主要讲的是基于特征描述的 CBIR。4.2 数据挖掘在 CBIR 中的应用模型数据挖掘在 CBIR 中的应用模型,简单来说就是我们输入一个关键词/一幅图图片,例如“小狗” ,系统自动会在我们的左右图片库中查询出所有与小狗有关系的图片,并且返还给需要的用户。听起来确实就是我们会在搜索引擎用直接查询图片。可是
14、现实生活中,我们的图片库数量庞大,我们并不可能做到,人工来对每一张图片进行标识,比如一幅图片,人工标记为:有小狗,有蓝天,有太阳怎样能够准确,且全面的找到我们用户所需要图片,就需要我们的数据挖掘。数据挖掘就是提取有用的我们需要的信息。例如我们对图像提取特征,发现所有有类似的一种特征的图片可能是同一类图片,然后计算机就能够将这一类图片标记出来,便于日后的查找。本文详细建立的是一个以关键词检索图片、以图片检索图片的一个数据挖掘在 CBIR 上的应用模型。这个模型当中我们定义了几个简单的算法:(1) 图像预处理图像预处理算法并不是必须的,采用图像预处理主要为了将图像处理成为统一的大小,去噪或者其他一
15、些操作,便于后面的操作。(2) 特征提取本文采用的特征提取算法为 sift。以特征点为中心取 1616 的邻域作为采样窗口,将采样点与特征点的相对方向通过高斯加权后归入包含 8 个 bin 的方向直方图,最后获得 448的 128 维特征描述子。(3) 建立词汇树本文采用的是 BOVW( Bag of vision Word) , 顾名思义,即将某些 Word 打包,就像我们6经常会把类似的物品装到一个柜子,或者即使是随意打包一些物品,也是为了我们能够方便的携带,在对大数据作处理的时候,为了能够方便的携带这些数据中的信息,与其一个一个的处理,还不如打包来的容易一点。(4) 建立一个挖掘模型挖掘
16、模型,就是根据我们已经建立的一个词汇树,建立一个挖掘的模型,简单来说就是一个视觉词汇,我们会在后面标注:出自哪张图片,代表的是什么物体等等一些我们所需要的信息。4.2.1 图像检索模型以图片检索图片,就是我们用户上传或者输入一张图片,系统根据图片找到相似的图片返还给用户。检索图片,最容易想到的方法就是,我们对每一张图片进行标注,输入一张名字为小狗的图片,我们就去将所有与小狗有关的图片都检索出来。可是我们的图片本身并没有名字,我们并不能从图片库中按照名字检索出来图片。有人要说,我们可以对每一张图片人工命名,人工判断这张图片是什么,对图片命名,可是,现在是网络化的社会,我们的数字图片数量值巨大,图
17、片库之庞大,人工对图片进行信息标注根本就不可能实现,我们如何做到对图片进行信息的标注。在每一张图片都没有标注信息的情况的本部分就是建立一个图像检索的模型,用图片检索图片。模型设计如下图所示:7图片集 图片库特征提取特征bovw词汇树挖掘模型待检索图片预处理处理后图片特征提取特征视觉单词分数功能最接近的 k 张图用户预处理建立挖掘模型的具体步骤如下:1. 将我们现有的图片库进行一个预处理,例如将图片库中的图片进行一个去噪处理。2. 经过预处理的图片,对它进行特征提取。前面提到了,我们定义图片特征提取的方法:sift。Sift 特征可以用来表示图片。3. 提取出来的 sift 特征,经过一个聚类方
18、法,将提取出来的 sift 特征进行聚类。本论文采用的是BOVW,建立一个词汇树(也可以称为密码本) 。4. 我们可以根据词汇树,找出最能代表图片的一个单词,并且还有图片信息来建立一个索引,这样就可以根据已经建立起来的词汇树,我们可以建立一个包含图片特征还有信息的索引表,也就是我们定义的挖掘模型。根据关键词进行检索的步骤如下:1. 输入需要检索的图片2. 将输入的图片进行特征提取,特征提取的方法也是用 sift 来对图像进行提取。3. 用提取出来的特征在词汇树(也就是单词本当中)进行查询,找出一个最能够代表这张图片的特征词汇。4. 根据特征词汇在我们建立挖掘模型里面进行检索5. 根据一定的分数功能,比如设定相似度为 0.6 或者相似度为 0.8,系统就会将所有在相似范围内的图片反馈给用户。