1、 本科毕业论文 (科研训练、毕业设计 ) 题 目: 基于语义的图像信息检索 姓 名: 学 院:软件学院 系: 专 业:软件工程 年 级: 学 号: 指导教师(校内): 职称: 指导教师(校外): 职称: 年 月 基于语义的图像信息检索 摘要 多媒体技术及 Internet 的迅速发展 ,使得视觉信息检索成为当前迫切需要解决的问题,而图像检索是其中的一个重要方面。图像检索技术自从它兴起至今,也 经历了好几个阶段,这个历程说明图像检索只有结合图像的多种信息,特别是语义信息,才能使检索系统的能力尽可能符合人们的要求。 本文首先介绍了基于语义图像检索的历史和现状,阐述了构建语义检索系统的几个关键技术。
2、并对 ImageSearch 系统中对本体模型的检索方法和显示做了详细的介绍。特别以 OWL 定义产品信息的知识模型,用知识模型标记 ImageSearch系统中的信息,通过度量语义标记的相似性来获得产品 图片信息的相似性。本体概念的相似性度量包含了三个要素:本体概念、语义和相似性 1。本系统用户交互界面自然友好 。实验表明, ImageSearch 系统能够以比较高的命中率来检索图像。 关键词 图像检索,基于语义图像检索,本体模型,相似度, OWL Semantics-based Image Retrieval Abstract: With the rapid development of
3、multimedia technologies and Internet, an urgent demand has arisen for visual information retrieval, in which image retrieval plays an important role. From a historical point of view, we find that only if we use all kinds of image content, especially image semantics, that the capability of retrieval
4、system can close to humans image understanding ability. This paper first introduces the history and present situation of the Semantics-based Image Retrieval and elaborates several key technologies of building Semantic Retrieval System. You can see a detailed presentation of the Ontology Model Retrie
5、val as well as the display of the ImageSearch System. Particularly the knowledge model of the product information is defined in the OWL language, the information of the ImageSearch System is marked by the knowledge model and the productphoto information similarity is obtained through measuring the s
6、imilarity of the semantic mark. The similarity of Ontology concept contains three elements: the concept of Ontology, semantic and similarity. The system has a friendly and natural user interface. Experiments show that, the ImageSearch System is able to retrieve images in a higher hit rate. Keywords:
7、 Image Retrieval, Semantic-based Image Retrieval, Ontology Model, Similarity 目录 第一章 引言 . 1 第二章 系统的总体设计 . 1 2.1 系统的主要关键技术 . 1 2.1.1 本体模型的建立 . 1 2.1.2 界面设计 . 2 2.1.3 版本控制 . 2 2.1.4 单元测试 . 2 2.1.5 系统框架图 . 2 第三章 系统相关概念简介 . 2 3.1 本体及本体中的概念 . 2 3.1.1 本体的基本概念 . 3 3.1.2 本体的主要构成 . 4 3.1.3 语义网 . 4 3.1.4 本体的作用
8、 . 5 3.1.4 知识本体语言 . 5 3.2 语义 相似性 . 6 第四章 语义相似性度量在系统中的应用 . 6 4.1 OWL 个体的相似性及排序算法 . 6 4.1.1 OWL 相似性计算方法 . 7 4.1.2 Vector排序算法 . 12 4.2 语义检索系统的建立 . 13 4.2.1 设计思路和关键问题 . 13 4.2.3 查询处理步骤分解描述 . 14 4.3 知识服务在查询与浏览中的应用 . 15 4.3.1 基于 OWL 个体的查询方式 . 15 4.3.2 相似查询与浏览 . 16 第五章 系统 UML 建模 . 17 5.1 用例图 . 17 5.2 类图 .
9、18 5.3 时序图 . 18 5.4 系统包图 . 19 第六章 系统实例 . 20 6.1 界面及其测试 . 20 6.2 文件标记测试 . 22 6.3 结果处理及其性能测试 . 23 第七章 结束语 . 24 致谢语 . 26 参考文献 . 27 Content Chapter 1 Introduction . 1 Chapter 2 System Design . 1 2.1 Key technology of the system. 1 2.1.1 Foundation of Ontology Model . 1 2.1.2 Interface Design . 2 2.1.3 V
10、ersion Controlling . 2 2.1.4 Unit Testing . 2 2.1.5 System s Frame Picture . 2 Chapter 3 Introduction of the System Concept. 2 3.1 Ontology and Concept in Ontology. 2 3.1.1 Basic Concept of Ontology . 3 3.1.2 Main Composition of Ontology . 4 3.1.3 Semantic Web . 4 3.1.4 Function of Ontology . 5 3.1.
11、4 Knowledge Ontology Language . 5 3.2 Similarity of the Semantic . 6 Chapter 4 Application of the Measurement of Semantic Similarity . 6 4.1 OWL Individual Similarities and Sorting Algorithm . 6 4.1.1 OWL Similarity Calculation Method . 7 4.1.2 VectorSorting Algorithm . 12 4.2 Foundation of Semantic
12、 Retrieval System . 13 4.2.1 Design Ideas and Key Issues . 13 4.2.3 Description of Decomposition Query Processing Steps . 14 4.3 Application of Knowledge Service in Inquiry and View. 15 4.3.1 OWL-based Individual Inquiry . 15 4.3.2 Similar Inquiry and View . 16 Chapter 5 UML Modeling . 17 5.1 Use Ca
13、se Diagram . 17 5.2 Class Diagram . 18 5.3 Sequenial Diagram . 18 5.4 Package Diagram. 19 Chapter 6 Instance of the System. 20 6.1 Interface Testing . 20 6.2 File Flag Testing . 22 6.3 Result Processing Testing . 23 Chapter 7 Summary . 24 Acknowledgement . 26 References . 27 基于语义的图像信息检索 第 1 页 共 33 页
14、 第一章 引言 20 世纪 90 年代初,大规模图像集不断涌现,研究者们提出了基于内容的图像检索( content-based image retrieval, CBIR) 。 CBIR 使用颜色、纹理、开关及区域等视觉特征,而这些视觉特征是唯一可以独立、客观地直接从图像中获得的信息。并且这一方法成为20 世纪 90 年代图像检索技术研究的主流。 CBIR 的主要特点是利用图像本身包含的客观视觉特征,图像相似性体现在视觉相似性上。然而,人们判断图 像的相似性仅仅建立在图像视觉特征的相似性上。用户在进行图像检索时,总是存在一个大致概念,这个概念建立在图像所描述的对象、事件以及表达的情感等含义上。
15、理想的状况下,用户主要根据图像的偏方,而不是颜色、纹理、形状等特征,直观地进行分类并差别图像满足自己的需要程度,这些图像的含义就是图像的高层主义特征,这种特征是无法直接从图像的视觉特征获得的,而要根据人的知识来判断。正是由于人对图像相似性的差别依据与计算机对相似性的差别偏执之间的不同,造成了人所理解的“语义相似”与计算机理解的“视觉相似”之间的“语义鸿沟”的产生 。可以说 CBIR 中的“语义鸿沟”就是:由于计算机获取的图像的视觉信息与用户对理解的语义不一致性而导致的低层和高层检索需求间的距离 2。因此语义图像检索已成为解决图像简单视觉特征和用户检索丰富语义之间存在的“语义鸿沟”问题的关键。使
16、计算机检索图像的能力接近人的理解水平,这就是语义图像检索的目的。 第二章 系统的总体设计 本系统采用敏捷软件开发方式进行开发。利用多次迭代的方法进行系统功能的逐步扩展。因为本系统用 Java 语言可以,所以我们利用 IBM 的开源工具 Eclipse 作为我们的开发工具,并且利用 Eclipse 自带的 JUnit 工具进行系统有关的单元测试,以 CVSNT 作为版本控制器,协调项目小组的迭代开发。 2.1 系统的主要关键技术 2.1.1 本体模型的建立 基于 OWL 基于语义的图像信息检索 第 2 页 共 33 页 语义网络 手工标志图像 2.1.2 界面设计 主要是用于图像的读取和显示。用
17、户利用图形界面进行文件输入和输出。并且在输入时,把图像的相关语义读取并保存在一个文本文件里, 供图像检索时候使用。 2.1.3 版本控制 系统利用 CVS 进行版本控制, CVS 系统可以有效的进行版本变更控制,和整个系统的整合。 2.1.4 单元测试 整个系统在开发过程中, 采用 JUnit 进行单元测试,可以有效的把 Bug 控制在系统开发的早期, 使得系统在整个生命周期内的更加的健全。 2.1.5 系统框架图 (如:图一) : 第三章 系统相关概念简介 3.1 本体及本体中的概念 本体概念的语义相似性,顾名思义包含了三个要素:本体概念、语义和相似性。本体概念是相似性度量的对象,语义是相似
18、性度量的依据,而相似性是人对概念语义产生的一种心基于语义的图像信息检索 第 3 页 共 33 页 理反应。因此分析本体所表述的语义特点是建立本体概念语义相似性度量模型的基础。本节阐述了语义相似性三要素之本体概念和语义,分析了其在相似性度量中的作用。 3.1.1 本体的基本概念 本体论是西方哲学中形而上学的一个分支学科,研究的是关于自然和存在的关系 3。在二十世纪的分析哲学中,本体论是研究实体存在性和实体存在本质等方面的通用理论。在中国古代哲学中,本体论又被称为“本根论”,是指探究天地万物产生、存在、发展变化的根本原因和根本依据的学说。 4综上所述,我们可以知道本体( Ontology) 最早是
19、一个哲学的范畴,原意指的是:“客观存在的一个系统的解释和说明,客观现实的一个抽象本质”,后来随着人工智能的发展,被人工智能界给予了新的定义,基本上可以定义为:“ 概念模型的明确的形式化规范说明”。 在知识工程领域中 也 存在着多种本体定义。其中 Studer 在 Gruber5和 Burst6的定义基础上给出了一个较全面的本体定义 7。 “ 本体是概念化的一个显式的,共享的形式化表示。概念化表示本体是一个用由一组相互关联的概念构成的抽象模型,它被用于解释现实世界某些现象。显式表明构成模型的概念类型和约束是被显式定义的。形式化指本体应是计算机可理解的。共享反映了本体表述的知识是共性的、开放的知识
20、。 ” 以上的定义体现了本体的含义: 8 概念模型( capitalization) 通过抽象出客观世界中一些现象( phenomenon)的相关概念而得到的模型,其表示的含义独立于具体的环境状态。 明确( explicit) 所使用的概念及使用这些概念的约束都有明确定义。 形式化( formal) 本体是计算机可读的。 共享( share) 本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而不是个体。 基于语义的图像信息检索 第 4 页 共 33 页 3.1.2 本体的主要构成 通常意义上,本体包括概念的定义、概念之间的关系、公理和实例,它们共同限制术语在特定领
21、域中的解释和应用。 1. 本体中的概念是广义 上的概念,除了可以是一般意义上的概念外,也可以是任务、功能、行为、策略、推理过程等。本体中的这些概念构成了一个分类层次。 2. 本体中的关系表示概念间的关联,其中最典型的二元关联是概念间的蕴涵关系。它使概念形成一个层次结构。 3. 公理用于描述一些永真式,它是在领域中任何条件下都成立的断言。 4. 实例是指概念的具体实例,本体中的所有实例构成了本体概念的特定领域的指称域。 3.1.3语义网 9 WWW 的缔造者 Tim Bemers-Lee 于 2000 年 12 月在 XML 2000 会议上,提出了下一代 因特网的概念 语义网( Semanti
22、c Web),并于 2001 年 5 月在科学美国人杂志上发表同名论文 ” The Semantic Web” ,为人们勾勒出一幅未来语义网的美好前景。 语义网的目标是,为因特网上的信息提供具有计算机可以理解的语义,从而满足智能主体( Agent)对 WWW 上异构、分布信息的有效检索和访问,实现网上信息资源在语义层上的全方位互联,并在此基础上,实现更高层的、基于知识的智能应用。 10 Tim Bottlers-Lee 提出的语义网层次结构如图二所示 11。该结构从底层到高层依次为Unicode( 统一字符编码)和 URI( Universal Resource Indicator,统一资源定
23、位符), XML、RDF 和 RDF Schema(简称 RDFS)、本体( Ontology)、逻辑( Logic)证明( Proof)和信任( Trust) ,在语义网七层结构中的 XML、 RDF 和 Ontology 三层,主要用于表示 Web 信息的语义,因而是系统的核心和关键所在。 基于语义的图像信息检索 第 5 页 共 33 页 3.1.4 本体的作用 本体的目标是捕获相关的领域的知识,提供对该领域知识的共同理解,确 定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇之间相互的关系的明确定义。换句话说, 构造本体的目的都是为了实现某种程度的知识共享和重
24、用。综合参考文献 12,13认为本体的作用主要有以下三个方面: 1本体提供了一种新的知识获取手段,规范化的描述有利于确定知识系统的需求,澄清领域知识的结构。 2. 采用形式化描述的本体作为核心,能提高知识系统的重用和可靠性,为知识更新和演化打下坚实的基础。 3. 采用统一的术语和概念,使不同系统间的知识共享成为可能。 3.1.4 知识本体语言 为了让计算机能理解本体,通常采用具有推理能力的形式化描述语言来表述本体。虽然框架( Frame) 14,概念图 15,描述逻辑 16都被用于打桩本体,但在过去五年中,占统治地位的是 OIL 17, DAML+OIL18和 OWL19等基于描述逻辑的知识本体语言。在这三者中,本文以 OWL DL 描述的本体概念为研究对象。 OWL( Web Ontology Language) 是 W3C 组织推荐的本体表述语言,它建立在描述逻辑基础之上,提供多种形式语义的词汇,具有良好的机器可理解性。 OWL 包含三个表达能力 依次