1、1领域导向的数字图书馆移动视觉搜索引擎建设研究摘 要:视觉大数据资源作为大数据的重要组成部分,其价值产生机理与转换规律具有高度的领域依赖性。文章从数字图书馆移动视觉搜索引擎的领域依赖性分析入手,运用模块化设计思想对其业务流程进行了分析,在此基础上,提出了一种领域导向的、自适应的、可演化的数字图书馆移动视觉搜索引擎。最后,分析了该引擎的各功能模块,并对该引擎的自适应性、可演化等特征进行了探讨。 关键词:移动视觉搜索;数字图书馆;搜索引擎;领域导向 中图分类号: G254.9 文献标识码: A DOI:10.11968/tsyqb.1003-6938.2016092 Abstract As an
2、important part of big data, visual big data resources have a high degree of field dependence on the mechanism and the law of the conversion. This article from the digital library mobile visual search engine field dependence analysis, using the modular design of the business process, based on this, p
3、uts forward the adaptive evolution of digital library can be a domain oriented, and mobile visual search engine. Finally, the function modules of the engine are analyzed, and the characteristics of the adaptive and the evolution of the engine are discussed. 2Key words mobile visual search; digital l
4、ibrary; search engine; field oriented 1 引言 随着互联网和信息检索技术的飞速发展,文本、图像和视频等不同类型的视觉资源及关联信息(如评论、描述、用户行为等信息)更加紧密的融合起来,以一种全新的形式来描述视觉资源之间的语义、主题和事件,并逐渐成为各类数字图书馆重要的信息载体及各种信息搜索引擎、系统与平台的重点处理对象。据 IDC 于 2012 年发布的报告显示预计到2020 年,全球数据总量将超过 40ZB(约 4 万亿 GB) ,其中 75%来自于互联网环境,数据类型主要是文本、图像与音视频等。面对如此庞大的视觉资源,如何对其进行有效的组织、描述、表达与
5、处理,使用户能够便捷地找到最有价值的信息,自然就成为信息检索、数字图书馆等领域亟待解决的前沿问题。 视觉资源的价值发现需求与语义检索、移动互联网技术的跨界融合有效推动了移动视觉搜索理论、模型与技术的发展。而移动智能终端、移动互联网及移动应用等软硬件条件的迅速发展,也为视觉搜索从 PC 端向移动终端发展提供了软硬件支持1。同时,各类相关技术趋于成熟,也为数字图书馆移动视觉搜索提供了全方面的技术支持。一是 FRBR、RDA与 BIBFRAME 等可为视觉大数据资源语义本体概念模型的构建提供支持;二是链接开放数据(Linking Open Data,LOD) 、关联数据(Linking Data)
6、、资源描述框架(Resource Description Framework,RDF)等可为视觉大数据资源的组织、描述与表达提供支持;三是3OpenCV、RAVL、ARToolKitPlus 与 CImg 等开源计算机视觉库可为视觉资源的分析与处理提供支持;四是 Web 3.0、移动互联网、语义检索与JAVA 等可为移动视觉搜索平台建设提供支持;五是现有的 Google 知识图谱、百度识图、爱奇艺大脑与淘宝拍立淘等成功案例可提供经验支持。而本文的研究目的是结合已有相关理论、技术与应用成果,提出一种面向视觉大数据资源的自适应的、可演化的数字图书馆移动视觉搜索引擎。2 数字图书馆移动视觉搜索的领域
7、依赖性与业务分析 2.1 数字图书馆移动视觉搜索的领域依赖性分析 2015 年 9 月,国务院印发了促进大数据发展行动纲要 ,目的是要提升“领域数据资源的获取和利用能力” 、实现“领域信息资源的汇聚整合和关联应用” , “推动跨领域、跨行业的数据融合和协同创新”3。2016 年 7 月,国家自科基金委发布的重大研究计划大数据驱动的管理与决策研究提出, “大数据价值的产生机理和转换规律具有高度的应用领域依赖性”4。2015 年 7 月,国家社科规划办将“面向大数据的数字图书馆移动视觉搜索机制及其应用模式研究”列入重大招标课题5。视觉大数据资源作为大数据重要组成部分,其价值产生机理与转换规律也必然
8、具有高度的应用领域依赖性。 移动视觉搜索概念源于 2009 年 12 月斯坦福大学主办的第一届Mobile Visual Search 研讨会,在过去的七年里,其理论与应用研究尽管有了较大发展,但受限于移动互联网环境和技术、视觉处理技术等影响,现有相关研究还具有一定局限性,已有研究重点还是集中在视觉资4源处理技术6-7、模式探讨8-9、机制建设10、架构分析11与标准化问题分析12等方面,而忽略了数字图书馆本身的领域特性分析、移动视觉搜索引擎研究与视觉知识库构建分析等内容的研究。与大数据、互联网环境中信息资源的泛在化、非结构化或半结构化存在形式不同,各类数字图书馆均有着较强的专业性、领域性和可
9、拓展性,且其在视觉大数据资源的语义组织、描述与表达形式等方面有着先天优势,能够较好的满足视觉大数据资源的领域依赖性处理需求。 此外,数字图书馆移动视觉搜索引擎需要处理的是各种各样的视觉大数据资源。而视觉大数据资源来源于互联网、大数据环境,视觉资源彼此之间存在着较大的语义鸿沟(见图 1) 。其中,视觉资源的底层视觉特征大多处于高维空间,难以分析、处理、存储和计算,且高维向量还存在着稀疏性强、噪声高等问题,而这些问题处理方法极大地依赖于其所处领域。视觉资源高层语义信息主要包括其所处的视觉场景语义(如商场、街道、楼栋等) 、视觉主体行为语义(如演唱、阅读、行走等)和视觉主体情感语义(如高兴、悲伤、安
10、静等) ,而这些高层语义信息的分析与处理难度更大,且涉及到的知识领域更多,领域依赖性更强。因此,目前已有研究大部分是在选择特定应用领域之后,结合其领域的专业特征,对视觉资源的中层语义建模来进行研究,通过构建视觉资源底层视觉特征到中层语义模型之间的映射,将底层高维度的视觉特征映射到中层低维度的语义空间中去,进而缓解视觉资源的底层视觉特征与中层语义之间的语义鸿沟。2.2 数字图书馆移动视觉搜索的业务流程 5文献1213曾对移动视觉搜索给出过明确定义,即:移动视觉搜索是通过移动智能终端获取现实世界的图像或视频作为检索对象,通过移动互联网去搜索其关联信息的一种信息获取方式。并对其相关业务流程、服务模式
11、及基本特征等问题进行过详细描述。笔者也曾对现有商业型视觉搜索产品进行过调研,根据现有商业型视觉搜索产品使用情况来看,部分产品的相关业务流程描述过于技术化,而模块化、领域化思想体现的不是很明显,而模块化、领域化的业务流程描述方法有助于体现数字图书馆移动视觉搜索引擎的可拓展性、自适应性、可演化性和开放性。目前已发布的 Google 知识图谱、百度识图、淘宝拍立淘等商业型视觉搜索产品,其相应体系架构、业务流程的表达与描述都具备了较强的模块化、专业化特征,而对应的应用与实践也具有较强的领域依赖性。从模块化、领域化角度对数字图书馆移动视觉搜索的业务流程(见图 2)来看。当用户确定视觉搜索条件,使用移动智
12、能终端输入待检索的视觉资源检索式或检索词后,通过移动互联网传递至服务端后,激活移动视觉搜索引擎,执行搜索任务后,将搜索结果通过移动互联网反馈至用户移动智能终端上。 通过移动视觉搜索引擎,可实现移动客户端从信息检索向概念检索、知识检索与视觉语义检索的转变,支持用户按照视觉资源、主题、知识与概念检索而不仅仅是关键词、字符串检索,从而实现真正的移动视觉搜索。领域导向的数字图书馆移动视觉搜索引擎,能以视觉资源本体、概念或主题等为检索对象,以多元知识融合方式向移动用户反馈其关联6知识。其业务流程包含了 3 层含义: (1)移动视觉搜索引擎本身是一个具有特定模式的关联视觉实体的多元视觉知识融合框架。从图论
13、角度来看,移动视觉搜索引擎本质上是一种概念网络,其中的节点表示信息检索体系中的实体、关系、接口、模块与中间件,而彼此之间的各种应用关系则构成了网络中的边。 (2)移动视觉搜索引擎的研究价值在于,它是构架在当前移动互联网基础之上的底层知识服务框架,借助它可在移动互联网环境上建立视觉资源之间的链接、关联与因果关系,从而以最小的成本将视觉资源间关联信息组织起来、蕴含的价值挖掘出来、可被利用的知识融合起来。 (3)移动视觉搜索引擎的应用价值在于,它能够改变现有的信息检索模式。一方面通过视觉知识融合与关联知识推理实现视觉资源的概念检索、知识检索与语义检索;另一方面,以移动化、模块化与领域化方式向用户展示
14、经过有效组织、分类与融合的结构化视觉关联知识。 3 数字图书馆移动视觉搜索引擎功能与特征 3.1 数字图书馆移动视觉搜索引擎的架构 正如 Google 前任研究主管 2010 年在Nature发表论文“2020 Vision”提到的:“文本、图像、视频数据及互联网用户交互信息和各种传感信息,将会给搜索引擎未来发展带来巨大挑战”14。数字图书馆移动搜索引擎能在一定程度上为这些问题提供一些参考。 从数字图书馆移动视觉搜索引擎架构图来看(见图 3) ,数字图书馆移动视觉搜索引擎的框架主要由视觉资源层、视觉知识库、视觉知识验证与知识计算、搜索任务执行与知识存储、搜索服务与应用等 5 个模块7组成,而整
15、个移动视觉搜索引擎的运营、管理与服务过程都依赖于网络环境(如移动互联网、物联网环境等) 。这些模块基本实现了一个全生命周期的移动视觉搜索,从视觉资源获取与处理、视觉知识融合、验证与计算、搜索任务执行、知识存储到搜索服务与应用的移动视觉搜索处理业务流程。 3.2 数字图书馆移动视觉搜索引擎模块分析 数字图书馆移动视觉搜索引擎架构,包括逻辑结构与模块结构以及构建所采用的技术(体系架构) ,本文主要对前者在此加以讨论。 3.2.1 视觉大数据资源层构建 视觉大数据资源层是数字图书馆移动视觉搜索引擎的基础。视觉大数据资源层主要包括各种类型的数字图书馆视觉资源库(如文本、图像、视频、古籍、拓片等视觉资源
16、,其目标是解决数字图书馆视觉资源获取与数字化问题)与视觉大数据存储模块。在数字图书馆中,有些专业、学科或领域的视觉资源具有较强的专业性与独特性,甚至是唯一性,容易分类与标注,但难以组织、分析与表达,且视觉资源特征提取、匹配与语义检索难度较大。但大部分视觉资源的概念建模、关联数据表示、组织分析具有一定的通用性,因其相应的应用领域较广泛、软硬件技术较成熟、标准规范较统一,使其视觉资源的获取与存储难度略小。 在视觉大数据资源层中,视觉资源是以知识单元、实体单元或关系单元为单位进行存储的,存储技术主要采用现有的云计算、大数据存储技术。如 Google 知识图谱与百度识图都拥有丰富的视觉大数据资源,其对
17、应的视觉大数据资源获取与存储都是以“实体-关系-实体” “实体-属8性-值” “实体-关系-主题”和“实体-关系-知识”等三元组方式作为视觉搜索知识单元、视觉资源实体单元和视觉关联关系单元的基本表达方式,将存储在视觉大数据资源层中的所有视觉资源、关联信息与关联关系有效地融合起来,进而构成了庞大的视觉知识关系网络,形成视觉搜索的“知识网络” 。 3.2.2 视觉知识库构建 视觉知识库是在视觉大数据资源层之上,是数字图书馆移动视觉搜索引擎的核心。在视觉知识库中存储的是经过分析、组织、提炼和融合的视觉知识,通常通过视觉资源本体库来管理各类视觉资源,借助视觉资源本体库、关联数据与视觉知识融合等模块,结
18、合移动视觉搜索服务需求、语义逻辑、关联规则、概念建模和约束条件的支持能力,来规范移动视觉搜索服务的实体、本体、关系与实例等之间的联系。视觉知识库在数字图书馆移动视觉搜索引擎中的地位相当于工业制作过程中的“模具” ,将输入的各种视觉大数据资源当作“工业原材料” ,经过“模具”的处理和加工后,就形成了较为规范的视觉知识库。构建科学、合理、标准的视觉知识库能够大大提高数字图书馆移动视觉搜索体系的服务效率与系统性能。 视觉知识库的构建从业务逻辑上来看,可认为其主要包括视觉知识获取和视觉知识融合两大部分。其中,视觉知识获取的主要目的是从视觉大数据资源层挖掘和提取相关的视觉资源本体、概念、关系和实例。视觉
19、知识融合的主要目的是实现视觉知识的多源融合。视觉知识库的构建内容主要包含三部分:(1)用以获取各类视觉资源本体的视觉本体库;(2)用以存储各种通用性、常识性知识的基础视觉知识库,这些视觉知9识可直接从视觉本体库或视觉大数据资源层中获取;(3)用以存储各个特定领域知识的视觉知识库(从左至右依次为领域 1 到领域 n) (见图 4) 。前文提到,由于每个特定领域的视觉资源、视觉知识有不同特征,故将领域视觉知识库进一步划分为三个部分:交叉的基础视觉知识库、领域基础视觉知识库和领域关联视觉知识库。其中,交叉的基础视觉知识库是指从基础视觉知识库中提取出来的,经过进一步分析和处理,并与特定领域相关的基础性
20、视觉知识所组成的。领域基础视觉知识库是用来描述某一个或多个特定领域的相关基础知识。而为了获取特定领域最新的、最全的、最可靠的领域知识,领域关联视觉知识库就需要从开放的互联网环境或视觉大数据资源层中提取该领域最新的相关业知识。 在视觉知识库构建图中,空心节点和实心节点分别代表从互联网环境、视觉大数据资源层中提取的视觉知识,而节点之间的边代表视觉知识之间的关联关系。而伴随着数字图书馆的数据规模与类型的不断扩大与数据内容的不断更新,视觉知识库还可实现自演化、自适应增长。这些视觉知识库的构建共同为移动视觉搜索引擎的视觉知识验证与知识计算提供接口服务。此外,还可以充分利用已有的各类知识库(如 Googl
21、e知识图谱、DBpedia、YAGO、WikiTaxonomy 等)实现相应的知识融合。 3.2.3 视觉知识验证与知识计算 在完成视觉知识库建设过程之后,将会得到具有领域特征的显性视觉知识。除了显性视觉知识之外,通过移动视觉搜索引擎的知识计算功能,包括视觉知识计算、视觉属性计算、视觉关系计算与视觉实例计算等,进一步计算或推理得出相应的隐性视觉知识。 10通过视觉知识库的构建,能够从各种非结构化、半结构化或复杂结构化的视觉大数据资源中获取大量有价值的视觉知识。但在这些获取到的视觉知识中,可能会包含大量冗余、错误或不完整的视觉知识内容,且视觉知识之间还可能存在关联关系扁平化,彼此之间的逻辑性和层
22、次性不强等问题,因此,就有必要通过某种手段来对其进行检验、清洗和整合。为了检验视觉知识库所获取视觉知识的完整性、可靠性与关联性,以及视觉搜索服务中间件和接口的可用性与有效性,就需要对视觉知识及相关服务接口进行验证,这称之为视觉知识验证过程。主要的验证方法是通过视觉知识库中各种视觉知识、领域知识与专家知识计算方法来检查、验证或过滤相应错误的、冗余的、冲突的或不完整的视觉知识。 3.2.4 移动视觉搜索任务执行与知识存储 通过视觉知识验证与知识计算模块的视觉知识,就能够满足用户移动视觉搜索需求的信息。在经过验证与处理之后,在数字图书馆移动视觉搜索引擎中,就将其分别存储在一个大规模图数据库(GDB)或大型关系型数据库中,其中,前者作为大规模非结构化和半结构化数据的存储系统,能够支持超过上百亿条视觉知识的存储,它存储的是显性视觉知识;后者作为大规模的结构化和复杂结构化数据的关系型数据存储系统,它存储的是隐性视觉知识。相比较而言,前者主要采用图论方法,通过定义存储节点和关系边的图数据模型来存储视觉知识的,对应的存储节点和关系边都有唯一的描述 ID,且每一个 ID 对应着多个视觉属性。因此,基于这种存储模式所形成的视觉知识存储网络具备较强的自适应、可演化等特性。