1、1数字图书馆联盟中基于概率映射的集成模型研究中图分类号:G250.76 文献标识码:A 文章编号:1003-9082 (2013) 11-0027-03 一、前言 数字图书馆(Digital Library,以下简称 DL)是虚拟的图书馆,其目的是在网络环境下构建共享的可扩展的知识网络系统,提供超大规模的,分布式异构数字化信息的智能检索和服务的知识中心Bor99, 从上世纪 90 年代,不同的研究者从不同的角度对数字图书馆进行了研究Fox93Bak96,但是由于没有一个单独的数字图书馆能够拥有满足用户需求的所有资料和信息,因而完全自足的图书馆是不可能的Pede00,所以当人们寻找所需资源时,需
2、要访问多个数字图书馆(DL) ,同时由于每个 DL 是自治的,异构的,这样查询请求不得不按照每个 DL 提供的方式进行提交。为了解决该问题,人们提出联盟数字图书馆。所谓联盟数字图书馆(Digital Library Federation,以下简称 DLF)是指正式或非正式合作的操纵 DLs 的一些组织,它们同意支持一组共同的服务和标准,以便在成员间共享 DLs 的资源和服务,其目标是向用户提供一个将异构,分布式 DLs 无缝集成的视图,实现对 DLs 资源的透明访问Bir2001 AnVi99。 在数字图书馆联盟中,为了实现互操作,一个挑战就是实现数据的共享,信息集成技术被采用来解决该问题Ni
3、k1998。该技术Lenz2002 2Halevy2006 可以聚集分布的不同数据源,为用户提供统一的视图进行访问。在中介模式下,所有数据源映射到一个单一的领域概念,实现集成,因而集成系统依赖于数据源与中介模式的语义映射关系Renee 2000。在数字图书馆联盟中,由于每个 DL 具有自治性和动态性,联盟中的DL 不断改变其状态(加入,激活,休眠,或退出) ,每个 DL 的数据也在不断变化和增长(包括可用数据库种类的变化和数据量的增加) ,如果实现手工的模式匹配和映射是耗时费力低效的Alon 2005, Shvaiko 2005。因而为了满足高速增长的 web 数据和电子商务集成的需求,出现了
4、支持自动化匹配的研究的方法和工具E. Rahn 2001。然而在现实应用中,由于信息的异构性和自动匹配工具的局限性,使得创建和维持精确的映射关系几乎是不可能的事情,从而导致映射经常是不准确的Dong2007。 数据的不确定性问题在今天变得日益突出,在诸如数据集成,科学数据,IR,的各个领域里面,出现了快速增长的大量不确定数据,这会在数据本身,数据实例间的映射上(如上文所说) ,或者是查询处理当中产生不确定性。对于这些不确定性,给越来越多的组织和用户带来管理的问题:清理的成本过高(如 web 数据的集成) ,甚至是不可能清理的;在Dalv 2007中提出了数据不确定性所面临的挑战和要解决的问题。
5、 本文的主要工作如下: 1 提出基于构建数字图书联盟的模型。 2 把不确定性引入传统的数据集成理论模型,建立了一个具有概率3性的数据集成模型。 3 对于模式匹配的不确定性,重点讨论了 BY-TABLE 下的数据概率表示和查询回答。 二、数字图书馆联盟(DLF)的信息集成模型 下面通过对利用数据集成技术构建的数字图书馆联盟的查询过程描述来说明集成中的不确定性。 图 1 描述了一个数字图书馆联盟 DLF 的信息集成模型,DLF 中的全局模式 Global Schema 提供联盟中共有的概念标准,每个 DL 可把自己的数据源(DL source)通过局部模式(Local Schema)与全局模式进行
6、映射;用户可通过 DLF portal 在全局模式上提交查询;Metadata Repository提供了共有的元数据标准,查询引擎(Query Engine)负责接收用户查询请求,并对查询计划进行优化和执行;当查询到达每个 DL 时,由wrapper 负责对查询进行解释并完成本地查询。 图 1 数字图书馆联盟 DLF 的信息集成模型 在该集成系统中,如果映射通过自动或半自动方式建立,会不可避免地考虑映射的概率。当一个查询提交到集成模式上时,查询的结果会出现不止一种带有概率的查询重写形式。 三、 概率的数据集成模型 基于Lenz2002提出的数据集成的参考模型,本文定义了概率性的数据集成模型(
7、如图 2) ,其形式化描述如下: 图 2 概率性的数据集成模型 一个数据集成系统 是一个四元组 ,其中: 4G 是全局模式,用使用了一组相关字母表 Ag 的逻辑理论来表达;S是源数据的模式,用使用了一组相关字母表 As 的逻辑理论来表达; 四、模式映射的概率 在进行模式的自动映射时,可能会产生几种候选的模式对应关系,每一种都有其出现的概率,其元组的概率分布情况分为两类Dong2007:1) 在所有的数据上会采用一种相同的映射关系,称为 by-table 映射,这是本文所关注的。2) 在源数据的关系中,会出现多个元组的子集采用不同的映射关系 称为 by-tuple 映射。 本文中,我们讨论的是关
8、系型数据模型,一个模式是一个关系集,每个关系是一个属性集。我们选取 SQL 中 select-project-join(SPJ) queries 来进行讨论;同时,我们把 LAV 的形式限定在 S 中每个关系由G 中一个模式采用 project 来表示。 假若在 DLF 上的全局模式 G 中,有一个关系 DLF_DIRECTORY(题目, 出版者,时间,创作者,科目,格式,类别) ;一个电子图书馆 DL_1,其局部模式中存在一个关系 DL_DIRECTORY(名称,发行者,日期,作者,主题,规格,类型) ,其数据实例如图 3;在 DL_1 上,进行模式自动匹配产生的可能的匹配及其概率如图 4,
9、用逻辑表达式可表达为: DL_DIRECTORY(名称,发行者,日期,作者,主题,规格,类型) ?DLF_DIRECTORY (题目, 出版者,时间,创作者,科目,格式,类别) DL_DIRECTORY (名称,发行者,日期,作者,主题,规格,类型) ?DLF_DIRECTORY (科目, 出版者, 时间, 创作者, 题目, 格5式, 类别) DL_DIRECTORY (名称,发行者,日期,作者,主题,规格,类型) ?DLF_DIRECTORY (题目, 创作者, 时间, 出版者, 类别, 格式, 科目) 六、相关工作 在数据集成领域,Levy 2000提供了几种语言来描述数据源的内容,以及数
10、据源之间的交换和相关的重新算法。Lenz2002从讨论了一系列理论问题,包括对集成系统的建模,查询处理机如何处理不一致的数据源和查询的推理。Cal 2005对数据集成系统进行了抽象,并且把全局模式表达为本体形式。 目前概率数据的研究集中在概率数据库和概率数据管理上。关于概率映射的话题近些年才开始Dalv 2007 Das 2006Suciu2005,Gal 2006通过使用半自动的映射工具提高排在前面的映射的准确度来得到top-k 个模式映射。Nott 2007综合了 IR 和机器学习技术来发现适宜的若干映射。然而以上理论均没有把映射和不确定性作为一个整体来讨论。Dong2007为概率映射提供了两种可能的语义:BY-TABLE 和 BY-TUPLE,并且在近似的模式映射上使用了复杂的查询算法。 七、结论 本文讨论了概率数据集成系统中包括理论模型,概率映射,概率查询。基于给定的一个虚拟数字图书馆联盟,本文阐述了一个带有概率的数据集成理论模型,讨论模式映射的概率,并描述了其上的查询算法。 由于本文仅讨论了在 BY-TALBE 映射上的概率情况,在未来将对 BY-6TUPLE 映射上的概率情况进行研究。