1、上海市哲学社会科学规划课题信息资源基础管理性元数据框架研究元数据框架 2019-3-241信息资源基础管理性元数据框架FBAMA Framework for Basic Administrative Metadata撰写者: 信息资源基础管理性元数据框架研究课题组发布日期: 2008-06-06标识符: http:/ 无被替代: 无最新版本: http:/ 推荐稿文件说明: 本文件阐述了管理性元数据的基本概念和作用。从信息资源生命周期的角度,提出了元数据框架的设计原则与应用扩展原则,构建了信息资源基础管理性元数据框架及其数据模型。制订了元数据框架的数据词典、编码形式,提供了应用实例。其中数据词
2、典和管理性元数据的描述语言与语法结构为单独的文件。上海市哲学社会科学规划课题信息资源基础管理性元数据框架研究元数据框架 2019-3-242目次1. 前言 .32. 作用 .63. 原则 .64. 数据模型 .75. 管理性元数据的语义 .96. 管理性元数据的描述语言与语法结构 .107. 虚拟情景应用实例 .11参考文献 .82上海市哲学社会科学规划课题信息资源基础管理性元数据框架研究元数据框架 2019-3-2431. 前言1.1 从描述性元数据到管理性元数据利用元数据对信息资源,尤其是数字信息资源进行开发、利用、管理,已经成为信息资源建设的基本手段之一。元数据最初用于描述信息资源的外部
3、与内容特征,以便对信息资源进行有效的检索、定位或书目控制。这一类元数据现在一般称为描述性元数据,如MARC、 DC(Dublin Core)1、MODS 2等。遵循标准化、规范化、开放性的原则,开发、应用描述性元数据,增进了信息系统的互操作性与开放性,通过共享元数据,进而共享元数据所描述的信息资源,促进了信息资源的无障碍交流。元数据并不局限于描述信息资源的外部与内容特征,人们在信息资源开发、利用、管理的不同阶段与不同层次,创建了不同功能与作用的元数据。可以从不同的角度对这些不同功能与作用的元数据加以归类。在图书情报领域通常把元数据分为描述性元数据、结构性元数据与管理性元数据。描述性元数据上文已
4、作了介绍。结构性元数据主要确定元数据的语法结构或者信息单元之间的逻辑联系,比如 HTML、XML 等置标语言以及 METS 3模块中的结构性元数据。管理性元数据是专门对信息资源实施管理的元数据。它描述信息资源管理过程中所涉及的管理信息以及由管理信息进一步揭示的管理政策与管理机制,比如与信息资源的评估、选择、使用权限、加工等有关联的信息与相关机制。管理性元数据有助于对信息资源实行自动化与网络化的科学管理,有利于信息资源管理信息的跨系统交换与共享。对描述性元数据和结构性元数据国内外都已开展了相当深入的研究,并有若干应用成果。与此相比,管理性元数据的研究尚处于起步阶段。一是对管理性元数据尚无明确的界
5、定。有的研究者把描述和管理元数据的元数据称为管理性元数据,即把管理性元数据的描述对象确定为元数据本身。有的研究者依据 METS 的元数据分类,把技术元数据、知识产权元数据、来源元数据、数字起源元数据 4 类元数据总称为管理性元数据。虽然有人把管理性元数据界定为维护和管理信息资源的元数据,但其范围只涉及创建者元数据、存取权限元数据与数据处理技术元数据。有的研究者从信息资源服务组织管理机制的角度剖析管理性元数据,这有助于把握管理性元数据的本质,但把管理性元数据局限于信息系统的服务环节,无疑制约了管理性元数据可以发挥的应有作用。二是对管理性元数据的研究还缺乏条理性与全面性。从目前对管理性元数据的研究
6、成果来看,基本上所有的方案都是针对某一特定领域(如元数据管理、资源采集管理、权限管理、隐私保护管理等)的元数据。由于不能从信息资源管理的总体角度来探讨管理性元数据,缺乏对管理性元数据的总体认识,就难以把握它的本质与基本规律。三是国内管理性元数据的应用实例还比较少。比较典型的是清华大学建筑数字图书馆与 CALIS 学位论文数字图书馆的元数据方案。清华大学建筑数字图书馆元数据方案设置了“管理”元素,实际上是一个管理元数据的元数据4。CALIS 学位论文数字图书馆定义了描述性元数据与管理性元数据,其中管理性元数据基本上应袭了 METS 的架构5。同国外相比,国内的应用实例在广度与深度上还存在不小的差
7、距。1.2 信息资源生命周期为了从信息服务机构内信息资源管理的总体把握管理性元数据的特征,我们需要了解信息资源创建、传递、转换、利用的运动过程。图 1 是这一过程的流程图。上海市哲学社会科学规划课题信息资源基础管理性元数据框架研究元数据框架 2019-3-244信息资源创建后或经过信息服务机构传递到最终用户,或直接由用户消费。就数字信息资源而言,并不排除最终用户直接利用的可能性,但在大多数情况下,都需经过信息服务的环节。这里的信息资源可以包括数字信息资源与非数字信息资源。信息服务机构一般包括政府信息部门、图书情报与档案服务部门和其他信息供应商 ,它们从事不同深度与广度的信息采集、加工与提供利用
8、的服务工作。如果信息资源直接被最终用户利用,那么它们之间只存在信息采集关系;如果最终用户通过信息服务的中介获取信息起源,那么信息资源须经过信息的采集、加工、提供利用等复杂的服务环节。图 1 信息资源创建、传递、转换、利用流程图信息资源由产生到最后被用户利用,可称为信息资源生命周期。如前所述,信息资源的这一运动过程存在两个通道:有信息服务中介与无信息服务中介,其中有信息服务中介的运动过程比较完整地体现了信息资源生命周期。我们借助数字资源生命周期模型6(见图 2)对信息资源生命周期,尤其是信息在信息服务机构的运动过程作一简要的剖析。 为了使本元数据框架具有更强的针对性,本框架的具体设计主要以图书情
9、报服务机构为应用对象,但不排除其他信息服务机构采纳本框架的可能性。详见信息资源基础管理性元数据框架应用指南http:/ 提供信息资源信息服务最终用户采集上海市哲学社会科学规划课题信息资源基础管理性元数据框架研究元数据框架 2019-3-245图 2 信息资源生命周期1) 信息资源经采集后聚集为数字对象与非数字对象。2) 非数字对象可加工转换成数字对象。数字对象可复合成复合对象;数字对象与复合对象可进一步通过知识组织体系组织成资源集合。无论数字对象还是非数字对象,无论信息内容还是信息对象、资源集合都可由描述性元数据进行描述。3) 资源集合以及描述信息资源的元数据可以被登记、存档,并通过服务系统提
10、供给用户。1.3 基础管理性元数据框架在数字资源生命周期模型中,信息资源从创建到被用户利用,经历了采集、加工、服务三个基础环节。图 2 中只列出了服务环节的管理过程,实际上采集与加工环节同样受到管理过程的控制。因此从信息资源生命周期的角度观察信息资源管理,可以划分出上述三个基础管理环节,每个环节有其相应的管理机制与管理政策,都可以用元数据进行描述,这些元数据我们称之为基础管理性元数据。如前所述,对管理性元数据的研究缺乏条理性与全面性,是因为没有从信息资源管理的总体来认识管理性元数据。我们所看到的称为管理性元数据的方案以及归之于管理性元数据的方案,有的是管理元数据的元数据,有的是管理信息资源采集
11、的元数据,有的是管理信息资源技术加工的元数据,有的是管理信息系统服务程序的元数据,等等。这些元数据从横向来看,都与信息资源的管理层面相关联;从纵向来看,则仅仅是信息资源生命周期中某一管理环节的管理机制与管理政策的描述。如果我们不是着眼于信息资源管理的总体,而是局限于某一局部的管理功能的话,那么把某一种管理性元数据视为管理性元数据的全部就不足为怪了。上海市哲学社会科学规划课题信息资源基础管理性元数据框架研究元数据框架 2019-3-246把握总体并不意味着需要建立一个“包罗万象的”管理性元数据。对信息资源内容的描述很早就有一套成熟而行之有效的规范与操作程序,这是描述性元数据从一开始就遵循着“基本
12、”与“专门”两个方向开展有条理的研究的重要原因之一。信息资源内容描述的这种“规整性”在信息资源的管理层次并不存在。我们面临的是各种各样的管理机制与政策和非规范的工作程序,虽然为这些管理机制与政策寻找“通用的” “基本的”元素集合要远比确立描述性元数据困难,但这并不意味着不能找到剖析管理机制与政策及其存在环境的理想切入点,通过这样的切入点我们可以挖掘出某些“基础的”管理性元数据。就信息服务机构而言,信息资源生命周期中采集、加工、服务三个基础环节为全面系统地研究管理性元数据提供了很好的切入点。这三个基础环节将信息资源生命周期划分成三个较小的阶段,一方面缩小了研究对象的范围,另一方面增加了一定范围内
13、不同对象之间的共同点。如果说,为信息资源建立一个“包罗万象的”管理性元数据是困难的,甚至是不切实际的,那么在较小的范围内探寻若干基础的管理性元数据或者具有更大扩展性与包容性的管理性元数据框架则是可行的和必要的。这种基础管理性元数据或管理性元数据框架是某一特定管理环节的“基本”元数据,它既反映了这一管理环节管理机制的共性,又能根据更加具体的管理功能进行扩展。在开放的、可扩展的基础管理性元数据逻辑框架下,各个“专门的”管理性元数据不再是孤立的、互不相关的,而是可以相互融合的有机整体。1.4 保存性元数据在信息资源的生命周期中,信息资源,尤其是数字信息资源的长期保存是其有效利用的基本保证,因此有的研
14、究者将保存性元数据纳入管理性元数据的范畴,从权限管理、技术管理、长期保存管理 3 个层面来界定管理性元数据的基本功能。保存性元数据用于信息资源,主要是数字信息资源的长期保存,长久以来一直受到人们的特别关注。OAIS(Open Archival Information System, 开放存档信息系统)提出了一个国际公认的信息资源长期保存参考模型7。METS 与 OCLC 的 PREMIS(Preservation Metadata: Implementation Strategies, 保存性元数据: 实施战略)8也依据 OAIS 制定了比较成熟的保存性元数据方案。此外国际上还有若干比较通用的
15、保存性元数据格式,比如 CEDARS 9、PANDORA/NLA 10、NEDLIB 11。可以说,保存性元数据已经发展成一个相对独立的元数据研究领域。有鉴于此,我们没有把保存性元数据纳入信息资源基础管理性元数据框架之内,如有必要在信息资源管理的整体架构中建立长期保存机制,则可采用已有的、国际通用的长期保存元数据方案。为了使基础管理性元数据框架与保存性元数据之间建立有机的联系,我们在本框架的相应模块设立了特定的元素(参见数据词典) ,作为连接保存性元数据的接口,供用户选用。2 作用管理性元数据对信息资源,尤其是数字信息资源的管理政策与管理机制进行描述,是元数据在信息资源管理层面的拓展。管理性元
16、数据对信息资源采集、加工、利用过程的管理信息加以规范化、开放性的揭示,有助于用户或第三方系统方便地、无障碍地共享本系统的信息资源,有助于各个信息系统在安全机制保障下,通过管理性元数据,有效地交流管理政策与管理机制,促进不同信息系统之间的互操作性。信息系统的信息资源及其集合上海市哲学社会科学规划课题信息资源基础管理性元数据框架研究元数据框架 2019-3-247可以通过管理性元数据与具体系统的绑定来形成实际的表达机制,也可以通过修改管理性元数据方便地定制、更改表达机制,还可以支持智能代理对信息资源及其集合进行自动的搜索与匹配,支持智能代理解析信息资源结构,并在此基础上集成多个信息资源集合。信息系
17、统的管理机制与政策可以通过管理性元数据与具体系统的绑定来形成实际的运行机制,也可以通过修改管理性元数据方便地定制、更改管理机制与政策,还可以支持智能代理对管理政策和规则进行自动的搜索、解析与相应的处理。基础管理性元数据框架提供了基于信息资源生命周期的信息资源采集、加工、服务 3个基本模块,应用系统可以根据实际需求,采用其中的一个或几个模块,并可以按照基础管理性元数据框架的扩展机制,建立更为细化的、适应实际需求的管理性元数据应用体系。在数字图书馆中,可以利用基础管理性元数据框架构建信息资源的管理平台,该平台根据应用环境划分成若干应用平台,如基于基础管理性元数据框架的信息资源采集管理平台、信息资源
18、加工管理平台、信息资源服务管理平台。每个平台下还可以建立若干子平台,如信息资源加工管理平台下的元数据管理平台、数字化加工管理平台等。3 原则3.1 基本原则基础管理性元数据框架的设计遵循了元数据标准规范的模块化、开放性、互操作性原则。1) 模块化原则基础管理性元数据本身是数字图书馆标准规范体系中的一个逻辑模块,对数字图书馆中信息资源的采集、加工、服务实施管理,同时依据信息资源在数字图书馆中的流程进一步划分成采集、加工、服务三个相对独立,而又密切联系的子模块。每个子模块的元素分成三类:通用元素、专用元素、本地元素。通用元素是三个子模块共有的元素,如代理(Agent) (包括用户和工作人员等) 、
19、信息资源、权限等;专用元素是特定的子模块所特有的,如信息采集模块的“采访来源” 、信息服务模块的“服务请求” 。本地元素是特定的应用系统为适应特定的应用环境而扩充的元素,这些元素只适于本地系统的需求,并不参与不同系统之间管理信息的交换。2) 开放性原则管理性元数据框架是开放的,它尽可能复用或嵌套那些被广泛接受和应用的标准规范。比如,元素“代理(Agent) ”的属性基本复用 vCard 元素;“信息资源(InfoResource) ”的描述直接嵌套或链接 DC 或 MARC;数字信息资源的鉴定嵌套 PICS 资源评鉴元数据12 。它实施开放扩展机制,应用单位可根据需要对原框架内的元素实行纵向与
20、横向的扩展。所谓纵向扩展,是对已有元素或修饰词的“细化” ,即根据特定的应用环境,对已有元素或修饰词的语义加以限定,派生出更为专指的子元素或修饰词。所谓横向扩展,是在已有元素集合的基础上建立语义不相重合的新的元素或元素集合,使其具备新的功能。元数据的这种扩展机制是其开放性的具体体现。3) 互操作性原则管理性元数据框架的设计不局限于某个具体应用的内部功能要求,而是优先考虑和充分支持其互操作能力。这种互操作能力首先基于数字图书馆通用的 XML 编码标准,其次上海市哲学社会科学规划课题信息资源基础管理性元数据框架研究元数据框架 2019-3-248在于建立一个以已有标准规范为基石的适用于信息资源管理
21、的基本框架,以便不同应用、不同系统之间可以无障碍地交流管理信息。3.2 扩展原则如前所述,应用单位可根据需要对原框架内的元素实行纵向与横向的扩展13。1) 元数据的横向扩展规则应遵守原框架的结构组成。 各应用系统的元数据规范应最大可能采用原框架的元数据项,并在语义上保持一致; 对原框架的元数据项不能描述的语义可增加元素,但新增加的元素不能与已有元素有任何语义上的重复。2) 为了更准确地描述对象,可以对元数据进行纵向的扩展,即向下细化。 尽可能遵循向上兼容原则(dumb-down ) ,增加的修饰词的语义不能超过被修饰词的语义,修饰词只是对未修饰词的含义范围作进一步的限定; 如果复用来自其他元数
22、据规范的元素或修饰词,须说明来源,使用时严格遵守其语义; 自行制订的修饰词必需遵循向上兼容原则(dumb-down) ,也即修饰词的语义包含于相应的被修饰词,在范围上对未限定元素或未限定修饰词的语义进行限定,在深度上对未限定元素或未限定修饰词的语义进行延伸。对于不具备修饰词知识的用户而言,该修饰词可以像未限定元素或未限定修饰词一样来使用。4 数据模型对需求分析的实体、关系(见需求分析报告) ,参照通行的与信息资源管理相关的数据模型(如和 PREMIS) ,进一步加以抽象与归并,可以得到以下基本的元素。用户、服务者、加工者、采集者、鉴定者、供应者等实体具有相同或类似的属性,都是在信息资源的生命周
23、期中发挥某种作用的个人或团体,因此归并为元素代理。代理与信息资源以及其他实体发生的关系,如用户查询信息资源,采访者采集信息资源,服务者履行服务政策,查询、采集、履行等关系都可抽象为事件,用以描述信息资源的生命周期中发生的任何有意义的行动或事情。信息资源包括实体与数字化信息资源,除了信息资源的内容(content) ,也包括其元数据,以及信息资源的各种组织形式,如二、三次文献、数据库等。采访政策、加工规则、服务政策等归并为政策。权限在 E-R 模型中作为实体的属性处理。由于权限在管理性元数据框架中与代理、事件、信息资源同处于重要的相互联系之中,因此将其提升为单独的元素。代理通过事件与信息资源、政
24、策以及合同、订购单据、采访来源、采访决定、鉴定结果、服务请求、服务方式等发生联系,并享有相关的权限。代理也可以通过事件与权限关联,譬如代理间“洽谈”许可权利等。另一方面,政策、合同、订购单据以及采访来源、采访决定、鉴定结果、服务请求、服务方式均与特定的信息资源相关。为了提供与保存性元数据的接口,设置元素保存信息,信息资源与其发生关联。基础管理性元数据框架的数据模型见图 3。上海市哲学社会科学规划课题信息资源基础管理性元数据框架研究元数据框架 2019-3-249图 3 基础管理性元数据框架的数据模型5 管理性元数据的语义5.1 元素定义格式元数据的基本语义单位(semantic element
25、)是元素,元素可以细化为修饰词,修饰词可以根据需要进一步细化而拥有它的修饰词。元素和修饰词的定义参照我国数字图书馆标准规范建设项目有关描述性元数据的定义方法14,采用以下格式:属性名 属性定义 约束标识符(Identifier) 语义单位的唯一标识符,用 URI 表示。 必备名称(Name) 语义单位的唯一标记。一般用英文表示。元素的首字母一般大写(除元素“标识符(identifier) ”) ,修饰词的首字母一般小写(除编码体系修饰词) 。必备出处(Defined by) 复用或修改自某一语义单位时,原语义单位定义的来源名称以及 URI。如无名称与URI,也可以是定义语义单位或维护语义单位的
26、机构名称,或者是指向定义该语义单位的文献的书目引文。有则必备保存信息订购单据政策采访决定合同采访来源鉴定结果服务方式服务请求信息资源权限事件代理上海市哲学社会科学规划课题信息资源基础管理性元数据框架研究元数据框架 2019-3-2410标签(Label) 语义单位的人读标识。一般用中文表示。 必备定义(Definition) 对语义单位的概念与内涵的说明。 必备注释(Comment) 语义单位的应用说明。 可选术语类型(Type of Term)语义单位的类型。如:元素、元素修饰词、编码体系修饰词必备修饰(Refnes ) 在定义细化的语义单位时,在此指出该语义单位所修饰的元素或元素修饰词。一
27、般给出所修饰元素或元素修饰词的名称,推荐同时给出 URI。有则必备元素修饰词(Refined by)在定义语义单位时,在此指出修饰该语义单位的元素修饰词。一般给出该修饰词的名称,推荐同时给出 URI。有则必备编码体系应用于(Encoding Scheme for)在定义编码体系修饰词时,在此指出该修饰词所修饰的元素或元素修饰词。一般给出所修饰元素或元素修饰词的名称,推荐同时给出 URI。有则必备编码体系修饰词(Encoding Scheme )在定义元素或元素修饰词时,在此指出修饰该元素或元素修饰词的编码体系修饰词。一般给出编码体系修饰词的名称,推荐同时给出 URI。有则必备数据类型(Data
28、type ) 语义单位取值的类型。 可选版本(Version) 产生该语义单位的元数据规范版本。 可选语言(Language ) 说明语义单位的语言。 可选频次范围(Occurence) 使用语义单位的频次范围。采用区间的表示方法:min, max,同时包括了对必备性和最大使用频率的定义。如:min=0 表示可选;min=1 表示必备;max=10 表示最大使用频率为 10 次;max=表示最大使用频率没有限制。可选上述属性中,以下 4 项可以取固定值:数据类型:字符串版本:v. 1.0语言:缺省为简体中文频次范围:0, 5.2 数据词典参阅文件信息资源基础管理性元数据框架数据词典http:/