1、 CALIS METS包结构规范 CALIS METS 包结构规范 目 录 1 元数据记录和数字对象定义 . 1 2 复杂对象之间的关系 . 4 3 复杂对象的收割 . 5 4 按包含关系进行分类 . 6 4.1 复合对象的定义 . 6 4.2 复合对象类型 . 6 4.3 资源类型 . 8 4.4 Mets 包类型 . 9 5 Single 型复合对象 METS 包结构 .11 6 RML 型复合对象 METS 包结构 . 15 6.1 Root 型 Mets 包的结构 . 16 6.2 不含简单对象的 Mets 包 . 17 附注一 . 19 附注二 . 23 CALIS 基本标准与规范
2、1 1 元数据记录和数字对象定义 作为 METS 包规范的基础,本节将给出五种概念,即元数据记录( Record)、数字对象、文件对象、简单对象和复杂对象。 ( 1) 元 数据记录( Record) 元数据记录独立存在,独立显示、存储和交换。 在 CALIS 体系中: 元数据记录不具有 CALIS-OID; 元数据记录遵循 CALIS 专门数字对象描述型元数据规范; 元数据记录不包含或引用其他元数据记录,也不被任何其他的元数据记录包含或引用。 ( 2) 数字对象 数字对象可以是一个物理文件,可以是逻辑上的对象;后者可以包含或引用一个或多个其他数字对象。 数字对象可以具有全局性的唯一标识符。 数
3、字对象可以包含描述型元数据和管理性元数据。 数字对象分为三类:文件对象、简单对象和复杂对象。 在 CALIS 体系中,若数字对象需被引用或包含在其他数字对象中,则数字对象应具有CALIS-OID。 ( 3) 文件对象 文件对象是指物理上存在的某一文件实体,如某一个图片文件、 PDF 文件、 WORD 文件等。 ( 4) 简单对象 简单对象是指一种逻辑上的对象,至少包含一个或多个文件对象,也可以引用一个或多个文件对象。 例如: 作为简单对象的某一篇学位论文,可以具有“全文”和“前 16 页”两个文件对象; 作为简单对象的某一古籍图片,可以具有“高精度图片”、“中精度图片”和“低精度图片”三个文件
4、对象; CALIS 基本标准与规范 2 作为简单对象的某一本电子书,可以由目录、 某若干章、全文等几个文件对象组成。 ( 5) 复杂对象 满足以下两项条件其一的元数据记录、数字对象和关系(包含或引用关系)的组合体即被定义为复杂对象,在 CALIS 体系中,复杂对象由复杂对象 CALIS-OID 唯一标识; 某一元数据记录具有相应的数字对象 某一元数据记录具有包含、被包含、引用或被引用关系 (注:该包含和引用关系在后面的章节中将详细论述) 复杂对象存在以下四种构成形式: (a) 被包含或被引用的元数据记录 元数据被包含或被引用图 1-1:被包含或被引用的元数据记录 (b) 元数据 记录和数字对象
5、的组合 元数据简单对象图 1-2:元数据记录和数字对象的组合 (c) 元数据记录和关系(包含或引用关系)的组合 CALIS 基本标准与规范 3 元数据包含或引用关系图 1-3:元数据记录和关系的组合 (d) 元数据记录、数字对象和关系(包含或引用关系)的任意组合 元数据简单对象包含或引用关系被包含或被引用图 1-4:元数据记录、数字对象和关系的组合 图 1-4 所示的组合方式即( a)( b)和( c)三种情况的组合。 以上各种情况的复杂对象,都具有复 杂对象 CALIS-OID。 CALIS 基本标准与规范 4 复杂对象元数据记录简单对象文件对象元数据图 1-5:复杂对象、简单对象、文件对象
6、和元数据记录( Record)的关系 对于一条元数据记录 Record,若存在以下需求,则应为其分配一个对应的复杂对象: Record 对应一个或多个数字对象; Record 需要包含或引用其他 Record 或数字对象; Record 需要被其他 Record 或数字对象包含或引用。 2 复杂对象之间的关系 前一章给出了复杂对象的定义,同时提及了元数据与元数据之间的包含与引用关系。该章将主要说明 复杂对象与复杂对象之间的包含和引用关系。 复杂对象的包含关系 :为了说明复杂对象的包含关系,这里先给出一个元数据间具有包含关系的实例。例如某一种元数据是描述会议论文集的,我们称为会议论文集元数据。另
7、一种元数据是描述会议论文的,我们称为会议论文元数据。这里会议论文是包含在会议论文集中的,所以元数据之间的关系为包含关系。从而扩展到复杂对象关系层次,得到复杂对象的包含关系,如图 2-1 所示。 会议论文集会议论文 会议论文 会议论文全文 文摘 全文 文摘 全文 文摘包 含 关 系图 2-1:复杂对象的包含关系 CALIS 基本标准与规范 5 包含关系使得复杂对象构成了一棵 树 ,这里规定,在包含关系下,复杂对象可以包含多个孩子(为复杂对象),但至多只能被包含于一个父亲(为复杂对象)。 复杂对象的引用关系 :同样给出一个实例。例如古籍资源元数据中“合刻书名”项表示了元数据间的相互引用关系,该“合
8、刻书名”可以理解为两条或两条以上元数据对应的对象,例如两本古籍书被装订在一起,共用一个索书号等。所以两条元数据间的关系是一个相互引用的关系,而不是包含关系。当然这种引用关系可以扩展到对系统以外的资源的引用,例如一篇学位论文可以引用一篇会议论文。上升到复杂对象的层次,即为复杂对象之间的引用关系 。如图 2-2 所示。 龙虎阵 鸳鸯阵引用关系图1 图2低精度图中精度图高精度图低精度图中精度图高精度图图1 图2低精度图中精度图高精度图低精度图中精度图高精度图 图 2-2:复杂对象的引用关系 引用关系使得复杂对象构成了一个 图 ,即在引用关系下,复杂对象可以引用多个复杂对象,同时可以被多个复杂对象所引
9、用。例如,一篇学位论文,它可以引用多篇学位论文和会议论文。同样地,两篇或多篇学位论文,可以引用同一篇会议论文。 注:这里提到的包含和引用关系的定义都是不表示在元数据中的,而必须在本地资源库中利用本地实现机制来辅助完成的。对于在元数据内容中可以表示出来的关系,不是这里定义的“复杂对象的包含和引用 ”关系。 3 复杂对象的收割 根据第一章中的定义,复杂对象包含四部分:元数据、简单对象、文件对象、包含或引用关系。 对于以上四部分信息的收割, CALIS 提出了相关的收割规范,其中,对于元数据本身的收割,则采用了 OAI 协议进行收割;对于简单对象、文件对象和包含或引用关系,则采用 Mets 进行收割
10、。 CALIS 基本标准与规范 6 对于元数据记录( Record),其只由元数据本身构成,不包含任何对象和关系,所以该类元数据记录的收割,是通过 OAI 收割来完成的。 对于复杂对象的收割,则需要利用 OAI 和 Mets 收割共同完成。 4 按包含 关系进行分类 4.1 复合对象的定义 在 第二节“复杂对象之间的关系”中,提到了复杂对象之间可能存在包含关系,而在这种包含关系下,复杂对象可以形成一棵 包含树 。 我们把复杂对象的包含树定义为 复合对象 ,即复合对象为一至多个复杂对象以及它们之间的包含关系所组成的对象实体。 (注:复合对象与复杂对象是不同的两种定义,复杂对象是复合对象中的元素)
11、 接下来,本节将按包含关系分别对复合对象、资源、 METS 包进行以下分类: 对于复合对象,分为 Single 型、 RL(Root-Leaf)型、 RML(Root-Middle-Leaf)型; 对于资源,分为 Single 型、 RL(Root-Leaf)型、 RML(Root-Middle-Leaf)型; 对于 METS 包,分为 Single 型、 Root 型、 Middle 型和 Leaf 型。 4.2 复合对象类型 以下是按包含关系对复合对象进行分类: Single 型复合对象 Single 型复合对象是一种基本型复杂对象,并且不包含于其他数字对象中。它可以被其他数字对象引用。
12、Single 型复合对象如图 4-1 所示: Single图 4-1: Single 型复合 对象 CALIS 基本标准与规范 7 RL(Root-Leaf)型复合对象 RL 型复合对象是一种复合型复杂对象,具有两层的包含与被包含关系; 如图 4-2 所示: RootLeaf Leaf图 4-2: RL 型复合对象 RML(Root-Middle-Leaf)型复合对象 RL 型复合对象是一种复合型复杂对象,具有三层或三层以上的包含关系; 如图 4-3 所示: RootMiddle LeafLeaf图 4-3: RML 型复合对象 CALIS 基本标准与规范 8 4.3 资源类型 为了说明资源的
13、类型,先来讨论一下学位论文、古籍 和拓片三种资源的不同点。图 4-4为三种资源各自的代表性复杂对象。 古籍元数据图1 图2学位论文元数据学位论文全文 前1 6 页电子书低精度图中精度图高精度图低精度图中精度图高精度图电子书版刻级拓片元数据图1 图2低精度图中精度图高精度图低精度图中精度图高精度图复本级拓片元数据图1 图2低精度图中精度图高精度图低精度图中精度图高精度图图 4-4:三种资源各自的代表性复杂对象 由此可以看出,学位论文与古籍资源具有的复杂对象通常不具备包含与被包含关系,即复杂对象只包含元数据、简单对象和文件对象;而对于拓片资源,其存在两种情况,即一部分复杂对象单独存在,另一部分复杂
14、对象为版刻与复本的关系,在实现中,可以将该关系理解为包含或引用关系。如果将其实现为包含关系,则拓片资源中存在一类复杂对象,其包含元数据、简单对象、 文件对象和包含关系。 以下是几种资源类型的定义: Single 型资源 : Single 型资源只包含 Single 型复合对象和元数据记录( Record),且不包含 RL 型复合对象和 RML 型复合对象。 RL(Root-Leaf)型资源 : RL 型资源至少包含 RL 型复合对象,还可以包含 Single 型复合对象和元数据记录( Record),但不包含 RML 型复合对象。 RML(Root-Middle-Leaf)型资源 : RML 型资源至少包含 RML 型复合对象,还可以包含 RL 型复合对象、 Single 型复合对象和元数据记录( Record)。 由此可见,学位论文和古籍资源通常都属于 Single 型资源,而拓片既属于 Single 型资