1、CALIS学位论文子项目相关标准规范,王 燕2007.09.27,提 纲,CALIS数字对象唯一标识符命名规范CALIS元数据仓储唯一标识符命名规范CALIS元数据唯一标识符命名规范OAICALIS OAI与METS记录格式与发布规范CALIS OAI与METS数据导出规范参建馆本地系统配置信息示例,CALIS数字对象唯一标识符命名规范,简称:CALIS-OID符合URN的标准,是URN的一个子集两个概念简单数字对象:指具体的物理文件复杂数字对象:逻辑概念,是若干简单数字对象的集合,语法,复杂数字对象的CALIS-OID语法:urn:CALIS:馆数字代码-CollectionName.Col
2、lectionName/ObjID简单数字对象的CALIS-OID语法:urn:CALIS:馆数字代码-CollectionName.CollectionName/ObjID.type.format说明命名方式“urn”应全部采用小写字母CALIS-OID的长度最长不应超过255个字符复杂数字对象与其所含的简单数字对象的CollectionName 、ObjID无继承关系,CALIS-OID中的元素,馆数字代码CollectionNameObjIDTypeformat,馆数字代码,采用由中华人民共和国教育部高等学校图书情报工作指导委员会编写的高校图书馆数字代码表以北京大学为例,其代码为2110
3、11,第一位数字“2”代表高等院校;第二位数字“1”代表地区;第三位数字“1”代表省市;第四到六位代表“011”代表学校。高校图书馆数字代码表请查看CALIS主页:http:/ code 命名;文件名称大小写不敏感;不使用 “%”、“/”、“?”、“#”、“*”、“-”、“.”、“:”字符。如在镜像、备份等情况下,发生数字对象的拷贝情况,原则上使用相同的ObjID,Type,对于简单数字对象,类型type是必备的,表明该对象的用途,Format,对于简单数字对象,文件格式(format)也属必备项目,指明该数字对象的文件类型文本TXT、PDF、HTML、XML、SGML、DJVU、DOC、RT
4、F、CEB、PPT、PDG、KDH、NH、CAJ;图像TIF、GIF、JPG、PNG、PCD、MrSID、EPS、FLA、SWF、SVG、VML、VRML;音频WAV、MID、RMI、MP3、WMA、RA;视频MPG、AVI、MOV、WMV、RM;如不在列举中的,请向CALIS技术中心报告,获准后推行,CALIS-OID示例,北京大学的某一篇学位论文:学位论文作为一个复杂对象urn:CALIS:211011-ETD/S02024前16页urn:CALIS: 211011-ETD/S02025.P.PDF对应论文全文urn:CALIS: 211011-ETD/S02025.T.DOC,CALIS
5、-OID示例,北大名师库中的某位名师:假设北大为了建设名师库,另外建了一些资源库,如书目库、图片库、视频库、音频库等这些数字资源名师这个复杂对象urn:CALIS:211011-teacher/Teacher0452该名师的照片(网上浏览,中精度)urn:CALIS:211011-picture/pic219.M.JPG该名师的照片(网上浏览,缩略图)urn:CALIS:211011-picture/pic219.S.JPG该名师的著作(电子书)urn:CALIS:211011-ebook/book156.REB.CEB该名师的一段录像(流式播放)urn:CALIS:211011-video/
6、video67.VM2.RM该名师的一段音频(本地播放)urn:CALIS:211011-audio/audio23.L.MP3从这个例子可以看出,为了建设名师库,其数字资源可以来自不同的库,为了避免出现一个数字资源有多个CALIS-OID,仍旧采用该数字资源原来的CALIS-OID,已有资源标识符的处理办法,对新建资源,要求强制采用CALIS唯一标识符方案对已数字化并已有ObjID的资源,可按集合、type、format成批注册,形成一个ID对照表。要求所有系统对新建资源支持CALIS数字对象唯一标识符,对原有资源只要通过ID对照表可解析即可,CALIS元数据仓储唯一标识符命名规范,对于高校
7、图书馆中的资源仓库的唯一标识符,其命名规范如下:oai:lib.高校域名:仓库简名 (推荐)oai:馆代码:仓库简名 (推荐)仓储的命名应具有全国乃至全球范围内的唯一性,为多个仓库的联合奠定基础说明:要求以”oai:”开头仓库简名前加冒号其它内容由参建馆自行定义但要保证整个元数据仓储的唯一标识符是全球唯一的例:北大学位论文仓储的唯一标识符:oai::etdoai::etd,CALIS元数据唯一标识符命名规范,简称“MetaID”MetaID的语法为:仓储唯一标识符 “-” LocalPrefix “/” 应用系统内部元数据标识其中LocalPrefix为应用系统本地前缀,可自行定义示例北大学位
8、论文仓储唯一标识符:oai::etd某条学位论文记录:oai::etd-ETD/innerMetaId其中innerMetaId可以是学号,OAI,OAI(Open Archives Initiative)是一种检索协议,国际标准两个概念DP(Data Providers) 支持OAI-PMH并以此方式提供元数据的管理系统SP(Service Providers) 通过OAI-PMH收割元数据,并在此基础上提供增值服务。SP中包含一个基于OAI-PMH的元数据收割器(Harvester),也称HP,DP与SP的关系,OAI记录,OAI记录有三个部分HeaderUniqueindentifer
9、唯一标识符,即MetaIDDatestamp 仓储中某一个条目的创建、删除或最后修改时间Metadata 元数据,规定都必须支持DC,是否支持其他元数据格式由仓储自行决定About可选部分,内容一般是关于元数据部分的数据,例如使用权限等,可自行定义。这部分的结构协议中不做规定,但CALIS给出了其具体定义,OAI请求,OAI-DP提供两种数据发布方法GetRecordListRecords,CALIS OAI与METS记录格式与发布规范,CALIS OAI Record V1.0记录格式V1.0发布方式及其特点CALIS OAI Record V2.0 记录格式V2.0发布方式及其特点,CAL
10、IS OAI RecordV1.0记录格式,元数据(metadata)通过“CALIS_OBJ:objInfo”来建立与相应数字对象的对应关系,CALIS OAI Record的应用方式,作为OAI数据导出文件的数据记录格式导出的XML记录文件中含有一条Record记录 作为OAI-DP发布的数据记录格式OAI-DP提供两种数据发布方法采用OAI-DP中的GetRecord方法进行单条元数据发布 采用OAI-DP中的ListRecords方法进行多条元数据发布,GetRecord方法进行单条元数据发布,GetRecord的响应结果中含有一条Record记录,ListRecords方法进行多条元
11、数据发布,ListRecords的响应结果中含有一至多条Record记录,About元素,about元素可重复,about具有一个子元素,即objInfo objInfo有四个子元素calisOidtype约定为root、middle、leaf和single之一datestamp是数字对象在资源系统里维护的数字对象创建或修改的时间,注意格式为”YYYY-MM-DDThh:mm:ssZ”如2004-02-19T03:09:23Z,时间要换算到格林尼治时间,即零时区时间。deleted是字符串类型,true表示对象已经被删除,false表示对象仍然存在,About元素,只有元数据,无数字对象时ab
12、out/objInfo中的子元素calisOid、type、datestamp和deleted可以不含任何值,留空即可否则calisOid和type是必然存在的datestamp和deleted可以没有值,无值时留空即可,Mets包XML片断,V1.0的发布方式,基于OAI +METS+ MQ(Message Queue)的发布方式 自动发布本地系统的元数据通过OAI-DP发布。OAI-DP所发布出来的OAI Record采用CALIS Record V1.0格式本地系统的数字对象通过METS-DP+MQ发布。METS-DP负责将数字对象封装成METS数据包,然后通过MQ服务器发布出去元数据和
13、数字对象之间的关系通过OAI Record中的CALIS_OBJ:objInfo 子元素所包含的MetaID进行关联,V1.0的发布方式,手动发布本地系统管理员用OAI数据导出工具将OAI-DP中的元数据导出成为包含OAI Record数据的XML文件。该文件中的数据格式为“CALIS OAI Record V1.0”本地系统管理员用METS数据导出工具将METS-DP中的数字对象数据导出成为包含METS Record数据的XML文件管理员手工将上述两类文件通过FTP上传至CALIS子项目中心,由CALIS子项目中心完成数据汇总工作,OAI harvester与METS harvester的联
14、动,OAI harvester把从DP新收割的元数据的identifier(即MetaId)和CALIS-OID(元数据所对应的复杂对象的CALIS-OID)传给METS harvesterMETS harvester根据元数据的时间戳和数字对象的时间戳以及删除状态与已经收割的数字对象比较,判断数字对象有无更新,以决定是否收割对应的数字对象同时,METS harvester应该从OAI harvester获得相应数字对象的类型,以决定采取何种策略对该数字对象进行收割,V1.0发布方式的特点,需要对OAI记录和METS记录进行检查和校验 必备性正确性一致性等OAI记录与METS记录需要分别收割,
15、CALIS OAI Record V2.0 记录格式,CALIS OAI Record V1.0格式 CALIS OAI Record V2.0格式(含METS包 ),若当前元数据存在对应的METS包,则在about段中直接添加METS包。METS包本身的格式不变(仍遵循“CALIS METS Record V1.0格式”),CALIS OAI Record V2.0样板数据片断,CALIS OAI Record V2.0 记录格式,若当前元数据不存在对应的METS包,则将about段去掉,CALIS Record V2.0格式(不含METS包),V2.0的发布方式,基于纯OAI 的发布方式
16、自动发布本地系统将相关的元数据和数字对象按CALIS Record V2.0格式封装为一条OAI记录,通过OAI-DP对外发布手动发布本地系统管理员采用新的OAI数据导出工具将本地系统中的元数据和数字对象合并为一条OAI记录导出为OAI记录文件。该文件中的数据格式为“CALIS OAI Record V2.0”METS-DP中的数字对象数据无需再单独导出管理员手工将上述类型的文件通过FTP上传至CALIS子项目中心,由CALIS子项目中心完成数据汇总工作,V2.0发布方式的特点,OAI-DP用于对外发布数据METS-DP只需为OAI-DP提供数字对象的封装功能OAI-DP所发布的OAI Rec
17、ord数据遵循CALIS OAI Record V2.0格式在OAI Record数据内,metadata和METS存在同一个中,能够自动保证元数据和数字对象的对应关系但OAI Record仍需要保证数据的必备性、内容正确性以及数据内部的一致性当数字对象文件太大时,收割可能出现错误,建议如提供数字对象文件给CALIS的,文件不要超过80M,harvester身份验证,仓储应该具有对harvester进行身份合法性验证的功能。有两种方案:IP验证 判断请求的harvester是否在合法的IP范围内。合法的IP范围应该可以由管理员设定。(必须提供)帐号验证 harvester管理员先到仓储注册一个
18、帐号,填写harvester信息。然后harvester凭帐号登录并进行收割。(可选)可以使用必备的一种,也可以同时使用两种,CALIS OAI与METS数据导出规范,为了防止网络传输等问题导致的OAI、METS不能收割等情况,制定OAI、METS数据导出规范要求本地系统能够导出OAI、METS数据成文件,通过FTP手工上传作为OAI、METS数据收割方式的补充,OAI数据的导出要求,每条元数据记录导出成一个xml格式文件(*.xml),每个xml文件符合schema :http:/ MIME格式转换即不合法字符“:”转换成%3A ;不合法字符“/”转换成%2F示例:元数据MetaID:oai
19、::etd-dr/A1002拼接字符串:oai::etd-dr/A10022005-10-02T10:25:30Z.oai.xml最终导出文件名:oai%3A%3Aetd-dr%2FA10022005-10-02T10%3A25%3A30Z.oai.xml,METS数据的导出要求,每个METS包导出成一个xml格式文件(*.xml),每个xml文件符合schema :http:/www.loc.gov/standards/mets/version13/mets.xsd符合CALIS METS包结构规范文件名采用以下格式:先拼接字符串:完整MetaID20位零时区文件导出时间.mets.xml再
20、对此字符串进行application/x-www-form-urlencoded MIME格式转换即不合法字符“:”转换成%3A ;不合法字符“/”转换成%2F示例:元数据MetaID:oai::etd-dr/A1002拼接字符串:oai::etd-dr/A10022005-10-02T10:25:30Z.mets.xml最终导出文件名:oai%3A%3Aetd-dr%2FA10022005-10-02T10%3A25%3A30Z.mets.xml,V2.0模式只需遵循OAI数据的导出要求,参建馆本地系统配置信息,参建馆本地系统配置信息,以上配置全部必备,示例,CALIS OAI RecordV1.0记录仅有元数据有元数据,METS为Link有元数据,METS为数字对象文件CALIS OAI RecordV2.0记录仅有元数据有元数据,METS为Link有元数据,METS为数字对象文件,谢 谢!,我的联系方式Email:Tel:010-62755595-17Add:北京大学图书馆CALIS管理中心,