1、基于OAI和METS远程收集数据的方法和流程 赵阳清华大学图书馆 学位论文项目组2007.09.27 南京,主要内容:,“CALIS学位论文全文数据库”服务体系架构基于OAI和METS数据收割模式基于OAI和METS数据收割实施步骤,NOW,“CALIS 学位论文数据库”服务体系架构,参建馆本地系统,CALIS数字图书馆门户,计费中心,认证中心,资源调度中心,CALIS-OID解析中心,纸本扫描加工,CALIS中心,学位论文提交与发布系统,DRM阅读器,读者,DRM数字版权保护,浏览器,CALIS高校学位论文数据库分中心,CALIS 学位论文参建馆本地系统涉及到三个层面:,本馆层面满足提交、审
2、核、编目、标准化、回溯、发布、检索、管理、存储等需求符合相关标准、规范开放架构CALIS子项目(分中心)层面纳入“CALIS高校学位论文数据库”服务体系CALIS中心层面纳入“CALIS高等教育数字图书馆”服务体系,学位论文参建馆本地系统结构图,论文元数据库,论文(PDF)对象库,服务接口层,应用层,存储层,学位论文提交与发布系统,安全通信层,DRM版权保护系统(PDF),纸本扫描加工系统,MQ服务器,METS接口模块,OAI-DP服务器,认证接口,计费接口,CLRC OpenURL接口,学位论文参建馆本地系统结构图,1,2,3,4,5,6,7,8,读者浏览器,DRM阅读器,Web审核,Web
3、提交,参建馆本地系统与CALIS子项目中心的互操作关系,服务接口层,安全通信层,MQ服务器,METS接口模块,OAI收割服务器,中心论文元数据仓库,论文(前16页)对象仓库,仓储层,服务接口层,应用层,存储层,学位论文提交与发布系统,安全通信层,DRM数字版权保护系统,MQ服务器,METS接口模块,OAI-DP服务器,认证接口,计费接口,CLRC OpenURL接口,1,2,3,4,5,6,7,8,参建馆,CALIS学位论文分中心,学位论文提交与发布系统与CALIS中心的互操作关系,CALIS中心,CALIS-OID解析中心,认证中心,计费中心,资源调度中心,CALIS数字图书馆服务门户,服务
4、接口层,应用层,存储层,学位论文提交与发布系统,安全通信层,DRM数字版权保护系统,MQ服务器,METS接口模块,OAI-DP服务器,认证接口,计费接口,CLRC OpenURL接口,1,2,3,4,5,6,7,8,参建馆,本地系统升级的主要接口,OAI和METS数据收割接口,实现元数据和对象数据的收集;CALIS_OID解析接口,实现数字对象的解析和获取;数字对象安全下载接口,实现数字对象的安全下载;CALIS ODL接口,实现CADLIS各系统之间的统一检索;CADLIS认证/计费接口,实现认证计费。,本地系统升级的主要接口,主要内容:,“CALIS学位论文全文数据库”服务体系架构基于OA
5、I和METS数据收割模式基于OAI和METS数据收割实施步骤,NOW,基于OAI和METS数据收割模式,模式一: OAI-DP / METS-DP+MQ联动模式二: 仅采用OAI-DP,模式一:OAI-DP / METS-DP+MQ联动 -收割方式(1),实时自动收割 元数据通过OAI-DP发布。OAI-DP所发布出来的OAI Record采用“CALIS OAI Record V1.0” 数据格式;本地系统的数字对象通过METS-DP+MQ发布。METS-DP负责将数字对象封装成METS数据包,然后通过MQ服务器发布出去,数据格式记为“CALIS METS Record V1.0” ; 元数
6、据和数字对象之间的关系通过OAI Record中的CALIS_OBJ:objInfo 子元素所包含的MetaID进行关联;学位论文中心系统接收到 OAI-DP或METS-DP+MQ请求,自动收割参建馆本地系统中的数据;,模式一:OAI-DP / METS-DP+MQ联动 -收割方式(2),手动收割 用OAI数据导出工具将OAI-DP中的元数据导出成为包含OAI Record数据的XML文件,该文件称为OAI记录文件,数据格式为“CALIS OAI Record V1.0” ;用METS数据导出工具将METS-DP中的数字对象数据导出成为包含METS Record数据的XML文件,该文件称为ME
7、TS记录文件,数据格式记为“CALIS METS Record V1.0” ; 本地系统管理员手工将上述两类文件通过FTP上传至CALIS学位论文中心,由其完成数据汇总、统计工作;,模式一:OAI-DP / METS-DP+MQ联动 -数据格式(元数据),CALIS RECORD V1.0,用于维护元数据与METS一致的四项信息,模式一:OAI-DP / METS-DP+MQ联动 -数据格式(对象数据),模式一:OAI-DP / METS-DP+MQ联动 -实际收割测试,2006.03月-2006.07月学位论文和特色库项目验收前,采用模式一方式收割学位论文本地系统在部分参建馆完成升级、数据迁
8、移和发布工作;在厂商和参建馆配合下,CALIS技术中心和学位论文子项目组共同进行数据收割;参加测试的学校:TPI:中国人民大学,中国农业大学TRS:清华大学北大方正:北京大学杭州麦达:北京大学医学院,模式一:OAI-DP / METS-DP+MQ联动 -实际收割测试,收割结果实时自动收割:本地系统和数据都存在问题中心系统对本地系统的自动收割难以有效进行手工收割:本地系统能顺利提交数据但所上传的数据仍存在问题本地系统存在的主要问题系统bugs数据问题,模式一:OAI-DP / METS-DP+MQ联动 -实际收割测试(系统bugs),OAI-DP本身的bugs比较容易发现。但本地管理员仍缺乏有效
9、易用的工具;METS-DP本身的bug问题以及MQ配置问题难以由本地管理员自行发现;OAI-DP+METS-DP+MQ联动问题厂商技术人员和本地管理员都难以测试和发现;其他问题著录和导入工具不完备;本地DP所在机器软硬件系统的不稳定;DP本身的稳定性和可靠性问题 ;METS包传输丢包问题;,模式一:OAI-DP / METS-DP+MQ联动 -实际收割测试(数据问题),数据不符合schema导出的OAI和METS包文件,其数据不符合schema数据必备性问题很多数据项缺乏,不符合子项目组的数据规范性要求CALIS元数据schema本身不支持必备性机制,而厂商本地系统也未能提供相应的必备性检测功
10、能数据内容不一致问题(尤其是OAI记录和METS记录之间的不一致)OAI记录中的about内容不合逻辑如:有时间戳或类型而没有calis-oid;有calis-oid而没有时间戳。 元数据时间戳应该不小于数字对象时间戳;更新数字对象时应同时更新元数据时间戳,才能保证联动收割时对这条记录重收。METS包中的时间戳应与OAI-about中的时间戳一致等。数据的语义问题张冠李戴,模式一:OAI-DP / METS-DP+MQ联动 -实际收割测试(问题原因),本地系统的著录工具问题单条入库的元数据和数字对象在必备性、一致性等方面存在问题。本地系统的批量导入工具问题批量入库的元数据和数字对象在必备性、一
11、致性等方面存在问题;批量导入的数据的时间戳都为同一个时间点,这给OAI-DP带来很大压力。统计结果的一致性问题本地OAI-DP、METS-DP实际发布的记录数与本地系统的数据库查询模块提供的记录数不一致,给管理员造成困惑。由内部检索机制不一致因素所造成。 本地系统缺乏有效的“数据质量检测工具/模块”在OAI-DP和METS-DP发布之前,系统本身对数据没有进行这种质量检测(包括必备性、一致性等)。管理员无法自行发现上面的“数据问题”。,模式二:仅采用OAI-DP收割,为解决模式一收割中的系统和数据问题,CALIS管理中心于2006年10月招集厂商开会,提出模式二;厂商依据规范要求,改进和完善系
12、统;模式二: 收割方式实时自动收割手动收割,模式二:仅采用OAI-DP收割 -收割方式(1),实时自动收割 元数据和数字对象仅通过OAI-DP发布。发布出来的OAI Record采用“CALIS OAI Record V2.0” 数据格式;学位论文中心系统接收到 OAI-DP或METS-DP+MQ请求,自动收割参建馆本地系统中的数据;,手动收割 用新的OAI数据导出工具将本地系统中的元数据和数字对象合并为一条OAI记录导出为OAI记录文件。该文件中的数据格式为“CALIS OAI Record V2.0” ; METS-DP中的数字对象数据无需再单独导出; 本地系统管理员手工将上述两类文件通过
13、FTP上传至CALIS学位论文中心,由其完成数据汇总、统计工作;,模式二:仅采用OAI-DP收割 -收割方式(2),模式二:仅采用OAI-DP收割 -数据格式,CALIS Record V1,CALIS Record V2,模式二:仅采用OAI-DP收割 -数据格式,CALIS Record V2,无Mets,模式二:仅采用OAI-DP收割 -实际收割测试,2007.09月参加测试的学校:TPI:中国农业大学TRS:清华大学北大方正:北京大学杭州麦达:北京大学医学院,比较: 模式一与模式二 -在系统部署和维护方面,比较: 模式一与模式二 -优缺点比较,比较: 模式一与模式二 -结论,“模式二”
14、是对”模式一”的简化,相应的系统改造、升级、部署、维护等。 工作量和难度都得大为减少, 模式二 的易用性和可管理性都大为提高;其中“模式二”的手动收割,更为安全稳定,CALIS特色库的大批量数据收割均采用该方式;学位论文本地系统的收割模块: TPI: 支持模式二的实时自动收割、手动收割; 北大方正:支持模式二的实时自动收割、手动收割; 麦达:支持模式二的实时自动收割、手动收割; TRS:支持模式二的手动收割;,主要内容:,“CALIS学位论文全文数据库”服务体系架构基于OAI和METS数据收割模式基于OAI和METS数据收割实施步骤,NOW,基于OAI和METS数据收割实施步骤 -针对模式二(手动收割),1)现有系统升级-公司介绍2)数据导出-公司介绍3) 数据质量检测4)通过FTP方式提交,谢谢大家!,
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。