1、1北京大学学士学位论文题目:用户参与下的数字资源元数据获取及管理Topic: The gathering and management of the digital resources metadata with user interaction姓 名: 向 欣 学 号: 00108116 院 系: 信息科学技术学院计算机系 实验室: 网络与分布式系统实验室 导 师: 闫 宏 飞 二零零五年六月2论 文 评 定成绩 _良_指导教师意见:元数据信息的构建和管理是一个数字资源存储系统或者数字图书馆的运行不可缺少的基础。向欣同学的毕业论文工作,是对这一部分的突出贡献。论文所涉及的工作是“中文数字财富
2、大全库(CDAL ) ” 的元数据管理模块,它对元数据搜集填写的任务进行管理分派,跟踪和回收,并最终为 CDAL 中的海量数字资源提供元数据描述文档。该模块是基于 CDAL 系统中的海量数字资源之上,在用户参与过程中向用户发布元数据描述文档填写任务,在用户的任务申请到任务提交的整个过程中进行全程的记录和任务状态跟踪,最终获取用户填写的元数据文档并与对应资源绑定。解决问题包括:在 Dublin Core 元数据应用的基础上建立对网络数字资源的元数据描述方式,数字资源及元数据描述文档任务的状态标定,任务发布过程中的状态维护问题。论文内容丰富,所涉及的工作量大,且有较强的系统性,是一篇很有价值的论文
3、。在毕业设计工作的过程中,该同学态度端正,积极努力,表现出很强的进取精神和踏实的工作作风,为中文数字财富大全库(CDAL )的发展做出了贡献。指导教师 闫宏飞 (签字)2005 年 6 月 9 日 3摘 要元数据作为复杂类型数据的一种描述方式,对数字图书馆中大量数字媒体资源的组织、存储、管理、检索与利用有极大的帮助。而元数据一般情况下不是数字资源的伴生产物,需要额外的方法组织和获取。本文描述了一套在用户参与下,通过注册任务,为数字资源收集元数据的机制及实现方法,并应用于中文数字财富大全库(CDAL)中。本文主要工作是任务申注管理模块,它对元数据搜集填写的任务进行管理分派,跟踪和回收,并最终为
4、CDAL 中的海量数字资源提供元数据描述文档。对于网络数字资源的元数据应用大多建立在 Dublin Core 应用委员会核心元数据基础上。对 Dobulin Core 元数据集应用的一个思想就是在不改变原有核心元数据集的结构和语义的前提下,才能根据各自的具体需要添加或减少不必要的元素。任务申注管理模块是基于 CDAL 系统中的海量数字资源之上,在用户参与过程中向用户发布元数据描述文档填写任务,在用户的任务申请到任务提交的整个过程中进行全程的记录和任务状态跟踪,最终获取用户填写的元数据文档并与对应资源绑定。任务申注管理模块的实现过程中实验性的解决了如下问题:在 DobulinCore元数据应用的
5、基础上建立对网络数字资源的元数据描述方式,数字资源及元数据描述文档任务的状态标定,任务发布过程中的状态维护问题。任务申注管理模块同时也是承担与用户交互任务信息的独立的模块,是用户参与 CDAL 系统对中文数字资源元数据研究的直接接口。在和用户进行任务信息的过程中,任务申注管理模块为参与描述文档填写及元数据收集任务的用户实现了完整的用户接口。关键词:用户交互,任务发布状态 ,数字资源, 元数据, Dublin Core, 描述文档45ABSTRACTThe metadata, as a descriptive method of complex type data, is the most ba
6、sic thing in a digital resources storage system. But generally the metadata is not generated along with the digital resources. We need other method to gather. This paper introduces a scheme toobtain metadata for digital resources, which has been applied to the CDAL System designed by the Networking
7、and Distributed System Laboratory at Peking University. The main work in this paper is the Task Registration Module. It designed dispatches, tracks and reclaims those metadata in the form of metadata filling tasks, and finally provides CDAL the descriptive metadata document for those massive digital
8、 resources.The metadata application of web-based digital resources mostly bases on the DC metadata standard, which is delivered by the DCMI(Dublin Core Metadata Initiative). And the kernel point to apply the metadata is to add or cut down some unnecessary elements according situation, but do not cha
9、nge the original structure and semantic in the metadata element set. So the module of metadata task filling bases on those massive digital resources in CDAL, releases to users the tasks of filling the descriptive metadata documents, records the task states while the user register and submit ones tas
10、ks, and obtains the descriptive metadata documents filled by users and ties them with corresponding resources in the end. The module of metadata task filling has experimentally solved the following problems: 1) built up a method to describe the web-based digital resources in the form of metadata, wh
11、ich is based on the application of DC metadata standard; 2) marking the release states of the digital resources and corresponding descriptive metadata documents; 3) the problem of harmonizing the procedure of the release states converting.Meanwhile, the module of metadata task filling is also the di
12、rect entrance for user to participate in the research in CDAL. It provides and implements a whole strong and convenient user interfaces to register, save or submit the metadata document filling task.Keywords: User interaction, task release, digital resources, metadata, Dublin Core, descriptive docum
13、ent.6目 录摘 要 .3ABSTRACT .4目 录 .5第一章 引言 .6第二章 任务申注管理模块概述 .9第三章 主要研究和设计 .1231 描述文档格式和 Dublin Core.1232 资源状态的标定和描述文档管理 .1333 状态一致性 .16331 用户用户冲突 .16332 服务维护冲突 .1734 积分机制 .20第四章 模块实现 .2141 用户注册和登陆 .2142 任务申请和提交 .22421 任务参与方式 .23422 任务发布控制 .24423 任务状态一致性控制 .2643 CGI 程序的输入 .2744 URL 编码 .2845 元数据文档类 MetaDat
14、aDoc.3046 文档回收和 WIKI 发布 .32第五章 未来工作和展望 .33参考文献 .34致谢 .357第一章 引言数字资源任务申注管理模块属于网络实验室“中文数字财富大全库(CDAL) ”的一部分。该模块操作于大量的本地数字资源及文本描述信息上,引入用户参与建立元数据描述的机制,以实现更好的对数字资源进行管理。中文数字财富大全库(Chinese Digital Assets Library,简称 CDAL,昵称“燕储“ ) 是综合性的数字资源仓储系统。 该系统收集保存了大量网络上流传的数字格式资源,并按照 Dublin Core 应用委员会提出的数字信息分类框架划分数字信息种类,提
15、供目录导引的查询、文件名关键字查询、以及元数据查询等三种外部利用方式,还提供元数据和系统构架接口描述,以支持关于海量中文数字资源的分类、存贮、管理、描述、访问、检索等问题的研究。元数据是像 CDAL 这样的数字资源存储系统或者数字图书馆的基础。数字图书馆中数字信息资源的组织、存储、管理、检索与利用都依赖于一套元数据方案。可以说,没有元数据,就没有数字图书馆的存在和发展。对元数据专项研究涉及到理论和应用的许多方面,如元数据数字信息的长期保存,元数据与互操作问题。对元数据的理解和认识,应该将元数据放在开放环境中,从异构系统互操作的角度,考虑如何描述信息内容的各个层次(从单个信息对象,到对象集合及其
16、组织、管理和控制机制,甚至到信息系统本身) ,深入地研究元数据的性质、整个体系和层次。对元数据的理解是一种基本信息组织方法,为信息系统各个层次的内容提供规范的定义、描述、交换和解析机制,为分布的,多种和多层内容构成的信息系统提供互操作和整合的纽带,为计算机智能地识别、处理、集成各种信息内容、信息过程和信息系统提供工具5。一般来说元数据分为三种类型:描述型(descriptive metadata) ,管理型(administrative metadata)和结构型(structural metadata) 。CDAL 系统所研8究和使用的 DC 元数据是一种典型的描述型元数据,尤其在网络中更为
17、各种团体所接受的标准化元数据元素集。元数据标准的设计和应用则涉及到元数据标准框架(metadata framework)、元数据标记语言和置标规范(encoding)、元数据应用规则(application profile)元数据登记系统(metadata registry)6。在元数据标准框架的设计上,北京数字图书馆研究所的“中文元数据标准框架”建立了一套制定中文元数据标准时遵循的规范或原则性文件,用于指导元数据标准的制定。北京大学数字图书馆研究所以 DC 为基础制定了拓片和舆图的元数据标准,设计并实现一套可以使用中文元数据标准对中文文献进行著录实践的试验系统,在著录试验系统的基础上结合 C
18、ALIS 和图书馆的项目建立“中文文献元数据示范数据库” 5。在元数据标记语言和置标规范(encoding)方面,与元数据相关的标记语言主要有 HTML、XML,这两种语言都是大众熟悉的,因而参与研究的人员范围较广。元数据应用规则(application profile)涉及到元数据的实际应用,是数字图书馆建设过程中不可避免的问题。我国的元数据应用规则(application profile)大多建立在 DC 元数据的基础上。元数据应用规则(application profile)的一个核心思想是在不改变原有元数据集的结构和语义的前提下,根据各自的具体需要添加或减少不必要的元素。在数字图书馆的
19、建设中,珍贵馆藏资源和特色馆藏资源的数字化是一种主要的元数据应用方式,因而对元数据在诸如古籍、拓片、舆图、图谱、方志、家谱、建筑、学位论文等各种专门数字对象管理中的应用研究就很多。另外,元数据不仅应用在数字图书馆领域,还应用于社会经济领域里的各行各业。在中文数字资源大全库 CDAL 系统中,我们将元数据应用于各种各样的多媒体数字资源中,进行对海量中文数字资源的元数据描述以及元数据构架接口,元数据查询等的研究。CDAL 系统对元数据进行研究,需要为其已有的海量数字资源搜集准确高效的元数据描述文档,同时作为一个数字资源仓储系统本身也应该具备资源及资源的描述信息。因此 CDAL 系统需要一个在开始阶
20、段搜集和管理资源的元数据文档的模块。9该模块应该能够从不同的渠道为每一资源发布搜集任务,跟踪搜集任务,并且在回收任务之后以适当的方式提供服务,同时不断的完善其元数据描述文档。最终通过这样元数据管理模块,CDAL 系统应该可以为每一类型资源都提供一份完整准确的元数据描述。任务申注管理模块正是为 CDAL 中的海量数字资源提供元数据描述文档,并对文档填写的任务进行管理分派和回收的部分。任务申注管理模块同时也是承担与用户交互任务信息的独立的模块,是用户参与 CDAL 系统对中文数字资源元数据研究的直接接口。通过任务申注管理模块,用户可以申请任意资源的描述文档填写任务,根据资源描述信息的帮助,用户能够
21、在少量时间代价下,完成数字资源元数据的填写,任务申注模块回收任务并进行相应检测。元数据描述文档与资源描述信息的结合可以更好的服务于多媒体资源的访问与管理。同时任务申注模块还应该提供用户相应激励措施。任务申注管理模块运行过程中,管理和记录所有数字资源的任务发布状态,记录任务的分派情况和回收情况,保证用户参与过程的流畅和稳定。最终通过任务申注管理模块,可以为 CDAL 系统的数字资源提供完整的元数据描述,从而支持 CDAL的检索和访问功能。任务申注管理模块是一个标准的 CGI 程序设计,通过大量的文件操作和小部分数据库操作,实现了对资源描述文档的管理,对描述文档任务的状态跟踪,并且以Web 的方式
22、向用户提供服务,响应用户的申请任务,提交任务,修改任务等操作请求。其中对描述文档的管理和任务状态追踪是任务申注管理模块的核心部分,本文首先将总体介绍整个模块的功能接口和运行描述,然后将详细叙述本模块设计中各个关键部分的考虑和设计思路,包括根据 DUBLIN CORE 协议对描述文档格式的制定,对资源描述文档填写任务的状态标记和跟踪等。然后根据用户参与任务的完整过程,顺序的介绍各部分的具体实现。最后,介绍了任务申注管理模块后的操作,对回收的任务的处理,以及该模块长期运行以后的目标和期望。10第二章 任务申注管理模块概述 任务申注管理模块是基于 CDAL 系统中的海量数字资源之上,以数据库接口和用
23、户接口的方式向用户提供描述文档填写任务的,在用户的申请任务到提交任务的整个过程中,任务申注管理模块需要全程的记录和跟踪任务状态。1,任务申注管理模块需要 CDAL 系统模块的支持。海量数字资源是任务管理模块运行的基础,CDAL 系统中已经存储了约 4T的多媒体资源,其中包括电影,电子书,声音,图像等等。系统模块定期会更新所有资源并且生成一份资源列表和任务列表。任务申注管理模块需要根据资源列表和任务列表向 Web 用户提供任务发布,并且全程将任务状态记录于列表中。因此任务申注管理模块虽然是 CDAL 系统中独立的面向用户并且与用户交互的模块,但它离不开系统模块对其的支持,甚至需要和系统模块的协调
24、工作。2,任务申注管理模块的数据库接口在 CDAL 系统中,对所有资源的记录和任务状态记录均采用文本方式,但是在任务申注管理模块中对于用户信息管理和任务注册信息使用的是数据库方式,这是因为用户信息和任务注册信息都是会频繁改动和更新的信息,对于这些信息的记录采用现有数据库比文本方式操作更灵活和易操作。任务申注管理模块使用的是 MYSQL 数据库服务器,维护两个数据表(PEOPLE 和 REGISTER) 。PEOPLE 数据表存储注册用户的基本信息,包括帐号,密码,邮箱地址,用户状态(已激活或未激活) ,总积分,权限级别等。REGISTER 数据表记录当前所有被注册的任务的状态,包括注册的任务的物理地址,注册该任务的方式(离线填写和在线填写,或者该任务已经提交) ,注册该任务的用户等。