1、 MARC 与 DC 元数据的映像与转换孙华 郑巧英(上海交通大学 图书馆自动化研究室 上海,200030)摘要 在分析元数据特点的基础上,比较 MARC 格式与 DC 元数据格式的差异,提出两者的转换对照表及相关软件。关键词 DC 元数据 MARC 格式 对照表 数字化图书馆 The mapping and converting method between MARC and DC metadata Sun Hua Zheng Qiaoying(Shanghai Jiao Tong University library Shanghai,200030)Abstract As a new ne
2、twork library, digital library has been accepted by more and more people. It contains massive digital information in various medias and rich contents, which could be accessed easily and quickly by users. Since the digital library is the extension of the traditional document process technology and th
3、e development of modern information technology, it will need many key technologies to make it to be realized. Metadata and its management technology is one of them that could not be dispensed with. It plays a very important role in the development of a DL, in which either the access or the search is
4、 realized on the basis of metadata. The article compares the differences between the MARC format and the DC metadata, analyze the features of metadata and puts forward a converting table for the two utilities and an integrated program.keywords DC metadata, MARC format, converting table, digital libr
5、ary引言数字图书馆作为一种新型网络化概念的图书馆,正越来越被大多数图书馆所接受。它拥有多种媒体形式的、内容丰富的数字化信息资源,能为读者方便、快捷地提供信息服务。作为图书馆传统文献处理技术和现代信息技术发展的延伸,它的实现是需要很多关键技术来支持的,其中元数据及其管理技术是数字图书馆相关技术中不可缺少的一部分。元数据在数字图书馆的建设中占据了极其重要的位置。在数字化图书馆的运作中,无论是存取过程还是检索过程,都是以元数据为基础来实现的。我们交大图书馆在数字图书馆的建设中,有多个项目(如异构数据源检索系统、教学参考书系统)都涉及到如何将传统的机读型目录(MARC)信息,通过网上的信息检索,显示
6、给读者。由于传统的 MARC 格式存在着种种的局限性,它的数据描述方式已不能跟上网络时代的发展要求,在综合考虑了几种元数据的利弊后,考虑到 DC 元数据能较好地解决数据的机构化问题,同时又能用较简单的 15 个基本元素将基本信息描述清楚,克服了传统的机读型目录(MARC )过于烦琐和复杂的弊端。因此,我们选择采用 DC 元数据作为我馆的网上信息标记方式。1 元数据的概述1.1 元数据的概念因特网为我们提供了丰富的网络数字资源,如大量的全文电子期刊、电子图书等。因特网上的信息资源越来越多,而读者查找到的信息资源却越来越少,这是因为网络信息资源的动态性、分布性、多元性和无序性给读者查找信息资源带来
7、了困难。对数字化的信息资源进行准确、规范的描述和组织的需求使元数据迅速的发展和应用。元数据是描述数字化信息资源或数据对象的数据,是为了实现简单和高效地管理数字化资源,方面读者查找和获取信息资源的标准。所谓元数据就对具体的资源对象进行定位和管理,并有助于资源对象的发现和获取的数据。元数据的标准取决于具体的资源描述对象,不同类型的资源对象需要用不同的元数据标准来描述。1.2 元数据的特点1.2.1 元数据是用来描述信息资源的标准,由多个按照规定的编码语言和编码方式来揭示信息资源的属性和特征描述。1.2.2 元数据由多层次的结构组成,通常有内容结构、句法结构和语义结构。1.2.3 元数据的结构和完整
8、性与对信息资源的属性描述和使用环境有关。1.2.4 元数据的互操作性。在不同的资源对象、不同的领域中会存在多个元数据标准。这就引起了元数据的互操作、元数据格式的释读、元数据格式的转换等。解决元数据互操作问题的一种方式就是元数据的映像。如 DC 与 USMARC、DC 与 EAD 等的转换。2 MARC 格式的数据与 DC 元数据的比较2.1 MARC 格式是目前适用于书目数据系统最完善、字段最复杂、标准最严密的元数据格式。MARC 元数据是基于计算机处理的元数据,由计算机将 MARC 元数据作为单独的以数据库或文件形式进行管理,MARC 元数据与其所描述的对象本身仍然是分离的;因此 MARC
9、元数据可读性较差;在进行数据处理时对软件平台的依赖性较强。2.2 DC(Dublin Core)元数据较注重描述对象的内容、内部结构或标准以及应用与管理方面的属性;在网络环境下,元数据本身有分布式管理与应用的需求;直接利用标记语言或数据库等制作,保证了元数据的结构化,容易被计算机处理和交流,可读性较强。DC 元数据包括 15 个元素:题名、创建者、主题或关键词、描述说明、出版者、其他发行者、日期、资源类型、格式、标识符、来源、语种、关联、时空范围、权限。3 开发 DC 格式与 MARC 格式的转换程序数字图书馆的最终表现形式是可以在互联网上阅读浏览的网络数字资源,如果采用传统书目描述方式(MA
10、RC 格式)作为描述资源内容的元数据标准就不那么合适了。为了尽量减小无效数据的传输,节省网络资源,提高网络传输效率,我们根据 DC 元数据的 15 个元素与 MARC 的字段定义,分别编制了DC 格式与 CNMARC 格式转换和DC 格式与 USMARC 格式转换 这两种对照表,并采用 SQL SERVER 作为数据库管理系统,运用 Delphi 作为前台开发工具,将图书馆现有的图书、期刊有关信息,分别按不同的 MARC 格式,转换成 DC 格式的数据,方便读者在异构平台上检索信息。3.1DC 格式与 CNMARC、 USMARC 格式转换对照表我们所设计的DC 格式与 CNMARC、USMA
11、RC 格式转换 系统,主要是从下面几个方面来考虑的:3.1.1 字段完整性。考虑到 DC 格式只有 15 个元素,要充分利用这 15 个元素,将MARC 中的信息尽可能地描述清楚,反映出数据的重要特性。DC 格式对元素的重复性没有限制,因此我们在转换中充分利用这一特性,保留了原 MARC 格式中可重复字段的值,并将同一属性的字段作为重复字段映像到 DC 的相应元素中。3.1.2 基于字段检索的原则。DC 的 15 个元素,很大的一部分是可作为检索字段,供用户在网上检索信息。 DC 格式与 CNMARC、USMARC 格式转换 对照表尽可能将原MARC 数据中的检索项保留下来,方便读者查询。3.
12、1.3 易于操作和系统兼容性。 DC 格式与 CNMARC、USMARC 格式转换系统具有友好的用户界面,用户在进行数据转换时,只需选择数据源的 MARC 类型,点击“转换”键即可。当数据转换结束时,系统自动提示用户。 DC 格式与CNMARC、USMARC 格式转换系统的对照表也能按照用户的不同需求来改变设置,无须修改程序。Dublin Core CNMARC USMARCTitle 200($a,$e,$d)225($a,$h,$v)245($a,$b,$h,$k,$n,$p,$s)400($a,$b,$c,$d,$n)410($a,$b,$c,$d,$n)411($a,$b,$c,$d,
13、$n)440、490(所有子字段)ISBN ISSN 010($a)011($a)020($a,$z)022($a,$z)Identifier URL 856($u) 856($u)Publisher 210($a,$c) 260($a,$b)Contributor 702($a,$b)712($a,$b)700($a,$b,$c,$d,$n)710($a,$b,$c,$d,$n)711($a,$b,$c,$d,$n)730($a,$b,$c,$d,$n)Creator 700($a)701($a)710($a)711($a)100($a,$b,$c,$d,$n)110($a,$b,$c,$d
14、,$n)111($a,$b,$c,$d,$n)130($a,$b,$c,$d,$n)Description 330($a) 520($a)Date 210($d) 260($c)Extent 105(bit 8)head(bit 7) (s=期刊,1=会议录,0=图书)008(bit 29)head(bit 7) (s=期刊, 1=会议录,0=图书)Format Medium Head(bit 6) (a=纸质,m=多媒体)Head(bit 6) (a=纸质,m= 多媒体)Language 101($a) 041($a),008(bit 35-37)Keyword 600($a,$b,$g,$
15、f,$c,$x,$y,$z,$j)601($a,$b,$d,$f,$e,$x,$y,$z,$j) 602($a,$x,$y,$z,$j)604($a,$x,$y,$z,$j)606($a,$x,$y,$z,$j)607($a,$x,$y,$z,$j)610($a,$x,$y,$z,$j)600($a,$b,$c,$d,$n)610($a,$b,$c,$d,$n) 611($a,$b,$c,$d,$n)630($a,$b,$c,$d,$n)650($a,$x,$y,$z)651 ($a,$x,$y,$z)653($a,$x,$y,$z)654($a,$x,$y,$z)655($a,$x,$y,$
16、z)656($a,$x,$y,$z)657($a,$x,$y,$z)658($a,$x,$y,$z)Subjectclass 690($a) 093($a)表 1 DC 格式与 CNMARC、USMARC 格式转换 对照表3.2 DC 与 MARC 格式转换系统基于这个对照表,我们设计了DC 格式与 CNMARC、USMARC 格式转换系统(以下简称为转换系统 ) ,该转换系统充分考虑到 DC 格式与CNMARC、USMARC 格式转换的可扩充性和灵活性,将对照表设计成动态的,即用户完全根据自己的需求来改变对照表的值,勿需修改程序;转换系统又有严格的质量控制功能,能分别对数据源及转换所产生的
17、DC 元数据标准的目标文件进行质量控制,由用户制定必备字段表,将符合要求的转换结果数据写入输出文件,不符合要求的数据抽取其中的关键信息写入错误文件,供用户参考。用户选择数据源的类型(USMARC 或 CNMARC,两者只能选一)YN判断该条记录的合法性读入用户提供的ISO2709 格式数据截取下一条 MARC 记录拆分并提取需要转换的字段、子字段值从对照表中找出相匹配的DC 元数据属性,并将值赋给该属性对转换结果进行质量控制,合格数据经封装后写入输出文件供输出;不合格数据写入错误文件数据是否全部完Y N图 2 DC 与 MARC 转换系统的框图4 结束语元数据作为一种资源描述方式,它的开发与应
18、用已越来越多的得到重视,怎样利用传统资源,更好地为现在及将来服务,是我们值得关注的一个部分。参考文献1肖珑.元数据格式在数字图书馆中的应用.大学图书馆学报, 1999.42罗冰眉.元数据及其在数字图书馆的应用.情报杂志,2003.13吴建中.DC 元数据 .上海科学技术文献出版社, 2000.104李慧.元数据在数字图书馆中的应用.情报理论与实践, 2002.1作者简介孙华(Sun Hua) ,女,1965 年生。现在上海交通大学图书馆自动化研究室工作,副研究馆员。联系方式:郑巧英(Zheng Qiaoying),女,1956 年生。现在上海交通大学图书馆自动化研究室工作,研究馆员。联系方式:本文发表在上海交通大学学报2003 年增刊程序结束