1、元数据在电子化学位论文中的应用探讨金毅 王绍平(上海交通大学情报科学技术研究所,上海 200030)摘要 目前,元数据的研究和应用方兴未艾。网络电子资源使用元数据的优点是显而易见的,但只有基本的元素和修饰词比较一致,有了统一的标准,而在某些专业领域的应用上还不成熟,研究也不够深入。本文参考国内外在电子化学位论文和元数据研究和应用的最新成果,探讨了元数据在电子化学位论文中的应用,总结了电子化学位论文中使用元数据的优点并提出一个初步的元数据集。关键词 学位论文 电子化 元数据 DC The study on application of metadata in electronic thesis
2、and dissertationJin Yi,Wang Shaoping(Institute of Information Science and Technology,Shanghai Jiao Tong University,Shanghai 200030)Abstract The study and application of metadata are booming now. The advantages of using metadata for network electronic resources are obvious. But only the basic metadat
3、a elements and qualifiers have unified standard. Research and application in some special areas are not deep. This article studies the latest research on metadata and electronic thesis, and discusses the usage of metadata in electronic thesis, concludes the advantages of the application, and propose
4、s an initial metadata element set. Keywords thesis, dissertation, electronic, metadata, DC1 引言随着信息技术的发展和 Internet 应用的日益普及和深入,网上资源成为获取信息越来越重要的途径。提供数字化、无纸化的电子网络信息服务是图书馆等信息提供者的当务之急。研究生学位论文是研究生申请硕士或博士学位的研究成果,对于相关专业的研究开发有重要的参考价值。现在许多高校都在积极研究和开发学位论文的电子化,作为将来数字化图书馆的重要组成部分,无疑是很有意义的工作。但网络信息资源的存储、获取、使用和传输与传统信
5、息资源又有很大不同,如何在浩如烟海的网络信息空间中高效、迅速地做到信息的共享和交换,如何为电子化的网络资源提供有效的信息组织方式,是当今信息网络发展的一个热点。图书馆界和情报界对信息资源数据规范的研究已经很久了,元数据也不是新生事物,传统的图书馆卡片、图书的版权说明等都是元数据。标准的元数据格式也已经广泛使用,如MARC(机读目录格式) 、AACR(英美编目条例)等都是元数据的格式。目前绝大部分的书目记录均采用上述格式,在数据检索的查准率和数据描述的丰富性上还没有其它的元数据格式可以超过它们。但是 MARC 和 AACR 也有局限性:需要在专门的软件系统中使用,不太适合 Internet 的环
6、境;编制记录要经专业训练,花费较长的时间;不易处理动态的多媒体信息;程序修订复杂、缓慢。由于以上这些局限性,在网络环境中传统的数据描述格式已跟不上形势发展的需求,许多元数据研究项目纷纷出现。众多的元数据研究项目中,在图书馆界和情报界影响最大、应用最为广泛的就是DC(Dublin Core)Metadata Element Set,既都柏林核心元数据集。从 1995 年产生,经 6年多的研究和探讨,DC 已被翻译成多种文字,用户遍及世界各地。许多国家已经将 DC 纳入国家标准中描述电子信息的一个部分,其影响正在不断扩大。电子化的学位论文因其特点,非常适合采用以 DC 为基础的元数据来描述,具有很
7、好的应用前景。2 电子化学位论文采用元数据的优点DC 元数据集由 15 个基本元素组成,这 15 个基本元素称为 “简单 DC”,分三个部分:内容描述部分、知识产权部分和外形描述部分。根据 DC 的可选择性原则,可以简化着录项,最低限度只要 7 个元素(题名、主题、出版者、日期、类型、格式和标识符)就可以了。为了描述需要详细着录的资源,DC 又推出了“复杂 DC”,引进了修饰词的概念,用于进一步明确元数据的特性。这样可以把 MARC、AACR 的优点和各种已有的分类法、主题词表等控制语言吸收进来,极大地丰富了 DC 的描述性,并允许 DC 的地方版在 15 个基本元素的基础上增加新的元素和修饰
8、词。DC 的整个元素集是可扩展的,每个元素可以重复使用或有选择地使用,而且还可以拥有子类型和子模式来增强功能。这样,DC 就具有可选择性、可修饰性、可重复性和可扩展性的优点。在电子化学位论文中使用以 DC 为基础的元数据能充分发挥 DC 元数据在描述电子信息资源的优势,具有以下优点:(1 )数据结构简单,可读性强。DC 只有 15 个基本着录项,而且可以重复使用或有选择地使用。通过使用修饰词,可以方便地扩展和描述电子资源信息。相对于 MARC 数据格式,DC 的数据结构大大简化了。而 MARC 元数据正如其名字本身所说明的,是计算机可读及处理的数据,对人而言,可读性很差,对软硬件平台的依赖性很
9、强。DC 元数据使用标记语言的格式,兼容性和不依赖于软硬件平台的独立性都很强。在电子化学位论文中考虑采用的元数据(参见表 1)大部分能在 DC 元数据集中直接得到,一些描述学位论文所需要的扩展信息可以通过使用修饰词和扩展元素的办法解决。(2 )着录方便,生成记录简单快速。使用者无需经过专业的培训就可以为自己的资源创建元数据,着录格式很容易掌握和理解。上海交通大学从 1996 年开始要求研究生在论文答辩后提交学位论文的电子版本,在确定学位论文使用的元数据后,就可以让学生在网上提交电子版本论文的同时,填写一张简单的着录表格,经程序检查、处理后直接生成学位论文的元数据。这样就可以让学生自己完成学位论
10、文的数据着录,既大大减少了图书馆数据着录人员的工作,也使学位论文的数据可以在第一时间转入数据库并提供网上检索,数据滞后的时间将从几个月缩短为几天,甚至当天录入当天即可在网上检索到。而目前采用传统的着录方式,必须使用专用的编目软件,着录人员要经过一段时间的严格培训,并且编目方法也要复杂得多,学位论文的数据无法在短时间内录入、转换入库,网上检索就更滞后了。(3)DC 是为电子资源量身定制的。 DC 本身就是随着信息技术的发展和 Internet 应用的日益普及和深入应运而生,其可选择性、可修饰性、可重复性和可扩展性的特点可以有效揭示电子资源的特征,为网络电子资源的分类、组织和索引提供更好的途径。D
11、C 描述的重点是电子资源的内容、内部结构及应用和管理,而不象传统的着录方法有很多外形特征的描述。使用 DC,能很好地反映电子化学位论文的内容和特征,比如学位论文的数据格式、全文指针、学位级别、保密级别等,都可以使用恰当的 DC 元素来反映。(4)更适合在 Internet 上使用。电子化学位论文最终是应该在 Internet 上检索和浏览的。现在网上的搜索引擎,如 Yahoo、Sohu、Sina 等的工作方式,主要是通过自动搜索软件到站点抓取网页,将网页内容索引后建立数据库提供检索。网页使用的 HTML 语言有一个META 标签可以定义网页的属性,一般常用来定义网页的主题词和摘要,这样搜索引擎
12、可以直接将网页的主题词和摘要收录进数据库。否则就只能对整个网页的内容进行索引,这必然使查准率受到影响,检索效率低下。目前, DC 元数据的存储与管理大致有以下几种方法:1) 嵌入在信息资源中2) 与通信协议捆绑3) 存储在数据库中4) 独立的元数据文件其中将 DC 元数据嵌入在信息资源中的方法目前使用得较多,一个最主要的应用领域是基于 HTML 的应用。根据“DC 元数据在 HTML 中的编码规则” (即 RFC2731) ,DC 元数据在HTML 中的应用主要与两个 HTML 标签有关,一个是上面提到的 META 标签,另一个是 LINK标签。通过使用这两个标签,DC 元数据就方便地嵌入到
13、HTML 文件中。这样搜索引擎可以有效地抓取和索引网页文件中的 DC 元数据。本文的第 3、4 部分介绍了具体的使用方法和一个实例。虽然将 DC 元数据嵌入到 HTML 文件中使用方便,句法简单,但考虑到 HTML 本身的结构性不强,扩展能力和描述能力较差,以后的应用方向应该是与 XML 相关,基于RDF(Resource Description Framework)的形式。XML 在结构化、扩展性、内容描述等方面都要大大优于 HTML,是 Internet 发展的一个重要方向。DC 元数据可以很好地嵌入到基于XML 的 RDF 框架中,适应将来技术发展的需要,也为不同元数据体系之间提供更好的
14、互操作性。此外,与通信协议捆绑也是一个很有前途的应用方向。比如与图书情报界使用较多的Z39.50 协议相联系, DC 元数据可以得到更为有效和广泛的使用。同时,DC 元数据也可以象传统的元数据一样,存储在数据库中或作为独立的元数据文件存在。在 Internet 的网络环境下,DC 元数据的存储与管理有多种选择和很大的灵活性,有着乐观的发展前景。3 电子化学位论文使用的元数据集确定电子化学位论文使用的元数据集,综合考虑了以下几个方面的因素:(1 )目前国内学位论文使用的数据格式,比较统一的是由国家教育部 CALIS 支持并资助的高校学位论文数据库项目所采用的数据规范,该项目由进入“211 工程”
15、的 62 所学校合作建设,其数据格式也被参加的学校所共同采用。该数据格式定义完整、详细,遵循国家标准 GB/T 2901-92(书目信息交换用磁带格式) ,并使用标准推荐执行的“中国公共交换格式(CCFC ) ”着录。电子化学位论文使用的元数据主要参考了该数据规范。(2 )在国外,电子化学位论文研究比较早,也比较有成果的是美国的 ETD(Electronic Thesis and Dissertation)项目。该项目目前有 120 个成员,包括 105 所大学和 15 个研究所。上海交通大学是中国大陆唯一一所参加该项目的大学,从 1999 年开始与 ETD 项目组开展关于研究和实现学位论文电
16、子化的交流,为自己的学位论文电子化建设提供了许多有益的建议。ETD 项目组在最近的会议上提出了 ETD 互用性元数据标准( ETD-ms: an Interoperability Metadata Standard for Electronic Theses and Dissertations,Version 1.00) ,该标准定义了用于描述电子化学位论文的元数据标准。为了与 ETD 项目成员之间的数据规范保持一致,以利于数据共享和交换,我们在电子化学位论文使用的 DC 元素集中保留了 ETD互用性元数据标准的所有元素。(3 ) OCLC 的合作在线资源目录(Cooperative Onli
17、ne Resource Catalog,简称 CORC) ,是一个在网络环境下为本地或网络电子资源建立元数据的系统。CORC 系统为创建网络电子资源元数据提供了很好的平台,通过专门的自动工具和服务功能,可以让使用者采用自己熟悉的标准(如 MARC)来完成元数据的着录和制作,并能以各种格式(如 DC、XML 等)输出记录。CORC 为维护现有记录和通过馆际合作提供网上电子资源起到很好的示范作用,显示了元数据应用的广阔前景。CORC 的数据格式和着录规范也是我们在确定电子化学位论文使用的元数据集的重要参考。(4 )另外一个给我们提供很多有益参考的站点是关于推广可互用在线 DC 元数据标准的论坛,地
18、址是 http:/dublincore.org,该站点上有许多 DC 元数据的研究和应用文档,以及国际会议、合作项目等的最新动态。其不断更新的 DC 图书馆应用纲要( DC-Library Application Profile,DC-LAP)总结了 DC 元素及应用的最新研究成果,是关心 DC 元数据发展应该密切注意的。表 1 电子化学位论文使用的元数据集元素说明注释dc.title论文题名必选dc.title.alternative并列题名dc.creator论文作者必选dc.subject主题标识必选dc.description.abstract文摘dc.description.note
19、载体外形描述、记录来源、注释项dc.description.release版本dc.publisher出版单位dc.contributor其它贡献者,如导师必选dc.contributor.role其它贡献者角色dc.date论文完成日期必选dc.type文献类型dc.format格式dc.identifier全文指针dc.language文献语种必选dc.coverage范围dc.rights保密级别thesis.degree.name学位级别必选thesis.degree.level教育层次thesis.degree.discipline作者单位thesis.degree.grantor授
20、予单位dc.date.Submitted记录生成日期#dc.format.medium文献载体dc.identifier国际标准书号dc.identifier.callNumber馆藏索取号N 必选dc.contributor.attribute其它贡献者单位#dc.contributor.nameCorporate团体责任者*dc.date.published出版日期*dc.subject.class分类标识注:表中黑体元素为 ETD 互用性元数据标准( ETD-ms)中所确定的元素“#”参照 dublincore.org 的 DC-LAP“*”参照 OCLC 的 CORC DC 着录规范“
21、N”为新增加的修饰词对表 1 中元素的一些说明:大部分元素的用法和含义与 DC 元数据集的基本规范一致,本文不再详细介绍,具体可参考 http:/dublincore.org。下面对与学位论文相关的以及新增加的元素作简要的介绍,其中以“thesis”开头的是 ETD 互用性元数据标准(ETD-ms )新增加的元素,是专门用于描述电子化学位论文的。(1 ) dc.title.alternative(并列题名) ,学位论文的英文题目。(2 ) dc.description.release(版本)说明学位论文的版本,应使用复数。(3 ) dc.contributor.role(角色) ,其它贡献者的
22、角色,如导师、答辩委员会成员等。(4 ) dc.type(文献类型) ,说明资源内容的性质,ETD 采用 “Electronic Thesis or Dissertation”; dublincore.org 用“Text” ,见 http:/dublincore.org/documents/dcmi-type-vocabulary/(5 ) dc.format(格式) ,指学位论文的数据格式(标准 MIME 类型) ,上海交通大学要求提交 Word 格式的学位论文,使用 Application/msword,其它类型可以参照http:/www.isi.edu/in-notes/iana/as
23、signments/media-types/media-types(6 ) dc.identifier 说明学位论文对应的全文指针,是一个可以浏览和下载该学位论文全文的地址,一般是是 URI(统一资源标识符, Uniform Resource Identifier) 。(7 ) thesis.degree.name(学位级别) ,论文申请的学位级别,如工学博士、理学硕士等。(8 ) thesis.degree.level(教育层次) ,说明论文的教育级别,如硕士、博士、博士后等。(9 ) thesis.degree.discipline(作者单位) ,通常是作者所在系、专业,或论文涉及的项目名
24、等。(10 )thesis.degree.grantor (授予单位) ,授予学位的单位名称。(11 )dc.format.medium(文献载体) ,一些早期的学位论文尚没有电子化,本元素指明其载体特征,如印刷体、缩微体等。(12 )dc.identifier.callNumber(馆藏索取号) ,说明学位论文的馆藏索取号。虽然将来印刷体的学位论文使用会越来越少,但一段时间内,印刷体和电子板两种形式是并存的,同时还有大量尚没有电子化的早期学位论文,馆藏索取号可用于联系两种形式的学位论文和获取印刷体的学位论文。但 DC 元数据集里没有相对应的元素,我们就增加了这个表示馆藏索取号的元素。(13
25、)dc.subject.class (分类标识) ,采用“中国图书馆分类法” ,通过 scheme=“CLC”加以说明。4 学位论文元数据嵌入在 HTML 文件中的一个例子下面是一篇电子化的博士学位论文,其元数据嵌入在一个 HTML 文件的标签对中。Metadata sample of a dissertation.5 小结目前,元数据的研究和应用方兴未艾。网络电子资源使用元数据的优点是显而易见的,但只有基本的元素和修饰词比较一致,有了统一的标准,而在某些专业领域的应用上还不成熟,研究也不够深入。元数据在电子化学位论文中的应用,正引起越来越多的兴趣,其标准和元素集的确定,需要更多专家学者的参与
26、。本文参考国内外在电子化学位论文和元数据研究和应用的最新成果,总结了电子化学位论文中使用元数据的优点并提出一个初步的元数据集,抛砖引玉,希望能得到更多的意见和建议,以便进一步完善和推广元数据在电子化学位论文中的应用。参考文献1 吴建中 . DC 元数据 . 上海:上海科学技术文献出版社,20002 林蓉等 . 一种基于事件的都柏林核心( DC)数据模型 . 情报学报,2000(3)3 李林华 . 都柏林核心与网络信息资源编目 . 图书馆杂志,20014 Networked Digital Library of Theses and Dissertations,http:/www.ndltd.org/