1、1关联数据在图书馆界的应用与挑战摘 要:关联数据是语义网的一种实现方式,描述了通过可链接的URI方式来发布、分享、链接 Web中各类资源的方法,通过链接网上的分布式异构数据使得不同领域的数据相互关联,自提出以来被企业、政府等各界重视应用和研究,美国国会图书馆、瑞典国家图书馆等图书馆也加入其中,并在为图书馆提供语义服务、扩展服务资源等方面提供了选择和帮助,但关联数据在图书馆的进一步应用也还面临着用户交互、数据整合、链接维护、隐私保护等方面的挑战。 关键词:关联数据 图书馆 数据网络 URI RDF 中图分类号: G250.7 文献标识码: 文章编号: 1003-69(11)40058-04 Ap
2、plication and Challenge of Linked Data in Library Community Li Lin (Neijiang Vocational & Technical College, Neijiang, Sichuan, 641100) Abstract: As an implement of semantic net, linked data describes a method that publishing, sharing and link kinds of web sources by the linkable URI. Linked data me
3、ans making association of data in different fields by linking distributed heterogeneous data on the net. Enterprises and government have 2valued its application and research since the conception appeared. Many libraries, such as Library of Congress and National Library of Sweden, are involved and pr
4、ovide choices and assistance for libraries in semantic service and expansion of service sources. But for deeper application of library, linked data is facing challenges in some fields, just like user interaction, data integrity, link maintenance, privacy protection. Key words: linked data; library;
5、data net; URI; RDF number: G250.7 Document code: A Article ID: 1003-6938(201)04-0058-04 2006 年, “互联网之父”Tim Berners-Lee在关联数据构建笔记一文中分析了 Web的发展和演变,提出了发展数据网络(Web of Data)的思想,而数据网络的核心和关键则是关联数据(Linked data) 。但什么是关联数据?目前学术界对于关联数据的概念还没有统一的定义,但大家比较认同维基百科给出的定义:关联数据是语义网的主题之一,描述了通过可链接的 URI方式来发布、分享、连接 Web中各类资源的方
6、法。尽管关联数据从技术上来说并不复杂,但由于关联数据有别于现在万维网的文件互联,是从一个全新角度“数据互联”来重新定义和发现资源,即通过网络把以前没有关联的相关数据链接在一起,允许用户发现、关联、描述并再利用各种数据,因而自关联数据提出以来便得到了社会广3泛的认同和快速的发展,BBC、世界银行、纽约时报、美国国会图书馆等也纷纷加入到关联数据的出版发布之列。笔者从 2007年 5月 W3C的关联开放数据项目(Linking Open Data,LOD)官网查询可知,截止最新统计的 2010年 9月,短短三年,其已发展成为当前有 203个数据集构成、包含 250亿条 RDF语句、被 3.95亿个
7、RDF链接相连的关联数据网络。 1 1 关联数据概述 1.1 关联数据的组成与原理 关联数据简单的说就是一些用三元组(主体、谓词、客体)来表示资源的 RDF(Resource Description Framework)格式数据,但和 RDF数据相比关联数据是发布在网上的并能搜索使用的 URI(统一资源标识符)和 HTTP协议的组合,原理是用一种可利用分布数据集及其自主内容格式,基于标准的知识表示与检索协议、可逐步扩展的机制来实现可动态关联的知识对象网络,并支持在此基础上的知识组织和知识发现。 2 1.2 关联数据的发布 数据发布是关联数据的主要环节,Tim Berners-Lee总结了四条关
8、联数据的分布原则,即:使用 URI作为事物的标识;使用 HTTP URI可访问这些标识;当访问某一标识时使用 RDF SPARQL标准提供信息;提供相关的 URI以使人们发现更多的信息。 3 并认为所有已发布的关联数据都是一个统一的全球数据空间的组成部分。遵循这些原则发布的数据可加4入到全球数据空间并能被各种应用程序发现和使用。对于关联数据的发布步骤,Christian Bizer等认为步骤有三,即:将 URI分配给被数据集描述的实体;将 RDF链接至其它数据源,使用户能够随 RDF链接遍历整个数据网络;提供所发布数据的元数据,使用户能够评价所发布数据的质量与选择最佳的访问路径。 4 2 关联
9、数据在图书馆界的应用现状 2.1 关联数据在企业等各界的应用现状 当前关联数据的最典型应用就是前文提及的关联开放数据项目 LOD,该项目自启动便得到了 W3C语义网的支持,其目标是通过定义已存在并可公开使用的数据集,根据关联数据原则将其转换为 RDF并上网发布,进而改善数据网络,项目的早期参与者主要为大学实验室和一些小公司的研发人员,但随着项目的发展壮大,一些大型机构如 BBC等都积极参与其中,因该项目参与者只要根据关联数据原则发布数据集并将其与已有数据集相连即可,即有很好的开放性,因此发展迅速,关联数据的网络规模增长也十分迅速。如在 2009年 7月,大概包含了 67亿条 RDF语句,被约
10、1.42亿个 RDF链接相连,到 2009年 9月增加了约 20亿条 RDF语句,而到最新统计的 2010年 9月,则由 203个数据集构成的关联数据网络中包含了 250亿条 RDF语句,被 3.95亿个 RDF链接相连。 5 由2008年 10月份和 2010年 9月份之间的两张 LOD数据云及数据集之间的链接图比较可看出关联数据开放的发展速度(见图 1、图 2) 。 5一些政府和企业也加入到关联数据的应用。201 年 5月,美国政府网关(data.gov)将其约 400个数据集转换为约 64亿条 RDF语句,并将这些政府信息资源加入到 LOD中,英国政府拟在 2011年 6月把主要的政府信
11、息发布为可以重用的关联数据,并建立起重用数据的通用协议。 8 与此类政府参与关联数据资源建设不同,英国政府则利用基于 Linked Data应用的 DBpedia Mobile,实现对英国领土内地理实体的导航和获取。9 企业方面,IT 巨头 Google、媒体 BBC、著名十大汽车公司之一雷诺等均因企业的异构系统集成和数据资源整合代价十分昂贵而纷纷参与关联数据的应用之中,它们或对关联数据的应用或为用户提供关联结构化数据,增强用户对信息行为的控制力度,如 Google,或为企业在数据模型交流、整合及查询方面提供方便,解决数据存储和服务等问题,如雷诺。 2.2 关联数据在图书馆界应用的典型案例 在
12、整个社会包括学者、企业、政府都对关联数据重视并加入应用行动之时,拥有大量结构化数据并向社会提供信息服务的图书馆界对于关联数据的应用也引起了足够重视并进行大力推广与参与。一方面,图书馆界积极开展学术研究。如在 2010年 5月 28日,W3C 宣布成立图书馆关联数据孵化小组(Library Linked Data Incubator Group) 、我国图书馆界 2010年 8月 23日在上海市普陀区图书馆举行的“2010 图书馆前沿技术论坛:关联数据与书目数据的未来”专题会议等。另一方面,积极参与实践应用行动。如美国国会图书馆和瑞典国家图书馆等。 6(1)美国国会图书馆。美国国会图书馆以 SK
13、OS(简单知识组织系统)格式将传统的主题标目 LCSH(国会标题表)全部转换为可应用的关联数据,具体做法是为每条 NARC规范记录都在 001字段著录有 LCCN(国会图书馆控制码) ,因为 LCCN具有永久性和唯一性的特点,因而使其成为标识 SKOS概念的最好候选,SKOS 则采用 URI来标识概念实例,用户在浏览SKOS中的相关概念时只需点击相关链接即可,允许客户端直接向 LCSH概念的 URI请求相同内容不同格式的机读数据,且 SKOS的数据可以从多个层面上与外界资源进行链接,如地理标目(GeoNames) 、LCSH 概念链接、维基百科语义版(DBpedia)等。 10 此外,美国国会
14、图书馆的其它词表,如:国会图书馆分类法、人名规范文档、LCCN 永久链接服务等,都可以转化为以 RDF表示的关联数据,这就为其数据的发布提供了很好的条件。同时,由于美国国会图书馆还提供 LCSH词表的下载,因此成为关联数据应用的成功范例,推动了关联数据在全世界的实用。 11 (2)瑞典国家图书馆。早在 2008年,瑞典国家图书馆便将LIBRIS(瑞典联合目录)发布为关联数据,成为世界上第一个被整体发布为关联数据的联合目录,LIBRIS 发布的关联数据共包含约 600万条书目记录 2000万条馆藏记录及 20万条规范记录,为超过 170家大学图书馆以为大学图书馆、公共图书馆、博物馆和档案馆提供在
15、线编目服务,12 在项目实施过程中,瑞典国家图书馆的研究人员采用了“数据优先”战略,即重点关注数据的效率和可用性,适应关联数据的新环境;而不是试图去寻找数据的表达形式。这种“数据优先”的战略可以在尽量短的时间内积累足够多的数据,从而促使研究人员在此基础上开发各7种应用,有利于关联数据网络的发展。在发布关联数据的过程中,LIBRIS使用的词汇表并不仅仅限于图书馆学领域,而是一个包含了元数据、简单知识组织系统和书目本体的综合体。 13 为了加强和外部数据的关联,LIBRIS 还创建了到 LCSH(美国国会标题表,lcsh.info)和维基百科(Wikipedia/DBpedia)等的相关链接,为图
16、书馆界开展关联数据的发布及应用提供了宝贵的经验和思路。 (3)其它图书馆。除美国国会图书馆和瑞典国家图书馆在关联数据的发布与应用中较为典型外,其它一些图书馆也对关联数据进行了实践,如 OCLC、德国国家经济图书馆、德国国家图书馆、欧洲核子研究中心图书馆、欧洲国家图书馆的数字资源门户 Europeana、英国的哈德斯菲尔德大学图书馆等。 2.3 关联数据在图书馆界应用的主要方式 当前,图书馆界应用关联数据主要是利用关联数据整合分布式异构数据源的能力,包括发布图书馆资源为关联数据在内的主要应用方式有两种形式:将图书馆资源发布为关联数据。这种应用方式是当前图书馆界应用最为广泛的方式,如美国国会图书馆
17、、瑞典国家图书馆等在应用关联数据的初期都是这种应用方式。利用关联数据扩展图书馆资源。利用关联数据扩展资源也是图书馆界应用关联数据的主要方式之一,如通过关联数据扩展其目录检索界面、浏览更多更新结果、展示更多馆藏信息等。 3 关联数据在图书馆界的应用挑战 8虽然自 2006年关联数据提出以来,学界及政府等对其较为关注,但由于关联数据实践应用项目缺乏,目前可以说停留在理论探讨阶段。但随着 LOD的发展,越来越多的人意识到关联数据的诱人前景,百思买等世界著名企业及 BBC、纽约时报等媒体巨头的加入起到了很好的示范作用,美国国会图书馆等图书馆也率先带领图书馆界参与其中,但关联数据要真正解决使用关联数据就
18、像使用一个单一的全球数据库 Web的最终目标其还还面临着一些挑战。Christian Bizer等认为关联数据在未来的主要挑战主要有用户交互、应用架构、模式映射与数据整合、链接维护、数据许可、关联质量及隐私保护等七个方面。 14 笔者认为,关联数据在图书馆界的应用挑战主要有用户交互、数据整合、链接维护及隐私保护四个方面。 (1)用户交互。过去的十多年,计算机技术的发展及 Web2.0等个性化、人性化交互界面及推送技术在图书馆参考咨询等信息服务中的应用,图书馆用户对用户交互界面的友好性能有着较高的认可标准和要求,很显然,从图书馆用户的角度来看,关联数据能够为其提供的好处就是提供一个整合了分布异构
19、数据源的数据,但目前关联数据浏览器和其搜索引擎的功能及友好性还十分有限,不能满足图书馆用户的要求。如何改进这种友好交互将会是未来关联数据的一大挑战。在改进与解决方面,可借鉴超文本浏览器提供的导航机制,即以文档为中心的信息空间向前或向后移动按钮,在关联数据浏览器上也可类似的对导航控制进行设计,使用户可以向前和向后移动;还可在关联数据浏览器上集成一个添加和9删除按钮,等等。 (2)数据整合。未来图书馆的关联数据来源于多个地区乃至全球网上的分布、异构的多个图书馆数据源,因此在用户浏览或作进一步处理前应进行数据整合。但根据目前关联数据的应用来看,大多数应用显示关联数据来自不同的数据源,但一起互相有很少
20、的进一步整合。因此,对来自不同数据源的实体数据进行整合与融合不同的词汇表上的数据映射成为未来图书馆应用关联数据的重要挑战之一。 (3)链接维护。关联数据网络中的数据加入与应用规模日益壮大决定了关联数据的链接不是一成不变的,新的实体数据会不断加入,过时的数据就需要修改乃至删除。当前,关联数据的网络 Web体系结构允许死链接的存在,但过多的死链接无疑将使客户端发出大量的无效 HTTP请求,从而降低使用效率。对图书馆来说,有效解决这一问题的办法就是定时对关联数据的 URI链接进行扫描检查,在数据的加入、删除时即当有数据与链接发生变化时,及时更新或删除相关的链接。 (4)隐私保护。图书馆应用关联的数据
21、和企业等一样,最终目的是为用户提供一个所需包括了异构数据和分布数据的关联数据,这一目的为用户的信息获取提供了好处,但在数据获取的过程中也给图书馆带来了相关的隐私侵权风险。解决这个问题,还需多方的努力,如公众增强保护自身隐私意识、关联数据的获取后的隐私信息甄别、法律层面的隐私侵权相关规定适当放宽等,但要真正解决,还需技术和法律手段的结合。目前,已有部分学者对关联数据的隐私保护表现除了浓厚的研究兴趣,如 Weitzner等。 105 结语 关联数据作为语义网的一种实现方式与方法,正在世界范围内引领着一场深刻的网络革命,通过发布和链接网上的分布结构化数据,促进来自不同数据源的数据相互关联。对图书馆来
22、说,应用关联数据这种数据整合和发布的优点,能在图书馆的资源整合、语义服务等方面提供技术支撑和帮助,可以预见,随着关联数据在各行各业的广泛重视应用,且因关联数据具有坚实的技术基础、完整的系统结构和简便的发布方式优点,关联数据在图书馆的应用将有广阔的前景,尽管目前来看还存在数据整合、链接维护、隐私保护等方面的挑战,但随着关联数据的发展,相信这些问题会得到妥善解决。 参考文献: 1W3C. Linking Open Data EB/OL.2011-03-09.http:/www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects /LinkingOpenData#FAQ. 2沈志宏,张晓林.关联数据及其应用现状综述J.现代图书情报技术,2010, (11):1-9. 3Tim Berners-Lee. Linked data EB/OL.2011-03-09.http:/www.w3.org/DesignIssues/LinkedData.html. 4 14 Christian Bizer, Tom Heath, Tim Berners -Lee.