政府类开放关联数据集调查研究.doc

上传人:99****p 文档编号:3104108 上传时间:2019-05-21 格式:DOC 页数:17 大小:49KB
下载 相关 举报
政府类开放关联数据集调查研究.doc_第1页
第1页 / 共17页
政府类开放关联数据集调查研究.doc_第2页
第2页 / 共17页
政府类开放关联数据集调查研究.doc_第3页
第3页 / 共17页
政府类开放关联数据集调查研究.doc_第4页
第4页 / 共17页
政府类开放关联数据集调查研究.doc_第5页
第5页 / 共17页
点击查看更多>>
资源描述

1、1政府类开放关联数据集调查研究摘 要:作为开放关联数据云图中重要的数据集合,政府开放关联数据集拥有庞大的数据规模和发达的数据共享实践,受到广泛关注。文章对曼海姆关联数据目录中的 284 个政府类开放关联数据集进行调查,从数据集的发布国家分布、主题分布、数据集格式、链出情况、链入情况、连接谓词、词表和开放协议等方面进行统计分析,发现政府类开放关联数据集具有数据集国家分布较集中、数据集主体涵盖政府工作各个方面、数据集之间关联关系紧密、质量控制和版权保护较为严格等特点。关键词:政府;关联数据;开放关联数据集 中图分类号: G203 文献标识码: A DOI:10.11968/tsyqb.1003-6

2、938.2016083 Investigation and Research on Government Linked Open Data Sets Abstract As an important part of the Linking Open Data (LOD) data sets, government data sets have a large volume data and advanced data sharing practice, and receive a widespread attention. 284 government linked open data set

3、s from Mannheim Linked Data Catalog are investigated, and aspects of distribution in countries, themes, formats, outgoing and 2incoming links, predicates for interlinking, used vocabularies and licensing information. Consequently, the paper summarizes the features of government open linked data and

4、provides reference for the development of Chinese government linked open data. Key words government;linked data;open linked data sets 1 引言 2016 年 3 月,中央发布的“十三五”规划纲要中提出,要全面实施促进大数据发展行动,加快政府数据开放共享。 纲要指出,要全面推进重点领域大数据高效采集、有效整合,深化政府数据和社会数据关联分析、融合利用,提高宏观调控、市场监管、社会治理和公共服务精准性和有效性。2015 年 9 月,国务院印发促进大数据发展行动纲要

5、,称要在 2018 年底前建成国家政府数据统一开放平台,率先在气象、环境、信用、交通、医疗、卫生等 20 余个重要领域,实现公共数据资源合理适度向社会开放,政府数据开放作为国家大数据发展战略中重要的组成部分被提上了建设日程。 不仅中国,各国政府都把开放数据提到了前所未有的高度。在 2009年奥巴马签署开放政府的行政命令后,政府数据的开放已成为近年来世界性的趋势。美国联邦数据平台 Data.gov 上线后,英国、加拿大、新西兰等国也都建立起了政府数据开放平台,开放政府数据已成为政府的一项重要工作。在我国,2011 年香港特别区政府开放政府数据网站“资料一线通(data.gov.hk) ”;上海在

6、 2012 年 6 月推出了中国大陆第一个数3据开放平台。之后,北京、武汉、无锡、佛山、南海等城市也都上线了自己的数据平台。尽管如此,在我国开放政府数据过程中还存在各种问题,如开放数据总量偏低,可机读性差,大多为静态数据,数据按承诺更新比例低,整体都未严格符合开放授权等。 从 2006 年 Tim Berners-Lee 提出通过关联数据发展数据网络(Data Web)后,国际互联网协会(W3C)的关联开放数据(Linking Open Data,LOD)运动正式启动。近年来关联数据引起了学者的广泛关注,同时也在政府部门的开放数据领域展开了实践探索。关联数据的核心目的就是促进数据资源的共享和重

7、用,以此增加数据资源的应用价值。政府开放数据涵盖各个领域的数据资源,包括医疗、交通、旅行和环境等领域数据。关联政府开放数据同时也促进领域资源之间的互联,即通过关联数据技术,将具有相关性的政府开放数据进行链接,实现数据资源之间的关联发现。如美国伦斯勒理工学院(Rensselaer Polytechnic Institute,简称 RPI)开发的 Data-gov Wiki 可以将 data.gov 中的数据集转换为 RDF 格式,以关联数据的形式重新呈现1;英国政府发布的关联数据主要包括统计数据2和地理空间数据3。 从国际上相关研究上来看,Hendler 等4和 Shadbolt 等2分别介绍了

8、数据集“Semantic.data.gov”和“Data.gov.uk”的建设和发布情况:Shadbolt 和 OHara5通过研究英国开放数据集的发展现状,认为在关注政府领域开放关联数据时,要关注质量、消费动力问题,要跟踪数据出处、保护公民隐私等;Galiotou 等6介绍了希腊基于关联数据技术,应用于希腊政府门户网站的政府开放关联数据技术的案例;Janssen4和 Hoven7探讨了在建设和利用开放关联大数据(Big and Open Linked Data,BOLD)时需要关注透明度和隐私问题;Vert8分析了运用关联数据解决开放政府数据处理的生命周期中所需要的数据发现、清洗、造型、出版

9、等步骤,并以罗马尼亚为例介绍 LOGD 在智慧城市中的应用;Corradi 等9以博洛尼亚为例,分析关联数据在开放政府中的应用;Yuan 等10认为,通过关联数据技术发布的政府数据可以提高数据的透明度和重用度,并对中国智慧城市建设中使用的关联政府数据进行了研究。 目前,国内还没有实现大规模的政府开放关联数据集建设。如吴?h、李占羽11根据国外的实践经验,总结出了发布开放政府数据到 Web 上的工作流程,认为我国应该按照先发布后调解的原则来发布政府数据,以便让政府数据早日实现开放与共享;袁远明等12深入分析涵盖内容表达层、创建层、互联层、浏览/查询层 4 层结构的关联政府数据技术体系,展望政府关

10、联数据在智慧城市建设中发挥的作用;钱国富13认为,政府数据应通过关联数据标准进行发布,利用本体技术将与政府运作相关的各类数据模型开发成一个规范的政府数据本体,使得政府数据更规范,更关联,更易于查找和利用。在实践方面,吴?h 等14使用关联数据技术,改进国外命名实体提取工具 Scones,链接发现工具Silk,数据转换工具 RDFizer 以及其他工具,设计出一套适用于公安系统的关联数据模型;丁楠等15构建了基于关联数据技术的政府信息聚合模型,并通过美国政府关联数据网站的关联数据集进行实例验证模型的可行性。总体而言,国内的研究主要集中于关联开放政府数据(Linked Open Governmen

11、t Data,LOGD)的模型构建和分析,较少能应5用于实践中解决实际问题。 本文通过对国际上政府类开放关联数据集进行较为详细的调查研究,重点关注不同国家和不同管理单位对于开放关联数据集的应用情况,希望对我国开放关联政府数据集的研究和实践起到一定的参考指导作用。 2 开放关联政府数据集统计分析 2.1 数据来源选择 随着开放关联数据计划(The Linking Open Data Project,简称 LOD)的发展,越来越多的数据提供者和网络应用开发者将各自的数据发布到网络上,并与其它数据源关联在一起,形成了一个巨大的数据网络。笔者以德国曼海姆大学发布的关联数据目录(Mannheim Lin

12、ked Data Catalog)为主要调查对象,结合 LOD 云图 2014 年发布成果进行检索,检索时间为 2016 年 3 月 20 日。检索结果显示,截止调查时间为止,在互联网上发布的开放关联数据集共有 1484 个,主要集中于政府、出版物、生命科学、用户生成内容、跨领域、媒体、地理、社交网络等八大主题领域(见表 1) ,与 2014 年 8 月 LOD 云图发布的数据相对比,可以看到,关联数据集数量增长了 46.35%。其中,政府主题的数据集增长了55.19%。本次调查的样本在曼海姆关联数据目录中满足标签信息为“government”的 284 个关联数据集。 2.2 开放关联政府数

13、据集概况分析 2.2.1 数据集发布国家分布概况 从表 2 可知,284 个数据集分布在 20 个国家或国际组织之间。其中,英国以 153 个占据首位,发布机构有英国内政部、英国统计局、6Data.gov.uk 团队等, 注:检索时间为 2016 年 3 月 20 日。 发布平台有 Opendatacommunities.org、data.gov.org 等,数据集内容包括地方政府财政、政府预算、居民住房和家庭情况、社会福利、复合剥夺指数、部门业务计划以及地理数据等。欧盟提供有 30 个关联开放政府数据集,发布机构有欧盟统计局、欧盟议会、欧盟环境署、欧洲中央银行等。美国提供有 20 个关联开放

14、政府数据集,发布机构为美国证券交易委员会、美国联邦统计机构、美国国会等。西班牙提供有 15 个,市政府、市统计局等为主要发布机构。还有一些国际组织也纷纷发布了关联开放政府数据集,如国际清算银行、国际援助透明度倡议组织、国际粮食政策研究所、国际货币基金组织、经济合作与发展组织和世界银行等。 三元组数量排名前 20 的数据集部分属性信息 (见表 3)中,前五位有 3 个关联开放政府数据集都是由美国data.gov 发布的政府数据,占到政府类数据集三元组总数的 52.18%。 2.2.2 数据集主题分布 政府信息资源涉及到综合政务、经济管理、交通运输、信息产业、城市建设、科技教育等多个领域,在调查涉

15、及的 284 个关联开放政府数据集中,其主题分布在民政社区、政法监察、综合政务、经济建设等几个方面(见表 4) 。其中,93 个(占总体 32.75%)关联开放政府数据集的主题为民政和社区,内容包括人口数据(如 2001 年西班牙人口普查数据“2001 Spanish Census to RDF”;英国国家统计局发布的 2001 年年中7到 2007 年年中的人口数据集“EnAKTing Population Dataset”等) 、社会福利(如由英国社区暨地方发展部进行的区域社会复合剥夺指数“Index of Multiple Deprivation,简称 IMD”系列调查而生成的关联数据集

16、“English Index of Multiple Deprivation Ranking 2010”等) 、民意调查(如欧洲标准调查数据集“Standard Eurobarometer”,提供欧洲社会科学研究中应用最广泛的数据来源)等。 在政法监察类数据集中,有代表性的为英国国家档案馆发布的法律主题数据集“UK Legislation”、国际透明组织发布的包括腐败感知指数和数据来源的数据集“Transparency International Linked Data”、希腊警察局发布的犯罪事件数据集“Hellenic Police”等。 2.2.3 数据集格式分布 从曼海姆关联数据目录中提

17、供的数据集格式可以看出,不同的数据集或采用单一的格式,或将多种格式进行组合呈现。本次调查的 284 个关联开放政府数据集共采用了 26 种数据集格式,其中排名前 15 名的见图 1。可以看出,example/rdf+xml、api/sparql 和 meta/void 是 LOGD最常采用的格式,特别是 example/rdf+xml,有 85.21%的关联开放政府数据集选择了此格式,如为了便于数据集的管理和互操作,由英国社区以及地方政府管理部成立的开放关联数据网站 OpenDataCommunities.org中所提供的所有数据集格式都统一为 example/rdf+xml 格式。而与医学相

18、关领域的开放关联数据集进行对比,关联开放政府 数据集更常采用 meta/void、meta/rdf-schema 来组织数据集格式16。 2.3 开放关联数据集关联应用统计分析 8关联数据的提供者通过设置 RDF 连接,将单一的数据集链接到数据云图中,使得数据集可以通过 RDF 链接更易被发现和利用。在 2014 年对LOD 云图中数据集的统计中发现,一共有 56.11%的数据集可以链接到至少一个数据集17。本次调查通过参考“链出” (outgoing links)和“链入” (incoming links)概念16来描述开放关联数据集之前的关联关系,根据在曼海姆关联数据目录中对 284 个关

19、联开放政府数据集进行调研,各个数据集的链出和链入情况详细描述如下。 2.3.1 数据集链出统计 关联数据的云图并不是强连接,并不是每一个数据集都存在于其他数据集的连接,即可能会出现数据集“孤岛”18。在本次调查的 284个关联开放政府数据集中,有 103 个数据集没有链接到其他数据集,有70 个数据集仅与一个数据集建立连接关系,而链出数量最高的为数据集“Community R&D Information Service (CORDIS) (RKBExplorer) ”,链出至 20 个数据集(见图 2) 。其中链出数据集数量在 5 个以上的数据集具体分布情况(见表 5) 。 2.3.2 数据集

20、链入统计 在 284 个数据集中,有 57 个数据集被本领域的其他数据集链入(非本领域的数据集链入情况不统计) ,具体分布情况(见图 3) 。 根据 LOD2014 报告显示,在 LOD2014 年发布的关联数据中,链出数量最高的为数据集“DBpedia” ,其入度(indegree)达到了 207。在本次调查涉及的政府信息相关的关联数据中,数据集“reference.data.gov.uk”和“statistics.data.gov.uk”的链入数据9集最多,占到了所有关联开放政府数据集的 29.23%,这两个数据集分别提供英国有关人口、部门、行政区划等信息,因此其链入的数据集多为在平台 o

21、pendatacommunities.org 上发布的数据集。 而从 LOD 整体数据集来看,被关联开放政府数据集引用次数较多的数据集还有:跨领域数据集“dbpedia.org” ,链入数据集 71 个;地理数据集“geonames.org”链入数据集 33 个;跨领域数据集“w3.org”链入数据集 10 个;跨领域数据集“lexvo.org”链入数据集 9 个。跨领域数据集提供标准被 LOGD 广泛的使用,如由 Wikipedia 中抽取结构化信息生成的 Dbpedia 数据集为包括联合国粮农组织关联数据、国际货币基金组织关联数据和 Europeana 关联开放数据等在内的关联开放政府数据

22、集所引用。地理数据集 geonames.org 包含了超过 800 万个地理名称,涉及地理信息的关联开放政府数据集,如世界银行关联数据集、OECD 关联数据集合、美国国会数据集、希腊政府消防数据集等被广泛引用。 2.3.3 连接谓词统计分析 关联数据中的连接谓词是 RDF 声明语句中的属性,定义了主体和客体之间的联系,一般由一个 URI 表示。谓词的选择能使得知识连接的 RDF描述语义更加明确,用户和网络抓取程序也能容易获取知识连接,并通过谓词的词间关系建立更多的知识链接19。政府类关联开放数据集常用的连接谓词(见图 4) 。dct:publisher 定义了责任者属性,通过该属性将不同责任者

23、制作的数据集建立关联,形成基于同一内容不同出版者之间的数据操作。dct:spatial 定义了空间属性,数据集之间可以通过该属性将不同实体地理坐标的数据集建立关联,形成互操作20。10owl:sameAs 在 LOD 整体使用较多,表示“两个 URI 引用实际上指向同一事物” ,使用这一属性能够有效聚合指向同一事务对象的所有数据。 2.3.4 开放关联数据集所用词表统计 为了使应用程序更好的理解关联数据,数据提供者使用词表来尽可能的定义数据。在研究关联数据的时候,一般认为,当一个词表被至少2 个数据集使用,即认为是非专有词表,反之则为专有词表。 从表 7 中可以看到,关联开放政府数据集最常使用

24、的词表是作为描述语言的 rdf 和 rdfs,都柏林核 心词表 dcterms 使用也较为广泛,有近半数的关联开放政府数据集选择了该词表。除此之外,关联开放政府数据集还较常使用词表cube(The RDF Data Cube Vocabulary) ,这是一个用来发布规范的多维数据集语言,使用 W3C RDF 标准构建,主要用于表达各种统计数据21,代表性数据集包括英国复合剥夺指数系列数据集等。FOAF(Friend of a Friend Vocabulary)也是一个得到广泛应用的本体,用于描述与人相关的资源,包括个人、组织和项目等,代表性数据集为 2011 年美国国会议员数据集“2011 US Congress People”、巴西政治家数据集“Brazilian Politicians”和西班牙政府数据集“Datos Abiertos de Zaragoza”等。而在其他领域被广泛使用的网络本体语言 owl 词表在关联开放政府数据集使用率相对较低(仅为 20.77%,相比于 LOD 2014 数据为 36.49%17,出版领域 59.38%22、医学领域 71/8516) ,使用 owl 词表的有联合国粮农组织的地缘政治本体、欧洲关联数据本体中心等。 2.5 开放关联数据集开放协议统计

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 学科论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。