1、- 1 -基于多数据源的知识图谱构建方法研究摘要:针对多数据源的融合应用,构建了基于多数据源的知识图谱。首先,对不同领域内的数据源构建相应本体库,并将不同本体库通过数据融合映射到全局本体库,然后,利用实体对齐和实体链接方法进行知识获取和融合,最后,搭建知识图谱应用平台,提供查询和统计等操作。在实体对齐方面,利用传统的基于相似性传播实体对齐方法,获得良好的实体对齐效果;在实体链接方面,提出了基于约束嵌入转换的预测推理方法,实验结果表明,在预测准确率上取得较好的结果。0 引言在大数据时代背景下,随着海量数据的出现以及多数据源融合交叉应用,传统的数据管理模式以及查询方式受到一定的制约。近年来,知识图
2、谱(Knowledge Graph) 1作为一种新的知识表示方法和数据管理模式,在自然语言处理、问题回答、信息检索等领域有着重要的应用。知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系;其基本组成单位是“实体-关系- 实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构 2。随着谷歌知识图谱的发布,知识图谱的构建与应用研究引起了学术界和工业界的广泛关注。在国内,知识图谱的构建与研究已经起步,相应取得许多重要的研究成果。如:搜狗的知立方、百度知心;复旦大学 GDM 实验室设计了一种面向图书阅读领域的中文知识图谱 3;金贵阳等 4利用知识
3、图谱和语义网技术,提出构建企业知识图谱的方法,并应用于钢铁企业信息集成,提高了企业信息查询的效率;胡芳槐 5在博士论文中研究了基于多数据源的中文知识图谱构建方法,涉及到本体层构建、实体层的学习等,同时构建行业领域知识图谱的应用平台;王巍巍等 6构建了双语影视知识图谱,包括影视本体库的构建、实体的链接、实体匹配等,并搭建了应用平台与开放数据访问接口;鄂世嘉等 7提出了一种端到端基于中文百科数据的中文知识图谱自动化构建方案,并开发面向用户的中文知识图谱系统。现有的行业领域知识图谱通常采用手工构建方式,缺乏统一的构建方法,且这类知识库目标是特定行业领域,因此,其描述范围极为有限。针对这些问题,提出了
4、将不同领域知识库进行融合成一个知识图谱,旨在构建语义一致、结构一致的多数据融合知识图谱,实现对不同领域内的知识进行查询和展示,从而提高了数据查询效率。本文提出一个多数据源融合的知识图谱构建流程,并对关键技术进行研究,包括数据源的获取、领域本体库的构建、全局本体库的构建、实体对齐、实体链接以及应用平台的搭建。文中利用某地区的医院医疗保健数据、空气污染监测数据和环境监测数据,构建了多数据融合的知识图谱。1 知识图谱构建过程知识图谱构建是知识图谱得以应用发展的前提,涉及实体抽取和实体及实体之间关系的建立,同时还需要很好地组织和存储抽取的实体与关系信息,使其能够被迅速的访问和操作 8。知识图谱构建过程
5、通常可以分成两步:知识图谱本体层构建和实体层的学习 5。本体层构建通常包含术语抽取、同义词抽取、概念抽取、分类关系抽取、公理和规则学习;实体层学习则包含实体学习、实体数据填充、实体对齐和实体链接等。知识图谱的构建方法通常有自顶向下和自底向上两种 2。所谓自顶向下的方法是指先构建知识图谱的本体,即从行业领域、百科类网站及其它等高质量的数据源中,提取本体和模式信息,添加到知识库中;而自底向上的方法是指从实体层开始,借助于一定的技术手段,对实体进行归纳组织、实体对齐和实体链接等,并提取出具有较高置信度的新模式,经人工审核后,加入到知识图谱中。然而,在实际的构建过程中,并不是两种方法孤立单独进行着,而
6、是两种方法交替结合的过程。本文在构建多数据源的知识图谱时采用两种方法的结合,首先采用自顶向下的方式来构建本体库,然后采用自底向上的方式进行提取知识来扩展知识图谱。- 2 -数 据 来 源本 体 构 建知 识 获 取 和 融 合环境监测数据库气象监测数据库医疗保健数据库结构化数据半结构化数据非结构化数据纯文本数据领域本体库构建全局本体库构建实体对齐实体链接 多 数 据 融 合 知 识 图 谱 多数据融合知识图谱应用平台图 1 多数据融合的知识图谱构建过程Fig.1 Knowledge graph based data fusion model本文基于多种数据源的融合技术,构建相应的知识图谱,具体
7、过程如图 1 所示。图 1 中是从多种不同的数据源,如各个领域中的结构化、半结构化和非结构化数据,构建相应的领域本体库,然后将它们映射为全局本体库,接着对这些领域知识图谱通过知识获取和数据融合构造知识图谱,最后通过搭建相应的应用平台,方便对知识图谱进行查询与更新。2 多数据源融合的知识图谱构建为了能充分利用不同领域内的知识,实现不同领域内数据快速查询,本文在融合多种数据源的情况下,构建了多数据源的知识图谱。首先对不同领域内构建不同领域的本体库,然后将不同领域的本体经过映射成全局本体库,接着对各个领域的知识库进行实体对齐和实体链接,丰富和拓展所构造多数据融合的知识图谱。2.1 数据源用于构建知识
8、图谱的本体库数据源可以来源于结构化数据、半结构化数据和非结构化数据,以及现有的一些通用知识图谱库等。本文用于构建本体库的数据源如表 1 所示。1)结构化数据。其主要是指关系数据库中的表、excel 表以及其它具有结构的数据。2)半结构化数据。其主要指介于结构化数据和无结构化数据之间,通常的 XML、HTML 等相关网页属于半结构化数据。半结构化数据主要来源于维基百科、百度百科等。3)无结构化数据。其主要指纯文本资料、图像和声音等数据。2.2 本体库构建本体(ontology)是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化方式对概念及其之间的联系给出明确的定义 2。本体定义了知识图谱
9、中的数据模式,因而,本体构建研究的成果能在很大程度上辅助知识图谱的构建 5。针对不同的应用领域和不同的需求,本体构建的方法也有所不同。本文利用 OWL(Web Ontology Language)从多种数据源中构建相应的领域本体库,然后通过映射成全局本体库。1)领域本体库构建本文领域本体库构建其主要数据源是来自于环境监测数据库、空气污染检测数据库和医疗健保数据库。除此之外,也利用相关领域的网站数据等。下面重点介绍从关系数据库中获取领域本体库的过程,如图 2 所示。首先,领域内的关系数据库是针对特定领域而创建的,该数据库包含了领域内的表达方法和具体应用的详细信息,因此,可以从领域的关系数据库中抽
10、取出关系模式,分析关系数据库中表的信息和字段信息,建立相应的概念模型。其次,由于关系模式包括表与字段之间的关系,以及表与表之间的联系,而本体库则是包括概念与- 3 -概念之间的关系、概念与属性间的联系。因此,要利用一定的规则将关系模式映射为本体模型。本文设计了一系列转换规则,如:将关系模式中的表名转换为本体中的概念名;表与表间的关系转换为本体中的概念与概念的关系;将关系模式中的字段名转换为本体的属性名等。通过上述的转换规则,可以获得领域本体模型。最后,对领域本体模型进行评估和校验。该部分重点是对所构造的领域本体模型进行检验,查看是否满足本体库的构建原则,本体模型中的术语是否正确,本体模型中的概
11、念及其关系是否完整等。通过对本体模型评估后,可以建立领域内的本体库。关系数据库可具有完整的数据模式,包含完整的表结构和完整性约束条件。因此可以将数据库中的关系名转换为本体中的概念,部分字段名转换为本体中的属性,示例如下:另外,为了扩充和完善领域本体库,需要对非关系型的数据进行采集和填充。本文对行业领域内的半结构化数据进行结构化处理,对相应百科网站通过网页爬虫技术获取相应的知识,并将半结构化数据转换成结构化数据,最后利用上述关系数据转换成本体的规则进行转换。2)全局本体库构建为了能便于构建多数据融合的知识图谱,需要将多个领域内的本体库进行融合,构建全局本体库。其过程如图 3 所示。在上述构建的领
12、域本体库基础上,通过相似性检测和冲突解决等规则,将多个领域的本体库融合在一起组成了全局本体库。其步骤如下:首先,由于不同领域内的本体库进行知识融合,对存在着一些相同或相似的概念和属性等,采用了相似性检测规则对这些不同领域内的本体进行检测。如:语义相似性检测、概念相似性检测、属性相似性检测、数据格式相似性检测等。通过这些相似性检测后,能将不同领域内的相同或相似本体进行统一,但并不能解决它们之间的冲突。抽取关系模式关系模式映射成本体的一些转换规则获取领域本体模型评估与校验 领 域 内 的 本 体 库 领 域 内 的 关 系 数 据 库 领 域 本 体 库 1 领 域 本 体 库 n 全 局 本 体
13、 库 根据相似性检测规则将相似概念进行统一根据冲突解决规则对相似或相近的概念进行消除歧 义 、 冗余和错误将不同领域本体进行知识融合对剩余的领域本体进行冲突解决及实体消岐等其次,采用冲突解决规则对上面存在着相似概念或属性等进行解决。通过冲突解决规则可以消除概念的歧义,剔除冗余和错误概念,从而保证全局本体库的质量。主要是对上述中存在着相近或相似的概念或属性进行消除,使其达到统一,并合并为全局本体。将关系名转换为本体概念的OWL语言:.将字段名转换为属性名的OWL 语言:.图 3 全局本体库构建过程Fig.3 The process of global ontology construction图
14、 2 从关系数据中构造领域本体库过程Fig.2 The structure of ontology construction from relational database- 4 -最后,将剩余的领域本体经过冲突解决和实体消岐等处理,映射到全局本体库,与上面经过处理后各个领域本体库相结合,从而实现全局本体的构建。2.3 实体对齐实体对齐(entity alignment) 9也称为实体匹配或实体解析,是判断相同或不同数据集中的 2 个实体是否指向真实世界同一对象的过程。实体对齐目的是:发现在不同知识库中具有不同实体名称,但却代表着现实世界中同一事物的实体,将这些实体进行合并,且用具有唯一标识
15、对该实体进行标识,最后将该实体添加到相应的知识图谱中。针对不同知识库的实体对齐过程如图 4 所示 9。即在给定不同的知识库,通过先验对齐数据以及调整参数和相关外部资料的作用下,进行实体匹配的算法计算,最终得到实体间的对齐结果。虽然在构建全局本体库时,针对不同领域内本体库的实体做了实体消岐处理,然而,这里的实体对齐是为了丰富和拓展知识图谱,从现有的通用知识图谱及其相关的资料中,利用实体对齐方法,提取实体及实体间的关系来填充知识图谱。现阶段有关实体对齐的算法较多 9, 10,常用的有:基于传统概率模型的实体对齐方法、基于机器学习的实体对齐方法、基于相似性传播实体对齐方法、基于 LDA 模型的实体对
16、齐方法、基于 CRF 模型的实体对齐方法、基于 Markov 逻辑网的实体对齐方法等。现 有 知 识 图 谱 其 它 知 识 图 谱 利用先验的对齐数据 、 调整参数和其它相关外部资料实体对齐算法处理实体对齐的结果 填 充 和 完 善 知 识 图 谱 本文采用基于相似性传播实体对齐方法 9-11,该算法将实体对齐问题看成是一个全局匹配评分目标函数的优化问题进行建模,属于二元分类问题,可通过贪婪优化算法求得其近似解 10。基本过程如下:(1)对于开放链接数据及行业领域的百科数据中实体,进行提取得到了实体的同义名称集合;(2)通过实体对齐的方法,将这些实体与上述构建的知识图谱中的实体进行匹配,把结
17、果作为实体合并的候选实体集;(3)将这些候选实体集中的实体,通过比对它们的上层概念,如果具有相同的上层概念,则将它们合并为一个实体。2.4 实体链接实体链接(entity linking) 12, 13是指对于从文本中抽取得到的实体对象,将其链接到知识图谱中对应的正确实体对象的操作 14。而实体链接预测是指在给定的知识图谱中,预测出缺失的实体间的关系,从而丰富和拓展知识图谱。其基本思想是首先根据给定三元组的头(尾)实体和关系,从知识图谱中或其它相关文本数据,选出一组候选实体对象,然后通过实体链接预测算法,计算出正确的尾(头)实体,并将得到的三元组添加到相应的知识图谱中。现阶段有关知识图谱实体链
18、接预测算法较多 8, 15-17。常用的有:基于向量嵌入转换算法、基于张量分解算法、基于路径推理算法、结合文本推理算法等。在前期工作研究基础上 8,提出了基于约束向量嵌入转换算法,获得较好的实体链接预测结果,算法流程图如图 5 所示。其基本思想是:将知识图谱中的实体和关系,通过嵌入(embedding)方式投影到低维向量空间,并在向量空间中通过向量平移转换操作,计算头、尾实体及关系在向量空间中的损失函数值,实现头尾实体的关系链接。而基于约束嵌入转换算法,是在原有向量嵌入转换算法的基础上 18,增加了关系语义约束条件,使得所预测出实体间的关系要满足关系的语义类型。如:对于关系“出生于”,其头实体
19、通常是人或动物,而尾实体通常是时间或地点。图 4 不同知识库实体对齐过程Fig.4 Process of entity alignment of different knowledge bases- 5 -4 结论本文提出一种基于多数据融合的知识图谱构建过程,并对整个过程中所涉及的方法加以描述,旨在构建语义一致、结构一致的多数据融合知识图谱。首先通过构建不同领域内的本体库,将不同领域的本体库,通过数据融合和映射技术构建全局本体库,实现各种数据源语义关系一致的知识图谱。在实体对齐方面,提出了基于相似性传播实体对齐方法,获得良好的实体对齐效果;在实体链接方面,基于前期研究工作基础上,提出了基于约束
20、嵌入转换的预测推理方法。参考文献:1 Pujara J, Miao H, Getoor L, et al. Knowledge Graph IdentificationC. International Semantic Web Conference. Springer Berlin Heidelberg, 2013: 542-557.2 刘峤, 李杨, 段宏, 等. 知识图谱构建技术综述J. 计算机研究与发展, 2016, 53(3): 582-600.3 肖仰华, 张可尊, 汪卫. 一种面向图书的阅读领域知识图谱构建方法: 中国, CN103488724A P. 2014.01.01.4 金
21、贵阳, 吕福在, 项占琴. 基于知识图谱和语义网技术的企业信息集成方法J. 东南大学学报( 自然科学版), 2014, 44(2): 250-255.5 胡芳槐. 基于多种数据源的中文知识图谱构建方法研究D. 上海 : 华东理工大学, 2015.6 王巍巍, 王志刚, 潘亮铭, 等. 双语影视知识图谱的构建研究J. 北京大学学报( 自然科学版), 2016, 52(1): 25-34.7 鄂世嘉, 林培裕, 向阳. 自动化构建的中文知识图谱系统J. 计算机应用, 2016, 36(4): 992-996.8 吴运兵, 杨帆, 赖国华, 等. 知识图谱学习和推理研究进展J. 小型微型计算机系统,
22、 2016, 37(9): 2007-2013.9 庄严,李国良,冯建华. 知识库实体对齐技术综述J. 计算机研究与发展, 2016, 53(1): 165-192.10 徐增林, 盛泳潘, 贺丽荣, 等. 知识图谱技术综述J. 电子科技大学学报, 2016, 45(4): 589-606.11 Lacoste-Julien S, Palla K, Davies A, et al. SIGMa: simple greedy matching for aligning large knowledge basesC. Proceedings of the 19th ACM SIGKDD inter
23、national conference on Knowledge discovery and data mining. New York. ACM, 2013: 572-580.12 刘峤, 钟云, 李杨, 等. 基于图的中文集成实体链接算法J. 计算机研究与发展, 2016, 53(2): 270-283.13 Shen W, Wang J, Han J. Entity linking with a knowledge base: Issues, techniques, and solutionsJ. Knowledge and Data Engineering&IEEE Transacti
24、ons on, 2015, 27(2): 443-460.14 Li Y, Wang C, Han F, et al. Mining evidences for named entity disambiguationC. Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining, New York. ACM, 2013: 1070-1078.15 Nickel M, Murphy K, Tresp V, et al. A Review of Relatio
25、nal Machine Learning for Knowledge GraphsJ. Proceedings of the IEEE, 2016, 104(1): 11-33.16 刘知远, 孙茂松, 林衍凯, 等. 知识表示学习研究进展J. 计算机研究与发展, 2016, 53(2): 247-261.17 刘康, 张元哲, 纪国良, 等. 基于表示学习的知识库问答研究进展与展望J. 自动化学报, 2016, 42(6): 807-818.图 5 基于约束向量嵌入转换算法流程图Fig.5 The figure of embedding translation based on constraint- 6 -18 Bordes A, Usunier N, Garcia-Duran A, et al. Translating Embeddings for Modeling Multi-relational DataC.Advances in Neural Information Processing Systems, Lake Tahoe, Nevada, USA. 2013: 2787-2795.