1、1滨江学院毕业论文(设计)题 目 基于 web of science 的本体研究知识图谱构建分析院 系 滨 江 学 院 专 业 信息管理与信息系统 学生姓名 学 号 指导教师 职 称 年 月 日2基于 web of science 的本体研究知识图谱构建分析摘 要:为了解本体的整体研究概况,利用引文分析技术和信息可视化分析软件Citespace,以Web of science数据库中收录的2004年到2015年的15966篇文献以本体为研究对象,对近年来本体研究的文献进行系统的分析,从区域与机构、期刊、作者、文献和关键词多个角度绘制了该研究领域知识图谱,以知识图谱的形式展现国内本体研究的进展、
2、热点及前沿。结果表明,在本体这一研究领域中国、美国和英国的科研究机构和科学家处于领先的地步。该领域的研究主要集中在武汉大学、中国科学院、上海交通大学等。该领域的重要杂志包括计算机科学讲义、知识采集、人工智能讲义、人机研究的国际期刊等。研究的热点主要包括计算机科学、医学、商学等及其相应的基础和应用研究。通过对文献的分析,我们可以宏观上掌握该领域的研究状况,更有效地获取信息,为我们开展相应的工作提供有益的参考,提高我们追踪科学研究前沿的效率,并促进学科发展。关键词:本体;知识图谱构建;知识图谱分析;Web of science3Construction of knowledge map and t
3、he analysis of the ontology research based on web of scienceAbstract: In order to understand the general situation of the research of ontology, we select the 15966 references in the web of science database from 2005 to 2014 related to ontology as research object to make systematic analysis.The resea
4、rch fields of knowledge map has been drawn from different perspective like areas, institutions,journals, authors, references and keywords by an analysis software named Citespace which is based on citation analysis technology and information visualization, and then show hotspots and frontiers in dome
5、stic research in the form of knowledge map. The results show that Chinese ,America and British are at the leading level among scientific research institutions and scientists in this research field. The research related to ontology focuses on the Wuhan University, Academy of Sciences, Shanghai Jiao T
6、ong University and so on. The important journal in this field mainly includes lecture notes in computer science, knowledge acquisition ,lecture notes in artificial intelligence and international journal of human-computer studies.etc. Ontology research mainly includes computer science, medicine, busi
7、ness and corresponding basic and related applied research. Through the analysis of the literature, we can grasp the macro research situation in this field, more efficient information acquisition, some useful references for us to carry out the corresponding work can also be provided, the tracking eff
8、iciency frontier of scientific research can be improved and the development of discipline can be promoted.Keywords: Ontology; Knowledge mapping; Citespace; Web of science41目 录1.绪论 .11.1 课题研究背景和研究意义 .21.1.1 本体研究背景 .21.1.2 课题研究意义 .21.2 研究现状 .21.2.1 国内研究现状 .21.2.2 国外研究现状 .31.3 研究主要内容 .31.4 组织结构 .32.知识图
9、谱的基本理论与数据选择 .42.1 知识图谱和 Citespace 软件 .52.1.1 知识图谱 .52.1.2 Citespace 软件 .52.2 数据来源与标准化处理 .62.2.1 数据来源 .62.2.2 本体研究的时间分布 .73.本体研究的力量分析 .73.1 本体研究作者分析 .83.2 本体研究科研机构及国家分析 .94.本体研究热点分析 .114.1 本体研究关键词统计分析 .124.2 本体研究热点知识图谱分析 .134.3 本体研究热点演化发展知识图谱分析 .134.3.1 2005 年 2009 年热点分析 .144.3.2 2010 年 2014 年热点分析 .1
10、55.本体引文统计分析 .165.1 文献共被引知识图谱 .175.2 期刊共被引知识图谱 .206.总结与展望 .236.1 研究结论 .236.2 研究不足与展望 .23参考文献 .24致谢 .2621.绪论1.1 课题研究背景和研究意义1.1.1 本体研究背景根据洪海娟 1对本体研究背景的研究,了解到“本体”的概念最早来源于哲学上的一个分支形而上学,大概的定义是将世间的事物先进行基本分解,分解后将事物的本质抽象出来,抽象出来的这个事物就是本体 1。经过几年的发展,到二十世纪八十年代末,本体开始进入到人工智能的领域,用来描述人工智能领域中的知识,因此本体的概念开始发生了改变。到 1993
11、年,斯坦福大学的 gruber2教授又将本体定义为“概念模型的明确、规范说明”。在 gruber 的基础上, 1997 年,Borst 3教授重新给出了本体的另一种定义-“本体是共享概念模型的形式化规范说明”。如今经过十几年的发展,本体已经成为非常流行的一个概念,研究学者在不同的领域中应用本体,让本体的概念不断丰富、多元化。本体的研究领域交错复杂,涉及概念,语言,技术,应用,其研究重点在不同时间段内,都是不同的,随时间在不断改变中。回顾过去十几年的本体研究,学者的研究兴趣集中在本体的什么方向?是什么文献在本体研究的相关领域的连接中起着关键的承上启下作用?本体研究主要研究领域是如何随着时间发生微
12、妙变化的?主要研究重点的了解和发展趋势的预测无疑是非常重要的,但目前仍没得出针对性的结论。因此,以科学测量基础理论为基础,用 Citespace 软件,进行本体研究力量分布,本体研究重点和本体研究的高被引文献的定量分析,从而全面,准确地揭示本体研究的热点和发展历程。1.1.2 课题研究意义通过 Web of science 检索到的相关本体文献进行本体研究知识图谱分析,有如下几方面的意义:(1)通过地域分布可以了解本体的研究力量分布。(2)本体研究机构分布,今后研究可以作为参考。(3)通过本体研究的期刊共被引分析,可以准确的了解到本体研究的文献主要发表于哪些重要期刊,这对今后的本体研究有重要的
13、参考价值。(4)通过本体研究的文献共被引分析,可以了解到具体哪个作者的哪篇文章,在本体研究的过程中,起着连接本体相关的其他领域的桥梁和过渡作用。(5)通过本体研究的文献关键字分析,由于关键词能够凝练并直接的表现文章的主旨,因此本文借助 Citespace 对文献中的关键词进行分析,通过显示高频关键词法来确定本体研究的热点领域在哪些方面。31.2 研究现状1.2.1 国内研究现状通过百度搜索引擎,简单了解到本体研究现状,国内对于本体相关论的研究已有很多年的时间了,其中近年来比较有影响力的有中科院数学所的陆汝钤 4和金芝研 5究员领导的常识知识的实用性研究和基于本体的软件需求获取方法;陈悦 6研究
14、了管理科学领域的热点和前沿问题,用的是多元统计分析方法;中科院的还有技术所的曹存根研究员研究的大规模知识系统 7,以本体为基础展开分析;刘泽渊 8等学者深入分析本体领域相关学科的研究热点等问题,用的是文献计量和可视化的方法;邓志鸿 9从本体的定义、理论研究、以及本体在信息系统中的应用和在语义网中的地位等方面详细介绍了目前本体的研究与应用现状。马费成 10也深入分析生物界领域的研究热点和前沿问题,用的是文献计量学的方法来绘图并进行引文网络分析。综合来看,目前国内关于本体的研究与应用主要包括三个方面:(1)本体在理论上的研究, 主要包括本体概念及其分类的研究、以及本体上的代数的研究; (2)本体在
15、信息系统中的应用, 主要包括信息组织的处理和加工、解决信息检索和异构信息系统互操作问题; (3)本体在语义网上的应用,本体能够作为一种工具,在知识层提供知识共享和重新利用。1.2.2 国外研究现状参考徐静 11对国外本体近两年应用的研究成果,了解到国外本体应用主要集中于三方面:信息检索、信息抽取和语义网三大领域。(1)本体在信息检索上的应用:如利用单个领域本体来改善特定学科领域的信息检索效果。比如休斯顿大学的Ping Chen 和Rakesh Verma12 提出一种基于用户询问的文本摘要技术来改进医学信息检索的效果,他们利用美国国家医学图书馆开发的一体化医学语言系统作为其主要的医学本体知识库
16、,该系统能帮助医学信息系统理解生物医学和健康领域的概念和术语的内涵以及相互之间的关系。(2)本体在抽取信息上的应用:比如美国德雷塞尔大学Zhou Xiaohua13等研究者采用基于本体的抽取方法研发出一个名为医学信息抽取的系统,用于挖掘出病人信息,从一个大规模的医院病人的信息集合中找寻对应疾病的病人编号。(3)本体在语义网上的应用:如Yu Qing14和Tho Quan Thanh15两个人都通过引入一种叫模糊逻辑的语言,进而而提出了FOGA(模糊本体生成框架)和FOWL( 模糊网络本体语言),最终两者结合后自动生成模糊本体,这个模糊本体最终还是用于描述知识,包括现实世界中一些确定或不确定的知
17、识,并提供智能化的语义网服务。1.3 研究主要内容(1)本体研究力量分析,其中包括本体研究作者分析和本体研究科研机构及国家分析。4(2)本体研究热点分析,其中包括本体关键词统计分析及本体研究热点知识图谱。(3)本体引文统计分析,其中包括文献共被引知识图谱及期刊共被引知识图谱。1.4 组织结构第一章 绪论。介绍本体研究的选题背景、研究现状,以及研究意义。第二章 信息可视化(知识图谱)的基本理论、方法、数据选择:介绍知识图谱和 Citespace 软件以及论文的数据来源和进行标准化处理。第三章 本体研究力量分析:进行本体研究作者分析以及本体研究科研机构及国家分析。第四章 本体研究热点分析:进行本体
18、研究关键词统计分析以及本体研究热点知识图谱。第五章 本体引文统计分析:分析文献共被引知识图谱以及期刊共被引知识图谱。第六章 总结与展望:总结出研究的结论,其中包括研究的不足及其展望。52.知识图谱的基本理论与数据选择2.1 知识图谱和 Citespace 软件2.1.1 知识图谱知识图谱,也称为知识和科学的映射,简单来说就是知识的可视化或者说是映射地图,它能够以不同种类图形的形式去显示知识发展进程与结构关系,并且能够以可视化技术来描述数据挖掘、信息获取、信息携带、知识结构、分析和绘制之间的相互关系 16。更具体的说,知识图谱就是用信息科学的理论和方法,将应用数学,图形信息做到可视化,并用科学引
19、文分析和共现分析法来分析问题,并且可以多学科融合,将核心结构学科的地图显示的可视化,发展历史,前沿和整体知识结构进行融合的实现。它是利用处理信息,测量知识、挖掘数据和图形的绘制等操作来显示复杂的知识领域,揭示领域知识的动态发展规律,为课题的研究和实践提供有价值的参考。从现在的知识图谱应用和发展状况来看,在发达国家,知识图谱的应用已逐步拓展,并取得了良好的效果,但我国仍然处于一个知识图谱研究的初级阶段,正在起步当中。 知识图谱的应用领域主要包括四方面: 16(1)网络运行商,科学技术等活动都有知识图谱的涉及;(2)对各研究领域之间知识进行输入与输出工作,描述某一学科主要研究领域之间的内部联系;
20、(3)描述学科中(作者、机构、专利、期刊和其他出版物等) 之间的关系; (4)对研究主题进行衍生、渗透与扩散趋势的拓展;2.1.2 Citespace 软件Citespace是一个应用程序,用于科学文献中,它的功能是识别并显示科学发展的新趋势和新的软件发展趋势,利用Citespace可以寻找在某一学科领域和目前的研究前沿,和相应的知识基础的研究进展。Citespace是基于Java编程语言的软件, 2004年通过文献资料和信息处理的相关性分析的信息可视化应用软件引文分析专门设计,由信息科学与技术陈超美博士,在德克塞雷大学,检测和之前的学科进行研究所得成果的关系分析进而研发出来。我们发现的演变路
21、径和文学的关键部分的学科领域之间的不同的研究领域。科学知识通过地图绘制Citespace 的可视化是共同引网络是由节点和不同颜色的线条。不同的颜色是根据为时间范围和时间间隔由用户设定,并自动生成不同年代代表之一的输入数据的Citespace软件本身。绘制的知识图谱中,连线的长度和节点的大小或宽度与相应的共引系数成正比,知识图谱顶端的分割线代表首次设置一年中的阈值时间和共同引值的线的颜色 17。Citespace的基本功能有:(1)网络的引文分析,寻找各个学科中文献的关键节点;(2)寻找信息科学领域发展的关键节点;6(3)学科的潜在动力机制分析;(4)研究前沿学科或知识领域的预测。具体使用步骤如
22、下:图 1 Citespace 的使用步骤(1)确定关键的词汇和术语。使用专业术语尽可能确定知识的广泛领域。这是为了确保能够覆盖的下一个知识领域的所有内容。(2)收集数据。主题被选定,在科学,考研,CSSCI和CNKI数据库下载主题,文献资料和纯文本文档的形式保存领域的网站。该CiteSpace可以直接从科学和PubMed下载数据的网络处理文献和分析之前,CSSCI, CNKI等文献资料下载所需的格式转换。(3)时分(分时)。按照文献数据分析软件与设置的时间范围的数据库下载时间范围内,并且设置所需的分割单元(年)PerSlice的分析的时间。(4)调整阈值。根据信息和文献资料的分析,阈值调整在引文,引文和三维的共引系数的数量的需要。(6)精简和合并。用户可以选择不同的算法,以简化网络相结合,做出一个清晰的地图,影像。(7)可视选择。根据需要选择不同的形式来显示的知识地图可视化,以便以后表现出来2.2 数据来源与标准化处理2.2.1 数据来源本文通过主题词检索的方式确定数据源,分析的数据均来自 Web of science。Web of science是美国科学情报研究所于1997年推出的基于网络的引文索引数据库, 其中包含三大引文数据库 18,社会科学引文索引、自然科学引文索引扩展版以及艺术与人文引文索引。Web of Science,1.研读引文2.分析结论3.咨询专家