1、1中华人民共和国史本体构建初探摘 要本文借鉴其他历史本体构建的经验,针对中华人民共和国史领域知识的特点,在确定国史本体构建原则的基础上,提出构建国史本体的方法和流程,构建国史本体原型系统,为进一步构建完善的国史本体进行了探索。 关键词本体;中华人民共和国史;本体构建 DOI:10.3969/j.issn.1008-0821.2014.02.007 中图分类号G253 文献标识码A 文章编号1008-0821(2014)02-0032-05 近年来,基于本体的知识库被广泛应用于知识发现和基于知识的信息资源检索,成为知识服务的主要手段。在农学、医学、军事和科研监测等领域信息资源服务中,本体构建得到
2、充分的重视,例如国内最早开展的农业花卉本体研究1和中国医科院基于本体构建重大传染病信息知识服务平台2以及南京理工大学的军用飞机本体3等,另外,中科院文献中心通过科研监测本体辅助情报价值判断和知识关联呈现4。在历史领域,由于知识的时空依赖性、主观性、不确定性、模糊性和争议性,本体建设呈现一定的特殊性。尽管如此,董慧5、吴丽杰6、彭炜明7等在国共合作历史本体、东北抗战史本体、资治通鉴本体方面均做了有益的尝试。领域本体是信息技术与专业知识结合的产物。中华人民共和国史(即当代中国史,简称国史)研究的 1949 年新中国成立以后的历2史,由于历史阶段不同,特定的世情国情使这个阶段的知识呈现不同的特征。本
3、文在借鉴其他历史本体构建经验的基础上,针对国史领域特色,在确定国史本体构建原则的基础上提出构建国史本体的思路和方法,构建国史本体原型系统,为进一步构建完善的国史本体进行了探索。 1 国史本体构建原则本体构建是一项庞大的系统工程,需要领域专家和本体工程师按照一定的原则,在合理的方法指导下,通过便捷的工具加以实现。Gruber8于 1995 年提出本体“明确性” “一致性” “可扩展性” “最小编码倾向” “最小本体化承诺”5 个原则,其余学者基本都是在这五原则基础上扩展。本文通过国史本体构建试验,在比较同类历史本体构建经验的基础上认为,除了上述关于逻辑要求的五原则之外,有两个方面尤其要注意。一是
4、本体构建要面向特定的应用目标;二是同一学科的知识在不同时空下有自己特色。1949 年以后,我国基本处于国家建设时期,国家重视记史存史,史料内容翔实,记载手段丰富,保存情况完好,该阶段的史料比古代史和近代史的总和还要多,其所包含的历史细节也是以往任何史料无法比拟的。这也是历史学科的特点,越是近期的历史,史料越丰富。面对这么丰富的知识,如果不能设定本体应用目标,构建本体时就会感到力不从心。本文认为,国史本体有以下几方面的作用,一是构建国史知识图谱,通过知识图谱描绘国史的基本脉络,便于普通读者了解国史;二是建立国史概念之间的联系,辅助构建基于本体的主题词表,为基于知识的信息资源建设提供支撑;三是辅助
5、国史研究和编纂,国史本体多维度描述国史知识,将人物、事件、地点、机构等放在一个模型中描述,改变传统的历史叙事模式(纪传体以人物为3主线叙述历史,编年体以时间为主线叙述历史) ,研究人员可以从多种角度来还原历史,还可以借助本体辅助生成大事记和人物年表能编纂成果。这些目标对本体构建有不同的要求。前两个目标主要是满足普及国史和检索国史的要求,本体是粗粒度的知识及其表达,体现了国史的知识轮廓。第三个目标直接面向国史细节,需要细粒度的知识和表达。二者在文本选择、概念关系模型、本体编辑队伍上有很大的不同。粗粒度的本体构建时,可以选择百科类国史工具书和文献统计数据等,其概念关系模型允许包含简单模糊的关系,由
6、国史专业普通研究人员进行编辑;细粒度的本体除了上述文本外,必须通过年谱、传记、日记等翔实的史料建立比较精确的概念关系模型,并由国史专家进行本体编辑。尽管国史历史细节丰富,但由于其时间短,许多方面存在不确定性,这些为构建细粒度本体带来难度。本文重点研究面向知识普及和信息组织的国史本体。基于本体的知识库构建离不开其所依赖的文本。古代史书的叙事内容决定着古代史本体的特色。例如,中国古代是家天下,历史人物之间的血缘关系是古代史本体不能忽视的概念关联;中华人民共和国是现代意义上的国家类型,人物之间的血缘关系不再是历史研究的重点,甚至是可以忽略的。近代史中战争战役频繁,将战争战役作为一个大类并详细设定其属
7、性是近代史本体不能省略的;当代史以国家建设为主要内容,某些战争战役可作为实例放在事件大类中。上述这些时代特色都影响着本体的构建。 2014 年 2 月第 34 卷第 2 期现?代?情?报 Journal of Modern InformationFeb.,2014Vol.34 No.22014 年 2 月第 34 卷第 2 期中华人民4共和国史本体构建初探 Feb.,2014Vol.34 No.22 国史本体构建方法和流程当前,国内外很多学者基于自身实践提出本体构建方法,如骨架法9、评价法、七步法10、五步法等。七步法是斯坦福大学医学院提出的基于 Protg 本体编辑工具的一种领域本体构建方法
8、,7 个步骤分别是:(1)确定本体的专业领域和范畴;(2)考查复用现有知识本体的可能性;(3)列出本体中的重要术语;(4)定义类和类的等级(层次)体系;(5)定义类的属性;(6)定义属性的分面;(7)创建实例。本文在七步法的基础上提出国史本体构建流程,如图 1 所示。第 1 步,确定国史本体构建目标:构建支持信息组织和国史知识普及的国史知识图谱。第 2 步,确定和分析知识来源。基于上述目标,选定国史百科类工具书(如中华人民共和国国史百科全书和 图 1 国史本体构建流程 中华人民共和国编年史等)为国史知识的文本来源,收集国史期刊库中的关键词,作为重要概念来源,组织一支良好的国史专家队伍作为隐性知
9、识来源。对上述知识来源进行分析,对于百科词条中文本,逐句进行分解,提取重要的概念并分析该语句中主体、谓词、客体以及条件之间的关系;对于期刊库中的关键词,通过词频统计和关键词规范化,整理出重要的概念及其规范化表达;通过专家访谈,了解国史的概貌和重要的一次文献和二次、三次文献。第 3 步至第 5 步,确定核心概念、确定类的层次并设定类的属性,也就是设计国史本体概念关系模型,是建立国史本体最重要的步骤。通过对知识来源的分析和抽象,参考相关历史领域本体的经验,确定“人物” “事件” “时间” “地点” “组织机5构” “历史文献” “理念” “领域”8 个大类,其中“理念”主要指国史上党和政府的方针政
10、策的特有术语表达,如“科学发展观” “三个代表重要思想” 。对于机构团体,按其性质分为“党的机构” 、 “政府机构” 、 “人大机构” 、 “政协机构” 、 “重要企业单位” 、 “重要事业单位”等,为了表示特定历史称谓的群体,如“江青反革命集团” ,设立“特殊群体”二级类;对于历史文献,根据重要程度分为“党政文件” “题词讲话书信” “其他出版物”等二级类。各类之间通过属性建立关联,国史本体概念模型如图 2 所示。表格为本体类及其属性,虚线及其边上的文字代表不同类型的概念之间的关系。例如, “事件”类通过属性“涉及人物”与“人物”类发生关联, “历史文献”类通过属性“起草人” “作者” “报
11、告人”与人物类发生关联。这些属性都是在文本分析的基础上提炼出来的,文本中的出现概率较高的那些“谓词” “条件” ,如“出生” “发表” “任命”“在地点发生” ,常常演化成“出生年月” “文献出版机构” “曾任职务” “发生地点”等“属性” 。图 2 国史本体概念关系模型 第 6 步,本体编码和逻辑检查。基于对“七步法”方法上的认同,本文的本体构建工具也主要为 protg 及其插件,如可视化插件 Ontograf 和推理机Racer 等,本体描述语言为 OWL 语言。根据第 6 步的逻辑检查结果,对国史本体的概念关系模型进行多次修正。图 3 为“事件”类编辑界面。图 3 “事件”类编辑界面 语
12、法丰富、基于逻辑描述的 OWL 能够很好地描述国史本体概念关系模型,因为它定义了一系列的构造算子和公理,能表达类与类之间以及属性与属性之间的关系和约束。在设计国史本体编码时要尽量利用 OWL6的语法约束表达国史概念的复杂的关联。例如, “owl:sameAs”表示两个实例之间的对等关系,这个算符可用在国史实例的规范化表达和入口词之间,如“事件” “事件别称”之间;“owl:inverOf”表示属性之间是“反属性”关系,即若属性 A、B 之间存在反转关系,那么如存在XAY,则必有 YAX,如“hasChildhasParent” 。这样,可在国史本体的属性对“相关文献”与“文献相关事件”之间建立
13、“反属性”约束联系,“文献”实例的“文献相关事件”属性值取自“事件”的某个实例,而该实例的“相关文献”属性值自动设定为那个“文献”实例,从而可保证数据的统一性。另外,OWL 的类约束中的“条件约束” “排他性约束”和属性取值的“全称约束” “存在约束” “最大基数约束” “最小基数约束”等都为描述国史本体提供丰富的表达。在使用 OWL 描述知识之前,人们习惯用关系型数据库描述知识。例如,使用关系型数据库反映中国分类主题词表中各概念词汇的关系。关系型数据在表达多元关系方面确实有一定优势。OWL(RDF)只能以三元组形式主体(概念) ,属性,客体(概念) 描述主客体(概念或个体)之间或主体(概念或
14、个体)和具体属性值之间的二元关系。在知识库中,概念之间的关系很多时候是大于二元的,如“胡耀邦于 1981-1982 年之间任中共中央主席” ,主体是在特定时间内担任某一职务。这种一个个体与其他多个个体或值之间关系称为多元关系,目前主要有两种模式用于解决 OWL 无法描述的各种多元关系11,这两种模式分别解决无序的多元关系表达和有序的多元关系表达,其基本思路都是将多元关系分解为二元关系后,再用 OWL 描述(如图 4 所示) 。图 4(1)中主体 A 和客体 B 通过属性 P 关联,而 C 是 P7的一个条件,如某人在某时间段担任某职位,某时间段就是 C。分解成2-ary 关系时,图 4(2)将
15、 B、C 作为一个整体。这样在图 4(3)中,通过引进新类 D,主体 A 与新类 D 发生二元关联,而 B、C 分别作为 D 的属性。图 4 n-ary 关系到 2-ary 关系的分解 本文在国史本体概念关系模型中引进新类“机构领导”类,将任职情况的若干属性,如“职务名称” 、 “职务开始时间” 、 “职务结束时间”等整合在一起,这个类通过“组织机构”中的“机构包含职务”属性与“组织机构”相联,且通过“人物”中的“曾任职务”与“人物”相联, “职务人姓名”与“曾任职务”之间是“反属性”约束。图 5 为“胡耀邦于 1981-1982 年之间任中共中央主席”的编辑界面。图 5 “胡耀邦于 1981
16、-1982 年之间任中共中央主席”编辑界面 第 7 步,通过文本抽取辅助本体编辑试验。通过对来源文本进行初步加工,抽取出与本体实例相同的词并使这些词语在上下文中呈现不同颜色,可辅助编辑本体实例。国史本体概念关系模型构建不是一步到位的事,需要经过多次试验才能完善。第 8 步和第 9 步,本体编辑和存储。小规模的本体直接存储成 OWL 格式或 RDF 格式,大规模的本体一般以关系数据库形式持久化。 3 国史本体原型系统本文根据上述流程构建了国史本体原型系统,该国史本体原型系统描述了中华人民共和国 1977-1981 年这段历史时期涉及的概念、术语和关系。系统包括时间、人物、机构、地点、事件、领域、
17、理念、历史文献这八大类概念及其之间的错综复杂的关系。该本体的知识来源于人民出版社出版的中华人民共和国编年史 1949-20098和中共党史出版社出版的中共党史人物传 ,现包含 11 个本体类(包括属性类) 、33 个对象属性、9 个数值属性、300 个实例,涉及 51 个事件、33 篇历史文献、41 个人物、29 个机构、13 个地点、72 个时间点,能够实现本体的可视化检索。图 6 以可视化方式显示原型本体中与“通过关于建国以来党的若干历史问题的决议”这个事件相关的概念,例如该事件的相关文献有“关于建国以来党的若干历史问题的决议” ,相关事件有“十一届六中全会” “邓小平会见法拉奇” “叶剑
18、英国庆三十周年讲话”“真理标准大讨论”等,事件的发生时间为“1981 年 6 月 27 日至 29 日” ,等等。节点之间用不同颜色的线相连,表示这些概念之间的丰富的关系。例如,当鼠标移动到节点“通过关于建国以来党的若干历史问题的决议”和“拨乱反正”之间的连线时,系统提示“通过关于建国以来党的若干历史问题的决议涉及理念拨乱反正” ,表明二者之间是“涉及理念”的关系。 图 6 以下为国史本体原型系统 OWL 片段。 9上述原型系统仅仅是构建国史本体的一次探索,在国史概念模型、协同编辑环境、知识来源和获取等方面做得相当粗浅。如有可能,应在人力财力和技术加大投入的情况下,作进一步探索。 参考文献 1
19、李景.本体理论及在农业文献检索系统中的应用研究以花卉学本体建模为例D.北京:中国科学院研究生院:文献情报中心,2004. 2高东平,方安,李杨,等.知识服务平台的设计与应用以重大传染病信息知识服务平台为例J.情报理论与实践,2011, (7):111-115. 3颜端武,岑咏华,毛平,等.领域知识本体的可视化检索研究J.中国图书馆学报,2007, (4):60-63,76. 104张智雄,刘建华,邹益民,等.网络科技信息自动监测服务系统建设J.科研信息化技术与应用,2013,4(2):9-17. 5董慧,余传明,杨宁.基于本体的数字图书馆检索模型研究()历史领域资源本体构建J.情报学报,200
20、6, (5):564-574. 6吴丽杰.基于本体的特色数据库知识组织研究J.图书馆学刊,2012, (3):41-43. 7彭炜明,宋继华.资治通鉴历史领域本体构建及其应用研究J.中文信息学报,2010, (2):33-38. 8Thomas R.Gruber.Toward Principles for the Design of Ontologies Used for Knowledge SharingOL.http:citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.89.5775&rep=rep1&type=pdf,2013-07-25.
21、 9Uschold M,King M.Towards a Methodology for Building OntologiesC.In:Workshop on Basic Ontological Issues in Knowledge Sharing,held in conjunction with IJCA I-95,Montreal,Canada,1995. 10Natalya F.Noy and Deborah L.McGuinness.Development 101:A Guide to Creating Your First OntologyOL.http: 11Noy N,Rector A.Defining N-ary Relations on the