1、基于本体的 Web 文档知识获取的框架研究摘 要 本文在分析了 Web 文本的知识获取途径之后,提出了一个基于本体的 Web 文档知识获取模型。该模型具有较好的适应性和可移植性,模型使用了可扩充标记语言(XML),使得对知识库的处理更加简便。最后,通过一个临床实例对其流程进行了详细说明,并分析其在医院知识库系统中的应用。关键字 知识获取;本体;Web 文档1 引言互联网技术的发展为知识获取方法的研究带来了机遇和挑战。必须发展相应的知识自动获取技术。为了使语义网应用到实际中给人们提供知识服务,就需要解决从 Web 文档中获取知识的问题。尽管从 Web 页面的注释中我们可以发现部分信息,然而所获得
2、的信息是不全面的,而且很难能获取元信息。有研究者将本体的概念引入到知识发现领域1 5,但还没有充分发挥到本体的优势。本文中本体以概念和关系来划分知识类型,并且以获取知识的本体为指导来从非结构化的 Web 文档中发现知识。2 面向eb 文本的知识获取途径互联网中存在大量的 Web 文档,其中记载着大量的信息。通过超链接逐页阅读相关文献来查找所需信息是初级的且效率较低的知识获取方式。从文本中发现知识并提供给用户从技术上讲有两条主要途径:(1)传统的途径,即通过使用如归纳程序等工具直接获取文本中的知识,或通过知识工程师或领域专家使用知识编辑、编译工具间接获取知识,然后构造专家系统知识库,通过专家系统
3、间接为用户提供知识2。这种方法有如下不足:第一,专家系统知识库的表现形式不统一,存在知识难以共享的问题,且不适合逐页浏览;第二,在知识从文本转移到专家系统知识库过程中,存在信息丢失的弊端 3。(2)自然语言技术,即直接从自然语言文本获取有用的知识并提供给用户4。但由于目前自然语言理解水平还比较低,主要是利用用户提供的样本进行训练,然后开发相应的程序来获取特定范围的知识。这种途径的缺点是有限的样本库资源限制决定了其应用范围的狭窄性。为此,需要有一种新的知识获取方法,它能以适当的方式及时地将适用的知识从众多的文本提供给用户。将知识表示技术处理技术及 XML技术标准结合起来,构成了一种新的知识获取途
4、径。3 基于本体的知识获取模型3.1 本体的基本概念本体的英文有两种写法:大写开头的 Ontology 指哲学领域的本体论的概念。在哲学中 Ontology 是一种存在的系统化解释,用于描述事物的本质。本体论的概念和方法被计算机领域采用,用于知识表示、知识共享和重用。小写开头的 ontology 是计算机领域广泛使用的概念,翻译为本体,是某领域内共享概念的明确的形式化规范说明。虽然本体还没有一个明确的定义,AI 领域普遍认同 Gruber 于 1995 年指出类似的概念:本体是“概念化(Conceptualization) 的显式( Explicit) 说明或表示”6 。直观地讲,本体是一个实
5、体,是对某一领域应用本体论的方法分析、建模的结果,即将现实世界中的某个领域抽象为一组概念及概念之间的关系。3.2 基于本体的知识获取方法很多知识获取系统(如 IE)能识别一些文档实体,例如张三是一个人,2004 年 6 月是一个日期,但是如果不将这些信息通过它们之间的关系联系起来,就没有太多的实用价值了。因为它不能表达出张三出生于 2004年 6 月的完整含义。这就要求有一种自动处理机制用于发现实体之间的关系,也就是要求信息向本体转化。基于本体的知识获取模型将知识获取工具与本体联系在一起,用本体来支持和指导知识获取,是零散的信息集中到一起形成知识,以不断地获取知识。知识获取工具通过搜索 Web
6、 文档,将那些能与给定的规则结构匹配的知识提取出来,然后将它格式化为一种便于机器阅读的格式(如 XML),并将它存入知识库(KnowledgeBase)。在知识获取过程中起指导作用的本体本身也要采用一种字典扩展机制来扩展本体集合。3.3 基于本体的知识获取模型基于本体的知识获取模型包括知识获取、信息管理、和知识生成 3大部分。其中知识获取工具利用搜索引擎技术从 Web 文档中一点一点地收集信息项(如句子和段落)。知识获取工具将所获得的信息片断和本体字典库中的元数据一起传送到本体服务器中,本体服务器存储并固化这些信息到知识库以备知识生成工具访问,当用户请求查询某条相关信息时,知识生成工具从知识库
7、中获取信息并生成知识叙述通过用户接口返回信息给用户。其结构如图 1 所示。1) 知识获取首先,用户向系统发出请求并提供相关的信息,如姓名,职业等;然后知识获取工具根据用户所提供的信息,利用 Web 搜索引擎在 Web 文档中进行检索,其检索到的信息项以句子和段落的形式,传送到本体库中;在本体库中,根据用户提供的信息在本体字典找到需要的元数据,并连同 Web 搜索引擎的结果一起发送到本体服务器上。2) 信息管理信息管理模块主要由本体服务器和知识库组成。本体服务器在接收到知识获取模块发送的信息项和本体元数据后,根据元数据对信息项进行处理,通过对句子和段落进行语义识别,包括语法分析、语义分析和本体分
8、析,生成一个关于本体的 XML 文档,其中的各属性名为本体的属性,对应的值是从语义识别中获得数据。然后将生成的 XML 文档保存到知识库中,以备返回给用户接口程序,为用户提供知识。3) 知识生成知识生成模块主要负责将知识库中的知识,以自然语言的形式生成知识文档,通过用户接口,输出给用户界面。其中最重要的是知识文档的生成,由于在知识库中预先存有知识文档模板,因此只要将知识文档中对应的属性值填充到模板的相应位置即可。4 实例分析大多数 Web 信息以自然语言文档形式存在,一般的信息获取工具可以将文档信息分成实体,但是它们不能识别实体间的相互关系。为此提出了一种基于本体的识别工具来识别实体中的信息碎
9、片及它们之间的关系。本系统以一个临床疾病的本体为例,该本体除了包含该疾病的临床表现、主要特征等外,还包含了这些文本信息所在的网络路径,以便重新组织它们时起指导作用。例如用户从用户接口发出请求查询感冒的知识,知识生成工具迅速搜索知识库,看能否找到有关感冒的知识。如果没有找到,则通知知识获取工具从 Web 中去搜索,然后从搜索结果中过滤出相关文档。例如用百度搜索引擎搜索到 100 个包含感冒的网址,这些网址当中可能会含关于感冒的治疗、预防等,这些网址要采用过滤技术将其过滤掉。一旦某个文档被选中,它随即被分成段、句。然后从语义的角度寻找相关知识,如果语法相关则进行语义识别。4.1 语义识别例如某文档
10、内容为:通常所说的“感冒”主要指的是西医学的“上呼吸道感染” ,临床表现为鼻塞、流涕、喷嚏、咳嗽、头痛、恶寒发热、全身不适为主要特征。流行性感冒则是由感染流感病毒引起,有以下特点:如发作多呈流行性,中毒症状常更重,甚至表现为寒战高热、周身酸痛,全身症状明显等。本病四季均可发生,以冬、春两季多见,所有人群均易感。为了从二进制信息中获取实体关系,需要用存储在本体中的领域专家的知识来决定实体间的关系。为此必须向本体服务器请求本体相关知识,而且在定义本体的同时,还必须有词典的帮助。例如一个词有同义词、广义词、狭义词等。例如对“通常所说的感冒主要指的是西医学的上呼吸道感染 ,临床表现为鼻塞、流涕、喷嚏、
11、咳嗽、头痛、恶寒发热、全身不适为主要特征。 ”这个句子的分析过程用谓词逻辑描述如下:1)语法分析none(感冒);none(上呼吸道感染);verb(指);subject(感冒);predicate(指);object(上呼吸道感染)。2)语义分析disease(感冒);name(上呼吸道感染)。3)本体分析假设本体的模型为:疾病名称,专业名称,临床表现正好与语义分析的结果匹配,于是原句被分成两个句子,感冒的专业名称是上呼吸道感染,感冒的临床表现是鼻塞、流涕、喷嚏、咳嗽、头痛、恶寒发热、全身不适。4)知识存储每次知识获取产生一个 XML 文档输出,并将其存入知识库中。整体分析过程如图 2 所示
12、。4.2 知识生成机器可以通过结构化的本体来交换信息,但是人们需要一个较为直观的接口。如记叙的方式,就是一个较为自然的方式。在此系统中,知识库中已经存储了一些本体信息,它们之间没有明确的顺序,但是有一定的相互关系。所以只需要将他们按照一定的序列组织起来即可。5 结论基于本体的知识获取模型,由于引入了本体库,使 Web 文本中零散的知识更加容易被发现,因此该模型在获取知识的全面性上有一定的优势;而且本体库可以针对不同的领域设计,因此只要开发出对应领域的本体库,就可以很方便地实现向该领域的移植;同时利用 XML 语言来表示本体,可以更加简便地处理知识库的信息。当前医院知识库系统中存在大量可用知识,
13、它们都以分散的 Web 文本形式存在,因此将基于本体的知识获取系统引入其中,必然可以得到大量对诊断具有意义的知识。这将为广大临床医师做出更好更准确地诊断提供一定的依据。参考文献1 M.Vargas-Vera et al., ”Knowledge Extraction Using an Ontology-Based Annotation Tool, ” Workshop on Knowledge Markup Semantic Annotation, ACM Press, New York, 2001,5-122 赖朝安 孙延明 齐德昱 郑时雄, 基于自然语言理解的专家系统研究 ,计算机工程,2
14、003.01,vol.29:20-343 赖朝安 孙延明 郑时雄, 面向 Web 文本的机械知识获取方法研究 ,机械设计,2002.08:33-364 邓志鸿 唐世渭 等. 面向语义集成本体在 Web 信息集成中的研究进展. 计算机应用.2002,22(1).-15-17 5 Gruber T R, Towards Principles for the Design of Ontologies Used for Knowledge SharingJ . Intl Journal of Human Com2 puter Studies,1995,43(5/ 6) :908292816 李庆中 苑春法 黄锦辉, 基于小规模标注语料的机器学习方法研究,计算机应用,2004.02,vol.24,No.2:56-58