1、基于本体论体系的中医药一体化语言系统 中国中医研究,一、研究目的与意义: 现状:中医药学科历经千年,产生了大量的概念与术语,多种语义词汇差异,阻碍了中医药数字化的发展。 目的与意义: 以中医药学科体系为核心,遵循中医药学科理论体系,建立中国第一个计算机化的、可持续发展的、包含中医药及其相关学科语言的中医药学语言集成系统,形成中医药学的语言系统平台。 本系统的建成将为中医药学的标准化工作、为中医药学数据的文本挖掘、为中医药学多源数据库歧义词检索及语义检索奠定基础。,二、研究思路:,以中医药学科的整体系统为基础;利用本体论的方法;借鉴(UMLS)美国一体化语言系统的思路;根据中医药语言学特点,建立
2、大型语料数据 库,并设计语义类型与语义关联关系。将语言学与中医药学知识体系有机的结合在一起,建立中医药一体化语言系统。,三、方法:从四方面入手研究,中医药,一体化,语言,中医药一体化语言系统,系统中医药为核心,以中医药为核心,其他学科叠加:中医药信息化过程中使用与利用的所有相关的学科与概念、术语,中医药语言结构体系一体化:建立、融入中医药术语表达方式一体化:词条属性中医药概念定义与释义形式一体化:回答是 什 么、关联关系是什么、学科中的位置是什么相同概念词一体化:无论文字、图表、正名与 异名、正确与误用,海量语言术语集成为基础:制定收词范围、顺序规范化网状结构解释概念的语义归类与关联:多水平控
3、制:词汇、形态、语义、语用;本体论与诠释论相结合,设计分层结构与网状立体结构;符合语言体系,限定与约定复杂度;采用归纳定性,将同类事物合并;参照UMLS的整体结构,保持兼容性与包容性;系统保持灵活性与可扩展性 ;,Protg程序,四、研究内容:,设计词条属性结构,总体系统设计,概念词属性定义,四种可控词表的结构比较,中医药概念的语义类型设计(105种),建立中医药一级分类体系(13),中医药语义的关联关系(58种),事件与物质二大类的结构展开,以中医五、六版教材的学科分类为依据,立体表达关系等级关系相关关系(时间、空间、概念、功能、物理),完成概念词属性设计,语料库(收词40万),语用关系(5
4、万),中医学科结构,标准,词典,教材,临床术语,其他,定义实现,语义表达,五、组织机构与管理,任务分配,加工编辑,全国十三家大学、科研单位(100),六、研究成果:,建立了六个专题的中医药一体化语言系统(中医基础、治则治法、诊断、疾病、方剂、中药) ;进行了本系统结构设计;建立了实现本系统的技术标准与操作手册;完成了三个专题的结构设计;中医基础部分已召开了专家论证会;,实现结构与概念关联:中医基础,成果,七、应用与推广:,语言集成与规范,建立数据 库基础语言平台,检索查询应用工具,数据挖掘与知识再现支撑条件,小结:,( 1)首次提出中医药学一体化语言系统设计思想与原则;(2)首次提出中医药学一体化语言系统的选词原则与词条属性定义;(3)首次提出中医药学一体化语言系统的语义类型与语义关联设计。(4)解决了海量数据的收集与编辑加工。 本项研究在国内领域属于先进技术;成果将广泛应用于中医药标准化建设、中医药数据利用等领域中,具有良好的应用前景 。,谢谢!,中医药语言现状(现代文献收词已超过60万条),多样性(同名异物) (异物同名),无标准化(缺少国标),无统一机读词库,缺少系统结构,本体论,哲学上的概念,用于描述事物的本质。在近一、二十年来,本体论已被计算机领域所采用,用于知识表达、知识共享。本体论是一种回答:存在是什么?,不同体系的融入,