医学信息数据库的建立与数据挖掘.doc

上传人:99****p 文档编号:2007158 上传时间:2019-03-28 格式:DOC 页数:8 大小:29KB
下载 相关 举报
医学信息数据库的建立与数据挖掘.doc_第1页
第1页 / 共8页
医学信息数据库的建立与数据挖掘.doc_第2页
第2页 / 共8页
医学信息数据库的建立与数据挖掘.doc_第3页
第3页 / 共8页
医学信息数据库的建立与数据挖掘.doc_第4页
第4页 / 共8页
医学信息数据库的建立与数据挖掘.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、医学信息数据库的建立与数据挖掘作者:屈景辉 廖琪梅 许卫中 陈汉勇 【关键词】 医学信息 关键词: 医学信息;数据仓库;数据挖掘;数据组织 0 引言 计算机和信息技术在医学领域中的应用,形成了现代医学中一个新的边缘学科 医学信息学或医药信息学(medical informatics) ,进而成为生物医学工程学的重要支柱.医学信息涵盖了医学活动中产生的文字、图像、声音以及电磁波、光波、压力、温度等多媒体物理数据,这些数据在计算机和数据库技术的支持下,已成为医学技术领域实施科学管理和科学研究的重要资源.数据仓库(data warehouse,DW)与数据挖掘(data mining,DM)技术的出

2、现1 ,为医务管理人员、科研工作者分析、利用这些数据资源进行科学管理、决策和开展大规模、高水平医学研究提供了有力的技术工具.数据仓库与数据挖掘技术已在国外一些大型企业中得到了成功应用,国内一些企业也已开始着手这方面的投资,有的并得到了可喜的回报.由于医学技术具有很强的实践性、实验性、统计性,是一门验证科学,浩瀚的医学资源要用现代技术去组织、去分析、去利用,因此,探索数据仓库与数据挖掘技术在医学信息方面的应用就具有更重要的实用价值和广阔的发展前景. 1 问题的提出 目前,医学信息的处理大多停留在基于数据库技术支持的操作型事务处理的水平上,如数据的查询、修改等,是为特定的应用服务的.而建立在数据库

3、技术之上的分析型信息处理最典型的应用是一些医学诊断方面的专家系统(expert system,ES) ,其数据资源仅仅是某一方面的专家知识,涉及的数据量很小,覆盖面也很窄.那么,摆在我们面前这个巨大的医学资源宝库究竟能为我们做些什么呢?例如,医院信息系统(hospital information system,HIS) ,它是医学信息学的一个分支,分为管理信息系统(management informa-tion system,MIS)和临床信息系统(clinical information sys-tem,CIS).前者主要处理医院内部管理方面的信息如人事、财务和设备管理等,而后者是以处理患者

4、为中心的信息系统,如患者入院、住院、治疗、检查、病历、出院等一系列与患者有关的信息.那么,这两类系统能否满足下列要求呢?如果医院明年利润目标要增长 5%,哪些前提条件变化才能达到这一目标?此外还需采取哪些措施来实现这些变化?未来某段时间内哪些药品使用的频度最高或最低?以及与治疗疾病间的关系?未来某段时间内哪些疾病是常发病或发病率最高?使用的药物主要有哪些?如何组织急需药品的供应?环境、气候、地理位置与流行病间的关系?利用现有信息系统要回答这些问题是困难的,有些甚至是不可能的.然而,利用数据仓库与数据挖掘技术就可以轻而易举地找到问题的答案.因此,建立数据仓库与利用数据挖掘技术对于开展科学研究,提

5、高医学技术水平是很有必要的. 2 数据仓库的建立 所谓数据仓库是支持管理决策过程的、面向主题的、集成的、与时间有关的、持久的数据集合,它以传统的数据库技术作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据和提取信息的有效方法,以人工智能技术作为挖掘知识和发现规律的科学途径,是与网络通信技术、面向对象技术、并行技术、多媒体技术、人工智能技术等相互浸透、互相结合与综合应用的技术. 创建基于 HIS 的数据仓库,是从已有数据出发的数据仓库的设计方法,称之为“数据驱动”的系统设计方法,它的基本思路是:利用以前建设的数据库系统的数据,按照分析领域对数据及数据之间的联系重新考虑,组织数据仓库中的

6、主题,利用数据模型有效地识别数据和数据仓库中的主题的数据的“共同性” (即建立主题间相互联系的属性).其创建的基本方法如 Fig1 所示 2 . 图 1 略 从图中看出,数据仓库的设计是一个动态的、循环的过程,在系统设计初级阶段,人们对系统的分析需求不能预先作出规范说明,只能给出一个抽象的模糊的描述,数据仓库的内容、结构、粒度、分割以及其他物理设计根据用户反馈信息再不断地调整和完善. 2.1 主题抽取 数据仓库中数据的组织是面向主题的3 .它是在较高层次上对分析对象的数据的一个完整的、一致的描述,能完整、统一地刻画各个分析对象所涉及的各项数据以及数据之间的关系.可以说,主题定义的过程就是数据仓

7、库模型建立的过程. 2.1.1 系统边界确定 由于数据仓库建立初期很难获得明确而又详细的需求,系统设计人员只能得到一些基本的方向性的需求信息,如决策的类型、决策者感兴趣的问题、解决这些问题需要哪些信息,这些信息需要包含原有数据库系统的哪些部分的数据等等.这就是数据仓库设计过程中的需求分析,称之为系统边界界定,以此作为确定主题的基本依据. 2.1.2 主题的确定 根据有关军卫 1 号工程设计思想和实施细则的报道,HIS 几乎涵盖 MIS 和 CIS 的方方面面,涉及范围广泛,内容丰富全面,可以从管理角度、从科学研究的角度,确定若干个主题如患者、药品、门诊、检验等,作为管理决策和科研分析的数据来源

8、.例如:患者:患者固有信息:患者标识号,住院号,姓名,性别,出生年月,文化程度,身份证号,住址,电话 患者住院信息:患者标识号,入院科室、职业、身份、费别、在职标志、医保类别、医疗保险号、工作单位、门诊医师药品: 药品固有信息:药品编码,药品名称,规格、单位、剂型、毒理分类、标准剂量、材质分类、用药梯次、价格系数 药品采购信息:药品编码、药品名称、规格、单位、剂型、市场批发价、市场零售价、货源足缺、包装规格 2.2 数据组织 数据仓库中的数据分为早期细节级、当前细节级、轻度综合级和高度综合级 4 个级别,各个级别的数据根据需要划分为不同的粒度 4 .所谓粒度是对数据仓库中数据的综合能力的度量,

9、它既影响仓库中数据量的多少,也影响数据仓库所能回答的问题多少,粒度越小,细节程度越高,综合程度越低,回答查询的种类越多. 各个级别的数据是随着时间的变化而变化的,也就是以时间段来区分不同的细节.当数据按照时间段划分完成后,无论是主题还是主题之间的联系,都用关系来表示,也就是说数据仓库的数据最终也表现为关系,其数据的组织通过关系数据库实现,因此,数据仓库的逻辑模型就是关系模型,即用二维表表示一个主题或者说一个关系,表中的一行称为一个元组,一列称为属性,每列的名字即为属性名,某个可以唯一地标识一个元组的属性称其为主码或关键字. 实际上,数据组织中的关键问题是数据仓库的物理模型设计,一是采用哪种数据

10、库管理系统以及存储结构和存取方法;二是如何在庞大的数据仓库中建立索引以提高数据的存取效率;三是根据主题的重要程度、使用频率选择不同的存储媒体以提高系统响应速度和降低系统硬件费用. 2.3 数据获取与集成 在数据仓库的逻辑模型和物理模型建立后,紧接着是建立数据仓库与传统数据库之间的接口,即将操作型环境下的数据装载进入数据仓库环境,这是一个所需数据的抽取与不同环境或异构数据库的集成的过程5 ,它完成了由操作型环境生成完整数据、基于时间的数据转换、数据的凝聚、异构数据库的集成以及数据的时标设定等任务6 .接口设计就是要选择合适的软件开发平台如PB,VB,VC,Delphi 等设计数据提取与集成的接口

11、程序,完成数据的装入以及异构数据库的访问等任务,达到数据获取与集成的目的. 2.4 建立应用 数据装入仓库后,为进一步开发决策支持系统 DSS以及其他联机分析处理7 (online analytical process-ing,OLAP)准备了充分的数据资源.在 DSS 和 OLAP 开发 中需要采用软件工程中的原型法开展应用系统研究,即在初步建立系统的基础上,尽快地让系统运行起来,近早产生效益,在系统运行中不断地理解需求,改善、完善系统性能. 3 数据挖掘 随着时间的推移,数据仓库的数据量在急剧增长,这些日积月累的数据中是否存在着某种关系、模式或者趋势,是很难一眼就看得出来的,或者知道有某种

12、关系,但必须进一步加以证明或修正,这时,数据挖掘DM 技术就有用武之地了. 数据挖掘是基于人工智能(artificial intelligence,AI) 、机器学习、统计学等技术,高度自动化地分析原有数据,作出归纳性的推理,从中挖掘出潜在的模式或行为,以帮助决策者作出正确决策的过程.也就是说为了寻找未知的模式或趋势而在细节数据中进行搜索的过程,从而生成新的信息和知识8 .数据挖掘利用人工智能中的一些成熟的算法和技术作为发现知识的方法,如人工神经网络、遗传算法、决策树、邻近搜索算法、规则推理等,利用关联分析、序列模式分析、分类分析、聚类分析作为数据挖掘的分析方法. 例如,采用关联分析方法可以从

13、业务系统如 CIS 的数据库或为此建立的数据仓库、数据商店的细节或事务中寻找出重新出现概率很高的模式.具体的说,从 CIS 的数据库中分析某种疾病治疗过程中诱发其他疾病的概率以及与时间的关系等. 结束语 伴随着数据库技术的发展,数据仓库与数据挖掘技术作为一种解决方案,成为医学信息技术领域重要的研究方法,必将为管理决策、科学研究带来很大的方便和可观的效益. 参考文献: 1关 俐,梁洪峻.数据仓库与数据挖掘J.微型电脑应用,1999;15(9):17-20. 2王 珊.数据仓库技术与联机分析处理M.北京:科学出版社,1999:1-2. 3杨 森,王翰虎.面向主题的数据仓库体系结构J.计算机应用,1

14、999;19(10):104-105. 4乔 颖,须 德.多重粒度数据仓库的存储新策略J.北方交通大学学报,1997;21(6):684-689. 5王 宁,陈 滢,俞本权.一个基于 Corba 的异构数据库集成系统设计J.软件学报,1998;9(5):378-382. 6胡 华,高 济,何志均.基于主动规则对象的分布式多数据库系统集成J.小型微型计算机系统,1999;20(7):526-530. 7姚宇蓉,何厚存.数据仓库中的信息存取分析技术的研究J.计算机应用研究,1999;16(8):54-58. 8Joyce Bischoff,Ted Alexander 著.成 栋,魏立原译.数据仓库技术M.北京:电子工业出版社,1998:212-213.

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。