有指导的数据挖掘在心脏病风险评价中的应用.doc

上传人:gs****r 文档编号:1534598 上传时间:2019-03-04 格式:DOC 页数:4 大小:24KB
下载 相关 举报
有指导的数据挖掘在心脏病风险评价中的应用.doc_第1页
第1页 / 共4页
有指导的数据挖掘在心脏病风险评价中的应用.doc_第2页
第2页 / 共4页
有指导的数据挖掘在心脏病风险评价中的应用.doc_第3页
第3页 / 共4页
有指导的数据挖掘在心脏病风险评价中的应用.doc_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

1、有指导的数据挖掘在心脏病风险评价中的应用讲述了什么是数据挖掘,数据挖掘的过程,以及数据挖掘的两种策略:有指导和无指导学习。本文主要运用的是无指导的聚类分析,用心脏病数据集来解释有指导学习的过程,通过 K-Means 的应用表明患有心脏病病人的某些属性特征和患心脏病风险的大小有关系,以及年龄和血压之间的关联。数据挖掘的结果对于医生临床诊断有很重要的意义。 数据挖掘 聚类分析 K 均值 一、引言数据挖掘是计算机行业发展最快的领域之一。以前数据挖掘只是结合了计算机科学和统计学而产生的一个让人感兴趣的小领域,如今,它已经迅速扩大成为一个独立的领域。数据挖掘的结果对于医生临床诊断有很重要的意义。实验表明

2、患心脏病病人的某些属性特征和患心脏病风险的大小有较大关系。数据挖掘有两种策略:有指导和无指导学习。本文用心脏病数据集范例来解释有指导学习的过程。1.有指导学习和无指导聚类对于使用无指导聚类来说,不存在预定义的类。取而代之的是,数据实例根据聚类模型定义的相似度机制来分组。而大部分数据挖掘是有指导的,在使用有指导学习时,数据挖掘工具可使用类别已知的实例来建立表示数据的普遍的模型。然后利用所创建的模型确定新的、以前未分类实例的类别。2.用于有指导学习的方法在一个装有 iData分析器的 Excel 中,用一种数据挖掘工具 ESX 建立有指导的学习模型,其方法如下:首先,将要挖掘的数据输入一个 Exc

3、el 电子表格并选择一个输出属性。然后执行一个数据挖掘会话,再阅读并解释汇总结果、检验集结果和各个类的结果,最后生成可视化并解释类规则。 二、聚类分析数据挖掘技术从传统意义上说是指数据的统计分析技术,采用的传统数据分析技术主要包含线性分析和非线性分析、回归分析、逻辑回归分析、时间序列分析、最近邻算法和聚类分析等。K-Means算法是划分聚类中较流行的一种算法,它是一种迭代的聚类算法,迭代过程中不断移动簇集中的对象,直至得到理想的簇集为止,每个簇用该簇中对象的平均值来表示。算法的主要步骤为:(1)从 n 个数据对象随机选取 k 个对象作为初始簇中心;(2)计算每个簇的平均值,并用该平均值代表相应

4、的簇;(3)根据每个对象与各个簇中心的距离,分配给最近的簇;(4)转第二步,重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数不再明显变化或者聚类的对象不再变化才停止。K-Means 算法对于大型数据库是相对可伸缩的和高效的,算法的时间复杂度为 O(n*k*t) ,其中 t 为迭代次数。一般情况下结束于局部最优解。 三、具体实例说明 1. 心脏病风险评价中的数据挖掘问题在世界卫生组织与世界心脏病协会等权威机构发布的另一项关于预防心脏病的指南中指出,引起心脏病的危险因素有两种,即“行为因素”和“生理问题” 。最主要的四种行为因素是:吸烟、饮酒、不健康的饮食、缺乏体力活动。这些不良的行为

5、日益累积会使机体发生生理改变。医学数据库的信息量非常庞大,其数据又具有自身的独特性。要想充分利用丰富而宝贵的医学资源,必须选择适合医学数据类型的数据挖掘工具及挖掘技术,尽可能大地发挥数据挖掘技术在医学信息获取中的价值。2. 数据准备(1)数据选择及预处理。运用有指导学习的方法对心脏病人数据集进行数据挖掘,此数据集是由位于加州 Long Beach 的 VA 医疗中心的 Detrano 博士搜集的。该数据集包含分类和数值数据的混合表,数据包含了 303 个实例组成,其中 165 个包含了未患心脏病的患者,剩余的 138 个实例包含了患过心脏病的患者。 (2)建立数据挖掘库。我们将试图发现年龄等因

6、素与是否患过心脏病之间的关联,从而证实患过心脏疾病与它产生的可能因素之间的规则。具体实施步骤如下:将文件加载到一个新的 Excel电子表格中,其中我们将下列属性设置为输入属性:age(年龄) 、sex (性别) 、chest pain type(胸痛类型) 、blood pressure(血压) 、cholesterol(胆固醇) 、fasting blood sugar120(空腹时血糖水平) 、resting ecg(静息时心电图) 、maximum heart rate(最大心率) 、angina(心绞痛) 、peak(峰值) 、slope(斜度) 、#colored vessels(有

7、色导管编号) 、thal,输出属性为 class。3. K-Means 的应用利用 K-Means 算法对表 1 进行聚类分析,经过反复对照,最终将聚类数设置为 2,其中,类 1 基本对应于 sex(性别) ,类 2 基本对应于age(年龄) 。如下图所示: 4.总结研究表明心脏病的高发人群为:年龄大于 45 岁的男性、大于55 岁的女性;吸烟者;高血压患者;糖尿病患者;高胆固醇血症患者;肥胖者。虽然年龄、性别、家族遗传病史等危险因素难以改变,但是如果有效控制其余危险因素,就能有效预防某些心脏病。在日常生活中学会自我管理,建立良好的健康的生活方式,对心脏病患者而言,至关重要。 参考文献: 1崔

8、园.有指导的数据挖掘在风险评价中的应用 J.四川师范大学出版社,2006.1. 2孙微微,刘才兴.数据仓库与数据挖掘 J.农业网络信息,2005, (1). 3郑新奇,刘晓丽.基于 Clenmentine 决策树的空间数据挖掘方法探讨 J.中国科协年会论文集.2006. 4Richard J.Roiger,and Mchael W.Geatz Data mining:a tutorial based primer M.Pearson Education,Inc.2003. 5汤效琴,戴汝源.数据挖掘中聚类分析的技术方法 J.微计算机信息,2003, (1). 6刘艳霞.数据挖掘中聚类分析技术的研究与应用 J.科学情报开发与经济,2008, (6).

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。