1、1基于 clementine 软件的住院费用影响因素分析摘 要:本文主要选取东中西地区不同类型医院的 2000 个病例数据,利用 clementine 软件建立决策树模型与单变量及多变量神经网络模型,分析影响住院费用的主要影响因素,并对三种模型的精度进行比较,得出结论:影响住院费用因素主要有住院天数、地区、费用来源、年龄、级别等因素,并为缓解就医压力问题提供相关参考意见。 关键词:clementine;决策树模型;神经网络模型;影响因素 1 研究背景和目的 近年来, “看病难,看病贵”一直是影响民生的重大问题,为此政府也出台相应的医疗改革政策,旨在解决老百姓无法支付高昂的医疗费用的问题,为老百
2、姓的健康提供保障。但导致医疗费用高的原因是复杂多方面的,如:是否有医疗保险,住院的天数,病情的严重程度等等都会导致医疗费用的不同。为了更加深入的探究导致医疗费用如此高昂的愿意,本文选取来自东中西地区不同类型医院的 2000 个病例数据,通过对医疗费用的影响因素进行分析,为政府制定更加高效、合理的医疗改革政策提供一定的参考意见。 2 方法介绍 本文主要通过决策树模型和构建神经网络模型对影响住院总费用的因素进行分析。 (1)决策树模型 2决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到
3、该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。 (2)神经网络模型 “BP”网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP 网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP 神经网络模型拓扑结构包括输入层(input) 、隐层(hide layer)和输出层(output la
4、yer) 。“ 3 数据预处理 本文分析的变量有 32 个,主要可以概括为 10 个方面,分别为:(1)医院特征变量,包括:医院代码、医院所在地区、医院级别 3 个变量;(2)病人基本特征,包括:年龄、性别、婚姻状况、民族、职业 5个变量;(3)病人住院情况,包括:入院途径、入院时的病情 2 个变量;(4)医保,包括:医保类型,是否医保拒付 2 个变量;(5)具体治疗情况,包括:药物过敏标志、院内感染、输血情况、输液情况、有无手术、入院前是否经外院治疗、住院时有无出现病情危重、住院时有无出现病情急症、住院时有无出现病情疑难 9 个变量;(6)治疗效果,包括:3疾病转归、出院方式 2 个变量;(
5、7)诊断符合情况:门出、入出诊断符合率;(8)中医特有变量,如:治疗类别;(9)时间变量,包括:年份、月份等;(10)入院费用状况。 (一)数据审核 (1)离群值与极端值的处理 通过数据审核可知,住院天数的最小值为 1,最大值为 302,住院费用最小值为 0,这些数据都是不符合实际情况的。此外通过对数据质量的核查可知,住院天数存在 33 个离群值,12 极端值;住院费用存在 21 个离群值,16 个极端值。这些离群值和极端值的存在会影响建模的精确程度,故本位采用四分位差标准对数据进行修正处理,去除了 24 条记录,数据质量得到提高。 (2)变量变化 通过数据审核的结果可知,住院天数、住院费用明
6、显偏态分布,如图 1 所示,故需对其进行变换。本文主要采用取对数的形式进行变换,经变换后的分布形式如图 2 所示,显然,经过对数变换之后,住院费用与住院天数的分布更加符合正态分布的形式。 变量变换除了住院费用与住院天数进行正态分布的变换之外,还需对年龄变量进行离散化处理。原始数据中年龄作为连续性变量,在不同年龄段内,年龄酶增加一岁,其影响是不同的,如作为连续性变量进入模型,则会导致误差。故本文需对年龄变量进行分箱处理,将连续性变量转换为分类型变量,分箱结果由表 1 可知。 (3)变量筛选与分区 4利用 filter 选项卡删除原先的年龄、住院天数、住院总费用变量,并通过 Type 选项卡将 l
7、og(住院总费用)作为输出变量,其他变量作为输入变量。并通过分区选项卡对数据进行分区,70%为训练集,30%为测试集。 4 模型建立 (一)分类回归树模型 本文主要通过对住院费用进行建模,住院费用为连续型变量,故先用分类回归树进行分析建模,原因为分类回归树模型不仅能够对分类型变量进行建模,同时也能对数值型变量进行建模。结果如图 3 所示。 由图 3 可知,影响住院费用最重要三个的因素分别为:地区、住院天数、转归西医主诊断,并对这三个因素绘制与住院费用的相关图,如图 4,图 5 和图 6。 由图 4 可知,住院费用较低的区域,西部地区占比较大,中部地区次之,东部地区的比例最小,而住院费用较高的地
8、区,东部地区的占比较大,中部地区占比次之,西部地区占比最小。故初步分析可知,东部地区经济相对于相对于其他地区较为发达,其住院费用相对于其他地区较高,而中西部地区的经济发展程度较低,而医疗发展水平与经济发展程度有密切关系,故其医疗水平也相对较低,若有重大疾病多转至发达城市的大医院治疗,导致西部地区的病例住院费用较小。 由图可知,住院费用与住院天数呈现明显的正相关关系,即住院天数越多则费用越高,这与常识相一致。 (二)神经网络模型 5神经网络建立的过程是通过恰当的网络结构,探索输入变量与输出变量之间复杂关系的过程,是实现对新数据对象进行分类预测的前提。神经网络能够通过对已有样本的反复计算分析和学习
9、,掌握输入变量和输出变量之间的数量关系规律,将其体现在网络权值中。本文通过构建单变量神经网络模型。双变量神经网络模型及三变量神经网络模型,并对比三者的模型预测精度,从而选择最佳预测模型。 (1)单变量预测模型 由图 6 结果可知,转归西医主诊断、费用来源、月份、年龄、婚姻状况对住院总费用的影响较大,而门出诊断符合标志、有无抢救、药物过敏标志对住院总费用的影响较小,根据现实情况可知,治疗效果越好,一般费用越高,而就费用来源而言,由图 7 可知,住院费用较低的阶段绝大部分都是自费,而住院费用中间阶段保险的比例明显有所提升,公费的比重也有所提升,而在费用较高的阶段公费的比重占较大部分。故不同费用来源
10、也对住院费用产生重要影响。 (2)双变量神经网络模型 由于住院天数的增加同时也会导致住院费用上升,故双变量神经网络模型主要同时选取住院总费用与住院天数作为输出变量进行建模,结果如图 8 所示。 由图 8 可知,双变量神经网络模型中,较为重要的影响因素为年龄、地区、月份、有无抢救等因素。其中,就年龄选项而言,如图 9 所示年龄越大的一类住院天数较多,同样住院的总费用也相对较大,而年龄较小的一般住院的天数较小,住院的总费用也相对与老年人较小,这一结6论与现实情况相符合。相对而言,门出诊符合标志、性别、入出诊断符合标志等因素对住院费用与住院时间的影响较小。 (3)多变量神经网络模型 在关注住院费用与
11、住院时间的同时,我们也关注治疗效果的好坏,故建立多变量神经网络模型,在双变量神经网络模型的基础之上加上代表住院效果的变量转归西医主诊断。结果如图 10 所示。 由多变量神经网络模型的输出结果可知,年龄、级别、月份、年份、住院途径、有无抢救等因素成为影响力较大的因素。与单变量与双变量神经网络模型而言,级别首次成为影响力较大的因素。绘制级别与住院总费用、转归西医主诊断的相关关系图,如图 11 所示。 由图 11 不难看出,相对而言,省级医院住院时间较长的比较集中,而县级医院住院时间长的较少,原因在于,住院时间长的病人病情相对较为严重,而受制于县级医院人员设备等问题,病人一般都会选择转至省级医院或地
12、市级医院进行诊治。而在住院费用方面,省级医院的住院费用相对于其他级别医院相对较高,故医院级别对住院总费用和住院时间有较大的影响。 (4)三种模型的比较 不同模型的模型精度不同,根据单变量、双变量和多变量模型的输出结果汇总成表 2。 由表 2 可知,单变量神经预测模型预测效果最高,为 93.631%,双变量神经预测模型预测精度次之,预测精度为 88.681%,多变量神经网络模型的预测效果最差,仅为 81.013%。 75 结论与建议 由以上分析可知,影响住院费用因素主要有:住院天数、地区、费用来源、年龄、级别等因素。根据相应的相关关系,提出以下建议: (1)改善县级医院的医疗设备,使不同级别的医
13、院之间的差距减小。城乡医院的差异较大是导致病例大量流入省级医院的原因,从而导致县级医院无人问津而省级重点医院则人满为患,基础设施跟不上急剧上升的病患需求。要想从根本上改变这一现状,就必须较小不同等级医院之间的差别,将医生、设备等重要因素都平均化,一方面可以减小某一重点医院的压力,另一方面使县级医院的基础设施得到充分利用,避免闲置资源。 (2)完善医疗保险制度 完善的医疗保险制度既可以保障人们有病可医,同时也以杜绝某些占用公家资源的现象。我国目前的医疗保障制度已经取得了较大的进展,但仍有较大幅度的提升空间。 (3)全民加强体育锻炼 目前社会生活压力较大,年轻人亚健康状态现象较为普遍。减少住院费用
14、根本上就要提高身体素质,而提高身体素质的关键在于将体育锻炼融入生活 之中。而现实生活之中,人们受制于时间、场所的要求,很少有锻炼的机会。为了改善这一现象,可以加大对社区体育锻炼设备的投资建设,举办内容丰富 多彩、形式各色各样的体育活动,鼓励人们参与其中,将体育锻炼的理念植入人们的生活之中。 8参考文献: 1邓尚民,韩靖. Clementine 在电子商务环境中的数据挖掘应用J.现代图书情报技术,2007(10):62-65. 2岳小婷.数据挖掘工具 CLEMENTINE 应用J. 牡丹江大学学报, 2007(4). 3宋祖全.决策树算法在保险营销员流失预测中的研究与应用D. 兰州大学, 2012. 4熊平.数据挖掘算法与 Clementine 实践M. 清华大学出版社,2011. 5颜昌沁,胡建华,周海河.基于 Clementine 神经网络的电信客户流失模型应用J.电脑应用技术,2009(1):7-12.