1、 医保欺诈行为的主动发现 摘要 对于医保诈骗行为,我们认为仅通过一个模型直接找出所有的欺诈类型既不准确,操作起来又比较困难。所以我们根据题附件中的费用明细表,通过分析费用数据与诈骗行为之间的关系建立模型一;根据各个表中出现的异常值,我们将异常值视为可能是医保欺诈行为,并由此建立模型二。 针对模型一 ,我们从三方面考虑。首先,单张处方的总价过高可能为欺诈,但是考虑到总价与单价、数量之间的相互影响,对此我们先对单价、数量、总价进行相关分析,发现单价与总价呈弱相关;然后用 聚类分析对医嘱子类、单价、数量、总价进行分类,案例数少的类即有欺诈嫌疑;其次,对病人 ID号标记重复个案,由于重复个案所占比例较
2、大,对重复个案进一步进行了聚类分析;最后,若下医嘱科室与病人科室不一致则可能为欺诈,对此我们绘制了简单线图,不在 y=x 直线上的即为欺诈记录。 针对模型二, 建立合理的欺诈评判标准,检测其中的异常数据,进而对医保行为作出识别。首先,构建基于 Logistic分析的精炼欺诈识别因子模型。建立 Logit回归模型并用 SPSS 软件进行统计分析,通过分析回归模型的拟合优度和因素显著性检验,提取出具 有显著有效性的欺诈识别因子作为后续模型的学习样本标准。构建无导师学习的自组织特征映射( SOFM)神经网络模型。即以 Logit 统计分析提取的具有显著有效性的欺诈识别因子作为输入变量建立 SOFM
3、神经网络模型,导入所有待检测数据,通过 SOFM 神经网络模型仿真,将所有数据信息进行分类,输出结果为不同类型的数据,即可对医保欺诈行为进行主动识别。 关键词: 医保欺诈 标记重复个案 相关分析 logit 模型 SOFM 神经网络 1 一、问题重述 1.1 问题的背景 随着我国社会医疗保险体系的不断发展, 人民的医保福利水平日益提高,一些医保体系中的问题也日益显著,其中焦点问题之一就是医保诈骗行为。 1.2 问题的复述 医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医
4、保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。请根据附件中的数据,找出可能的欺诈记录。 二、 问 题分析 根据问题中对骗保人进行医保欺诈时的常用手段,以及可能属于医保欺诈行为的情况,经过分析我们可以将问题分为以下几个方面来解决。 1、判断是否为医保欺诈行为,需要从病人资料中的身份证号、医保手册号、Userupdate(用户更新次数)这三方面考虑。对此利用 SPSS 软件使用标识重复个案、聚类分析的方法,通过分析运行结果,做出重复个案与主个案所占比例、聚类中两类所占比例的饼
5、状图。通过饼状图,可直观看出,所占比例的小的可能为欺诈记录。 2、 首先第一步,对数据进行分析,构建基于 Logistic 分析的精炼欺 诈识别因子模型。 基于第一步处理的欺诈案评判标准数据间的关系,建立 Logit 回归模型并用SPSS 软件进行统计分析,通过分析回归模型的拟合优度和因素显著性检验,提取出具有显著有效性的欺诈识别因子作为后续模型的学习样本标准。 2 第三步,构建无导师学习的自组织特征映射( SOFM)神经网络模型。即以 Logit统计分析提取的具有显著有效性的欺诈识别因子作为输入变量建立 SOFM 神经网络模型,在待检测数据中抽取一部分样本数据训练 SOFM神经网络,得到欺诈
6、行为识别模型。 第四步,导入所有待检测数据,通 过 SOFM神经网络模型仿真,将所有数据信息进行分类,输出结果为不同类型的数据,即可对医保欺诈行为进行主动识别。 三、问题的假设 1、假设医保欺诈只是患者单方面行为,不存在医患合谋和医疗机构“引至欺诈”情况。 2、假设数据来源真实有效。 3,、假设分析过程中,数据无缺失。 4、假设对每个聚类分析结果,使用同一评判标准。 5、假设附所有保险的有关规定没各个指标。 6、假设所有的相关数据具有独立性相呼影响。 四、符号说明 ijx 变量 js 标准方差 )(Izj 初始聚类中心 )( IzxD ji, 样本与聚类中心的距离 JC 误差平方和准则函数 3
7、 )2(ijd 欧式距离 )1( Izj 新聚类中心 r Pearson 相关系数 t Pearson 相关系数检验统计量 iB 2 个一级指标 i=1,2 ijc 5 个二级指标 i=1,2j=1,2,3 iw 3 个成对比矩阵 i=1, 2, 3 = 矩阵按行求和 矩阵的最大特征值 W 5 个指标最终权重 CT 一致性检验指标 RI 随机一致性指标 CR 一致性比率 t1 欺诈程度阈值 五、模型的建立 与求解 5.1 模型一:基于费用明细的医保欺诈行为主动发现 5.1.1 模型一 的分析 医疗保险欺诈行为,通过分析病人的费用明细表中的各项数据也可以找出可能的欺诈行为表现,主要从单张处方的总
8、价过高、病人 ID号是否重复过多、下医嘱科室与病人科室是否一致这三个方面考虑。 4 在附件给出的表 2中,通过对各个变量进行 K均值聚类分析,可以将数据分为几类,案例数少的则可能是欺诈行为。但是考虑到单价、数量、总价之间的相互影响,对此我们使用了 SPSS中相关性分析找出三个变量的相关性,并用图标构建程序绘制了简单 3-D散点图。对于病 人 ID号与模型一的分析一样,使用标记重复个案的方法,找到重复的记录,即可能为医保欺诈行为。而下医嘱科室与病人科室应该是一致的,若不一致即为欺诈,因此对下医嘱科室和病人科室绘制简单线图。 5.1.2模型一的建立 : ( 1)数据标准化 由于所选数据的量纲和数值
9、大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有 n个样本, m个指标,则每个变量可表示为 ijx ,均值 ni ijj xnx 11 ( 1) 标准方差为 ni ijijj xxns 12)(11 ( 2) 标准化以后的式子为 )0(* jj jijij ssxxx ( 3) ( 2)聚类分析 系统聚类,将 n个重复个案结果各自看成一类,然后规定样本之间的距离和类与类之间的距离。开始,因每个结果自成一类,类与类之间的距离与个案之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的个案都成一
10、类为止,最终完成分类。 1、 设有 n 个样本,令 I=1,选取 K个初始聚类中心 : kjIz j ,2,1),( ; 2、 计算每一个数据样本与聚类中心之间距离: 5 niIzxD ji ,2,1) ),(,( ( 4) 如果满足 kijiji wxniIzxDIzxD ,2,1) ) ,(,(m i n )(,( ; 3、 计算误差平方和准则函数 JC,公式如下: 21 1 )()( kjnk jjkj IZxIJC ( 5) 4、 判断是否满足聚类算法结束条件:如果 )1()( IJCIJC ,则表示算法结束,否则, I=I+1,计算下一个新的聚类中心,并返回 2,新的聚类中心计算公式
11、如下 : kjXnIZ ki jijj ,2,1,1)1( 1 ( 6) 距离:对重复个案结果进行聚类时,“靠近”往往由某种距离来刻画。 令 ijx 表示第 i 个重复个案结果的第 j 个指标, ijd 表示第 i 个重复个案与第 j 个重复个案之间的距离,最常见计算距离的方法是:欧几里德距离 2/112 )()2( pk jkikij xxd( 7) 上式即为欧氏距 离。 ( 3)相关性分析: 相关分析是描述两个变量间关系的密切程度,主要由相关系数值表示,当相关系数 r 的绝对值越接近于 1,则表示两个变量间的相关性越显著。双变量系数测量的主要指标有卡方类测量、 Spearman 相关系数、
12、 pearson 相关系数等,在进行两者间的相关性检验时用 pearson 相关系数来判断,其公式为: 22 )()( )()( yyxx yyxxr ii ii( 8) Pearson 简单相关系数检验统计量为: 6 212rnrt ( 9) 其中 t 统计量服从 2n 个自由度的 t 分布。 5.1.3 模型一的求解 ( 1) 考虑到单价、数量、总价之间的相互影响,对这三个变量进行了双变量相关分析,图 8为三个变量的相关性分析统计表, 图 9单价、数量、总价的简单 3-D散点图。 表 -1单价、数量、总价相关分析统计表 7 图 -1 单价,数量,总价的简单 3-D 散点图 (2)用 k 均
13、值聚类分析对医嘱子类、单价、数量、总价进 行聚类。最终聚类中心结果见表 -2,表 -3 是这四个变量的单因素方差分析表,表 -4 是运用 k-均值聚类分析求出的重复个案数。 表 -2 病人 ID 号重复个案的最终聚类中心 表 -3 医嘱子类、单价、数量、总价的单因素方差分析表 8 图 -2 医嘱子类、单价、数量、总价的最终聚类中心条形图 表 -4 k均值聚类分析中的重复个案聚类 上述所有统计结构的分析: ( 1)从相关分析的统计表中,可以看出单价与总价的相关性为 0.456(弱相关),而数量与总价的相关性为 0.116(不相关),所以认为,单价 与总价有一定的相关性。 ( 2)从图 10中看出
14、,将医嘱子类、单价、数量、总价分为 10 类;图 12为医嘱子9 类、单价、数量、总价的每个聚类的案例数,发现第 1、 2、 4类的单价过高;第 3、10 类退药数量大,第 8类买药数量大;第 1、 3类单张处方退药金额大;第 2、 4、 6类单张处方药费高。以上所述的都有可能为医保欺诈记录。 ( 3)图 14 统计出病人 ID 号重复个案占总数的 77.6%,对此再进行聚类分析,结果见图 15;由图 16 可知,第 5、 7、 8、 10 类案例数较少,这些类的最终聚类中心大于 25,此特征可能为欺诈。 ( 4)根据图 17绘制的下医嘱科室与病人科室简单线图,可以看出有个别记录不在y=x 线
15、上,即为下医嘱科室与病人科室不一致,因此为医保欺诈行为。 ( 5)在图 11 的单因素方差分析中,医嘱子类、单价、数量、总价的 P 值均为 0,说明各类在统计学上均有明显差异,将其作为分类标准是合适的。 5.2 模型二的建立与求解 5.2.1logit 模型的建立 我们把事件发生的情况定义为 1,事件未发生的情况定义为 0。这样在保险欺诈识别模型中,取值为 0、 1的因变量可以写作: 非医疗欺诈,医疗欺诈 ,01 ( 10) p 表示事件发生的概率(则事件未发生的概率为 p-1 ),并把 p 看作自变量 x 的函数。在本论文中,医疗保险是医疗欺诈的概率为 p 。 对于 y 是 0-1型 Bernoulli 模型,有如下分布: 概率的概率,即非医疗欺诈时自变量为 率的概率,即医疗欺诈概时自变量为 0),/0(-1 1),/1( yxxyPp yxxyPp ( 11) 通过 logistic 转换,索赔事件的对数概率发生比写成 logit 模型: ppInpit 1)(lo g( 12) Logit 一方面表达出它是医疗欺诈索赔概率 p 的转换单位 ;另一方面,它作为回归