1、 学士学位论文 疾病诊断分析的问题模型 作 者 单 位 西北民族大学 指 导 老 师 * 作 者 姓 名 * 专 业、班 级 数学与应用数学 2009 级应数班 提 交 时 间 2013 年 5 月 疾病诊断分析的问题模型 专业: 2009 级数学与应用数学 姓名: * 指导教师: * 摘 要 在对肾炎进行诊断时,医生通过测 得到 人体内元素的含量数据 ,进行肾炎的诊断 .结合临床实际数据,根据测得体内元素 Cu、Fe、 Ca、 Zn、 Mg、 K、 Na 的含量数据特征,分别建立了健康系数、距离判别、 bp 神经网络三种模型,介绍了三种模型的计算过程及结果,作为判别人们是否患病的依据 .为了
2、使医生减少化验时的数据,得出了影响人们患病的主要指标为 Cu、 Fe、 Ca,使得检验即方便又节省化验费用 .利用人体内各种元素含量协助医生对就诊人员进行诊断,通过 对三种模型的比较,找出了最佳模型 bp 神经网络模型,使得诊断的结果比其他模型的准确度要高 . 关键字 疾病诊断,健康系数,欧氏距离,神经网络,模型 ABSTRACT Nephritis diagnosis, the doctor can be measured to obtain the elements of the content data of the human body, the diagnosis of nephri
3、tis associated with the actual clinical data, according to the measured body elements Cu, Fe, Ca, Zn, Mg, K, Na content data definitionswere established health factor, distance discriminant, bp neural network of three models, the calculation process and results of the three models, come to influence
4、 doctors in order to reduce the data in the laboratory, as discrimination based on whether people are sick.the people sick indicators for Cu, Fe, Ca, making the test that is convenient and save laboratory costs. use the content of various elements of the human body to assist doctors in diagnosis tre
5、atment personnel, through the comparison of the three models to identify the bestmodel bp neural network model, the results of the diagnostic accuracy is higher than other models. Key word: disease diagnosis, health factors, Euclidean distance, neural network model 目 录 摘要 . 2 引言 . 错误 !未定义书签。 1. 问题阐述
6、 . 2 1.1 问题提出 . 2 1.2 基本假设 . 2 1.3 模型的符号说明 . 2 1.4 问题分析 . 2 2. 健康系数模型 . 2 2.1 模型建立 . 3 2.3 模型求解 . 3 2.3 结果分析 . 4 3. 距离判别模型 . 4 3.1 模型建立 . 4 3.2 模型求解 . 5 3.3 结果分析 . 5 4. 神经网络模型 . 5 4.1 神经网络的概念 . 5 4.2 模型建立 . 6 4.3 模型求解 . 6 4.4 结果分析 . 7 5. 主因素的选取 . 8 5.1 软件实现 . 8 5.3 结果验证 . 9 5.4 模型的确立 . 10 6. 结论及建议 .
7、 11 6.1 结论 . 11 6.2 存在的问题 . 11 6.3 推广 . 11 参考文献 . 12 附 录 . 13 答 谢 . 22 引言 随着医学技术的不断壮大,对疾病研究的专业人才是越来越多,大量医学界的人士对疾病的研究有了更多的认识 .据统计 100 万人中大约有上近百人是由于肾炎而危机生命,因此找出肾炎好的治疗方法是治疗前正确的诊断方法一个迫不眉睫的,诊断无论是对医学还是对诊断的病人来说都是至关重要的 .随着现代化的技术对肾炎的诊断,肾炎的诊断有较好的理论基础 .因此,对肾 炎的正确诊断可以为医生进行辅助诊断 . 肾炎是一种免疫性疾病,是不同的抗原产生不同的抗体,组合成不同的免
8、疫复合物 .人们到医院进行检查时,医生通常都是化验人体尿液中的几种元素的含量,通过这些元素含量的多少判断人们是健康还是患病,因此需要找出一种或几种方法能够很好的判断某人是否患肾炎,并且此方法费用低,能快速得到结果能够使大多数人们所接受,从而既不错过最好的治疗时间,也能让大多数人认可 . 国内外对肾炎的诊断研究现有很多方法,但有的过于复杂,诊断实现较麻烦,不但浪费人力和物力,还错过了治疗的绝佳机会,而检验方法过于 简单,诊断不够准确,或者诊断的费用较高,因此,需要得到一种简便方法势在必行 . 本文主要通过测得人体内的各元素含量的多少,以此确定人们是否健康,用人体内的各元素含量的数据,通过 mat
9、lab 软件编程来获得患者与健康者的两个总体,由此建立健康系数,距离判别, bp 神经网络三种模型,并通过已获得诊断的数据来验证此模型是否可行,并通过这三种模型的诊断的结果,比较找出最精确实用的模型,使多数让人们能接受通过该模型诊断的结果 . - 1 - 1. 问题阐述 1.1 问题提出 大夫给人们诊断是否患病时,一般都是要获得人体的 各种元素的含量 .表 1(见附件一)是对 60 个人的诊断结果,诊断为患病的是前30 个人,而后 30 个人诊断为健康的 .表 2(见附件二)只是得到的是各元素的含量,并未诊断 .以下是关于该病得到数据的几个问题: 1) 观察表 1 的数据,找到一种或几种方便的
10、模型方法,使得能够判别前面已经诊断的结果的数据,并检查其模型的真确性; 2) 从 1 中找到的方法,对表 2中 40 组数据根据已经建立的模型来进行判别,来诊断是患病者还是健康者; 3) 通过以上数据,以此通过所建立的模型来找出影响人们患病的主要指标; 4) 从 3 的结果中,对表 2 中未检测的数据进行诊断,诊断 这些数据那些是患病的那些是健康的; 5) 对得到主要指标进行诊断的结果与全部指标诊断的结果进行分析,以此进一步的确定最好的模型 . 1.2 基本假设 肾炎病患者和健康者中,体检人员有时需要留取尿液标本进行化验检查,因此要正确得到要化验的标本,只有这样才能得到正确的数据 . 在诊断所
11、建立之前要所说明的情况: 1) 论文里所提供的数据都是无疑义的; 2) 除了在数据中的所需要的指标外,没有其他的元素对之影响; 3) 外部因素对患病的影响不计; 4) 在这只有患肾炎的和健康的,其他的病不影响; 5) 在这患病的各元素的含量 不受其他病的影响; 6) 在这测得数据的准确度很高,误差可以不计 . 1.3 模型的符号说明 1G -表示患者总体 2G -表示健康者总体 - iG 的均值 k -表示健康系数 X -表示样本 0 -表示健康者 1-表示患者 )(f -表示激活函数 C -表示输入信号 - 2 - W -表示连接权 kb -各指标的系数 ky -输出值 F -统计量 RMS
12、E -标准剩余差 -输入信号的加权和 1.4 问题分析 在治疗疾病时,通过化验一些重要指标来协助医生对就诊人员进行诊断,这样可以减少误判的概率,以保证诊断的正确性 .如果能够提取影响人患这种病的重要指标,这样使得可以减少化验的指标,降低化验费用,可见利用指标辅助诊断,可以是一个不错的方法 . 从 临床实际数据 ,抽取 30 名患者和 30 名健康者的数据,通过这些数据中各取 25 名患病者和 25 名健康者,体内的各种元素含量作为模型确立的样本建立比较简单而准确的健康系数、距离判别、神经网络三种模型,并利用剩下的 5名患病者和 5名健康者对模型方法的正确性进行检验,以确定所建模型方法的可行性
13、.主要是通过 Matlab 一个软件来实现 在得到以上模型的基础上,利用 Matlab 软件对 40 组待测数据代入进行判定,并得到三种模型方法判定的结果 .比较三种模型,算出结果的吻合度和精确度,确定最终的模型 . 用最终的模型,从得到的各指标中提取重要指标,利用 Matlab软件中 stepwise 命令对提取的七种元素进行逐步回归,在移入各指标后,使剩余标准差逐渐减小,统计量 F 逐渐增大,最后确定回归函数,根据函数排除不重要因素,得到影响人患这种病的关键因素 . 通过以上模型的建立,排除了元素的不重要因素,选出在诊断判定中起关键作用主要指标,再利用神经网络模型对 40 组待测数据重新进
14、行判别 .提取重要指标后,再对 40 组数据重新诊断,得到的结果与原来的诊断结果进行对比,观察两者之间错判的程度有多大,从就诊者判定结果的变化,分析用主要因素进 行诊断判断模型的的利与弊 . 2. 健康系数模型 2.1 模型建立 本文所给出的样本包含了七个指标,分别是锌( Zn)、铜( Cu)、铁( Fe)、钙( Ca)、镁( Mg)、钾( K)、钠( Na),因此每个样品的的七个指标可以构成一个七维行向量,对应为七维空间里的一点 .为了对样本进行分类,引进了健康系数这一概念,所谓健康系数,我们做如下定义: - 3 - 定义:样本到健康样本总体平均距离的 1 为该样本的健康系数,即第 i 个样
15、本 iA 的健康系数为 : 7 1 2)(1 0 0 01 j iji xk 2.3 模型求解 首先,通过健康系数的公式,得出给定样本中健康者的数据在七维欧式空间里描绘出相应的点(以二维平面作为示意,如图 1 所示),通过 Mintab 软件求出这一系列的离散点的中心,即为该组样本均值,我们再以距离中心点最远的点和中心点之间的距离为半径作圆,至此,圆内包含了所有健康者的数据点,再任意拿一样本,若样本落在圆内,则样本对应的病例号为健康者,否则病例号为患者 .为了说明此方法的正确性,将用给定的样本中患者的数据加以验证 . k图 1 样本散点图 由于各种因 素的影响,任何诊断结果都存在一定的误判,所
16、以有必要对给定的原始数据作进一步分析 .因为此方法对给定的样本中健康者的数据要求十分严格,故此首先对给定的确诊样本中的病例号为3160 号的样本数据进行分析,作健康数据的各种指标之间的系数值如下图 2 所示: 00.511.522.51 3 5 7 9 11 13 15 17 19 21 23 25 27 29健康人员指标患病人指标图 2 健康系数值 - 4 - 2.3 结果分析 从图 2 中可以直观地看到, 27 个健康人员指标的健康系数中只有三个在 1.5 以上,把这三个健康系数在 1.5 以上的样本去掉,剩余的样本数据中,最大的健康系数为 1.3119,将这个最大的健康系数记为 K ,当
17、样本的健康系数 Kk 时,样本属于健康类;当健康系数 Kk时,样本属于患病一类 . 用 30 个给定的已经确诊患病的样本的健康系数对以上方法加以验证得到的结果见表 1(模型一) .很显然,从图上可以看到, 30 个患病指标中只有 2 个样本的健康系数在 1.3119 以下,即用这种方法对 30 个患病者的验证中只有 2 个异常数据,在误诊概率不可避免的情况下,这种判断人健康与否的标准显然是可以接受的 . 从以上过程能看到,在 60 个确定的样本中,一共 剔除了 8 个异常样本,所以通过引进健康系数的这个方法来判断一个待诊断人是否患病的成功率为 86.67%,准确率还是比较高的,说明此方法确实可
18、行 . 通过此方法得到了 60 个数据的患病的情况,但是健康系数的模型没有理论依据,也许这只是数据上的重合,要想结果更加具有说服力,还得需要很多的诊断过的数据,实现起来很是困难,这模型只是通过自己想象力得到的模型,需找到一个具有理论依据模型,并有根据的才能使得结果更加切实可行 . 3. 距离判别模型 3.1 模型建立 进行两总体的分类,通常有三种判别分析方法,在这用距离判别来进行模 型的建立 现利用距离判别来分析,设 1G 和 2G 为两总体,对于给定的样本 X ,即 7种元素的含量记作样本点,计算 k 个欧氏距离2,1 ),( iGXd i ,找出两者中小的一个,则判定样本 X 来自 0iG
19、 , 2,1 0i .其 分析结构图如下图 3所示: d( X,G 2)d( X,G 1)样本点 XG2 总体G1 总体图 3 判别分析图 - 5 - 即 ),(),(,),(),(,2212222121 GXdGXdGX GXdGXdGX 当当 特别,当 ),(),( 2212 GXdGXd 时,则判 X 的归属是无效的 .1 其中 )()(),( 712 iij ijiji XXxGXd, 40,2,1 Ki 3.2 模型求解 对于所给的数据,直接利用 matlab软件编写欧氏距离的程序(见附录一),代入数据来求得各样本 Xi与 1G 与 2G 的欧式距离,即所得的结果见表 1(模型二)所
20、示 . 3.3 结果分析 使用附件一的数据,编写程序 (见附录一 ),把其中的数据( n 维向量, 40n )输入,则输出 s 为 1行 40列矩阵,里面对应的数可以知道待测样本的归属,给定 40 个样本中,有 24 个为患者, 16 个为健康者,不管做的再好,知道有时对样本判别时,不管用什么方法,都可能发生误判,即样品来自与 1G 而误判为 2G 或者样本来自于 2G 而误判为 1G ,总希望判断得越准越好,所以对总体 1G 和 2G 进行验证,求出误判概率,得 %00)1|0(%,3.23307)0|1( PP , 这样得到,把健康者误判为患者的概率高达 23.3%,误差太大 .而其精确度
21、为 %3.8860 760 P ,在计算的过程中,检查健康者的数据,发现健康者第 10个数据出现异常,其所得的精确度也不是很高,则踢出异常数据,踢出后将数据带入,所得的结果做成表格形式(如表1 所示), 从表 1 的结果显示, 40 位病例中有 22 位是患者, 18位是健康者,再对两总体进行验证,得到的误判概率为 %00)1|0(%,8.13293)0|1( PP , 可知,与为改进前的对比,把健康者判为患者的误判概率明显变小,精确度 %9560 360 P 表示踢出后做出来的可信度比原来得到的好多了,精确度明显提高了很多,该模 型还是可以接受的 . 4. 神经网络模型 4.1 神经网络的概念 人工神经网络也叫做神经网络,它是通过模仿生物的神经网络来进行信息处理的一种数学模型, 通常都是 用是来对得到的 算法或函数