1、1判别分析论文作 者 邝淑芳 2目 录第一章 判别分析1.1 什么是判别分析 .31.2 判别分析的分类 .31.3 判别分析的适用条件 .31.4 判别分析的方法 .3第二章 距离判别法2.1 什么是距离判别法 .42.2 马氏距离 .42.3 两个总体的判别 .42.4 多个总体的判别 .5第三章 贝叶斯判别法3.1 什么是贝叶斯判别法 .63.2 贝叶斯判别的方法 .63.3 最大后验概率法 .63.4 最小期望误判法 .6第四章 费希尔判别法4.1 什么是费希尔判别法 .634.2 费希尔判别法的基本思想 .74.3 费希尔判别函数和准则 .74.4 费希尔判别法的步骤 .8第五章 案
2、列分析5.1 距离判别法 .105.2 贝叶斯判别法 .135.3 费希尔判别法 .14附录 .16第一章.判别分析1.1 什么是判别分析判别分析,是一种统计判别和分组技术,就一定数量样本的一个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量信息所属的样本进行判别分组。用数学的语言来说,判别问题可以表述为:对于 个样品,每n个样品有 个指标,已知每个样品属于某一 类别(总体) ,对于pkkG,21每类别其分布函数分别为 ,对于一个给定样品 ,我们要判yffy21, y断出这个样本来自哪个总体。判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。41.2 判别分析的分类 根
3、据判别中的组数,可以分为两组判别分析和多组判别分析; 根据判别函数的形式,可以分为线性判别和非线性判别; 根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等; 根据判别标准不同,可以分为距离判别、贝叶斯判别、费希尔判别等。1.3 判别分析的适用条件 自变量服从正态分布。 自变量之间没有多重共线性。 每个变量在各类中的取值应存在显著差异。1.4 判别分析的方法(本文主要介绍三种方法,其它方法暂不讨论) 距离判别法。 贝叶斯判别法。 费希尔判别法。第 2 章. 距离判别法2.1 什么是距离判别法距离判别法是最为直观,其想法自然、简单,就是计算新样品 到各组的距x离,然后将该样品判为离它距离
4、最近的一组。52.2 马氏距离 关于在判别分析中使用的距离问题,因为欧式距离未能将变量之间通常存在的相关性考虑在内,故不太理想,而马氏距离却能很好的弥补这种不足,因此在判别分析中通常使用马氏距离。 对于一个均值为 ,协方差矩阵为 的多变量向量,点 到总体 的平x方马氏距离为: 。xxd12,2.3 两个总体的判别当 1= 2= 时的判别( 是协方差矩阵): 判别规则:计算 到两个组的平方马氏距离 ,按距离x ),(),(212xd和最近原则判别,则可总结为: 2122121,xdx待 判 , 当当当 判别函数: 为两组距离判别的判别函数,又称为线性判别函数,)(xW称为判别系数向量。 ,其中
5、是两个组均值 的平均值,aa 21,。21那么判别规则可简化为: 0,21xWx待 判 , 当当当 误判概率:用 表示 来自 而误判为 的概率;用 表示 来1|P122|1Px自 而误判为 的概率;即21 )|0(2| 21xP6 用 表示 这两组之间的马氏距离,因此两个组越是分开(即 越21和 大),误判的概率就会越小,此时的判别效果越佳。当两个组很接近时,误判概率将很大,这时做判别分析就没有什么实际意义。当 1 2时的判别 判别规则:计算 到两个组的平方马氏距离 ,按距x ),(),(212xd和离最近原则判别,则可总结为:212121,xdx待 判 , 当当当 判别函数: )()()()
6、(),(),() 21211212 xxdxW相应的判别规则为:0,21xW待 判 , 当当当2.4 多个总体的判别 设有 个组 ,它们的均值分别是 协方差矩阵分xk,21, , k,21别是 。k,21到的总体平方马氏距离: . xkixxdii ,21,12 判别规则: ),(mn),(,12ikillxx当 ,判别规则简化为:k21当 )(ax,1iikilll cIcIx当其中 .此时 为线性判别函数。kiiii ,21,2,1 iicxI7 实际中 一般都是未知的。和 时, 可估计为 ,k21当 iinijix1的联合无偏估计为 ,其中 为组数, 为每组的样本个数,iniii Skx
7、i1kin, 组的样本协方差矩阵。knn21 ixxSiijnjijiii 为 第1 不全相等时, 可估计为 ,k,21当 iiniii Skxi1的联合无偏估计为 。iiijnjijii xSi1第三章.贝叶斯判别法3.1 什么是贝叶斯判别法如果对多个总体的判别考虑的不是建立判别式,而是计算新给样品属于各总体的条件概率 ,比较这 个概率的大小,然后将样品判归为来自概率xP|1k最大的总体,这种判别方法称为贝叶斯判别方法。3.2 贝叶斯判别的方法 最大后验概率法 最小期望误判代价法3.3 最大后验概率法 基本思想:设有 个组,且组 的概率密度为 样品 来自组 的先ki,xfi i8验概率为 满
8、足 。根据贝叶斯公式, 属于 的,2,1kip121npp xi后验概率(即当样品 已知时,它属于 的概率)为xi.kifpxpkjjiii ,21,|1 判别规则: .xpxpxikill |ma|,1当3.4 最小期望误判代价法 最大后验概率法只考虑到了先验概率,忽略了误判代价,该方法等价于误判代价相同时的最小期望误判代价法,此时的总误判概率达到最小,也可称为最小总误判概率法。第四章.费希尔判别法4.1 什么是费希尔判别法Fisher 判别是一种先进行高维向低位投影,再根据距离判别的一种方法。借助方差分析的思想构造判别函数(相当于一种投影),使组间区别最大、组内离差最小,然后代入新样本数据
9、,将其与判别临界值比较以确定应判为至哪一总体。4.2 费希尔判别法的基本思想它的基本思想是通过将多维数据投影到某一方向上,使得投影后类与类之间尽可能的分开,然后再选择合适的判别准则,将待判的样本进行分类判别。而衡量类与类之间是否分开的方法是借助于一元方差分析的思想,利用方差分析的思想来导出判别函数。94.3 费希尔判别函数和判别准则(在以下讨论中,我们需假定各组的协方差矩阵相同,即 .k21)设来自组 的 维观测值为 , , ,将它们共同投影到ipijxn,21ki,某一 维常数向量 上,得到的投影点可分别对应线性组合 ,a ijijxya, 。这样,所有的 维观测值就简化为一维观测值。下in
10、j,21k,21p面 我们用 表示组 中 的均值, 表示所有 组 的总均值,即 iyiijyykijyiikikinjiinjiii xyyxaa111式中 。kjinjiiiki xnxn111, 的组间平方和: ,式中 为组间平方ijyahSTR xnHiiki1和及叉积和矩阵。 的组内平方和: ,式中 为组内平ijyaESiijkinjijxxi1方和及叉积和矩阵。 设 的全部非零特征值依次为 ,相应的特征向量HE1 021s依次记为 。当 时 达到最大值 。所以,选择投影到 上能st,2 1ta1 1t使各组的投影点最大限度地分离,称 为费希尔第一线性判别函数,简称xy1t第一判别函数
11、。 有时仅仅使用第一判别函数是不够的,我们应该考虑建立第二个线性组合 ,我们在约束条件 下寻找 ,使得 达到最大。当xy2a021atpS2a2时 达到最大值 ,称 为费希尔第二线性判别函数,简称第t2xy二判别函数。10 在约束条件 下寻找 ,使得 达到最大。当 时01ipSatiaiita达到最大值 ,称 为第 判别函数, 。iaixyit s,32 表明了第 判别函数 对分离各组的贡献大小, 在所有 个判iit iyiys别函数中的贡献率为 。sji1/而前 个判别函数 的累计贡献率为 。srry,2 siri1/它表明了 能代表 进行判别的能力。ry,21 sy1 判别规则为: 。2121min, rjijjkrjljil yyx当 有时我们也使用中心化的费希尔判别函数,即 。sixi ,21),(t4.4 费希尔判别的步骤由各组样本资料,计算各组样本均值 ;kx计算组间矩阵 ;xnHiiki1计算组内矩阵 ;iijkinjijxxEi1计算矩阵 的前 特征值;H1m构造判别函数 。xYl
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。