1、中央财经大学统计学院,第11章聚类分析与判别分析,聚类分析判别分析,中央财经大学统计学院,聚类分析,引言相似性度量系统聚类K-均值聚类聚类分析的SPSS实现,中央财经大学统计学院 3,引言,物以类聚,人以群分。例:中国的民族分成若干类,上市公司分类,等等对于一个数据集,人们既可以对变量(指标)进行分类(称为R型聚类),也可以对观测值(个案,样品)来分类(称为Q型聚类)。这两种聚类在数学上是对称的,没有什么不同。,中央财经大学统计学院 4,例:哪些少数民族的生存状况更接近?,*标化死亡率是根据相同的人口年龄结构(标准组)计算的,因而更具可比性。,中央财经大学统计学院 5,聚类分析需要解决的一个问
2、题,如何衡量样本点之间的距离或相似程度?距离,主要用于样品(观测)间相似性度量相似系数,主要用于变量间相似性度量,中央财经大学统计学院 6,常用的距离的计算方法,设每个样品有p个指标(变量)。把n个样品看成p维空间中的n个点,则两个样品间相似程度就可用p维空间中的两点距离公式来度量。两点距离公式可以从不同角度进行定义。当变量的测量值相差悬殊时,要先进行标准化,以消除计量单位对计算结果的影响。,中央财经大学统计学院 7,常用的距离的计算方法,欧氏距离(Euclidean)平方欧氏距离Squared Euclidean切比雪夫距离(Chebychev),中央财经大学统计学院 8,明考夫斯基距离(明
3、氏距离)*,按q的取值不同可以包括多种距离计算方法。例如:,中央财经大学统计学院 9,相似系数的计算方法,变量间的相似性可以从它们的方向趋同性或“相关性”进行考察, “夹角余弦法”和“相关系数”两种主要度量方法,统称为相似系数。(1) 夹角余弦*两变量Xi与Xj看作p维空间的两个向量,这两个向量间的夹角余弦可用下式进行计算 显然,cos ij 1。,中央财经大学统计学院 10,相似系数的计算方法,(2) Pearson相关系数 Pearson相关系数经常用来度量变量间的相似性。变量Xi与Xj的Pearson相关系数定义为 显然也有,rij 1。,中央财经大学统计学院 11,系统聚类法(分层聚类
4、)hierarchical cluster,开始时,有多少样本点就是多少类。第一步先把最近的两类(点)合并成一类;然后再把剩下的最近的两类合并成一类;这样下去,每次都少一类,直到最后只有一大类为止。显然,越是后来合并的类,距离就越远。,中央财经大学统计学院 12,需要解决的新问题:如何计算类与类之间的距离?,最短距离法 最长距离法 重心法 Ward法(离差平方和法)等等,中央财经大学统计学院 13,最短距离,S1,S3,S2,S4,S5,最短距离,中央财经大学统计学院 14,最长距离,S1,S3,S4,S5,中央财经大学统计学院 15,重心法(Centroid clustering):均值点的
5、距离,中央财经大学统计学院 16,离差平方和法:合并离差平方和变动最小的两个类,1,2,4,5,7,9,中央财经大学统计学院 17,红绿(1,2,7,9) 44.75 离差平方和增加44.752.542.25 黄绿(4,5,7,9)14.75离差平方和增加14.752.512.25黄红(1,2,4,5)10离差平方和增加1019故按该方法黄红首先连接。,离差平方和法:合并离差平方和变动最小的两个类,中央财经大学统计学院 18,6个不同民族的聚类:数据表,中央财经大学统计学院 19,各民族之间的欧氏距离,中央财经大学统计学院 20,最短距离法举例,(1)首先合并G5、G6,再计算新类与其他类之间
6、的距离。,中央财经大学统计学院 21,(2)根据计算结果合并G4,G7,中央财经大学统计学院 22,根据表中的结果合并G2,G3,中央财经大学统计学院 23,根据表中的数据合并G1,G9,中央财经大学统计学院 24,最后合并成一类,中央财经大学统计学院 25,聚类结果的谱系聚类图(最短距离法),藏族哈萨克族 维吾尔族 朝鲜族 蒙古族 满族,0.311,0.406,0.526,1.208,1.448,中央财经大学统计学院 26,聚类结果受所选择的变量影响。如果去掉一些变量,或者增加一些变量,结果会很不同。从分层聚类的计算机结果可以得到任何可能数量的类。聚类的目的是要使各类距离尽可能地远,而类内点
7、的距离尽可能的近,而且分类结果还要有令人信服的解释。这一点就不是数学可以解决的了。,聚类要注意的问题,中央财经大学统计学院 27,啤酒名热量钠含量酒精价格Budweiser 144.00 19.00 4.70 .43 Schlitz 181.00 19.00 4.90 .43 Ionenbrau 157.00 15.00 4.90 .48 Kronensourc 170.00 7.00 5.20 .73 Heineken 152.00 11.00 5.00 .77 Old-milnaukee145.00 23.00 4.60 .26 Aucsberger 175.00 24.00 5.50 .
8、40 Strchsbohemi149.00 27.00 4.70 .42 Miller-lite 99.00 10.00 4.30 .43 Sudeiser-lich113.00 6.00 3.70 .44 Coors 140.00 16.00 4.60 .44 Coorslicht 102.00 15.00 4.10 .46 Michelos 135.00 11.00 4.20 .50 Secrs 150.00 19.00 4.70 .76 Kkirin 149.00 6.00 5.00 .79 Pabst 68.00 15.00 2.30 .36 Hamms 136.00 19.00 4.
9、40 .43 Heilemans144.00 24.00 4.90 .43 Olympia 72.00 6.00 2.90 .46 Schlite 97.00 7.00 4.20 .47,SPSS系统聚类的实现和结果分析:数据表,中央财经大学统计学院 28,相关软件操作,选择分析分类系统聚类把热量、钠含量、酒精、价格选入变量框; 把啤酒名选入“标注个案”框。选择“绘制”,选中“树状图”;,中央财经大学统计学院 29,方法设定,在聚类方法框中选择需要的方法;在度量标准框中选择距离的计算方法;在“标准化”框中选择Z得分。,输出结果:聚类表,这一步合并了1和17,这一步合并了第9和12。但这里9代表
10、第8步中形成的类,12代表第9步中形成的类。依此类推可知这一步合并之后的新类包括出9,20,10,12,13。,中央财经大学统计学院 31,冰柱图,从图中可以读出所有的分类结果。图中标出的是分5类的情况。,中央财经大学统计学院 32,聚类树形图(SPSS18.0),图形反映了类间的距离和聚类过程。,中央财经大学统计学院 33,最短距离法的聚类结果,按照不同的聚类方法可能得到完全不同的聚类结果。选择各类较为均衡、易于解释的方法!,中央财经大学统计学院 34,SPSS结果分析,在开始的操作中,通过相应的选项可以把分类结果存储起来。,中央财经大学统计学院 35,K-均值聚类,系统聚类法需要计算出不同
11、样品或变量的距离,还要在聚类的每一步都要计算“类间距离”,相应的计算量自然比较大;特别是当样本的容量很大时,需要占据非常大的计算机内存空间,这给应用带来一定的困难。k-均值聚类(k-means cluster)可以避免上述问题,适用于样本点很多的情况,但要求你先确定要分多少类。,中央财经大学统计学院 36,K-均值聚类的步骤,先确定k个点为“凝聚点”(SPSS软件自动确定);也就是说,把这k个点作为k类中每一类的凝聚点。然后,根据和这k个点的距离远近,把所有点分成k类。再把这k类的中心(均值)作为新的凝聚点,再重新按照距离分类。如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或
12、者叠代次数太多了)。,中央财经大学统计学院 37,K-均值聚类的SPSS操作,分析分类 K-均值聚类,设置好相应的选项。主要是设置好分类的数量。,中央财经大学统计学院 38,6个民族的k-均值聚类结果(3类),中央财经大学统计学院,判别分析,引言距离判别Fisher判别Bayes判别,中央财经大学统计学院 40,引言,在我们的日常生活和工作实践中,常常会遇到判别分析问题,即根据已知类别的资料确定一种判别方法,判定一个新的样品归属哪一类。例如,某医院有患有肺炎、肝炎、冠心病、糖尿病等的病人的资料,记录了患者若干项指标数据。现在想利用现有的这些资料找出一种方法,以便根据新的病人的指标数据判定其患有
13、哪种病。,中央财经大学统计学院 41,判别分析的基本原理,根据已掌握的每个类别的若干样本的数据信息,建立判别公式和判别准则。当遇到新的样本点时,根据总结出来的判别公式和判别准则,即能判别该样本点所属的类别。,中央财经大学统计学院 42,判别分析方法的分类,两个总体判别分析和多总体判别分析常用的判别分析方法距离判别法Fisher判别法Bayes判别法逐步判别法,中央财经大学统计学院 43,距离判别的思想,两个总体的距离判别问题:设两个总体G1和G2,对于一个新的样品X,要判断它来自哪个总体。方法:按就近原则归类。求新样品X到G1的距离与到G2的距离之差,如果其值为正,X属于G2;否则X属于G1。
14、根据上述准则可以推导出一个判别函数W,把待判样品的值代入判别函数,根据计算结果是否大于0得出判别结论。,中央财经大学统计学院 44,Fisher判别,借助方差分析的思想构造一个线性判别函数: 确定判别函数系数时要求使得总体之间区别最大,而使每个总体内部的离差平方和最小。从几何的角度看,判别函数就是p维向量X在某种方向上的投影。使得变换后的数据同类别的点“尽可能聚在一起”,不同类别的点“尽可能分离”,以此达到分类的目的。,中央财经大学统计学院 45,两类Fisher判别示意图,Y,X,L=b1X+b2Y,G1,G2,中央财经大学统计学院 46,Fisher判别的原理,如果有多个类别, Fishe
15、r判别可能需要两个或者更多的判别函数才能完成分类。一般来说判别函数的个数等于分类的个数减一。得到判别函数后,计算待判样品的判别函数值,根据判别函数的值计算待判样品到各类的重心的距离,从而完成分类。,中央财经大学统计学院 47,Bayes判别的基本思想,设有K个总体,样品来自各个总体的先验概率为pi,各总体的密度函数为fi(x),在观测到一个样品X的条件下,可以根据贝叶斯公式计算出它来自某个总体的后验概率。待判样品属于哪一类的后验概率最大,就把它分入哪一类。一般假设服从多元正态分布、各总体的协方差矩阵相等。,中央财经大学统计学院 48,后验概率的一个例子,随机调查1000人,700有自有住房,其
16、中20%为外地人;300人租房住,其中70%为外地人。调查1人为外地人,应归入自有住房还是租房的类别?先验概率:属于自有住房的概率为70%,应分为这一类。根据贝叶斯公式,是租房户的后验概率为(0.3*0.7)/(0.7*0.2+0.3*0.7)=0.6。因此应分入租房户这一类。,中央财经大学统计学院 49,逐步判别,让统计软件根据一定的规则自动筛选那些对分类有重要作用的变量进行判别分析。类似逐步回归中变量的筛选过程。,中央财经大学统计学院 50,判别结果的评价,一般根据对原始数据、验证样本的正确分类的比率来评价分类效果的好坏。原样本(训练样本),组内考核,组内回代验证样本(test data
17、set),组外考核交叉验证(cross validate),弃一法,刀切法(jackknife):每次使用n-1个样品对另一个样品进行分类,计算整体上分类正确的比例。,中央财经大学统计学院 51,判别分析的正确应用,理论上,类间分得越开,判别效果越好,类间距离越近,判别效果就越差。不同的判别方法间是个参照,大多情况下,效果近似。关键是指标是否具有判别价值。,中央财经大学统计学院 52,SPSS判别分析的实现和结果分析,例1 对国家类别的判别例2 对鸢尾花数据的判别分析,中央财经大学统计学院 53,例1 14个国家的出生时预期寿命和成人识字率,中央财经大学统计学院 54,SPSS操作,分析分类判
18、别基本设定:,中央财经大学统计学院 55,相关选项,中央财经大学统计学院 56,相关选项,刀切法的分类效果,原始数据的分类效果,中央财经大学统计学院 57,保存分类结果,中央财经大学统计学院 58,结果分析:方差分析,识字率在各组中差别很不显著,对分类的作用可能不大。,中央财经大学统计学院 59,Fisher判别函数,D=-16.661+0.342预期寿命-0.09识字率,中央财经大学统计学院 60,两类的重心,根据待判样品的数据计算Fisher判别函数的值,离哪个组的重心近就归入哪一类。,中央财经大学统计学院 61,分类函数,实际是Bayes判别分析的结果。把待判样品的数据代入分类函数,哪个
19、组的值最大就分入那个组。有几个组就有几个分类函数。,D1=-190+5.44预期寿命-0.362识字率D2=-162+4.88预期寿命-0.214识字率,中央财经大学统计学院 62,分类效果的评价,这里SPSS中使用的是Bayes判别的分类结果,分类正确,分类错误,中央财经大学统计学院 63,待判样品的分类结果,中央财经大学统计学院 64,例2 鸢尾花的数据,我们使用前100个样品为训练样本,后50为测试样本。变量:花萼长度x1、花萼宽度x2、花瓣长度x3、花瓣宽度x4,单位为mm。构造变量TRAIN_TEST,前100取值为1,后50取值为0,以区分训练和测试样本。,中央财经大学统计学院 6
20、5,软件操作,中央财经大学统计学院 66,结果分析,方差分析,中央财经大学统计学院 67,判别函数和各组重心,中央财经大学统计学院 68,分类函数,中央财经大学统计学院 69,分类结果,中央财经大学统计学院 70,对鸢尾花的数据使用逐步判别,中央财经大学统计学院 71,分类函数,通过逐步判别的过程,软件删除了变量X1,根据其余三个变量进行判别。以下是分类函数。,中央财经大学统计学院 72,判别效果分析,判别效果和使用4个变量时差别不大,中央财经大学统计学院 73,小结,聚类分析的基本原理样品之间距离的计算方法类间距离的计算方法SPSS聚类结果的解释判别分析的基本原理SPSS Statistics 判别分析结果的解释。,