1、第 4章 聚类和判别分析聚类分析和判别分析都是研究将样品或变量分类的方法。聚类分析事先不知道研究对象的类别,它根据研究对象本身提供的信息,通过统计手段作出分类决策,有一定的探索性;判别分析是事先已知研究对象的类别,根据有关类别的信息建立判别函数,再利用改判别函数判断未知类别个体属于何种类别。实际分析中,当对样品的分类不清楚时,可以先聚类分析,然后进行判别分析。 聚类分析的基本概念根据某些数量特征将观察对象进行分类的一种数理统计方法。聚类分析属于分类学,它是人们认识自然界未知事物的基本工具之一。通过分类人们可以将研究事物划分为不同类别,并探索产生这种类别的原因,进而提出合理、有效的处理该类事物的
2、办法。譬如,生物学家根据生物的特点,将它们按照界、门、纲、目、科、属、种进行分类;卫生部门根据医疗水平、工作效率等众多指标,将若干医院分为几个等级类别等。在多元统计分析中,通过聚类分析可以将众多的观察变量分类,确定各类中的典型变量以达到降维目的。聚类方法根据聚类的对象不同,聚类可以分为对样品聚类( Q-型聚类)和对变量聚类( R-型聚类);根据聚类方法的不同,大致可以归为以下几种:(1)系统聚类法:首先将 n个样品看成 n类,然后将性质最接近的两类合并为一类,得到 (n-1)类,之后再从这些类中找出性质最接近的两个类合并为 (n-2)类,重复上述步骤,一直到所有样品聚为一类。整个过程可以绘成聚
3、类图或树状图,按图作出适当的分类;(2)加入法:假设已经存在一个分类系统,将所有样品依次加入已有的聚类图,得到一个新的聚类图。(3)分解法:首先将所有样本分为一类,然后根据某种最优准则将它们分为两类。再用同样的方法把这两类各自分为两类,从中选一个使目标函数较好者,这样两类变成了三类,如此下去,一直到每类只有一个样品为止,将分类过程画成图,根据图适当做出分类。(4)动态分类法:首先将样品粗糙分为 n类,然后根据某种最优准则进行调整至不能调整为止。其它,还有有序样品的聚类、条件系统聚类、有重叠的类、预报、模糊聚类、运筹方法聚类等。 距离和相似系数聚类分析的实质就是将性质相近的样品或变量聚在一起。在
4、聚类分析中反映样品或变量间性质远近的统计量称为聚类统计量,常用的聚类统计量有距离和相似系数。(1)距离:用于对样品的聚类。距离有绝对值距离、欧式距离、明氏聚类、马氏距离等,常用的是欧氏距离。对于任意两个样品 i和 k可定义欧氏距离 (Euclidean distance):其中, Xij和 Xkj 分别为第 i个样品的第 j个变量和第 k个样品的第 j个变量。为消除各指标量纲不同的影响,在求样品间距离前常常需要把指标标准化,即把每一个观察值转换成标准值:其中, 和 Sj分别为第 j个变量的样本均值和样本标准差,标化后的指标均数为 0,标准差为 1。用标化值进行聚类分析。(2)相似系数:常用于对
5、变量的聚类。相似系数有夹角余弦、相关系数等。对于连续性资料常用的有 Pearson相关系数;对于分类资料常用的有 Pearson列联系数。Pearson相关系数:Pearson列联系数:其中, x2为 RC分类资料的列联表的 x2值。 n为 RC分类资料样品总个数。 两步聚类 (Two Step Cluster)实例例题 4-1 根据数据文件 “ nurse_survey” 中的 6个变量“ age” (年龄), “ title” (职称 ), “ educ” (学历 ), “ year1” (护龄 ), “ year2” (院龄 )和 “ dept”(科室 ),对 255名护理工作人员采用两
6、步聚类法进行样品聚类。 K类中心聚类 (K-Means Cluster)实例例题 4-2 根据数据文件 “ nurse_survey” 中的 6个变量“ age” (年龄), “ title” (职称 ), “ educ” (学历 ), “ year1” (护龄 ), “ year2” (院龄 )和 “ dept”(科室 ),对 255名护理工作人员采用 K类中心聚类法进行样品聚类。 系统聚类 (Hierarchical Cluster)实例例题 4-3 测得 97名成年男子血常规和血生化指标 11项,分别是 rbc(红细胞 ), hb(血红蛋白 ), wbc(白细胞 ),plt(血小板 ),
7、 tbil(总胆红素 ), dbil(直接胆红素 ), alt(谷丙转氨酶 ), ast(谷草转氨酶 ), alp(碱性磷酸酶 ), bun(尿素氮 ), cr(肌酐 ),见数据文件 “ regression.sav” ,试对 11项血常规和血生化指标进行系统聚类分析。例题 4-4 为了研究我国 31个省、市、自治区(未包括台湾、香港和澳门) 2007年城镇居民生活消费的分布规律,根据调查资料以区域消费类型划分。指标名称如下,原始数据见下表。样品数 n=31,变量个数 p=8。试进行聚类分析。食品:人均食品支出(元 /人);衣着:人均衣着商品支出(元 /人);设备:人均家庭设备用品及服务支出(
8、元 /人);医疗:人均医疗保健支出(元 /人);交通:人均交通和通信支出(元 /人);教育:人均娱乐教育文化服务支出(元 /人);居住:人均居住支出(元 /人);杂项:人均杂项商品和服务支出(元 /人);食品 衣着 设备 医疗 交通 教育 居住 杂项北京 4934.05 1512.88 981.13 1294.07 2328.51 2383.96 1246.19 649.66天津 4249.31 1024.15 760.56 1163.98 1309.94 1639.83 1417.45 463.64河北 2789.85 975.94 546.75 833.51 1010.51 895.06
9、917.19 266.16山西 2600.37 1064.61 477.74 640.22 1027.99 1054.05 991.77 245.07内蒙古 2824.89 1396.86 561.71 719.13 1123.82 1245.09 941.79 468.17辽宁 3560.21 1017.65 439.28 879.08 1033.36 1052.94 1047.04 400.16吉林 2842.68 1127.09 407.35 854.80 873.88 997.75 1062.46 394.29黑龙江 2633.18 1021.45 355.67 729.55 746.
10、03 938.21 784.51 310.67上海 6125.45 1330.05 959.49 857.11 3153.72 2653.67 1412.10 763.80江苏 3928.71 990.03 707.31 689.37 1303.02 1699.26 1020.09 377.37浙江 4892.58 1406.20 666.02 859.06 2473.40 2158.32 1168.08 467.52安徽 3384.38 906.47 465.68 554.44 891.38 1169.99 850.24 309.30福建 4296.22 940.72 645.40 502.
11、41 1606.90 1426.34 1261.18 375.98江西 3192.61 915.09 587.40 385.91 732.97 973.38 728.76 294.60山东 3180.64 1238.34 661.03 708.58 1333.63 1191.18 1027.58 325.64河南 2707.44 1053.13 549.14 626.55 858.33 936.55 795.39 300.19湖北 3455.98 1046.62 550.16 525.32 903.02 1120.29 856.97 242.82湖南 3243.88 1017.59 603.1
12、8 668.53 986.89 1285.24 869.59 315.82广东 5056.68 814.57 853.18 752.52 2966.08 1994.86 1444.91 454.09广西 3398.09 656.69 491.03 542.07 932.87 1050.04 803.04 277.43海南 3546.67 452.85 519.99 503.78 1401.89 837.83 819.02 210.85重庆 3674.28 1171.15 706.77 749.51 1118.79 1237.35 968.45 264.01四川 3580.14 949.74 5
13、62.02 511.78 1074.91 1031.81 690.27 291.32贵州 3122.46 910.30 463.56 354.52 895.04 1035.96 718.65 258.21云南 3562.33 859.65 280.62 631.71 1034.71 705.51 673.07 174.23西藏 3836.51 880.10 271.29 272.81 866.33 441.02 628.35 335.66陕西 3063.69 910.29 513.08 678.38 866.76 1230.74 831.27 332.84甘肃 2824.42 939.89 505.16 564.25 861.47 1058.66 768.28 353.65青海 2803.45 898.54 484.71 613.24 785.27 953.87 641.93 331.38宁夏 2760.74 994.47 480.84 645.98 859.04 863.36 910.68 302.17新疆 2760.69 1183.69 475.23 598.78 890.30 896.79 736.99 331.80