1、第 11章聚类分析与判别分析 聚类分析判别分析聚类分析引言相似性度量系统聚类K-均值聚类聚类分析的 SPSS实现引言l 物以类聚,人以群分。l 例:中国的民族分成若干类,上市公司分类,等等l 对于一个数据集,人们既可以对变量(指标)进行分类(称为 R型聚类),也可以对观测值(个案,样品)来分类(称为 Q型聚类)。这两种聚类在数学上是对称的,没有什么不同。33例:哪些少数民族的生存状况更接近? 民族 原始数据标 化死亡率 () 出生 时 期望寿命 (岁 )满 族 5.80 70.59朝 鲜 族 7.44 67.14蒙古族 8.11 65.48维 吾 尔 族 10.21 58.88藏族 9.51
2、59.24哈 萨 克族 9.81 60.47*标化死亡率是根据相同的人口年龄结构(标准组)计算的,因而更具可比性。44聚类分析需要解决的一个问题l 如何衡量样本点之间的距离或相似程度?l 距离 ,主要用于样品(观测)间相似性度量l 相似系数 ,主要用于变量间相似性度量55常用的距离的计算方法l 设每个样品有 p个指标(变量)。把 n个样品看成 p维空间中的 n个点,则两个样品间相似程度就可用 p维空间中的两点距离公式来度量。l 两点距离公式可以从不同角度进行定义。l 当变量的测量值相差悬殊时,要先进行 标准化 ,以消除计量单位对计算结果的影响。66常用的距离的计算方法l 欧氏距离( Eucli
3、dean)l 平方欧氏距离 Squared Euclideanl 切比雪夫距离( Chebychev)77明考夫斯基距离 (明氏距离 )*按 q的取值不同可以包括多种距离计算方法。例如:88相似系数的计算方法l 变量间 的相似性可以从它们的方向趋同性或 “相关性 ”进行考察, “夹角余弦法 ”和 “相关系数 ”两种主要度量方法,统称为相似系数。(1) 夹角余弦 *两变量 Xi与 Xj看作 p维空间的两个向量,这两个向量间的夹角余弦可用下式进行计算显然, cos ij 1。99相似系数的计算方法(2) Pearson相关系数 Pearson相关系数经常用来度量变量间的相似性。变量 Xi与 Xj的 Pearson相关系数定义为显然也有, rij 1。1010