1、第 8章 聚类分析8 聚类分析8.1 基本原理和方法8.2 系统聚类法8.3 系统聚类的 SPSS应用8.4 K均值聚类法8.5 K均值聚类法的 SPSS应用 例:对 7种产品的销售情况进行检验。共有两个指标,销售额和销售量,其数值分别如下表所示。选择合适的统计方法对这些产品进行 分类 。 现在如果将这七个产品按照销售量和销售额的大小把他们分成两类。很容易得出,产品 1, 2, 3应该是一类的,产品 4, 5, 6, 7应该是一类的。如果将他们分成 三类,则仍很易得出产品 1, 2, 3还是一类的,产品 4, 5, 6是一类的,产品 7是自成一类的。 可见对产品的分类事先是没有给定标准的,完全
2、从给出的样本数据出发进行分类。产品 1和 2, 3在一类是因为在 销售量 和 销售额 上的 接近 ,与产品 4, 5, 6, 7不在一类,则是因为在销售量和销售额上比较大的差距。 聚类分析的作用正是在于此,主要用于辨识具有相似性的事物,并根据彼此不同的特性加以 “ 聚类 ” ,即自动分类,使同一类的事物具有高度的相似性,不同类的事物有较大的差异性。 它是把事物按其相似程度进行分类,在分类过程中,人们无需自己先定义一个分类标准,聚类分析能够从现有的样本数据出发,按它们的 亲疏程度 分成若干类。 8.1 基本原理和方法 聚类分析:采用定量数学方法,根据一批样品的多个观测指标,具体找出一些能够度量样
3、品或指标之间相似程度的统计量,以这些统计量为划分类型的依据 分类的基本思想:把一些相似程度较大的样品(或指标)聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕。聚类分析例如:有 p个指标(变量), n个对象,依据这 n个对象在 p个指标下的数据,对这 n个对象进行聚类。设数据为:每一个对象是 p维空间中的一个点聚类问题,就是在 p维空间中,对这 n个点的聚类问题聚类分析的分类 样本聚类 /Q型聚类:对观测量 (Case)进行聚类,不同的目的选用不同的指标作为分类的依据 变量聚类 /R型聚类:能够找出彼此独立且有代表性的自变量,而
4、又不丢失大部分信息,主要是对研究对象的观测变量进行聚类,使得具有共同特征的变量作为一类聚类分析的步骤 选择描述事物对象的变量(指标) 形成数据文件,建立样品资料矩阵 确定数据是否需要标准化 确定表示对象距离或相似程度的统计量 计算对象间的距离( rij)和相似关系矩阵 R( rij)对称阵: i到 j的距离与 j到 i的距离相等 选择类与类之间的距离定义 聚类 分类度量样本之间相似程度的统计量 距离:将一个样品看作 P维空间的一个点,并在空间用某种度量测量点与点之间的距离,距离越近的点归为一类,距离较远的点归为不同的类以 dij表示第 i个样本与第 j个样本间的距离,需要满足以下四个条件 dij0,对一切 i和 j成立 dij 0,当且仅当 i j成立 dij dji0,对一切 i和 j成立 dijdik dkj, 对于一切 i和 j成立