1、SPSS 聚类 分析过程 聚类的主要过程一般可分为如下四个步骤: 1.数据预处理(标准化) 2.构造关系矩阵(亲疏关系的描述) 3.聚类(根据不同方法进行分类) 4.确定最佳分类(类别数) SPSS 软件聚类 步骤 1. 数据预处理(标准化) Analyze Classify Hierachical Cluster Analysis Method 然后从对话框中进行如下选择 从 Transform Values 框中点击向下箭头, 此 为标准化方法, 将出现如下可选项,从中选一即可: 标准化方法解释 : None:不进行标准化,这是系统默认值 ; Z Scores:标准化变换 ; Range
2、1 to 1:极差标准化变换 ( 作用:变换后的数据均值为 0,极差为 1,且 |xij*|1,消去了量纲的影响;在以后的分析计算中可以减少误差的产生。 ) ; Range 0 to 1(极差正规化变换 / 规格化变换) ; 2. 构造关系矩阵 在 SPSS 中如何选择测度 (相似性 统计量) : Analyze Classify Hierachical Cluster Analysis Method 然后从对话框中进行如下选择 常用测度(选项说明) : Euclidean distance:欧氏距离 (二阶 Minkowski 距离) , 用途:聚类分析中用得最广泛的距离 ; Squared
3、 Eucidean distance:平方欧氏距离 ; Cosine:夹角余弦 (相似性测度 ; Pearson correlation:皮尔逊相关系数 ; 3. 选择聚类方法 SPSS 中如何选择系统聚类法 常用系统聚类方法 a) Between-groups linkage 组间平均距离连接法 方法简述:合并两类的结果使所有的两两项对之间的平均距离最小。(项对的两成员分属不同类) 特点:非最大距离,也非最小距离 b) Within-groups linkage 组内平均连接法 方法简述:两类合并为一类后,合并后的类中所有项之间的平均距离最小 C) Nearest neighbor 最近邻法
4、(最短距离法) 方法简述:用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法 d) Furthest neighbor 最远邻法(最长距离法) 方法简述:用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法 e) Centroid clustering 重心聚类法 方法简述:两类间的距离定义为两类重心之间的距离,对样品分类而言,每一类中心就是属于该类样品的均值 特点:该距离随聚类地进行不断缩小。该法的谱系树状图很难跟踪,且符号改变频繁,计算较烦。 f) Median clustering 中位数法 方法简述:两类间的距离既不采用两类间的最近距离,也不采用最远距离,而采用介于两
5、者间的距离 特点:图形将出现递转,谱系树状图很难跟踪,因而这个方法几乎不被人们采用。 g) Wards method 离差平方和法 方法简述:基于方差分析思想,如果分类合理,则同类样品间离差平方和应当较小,类与类间离差平方和应当较大 特点:实际应用中分类效果较好,应用较广;要求样品间的距离必须是欧氏距离。 谱系分类的确定 经过系统聚类法处理后,得到聚类树状谱系图, Demirmen(1972)提出了应根据研究的目的来确定适当的分类方法,并提出了一些根据谱系图来分类的准则 : A. 任何类都必须在临近各类中是突出的,即各类重心间距离必须极大 B. 确定的类中,各类所包含的元素都不要过分地多 C.
6、 分类的数目必须符合实用目的 D. 若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类 实例分析 SPSS19.0分析 软件 聚类分析 4.2聚类分析 系统聚类法 在数据编辑窗口的主菜单中选择 “分析 (A)” “分类 (F)” “系统聚类 (H)”(如图 -4 所示), 弹出 “系统聚类分析 ”对话框,将 “地区 ”变量选入 “标注个案 (C)”中,将其他变量选入 “变量框 ”中,如图 -5 所示。在 “分群 ”单选框中选中 “个案 ”,表示进行的是 Q 型聚类。在 “输出 ”复选框中选中 “统计量 ”和 “图 ”,表示要输出的结果包含以上两项。 单击 “统计量 (S)”按钮,在
7、 “系统聚类分析:统计量 ”对话框中选择 “合并进程表 ”、 “相似性矩阵 ”,如图 -6 所示,表示输出结果将包括这两项内容。 单击 “绘制 (T)”按钮,在 “系统聚类分析:图 ”对话框中选择 “树状图 ”、 “冰柱 ”,如图 -7 所示,表示输出的结果将包括谱系聚类图(树状)以及冰柱图(垂直)。 单击 “方法 (M)”按钮,弹出 “系统聚类分析:方法 ”对话框,如下图 -8 所示。 “聚类方法 (M)”选项条中可选项包括如图 -9 所示的几种方法,本例中选择 “组间联接 ”: “度量标准 -区间 (N)”选项条中可选项包括如图 -10 所示的几种度量方法,本例中选择 “平方Euclide
8、an 距离 ”: “转换值 -标准化 (S)”选项条中可选项包括如图 -11 所示的几种将原始数据标准化的方法,本例中选择 “全局从 0 到 1”: 冰柱 图解释 聚类分析冰柱图 形状类似于 屋檐上垂下的冰柱,因此 而 得名。 横轴:案例( Case)表示被聚类的对象 或 变量 ; 纵轴:群集数( Number of clusters)表示被聚成几类; 观察冰柱图应从最后一行开始。 举例 如下 : 当聚成 6 类时 X4 和 X8 和 X6 聚成一类,其他个案自成一类,用白板将 6 类一下挡上可以看出如图; 当聚成 5 类时 X4 和 X8 和 X6 和 X2 聚成一类,其他个案自成一类。 冰柱图的优点是不仅可以显示出不同类数时个案所属的分类结果,还能表现出聚类的过程步骤,生动形象;缺点是不能表现出聚类过程中距离的大小。 若 生成的树状图 如下 ,看不清楚。 可 点击 右键 导出 文件, 生成 word 文件 , 然后 可以看出聚类 过程 。