聚类分析 聚类分析是研究(样品或指标)分类问题的一种多元统计方法。类是指相似元 素的集合。 分类: 1、系统聚类法-(分层聚类)系统聚类法是应用最广泛的一种 (Hierarchical Cluster过程) 1)、 聚类原则:都是相近的聚为一类,即距离最近或最相似的聚为 一类 。 2)、 分层聚类的方法可以用于样本聚类(Q)型,也可以用于变量聚类 (R型)。 2、非系统聚类法-(快速聚类法-K-均值聚类法)(K-means Cluster) 3、两步聚类法-一种探索性的聚类方法(TwoStep Cluster)K-均值聚类分析 K-means Cluster 又称为快速样本聚类法,是非系统聚类中最常用的聚类法 。 优点: 是占内存少、计算量小、处理速度快,特别适合大样本的 聚类分析。 缺点: 应用范围有限,要求用户制定分类数目(要告知),只能对观 测量(样本)聚类,而不能对变量聚类,且所使用的聚类变量 必须都是连续性变量。基本原理 具体做法 1、按照指定的分类数目n,按某种方法选择某些观测量,设为 Z1,Z2,Zn,作为初始聚心。 2、计算每个观测量到各个聚心的欧氏距离。即 按就近原则