聚类分析,聚类分析是研究分类问题的一种多元统计方法。所谓类,就是指相似元素的集合 聚类分析的研究目的,把相似的东西归成类,根据相似的程度将研究目标进行分类。,一、什么是聚类分析,聚类分析的研究对象 R型分析-对变量(指标)进行分类 Q型分析-对样品进行分类 聚类分析研究的主要内容 如何度量事物之间的相似性? 怎样构造聚类的具体方法以达到分类的目的?,1、相似性的测度,距离:测度样品之间的亲疏程度。将每一个样品看作 维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。 相似系数:测度变量之间的亲疏程度。,二、距离和相似系数,2、常用的距离,Minkowski距离,特别地,当m1时,即为绝对值距离,(1) Minkowski距离,设原始数据为,当m2时,即为欧氏距离,当 时,即为切比雪夫距离,Minkowski距离,欧氏距离,切比雪夫距离,Minkowski距离有两个缺点:,明氏距离的数值与指标的量纲有关。当各变量的测量值相差悬殊时,常发生“大数吃小数”的现象,为消除量纲的影响,通常先将每个变量进行标准化。 明氏距离的定义没