第四章 统计模式识别中的聚类方法中科大 自动化系郑志刚20010.9 4.1 相似性准则(相似性度量) 4.2 聚类准则函数 4.3 两种简单的聚类算法 4.4 系统聚类 4.5 分解聚类 4.6 动态聚类 4.7 最小张树聚类 如下图所示,表示具有相同的试验平均值和样本协方差矩阵的三个数据集 4.1 相似性准则(相似性度量) 4.1 相似性准则(续) 分类与聚类的区别分类:用已知类别的样本训练集来设计分类器(监督学习)聚类(集群):用事先不知样本的类别,而利用样本的先验知识来构造分类器(无监督学习) 聚类分析的关键问题:如何在聚类过程中自动地确定类型数目 4.1 相似性准则(续) 1. 距离相似性度量(1 )欧氏距离a 、门限 的选择问题 b 、模式特征坐标单位的选取也会强烈地影响聚类结果 c 、欧氏距离具有旋转不变的特性,但对于一般的线性变换不是不变的,此时要对数据进行标准化在聚类分析中,常用的聚类要素的数据处理方法有如下几种: 总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即 这种标准化方法所得到的新数据满足 标准差标准化,即 由这种标准