10.聚类 与集成算法聚类 (Clustering) 在“无监督学习”任务中研究最多、应用最广 目标:将数据样本划分为若干个通常不相交的“簇” (cluster) 既可以作为一个单独过程(用于找寻数据内在的分布结构) 也可作为分类等其他学习任务的前驱过程性能度量 聚类性能度量,亦称聚类“有效性指标” (validity index) 外部指标 (external index) 将聚类结果与某个“参考模型”(reference model) 进行比较 如 Jaccard 系数, FM 指数,Rand 指数 内部指标 (internal index) 直接考察聚类结果而不用任何参考模型 如 DB 指数, Dunn 指数等 基本想法: “簇内相似度” (intra-cluster similarity )高,且 “簇间相似度” (inter-cluster similarity )低距离计算 距离度量 (distance metric) 需满足的基本性质: 常用距离形式: 闵可夫斯基距离 (Minkowski distance) p = 2: 欧氏距离(Euclidean distance)