聚类的基本步骤 什么是类:粗略地讲,相似样品(或指标)的集合成为类。 聚类的两个基本步骤1. 邻近度度量的选择:检验每一对观测值(对象)取值的相似性。一个相似性(邻近度)的度量定义为对象间的“接近”程度。越接近越同质。2. 组别构建算法的选择:根据邻近度的度量,被分配到各组的对象间的差别变大,而被分配到同一组的观测值应尽可能接近。关于聚类:聚类应用领域 仓储管理:对不同类的商品在入库过程中进行聚类储存 营销: 发现客户集群并进行直销和重组 天文: 发现相似恒星群以及星系群 地震研究: 观测到的地震震源应聚集在大陆断层带 基因分析: 发现具有相似表达式的基因群 关于聚类:探索性的分析方法 作为一种探索性技术,EVERITT (1993)评价到:“聚类方法基本上是用于产生一些假设而不是检验假设”。 有多少作聚类分析的人就有多少聚类方法。聚类的分类: 划分聚类方法 层次聚类方法 密度聚类方法 网格聚类方法 模型聚类方法在基于划分的聚类中,任务就是将数据划分成K个不相交的点集,使每个子集中的点尽可能同质。基于划分的方法 ,其代表算法有 k-means算法、 K-medoids等划分聚类方法K-