,数据挖掘原理与SPSS Clementine应用宝典 元昌安 主编 邓松李文敬刘海涛编著 电子工业出版社,第8章 聚类分析,由NordriDesign提供 ,主要内容,聚类分析原理 聚类分析常用算法分类 划分聚类方法 层次聚类方法 基于密度的聚类方法 基于网格的聚类方法 基于模型的聚类方法 高维数据的聚类方法 模糊聚类FCM 应用实例分析,8.1.1聚类分析介绍,聚类就是按照事物的某些属性,把事物聚集成类,使类间的相似性尽可能小,类内相似性尽可能大。 数据挖掘对聚类的典型要求如下: 可伸缩性 处理不同类型属性的能力 发现任意形状的聚类 用于决定输入参数的领域知识最小化 处理噪声数据的能力,8.1.2聚类分析中的数据类型,数据矩阵:用m个变量(也称为属性)来表现n个对象 相异度矩阵:存储n个对象两两之间的近似度,通常用一个维的矩阵表示,8.1.3 区间标度变量,计算均值绝对偏差 计算标准化的度量值 欧几里德距离 曼哈顿距离 明考斯基距离,8.1.4 二元变量,简单匹配系数 Jaccard系数 Rao系数,8.1.5 分类型、序数型变量,分