1、Chapter 6 Cluster Analysis6.1 聚类分析的定义与作用6.2 聚类分析的原理介绍6.3 聚类方法6.4 聚类方法的要求俗话说: “物以类聚,人以群分 ”,在自然科学和社会科学中,存在着大量的分类问题。所谓类,通俗地说,就是指相似元素的集合。聚类分析又称 群分析 ,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,在古老的分类学中,人们主要依靠 经验和专业知识 来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地 把数学工具 引用到了分类学中,形成了数
2、值分类学,之后又将 多元分析的技术 引入到数值分类学形成了聚类分析。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。6.1 聚类的定义与作用聚类的定义:1)利用样本在多维空间的相对位置,将样本分成两个或多个集团的算法。2)按照事务的某些属性,把事务数据分组成为多个类, 在同一个类内对象之间具有 较高的相似度 ,不同类之间的对象差别较大。即, 使类间的相似性尽量小,类内相似性尽量大。聚类的应用领域n 模式识别n 空间数据分析 q 通过特征空间聚类产生 GIS的 thematic maps q 在空间数据挖掘中检测空间聚类并解释它们n 图象处理
3、n 经济科学 (特别是市场研究 )n WWWq 文本分类q Web 日志数据聚类,发现类似访问模式群6.2 聚类分析原理介绍聚类分析中 “类 ”的特征:q 聚类所说的类很多不是事先给定的,而是根据数据的相似性来划分q 聚类的 数目 和 结构 都没有事先假定聚类方法的目的是寻找数据中:q 潜在的 自然分组结构 ( a structure of “natural” grouping)q 感兴趣的 关系 ( relationship)什么是 自然分组结构 ?我们看看以下的例子:n 有 16张牌n 如何将他们分为一组一组的牌呢?AKQJAKQJ花色相同的牌为一副Individual suits分成四组每组里 花色相同组与组之间花色相异AKQJ符号相同的的牌Like face cards分成四组符号相同 的牌为一组AKQJ颜色相同的配对Black and red suits分成两组颜色相同 的牌为一组