1、第三章 聚类分析,3.1 聚类分析的思想3.2 相似性度量3.3 类和类的特征3.4 系统聚类法3.5 模糊聚类分析(选学)3.6 K-均值聚类和有序样本聚类3.7 计算步骤与上机实现3.8 社会经济案例研究,第三章 聚类分析,人们往往会碰到通过划分同种属性的对象很好地解决问题的情形,而不论这些对象是个体、公司、产品甚至行为。如果没有一种客观的方法,基于在总体内区分群体的战略选择,比如市场细分将不可能,其他领域也会遇到类似的问题,研究者都在基于一个多维剖面的观测中寻找某种“自然”结构。为此最常用的技巧是聚类分析,聚类分析将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更
2、强。目的在于使类内对象的同质性最大化和类与类间对象的异质性最大化。本章将介绍聚类分析的性质和目的,并且引导研究者使用各种聚类分析方法。,3.1 聚类分析的思想,3.1.1 导言在古老的分类学中,人们主要靠经验和专业知识,很少利用数学方法。随着生产技术和科学的发展,分类越来越细,以致有时仅凭经验和专业知识还不能进行确切分类,于是数学这个有用的工具逐渐被引进到分类学中,形成了数值分类学。近些年来,数理统计的多元分析方法有了迅速的发展,多元分析的技术自然被引用到分类学中,于是从数值分类学中逐渐的分离出聚类分析这个新的分支。,3.1 聚类分析的思想,我们认为,所研究的样品或指标(变量)之间是存在着程度
3、不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另外一类,。关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后再把整个分类系统画成一张分群图(又称谱系图),用它把所有的样品(或指标)间的亲疏关系表示出来。,3.1 聚类分析的思想,在经济、社会、人口研究中,存在着大量分类研究、构造分类模式的问
4、题。过去人们主要靠经验和专业知识,作定性分类处理,致使许多分类带有主观性和任意性,不能很好的提示客观事物内在的本质差别和联系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。 为了克服定性分类时存在的不足,数学这个有用的工具逐渐被引进到分类学中,形成数值分类学。后来随着多元分析的引进,聚类分析可以用来对案例进行分类,也可以用来对变量进行分类。对样品的分类常称为Q型聚类分析,对变量的分类常称为R型聚类分析。,3.1 聚类分析的思想,与多元分析的其他方法相比,聚类分析的方法是很粗糙的,理论上还不完善,但由于它能解决许多实际问题,很受人们的重视,和回归分析、判别分析一起被称为多元分析
5、的三大方法。,3.1 聚类分析的思想,3.1.2 聚类的目的在一些社会、经济问题中,我们面临的往往是比较复杂的研究对象,如果能把相似的样品(或指标)归成类,处理起来就大为方便,聚类分析的目的就是把相似的研究对象归成类。 【例3.1】若我们需要将下列11户城镇居民按户主个人的收入进行分类,对每户作了如下的统计,结果列于表3.1。在表中,“标准工资收入” 、“职工奖金” 、“职工津贴” 、“性别” 、“就业身份”等称为指标,每户称为样品。若对户主进行分类,还可以采用其他指标,如“子女个数” 、“政治面貌” 等,指标如何选择取决于聚类的目的。,3.1 聚类分析的思想,3.1 聚类分析的思想,例3.1
6、中的8个指标,前6个是定量的,后2个是定性的。定量变量通常是具有数值特征的连续变量,例如长度、重量、人口等这类变量。(间隔尺度)定性变量没有数量上的变化,而是性质上的差异。(有序尺度、名义尺度),3.1 聚类分析的思想,分得更细一些,指标的类型有三种尺度间隔尺度(定距尺度、定比尺度)。变量用连续的量来表示。有序尺度(定序尺度)。指标用有序的等级来表示,有次序关系,但没有数量表示。名义尺度(定类尺度)。指标用一些类来表示,这些类之间没有等级关系也没有数量关系。不同类型的指标,在聚类分析中,处理的方式是大不一样的。总的来说,提供给间隔尺度的指标的方法较多,对另两种尺度的变量处理的方法不多。,3.1
7、 聚类分析的思想,第一位重要的问题是“什么是类”?粗糙地讲,相似样品(或指标)的集合称作类。由于经济问题的复杂性,欲给类下一个严格的定义是困难的,在3.3中,我们将给类一些待探讨的定义。 聚类分析给人们提供了丰富多采的方法进行分类,这些方法大致可归纳为:(1) 系统聚类法。(2)模糊聚类法。(3) K-均值法。(4) 有序样品的聚类。(5) 分解法。(6) 加入法。我们重点学习系统聚类法、 K-均值聚类。,3.2 相似性度量,从一组复杂数据产生一个相当简单的类结构,必然要求进行“相关性”或“相似性“度量。在相似性度量的选择中,常常包含许多主观上的考虑,但是最重要的考虑是指标(包括离散的、连续的
8、和二态的)性质或观测的尺度(名义的、次序的、间隔的和比率的)以及有关的知识。当对样品进行聚类时,“靠近”往往由某种距离来刻画。另一方面,当对指标聚类时,根据相关系数或某种关联性度量来聚类。,表3-2 数据矩阵在表3-2中,每个样品有p个指标,故每个样品可以看成p维空间中的一个点,n个样品就组成p维空间中n个点,此时自然想用距离来度量样品之间的接近程度。,3.2 相似性度量,3.2 相似性度量,3.2.1 距离条件设 表示一个点集, 表示距离,它是 到 的函数,距离的四条基本公理:(1) ;(2) ,当且仅当 ;(3) ;(4) 。,3.2 相似性度量,用 表示第i个样品的第j个指标,数据矩阵见
9、表3.2,第j个指标的均值和标准差记作 和 。用 表示第i个样品与第j个样品之间的距离,作为距离当然以下公理。(1) ;(2) ,当且仅当 ; 各指标相等,则在空间上完全重合;(3) ;(4) ;(5) ;不一定满足极端距离。,3.2 相似性度量,3.2.2 距离(Distance)(1)绝对值(Block)距离 ;(2)欧氏(Euclidean)距离(3)明考斯基(Minkwski)距离 ; 当q=1和2时就是上述的两个距离,绝对值距离和欧氏距离统一成明考斯基距离。(4)切比雪夫(Chebychey)距离 (当q趋向于无穷时,明考斯基(Minkwski)距离就是切比雪夫距离。),3.2 相似
10、性度量,但就大部分统计问题而言,欧氏距离是不能令人满意的。这里因为,每个坐标对欧氏距离的贡献是同等的。当坐标轴表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的办法是对坐标加权,使得变化较大的坐标比变化小的坐标有较小的权系数,这就产生了各种距离。欧氏距离还有一个缺点,这就是当各个分量为不同性质的量时,“距离”的大小竟然与指标的单位有关。,3.2 相似性度量,明考斯基距离在实际应用中缺点:一是是距离的大小受到各指标观测值单位的影响;二是没有考虑到指标之间的相关性,所以通常的改进办法有下面两个:首先,各指标的测量值相差悬殊时,先对数据标准化,然后用标准化后的数据计算距离。或者使用兰
11、氏距离。 (5)兰氏距离(兰斯Lance和威廉姆斯Willams) 当 时, 兰氏距离克服了指标的单位影响,但是没有克服相关性。,3.2 相似性度量,其次,一种改进的马氏距离。 (6)马氏距离 设X、Y从均值向量为,协方差阵为的总体G中抽取的两个样品,定义X、Y两点之间的马氏距离为 它对一切线性变换是不变的,不受指标量纲的影响。它对指标的相关性也作了考虑,我们仅用书上的例3-2来说明。 注意:以上各各种距离只适用于间隔尺度的度量。,3.2 相似性度量,但在聚类分析之前,我们预先对研究对象有多少个不同类型的情况一无所知,则马氏距离公式中的 值如何计算呢?如果用全部数据计算的均值和协方差阵来计算马
12、氏距离,效果也不是很理想。因此,通常人们还是喜欢应用欧氏距离聚类。,3.2 相似性度量,如果指标是有序尺度或名义尺度时,也有一些灵活的定义距离的方法。(7)不一致性系数设两个样品 p个指标的取值,配合的指标数为 ,不配合的指标数为 ,定义他们之间的距离为,3.2 相似性度量,在聚类分析中不仅需要将样品分类,也需要将指标分类,在指标之间也可以定义距离,要常用的是相似系数。对于间隔尺度,常用的相似系数有:(1) 夹角余弦。这是受相似形的启发而来,图3.1中的曲线AB和CD尽管长度不一,但形状相似,当长度不是主要矛盾时,应定义一种相似系数使AB和CD呈现出比较密切的关系。而夹角余弦适合这一要求。,3
13、.2 相似性度量,用 表示指标i与指标j之间的相似系数, 的绝对值越接近于1,表示指标i与指标j之间的关系越密切,反之亦然。 它的定义是 它是指标向量 和 之间的夹角余弦。,3.2 相似性度量,(2) 相关系数。这是大家最熟悉的统计量,它是将数据标准化后的夹角余弦。名义尺度之间也可以定义相似系数,本书不做介绍。,3.2 相似性度量,有时指标之间也可用距离来描述它们的接近程度。实际上距离和相似系数之间可以互相转化。若 是一个距离,则 为相似系数。若 为相似系数且非负,则 看成是距离(不一定符合距离的定义),或 看成距离,如果指标均为取两值的名义尺度指标,也可定义相关系数。,3.3 类和类的特征,
14、我们的目的是聚类,那么什么叫类呢?由于客观事物的千差万别,在不同的问题中类的含义是不尽相同的。给类下一个严格的定义,决非易事。下面给出类的适用于不同的场合几个定义。 用G表示类,设G中有K个元素,这些元素用i,j等表示。定义3.1 T为一给定的阀值,如果对任意的i,jG,有 ( 为i和j的距离),则称G为一个类。定义3.2 对阀值T,如果对每个iG ,有 ,则称G为一个类。定义3.3 对阀值T、V,如果 ,对一切i,jG ,则称G为一个类。,3.3 类和类的特征,定义3.4 对阀值T,若对任意一个iG ,一定存jG ,使得 ,则称G为一个类。易见,定义3.1的要求是最高的,凡符合它的类,一定也
15、是符合后三种定义的类。此外,凡符合定义3.2的类,也一定是符合定义3.3的类。现在类G的元素用 表示,m为G内的样品数(或指标数),可以从不同的角度来刻画G的特征,常用的特征有下面三种。(1)均值 (或称为G的重心):,3.3 类和类的特征,(2)样本散布阵及协差阵:(3) G的直径。它有多种定义,例如:在聚类分析中,不仅要考虑各个类的特征,而且要计算类与类之间的距离。由于类的形状是多种多样的,所以类与类之间的距离也有多种计算方法。,3.3 类和类的特征,令 和 中分别有k个和m个样品,它们的重心分别为 和 ,它们之间的距离分别用 表示。下面是一些常用的定义:(1) 最短距离法 (neares
16、t neighbor或single linkage method) 它等于类 和 中最邻近的两个样品的距离,该准则下类的合并过程在图3.2种概要说明。,3.3 类和类的特征,(2) 最长距离法(farthest neighbor或complete linkage method)它等于类 和 中最远的两个样品的距离,该准则下类的合并过程在图3.3种概要说明。,3.3 类和类的特征,(3) 类平均法(group average method)它等于类 和类 中任两个样品的距离的平均,该准则下类的合并过程在图3.4种概要说明。,3.3 类和类的特征,(4) 重心法(Centroid method)它
17、等于两个重心 和 间的距离。(5) 离差平方和法(Sum of Squares method) 若采用直径的第一种定义方法(a),用 和 分别表示类 和类 的直径,用 表示大类 的直径 ,则,3.3 类和类的特征,式中: 。用离差平方和法定义类 和 类之间的距离平方为 :可以证明这种定义是有意义的,证明见文献7,如果样品的距离采用欧氏距离,同样可以证明下式成立:这表明,离差平方和法定义类间距离与重心法定义的距离只差1个常数倍,这个倍数与两类的样品数有关。,3.4 系统聚类法,系统聚类法(hierarchical clustering method)在聚类分析中诸方法中用的最多,包含下列步骤:,
18、3.4 系统聚类法,不同的距离定义方式用到系统聚类程序中,得到不同的系统聚类法。3.4.1 最短距离法和最长距离法 最短距离法就是类与类之间的距离采用最短距离的系统聚类方法。 最长距离法是类与类之间的距离采用最长距离的系统聚类法。选择最大的距离作为新类与其他类之间的距离,然后将类间距离最小的两类进行合并,一直合并到只有一类为止。上述两方法中,主要的不同是计算新类与其他类的距离的递推公式不同。,例 1 设有六个样本,每个只测量一个指标,分别为1,2,5,7,9,10,试用最短距离法分类。(1)样本采用绝对值距离,(2)第一类和第二类合并成第七类 第五类和第六类合并成第8类,(3)第3,4,8合为
19、第9类(4)最后第7和第9 合成第10类。,3.4 系统聚类法,最短距离法也可用于对指标的分类,分类时可以用距离也可以用相似系数。但用相似系数时应找最大的元素并类,计算新类与其他类的距离采用最长距离法。最短距离法的主要缺点是它有链接聚合的趋势,因为类与类之间的距离为所有距离中的最短者,两类合并以后,它与其他类的距离缩小了,这样容易形成一个比较大的类,大部分样品都被聚在一类中,在树状聚类图中,会看到一个延伸的链状结构,所以最短距离法的聚类效果并不好,实际中不提倡使用。最长距离法克服了最短距离法链接聚合的缺陷,两类合并以后与其他类的距离是原来两个类中的距离最大者,加大了合并后的类与其他类的距离。,
20、3.4 系统聚类法,3.4.2 重心法和类平均法从物理的观点看,一个类用它的重心(该类样品的均值)做代表比较合理,类与类之间的距离就用重心之间的距离来代表。若样品之间采用欧氏距离,设某一步将类 和类 合并成 ,它们各有 、 、 ( )个样品,它们的重心用 、 、 表示,显然某一类 的重心为 ,它与新类 的距离是,续例 1 设有六个样本,每个只测量一个指标,分别为1,2,5,7,9,10,试用重心法聚类类。(1)样本采用欧氏平方距离,(2)第一类和第二类合并成第七类 第五类和第六类合并成第8类,(3)第3,4合为第9类(4)第8和第9 合成第10类。,(4)第8,9合为第10类()最后第7和第1
21、0 合成第11类。,3.4 系统聚类法,重心法虽有很好的代表性,但并未充分利用各样本的信息,有人建议将两类之间的距离平方定义为这两类元素两两之间的平均平方距离,即:上式也可以记为:,3.4 系统聚类法,类平均法是聚类效果较好、应用比较广泛的一种聚类方法。它有两种形式,一种是组间联结法(Between-groups linkage),另一种是组内联结法(Within-groups linkage)。组间联结法在计算距离时只考虑两类之间样品之间距离的平均,组内联结法在计算距离时把两组所有个案之间的距离都考虑在内。还有一种类平均法,它定义类与类之间的距离为:用同样的方法可以导出这种定义下的距离递推公
22、式如下:有人认为类平均法是系统聚类法中比较好的方法之一。,3.4 系统聚类法,3.4.3 离差平方和法(或称Ward方法)离差平方和方法是由Ward提出来的,许多资料上称做Ward法。他的思想是来于方差分析,如果类分得正确,同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。设将n个样品分成k类 ,用 表示类 中的第i个样品(注意 是P维向量), 表示类 的样品个数, 是类 的重心,则在类 中的样品的离差平方和是,3.4 系统聚类法,整个类内平方和是:当固k定时,要选择使L达到极小的分类,n个样品分成k类,一切可能的分法有:当n,k很大时, 就达到了天文数字,因此,要比较这么多分类来
23、选择最小的L ,即使高速计算机也难以完成,于是,只好放弃在一切分类中求L的极小值的要求,而是设计出某种规格,找到一个局部最优解。,3.4 系统聚类法,Ward法就是找局部最优解的一个方法。其思想是先将n个样品各自成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使增加最小的两类合并,直到所有的样品归为一类为止。 若将某类 和类 合并成 ,它们各有 、 、 个样品( ),它们的重心用 、 和 表示,某一新类 的重心为 ,它与新类的距离递推公式:需要指出的是,离差平方和法只能得到局部最优解。至今还没有较好的方法以较少的计算的得到精确的最优解。,3.4 系统聚类法,【例3-4】 为了研究辽
24、宁等5省份2000年城镇居民消费支出的分布规律,根据调查资料作类型划分。指标名称及原始数据见表3-5。SPSS实现五种系统聚类方法。,3.4 系统聚类法,现在将表3-5中的每个省份看成是一个样品,先计算五省份之间的欧氏距离。用SPSS软件可以实现,详细步骤如下:(1) 打开数据。使用菜单中FileOpen命令,然后选中要分析的数据3-4.sav。(2)在菜单中的选项中选择AnalyzeClassify命令,Classify命令下有两个聚类分析命令,一是K-means cluster(K-均值聚类),二是Hierarchical cluster(系统聚类法)。这里我们选择系统聚类法。(3) 在系
25、统聚类法中,我们看到Cluster下有两个选项,Cases(样品聚类或Q型聚类)和Variables (变量聚类或R型聚类)。这里我们选择对样品进行聚类。,3.4 系统聚类法,(4) Display下面有两个选项,分别是Statistics (统计量)、Plots (输出图形) ,我们可以选择所需要输出的统计量和图形。(5) 在系统聚类法中底下有四个按纽,分别是Statistics、Plots、Method、Save。(a)在Statistics中,有Agglomeration schedule(每一阶段聚类的结果),Proximity matrix(样品间的相似性矩阵)。由Cluster m
26、embership可以指定聚类的个数,none选项不指定聚类个数,Single solution指定一个确定类的个数,Range of solution指定类的个数的范围(如从分3类到分5类)。,3.4 系统聚类法,(b)在Plots中,有Dendrogram(谱系聚类图,也称树状聚类图)、Icicle(冰柱图)、Orientation指冰柱图的方向(Horizontal 水平方向、Vertical垂直方向)。(c)在Method中, Cluster可以选择聚类方法,Measure中可以选择计算的距离。(d)在Save中,可以选择保存聚类结果。 选好每个选项后,点“OK”就可以执行了。根据结果
27、距离矩阵可以分析。距离矩阵各元素数值的大小反映了5个省份间消费水平的接近程度。例如青海省和辽宁省之间的欧氏距离最小,反映了这两个省份城镇居民的消费水平最接近。,例3-4 样品与样品欧氏距离,类于类最短距离法,例1 样品之间欧氏距离(绝对值距离),类于类之间最短距离法,3.4 系统聚类法,3.4.4 分类数的确定如何选择分类数是各种聚类方法中的主要问题之一。在K均值聚类法中聚类之前需要指定分类数,谱系聚类法(系统聚类法)中我们最终得到的只是一个树状结构图,从图中可以看出存在很多类,但问题是如何确定类的最佳个数。确定分类数的问题是聚类分析中迄今为止尚未完全解决的问题之一,主要的障碍是对类的结构和内
28、容很难给出一个统一的定义,这样就给不出从理论上和实践中都可行的虚无假设。实际应用中人们主要根据研究的目的,从实用的角度出发,选择合适的分类数。,3.4 系统聚类法,Demir-men曾提出了根据树状结构图来分类的准则:准则1:任何类都必须在邻近各类中是突出的,即各类重心之间距离必须大。准则2:各类所包含的元素都不要过分地多。准则3:分类的数目应该符合使用的目的。准则4:若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类。,3.4 系统聚类法,系统聚类中每次合并的类与类之间的距离也可以作为确定类数的一个辅助工具。首先把离得近的类合并,在并类过程中聚合系数呈增加趋势,聚合系数小,表示合
29、并的两类的相似程度较大,两个差异很大的类合到一起,会使该系数很大。 如果以y轴为聚合系数,x轴表示分类数,画出聚合系数随分类数的变化曲线,会得到类似于因子分析中的碎石图,可以在曲线开始变得平缓的点选择合适的分类数。,3.4 系统聚类法,3.4.5 系统聚类法的统一上面介绍的五种系统聚类法,并类的原则和步骤是完全一样的,所不同的是类与类之间的距离有不同的定义,从而得到不同的递推公式,如果能将它们统一为一个公式,将大大有利于编制计算机程序。Lance和Williams于1967年给出了一个统一的公式其中, 对于不同的方法有不同的取值。,3.4 系统聚类法,表3-6列出了不同方法四参数的取值。表中除
30、了上述五种方法以外,还列举了另三种系统聚类法,由于它们用得较少,不再详述。,3.4 系统聚类法,一般而言,不同的方法聚类的结果不完全相同。最短距离法适用于条形的类。最长距离法、重心法、类平均法、离差平方和法适用于椭圆形的类。由于上述的聚类方法得到的结果是不完全相同的。于是产生一个问题:我们应当选择哪一个结果为好? 为了解决这个问题,需要研究系统聚类法的性质,现简要介绍如下。1.单调性。最短距离法、最长距离法、类平均法、离差平方和法、可变法和可变类平均法都具有单调性,只有重心法和中间距离法不具有单调性。,3.4 系统聚类法,2.空间的浓缩和扩张。对同一问题作距离图时,横坐标(并类距离)的范围相差
31、很远。最短距离法的范围较小,而最长距离法的范围较大,而类平均法则介于两者之间。范围小的方法区别类的灵敏度差,但范围太大的方法,灵敏度过高会使支流来淹没主流,要适中为好。有关系统聚类法的性质,还可从其他角度提出了比较优与劣的原则。将n个样品,欲分为k类,有人定义一个分类函数(或叫损失函数),然后寻找这个函数的最优解,在某些条件下,最短距离法的解是最优的,而系统聚类法的其他方法都不具有这个性质。故最短距离法在实际中也很被推崇。,3.5 模糊聚类分析,模糊集的理论是二十世纪六十年代中期美国的自动控制专家查德(L.A.Zadeh)教授首先提出的。模糊集的理论已广泛应用于许多领域,将模糊集概念用到聚类分
32、析中便产生了模糊聚类分析。模糊聚类法就是将模糊数学的思想观点应用到聚类分析中产生的方法。该方法多用于定性变量的分类。此方法作为选学内容。,3.6 K-均值聚类和有序样品的聚类,3.6.1 K-均值法(快速聚类法)非谱系聚类法是把样品(而不是变量)聚集成K个类的集合。类的个数K可以预先给定,或者在聚类过程中确定。例如可以事先指定样本的分类数,或者指定使聚类过程中止的判据或迭代次数等。非谱系方法可应用于比系统聚类法大得多的数据组。非谱系聚类法或者一开始就对元素分组,或者从一个构成各类核心的“种子”集合开始。选择好的初始构形,将能免除系统的偏差。一种方法是从所有项目中随机地选择“种子”点或者随机地把
33、元素分成若干个初始类。我们讨论的是最特殊的非谱系过程,即K-均值法。,3.6 K-均值聚类和有序样品的聚类,K-均值法, 又叫快速聚类法,是Macqueen于1967年提出的。K-均值法的思想是把每个样品聚集到其最近形心(均值)类中去。在它的最简单说明中,这个过程由下列三步所组成:(1)把样品粗略分成K个初始类;(2)进行修改,逐个分派样品到其最近均值的类中去(通常用标准化数据或非标准化数据计算欧氏距离)。重新计算接受新样品的类和失去样品的类的形心(均值);(3)重复第2步,直到各类无元素进出。,3.6 K-均值聚类和有序样品的聚类,若不在一开始就粗略地把样品分到K个预先指定的类(第1步),那
34、我们也可以指定K个最初形心(种子点),然后进行第2步。样品的最终聚类在某种程度上依赖于最初的划分,或种子点的选择。为了检验聚类的稳定性,可用一个新的初始分类重新检验整个聚类算法。如最终分类与原来一样,则不必再行计算;否则,须另行考虑聚类算法。K-均值法仍是利用距离作为变量个体之间关系变量密切程度的指标,并通过制定分类数而求的聚类结果。,3.6 K-均值聚类和有序样品的聚类,基本步骤如下:首先,选择聚类分析的变量、标识变量和参数; 注意:参与聚类分析的变量必须是数值型变量。 为了标识各观测量最终所属于哪一类,指定一个表明观测量特征的变量作为标识变量。指定的聚类数必须大于等于2,但不能大于观测次数
35、。其次,确定K个初始类中心。在给定聚类数为K的条件下,首先需指定K个具有代表性的观测量作为聚类的种子。K个事先指定的观测量就是K个聚类中心点,也成为初始类中心。可以选择自己指定或或系统指定方式确定中心点。,3.6 K-均值聚类和有序样品的聚类,第三,根据距离最近原则进行分类。按照距离这K个类中心距离最近原则,把观测量分配到各类中心所在的类中,形成第一次迭代的K个分类。第四,根据聚类终止条件进行迭代。根据组成每一类的观测量计算各变量均值,每一类中的各个均值在n维空间又形成k个点,这就是第二次迭代的类中心,按照这种方法依次迭代下去,直到达到指定的迭代次数或中止迭代的判据要求时,迭代停止,聚类结束。
36、从上述分析过程可以看出, K-mean不仅是快速聚类分析方法,而且是一种逐步聚类分析(是先将聚类对象进行初始分类,然后逐步调整得到最终分类)。,例 假定对A、B、C、D四个样本分布观测两个变量X1和X2得到如下表格,将以上样本聚成两类,第一步,K=2,将样本随意分成两类(A,B)和(C,D),计算两个类的中心坐标,第二步,计算某个样本到各类中心的欧式平方距离,更新后的中心坐标为,第三步,再次检查每个样本,决定是否重新分类,3.6 K-均值聚类和有序样品的聚类,K-均值聚类的SPSS实现现在将3-5中的每个地区看成是一个样品,用SPSS软件可以实现K-均值法,SPSS软件操作:(1)打开数据。使
37、用菜单中FileOpen命令,然后选中要分析的数据3-5.sav。(2)AnalyzeClassify K-means cluster命令,(3)选择聚类分析的变量Variables和Label Cases。在Number of Clusters文本框中输入聚类的类数,该数应小于个案总数。(4)点击OK,3.6 K-均值聚类和有序样品的聚类,关于K-均值法的几点评注:对于预先不固定类数K这一点有很大的争论,其中包括下面几点:(1)如果有两个或多个“种子”点无意中跑到一个类内,则其聚类结果将很难区分。(2)局外干扰的存在将至少产生一个样品非常分散的类。(3)即使已知总体由K个类组成,抽样方法也可
38、造成属于最稀疏类数据不出现在样本中。强行将这些数据分成K个类会导致无意义的聚类。提示:许多聚类算法都要求给定K,而选择几种算法进行反复检验,对于结果的分析也许是有好处的。,快速聚类 例题,例3-4,3.6 K-均值聚类和有序样品的聚类,3.6.2 有序样品的聚类在前几节的讨论中,分类的样品是相互独立的,分类时彼此是平等的。但在有些实际问题中,要研究的现象与时间的顺序密切相关。例如我们想要研究,从1949年到2011年以来,国民收入或者GDP可以划分为几个阶段,阶段的划分必须以年份顺序为依据,总的想法是要将国民收入或者GDP接近的年份划分到一个段内,要完成类似这样的问题的研究,用前几节分类的方法
39、显然是不行了。,3.6 K-均值聚类和有序样品的聚类,对于这类有序样品的分类,实质上是需要找出一些分点,将它们划分成几个分段,每个分段看作一类,称这种分类为分割。显然,分点在不同位置可以得到不同的分割。这样就存在一个如何决定分点,使达到所谓最优分割的问题。即要求一个分割能使各段内部样品间的差异最小,而各段之间样品的差异最大。这就是决定分割点的依据。假设用 表示n个有顺序的样品,有序样品的分类结果要求每一类必须呈 ,由于增加了有序这个约束条件,对分类有什么影响?,3.6 K-均值聚类和有序样品的聚类,1、可能的分类数目n个样品分成k类,如果样品是彼此相等的,则一切可能的分法有对于有序样品,n个样
40、品分成k类的一切可能的分法有:,3.6 K-均值聚类和有序样品的聚类,2、最优分割法最优分割法用来分类的依据是离差平方和,但由于 比 小得多,因此和系统聚类法中的离差平方和法有有所不同,前者可以求得精确最优解,而后者只能久的局部最优解。这个方法首先是由Fisher提出的,许多书上又称为Fisher算法。设样品依次 (每个是n维向量),最优分割法的步骤大致如下:(1)定义类的直径 设某一类 是 ,它们的均值记为 :,3.6 K-均值聚类和有序样品的聚类,的直径用 表示,常用的直径是 当m=1时,有时用直径 ,其中 是 的中位数。(2)定义目标函数 将n个样品分成k类,设某一种分法是: 或简记为:
41、,3.6 K-均值聚类和有序样品的聚类,其中分点为: 定义这种分类的目标函数为: 当n,K固定时, 越小表示各类的离差平方和最小,分类是合理的。 因此,要找一种分法 使目标函数达到极小,以下 一般表示使 达到极小的分类。,3.6 K-均值聚类和有序样品的聚类,(3)精确最优解的求法 容易验证有以下递推公式: 当我们要分成k类时,首先找 使 达到最小 ,即 。,3.6 K-均值聚类和有序样品的聚类,于是 ,然后找 使它满足 得到类 ,类似的方法得到所有的类 ,这就是我们欲求得最优解。,3.7 计算步骤与上机实践,本书以SPSS15.0和S-Plus2000两种软件来说明前面讲述的几种聚类法的实现
42、过程。具体步骤如下:分析所需要研究的问题,确定聚类分析所需要的多元变量;选择对样品聚类还是对指标聚类;选择合适的聚类方法;选择所需的输出结果。我们将实现过程用逻辑框图表示为图3.8。,3.7 计算步骤与上机实践,3.7 计算步骤与上机实践,3.7.1 系统聚类法一个实例分析。根据各个国家信息基础设施的发展状况,用SPSS软件对各地区进行聚类分析。 详细步骤如下:(1) 打开数据。FileOpen 选中要分析的数据。(2)AnalyzeClassify,Classify命令下有两个聚类分析命令,一是K-means cluster(K-均值聚类),二是Hierarchical cluster(系统
43、聚类法)。这里我们选择系统聚类法。,3.7 计算步骤与上机实践,(3)在系统聚类法中,我们看到Cluster下有两个选项,Cases(样品聚类或Q型聚类)和Variables (变量聚类或R型聚类)。这里我们选择对样品进行聚类。(4) Display下面有两个选项,分别是Statistics (统计量)、Plots(输出图形),我们可以选择所需要输出的统计量和图形。 (5) 在系统聚类法中底下有四个按纽,分别是Statistics、Plots、Method、Save。,3.7 计算步骤与上机实践,(a)在Statistics中,有Agglomeration schedule(每一阶段聚类的结果),Proximity matrix(样品间的相似性矩阵)。由Cluster membership可以指定聚类的个数,none选项不指定聚类个数,Single solution指定一个确定类的个数,Range of solution指定类的个数的范围(如从分3类到分5类)。(b)在Plots中,有Dendrogram(谱系聚类图,也称树状聚类图)、Icicle(冰柱图)、Orientation指冰柱图的方向(Horizontal 水平方向、Vertical垂直方向)。,