1、聚类分析 Cluster Analysis本章学习目标 掌握地球科学中大量 观测数据的样品或变量的数学定量分类思想; 学会样品或变量数据变换和分类标准的数学表示; 数据的聚类:谱系图制作及其地质意义; 学习重点、难点 重点 不同应用目的聚类分析技术的正确选取和聚类分析矩阵的求法以及谱系图的地质意义 难点 实际观测数据的聚类分析矩阵的构建和程序开发,深入理解谱系图的地质意义问题的提出地球科学涉及众多的分类问题,如地质学研究中岩石的分类、矿物矿床的分类、古生物的分类。油气勘探、开发过程中,石油成因研究、油藏类型研究、地化资料等的分类与分级。针对上述问题,怎样进行科学分类,分类结果有何启示? 表 1
2、-1 表 1-2 第一节 聚类分析的思想假设所研究的对象中的元素,存在着不同程度的相似性(亲疏关系)根据其各观测指。标,找出一些能够度量样品之间相似程度的统计量,据此,把一些相似程度大的样品聚为一类,即关系密切的聚合到一个小的分类单位,疏远的聚合到一个大的分类单位,直到把所有样品都聚合完毕,形成一个由小到大的分类系统,最后把分类系统直观地用图形表示出来。聚类分析的依据及分类聚类分析 是根据样本或变量之间的相似性(亲疏关系),根据一批样本的多个观测指标(变量)具体找出一些能够度量样本或观测指标(变量)之间相似程度的统计量 相似系数、距离系数、相关系数 ,以这些统计量作为划分类型的依据聚类分析根据研究对象和研究方法的不同可分为 两类 :1.对象分类根据分类对象的不同,聚类分析分为二种 ,一种是对指标(即变量)进行分类,叫做 R 型聚类分析,另一种是对样品进行分类,叫做 Q 型聚类分析。2.方法分类从聚类所采用的方法上看,又有聚合法、分裂法、图论法等。第二节 原始数据的处理 处理的目的:消除变量之间单位、数量级的影响使各个变量具有相等的权(一视同仁)