两种简单的聚类算法 介绍两种简单的聚类分析方法,它是对某些关键性的元素进行试探性的选取,使某种聚类准则达到最优,又称为基于试探的聚类算法。 采用最近邻规则的聚类算法 最大最小距离聚类算法两种简单的聚类算法两种简单的聚类算法(续)2最大最小距离聚类算法例: 样 本分布如 图 所示。系统聚类 系统聚类:先把每个样本作为一类,然后根据它们间的相似性和相邻性聚合。 相似性、相邻性一般用距离表示 ( 1)两类间的距离 1、最短距离:两类中相距最近的两样本间的距离。 2、最长距离 :两类中相距最远的两个样本间的距离。 3、中间距离:最短距离和最长距离都有片面性,因此有时用中间距离。 设 1类和 23类间的最短距离为 d12, 最长距离为 d13, 23类的长度为 d23, 则中间距离为 d0 : 4、重心距离:均值间的距离 5、类平均距离:两类中各个元素两两之间的距离平方相加后取平均值 6、 离差平方和: 设 N个样品原分 q类,则定义第 i类的离差平方和为: 离差平方和增量:设样本已分成 p,q两类,若把 p,q合为 r类,则定义离差平方: ( 2)系统聚类的算法 首先将 m个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有样品归为一类为止。 例:如下图所示 1、设全部样本分为 6类,