1、聚类要素的 数据处理距离的 计算准备工作直接聚类法 最短距离聚类法 最远距离聚类法Differences?系统聚类法计算类之间距离的统一公式扩展引申系统聚类分析实例 应用聚类分析分类?聚 类?将研究对象按照 特定属性 的 标准 、 规则 、 特征 、 规律 等进行类型划分。e.g. 按照城市人口总数将城市划分为特大城市、大城市、中小城市;按照年龄段将人划分为少年、青年、中年和老年。Classification将研究对象的变量统计数据进行 特定规则的探索分析 ,依据 某些标准 将这些研究对象聚集成不同的类别。(事先并不预知这些类别的特征)e.g. 依据研究对象的距离计算结果,按照 距离最近 原则
2、,将这些对象进行类别聚集。Clustering聚类要素的数据处理 假设有 m 个聚类的对象,每一个聚类对象都有 n个变量 /要素 构成。它们所对应的要素数据 可用下表给出 :m个聚类对象,需要被聚集为若干类别每个对象都由相同的 n个变量来描述每个变量都有 m个样本观测数值每个对象都有 n个变量的具体取值区代号人均耕地 X1/( hm2人 -1)劳均耕地 X2/( hm2个 -1 )水田比重X3/%复种指数x4/%粮食单产 x5/( kghm -2)人均粮食 x6/( kg人 -1 )稻谷占粮食比重 x7/% G1 0.294 1.093 5.63 113.6 4 510.5 1 036.4 1
3、2.2G2 0.315 0.971 0.39 95.1 2 773.5 683.7 0.85G3 0.123 0.316 5.28 148.5 6 934.5 611.1 6.49G4 0.179 0.527 0.39 111 4 458 632.6 0.92G5 0.081 0.212 72.04 217.8 12 249 791.1 80.38G6 0.082 0.211 43.78 179.6 8 973 636.5 48.17G7 0.075 0.181 65.15 194.7 10 689 634.3 80.17G8 0.293 0.666 5.35 94.9 3 679.5 771
4、.7 7.8G9 0.167 0.414 2.9 94.8 4 231.5 574.6 1.17某地区 9个农业区的 7项经济指标数据 在聚类分析中,描述聚类对象的 变量 是 可选 的( e.g. 选择描述经济水平的若干指标变量), 但选取的变量对于聚类分析结果有着极重要的影响作用,直接 影响 聚类 结果 的准确性和 可靠性。因此当 聚类 要素的变量对象 确定之后,在进行聚类分析之前,首先要对聚类要素进行 数据处理 。 在地理分类和分区研究中, 被聚类的对象常常是多个要素构成的 。不同要素的数据往往具有 不同的 单位量纲和数量级 , 其数值的变异可能是很大的,这就会 对 聚类 结果产生一定影响
5、 。数据标准化消除不同变量的量纲差异;统一不同变量的数量级数据标准化 总和 标准化 标准差 标准化 极大值 标准化 极差标准化 总和标准化分别求出各聚类要素所对应 的样本观测数据 的总和,以各要素的数据除以该 要素数据 的总和,即 经过综合标准化 方法所得到的新数据 满足: 标准差标准化数据标准化 总和 标准化 标准差 标准化 极大值 标准化 极差标准化将各 聚类要素所对应 的样本观测数据,减去其平均值求得离差值,然后再除以标准差,即: 由标准差标准化 方法所得到的新数据,各要素的平均值为 0,标准差为 1,即 有:数据标准化 总和 标准化 标准差 标准化 极大值 标准化 极差标准化 极大值标
6、准化 极差标准化经过 极大值 标准化 所得的新数据,各要素的极大值为 1,其余各数值小于 1。 经过这种标准化所得的新数据,各要素的极大值为 1,极小值为 0,其余的数值均在 0与 1之间。 区代号人均耕地 X1/( hm2人 -1)劳均耕地 X2/( hm2个 -1 )水田比重X3/%复种指数x4/%粮食单产 x5/( kghm -2)人均粮食 x6/( kg人 -1 )稻谷占粮食比重 x7/% G1 0.294 1.093 5.63 113.6 4 510.5 1 036.4 12.2G2 0.315 0.971 0.39 95.1 2 773.5 683.7 0.85G3 0.123 0
7、.316 5.28 148.5 6 934.5 611.1 6.49G4 0.179 0.527 0.39 111 4 458 632.6 0.92G5 0.081 0.212 72.04 217.8 12 249 791.1 80.38G6 0.082 0.211 43.78 179.6 8 973 636.5 48.17G7 0.075 0.181 65.15 194.7 10 689 634.3 80.17G8 0.293 0.666 5.35 94.9 3 679.5 771.7 7.8G9 0.167 0.414 2.9 94.8 4 231.5 574.6 1.17某地区 9个农业
8、区的 7项经济指标数据 例题:针对下表中给出的某地 区 9个农业区的 7项指标 ,对原始变量数据进行 极差 标准化 处理 。解:依次 求解个指标 x1,x2,x7的最大值和最小值,以及它们的 差值:求解原始数据的极差标准化处理 数据:x1 x2 x3 x4 X5 X6 X7G1 0.91 1.00 0.07 0.15 0.18 1.00 0.14G2 1.00 0.87 0.00 0.00 0.00 0.24 0.00G3 0.20 0.15 0.07 0.44 0.44 0.08 0.07G4 0.44 0.38 0.00 0.13 0.18 0.13 0.00G5 0.03 0.03 1.00 1.00 1.00 0.45 1.00G6 0.03 0.03 0.61 0.69 0.65 0.13 0.59G7 0.00 0.00 0.90 0.81 0.84 0.13 1.00G8 0.91 0.53 0.07 0.00 0.10 0.43 0.09G9 0.38 0.26 0.04 0.00 0.15 0.00 0.00极差标准化处理后的数据