1、1全国各省经济的聚类分析专业: 统本统计 2摘要:利用 SPSS 软件对全国 31 个省、直辖市、自治区(浙江、湖南、甘肃除外)的主要经济指标进行聚类分析,将其经济分成 4 种类型,对全国各省进行经济分类。本文选取了 7 项经济指标作为决定经济类型的影响因素,各项数据均来自2010 年国家统计年鉴。分析结果表明:北京市和上海市为第一类经济类型;江苏省和山东省为第三类型; 广东省为第四类经济;其他 25 个省、直辖市、自治区均属于第二类型。关键词:聚类分析、K-均值聚类法、经济类型0 引言聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。它直接比较各事物之间的性质,将性质相
2、近的归为一类,将性质差别较大的归入不同的类。系统聚类分析又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量) 、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图。随着改革开放的进行,我国进入了一个前所未有的经济飞速发展时期,整体经济实力与日俱增。但是,我们也应该看到各个地区的发展不平衡,沿海地区发展较快,经济增长也较快,而中西部发展相对较慢。因此,基于这种现状,本文对全国各地区的经济进行聚类分析。首先对除浙江、湖南、甘肃三省的其他各省经济进行聚类,然后对浙江、湖南、甘肃三省的经济类型进行判别分析。通
3、过本文的分析研究,可以清楚地认识到我国经济类型构成,以及各地区的发展差异,最终对国家以及各地区的发展及政策制定实施起到指导作用。本文采用多元统计分析方法,对全国 31 个省、直辖市、自治区的 7 项经济指标进行聚类分析和判别分析,从而能够比较客观地反映了当前各地区的经济类型。1 实验方案1.1 数据统计本文根据 2010 年国家统计年鉴,选取了 2009 年 31 个省、直辖市、自治区3的 7 项经济指标 1,如表 1 所示。其中包括:各省的国内生产总值 X1、农业生产总值 X2、工业生产总值 X3、建筑业生产总值 X4、进出口总值 X5、批发企业销售额 X6 和餐饮业 X7。1.2 聚类分析
4、将表 1 所示的 31 个省、直辖市、自治区(除浙江、湖南和甘肃) 2009 年的各项数据导入 SPSS。为了便于分析,在聚类分析前,先对数据进行标准差标准化处理,其过程为:“AnalyzeDescriptive StatisticsDescriptives”,然后对标准差标准化后的数据进行聚类分析(Hierarchical Cluster Analysis)。其过程为:依次选择“Analyze Classify Hierarchical Cluster”,引入的变量是 X1 至X7。从而对样品(个案) 进行聚类,即 Q 型聚类分析(对研究对象本身分类)。聚类方法使用 Between-grou
5、ps linkage(类间平均链锁法),距离测量技术选择Squared Euclidean distance(Euclidean 距离平方,即两观察单位间的距离为其值差的平方和,该技术用于 Q 型聚类)。最终得出聚类分析结果。值得注意的是本文选择的聚类类型共分 4 类。表 1 2009 年我国 31 个省、直辖市、自治区的各项经济指标数据统计单位:亿元地区 国内生产总值(X1)农业生产总值(X2)工业生产总值(X3)建筑业生产总值(X4)进出口总值(X5)批发企业销售额(X6)餐饮业(X7)北京 12153.03 315 11039.13 34297216 5334148 22558 341.
6、7天津 7521.85 281.7 13083.63 15641917 4488051 8599.5 62.6河北 17235.48 3640.9 24062.76 23328055 1343558 2730.6 26.5山西 7358.31 908.7 9249.98 16501463 163150 2705 44.9内蒙古 9740.25 1570.6 10699.44 9129264 108694 1487.6 41.1辽宁 15212.49 2704.6 28152.73 28557785 3076882 6428.7 93.3吉林 7278.75 1734.3 10026.55 10
7、241235 555747 1049.4 18.2黑龙江 8587 2251.1 7301.6 12351015 78345 2028.3 27.4上海 15046.45 283.2 24091.26 32476545 18670215 20170.8 292.6江苏 34457.3 3816 73200.03 89289353 25969712 15364.8 205.2浙江 22990.35 1873.4 41035.29 88614109 6929148 13888 166.54安徽 10062.82 2569.5 13312.59 19598071 523140 2937 41.2福建
8、 12236.53 2001.2 16762.82 19415838 4377455 4617.1 80.5江西 7655.18 1733.8 9783.96 11853294 770607 1002.8 24.7山东 33896.65 6003.1 71209.42 40516317 7559835 7584.4 262.6河南 19480.46 4871.5 27708.15 32201197 376612 3083 98.7湖北 12961.1 2985.2 15567.02 30468409 703772 4259 81.4湖南 13059.69 3207.9 13507.64 232
9、34734 182177 1643.9 65.3广东 39482.56 3337.6 68275.77 29806043 38241318 18599.1 384.4广西 7759.16 2377.2 6880.04 8758730 367765 1464 17.6海南 1654.21 705 1057.45 1366053 301396 517.5 8.4重庆 6530.01 913.1 6772.9 17524046 295047 2864 73.7四川 14151.28 3689.8 18071.68 29003710 936469 2570.6 94.2贵州 3912.68 875.2
10、 3426.69 5060158 18647 825.8 9.5云南 6169.75 1706.2 5197.45 10774227 43593 2591 17西藏 441.36 93.4 51.6 910274 99 33.2 0.4陕西 8169.8 1337.2 8470.4 22052762 252626 1956.2 76.1甘肃 3387.56 876.3 3770.38 5243473 10693 1205.8 12.8青海 1081.27 157.3 1080.35 1848156 19432 184.2 2.6宁夏 1353.31 243.5 1461.58 2323586
11、22142 373.6 8新疆 4277.05 1297.6 4001.12 7258850 27362 2511.8 72 结果分析与讨论2.1 聚类分析通过 SPSS 对数据进行标准差标准化,结果如表 2 所示。从表中的方差结果可以看出,由于方差的数值很大,所以各地区的差异还是相当大的,这也说明各地区发展的不平衡。表2 Descriptive Statistics5再对标准差标准化后的数据进行聚类分析,结果如表3、4所示。表3显示,进行聚类分析的只有28个省、直辖市、自治区。采用的是组间聚类。表3 案例处理摘要 a案例有效 缺失 合计N 百分比 N 百分比 N 百分比31 100.0% 0
12、 .0% 31 100.0%a. 绝对值 平方 Euclidean 距离 已使用表4说明整个聚类分析过程共进行了27步,而且每一步的合并也有清楚地显示。通过该表,可以详细地了解每一步的聚类过程。表4 聚类表群集组合 首次出现阶群集阶 群集 1 群集 2 系数 群集 1 群集 2 下一阶1 24 28 3.367E10 0 0 172 5 20 2.044E11 0 0 123 29 30 2.260E11 0 0 94 21 26 2.985E11 0 0 95 7 25 5.464E11 0 0 136 8 14 7.270E11 0 0 137 4 22 1.063E12 0 0 158
13、3 18 1.358E12 0 0 119 21 29 1.998E12 4 3 23610 17 23 2.200E12 0 0 1411 3 27 2.817E12 8 0 2212 5 31 3.505E12 2 0 1713 7 8 4.679E12 5 6 2114 6 17 9.282E12 0 10 1815 4 12 9.719E12 7 0 1916 2 13 1.425E13 0 0 1917 5 24 1.657E13 12 1 2118 6 16 2.057E13 14 0 2419 2 4 3.137E13 16 15 2220 1 15 4.364E13 0 0 2
14、421 5 7 5.316E13 17 13 2322 2 3 7.619E13 19 11 2723 5 21 1.309E14 21 9 2724 1 6 1.764E14 20 18 2525 1 9 3.347E14 24 0 2826 10 11 3.630E14 0 0 3027 2 5 5.044E14 22 23 2928 1 19 1.439E15 25 0 2929 1 2 2.297E15 28 27 3030 1 10 8.485E15 29 26 0表5显示了28个省、直辖市、自治区在这4种类型中的分布情况。结果为:第一类:北京市、上海市(2个)第二类:天津市、河北省
15、、山西省、内蒙古、辽宁省、吉林省、黑龙江省、安徽省、福建省、江西省、河南省、湖北省、广西省、海南省、重庆市、四川省、贵州省、云南省、西藏、陕西省、青海省、宁夏、新疆(23个)第三类:江苏省、山东省(2个)第四类:广东省(1个)表57图1 聚类分析谱系图Rescaled Distance Cluster CombineC A S E 0 5 10 15 20 25Label Num +-+-+-+-+-+贵州 24 -+甘肃 28 -+内蒙古 5 -+广西 20 -+新疆 31 -+吉林 7 -+云南 25 -+-+黑龙江 8 -+ |江西 14 -+ |青海 29 -+ |宁夏 30 -+ |
16、海南 21 -+ +-+西藏 26 -+ | |河北 3 -+ | |湖南 18 -+ | |陕西 27 -+ | |山西 4 -+-+ |重庆 22 -+ |8安徽 12 -+ +-+天津 2 -+ | |福建 13 -+ | |湖北 17 -+ | |四川 23 -+ | |辽宁 6 -+ | |河南 16 -+ | |北京 1 -+-+ | |山东 15 -+ +-+ |上海 9 -+ | |广东 19 -+ |江苏 10 -+-+浙江 11 -+从图1可以直观地看出各个省、直辖市、自治区之间的相似程度,聚类的先后顺序,将表4所表达的聚类过程更直观地展现出来。2.2 K-均值聚类分析表1
17、 初始聚类中心聚类1 2 3 4 5国内生产总值(X1) 22990 34457 19480 39483 441农业生产总值(X2) 1873 3816 4872 3338 93工业生产总值(X3) 41035 73200 27708 68276 52建筑业生产总值(X4) 88614109 89289353 32201197 29806043 910274进出口总值(X5) 6929148 25969712 376612 38241318 99批发企业销售额(X6) 13888 15365 3083 18599 33餐饮业(X7) 166 205 99 384 0表1是快速聚类分析的初始中心
18、数据,软件给出了5个中心位置。但是,这些中心位置可能在后续的迭代计算中出现调整。9表2 迭代历史记录 a聚类中心内的更改迭代 1 2 3 4 51 .000 .000 5882824.561 .000 7055845.6432 .000 .000 840069.871 .000 598423.4913 .000 .000 .000 .000 .000a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的最小距离为 19052564.235。表 2 显示了快速聚类分析的迭代过程。可以看到,第一次迭代的变化值最大,其后随之减少。最后第
19、三次迭代时,聚类中心就不再变化了。这说明,本次快速聚类的迭代过程速度很快。表3 聚类成员案例号 地区 聚类 距离1 北京 3 6596939.5652 天津 5 8159545.6533 河北 3 5129705.8214 山西 5 7957687.7085 内蒙古 5 675390.3606 辽宁 3 825131.3387 吉林 5 1695163.6628 黑龙江 5 3820463.2799 上海 3 1.573E710 江苏 2 .00011 浙江 1 .00012 安徽 3 8885131.80113 福建 3 8547780.40314 江西 5 3319282.15415 山东
20、 3 1.319E716 河南 3 5358521.24417 湖北 3 3860296.20918 湖南 3 5813599.05619 广东 4 .00020 广西 5 226846.93121 海南 5 7184688.32922 重庆 5 8976352.36123 四川 3 2882683.6141024 贵州 5 3516061.36725 云南 5 2262727.22126 西藏 5 7652337.50927 陕西 3 6768637.03928 甘肃 5 3335286.04929 青海 5 6715059.95330 宁夏 5 6240515.93031 新疆 5 135
21、9100.440表3通过快速聚类分析的最终结果列表可以看到整个样品被分为以下五大类。第一类:浙江省(1个)第二类:江苏省(1个)第三类:北京市、上海市、河北省、安徽省、福建省、陕西省、辽宁省、河北省、山东省、湖北省、湖南省、四川省(12个)第四类:广东省(1个)第五类:天津市、山西省、内蒙古、吉林省、黑龙江省、江西省、广西省、海南省、重庆市、贵州省、云南省、西藏、甘肃省、青海省、宁夏、新疆(16个) 表4 最终聚类中心聚类1 2 3 4 5国内生产总值(X1) 22990 34457 15305 39483 5294农业生产总值(X2) 1873 3816 2801 3338 1108工业生产总值(X3) 41035 73200 22663 68276 5865建筑业生产总值(X4) 88614109 89289353 27929220 29806043 8549109进出口总值(X5) 6929148 25969712 3611407 38241318 454423批发企业销售额(X6) 13888 15365 6712 18599 1840餐饮业(X7) 166 205 129 384 24表4所示列出了最终聚类分析中心。可以看到,最后的中心位置较初始中心位置发生了较大的变化。