1、聚类分析&主成分分析实例,分析某地区35个城市2004年的7项经济统计指标数据,(1)试用最短距离法对35个城市综合实力进行系统聚类分析,并画出聚类谱系图,a.软件操作及原理b.数据结果及分析,a.软件操作及原理操作,a.软件操作及原理操作,a.软件操作及原理标准差标准化原理,a.软件操作及原理欧氏距离原理,凝聚状态表的第一列表示聚类分析的第几步;第二列、第三列表示本步骤聚类中那两个样本或小类聚成一类;第四列是相应的样本距离或小类距离;第五列、第六列表明本步骤聚类中,参与聚类的是样本还是小类。0表示样本,数字n(非0)表示由第n部聚类产生的小类参与本步骤聚类;第七列表示本步骤聚类的结果将在下面
2、聚类的第几部中用到。,a.软件操作及原理最短距离聚类法原理,聚类表阶 群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 211725.0600062529.06500633334.085001242635.089002853031.1040086517.1082197818.108001782030.11505109516.123601010520.127981111532.1281001212533.1291131313514.1361201514621.150001615522.1601301716611.166140271758.1821571818519.190170201
3、91315.19600242057.197180212145.1980202222428.1992102323412.2012202424413.2042319252534.235024262639.240250272736.25526162828326.270274292923.3910283030223.4182903131224.551300323212.6320313333110.7703203434127.8183300,在不同的聚类标准(距离)下,聚类结果不同,当距离标准逐渐放大时,35个区域单元被依次聚类。 当距离为0时,每个样本为单独的一类;当距离为5,则35个区域单元被聚为1
4、1类;当距离为10,则35个区域单元被聚为7类;当距离为15,则35个区域单元被聚为5类;当距离为20,则35个区域单元被聚为3类;最终,当聚类标准(距离)扩大到25时,35个区域单元被聚为1类。,b.数据结果及分析,聚类分析&主成分分析实例,分析某地区35个城市2004年的7项经济统计指标数据,(2)试用主成份分析法对35个城市7项经济指标进行主成分分析,并分析其综合实力。,a.软件操作b.数据结果及分析,a.软件操作,a.软件操作,b.数据结果及分析Bartlett验证,因子分析前,首先进行KMO检验和巴特利球体检验。KMO检验用于检查变量间的偏相关性,取值在01之前。KMO统计量越接近于
5、1,变量间的偏相关性越强,因子分析的效果越好。实际分析中,KMO统计量在0.7以上时效果比较好;当KMO统计量在0.5以下,此时不适合应用因子分析法,应考虑重新设计变量结构或者采用其他统计分析方法。,b.数据结果及分析主成分因子,一般取累计贡献率达85%95%的特征值所对应的第1、第2、第m(mp)个主成分。,b.数据结果及分析变量与因子联系系数,变量与某一因子联系系数绝对值越大,则该因子与变量关系越近。 将第一因子代替x4,x5,x6,x7;将第二因子代替x1,x2,x3即可得到旋转矩阵,使复杂的矩阵变得简洁。,b.数据结果及分析变量与因子联系系数,变量与某一因子联系系数绝对值越大,则该因子
6、与变量关系越近。 将第一因子代替x4,x5,x6,x7;将第二因子代替x1,x2,x3即可得到旋转矩阵,使复杂的矩阵变得简洁。,b.数据结果及分析变量与因子联系系数,第1主成分与所有变量成正相关,与x4,x5,x6,x7呈现出较强的正相关,因此可以认为第1主成分是2014年城市经济结构的代表。 第2主成分与x1,x3呈现出较强的正相关,x2呈现出较强的负相关,因此可以认为第2主成分是2014年农业经济的代表。,聚类分析&主成分分析实例,分析某地区35个城市2004年的7项经济统计指标数据,(3)以第一、二、三主成分为变量,进行聚类分析,结果又怎样呢?,a.软件操作b.数据结果与对比,a.软件操
7、作,a.数据结果与对比,聚类表阶 群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 211725.0600062529.06500633334.085001242635.089002853031.1040086517.1082197818.108001782030.11505109516.123601010520.127981111532.1281001212533.1291131313514.1361201514621.150001615522.1601301716611.166140271758.1821571818519.19017020191315.19600242057.
8、197180212145.1980202222428.1992102323412.2012202424413.2042319252534.235024262639.240250272736.25526162828326.270274292923.3910283030223.4182903131224.551300323212.6320313333110.7703203434127.8183300,聚类表阶 群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 211725.02400522635.045003131831.04700154529.0520055517.055417632
9、34.06300117530.0675098621.06900259520.069701010522.0709013113233.0726019121928.076001813512.0771001414514.0801301615818.08403161658.08514151717516.0861601818519.09317121919532.0961811202057.0991902121511.1072002222515.120210232335.1360222424313.151230272546.170082826223.17700272723.1772624282824.1902725292912.215028303019.2172903131126.2583023232124.3013103333110.3343203434127.5713300,a.数据结果与对比,Thank you for your listening,