聚类分析及其在新疆经济研究中的应用.doc

上传人:滴答 文档编号:2068479 上传时间:2019-04-12 格式:DOC 页数:12 大小:396KB
下载 相关 举报
聚类分析及其在新疆经济研究中的应用.doc_第1页
第1页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、伊犁师范学院数学与统计学院 本科毕业论文第 1 页 共 12 页装订线聚类分析及其在新疆经济研究中的应用摘要:本文论述聚类分析的基础理论和研究方法,包括系统聚类法和 -均值法,K并以新疆十四个地州市 2009 的地区生产总值、人均地区生产总值等十项综合经济指标为样本,利用 SPSS 软件,对他们的综合发展水平进行类型划分及差异性程度分析 .关键词:聚类分析;SPSS 软件;综合经济指标;新疆经济区划分一、引言 聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程.它的目的是使得属于同一个簇的

2、样本之间应该彼此相似,而不同簇的样本应该足够不相似.聚类技术正在蓬勃发展,涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及经济学等各个领域,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题.聚类分析可用于对某省各地区经济发展划分为各个经济区、也可用于市场细分、目标客户定位、业绩评估等多方面.在社会经济研究中,经常需要对所研究的区域进行经济区划分,以便进行分类指导.如何进行经济区划分呢?利用世界著名统计软件 SPSS(Statistical Program for Social Science)的聚类分析功能,效果比较理想.聚类分析包含的内容很广泛,可以有系统聚类法、动

3、态聚类法、分裂法、最优分割法、模糊聚类法、图论聚类法、聚类预报等多种方法,其中应用最为广泛的是系统聚类法和 -均值法.K由于西部发开发战略的实施和援疆工作的展开,新疆经济的发展迅速,但由于新疆地广,各地区之间的经济差异很大,要让新疆经济均衡发展,就要对新疆各地区的不同实施不同的经济政策.我分别用了 SPSS 的聚类分析中的系统聚类法和 -均值法对新疆各K地区的进行经济区划分,以对新疆各地区实施不同的经济政策做依据.2、基础知识2.1 聚类分析的基本思想伊犁师范学院数学与统计学院 毕业设计(论文)报告纸第 2 页 共 12 页由于所研究的样品或变量之间存在着程度不同的相似性,故根据一批样品的多个

4、观测变量,找出能够度量样品或变量之间相似程度的统计量,并以此为根据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大.2.2 聚类分析的种类聚类分析的目的是将所研究对象进行分类.它是在事先不知道类别的情况下对数据进行分类的分析方法.聚类分析不仅可以对样品进行分类,也可以用来对变量进行分类.对样品的分类常称为 型聚类分析,对变量的分类常称为 型聚类分析.QR2.3 聚类分析的原理聚类分析是研究多要素事物分类问题的数量方法.基本原理是根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系

5、程度对样本进行聚类.常见的聚类分析方法有系统聚类法、 -均值法和模糊聚类法等. K2.3.1 聚类要素的数据处理假设有 个聚类的对象,每一个聚类对象都有多个要素构成.一般都有不同的量纲,不m同的数量级单位,不同的取值范围,为了使不同量纲,不同取值范围的数据能够放在一起比较,通常需要对数据进行变换处理.在聚类分析中,常用的聚类要素的数据处理方法有如下几种. 总和标准化 ),21,2,1(1 njmixmijjij .),21(1 njxmij且 标准差标准化,),21,2,1( njmisxjiij mijj1, ijijj x1(., .01mijjx且 )(12ijijj xs伊犁师范学院数

6、学与统计学院 本科毕业论文第 3 页 共 12 页装订线变换后的数据,每个变量的样本均值为 0,极差为 1,且 ,在以后的分析计算*ijx中可以减少误差的产生;同时变换后的数据也是无量纲的量. 极大值标准化.njmixjiiij ,21,2,1a 经过这种标准化所得的新数据,各要素的极大值为 1,其余各数值小于 1. 极差的标准化.njmixxjijijiijij ,2,nma 经过这种标准化所得的新数据,各要素的极大值为 1,极小值为 0,其余的数值均在 0与 1 之间.2.3.2 样品间的距离和相似系数(1)距离的计算描述样品间的亲疏程度最常用的是距离,设观测数据 列成),1;,2(mjn

7、ixj 下列 矩阵的形式 .X设有 个样品,每个样品测得 个变量,原始资料阵为np,npnpxxX 212112其中 为 个样品的第 个变量的观测数据 .ijxj用 表示第 个样品的第 个样品之间的距离,其值越小表示两个样品接近程度越大.ijdij距离的一般要求: ;0;,0)()(jiijij Xdi当对 一 切 djiij对 一 切 ).(,三 角 不 等 式对 一 切 kjikjiij常用的距离有以下几种:1)闵氏距离伊犁师范学院数学与统计学院 毕业设计(论文)报告纸第 4 页 共 12 页qpkjkiij Xqd11)(),其中常用的距离有绝对距离和欧氏距离.绝对距离.)()1pkjk

8、iij Xd欧氏距离211)()2pkjkiijd.欧氏距离是常用的距离,但它也有不足之处,一是它没有考虑到总体的变异对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品近些,即使它们的欧氏距离不一定最近;另外,欧氏距离受变量的量纲影响,这对多元数据的处理是不利的.通常我们需要先对数据近些标准化处理,然后用标准化后的数据计算距离.2)马氏距离设 与 是来自均值向量为 ,协方差为 的总体 中的 维样品,则两个样品iXj 0Gp间的马氏距离为.)()()12 jijiij XXMd马氏距离又称为广义欧几里得距离,显然马氏距离与上述各种距离的主要不同就是考虑到了观测变量之间的相关性.如果各变

9、量之间相互独立,即观测变量的协方差矩阵是对角矩阵,对马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧几里得距离.马氏距离还考虑了观测变量之间的变异性,不再受各指标变量的影响,将原始数据作线性变换后,马氏距离不变.选择不同的距离,聚类结果会有所差异.在地理分区和分类研究中,往往采用几种距离进行计算、对比,选择一种较为合适的距离进行聚类.(2)相似系数在对多元数据进行分析时,相对于数据的大小,我们更好地对变量的变化趋势或方向感兴趣.因此,变量间的相似性,我们可以从它们的方向趋同性或“相关性”进行考察,我们用相似系数用来测量变量之间的距离,常用的相似系数有以下两种:1)夹角余角变量 与

10、是来自均值向量为 ,协方差为 的总体 在的 维空间的两个向iXj 0xGp伊犁师范学院数学与统计学院 本科毕业论文第 5 页 共 12 页装订线量,则这两个向量间的夹角余弦可表示为.)(cos1212pkjpkikjkiij X2)相关系数相关系数经常用来试题变量间的相似性.变量 与 的相关系数定义为ij.pk jjkiik jjkiiij XXr122)()(在实际问题中,对样品分类常用距离,对变量分类常用相似系数,即 型聚类分析Q常用距离, 型聚类分析常用相似系数.R2.4 聚类分析方法系统聚类法开始将样品或变量各视为一类,根据类与类之间的距离或相似程度将最近的类加以合并,再计算新类与其他

11、类之间的相似程度,并选择最相似的加以合并,这样每合并一次就减少一类,不断继续这一过程,直至所有样品(或变量)合并为一类.系统聚类分析方法方法包括最短距离法、最长聚类法、类平均法、重心法、ward 法等八种不同的方法.-均值K将给定的样本划分为 类, 预先指定,基于使聚类性能指标最小化,所用的聚类K准则函数是聚类集中每一个样本点到该类中心的距离平方之和,并使其最小化.比较两种算法,系统聚类是事先并不知道分为几类,根据算法可以直接数据实际情况得出来, -均值聚类法虽然比较方便迅速,但必须事先定好分类数.两种算法各有优缺点,所以用哪种算法,还要考虑到实际情况.各算法的具体过程在下列实例中有介绍,此处

12、就不做介绍了.三、实例例 表 1 2009 年给出能反映新疆十四个地州市综合经济的十项指标分别为:1 地区生产总值(亿元) , 2 人均地区生产总值(元) , 3 第二产业比重(%) ,XXX4 第三产业比重 (%) , 5 人口(万人), 6 固定资产投资(亿元) , 7 规模以上伊犁师范学院数学与统计学院 毕业设计(论文)报告纸第 6 页 共 12 页工业总产值(亿元) , 8 地方财政一般预算收入(万元) , 9 地方财政一般财政支出XX(万元) , 10 在岗职工平均货币支出(元).利用数据对新疆十四个地州市进行综合发展水平进行类型划分及差异性程度分析.表 1地区 1X2 3X4 5

13、6X7 8X9 10X乌鲁木齐市 1087.5 38249 42.9 55.6 241 598.03 1374 820086 1004807 37161克拉玛依市 480.29 87000 86.7 12.6 28 186.61 881.1 332763 427153 36248吐鲁番地区 154.58 25741 62.5 24.4 44 80.47 141.7 122410 259159 32911哈密地区 130.32 23055 39.4 45.1 50 95.65 73 104464 293562 30427昌吉州 444.71 28520 39.4 30.8 116 205.08

14、290.6 556297 938246 26924伊犁直属县市 333.66 12951 34.4 41.4 149 193.29 165.6 239022 976021 22727塔城地区 284.82 20784 34.1 29.6 75 124.37 116.8 136875 489470 19615阿勒泰地区 117.39 19903 40.5 35.9 36 77.93 52 117958 527425 20587博州 100.96 21130 18.4 51.5 38 47.27 23 48570 249022 20421巴州 525.94 39467 63.9 20.1 100

15、252.85 437 265996 665735 27715阿克苏地区 320.45 13098 28.4 37.4 146 234.03 176.1 296064 864291 24327克州 32.46 6183 19.6 57.6 31 27.4 6.1 22619 338557 26946喀什地区 284.24 7085 17.2 42.2 140 219.37 48.4 147358 1427919 25713和田地区 88.58 4583 16.3 47.8 64 76.1 10.7 44990 752167 26445以 2010 年新疆统计局出版的新疆统计年鉴 (2009 年度

16、的数据)为数据来源,运用上述 10 项指标(表 1) 借助于统计分析软件包 SPSS17.0 进行聚类分析计算.3.1 系统聚类算法对数据进行聚类分析方法选取上,分别用组间联接、最短距离法和和离差平方和(ward)法得出分析结果的聚类图.组间联接法得到的结果和 ward 方法一致,但,就类和类的之间区别程度而言,组间法的效果没有 ward 法的好.最短距离法的结果跟 ward 的不一致,且,就类和类的之间区别程度而言,其效果远差于 ward 法和质心法.我们也尝试了使用类平均法、最长距离法及中间距离法.他们的聚类图结果类似于 ward 法,这里为了简洁起见就没有呈现.计算过程如下: 用标准差标

17、准化方法对 10 项指标的原始数据进行处理. 采用欧氏距离测度个 15 个地州市之间的样本间距离. 选用组 ward 法计算类间的距离,并对样本进行归类.经过上述聚类方法,由分析-描述统计-描述,进行数据的标准化,得到下列标准化后的数据.表 2伊犁师范学院数学与统计学院 本科毕业论文第 7 页 共 12 页装订线表 2 表示为标准化的数据,由于我我所选的是反映新疆经济综合指标,这些变量在数量级和计量单位上的差别,要让这些不同单位的变量具有可比性.这是就必须采用某种方法对各变量数值进行标准化处理,或者叫无量纲处理,解决各数值不具综合性的问题.SPSS 提供了很方便的数据标准化方法,这里我用的是

18、Z 标准化方法.即每一变量与其平均值之差除以该变量的标准差.无量纲化后各变量的平均值为 0,标准差为 1,从而消除量纲和数量级的影响.分析表中的数据,数据大于 0 的表示高于平均值,小于 0 的表示低于平均值.我们看从 X1 地区生产总值,高于平均地区有乌鲁木齐市、克拉玛依市、昌吉州、伊犁直属县市、巴州、阿克苏地区,低于平均值的地区有吐鲁番地区、哈密地区、塔城地区、阿勒泰地区、博州、克州、喀什地区、和田地区.依次再看 X2 地区人均生产总值,高于平均值的地区乌鲁木齐市、克拉玛依市、哈密地区、昌吉州、巴州.低于平均值的地区吐鲁番地区、伊犁直属县市、塔城地区、阿勒泰地区、博州、阿克苏地区、克州、喀

19、什地区、和田地区.依次再看其他变量指标,哪些地区高于平均值,哪些地区低于平均值.经过上述聚类方法,由分析-分类-系统聚类,得出聚类表表 3聚类表群集组合 首次出现阶群集阶 群集 1 群集 2 系数 群集 1 群集 2 下一阶地区 1X2 3 4X5 6 7X8 9 10X乌鲁木齐市 2.94 0.63 0.16 1.34 2.54 3.07 2.92 2.76 1.05 1.9克拉玛依市 0.68 3.03 2.36 -1.98 -1 0.15 1.62 0.5 -0.54 1.73吐鲁番地区 -0.54 0.01 1.15 -1.07 -0.73 -0.61 -0.32 -0.47 -1 1

20、.11哈密地区 -0.63 -0.12 -0.01 0.53 -0.63 -0.5 -0.5 -0.55 -0.91 0.64昌吉州 0.54 0.15 -0.01 -0.58 0.46 0.28 0.07 1.54 0.86 -0.01伊犁直属县市 0.13 -0.62 -0.26 0.24 1.01 0.19 -0.26 0.07 0.97 -0.79塔城地区 -0.06 -0.23 -0.28 -0.67 -0.21 -0.3 -0.39 -0.4 -0.37 -1.37阿勒泰地区 -0.68 -0.27 0.04 -0.18 -0.86 -0.63 -0.56 -0.49 -0.26

21、-1.19博州 -0.74 -0.21 -1.07 1.02 -0.83 -0.84 -0.63 -0.81 -1.03 -1.22巴州 0.85 0.69 1.22 -1.4 0.19 0.62 0.46 0.2 0.12 0.14阿克苏地区 0.08 -0.61 -0.56 -0.07 0.96 0.48 -0.23 0.33 0.66 -0.49克州 -1 -0.95 -1.01 1.49 -0.95 -0.98 -0.68 -0.93 -0.78 -0.01喀什地区 -0.06 -0.91 -1.13 0.3 0.86 0.38 -0.57 -0.35 2.21 -0.24和田地区 -

22、0.79 -1.03 -1.17 0.73 -0.41 -0.64 -0.67 -0.83 0.35 -0.1伊犁师范学院数学与统计学院 毕业设计(论文)报告纸第 8 页 共 12 页1 6 11 .022 0 0 62 7 8 .072 0 0 83 9 12 .173 0 0 44 9 14 .331 3 0 85 3 4 .504 0 0 106 6 13 .693 1 0 97 5 10 .900 0 0 98 7 9 1.363 2 4 109 5 6 2.014 7 6 1110 3 7 2.697 5 8 1111 3 5 4.478 10 9 1312 1 2 6.601 0

23、0 1313 1 3 10.404 12 11 0通过表 3,我们可以看出聚类的过程,第一步看出 6,11 距离最近首先分为一类.也就是伊犁直属县市和阿克苏地区首先分为一类,下一阶表示下次要用到这一类是在第六步时,把6,11 和 13 合并为一类,即把伊犁,阿克苏地区和喀什地区分为一类,第二步看出 7,8 分为一类,也就是塔城地区和阿勒泰地区分为一类,下一阶再把塔城地区、阿勒泰地区和博州分为一类.以此类推直至把所有的合并为一类.由于一共有十四个地区,所以至少要用十三步才能把它们都归于一类.也可以通过此表看出系统聚类的基本思想:开始将样品或变量各视为一类,根据类与类之间的距离或相似程度将最近的类

24、加以合并,再计算新类与其他类之间的相似程度,并选择最相似的加以合并,这样每合并一次就减少一类,不断继续这一过程,直至所有样品(或变量)合并为一类.图 1伊犁师范学院数学与统计学院 本科毕业论文第 9 页 共 12 页装订线图 1 为系统聚类分析得出的冰状图,从此图我们可以直观的看出,左边框的数字代表的是分类数,从下到上我们可以看出,先是将各地区各为一类到 14 类再到 12 类再到10 类,依次下去,一直到所有地区合为一类.上边框上代表的是分类的各地区.根据新疆实际情况我们把这十五个地州市分为五类.第一类为强经济经济区乌鲁木齐市 ;第二类为较强经济区 克拉玛依市;第三类为一般经济区昌吉州、巴州

25、、伊犁直属县市、喀什地区、阿克苏地区 ;第四类为较弱经济地区 哈密地区、吐鲁番地区 ;第五类为弱经济地区 塔城地区、阿勒泰地区、博州、和田地区、克州.3.2 -均值算法对数据进行聚类分析K-均值 是一种基于划分的聚类算法, 因为它有理论上可靠、算法简单、速度快等优点而被广泛使用. -均值 算法是一个迭代计算 “质心”并根据样本和质心的距离把各样本指派到各个簇的过程.主要具体步骤如下:伊犁师范学院数学与统计学院 毕业设计(论文)报告纸第 10 页 共 12 页 确定初始质心 生成 个质心, 由用户指定.K 指派样本 计算每一个样本到各个质心的距离,把样本指派给距离最小的簇. 更新质心 根据每个簇

26、当前所拥有的所有样本,重新计算每个簇的质心. 检查是否满足停止条件.表 4最终聚类中心间的距离聚类 1 2 3 4 51 7.564 7.463 8.577 6.5212 7.564 4.275 6.584 6.2403 7.463 4.275 2.652 2.9874 8.577 6.584 2.652 2.8595 6.521 6.240 2.987 2.859通过表 4,我们可以看出最终聚类中心间的的距离,第一类与第二类之间的距离为7.564,第一类和第三类之间的距离为 7.463,依次可以看出各类之间的距离.表 5聚类成员案例号 地区 聚类 距离1 乌鲁木齐市 1 .0002 克拉玛依市 2 .0003 吐鲁番地区 3 .0004 哈密地区 3 2.0525 昌吉州 5 3.0856 伊犁直属县市 5 1.7477 塔城地区 4 2.3078 阿勒泰地区 4 1.8539 博州 4 .00010 巴州 3 2.84411 阿克苏地区 5 1.90612 克州 4 1.55813 喀什地区 5 .00014 和田地区 4 2.038根据表5可以看出第一类乌鲁木齐;第二类克拉玛依市;第三类巴州、哈密地区、

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。