1、 数据挖掘课程论文 一、提出需解决问题 运用 系统 聚类分析,通过社会消费品零售额、财政收入、居民消费水平和商品房销售价格对 31 个省市的综合消费情况进行分析,并分析造成这种差异化的原因。 希望通过实验研究山东省 17 个市的生产总值的差异化,并分析造成这种差异化的原因,可以更深刻的掌握聚类分析的原理;进一步熟悉聚类分析问题的提出、解决问题的思路、方法和技能;达到能综合运用所学基本理论和专业知识;锻炼收集、整理、运用资料的能力的目的;希望能会调用 SPSS 软件聚类分析有关过程命令,并且可以对数据处理结果进行正确判断分析,作出综合评价。 表一、 序号 省市 社会消费品零售总额(万元 ) 财政
2、收入(万 元) 居民消费水平(元) 商品房平均销售价格(元 /平方米) 1 北京市 77,028,167 33,149,000 30,350 16,852 2 天津市 39,214,286 17,600,000 22,984 8,745 3 河北省 92,540,000 34,792,600 10,749 3,983 4 山西省 45,068,000 26,503,326 10,829 3,433 5 内蒙古自 治区 45,725,000 24,973,000 15,196 3,783 6 辽宁省 93,466,000 31,000,000 17,999 4,733 7 吉林省 47,729,
3、000 10,413,000 12,276 4,364 8 黑龙江省 54,910,000 11,632,000 11,601 3,966 9 上海市 74,123,000 37,437,000 36,893 14,603 2 10 江苏省 183,313,000 148,438,900 19,452 6,554 11 浙江省 135,883,000 64,084,900 22,845 9,838 12 安徽省 57,366,000 30,260,000 10,978 4,776 13 福建省 72,565,000 17,762,100 16,144 7,764 14 江西省 40,272,0
4、00 20,461,475 10,573 4,148 15 山东省 196,519,000 40,594,300 15,095 4,448 16 河南省 109,156,000 20,406,000 10,380 3,501 17 湖北省 95,625,000 18,231,000 12,283 4,486 18 湖南省 79,219,000 29,379,500 11,740 3,790 19 广东省 226,771,000 62,280,000 21,823 7,879 20 广西壮族 自治区 45,166,000 11,659,800 10,520 3,772 21 海南省 8,708,
5、000 4,094,000 10,635 8,943 22 重庆市 40,337,046 37,995,800 13,655 4,734 23 四川省 92,686,000 23,821,000 11,280 4,918 24 贵州省 20,276,000 16,444,821 8,372 3,889 25 云南省 35,116,000 13,379,800 9,782 3,635 26 西藏自治 区 2,546,000 8,999,260 5,340 3,475 27 陕西省 43,838,000 28,000,912 11,852 4,949 28 甘肃省 19,065,000 10,79
6、8,983 8,542 3,318 29 青海省 4,760,000 13,068,261 10,289 3,248 30 宁夏回族 自治区 5,488,000 2,640,000 12,120 3,732 31 新疆维吾尔自治区 18,586,000 9,091,000 10,675 3,549 二、聚类分析的背景 及应用 聚类分析又称群分析,是多元统计分析中研究样本或指标的一种主要的分类方法,在古老的分类学中,人们主要靠经验和专业知识,很少利用数学方法。随着生产技术和科学的发展,分类越来越细,以致有时仅凭经验和专业知识还不能进行确切分类,于是数学这个有用的工具逐渐被引进到分类学中,形成了数
7、值分类学。近些年来,数理统计的多元分析方法有了迅速的发展,多元分析的技术自然被引用到分类学中,于是从数值分类学中逐渐的分离出聚类分析这个新的分3 支。结合了更为强大的数学工具的聚类分析方法已经越来越多应用到经济分析和社会工作分析中。在经济领域中 ,主要是根据影响国家、地区及至单个企业的经济效益、发展水平的各项指标进行聚类分析,然后很据分析结果进行综合评价,以便得出科学的结论。 聚类分析源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。聚类分析的主要应用,在商
8、业方面,最常见的就 是客户群的细分问题,可以从客户人口特征、消费行为和喜好方面的数据,对客户进行特征分析,充分利用数据进行客户的客观分组,使诸多特征有相似性的客 户能被分在同一组内,而不相似的客户能被区分到另一些组中。在生物方面,聚类分析可以用来对动植物进行分类,对基因进行分类等,从而获取对动植物种群固有结构的认识,对物种进行很好的分类。在电子商务方面,聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过对客户的浏览行为、浏览网站、客户的年龄等,对客户进行分析,找出不同客户的共同特征,通过共同特征对客户进行分类,可以帮助电子商户更好的了解他们的客户,并向客户提供更合适的服务。在保险
9、行业上,根据产、寿险进行分类,不同类别的公司进行分类,对保险投资比例进行分 类管理,从而提高保险投资的效率。 三、 聚类分析的 方法与原理 4 聚类分析是研究“物以类聚”的一种科学有效的方法。做聚类分析时,出于不同的目的和要求,可以选择不同的统计量和聚类方法。 聚类分析方法中最常用的一种是系统聚类法,其基本思想是:先将待聚类的 n 个样品(或者变量)各自看成一类,共有 n 类;然后按照选定的方法计算每两类之间的聚类统计量,即某种距离(或者相似系数),将关系最为密切的两类合为一类,其余不变,即得到 n-1 类;再按照前面的计算方法计算新类与其他类之间的距离(或相似系数),再将关系最为密切的两类并
10、为一类,其余不变,即得到 n-2 类;如此下去,每次重复都减少一类,直到最后所有的样品(或者变量)都归为一类为止。 系统聚类分析有两种类型: Q型样本聚类和 R型变量聚类。这里我们运用的是 Q型聚 类。 Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来。 系统分析法包括最短距离法、最长距离法、类平均法、重心法、中间距离法和离差平方和法, 本文运用 离差平方和法 ( Ward法) 对样本进行分类。 离差平方和法是 Ward( 1936)提出的,也称为 Ward法。它基于方差分析思想,如果类分得正确,则同类样品之间的离差平方和应当较小,不同类样品之间的离差平方和
11、应当较大。 假定已将 n个样品分为 k 类,记为 1G ,2G , ,kG , tn 表示 tG 类的样品个数, (t)X 表示 tG 的重心, (t)iX( ) 表示 tG 中第 i个样品( i=1, ,tn ),则 tG 中样品的离差平方和为 5 tn ( t ) ( t ) ( t ) ( t )t i i1= iW X X X X ( ) ( ), 其中 (t)iX( ) , (t)X 为 m 维向量, tW 为一数值( t=1,2, ,k)。 k 个类的总离差平方和为 tnkk ( t ) ( t ) ( t ) ( t )t i it = 1 t = 1 1= iW W X X X
12、 X ( ) ( ). 当 k 固定时,要选择使 W 达到极小的分类。 Ward 法的基本思想是,先将 n 个样品各自成一类,此时 W =0;然后每次将其中某两类合并为一类,因每缩小一类离差平方和就要增加,每次选择使 W 增加最小的两类进行合并,直至所有样品合并为一类为止。 Ward 法把某两类合并后增加的离差平方和看成为类间的平方距离,即令 2pq r p q=D W W W 表示类 pG 和 qG 的平方距离,其中 ,r p qG G G , rW , pW , qW 分别为 rG ,pG , qG 类中样品的离差平方和。利用 rW 的定义,可得 rn ( r ) ( r ) ( r )
13、( r )r t tt1=W X X X X ( ) ( ) pqn n( p ) ( r ) ( p ) ( r ) ( q ) ( r ) ( q ) ( r )i i i ii 1 i 1= X X X X X X X X ( ) ( ) ( ) ( ), 其中 1r p qpqrX n X n Xn .经整理可得 2 pq p q p qpq rnnD X X X Xn . 当样品间距离采用欧氏距离时,上式可表为 6 22pqpq pqrnnDdn , 其中 2pqd 表示 ,pqGG的重心 pX 与 qX 的平方距离: 22 ,pqpqd d X X . 这表明此时 Word法定义的
14、类间距离与重心法只相差一个常数倍。 当 pG 和 qG 合并为 rG 后, rG 与其他类 kG 的距离有如下递推公式2 2 2 2k p k q kr k p k q k p qr k r k r kn n n n nD D D Dn n n n n n 上述两种方法都是将性质接近的样品划为一类。聚类分析依据的基本原则是直接比较样本中各事物之间的性质,将性质相近的归为一类,而将性质相差比较大的分在不同类。也就是说,同类事物之间性质差异小,类与类之间的性质相差比较大。 系统聚类分析是聚类分析中应用的最广泛的一种方法。首先将 n个样品每个自成一类,然后每次将具有最小距离的两类合并成一类,合并后重
15、新计算类与类之间的距离,这个过程一直持续到所有样品归为一类为止。分类结果可以画成一张直观的聚类谱系图。应用系统聚类法进 行聚类分析的步骤如下: 确定待分类的样品的指标 收集数据 对数据进行变换处理 使各个样品自成一类,即 n个样品一共有 n类 计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两7 个类并成一类 并类后,如果类的个数大于 1,那么重新计算各类之间的距离,继续并类,直至所有样品归为一类为止 最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。 四、 数据处理 及分析 1、描述统计 量 表 2: 项目 N 极小值 极大值 均值 标准差 社会消费品零售总
16、额 31 2,546,000 226,771,000 67,840,790 55,767,366 财政收入 31 2,640,000 148,438,900 27,722,314 26,778,055 居民消费水平 31 5,340 36,893 14,298 6,711 商品房平均销售价格 31 3,248 16,852 5,607 3,270 有效的 N (列表状态) 31 从表 2 可以知道,各个指标的离差均比较大,包含的信息量比较全面,所以所选的数据是有效并且可信的。 、 8 2、使用 Ward 联接的树装状图 图 1: 9 3、 聚类结果 表 3 类别 三类 2 18 4 四类 2
17、18 1 3 五类 2 16 1 3 2 六类 2 3 13 1 3 2 七类 2 3 5 8 1 3 2 八类 2 3 5 8 1 2 1 2 根据聚类表及分类谱系图综合分析可以知道,分成五类是最好的方案,所以确定为五类。 表 4: 类别 市 分类名称 第一类 西藏自治区 甘肃省 经济滞缓消费低区域 第二类 北京市,天津市,河北省, 山西省,内蒙古自治区,辽宁省,吉林省,黑龙江省,上海市,青海省,宁夏回族自治区 ,新疆维 吾 尔族自治区,安徽省,福建省,江西省,湖南省,广西壮族自治区,海南省,重庆市,四川省,贵州省云南省,陕西省 , 总体消费较低区域 第三类 湖北 地区消费中等区域 第四类
18、江苏 浙江 河南 地区总体消费较高区域 第五类 山东 广东 地区总体消费水平高区域 4.解释 分析 选择分类结果 10 对其进行分类,划分为五类。 第一类:西藏自治区 甘肃省该地区地处中国西部,资源匮乏,人员稀少,交通不便利,消费品不能够及时运送,投资较少导致生产总值和人均收入减少时该地区低消费的主要原因。 第二类:北京市,天津市,河北省,山西省,内蒙古自治区,辽 宁省,吉林省,黑龙江省,上海市,青海省,宁夏回族自治区, 新疆维吾尔族自治区,安徽省,福建省,江西省,湖南省,广西 壮族自治区,海南省,重庆市,四川省,贵州省云南省,陕西省 该地区的造成总体消费低原因有很多种,有的地区虽然居民消费 水平较高但是人口较少造成了总体消费低的原因,有的地区则是 因为居民消费水平低和人口也不多。 第三类:湖北 虽然已武汉,宜昌等地区水平高但是该省的其他地区消费水平并不高,造成了该地区的总体消费水平不高的原因。 第四类:江苏 浙江 河南 这几个地区消费的高原因有的是居民消费水平高而有的,比如河南虽然居民消费水平不高但是人口较多导致了该地区的总消费水平高的各种原因。 第五类:山东 广东 这些地区不仅拥有较高的居民消费水平而且人口较多。 五 、心得体会 本次数据挖掘课程老师悉心准备,讲授了很多数据挖掘的 基本概念和 原理, Python的使用方法 ,并配备具体的例题,详细分析演示