1、合肥学院20152016第二学期多元统计分析课程论文论文题目 聚类分析 姓 名 陈毅 学 号 1307021036 专 业 数学与应用数学(1)成 绩 2015.5聚类分析摘要:本论文为了研究南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。用南部海洋1970-1985年20个站点的平均每年每月的表面空气温度数据中,所有数据两两数据间距离的平均作为类间距离,使用聚类分析中的最长距离法,运用SAS软件,从而得出相应的数据,分析数据即确定了南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。关键词:聚类分析 最长
2、距离法 SAS软件 分类一、聚类分析理论1、数据的变换方法(1)中心变换变换 称为中心化变换。它是一种标准化处理方法,变换后数据的均值为0,而协方差阵不变,即协差阵为 ,其中 。中心化变换是一种方便地计算样本协差阵的变换。(2)标准化变换变换称为标准化变换,变换后的数据,每个变量的样本均值为0,标准差为1,而且标准化变换后的数据 与变量的量纲无关。(3)对数变换变换 称为对数变换,它可将具有指数特征的数据结构化为线性数据结构此外,还有平方根变换,立方根变换等。它们的主要作用是把非线性数据结构变为线性数据结构。称变换(4)极差标准化变换称变换称为极差标准化变换,变换后的数据,每个变量的样本均值为
3、0,极差为1,且 ,在以后的分析计算中可以减少误差的产生;同时变换后的数据也是无量纲的量。5.极差正规化变换称变换为极差正规化变换。变换后的数据 ;极差也为1,同时变换后的数据也是无量纲的量。2、距离的定义1.闵科夫斯基(Minkowski)距离称 为闵科夫斯基距离。(1)绝对值距离:在上式中,当q=1时的一阶闵科夫斯基距离为 称它为绝对值距离。(2)欧氏距离:取 ,就可以得到二阶闵科夫斯基距离为称它为欧氏距离。3、系统聚类法的思想(1)定义样品间的距离(或相似系数)和类与类之间的距离;(2)将n个样品各自自成一类,这时类间的距离与样品间的距离是等价的;(3)然后将距离最近的两类合并,并计算新
4、类与其他的类间距离,再按最小距离准则并类。这样每次缩小一类,直到所有的样品都成一类为止。这个并类过程可以用谱系聚类图形像地表达出来4、系统聚类的步骤(1)数据变换:可以使用上节介绍的方法对数据进行变换。数据变换目的是为了便于比较、计算上的方便或改变数据的结构。选择试题样品间距离的定义(如欧氏距离)及度量类间距离的定义。(2)计算n个样品两两间的距离,得样品间的距离矩阵 。(3)一开始n样品各自构成一类,类的个数 个类: ,此时类间距离就是样品间的距离(即 )然后对步骤 执行并类过程(4)和(5).(4)每次合并类间距离最小的两类为一新类,此时类的总个数k减少到1类,即 。(5)计算新类与其他类
5、的距离,得到新的距离矩阵,若合并后类的总个数k仍大于1,重复(4)和(5)步,直到类的总个数为1为止。(6)画谱系聚类图。(7)决定分类的个数及各类的成员。二、问题提出与分析现有南部海洋1970-1985年20个站点的平均每年每月的表面空气温度数据,请用聚类分析研究南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。数据资料如下表所示:观测站点一月二月三月四月五月六月七月八月九月十月十一月十二月坎贝尔岛9.59.79.18.07.14.95.95.84.86.57.59.1Leeuwin19.920.019.017.515.814.913.912.81
6、2.914.115.017.5开普敦19.620.816.118.913.911.811.111.512.015.917.420.9查塔姆岛13.314.813.612.010.99.47.58.99.610.212.312.8克罗泽10.611.28.66.64.73.93.12.92.63.74.86.0戈夫岛14.014.012.712.810.99.39.19.29.210.112.314.5格瑞特威肯4.95.74.92.8-0.4-0.8-2.50.11.52.03.93.2复活节岛23.023.322.821.721.518.919.218.017.919.621.220.5胡安
7、费尔南德兹17.517.316.515.414.913.412.811.612.514.216.917.3凯尔盖朗8.59.37.26.63.41.32.02.62.53.45.27.1maatsuyker15.116.415.113.411.19.39.18.18.810.110.913.7麦夸里岛8.18.07.36.05.64.44.54.52.54.34.97.0玛丽恩岛7.68.35.88.34.64.03.73.23.14.55.36.0新阿姆斯特丹岛17.417.415.815.913.512.511.011.311.211.112.915.7皮特克恩岛22.522.923.02
8、1.621.420.419.417.918.719.821.621.7蓬塔阿雷纳斯8.68.37.65.72.30.80.52.83.86.87.58.0拉乌尔22.421.922.020.719.018.816.117.217.218.219.120.2白菜23.524.724.123.321.419.018.417.918.920.120.921.7拉罗汤加岛25.825.826.226.324.523.423.022.023.123.724.425.6斯坦利8.28.27.65.93.02.51.63.14.65.76.87.2https:/legacy.bas.ac.uk/met/RE
9、ADER/temperature.html该问题是聚类分析问题,实际中通常要解决以下问题:(1)会对实际问题进行聚类分析;(2)掌握SAS输出结果用于判别实际问题的数据分为几类最合适。在本问题中,即用于判别南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。三、模型建立程序:data jlfx;input groups $ x1-x12;cards;坎贝尔岛9.59.79.18.07.14.95.95.84.86.57.59.1Leeuwin19.920.019.017.515.814.913.912.812.914.115.017.5开普敦19.62
10、0.816.118.913.911.811.111.512.015.917.420.9查塔姆岛13.314.813.612.010.99.47.58.99.610.212.312.8克罗泽10.611.28.66.64.73.93.12.92.63.74.86.0戈夫岛14.014.012.712.810.99.39.19.29.210.112.314.5格瑞特威肯4.95.74.92.8-0.4-0.8-2.50.11.52.03.93.2复活节岛23.023.322.821.721.518.919.218.017.919.621.220.5胡安费尔南德兹17.517.316.515.414
11、.913.412.811.612.514.216.917.3凯尔盖朗8.59.37.26.63.41.32.02.62.53.45.27.1maatsuyker 15.116.415.113.411.19.39.18.18.810.110.913.7麦夸里岛8.18.07.36.05.64.44.54.52.54.34.97.0玛丽恩岛7.68.35.88.34.64.03.73.23.14.55.36.0新阿姆斯特丹岛17.417.415.815.913.512.511.011.311.211.112.915.7皮特克恩岛22.522.923.021.621.420.419.417.918.
12、719.821.621.7蓬塔阿雷纳斯8.68.37.65.72.30.80.52.83.86.87.58.0拉乌尔22.421.922.020.719.018.816.117.217.218.219.120.2白菜23.524.724.123.321.419.018.417.918.920.120.921.7拉罗汤加岛25.825.826.226.324.523.423.022.023.123.724.425.6斯坦利8.28.27.65.93.02.51.63.14.65.76.87.2;proc cluster data=jlfx method=com pseudoccc outtree
13、=Bjlfx;var x1-x12;id groups;proc tree data=Bjlfx horizontal graphics;title数据不变换、使用最长距离法的谱系聚类图;run;输出结果一:输出结果二:输出结果三:结果分析:输出结果一为12个聚类变量的协方差阵的特征值等信息。从输出结果二可以看出: 准则支持分为二类和三类;伪F统计量支持分为三类 ;伪t方统计量支持分为二类和三类。综合分析,认为用最长距离法20个站点分为三类较合适。从输出结果三可以看出分为三类的结果: 坎贝尔岛, 克罗泽, 凯尔盖朗, 麦夸里岛, 玛丽恩岛, 蓬塔阿雷纳斯, 斯坦利, 格瑞特威肯 Leeuwin
14、, 胡安费尔南德兹, 开普敦, 查塔姆岛, 戈夫岛, maatsuyker, 新阿姆斯特丹岛 复活节岛, 皮特克恩岛, 白菜, 拉乌尔, 拉罗汤加岛 四、总结通过南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据进行聚类分析,我得到了南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为三类最合适这一结论。详细地说,即从以上分析可以看出,的准则支持分为二类和三类;伪F统计量支持分为三类;伪t统计量支持分为二类和三类。 综合分析,认为用最长距离法20个站点分为三类较合适。 分为三类的结果为: 坎贝尔岛, 克罗泽, 凯尔盖朗, 麦夸里岛, 玛丽恩岛, 蓬塔阿雷纳斯, 斯坦利, 格瑞特威肯 Leeuwin, 胡安费尔南德兹, 开普敦, 查塔姆岛, 戈夫岛, maatsuyker, 新阿姆斯特丹岛 复活节岛, 皮特克恩岛, 白菜, 拉乌尔, 拉罗汤加岛