1、主成分分析6.1 试述主成分分析的基本思想。答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取止。这就是主成分分析的基本思想。6.2 主成分分析的作用体现在何处?答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”6.3 简述主成分分析中累积贡献率的具体含义。答:主成分分析把 个原始变量 的总方差 分解成了 个相互独立的变p12,pX ()trp量 个主成分的,忽略一些带有较
2、小方差的主成分将不会给总方差带来太大的影响。这里p我们 个主成分,则称 为主成分 的累计贡献率,累计贡()m1mk1,mY献率表明 综合 的能力。通常取 ,使得累计贡献率达到一个较高1,mY 12,p的百分数(如 85以上) 。答:这个说法是正确的。即原变量方差之和等于新的变量的方差之和6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵 出发的,其结果受变量单位的影响。主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。实际表明,这种差异有时很大。我6
3、.6 已知 X=( )的协差阵为 试进行主成分分析。1,2,311 3/2 3/23/2 21/453/43/253/4 31/4解: =0|=|11 3/2 3/23/2 214 53/43/253/4314|计算得 64(4)(8)(12)=01=12, 2=8, 3=4(1)=1=12, (2)=2=8, (3)=3=4当 时,1=12( 1) (4 23 623 27536 53 17)(12 63 1812 543 3012 103 34)(2 3 30 3 10 0 0)(2 0 20 3 10 0 0)(1 0 20 3 10 0 0)1=( 23, 1, 3) 同理,计算得2=
4、8时 , 2=(2, 3, 3)时, 3=4 2=(0, 3, 1)易知 相互正交1, 2, 3单位化向量得,1=11=( 32 ,14 , 34)2=22=(12 , 34 ,34) 3=33=(0 , 32 ,12),1=1 ,2=2 3=3综上所述,第一主成分为 1= 32 1+14 2+ 343 (1)=12第二主成分为 2=12 1+ 34 2+343 (2)=8第三主成分为 3= 32 2+123 (3)=46.7 设 X=( )的协方差阵 (p 为1, ), 00为最大特征根1=(1)+1 2当 时,1=(1)+1 2=|1|(2(1) 2 2 2 2(1) 2(1) 2 2 2
5、(1) )( (1) 0 (1) (1)( 0 00 0 0 0 )(0 1 00 0 0 0 0 0)1=(1,1,1,)1=(1,1,1)所以,1=1=16.8 利用主成分分析法,综合评价六个工业行业的经济效益指标。单位:(亿元)行业名称 资产总计 固定资产净值平均余额 产品销售收入 利润总额煤炭开采和选业 6917.2 3032.7 683.3 61.6石油和天然气开采业 5675.9 3926.2 717.5 33877黑色金属矿采选业 768.1 221.2 96.5 13.8有色金属矿采选业 622.4 248 116.4 21.6非金属矿采选业 699.9 291.5 84.9
6、6.2其它采矿业 1.6 0.5 0.3 0解: 令资产总计为 X1,固定资产净值平均余额为 X2,产品销售收入为 X3,利润总额为 X4,用 SPSS 对这六个行业进行主成分分析的方法如下:1. 在 SPSS 窗口中选择 AnalyzeData ReductionFactor 菜单项,调出因子分析主界面,并将变量 移入 Variables 框中,其他均保持系统默认选项,单击 OK15X按钮,执行因子分析过程(关于因子分子在 SPSS 中实现的详细过程,参见 7.7) 。得到如表 6.1 所示的特征根和方差贡献率表和表 6.2 所示的因子载荷阵。第一个因子就可以解释 86.5%表 6.1 特征
7、根和方差贡献率表表 6.2 因子载荷阵2. 将表 6.2 中因子载荷阵中的数据输入 SPSS 数据编辑窗口,命名为 a1。点击菜单项中的 TransformCompute,调出 Compute variable 对话框,在对话框中输入等式:z1=a1 / SQRT(3.46),计算第一个特征向量。点击 OK 按钮,即可在数据编辑窗口中得到以 z1 为变量名的第一特征向量。表 6.3 特征向量矩阵z1x1 0.509 x2 0.537 x3 0.530 x4 0.413 根据表 6.3 得主成分的表达式: 413.05.237.0159.YXX3. 再次使用 Compute 命令,调出 Comp
8、ute variable 对话框,在对话框中输入等式:*.*.y xxx根据六个工业行业计算所的 y1 的大小可得石油和天然气开采业的经济效益最好,煤炭开采和选业其次,接着依次是黑色金属、非金属、有色金属和其他采矿业。6.9 下表是我国 2003 年各地区农村居民家庭平均每人主要食品消费量,试用主成分方法对各主要食品和地区进行分类。地区 粮食 蔬菜 食油 猪牛羊肉 家禽蛋类及其制品水产品 食糠 酒北京 134.05 92.78 9.15 14.6 2.17 10.13 4.25 2.92 14.42天津 150.2 69.99 10 11.07 0.84 10.8 8.35 0.72 10.1
9、4河北 216.72 55.97 6.59 7.1 0.54 6.36 2.25 0.65 7.29山西 218.91 80.87 5.72 5.36 0.24 6.15 0.47 1.15 2.59内蒙 207.3 70.77 2.79 21.18 1.41 3.82 1.45 1.34 10.77辽宁 194.39 178.59 5.9 16.45 2.51 9.59 4.49 0.73 10.8吉林 255.99 115.2 6.27 11.42 3.23 8.64 3.6 0.75 13.64黑龙江 195.08 111.7 7.62 7.85 2.61 6.26 3.35 0.9 1
10、5.09上海 189.44 76.6 8.59 16.37 7.4 7.51 16.11 2.12 16.77江苏 251.98 109.12 8.27 12.05 4.5 6.72 9.09 1.3 8.82浙江 208.46 83.91 5.81 16.42 6.03 5.33 14.64 2.13 24.15安徽 228.35 80.97 6.87 9.07 4.27 5.04 5.43 1.42 10.61福建 198.27 99.92 5.19 16.51 5.14 3.55 13.3 2.35 16.84江西 264.8 144.22 8.77 13.24 3.31 3.5 5.1
11、9 1.13 7.31山东 229.06 118.19 6.96 8.09 2.7 11.61 4.01 1 10.81河南 236.97 100.11 4.22 6.48 1.23 8.01 1.35 1.13 4.23湖南 227.39 159.76 9.4 19.86 2.74 3.86 8.1 0.92 7.29湖北 247.21 149.44 8.35 17.51 3.89 3.28 6.89 1.13 4.02广东 233.75 130.22 6.73 22.27 10.4 2.83 13.3 2.16 3.33广西 205.65 108.94 4.92 14.44 7.33 1.
12、12 3.57 1.18 6.14海南 236.31 86.61 5.7 15.4 9.77 1.31 14.75 1.24 3.88解: 令粮食为 X1,蔬菜为 x2,食油为 x3,猪牛羊肉为 x4,家禽为 x5,蛋类及其制品为 x6,水产品为 x7,食糠为 x8,酒为 x9,用 SPSS 进行主成分分析的具体方法参见 6.8,分析结果如下:表 6.4 特征根和方差贡献率表表 6.5 因子载荷阵表 6.6 特征向量矩阵z1 z2 z3x1 0.001169 -0.55035 -0.00518x2 0.054359 -0.32014 0.616746x3 0.005261 0.185239 0
13、.697829x4 0.455914 -0.07584 0.167341x5 0.509689 -0.14229 -0.05521x6 -0.32908 0.408063 0.269126x7 0.500921 0.118795 0.112136x8 0.388112 0.332893 -0.13025x9 0.140866 0.4933 -0.01984根据表 6.6 得主成分的表达式: 914.083.7501.6329.51.046.305.24.10. XXXXXY 878352 29673 分别计算出以上三项后,利用公式 得到综合得分并排序321YY如下表:地区 y1 y2 y3 y
14、北京 14.92 -90.42 67.81 -10.16 天津 11.80 -93.48 54.76 -15.31 上海 24.39 -115.46 57.85 -16.51 福建 24.55 -129.93 68.56 -19.17 浙江 25.14 -126.00 59.51 -19.43 辽宁 19.55 -154.56 118.72 -19.47 黑龙江 13.27 -131.90 76.07 -23.38 湖南 23.53 -169.91 108.84 -24.97 广东 29.80 -167.06 88.93 -25.29 广西 19.18 -144.89 72.06 -25.99
15、 内蒙 15.93 -130.47 48.84 -27.33 海南 24.93 -154.57 60.04 -29.19 山东 11.81 -152.64 81.06 -30.09 湖北 21.71 -179.61 100.93 -30.74 安徽 14.06 -143.12 56.46 -30.92 江苏 18.07 -164.93 76.08 -32.51 河北 7.10 -129.83 40.94 -32.73 山西 6.20 -141.44 55.18 -34.15 吉林 14.54 -166.90 78.26 -34.32 江西 18.74 -185.62 97.04 -34.94
16、河南 8.32 -156.36 66.62 -35.93 最后的分类可以根据最终得分 Y 的值来划分,由于没有给出具体的分类标准,具体分类结果根据各人的主观意愿可以有多种答案。6.10 根据习题 5.10 中 2003 年我国省会城市和计划单列市的主要经济指标数据,利用主成分分析法对这些地区进行分类。解:用 SPSS 进行主成分分析的具体方法参见 6.8,分析结果如下:表 6.7 特征根和方差贡献率表表 6.8 因子载荷阵表 6.6 特征向量矩阵z1 z2x1 0.29 0.47 x2 0.28 0.48 x3 0.14 -0.29 x4 0.31 -0.37 x5 0.40 -0.20 x6
17、 0.40 -0.27 x7 0.31 0.39 x8 0.39 0.12 x9 0.39 -0.24 青岛 35237.27 14552.46 28597.44 大连 31830.56 17629.53 27272.03 济南 25149.73 16499.39 22372.97 福州 22734.16 16326.97 20677.45 乌鲁木齐 22284.54 15284.68 20037.59 沈阳 23184.99 12310.22 19694.19 武汉 23909.27 9770.56 19370.75 长春 21524.95 14179.21 19166.96 成都 33808.79 -17638.73 17294.14 太原 19445.42 9809.99 16352.45 郑州 18561.81 9822.90 15756.62 兰州 16568.97 13769.80 15670.44 海口 17666.70 11325.77 15631.26 昆明 18494.34 8579.72 15311.75 呼和浩特 16128.60 13359.10 15239.59 长沙 18845.23 6252.54 14802.98 石家庄 18229.33 7399.62 14752.99 西安 16764.15 4871.97 12946.76
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。