数据分析期末试题及答案.doc

上传人:坚持 文档编号:4117529 上传时间:2019-09-27 格式:DOC 页数:20 大小:499.01KB
下载 相关 举报
数据分析期末试题及答案.doc_第1页
第1页 / 共20页
数据分析期末试题及答案.doc_第2页
第2页 / 共20页
数据分析期末试题及答案.doc_第3页
第3页 / 共20页
数据分析期末试题及答案.doc_第4页
第4页 / 共20页
数据分析期末试题及答案.doc_第5页
第5页 / 共20页
点击查看更多>>
资源描述

1、数据分析期末试题及答案1、 人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)的数据,试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。(25分)解:1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系上图是以人均GDP(x1)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。尝试多种模型后采用曲线估计,得出表示地区平均寿命(y)与

2、人均GDP(x1)的对数有线性关系上图是以成人识字率(x2)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间基本呈正线性关系。上图是以疫苗接种率(x3)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。上图是以疫苗接种率(x3)的三次方()为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间呈正线性关系所以可以采用如下的线性回归方法分析。2. 线性回归先用强行进入的方式建立如下线性方程设Y=0+1*(Xi1)+2*Xi2+3*+i i=1.224其中i(i=1.222)相互独立,都服从正态分布N(0,2)且假设其等于方差模型汇总b模型RR 方调整

3、R 方标准 估计的误差1.952a.907.8913.332a. 预测变量: (常量), x3, x1, x2。b. 因变量: y上表是线性回归模型下的拟合优度结果,由上表知,R值为0.952,大于0.8,表示两变量间有较强的线性关系。且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)一起表示出来。建立总体性的假设检验提出假设检验H0:1=2=3=0,H1,:其中至少有一个非零得如下方差分析表Anovab模型平方和df均方FSig.1回归1937.7043645.90158.190.000a残差199.7961811.100总计2137

4、.50021a. 预测变量: (常量), x3, x1, x2。b. 因变量: y上表是方差分析SAS输出结果。由表知,采用的是F分布,F=58.190,对应的检验概率P值是0.000.,小于显著性水平0.05,拒绝原假设,表示总体性假设检验通过了,平均寿命(y)与人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。做独立性的假设检验得出参数估计表系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)33.0143.13710.523.000x1.072.015.4044.865.000x2.169.040.4314.245.000x

5、3.178.049.3393.654.002a. 因变量: y上表是有关参数估计的信息,同样是上面的检验假设,H0:1=2=3=0: H1:1、2、3不全为零由表知,1=33.014,1=0.072,2=0.169,3=0.178,以1=0.072为例,表示当成人识字率(x2),一岁儿童疫苗接种率(x3)不变时,人均GDP(x1)每增加一个单位,平均寿命(y)就增加0.072个单位。基于以上结果得出年平均寿命(y)与人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有显著性的线性关系有回归方程Y=33.014+0.072*X1+ 0.169*X2+ 0.178*X31、2、

6、3对应得p值分别为0.000,0.000,0.002,对应的概率p值都小于0.05,表示它们的单独性的假设检验没通过,即该模型是最优的,所以不用采用逐步回归的方式分析。对原始数据进行残差分析未标准化的残差RES_1-7.53964-3.57019-3.42221-2.89835-2.30455-2.17263-2.05862-1.37142-1.17048-.43890-.17260-.03190.946551.428961.612521.615902.101393.018563.025713.498084.607375.29645以X1为横轴,RES_1为纵轴画出如下散点图由上图可以看出,该

7、残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。同理可以得出RES_1与X2、X3的散点图,由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。误差项的正态性检验数据(RES_1)标准化残差ZRES_1由图可以看出,散点图近似的在一条直线附近,则可以认为数据来自正太分布总体二、诊断发现运营不良的金融企业是审计核查的一项重要功能,审计核查的分类失败会导致灾难性的后果。下表列出了66家公司的部分运营财务比率,其中33家在2年后破产Y=0,另外

8、33家在同期保持偿付能力(Y=1)。请用变量X1(未分配利润/总资产),X2(税前利润/总资产)和X3(销售额/总资产)拟合一个Logistic回归模型,并根据模型给出实际意义的分析,数据见财务比率.sav(25分)。解:整体性的假设检验提出假设性检验H0:回归系数=0(i=1,2,3),H1:不都为0建立logistic模型:=分类表a,b已观测已预测Y百分比校正01步骤 0Y0033.01033100.0总计百分比50.0a. 模型中包括常量。b. 切割值为 .500上表显示了logistic分析的初始阶段方程中只有常数项时的错判矩阵,其中33家在2年后破产(y=0),但模型均预测为错误,

9、正确率为0%,另外33家在同期保持偿付能力(Y=1),正确率为100%,所以模型总的预测正确率为50%。不在方程中的变量得分dfSig.步骤 0变量X131.6211.000X219.3581.000X32.8091.094总统计量37.6233.000由上表得知,如果变量X1(未分配利润/总资产),X2(税前利润/总资产)进入方程,概率p值都为0.000,小于显著性水平0.05,本应该是拒绝原假设,X1,X2是可以进入方程的。而X3(销售额/总资产)进入方程,概率p值为0.094,大于显著性水平0.05,本应该是接受原假设,X3(销售额/总资产)是不能进入方程的,但这里的解释变量的筛选策略为

10、enter,是强行进入方程的。用强行全部进入模型汇总步骤-2 对数似然值Cox & Snell R 方Nagelkerke R 方15.791a.727.969a. 因为参数估计的更改范围小于 .001,所以估计在迭代次数 13 处终止。-2倍的对数似然函数值越小表示模型的拟合优度越高,这里的值是5.791,比较小,表示模型的拟合优度还可以,而且Nagelkerke R 方为0.969,与0相比还是比较大的,所以拟合度比较高分类表a已观测已预测Y百分比校正01步骤 1Y032197.0113297.0总计百分比97.0a. 切割值为 .500上表显示了logistic分析的初始阶段方程中只有常

11、数项时的错判矩阵,其中33家在2年后破产(y=0),但模型预测出了32家,正确率为97%,另外33家在同期保持偿付能力(Y=1),模型预测出了32家,正确率为97%,所以模型总的预测正确率为97%,较之前的有很大的提高。方程中的变量BS.E,WalsdfSig.Exp (B)步骤 1aX1.336.3091.1781.2781.399X2.180.1072.8521.0911.198X35.1605.200.9851.321174.235常量-10.33411.147.8591.354.000a. 在步骤 1 中输入的变量: X1, X2, X3.上表给出了方程中变量的系数。由表得出以为例,表

12、示控制变量X2(税前利润/总资产)和X3(销售额/总资产)不变,X1(未分配利润/总资产)每增加一个单位,增加0.336分单位模型方程:=Logistic回归方程:PY=0=由表得知,X1到X3对应的概率p值都大于0.05,接受原假设,表示X1到X3对Y都没有显著性影响。所以用下述方法改进。用向前步进(wald)模型汇总步骤-2 对数似然值Cox & Snell R 方Nagelkerke R 方115.803a.682.91029.472b.711.949a. 因为参数估计的更改范围小于 .001,所以估计在迭代次数 9 处终止。b. 因为参数估计的更改范围小于 .001,所以估计在迭代次数

13、 10 处终止。-2倍的对数似然函数值越小表示模型的拟合优度越高,这里的值是9.472,比之前的5.791要大,表示拟合优度降低,表示用向前的方法并没有比进入的方法好分类表a已观测已预测Y百分比校正01步骤 1Y031293.9113297.0总计百分比95.5步骤 2Y032197.0113297.0总计百分比97.0a. 切割值为 .500而且从上表知道总的预测百分比为97%,没有变化,所以这一步较之前的强行进入的方法没什么优化,也就是没什么必要用向前的方法做。所以有最优的一个Logistic回归模型为模型方程:=Logistic回归方程:PY=0=三、为了研究几个省市的科技创新力问题,现

14、在取了2005年8个省得15个科技指标数据,试用因子分析方法来分析一个省得科技创新能力主要受到哪些潜在因素的影响。数据见8个省市的科技指标数据.sav,其中各个指标的解释如下:(25分)X1:每百万人科技活动人员数(人/万人)X2: 从事科技活动人员中科学技术、工程师所占比重(%)X3 :R&D人员占科技胡哦哦的呢人员的比重(%)X4:大专以上学历人口数占总人口数的比例(%)X5 :地方财政科技拨款占地方财政支出的比重(%)X6:R&D经费占GDP比重(%)X7:R&D经费中挤出研究所占比例(%)X8:人均(元人)X9:高科技产品出口额占商品出口额的比重(%)X10: 规模以上产业增加值中高技

15、术产业份额(%)X11 :万名科技人员被国际三大检索工具收录的论文数(篇/百万人)X12 :每百万人口发明专利的授权量(件/百万人)X13:发明专利申请授权量占专利申请授权量的比重(%)X14 :万人技术市场成交合同金额(万元/万人)X15 :财政性教育经费支出占GDP比重(%)解:解释的总方差成份初始特征值a提取平方和载入合计方差的 %累积 %合计方差的 %累积 %原始11.427E899.63699.6361.427E899.63699.6362517846.046.36299.99733265.489.002100.0004201.762.000100.0005121.0668.453E

16、-5100.000634.0782.379E-5100.00078.1795.711E-6100.00083.101E-112.165E-17100.00091.520E-121.061E-18100.000101.033E-147.210E-21100.000118.393E-165.860E-22100.00012-6.843E-17-4.778E-23100.00013-7.700E-15-5.377E-21100.00014-1.363E-13-9.514E-20100.00015-6.538E-12-4.565E-18100.000重新标度11.427E899.63699.6368.

17、38855.92155.9212517846.046.36299.99733265.489.002100.0004201.762.000100.0005121.0668.453E-5100.000634.0782.379E-5100.00078.1795.711E-6100.00083.101E-112.165E-17100.00091.520E-121.061E-18100.000101.033E-147.210E-21100.000118.393E-165.860E-22100.00012-6.843E-17-4.778E-23100.00013-7.700E-15-5.377E-2110

18、0.00014-1.363E-13-9.514E-20100.00015-6.538E-12-4.565E-18100.000提取方法:主成份分析。a. 分析协方差矩阵时,初始特征值在整个原始解和重标刻度解中均相同。上表是用协方差矩阵分析法分析出的总方差的结果,由上表知道,初始特征值间所占的比例相差很大,取值范围差异大,所以不大适合做协方差的矩阵分析。所以应该采用相关矩阵的方法分析如下:相关矩阵aX1X2X3X4X5X6X7X8X9X10X11X12X13X14X15相关X11.000.857.893.943.373.988.988.756.172.520.914.989.883.984.80

19、6X2.8571.000.863.882.573.841.844.776.209.586.839.912.722.905.769X3.893.8631.000.830.191.930.922.525.210.613.720.888.834.907.629X4.943.882.8301.000.441.911.948.874.318.563.976.971.903.934.883X5.373.573.191.4411.000.278.300.713.245.397.545.440.081.392.592X6.988.841.930.911.2781.000.985.665.125.480.867

20、.969.881.983.759X7.988.844.922.948.300.9851.000.737.275.590.895.978.905.972.767X8.756.776.525.874.713.665.7371.000.458.574.916.818.626.752.802X9.172.209.210.318.245.125.275.4581.000.811.256.213.141.160.069X10.520.586.613.563.397.480.590.574.8111.000.454.548.432.498.312X11.914.839.720.976.545.867.895

21、.916.256.4541.000.943.830.905.925X12.989.912.888.971.440.969.978.818.213.548.9431.000.876.988.834X13.883.722.834.903.081.881.905.626.141.432.830.8761.000.838.781X14.984.905.907.934.392.983.972.752.160.498.905.988.8381.000.778X15.806.769.629.883.592.759.767.802.069.312.925.834.781.7781.000a. 此矩阵不是正定矩

22、阵。上表是15个变量间的相关系数矩阵,可以看出相关系数都比较高,比如X1(每百万人科技活动人员数(人/万人))和X2(从事科技活动人员中科学技术、工程师所占比重(%)的相关系数0.859,接近1,呈较强的的线性相关性,所以能够从中提取公因子,适合做因子分析解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %111.13674.23774.23711.13674.23774.23721.70611.37185.6081.70611.37185.60831.2478.31693.9241.2478.31693.9244.5083.38697.3105.2051.36

23、598.6756.125.83299.5077.074.493100.00083.059E-162.040E-15100.00091.532E-161.021E-15100.000101.188E-167.923E-16100.000114.537E-173.025E-16100.00012-2.301E-16-1.534E-15100.00013-3.671E-16-2.448E-15100.00014-4.891E-16-3.261E-15100.00015-8.277E-16-5.518E-15100.000提取方法:主成份分析。由表可知,前两个因子的特征根值很高,累积方差贡献率为分别为

24、85.608(=80%即可),对解释原有变量的贡献很大,第3个以后的因子特征根值都很小,对解释原有变量的贡献很校,可以忽略,因此提取第一和第二个因子比较合适,基本能表达所有信息。有特征值=11.136 =1.706成份矩阵a成份12X1.973-.158X2.919.036X3.883-.161X4.985-.004X5.482.497X6.947-.242X7.972-.108X8.849.340X9.300.834X10.611.637X11.955-.001X12.992-.091X13.876-.282X14.968-.156X15.859-.092提取方法 :主成份。a. 已提取了

25、2 个成份。上表是因子载荷矩阵A以X1,X5,X10为例,有因子分析模型 =0.973-0.158+;=0.482+0.497+;=0.611+0.637+;因为,和,变量在,上都有较大的相差不大的载荷,几乎都受它们的共同影响,因子间的差异性没有表示出来,不方便进行因子命名,所以要进行正交旋转(拉大因子间的差异性)成份转换矩阵成份121.926.3792-.379.926提取方法 :主成份。 旋转法 :具有 Kaiser 标准化的正交旋转法。 对A做方差最大的正交旋转,得到正交旋转矩阵旋转成份矩阵a成份12X1.960.223X2.837.381X3.878.185X4.913.370X5.2

26、58.642X6.968.135X7.940.268X8.657.636X9-.038.885X10.325.821X11.884.361X12.952.292X13.918.071X14.955.222X15.830.240提取方法 :主成份。 旋转法 :具有 Kaiser 标准化的正交旋转法。a. 旋转在 3 次迭代后收敛。上表为旋转后的因子载荷矩阵以X1,X5,X10为例,有因子分析模型 =0.960-0.223+;=0.258+0.642+;=0.325+0.821+;在第一公因子对应的列中,正载荷主要是X1,X2,X3,X4,X6,X7,X11,X12,X13,X14,X15,其载荷

27、分别是0.960,所以可视为高科技因子;在第二公共因子对应的列中,正载荷主要是,X5,X10其载荷是0.642,0.821,所以可视为非该科技因子;有公共因子,的得分矩阵如下:F1的得分:-0.90012-0.79770-0.47026-0.45750-0.003730.128880.255142.24528得分越高表示科技越高F2的得分-1.31413-1.28805-0.53602-0.026410.332790.397341.000451.43403得分越低表示分高科技成分越高4、 湖南省某白酒厂开发了一种新的白酒,想在本省上市,考虑到公司的现状:生产能力小,营销实力不强,在全省范围内没

28、有系统的营销网络。公司收集了某年度湖南省各地区的经济发展和消费水平指标,并选取了与白酒消费相关的6个代表性指标,即x1:总人口(万人),x2:人均国民生产总值,x3:职工年平均工资(元),x4:平均每人每年现金收入(元),x5:平均每人每年消费性支出(元),x6:平均每人每年储蓄(元)。具体数据见消费情况数据.sav,试通过聚类分析的方法,根据该厂的特点选择营销区域。(25分)解:采用谱系聚类用组间连接的方法表示类间距用平方euclidean距离表示类内距聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 2158660004.787003211121332477.00500

29、335111623920.4691244591980793.58430854102623309.85600664133255590.1705087263308180.24000108453465565.2596499474201756.054801110237220817.3107011112411895008.673109121221418646365.73611013131236090072.4220120上表是谱系聚类的聚类表,由表可知,第一步是是将5和8分为一小类,然后到3阶和11分为一类,这样将各变量分为一类,然后将最相似的聚为一类,再将已聚合的小类按其相似性再聚合,随着相似性的减弱

30、,最后将一切子类聚合成一个大类,从而得到如下谱系图x1:总人口(万人),x2:人均国民生产总值,x3:职工年平均工资(元),x4:平均每人每年现金收入(元),x5:平均每人每年消费性支出(元),x6:平均每人每年储蓄(元)。由上面的树状图可知,若分为3类,则有第一类:长沙(特点,X1总人口最多,X2国民生产总值,X3工年平均工资(元),x4:平均每人每年现金收入(元),x5:平均每人每年消费性支出(元)等都是最高的,表示长沙的人们对白酒的购买力最强,所以可以在长沙加大销售量,将此地作为最主要的销售地)第二类:湘西(特点:特点,X1总人口最少X2国民生产总值最低,X3工年平均工资很低,X4均每人每年现金收入低,x5:平均每人每年消费性支出很低表示湘西的人们对白酒的购买力最弱,表示在此地销售量最小)第三类:其他(相对均匀,适量的进行销售)若分为4类,则有第一类:长沙(预计销售量最多)第二类:株洲,湘潭,岳阳(预计销售量次之)第三类:其他(预计销售量较少)第四类:湘西(预计销售量很小)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 参考答案

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。