1、统计分析与 SPSS 的应用(第五版) (薛薇)课后练习答案第 9 章 SPSS 的线性回归分析1、利用第 2 章第 9 题的数据,任意选择两门课程成绩作为解释变量和被解释变量,利用SPSS 提供的绘制散点图功能进行一元线性回归分析。请绘制全部样本以及不同性别下两门课程成绩的散点图,并在图上绘制三条回归直线,其中,第一条针对全体样本,第二和第三条分别针对男生样本和女生样本,并对各回归直线的拟和效果进行评价。选择fore和phy两门成绩体系散点图步骤:图形旧对话框 散点图 简单散点图定义将fore 导入Y 轴,将phy导入X轴,将sex导入设置标记确定。接下来在SPSS输出查看器中,双击上图,打
2、开图表编辑在图表编辑器中,选择“元素”菜单选择总计拟合线选择线性应用再选择元素菜单点击子组拟合线 选择线性 应用。分析:如上图所示,通过散点图,被解释变量y(即:fore)与解释变量phy有一定的线性关系。但回归直线的拟合效果都不是很好。2、请说明线性回归分析与相关分析的关系是怎样的?相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判
3、断之前,就进行回归分析,很容易造成“虚假回归” 。与此同时,相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况,因此,在具体应用过程中,只有把相关分析和回归分析结合起来,才能达到研究和分析的目的。线性回归分析是相关性回归分析的一种,研究的是一个变量的增加或减少会不会引起另一个变量的增加或减少。3、请说明为什么需要对线性回归方程进行统计检验?一般需要对哪些方面进行检验?检验其可信程度并找出哪些变量的影响显著、哪些不显著。主要包括回归方程的拟合优度检验、显著性检验、回归系数的显著性检验、残差分析等。线性回归方程能够较好地反映
4、被解释变量和解释变量之间的统计关系的前提是被解释变量和解释变量之间确实存在显著的线性关系。 回归方程的显著性检验正是要检验被解释变量和解释变量之间的线性关系是否显著,用线性模型来描述他们之间的关系是否恰当。一般包括回归系数的检验,残差分析等。4、请说明 SPSS 多元线性回归分析中提供了哪几种解释变量筛选策略?向前、向后、逐步。5、先收集到若干年粮食总产量以及播种面积、使用化肥量、农业劳动人数等数据,请利用建立多元线性回归方程,分析影响粮食总产量的主要因素。数据文件名为“粮食总产量.sav”。方法:采用“前进“回归策略。步骤:分析回归 线性 将粮食总产量导入因变量、其余变量导入自变量方法项选“
5、前进”确定。 如下图:(也可向后、或逐步)已输入/除去变量 a模型 已输入变量 已除去变量 方法1 施用化肥量(kg/公顷) .向前(准则:F-to-enter 的概率 = .050)2 风灾面积比例(%) .向前(准则:F-to-enter 的概率 = .050)3年份 .向前(准则:F-to-enter 的概率 = .050)4 总播种面积(万公顷) .向前(准则:F-to-enter 的概率 = .050)a. 因变量:粮食总产量(y万吨)模型摘要模型 R R 平方调整后的 R 平方 标准估算的错误1 .960a .922 .919 2203.301542 .975b .950 .947
6、 1785.901953 .984c .969 .966 1428.736174 .994d .989 .987 885.05221a. 预测变量:(常量),施用化肥量(kg/公顷)b. 预测变量:(常量),施用化肥量(kg/公顷), 风灾面积比例(%)c. 预测变量:(常量),施用化肥量(kg/公顷), 风灾面积比例(%), 年份d. 预测变量:(常量),施用化肥量(kg/公顷), 风灾面积比例(%), 年份, 总播种面积(万公顷)ANOVAa模型 平方和 自由度 均方 F 显著性回归 1887863315.616 1 1887863315.616 388.886 .000b残差 16019
7、9743.070 33 4854537.6691总计 2048063058.686 34回归 1946000793.422 2 973000396.711 305.069 .000c残差 102062265.263 32 3189445.7892总计 2048063058.686 34回归 1984783160.329 3 661594386.776 324.106 .000d残差 63279898.356 31 2041287.0443总计 2048063058.686 34回归 2024563536.011 4 506140884.003 646.150 .000e残差 23499522.
8、675 30 783317.4234总计 2048063058.686 34a. 因变量:粮食总产量(y万吨)b. 预测变量:(常量),施用化肥量(kg/公顷)c. 预测变量:(常量),施用化肥量(kg/公顷), 风灾面积比例(%)d. 预测变量:(常量),施用化肥量(kg/公顷), 风灾面积比例(%), 年份e. 预测变量:(常量),施用化肥量(kg/公顷), 风灾面积比例(%), 年份, 总播种面积(万公顷)系数 a非标准化系数 标准系数模型 B 标准错误 贝塔 t 显著性(常量) 17930.148 504.308 35.554 .0001施用化肥量(kg/公顷) 179.287 9.0
9、92 .960 19.720 .000(常量) 20462.336 720.317 28.407 .000施用化肥量(kg/公顷) 193.701 8.106 1.037 23.897 .0002风灾面积比例(%) -327.222 76.643 -.185 -4.269 .000(常量) -460006.046 110231.478 -4.173 .000施用化肥量(kg/公顷) 137.667 14.399 .737 9.561 .000风灾面积比例(%) -293.439 61.803 -.166 -4.748 .0003年份 244.920 56.190 .323 4.359 .000
10、(常量) -512023.307 68673.579 -7.456 .000施用化肥量(kg/公顷) 139.944 8.925 .749 15.680 .000风灾面积比例(%) -302.324 38.305 -.171 -7.893 .000年份 253.115 34.827 .334 7.268 .0004总播种面积(万公顷) 2.451 .344 .141 7.126 .000a. 因变量:粮食总产量(y万吨)结论:如上 4 个表所示,影响程度中大到小依次是:施用化肥量(kg/公顷), 风灾面积比例(%),年份, 总播种面积(万公顷)。 (排除农业劳动者人数( 百万人 )和粮食播种面
11、积(万公顷) 对粮食总产量的影响) 剔除农业劳动者人数(百万人 )和粮食播种面积(万公顷) 后:步骤:分析回归 线性 将粮食总产量导入因变量、其余 4 个变量(施用化肥量(kg/公顷),风灾面积比例(%), 年份, 总播种面积( 万公顷))导入自变量 方法项选“输入” 确定。 如下图:系数 a非标准化系数 标准系数模型 B 标准错误 贝塔 t 显著性(常量) -512023.307 68673.579 -7.456 .000年份 253.115 34.827 .334 7.268 .000总播种面积(万公顷) 2.451 .344 .141 7.126 .000施用化肥量(kg/公顷) 139
12、.944 8.925 .749 15.680 .0001风灾面积比例(%) -302.324 38.305 -.171 -7.893 .000a. 因变量:粮食总产量(y万吨)粮食总产量回归方程:Y=-7.893X1+15.68X2+7.126X3+7.268X4-7.4566、一家产品销售公司在 30 个地区设有销售分公司。为研究产品销售量(y)与该公司的销售价格(x1) 、各地区的年人均收入(x2)、广告费用(x3)之间的关系,搜集到 30 个地区的有关数据。进行多元线性回归分析所得的部分分析结果如下:Model Sum of Squares Df Mean Square F Sig.Re
13、gression 4008924.7 8.88341E-13Residual Total 13458586.7 29 Unstandardized CodfficientsB Std.Error t Sig.(Constant) 7589.1025 2445.0213 3.1039 0.00457X1 -117.8861 31.8974 -3.6958 0.00103X2 80.6107 14.7676 5.4586 0.00001X3 0.5012 0.1259 3.9814 0.000491) 将第一张表中的所缺数值补齐。2) 写出销售量与销售价格、年人均收入、广告费用的多元线性回归方程,
14、并解释各回归系数的意义。3) 检验回归方程的线性关系是否显著?4) 检验各回归系数是否显著?5) 计算判定系数,并解释它的实际意义。6) 计算回归方程的估计标准误差,并解释它的实际意义。(1)模型 平方和 自由度 均方 F 显著性回归 12026774.1 3 4008924.7 72.8 8.88341E-13b残差 1431812.6 26 55069.71541总计 13458586.7 29(2)Y=7589.1-117.886 X1+80.6X2+0.5X3(3)回归方程显著性检验:整体线性关系显著(4)回归系数显著性检验:各个回归系数检验均显著(5)略(6)略7、对参加 SAT 考
15、试的同学成绩进行随机调查,获得他们阅读考试和数学考试的成绩以及性别数据。通常阅读能力和数学能力具有一定的线性相关性,请在排除性别差异的条件下,分析阅读成绩对数学成绩的线性影响是否显著。方法:采用进入回归策略。步骤:分析回归 线性 将 MathSAT 导入因变量、其余变量导入自变量 确定。结果如下: 已输入/除去变量 a模型 已输入变量 已除去变量 方法1 Gender, Verbal SATb .输入a. 因变量:Math SATb. 已输入所有请求的变量。模型摘要模型 R R 平方调整后的 R 平方 标准估算的错误1 .710a .505 .499 69.495a. 预测变量:(常量),Ge
16、nder, Verbal SATANOVAa模型 平方和 自由度 均方 F 显著性回归 782588.468 2 391294.234 81.021 .000b残差 767897.951 159 4829.5471总计 1550486.420 161a. 因变量:Math SATb. 预测变量:(常量),Gender, Verbal SAT系数 a模型 非标准化系数 标准系数 t 显著性B 标准错误 贝塔(常量) 184.582 34.068 5.418 .000Verbal SAT .686 .055 .696 12.446 .0001Gender 37.219 10.940 .190 3.402 .001a. 因变量:Math SAT因概率 P 值小于显著性水平(0.05) ,所以表明在控制了性别之后,阅读成绩对数学成绩有显著的线性影响。8、试根据“粮食总产量.sav”数据,利用 SPSS 曲线估计方法选择恰当模型,对样本期外的粮食总产量进行外推预测,并对平均预测误差进行估计。采用二次曲线步骤:图形旧对话框 拆线图 简单个案值定义将粮食总产量导入线的表征确定结果如下:再双击上图“元素”菜单添加标记 应用