1、一般线性回归分析案例1、案例为了研究钙、铁、铜等人体必需元素对婴幼儿身体健康的影响,随机抽取了30个观测数据,基于多员线性回归分析的理论方法,对儿童体内几种必需元素与血红蛋白浓度的关系进行分析研究。这里,被解释变量为血红蛋白浓度(y),解释变量为钙(ca) 、铁(fe)、铜 (cu)。表一 血红蛋白与钙、铁、铜必需元素含量(血红蛋白单位为g;钙、铁、铜元素单位为ug)case y(g) ca fe cu1 7.00 76.90 295.30 0.8402 7.25 73.99 313.00 1.1543 7.75 66.50 350.40 0.7004 8.00 55.99 284.00 1.
2、4005 8.25 65.49 313.00 1.0346 8.25 50.40 293.00 1.0447 8.50 53.76 293.10 1.3228 8.75 60.99 260.00 1.1979 8.75 50.00 331.21 0.90010 9.25 52.34 388.60 1.02311 9.50 52.30 326.40 0.82312 9.75 49.15 343.00 0.92613 10.00 63.43 384.48 0.86914 10.25 70.16 410.00 1.19015 10.50 55.33 446.00 1.19216 10.75 72.4
3、6 440.01 1.21017 11.00 69.76 420.06 1.36118 11.25 60.34 383.31 0.91519 11.50 61.45 449.01 1.38020 11.75 55.10 406.02 1.30021 12.00 61.42 395.68 1.14222 12.25 87.35 454.26 1.77123 12.50 55.08 450.06 1.01224 12.75 45.02 410.63 0.89925 13.00 73.52 470.12 1.65226 13.25 63.43 446.58 1.23027 13.50 55.21 4
4、51.02 1.01828 13.75 54.16 453.00 1.22029 14.00 65.00 471.12 1.21830 14.25 65.00 458.00 1.0002、回归分析表2 变量说明表输入移去的变量 a模型 输入的变量移去的变量方法1 cu, fe, cab . 输入a. 因变量: yb. 已输入所有请求的变量。表2说明了应变量和自变量及自变量进入方程的情况表3 模型总体参数表(1)模型汇总 b模型 R R 方 调整 R 方标准 估计的误差1 .902a .813 .792 .993a. 预测变量: (常量), cu, fe, ca。b. 因变量: y由表3可知,相
5、关系数R为0.902,说明自变量与因变量有比较好的相关性。 R方为0.813,接近于1 ,说明总体回归效果较好。+表4 回归方差分析表(1)Anovaa模型 平方和 df 均方 F Sig.回归 111.587 3 37.196 37.743 .000b残差 25.623 26 .9861总计 137.210 29a. 因变量: yb. 预测变量: (常量), cu, fe, ca。表4是用方差分析对整个回归方程做了显著性检验,其中F=37.743,对应的概率P值近似为0。若显著性水平 为0.05,则因概率小于 ,拒绝回归方程显著性检验的原假设,即回归系数不同时为0,解释变量全体与被解释变量存
6、在显著的线性关系,选择线性模型具有合理性。表5 回归系数及显著性检验表(1)系数 a非标准化系数 标准系数相关性 共线性统计量模型B 标准 误差试用版t Sig.零阶 偏 部分 容差 VIF(常量) 1.368 1.479 .925 .364ca -.050 .021 -.223 -2.370 .026 -.006 -.421 -.201 .808 1.238fe .029 .003 .888 9.846 .000 .879 .888 .834 .883 1.1321cu .930 .888 .103 1.047 .305 .305 .201 .089 .744 1.344a. 因变量: y表
7、5用方差分析对每个因变量做了偏回归分析,是关于回归系数及显著性检验的计算结果如下:在表中,常数项的t的显著性概率 0.364大于0.05,表示常数项与0 没有显著性差异,它不应出现在方程中。钙含量的t的显著性概率0.026小于0.05,表示钙含量的系数与0 有显著性差异,钙含量应作为解释变量存在于方程中。铁含量的t的显著性概率0.000小于0.05,表示钙含量的系数与0 有显著性差异,钙含量应作为解释变量存在于方程中。铜含量的t的显著性概率0.305大于0.05,表示铜含量的系数与0 有显著性差异,铜含量应作为解释变量存在于方程中。由此可见,钙含量和铁含量可以作为解释变量在方程中来解释血红蛋白
8、含量的变化,而铜含量则应该被剔除。将铜含量从解释变量中剔除再次做回归分析,的到如下分析结果:表6 模型总体参数表(2)模型汇总 b模型 R R 方 调整 R 方标准 估计的误差1 .897a .805 .791 .995a. 预测变量: (常量), fe, ca。b. 因变量: y(g)自变量减少了一个“铜”含量后,R方由0.813变为0.805,由此可见,去掉铜元素含量后,线性回归方程中的自变量对因变量的影响变化不大;表7 回归方差分析表(2)Anovaa模型 平方和 df 均方 F Sig.回归 110.506 2 55.253 55.865 .000b残差 26.704 27 .9891
9、总计 137.210 29a. 因变量: y(g)b. 预测变量: (常量), ca, fe。由表7看出,F值由原来的37.743 上升为55.865,F值越大越好,表明整体回归效果更好。表8 回归系数及显著性检验表(2)系数 a非标准化系数 标准系数相关性 共线性统计量模型B 标准 误差试用版t Sig.零阶 偏 部分 容差 VIF(常量) 1.528 1.474 1.037 .309fe .030 .003 .915 10.570 .000 .879 .897 .897 .962 1.0391ca -.041 .020 -.184 -2.124 .043 -.006 -.378 -.180
10、 .962 1.039a. 因变量: y(g)表7 多重共线性检验的特征值及条件指数共线性诊断 a方差比例模型 维数 特征值 条件索引 (常量) fe ca1 2.969 1.000 .00 .00 .002 .021 12.016 .01 .72 .4713 .010 17.185 .99 .28 .53a. 因变量: y(g)表6中,最大特征值为2.969,其余依次快速减小。第三列各个条件指数均不大,可认为多重共线性较弱。图1:图1是残差正态性的图形结果,可以看到参数围绕基准线仍存在一定规律性。图2 回归方程标准化预测值与标准化残差散点图图2表明,不存在明显的异方差现象。最终的回归方程为:Z=-0.184X+0.915Y其中,Z表示儿童梅100毫升血中的血红蛋白的含量,单位为g;X表示儿童每100毫升血中钙元素的含量,单位为ug ;Y表示儿童每100毫升血中铁元素的含量,单位为ug。方程表明,铁元素含量与血红蛋白含量存在正相关,而钙元素含量与血红蛋白含量存在负相关性,由此,当人体内血红蛋白浓度偏低时,就需要补充铁元素,减少钙元素的摄入量,铜元素则没有显著性影响。