1、113生物统计学教案第十一章 多元回归及复相关分析教学时间:1 学时教学方法:课堂板书讲授教学目的:重点掌握多元回归及复相关分析讲授难点: 多元回归及复相关分析11.1 多元线性回归方程11.1.1 多元线性回归模型一个典型的多元回归数据可列成下表观测次数 Y X1 X2 Xj Xk1 y1 x11 x21 xj1 xk12 y2 x12 x22 xj2 xk2 p yp x1p x2p xjj xkj n yn x1n x2n xjn xkn第 p 次观测值为yp 1x1p 2x2p kxkp p, p1,2, n上式称为多元线性回归模型,其中 p是服从正态分布 N(0, 2)的随机变量。1
2、1.1.2 正规方程可以用最小二乘法求出 和 j的估计值 a 和 bj,从而得出多元回归方程。用最小二乘法求 bj,首先会得到一组联立方程,称为正规方程:解该方程组可以得到 bj, a 由下式得到: kYkkk YkSbbSSbS21 22212 111114回归方程为:式子中的 a 称为常数项, bj称为偏回归系数。11.1.3 多元回归方程的计算 (略)11.1.6 回归方程中各自变量对因变量贡献大小的比较多元回归方程中的偏回归系数的含义是,在其它变量都固定的情况下,某一变量对因变量的贡献。由于各自变量的单位不同,因此通过比较偏回归系数的大小,来决定各自变量对因变量贡献的大小是不行的。为了
3、达到这一目的,就需对回归方程进行标准化,得到标准回归方程。标准回归方程的总平方和 SYY=1,各偏回归系数为无单位的量,通过比较标准偏回归系数,可以确定它们对因变量贡献的大小。剔除贡献小的自变量,从而构建成最优回归方程。所谓最优回归方程是指,回归方程中包括全部对 Y 显著的变量,而不包含对Y 不显著的变量。但是,用这种方法筛选最优回归方程有一定的局限性。如果各自变量之间存在显著相关,某些自变量对因变量的贡献是通过另一自变量体现出,当从方程中剔除该变量后,使得留在方程中的变量变成不显著的变量。而剔除的变量恰恰是一个有重要贡献的变量。这一问题,需要通过其它方法解决。11.2 复相关分析11.2.1
4、 复相关系数复相关系数是因变量与所有自变量之间相关程度的度量。相当于实际观测值与回归估计值之间的简单相关系数。11.2.2 偏相关系数在多个自变量与因变量及自变量之间都存在显著相关时,只用其中一个自变量与因变量计算简单相关系数,不能真正反应两变量之间的真实关系。为了能真正反应某一自变量与因变量之间的真实关系,就要保证在其它自变量都保持不变的情况下,计算它们之间的相关系数,这时的相关系数称为偏相关系数。11.3 逐步回归分析11.3.1 最优回归方程的选择kxbxbya21 kXbXbaY211151、从变量可能的全部可能的组合中选出最优者把自变量各种可能的组合都计算出来,对每一方程的各(偏)回
5、归系数做显著性检验,计算剩余方差,从中选出包含的全部变量均为显著因素,且剩余方差又较小的方程。用这种方法一定能够选出最优方程。但是,用这种方法选择最优方程时,自变量的个数不能太多,自变量太多时,计算工作量太大,很难完成。2、从含全部变量的回归方程中逐次剔除不显著因素先建立包含全部自变量的方程,然后从该方程中逐次提出不显著因素,直到剩余的变量全部是显著因素为止。当不显著因素较少时是可行的,当不显著因素较多时,计算工作量过大,很难完成。由于自变量之间的相关性,当剔除一个变量之后它通过其它显著因素所体现出的贡献,随之消失。实际上是剔除了一个显著的变量。3、从一个自变量开始,把变量逐个引入到方程中其做法与上一方法正好相反,先计算各自变量与因变量之间的相关系数,选出绝对值最大者引入方程中。再计算未引入的变量在除去已引入的变量之后与因变量的偏回归系数,选取最大者再引入。当不显著因素较多时,该方法的计算工作量较少,容易完成。与上一方法一样,由于自变量之间的相关性,当引入下一个自变量之后,并不能保证,前面已引入的变量一定还是显著的。其结果,方程中包含了不显著变量。4、逐步回归是上述两种方法的结合,在每引进一个新的变量之前,先检验方程中是否还有不显著变量,如果有,则先剔除,然后再引进下一个变量。直到回归方程中均为显著变量,且没有新的显著变量可以引入为止。