1、3 回归方程及回归系数的显著性检验、回归方程的显著性检验(1) 回归平方和与剩余平方和建立回归方程以后, 回归效果如何呢?因变量 与自变量 是否确实存在线性关系呢?这是需要进行统计检验才能加以肯定或否定, 为此, 我们要进一步研究因变量 取值的变化规律。 的每次取值 是有波动的, 这种波动常称为变差, 每次观测值 的变差大小, 常用该次观侧值与 次观测值的平均值 的差 (称为离差)来表示, 而全部 次观测值的总变差可由总的离差平方和, 其中: 称为回归平方和, 是回归值 与均值 之差的平方和, 它反映了自变量的变化所引起的 的波动, 其自由度 ( 为自变量的个数)。称为剩余平方和(或称残差平方
2、和), 是实测值 与回归值 之差的平方和, 它是由试验误差及其它因素引起的, 其自由度 。总的离差平方和 的自由度为 。如果观测值给定, 则总的离差平方和 是确定的, 即 是确定的, 因此 大则 小, 反之, 小则 大, 所以 与 都可用来衡量回归效果, 且回归平方和 越大则线性回归效果越显著, 或者说剩余平方和 越小回归效果越显著, 如果 0, 则回归超平面过所有观测点; 如果 大, 则线性回归效果不好。(2) 复相关系数为检验总的回归效果, 人们也常引用无量纲指标, (3.1)或, (3.2)称为复相关系数。因为回归平方和 实际上是反映回归方程中全部自变量的“方差贡献”, 因此就是这种贡献
3、在总回归平方和中所占的比例, 因此 表示全部自变量与因变量 的相关程度。显然。复相关系数越接近, 回归效果就越好, 因此它可以作为检验总的回归效果的一个指标。但应注意, 与回归方程中自变量的个数 及观测组数 有关, 当 相对于 并不很大时, 常有较大的值, 因此实际计算中应注意 与 的适当比例, 一般认为应取 至少为 的到 10 倍为宜。(3) 检验要检验 与 是否存在线性关系, 就是要检验假设, (3.3)当假设 成立时, 则 与 无线性关系, 否则认为线性关系显著。检验假设 应用统计量, (3.4)这是两个方差之比, 它服从自由度为 及 的 分布, 即, (3.5)用此统计量 可检验回归的
4、总体效果。如果假设 成立, 则当给定检验水平 下, 统计量 应有 , (3.6)对于给定的置信度 , 由 分布表可查得 的值, 如果根据统计量算得的 值为, 则拒绝假设 , 即不能认为全部 为 O, 即 个自变量的总体回归效果是显著的, 否则认为回归效果不显著。利用 检验对回归方程进行显著性检验的方法称为方差分析。上面对回归效果的讨论可归结于一个方差分析表中, 如表 3.1。表 3.1 方差分析表来 源平方和 自由度 方 差 方差比回 归 剩 余总 计根据 与 的定义, 可以导出 与 的以下关系: , 。利用这两个关系式可以解决 值多大时回归效果才算是显著的问题。因为对给定的检验水平 , 由分
5、布表可查出 的临界值 , 然后由 即可求出 的临界值 : , (3.7)当 时, 则认为回归效果显著。例 3.1 利用方差分析对例 2.1 的回归方程进行显著性检验。方差分析结果见表 3.2。表 3.2 来 源 平方和 自由度 方 差 方差比回 归剩 余总 计 取检验水平 0.05, 查 分布表得 , 而 , 所以例 2.1的回归方程回归效果是显著的。、回归系数的显著性检验前面讨论了回归方程中全部自变量的总体回归效果, 但总体回归效果显著并不说明每个自变量对因变量 都是重要的, 即可能有某个自变量 对 并不起作用或者能被其它的 的作用所代替, 因此对这种自变量我们希望从回归方程中剔除, 这样可
6、以建立更简单的回归方程。显然某个自变量如果对 作用不显著, 则它的系数 就应取值为 0, 因此检验每个自变量 是否显著, 就要检验假设: , , (3.8)(1) 检验: 在 假设下, 可应用 检验: , , (3.9)其中 为矩阵 的对角线上第 个元素。对给定的检验水平 , 从 分布表中可查出与 对应的临界值 , 如果有 , 则拒绝假设, 即认为 与 0 有显著差异, 这说明 对 有重要作用不应剔除; 如果有 则接受假设 , 即认为 成立, 这说明 对 不起作用, 应予剔除。(2) 检验: 检验假设 , 亦可用服从自由度分别为 1 与 的 分布的统计量, (3.10)其中 为矩阵 的主对角线
7、上第 个元素。对于给定的检验水平 , 从 分布表中可查得临界 , 如果有 , 则拒绝假设 , 认为 对 有重要作用。如果 , 则接受假设 , 即认为自变量 对 不起重要作用, 可以剔除。一般一次检验只剔除一个自变量, 且这个自变量是所有不显著自变量中 值最小者, 然后再建立回归方程, 并继续进行检验, 直到建立的回归方程及各个自变量均显著为止。最后指出, 上述对各自变量进行显著性检验采用的两种统计量 与 实际上是等价的, 因为由(3.9)式及(3.10)式知, 有(3.11)例 3.2 对例 2.1 的回归方程各系数进行显著性检验。经计算: , 于是, 其中 0.002223, 0.00457
8、7。由(3.7)式知, , 查 分布表得, , 因为 , , 所以两个自变量 及 都是显著的。又由 , 说明体长 比胸围对体重 的影响更大。如果应用 检验, 查 分布表有 , 又由, , 因为 , , 因此 及 都是显著的, 均为重要变量, 应保留在回归方程中。(3) 偏回归平方和检验某一自变量是否显著, 还可应用偏回归平方和进行检验。个自变量 的回归平方和为, 如果自 个自变量中去掉 , 则剩下的 个自变量的回归平方和设为 , 并设, 则 就表示变量 在回归平方和 中的贡献, 称为 的偏回归平方和或贡献。可以证明, (3.12)偏回归平方和 越大, 说明 在回归方程中越重要, 对 的作用和影响越大, 或者说 对回归方程的贡献越大。因此偏回归平方和也是用来衡量每个自变量在回归方程中作用大小(贡献大小)的一个指标。例如在例 2.1 中, 和 的偏回归平方和分别为, , , 说明在回归方程中 的作用比 大。又如在例 2.2 中 及 的偏回归平方和分别为: , , , , 的值最小, 即 在回归方程中所起的作用最小, 最大, 说明 在回归方程中所起的作用最大。