1、第 3 章 多元线性回归思考与练习参考答案3.1 见教材 P64-653.2 讨论样本容量 n 与自变量个数 p 的关系,它们对模型的参数估计有何影响?答:在多元线性回归模型中,样本容量 n 与自变量个数 p 的关系是:np。如果 n=p 对模型的参数估计会带来很严重的影响。因为:1. 在多元线性回归模型中,有 p+1 个待估参数 ,所以样本容量的个数应该大于解释变量的个数,否则参数无法估计。2. 解释变量 X 是确定性变量,要求 ,表明设计矩阵()1rankpnXX 中的自变量列之间不相关,即矩阵 X 是一个满秩矩阵。若,则解释变量之间线性相关, 是奇异阵,则()1rankp 1()的估计不
2、稳定。3.3 证明 随机误差项 的方差 2的无偏估计。证明: 2 2122 2111 12 (),()()()()(1) ninnn nii i i iii iiSEeepppEeDhhhpep 3.4 一个回归方程的复相关系数 R=0.99,样本决定系数=0.9801,我们能断定这个回归方程就很理想吗?R2答:不能。复相关系数 R 与样本决定系 数都是用来表示回归方程2对原始数据拟合程度的好坏。样本决定系数取值在【0,1】区间内,2n一般来说, 越接近 1,即 取值越大,说明回归拟合的效果越好。R22但由于 的大小与样本容量 n 和自变量个数 p 有关,当 n 与 p 的值接近时, 容易接近
3、 1,说明 中隐含着一些虚假成分。而当样本2 2容量 n 较小,自变量个数 p 较大时,尽管 很大,但参数估计效果R2很不稳定。所以该题中不能仅仅因为 很大而断定回归方程很理想。3.5 如何正确理解回归方程显著性检验拒绝 ,接受 ?H00答:一般来说,当接受假设 时,认为在给定的显著性水平 之0下,自变量 , , 对因变量 y 无显著性影响,则通过 ,x12p x1, 去推断 y 就无多大意义。此时,一方面可能该问题本应该2p用非线性模型描述,我们误用线性模型描述了,使得自变量对因变量无显著影响;另一方面可能是在考虑自变量时,由于认识上的局限性把一些影响因变量 y 的自变量漏掉了,这就从两个方
4、面提醒我们去重新考虑建模问题。当拒绝 时,也不能过于相信该检验,认为该模型已经很完美。其H0实当拒绝 H 时,我们只能认为该回归模型在一定程度上说明了自变量 , , 与因变量 y 的线性关系。因为这时仍不能排除我们x12p漏掉了一些重要自变量。此检验只能用于辅助性的,事后验证性的目的。 (详细内容可参考课本 P95P96 评注。 )3.6 数据中心化和标准化在回归分析中的意义是什么?答:原始数据由于自变量的单位往往不同,会给分析带来一定的困难;又由于设计的数据量较大,可能会以为舍入误差而使得计算结果并不理想。中心化和标准化回归系数有利于消除由于量纲不同、数量级不同带来的影响,避免不必要的误差。
5、3.7 验证 ,12,jjyLp证明:多元线性回归方程模型的一般形式为: 012pxx其经验回归方程式为 ,012py又 ,012pyxx故 ,2()()()ppx中心化后,则有 ,12 ()i ppyxx左右同时除以 ,1()nyiiLy令 ,21(),njijjiLx ,2jp1221 () ()pipii iy y y yLxLLx样本数据标准化的公式为,,12,ijjiij iyxnL 1,2jp则上式可以记为 1212pi i i iyyyiipiLLxxxL则有,12,jjyLp3.8 验证3.9 验证决定系数 R2与 F 值之间的关系式: pnFR/)1(23.10 验证决定系数 R2与 F 值之间的关系式: pnFR/)1(2证明:2/,(1)11(1)/SRpFEnFSEpSRFpFnTSnnp