1、实用回归分析第四版第一章 回归分析概述1.3 回归模型中随机误差项 的意义是什么?答: 为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究 y 与 x1,x2.xp 的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。1.4 线性回归模型的基本假设是什么?答:线性回归模型的基本假设有:1.解释变量 x1.x2.xp 是非随机的,观测值xi1.xi2.xip 是常数。2.等方差及不相关的假定条件为E(i)=0 i=1,2. Cov
2、(i,j)=23.正态分布的假定条件为相互独立。4.样本容量的个数要多于解释变量的个数,即 np.第二章 一元线性回归分析思考与练习参考答案 2.1 一元线性回归有哪些基本假定?答: 假设 1、解释变量 X 是确定性变量,Y 是随机变量; 假设 2、随机误差项 具有零均值、同方差和不序列相关性:E(i)=0 i=1,2, ,nVar (i)=2 i=1,2, ,nCov(i, j)=0 ij i,j= 1,2, ,n假设 3、随机误差项 与解释变量 X 之间不相关:Cov(Xi, i)=0 i=1,2, ,n假设 4、 服从零均值、同方差、零协方差的正态分布iN(0, 2 ) i=1,2, ,
3、n2.3 证明(2.27 式) ,e i =0 ,e iXi=0 。证明:n iiini XYYQ1 21021 )()( 其中:即: ei =0 ,e iXi=02.5 证明 是 0 的无偏估计。证明: )1)()( 110 niixini YLXYEYE ) )()( 1011 iixiniixini XLX 01010 )()( ixiniixini ELE2.6 证明证明: ) ()1()1()( 1020 iixiniixini XVarLXYLXVarr 2212 )()( xxixini n2.7 证明平方和分解公式:SST=SSE+SSR证明:2.8 验证三种检验的关系,即验证
4、:(1) ;(2))(rnt 21)2/(tLnSERFx01 i iiiiYXeY)()()22120 xniir ni iiinii YYST1212 ()niiii iiii 12112 )SE)n1i2iin1i2i 010Q证明:(1) 2 2(2)(2)1yxyxxrLrLL nrrt SEnSESET (2) 22 220111111()()()()nnn ni i i i xi i i iSRyyxyxL22/()xLFtEnA2.9 验证(2.63)式: 21)Lx(n()eVarii 证明: 0112222var()r()vr()r()cov(,)co,()1ii iiii
5、 iiiixxixeyyynLnL其中: 222 111)()( )(,)(, (,( xixi ni ixiini iiii LLyyCovyCovx 2.10 用第 9 题证明2nei是 2 的无偏估计量证明: 2221112()()()var)(nni ii inii i xEEyEeeLn第三章1.一个回归方程的复相关系数 R=0.99,样本决定系数 R2=0.9801,我们能判断这个回归方程就很理想吗?答:不能断定这个回归方程理想。因为:1. 在样本容量较少,变量个数较大时,决定系数的值容易接近 1,而此时可能 F 检验或者关于回归系数的 t 检验,所建立的回归方程都没能通过。2.
6、样本决定系数和复相关系数接近于 1 只能说明 Y 与自变量X1,X2,Xp 整体上的线性关系成立,而不能判断回归方程和每个自变量是显著的,还需进行 F 检验和 t 检验。3. 在应用过程中发现,在样本容量一定的情况下,如果在模型中增加解释变量必定使得自由度减少,使得 R2往往增大,因此增加解释变量(尤其是不显著的解释变量)个数引起的 R2的增大与拟合好坏无关。2.被解释变量 的期望值与解释变量 的线性方程为:YkX,2101()EX(3-2)称为多元总体线性回归方程,简称总体回归方程。对于 组观测值 ,其方程组形式为:n ),21(,21 niYkiii 0 (,)iiikiiXX 21*,.
7、)jynj jiLjpXj ij中: (3-3)即 nknnn kXXY 210 222 11101其矩阵形式为= +nY21 knnkXX 2121210n21即(3-4)其中为被解释变量的观测值向量; 为解释1nY2 )1(knXknnkX 212121变量的观测值矩阵; 为总体回归参数向量; 为随机误差项向量。(1)kk210 1n2多元回归线性模型基本假定:课本 P57第四章4.3 简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。在误差项等方差不相关的条件下
8、,普通最小二乘估计是回归参数的最小方差线性无偏估计。然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。由 OLS 求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。加权最小二乘法的方法:4.4 简述用加权最小二乘法消除多元线性回归中异方差性的思想与方法。答:运用加权最小二乘法消除多元线性回归
9、中异方差性的思想与一元线性回归的类似。多元线性回归加权最小二乘法是在平方和中加入一个适当的权数,以调整各项在平方和中的作用,加权最小二乘的离差平方和为:iw(2)ni ipiip xxywQ1 21010 )( ),( 加权最小二乘估计就是寻找参数 的估计值 使式p,10 pww,10(2)的离差平方和 达极小。所得加权最小二乘经验回归方程记做w220111()()NNwiiiiQyyx2_2_02()11,iwiiiwwkxiiimiiiyi=中中(3)pwwwxxy10多元回归模型加权最小二乘法的方法:首先找到权数 ,理论上最优的权数 为误差项方差 的倒数,即i i 2i(4)21iiw误
10、差项方差大的项接受小的权数,以降低其在式(2)平方和中的作用; 误差项方差小的项接受大的权数,以提高其在平方和中的作用。由(2)式求出的加权最小二乘估计 就是参数 的最小方差线性无偏估pww,10 p,10计。一个需要解决的问题是误差项的方差 是未知的,因此无法真正按照式2i(4)选取权数。在实际问题中误差项方差 通常与自变量的水平有关(如误差i项方差 随着自变量的增大而增大),可以利用这种关系确定权数。例如 与2i 2i第 j 个自变量取值的平方成比例时, 即 =k 时, 这时取权数为2iijx (5)21ijixw更一般的情况是误差项方差 与某个自变量 (与|e i|的等级相关系数最ijx
11、大的自变量)取值的幂函数 成比例,即 =k ,其中 m 是待定的未知参数。mijx2iij此时权数为(6)mijixw1这时确定权数 的问题转化为确定幂参数 m 的问题,可以借助 SPSS 软件解i决。第五章5.3 如果所建模型主要用于预测,应该用哪个准则来衡量回归方程的优劣?答:如果所建模型主要用于预测,则应使用 统计量达到最小的准则来衡量回pC归方程的优劣。5.4 试述前进法的思想方法。答:前进法的基本思想方法是:首先因变量 Y 对全部的自变量 x1,x2,.,xm 建立m 个一元线性回归方程, 并计算 F 检验值,选择偏回归平方和显著的变量(F值最大且大于临界值)进入回归方程。每一步只引
12、入一个变量,同时建立m1 个二元线性回归方程,计算它们的 F 检验值,选择偏回归平方和显著的两变量变量(F 值最大且大于临界值)进入回归方程。在确定引入的两个自变量以后,再引入一个变量,建立 m2 个三元线性回归方程,计算它们的 F 检验值,选择偏回归平方和显著的三个变量(F 值最大)进入回归方程。不断重复这一过程,直到无法再引入新的自变量时,即所有未被引入的自变量的 F 检验值均小于 F 检验临界值 F(1,n-p-1),回归过程结束。5.5 试述后退法的思想方法。答:后退法的基本思想是:首先因变量 Y 对全部的自变量 x1,x2,.,xm 建立一个m 元线性回归方程, 并计算 t 检验值和
13、 F 检验值,选择最不显著(P 值最大且大于临界值)的偏回归系数的自变量剔除出回归方程。每一步只剔除一个变量,再建立 m1 元线性回归方程,计算 t 检验值和 F 检验值,剔除偏回归系数的 t检验值最小(P 值最大)的自变量,再建立新的回归方程。不断重复这一过程,直到无法剔除自变量时,即所有剩余 p 个自变量的 F 检验值均大于 F 检验临界值 F(1,n-p-1) ,回归过程结束。第六章消除多重共线性的方法7.2 岭回归的定义及统计思想是什么?答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(XX) -1 为奇异时,给 XX 加上一个正常数矩阵 D, 那么
14、 XX+D 接近奇异的程度就会比 XX 接近奇异的程度小得多,从而完成回归。但是这样的回归必定丢失了信息,不满足 blue。但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。7.3 选择岭参数 k 有哪几种方法?答:最优 是依赖于未知参数 和 的,几种常见的选择方法是:2岭迹法:选择 的点能使各岭估计基本稳定,岭估计符号合理, 1 0k回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多;方差扩大因子法: ,其对角线元 2 11()()ckXkIXkI是岭估计的方差扩大因子。要让 ;()jck 0jc残差平方和:满足 成立的最大的 值。 3 ()SEkk7.4 用岭回归方
15、法选择自变量应遵循哪些基本原则?答:岭回归选择变量通常的原则是:1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;2. 当 k 值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随着 k 的增加迅速趋近于零。像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除;3. 去掉标准化岭回归系数很不稳定的自变量。如果有若干个岭回归系数不稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。8 章主成分回归建模的思想与步骤偏最小二乘建模的思想与步骤两个论述,在课本上