1、第三章 多元线性回归模型一、名词解释1、多元线性回归模型:在现实经济活动中往往存在一个变量受到其他多个变量影响的现象,表现在线性回归模型中有多个解释变量,这样的模型被称做多元线性回归模型,多元是指多个解释变量2、调整的可决系数 :又叫调整的决定系数,是一个用于描述多个解释变量对被解释变量的联合影响2R程度的统计量,克服了 随解释变量的增加而增大的缺陷,与 的关系为 。2R2211()nRk3、偏回归系数:在多元回归模型中,每一个解释变量前的参数即为偏回归系数,它测度了当其他解释变量保持不变时,该变量增加 1 单位对被解释变量带来的平均影响程度。4、正规方程组:采用 OLS 方法估计线性回归模型
2、时,对残差平方和关于各参数求偏导,并令偏导数为 0后得到的方程组,其矩阵形式为 。XY5、方程显著性检验:是针对所有解释变量对被解释变量的联合影响是否显著所作的检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出判断。二、单项选择题1、C:F 统计量的意义2、A:F 统计量的定义3、B:随机误差项方差的估计值 122knei4、A:书上 P92 和 P93 公式5、C:A 参看导论部分内容;B 在判断多重共线等问题的时候,很有必要;D 在相同解释变量情况下可以衡量6、C:书上 P99,比较 F 统计量和可决系数的公式即可7、A:书 P818、D:A 截距项可以不管它;B
3、 不考虑 beta0;C 相关关系与因果关系的辨析9、B:注意!只是在服从基本假设的前提下,统计量才服从相应的分布10、D:AB 不能简单通过可决系数判断模型好坏,还要考虑样本量、异方差等问题;三、多项选择题1、ACDE:概念性 2、BD:概念性 3、BCD:总体显著,则至少一个参数不为 04、BC:参考可决系数和 F 统计量的公式 5、AD:考虑极端情况,ESS=0,可发现 CE 错四、判断题、1、 2、 3、 4、:调整的可决系数 5、五、简答题1、 答:多元线性回归模型与一元线性回归模型的区别表现在如下几个方面:一是解释变量的个数不同;二是模型的经典假设不同,多元线性回归模型比一元线性回
4、归模型多了个“解释变量之间不存在线性相关关系”的假定;三是多元线性回归模型的参数估计式的表达更为复杂。2、 答:在满足经典假设的条件下,参数的最小二乘估计量具有线性性、无偏性以及最小性方差,所以被称为最优线性无偏估计量(BLUE)对于多元线性回归最小二乘估计的正规方程组,能解出唯一的参数估计量的条件是( ) -1 存X在,或者说各解释变量间不完全线性相关。六、计算分析题1、解:(1)预期 sibs 对劳动者受教育的年数有影响。因此在收入及支出预算约束一定的条件下,子女越多的家庭,每个孩子接受教育的时间会越短。根据多元回归模型偏回归系数的含义,sibs 前的参数估计值-0.094 表明,在其他条
5、件不变的情况下,每增加 1 个兄弟姐妹,受教育年数会减少 0.094 年,因此,要减少 1 年受教育的时间,兄弟姐妹需增加 1/0.094=10.6 个。(2)medu 的系数表示当兄弟姐妹数与父亲受教育的年数保持不变时,母亲每增加 1 年受教育的时间,其子女作为劳动者就会预期增加 0.131 年的教育时间。(3)首先计算两人受教育的年数分别为10.36+0.13112+0.21012=14.45210.36+0.13116+0.21016=15.816因此,两人的受教育年限的差别为 15.816-14.452=1.3642、解:(1) 在给定 5%显著性水平的情况下,进行 t 检验。参数的
6、t 值:tP0.364.58参数的 t 值:1t.72参数的 t 值:tU3.9065在 5%显著性水平下,自由度为 19-3-1=15 的 t 分布的临界值为 , 、 的参数0.25(1).3ttPtU显著不为 0,但不能拒绝 的参数为 0 的假设。1tP(2)回归式表明:影响工资水平的主要原因是当期的物价水平、失业率,前期的物价水平对他的影响不是很大,当期的物价水平与工资水平呈正向变动、失业率与工资水平呈相反变动,符合经济理论,模型正确。可以将 从模型删除.1t3、解:(1)ln(X 1)的系数含义是在其他条件不变时,Y 的绝对变化量与 X 的相对变动量之间的关系系数,即:Y 的绝对变化量
7、等于 X 的相对变动量乘以该系数,这里, Y=0.32ln(X1)0.32(X1/ X1)。由此,如果 X1 增加 10%,Y 会增加 0.032 个单位。【在进行 Ln 变换的时候,这种解释很重要】(2) 原假设 H0: ;备择假设 H1: ,10 经计算,t 统计量的值为 t=0.32/0.22=1.455。 在 5%的显著性水平下,自由度为 32-3=29 的 t 分布的临界值为 2.045,计算出的 t 值小于该临界值,所以不拒绝原假设。意味着销售额对 R在每亩施肥量不变的情况下,每增加 1 毫米的降雨量将使当年的玉米产量增加 5.33 吨/亩。(2) 在种地的一年中不施肥也不下雨的现
8、象同时发生的可能性很小,所以玉米的负产量不可能存在.事实上,这里的截距无实际意义。(3)如果 的真实值为 0.40,则存在一定偏误,但不能说估计值 是有偏估计。理由是 0.1 是F F的一个估计值,而所谓估计的有偏性是针对估计的期望来说的,即如果取遍所有可能的样本,这些参数F估计值的平均值与 0.4 有偏误的话,才能说估计是有偏的。所谓有偏估计或无偏估计,仅与估计方法和模型假设有关。(4) 不一定。即便该方程并不满足所有的经典模型假设,不是最佳线性无偏估计量, 的真实值RS也有等于 5.33 的可能性。因为有偏估计意味着参数估计的期望不等于参数本身,并不排除参数的某一估计值恰好等于参数的真实值
9、的可能性。9、解:(1) 4.023.5802.431.)(1YXB(2) /.(1)29ESkFRn3.)9,(05.F通过方程显著性检验。 (3) 18.5132 kneCS )756.240()(22 St的 99%的置倍区间为(-3.156 , 2.356)210、解:(1)直接给出了 P 值,所以没有必要计算 t 统计值以及查 t 分布表。根据题意,如果 p-值0.10,则我们拒绝参数为零的原假设。由于表中所有参数的 p 值都超过了 10%,所以没有系数是显著不为零的。但由此去掉所有解释变量,则会得到非常奇怪的结果。其实正如我们所知道的,在多元回去归中省略变量时一定要谨慎,要有所选择
10、。本例中,value、income、popchang 的 p 值仅比 0.1 稍大一点,在略掉unemp、localtax 、statetax 的模型 C 中,及进一步略掉 Density 的模型 D 中,这些变量的系数都是显著的。(2)针对联合假设 H0: i =0(i=1,5,6,7)的备择假设为 H1: i (i=1,5,6,7) 中至少有一个不为零。检验假设 H0,实际上就是对参数的约束的检验,无约束回归为模型 A,受约束回归为模型 D,检验统计值为 462.0)840/(763.(3.85)1/( eknRSFUR显然,在 H0 假设下,上述统计量服从 F 分布,在 5%的显著性水平
11、下,自由度为( 4,32)的 F 分布的临界值为 2.67。显然,计算的 F 值小于临界值,我们不能拒绝 H0,所以 i(i=1,5,6,7)是联合不显著的。(3)模型 D 中的 3 个解释变量全部通过了 10%水平下的显著性检验。尽管 R2 较小,残差平方和较大,但相对来说其 AIC 值最低,所以我们选择该模型为最优的模型。(4)预期 , , ,因为随着收入的增加;随着人口的增加,住房需求也会随之增30420加;随着房屋价格的上升,住房需求减少。回归结果与直觉相符,最优模型中参数估计值的符号为正确符号。六、上机练习题1、解:(1)(2)使用 Eviews 软件的计算结果如表所示Depende
12、nt Variable: Y Variable Coefficient Std. Error t-Statistic Prob. X1 104.3146 6.409136 16.27592 0X2 0.40219 0.116348 3.456776 0.0035C -0.975568 30.32236 -0.032173 0.9748R-squared 0.979727 Mean dependent var 755.15Adjusted R-squared 0.977023 S.D. dependent var 258.6859S.E. of regression 39.21162 Akaik
13、e info criterion 10.32684Sum squared resid 23063.27 Schwarz criterion 10.47523Log likelihood -89.94152 F-statistic 362.443Durbin-Watson stat 2.561395 Prob(F-statistic) 0可见学生购买课外书籍与其受教育年限及家庭收入水平有如下具体关系:120.97564.30.YX(-0.032) (16.276) (3.457)=0.979 7, =0.977 0, =362.442R2RF(3)将 =10, =480 代入回归方程,可得1XY
14、= 10 480=1235.13(元)0.97564.30.4由于-1(X)= 0.59730.48160.7848162759345. 【这个可用 excel 进行运算,详见 excel 文件本章数据(2011.5.9-ZP 更新版) 】因此,取 =(1 10 480 ) ,Y 均值的预测的标准差为0= = =20.230200()YSX236.70211849.在 5%的显著性水平下,自由度为 18-2-1=15 的 t 分布的临界值为 ,于是 Y 均值0.25(1).3t的 95%的预测区间为1235.13 2.13120.23 或 (1192.02 , 1278.24)同样容易得到 Y
15、 个值得预测的标准差为= = =44.12021001()YSX236.7128946.于是,Y 个值的 95%的预测区间为1235.13 2.13144.12 或 (1141.11 , 1329.14)2、解:(1)Eviews 软件回归结果如表所示。Dependent Variable: LOG(Y) Variable Coefficient Std. Error t-Statistic Prob. LOG(P1) -0.502122 0.109891 -4.569294 0.0002LOG(P2) 0.146868 0.099006 1.48342 0.1553LOG(P3) 0.087
16、185 0.099852 0.873137 0.3941LOG(X) 0.345257 0.082565 4.181649 0.0006C -0.73152 0.296947 -2.463467 0.0241R-squared 0.982474 Mean dependent var 1.361301Adjusted R-squared 0.978579 S.D. dependent var 0.187659S.E. of regression 0.027465 Akaike info criterion -4.162123Sum squared resid 0.013578 Schwarz c
17、riterion -3.915276Log likelihood 52.86441 F-statistic 252.2633Durbin-Watson stat 1.82482 Prob(F-statistic) 01230.7315.40.52.4690.87InYInXIPInInP(-2.463)(4.182) ( -4.569) (1.483) (0.873)=0.9786 , =252.26 , =0.01352RFRS容易验证,家庭收入水平与鸡肉的价格对鸡肉的消费需求有显著的影响,而猪肉价格及牛肉价格对鸡肉的消费影响不显著,尤其是牛肉价格的影响很小。但方程总体的线性关系是显著的。(
18、2)那么是否猪肉价格与牛肉价格真的对鸡肉的消费需求没有影响呢?可检验如下原假设: : =0H3=04对 关于 , 做回归得到下表所示的结果。YX1PDependent Variable: LOG(Y) Variable Coefficient Std. Error t-Statistic Prob. LOG(X) 0.451547 0.024554 18.38966 0LOG(P1) -0.372735 0.063104 -5.906668 0C -1.125797 0.08842 -12.73237 0R-squared 0.980287 Mean dependent var 1.36130
19、1Adjusted R-squared 0.978316 S.D. dependent var 0.187659S.E. of regression 0.027634 Akaike info criterion -4.218445Sum squared resid 0.015273 Schwarz criterion -4.070337Log likelihood 51.51212 F-statistic 497.2843Durbin-Watson stat 1.877706 Prob(F-statistic) 011.2580.41.372InYInXInP(-12.73) (18.39)
20、(-5.91)=0.9783 , =497.28, =0.01532RFRS为了检验原假设,求如下的 统计量:()/2/3410.15.8.2RUS在 5%的显著性水平下,自由度为(2,18)的 F 分布的临界值为 =3.55,因此,没有理由0.5(2,18)F拒绝原假设,即该地区猪肉与牛肉价格确实对家庭的鸡肉消费需求不产生显著影响。第四章 随机解释变量问题一、名词解释1、随机解释变量:指在现实经济现象中,解释变量不是可控的,即解释变量的观测值具有随机性,并且与模型的随机干扰项可能有相关关系,这样的解释变量称为随机解释变量2、工具变量:顾名思义是在模型估计过程中被作为工具使用的变量,用以替代与
21、随机干扰项相关的随机解释变量。二、单项选择题1、C:书 P126 2、D:书上 P126 3、D:书上 P1244、D:P187 DW 检验的 5 个条件 5、D:书上 P126-127 的三个条件三、判断题1、:不一定,分三种情况 2、:书上 P129 三点特别注意3、四、简答题估计的一致性是指,随着样本容量的增加,即使当 时,参数估计量依概率收敛于参数的真值,n即有: 。lim()nP【P129 有简单证明过程】对于一元线性回归模型: 01tttYX 在第二章曾得如下最小二乘估计量: 1122t txyx 如果 同期相关,则估计量有偏且不一致,这时需要用一个与 高度相关而与 同期无关ttX
22、和 t t的工具变量 来代替 进行 OLS 估计,这就是所谓的工具变量法。tZt 这时正规方程组易得: 11i izyzxx 两边取概率极限得: 1 11lim(,)li()i tiPzCovZnPXx五、计算分析题1、解:(1)由于地方政府往往是根据过去的经验、当前的经济状况以及期望的经济发展前景来定制地区最低限度工资水平的,而这些因素没有反映在上述模型中,而是被归结到了模型的随机扰动项中,因此MIN1 与 不仅异期相关,而且往往是同期相关的,这将引起 OLS 估计量的偏误,甚至当样本容量增大时也不具有一致性。(2)全国最低限度的制定主要根据全国国整体的情况而定,因此 MIN 基本与上述模型
23、的随机扰动项无关。(3)由于地方政府在制定本地区最低工资水平时往往考虑全国的最低工资水平的要求,因此 MIN1与 MIN 具有较强的相关性。结合(2)知 MIN 可以作为 MIN1 的工具变量使用。2、能消除。在基本假设下, , 与 应是不相关的,由此知,由 与 估计出的 应与 不1tX2tt1tX2ttYt相关。 【原模型存在同期相关问题,因为 与 相关。但 , 与随机干扰项之间没有相关性。所1tYt1t2t以,可以用 , 作为 的工具变量,由 , 估计得到 ,可以消除 与随机干扰项之间的同1tX2tt t2tXtYt期相关问题。 】六、上机练习题1、解:用EViews软件得如下结果:Dep
24、endent Variable: TMethod: Two-Stage Least SquaresDate: 05/16/08 Time: 21:58Sample: 1 9Included observations: 9Instrument list: ZVariable Coefficient Std. Error t-Statistic Prob. C 0.905199 0.546501 1.656354 0.1416GDP 0.669725 0.074876 8.944499 0.0000R-squared 0.938650 Mean dependent var 5.444444Adju
25、sted R-squared 0.929885 S.D. dependent var 2.297341S.E. of regression 0.608318 Sum squared resid 2.590354F-statistic 80.00407 Durbin-Watson stat 1.605439Prob(F-statistic) 0.000044由此可知税收函数的估计结果为:T=0.9052+0.6697GDP(1.65) (8.94)R2=0.9387 F=80.00 D.W.=1.605【操作过程】(1)创建workfile(2)选择第一个选项,并输入observation为9,再点击OK(3)打开工作小窗口后,点击QUICK,EMPTY GROUP(),打开数据录入界面(4)在新的group 小窗口中,将数据黏贴至此。点击samp+/-可更改变量名