1、1第四章练习题及参考解答4.1 假设在模型 中, 之间的相关系数为零,于是有人建议你进行如下回归:iiii uXY32132X与iii uXY231(1)是否存在 ?为什么?3且(2) 11会 等 于 或 或 两 者 的 某 个 线 性 组 合 吗 ?(3)是否有 ?3322 varrvarr 且练习题 4.1 参考解答:(1) 存在 。 因为32且 232322 iii iiii xxyy当 之间的相关系数为零时,离差形式的32X与 032ix有 同理有:2232 iii xyxy 3(2) 11会 等 于 或 的 某 个 线 性 组 合因为 ,且 ,23YX12YX13Y由于 ,则 2且
2、122X11333 X则 11123231 YYXY (3) 存在 。3322 varrvarr 且因为 231axi当 时,023r22232 varvr ii xr同理,有 33a4.2 在决定一个回归模型的“最优”解释变量集时人们常用逐步回归的方法。在逐步回归中既可采取每次引进一个解释变量的程序( 逐步向前回归) ,也可以先把所有可能的解释变量都放在一个多元回归中,然后逐一地将它们剔除 (逐步向后回归)。加2进或剔除一个变量,通常是根据 F 检验看其对 ESS 的贡献而作出决定的。根据你现在对多重共线性的认识,你赞成任何一种逐步回归的程序吗?为什么?练习题 4.2 参考解答:根据对多重共
3、线性的理解,逐步向前和逐步向后回归的程序都存在不足。逐步向前法不能反映引进新的解释变量后的变化情况,即一旦引入就保留在方程中;逐步向后法则一旦某个解释变量被剔出就再也没有机会重新进入方程。而解释变量之间及其与被解释变量的相关关系与引入的变量个数及同时引入哪些变量而呈现出不同,所以要寻找到“最优”变量子集则采用逐步回归较好,它吸收了逐步向前和逐步向后的优点。4.3 下表给出了中国商品进口额 Y、国内生产总值 GDP、居民消费价格指数 CPI。表 4.11 中国商品进口额、国内生产总值、居民消费价格指数资料来源:中国统计年鉴,中国统计出版社 2000 年、2008 年。请考虑下列模型: ittt
4、uCPIGDYlnlln3211)利用表中数据估计此模型的参数。2)你认为数据中有多重共线性吗?3)进行以下回归: itt itt vCPIGDBYA3211lnlnll 根据这些回归你能对数据中多重共线性的性质说些什么?4)假设数据有多重共线性,但 在 5%水平32和上个别地显著,并且总的 F 检验也是显著的。对这样的情形,我们是否应考虑共线性的问题?练习题 4.3 参考解答:(1) 参数估计结果如下(括号内为标准误)22ln()3.06157ln()1.057ln .9 2.9F.3GDPCIR进 口(2)居民消费价格指数的回归系数的符号不能进行合理的经济意义解释,且且 CPI 与进口之间
5、的简单相关系数呈现正向变动。可能数据中有多重共线性。年份商品进口额(亿元)国内生产总值(亿元)居民消费价格指数(1985=100)1985 1257.8 9016.0 100.01986 1498.3 10275.2 106.51987 1614.2 12058.6 114.31988 2055.1 15042.8 135.81989 2199.9 16992.3 160.21990 2574.3 18667.8 165.21991 3398.7 21781.5 170.81992 4443.3 26923.5 181.71993 5986.2 35333.9 208.41994 9960.1
6、 48197.9 258.61995 11048.1 60793.7 302.81996 11557.4 71176.6 327.91997 11806.5 78973.0 337.11998 11626.1 84402.3 334.41999 13736.4 89677.1 329.72000 18638.8 99214.6 331.02001 20159.2 109655.2 333.32002 24430.3 120332.7 330.62003 34195.6 135822.8 334.62004 46435.8 159878.3 347.72005 54273.7 183084.8
7、353.92006 63376.9 211923.5 359.22007 73284.6 249529.9 376.53计算相关系数:(3)最大的 CI=108.812,表明 GDP 与 CPI 之间存在较高的线性相关。 (4)分别拟合的回归模型如下:22lnY4.0971.86ln() t=(-5) 3.0 198.6GDPRF22lnY5.4.637ln(PI) t=(-1) (8090.8. 136.47CRF422ln()1.4380.6ln(PI) t=-95) (.7 28.710GDPCRF单方程拟合效果都很好,回归系数显著,可决系数较高,GDP 和 CPI 对进口分别有显著的单
8、一影响,在这两个变量同时引入模型时影响方向发生了改变,这只有通过相关系数的分析才能发现。(5)如果仅仅是作预测,可以不在意这种多重共线性,但如果是进行结构分析,还是应该引起注意。4.4 自己找一个经济问题来建立多元线性回归模型,怎样选择变量和构造解释变量数据矩阵 X 才可能避免多重共线性的出现?练习题 4.4 参考解答:本题很灵活,主要应注意以下问题:(1)选择变量时要有理论支持,即理论预期或假设;变量的数据要足够长,被解释变量与解释变量之间要有因果关系,并高度相关。(2)建模时尽量使解释变量之间不高度相关,或解释变量的线性组合不高度相关。4.5 克莱因与戈德伯格曾用 1921-1950 年(
9、1942-1944 年战争期间略去)美国国内消费 Y 和工资收入 X1、非工资非农业收入X2、农业收入 X3 的时间序列资料,利用 OLSE 估计得出了下列回归方程: 37.10 95.0 (1.09) (6) ()823245.13.FRXXY括号中的数据为相应参数估计量的标准误差。试对上述模型进行评析,指出其中存在的问题。练习题 4.5 参考解答:从模型拟合结果可知,样本观测个数为 27,消费模型的判定系数 ,F 统计量为 107.37,在 0.05 置信水平下查分95.02R子自由度为 3,分母自由度为 23 的 F 临界值为 3.028,计算的 F 值远大于临界值,表明回归方程是显著的
10、。模型整体拟合程度较高。依据参数估计量及其标准误,可计算出各回归系数估计量的 t 统计量值:除 外,其余的 值01238.1.0590.450.12.9,6.1,.69,.27 9tt t1tjt都很小。工资收入 X1 的系数的 t 检验值虽然显著,但该系数的估计值过大,该值为工资收入对消费边际效应,因为它为1.059,意味着工资收入每增加一美元,消费支出的增长平均将超过一美元,这与经济理论和常识不符。另外,理论上非工资非农业收入与农业收入也是消费行为的重要解释变量,但两者的 t 检验都没有通过。这些迹象表明,模型中存在严重的多重共线性,不同收入部分之间的相互关系,掩盖了各个部分对解释消费行为
11、的单独影响。4.6 理论上认为影响能源消费需求总量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能源转换技术等因素。为此,收集了中国能源消费总量 Y (万吨标准煤) 、国民总收入(亿元)X1( 代表收入水平)、国内生产总值 (亿元)X2(代表经济发展水平)、工业增加值(亿元)X3 、建筑业增加值(亿元 )X4、交通运输邮电业增加值(亿元)X5( 代表产业发展水平及产业结构) 、人均生活电力消费 (千瓦小时)X6(代表人民生活水平提高 )、能源加工转换效率(%)X7( 代表能源转换技术)等在 1985-2007 年期间的统计数据,具体如表 4.2 所示。表 4.12 19852
12、007 年统计数据能源消费国民总收入国内生产总值工业增加值建筑业增加值交通运输邮电增加值人均生活电力消费能源加工转换效率年份y X1 X2 X3 X4 X5 X6 X71985 76682 9040.7 9016 3448.7 417.9 406.9 21.3 68.291986 80850 10274.4 10275.2 3967 525.7 475.6 23.2 68.3251987 86632 12050.6 12058.6 4585.8 665.8 544.9 26.4 67.481988 92997 15036.8 15042.8 5777.2 810 661 31.2 66.541
13、989 96934 17000.9 16992.3 6484 794 786 35.3 66.511990 98703 18718.3 18667.8 6858 859.4 1147.5 42.4 67.21991 103783 21826.2 21781.5 8087.1 1015.1 1409.7 46.9 65.91992 109170 26937.3 26923.5 10284.5 1415 1681.8 54.6 66.001993 115993 35260 35333.9 14188 2266.5 2205.6 61.2 67.321994 122737 48108.5 48197
14、.9 19480.7 2964.7 2898.3 72.7 65.21995 131176 59810.5 60793.7 24950.6 3728.8 3424.1 83.5 71.051996 138948 70142.5 71176.6 29447.6 4387.4 4068.5 93.1 71.51997 137798 77653.1 78973 32921.4 4621.6 4593 101.8 69.231998 132214 83024.3 84402.3 34018.4 4985.8 5178.4 106.6 69.441999 133831 88189 89677.1 358
15、61.5 5172.1 5821.8 118.2 69.192000 138553 98000.5 99214.6 4003.6 5522.3 7333.4 132.4 69.042001 143199 108068.2 109655.2 43580.6 5931.7 8406.1 144.6 69.032002 151797 119095.7 120332.7 47431.3 6465.5 9393.4 156.3 69.042003 174990 135174 135822.8 54945.5 7490.8 10098.4 173.7 69.42004 203227 159586.7 15
16、9878.3 65210 8694.3 12147.6 190.2 70.712005 223319 183956.1 183084.8 76912.9 10133.8 10526.1 216.7 71.082006 246270 213131.7 211923.5 91310.9 11851.1 12481.1 249.4 71.242007 265583 251483.2 249529.9 107367.2 14014.1 14604.1 274.9 71.25资料来源:中国统计年鉴 ,中国统计出版社 2000、2008 年版。要求:1)建立对数多元线性回归模型,分析回归结果。2)如果决定
17、用表中全部变量作为解释变量,你预料会遇到多重共线性的问题吗?为什么?3)如果有多重共线性,你准备怎样解决这个问题?明确你的假设并说明全部计算。练习题 4.6 参考解答:(1)建立对数线性多元回归模型,引入全部变量建立对数线性多元回归模型如下 :生成: lny=log(y), 同样方法生成: lnx1,lnx2,lnx3,lnx4,lnx5,lnx6,lnx7.作全部变量对数线性多元回归,结果为:从修正的可决系数和 F 统计量可以看出,全部变量对数线性多元回归整体对样本拟合很好, ,各变量联合起来对能源消费影响显著。可是其中的 lnX3、lnX4、lnX6 对 lnY 影响不显著,而且 lnX2
18、、lnX5 的参数为负值,在经济意义上不合理。所以这样的回归6结果并不理想。(2) 预料此回归模型会遇到多重共线性问题, 因为国民总收入与 GDP 本来就是一对关联指标;而工业增加值、建筑业增加值、交通运输邮电业增加值则是 GDP 的组成部分。这两组指标必定存在高度相关。解释变量国民总收入(亿元)X1(代表收入水平) 、国内生产总值(亿元)X2( 代表经济发展水平)、工业增加值( 亿元)X3、建筑业增加值(亿元 )X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构)、人均生活电力消费 (千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率 (%)X7(代表能源转换技术)等很
19、可能线性相关,计算相关系数如下:可以看出 lnx1 与 lnx2、lnx3、lnx4、lnx5、lnx6 之间高度相关,许多相关系数高于 0.900 以上。如果决定用表中全部变量作为解释变量,很可能会出现严重多重共线性问题。(3)因为存在多重共线性,解决方法如下:A:修正理论假设,在高度相关的变量中选择相关程度最高的变量进行回归建立模型:而对变量取对数后,能源消费总量的对数与人均生活电力消费的对数相关程度最高,可建立这两者之间的回归模型。如 22ln9.30.41ln6 () 9 21.5yxRFB:进行逐步回归,直至模型符合需要研究的问题,具有实际的经济意义和统计意义。采用逐步回归的办法,去
20、检验和解决多重共线性问题。分别作 对 的一元回归,结果如下:一元回归结果:lnY1234567,ln,l,lnXXX变量 lnX1 lnX2 lnX3 lnX4 lnX5 lnX6 lnX7参数估计值 0.316 0.315 0.277 0.297 0.273 0.421 8.73t 统计量 14.985 14.62 9.718 13.22 11.717 16.173 4.648可决系数 0.914 0.911 0.818 0.893 0.867 0.926 0.507调整可决系数 0.910 0.906 0.809 0.888 0.861 0.922 0.484其中加入 lnX6 的方程调整
21、的可决系数最大, 以 lnX6 为基础, 顺次加入其他变量逐步回归。结果如下表: 变量 lnX1 lnX2 lnX3 lnX4 lnX5 lnX6 lnX7 2RlnX6lnX1-0.186(-0.698)0.666(1.891)0.920lnX6lnX2-0.251(-1.021)0.753(2.308)0.922lnX6lnX30.061(1.548)0.341(5.901)0.927lnX6lnX4-0.119(-0.897)0.585(3.167)0.921lnX6lnX5-0.623(-7.127)1.344(10.314)0.977lnX6lnX70.391(11.071)0.92
22、4经比较,新加入 lnX5 的方程调整可决系数改进最大, 各参数的 t 检验也都显著,但是 lnX5 参数的符号与经济意义不符合。若再加入其他变量后的逐步回归,若剔除不显著的变量和无经济意义的变量后, 仍为第一步所建只包含 lnX6 的一元回归模型。如果需要建立多元线性回归模型,则需寻找新的变量或改变模型形式。例如, 不取对数作全部变量多元线性回归,结果为:7可以看出还是有严重多重共线性。作逐步回归: 分别作一元回归得到:变量 X1 X2 X3 X4 X5 X6 X7参数估计值 0.7333 0.7353 1.6655 13.1909 10.8980 678.0058 19332.30t 统计
23、量 26.4698 25.3627 18.0257 25.9636 13.5147 22.4229 4.70242R0.9709 0.9684 0.9393 0.9697 0.8969 0.9599 0.51290.9695 0.9669 0.9364 0.9683 0.8920 0.9580 0.4897以 X1 为基础加入其他变量, 结果为:X1 X2 X3 X4 X5 X6 X7 2RX1,X2 6.6399(0.0022)-5.9308(0.0054)0.9785X1,X3 0.5512(0.0000)0.4349(0.0821)0.9726X1,X4 0.5040(0.3356)4.
24、1326(0.6580)0.9683X1,X5 1.0516(0.0000)-5.0269(0.013)0.9766X1,X6 1.0075(0.0088)-255.80(0.438)0.9690X1,X7 0.7499(0.0000)-813.44(0.5988)0.9684注: 括号中为 p 值.可以发现加入 X2、X5、X6、X7 后参数的符号不合理,加入 X4 后并不显著。只有加入 X3 后修正的可决系数有所提高,而且参数符号的经济意义合理, X3 参数估计值的 p 值为 0.0821,在 10%的显著性水平下是显著的。所以相对较为合理的模型估计结果可以为:4.7 在本章开始的“引子”
25、提出的“农业的发展反而会减少财政收入吗?”的例子中,如果所采用的数据如下表所示表 4.13 1978-2007 年财政收入及其影响因素数据年份 财政收入(亿元)CS 农业增加值(亿元)NZ 工业增加值(亿元)GZ 建筑业增加值(亿元)JZZ 总人口(万人)TPOP最终消费(亿元)CUM 受灾面积(千公顷)SZM1978 1132.3 1027.5 1607 138.2 96259 2239.1 507901979 1146.4 1270.2 1769.7 143.8 97542 2633.7 393701980 1159.9 1371.6 1996.5 195.5 98705 3007.9 4
26、45261981 1175.8 1559.5 2048.4 207.1 100072 3361.5 397901982 1212.3 1777.4 2162.3 220.7 101654 37148 331301983 1367 1978.4 2375.6 270.6 103008 4126.4 347101984 1642.9 2316.1 2789 316.7 104357 4846.3 318901985 2004.8 2564.4 3448.7 417.9 105851 5986.3 443651986 2122 2788.7 3967 525.7 107507 6821.8 4714
27、01987 2199.4 3233.0 4585.8 665.8 109300 7804.6 420901988 2357.2 3865.4 5777.2 810 111026 9839.5 508701989 2664.9 4265.9 6484 794 112704 11164.2 469911990 2937.1 5062.0 6858 859.4 114333 12090.5 384741991 3149.48 5342.2 8087.1 1015.1 115823 14091.9 554721992 3483.37 5866.6 10284.5 1415 117171 17203.3
28、 513331993 4348.95 6963.8 14188 2266.5 118517 21899.9 488291994 5218.1 9572.7 19480.7 2964.7 119850 29242.2 550431995 6242.2 12135.8 24950.6 3728.8 121121 36748.2 458211996 7407.99 14015.4 29447.6 4387.4 122389 43919.5 469891997 8651.14 14441.9 32921.4 4621.6 123626 48140.6 534291998 9875.95 14817.6
29、 34018.4 4985.8 124761 51588.2 501451999 11444.08 14770.0 35861.5 5172.1 125786 55636.9 499812000 13395.23 14944.7 4003.6 5522.3 126743 61516 546882001 16386.04 15781.3 43580.6 5931.7 127627 66878.3 522152002 18903.64 16537.0 47431.3 6465.5 128453 71691.2 471192003 21715.25 17381.7 54945.5 7490.8 12
30、9227 77449.5 545062004 26396.47 21412.7 65210 8694.3 129988 87032.9 371062005 31649.29 22420.0 76912.9 10133.8 130756 96918.1 3881882006 38760.20 24040.0 91310.9 11851.1 131448 110595.3 410912007 51321.78 28095.0 107367.2 14014.1 132129 128444.6 48992(资料来源:中国统计年鉴 2008 ,中国统计出版社 2008 年版)试分析:为什么会出现本章开始时所得到的异常结果?怎样解决所出现的问题?练习题 4.7 参考解答:(1)根据样本数据得到各解释变量的样本相关系数矩阵如下: 样本相关系数矩阵解释变量之间相关系数较高,特别是农业增加值、工业增加值、建筑业增加值、最终消费之间,相关系数都在 0.9 以上。这显然与第三章对模型的无多重共线性假定不符合。(2)解决方案:采用逐步回归的方式,可以得到没有共线性的回归模型,但可能存在设定偏误。合并工业增加值与建筑业增加值,得到财政收入与第二产业的回归。取对数再回归,可以减低共线性。
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。