1、 中国粮食产量影响因素分析 影响粮食 总产量 的因素有很多,有的影响因素可能会对粮食产量的预测产生直接的影响,而有些因素的影响可以忽略。 对粮食产量 影响 显著的因素是必须要考虑的, 影响不是很显著的可以忽略。 下面主要选取农业机械总动力、有效灌溉面积、化肥施用量、农村用电量、 粮食作物 播种面积、受灾面积 这六个因素来探讨他们对粮食总产量的影响。这些变量分别用下面的字母表示。 y:粮食总产量 (万吨) x1:农业机械总动力(万千瓦) x2:有效灌溉面积(千公顷) x3:化肥施用量(万吨) x4:农村用电量(亿千瓦小时) x5: 粮食 作物 播种面积( 千公顷 ) x6: 成灾面积 (千公顷)
2、 通过查阅 各年的 中国统计年鉴,搜集整理了从 1991 年到 2010 年的粮食总产量、 农业机械总动力、有效灌溉面积、化肥施用量、农村用电量、农作物播种面积、 成 灾面积的数据。见下表(表一) 表一:各年的粮食总产量及相关指标数据 shijian y x1 x2 x3 x4 x5 x6 1991 43529 29388.6 47800.1 2805.1 963.2 112314 27814 1992 44266 30308.4 48590.1 2930.2 1106.9 110560 25893 1993 45649 31816.6 48727.9 3151.9 1244.8 110509
3、 23134 1994 44510 33802.5 48759.1 3317.9 1473.9 109544 31382 1995 46662 36118.1 49281 3593.7 1655.7 110060 22268 1996 50454 38546.9 50381 3827.9 1812.7 112548 21234 1997 49417.1 42015.6 51239 3980.7 1980.1 112912 30307 1998 51229.5 45207.7 52296 4083.7 2042.1 113787 25181 1999 50838.6 48996.1 53158
4、4124.3 2173.4 113161 26734 2000 46217.5 52573.6 53820 4146.4 2421.3 108463 34374 2001 45263.7 55172.1 54249 4253.8 2610.8 106080 31793 2002 45705.8 57929.9 54355 4339.4 2993.4 103891 27160 2003 43069.5 60386.5 54014 4411.6 3432.9 99410 32516 2004 46946.9 64027.9 54478 4636.6 3933 101606 16297 2005 4
5、8402.2 68397.8 55029 4766.2 4375.7 104278 19966 2006 49804.2 72522.1 55750 4927.7 4895.8 104958 24632 2007 50160.3 76589.6 56518 5107.8 5509.9 105638 25064 2008 52870.9 82190.4 58472 5239 5713.2 106793 22283 2009 53082.1 87496.1 59261 5404.4 6104.4 108986 21234 2010 54647.7 92780.5 60348 5561.7 6632
6、.3 109876 18538 数据来源:中国统计年鉴 要想知道哪些因素对粮食总产量的影响显著,下面用 一些模型方法和 Eviews软件 对数据进行分析。 1. 多元线性回归: 1.1 最小二乘法对数据进行回归 用 最小二乘法对数据进行回归 ,编写程序及相关结果如下。 编写程序: LS y c x1 x2 x3 x4 x5 x6 Eviews运行结果: Dependent Variable: Y Method: Least Squares Date: 04/18/12 Time: 13:29 Sample: 1991 2010 Included observations: 20 Variabl
7、e Coefficient Std. Error t-Statistic Prob. C -59476.77 17101.57 -3.477854 0.0041 X1 -0.474401 0.194104 -2.444054 0.0295 X2 0.999522 0.549567 1.818744 0.0921 X3 5.260176 0.777593 6.764690 0.0000 X4 2.566848 1.123099 2.285504 0.0397 X5 0.495208 0.053717 9.218897 0.0000 X6 -0.134343 0.031293 -4.293066
8、0.0009 R-squared 0.984131 Mean dependent var 48136.30 Adjusted R-squared 0.976806 S.D. dependent var 3424.003 S.E. of regression 521.4577 Akaike info criterion 15.62035 Sum squared resid 3534935. Schwarz criterion 15.96886 Log likelihood -149.2035 Hannan-Quinn criter. 15.68838 F-statistic 134.3647 D
9、urbin-Watson stat 2.566516 Prob(F-statistic) 0.000000 结果分析:从上面的 运行结果 可以看出 方程的拟合优度 R2=0.984,调整后的拟合优度为 0.9768,说明模型拟合效果很好。 F值较大,且 P值 0.01,表明 方程 从整体上有较好的解释能力。但是在 5%的显著水平下, x2(有效灌溉面积)没有通过 t检验,另外 y(粮食总产量 )与 x1(农业机械总动力 )成负相关,这与经济意义上的是有矛盾的,说明变量之间 可能存在多重共线性 。 1.2 多重共线性的检验和处理 相关系数矩阵 通过对变量间简单相关系数的研究,发现各变量之间都存在
10、相关关系 。 方差扩大因子法检验多重共线性 将 X1作为因变量与其他解释变量作回归的结果 Dependent Variable: X1 Method: Least Squares Date: 04/18/12 Time: 13:46 Sample: 1991 2010 Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. C -80523.42 9556.148 -8.426346 0.0000 X2 2.682415 0.242148 11.07759 0.0000 X3 -0.486127 1
11、.062752 -0.457423 0.6544 X4 5.608573 0.380076 14.75645 0.0000 X5 -0.210536 0.048003 -4.385860 0.0006 X6 -0.001723 0.043085 -0.039988 0.9687 R-squared 0.999035 Mean dependent var 55313.35 Adjusted R-squared 0.998690 S.D. dependent var 19839.56 S.E. of regression 717.9924 Akaike info criterion 16.2341
12、2 Sum squared resid 7217184. Schwarz criterion 16.53284 Log likelihood -156.3412 Hannan-Quinn criter. 16.29243 F-statistic 2898.603 Durbin-Watson stat 1.783091 Prob(F-statistic) 0.000000 方差扩大因子: 999.0-1 1-1 1 21xRVIF1000 20,说明解释变量 x1与其它解释变量存在高度的线性相关。 结论: 通过 模型的 R2值和参数的 t检验及相应的经济意义, 相关系数矩阵和方差扩大因子法 的多
13、重共线性检验,发现模型存在严重的多重共线性。 运用逐步回归法修正多重共线性 通过逐步回归法首先引入 x3,接着引入 x5,最后引入 x6,得到最优模型如下。 逐步回归的最优模型 Dependent Variable: Y Method: Least Squares Date: 04/18/12 Time: 14:11 Sample: 1991 2010 Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. C -29332.38 5076.961 -5.777547 0.0000 X3 4.037
14、809 0.217154 18.59424 0.0000 X5 0.590800 0.039977 14.77851 0.0000 X6 -0.140937 0.031675 -4.449505 0.0004 R-squared 0.972236 Mean dependent var 48136.30 Adjusted R-squared 0.967030 S.D. dependent var 3424.003 S.E. of regression 621.7174 Akaike info criterion 15.87970 Sum squared resid 6184521. Schwar
15、z criterion 16.07885 Log likelihood -154.7970 Hannan-Quinn criter. 15.91858 F-statistic 186.7610 Durbin-Watson stat 1.872382 Prob(F-statistic) 0.000000 结果分析:从上面的最优模型可以得出 方程的拟合优度 R2=0.972,调整后的拟合优度为 0.967,说明模型拟合效果很好。 F值较 大,且 P值 0.01,表明方程从整体上有较好的解释能力。在 5%的显著水平下,常数项、 x3、 x5、 x6都通过 t检验,且 x3、 x5、 x6与 y的关系
16、与经济意义符合,所以 此模型比较好。 1.3 序列相关检验 图示法 检验序列相关: e 与 e(-1)的散点图 从上面 e与 e(-1)的散点图可以看出 分布 无规律, 故 无自相关现象发生。 故不存在序列相关。 DW 检验: 在 5%的显著水平下, n=20, k=4, 查表的: dL= 1 dU=1.68 ,又 dU d4-dU, 所以不存在序列相关。 结论: 由图示法和 DW 检验, 都得出不存在序列相关 的结论 。故随机扰动项不存在序列相关。 1.4 异方差检验 图示法: 预测值 yf和残差平方的散点图 从上面的预测值 yf 和残差平方的散点图可以看出两者之间没有规律性,故不存在异方差
17、。 戈德菲尔特 夸特 将自变量的 20个样本值从小到大排列,去掉中间的四个样本,剩下的划分为两组,每组样本有 8个,自由度为 4。对每组样本分别求出回归模型,在求出各自的残差平方和RSS1和 RRS2,得到统计量 F。 1991年 1998年的样本回归结果 Dependent Variable: Y Method: Least Squares Date: 04/18/12 Time: 18:28 Sample: 1991 1998 Included observations: 8 Variable Coefficient Std. Error t-Statistic Prob. C -2599
18、0.10 16565.18 -1.568960 0.1917 X3 4.751595 0.503412 9.438782 0.0007 X5 0.544577 0.156390 3.482173 0.0253 X6 -0.163259 0.054696 -2.984811 0.0405 R-squared 0.982100 Mean dependent var 46964.58 Adjusted R-squared 0.968674 S.D. dependent var 3007.449 S.E. of regression 532.2916 Akaike info criterion 15.
19、69911 Sum squared resid 1133337. Schwarz criterion 15.73883 Log likelihood -58.79645 Hannan-Quinn criter. 15.43121 F-statistic 73.15260 Durbin-Watson stat 2.693181 Prob(F-statistic) 0.000597 2003年 -2010年的样本回归结果 Dependent Variable: Y Method: Least Squares Date: 04/18/12 Time: 18:28 Sample: 2003 2010
20、Included observations: 8 Variable Coefficient Std. Error t-Statistic Prob. C -16529.06 31946.29 -0.517401 0.6322 X3 5.379611 4.338631 1.239933 0.2828 X5 0.395260 0.498584 0.792765 0.4723 X6 -0.093577 0.066889 -1.398997 0.2344 R-squared 0.976798 Mean dependent var 49872.98 Adjusted R-squared 0.959397
21、 S.D. dependent var 3764.186 S.E. of regression 758.4912 Akaike info criterion 16.40739 Sum squared resid 2301235. Schwarz criterion 16.44711 Log likelihood -61.62957 Hannan-Quinn criter. 16.13949 F-statistic 56.13359 Durbin-Watson stat 2.456816 Prob(F-statistic) 0.001002 F=RRS2/RSS1=758.4912/532.29
22、16=1.425 查表: F0.05=6.39, 1 F F0.05=6.39, 因此残差不存在异方差。 格莱泽检验: 通过将残差与各个变量进行回归,发现没有任何一个回归模型通过检验,所以原模型不存在异方差。 怀特检验: 怀特检验结果 Heteroskedasticity Test: White F-statistic 1.330035 Prob. F(9,10) 0.3302 Obs*R-squared 10.89681 Prob. Chi-Square(9) 0.2828 Scaled explained SS 4.040587 Prob. Chi-Square(9) 0.9087 从上面
23、的结果中可以看出: Obs*R-squared=10.8968,其相伴概率为 0.2828,故接受零假设,即认为模型不存在异方差。 结论: 通过图示法、戈德菲尔特 夸特检验、格莱泽检验和怀特检验,都得出模型不存在异方差的结论,所以模型不存在异方差 。 通过多重共线性,异方差、序列相关的检验,最终求得 粮食总产量 的最优模型为:逐步回归的最优模型 ,其中变量是 x3:化肥施用量(万吨) 、 x5:粮食作物播种面积(千公顷) 、 x6:成灾面积(千公顷) 。 粮食总产量的模型可表示为: y=-29332.38 + 4.037809*x3 + 0.5908*x5 - 0.140937*x6 1.5
24、1990 年的粮食总产量 预测 y:粮食总产量(万吨) x1:农业机械总动力(万千瓦) x2:有效灌溉面积(千公顷) x3:化肥施用量(万吨) x4:农村用电量(亿千瓦小时) x5:粮食作物播种面积(千公顷) x6:成灾面积(千公顷) 根据 1991年的中国统计年鉴, 查到了 1991年的粮食总产量、农 业机械总动力、有效灌溉面积、化肥施用量、农村用电量、粮食作物播种面积、成灾面积的相关数据见下表。 1991年的相关数据 y X1 X2 X3 X4 X5 X6 44624.3 28707.7 47403.1 2590.3 844.5 113466 17819 根据得到的粮食总产量模型 y=-2
25、9332.38+4.037809*x3+0.5908*x5 - 0.140937*x6将 1991年的 化肥施用量、粮食作物播种面积、成灾面积的相关数据 代入到粮食总产量模型中,得到 1991年的粮食总产量预测值。 预测值: y =-29332.38 + 4.037809*2590.3 + 0.5908*113466 - 0.140937*17819=45651.11 和实际的 44624.3相比,误差为 2.3%,预测的结果基本上还是可以的。 区间预测: 根据 1991年的预测值, 1991年的影响粮食总产量的显著影响因素化肥施用量、粮食作物播种面积、成灾面积的相关数据及模型的结果可以对 1
26、991年的粮食总产量进行区间预测,其步骤和过程见下面 。 01020001020000020100)(1)1()(1)1()(%11 0 0, . . . . . . ,1X BXY XXXXSEkntYYXXXXSEkntYSEYBXYxxx k :其中的置信区间为的,则预测值给出显著性水平代入上式求得预测值给出解释变量的预测值对于模型1. 首先定义一个 20行 4列的 X矩 阵, 编程为: matrix(20,4) X 矩阵 X中的元素如下表。 矩阵 X中的元素 X3 X5 X6 1.000000 2805.100 112314.0 27814.00 1.000000 2930.200 1
27、10560.0 25893.00 1.000000 3151.900 110509.0 23134.00 1.000000 3317.900 109544.0 31382.00 1.000000 3593.700 110060.0 22268.00 1.000000 3827.900 112548.0 21234.00 1.000000 3980.700 112912.0 30307.00 1.000000 4083.700 113787.0 25181.00 1.000000 4124.300 113161.0 26734.00 1.000000 4146.400 108463.0 3437
28、4.00 1.000000 4253.800 106080.0 31793.00 1.000000 4339.400 103891.0 27160.00 1.000000 4411.600 99410.00 32516.00 1.000000 4636.600 101606.0 16297.00 1.000000 4766.200 104278.0 19966.00 1.000000 4927.700 104958.0 24632.00 1.000000 5107.800 105638.0 25064.00 1.000000 5239.000 106793.0 22283.00 1.00000
29、0 5404.400 108986.0 21234.00 1.000000 5561.700 109876.0 18538.00 2. 定义一个行向量 x0,其中的元素是 1和 1991年的 化肥施用量、粮食作物播种面积、成灾面积的相关数据 。 编程: Rowvector(4) x0 X0中的相关数据 1 2590.3 113466 17819 3. 令 XXXXT 10 )( 编程为: matrix T=x0*inverse(transpose(x)*X)*transpose(x0) 求 得 T=0.594501 令 010 )(1 XXXXU 编程为: genr U=sqr(1+0.594
30、501) 求 得 U=1.262736 由最优的模型得出: SE=758.4912 取 显著水平 =0.05, )1(2 knt= )16()1320( 0 2 5.02/05.0 tt 2.12 ,而 SE=758.4912。将相关的数据代入预测区间的公式中01020001020 )(1)1()(1)1( XXXXSEkntYYXXXXSEkntY 得到 1991年的粮食总产量的预测值 11.45651Y1991 的 95%置信区间为: 4 7 6 8 1 . 5 9 1 2 4 3 6 2 0 . 6 3 :4 8 1 1 8 5.2 0 3 011.4 5 6 5 15 9 4 5 0
31、1.014 9 1 2.7 5 812.211.4 5 6 5 1,即 最后得到 1991年的粮食总产量的预测值的 95%的置信区间为: 43620.63,47681.5912 而 1991年粮食总产量的真实值为: 44624.3,在其 95%的置信区间中 ,可见预测比较好。 2. 幂函数模型 对于粮食总产量的影响因素模型,除了一般的多元线性回归模型外, C-D 生产函数模型也比较实用,生产函数一词是由美国数学家 Charles.Cobb 和经济学家Paul.Douglas 提出来的。 他们利用 20 世纪初美国的历史统计资料,展开了资本投入( K)和劳动投入( L)对产量( Y)的影响研究
32、,得出了一种生产函数 。 这种生产函数可以很好地分析资源投入与产品产出之间的经济数量关系,因此被广泛地运用 。 其基本模型为: Y = AK L 其中 A 是常数项,代表一定的技术水平 。 , 分别为资本投入和劳动投入的生产弹性 。 对于粮食总产量的影响因素 C-D模型可以写成如下的形式: lnY = lnA( t) + 1 lnx1 + 2 lnx2 + 3 lnx3 + 4 lnx4 + 5 lnx5 + 6 lnx6 + 其中 A( t)代表技术进步, i代表产出的弹性系数, 是随机变量 。 用 y(粮食总 产量 )的对数和 x1(农业机械总动力 )的对数、 x2( 有效灌溉面积 )的对
33、数 、 x3( 化肥施用量 )的对数 、 x4( 农村用电量 )的对数 、 x5(粮食作物 播种面积 )的对数 、 x6( 受灾面积 )的对数 进行多元线性回归。得到结果如下: Dependent Variable: LOG(Y) Method: Least Squares Date: 04/19/12 Time: 19:11 Sample: 1991 2010 Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. C -8.266473 3.214331 -2.571755 0.0232 LOG
34、(X1) -0.192083 0.177155 -1.084268 0.2979 LOG(X2) 0.240800 0.516956 0.465803 0.6491 LOG(X3) 0.283505 0.091428 3.100864 0.0084 LOG(X4) 0.110862 0.062601 1.770944 0.1000 LOG(X5) 1.374937 0.152339 9.025532 0.0000 LOG(X6) -0.065576 0.018515 -3.541831 0.0036 R-squared 0.977297 Mean dependent var 10.77940
35、Adjusted R-squared 0.966819 S.D. dependent var 0.070780 S.E. of regression 0.012893 Akaike info criterion -5.595063 Sum squared resid 0.002161 Schwarz criterion -5.246557 Log likelihood 62.95063 Hannan-Quinn criter. -5.527031 F-statistic 93.27053 Durbin-Watson stat 2.092593 Prob(F-statistic) 0.00000
36、0 结果分析:从上面的模型结果可以看出拟合优度 R2=0.977,调整后的拟合优度为0.967,说明模型拟合效果很好。 F值较大,且 P值 0.01,表明方程从整体上有较好的解释能力。但是在 5%的显著水平下, x1、 x2、 x4没有通过 t检验。且 x1的统计意义和实际的经济意义不符,可能存在多重共线性。 下面对模型进行多重共线性检验及修正,以及对修正后的模型进行序列相关检验及修正和异方差检验及修正,其检验步骤和过程同多元线性回归的检验相同,最后得到不存在序列相关、不存在异方差、没有多重共线性的最优模型结果如下: 消除多重共线性的模型 Dependent Variable: LOG(Y)
37、Method: Least Squares Date: 04/19/12 Time: 19:20 Sample: 1991 2010 Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. C -6.849591 1.167458 -5.867096 0.0000 LOG(X3) 0.335710 0.018478 18.16853 0.0000 LOG(X5) 1.351274 0.090578 14.91832 0.0000 LOG(X6) -0.082151 0.016452 -4.99330
38、5 0.0001 R-squared 0.970827 Mean dependent var 10.77940 Adjusted R-squared 0.965357 S.D. dependent var 0.070780 S.E. of regression 0.013174 Akaike info criterion -5.644290 Sum squared resid 0.002777 Schwarz criterion -5.445143 Log likelihood 60.44290 Hannan-Quinn criter. -5.605414 F-statistic 177.48
39、29 Durbin-Watson stat 1.769381 Prob(F-statistic) 0.000000 序列相关检验的散点图 异方差检验 怀特检验 Heteroskedasticity Test: White F-statistic 0.514181 Prob. F(8,11) 0.8228 Obs*R-squared 5.443425 Prob. Chi-Square(8) 0.7093 Scaled explained SS 2.712297 Prob. Chi-Square(8) 0.9511 从序列相关检验的散点图可以看出不存在序列相关,从异方差检验的怀特检验结果可以看出不
40、存在异方差。 故消除多重共线性的模型是最优模型。 模型的结果可以写为: Log(y)= -6.8496 + 0.3357*log( x3) + 1.3513*log(x5) - 0.08215*log(x6) 3. 虚拟变量 取消农业税政策 对粮食总产量的影响 国家与 2006 年 1 月 1 日起 开始废除 农业税条例。 从 2006 年 1 月 1 日起全面取消了农业税,我们下面来研究 取消 农业税的 政策 对粮食总产 量的影响。 定义新的变量 D,其值是从 1991 年 2005 年取值为 0, 2006 年 2010 年取值为 1,即 年年 年年 2 0 1 02 0 0 61 2 0 0 51 9 9 10D将虚拟变量加入到方程中, 结合前面的多元线性回归的最优模型, 通过 Eviews的计算,最终得到比较合理的结果。