数理统计大作业两项.doc

上传人:11****ws 文档编号:2402674 上传时间:2019-05-11 格式:DOC 页数:18 大小:1.70MB
下载 相关 举报
数理统计大作业两项.doc_第1页
第1页 / 共18页
数理统计大作业两项.doc_第2页
第2页 / 共18页
数理统计大作业两项.doc_第3页
第3页 / 共18页
数理统计大作业两项.doc_第4页
第4页 / 共18页
数理统计大作业两项.doc_第5页
第5页 / 共18页
点击查看更多>>
资源描述

1、北京市 农业经济 总产值的逐步回归分析 姓名: 学号: 摘 要: 农业生产和农村经济是 国民经济的基础,影响 农村经济 总产值的因素有多种,主要包括农林牧渔业。本文以北京市 农业生产和农村经济 总产值为对象,首先分析了各种因素的线性相关性,建立回归模型,再利用逐步回归法进行回归分析,得到最符合实际情况的回归模型。以 SPSS 17.0为分析工具,给出了实验结果,并用预测值验证了结论的正确性。 关键词: 农业生产和农村经济 ,线性回归模型,逐步回归分析, SPSS 1. 引言 农林牧渔业统计范围包括辖区内全部农林牧渔业生产单位、 非农行业单位附属的农林牧渔业生产活动单位以及农户的农业生产活动。军

2、委系统的农林牧渔业生产(除军马外)也应包括在内,但不包括农业科学试验机构进行的农业生产。 在近几年中国经济快速增长的带动下,各地区 农林牧渔业 也得到了突飞猛进的发展。以北京地区为例, 2005年的农业总产值为 1993年的 6倍。因此用统计方法研究分析农业总产值对指导国民经济生产,合理有效的进行产业布局,提高生产力等有着重要意义。 表 1 北京市农业经济 产值及各产品产量统计数据 年 份农林牧渔业总产值 粮 食 棉 花 油 料 蔬 菜 干鲜果品 猪牛羊肉 禽蛋产量 水产品( 亿元 ) ( 万吨 ) ( 万吨 ) ( 万吨 ) ( 万吨 ) ( 万吨 ) ( 万吨 ) ( 万吨 ) ( 万吨

3、)1999 1 8 0 .6 58 0 .2 2 .8 3 2 1 .3 6 0 .2 2 5 .9 1 5 .8 7 .62000 1 8 8 .6 7 0 .2 0 .2 3 .8 3 4 0 .1 66 2 6 .9 16 7 .52001 2 0 2 .2 8 2 .3 0 .3 4 .3 3 4 1 .2 7 1 .9 2 7 .1 1 5 .6 7 .42002 2 1 3 .5 9 4 .9 0 .3 2 .6 3 7 3 .1 7 8 .7 3 0 .2 1 5 .2 7 .42003 2 2 4 .7 1 0 2 .1 0 .3 3 .3 4 1 9 .8 8 4 .1 3

4、0 .9 1 6 .2 7 .12004 2 3 4 .9 1 0 4 .9 0 .8 2 .9 4 4 4 .1 9 0 .9 3 1 .7 1 5 .9 6 .72005 2 3 9 .3 1 0 9 .2 0 .2 2 .5 4 6 6 .3 9 3 .9 33 16 6 .42006 2 4 7 .2 1 2 5 .5 0 .2 2 .2 4 8 6 .7 8 8 .7 34 1 5 .2 5 .42007 2 6 1 .3 1 4 4 .2 0 .2 2 .2 511 9 1 .1 3 7 .2 1 5 .6 62008 2 7 3 .9 161 0 .1 2 .2 5 2 7 .4

5、 8 9 .8 3 9 .1 1 5 .2 6 .1本文以北京市农生 产为对象,分析了农业经济总产值与粮食产量、棉花产量、油料产量、蔬菜产量、干鲜果品产量、猪牛羊肉产量、禽蛋产量、水产品产量的关系,并建立农业经济总产值的回归模型。表 1 中列出了 1999 年至 2008 年间的统计数据(数据来源于北京统计信息网 http:/)。 2. 线性回归模型的建立 2.1 线性回归模型的假设 为了研究农业经济总产值与各种农生产量的关系,必须要建立二者之间的数学模型。数学模型可以有多种 形式,比如线性模型,二次模型,指数模型,对数模型等等。而实际生活中,影响农业经济总产值的因素很多,并且这些因素的影响不

6、能简单的用某一种模型来描述,所以要建立农业经济总产值的数学模型往往是很难的。但是为了便于研究,我们可以先假定一些前提条件,然后在这些条件下得到简化后的近似模型。 以下我们假定两个前提条件: 1) 农产品的价格是不变的。这样我们可以认为每一种农产品的总产值将与产品的总产量成正的线性关系。 2) 每一种农产品的总产值对于农业经济总产值的贡献都是很大的。因此可以根据每种产品的总产值预测农业经济总产值。即农业经 济总产值与每种产品的总产值成正的线性关系。 由以上两个假设,我们可以建立农业经济总产值与各种农产品生产量的线性回归模型,模型如下: 8877665544332211 XXXXXXXXY (1)

7、 其中, Y 是因变量 , iX 是自变量 , i 是各个自变量的系数。各变量符号的定义见表 2。 表 2 线性回归模型中各变量的含义 Y 1X 2X 3X 4X 5X 6X 7X 8X 农林牧渔业总产值 粮 食 棉 花 油 料 蔬 菜 干鲜果品 猪牛羊肉 禽蛋产量 水产品 2.2 线性回归模型的验证 以上,我们通过假设两个前提条件得 到了农业经济总产值与各种农生产量的线性回归模型。然而这些假设是否合理,模型又是否能很好的近似实际的经济情况,我们需要进一步的验证。作数据散点图,观察因变量与自变量之间关系是否有线性特点。散点图结果如图 1所示。 (a) (b) (c) (d) (e) (f) (

8、g) (h) 图 1 因变量与各自变量的散点图 (a)农业总产值与粮食产量散点图; (b)农业总产值与棉花产量散点图; (c)农业总产值与油料产量散点图; (d)农业总产值与蔬菜散点图; (e)农业总产值干鲜果品产量散点图; (f)农业总产值与猪牛羊肉产量散点图; (g)农业总产值与禽蛋产量散点图; (h)农业总产值与水产品产量散点图 从图 1 中不难发现,农业经济总产值与 粮食产量、蔬菜产量、干鲜果品产量、猪牛羊肉产量 具有良好的线性关系,而与 棉花产量、 油料产量 和 禽蛋 产量没有明确的线 性关系。 水产品产量 虽然与农业经济总产值呈现较强的线性关系,但是二者是负相关的,即布产量越大,农

9、业经济总产值越小,这样不符合我们建立线性回归模型的初衷,也与建立模型的两个假设相背。 经分析,某些变量与农业经济总产值不呈正的线性相关的原因主要有两个: 1) 与第一个假设相背。即这些农产品的价格并不是一个常数,而会随着时间的推移、生产工艺的改进、产品的淘汰等原因产生变动。当价格变动范围较大时,产品的总产值和总产量就不是线性关系了,应当用别的模型来近似。 2) 与第二个假设相背。即这些农产品的总产 值对于农业经济总产值的贡献非常小,以至于某种农产品总产值的变化不足以引起农业经济总产值的变化。如图 1,可以明显发现最后三种轻农产品的产量与农业经济总产值都不具有良好的正的线性关系,而前六种重农产品

10、中有五种与农业经济总产值呈现强的线性关系,说明重农在农业经济中占的比重比轻农要大。 在后来的逐步回归分析结果中我们可以看到,这些不符合假设条件,与农业经济总产值呈弱的或者负的线性关系的自变量都被排除到回归模型之外了。但是并不是说所有与因变量呈强线性关系的自变量都在回归模型中,在最终确定回归方程之前还应当应当用逐步回 归方法进行分析。 3逐步回归分析 3.1 线性回归的方法 线性回归是描述一个因变量 Y 与一个或多个自变量 X 之间的线性依存关系。根据一批样本值来估计这种线性关系,建立回归方程,用回归方程进行预测和控制。在多元线性回归分析中,选择 “ 最优 ” 回归方程的方法有强行进入法、消去法

11、、向前选择法、向后剔除法和逐步回归法。 1) 强行进入法:选择的自变量全部进入回归模型。 2) 消去法:建立回归方程时,根据设定的条件剔除部分自变量。 3) 向前选择法:从模型中无自变量开始,然后设定判据,每次将一个最符合判据的变量引入模型,直至所有符合判据的变 量都进入模型为止。 4) 向后剔除法:先建立全模型,然后设定判据,每次剔除一个最不符合进入模型判据的变量。 5) 逐步回归法:向前选择法和向后剔除法的结合,先设定判据,选择符合判据且对因变量贡献最大的自变量进入回归方程,然后根据向后剔除法,将模型中贡献最小的且符合剔除判据的变量剔除出模型,重复进行直到回归方程中的自变量均符合进入模型的

12、判据,模型外的都不符合进入模型的判据为止。本实验采用逐步回归法。 3.2 线性回归的结果及分析 利用表 1 中的数据建立回归模型,用 SPSS 软件的线性回归分析功能,得到以下数据。表 3 中可以看出 粮食产量、蔬菜产量和干鲜果品产量 这三个自变量经过逐步回归过程被选择进入了回归方程。选择的判据是变量进入回归方程的 F 的概率不大于 0.05,剔除的判据是变量进入回归方程的 F 的概率不小于 0.10。选择的过程是,最先引入了变量 1X ,建立了模型 1;接着引入变量 5X ,没有变量被剔除,建立了模型 2(含有 1X 、 5X );最后引入变量4X ,没有变量被剔除,建立了模型 3,故最终的

13、模型中含有变量 1X 、 5X 、 4X 。 表 3 引入或从模型中剔除的变量 输入移去的变量 a 模型 输入的变量 移去的变量 方法 1 粮 食 . 步进(准则 : F-to-enter 的概率 = .100)。 2 干鲜果品 . 步进(准则 : F-to-enter 的概率 = .100)。 3 蔬 菜 . 步进(准则 : F-to-enter 的概率 = .100)。 a. 因变量 : 农林牧渔业总产值 表 4 拟合过程小结 模型汇总 模型 R R 方 调整 R 方 标准 估计的误差 1 .986a .972 .969 5.4267 2 .998b .996 .994 2.2761 3

14、.999c .998 .997 1.6835 a. 预测变量 : (常量 ), 粮 食。 b. 预测变量 : (常量 ), 粮 食 , 干鲜果品。 c. 预测变量 : (常量 ), 粮 食 , 干鲜果品 , 蔬 菜。 表 4 显示各模型的拟合情况,模型 3 的复相关系数 R=0.999,可决系数 2R =0.998,调整可决系数为 0.997,估计值的标准差为 1.6835。可见模型 3 的拟合度较高,变量 1X 、5X 、 4X 的作用显著。 表 5 显示各模型的方差分析结果。方差分析结果表明,当回归方程为模型 1、 2、 3时,其显著性概率值均小于 0.001,即拒绝总体回归系数均为 0

15、的原假设。因此,最终的回归方程应当包含 粮食 产量 , 干鲜果品 产量 , 蔬菜 产量这 3 个自变量,且方程拟和效果很好。 表 5 方差分析 Anovad 模型 平方和 df 均方 F Sig. 1 回归 8190.902 1 8190.902 278.136 .000a 残差 235.594 8 29.449 总计 8426.496 9 2 回归 8390.231 2 4195.116 809.766 .000b 残差 36.265 7 5.181 总计 8426.496 9 3 回归 8409.491 3 2803.164 989.048 .000c 残差 17.005 6 2.834

16、总计 8426.496 9 a. 预测变量 : (常量 ), 粮 食。 b. 预测变量 : (常量 ), 粮 食 , 干鲜果品。 c. 预测变量 : (常量 ), 粮 食 , 干鲜果品 , 蔬 菜。 d. 因变量 : 农林牧渔业总产值 表 6显示方程外各模型变量的有关统计量,即标准化偏回归系数 Beta、回归系数显著性检验的 t值、 P(Sig)值、偏相关系数 Partial Correlation、共线性统计的容差 Collinearity statistic Tolerance。可见,模型 3方程外的各变量偏回归系数经检验, P值均大于 0.11,故不能引入方程。 表 6 逐步回归过程中不

17、在方程中的变量 已排除的变量 d 模型 Beta In t Sig. 偏相关 共线性统计量 容差 VIF 最小容差 1 棉 花 .101a 1.948 .092 .593 .971 1.030 .971 油 料 -.054a -.654 .534 -.240 .546 1.832 .546 蔬 菜 .497a 4.071 .005 .838 .080 12.542 .080 干鲜果品 .277a 6.203 .000 .920 .309 3.238 .309 猪牛羊肉 .426a 1.030 .337 .363 .020 49.373 .020 禽蛋产量 .094a 1.519 .173 .4

18、98 .779 1.284 .779 水产品 -.142a -1.367 .214 -.459 .292 3.428 .292 2 棉 花 .012b .351 .738 .142 .626 1.597 .199 油 料 -.034b -1.021 .347 -.385 .541 1.850 .261 蔬 菜 .232b 2.607 .040 .729 .042 23.638 .042 猪牛羊肉 .200b 1.147 .295 .424 .019 51.834 .019 禽蛋产量 .015b .433 .680 .174 .602 1.660 .191 水产品 -.059b -1.273 .

19、250 -.461 .263 3.798 .219 3 棉 花 .027c 1.165 .297 .462 .594 1.685 .040 油 料 .000c -.015 .988 -.007 .393 2.544 .031 猪牛羊肉 -.029c -.158 .881 -.070 .012 86.500 .012 禽蛋产量 -.008c -.299 .777 -.133 .526 1.900 .037 水产品 .011c .196 .852 .087 .137 7.293 .022 a. 模型中的预测变量 : (常量 ), 粮 食。 b. 模型中的预测变量 : (常量 ), 粮 食 , 干鲜

20、果品。 c. 模型中的预测变量 : (常量 ), 粮 食 , 干鲜果品 , 蔬 菜。 已排除的变量 d 模型 Beta In t Sig. 偏相关 共线性统计量 容差 VIF 最小容差 1 棉 花 .101a 1.948 .092 .593 .971 1.030 .971 油 料 -.054a -.654 .534 -.240 .546 1.832 .546 蔬 菜 .497a 4.071 .005 .838 .080 12.542 .080 干鲜果品 .277a 6.203 .000 .920 .309 3.238 .309 猪牛羊肉 .426a 1.030 .337 .363 .020 4

21、9.373 .020 禽蛋产量 .094a 1.519 .173 .498 .779 1.284 .779 水产品 -.142a -1.367 .214 -.459 .292 3.428 .292 2 棉 花 .012b .351 .738 .142 .626 1.597 .199 油 料 -.034b -1.021 .347 -.385 .541 1.850 .261 蔬 菜 .232b 2.607 .040 .729 .042 23.638 .042 猪牛羊肉 .200b 1.147 .295 .424 .019 51.834 .019 禽蛋产量 .015b .433 .680 .174

22、.602 1.660 .191 水产品 -.059b -1.273 .250 -.461 .263 3.798 .219 3 棉 花 .027c 1.165 .297 .462 .594 1.685 .040 油 料 .000c -.015 .988 -.007 .393 2.544 .031 猪牛羊肉 -.029c -.158 .881 -.070 .012 86.500 .012 禽蛋产量 -.008c -.299 .777 -.133 .526 1.900 .037 水产品 .011c .196 .852 .087 .137 7.293 .022 a. 模型中的预测变量 : (常量 ),

23、 粮 食。 b. 模型中的预测变量 : (常量 ), 粮 食 , 干鲜果品。 c. 模型中的预测变量 : (常量 ), 粮 食 , 干鲜果品 , 蔬 菜。 d. 因变量 : 农林牧渔业总产值 表 7 显示各模型的偏回归系数 B、标准差 Std. Error、常数 Constant、标准化偏回归系数Beta、回归系数显著性检验的 t 值和 P(Sig)值。按照模型 3 建立的多元线性回归方程为: 451 0 9 4.05 0 7.05 7 6.08 6 5.84 XXXY (2) 方程中的常数项 865.840 ,偏回归系数 576.01 、 507.05 、 094.04 ,经 t 检验 0

24、、 1 、 5 、 4 的 P 值分别为 0.000、 0.000、 0.005、 0.040,按 =0.10 水平,均有显著性意义。 表 7 回归计算过程中各方程系数表 系数 a 模型 非标准化系数 标准系数 t Sig. 共线性统计量 B 标准 误差 试用版 容差 VIF 1 (常量 ) 127.089 6.210 20.466 .000 粮 食 .946 .057 .986 16.677 .000 1.000 1.000 2 (常量 ) 91.864 6.248 14.704 .000 粮 食 .725 .043 .756 16.940 .000 .309 3.238 干鲜果品 .717

25、 .116 .277 6.203 .000 .309 3.238 3 (常量 ) 84.865 5.344 15.879 .000 粮 食 .576 .065 .600 8.794 .000 .072 13.846 干鲜果品 .507 .117 .196 4.323 .005 .164 6.103 蔬 菜 .094 .036 .232 2.607 .040 .042 23.638 a. 因变量 : 农林牧渔业总产值 表 8 显示残差统计的结果,标准化残差的绝对值最大为 1.286,小于设定值 3。如超过3,则显示具体观察单位 Case number 的标准化残差,以帮助发现离群点。 表 8 残

26、差统计量 残差统计量 a 极小值 极大值 均值 标准 偏差 N 预测值 179.029 272.737 226.620 30.5678 10 标准 预测值 -1.557 1.509 .000 1.000 10 预测值的标准误差 .632 1.367 1.043 .227 10 调整的预测值 175.986 270.603 226.168 30.7402 10 残差 -2.1642 1.7404 .0000 1.3746 10 标准 残差 -1.286 1.034 .000 .816 10 Student 化 残差 -1.554 1.599 .095 1.098 10 已删除的残差 -3.164

27、0 4.6143 .4516 2.5960 10 Student 化 已删除的残差 -1.836 1.928 .127 1.206 10 Mahal 距离 .368 5.036 2.700 1.495 10 Cook 的距离 .000 1.239 .280 .385 10 居中杠杆值 .041 .560 .300 .166 10 a. 因变量 : 农林牧渔业总产值 图 2 农业经济总产值的预测值与其 Student化残差散点图 从图 2 的农业经济总产值的预测值与其 Student 化残差散 点图中可以看到,所有观测量随机地落在垂直围绕 2 的范围内,预测值与 Student 化残差值之间没有

28、明显的关系,所以回归方程应该满足线性与方差齐性的假设且拟和效果较好。 3.3 线性回归的结果及分析 多元线性回归方程为: 451 0 9 4.05 0 7.05 7 6.08 6 5.84 XXXY 代入 2006 年的统计数据,得到 8 7 3 7.247 7.486094.07.88507.05.125576.0865.842 0 0 6 Y2006 年农业经济总产值的实际值为 8210.0 亿元,误差为 %2 7 2 5.02.2 4 7 2.2 4 78 7 3 7.2 4 7 e 可见回归模型的预测还是比较准确的。 4总结与讨论 本文以北京市农业经济总产值为例,分析了农业经济总产值与

29、各种农产品产量的关系。首先分析了农业经济总产值与各种农产量的线性关系,建立了线性回归模型,再利用逐步回归法进行回归分析,得到最符合实际情况的回归模型。以 SPSS 17.0 为分析工具,给出了实验结果,并用预测值验证了结论的正确性。 从最终的线性回归模型中我们可以看到,农业经济总产值可以由 粮食 产量 ,干鲜果品 产量 ,蔬菜 产量 很好地解释。原因主要有两个方面, 首先, 粮食、干鲜果品 产量、 蔬菜 产量 属于日常消费量很大的基础性农产品,具有良好的价格稳定性,符合前文提到的第一个假设。然后,这三类产品在北京市的农业经济占较大的比重。这三个产业的产量浮动将影响整个北京市农业经济总产值。粮食

30、和蔬菜产量占比重大的主要原因是北京市有大量居民,这些居民的日常饮食所带来的需求量很大,而随着生活质量的提高,对均衡营养的追求使得干鲜果品已成为人们生活中不可缺少的一部分。同时也可以看到,尽管猪牛羊肉的产量与农业经济总产值也具有一定的线性关系,但由于近年来猪肉价格飞涨,并不具有良好的价格稳定性 ,因而不满足前文的第一个假设,所以逐步回归分析过程中这一变量被剔除了。 然而,最终的结果显示,拟合曲线和实际点还是有一个一定的偏差,而且最终分析得到的自变量个数也比较少,可能还有其他产业较显著的影响了农业经济总产值,有待进一步考察。 参考文献 1 孙海燕 , 周梦 , 李卫国 , 冯伟 , 应用数理统计 , 北京航空航天大学 , 2004.9 2 周复恭 , 黄运成 , 应用线性回归分析 , 中国人民大学出版社 , 1989.8 3 北京市统计信息网 , 2009 北京市统计年鉴 4 倪青山 , 刘小丹 , SPSS 应用 实验教程 , 湖南大学出版社 , 2007

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 策划方案

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。