1、 题目:关于城镇居民人均可支配收入的分析学院:班级:姓名:学号指导教师:2016 年 12 月 28 日摘要收入分配和消费结构都是国民经济的重要课题,而居民消费的主要来源又是居民收入。本文通过应用多元线性回归分析方法对我国各地区城镇居民收入的现状进行分析,找出影响人均可支配收入的因素。城镇居民可支配收入是检验我国社会主义现代化进程的一个标准。本文以我国城镇居民人均可支配收入为研究对象,选取可能影响居民人均可支配收入的 5 个因素,运用多元线性回归分析建立模型,先运用普通最小二乘方法建立回归方程,再对方程进行异方差,自相关和多重共线性诊断,再用前进法,后退法,逐步回归法消除多重共线性,又运用岭回
2、归,主成分法,偏最小二乘方法建立回归方程。进而确定 5 个因素对居民人均可支配收入的影响程度,分析出影响城镇居民收入的主要原因,并对模型联系实际进行分析,以供国家进行决策做参考。关键词:城镇居民人均可支配收入 逐步回归 岭回归 偏最小二乘目录1.引言 .12.数据来源及介绍 .23.模型方法和介绍 .33.1 多元线性回归模型 .33.1.1 多元线性回归模型的一般形式 .33.1.2 多元线性回归模型的基本假定 .44. SAS 程序及输出结果 .64.1 用普通最小二乘方法作多元线性回归 .64.1.1 相关分析 .64.1.2 普通最小二乘法作多元线性回归 .64.2 模型检验 .84.
3、2.1 异方差模型检验 .84.2.2 自相关检验 .94.2.3 异常值检验 .104.2.4 多重共线性检验 .114.3 模型修正 .124.3.1 前进法 .124.3.2 后退法 .134.3.3 逐步回归 .144.3.4 最优子集回归 .164.3.5 岭回归 .174.3.6 主成分回归 .204.3.7 偏最小二乘回归 .215.结论及建议 .226.参考文献 .237.附录 .2401.引言改革开放以来我国的国民经济增长迅速,居民的收入水平也大幅提高,但居民收入分配差距也在不断扩大。2008 年金融危机为我国带来的后遗症还在继续影响着居民正常生活,物价上涨和通货膨胀的压力仍
4、然困扰着老百姓。收入和消费支出体系的健康发展至关重要。消费是拉动国民经济增长的一架重要马车,收入又是决定居民消费的最主要因素。我国人口基数大消费群体众多,但由于居民收入分配差距大直接影响到居民消费需求的降低从而影响经济增长。而且随着中国特色的市场经济体制的建立,各种收入分配问题也愈发明显。国家统计局发布的数据显示,我国城乡居民收入稳定增长,农村居民收入增长较快。政府也在积极调整收入分配政策,刺激消费需求,促进国民经济持续快速健康发展。本文以我国城镇居民人均可支配收入为研究对象,分析出影响城镇居民收入的主要原因,并对模型联系实际进行分析,以供国家进行决策做参考。12.数据来源及介绍以 1991
5、年2011 年的城镇居民家庭人均可支配收入 y 为因变量,选取城乡居民储蓄存款年底余额 x1,储蓄存款年底增加额 x2,国民总收入 x3,职工基本就业情况 x4,城乡居民家庭恩格尔系数 x5 为自变量。数据来源于国家统计局网站统计年鉴,数据见表1。表 1年份 可支配收入 年底余额 年增加额 国民总收入 就业情况 家庭恩格尔系数1991 1700.6 9244.9 2125.3 21826.2 58360 57.61992 2026.6 11757.3 2512.4 26937.3 59432 57.61993 2577.4 15203.5 3446.2 35260 60220 58.11994
6、 3496.2 21518.8 6315.3 48108.5 61470 58.91995 4283 29662.3 8143.5 59810.5 62388 58.61996 4838.9 38520.8 8858.6 70142.5 68850 56.31997 5160.3 46279.8 7759 78060.9 69600 55.11998 5425.1 53407.5 7127.7 83024.3 69957 53.41999 5854 59621.8 6214.4 88479.2 70586 52.62000 6280 64332.4 4710.6 98000.5 71150 4
7、9.12001 6859.6 73762.4 9430.1 108068.2 74432 47.72002 7702.8 86910.7 13148.2 119095.7 75360 46.22003 8472.2 103617.7 16707 134977 76075 45.62004 9421.6 119555.4 15937.7 159453.6 76823 47.22005 10493 141051 21495.6 183617.4 77877 45.52006 11759.5 161587.3 20544 215904.4 78244 432007 13785.8 172534.2
8、10946.9 266422 78645 43.12008 15780.8 217885.4 45351.2 316030.3 79243 43.72009 17174.7 260771.7 42886.3 340320 77510 412010 19109.4 303302.5 42530.8 399759.5 78388 41.12011 21809.8 343635.9 41656.6 472115 78579 40.423.模型方法和介绍3.1 多元线性回归模型3.1.1 多元线性回归模型的一般形式设随机变量 与一般变量 , , , 的线性回归模型为:y1x2px(3.1) px21式
9、中, , , 是 个未知参数, 称为回归常数, , 称为回归01p 01p系数。 称为被解释变量(因变量), 是 个可以精确测量并控制的一般变y px,21量。称为解释变量(自变量)。 时,式(3.1)为一元线性回归模型; 时, 2我们就称式(3.1)为多元线性回归模型。 是随机误差,与一元线性回归一样,对随机误差项我们常假定(3.2)0)( 2var)(称(3.3)pxxy210为理论回归方程。对一个实际问题,如果我们获得 组观测数 ,则线性nniyipi ,21;,21 回归模型式(3.1)可表示为:112101 pxxy(3.4) 223 npnn xxy 210写成矩阵形式为:(3.5
10、)Xy是一个 阶矩阵,称为回归设计矩阵或资料矩阵。在实验设计中,X1pn的元素是预先设定并可以控制的,人的主观因素可作用其中,因而称 为设计矩X阵。3.1.2 多元线性回归模型的基本假定为了方便地进行模型的参数估计,对回归方程式(3.4)有如下一些基本假定(1)解释变量 , , , 是确定性变量,不是随机变量,且要求1x2px。这里的 ,表明设计矩阵 中的自变量列之间不npXranknX1rankX相关,样本量的个数应大于解释变量的个数, 是一满秩矩阵。(2)随机误差性具有零均值和等方差,即 0i,2jiji,cov nji,21,,0ji这个假定通常称为高斯马尔柯夫条件。 ,即假设观测值没有
11、系统误差,0i随机误差项 的平均值为零,随机误差项 的协方差为零,表明随机误差项在不同的ii样本点之间是不相关的(在正态假定下即为独立的),不存在序列相关,并且有相同的精度。(3)正态分布的假定条件为42,0Ni相互独立n21对于多元线性回归的矩阵模型式(3.5),这个条件便可表示为:nN2,0由上述假定和多元正态分布的性质可知,随机变量 服从 维正态分布,回归模yn型式(3.5)的期望向量XyEn2var因此),(2nXNy54. SAS 程序及输出结果4.1 用普通最小二乘方法作多元线性回归4.1.1 相关分析程序结果:表 2Pearson 相关系数, N = 21y x1 x2 x3 x
12、4 x5y 1.00000 0.99493 0.92285 0.98786 0.50223 -0.14243x1 0.99493 1.00000 0.93195 0.98970 0.49059 -0.15057x2 0.92285 0.93195 1.00000 0.91612 0.43846 -0.13229x3 0.98786 0.98970 0.91612 1.00000 0.57950 -0.26643x4 0.50223 0.49059 0.43846 0.57950 1.00000 -0.88739x5 -0.14243 -0.15057 -0.13229 -0.26643 -0.
13、88739 1.00000结果分析:从表 2 相关阵看出, 与 , , ,的相关系数都在 0.9 以上,说明所选自y12x3变量与 高度线性相关,用 与自变量作多元线性回归是合适的。 与 的相关系数y y1偏小,说明 对 y 无显著影响。14.1.2 普通最小二乘法作多元线性回归先对数据做标准化处理,再对标准化数据作回归分析。程序结果表 表 36方差分析源 自由度 平方和均方 F 值 Pr F模型 5 19.98072 3.99614 3108.47 |t|Intercept 1 6.07178E-17 0.00782 0.00 1.0000x1 1 0.06312 0.11030 0.57
14、0.5756x2 1 0.02588 0.02275 1.14 0.2732x3 1 0.82692 0.10390 7.96 .0001x4 1 0.28844 0.02868 10.06 .0001x5 1 0.28844 0.03004 11.54 .0001结果分析:回归方程为:Y=0.06312 +0.02588 +0.82692 +0.28844 +0.2884412345(1)由 R 方=0.9990,调整 R 方=0.9987,所以回归方程高度显著。(2)由 F=3108.47,P.0001,所以回归方程高度显著。(3)回归系数的显著性检验。在显著性水平 上, , , 通过了显著性05.345检验,其余变量未通过检验,模型需要进一步检验。(4)由模型可知,国民总收入对人均可支配收入影响较大。国民总收入增加,人均可