1、基于 ARIMA 和年龄移算模型分析人口结构对经济发展的影响摘 要基于我国人口现状和国家相关生育政策,我们建立模型预测 2017-2030 人口总数和 2020-2030 人口结构,并分析人口结构对经济发展的影响。针对问题一,在全面实行二孩政策下,出生人数在一定时间内会有较大的增长。此外我们查阅国务院发布的国家人口发展规划(2016-2030 年) 文件,得知预期在 2020 年全国总人口数将达 14.2 亿人,并在 2030 年达到峰值 14.5亿人。我们建立了 ARIMA(3,3,1)模型,通过 1996 年-2015 年年末总人口数来预测 2017-2030 年总人口数。模型预测得到的
2、2020 年年末总人口数为 14.0959 亿人,比文件中预期 14.2 亿人少 0.73%;2030 年年末总人口数为 14.6032 亿人,比文件预期 14.5000 亿人多 0.71%。针对问题二,在还没有全面实行二孩政策下,我们根据 1996-2015 年人口数变化趋势图可以看出,0-14 岁的人口数逐渐下降,15-64 岁的人口数逐渐上升,65 岁以上的人口数缓慢上升。题目要求我们根据 2020-2030 年人口结构来衡量其对经济发展影响,我们选择衡量经济发展的指标为国内生产总值(GDP)作为因变量,把人口年龄结构、人口城镇结构、社会总抚养比作为自变量,其中,人口年龄结构按少年期(0
3、-14 岁),成年期(15-64 岁),老年期(65 岁及以上)划分。建立线性回归模型,得到的回归函数如下:然后再利用 ARIMA 模型预测得到 2020-2030 年三个自变量的数据,带入回归函数即可得到对应的国内生产总值 GDP,可以发现老年期人口数越多,对经济发展造成负影响越大。针对问题三,我们利用第六次人口普查的数据,以 2010 年作为基年,建立年龄移算预测模型,预测得到 2020-2030 年三个年龄段的人口数。在 2030 年,65 岁以上的人口数占总人口数的 23%,2050 年 65 岁以上的人口数占总人口的37%,通过与第二问的结论对比可知,在全面二孩政策下,人口结构对经济
4、发展的正面影响会更多。在 2030-2050 年之间,我国老龄化增长速度会缓慢下降,劳动年龄(15-64 岁)人口略微增加,经济可持续稳定发展。针对第四问,结合前三问的结果,我们发现到 2050 年我国老龄化程度仍保持较低速度增加,故决定在 2050 年继续施行全面二孩政策一段时间,在老年人口比例有所下降后,才开始限制全面二孩生育。关键词:ARIMA 模型;线性回归模型;年龄移算预测模型;人口结构;二孩政策;一、 问题重述1.1 问题背景中国是世界人口最多的国家,但是过重的人口负担制约了我国的发展水平。自新中国成立以来,我国的人口政策不断变化,从一开始的严格执行计划生育政策到逐步开放生育政策再
5、到全面实行二孩政策,人口数量和自然增长率不断变化,人口结构的特点也不断变化。1.2 问题的提出从我国的国情和生育政策出发,分析我国的人口结构情况,完成以下问题:(1)建立全面二孩政策下我国人口数量的数学模型,并预测 2017-2030 年每年人口总数。(2)不实施全面二孩政策的条件下,建立数学模型分析 2020-2030 年我国人口结构对经济发展的影响。(3)实施全面二孩政策的条件下,预测 2020-2030 年我国人口结构状况,建立数学模型分析 2030-2050 年我国人口结构对经济发展的影响。(4)结合已得结果,给出我国人口发展合理化的生育政策建议。二、 问题分析1.针对问题一题目要求我
6、们建立全面二孩政策下我国人口数量的数学模型,并对 2017-2030 年我国每年人口总数做出预测。对此在全面二孩政策下,每年出生率自然会较大上升。我们根据时间序列 ARIMA 模型,再结合国务院发布的国家人口发展规划(2016-2030 年) 文件,知道在 2020 年我国总人口数将达到 14.2 亿人,在 2030 年我国总人口数达到 1.5 亿人作为估计值,建立了 ARIMA(3,3,1)进行预测。2.针对问题二,我们根据 1996-2015 年我国人口结构情况分析 0-14 岁、14-65 岁、65 岁及以上人口占总人口数的比率来分析。在不实施全面二孩政策,我们选择了人口年龄结构、人口城
7、镇结构、社会总抚养比等建立数学模型,分析 2020-2030 年我国人口结构对经济发展的影响。3.针对问题三,我们建立了年龄移算预测人口结构模型来预测 2020-2030 年我国人口结构情况。我们对年龄划分成 0-20 岁、21-24 岁、25-29 岁、30-34岁、35-39 岁、40-44 岁、45-49 岁、50-64 岁、65 岁及以上,得到了 2020年-2030 年年龄分布情况,再结合问题二的模型指标分析在全面二孩政策下2020-2030 年对经济的影响。4.针对问题四,得到上述结果后,结合有关资料对我国人口发展合理化的生育政策给一些合理建议。三、 模型假设1.假设在实施二孩政策
8、中不再实施影响出生率的政策;2.假设没有战争爆发或者毁灭性灾难;3.假设 0-20 岁和 65 岁以上的生育率忽略不计;4.假设移民人数忽略不计。四、 符号说明符号 定义年末人口总数年份(196,7.,203)iX时间序列的广义自相关函数x自回归项数p差分移动平均项数q国内生产总值(GDP)0-14 岁人口数15-64 岁人口数65 岁及以上人口数人口城镇结构(城镇率)社会总抚养比五、 模型的建立与求解5.1 ARIMA 模型5.1.1 数据来源我们从国家统计局网站上收集到 1996 年-2015 年年末人口总数、男性人 口(万人)、女性人口(万人)、城镇人口(万人)、乡村人口(万人)、人口出
9、生 率()、人口死亡率()、人口自然增长率()、 0-14 岁人口(万人)、15-64 岁人口(万人)、65 岁及以上人口(万人)、总抚养比(%)、少儿抚养比(%)、老 年抚养比(%)、男性/女性人口、国内生产总值(亿元)、国民总收入(亿元)、城镇化率、生育率等数据。 (见附录)5.1.2 模型的建立在全面二孩政策下建立 ARIMA 模型预测 2017-2030 年我国每年人口总数。在最小均方误差预测原理下,ARIMA 模型的预测和 ARMA 模型的预测方法非常相似,利用每一年的年末人口总数随时间的变化构造 ARIMA 模型。其中 ARIMA(p, d, q)模型的原理如下:(1)可以用随机扰
10、动项的线性函数表示它:(2)式中, 的值由如下等式确定:(3)如果把 记为广义自相关函数,有(4)那么, 的真实值为:(5)由于 的不可获得性,所以 的估计值只能为:(6)所以在均方误差最小原则下,预报值为:(7)即可用得到 2017-2030 年人口总数的预测结果。下面先确定 ARIMA(p,d,q)的参数首先做了 1996 年-2015 年总人口数的时序图如下:图 1. 1996-2015 总人口时序图可以看出人口总数随时间不断上升,增长趋势略微减弱。由于全面实施二孩政策,在国家人口发展规划(2016-2030 年) 文件中指出在 2015 年-2030 年人口总规模增长惯性减弱,2030
11、 年达到峰值,预期在2020 年人口总数达到 14.2 亿,在 2030 年人口总数达到 14.5 亿,且在 2030 年0-14 岁少儿约占 17%,15-64 岁的人约占 58%,65 岁以上的人约占 25%。则可以利用这些限制来调整 ARIMA(p,q,d)的参数。先建立一个人口总数随时间的线性回归函数,表 1. 模型摘要 b模型 R R 平方 调整后的 R 平方 标准估算的错误1 .996a .991 .991 429.691a. 预测变量:(常量) ,YEAR, not periodicb. 因变量:年末总人口(万人)表 2. 系数 a非标准化系数 标准系数模型 B 标准错误 贝塔
12、t 显著性(常量) -1393485.91133417.170 -41.700 .0001YEAR, not periodic 759.996 16.663 .996 45.611 .000a. 因变量:年末总人口(万人)回归函数如下:(8)表 3. 预测值年份 1996 1997 1998 1999 2000 2001 2002 2003年末人口总数(万人)123466.6124226.6124986.6125746.6126506.6127266.6128026.6128786.62004 2005 2006 2007 2008 2009 2010 2011 2012129546.6 13
13、0306.6 131066.5 131826.5 132586.5 133346.5 134106.5 134866.5 135626.52013 2014 2015 2016 2017 2018 2019 2020 2021136386.5 137146.5 137906.5 138666.5 139426.5 140186.5 140946.5 141706.5 142466.52022 2023 2024 2025 2026 2027 2028 2029 2030143226.5 143986.5 144746.5 145506.5 146266.5 147026.5 147786.5
14、148546.5 149306.5预测的数据在 2030 年总人口数达到 149306 万人,发现预测误差较大。再做年末总人口数的差分图像如下:图 2. 年末总人口数差分图结合相关性和图像可以看出蓝色的线更加平稳,可以更有效对时间序列进行拟合,故确定 ARIMA 模型中 d=3,即三阶差分。再做年末总人口数的自相关和偏相关函数图如下,图 3. 年末总人口数自相关图 图 4. 年末总人口数偏相关图可以看出在 1 之后几乎全都为 0 了,则判断出是一阶截尾,三阶差分的自相关图像如下,图 5. 三阶差分自相关图可以确定 ARIMA 模型中自相关 p=3。由基本图像可以看出年末总人口数是逐渐上升的,故
15、 q=1。于是确定建立ARIMA(3,3,1)的时间序列模型。5.1.3 ARIMA(3,3,1)模型的求解问题一表 4. 模型描述模型类型模型标识 年末总人口(万人)模型_1 ARIMA(1,3,1)模型拟合度统计信息模型预测变量个数平稳的 R 方 R 方 RMSE MAPE MAEMaxAPE MaxAE标准化的 BIC(L)年末总人口(万人)-模型_11 .649 1.000 27.546 .013 17.396 .035 45.520 7.632预测出来的图像如下:图 6. 年末总人口数预测图预测出的数据在 2020 年 年末总人口数为 140959 万人 比预期 142000 万人相
16、差 0.73%,在 2030 年 年末总人口数为 146032 比预期 145000 万人相差0.71%。在全面二孩政策下 2017 年-2030 年我国人口每年总数:表 5. 问题一预测值 年份 年末人口总数(万人) 年份 年末人口总数(万人)2017 138860 2024 1435642018 139563 2025 1441352019 140263 2026 1446572020 140959 2027 1451192021 141643 2028 1455102022 142309 2029 1458192023 142952 2030 1460325.2 建立线性回归模型分析人口
17、结构对经济发展的影响问题二题目二和题目三均要求我们建立合适的指标来描述我国人口结构对经济发展的影响,根据国家统计网站关于我国人口在 1996 到 2015 年间的各类数据,并查阅相关资料 ,我们确定了描述我国人口结构的三个指标:人口年龄结构,2人口城乡结构和社会总抚养比,对于这三个变量,我们选取中国统计局网站中的以下数据进项量化描述:1.人口年龄结构:各年龄段人口占总人口的比重: 。根据联合国标准,1w15 到 64 岁的人口为劳动年龄人口,其余人口认为是非劳动年龄人口,故 :1w0 到 14 岁人口比重; :15 到 64 岁人口比重; :65 岁及以上人口比重。12w132.人口城乡结构:
18、城镇人口占总人口的比重: 。人口城乡结构可以反映城市2w化进程。3.社会总抚养比:(0-14 岁人口数+65 岁以上人口数)/15-64 岁劳动年龄人口数: 。社会总抚养比对国家储蓄、投资等经济行为有直接和重要影响。3w1996年1998年2000年2002年2004年2006年2008年2010年2012年2014年0200004000060000800001000001200000-14岁 人 口( 万 人)15-64岁 人 口( 万 人)65岁 及 以 上 人 口( 万 人)图 7. 1996-2015 年人口结构变化趋势图然后根据 1996 年-2015 年人口数变化趋势图可以得到 0
19、-14 岁的人口数逐渐下降,15-64 岁的人口数逐渐上升,65 岁以上的人口数缓慢上升。 对于描述我国经济发展的指标,我们选用人均国内生产总值即 GDP(G) 。本文认为,GDP 对我国经济发展的描述包括内容最为全面,用来衡量经济增长较为合理。对国家统计局网站中相关人口数据的选取和处理,我们建立了我国国内生产总值和上文三个人口结构指标的之间的线性回归方程:表6. 模型摘要更改统计量模型 R R 平方调整后的 R 平方标准估算的错误 R 方变化 F 更改 df1 df2显著性 F 更改1 .998a .996 .995 15317.533 .996 699.944 5 14 .000a. 预测
20、变量:(常量),城镇化率, 总抚养比(%), 0-14岁人口(万人), 65岁及以上人口(万人), 15-64岁人口(万人)表7. 系数 a非标准化系数 标准系数模型 B 标准错误 贝塔 t 显著性(常量) 3113257.493 4391457.073 .709 .4900-14岁人口(万人) -107.529 16.985 -1.894 -6.331 .000115-64岁人口(万人) -33.748 43.537 -1.017 -.775 .45165岁及以上人口(万人) 10.148 31.835 .095 .319 .755总抚养比(%) 47448.142 33324.229 1.
21、104 1.424 .176城镇化率 2702955.248 2053715.327 1.039 1.316 .209a. 因变量:GDP线性回归函数如下:由图中 R 平方即该线性回归方程的拟合度可知,我们确定的这个线性回归方程对实际情况的拟合度达 99.6%,所以可以很好地描述我国经济发展(人均 GDP)和人口结构(人口年龄结构 ,人口城乡结构 和社会总抚养比 )的关系。 1w2w3w基于得到的这个线性回归方程,我们需要确定在不全面实施二孩政策下,我国 2020 年到 2030 年的各人口结构指标的预测值,将预测值带入该回归方程,即可确定这些人口结构指标对我们经济发展的影响。带入回归函数得到
22、的 GDP 值如下:表 8. GDP 预测值在没有二孩政策下,老龄化更加严重,老龄人口会对经济发展产生较大负影响。5.3 年龄移算预测模型5.3.1 模型的说明在第三问我们采取年龄移算预测人口结构模型来进行预测。因为别的模型无法很好地衡量和展现年龄随时间推移,所属年龄段是有滞后效应的。应 用这一模型,我们可以根据国家统计局官网上每年公布的最新数据进行预测 分析并结合历史统计数据,尽可能提高预测结果的准确性和时效性,而且能 够提供充分预测未来各个分年龄段的人口变化情况,对分析我国人口结构有 很好的作用。首先假设保持现行人口政策不变、不会出现战争和巨大灾难等, 并且不考虑人口流入和流出。由于人口结构预测是非常困难,由于人口变化的影响因素很多,使人口预测具有复杂性。且现在只有 2016 年前的人口结构数据,很难去准确预测