1、1我国第三产业增加值的分析与预测基于SARIMA 模型中文摘要大多数时间样本是不平稳的,多数存有走向性和周期性。如果直接将不平稳时间样本当作平稳时间样本进行回归分析,则可能造成伪回归。本文以 1992 年第一季度到2014 年第三季度我国第三产业增加值季度数据为研究对象,分析数据散点图随时间改变的走向,综合利用取对数差分和季节差分的方法以及单位根检验法,消除数据样本的走向性和周期性,并进一步验证样本是否平稳。通过样本的自相关函数和偏自相关函数对模型参数估计,发现 SARIMA 模型能比较好的对我国第三产业增加值 2014 年41,02,3第四季度进行时间序列的分析与预测。经过对第三产业增加值的
2、时间样本分析,呈现出我国第三产业发展仍显延迟,发展水平低,落后于发达国家和很多发展中国家的近状,需要加强第三产业的总体规划和指导,从实现第三产业开放性跨越式升级的角度转变发展方式、实现经济结构战略性调整。关键词:季节乘积 ARIMA 模型;我国第三产业增加值;时间序列分析2一、引言孔珊珊和李晓琳经过 OLS 法和格兰杰因果检验的实证分析,研究我国第三产业增加值与我国人均主要工农产品产量的关联,得出我国人均主要工农产品产量水平与第三产业增加值存有长期动态均衡关联,而格兰杰因果检验发现它们没有因果关联的结论。【1】 没有对我国第三产业增加值进行时间序列分析。而曹跃群、胡新华采用三大经济区以及各省市
3、区第三产业发展的数据样本,找寻它们之间不同演化的趋势和特征,阐明我国第三产业发展地区不同的演化,给出了第三产业发展不同客观存在于 31 个省市之间,但是从这种不同的演化趋势及特征来看,并不存有进一步分明的扩充趋势的结论。 【2】同样没有对我国第三产业增加值进行预测。乔咪采用 19522007 年第三产业生产总值的样本,运用平稳性和白噪声检验方法,对第三产业生产总值的进行预测。得出第三产业内部构造问题,第二产业的限制作用,制度环境的限制作用是作用第三产业发展的几个障碍。并提出要不断完善市场体制,突破垄断的建议。 【3】 没有探讨季节性因素对我国第三产业增加值的影响。综上所述,通过阅读大量文献发现
4、,目前关于第三产业增加值时间序列的研究分析绝大多数在于第三产业增加值的区域差异化,第三产业与其它因素的关联及年度第三产业总值,而关于季度第三产业增加值的季节乘积 ARIMA 模型构造的归纳与展望不多。因此,本文将另辟蹊径,运用季节乘积 ARIMA 模型来建立关于我国1992-2014 年季度第三产业的时间序列模型,并对其进行短期静态预测。结论指出,虽然第三产业增长速度加快,但呈现峰谷交替态势。建议继续深化改革,多渠道增加资金投入,培养和引进服务业人才,鼓励扩大国际化经营等措施,加快我国第三产业的发展。二、理论知识(一)ARIMA 模型样本特性大部分时间样本序列是不平稳的,如果直接把不平稳时间序
5、列作为平稳时间序列进行回归分析,会造成“伪回归”。(2)非平稳时间数据的处理关于确定性趋势的消除方法,可以先对原始序列取对数,在用最小二乘法或差分的方法。通过单位根 ADF 检验,选择适合的阶数差分。3(3)SARIMA 基本思想随机序列是指将预测样本随时间推迟而产生的样本序列,可以用一定的数学模型来近似描述这个序列。该数学模型就是季节乘积 ARIMA 模型,可以从时间序列的过去值及现在值来预测未来值。(4)SARIMA 定义季节性时间序列呈现出周期性的特性。不同的季节时间样本会拥有出不同的周期,假设 s 为周期的长度,那么一般月度样本的周期长度 s 是 12,季度样本的一个周期长度s 表示为
6、一年的四个季度。采用 Box-Jenkins 建模方法来建立 SARIMA,首先需要辨明周期长度 s 的数值,然后通过差分后序列的相关图来辨别模型的类型,最后进行参数的估计和检验。博克斯(Box)和詹金斯(JenKins)于 70 年代初推出一著名时间样本预测模型方法,也就是 Box-Jenkins 建模方法。季节乘积 ARIMA 模型是由 ARIMA 模型演变而来的。ARIMA 模型是由 3 个进程组成;自回归进程(AR(p);单整(I(d);移动平均进程(MA(q))。AR(p)即自回归进程,是用线性函数的过去值表示当前值的进程。假设后一时期的行为主要与其前一时期的行为有关联,而与其前一时
7、期从前的行为没有直接关联,也就是 Xt= 1Xt-1+at, 【4】 也就是 AR(1)。推广之,如果 Xt 不仅与前期值Xt-1 有关联,而且与 Xt-p 相关联时,也就是 Xt- pXt-p=at, 【4】 记作 AR(p)。MA(p),即移动平均过程。假设一阶平均模型,如果体系的响应 Xt 仅与前一时期进入体系的扰动项 at-1 存有一定的相关关联,即 Xt=at-1at-1, 【4】 也就是 MA(1)。引申来说,如果体系在 t 时期的响应 Xt 不仅与其前一时期进入体系的扰动 at-1 有相关关联,而且与 at-q 也存在一定的相关关联,即 Xt=at-1at-1-qat-q, 【4
8、】 也就是 MA(q)。单整(I),是差分非平稳序列为平稳序列进行差分的次数。ARIMA(p,d,q)模型的一般表示如下: (B)(1-B)d Yt=(B) t+ c, 【4】 其中,d 为差分的次数, p 为平稳序列的自回归阶数,q 为移动平均阶数。季节性时间样本模型 SARIMA(k,D,m)(p,d,q)可以变成,(B)U(B) Xt=(B)V(B)at【4】dSD其中,U(B)=1-T1B-T2B-TvB vsV(B)=1-H1B-H2B-HmB m4=(1-B)dd=(1-B )SDsD(五)季节乘积 ARIMA 模型的建模步骤1、观察原始序列 y 的时序图看序列是否有明显的趋势性和
9、季节性,对序列进行取对数后得到 lny,消除数据的趋势性。2、判断季节性时间序列周期通过时间序列的序列图判断时间序列是否为一个季节性时间序列,其周期是多少。一般来说季度数据的周期是 4。3、将时间序列平稳化经过时间序列差分和季节差分以及单位根检验,以转成一个平稳序列。只有经过恰当的差分,才可以使模型更有解释力。4、对模型初估计观测季节差分非季节差分样本的自相关函数以及偏自相关函数。判断模型阶数,对比模型的拟合效果和 t 检验的效果,选择一个模型进行估计。5、对模型作预估计处理得到参数的估计初始值,观察 DW 值,是否有自相关。6、对估计得到的模型残差进行适应性检验观察相关图和偏相关图 p 值是
10、否大于 0.05,以便得出是否通过白噪声检验。若为白噪声,则模型通过检验。(六)时间样本平稳性的检查应用以自相关函数为特征的传统应用和以单位根 ADF 检查为特征的现代应用。(七)D 阶单整样本的判断如果不是平稳序列yt历经 D 次差分后平稳,D-1 次差分不平稳,就称yt为 D 阶单整序列,也就是说 D 阶是差分的阶数。(八)季节自回归以及移动平均阶数判断方法季节时间样本自相关和偏自相关函数不呈现出线性衰减趋势,假设在延迟期为周期5S 的整倍数时出现峰值,则建立乘积季节模型是恰当的。一般情况下季节自回归以及季节移动平均阶数的判断可以对比模型的参数估计效果来判断。三、案例分析(一)样本由来 本
11、文使用的数据是我国 1992 第一季度到 2014 年第三季度第三产业增加值的数据。数据样本起源于国家统计局官网公布的季度数据。(详情见附录一)(二) 平稳化处理SARIMA 模型建模的基本条件是要求样本呈现出平稳性,图可以显示因变量随自变量而变化的大致走向,图中可以看出该序列呈上升走向和周期性,显著不平稳。040,080,0120,0160,020,0240,0280,092949698002040608101214Y图 1 我国第三产业增加值 Y 序列图下图是 Y 序列自相关以及偏自相关图6图 2 Y 序列自相关以及偏自相关图自相关系数随延迟期的扩大,减退向零的速度很慢,所以 Y 序列是不
12、平稳序列。一阶差分后 dlny 序列的自相关图如下:图 3 一阶差分后 dlny 序列自相关和偏自相关图自相关系数衰减到零的速率仍然很慢,所以一阶差分后的序列仍然是不平稳序列。采用对原始序列取对数和差分的形式,在进行单位根检验。呈现出在显著性水平 1%下,单位根检验的临界值是-3.508326;在显著性水平 5%,单位根检验临界值是-2.895512;在显著性水平 10%,单位根检验的临界值是-2.584952,t 检验统计量值是-1.141027,统计量值大于相应临界值,从而不能拒绝 H0,表明我国第三产业增加值经过一阶差分后序列仍然存有单位根,是不平稳序列。应该间接把不平稳时间序列转化为平
13、稳时间序列后在进行回归分析。关于原始序列 Y 取对数后一阶差分单位根检验结果如下:7表一 一阶差分后 dlny 序列的单位根检验Null Hypothesis: LNY has a unit rootExogenous: ConstantLag Length: 4 (Automatic - based on SIC, maxlag=11)t-Statistic Prob.*Augmented Dickey-Fuller test statistic -1.141027 0.6963Test critical values: 1% level -3.5083265% level -2.89551
14、210% level -2.584952*MacKinnon (1996) one-sided p-values.进而对序列 lny 进行二阶差分,进行单位根检验如下:表二 二阶差分后 dlny2 序列的单位根检验Null Hypothesis: D(LNY,2) has a unit rootExogenous: Constant, Linear TrendLag Length: 2 (Automatic - based on SIC, maxlag=11)t-Statistic Prob.*Augmented Dickey-Fuller test statistic -738.8537 0
15、.0001Test critical values: 1% level -4.0682905% level -3.46291210% level -3.157836*MacKinnon (1996) one-sided p-values.同样,由上表明显可以得到,在显著性水平 1%下,单位根检验的临界值是-4.068290;在显著性水平 5%,单位根检验临界值为-3.462912;在显著性水平 10%,单8位根检验的临界值为-3.157836,t 统计量值为-738.8537,统计量值小于相应临界值,所以拒绝 H0,表明我国第三产业增加值二阶差分后序列不存在单位根,是平稳的。下图是二阶差分后的
16、序列时序图-2-1012392949698002040608101214D2LNY图 4 二阶差分后 dlny2 序列的时序图从中可以看出差分后的序列在零相近处振动,无显明走向。趋势性已经消除,不过仍存在季节周期性。下图是差分二阶后的序列 d2lny 的自相关图以及偏自相关图图 5 差分二阶后的序列 d2lny 自相关图以及偏自相关图从图中可以看出,自相关系数在零相近振动,二阶差分后的序列是平稳的。一次季节差分 dlny4 的时序图如下:9.05.10.15.20.25.30.3592949698002040608101214DLNY4图 6 一次季节差分 dlny4 时序图从图中可以看出,一
17、阶季节差分后后的序列周期性已经消除,但仍存在趋势性。一次季节差分自相关图如下:图 7 一次季节差分后的时序图图中显然可以得到,自相关系数衰减到零很慢,一阶季节差分后的序列仍是不平稳。进而在序列 lny 取一阶季节差分的基础上,在对序列取 2 阶非季节差分,命令如下:genr dlnys2=dlog(y,2,4),时序图如下:10-.12-.08-.04.0.04.0892949698002040608101214DLNYS2图 8 一次季节差分后二阶差分时序图从图中能够得出,曲线绕着零均值附近波动,经过一阶季节差分后在进行二阶非季节差分的序列是平稳的。其自相关和偏自相关图如下:图 9 一次季节差分后二阶差分相关图通过对 DLNY2s 的相关和偏相关图分析,可以建立 41,02,3的模型。理由如下:因为相关图呈衰减特征,说明至少存在非季节 3 阶自回归。不存在移动平均成分。图中能够得出,难判断是否 1 阶季节自回归以及 1 阶季节移动平均同时存有,还是只存有它们当中的一个。估计结果显示,1 阶季节移动平均存在于模型中。综合来说,经过序列 dlnys2 的自相关图和偏自相关图分析,可建立 SARIMA模型。4,02,3