1、第 1 节 时间序列 ARMA 模型一、时间序列及其特征识别(一)地理时间序列的分类与构成1.地理系统中的时间序列如果对地理系统进行长期观测,每隔一定的时间作一个记录,则记录结果可以构成时间序列。如果只针对某一个指标进行观测,得到的记录为一元时间序列;如果同时观测多个指标,则可形成多元时间序列。因此,所谓时间序列(time series) ,实际上就是将某个指标在不同时刻的不同数值,按照时间先后的顺序排列而成的数列。时间序列分析就是利用这组数列,应用数理统计方法加以处理,以预测未来事物的发展。地理系统的演化过程一般包含两种成分,一是确定性成分,二是随机性成分。确定性成分具有一定的物理意义,它们
2、又包括周期成分和非周期成分,其坐标曲线具有比较明确的规则;随机成分则表现得没有规则,其坐标曲线似乎是任意摆动和振荡的轨迹,这种轨迹很难从物理上进行阐释,只能借助随机过程理论和方法予以分析。随机时间序列通常包括平稳和非平稳两种情况,二者的性质有很大不同。简而言之,时间序列的分类和构成可以图示如下(图 4-1-1) 。这种分类不是特别严格的,它们之间的界限有时很难区分。例如,有些学者将周期性序列视为广义的平稳序列。地理时间序列确定型 周期型序列 简单 周期复合周期 非周期序列 准周期序列 暂态 序列 趋势 型序列跳 跃 型序列突 变 型序列 随机型 平 稳 序列 相依型序列独立型序列 非平 稳 序
3、列 图 4-1-1 地理时间序列的分类与构成地理系统时间序列的周期性一般与地球的公转、太阳活动和月球绕转有关,因此自然地理的许多现象如江河的水位、生物的发育都具有一定的季节性。与此相关,许多人文地理现象由于生态环境的季节变化也表现出明确的周期规律,例如风景旅游地的游客人数具有季节性特征。认识自然变化的周期性规律有时是非常重要的,例如,早在 80 年代,浙江省气象研究所就有人(田清鉴)研究发现,1887 年、1909 年、1931 年、1954 年、1975 年,我国长江、黄淮海流域都曾发生特大洪水,时间间隔平均约为 22 年,与太阳黑子的 22 年周期有关,由此可以推断,1997 年前后还会发
4、生特大洪水。结果 1998 年中国果然再次洪水泛滥成灾。时间序列分析是定量预测方法之一,它的基本原理:一是承认事物发展的延续性。应用过去数据,就能推测事物的发展趋势。二是考虑到事物发展的随机性。任何事物发展都可能受偶然因素影响。时间序列预测一般反映三种实际变化规律:趋势变化、周期性变化、随机性变化。一个时间序列通常由 4 种要素组成:长期趋势 T、季节变动 S、循环波动 C 和不规则波动 I。长期趋势 T:是时间序列在长时期内呈现出来的持续向上或持续向下的变动。季节变动 S:是时间序列在一年内重复出现的周期性波动。它是诸如气候条件、生产条件、节假日或人们的风俗习惯等各种因素影响的结果。比如春节
5、、圣诞节前百货商店的销售额剧增;五一节、国庆节旅游人数剧增(假日经济) 。循环波动 C:是时间序列呈现出得非固定长度的周期性变动。循环波动的周期可能会持续一段时间,但与趋势不同,它不是朝着单一方向的持续变动,而是涨落相同的交替波动。一个重要例子就是所谓的“经济循环” ,它由经济繁荣、衰退、萧条、复苏构成。不规则波动 I:是时间序列中除去趋势、季节变动和周期波动之后的随机波动。不规则波动通常总是夹杂在时间序列中,致使时间序列产生一种波浪形或震荡式的变动。只含有随机波动的序列也称为平稳序列。比如洪水等自然灾害、战争、SARS 等不规则变动,对经济的影响极为重大。尽管一般认为这样的事件只会引起短时间
6、的变化,但是他们也可能导致新的周期或者其他运动。(二)地理时间序列的识别判据识别时间序列的最简单的方法是坐标图直观法:以时间 t 为横坐标,以变量 x(t)为纵坐标,画成变动图,便可以看出时间序列的基本特征:周期型,趋势型,抑或随机型。将表 14-1-1 中的数据画成坐标图,便可构成一种关于时间序列的简明图式,不过时间序列较短,难以准确地做出结论。坐标图直观法虽然简单,但判定的结果准确与否依赖经验。因此,要较为准确地进行时间序列的识别,还要借助一定的参数验证。最常用的统计量就是自相关系数以及由此建立的 2(卡方)检验。1.自相关系数自相关系数的一种表达式为=1( ) ( +)=1( ) 2=1
7、( +) 2=1( ) ( +)=1( ) 2式中 t 为时序, 为时滞(time-lag,或译“时移” 、 “滞后” 、 “时间延迟”等) ,且一般取 =1, 2, , n/4,xt 为第 t 个变量,变量的均值定义为=1=1这里 n 为时间序列的长度(即观测点个数) 。当 n 较大而 较小时,采用近似计算即可。自相关系数随着时滞的增加而改变,乃是时滞的函数,自相关系数序列称为自相关函数。2.Q 统计量及其修正公式为了利用自相关系数判断时间序列的基本特征,G. E. P. Box 和 D.A. Pierce 提出了一种简单的判别公式。假定计算出 m 个自相关系数,则定义如下统计量:Q=n=1
8、2他们证明 Q 近似地服从卡方( )分布。Q 越小,表示 m 个自相关系数同2时为 0 的可能性越大;反之越小。Q 的大小需要在一定显著性水平上进行确定其临界值 。后来 Ljung 和 Box 对上式进行修正,结果为2()=(+2)=12这就是所谓 Box-Ljung 统计量,上式仍然近似服从卡方分布,检验的原理与方法基本不变,但效果更好。Q 统计量的等价检测判据是自相关系数的 P 值(或者叫做 sig.值) ,因为 P 值是基于渐近卡方近似。(二)地理时间序列特征的识别时间序列的识别内容主要包括随机性的识别、平稳性的识别、周期性的识别和趋势性的识别。1 .随机性的识别将一个的时间序列 x0、
9、x 1、x t-1、x t 视为一组信号,当前信号 xt 与在此之前的所有信号之间的完全独立。换言之,在已知 x0、x 1、x t-1的条件下,xt依然不可预测。这时,我们就说时间序列具有随机性。随机性的要点包括三个方面:均值为零,方差为常数,序列不存在自相关(自协方差为零) 。现实中的随机序列均值为常数,可以视为标准的零均值随机序列平移的结果。这类序列中心化之后,均值便为零。随机性检验的一个定量判据就是自相关系数,方法与“回归分析”一章中的相关系数检验相似。一般认为,当取显著性水平为 =0.05 时,如果自相关系数满足:1.96 1.96则有 95%的把握断定所有的自相关系数与 0 没有显著
10、性差异,从而该时间序列具有随机性。需要指出的是,1.96 这个数值来自正态分布,是一个统计学常数,一般近似为 2。样本路径长度的平方根为序列的标准误差。因此,1.96 / n 给出了二倍的标准误差线。过去,这个二倍的标准误差既用来检测自相关系数,也用于检测偏自相关系数。近些年来的一个趋势是主要用于检测偏自相关系数,自相关系数采用更为复杂的修正公式。有些软件如 SPSS 在计算自相关函数时,会给出各个自相关系数的 P 值(sig.值) 。P 值基于渐近卡方近似,与 Q 统计量的检验相辅相成:如果一个序列是随机的,则其自相关系数的 P 值大于 0.05,典型情况大于 0.5。反之,如果一个序列不是
11、随机的,则其自相关系数序列的 P 值小于 0.05,典型情况小于 0.01。概括起来,当一个时间序列的所有自相关系数满足如下条件,就可认为它在某个显著性水平上是随机的: 自相关系数满足 ;|R |1.96/n存在趋势性。具有趋势性的时间序列基本特征概括如下: 排列靠前的多个自相关系数突破二倍标准误差线,典型的趋势序列的自相关系数在有效时滞范围内都超过二倍的标准误差线; Q 统计量大于相应的卡方统计量的临界值(显著性水平取 0.05) ; P 值(sig.值)小于 0.05,典型的情况小于 0.01。5.上述四种特性的对比在时间序列的四种基本属性中,随机性是最为基本的特性。现实中的观测数据或多或
12、少具有随机性。一个复杂的序列通常是包括随机性在内的多种属性的序列“组合”而成的结果。在系统总结各种序列属性检测标准之前,首先澄清两个基本概念:随机性和随机序列。一个满足随机性统计判据(零均值、常方差、序列无关)的序列一定是随机序列,但随机序列未必满足随机性的检测判据。原因在于,一个隐含着随机性的序列,譬如,平稳序列,也叫做随机序列,但它们不满足随机性的三个统计判据。典型的实例是移动平均过程。基于一个典型的随机过程满足随机性判据的白噪声序列可以生成一个平稳的移动平均过程,但移动平均序列不满足随机性的三个统计判据,而是满足平稳性的统计判据。随机序列的属性检测判据在于两个方面:一是自相关系数绝对值与
13、二倍的标准误差,二是修正后的 Q 统计量即 Box-Ljung 统计量与卡方临界值的关系。第二个检测标准在理论上与 P 值是否大于或者小于某个显著性水平等价。但在现实中,由于序列结果的复杂性,我们需要结合 Q 统计量和 P 值共同判断。将时间序列特性的检测标准概括起来(见表 4-1-1) ,可以看到,Q 统计量检测效果与 P 值的检测效果一致:在一定的显著性水平下,Box-Ljung 统计量是否小于卡方临界值与 P 值是否大于某个显著性水平是一个问题的两个方面。但是,自相关系数与标准误差的关系却各有不同的检测标准。表 4-1-1 随机性、平稳性、周期性和趋势性判据的对比序列属性 统计性质 自相
14、关系数 Q 统计量Box-L.jung统计量P 值 典型例证随机性 零均值、常方差、序列无关 小于 2 倍标准误差 小于卡方临界值大于0.05自噪声平稳性 均值为常数、方差有限,自相关系数仅与时滞有关除了前面几个数值,大多小于 2 倍标准误差大于卡方临界值小于0.05MA 过程周期性 均值、方差、自相关系数周期变动周期性突破二倍标准误差线大于卡方临界值小于0.05正弦波动序列趋势性 均值、方差随时变动,自相关系数逐渐衰减多数大于 2 倍标准误差 大于卡方临界值小于0.05指数增长序列说明:为了与二倍的标准误差对应,检测标准一律取 =0.05 的显著性水平。二、ARMA 模型对于预测分析而言,模
15、型是否真实并不重要,重要的是对复杂现实的近似效果。一个时间序列模型建设和预测是否成功,关键在于是否能够简约而又准确地近似 Wold 表示。目前存在三种近似表达:其一是移动平均(Moving Average, MA) ,其二是自回归(Auto-Regression, AR) ,其三是自回归移动平均(Auto-Regressive Moving Average,ARMA) 。自回归、移动平均等概念最初由前苏联统计学家 E. Slutsky 和英国统计学家 G.U.Yule 提出。G.E.P. Box 和 G.W. Jenkins 在此基础上发展了一套完善的建模和预测规范。因此,移动平均自回归模型通
16、常也被称为 Box-Jenkins 模型。 MA、AR 和 ARMA 三种模型形式各异,但本质上都是对 Wold 表示的一种近似。尽管如此,不同的模型功能各异,效果有所差别。有时候,尤其是在假设模型为真的前提下描述总体特性时,常常将这些模型视为一种“过程” ,亦即随机过程(stochastic process)的简称。因此之故,一些文献中常常出现移动平均过程、自回归过程、自回归移动平均过程等概念。(一)协方差平稳和自相关检验1.自协方差平稳条件时间序列的观测值通常是按照时间的顺序从前到后排列,构成一个有序的集合。 ,2,1,0,1,2,一个时间序列的实际值通常被称为一个实现(realizati
17、on) 。在理论上,时间序列的实现是无穷长度的:从无限远的过去一直延伸到无穷远的将来。实现的意义似乎非常抽象,实用价值也比较有限,但在理论推导与变换中却非常有用。在功率谱分析的理论基础中,实现的意义十分明确。正如样本(sample)是总体(population)的子集,现实中的观测值通常是实现的有限子集 。1,2,这个子集被称为样本路径(sample path) ,其中下标表示时序 t=1, 2, , T。这里 T 为样本路径的长度(也可以用 n 表示) 。时间序列分析的重要目的是预测分析。对于任何一个时间序列,从微观上,我们非常关心样本路径的基本概率结构。只有一个序列的均值和协方差结构在时间
18、上保持稳定,我们才可以借助过去的信息预测未来。如果控制未来的信息不同于过去,预测模型就没有实际效果。因此,为了正确地建立时间序列模型,必须讨论时间序列的协方差平稳性质。从图像上看,时间序列的数据点通常用折线相连,通过折线的变化特征可以识别时间序列的发展趋势。如果生成时间序列的随机过程不随时间的变化而变化,则折线就变成了一条水平直线。现实中几乎没有什么事物沿着水平直线向前演进,但有一类系统的时间序列近似围绕水平趋势线上限波动,远距离看来(或者粗视化之后)就像一条水平直线。对于这一类的时间序列,反映的就是所谓随机系统的平稳过程。如前所述,平稳性的本质是时间序列的概率结构保持不变。对于一个样本路径,
19、记 P(x1, ,x k)为 k 元随机向量(x 1, ,x k)的概率分布函数。假如对于任意的 t、k、m,下式成立(,+)=(+,+)就称时间序列是平稳的,等式的含义就是概率结构不变。这样理解似乎有些抽象。现在我们具体描述协方差平稳序列的数学特征。所谓协方差平稳性质(covariance stationary) ,理论上有如下要求:第一,序列的均值在时间上稳定。假定在某个时刻 t,一个序列的均值记为 =式中 E=为均值算子。只要该序列满足协方差平稳性要求的均值稳定条件,则对于任意的 t 值,应有 =这意味着,对于均值稳定序列,均值与参照时间无关。第二,序列的协方差在时间上稳定。为了说明这个
20、问题,需要引入自协方差函数的概念。假定一个序列,取时间间隔即时滞为 ,则 xt 与 xt- 的自协方差函数(autocovariance function)的定义如下:( ,) =(,)=()()也就是说,自协方差函数与时间 t 和时滞 有一定关系。但是,假如时间序列的协方差平稳,则 仅仅取决于时滞 ,而与时间 t 没有关系,亦即( ,) =()自协方差函数可以反映协方差平稳序列的周期变化。时间序列的周期识别,本质上就是自协方差分析。自协方差函数具有对称性,也就是说,对于 0,我们有 ( ) =()对称性表明协方差平稳序列的自协方差函数仅仅与时滞长度有关,而与时间延迟的方向无关(前向移动与后向
21、移动的效果一样) 。顺便指出,当 =0,自协方差就是时间序列的方差。(0)=(,)=()第三,序列方差有限。换言之,就是时滞为 0 时的自协方差为 (0)。根据对称性可以证明 ()(0)如果 (0)0) 。随机冲击作用的时间间隔越大,累积效应越强,引起时间序列失稳的可能性也就是越大。为了刻画时间序列过去与未来的影响,我们引入自相关函数概念。自相关系数(Auto correlation Coefficient, ACC)由相关系数公式推广而来。其公式可以表示为相关系数的分子为 x 与 y 的协方差,分母是 x 和 y 各自的标准差。可以认为,所谓相关系数,其实就是基于“标准化”的协方差,其数值介
22、于-1 到 1 之间,消除了量纲的影响,便于比较。相关系数可以推广到自相关系数,自相关系数随时滞的变化形成自相关函数(autocorrelation function, ACF) 。()= (,)( ) ( ) = ( )( 0) ( 0) =( )( 0)这里涉及两个要领:其一,根据协方差平稳条件的假设,任意时刻的方差不变,即有 =(0)其二,任何序列都与自身完全相关,即有(0)=(0)(1)=1因此,计算 (0)=1 没有实际意义,自相关系数都从 0 时起算。自相关函数有各种类型,包括单边衰减式,阻尼振荡式。下面是 H.A. Wolfer 记录的17701869 百年太阳黑子数据(Wolf
23、ers sunspot series)自相关函数图,具有明显的阻尼振荡衰减特征。图 4-1-2 Wolfer 太阳黑子阻尼振荡式自相关函数和偏自相关柱形图(17701869)偏自相关函数在分析中可以与自相关函数相辅相成。偏自相关函数( partial autocorrelation function, PACF)是偏自相关系数随时滞变化的函数。所谓偏自相关系数(partial autocorrelation coefficient, PACC) ,时间就是利用 xt-1、x t-2、x t- 与 xt 进行总体线性回归时的回归系数。也就是说,如果我们建立自回归方程: =0+11+22+式中的
24、p 是偏自相关系数,它所对应的函数 p() 便是偏自相关函数。顺便说明一下总体回归(population regression)概念:当处理的样本中包含的数据为无穷多个的时候,回归估计参数将不受抽样变动的影响,此时估计的参数为总体参数。自相关函数与偏自相关函数存在一定的数理联系,两种系数测度可以借助Yule-Walker 方程相互表达。尽管如此,自相关函数系数与偏自相关系数又有不同。自相关系数是 xt 和 xt- 的简单、常规相关测度,而偏自相关系数则是在控制 xt-1、x t-1 之后 xt 和 xt- 的联系程度。二者的区别类似于多元线性回归中简单相关系数与偏相关系数的区别。偏自相关函数也
25、可以作图表示,其柱形图可以与自相关函数的柱形图相互参照,互补分析。(二)移动平均与自回归模型1.AR 模型AR 模型也称为自回归模型。它的预测方式是通过过去的观测值和现在的干扰值的线性组合预测, 自回归模型的数学公式为: 12tttpttyyy式中: 为自回归模型的阶数 (i=1,2, ,p)为模型的待定系数,pi 为误差, 为一个平稳时间序列。tty图 4-1-3 显示,山东省人口变化的自相关分析表明,有相当多个自相关系数与 0 有显著性差别,这正是趋势性的特征之一。另一方面,在一次滞后处偏自相关函数明显截尾,这又是典型的自回归过程的标志之一。图 4-1-3 山东省 1949-2012 年人口增长的相关函数柱状图2MA 模型MA 模型也称为滑动平均模型。它的预测方式是通过过去的干扰值和现在的干扰值的线性组合预测。滑动平均模型的数学公式为: 12ttttqty式中: 为模型的阶数; (j=1,2, ,q)为模型的待定系数; 为qj t误差; 为平稳时间序列。ty