1、上海市高速公路交通量影响因素分析摘要:高速公路交通量体现了社会经济发展对高速公路的交通需求。本文将交通量按照车辆特征和区域特征分为 7 类,将影响因素归纳为社会经济类、交通设施类和公共政策类三大类共计 24 个变量。使用聚类分析后对交通量(即因变量)进行归纳,使用相关性分析对影响因素(即自变量)进行筛选。采用一元线性回归和弹性回归模型着重研究了人均GDP 对不同类别交通量的影响程度,并对比分析了各个模型的优劣。 关键词:影响因素;聚类分析;相关性分析;一元线性回归;弹性回归 高速公路交通量是社会经济发展对高速公路交通需求的反映。2003年以来上海高速公路交通量稳步增长,2003-2011 年高
2、速公路交通量呈线性增长趋势,年均增长超过 5 万辆/日(2008、2009 年除外) 。2011 年年平均日交通量达到 62 万辆,收费高速公路拥挤度为 0.5 左右,车辆周转量为 1525.7 万 PCU.km/日。为了把握近期上海市高速公路交通量发展趋势,本文对上海市高速公路交通需求和交通量影响因素进行深入研究,得出影响高速公路交通量增长的主要因素,并利用一元线性回归和弹性回归建立模型,为近期高速公路发展定位和经济评价提供有力的依据。 1.研究综述 对公路交通量进行预测最早始于上个世纪初期,并在 20 世纪 50 年代初步形成四阶段法;至 20 世纪 70 年代,随着高速公路的快速发展,四
3、阶段模型逐渐趋于完善,一直在国际公路交通量预测方法中占据着重要地位1。此后,为提高预测模型的准确性和科学性,Iskander 等2将社会经济因素作为参数加入模型,采用聚类分析和多元线性回归分析的方法对高速公路交通量进行预测。我国对于高速公路交通量预测的研究起步稍晚,始于上世纪 80 年代,常用的预测方法可以归纳为两大类:定基预测法和定标预测法3。其中,定基预测法是基于道路交通量的变化规律,利用指数曲线模型或增长率曲线模型对交通量进行预测;定标预测法是按照道路交通量和社会、经济指标的变动之间的关系,利用回归曲线模型进行预测。李锋和杨帆4对运输通道的趋势交通量、高速公路的转移和诱增交通量进行细化,
4、提出不同的方法对各类交通量进行预测。盖春英和裴玉龙5以及赵朋宾和张潇6均从公路建设项目的自身特点出发,考虑了区域社会经济发展对公路交通量预测的影响。Chu 和Widjaja7提出在使用神经网络模型时,对训练样本进行预处理可以提高神经网络模型的泛化能力,从而提高预测精度。魏晋雁和茹锋8选取人口、汽车保有量、国民生产总值、工农业生产总值和居民年均收入为主要影响因素,将 9 年历史数据作为训练样本,2 年历史数据作为外推测试样本,采用广义回归神经网络(GRNN)模型对交通量进行预测。殷涛等9对比了我国不同地区高速公路运营交通量和预测交通量的差别,分析其差异值及误差率,总结交通量预测结果的特点,并将误
5、差归纳为交通量预测指标、社会经济因素、收费标准与出行者经济承受能力的关系,以及综合运输网络变化等几大类影响因素。此外,某些专家和学者采用模糊数学法和遗传神经网络法对公路交通量进行预测1011。随着计算机技术的发展,许多专家和学者开发并使用了专业软件对高速公路交通量进行预测。刘伟12以 TransCAD 为平台,深入研究了出行分布模型的特点,认为双约束增长系数法适用于公路交通量预测。 目前在我国公路项目研究中,常用的交通量预测方法主要包括四阶段法、专家预测法、主观概率法、指数平滑法、回归分析等13。不同的预测方法各有特点,但各类方法的适用地区和道路有所不同,不恰当的模型选取可能引起较大误差。例如
6、,转移交通量和诱增交通量的影响在项目全线建成两三年后才会逐渐显现。若是过早将这两类交通量考虑在内,易使预测结果偏大。模型中参数选取及系数确定的方法不够清晰,尚未形成完善的标准体系。此外,社会、经济的发展对交通量需求至关重要,但某些预测方法未能将这一因素考虑在内,给预测结果带来较大偏差。 基于上述问题,本文将自变量分为社会经济类、交通设施类以及公共政策类共计 24 个变量,因变量分为总流量、客、货、市域及进出上海流量共计 7 个变量,对影响上海市高速公路交通流量的影响因素进行分析。具体步骤为首先采用聚类方法对不同类别流量进行分析,对因变量进行归类;然后对 24 个自变量进行相关性分析,剔除关联性
7、较大的变量,减少回归模型的多重共线性;在此基础上,选用不同模型对精简后的变量进行拟合,量化分析各个自变量对因变量的影响显著水平;最后对比不同模型的估计精度和预测精度。 2.变量选取 2.1 因变量选取 聚类分析可以把观测样本进行合理的分类,使得同一类的观测比较接近,不同类的观测值相差较多。根据观测样本间的接近程度(距离)或相似程度,聚类分析可以根据不同的距离度量和相似度度量产生不同的聚类结果,最终将相近或相似的个体归为一类,聚类的实质是相似性度量,类别是相似元素的集合。本文采用 Ward 最小方差法(又称 Ward离差平方和法)14对因变量进行聚类,该方法的原理是使聚类产生的类内离差平方和增量
8、最小。为消除不同类别流量的绝对值带来的影响,文章选取总流量(Total) 、客车流量(Car) 、货车流量(Truck) 、市域内的客车流量(Car_City) 、市域内的货车流量(Truck_City) 、进出上海的客车流量(Car_Surb)和进出上海的货车流量(Truck_Surb)的年增长率作为输入进行聚类,聚类后的结果用谱系聚类图进行表示,见图1 所示。 图 1 使用 Ward 法的谱系聚类图 可以发现,高速公路总流量、客车总流量、市域内的客车流量、市域内的货车流量增长趋势可以归为一大类;进出上海的客车流量和进出上海的货车流量增长趋势可以归为另外一大类。在本文回归分析模型中,将因变量
9、分为高速公路总流量、市域内总流量和进出上海的总流量三类数据分别进行。 2.2 自变量选取 社会经济类因素又可以分为 7 类,共计 23 个因素,分别为: GDP:全市人均 GDP(元) ;全市 GDP(亿元) ;郊区 GDP(亿元) ;郊区 GDP 占全市的比例 工业总产值:全市工业总产值(亿元) ;郊区工业总产值(亿元) ;郊区工业总产值比例 固定资产投资:全市固定资产投资(亿元) ;郊区固定资产投资(亿元) ;郊区固定资产投资比例 社会消费品:全市社会消费品(亿元) ;郊区社会消费品(亿元) ;郊区社会消费品比例 人口:全市常住人口(万人) ;郊区常住人口(万人) ;郊区人口比例 车辆:全
10、市民用车辆(万辆) ;全市民用客车(万辆) ;全市民用货车;千人车辆保有量(辆/千人) ;客车比例;货车比例 港口货物吞吐量:港口货物吞吐量(万吨) 交通设施类因素:道路容量(公里?PCU/小时) 。 公共政策类因素分为以下几种情况: 政策一:2003、2004 年调整收费公路车辆通行费的车辆分类标准; 政策二:2006 年起对 A30 环郊和 A2 集卡弹性收费; 政策三:2009 年起对 A12(沪嘉高速)的客车弹性收费; 通过对各个政策实施前后高速公路网的流量分析发现,上述几类政策的影响甚微,因此本次建模分析时未作为自变量输入。此外,由于自变量个数过多,经分析后,郊区工业总产值比例、郊区
11、固定资产投资比例、郊区常住人口、郊区人口比例及全市民用车辆未纳入分析。其余自变量/因变量取 2002 年至 2011 年共计 10 年的历史数据*进行拟合。 *注:历史数据来源为 2002 年至 2011 年的上海市统计年鉴。 3.模型建立 3.1 一元线性回归模型 一元线性回归模型15可以反应一个因变量与一个自变量之间的线性关系,其函数形式可以表示为: y=0+1x+ 一元线性回归模型又称为两变量或者双变量线性回归模型。其中, 1 是 y 和 x 关系式中的斜率参数(Slope parameter) ; 0 被称作常数项的截距参数(Intercept parameter) 。 通常使用最小二
12、乘法对一元线性回归模型的参数进行估计。 回归结果表明,人均 GDP 对于总流量、市域交通量和进出交通量三类流量均是非常重要的解释变量。对于高速公路总流量,人均 GDP 的假设检验结果的 P 值0.0001,拒绝原假设,说明人均 GDP 指标可以用来解释总流量;并且与其它自变量相比,该指标的调整 R2 最高,为 0.9946,斜率参数为 10.75527,说明一个单位人均 GDP 的增加,可以带来10.75527 单位的高速公路总流量的增加。对于市域高速公路流量,人均GDP 的假设检验结果的 P 值0.0001,拒绝原假设,说明人均 GDP 可用于解释市域高速公路流量;调整 R2 最高,为 0.
13、9873,且斜率参数为6.95541,说明一个单位人均 GDP 的增加,可以带来 6.95541 单位的市域高速公路总流量的增加。对于进出的高速公路流量而言,人均 GDP 的假设检验结果的 P 值0.0001,拒绝原假设,说明人均 GDP 可用于解释进出的高速公路流量;调整 R2 也为最高,为 0.9776,且斜率参数为3.79987,说明一个单位人均 GDP 的增加,可以带来 3.79987 单位的高速公路总流量的增加。人均 GDP 对于三个因变量拟合的调整 R2 均大于0.97,可以用来有效解释高速公路总流量、市域高速公路流量以及进出上海的高速公路流量的变化。三类流量的一元线性回归估计模型
14、整理如下: 总流量:QTotal=10.75527人均 GDP-271313 市域交通量:QCity=6.95541人均 GDP-177707 进出交通量:QSurb=3.79987人均 GDP-93607 但值得注意的是,一元线性回归模型的局限性在于不管 x 的初始值为多少,其任何一个单位的变化对 y 的影响都是相同的。这在实际应用中是不现实的,例如在发展的不同阶段,交通增长模式可分为经济驱动型和人口驱动型。同一单位的 GDP 变化对交通量带来的影响是不同的,这就需要对回归形式进行适当变换。 3.2 弹性回归模型 弹性模型15又被称为对数值对数值模型,因为模型以 log(y)为因变量,以 l
15、og(x)为自变量。其函数形式为: logy=0+1logx+ 其中,1 为 y 对 x 的弹性(Elasticity),对 1 的解释为: %y=1%x 也即:弹性系数 e=Y 指标变化的百分率/X 指标变化的百分率。 根据对未来经济发展趋势的估计确定经济增长率(即:人均 GDP 的增长率) ,计算高速公路流量的趋势增长率: iFlow=eiGDP 未来第 n 年的交通流量预测值为: YY01+eiGDPn 其中,Y0 为基年交通量。 结果表明,对高速公路总流量而言,在 P 值0.0001 的所有自变量中,全市常住人口的弹性系数最大,为 5.264;若考虑参数对模型的拟合程度(即调整 R2)
16、 ,则人均 GDP 最优,为 0.9786。对市域内高速公路流量而言,在 P 值0.0001 的所有自变量中,自变量弹性系数的排序依次为:全市常住人口、郊区消费品比例、郊区 GDP 比例、千人车辆保有量和人均GDP;若考虑参数对模型的拟合程度,人均 GDP 最优,为 0.9839。对进出上海的高速公路流量而言,在 P 值0.0001 的所有自变量中,弹性系数的排序为郊区消费品比例、郊区 GDP 比例和人均 GDP。若考虑参数模型的拟合程度,以郊区消费品比例最高,为 0.8711;其次为郊区 GDP 比例,为0.8628;再次为人均 GDP,为 0.8606。综上分析,可以发现人均 GDP 对三
17、类流量均是非常重要的因素。三类流量的弹性回归的估计模型整理如下: 总流量增长率:iTotal=2.0345iGDP 总流量弹性回归模型:YTotal=YTotal01+2.0345iGDPn 市域流量增长率:iCity=1.99972iGDP 市域流量弹性回归模型:YCity=YCity01+1.99972iGDPn 进出流量增长率:iSurb=2.20798iGDP 进出流量弹性回归模型:YSurb=YSurb01+2.20798iGDPn 4.误差分析 为评价线性模型回归及弹性模型回归的结果,利用估计参数对历年流量进行计算,并对比估计值与实际值之间的绝对误差和相对误差。其中,绝对误差(Ab
18、solute error)是估计值与真实值之差的绝对值,相对误差(Relative error)是绝对误差与真实值的比值。分别对三类流量进行线性回归和弹性回归的模型误差分析结果如下表 1 和表 2 所示。 表 1 一元回归线性模型和弹性回归模型的绝对误差对比 表 2 一元回归线性模型和弹性回归模型的相对误差绝对值对比 对于绝对误差,弹性模型的平均绝对误差要大于线性模型。但是对于 2009 年高速公路总流量的估计值,弹性模型的绝对误差值为 19120,小于线性模型的 24189。说明使用弹性模型可以更为灵敏的反应经济增长情况对高速公路流量的影响程度。 对比相对误差估计值可以发现,采用两种模型对高
19、速公路总流量的估计误差分别为 2.5%和 6.4%;市域流量和进出流量的估计误差相对较大,说明直接对高速公路总流量的估计精度优于对市域流量和进出流量的估计精度。 5.结论 本文对影响上海市高速公路交通流量的影响因素进行深入分析,并利用一元线性回归模型和弹性回归模型建立筛选出的自变量和因变量之间的关系,为把握上海市高速公路流量的历史变化规律及未来发展趋势提供了有力支撑。结果表明,人均 GDP 可以有效解释高速公路总流量、市域高速公路流量以及进出上海高速公路流量的变化趋势;线性回归模型和弹性模型均可以对高速公路流量进行估计和预测。在经济形势稳定的情况下,采用线性回归模型进行未来年高速公路流量预测的精度相对更高;但在经济形势波动时,弹性模型的估计和预测结果要优于线性模型。 参考文献 1陆化普,等.交通规划理论与方法M.北京:清华大学出版社,1998. 2Iskander,W.H., Majid,J., and Traci,Q. Forecasting of traffic volumes on US highways C. IIE Annual Conference and Exhibition 2004, Norcross, GA:355-366.