1、1基于多源异构数据的高速公路事故黑点辨析摘要文章对多源异构数据分析方法进行对比分析,选择了聚类分析法对高速公路事故黑点进行辨析。文章从驾驶员生理、心理特征、驾驶行为和驾驶技能等因素分析驾驶员对高速公路道路安全的影响。采用基于最小离差平方和的聚类分析方法对高速公路路网进行事故黑点理论研究。 关键词高速公路;聚类分析;事故黑点;驾驶员因素 DOI1013939/jcnkizgsc201623161 改革开放后,我国高速公路建设事业迅猛发展,从 1988 年第一条高速公路沪嘉高速公路建成通车,至 2012 年,我国高速公路通车总里程达到 96 万千米,已经超越了美国的 92 万千米,居世界第一位。同
2、时,我国机动车保有量也呈现“井喷式”增长态势。然而,道路交通安全问题也逐渐凸显,成为我国经济社会发展中急需解决的难题。其中,高速公路的道路安全问题尤为突出。 国内外众多研究机构和学者围绕多源异构数据在道路事故黑点辨析方面的应用,从多个层次、角度采取不同的方法进行了广泛研究。Smith et al 利用聚类分析的方法对交通信号灯配时数据进行了分析处理。1Cevallos 和 Wang 将数据挖掘技术应用在公交系统上,提高了公交准时率。2Saccomanno 和 Grossi 等人提出将贝叶斯模型应用在对意大利南部SS107 公路的事故黑点鉴定上3,表明了多源异构数据处理方法能够很2好地应用在事故
3、黑点鉴定领域。 本文通过对多源异构数据分析方法进行分析比较,选择了聚类分析法对高速公路事故黑点的鉴定进行分析研究。文章从驾驶员特性的角度出发,对来源于不同部门的各种类型高速公路路网数据用聚类分析方法进行数据挖掘,从而对事故黑点进行辨析。 1 多源异构数据融合与挖掘 高速公路交通安全数据的多源异构性表现在数据的来源多样性、信息广泛性、异地分布性,来源于不同部门的各种类型交通安全数据具有不同的分析标准,从多角度全面的对多源异构数据进行处理分析,是迅速有效地对事故黑点进行辨析的关键。 1.1 多源异构交通安全数据融合 对于判别高速公路事故黑点、建立预测模型,需要在众多交通安全影响因素中选择最相关的要
4、素作为模型变量。实现该过程的首要任务是对多源异构交通安全数据进行预处理,即选择数据融合(Data Fusion)方法对数据库建立统一的对外服务窗口,从而利用数据挖掘技术对交通安全影响因素进一步挖掘分析。 数据融合可以有效整合多源高速公路交通安全数据,消除部分数据之间的异构性,减少有效安全数据的损失。图 1 为高速公路交通安全数据融合结构示意图。 1.2 多源异构交通安全数据挖掘 数据挖掘(Data Mining)又称数据库中的知识发现(Knowledge Discovery in Database,KDD)4,是从大型数据库中提取隐藏的、未3知的、有潜在应用价值信息的一种数据处理方法。数据挖掘
5、技术是大数据信息领域中应用广泛、发展迅速的一项技术,是很多不同领域专家和学者研究的热门技术。 数据挖掘技术在交通领域应用广泛,通常采用数据挖掘技术对公路监测设备所采集的数据进行分析,从而对城市交通或高速公路制定交通管控和诱导策略。常用数据挖掘的方法有:人工神经网络(Neural Network) 、遗传算法(Genetic Algorithms) 、决策树(Decision Trees) 、模糊逻辑(Fuzzy Logic) 、规则归纳(Rule Induction)等。5数据挖掘的任务包括:数据特征化、数据区分、关联规则、分类、聚类、孤立点分析和演变分析等。其中,聚类分析是处理和分析数据之间
6、关系的数据挖掘方法。 2 高速公路事故黑点鉴定 2.1 事故黑点鉴定方法 交通事故黑点是道路交通事故频发的某一地点或路段。常用的事故黑点鉴定方法有事故数法、事故率法、矩阵分析、数据挖掘和质量控制等方法。表 1 对常用事故黑点鉴定方法进行了对比分析。 2.2 基于聚类分析方法的事故黑点鉴定 聚类分析就是按照在性质上的亲疏远近程度把样本或变量进行分类归纳,已广泛地应用在高速公路安全性和事故黑点研究中。聚类分析法不仅对样本数据接纳性高,克服了选取参数的困难,并且能在对事故数据进行聚类分析的同时,发挥数据挖掘的功能,解决了模型复杂、技术指标单一的难题,为高速公路交通事故黑点的鉴定提供了新思路。6 42
7、.2.1 驾驶员因素 影响交通安全事故的要素主要有:人、车、路和环境。在对事故样本进行聚类分析时,选择不同的影响要素聚类分析会得到不同的结果,本文主要从驾驶员特性出发,对高速公路交通事故进行聚类分析并找到事故黑点。 驾驶员因素是高速公路交通安全众影响因素中最活跃的主动性因素,也是引发高速公路交通事故的最主要因素。本文主要从驾驶员生理、心理特征、驾驶行为和驾驶技能等因素分析驾驶员对交通安全的影响,如表 2 所示。 2.2.2 高速公路交通事故黑点的聚类分析方法 本文从数据挖掘的角度出发,采用基于最小离差平方和法的聚类分析方法分析高速公路路网中的交通事故,旨在找到交通事故发生次数较多或较严重的道路
8、。聚类分析流程如图 2 所示。 (2)指标特征值标准化。 为了消除原始数据之间的不融合性,选取 Z-Score 标准法7对事故样本指标特征值进行标准化处理。 (3)建立样本距离矩阵。 选取欧式距离公式来对样本间的距离进行表示。 dij=pi=12xik|yik(6) 其中, dij:第 i 个样本的第 j 个样本间的距离,i, j=1,2,p; :样本的协方差矩阵; xik, xjk 同公式(1) 。 5(4)基于最小离差平方和法的事故黑点聚类分析。 本文采取最小离差平方和法对高速公路进行聚类分析。设将 n 个样品分为 k 类: G1,G2,Gn;Dpq 为类 Gp 与 Gq 间的距离,若类
9、Gp 与 Gq 合并为一新类记为 Gr,则任一类 Gk 与新类 Gr 间的距离为 Dkr。6 将类间的距离定义为: D2pq=Sr-Sp-Sq(7) 其中,Gr=GPuGq。 Si=nit=1(X(t)(t)|X(t) ) (X(t) (t)|X(t) ) (8) 则类内离差平方和为: S=kl=1Si=kl=1nii=1(X(t)(t)|X(t) ) (X(t) (t)|X(t) )(9) D2kr=nk+npnr+nkD2kp+nk+nqnr+nkD2kq|nknr+nkD2pq(10) 其中, X(t)i: Gi 中的第 t 个样品; ni:Gi 中的样品个数; X(t):Gi 的重心;
10、 Si:样品间的距离。 3 结论 聚类分析法通过由事故的综合指标和相关影响因素构成的评价集合,能够准确地对驾驶员行为从多领域多范围进行信息的挖掘。采用基于最小离差平方和的聚类分析方法对整个路网的事故样本进行分析,能够准6确快速地找到路网中危险性较高的道路。 参考文献: 1Scuderi,M.,Clifton,K.J.Bayesian Approaches to Learning from Data: Using NHTS Data for the Analysis of Land Use and Transportation J.Transportation Research Record,2
11、003(1854):50-61. 2Cevallos,F.,Wang,X.Adams.Data Archiving and Mining System for Transit Service Improvements J.Transportation Research Record,2008(2063):43-51. 3F.F.Saccomanno,R.Grossi,D.Greco,et al.Identifying Black Spots along Highway SS107 in Southern Italy Using Two ModelsJ.Journal of Transportation Engineering,2001,127(6):515-522. 4廖鹏宇,梅冰松.数据挖掘技术在交通事故黑点整治中的运用J.道路交通与安全,2008(3):47-50. 5赵新勇.基于多源异构数据的高速公路交通安全评估方法D.哈尔滨:哈尔滨工业大学,2013. 6陈燕芹.城市道路交通事故黑点的鉴别方法研究D.西安:长安大学,2015. 7任雪松,于秀林.多元统计分析M.北京:中国统计出版社,2011:59-93.