浮动车数据

2024-10-02

浮动车数据（共7篇）

浮动车数据篇1

先进的交通管理系统(advanced traffic management syatem, ATMS)是应用计算机技术、通信技术、传感器技术、数据管理和融合技术,将车辆、道路和交通管理系统连结为一体,通过对道路交通设施及其运营状况的实时参数的测定来预测交通状况,生成交通控制方案,通过相应的控制手段对交通流进行管理、调节和诱导,并能快速处理交通事故、提高执法效率和最大限度地提高路网利用率的交通管理系统[1]。基础交通信息是ITS最核心的内容,而ATMS的各项功能都是以基础交通信息应用为中心展开的。因此,交通信息的采集、传输、存贮、分析处理以及应用是实现复杂城市交通系统优化运行,有效满足交通出行者需求的关键。

但是,在城市交通中,车辆种类较多,车流密度较大,车辆、行人运行的随意性导致城市交通环境特别复杂,仅靠单一采集方式获得的交通数据难以满足需要,因此必须构建移动采集和固定采集多种采集方式相结合的交通数据采集系统,利用信息融合技术得到全面准确的交通实时信息。

1 交通数据融合的主要内容

信息融合技术的最大优势在于它能合理协调多源数据,充分综合有用信息,在较短的时间内,以较小的代价得到使用单个传感器所不能得到的数据特征。交通数据融合系统是信息融合技术的应用,充分利用多个或者多种交通传感器资源,通过对各种传感器及其检测信息的合理支配与使用,在空间和时间上把互补与冗余信息依据某种优化准则组合起来,产生对交通检测环境的一致性解释或描述,同时产生新的融合结果。交通数据融合的目标是基于各交通传感器或检测器的分离检测信息,通过对这些信息的优化组合导出更多的有效信息,并为进一步的交通状态估计和决策提供可靠的信息依据。

图1清晰地显示了ATMS中交通数据传输和服务的过程,其中交通数据融合是整个过程的基础也是核心部分。信息融合的基本功能是相关、估计和识别[2]。融合系统通过对城市路网中不同传感器在空间和时间上的信息进行组合和综合处理,得到比从任何单一数据源更加全面、准确的交通状况信息。

目前,在信息融合领域最具权威性的功能模型把数据融合分为3级[3]。交通数据融合系统按照功能也可以分为3个层次,如图2所示。

第一层融合是基本动态交通参数融合;第二层融合是基本动态交通参数和其他交通数据的融合;第三层融合利用以上2层融合提供的输出结果以及其他相关交通信息,进行更进一步的融合处理,为公众提供多样化的交通信息服务。各个层次的融合结果可以构建相应的数据子库。基本动态交通参数融合之后在数据库中存贮的是经过粗差处理、时空配准后的标准化交通数据,此时的交通参数已经具有相应的物理意义。二级融合之

后可以构建交通事件和交通状态数据子库,满足交通出行者信息查询以及交通管理者信息发布的需求。三级融合后的结构可以构建数据库支持系统,为交通数据用户提供多样化的交通信息服务。

2 浮动车采集与线圈采集技术以及数据特征分析

目前,城市实时交通数据主要通过浮动车采集和线圈采集实现,这2种方式获取的交通数据在空间和时间上具有很大的互补和冗余。已有的研究结果显示:浮动车数据和线圈数据的融合相当程度上增强了交通信息的质量,因此为ATMS构建集成电感线圈和浮动车的监控系统已无可争议[4]。

2.1 浮动车采集及浮动车数据

浮动车检测是一种典型的移动检测技术。利用装备有GPS和通信设备的车辆,即浮动车,运行于路网中,在一定的采样频率下不断地向交通管理中心发送所经过路段的行程时间、车辆速度、坐标位置、路段交通状态以及事件报告等信息。已有的研究显示,移动检测车估计旅行时间的错误概率低于10%[5]。对精度要求不是很高的智能交通系统,仅采用检测车就可以获得满意的结果。

浮动车数据主要用来进行路段行程时间和平均速度估计,动态OD矩阵推算以及交通事件和交通状态判断。当只有少量浮动车信息成功采集到时,直接利用浮动车样本数据获得实时速度和行程时间比较困难,此时需要融合历史数据才能进行精确估计。由于道路交通密度和流量需要大量样本才能体现其统计性,而浮动车数据仅代表路段整体车流的一个非常小的样本并且具有一些未知的成分,因此不适合利用浮动车数据来估计路段密度或者流量。

基于GPS的浮动车检测技术是移动检测技术的一种,属于“线”检测,可以提供连续的、路段的甚至整个路网的交通信息。这种采集方式主要是一种空间序列的数据采集。但受到浮动车随意停车以及GPS定位精度等多方面的影响,检测精度一直不能够达到所需要求,而且只能提供路段平均车速和行程时间等交通信息。

2.2 电感线圈采集及线圈数据

在城市交通系统中,电感线圈主要安装于主干道和关键路口,在一定的时间间隔下记录交通流量、占有率、点速度等基本交通参数。线圈采集的流量、占有率等信息的精确度较高,因为其在特定点对经过的所有车辆的统计,能表达整个路段在一定采样间隔内所有的交通流情况。根据所获取的占有率信息可以计算出该道路上的交通密度k,但仅在非拥堵情况下计算的结果才精确。

线圈采集属“点”检测,是一种基于时间序列的采集方式。数据的精度较好,但其只能检测路口或特定点的交通信息,难以检测路段交通信息,完备性不足。仅以线圈采集交通信息,会导致城市道路网上存在大量的信息无法检测到。另外,线圈的维修或安装需中断交通,破坏路面,且易被重型车辆以及路面修理等损坏。感应线圈由于自身的测量原理所限制,当车流拥堵,车间距小于3 m时,其检测精度大幅度降低,甚至无法检测。线圈测得的数据还需建立数学模型才可得到旅行时间和旅行速度,可靠度较低。另外,根据国外很多城市的研究报告,在其运行的交通控制系统中,有25%~35%的环形探测器检测器经常处于非工作状态或发生故障。

2.3 浮动车数据与线圈数据融合的优势

综合浮动车探测器和线圈探测器这2种典型的交通采集设备的优缺点,本文提出应利用信息融合技术,实现这2类数据的融合,其作用体现在下面几点:①增加信息源种类;②提高信息准确度;③扩大数据采集的覆盖范围;④提高系统性价比。可以实现高性能、低成本的实时交通检测系统,提高性价比;⑤增强系统可靠度。

目前,交通数据的融合对构建ATMS以及ITS的其他系统的作用越来越重要,国内外关于交通数据移动检测技术和固定检测技术的集成的研究逐步增多[2,6,7,8,9],浮动车数据和线圈数据的融合虽然刚刚开始,但是这个问题已经成为交通数据进一步融合的基础和关键。

3 浮动车数据和线圈数据融合的基本理论和研究方法

异类多传感器信息融合由于具有时间不同步,数据率不一致及测量维数不匹配等特点,因而具有很大的不确定性[2]。在数据级融合的传感器必须是同质的(观测同一物理现象),不同质传感器只能在特征层和决策层进行融合。浮动车和线圈就是交通信息采集系统中2类主要的异类传感器,因此,浮动车数据和线圈数据的融合只能在特征层和决策层进行融合。融合的关键是融合模型设计和融合算法。

3.1浮动车数据和线圈数据融合的关键问题研究

1) 数据一致性判断。

各传感器从不同坐标框架下对环境中同一物体进行描述,在进行融合之前确保测量数据代表同一对象,即要对传感器测量进行一致性检验。其代表方法为Luo的两步法:建立传感器关系矩阵,剔除不一致传感器信息;用最优统计决策融合具有一致性的测量数据[10]。

2) 浮动车数据与线圈数据的时空配准。

浮动车与线圈数据的空间配准是指将浮动车和线圈数据变换到统一的空间参考系下,并匹配到相应的路段上。时间配准主要解决不同采集方式中存在的时间延迟问题,具体来说浮动车的采集时段应和线圈的采集时段一致。借助于GIS-T技术,将浮动车数据和线圈数据和相应的路段进行关联,关联的过程将不同类型的数据同一到统一的时空参考系下,使原始数据源具有明确的物理意义。

3) 浮动车数据与线圈数据模型以及数据组织和管理。

传统的文件管理方法由于访问效率低、更新困难以及实时性差,无法满足多源交通数据实时、动态分析的要求。目前利用数据库方法成为提高交通数据管理和应用水平的一种有效途径。当前主要的商业数据库管理系统(如oracle)已经可以支持空间数据表达、索引和查询。最近几年,GIS数据处理能力也得到很大提高。因此,浮动车数据和线圈数据融合时的数据存贮管理应结合关系数据库和GIS空间数据库。

4) 浮动车数据与线圈数据融合模型。

浮动车和线圈采集的数据内容不同,它们是非同质数据。对于不同量纲的传感器数据的融合必须在特征/状态矢量级或者决策级进行融合,因此,首先分别从浮动车数据和线圈数据中提取表示道路交通特征的参数,建立交通特征矢量,然后对该矢量进行关联和融合[11]。融合的模型主要有3种类型:①根据所获得的浮动车数据提取路段某一特征向量(如流量、密度、速度等),与线圈数据中相应的参量通过某一融合算法得到该参量的精确融合结果;②根据所获得的线圈数据提取路口或路段一定时段内某一特征向量(如行程时间、平均速度等),与浮动车数据中相应的参量通过一定的融合算法得到该参量的精确融合结果;③分别从浮动车数据和线圈数据中提取原始数据没有的特征(如OD矩阵,转向比,交通状态等),利用一定的融合算法实现这些特征的融合,进而得到更精确的表达。

由于浮动车和线圈所采集的数据内容差异较大,虽然他们之间存在一定的转化关系,但是其精度不同,浮动车可以获得较精确全面的行程时间以及车速信息,线圈数据记录中的流量占有率信息的精确度较高,因此在这2类数据的融合中应考虑根据数据本身的特点分配不同的权重,使精度高的数据贡献更大。

3.2 融合问题的研究方法

理论得出的浮动车与线圈融合模型可以通过仿真数据和现场数据进行验证[10]。

对于交通数据的融合,可以利用仿真数据来验证融合模型的可用性以及可靠性等。通过仿真的方法,可以获得浮动车在任意覆盖率以及任意采样间隔下所采集的路段行程时间、位置、速度等信息。可以在合适的地方布设任意数量的线圈探测器,以获取充分的交通量以及占有率信息,可以弥补实际交通系统线圈布设不足的问题。另外,交通仿真模型可以方便地设置OD信息,路口转向等,为实际当中需要花费较大人力、物力才可以获取的数据提供了可行的、可供研究的数据来源。然而,在进行一次交通仿真之前需要进行模型的标定,设定重要的交通参数使仿真更接近于实际情况。

采用现场数据采集方法需要首先选取典型的交通实验区,实验区的选择应考虑到该区域的交通控制系统,交通数据探测器以及交通基础设施是否满足需要。特别是交通数据探测器是否具有一定的覆盖率以满足交通数据样本量的需求。目前,已经有许多国家建立了ITS系统,我国的许多城市也建立了自己的ITS系统。可以选取这些系统覆盖的区域作为现场数据采集区。一般情况下,电感线圈位于主干道和主要交叉路口,主要采集路段或者路口的交通流量、占有率以及点速度等基础交通数据。另外,实验区内,浮动车的覆盖率也是影响融合精度的一个重要的量,当浮动车的数量少于最小样本量时,浮动车采集的数据不具有统计意义;浮动车越多,浮动车采集到的数据越能代表该区域的实际交通情况,但是需要以较高的成本和较大的运算作为代价。

4 结语

先进的交通管理系统(ATMS)以及先进的交通信息服务系统(ATIS)是智能交通系统(ITS)的重要组成部分。它们都是典型的多传感器(多个或者多种)系统,因此将信息融合技术应用于交通信息智能处理领域完成多传感器或探测器数据的综合处理是一个必然的选择,而利用2种最典型交通探测器,浮动车数据和线圈数据的融合,实现重要交通参数的估计以及使交通状态信息得到较好解释和利用,是当前智能交通系统建设的重要方面,也是进一步融合更多交通传感器数据的基础。

摘要：交通信息是ATMS的基础和核心,从实时交通数据中准确估计交通参数、判断和预测交通状态是ATMS的重要内容。文中在信息融合理论的基础上,介绍了交通数据融合的基本内容。分析了浮动车数据和线圈数据的特点后得出:在城市路网环境中,虽然浮动车采集和线圈采集方式各有优劣,但他们在时间和空间上具有很强的互补和冗余。为充分利用已获取的交通信息,应实现这两类数据的融合,并对浮动车数据和线圈数据的一般融合模型和基本融合方法进行了论述,明确了交通融合问题的2种研究方法,即通过仿真手段得到的数据和现场采集数据作为融合的数据源来验证融合模型。

关键词：浮动车数据,线圈数据,信息融合,先进的交通管理系统,数据处理

参考文献

[1]杨兆升.基础交通信息融合技术及其应用[M].北京:中国铁道出版社,2005

[2]汪海渊,朱彦东,杨东援.数据融合技术及其在交通领域中的应用[J].交通与计算机,2001(增刊):42-45

[3]马平,吕锋,杜海莲,等.多传感器信息融合基本原理及应用[J].控制工程,2006,13(1):48-51

[4]张静,蔡伯根,吴建平.移动检测技术的研究[J].北方交通大学学报,2003,27(3):80-83

[5]张存保,严新平.固定检测器和移动检测器的交通信息融合方法[J].交通与计算机,2007,25(3):14-22

[6]Marcel Westerman,Remco Litjens,Jeanpaul Linn-artz.Integration of Probe Vehicle and InductionLoop Data———Estimation of Travel Times and Au-tomatic Incident Detection[R].California Path Re-search Report,UCB-ITS-PRR-96-13.1996:1-119

[7]Ruey Long Cheu,D H L,etl.An arterial speed es-timation model fusing data from stationary and mo-bile sensors[J]//Conference Proceedings of 2001IEEE Intelligent Transportation Systems,2001(8):573-578

[8]Vaneet Sethi,N B,Frank S,Koppleman,etal.Schofer,Arterial incident detection using fixed de-tector and probe vehicle data[J].Transpotation Re-search Part C,1995,3(2):99-112

[9]邹亮,徐建闽,朱玲湘,等.基于浮动车移动检测与感应线圈融合技术的行程时间估计模型[J].公路交通科技,2007,24(6):114-117

[10]Sisiopiku V P,Rouphail N M,Santiago A.Analy-sis of correlation between arterial travel time anddetector data from simulation and field studies.Transportation Research Record,1994(1 457):166-173

浮动车数据篇2

浮动车也称GPS探测车[1],是近年来国际智能交通系统(ITS)中所采用的获取道路交通信息的先进技术手段之一,具有应用方便、经济、覆盖范围广的特点。

对浮动车数据进行处理时首先要进行地图匹配,地图匹配的目标是确定浮动车所在的路段。浮动车回传的GPS坐标只能反映车辆的位置,而不能直接与路网路段相关联,因此,必须依赖地图匹配方法将车辆位置与路网的弧段关联起来[2]。

常规的地图匹配方法是通过投影距离和车辆行驶方向与路段矢量方向差值加权的方法来进行地图匹配,判断出车辆行驶的路段[3]。这种方法需要用车辆行驶的方向角作为主要参数,当浮动车的瞬时速度不是零时,其回传的GPS方向角是准确的,可以用常规的方法进行地图匹配;当浮动车的瞬时速度是0,即车辆静止时,其回传的车辆行驶方向角是不准确的,不能用常规的方法进行地图匹配。

目前大部分浮动车系统是由正常运营的装有GPS设备的出租车构成,出租车运营时停车状态较多,因此采集到的浮动车数据存在大量由于频繁停车导致的瞬时速度为零的数据点。经统计,速度为零的车辆记录约占整个车辆数据记录的40%,由于这些速度为零的停车点传回的方向角不能正确反映车辆的行驶方向,所以不能用常规的地图匹配方法确定车辆所在的路段。目前针对浮动车数据中零速度点处理方法的文献很少,在实际的数据处理中通常采用简单过滤的方式将停车点不加分析的作为无用数据剔除[6]。这种抛弃所有速度为零的点做法,在特定时间内,将降低路段样本有效数量,影响地图匹配的效率。而采用轨迹曲线匹配方法,会导致算法复杂,计算量大,不能满足实时性要求[3]。

本文通过对与交通状态无关的零速度点过滤,并对交通状态有关交叉口车辆排队的零速度点进行提取和地图匹配,从而提高了浮动车数据的有效样本量及匹配效率。

1 地图匹配的实现方法

1.1 异常停车点和正常停车点

浮动车数据中的零速度记录点是由于浮动车当前移动速度为零,即停车状态下产生的。导致车辆停车的原因多种多样,基本分为交叉口信号灯排队等待、上下客、路边待客等几种。这里根据这些停车点与交通状态的关系,把这些停车位置点分为两类:异常停车点和正常停车点。

由于出租车辆的特殊性质,车辆上下客和路边待客的情况很多。这些数据与当前路段交通状态无关,不能用于交通状况的计算。定义这样的零速度点为异常零速度点。

车辆路上正常行驶中等待交通指示灯时引起的浮动车速度为零的情况。此时的停顿只是由于交通标志的原因导致,能够表征当前交通状态,并在位置和时间上与车辆上一位置和时间存在连续关系。这些车辆零速度点,我们定义为正常零速度点。本文仅考虑交叉口等待信号灯零速度点的匹配问题。而由于道路拥堵所造成的非规律性的零速度点不是本文讨论的内容。

注意到通常正常零速度点大量出现在路段终点的交叉口附近(排队等待通行信号),即路段矢量方向终点附近,如图1所示。路段矢量方向是从路段的起点到终点的方向,和车辆行驶方向是一致的。首先对路段上靠近交叉口和路段终点排队长度内的零速度点进行初步判断,但是并不能保证这些零速度点就一定属于该路段上。需要下一步的验证过程,单位时间内同1个车辆在1条路段上通常会有一系列连续的轨迹点,如果该零速度点浮动车能够找到另1个已知的属于该路段的点,则可以判定它也属于该路段。因而可以采用同一路段同1车辆非零速度点和零速度点比对的方法来进一步确定车辆的位置,将零速度点匹配到路段上。

1.2 地图匹配的实现步骤

1.2.1 地图匹配方法简述

首先将浮动车记录集根据浮动车速度分为两部分:非零速度点记录集和零速度点记录集。分别进行非零速度点地图匹配和零速度点地图匹配。

1) 非零速度点地图匹配按照常规投影距离与路段矢量方向差值加权的方法[3]进行匹配计算匹配结果,步骤见图1。

2) 零速度点的初步匹配:用停车点与路段的偏移范围、交叉口排队长度初步判定属于该路段的停车点,将停车点初步匹配到路段上。交叉口排队长度是从路段矢量方向上的终点开始反方向上的长度。如果选取的过短,会导致排队等待的正常零速度点丢失;如果选取过长会增加计算量。车辆排队长度可以由历史数据获得,简单起见也可以取路段的一半长度,排队长度值存储在路段属性表中。

3) 零速度点的2次匹配:这一步是对上一步的验证确定过程,采用与该零速度点同一路段上已经匹配成功的非零速度点相比较。如果在同一路段有同一设备数据点存在,则该点属于该路段。步骤见图2。

1.2.2 地图匹配的具体实现步骤

设定点到路段投影距离的最大允许偏差值D,通常根据GPS的定位精度值选取,这里为了避免GPS点丢失,取较大的范围D=40及行驶方向与道路矢量方向夹角最大允许偏差值θ,各个路段排队长度Li。

1) 从数据库中读取浮动车数据。

将浮动车数据中速度为零的数据和速度非零的数据分开,分为2个数据集,0速度数据集G0,非0速度数据集G1。

2) 非零速度点地图匹配,采用基于投影的匹配算法:

GPS点到路段距离、行驶方向角和地图路段矢量方向差值加权的方法将GPS数据匹配到路段上。

步骤1 从G1数据集中取出GPS数据,循环选取路网中各个路段。

步骤2 计算该GPS点与各个路段间的投影距离ri。

步骤3 计算该GPS点行驶方向角与各个道路矢量方向夹角之差θi。

步骤4 计算距离度量值Mi=wrri+wθθi。

步骤5 取所有Mi最小的路段为车辆点所在的路段Ri。

步骤6 这里需要用最大允许范围值限制,di为点到路段i的投影距离。如果|di|<D,执行步骤7,否则执行步骤1。

步骤7 GPS点属于路段Ri,在路段Ri属性值内写入GPS点的设备ID号,执行步骤1。

步骤8 所有非0点与各个路段匹配完成。

3) 零速度点初步匹配方法。

步骤9 从G0数据集中取出GPS数据,循环选取路网中每条路段。

步骤10 计算该GPS点与各个路段间的投影距离ri。

步骤11 如果点和路段Ri投影距离小于最大偏差值,ri<D,执行步骤12,否则执行步骤9。

步骤12 如果路段Ri的终点为交叉口(可以通过拓扑关系判断),且点到路段终点的距离在路段排队长度内,li<Li,执行步骤13,否则执行步骤9。

步骤13 初步判断点属于路段Ri,记该零速度点的ID号为IDi,执行步骤14。

4) 零速度点2次匹配方法。

步骤14 从该路段属性表中读取已经匹配到该路段的设备ID号,IDi循环和这些ID号比对。

步骤15 如果IDi找到和它相同的ID号,执行步骤16,否则执行步骤9。

步骤16 确定该点属于Ri,匹配成功。执行步骤9。

步骤17 程序结束。

2 算法实例

应用上述匹配方法将图3中零速度点匹配到路段上。图3表示1个十字交叉路口附近5 min内浮动车传回位置点的分布情况,该路口由路段1、路段2、路段3组成,黑色圆点代表浮动车停车点,黑色方块代表浮动车移动点。由图3中可以看到路段1附近越靠近十字交叉路口区域内,停车点黑色小圈越集中,这说明这些车辆在正常停留等待信号灯。根据该路段实际交通状况设定这个区域车辆等待信号灯的排队长度为L。下面用本算法计算浮动车点和路段1的匹配情况。

表3是任取5 min部分浮动车传回记录,共有24条浮动车记录,16台移动点浮动车,9个零速度点记录。首先通过投影距离与路段矢量方向差值加权的方法计算将非零速度点匹配到路段1上。表3是非零速度点和路段1的匹配结果表,表中内容包括记录点和3条路段匹配过程中的各个参数计算,取距离度量值项路段1中Mi最小的值为匹配到路段1的结果,如表中深色记录行所示属于路段1的记录点,共有11个点。表4是对零速度点进行的初步匹配过程中各个参数的计算,有7个点满足投影距离和排队长度条件,如表4中深色记录所示。

表5回查非零连续点对零速度点进行2次匹配,验证初步匹配的正确性。比较表3和表4,找出设备ID相同的记录点,这些车辆在单位时间内在路段1上有非零速度点,且它的零速度点满足初步匹配条件,所以这些零速度点属于路段1。表5中共有5个零速度点记录成功匹配到路段1上。

3 算法比较

分别使用本文描述的匹配方法和常规方法一投影距离路段矢量方向差值加权方法分别进行道路行程时间计算。

测试路段名称:文化路长度:571 m;

时间段是2008-10-30,T10:00～10:30之间。

计算结果如表5所列。

表5中行程时间真实值是同一时间段,现场道路2端通过拍摄,计算该时间段车辆通过的时间,取平均值得到的。有效样本数是指同一路段上能够用于计算的车辆的ID个数。

根据表5,对2种算法的有效样本量进行比较,本方法的有效样本量各时段平均为31.7,常规算法的有效样本量各时段平均仅为15.8。而通过分别对两种方法得到的计算值和真实值进行比较统计,本方法行程时间的计算准确度为91.4%,常规算法的准确度为88.9%。

由此可知,在考虑0速度点匹配的算法和不考虑0速度点的常规算法2种情况下,由于有效的利用了数据中的零速度点,在计算道路的行程时间时,同一路段上同一时段,本算法的有效样本量大大高于常规算法的样本量,而行程时间的计算准确率也高于常规算法的准确率。

4 结束语

本方法克服了常规匹配方法不能有效匹配浮动车零速度点的不足,提出1种基于浮动车停车点数据过滤筛选的地图匹配方法,可以快速有效地将能够表示路段交通状态交叉口车辆排队的零速度点匹配到路段上,同时过滤去除掉和交通状态无关的零速度点。大大提高计算的有效样本量,同时提高运算效率。但是对于少数交叉口附近商业设施较多且临近交叉口的情况,如何有效地区分交叉口处正常停车点和交叉口附近商业设施引起的非正常停车点仍是下一步需要考虑解决的问题。

本方法已经用于基于浮动车数据实时计算道路行程速度和时间的应用中,通过本算法和常规算法的比较,从有效样本量和与实测行程时间的比较,均达到良好的效果。

摘要：浮动车数据中存在大量的由于车辆频繁停车引起瞬时速度为零的停车点记录,这些零速度点由于方向角不准确,常规的投影和几何地图匹配的算法不能有效地将其匹配到路段上。通过对浮动车辆停车原因进行分析,提出了1种基于浮动车停车点数据过滤筛选的地图匹配方法,可以将能够表示路段交通状态的交叉口车辆排队零速度点提取出来,匹配到路段上,同时过滤掉和交通状态无关的零速度点,从而增加了有效样本数量,为进一步对整个路网运行状态的全面评估提供数据支持。

关键词：地图匹配,浮动车数据,停车点,GPS定位,方向角,交叉口

参考文献

[1]Ferman M A.Blumenfeld D E.Dai Xiaowen,Asimple analytical model of a probe-based traffic in-formation system[J].Intelligent TransportationSystems.Proceedings 2003 IEEE,2000(1):263-268

[2]董均宇.基于GPS浮动车的城市路段平均速度估计技术研究[D].重庆:重庆大学,2006

[3]王楠,王永峰,刘积仁.一个基于位置点匹配的地图匹配算法[J].东北大学学报,1999,20(4):343-247

[4]翁剑成,荣建,余泉,等.基于浮动车数据的行程速度估计计算法及优化[J].北京工业大学学报,2007,33(5):459-464

[5]刘培.基于浮动车数据的地图匹配算法研究[D].北京:北京交通大学,2007

[6]朱丽云,全永燊,温慧敏.基于GPS数据的浮动车动态实时交通信息处理方法.中国,200710087223[P]:2007-03-21

[7]Faria David Anthony,A framework to transformreal-time GPS data derived from transit rehicles todetermine speed-flow characteristicd of arterials[D].Texas at Arlington:Dissertation Abstracts In-ternational,2002

[8]陈艳艳,王东柱.分布式车载导航系统路线优化有约束A*算法[J].交通与计算机,2005,23(6):10-13

浮动车数据篇3

1 服务总线与分布式并行计算简介

ESB企业服务总线 (全称为Enterprise Service Bus) 最早由Soni C软件公司在2002年提出[2], 它是传统中间件技术与X M L、Web服务等技术结合的产物。ESB提供了网络中最基本的连接中枢, 是构筑企业神经系统的必要元素。ESB的出现改变了传统的软件架构, 可以提供比传统中间件产品更为廉价的解决方案, 同时它还可以消除不同应用之间的技术差异, 让不同的应用服务器协调运作, 实现了不同服务之间的通信和整合。从功能上看, ESB提供了事件驱动和文档导向的处理模式, 以及分布式的运行管理机制, 它支持基于内容的路由和过滤, 具备了复杂数据的传输能力, 并可以提供一系列的标准接口。

企业服务总线 (ESB) 被认为是面向服务架构 (SOA) 的核心, 它管理大量的服务, 它最大的优势是使得服务提供者与服务请求者松散藕合。ESB同时也是服务间的连接框架, 其核心功能包括信息转换、消息机制、基于内容的路由和服务器四部分[3]。ESB采用基于XML规范的消息格式, 可支持多种标准, 如Web Services、JMS、JCA等标准, 可支持发布/订阅及请求/回复等同步/异步消息机制。

1.1 企业服务总线的功能

ESB经过多年的发展, 各种ESB产品为了更好的满足广大企业用户的需求, 以及各种ESB产品的开发人员对ESB的理解日益加深, 使得企业服务总线的功能越来越相像。在2009年, Forrester的最新调研报告[4]把ESB大概分为核心功能与扩展功能两个部分, 其中核心功能是所有ESB必须提供的, 而扩展功能是为了更加方便的构建SOA所需要的辅助功能, 其中表1描述ESB的功能点。

1.2 分布式功能

一个分布式系统是一组由网络联接的具有独立功能的计算机, 在一套特殊软件的管理下, 整个系统在用户面前呈现为一个透明的整体。分布式系统是一组位于网络计算机上的并发构件, 这些构件之间的通信以及任务协调都只能通过信件传递进行, 其目的是实现资源共享。

1.3 并行计算发展起因

并行计算技术现在是研究的重点问题之一。在科学技术的发展中, 许多领域需要进行大规模的数值计算。运用并行计算技术是提高计算效率的有效方法。目前, 并行计算技木的主要研究是以并行机为对象的并行算法研究, 另一种则是基于网络环境的并行计算研究。基于并行机的研究, 一次性的投资大, 计算能力有限。而网络环境的并行计算投资较小, 计算能力大, 特别连合我国国情。一定意义上讲, 其计算能力是无限的[5]。

并行计算的发展主要基于两方面的原因:一是单机性能不能满足大规模科学与工程问题的计算需求, 而用并行计算机实现高性能计算是解决挑战性计算问题的唯一途径;二是同时性和并行性是物质世界的一种普遍属性, 具有实际物理背景的计算问题在很多情况下都可划分为能够并行计算的多个子任务。并行计算机与网络机群并行计算机是指能在同一时间内执行多条指令或处理多个数据的计算机, 它是并行计算的物理载体。

1.4 并行计算基本体系结构以及计算模型

并行计算科学中主要研究的是空间上的并行问题。从程序和算法设计人员的角度来看, 并行计算又可分为数据并行和任务并行。一般来说, 因为数据并行主要是将一个大任务化解成相同的各个子任务, 比任务并行要容易处理。

空间上的并行导致了两类并行机的产生, 按照Flynn的说法分为:单指令流多数据流 (SIMD) 和多指令流多数据流 (MIMD) 。我们常用的串行机也叫做单指令流单数据流 (SISD) 。MIMD类的机器又可分为以下常见的五类:并行向量处理机 (PVP) 、对称多处理机 (SMP) 、大规模并行处理机 (MPP) 、工作站机群 (COW) 、分布式共享存储处理机 (DSM) 。

不像串行计算机那样, 全世界基本上都在使用冯·诺伊曼的计算模型;并行计算机没有一个统一的计算模型。不过, 人们已经提出了几种有价值的参考模型:PRAM模型, BSP模型, Log P模型, C^3模型等。求解示意图如图1所示。

2 算法设计

我们根据分布式并行处理和负载均衡的思想, 基于服务总线, 并结合浮动车数据的特点, 设计如下总体流程图, 如图2所示, 其中浮动车数据服务子系统[计算单元]处理流程参考文献[9]。

图2说明。

第一, 用户向浮动车数据处理订单子系统提交任务订单;第二, 浮动车数据处理订单子系统则通过服务总线把订单列表交由处理任务调度子系统;第三, 处理任务调度子系统则根据任务轻重缓急等优先级别, 对任务列表进行排序;第四, 根据现有硬件资源及负载情况, 把每个处理任务可按数据源、时间、车辆等多维度对待处理的浮动车数据进行分解成子任务;第五, 把这些子任务通过服务总线动态派发给浮动车数据处理服务子系统 (计算单元) , 即负载的数据划分 (Load-based Data Partitioning, LDP) ;第六, 对于某计算单元完成, 但整个任务并未处理完成的情况, 可进行下一轮调度重新分配, 即动态负载调度 (Dynamical Load Schedule, DLS) ;第七, 等浮动车数据处理任务完成后, 依次返回。

其中关键的一点, 为了实现分布式动态并行负载均衡, 将在处理任务调度子系统和浮动车数据处理服务子系统中引入了动态负载均衡机制, 对于每个处理任务调度如流程图3所示, 该流程实现了普通P C (计算单元) 的即插即用, 实现了计算资源的弹性扩展能力。

还有, 为了跟踪记录和监控任务处理情况, 设计任务信息结构表, 如表2所示。

以及, 以服务总线为中心, 使得整个系统能够顺利运转, 服务总线的主题与订阅设计如下:

(1) sb Topic_KTFCDPSTask Upload:任务上传主题。

sb Subscription_Task Scheduling Service:主控端订阅。

sb Subscription_Task Scheduling Client:监控客户端订阅。

(2) sb Topic_KTFCDPSDistribute Task:任务派发主题。

sb Subscription_:派发单元订阅。

sb Subscription_Task Scheduling Client:监控客户端订阅。

(3) sb Topic_KTFCDPSTask Accepted:任务接受主题。

sb Subscription_Task Scheduling Service:主控端订阅。

sb Subscription_Task Scheduling Client:监控客户端订阅。

(4) sb Topic_KTFCDPSTask Result:任务处理完毕主题。

sbS ubscription_TaskS chedulingS ervice:主控端订阅

sb Subscription_Task Scheduling Client:监控客户端订阅

(5) sb Topic_KTFCDPSResult Received:处理完毕反馈主题

sb Subscription_:派发单元订阅

sbS ubscription_TaskS chedulingC lient:监控客户端订阅

(6) sb Topic_KTFCDPSRegister:计算单元注册主题。

sb Subscription_Task Scheduling Service:主控端订阅。

sb Subscription_Task Scheduling Client:监控客户端订阅。

其中, Unit可为处理单元机器名称或MAC地址, 例如, Mac1;Mac2;…;Mac N等处理机器单元列表, 本文采用MAC地址。

为了保证数据的一致性和高效性, 采用数据库存储过程, 在异常时, 可以回退操作。注意, 临时cvs文件必须基于运行SQL Server的服务器指定一个有效路径, 因此采用ftp协议对cvs文件上传到数据库服务器, 然后再批量导入, 并且确认导入成功后, 才发送处理完成标识, 这点与单机版的数据导入方式有所不同。

上述处理过程通过监控管理子系统进行有效展示, 如图4所示。

3 实验分析

为了验证算法的可行性和有效性, 算法程序以北京市浮动车数据和路网数据作实例数据。算法程序的运行环境如下, 包括三台普通PC机。其中, 一台部署数据库服务器, 架设FTP服务, 部署服务总线日志数据库, 浮动车数据处理任务调度日志数据库, 路网数据库, 浮动车数据库和浮动车路径数据库 (也可以分开进行部署, 使得读写分离, 处理系统日志与数据分离) , 并且部署服务总线, 浮动车数据处理订单子系统, 处理任务调度子系统和监控管理子系统 (如资源允许, 至少对数据库与应用系统进行分离部署) ;还剩两台部署浮动车数据处理服务子系统:

操作系统:Win2008R2 (64位) 旗舰版;处理器:Intel酷睿i7-2600 4核3.4GHz;内存:4G*2, DDR3;数据库:MSSQL (64位) 2012开发版;硬盘:固态硬盘8 0 G和机械硬盘1T (7200转) ;开发工具:VC++2005;网卡:1G网卡;交换机100M;网线:1000M, 超五类线。

上述实验环境虽然采用了相同的硬件配置, 但不局限, 因此, 也可采用普通PC机混搭的环境。

其实, 上述各个子系统可以根据实际情况, 在资源允许情况下, 可以进行分离部署。另外, 为了避免硬件单点故障, 可采用集群和双机热备;并且, 为了避免存储单点故障, 以及方便存储扩展, 可采用磁盘阵列冗余;同时, 为了避免网络故障, 可通过双链路来降低风险。当然在环境要求不高的情况下, 也可以采用上述基本部署即可。

由于增加调度处理, 以及网络延迟、硬件故障等不确定性, 以及数据一致性的要求, 使得软件系统管理控制更加麻烦。为了准确统计时间, 以及主题、订阅时间的一致性, 建立时间同步服务器, 都以处理任务调度子系统所部署的服务器时间为基准。

实验采用北京市为例, 采用2012年6月1号的部分浮动车数据, 时间段从早晨7点到9点之间, 数据包含有24325辆车, 共计2449355条记录;匹配和路径分析采用北京市路网, 共计420048条道路, 其中路网预处理技术参考文献[6~8]。

浮动车数据库根据车辆编号、时间分别建立索引, 能够提供快速的数据读取。通过浮动车数据与地图路网单点匹配和路径推测后, 获取浮动车路线。例如, 编号为126车辆定位点轨迹通过纠偏后匹配到路网如图5所示, 通过本系统处理后, 路径如图6所示。从中可以看出, 车辆与地图的吻合度很好。

基于上述机器配置, 单机环境下, 配置单线程, 耗费时间为2 5 5 8秒, 总共产生3397743条道路记录;若按自动配置, 即启用7个线程 (通过超线程, 逻辑上有8核) 的均衡法[9], 则耗费时间为627秒, 而理论值为365秒。还是存在不少差距, 主要原因是线程调度及其同步, 以保证数据一致性, 以及其他软件也需占用CPU等资源。

通过开发基于服务总线的分布式并行处理算法, 对浮动车数据按时间段, 按车辆数, 按计算单元数, 采用平均分配算法, 使得分配给每个计算单元的车辆数等分。在上述部署环境中, 每个计算单元采用自动配置, 在一台计算单元完成计算任务后, 由任务调度子系统重新分配, 使得每个计算单元动态负载均衡, 完成该任务花费的时间为326秒, 花费时间几乎折半, 理论值为313秒 (以单机实际耗时为基准) , 具体如图7所示。存在差别的主要原因是处理任务调度通信花费一定的时间, 以及浮动车数据通过FTP传输也间接耗费了系统资源, 因此也是合理的。由此, 可以看出, 本系统达到预期效果。当然, 如果考虑到部署数据库, 以及服务总线和任务调度系统的这台服务器, 那么理论值应该为209秒。因此, 为了降低这种边际效应, 在实际部署时, 尽量增加计算单元的数量。

4 结语

本文提出了基于服务总线的浮动车数据分布式并行处理算法, 使各处理单元的时间达到基本一致, 并且能够充分利用普通闲置PC机, 并且能够动态灵活实现普通PC机的即插即用, 提高了机器的利用率, 大大提高了浮动车数据处理的效率。通过单点匹配和路径推测的结果对道路交通流参数 (旅行时间、平均速度等) 估计, 预测和数据挖掘等具有重要意义。此外, 由于篇幅所限, 推广到虚拟化弹性云计算系统中将在另文讨论。

参考文献

[1]王东柱, 董继明, 李亚檬, 等.浮动车数据中零速度点数据地图匹配方法[J].交通信息与安全, 2009, 27 (6) :38-42.

[2]Dave Chappell.Enterprise Service Bus[M].O’Reilly Publishing, 2004:1-224.

[3]谢继晖, 白晓颖, 陈斌, 等.企业服务总线研究综述[J].计算机科学, 2007, 34 (11) :13-18.

[4]李代平, 罗寿文.CG法分布式并行计算的实现[J].计算机工程, 2001 (4) :56-57.

[5]白欣, 左继章, 向建军.实时集群中一种基于任务分配表的动态负载平衡算法[J].计算机工程与应用, 2003 (1) :39-41.

[6]刘子立, 姚术林, 陈云.一种启发式快速路网网格化划分算法[J].现代计算机, 2010 (8) :25-27.

[7]王晶, 陈云, 王志军.基于二分法的路网平衡网格化算法[C]//西安:2010中国地理信息产业论坛暨第三届教育论坛就业洽谈会.2010.

[8]陈云.基于松弛迭代的快速路网平衡网格化算法[J].测绘与空间地理信息, 2013.

浮动车数据篇4

可靠高效的实时交通信息采集是建立先进的交通信息服务系统的前提,常规方式是通过布设在道路上的固定检测器(环型感应线圈、微波、红外线、视频检测器等)采集交通信息。随着GPS、GIS和无线通信技术的广泛应用,利用安装了GPS和无线通信设备的浮动车数据FCD(Floating car data)采集交通信息,已经成为一种新的采集方式。从20世纪80年代开始,美国、日本、德国、荷兰等国家相继开展了针对浮动车的研究和应用[1]。2006年,深圳市重点项目深圳市城市交通仿真系统采用FCD作为原始数据的重要来源[2];董敬欣和吴建平等[3]利用浮动车对北京市道路网功能进行了分析评价;张存保和杨晓光等[4,5]对浮动车数据采集和处理方法进行了研究。

在模拟地面道路交通信息时,将地图上的道路按路口划分为路段,当出租车在某条路段上行驶时,可利用车载GPS接收到的定位数据1计算出车辆在此路段上的行使时间,以此计算出该路段车辆平均车速。但在模拟隧道交通信息时,存在以下特殊情况:①某些隧道可能对出租车限时开放,造成隧道信息出现时段性空白;②车载GPS接收机不能在地下接收信号,并且出租车进出隧道口时GPS接收可能存在时间延迟,无法精确确定车子在隧道中的行驶时间,所以利用地面模拟方法估算隧道车速是不合理的。康盛和沈毅等[6]设计了应用于隧道的虚拟交通流仿真系统。邸义和田中旭等[7]研究了三维图形软件包Open Inventor在隧道交通仿真中的应用。但这些研究没有针对实测的野外流动车数据,因此在进行实时路况的计算时仍有一定难度。

本文提出了应用多元线性回归模型模拟隧道实时车速,根据隧道进出口的几条主要连通道路的通行速度,推估隧道中的通行速度。文中给出了隧道通行速度的多元线性模型,并以上海市大连路隧道为例进行模拟,将实测速度和模拟速度进行比较,结果表明,本方法是合理、可行的。

1 FCD数据

FCD流动车数据是离散的一系列定位数据。如果采用GPS来定位,获得的离散定位数据格式与常用的GPS接收机数据格式相似,FCD的数据格式相对比较灵活,一般情况下,位置数据是必须的,本文所使用的FCD数据格式如表1所列。

注:数据中的经纬度采用的是WGS-84坐标系统。速度为车辆瞬时速度。

采用出租车进行流动车数据采集,出租车上GPS接收装置以2 s的采样间隔记录数据,信息中心设置接收信息的时间间隔为30 s。经系统处理后,每隔5 min对外发布一次城市道路车辆通行速度,不同道路等级按照不同的标准划分为畅通、拥挤、拥堵,分别以绿色、黄色、红色对应,白色为当前时刻没有数据。结合地图方式表现,可获得带有交通信息的城市地图。

图1是上海中心城区和大连路隧道附近区域3 000 辆出租车1 d的FCD展图。由图1可以看出,FCD数据能较好地表现城市的路网信息。但是,黄浦江上除了几座跨江大桥有数据之外,隧道没有任何FCD数据信息。所以为了能够完整地表达上海城市的交通路况,必须拟合出隧道内的交通信息,以扫除盲区。

2 多元线性回归模型仿真模拟

隧道通行速度与隧道进出口的连通路段通行速度相关,而这些地面相关路段的通行速度可以根据接收到的信息计算得出,因此将进出口的连通路段通行速度作为自变量,隧道中的通行速度作为因变量,根据隧道实际跟车路测的速度以及相应时段的连通路段通行速度,可以得出隧道通行速度的多元线性回归模型。

2.1 多元线性回归仿真模拟

如图2所示,假设隧道一个方向的通行速度y受k条隧道进出口连通路段通行速度x1,x2,…,xk的影响,其第i(i=1,2,…,n)组观测值为yi,xli,x2i,…,xki,则多元线性回归模型结构形式为

$y_{i} = β_{0} + β_{1} x_{l i} + β_{2} x_{2 i} + \dots + β_{k} x_{k i} + ξ_{i} (1)$

式中:β0、β1、…、βk为待定参数,即每条连通路段的对应权重;ξi为随机变量。

如果b0、b1、…、bk分别为β0、β1、…、βk的拟合值,则回归方程为

$\hat{y}_{i} = b_{0} + b_{1} x_{l i} + b_{2} x_{2 i} + \dots + b_{k} x_{k i} (2)$

式中:b0为常数;b1、b2、…、bk为偏回归系数。

根据最小二乘法原理,βi的估计值bi应使

$Q = \sum_{i = 1}^{n} (y_{i} - \hat{y}_{i})^{2} \to \min (3)$

根据取极值的必要条件,得到方程组:

${\begin{cases} n b_{0} + (\sum_{i = 1}^{n} x_{l i}) b_{1} + (\sum_{i = 1}^{n} x_{2 i}) b_{2} + \dots + \\ (\sum_{i = 1}^{n} x_{k i}) b_{k} = \sum_{i = 1}^{n} y_{i} \\ (\sum_{i = 1}^{n} x_{l i}) b_{0} + (\sum_{i = 1}^{n} x_{l i}^{2}) b_{1} + (\sum_{i = 1}^{n} x_{l i} x_{2 i}) b_{2} + \dots + \\ (\sum_{i = 1}^{n} x_{l i} x_{k i}) b_{k} = \sum_{i = 1}^{n} x_{l i} y_{i} \\ ⋮ \\ (\sum_{i = 1}^{n} x_{k i}) b_{0} + (\sum_{i = 1}^{n} x_{l i} x_{k i}) b_{1} + (\sum_{i = 1}^{n} x_{2 i} x_{k i}) b_{2} + \\ \dots + (\sum_{i = 1}^{n} x_{k i}^{2}) b_{k} = \sum_{i = 1}^{n} x_{k i} y_{i} \end{cases} (4)$

进一步写成矩阵形式:Ab=B

式中:A=XTX B=XTY b=[b1,b2,…,bn]T (5)

$X = [\begin{array}{l} 1 x_{11} x_{12} \dots x_{k 1} \\ 1 x_{12} x_{22} \dots x_{k 2} \\ ⋮ ⋮ ⋮ \\ 1 x_{1 n} x_{2 n} \dots x_{k n} \end{array}] ‚ Y = [y_{1} ‚ y_{2} ‚ \dots ‚ y_{n}]^{Τ}$

解方程组可得:b=A-1B=(XTX)-1XTY (6)

2.2 隧道通行速度模拟实例

以上海市的大连路隧道数据为例,计算出模拟多项式。隧道分为正反两向,即浦西到浦东为0,浦东到浦西为1。每个方向都各自选取隧道进出口连通的重要道路路段,如表2所示。

笔者取1 d的数据为例,数据时间段尽量平均分布,共25组。隧道通行速度的估计值由实际路测得出,对应时段的连通路段速度可在FCD系统中查出。按照多元线性回归模型列出等式,得到大连路隧道浦西至浦东方向的车速模拟公式模型参数,如式7所示。

$\begin{array}{l} V_{W - E} = - 22.259 - 0.260 \times V_{3 488} + 0.465 \times \\ V_{3 498} + 0.098 \times V_{3 495} + 1.013 \times \\ V_{695} + 3.403 \times V_{1 996} + 0.502 \times V_{2 017} - \\ 0.874 \times V_{1 492} - 0.410 \times V_{1 469} + \\ 0.104 \times V_{3 847} + 0.288 \times V_{1 471} (7) \end{array}$

注:V为速度,等式右边V下标为对应路段编号。

由图3可看出,利用多元线性回归模型模拟出来的通行速度与实际路测的速度大致相同。

2.3 模型检验

回归模型建立以后,需对模型的可信度进行检验,以鉴定模型的质量。线性回归方程的显著性检验借助检验来完成[8]。

因变量y的观测值y1,y2,…,yn 之间的波动或差异,是由两个因素引起的,一是由于自变量x1,x2,…,xk的取值不同,二是受其他随机因素的影响而引起的。为了从y的总变差中把它们区分出来,需对回归模型进行方差分析,即将y的总的离差平方和S总分解成2个部分,即

$S_{总} = L_{y y} = U + Q (7)$

式中: $U = \sum_{i = 1}^{n} (\hat{y}_{i} - \bar{y})^{2} = \sum_{i = 1}^{k} b_{i} L_{i y}$ ,为误差平方和或剩余平方和;

$Q = \sum_{i = 1}^{n} (y_{i} - \hat{y}_{i})^{2} = L_{y y} - U$ ,为回归平方和。

由式(7)可以看出,当U对Lyy的贡献越大时, Q的影响就越小,回归模型的效果就越好。

F统计量为:

$F = \frac{U / Κ}{Q / (n - k - 1)} ~ F (k ‚ n - k - 1) (8)$

在显著水平α下,若F>Fα(k,n-k-1),则认为回归方程效果在此水平下显著。

在上述大连路隧道模拟中, $F = \frac{U / k}{Q / (n - k - 1)} = \frac{2 388.18 / 11}{542.012 / 13} = 5.029 ~ F (11 ‚ 13)$

在显著水平α=0.005下 ,F>F0.005(11,13)=4.72,回归方程效果在此水平下显著。

3 模拟数据现场验证

模型的可靠性可以通过实际路测验证,将模型模拟值与真实的隧道通行速度进行比较。表3为2007年8月29日大连路隧道浦西至浦东方向实际路测的数据。可以看出,实际路测的数据与模型数据误差很小,足以满足实际运用的精度要求,由此可以说明获得的模型是合理可行的。

4 结论

实时路况仿真系统由于无法通过GPS接收机收集数据计算隧道通行速度,使得城市交通仿真系统在隧道信息表达上出现盲区。针对这一问题,本文提出了利用多元线性回归模型进行模拟。文中以大连路隧道为例,利用隧道实测速度以及相应时段相关路段的FCD数据,模拟出了大连路隧道浦西至浦东方向的线性模型。通过模型的分布检验以及实际路测验证,线性回归效果显著,模拟出的隧道通行速度与实际隧道路测速度接近,可以满足实际应用的精度要求,有效地反映隧道内的实际情况。

虽然,利用此方法得出的结果精度达到了实际应用的要求,但是由于FCD系统数据本身的复杂性,想要得到理想的模型系数推算条件,需要大量的实际路测数据以及隧道连通路段的FCD信息。在实际操作过程中,由于城市的FCD车辆数据覆盖面并不是100%,有可能找不到对应实测时段的FCD数据,所以需要对动态交通数据做修复处理,确保数据完整。此外,如果隧道中发生了诸如车祸之类的突发性事件,那么回归模型一定会出现偏差,为了得到更为全面有效的隧道实时信息,可以与已有的固定检测设备结合使用,相关研究有待进一步的深入展开。

摘要：给出了Floating Car Data(FCD)技术在实时路况仿真模拟中的应用模式,采用GPS技术获得的流动车数据可用以确定车辆在某一时段内所属的路段、通行距离、时间间隔,计算平均车速。并通过多个车辆的平均车速模拟出地面道路实时通行速度。由于车辆在隧道中接收不到GPS信号,故无法采用地面道路的算法模拟隧道中的通行速度,进而提出了采用多元线性回归模型模拟隧道通行速度的方法,利用与隧道进出口连通的相关路段已知通行速度,推估隧道内的通行速度。此外,车辆路测数据验证了该方法能满足实际应用的精度要求,可以合理、有效地模拟隧道内的实时路况。

关键词：实时路况,流动车数据,多元线性回归

参考文献

[1]张存保,杨晓光,严新平.浮动车采样周期优化方法研究[J].交通运输系统工程与信息,2007,7(3):100-104

[2]关志超,林群,文锦添,等.深圳城市交通仿真与公共信息平台设计与实践[J].中山大学学报:自然科学版,2005,44(2):178-183

[3]董敬欣,吴建平,郭继孚.基于GPS/GIS的路网层次划分研究[J].城市规划,2005,29(10):70-74

[4]张存保,杨晓光,严新平.基于浮动车的交通信息采集系统研究[J].交通与计算机,2006,24(5):31-34

[5]张存保.基于浮动车的交通信息采集与处理理论及方法研究[D].上海:同济大学,2007

[6]康盛,沈毅,葛晓茵,等.隧道交通流虚拟仿真系统[J].电器自动化,2006,28(5):52-54

[7]邸义,田中旭,马雷.Open Inventor在隧道交通仿真中的应用[J].交通科技与经济,2006,8(2):1-3

浮动车数据篇5

上海强生控股股份有限公司 (以下简称“强生”) 自2004年以来, 在1.3万余辆出租汽车上安装自主研发的具有全球定位及无线通讯系统的车载智能终端后实现的位置服务, 为上海智能交通、智慧城市建设做出了一些成绩。

一、强生浮动车的覆盖率和数据特征

上海市区外环线内的面积约664平方公里。由于在外环线外, 由郊区出租汽车承担营运 (其运价比市区出租车低) , 所以, 市区出租汽车的营运范围基本上集中在外环线内。以1.3万余辆浮动车平均分布状态来计算, 每平方公里内有18~20辆浮动车的数据来实现信息覆盖。强生利用1.3万辆遍布全市大街小巷的出租汽车采集道路信息, 每10秒钟发送一次信息, 调度中心对海量数据进行处理, 生成和提供道路 (可区分高架和地面) 不同车速的实时信息和分布图表。这一智能交通应用技术, 受到出租汽车和部分社会车辆驾驶员的欢迎。交通导航技术有利于减少出行时间, 均衡道路交通流量, 提高道路资源利用, 节能减排, 有利于智慧城市建设, 展现现代都市面貌。

强生的车载智能终端, 通过硬件和软件算法相结合具有以下特征:能区分、判别出行驶在高架快速路上和相同经纬度地面道路车辆的不同车速;其发回信息中心的速度是从车辆速度传感器上采集的物理车速, 能排除GPS定位在低速状态时的数据偏差;能采集到车辆制动、载客等状态, 判断出该车是待客、停运还是遇红灯停车或道路拥堵缓行, 由动态算法来真实计算出各路段的实际车速。

强生的1.3万余辆浮动车每间隔10秒钟就发送一串数据组, 信息中心每天接收到的有效数据组约1.2余亿条 (已去除含3颗卫星以下定位的车辆数据) 。由于有海量数据, 系统计算机就能每2分钟对各条道路的速度变化进行实时的更新并发布。

将出租汽车作为浮动车的载体, 其最大优点就是取其行车路线离散性强、行驶里程多 (350公里/日·辆) 、营运时间长 (约18小时/日·辆) 的特征, 弥补了地感线圈 (SCAT) 系统不可能普遍埋设、安装, 致使绝大部分地面道路速度数据信息无法获取, 因而不能全面、完整、实时地反映整个城市各类道路实时车速的缺陷。

二、位置服务在智能交通领域中的应用

2010年, 强生将拥有1.3万余辆的出租汽车调度室改造成为集车辆调度、实时路况发布、位置信息服务和实现智能动态导航为一体的信息服务平台。对加盟和提出请求的车辆, 从出发点至到达点, 按最短路径、最省时间, 结合地面道路、高架、地下通道等原则提供3条行进道路, 并能根据前方道路通行情况及时在车载终端上修正行进路径, 实行自动导航。现实现年调放1 024余万车次业务、最高峰值小时调放3 000余车次, 平均每天对28 000余辆次的电召出租汽车实现命令式动态智能导航的位置服务应用 (图1) 。

随着智能手机的普及, 2012年起强生已相继开发了为乘客提供更方便、新颖的手机和微信位置定位服务的电召方式。该方式的最大特点是乘客通过智能手机的定位功能, 直接向信息化服务平台的服务器发出要车请求;服务器会根据乘客的位置, 自动在其相对应的区域内搜索空车, 实现调放 (完全不需要人工参与) 。不管有无车辆可供, 服务器都会将调放结果发送至乘客的手机端上。当有车可供时, 乘客不但可知道派出的车号, 并且还能在手机屏幕的地图上看到来车的行驶轨迹和当前的位置等信息, 让乘客始终处于接受服务的状态之中 (图2) 。

交通信息服务目前主要有4个服务项目, 且在持续拓展其他应用开发中。一是出行前提供交通信息 (也称出行前交通计划服务) ;二是给途中驾驶员提供交通信息;三是路线导行, 可以帮助在出行时提供驾驶员选择交通顺畅的路线, 避开拥堵道路, 以最短时间到达目的地的最佳路径;四是给旅行者提供停车场、汽车服务等方面的信息。

强生的信息化服务平台, 除了为强生的车辆实行动态智能导航和电召乘客服务外, 还能通过有线和无线等网络向市民提供上述服务。

目前, 强生信息化服务平台已在www.62580000.com网站、手机端、大厦停车库及高端住宅区的住户门禁系统等载体端, 实现了向社会公众免费发布全市高架快速路、市区主干道、高速公路、人民广场、淮海路商业街、外滩、静安寺, 以及新天地等政务、商业、旅游、金融共30个地区的交通道路实时车速信息图 (图3) , 可为在任一位置上, 准备出行的驾车者提供出行前的交通方式、路径规划服务;同时, 也为正处于拥堵路段的途中驾驶员提供了摆脱拥堵环境的选择依据。

多年来强生积累了电召车辆命令式动态智能导航经验, 目前正在研制面向社会的动态智能导航仪。不久, 安装此种导航仪的驾驶员可通过信息化服务平台得到服务, 甚至在途中任意位置上可使用一键式语音对话后, 立即接收到摆脱拥堵环境的动态智能的规划路径。

三、在城市交通规划、建设及服务方面的应用和前景

强生的浮动车每天有海量的数据产生。这些数据是不可再生、极其宝贵的历史资料, 可把历史上的交通状况进行量化性的回访。自2007年10月1日起至今都已贮存保留, 是一种非常宝贵的城市交通数据档案。

自2007年8月起, 强生每月向市公安局指挥中心提供城区主要道路分时段的通行速度报告。在城市偶发大面积、长时间拥堵时, 可向有关部门提供影响通行速度的定量数据报表 (表1) 。

强生定期把这些数据提供给上海市城市综合交通规划研究所, 为道路交通建设、规划与发展提供数据支撑。经数年日积月累的历史数据, 若能结合气象及工作日历周期等资料, 将可对上海的道路交通做出类似气象、环保污染一样实现通行指数的预报, 给市民出行计划的制定带来更大的方便。

强生已与沪上一家大学的运输学院达成产学研一体的协议, 以达到将实践与理论研究紧密结合的目的, 搭建更大的平台, 争取为上海智能交通建设与发展做出更大的贡献。

浮动车数据篇6

针对大城市道路交通日趋拥挤的状况,智能交通系统(intelligent transport system,ITS)已成为交通领域研究的热点之一。浮动车数据(floating car data, FCD)作为1种新兴的交通信息获取方式,已成为ITS中采集道路交通信息的重要技术手段之一[1]。

路段平均速度是衡量道路交通系统运行状况的重要参数之一,因此路段的平均速度估计是智能交通系统的重要理论问题之一[2],浮动车技术在这方面有其突出的优势。浮动车技术将汽车作为平台,通过安装全球定位(global positioning system,GPS)装置和通信模块,在车辆运行期间定时通过无线通信方式向信息中心发送车辆的位置、速度、行驶方向、时间等GPS数据。与固定位置检测方式(如检测线圈、雷达测速仪、视频识别等)相比,浮动车是1种新型道路交通检测方式,具有不受天气条件影响、采集的范围可达整个城市路网、投资少、环境破坏小、检测效率高等特点,还具有良好的扩展性和经济性。带有GPS定位装置的浮动车可以获得其随车流行驶的动态信息,包括:经度、纬度、定位时刻的瞬时速度、方向等,这些数据包含车辆位置分布和速度变化信息。美国ADVANCE系统研究表明,在对交通参数进行估计时,采用GPS浮动车技术可提供比环形线圈更精确的行程时间估计,在50 000个检测报告中,99.4%是可靠的[3]。国内也有学者研究表明:FCD与车牌识别检测结果1 h平均速度误差在10%以内[4],浮动车数据的路网覆盖强度和覆盖率在1 d中具有持久而稳定的高峰时段,高等级道路在各个时段总是具有更高的覆盖强度和覆盖率,根据浮动车数据计算的路段行程车速与人工实测数据吻合较好[5]。国内外研究表明,基于浮动车数据获取路段行驶速度可行,结果可靠。

目前基于小样本的FCD研究比较多,如城市浮动车的最小覆盖率,FCD的准确性与可靠性[4],跨路段FCD的路径与车流速度估计[6],已取得了一些较好的研究成果。本文主要研究大样本FCD的处理,并针对武汉市道路行驶速度进行分析。

1 基于大样本FCD的路段行驶速度估计

在大样本FCD条件下,行程时间样本均值、样本方差是路段平均行程时间总体均值和方差的无偏估计。总体车流的路段平均行程时间可采用行程时间样本均值和方差以一定的置信区间表示。理论上可证明:大样本FCD的样本均值是对总体车流的路段平均行程时间的无偏估计。采用实际FCD对路段进行平均行程时间估计,并与采用线圈数据估计的结果进行了对比,说明利用FCD估计的路段平均行程时间的方法能够用于交通状态估计、交通控制和交通诱导中[7]。

采用的武汉市浮动车数据有以下信息:车辆ID、GPS数据采集时间、经度、纬度、速度、车头方向以及车辆状态等信息。武汉市有约1万辆装有GPS和GPRS的出租车,每辆车每隔40 s向信息中心发送1次数据,每天就有约1 400万个FCD。本文采用的道路地图数据是基于弧段数据结构表示的车辆道路导航电子地图,1条弧段对应1条路段,几何数据结构由起始点、若干线段和终结点构成,即起始点—线段1—线段2—……—线段n—终结点。起始点和终结点一般为道路交叉口。

1.1 FCD的道路匹配

要想利用浮动车数据获取路段行驶速度,首先必须把浮动车数据匹配到正确的路段上,即根据浮动车GPS数据中的平面坐标——经度、纬度和其他信息,如车头方向等,在道路地图中找到相应的路段,作为浮动车行驶的路段,这就是浮动车数据的地图匹配。浮动车数据的地图道路匹配一般都采用最近投影距离判断方法,即从浮动车的平面位置向道路网中所有的路段中的线段作投影,找到投影点在线段内并且投影距离最短的路段作为浮动车的行驶路段。由于GPS数据有5～15 m的误差,并且道路数据与浮动车数据在地理坐标上存在有系统偏差,因此采用最近投影距离进行道路匹配方法会出现2个明显的问题,即在十字路口附近以及对于双线表示的道路很容易出现错误匹配,如图1(a)、(b)所示。对此,可先计算出每条路段中每条线段的方向,再采用1种基于浮动车车头方向与道路线段方向约束的最近投影距离匹配算法,将浮动车GPS数据准确匹配到道路上。

$匹配路段 = \min (L + α \cdot A) ＜ Κ (1)$

式中:L为浮动车地理坐标到路段中某一线段投影距离,且L<Lmax;A为浮动车车头方向与道路方向的夹角,且A<KA;α为夹角的权重系数;KA为夹角阈值;Lmax为位置误差阈值;K为匹配阈值。

$Κ = L_{\max} + α \cdot Κ_{A} (2)$

由于少数FCD存在粗大误差,地图道路数据滞后以及不够详细的原因,不是所有的FCD都能匹配到道路上。所以,为保证FCD道路匹配的可靠性,设定了匹配阈值K,其值取决于Lmax、α和KA。浮动车的GPS瞬时定位精度在约18 m[8],考虑道路宽度和地图精度,设定最大投影距离误差阈值Lmax为30 m;夹角阈值KA是对车头方向与道路方向设定的约束,考虑浮动车在交叉路口、环形路口和立交桥等复杂路段行驶情况和浮动车变道,KA的取值为60°,以保证FCD道路匹配的可靠性;α的取值是为了协调FCD的道路投影距离和角度偏差的权重关系,本文中α取值为0.5,使这两者的权重相同。因此由式(2)可以得到K= 60。

图1(c)为没有采用方向约束的地图匹配结果,图1(d)为了采用方向约束的地图匹配的结果,分析表明采用方向约束的匹配保证浮动车车头方向与道路方向一致性,匹配结果更加准确。

1.2大样本浮动车平均瞬时速度与路段车辆平均行驶速度

路段平均行驶速度是道路交通流最重要的参数,但对跨路段的浮动车数据计算路段平均行驶速度比较复杂。武汉市出租车一般每40 s发送1次数据,按车速6～20 m/s计算,浮动车每发送2次GPS数据间的行驶距离为240～800 m。本文对武汉市主城区道路路段长度数据进行了统计,图2给出了统计结果。统计表明平均路段长度仅为151 m,小于100 m的路段数量占总路段数的46.3%,小于200 m的占74.7%,即大多数浮动车在GPS数据时间段内要行驶通过2～6个路段。

目前跨多个路段的FCD路径重建问题还没有完全解决,特别是FCD出现错误的道路匹配时会出现错误的结果。目前一般采用最短路径法,但一般出租车司机靠经验行驶,行驶路线不一定是最短路径,即使启止点相同,不同的司机,不同的时段,出租车的行驶路径也会不尽相同;而且多个没有数据的路段只能采用平均速度,这使得即使FCD道路匹配完全正确,基于最短路径重建的路段行驶速度计算结果也不完全可靠。此外跨多个路段时,计算路段平均速度算法的搜索量大,计算比较复杂、耗时。对于武汉市约1万辆GPS出租车,1 d约1 400万条数据在处理时间上也不能满足要求。而路段平均瞬时速度计算只需要FCD道路匹配后,进行统计计算就可以快速得出,不需要100%的FCD道路匹配准确性。因此为了快速、全面地得到城市全部路段的行驶速度,拟采用大样本的浮动车平均瞬时速度来代替路段平均行驶速度,下面对这种方法的可行性进行验证。

采用武汉长江二桥及延长路段(共3个连续路段)作为验证路段,选取的这段路长约2 950 m,基本为直线,不存在多路径问题。取该路段上2008年12月28日(星期天)全天的浮动车数据,分别计算了武昌—汉口和汉口—武昌2个方向的路段平均行驶速度与平均瞬时速度,每个方向的FCD量超过50万个。结果表明大样本浮动车的路段平均行驶速度与平均瞬时速度是相符的,2种速度差的中误差为1.0～1.1 km/h。速度变化较大的汉口—武昌方向平均行驶速度与平均瞬时速度在这1 d中随时间变化的曲线如图3所示。从图中可以看出即使在速度变化很大的情况时,2种速度的变化趋势是完全一致的,数值是相符的,因此本文采用大样本的浮动车平均瞬时速度代替路段平均行驶速度。

2 武汉市主城区交通流情况分析

图4为了武汉市主城区道路。根据研究需要和地图中道路的属性信息,将其分为4个等级:

选取的环形道路由长江大桥、鹦鹉大道、江汉一桥、武胜路、解放大道、黄浦大街、长江二桥、徐东大街、中北路、中南路和武珞路组成。

首先将2008年12月28日全部的浮动车数据按基于浮动车车头方向与道路方向约束的最近投影距离匹配算法进行FCD的道路匹配,再计算大样本FCD的平均瞬时速度表示路段行驶速度,5 min为1个采样时间段,对道路行驶速度进行了统计和分析。图5表示了城区主干道与全部道路的路段速度。

从图中可以看出主干道的行驶速度与全路网的行驶速度变化趋势是一致的,但速度明显地快。其中04:00左右行驶速度最快,05:30～10:30行驶速度呈逐渐下降趋势,12:00～13:00(午餐时间)行驶速度有所回升,15:00左右行驶速度最慢,18:30后行驶速度又逐渐变快。

图6表示了图4中的环形道路1 d中双向行驶速度随时间变化情况,该路段包括了汉口、武昌的商业中心和商务中心。从图中可以看出该环形路行驶速度变化规律与主干道行驶速度变化规律是基本一致的,但速度要快;环形路双向行驶速度不仅变化规律一致,而且数值也基本一致,但在15:00～19:30道路顺时针方向行驶速度明显比逆时针方向要慢一些。

武汉长江大桥(武昌—汉阳)和长江二桥(汉口—武昌)是武汉市市区道路交通的咽喉,在武汉市的道路交通网中占有举足轻重的地位。图7显示了这2座大桥在2008年12月28日全天路段速度变化的情况,从图7中可以看出桥上行驶速度的变化规律与全市路网和环形道路的变化规律是基本一致的,总体上行驶速度比环形路的还要快一些,在这一天中最快速度超过了60 km/h,大部分时间段的行驶速度都超过了36 km/h,但武昌—汉阳方向(大桥),汉口—武昌方向(二桥)以及汉阳—武昌方向(大桥)分别出现了3次、2次和1次明显的行驶速度缓慢现象。

3 结束语

本文采用基于浮动车车头方向与道路方向约束的最近投影距离匹配算法进行FCD的道路匹配,提出了用大样本FCD平均瞬时速度来估计整个城市路段行驶速度,并通过试验初步验证了其可靠性;在此基础上,采用了武汉市约1万辆GPS出租车1 d约1 400万个FCD数据,按时间段计算出武汉市城区所有道路,主干道,具有代表性的一个环形道路,以及武汉长江大桥和二桥的道路行驶速度,并进行了分析,研究成果对武汉市城区道路交通管理、建设具有一定的参考意义。

参考文献

[1]吕卫锋,诸彤宇.给中国增一个骄傲———解析基于浮动车的动态交通信息服务系统[J].中国交通信息产业,2007(8):136-137

[2]杨兆升.关于智能运输系统的关键理论———综合路段行程时间预测的研究[J].交通运输工程学报,2001(1):65-67

[3]Boyce D,Kirson A,Schofer J.Design and i mple-mentation of ADVANCE[C].Proc:Third Interna-tional Conference on Vehicle Navigation and Infor-mation Systems,1993,IEEE:415-426

[4]朱丽云,温慧敏,孙建平.北京市浮动车交通状况信息实时计算系统[J].城市交通,2008,6(1):77-80

[5]辛飞飞,陈小鸿,林航飞.浮动车数据路网时空分布特征研究[J].中国公路学报,2008,21(4):105-110

[6]殷伟,郭?,方廷健,等.一种基于FCD的城市道路车流速度估计算法[J].中国科学技术大学学报,2008,38(9):1 113-1 117

[7]张和生,张毅,温慧敏,等.利用GPS数据估计路段的平均行程时间[J].吉林大学学报:工学版,2007,37(3):533-537

浮动车数据篇7

关键词：交通状态识别,支持向量机,数据采集

作为智能交通系统的关键技术之一, 短时交通状态识别技术能实时反映路网的服务水平。对短时交通状态进行合理识别, 并将之作为诱导信息发布出来, 不仅能为交通管理部门实施交通控制和交通诱导策略提供决策依据, 还能帮助出行者选择最佳行驶路线, 减少出行时间, 从而达到均衡交通流、优化交通管理方案、改进交通控制策略的目的, 对于预防和缓解交通拥堵状况具有积极作用。本文选用公交车作为车载工具, 一方面公交车是常用交通工具, 另一方面是公交路线覆盖城市交通干线, 定时循环发车, 行驶路线相对于出租车, 其确定性更强。

利用公交车上安装的GPS全球定位系统, 采集所研究路段内的公交车速度样本, 并分为训练集和测试集, 使用支持向量机识别算法对提取的特征向量进行分类, 完成对道路交通状态的识别, 以求得到高精度的识别结果。本文接下来的组织框架如下。第一部分介绍了采集车速信号样本的具体步骤, 并在第二部分简要介绍了SVM分类算法, 第三部分详细介绍了实验过程及仿真结果。第四部分对本文进行了总结, 并提出了改进措施。

1 采集车速信号样本

1.1 数据采集

利用公交车上安装的GPS全球定位系统, 获取所研究路段内公交车的平均车速。本课题拟选用内蒙古呼和浩特市新华东街的兴安路口到展东路口作为研究路段, 首先因为新华东街是该市的主干路, 车辆较多, 经过兴安路口到展东路口的公交车有16 路、3 路、23 路、27 路、31 路、59 路、66路、75 路、89 路、95 路、97 路、102 路、k1 路、青城1 号线以及青城2 号线;其次, 道路旁有交通诱导指示大屏 (交通指挥中心发布的道路交通状态) , 其也可以为数据的采集提供重要衡量标准。

1.2 数据预处理

公交车上的GPS采集数据量相当大, 很多不符合建模所要求规范和标准, 所以需要对原始数据进行预处理, 以达到筛选计算出所需要数据的目的。比如浮动公交数据采集器出现临时故障或道路出现临时施工等, 这种情况下采集的数据就不予考虑。实际使用的浮动车信息系统中, 可能存在大量缺失数据。这些不完整数据从数据集中被抽取出后, 会导致建立不可靠甚至是错误的数据应用模型, 以致偏离实际情况, 给研究工作带来困难。因此, 在建模之前对数据进行补缺是很有必要的。

1.3 抽取车速信号

通过预处理后得到的车辆位置、时间、状态、车速、行驶方向的GPS数据, 从中再抽取车速, 得到车速信号样本, 本文初步将交通评判标准的服务等级设为畅通、拥挤、拥堵。

2 SVM分类算法研究

依据样本特征抽取结果, 可以来识别一个样本所属的类别是畅通、拥挤和拥堵中的哪一类。本文借助支持向量机对样本进行测试。

支持向量机 (support vector machine, SVM) , 最初是由Vapnik博士提出的以统计学习理论为基础的一种新型机器学习方法, 其可以从本质上提高学习机的泛化能力。支持向量机最初是为二值分类问题设计的, 当处理多类问题时, 就需要构造合适的多类分类器。本课题将交通状态分为三类, 就需要组合多个二分类器来实现多分类器的构造, 目前构造SVM多类分类器的方法主要有两类:一类是直接法, 即直接在目标函数上进行修改, 将多个分类面的参数求解合并到一个最优问题中, 通过求解该最优化问题可以“一次性”实现多类分类。这种方法看似简单, 但其计算复杂度比较高, 实现起来比较困难。因此, 本文采用另一类方法, 即间接法, 通过组合多个二分类器来实现多分类器的构造。

3 实验过程及仿真结果

本文在任意两类样本之间设计一个SVM, k个类别的样本就需要设计k (k-1) /2 个SVM, 所以本课题的3 个类别的样本就需要设计3 个SVM, 通过在Matlab中安装LIBSVM工具箱来实现这种多分类器的构造。

模型建立过程为:首先需要从原始数据中把训练集和测试集提取出来, 然后进行一定的预处理, 之后用训练集对SVM进行训练, 最后用得到的模型来预测测试集的分类标签。算法流程如图1 所示。

采用SVM分类具体步骤如下:

第一, 按照LIBSVM软件包所需要的格式准备数据集。通过对GPS采集到的数据进行预处理, 提取出速度特征参数, 创建一个速度样本。

第二, 选定训练集和测试集。在选定的6 653 个样本中, 选择其中70% 的样本作为训练集, 剩下30% 的数据作为测试集。在选定的训练集中, 将样本分为三类, 速度30km/h以上的样本属于第一类 (类别标签为1) , 定为畅通;速度在10km/h-30km/h之间的样本属于第二类 (类别标签为2) , 定为拥挤;速度低于10km/h的样本属于第三类 (类别标签为3) , 定为拥堵。通过训练集训练好分类模型, 并对测试集进行分类。

第三, 进行数据预处理。对训练集和测试集进行归一化预处理, 即把所有数据都转化为[0, 1] 之间的数, 其目的是取消各维数据间数量级差别, 避免因为输入和输出数据数量级差别较大而造成网络预测误差较大。本课题采用的数据归一化方法为最大最小法。函数形式如式 (1) 所示:

式 (1) 中, xmin为数据序列中的最小数;xmax为序列中的最大数。

第四, 选择最佳参数。SVM用于模式识别时, 对于SVM方法及其参数、核函数及其参数的选择, 目前国际上还没有形成一个统一的模式, 也就是说最优SVM算法参数选择还只能凭借经验、实验对比、大范围搜寻或者利用软件包提供的交互验证功能进行, 以此来得到最佳的惩罚参数c和核函数参数g。本课题拟采用网格寻优算法来选择最佳参数c和g。

第五, 训练和预测。用训练集对SVM分类器进行训练, 用得到的模型对测试集进行标签预测, 最后得到的分类准确率是99.649 5%。运行结果如图2 所示:

从图2 可以看出, 在测试的1 997 个样本中, 有1 990个正确, 而此时的参数c=1.231 14, g=0.307 786。测试的结果在图3 直观显示出来。

4 结语

采用理论分析和仿真分析相结合的方法, 通过与实际道路交通状态的对比分析, 不断优化参数、完善方案。对优化前后的分类性能进行对比分析, 在综合考虑各种可能影响分类的因素的基础上, 根据核函数仿真结果分析结果, 研究、探索SVM分类算法, 以探讨分类规律, 总结归纳出具有普遍指导意义的规律性, 优化并确定最佳状态识别算法。

针对所得到的分类的准确率, 还可以从以下方面提高:

第一, 尝试不同的参数寻优方法, 以得到最佳的参数c和g。

第二, 在实验中, 只采集了一天的数据, 也在一定程度上影响到样本的准确率。因此, 在数据整理方面, 应该采集多天的数据进行对比分类。

参考文献

[1]龚珊.基于浮动车GPS数据的行车速度预测模型研究[D].北京:北京交通大学, 2009.

[2]吕宏义.基于支持向量回归机的路段平均速度短时预测方法研究[D].北京:北京交通大学, 2008.

[3]张心哲, 关伟.基于多参数状态时间序列的交通状态预测方法[J].交通信息与安全, 2009 (6) :1-5.

[4]陆琳, 张虹.城市短时交通流预测仿真研究[J].计算机仿真, 2012 (5) :326-328.

【浮动车数据】推荐阅读：

南车高铁动车05-11

数据挖掘数据存储07-01

大数据推荐数据模型08-27