时间估计(共5篇)
时间估计 篇1
在现代移动通信系统中, 用户方位对某些应用具有重要作用, 例如基于用户方位的智能天线可提高通信系统频率和时间复用率, 从而满足大容量与高质量的信号传输。移动通信系统中, 用户经常处于多径信号环境中, 例如同一移动用户的信号经过建筑物反射形成多径传输。由于多径信号来自同一信号源, 当多径信号的传播时延差较小时, 通常认为这些多径信号是相干的, 从而导致传统基于特征子空间的DOA估计失败[1]。
对于相干信源, 为了实现DOA估计, 常见的一种处理方式是首先采用空间平滑算法解相干[1,2,3], 然后进行DOA估计。但在实际移动通信环境中, 同一基站范围内存在多个用户通话, 空间平滑算法由于阵列孔径的损失, 降低了空间谱分辨率可检测的信号数目, 并且在独立信号与相干信号共存环境中性能恶化。文献[1, 3]分析表明:前向、前后向空间平滑算法分别最多只能估计M/2和2M/3个多径信号DOA (M为阵元数) , 而实际中多径数目通常远大于此。
时间平滑算法[4,5,6,7]利用移动通信信号的衰落特性, 在不同的相干时间段内取多个数据块, 通过对数据块的协方差矩阵重新整合, 使得到的新协方差矩阵达到满秩。时间平滑算法没有阵列孔径损失, 但是对于独立信源与相干信源的混合信号模型, 无法有效区分, 同时导致解相干的信源数降低。基于等距线阵的平滑差分方法[8,9], 首先利用传统的基于特征空间的波达方向估计方法实现独立信号的空间谱估计, 再利用空间平滑差分方法实现相关信号的空间谱估计。本文将文献[8~9]的差分思想应用到时间平滑中, 提出一种基于差分方法的时间平滑的DOA算法。该方法可以进一步增大可估计信源数目, 同时估计性能相对于传统空间平滑算法有明显改善, 计算量较小。
1 多径混合信号模型
对于一组多径信号, 在时刻的采样数据为Sm (t) , 以其中一个信号数据s (t) 为参考, 根据多径信号的衰落因子, 可建立一组多径信号的数据模型
其中, C为多径信号对应衰落因子组成的P×1维矢量 (假设P条多径信号)
推广到多个多径信号组, 同时包含独立信源, 建立独立信号与多径并存的阵列接收数据模型, 假设N个窄带远场信号入射到M元阵列。入射信号中独立信源数为Nu, 多径信号数为Nc, 其中N=Nu+Nc。其中多径信号分成K组相互独立的相干信源, 每一组多径信源相干信源数为。阵列输出噪声为高斯白噪声, 且阵元间噪声相互独立, 其均值与功率分别为0、σN2, 阵列在t时刻接收数据为
其中, A为M×N维阵列流型矩阵;S (t) 为N维入射信号源;N (t) 为M×1维阵元输出高斯白噪声;Au为独立信号对应的M×Nu维阵列流型矩阵;Ac为所有多径信源对应的M×Nc维阵列流型矩阵;Su (t) 为独立信号数据组成的Nu×1维向量;Sc (t) 为K组相互独立的相干信源组中K个相互独立的信源数据组成的K×1维向量;B为多径信号的衰落因子组成Nc×K维块对角矩阵。数学模型为
其中, , Bk为Nk×1维矢量, 表示第k组多径信号的衰落矢量。根据式 (3) 可以求的接收数据协方差矩阵
2 基于差分的时间平滑解相干
在移动通信环境中, 对于移动的终端, 通常用相干时间tcoh=c (vfc) 表示时间选择性信道衰落变化的快慢。其中, c、v、fc表示电磁波速度、终端移动速度和载波频率。多径信号与直射信号变化相对较慢, 但由于信号波长短, 复衰落向量C变化较快, 尤其是相位。利用时间平滑算法可将接收数据协方差矩阵恢复为满秩。假设接收数据快拍数为L, 将所有快拍数据分成W (W>P) 个数据块, 每个数据块的数据长度为D=L/W。对于同一传播路径, 当每个数据块的采样时间大于信道相干时间tcoh时, 这些数据块多径衰落不相关[7]。
对于所有传播路径及阵列接收数据第j个数据块, 对阵列接收数据按列分块, 可表示为
式 (8) 中X为阵列接收数据, 则数据块对应的协方差矩阵为
对W个数据块的协方差矩阵求平均得到时域平滑的协方差矩阵为
基于时域平滑的解相干算法不存在阵列孔径损失, 对阵列结构没有要求, 但为了解相干, 数据块需要足够的观察时间使得相邻数据块采样起始时间间隔tcoh, 使得不同采样数据块的衰减因子C不相关[5]。采用数据块时域平滑算法, 只要满足数据块个数W>P, 可以得到满秩的协方差矩阵Rts[7]。
针对多径混合信号, 为提高算法性能, 同时增大可估计信号数目, 本文提出一种差分时间平滑算法。对于Toeplitz矩阵Rt满足:JRtTJ=Rt, 其中, J为反对角单位矩阵。式 (7) 中Ru为对角阵, 满足Toeplitz特性, 有JRuTJ=Ru, 但Rc不满足Toeplitz特性。所以可以构造多径相干信号的数据协方差矩阵为
求得协方差矩阵不含独立信源分量, 与时间平滑算法结合, 可以获得满秩的协方差矩阵, 利用传统子空间算法例如MUSIC算法可对多径相干信源进行有效DOA估计。
根据以上讨论, 基于差分方法的时间平滑算法可归纳如下:
(1) 由阵列接收数据X及快拍数L, 计算阵列协方差矩阵估计值
(2) 通过应用MUSIC算法利用进行非相关信号DOA估计。
(3) 根据式 (8) 与式 (9) 求出数据块的协方差矩阵
(4) 利用式 (11) 求得每个数据块只包含多径信源协方差矩阵分量的差分矩阵
(5) 利用式 (10) 求得满秩的时间平滑协方差矩阵^Rts, 应用高分辨DOA算法对多径信号进行DOA估计。
3 仿真分析
仿真1均匀线阵阵元数M=8, 阵元间距等于半波长。两个多径相干信号组成相干信源组, 多径信号波达方向与衰落系数分别为{0°, 10°}, {1, exp (i2π (2rand (1) -1) ) }。一个独立信源入射到天线阵列上, 波达方向为30°, 信噪比SNR=10 d B。分别用空间平滑, 差分时间平滑算法进行DOA估计, 时间平滑数据块数。对多径信号的估计结果如图1所示。空间平滑算法在混合信号模型由于天线孔径损失中性能恶化, 可以看出差分方法时间平滑DOA算法有效去除了独立信源信息, 同时估计多径信号性能良好, 增大了阵列天线可估计相干信源数目。
仿真2阵列与仿真1相同, 在4个多径信号入射到天线阵列上, 波达方向分别为{-20°, 0°, 20°, 30°}, 信噪比为SNR=10 d B。分别用空间平滑, 差分时间平滑算法进行DOA估计, 时间平滑数据块数W=10。对多径信号的估计结果如图2所示。根据仿真结果, 可说明该算法对全相干信源模型依然有效, 由于差分方法损失了部分多径相干信号的信息, 相对于空间平滑算法, 该算法性能有一定损失。
仿真3阵列同仿真1, 为简化信号模型, 如仿真1混合信号模型, 信号入射方向与衰落系数同仿真1, 结合Root MUSIC进行DOA估计, 并研究估计多径信号的性能, 研究估计均方误差RMSE与信噪比SNR关系。独立进行200次蒙特卡洛试验的仿真结果, 如图3所示。
仿真4阵列、混合信号模型、信号入射方向与衰落系数均与仿真1相同, 结合Root MUSIC进行DOA估计, 并研究估计多径信号的性能, 研究估计多径信号成功率与信噪比的关系。仿真结果如图4所示。
4 结束语
本文介绍了一种移动通信多径信号的DOA算法, 基于多径信号的衰落特性, 利用时间平滑与差分方法, 对多径信号有效解相干。该算法采用时域平滑, 不存在孔径损失, 使可估计信源数增加, 分离了独立信源的影响, 提高相干信源DOA估计的性能。理论与仿真分析表明, 该算法性能在混合信号模型中优于经典空间平滑算法, 对入射信号全部为相干信源的解相干能力有待改进。
摘要:针对移动通信环境中, 多径信号与独立信号共存的混合信号模型DOA估计问题, 依据差分方法与时间平滑原理, 提出一种改进的DOA算法。该算法增加了可分辨信源个数, 同时提高了相干信源DOA估计的性能, 仿真实验证明, 该算法在混合信号模型下解相干性能优于传统空间平滑法。
关键词:时间平滑,差分,多径信号,移动通信
参考文献
[1]Shan T J, Wax M, Kailath T.On spatial smoothing for direction of arrival estimation of coherent signals[J].IEEE Transactions on ASSP, 1985, 33 (4) :806-811.
[2]Piltai S U, Kwon B H.Forward backward spatial smoothing techniques for the coherent signal identification[J].IEEE Transactions on Acoustics, Speech, and Signal Processing, 1989, 37 (1) :8-15.
[3]Wi IIiams R T, Prasad S, Maha Ianabis A K, et a I.An improved spatial smoothing technigue for bearing estimation in a multipath environment[J].IEEE Transactions on ASSP, 1988, 36 (4) :425-432.
[4]van Rheeden D R, Gupta S C.A temporal smoothing approach to direction of arrival estimation of coherent signals in fading channels[C].Newyork:Wireless Communications and Networking Conference, IEEE, 1999:286-290.
[5]Gu Z H, Gunawan E.A performance analysis of multipath direction finding with temporal smoothing[J].IEEE Transactions on Signal Processing Letters, 2003, 10 (7) :200-203.
[6]何子述, 韩春林, 唐斌.一种有效的多径信号DOA估计算法[J].电子学报, 2003, 3l (1) :139-141.
[7]张森, 陈永革, 郭艺夺, 等.基于时域数据块平滑的多径信号DOA估计算法[J].雷达科学与技术, 2010, 8 (5) :429-421.
[8]Zhang Yufeng, Ye Zhongfu.Efficient method of DOA estimation for uncorrelated and coherent signals[J].IEEE Antennas and Wireless Propagation Letters, 2008 (7) :799-802.
[9]Guo Yiduo, Zhang Yongshun, Tong Ningning.A new DOA estimation method for uncorrelated and coherent sources under nonstationary noise fields[C].Changsha:IEEE 8th International Conference on Application Specific Integrated Circuit, 2009:987-990.
[10]王永良, 陈辉, 彭应宁, 等.空间谱估计理论与算法[M].2版.北京:清华大学出版社, 2005.
时间估计 篇2
带噪声传递函数(TFN)模型可通过相关性分析在输入输出序列时间上同步的情况下估计输出序列.基于TFN模型、Kalman滤波和复合型混合演化(SCE-UA)算法,发展一种新的时间序列重建方法,并将其用于地下水埋深估计.该方法将高阶TFN模型表述成状态空间,并用Kalman滤波进行状态估计,基于SCE-UA方法优化TFN模型参数,能够在输入输出序列异步的情况下率定TFN模型并用于时间序列重建.最后,利用已有降水和地下水观测资料验证该方法,并重建了中国东北部分地区40年地下水埋深序列,结果表明该方法有较好精度且能反映埋深变化对降水的.响应,在各类时间序列重建中具有一定推广性.
作 者:袁星 谢正辉 YUAN Xing XIE Zheng-Hui 作者单位:袁星,YUAN Xing(中国科学院大气物理研究所,北京,100029;中国科学院研究生院,北京,100049)
谢正辉,XIE Zheng-Hui(中国科学院大气物理研究所,北京,100029)
时间估计 篇3
微博是一个基于用户关系的信息共享、传播及获取的平台,以140字左右文章更新信息,同时可以实时跟随或转发某些用户发布的信息,具备发布、关注、评论、转发、私信等功能,是一种新兴的网络媒体。国外最早提供微博服务的网站是美国的Twitter,从2006年10月开通至2012年1月在全球已拥有近4.62亿注册用户。国内的新浪微博和腾讯微博在2011年三季度也分别超过2亿注册用户。
与传统的社会网络不同,微博具有独特的“单向关注”和“实时转发”机制。如果用户对于某一微博用户感兴趣,只需要关注对方,从而被关注的所有微博消息都将实时传递到自己的页面中。这种方式拉近了人与人之间的距离,并在一定程度上满足了人们“围观”的心态。此外微博集成了手机短信、博客与社交网站的优点,将大众从原来单纯的信息接收者变成了接收和发布信息的完全参与者,从而让社会走进了“全民记者时代”。
在人际圈的影响力上,就博客而言,用户的关注属于一种“被动”的关注状态,写出来的内容其传播受众并不确定;而微博的关注则更为主动,“这种半广播半实时交互的微博客机制,使得用户组成多个交流分享的小圈子,群体传播在这里得以凸显 ”,因此对于商业推广、明星效应的传播很有研究价值。同时,对于普通人来说,微博的关注友人大多来自真实的生活圈子,用户的一言一行不但起到发泄感情、记录思想的作用,更重要的是维护了人际关系。
基于上述因素,相对于传统的信息发布平台,微博平台吸引了更多的用户,随着参与用户的持续增长,线下的社会形态逐渐地迁移到线上,这为计算社会学的研究提供了大量的数据支撑,通过微博等在线社会网络的用户关系以及交互数据等,或是以定量分析手段验证了以往社会学通过定性研究得到的结论[2],或是得到了一些与直观感觉大相径庭的结论[3]。
计算社会学的兴起推动了对社会网络属性,以及对比不同社会网络属性的研究。社会网络有很多重要的属性,如度分布、聚类系数、网络直径以及平均最短路径等。社会网络的规模,作为社会网络的属性之一,是其他属性研究的基础,具有重要的作用。此外在商业利益方面,当需要向某个社会网络投入资金或者投放应用时,目标网络的用户规模,尤其是活跃用户规模成为其首要关注方向。
对于活跃用户目前有几种定义,在社会网络研究中,基于以下假设将整个网络定义为一张图,用户作为图的顶点,用户之间的关系作为图中的边,定义那些与其他顶点有边相连的顶点对应的用户是活跃用户。因此研究者多是通过从某些种子节点出发,沿着与这些种子节点邻接的边向外进行均匀[4]或非均匀采样[7],通过计算样本集的一些参数,估计整个图中连通分量即活跃用户的规模。然而由于微博类社会网络建立关注关系的成本非常低(点击鼠标就可以),往往有很多出于商业目的建立的僵尸账号,这些账号关注了大量的其他用户,出度很大,按照以往的方法会将这些用户都检测为活跃用户,这是与事实相悖的,因此本文将活跃用户定义为在一段时间间隔内至少发一条微博的用户,按照时间间隔长短可以定义不同的活跃周期等级,如每月至少发一条微博的用户可定义为月活跃用户,这些用户切实参与到整个微博事件的传播过程中,在一定的程度上引发微博舆论指数级增长,并且从商业角度出发,具有更高的宣传价值。
1 相关工作
在生态学方面,以一种名为“标记再捕获”的方法用来估计物种的规模,其是基于“生日悖论”的一种估计方法,通过采集样本规模为
文献[7]提出了一种基于随机游走算法的社会网络规模估计方法,通过在原图进行一次有偏的随机游走采样,并在样本集上用同样的方法再进行一次采样,通过在两个样本上的计算就可以准确地估计原图规模,且所需采样规模较“标记再捕获”方法小,证明在原图度分布均匀时该方法所需样本规模为
此外文献[8]估计了树的规模,他们的动机是估计回溯算法的运行时间,文献[9]扩展了上述算法,用来估计无环图的规模,最终文献[10]将上述算法扩展到估计无向图的规模,但是该算法在最坏情况下的运行时间没有下限,并且会高估图的规模。
2 捕获再捕获模型
2.1 Lincoln-Petersen模型
这是最简单的捕获再捕获模型,Laplace曾于1786年用它估计法国的人口数目,Petersen于1900前后、Lincoln于1930年将其用于野生动物研究[11],它是一个两样本的模型,第一次取样中n1只被捕获的样本被做好标记并放回到野外群体中,在其后的第二次取样中有n2只样本被捕获,其中带有标记的有m只。直观上看,第二次样本中带标记样本的比例m/n2,应该近似等于整个群体中标记动物的比例n1/N,故群体总数N可以用
将L-P模型应用到基于公共时间线数据的新浪微博活跃用户的估计上,可以执行两次采样,第一次采集一定时间间隔内时间线数据内出现的用户ID,并对其进行标记,共有n1个非重复ID,第二次采集第一次采样时间后的一定时间间隔内时间线数据内出现的用户ID,共有n2个非重复ID,其中被标记的有m个,则微博活跃用户数可以估计为:
时间间隔即采样的样本规模,时间间隔越长则每次采样的样本规模越大。
2.2 模型偏度分析
对微博活跃用户的估计是基于以下假设的[12]:
(1) 一段时间内的时间线数据是对这段时间内产生的所有原创(时间线数据都是原创的,即不是转发微博)微博的均匀采样;
(2) 所有时间线数据中出现的用户都是具有某一相同活跃周期的;
(3) 活跃用户的群体是封闭的。
对于第(1)点假设,首先说明时间线数据是约每1分钟更新一次,每次200条,该假设即是假设1分钟中的时间线数据是对这1分钟的所有原创微博的均匀采样,相应的一个月的时间线数据就是对这一个月内所有原创微博的均匀采样。
我们分析了新浪时间线数据中用户的出现频次,发现部分用户被频繁地采集进时间线。用户出现频次分布图如图1所示。
这有三种主要的可能性,一是部分用户大量发表微博,他们被时间线采集的概率大大提高;二是新浪定义了一些种子用户,给予这些种子用户很大程度的关注,事实上我们发现一些用户几乎每天都出现在时间线中;三是由于时间线数据是约每1分钟更新200条微博,可能在某些时间段(如凌晨3点)发布微博的用户很少,经常在这个时间段发布微博的用户被时间线采集到的概率增大。
它们导致用户被时间线采集的概率并不是一致的,而大量的高频用户可能会提高两次采样的碰撞率,即增大m的值,从而造成活跃用户规模的低估。
对于第(2)点假设,首先给予活跃周期一个正式的定义:
定义1 用户活跃周期:用户U至少T天发表一篇原创微博,则该用户的活跃周期AU=T,注意,如果用户U′的活跃周期为AU′=T′且T′≤T,那么AU′=T也是成立的,AU越小对应的用户U活跃程度越高。
定义2 用户集活跃周期:用户集
显而易见的所有用户组成的用户集Ω的活跃周期为AΩ=+∞,而活跃用户应该是其中活跃周期较小的部分,如活跃周期为30以下的用户。采用L-P模型对活跃用户数进行估计应该是在所有活跃用户中进行两次均匀采样,而只有在时间线中所有用户都是具有同一活跃周期的活跃用户时,前后两个阶段采集的时间线数据中的用户才可以被视为对所有具有该活跃周期的用户的均匀采样。
当活跃周期定义得较小时,假设所有时间线中的用户都具有该活跃周期是不正确的,当活跃周期定义得较大时,过多用户具有该活跃周期,无法估计到真正有价值的活跃用户数目,因此只有当活跃周期适当时才可以较准确地估计出具有较高价值的活跃用户数目。
对于第(3)点假设,由于存在新的活跃用户诞生,同时也有现有活跃用户变为不活跃的情况出现,即群体具有开放性,仅考虑群体封闭性将无法对活跃用户数进行正确的估计。
当有新的活跃用户诞生时,即活跃用户数由N变为N′,但是仍然有:
n1N′=mn2 (2)
则N′可以估计为:
当有现有的活跃用户变为不活跃用户时,即第一次采样并标记的用户数由n1变为n′1,则活跃用户N″将被估计为:
由于n′1是未知的,应进行进一步处理。
2.3 模型修正
2.3.1 群体开放性修正
由于活跃用户的规模是在不断变化的,存在新的活跃用户的加入以及以往标记的活跃用户变为不活跃用户从而移出活跃用户群体的情况,即群体具有开放性。Jolly-Seber模型是由Jolly和Seber提出的基本的群体开放模型[1],利用该模型进行对微博活跃用户进行估计步骤如下:
在进行第i次采样前,带标记的样本数Mi是未知的,需要先行估计。注意到第i次采样后,所有带标记的用户动物可以分为两类:第i次之前有标记,且第i次未被采集的Mi-mi个,以及第i次采样后释放回群体的Ri个(包括第i次时已有标记与第i次新做标记的用户样本),其中mi是第i次采集到的带标记样本数。这两类用户在第i次之后至少被再采集一次的概率应近似相等,在第i+1次采样时采集到的这两类的频数记为k与r,设第i和第i+1次采样之间,活跃用户变为不活跃用户的概率为p,则:
p(Mi-mi)Ni+1=kni+1 (5)
pRiNi+1=rni+1 (6)
由式(5)、式(6),进行第i次采样前,带标记的样本数Mi可估计为:
得到Mi再利用L-P模型,可得第i次采样时群体规模Ni可被估计为:
此方法不适用与首次及最后一次采样时。
2.3.2 个体异质性修正
因为大量的高频用户可能会提高两次采样的碰撞率,即增大2.2节中m的值,从而造成活跃用户规模的低估。
因此应去掉部分出现频次较大的节点n′,保留部分这些节点,防止由于去掉的过多导致采样碰撞率下降,从而造成对活跃用户规模的高估。那么群体规模可估计为:
其中n1为第一次采样得到的非重复用户数,n2为第二次采样得到的非重复用户数,m为两次采样中图示出现的非重复用户数。
2.3.3 群体开放性及个体异质性修正
在考虑个体异质性的基础上,即去掉部分出现频次较高的用户之后,再运用Jolly-Seber模型,得到活跃用户的估计:
其中
3 实验及结论
3.1 模拟实验
为了验证2.1节中L-P算法的正确性,以及确定能够有效估计活跃用户规模时需要达到的采样率,设计模拟实验如下:
用1到1亿之间的整数组成数据集,每个整数相应的代表一个用户,因为在利用时间线数据进行活跃用户估计时,不考虑这些用户之间的网络结构,因此用户顺序排列的整数表示用户是有效的。
对整数集执行两次相同采样率的均匀采样,第一次采样时将采样到的样本进行标记,共有n个样本,第二次采样样本规模也是n,其中被标记的样本数为m,则数据集规模可估计为:
误差率:
E=
实验结果如图2所示。
可见当采样规模达到总规模的0.7% 时,估计结果误差已趋近1%,因此用此方法可以较好地估计图的规模。
由于时间线数据集中部分天的用户数较少,存在一定的数据缺失,设计一个实验,验证在两次采样规模不同的情况下是否可以准确估计活跃用户规模,采样率分别达到多少时估计结果误差较小。实验内容设计如下:
同样使用1到1亿之间的整数组成数据集,分别以0.1%、0.3%、0.6%、0.9%的采样率进行第一次采样,第二次采样以不同的采样率对数据集进行采样。
实验结果如图3所示,可见当两次采样的规模都大于0.6%时,估计误差已在1%附近。因此部分数据的缺失不会造成估计规模较大误差,只要每次采样的总样本规模超过群体规模的0.6%。
3.2 真实数据实验
3.2.1 数据集
本文使用的数据集为新浪时间线从2011年4月份到12月份的数据,采集过程中由于网络等原因部分时间的数据存在一定缺失,通过统计共有213天数据,将每天出现的用户ID号抽取出来形成每天的时间线用户ID记录。共有4 331万条记录,其中非重复用户1 787万个,时间线中每天出现的用户数分布如图4所示。
由于系统、网络等原因部分时间段采集的时间线数据较少,造成部分天中出现的用户数较少,平均每天203 336个用户出现在时间线中。
3.2.2 统计结果及分析
首先以2.2节中描述的方法进行100次统计,得到统计结果如图5所示。
当采样规模在10以上时,样本含有用户数为平均每天出现用户数乘以10约为200万,根据新浪公布的数据,新浪总用户数约为2.5亿,因此采样率为0.8%,超过有效采样率0.7%,因此估计结果是较为准确的。
可以看到当采样规模小于50时,估计的活跃用户规模随着采样规模的增大有较大的增长,这说明时间线数据大多不是活跃周期为小于50的其他值。且活跃周期值线性变化的同时,相应的活跃用户数急剧增长。
当采样规模达到50天后,活跃用户的规模增长趋于平缓,随着采样规模的增大估计的用户规模并没有像采样规模较小时那样出现较大的增长,说明活跃周期比50更大的用户数并没有超过活跃周期为50的用户多少,因此假设所有时间线中用户每50天至少发一条原创微博是合理的,并且当采样规模为50时,估计的活跃周期为50的用户数是较为准确的,即2.1×107个活跃用户。
在考虑群体开放性假设后,进行100次统计,得到统计结果如图6所示。
可见与基本的L-P模型统计结果相比,相同采样规模估计到的活跃用户数有所减少。群体开放性假设修正后,考虑了活跃用户群体的动态变化,而且需要特别注意,在假设所有时间线中用户都是具有某一活跃周期A时,我们进行每次采样时采集到的样本都是具有该活跃周期A的用户(因为从其被捕获的当天起其最少发表了一篇原创微博,即为被时间线捕获的的那条微博),因此可认为每次采样都是对具有该活跃周期用户的均匀采样,因此对相应活跃周期用户规模的估计也是准确的,即图6中数据是对不同程度活跃周期用户规模的较为准确的估计。
考虑个体异质性,不同微博用户被时间线采集的概率不等,去掉其中部分出现频次较高的节点,再对所有时间线数据应用基本L-P模型进行100次统计,统计结果如图7所示。可见在个体异质性假设前提下,活跃用户的规模与基本L-P模型下估计的结果基本相同,但有所增多,这是因为去掉了部分出现频次较高的节点,造成碰撞减少,即m变小,因此估计值
同时考虑群体开放性及个体异质性假设,进行100次统计,统计结果如图8所示。可见与上面结果类似,在同时考虑群体开放性和个体异质性的情况下估计的活跃用户规模较仅考虑群体开放性估计的活跃用户规模略大,且各个采样规模点所对应的活跃用户数是对相应活跃周期用户数的准确估计。
4 结 语
本文给出了一种全新的活跃用户定义方法,并在此基础上定义活跃周期来度量用户的活跃程度。
本文首先利用基本的Lincoln-Petersen模型,基于新浪微博的时间线数据对微博活跃用户规模进行估计,根据微博的实际情况提出了针对基本L-P模型的修正。
针对微博活跃用户群体的开放性,提出群体开放性修正,进行三次均匀采样,在进行活跃用户数估计前先进行标记用户数估计,最终活跃用户数可通过式(8)估计。
针对时间线数据中用户被采集概率不同,提出个体异质性修正,去掉部分出现频次较高的用户,最终活跃用户数可通过式(9)估计。
综合考虑以上两种问题,提出群体开放性及个体异质性修正,最终活跃用户可通过式(10)估计。此时能够准确估计不同活跃周期的活跃用户数规模。
不同活跃周期用户规模见表1所示。
摘要:针对微博活跃用户数估计问题,给出一种基于活跃周期的活跃用户定义,并在此基础上改进捕获再捕获模型,基于新浪微博时间线数据对新浪微博活跃用户数进行了估计。实验验证本方法能够较为准确地估计具有不同活跃周期的用户的规模。
时间估计 篇4
现实中很多的时间序列的变化都会呈现出一种长记忆性的现象, 如水库的蓄水量、食品价格等。Mandelbrot等最先通过建立数学模型——带Hurst指数的分形布朗运动, 刻画了这种有趣的现象[1,2]。
到目前为止已经提出了多种估计分形布朗运动参数的方法, 重标极差 (R/S) 分析方法首先由Hurst[3]在1951年为了更好地描述尼罗河水库的长期贮存能力而提出的, 并建立了Hurst指数作为判断时间序列数据遵从随机游走还是有偏的随机游走过程的指标, 并由Mandelbrot[2]于1971年应用到金融时间序列分析中, 此后成为了应用于时间序列的分形特征的有效研究方法之一。为了克服经典R/S分析方法无法分辨短期相关性与长期相关性的缺点, Lo在经典R/S分析的基础上给出了修正的R/S分析方法 (简称MR/S) [4]。Moody研究发现MR/S方法的修正值对短期记忆太过敏感从而导致Hurst指数估计失真, 认为该方法就是有偏的[5]。在MR/S方法的基础上, Giraitis等用样本序列累积离差的方差代替MR/S分析中的极差, 提出了V/S分析方法, 并从理论和仿真实验角度说明了V/S方法比MR/S方法更具稳健性和有效性[6]。Peng等在研究DNA组织时扩展了普通的波动分析方法, 得到了DFA方法, 它在消除时间序列局部趋势及发现局部相关性方面比R/S及MR/S方法更优[7]。正如Chronopoulou和Viens[8]所说, 传统的R/S与MR/S等非参数估计法只能判别时间序列的是否具有长记忆性, 且对长记忆性强弱Hust指数的估计有较大的偏差。而Whittle估计法[9]是一种基于极大似然的参数估计法, 该方法比前面提到的常用的几种方法更适合用于统计推断, 而且更高效。
目前在研究分形布朗运动、时间序列长记忆性时主要运用经典R/S、MR/S、V/S、DFA (Detrended Fluctuation Analysis) 等分析方法, 徐龙炳等利用R/S算法分析中国股市, 得出其具有非线性的特征[10]。基于经典R/S方法, 王春峰等研究了中国股市的长期记忆性, 认为中国股市还不是一个效率市场[11]。胡彦梅等采用MR/S算法分析了中国股市记忆性, 结果表明在0.05的显著水平下沪深股市的日收益序列均无长记忆性[12]。通过对上证A、B股市的日收益序列进行V/S分析, 何兴强等得出了A、B股市场收益均不存在显著的长期记忆性[13]。郝清民则采用ARFIMA模型和R/S分析方法对股指与个股的收益率序列关系进行了长记忆性研究[14]。
虽然以上很多学者对中国股市的有效性和长记忆性强度进行了多方面的分析, 但他们均是对中国股市的总体有效性进行的研究, 都得出了中国金融市场是一个弱式有效市场的结论[15,16]。但关于中国自证券交易市场成立运行以来, 其20多年的市场发展状态却少有人研究。而对于Hurst指数估计的研究中, Whittle分析方法作为一种更稳定更有效的分析方法亦鲜有人研究。
基于这两点, 本文首先通过蒙特卡罗仿真实验, 通过比较不同估计方法的估计结果说明Whittle分析方法的优越性。基于该方法, 结合移动窗口技术 (rolling widows) , 对中国证券市场的历史发展状态进行研究, 得出中国证券市场的有效性更趋变强, 长记忆效应更趋变弱的结论。
1 估计方法
下面, 本节介绍估计Hurst指数的五种著名方法, 包括R/S法、修正R/S法、V/S法、DFA法、基于极大似然Whittle法。
1.1 R/S分析方法
重标极差 (R/S) 分析方法的思路是: 设si (i=1, 2, …, N+1) 为一时间序列的N+1个连续值, 将取对数并进行一次差分后的N个数据xi (i=1, 2, …, N) 划分为长度为L的相邻的子区间Lm=[x (m-1) L+1, x (m-1) L+2, …, xmL]′, m=1, 2, …, M, 其中M=N/L. 则每个子区间Lm的均值为
则平均重标极差为:
其中, L表示子区间的长度。
Hurst[3]推出的关系为:
其中, c为常数, H为相应的Hust指数。将上式两边取对数得到:
对logL和log (R/S) L进行最小二乘法回归分析便可以计算出H的近似值。
1.2 修正R/S分析方法
为了克服经典R/S分析方法无法分辨短期相关性与长期相关性的缺点, Lo[4]在经典R/S分析的基础上给出了修正的R/S (MR/S) 统计量:
其中σ2m (q) =
其中, int[·]表示取整, ρ为序列的一阶自相关系数, N为样本数。
1.3 V/S方法
用样本序列累积离差的方差代替R/S分析中的极差, Giraitis等提出了V/S统计量[6]:
其中, xi, m表示第m个子区间的第i个的数据,
1.4 DFA方法
DFA是一种在随机过程, 混沌理论和金融时间序列分析测定信号统计自相似性的方法, 是分析金融时间序列长记忆性相关强度指数的有用工具。DFA方法首先由Peng[7]提出, 是Ordinary Fluctuation Analysis方法的扩展。
设st, t∈N为有界的时间序列, 通过求累积和的方式转化为无界过程xt, 即
1.5 Whittle估计法
Whittle估计法作为一种参数估计方法, 比前面提到的常用的几种方法更适合用于统计推断, 而且更高效。Whittle估计值可以通过以下方法得到。设令BHi (i=1, 2, …, N) 为观察到的且Hurst指数为H的分数布朗运动, 并假设θ为参数H的估计值, 同时令X1=Bθ1, X2=Bθ2-Bθ1, …, XN=BθN-BθN-1, 且ρ (k) 表示它们的协方差, 则时间序列的谱密度可以表示为:
进一步令
其中,
同时Beran和Terrin[9]证明了在一定条件下Whittle估计值
其中,
并且采用Whittle估计Hurst指数参数的95%置信区间由下式给出:
2 基于蒙特卡罗仿真模拟的方法比较
因为目前业界对各金融市场现实数据的具体分形维参数还没有一个公认的估计值, 因此本节采用蒙特卡罗仿真模拟对上一节介绍的各种Hurst指数估计方法进行比较分析。对不同的Hurst指数值H和时间序列长度N以及路径数Q, 通过调用Matlab自带的wfbm (H, N) 函数[16,17]产生Q条服从标准分数布朗运动的时间序列, 记为BHq, t (t=1, 2, …, N;q=1, 2, …, Q) 。通过转化得到Q条服从分数高斯过程的时间序列sq, t=BHq, t-BHq, t-1.应用上一节介绍的方法对Q组时间序列sq, t (q=1, 2, …, Q;t=1, 2, …, N) 进行估计, 得到Q个Hurst指数估计值Hq (q=1, 2, …, Q) 。则有
其中, H为真实Hurst指数,
注: Whittle方法是在95%的置信水平下的估计结果。
从表1可以看出, 随着样本量的增大, 各种估计方法的根均方误差趋于零, 表明样本量越大, 对Hurst指数的估计值越精确; 表中数据显示, 各种方法对真实Hust指数值变化的反应各不相同, 从标准差和根均方误差的变化来看, Whittle估计法表现的更加稳定, 而传统的R/S方法以及DFA方法的估计值均随着真实Hurst指数值的变大而变差; 而除了当真实Hurst指数值H=0.8, 样本大小N=350时, Whittle估计法的标准差略小于移动平均Hurst指数估计法外, 其余无论真实Hurst指数和样本的大小取多少, Whittle估计法都较其它方法更稳定更准确; 特别当H=0.55时, Whittle方法和DFA方法都有良好的表现, 但是R/S、MR/S以及移动平均方法均严重高估了Hurst指数值, 而V/S方法则低估了Hurst指数值, 这一仿真结果对本文后面实证研究具有重要的指导作用。
图1是使用蒙特卡罗模拟进行300次试验得到的结果。从图1可以看到, 无论样本大小N取多少, Whittle估计值曲线几乎都与真实值线重合, 表明了Whittle估计法的精确性以及稳定性。R/S分析法在样本容量N=350时, 对真值H<0.75时, 其估计值偏大;对真值H>0.8时, 其估值偏小。而随着样本容量的增加R/S分析法的性能有所提升。DFA方法表现稍好, 但是误差还是比Whittle估计法大, 而且DFA算法计算效率很差, 是这几种算法中耗时最长的。MR/S分析法和移动平均方法与R/S分析相同, 没有质的区别, 也是高估小的真值而低估大的真值。而V/S方法则一直呈现出低估真值的现象。
从这些分析结果可知, 在估计Hust参数值时, Whittle估计法克服了传统R/S、MR/S、V/S和DFA等方法的缺陷, 使得估计值具有了更高的精度和更稳定的估计结果。因此本文使用Whittle估计法对沪深股指进行实证分析应用。
3 实证分析及方法应用
本节将采用经过蒙特卡罗仿真模拟证明的精度和稳定性更好的Whittle方法进行实证分析应用。
3.1 数据选择及统计特性分析
鉴于我国学者多使用沪深两市股指数据进行长记忆性分析, 为了方便比较分析, 本文采用上证指数和深圳成指的日收盘价为研究对象, 时间分别选取1990年12月19日至2011年1月14日和1991年4月3日至2011年1月14日, 上证指数有4904个样本, 深圳成指有4874个样本, 数据来源于聚源数据库。对数收益率yt=logpt-logpt-1, 分别取其绝对值和平方值作为股市波动率的近似值为研究样本, 下面应用Whittle估计法分析上证指数和深圳成指的Hurst指数值。
注: ①***表示在1%的显著性水平下拒绝原假设; ②R1和R2分别表示上证指数和深圳成指的对数收益率序列, |R*|和squarer*分别表示其相应的绝对值和平方值序列。
表3中, 上证指数和深圳成指的收益率序列和波动率序列的峰度和偏度值表明其均有别于正态分布。而从J-B正态性检验的结果来看, 两只指数的J-B统计量均显著地超过了临界值, 概率P值几乎为0。因此, 两序列均表现出尖峰、厚尾、右偏的特征, 均为非正态分布。而ADF统计量的值表明沪深股指序列均为平稳时间序列。
3.2 移动窗口技术和Whittle估计分析
为研究市场的波动率发展状态, 本文采用移动窗口技术结合Whittle估计方法, 对沪深股指的波动率变化进行深入分析。为了得到更具有鲁棒性的实证结果, 选择窗口长度分别为175天和250天, 图2分别是窗口长度为175天的上证指数和深圳成指自上市至2011年1月14日以来对数收益率的Hurst指数估计结果, 从图可以看出随着时间的发展, 沪深市场的Hurst指数估计值呈明显的下降趋势, 但到2011年1月14日止, 该估计值均稳定在0.6左右, 且近年来上证指数的Hurst指数估计值略低于深圳成指的Hurst指数估计值, 表明沪深两市场的记忆性强度有所降低, 但仍具有稍强的记忆性, 且上海证券市场比深圳证券市场的记忆性强度稍低。图3是窗口长度为250天的沪深两市的Hurst指数估值结果, 从图3可以看出, 窗口长度设为250天时沪深两市的Hurst指数估计值的波动性比窗口设为175天时较小, 变化更缓, 但是估计结果并没有质的区别。这结果一方面说明了Whittle估计方法的稳定性, 另一方面预示我们窗口长度应该尽量设长一点, 避免估计结果受季节效应的影响。
从图3可以看出, 从1997年开始, 沪深两市的Hurst指数估计值下降趋势十分明显, 并在以后的时间里趋于平稳, 可以说这是我国金融市场的一个转折点, 这与我国期间颁布的一系列法律法规不无关系, 1997年3月1日股票基金交易也开始实施公开信息制度, 公开信息制度作为证券监管的重要方式一方面是科学投资决策的前提, 另一方面能够更好地保障投资者的利益不受侵犯, 从而更有利于股票市场的健康运行。1998年1月1日《上海证券交易所股票上市规则》正式生效, 对公司股票上市进行了规范化;同年12月29日《中华人民共和国证券法》通过了审议并于1999年7月1日正式实施, 开始正式规范指导中国金融市场的运行。
时间序列收益率的绝对值和平方值都可以看作是该时间序列的波动率的估计, 为了研究沪深两市的波动率的长记忆强度情况, 本文使用上证指数和深圳成指自上市至2011年1月14日以来对数收益率的绝对值和平方值作为样本进行Whittle估计, 结果如图4至图7所示。
从图4至图7可以看出, 沪深市场波动率的长记忆效应比收益率的长记忆效应略显著, 但也有随时间递减的趋势, 而且Hurst估计值也是基本上从1997年左右的时间开始呈现转折下降的特点。
从图2至图7的分析结果来看, 沪深市场近20年来的收益率和波动率的记忆性均呈现出波动变弱的特点, 特别是1997年之后的趋势更明显。由于市场有效性假说的灵魂是价格已经反映了所有可以得到的信息, 即t时期的信息集对t+1时期的收益率是没有影响的, 也即建立在历史信息分析基础上的预测是无效的, 因而也可以认为有效市场是不存在记忆性的, 而且记忆性的强弱可以反过来反映市场有效性的强弱。而从对整个沪深市场的发展过程的分析结果来看, 沪深市场的有效性是更趋变强的, 说明我国金融市场的发展是卓有成效的。
4 结论
本文通过引入Whittle算法, 结合蒙特卡罗仿真实验, 对比了常用的几种Hust指数估计方法, 说明了Whittle算法克服了国内常用的R/S算法、修正R/S算法、V/S算法、DFA等算法的缺陷。与常用的算法相比较, Whittle 算法具有更高的精度和更好的稳定性, 而且以均方根误差和标准差为指标说明了本文方法的优越性, 并进一步说明了Whittle算法对Hurst指数真实值以及样本大小敏感度方面的强壮性。最后使用Whittle算法和移动窗口技术, 并进一步结合市场关键事件的影响对沪深市场的发展状态进行了实证分析。结果表明, 我国证券市场资产收益率以及波动率均存在着长期记忆性, 且深市的长期记忆效应相对更显著, 这意味着上市比深市更有市场效率, 进一步说明了近20年来沪深市场有效性是更趋变强的, 说明我国金融市场正得到逐步的完善, 随着股指期货的推出, 相信不久的将来中国金融市场的有效性将会得到进一步的加强。
时间估计 篇5
关键词:交通控制,行程时间估计,半距离法,高速公路,路段特征
随着高速公路建设的快速发展,交通拥挤与安全等问题也不断出现[1]。提高高速公路服务水平和运行质量,需要准确估计反映交通运行状况的重要表征参数。其中,行程时间是反映道路拥挤程度最为直观的参数,也是实施高速公路交通预测、交通优化控制与诱导的依据[2]。
目前高速公路行程时间估计方法中,主要采用基于固定检测器方法[3],即通过固定检测器采集到的交通参数计算出空间平均速度,进而推算出行程时间。固定检测器法又可分为直接替代法和相关分析法[4]。而直接替代法中,半距离法和线性插值法最具代表[5,6,7]。半距离法是用路段上下游固定检测器采集到地点速度的调和平均值来代替该路段的空间平均速度,进而得出路段的行程时间,但其忽略了路段是否包含出入口匝道,以及匝道处流量变化对地点速度的影响。线性插值法通过对路段均匀分段,并对相邻检测断面采集到的速度进行线性插值来估计路段的空间平均速度,但其同样没有考虑到匝道处流量变化对速度的影响。相关分析法[8,9]是指根据理论或实际数据,分析地点速度和空间平均速度之间的相关关系,进而求出行程时间,但在实际应用中,地点速度检测值的标准差并不容易获得,因此限制了该方法的使用。
考虑直接替代方法简单及逻辑清晰优点,故采用直接替代法进行行程时间估计。而直接替代法中,线性插值法假设速度在空间中为线性变化, 即从路段起点到路段终点速度逐渐变大或逐渐变小,而实际速度是随机变化,将影响线性插值法的估计精度[10,11]。因此,笔者在半距离法的基础上, 考虑匝道处流量变化对地点速度的影响,提出了1种适用于高速公路路段特征的改进方法。该方法考虑了路段是否包含出入口匝道的情况,并根据匝道的物理位置对路段分类,研究不同类型路段下的流量变化及对速度的影响;考虑了速度在相邻路段上的连续性,通过速度的影响范围来表现该特性,与空间线性插值法中假设速度为线性变化相比,更具有优越性;最后对传统半距离法中路段行程时间的取值进行优化,得到更高精度的路段行程时间估计值。
1路段行程时间估计改进方法
1.1问题的提出
1.1.1不同类型路段流量变化及影响范围
不包含匝道和包含匝道的路段区别在于:前者主线路段上流量是“恒定”的,即所有从主线路段进入的流量都会从主线路段流出;而后者由于包含匝道,主线流量是变化的。令q为驶入路段的主线流量,qon为由入口匝道驶入路段的流量, qoff为由出口匝道驶出路段的流量,不同类型高速公路路段从主线驶出的流量表示为:
不包含匝道的路段(见图1(a)),整个路段流量恒定 为q;只包含入 口匝道的 路段 (见图1(b)),路段上流量分为2部分:q和q+qon; 只包含出口匝道的路段(见图1(c)),路段上的流量也分为2部分:q和q-qoff;包含出入口匝道的路段,路段上的流量分为3部分,如果入口匝道在上游(见图1(d)),则该3部分为:q,q+qon和q+ qon-qoff,如果出口匝道在上游(见图1(e)),则该3部分为:q,q-qoff和q+qon-qoff。
由于高速公路交通流参数之间 存在基本 关系,根据格林希尔茨方法[12]中流量和速度的对应关系,流量变化必然会引起速度变化,故不同流量的影响范围也就是不同速度的影响范围。
1.1.2传统方法中存在的问题
根据传统的半距离法,路段i在时段j的行程时间计算公式为
式中:T(i,j)为j时段内路段i的行程时间,s;li为路段i的长度,m;v(i,j)为j时段内位于xi处的检测器所采集的地点速度,m/s;v(i+1,j)为j时段内位于xi+1处的检测器所采集的地点速度,m/s。
根据式(1),v(i,j)和v(i+1,j)所影响路段长度均为li/2,可认为2个地点速度倒数的权值均为li/2,即路段长度的一半。在交通流比较稳定的情况下,对于不包含匝道的路段,采用该计算公式是合理的;而对于包含匝道的路段,采用该公式计算时则存在一定的问题。
以仅包含入口匝道的路段为例(见图2(b)), 路段X1部分的平均速度近似等于xi处检测器所测速度v(i,j),X2部分的平均速度近似等于xi+1处检测器所测速度v(i+1,j),即v(i,j)的影响路段长度为X1,v(i+1,j)的影响路段长度为X2。 如果在j时段内从匝道进入主线的流量较大,将会导致q+qon的值与q有较大的差异,而根据流量与速度的关系,流量的改变明显会对速度产生一定的影响,因此,X1段部分的平均速度会小于X2部分的平均速度,反映到检测的速度数据上就是v(i,j)<v(i+1,j)。当X1= X2时,v(i+1, j)的影响路段长度与v(i,j)的影响路段长度相等,应用式(1)计算路段行程时间是合理的;而当X1≠X2时,v(i+1,j)的影响路段长度与v(i,j) 的影响路段长度不等,这时按照式(1)计算就不合适了。对于其他包含匝道的路段,情况也是如此。
1.2方法的改进
当路段包含匝道时,可能引起路段流量不均衡,此时采用传统方法存在缺陷。改进方法基于高速公路的路段特征,针对路段是否包含出入口匝道对路段分类,得出流量和速度的影响范围,算出路段的空间平均速度,进而得出路段行程时间和权重分配结果。具体改进如下。
对于仅包含入口匝道的路段(见图1(b))和仅包含出口匝道的路段(见图1(c)),路段空间平均速度为
路段行程时间的计算公式为
由此得出,2个地点速度倒数的权值由原来均为li/2分别变为X1和X2,这正是由于2个地点速度所影响路段的长度不同造成的,也验证了此方法与传统方法相比具有先进性。
对于包含出、入口匝道的路段(见图1(d)和图1(e)),路段空间平均速度为
路段行程时间为
此时2个地点速度 倒数的权 值由原来li/2分别变为X1+X3/2和X2+X3/2。X1,X2,X3含义见图1。
式(2)~(5)中:为j时段内路段i空间平均速度,m/s;T(i,j)为j时段内路段i行程时间,s。
改进方法基于高速公路路段特征,研究不同路段下流量变化规律,进而得出流量和速度的影响范围;由于传统半距离法假设相邻检测器上流量和速度的影响范围相同,即无论2个相邻检测器上流量相差多少,其对一定范围内的交通流影响能力均一样,明显不符合实际情况,而改进方法根据不同类型路段对应的速度影响范围,通过路段空间平均速度间接算出路段行程时间,并得出地点速度倒数的权值变化情况,提出了针对不同路段特征的行程时间估计改进方法。
2性能评价
2.1评价指标
为验证改进方法的能,需要制定相应性能评价指标。用于行程时间估计的性能评价指标包括绝对误差 (absolute error,AE)、平均绝对 误差 (mean absolute error,MAE)和平均误差百分比 (mean absolute percentage error,MAPE)和均方差误差 (root mean square error,RMSE)。设路段行程时间真实值时间序列为Tr(i,j),路段行程时间估计值时间序列为Tp(i,j),则各指标计算公式为
式中:Tr(i,j)为路段i在j时段统计所得行程时间真实值;Tp(i,j)为采用行程时间估计方法计算所得路段i在j时段的行程时间估计值。
2.2实例分析
以南京机场高 速公路路 段为例。5个路段中,路段2~3和3~4为不包含匝道的路段,路段1~2,4~5和5~6为既包含入口匝道又包含出口匝道路段。见图3。各路段长度为:路段1~2: l1=1 240.8m,X1=520m,X2=200.8m,X3= 520m;路段4~5:l4=3 763.7m,X1=528.4m, X2=200m,X3=3 135.3 m;路段5~6:l5= 3 497.7m,X1=2 826.7m,X2=200m,X3= 470m。
根据图2和式(5),路段1~2,4~5和5~6在j时段的行程时间估计公式分别为
式中:速度单位为m/s,行程时间单位为s。根据式(10),由于路段1~2上X1=X2,计算公式与传统的半距离法相同,为此选择路段4~5和路段5~6作为评价对象。
采用Vissim进行数字仿 真,获取2012年9月5日01:00~23:00时以每10 min为间隔的 路段行程时间数据和各检测器采集到的地点速度数据,分别为132组。选取传统 的半距离 法和空间线性插 值法作为 比较方法,采用半距 离法时路段行程时间的计算公式如式(1);采用空间线性插值法,取n=3,所得路段行程时间计算公式为
根据式(6)~(9),3种路段行程时间估计方法的误差对比见表1。
由表1可见,采用空间线性插值法得到的路段行程时间估计精度与半距离法相差不大;改进方法估计精度普遍高于其他2种方法,但是精度提高幅度不大,以路段5~6为例,用MAPE指标量化预测的准确性,计算可得,改进方法相对于半距离法的精度提高百分比为:(8.63%~8.31%)/ 8.63%≈3.71%;相对于空间线性插值法的精度提高百分 比为:(8.71% ~ 8.31%)/8.71% ≈ 4.59%;检测器5和6采集的流量数据见图3,正是由于路段中驶入驶出匝道的流量比较均衡,导致X1和X2上的流量基本一致,使得3种估计方法的精度相差不大。
检测器5和6处速度对比见图4。
由图4可见,检测器5和6处的地点速度没有明显差别,为了进一步验证改进方法的有效性, 将路段5~6上驶出匝道的分流率设为50%,重新进行计算,得到检测器5和检测器6处采集到的流量和速度数据对比见图5和图6。
分流率变大后,X1上的流量(如图6检测器5流量)明显大于X2上的流量(如图5检测器6数据),速度也有了较明显差异(见图6),3种估计方法的误差对比见表2。
由图5和图6,并对比表2可见,当路段上X1和X2部分的流量和速度相差较大时,改进方法的效果就会比较明显,相对传统方法精度提高的幅度较大,同样用MAPE指标量化预测的准确性计算得:改进方法相对于半距离法的精度提高百分比为(10.51%~8.80%)/10.51%≈16.27%; 相对于空 间线性插 值法的精 度提高百 分比为 (10.64%~8.80%)/10.64%≈17.29%。
3结论与展望
根据高速公路路段匝道物理位置,对传统方法中路段两端地点速度倒数权值进行调整,推导了包含匝道的路段行程时间估计改进方法:
1)当包含匝道的路段流量比较均衡时,改进方法较传统方法计算精度提高幅度不大,其相对于半距离法的精度提高3.71%;相对于空间线性插值法的精度提高4.59%。
2)当包含匝道的路段流量不均衡时,其较传统方法计算精度提高幅度较大,相对于半距离法的精度提高16.27%;相对于空间线性插值法的精度提高17.29%,且路段上流量变化越明显,改进效果越好。
3)本文行程时间估计是基于速度进行的,没有考虑其他交通参数的影响,需增加其他交通参数与行程时间的关系,以提高精度。
4)性能评价使用Vissim仿真得到的数据, 且考虑道路交通状况较简单,与真实路网存在一定差异,需尽可能采用真实路网数据,以提高方法的适用性和鲁棒性。
参考文献
[1]邓毅萍.高速公路路段运行状况评价与分析研究[D]:南京:东南大学,2005.DENG Yiping.Evaluation and analysis study on operation status of freeway section[D].Nanjing:Southeast University,2005.(in Chinese)
[2]孙小菲,陈旭梅,刘文峰.高速公路行程时间可靠性评价体系及指标阈值标定[J].交通信息与安全,2014,32(1):58-63.SUN Xiaofei,CHEN Xumei,LIU Wenfeng.Development of an evaluation system of the reliability of travel time of freeways and the thresholds of corresponding indicators[J].Journal of Transport Information and Safety,2014,32(1):58-63.(in Chinese)
[3]杨兆升,于悦,杨薇.基于固定型检测器和浮动车的路段行程时间获取技术[J].吉林大学学报,2009,39(9):168-171.YANG Zhaosheng,YU Yue,YANG Wei.Acquisition of travel time based on inductive coil detector and probe vehicle[J].Journal of Jilin University,2009,39(9):168-171.(in Chinese)
[4]李继伟.城市主次干路的路段行程时间估计与预测方法研究[D].长春:吉林大学,2012.LI Jiwei.Estimation and prediction of link travel time for urban trunk and secondary streets[D].Changchun:Jilin University,2012.(in Chinese)
[5]张安泰,柴干,丁闪闪.基于行程-时间域的路段行程时间预测[J].交通信息与安全,2013,31(2):59-63.ZHANG Antai,CHAI Gan,DING Shanshan.A link travel time prediction algorithm based on travel-time field traversing[J].Journal of Transport Information and Safety,2013,31(2):59-63.(in Chinese)
[6]江周,张存保,许志达.基于多源数据的城市道路网络行程时间预测模型[J].交通信息与安全,2014,32(3):27-31.JIANG Zhou,ZHANG Cunbao,XU Zhida.Development of a travel time prediction model for urban road network using multi-source data[J].Journal of Transport Information and Safety,2014,32(3):27-31.(in Chinese)
[7]聂庆惠,夏井新,张韦华.基于多源ITS数据的行程时间预测体系框架及核心技术[J].东南大学学报:自然科学版,2011,41(1):199-204.NIE Qinghui,XIA Jingxin,ZHANG Weihua.Framework and key technologies for travel time prediction based on multiple ITS Data Sources[J].Journal of Southeast University:Natural Science Edition,2011,41(1):199-204.(in Chinese)
[8]STEVEN I J Chien,Chandra Mouly Kuchipudi.Dynamic travel time prediction with real-time and historical data[C].Transportation Research Board,the81 Annual Meeting.Washington,D.C.:TRB,2002.
[9]CHANDRAhandra Mouly Kuchipudi,STEVEN I J Chien.Development of a hybrid model for dynamic travel time prediction[C].Transportation Research Board the 82th Annual Meeting Preprint CD-ROM,January 12-16,Washington,D.C.:National Research Council,2003.
[10]NANTHAWICHIT C,NAKATSUJI T,SUZUKI H.Application of probe vehicle data for realtime traffic state estimation and short-term travel time prediction on a freeway[C].Transportation Research Board the 82th Annual Meeting Preprint CD-ROM,Washington,D.C.:National Research Council,January,2003.
[11]CHU Lianyu,OH Jun-seok,RECKER Will.Adaptive kalman filter based freeway travel time estimation[C].Transportation Research Board the84th Annual Meeting,Preprint CD-ROM,Washington D.C.:National Research Council,January2005.