特征量跟踪算法(通用7篇)
特征量跟踪算法 篇1
0 引言
近年来,光伏发电迅速发展,已成为中国能源结构中不可或缺的一部分。在光伏发电发展的过程中,如何提高光伏发电的效率一直是研究热点之一。最大功率点跟踪(MPPT)是提高光伏发电效率最常用的措施之一[1]。常用的单峰MPPT方法,如扰动观察法和电导增量法等[2,3,4,5],是建立在光伏阵列中每个光伏组件的光照和温度等运行条件相同的条件下的,此时光伏阵列的P-U曲线是单峰的。在局部阴影时,光伏阵列中各光伏组件所受光照强度是不同的,此时光伏阵列的P-U曲线会呈现多峰特性[6,7,8],导致单峰MPPT方法可能会陷入局部功率极值点,引起光伏发电效率下降。
为实现光伏多峰MPPT,文献[9]提出了一种可以实现全局扫描的改进扰动观察法,但该方法存在稳态功率振荡的问题[10];文献[11]提出了大步长扫描和小步长跟踪相结合的方法,文献[12]提出了一种滑模变结构控制和扰动观察法相结合的方法,但这两种方法都有可能在扫描中漏掉最大功率点;文献[13]提出了一种模糊免疫自适应比例—积分—微分(PID)控制方法,但该方法需要大量的光伏阵列数据信息,实用性较差;文献[14]提出了基于蒙特卡洛的光伏多峰MPPT方法,但其实现过程较为复杂,可能会增大硬件成本。
粒子群优化(particle swarm optimization,PSO)算法是求解多峰函数全局优化问题最有效的算法之一,具有易于实现和通用性好等优点,许多文献[10,15,16,17,18,19,20]都提出了基于PSO算法的光伏多峰MPPT方法。然而,PSO算法也存在其不足之处,导致这些方法都存在收敛速度较慢乃至不收敛的问题。针对PSO算法的不足,文献[21,22]提出了收敛速度更快且具有全局收敛性的量子粒子群优化(quantum-behaved particle swarm optimization,QPSO)算法。文献[23,24]开展了基于QPSO算法的光伏多峰MPPT方法的研究,但都是仅将QPSO算法直接应用于光伏多峰MPPT,本文称之为“基于QPSO算法的常规方法”,并未根据光伏多峰MPPT的特点对算法进行改进,算法的性能仍有提升的空间。
本文提出了一种基于QPSO算法的光伏多峰MPPT改进方法,或简称为“基于QPSO算法的改进方法”。该方法采用QPSO算法进行最大功率点的全局搜索,采用单峰MPPT方法对最大功率点进行局部跟踪。同时,根据光伏阵列在局部阴影时的P-U曲线上功率极值点的分布特点,提出了以光伏阵列开路电压和串联光伏组件数为依据的粒子初始化过程,以提高算法的收敛速度,减小收敛于局部功率极值点的可能;根据QPSO算法收敛时粒子自身最优位置非常集中的特点,用粒子自身最优电压取代粒子电压作为QPSO算法的收敛判据,以减少达到收敛所需的迭代次数。仿真测试结果表明,本文提出的基于QPSO算法的改进方法能够快速有效地搜索到最大功率点,与基于QPSO算法的常规方法相比收敛速度更快,避免了不收敛的问题,且具有应对光照情况变化的能力,提高了局部阴影时光伏发电的效率。
1 局部阴影时光伏阵列的输出特性
光伏阵列是由太阳能光伏组件经过若干次串联和并联后的物理组合,其结构如附录A图A1所示。本文称如附录A图A1所示结构的光伏阵列为m×n的光伏阵列。每个光伏组件都并联一个旁路二极管,以避免光伏组件承受反向电压;每条串联支路都串联一个隔离二极管,以避免光伏组件中流过逆向电流。
利用Simulink软件中的PV array元件,以一个4×2的光伏阵列为例,通过改变光伏组件所受的光照强度来模拟光伏阵列发生局部阴影的情况,仿真获取该光伏阵列及其两个光伏组件子串在局部阴影时的P-U曲线,如图1所示。仿真采用SunPower公司生产的型号为SPR-215-WHT-U的光伏组件,其在标准测试条件(运行温度为25℃,光照强度为1 000 W/m2)下的测试参数如下:开路电压Uoc为48.3V;短路电流Isc为5.8A;最大功率点电压Umpp为39.8V;最大功率点电流Impp为5.4A。
根据文献[6]的研究,在由m个光伏组件串联组成的子串的P-U曲线上,功率极值点个数最多为m个。若各光伏组件的最大功率点电压均为Umpp,则这些功率极值点可能出现的电压值近似分布于:
而光伏阵列的P-U曲线可以由各光伏组件子串的P-U曲线的电压值不变、输出功率值相加获得,这是因为光伏阵列中各光伏组件子串的输出电压是相等的,且光伏阵列的输出功率为各光伏组件子串的输出功率之和。因此,一个m×n的光伏阵列的P-U曲线上的功率极值点也满足式(1)。图1所示的仿真结果也满足该结论。
图1所示的光伏阵列P-U曲线具有明显的多峰特性,此时常规的MPPT方法可能会陷入局部功率极值点(图1中P1,P2,P3和P5),使光伏阵列不能输出最大功率,导致光伏阵列输出效率降低。此时应寻找一种全局优化算法,并以该算法为基础设计光伏多峰MPPT方法,以实现在局部阴影时光伏阵列的最大功率输出。
2 QPSO算法
2.1 PSO算法
PSO算法是一种可以实现多极值函数全局优化的元启发式方法。群体中的粒子通过合作和竞争,并共享或交换它们在各自搜索历程中获得的信息,来搜索函数的全局最优点。在每次搜索中,粒子按照一定的速度在搜索空间中移动,粒子的移动速度取决于两个因素:(1)粒子在之前的搜索历程中搜索到的自身最优位置;(2)群体中所有粒子在之前的搜索历程中搜索到的群体最优位置。PSO算法的迭代表达式为:
式中:上标k为迭代次数;vi(k)和si(k)分别为第i个粒子在第k次迭代中的速度和位置;w为惯性系数;c1和c2分别为反映“自身经验”和“群体经验”的学习因子;r1(k)和r2(k)为服从(0,1)上均匀分布的随机数;p(k)best.i为第i个粒子搜索历程中的自身最优位置;g(k)best为全部粒子搜索历程中的群体最优位置;vmax为粒子速度上限。
假定优化目标为寻找最大值,则p(k)best.i和g(k)best的更新方式为:
式中:f(·)为目标函数;N为群体中的粒子总数。
PSO算法主要存在以下不足。
1)当迭代次数趋于无穷大时,算法不能以概率1收敛于全局最优点[25,26],即不具有全局收敛性。
2)单个粒子的速度存在上限,其搜索空间是有限的[27],不能覆盖整个可行域,限制了算法的全局搜索能力。
2.2 QPSO算法
针对PSO算法的不足,在PSO算法的基础上,文献[21,22]从量子力学的角度提出了QPSO算法,认为群体中的每个粒子都具有δ势阱中量子的行为,使粒子具有了不确定的搜索轨迹,可以在整个可行域内进行搜索,且算法具有全局收敛性[27,28]。
QPSO算法有两种形式[28],本文选择第2种形式(QPSO-Type 2)作为粒子进化模型。QPSO算法的迭代表达式为:
式中:α(k)为压缩—扩张因子,可用于调整“自身经验”和“群体经验”对下一次迭代中粒子位置的影响的大小,要保证QPSO算法的全局收敛性,必须满足α(k)<1.781;φ(k)和β(k)均为服从(0,1)上均匀分布的随机数,α(k)前的符号由β(k)确定,当β(k)≤0.5时,α(k)前的符号为加号,反之则为减号;C(k)为群体中所有粒子搜索历程中的自身最优位置的平均值,即
QPSO算法中的p(k)best.i和g(k)best的更新方式与PSO算法相同。
除群体中的粒子总数N和最大迭代次数kmax外,QPSO算法仅有一个参数,即压缩—扩张因子α。文献[27]通过大量实验,验证了α线性减小和非线性减小是两种较好的取值策略,且采用这两种取值策略的QPSO算法性能没有明显的差异。为尽可能简化算法,本文选择α线性减小的取值策略,即
式中:α1和α2分别为α的初始值和终止值,且满足α1>α2。
α的线性减小范围为1→0.5和0.8→0.6,能够对绝大多数多峰函数取得较好的优化性能。本文选择1→0.5作为α的线性减小范围,将α1=1和α2=0.5代入式(7),得到:
3 QPSO算法在光伏多峰MPPT中的应用
QPSO算法隐含着并行计算的思想,即在一次迭代中所有粒子的位置是同步更新的。然而,在光伏多峰MPPT中,目标函数是光伏阵列的输出功率,而要获得某个粒子电压对应的输出功率,需要令光伏阵列运行于该粒子电压一段时间,使其能从暂态过程过渡到稳态过程。因此,在光伏多峰MPPT中,所有粒子电压都更新一次对应QPSO算法的一次迭代。为方便描述,本文将某个粒子电压更新一次称为一次迭代,并将群体中所有粒子电压更新一次称为一轮迭代。令
式中:mod为取余运算。此时可将QPSO算法的迭代表达式(5)改写为:
式中:ui(k)为第k次迭代中第i个粒子的电压;Umax和Umin分别为粒子电压的上限和下限。
3.1 压缩—扩张因子α的初始值和终止值
在文献[27]的仿真实验中,QPSO算法的一次迭代对应本文方法中的一轮迭代。因此,在光伏多峰MPPT中,同一轮迭代中α的值应保持不变,将式(8)改写为:
式中:表示向下取整。
若迭代次数达到kmax时仍然没有满足收敛判据,则应重启QPSO算法。显然,最大迭代次数kmax应是m的倍数。
3.2 QPSO算法的收敛判据
为避免或减小迭代导致的稳态功率波动,需要在QPSO算法收敛后停止更新粒子电压,并转入局部跟踪运行模式。QPSO算法的收敛判据通常是粒子“聚集”于某个位置周围很小的范围内,对于光伏多峰MPPT即要满足
式中:ε为很小的正数,本文取ε=0.5%Uoc,其中Uoc为光伏阵列的开路电压。
3.3 局部跟踪运行模式
在QPSO算法满足收敛判据后,光伏多峰MPPT会转成局部跟踪运行模式,以避免或减小输出功率波动。此时可以采用恒定电压法,令MPPT的参考电压保持在QPSO算法搜索到的群体最优位置处,以避免MPPT带来的功率波动;也可以采用扰动观察法或电导增量法等常规MPPT方法,以群体最优位置为起点跟踪最大功率点,在减小功率波动的同时还能够应对光伏发电稳态运行时光照情况的渐变。本文采用恒定电压法作为局部跟踪运行模式进行方法测试。
3.4 重启条件
由于在实际运行中光伏阵列的运行条件经常会发生改变,当这种改变足够大时就需要重启QPSO算法,以搜索新的最大功率点。考虑到局部跟踪模式采用恒定电压法,基于QPSO算法的常规方法采用的重启条件为:
式中:Pmpp为QPSO算法搜索到的最大功率点功率;p为光伏阵列在稳态运行模式下的实时输出功率。
综上所述,基于QPSO算法的常规方法流程如图2所示。
4 方法改进
4.1 初始化过程的改进
基于QPSO算法的常规方法没有给予QPSO算法的群体粒子总数以足够的重视[23,24]。事实上,群体粒子总数是QPSO算法的重要参数之一。粒子总数增多,QPSO算法的误差会减小,但其达到收敛所需的迭代次数会增多;反之,则误差会增大而达到收敛所需迭代次数会减少。
对于QPSO算法来说,可能出现的极值点越多,变量的维度越高,群体中的粒子总数应该越多。具体到光伏多峰MPPT而言,控制变量仅有电压一个维度;另外,根据第1节的分析,光伏阵列P-U曲线上可能出现的功率极值点总是分布于满足式(1)的电压值附近,而这样的电压值的数量等于子串中串联的光伏组件数;而且,距离很近的极值点对于QPSO算法的影响非常小。因此,对于m×n的光伏阵列,改进方法选择串联的光伏组件数m作为粒子总数。
由于光伏组件的最大功率点电压通常位于光伏阵列开路电压的80%附近[16,29],因此取这m个粒子的初始电压为:
由式(15)获得的粒子初始电压可能会超出电压上下限,可以将这样的粒子从群体中删除。
在持续运行光伏发电系统中,光伏阵列的开路电压不是一个容易获取的量。由于光伏组件的开路电压受温度的影响较大而受光照强度影响较小[2,30],而组成同一个光伏阵列的光伏组件的温度一般相差不大。因此,在持续运行中,只需测量光伏阵列温度,并利用事先测量好的光伏组件开路电压随温度变化的曲线获得组件开路电压,再将该电压乘上串联光伏组件数,就可以获得近似的光伏阵列开路电压。
4.2 QPSO算法收敛判据的改进
在QPSO算法中,在每次迭代中粒子可能出现的位置均为整个可行域,因此有可能出现极个别粒子距离其他粒子很远的情况。而在光伏多峰MPPT中,每次迭代只能更新一个粒子的电压,此时要使算法收敛,其他粒子的电压至少要再更新一次,这样就降低了QPSO算法的收敛速度。
以图3中第k+1次迭代的情况为例,假定群体的粒子总数为3,本次迭代要更新粒子1的电压,更新后粒子1的电压从u1(k)变为u1(k+1),由于粒子电压u1(k+1)优于其自身最优电压p(k)best.1,故第k+1次迭代粒子1的自身最优电压p(k+1)best.1等于u1(k+1)。此时QPSO算法要达到收敛,即使是最快的情况下也至少要经过两次迭代。
因此,改进方法用粒子的自身最优电压取代粒子电压作为方法收敛判据以加快算法收敛。仍以图3的情况为例,在经过第k+1次迭代后,粒子自身最优电压已非常集中,此时粒子自身最优电压的平均值C(k)与各粒子自身最优电压近似相等,而群体最优电压必然等于某个粒子的自身最优电压。因此,根据式(5),另外两个粒子的电压必然会向群体最优电压迅速靠近。此时若采用粒子自身最优电压作为收敛判据,则可在第k+1次迭代后判定QPSO算法收敛,节省了至少两次迭代,而最终结果与以式(13)为收敛判据的QPSO算法的结果基本相同。可见,粒子总数越多,采用粒子自身最优电压取代粒子电压作为算法收敛判据节省的迭代次数越多。因此,改进方法采用的QPSO算法收敛判据为:
5 仿真与分析
5.1 光伏发电系统仿真模型
为实现光伏阵列最大功率输出,通常需要组成光伏发电系统。一种常用的光伏发电系统结构如附录A图A2所示。
在光伏发电系统正常运行时,可以认为直流母线上的电压恒定,此时只需改变DC/DC环节的变比即可改变光伏阵列的输出电压,再配合MPPT控制就能实现光伏阵列最大功率输出。因此,对于光伏阵列而言,光伏发电系统的其他部分可以等效为一个受控电压源,故本文采用的仿真模型如附录A图A3所示。图A3中的虚线表示测量信号和控制信号的流向。
5.2 静态仿真测试与分析
在Simulink中搭建如附录A图A3所示的仿真模型,采用型号为SPR-215-WHT-U的光伏组件组成20×100的光伏阵列,获得某种光照情况下光伏阵列P-U曲线如附录A图A4所示。此时光伏阵列的开路电压为945.30 V,最大功率点电压为602.10V,最大功率为147.64kW。MPPT控制采用本文提出的基于QPSO算法的改进方法,采样周期为1ms。
同时,为验证本文提出的改进方法的优越性,方法1采用文献[16]提出的基于PSO算法的光伏多峰MPPT方法,其初始化过程和收敛判据与本文方法相同;方法2采用文献[24]提出的基于QPSO算法的常规方法;方法3在文献[24]方法的基础上将初始化过程改为与本文方法相同;方法4在文献[20]方法的基础上将收敛判据改为与本文方法相同。基于QPSO算法的方法的最大迭代次数均取1 000,粒子电压范围为[300,900]V。
仿真测试中发现,方法1始终无法达到收敛。令方法1单独运行1次,获得的MPPT参考电压波形如图4所示。由图4可以看出,在对方法1的仿真测试中,组成粒子群的12个粒子中有4个陷入了局部功率极值点,由于PSO算法有最大粒子速度的限制,导致这4个粒子无法跳出局部功率极值点,PSO算法不能收敛。
基于QPSO算法的4种方法的迭代表达式中都含有随机数,它们的搜索轨迹都是不确定的。因此,令这4种方法各运行50次,仿真结果如表1所示。表1中,t1和t2分别为MPPT控制满足QPSO算法收敛判据时所用时间的平均值和中位数;Vmax和Vmin为这4种方法满足收敛判据时群体最优电压中的最大值和最小值;σ1和σ2为相对误差,σ1=(Vmax-Umpp)/Umpp×100%,σ2=(Vmin-Umpp)/Umpp×100%。
通过仿真测试结果,可以得出如下结论。
1)基于QPSO算法的方法在静态测试中的相对误差对于MPPT都是可以接受的,都能有效地实现光伏多峰MPPT。
2)本文方法较方法2、方法3和方法4分别节省了31.58%,9.69%和15.76%的平均时间。可见,相比基于QPSO的光伏多峰MPPT常规方法,本文提出的改进方法更有利于发挥QPSO算法搜索速度快的优势。
3)对比本文方法与方法4的仿真测试结果,以及方法2与方法3的仿真测试结果,可以看出,改进的初始化过程能够有效减少算法收敛所需的迭代次数。
4)对比本文方法与方法3的仿真结果,以及方法2与方法4的仿真结果,可以看出,改进的收敛判据能够减少算法收敛所需的迭代次数,且结果的相对误差相差很小。
5.3 动态仿真测试与分析
为测试本文方法应对光照逐渐增强的情况的能力,令光伏阵列中某些组件的光照强度在0.2~0.7s之间随时间逐渐增强。0.2s之前的最大功率点电压为606.50V,最大功率为148.78kW;0.7s之后的最大功率点电压为853.36 V,最大功率为171.86kW。光伏阵列输出功率关于电压和时间的函数P(U,t)曲面如附录A图A5所示。
利用本文提出的改进方法进行MPPT控制,获得的参考电压波形如图5所示。
从图5中可以看出,虽然光照情况从0.2s开始变化,QPSO算法仍在0.386s时收敛于602.40V。此后,光照情况继续变化,直到于0.478s时达到改进方法的重启条件,方法重启,并于光照情况停止变化后的0.712s收敛于新的最大功率点。可见,对于光照总体增强的情况,本文提出的改进方法能够有效实现光伏多峰MPPT控制。
为进一步测试本文方法应对光照强度逐渐减弱的情况的能力,将附录A图A5中光照情况的初始状态作为结束状态,结束状态作为初始状态,再次利用本文方法进行MPPT控制,获得的参考电压波形如图6所示。
从图6中可以看出,在光照强度总体减弱的情况下,本文方法在达到最大迭代次数之前未能实现收敛,方法重启,并于1.386s时收敛。这是因为在光照强度总体逐渐减弱的情况下,群体最优电压和粒子自身最优电压在上一轮迭代中对应的功率总是大于其在本次迭代中对应的功率,导致群体最优电压和粒子自身最优电压无法正确更新,算法难以实现收敛,只能在光照情况停止变化后重启算法实现收敛。而在光照强度总体逐渐增强的情况下,虽然群体最优电压和粒子自身最优电压在上一轮迭代中对应的功率总是小于其在本次迭代中对应的功率,但并不影响群体最优电压和粒子自身最优电压的正确更新,群体最优电压始终跟踪全局最大功率点电压,并在光照情况不再变化时实现收敛。
通过对两次动态仿真测试结果的对比可以看出,本文提出的改进方法具有应对光照情况变化的能力,且应对光照强度总体增强的能力要好于应对光照强度总体减弱的能力。
6 结论
本文首先分析了PSO算法作为全局优化算法存在的不足,并以比PSO算法收敛速度更快且具有全局收敛性的QPSO算法为基础,结合光伏MPPT的特点,提出了一种新的适用于光伏多峰MPPT的方法。通过仿真测试与分析,本文结论如下。
1)本文提出的基于QPSO算法的光伏多峰MPPT改进方法能够在光伏阵列局部阴影时搜索到全局最大功率点。
2)与基于PSO算法的光伏多峰MPPT方法相比,本文提出的改进方法避免了不收敛的问题,能够提高光伏发电的效率。
3)与基于QPSO算法的常规方法相比,本文提出的改进方法搜索全局最大功率点的速度更快,本文对方法的改进是合理且有效的。
4)本文提出的改进方法具有应对光照情况变化的能力,且应对光照强度总体增强的能力要好于应对光照强度总体减弱的能力。
附录见本刊网络版(http://www.aeps-info.com/aeps/ch/index.aspx)。
摘要:光伏阵列在局部阴影时的P-U曲线呈现多峰特性,需要设计光伏多峰最大功率点跟踪方法,以实现光伏发电最大功率输出,提高光伏发电效率。相比粒子群优化算法,量子粒子群优化算法具有收敛速度更快和全局收敛性等优势。提出了一种基于量子粒子群优化算法的光伏多峰最大功率点跟踪改进方法。该方法采用量子粒子群优化算法实现最大功率点的全局搜索;根据光伏阵列在局部阴影时P-U曲线上功率极值点的分布特点初始化种群中的粒子总数及其电压;并根据量子粒子群优化算法收敛时粒子自身最优位置的特点,提出了更适合光伏多峰最大功率点跟踪的收敛判据。仿真测试表明,提出的改进方法能够快速有效地实现光伏多峰最大功率点跟踪,收敛速度更快,避免了不收敛的问题,且具有应对光照情况变化的能力,提高了局部阴影时光伏发电的效率。
关键词:光伏发电,最大功率点跟踪,粒子群优化算法,量子粒子群优化算法
特征量跟踪算法 篇2
在计算机视觉领域,目标跟踪一直是其中的重要研究课题之一。目标跟踪是各种高层视频图像处理的基础,如目标分析、三维重建、视频图像压缩编码、行为识别等[1]。现有的目标跟踪的主要方法包括:基于区域的跟踪、基于特征的跟踪、基于轮廓线的跟踪、基于模型的跟踪、基于运动场估计的跟踪以及混合方式的跟踪等方法[2]。
卡尔曼滤波是基于线性、高斯假设的,这对于目标跟踪要求太过严格。现实中的系统往往是非线性的,这使得卡尔曼滤波的适用范围受到严格的限制。近年来,粒子滤波(PF)[3,4]算法被认为是目前解决非线性、非高斯模型最成功的方法。粒子滤波算法是一种基于蒙特卡洛(MC)技术来求解贝叶斯概率的使用算法,它的基本思想是通过重要性函数产生带权值的样本(粒子)来逼近系统状态的真实后验概率分布。在本文中提出了融合[5]颜色特征[6]和运动边缘特征[7]的粒子滤波算法进行目标跟踪。使用颜色特征信息来实现目标跟踪快捷且容易实现,但在跟踪过程中由于目标所处的位置、光照等易发生变化,这会影响跟踪效果。另一方面,运动边缘特征信息可以很好地适应各种光照、背景变化的情况。两种特征融合可以弥补双方的不足,同时也能提高目标跟踪算法的有效性。这些效果在实验结果分析中都能得到很好的说明。
1粒子滤波基本原理
1993年由Gordon和Salmond[8]提出了一种新的基于序贯蒙特卡洛(SIS)方法的Bootstrap非线性滤波方法奠定了粒子滤波的算法基础。所谓粒子滤波就是指通过寻找一组在状态空间中传播的随机样本(粒子){x
p(xt|z1:t-1)=∫p(xt|xt-1)p(xt-1|z1:t-1)dxt-1 (1)
其中,p(xt|xt-1)由目标状态转移模型定义;p(zt|xt)由观测模型定义;p(xt-1|z1:t-1)为t-1时刻的后验概率密度;p(zt|z1:t-1)为归一化常数,即p(zt|z1:t-1)=∫p(zt|xt)p(xt|z1:t-1)dxt。t时刻的后验概率密度p(xt|z1:t)是滤波问题的最终解。
但是在上述的计算过程中,需要通过计算积分来求解概率密度的分布,而一般的目标跟踪问题都是高维的、非线性、非高斯的问题,所以求解这类问题非常困难。因此,粒子滤波中采用了序贯蒙特卡洛方法来解决积分计算复杂的问题。它从一个被称为重要性概率密度的建议分布q(x1:t|z1:k)中进行采样从而得到状态集或者粒子集{x
式(3)中,
在取得提议函数的最优时的权值更新如下:
当N→∞时估计式(3)的值无限趋近于p(xt|z1:t)的真实值,进而得到t时刻目标状态的估计值。
2特征融合与目标跟踪
2.1目标颜色特征
颜色特征能简单地描述一幅图像中颜色的全局分布,有效地提高目标跟踪的鲁棒性。由于选定的目标跟踪区域一般为矩形,其中距离目标跟踪区域边界处必然包含了很多非可靠的像素信息。本文中采用基于RGB颜色空间模型的核加权颜色直方图对目标进行建模。其中,核函数的基本思想是:通过核函数根据像素点距离目标中心的距离远近对它们赋予不同的权值。给距离目标中心点比较远的部分像素点赋予比较小的权值,从而来减弱跟踪目标模块边界及遮挡等问题的干扰。本文高斯核函数,其定义如下:
式(6)中r表示像素点与目标中心之间的距离,参数σ控制核函数的作用半径,实验中σ=1。
对于选定的目标区域内的各像素点{xi, i=1,…,M},其中M为目标区域内像素点的总数。设m为量化阶数,且定义颜色量化函数b(xi):R2→{1, 2,…, m,m=32},则第i个像素点颜色粒子所对应区域的核加权颜色特征直方图p(x)={pu(x)}u=1,2,…,m可定义为[9]:
式(7)中A为归一化因子,用来保证
对于候选区域所对应的核加权颜色直方图也可采用上述同样的计算方法,记为q(x)={qu(x)}u=1,2,…,m。Bhattacharyya系数是建立两概率分布相似性度量的有效工具。则对于目标区域p(x)={pu(x)}u=1,2,…,m与候选区域q(x)={qu(x)}u=1,2,…,m两个核加权颜色直方图,它们之间相似性可用Bhattacharyya系数来衡量,可定义为:
式(9)中ρ值越大代表目标区域与候选区域之间的相似性越高,当ρ=1时,即两个区域直方图完全相似。由此得出基于颜色特征的观测值的概率密度函数为:
实验中σ=0.25。
2.2目标运动边缘特征
为了适应目标光照变化及背景中相似颜色的干扰等,仅仅使用颜色特征达不到理想的跟踪效果,因此本文中引入了运动边缘特征。它利用相邻两帧图像之间的目标区域运动特征,生成差分图像进行梯度求解得到运动边缘图像信息,从而在复杂背景下使目标跟踪达到更好地效果。
假设视频中两帧连续的图像分别记为Rt和Rt+1,对两帧图像进行差分处理可得到差分图像Dt为:
对差分图像Dt进行梯度求解,则可得到该时刻t的图像运动边缘信息Et,即:
式(12)中,
式(3)中,θ的取值范围为0~2π。对方向角θ进行量化,分成n等份
当某一候选区域Qt值越接近于1时,说明候选区域与目标区域的相似度更高。利用Qt值得出基于运动边缘特征的观测值的概率密度函数为:
式(15)中
2.3目标特征融合与跟踪实现
本文结合颜色特征和运动边缘特征的优点,通过将两种特征融合从而达到更好地跟踪效果,即得到一个关于多个观测值的融合概率密度函数。这里假设颜色特征和运动边缘特征两个观测过程是相互独立的,则定义融合后的概率密度函数为:
p(zt|x
w2pmotion(zt|x
式(16)中w1,w2分别为自适应的归一化权值,即
基于多特征融合的改进粒子滤波目标跟踪算法具体步骤见如表1的算法。
3实验结果分析
实验平台为P4 2.66 G的CPU,内存1.5 G的PC机上使用Matlab R2007a仿真实现。为了验证本文算法的有效性,分别对两组视频进行测试。两段视频中待跟踪目标区域都需在视频图像序列第一帧中手动标定。
视频一是对直升机降落的视频中的直升机进行跟踪,视频图像大小为320×240,视频总帧数为860帧,采样粒子数为500。视频中直升机背景逐渐有蓝色的天空转变为绿色的树丛,并且直升机的颜色与树丛颜色比较近似。基于本文算法跟踪的结果如图1所示。具体的误差数据分析见图2,实线为本文所提算法的实现数据,虚线为基于自适应颜色特征的粒子滤波算法[10]所实现的数据。本文中将误差数据分为x方向和y方向,其中目标真实位置在x,y方向的值为手动标定。在视频跟踪图像中我们选取200帧、330帧、363帧等作为显示跟踪结果,其中,在开始阶段,如第200帧时背景都为蓝天,从330帧开始有短暂的视频背景相似干扰,在第363帧时直升机目标被完全遮挡,以及当从580帧开始视频背景开始完全有蓝天变为绿色树丛。在这些情况下,结合图2中跟踪误差数据分析,我们可以看出从600帧左右开始基于自适应颜色特征的粒子滤波算法[10]出现了目标丢失的情况,但是本文中提出的算法都能较好地跟踪目标,不会发生目标丢失的情况。在这段视频中说明了本文中的算法融合目标的颜色特征信息和运动边缘信息能够很好地克服跟踪目标背景相似干扰的情况,表现出了较强的鲁棒性。
视频二是采用CAVIAR项目组[11]提供的标准视频序列“ThreePastShop2cor.mpg”进行测试,该视频采集于视频图像大小为384×288,帧速率为25帧/秒,从视频序列的第370帧开始截取其中的500帧视频序列做跟踪实验,采样粒子数为500。实验跟踪结果如图3所示。
在实验中第459帧附近跟踪目标第一次被短暂遮挡,因为遮挡人物穿着红色外套,背景区分比较明显,只有人物的黑色背包会造成一定干扰。当穿过第一个遮挡任务后跟踪效果即为第476帧,紧接着跟踪目标穿过第二个遮挡人物,这时在第492帧时跟踪目标被完全遮挡,而且由于遮挡人物同样穿着黑色外套,和跟踪目标比较接近,造成了跟踪目标中心的扰动,但在穿过遮挡人物后,正如第602帧跟踪效果显示的跟踪目标中心会自适应地调节到原来的跟踪中心。在视频截取的最后阶段第818帧时,有路过的行人对跟踪目标再一次的遮挡,实验效果如第847帧所示。
与基于自适应颜色特征的粒子滤波算法[10]跟踪效果对比的具体误差数据分析见图4,本文中将误差数据分为x方向和y方向,其中目标真实位置在x,y方向的值为手动标定。
4结论
本文给出了一种基于多特征融合的改进粒子滤波目标跟踪算法。该算法融合了物体的颜色特征信息和运动边缘特征信息,可以有效地解决视频目标跟踪过程中背景相似干扰以及运动目标遮挡问题。相比单一的基于自适应颜色特征的粒子滤波跟踪算法,本文中提出的算法更能有效地提高目标跟踪过程的稳定性与精确性。
参考文献
[1] Wang X G,Kinh T.Grimson W E L.Correspondence-free activityanalysis and scene modeling in multiple camera views.IEEE Transac-tion on Pattern Analysis and Machine Intelligence,2010;32(1):56—71
[2] Yilmaz A,Javed O,Shah M.Object tracking:a survey.ACM Com-puting Surveys,2006;38(4):1—45
[3] Arulampalam M S,Maskell S,Gordon N,et al.A tutorial on particlefilters for online nonlinear/non-Gaussian Bayesian tracking.IEEETransactions on Signal Processing,2002;50(2):174—188
[4] Hu W M,Tan T N,Wang L.A survey on visual surveillance of ob-ject motion and beha-viors.IEEE Transactions on System,Man andCybernetics,2004;34(3):334—352
[5]王永忠,梁彦,赵春晖,等.基于多特征自适应融合的核跟踪方法.自动化学报,2008;34(4):393—399
[6] Intill S S,Bobick A F.Visual tracking using closed-worlds.Int ConfComputer Vision,1995:672—678
[7] Li P.,Chaumette F.Image cues fusion for object tracking based onparticle filter.Intl Conf Articulated Motion and Deformable Objects-(AMDO),2004:99—107
[8] Gordon N,Salmond D,Smith A.Novel approach to non-linear andnon-Gaussian Bayesian state estimation.Proceedings of Institute Elec-tric Engineering,1993;140(2):107—113
[9] Comaniciu D,Ramesh V,Meer P.Kernel-based object tracking.IEEE Trans on Pattern Analysis and Machine intelligence,2003;25(5):564—575
[10] Katja N,Esther K M,Luc V G.An adaptive color-based particlefilter.Image and Visio-n Computing,2003;21(1):99—110
特征量跟踪算法 篇3
关键词:目标跟踪,均值偏移,目标中心,NMI特征
0 引言
实时目标跟踪一直是计算机视觉领域的研究重点,其中跟踪目标的计算复杂度直接影响着实时性。Mean shift算法[1]是一种以目标区域像素概率分布为特征的高效模式匹配算法,它不需要进行穷尽搜索,所以成为目标跟踪中效率较高的一种。传统基于Mean shift算法的初始跟踪窗口是固定不变的,但是在实际目标跟踪中,经常会遇到目标的尺寸随着其离摄像头的远近或自身的畸变而改变的情况。这时初始窗口若不随着目标尺寸相应改变,则会造成跟踪目标的丢失,而且窗口的大小会影响Mean shift算法计算的迭代次数。为了得到自适应更新大小的跟踪窗口,文献[3]中提出采用正负10%的增量简单的估算核窗宽,这个方法对目标尺寸逐渐变小比较有效,但是对于目标尺寸逐渐放大的效果不佳。文献[10]中,Collins对采样图像进行加权和滤波,引入了一个新的尺度核,并在尺度空间中进行Mean shift迭代,从而找到最优的跟踪窗口尺度。但该方法需要收敛到三维空间的极值点,造成计算量加大。同时由于文中采用的是Epanechnikov核,造成算法迭代过程等效于对尺度空间进行平均操作,因此跟踪效果和文献[3]相似。文献[4]利用视频前后两帧进行形心配准,再对目标的角点进行匹配,以此估计刚性物体的仿射模型参数,并由此参数来更新核窗宽,由于依赖于角点匹配,不适合非刚性物体的跟踪,而且形心点的处理比较粗糙。
本文将概率图的圆检测法[5]改进并引用到目标跟踪中来,实时得到跟踪目标的中心。利用Mean shift算法的快速收敛性,计算改变核窗宽后的Bhattacharyya系数,以此选择最优的跟踪窗口大小。同时根据NMI特征在目标尺寸变换、旋转后的不变性[6],识别实时更新的初始跟踪对象,保证中心定位的准确性。
1 基于Mean shift算法的跟踪原理
Mean shift算法是文献[7]提出的一种非参数的密度估计算法,文献[1]将其引用到目标跟踪上来,其跟踪的原理如下:
设{xi}i=1...n是d维空间里的n个点,则以核K(x)和带宽h的x点的密度估计是:
k(x)是K(x)的轮廓(profile)函数,且K(x)=k(‖x‖2),则式(1)可写为:
假设g(x)=-k′(x),则密度估计梯度为:
以提取目标色调值的直方图z为特征,设它的密度分布函数为qz。候选目标的中心位置y处的特征分布为pz(y),利用Bhattacharyya系数来寻找qz和pz(y)最相似的y值,判断式如下所示:
因为式(6)的第一项取决于y0,即由初始位置决定。所以要使式(6)最大,即求第二项的极大值。通过Mean shift算法可得新位置,以后各帧均按此式迭代获得:
2 目标中心定位
2.1 图像分割
为了得到目标的中心,需要对跟踪的目标进行图像分割,并得到较为清晰的目标边缘。
本文根据OTSU算法[8]获得最佳门限阈值。OTUS算法是日本人大津首先提出的,该算法以图像的一维直方图为基础,以背景和目标对象的类间方差最大为阈值判断依据。首先提取每帧图像的色调值H,并将H扩展到0~255之间。其灰度等级为G={0,1,…,L-1},t∈G为选取的分割阈值,H={H1,H2}为分割后图像的两个灰度值级别,则:
其中f(x,y)为坐标(x,y)处的像素灰度。
假设灰度级为i的像素个数为Ni,则一帧图像里的像素总数为:
灰度级为i的像素出现的概率为:
将灰度级分成(c0,c1)两类,若分割灰度阈值为t,则可将像素按灰度分为背景区{0,1,…,t}和目标区{t+1,t+2,…,L-1}两类。
背景的像素比例为:
则背景和目标对象的平均灰度分别为:
背景和目标物体间的方差为:
当方差σ12取最大值时,变量t即为所求的最优门限值。为得到连通清晰的边缘,对二值图像进行一次开启和闭合操作。最后利用Sobel算子对二值图像进行边缘提取,可以得到清晰的目标边缘。
2.2 目标中心定位原理
文献[5]中提出了一种基于圆心存在概率的圆检测方法,该方法利用图像边缘点到中心点的欧式距离以及圆的半径,建立圆心概率分布图来获取中心点位置。此方法计算效率和精确度都很高,但对不规则边缘的图像效果不大。本文将其扩展,能够适应不规则图形的中心获取。
在第k帧图像I的边缘内部搜索中心点(u0,v0),E(xi,yi)表示边缘上的点,则图像中心点(u0,v0)到边缘(xi,yi)的欧氏距离用r标示为:
由于目标的边缘是不规则的,因此需要对r设置一个范围:{rmin,rmax}(rmin表示允许的最小半径,rmax表示允许的最大半径)。用式(9)计算边缘内部每一点(ui,vi)到边缘点(xi,yi)的欧氏距离,若计算的r在预设半径范围之内,则将累加器数组Ai自加1。
根据2.1节中得到的二值图像,计算当前帧图像中目标的面积S。
定义中心定位概率(Probability of Centre location)Pi(u,v),表示存在以(u,v)为中心,目标面积为S,统计边缘像素点数为Ai时的中心概率的大小:
其中,在同一帧图像里,目标的面积S是定值。遍历边缘内部所有点后,得到一个中心定位概率图P(u,v),图中的P(u,v)越大表示在点(u,v)处中心的概率就越大,返回最大值处(u,v)坐标即为中心点位置(u0,v0)。经过大量的实验表明,该方法对目标边缘呈类似的圆形或椭圆形效果最好。图1是经过OT-SU算法和Sobel算子提取后的边缘检测图像,图像大小为570×335。利用中心定位法得到中心标记概率图,最后在概率最大处用十字形标示出中心。该图中心最大概率为0.73,目标中心点坐标是:(311,261)。
实验中的边缘内部通常会存在一定的噪声,此时的面积S比实际要小。根据实验统计发现,中心点处的最大概率在0.4~0.8之间。如果边缘提取得越准确、噪声越少,那么得到的概率图的波峰将会越明显。图1中目标在提取边缘后存在一定的噪声,但从中心定位的效果来看,该算法具有一定抗噪声能力。
2.3 图像的NMI特征
文献[6]中提出了二值图像的归一化转动惯量NMI,它具有伸缩、平移和旋转的不变性。所以在目标的跟踪过程中,可以将其作为一个有效的特征对目标进行识别。
经过2.1节中处理的二值图像的目标重心记为(cx,cy),则:
该目标对象绕重心(cx,cy)的NMI可表示为:
其中,为所有像素值之和。
利用NMI特征进行识别,计算每帧图像连通区域的NMI值,若0.8<<1.2,则判断该目标即为需要跟踪的对象[9],利用中心定位法计算当前的中心位置(cxi,cyj)。
3 算法实现及实验结果分析
3.1 算法实现步骤
结合Mean shift目标跟踪特点,本文的跟踪算法步骤如下:
(1)本文目标区域的跟踪窗口为长方形,记录第k帧跟踪窗口的宽ak、高bk、中心坐标(xk,yk)以及NMIk,同时比较ak和bk的大小。
(3)根据中心定位概率法,定位当前帧目标的中心,并设置跟踪窗口的大小。在前一帧宽和高的基础上,以中心为原点,x轴和y轴方向上两边分别增加Δhai和Δhbi,保留此时跟踪窗的高和宽。
(4)根据不同状态下跟踪窗口的大小,计算在当前定位的中心点处的Bhattacharyya系数的值,以此寻找前后帧目标的最佳匹配,从而得到变化后的窗口大小。
(5)重复步骤(2)~(4),得到每一帧目标的最佳跟踪窗口大小。
3.2 实验结果和分析
在实例采样中,CCD相机的采样速率是30帧/s,摄像窗口大小为570×335。编程用VC++6.0实现,运行环境是Intel双核1.6,内存512MB。
图2和图3(颜色不能显示,请联系作者)是采用文献[3]中Kernel-based算法的跟踪效果图,表1是相应各帧图像的Bhattacharyya系数。实验表明该算法对目标尺寸逐渐减小的情况比较有效,但继续跟踪发现,由于场景中干扰对象的出现以及窗口尺寸不能很好适应目标尺寸实时变化的影响,在第386帧后出现跟踪丢失。图3中红色跟踪窗口是采用kernel-based算法的效果,黄色矩形框为较理想情况下校正的跟踪窗口。以第130帧为初始跟踪窗口图像,在第235帧时跟踪基本丢失。由于该算法只是采用以正负10%的增量简单的估算核窗宽,所以在目标尺寸逐渐增大的情况下,造成尺度定位不明确,而且使得Mean shift算法迭代的中心偏移越来越大,从而造成目标跟踪偏差直至丢失。
图4和图5是采用本文算法的跟踪效果。
在图4的第300帧时,跟踪的窗口仍然能较好地和目标相匹配,较之kernel-based算法,跟踪效果有很好的改善。在图5显示的目标尺寸逐渐增大的实例中,由于中心定位较准确,因此保证了空间定位的准确性,继而根据本文提出的改变窗口尺寸方法,使得跟踪效果较好。表2为采用本文算法的采样示例中心点的坐标和Bhattacharyya系数。
4 结束语
本文针对当前多数使用基于Mean shift算法的目标跟踪不能很好地实时改变核窗宽的特点,提出了一种基于目标中心定位和NMI特征的跟踪算法。在目标跟踪过程中,通过建立二值模型,利用NMI特征识别要跟踪的目标,跟踪过程始终定位目标的中心。结合Mean shift算法的寻优相似度函数,选择最优的核窗宽。目标在移动过程中,其中心点也是在做不规则的移动,本算法正是抓住了这点,以中心点为基点来扩展跟踪窗口。
本算法的目标定位和NMI特征有很大关系,而中心定位还和目标边缘的分布有关。实验表明,即使背景中出现和目标区域的NMI值相近的物体时,本算法也能较好地跟踪目标。
参考文献
[1]Dorin Comaniciu,Visvanathan Ramesh,Peter Meer.Real-Time Track-ing of Non-Rigid Objects using Mean Shift[C]//Proceeings of IEEE Conference on Computer Vision and Pattern Recongnition.South Caro-lina,USA,2000:142-149.
[2]Bradski G R.Computer vision face tracking for use in a perceptual user interface//Regina Spencer Sipple.IEEE Workshop on Applications of Computer Vision.Stoughton:Printing House,1998:214-219.
[3]Dorin Comaniciu,Visvanathan Ramesh,Peter Meer.Kernel-Based Ob-ject Tracking[J].IEEE Trans on Pattern Analysis and Machine Intelli-gence,2003,25(5):564-577.
[4]彭宁嵩,杨杰.Mean-Shift跟踪算法中核函数窗宽的自动选取[J].软件学报,2005,16(9):1542-1550.
[5]张运楚,王宏明,梁自泽,等.基于存在概率图的圆检测方法[J].计算机工程与应用,2006:49-51.
[6]杨小冈,付光远,缪栋,等.基于图像NMI特征的目标识别新方法[J].计算机工程,2002,28(6):149-151.
[7]Fukanaga K,Hostetler LD.The estimation of the gradient of a density function,with applications in pattern recognition.IEEE Trans.on Infor-mation Theory,1975,21(1):32-40.
[8]Otsu N.A threshold selection method from gray-level histograms[J].IEEE Transactions on System Man and Cybernetic.1979,9(1):62-66.
[9]江淑红,王沁,等.基于目标中心距离加权和图像特征识别的跟踪算法[J].电子学报,2006,34(7):1175-1180.
特征量跟踪算法 篇4
随着光电探测器件的发展, 高帧频可见光探测器在光电跟踪系统中的应用越来越广泛, 而传统的模板匹配跟踪算法在视频跟踪实时处理中也随之成为难点问题。因此, 研究一种新的快速特征匹配跟踪算法成为一个亟待解决的问题。本文设计了一套基于DSP的图像模板匹配跟踪设备, 算法通过边缘增强、统计分割等去除背景影响, 分割出具有特征目标的图像信息, 再进行模板图像快速匹配。
2 硬件组成
硬件系统结构如图1所示, 前端光电探测设备是一台Camera-link接口的高帧频电视摄像机, 可以给本设备提供一路分辨率为640×480、100帧/秒的数字图像。
算法实现处理电路主要由TI公司DSP芯片TMS320C6418、ACTEL公司FPGA芯片APA750、DA器件ADV7123、SDRAM、FLASH、Camera-link转换器件等芯片组成。首先由高帧频摄像机采集电视视频, 通过Camera-link接口芯片、FPGA芯片导入到DSP缓存或SDRAM中, DSP是实现算法的核心器件, 解算出的跟踪波门叠加到视频数据后, 再由DSP传输到FPGA内部, 然后由DA转换器件把最终的数字视频转换为VGA视频信号在显示器上显示。
DSP处理器先将数字图像进行边缘增强, 然后进行统计阈值分割等算法对图像进行特征提取, 从而将背景分离;再采用特征相关匹配算法选取目标模板, 对处理过的图像进行特征点匹配, 从而实现跟踪目标。这样便解决了复杂视频相关匹配跟踪时实时性和稳定性的问题。
3 特征匹配跟踪算法
传统的相关匹配算法, 一般都是图像经过滤波后, 选取目标模板, 然后对全视场图像进行模板内逐点匹配度积分, 算法不但耗时多, 而且模板内背景变化也会对最终跟踪效果产生很大的影响。本文提出的特征匹配跟踪算法是把目标分割出来后再选取模板, 在全视场匹配时不是模板逐点匹配度积分, 而是采用对模板内图像的特征点进行匹配度积分, 很大程度上消除了背景的影响, 也大幅降低了算法运算时间。
3.1 算法流程
如图2所示。
3.2 边缘增强
前期边缘增强的好坏直接影响后期处理的精度, 因此在本算法试验过程中检验了多种边缘增强算法, 如差分边缘检测、Reborts算子、Sobel算子、Prewitt算子、Kirsch算子、Laplace算子、Canny算子等等。由于需要在处理时间上和图像特征信息完整性上取一个折中点, 本设备最终选择使用Sobel算子对视频图像进行边缘增强。
3.3 统计分割
经过了前期的边缘增强后, 对视频数据进行直方图统计分割。
(1) 图像直方图统计后, 求图像灰度均值:
i为图像灰度, H (i) 为直方图统计值, M为图像列数, N为图像行数。
(2) 求取图像数据的均方差:
(3) 计算分割门限:
τ1、τ2分别为灰度高低分割门限, k1、k2分别为计算高低分割门限的均方差因数常量, 可以根据适应不同视频场景需要取值。
(4) 图像目标二值像分割:
G (m, n) 为边缘增强处理后的图像数据。
(5) 二值像滤波降噪:
3.4 选取模板进行特征匹配
选取目标模板后, 对模板内特征点 (二值像为1的点) 的信息做记录, 记录特征点的总数N、每个特征点的序号数组L[N]、行坐标数组R[N]、列坐标数组C[N], 以备在特征匹配中使用。
对统计分割后的图像数据进行模板特征匹配:
式中Di为:
则 (m, n) 图像对模板的匹配度为:
匹配度越高越好, 本设备中设定匹配度在70%以上的为匹配成功, 如果全视场图像没有>70%匹配度的图像, 则认为目标跟踪丢失, 波门设定为记忆最后一帧跟踪位置状态, 直到有匹配度符合的, 或者手动重新选取目标模板。
4 结论
快速特征匹配算法对传统的匹配算法进行了改进, 边缘增强、统计分割二值像后再进行模板匹配, 不仅提升了匹配算法的运算速度, 还增强了目标跟踪稳定性。本文设计的视频跟踪设备选取64×64像素的模板, 对640×480的视频图像进行匹配时, 运算时间在4ms~8ms, 完全能满足高帧频摄像机 (100帧/S) 图像处理实时性要求。在跟踪试验中, 对复杂背景下运动目标跟踪时, 采用自动更新目标模板, 可以实现对目标有效的跟踪。
摘要:以TMS320C6418芯片 (DSP) 为主体, 设计了一套视频模板匹配跟踪设备, 实现一种稳定快速跟踪复杂背景下目标的算法。算法通过边缘增强、统计分割等去除背景影响, 分割出具有特征目标图像信息, 再进行模板图像快速特征匹配。本文提出的算法对传统的匹配算法进行了改进, 不仅提升了匹配算法的运算速度, 还增强了目标跟踪稳定性。
关键词:边缘增强,统计分割,相关匹配,图像跟踪
参考文献
[1]David G Lowe.Distinctive image features from scale invariant key points[J].International Journal of Computer Vision, 2004.
特征量跟踪算法 篇5
关键词:梯度特征,相似性度量,目标跟踪,自适应窗口
1 引言
空中目标跟踪问题是一类比较特殊的跟踪问题。因为目标在跟踪过程中一般都存在明显的姿态变化,而姿态变化又带来成像光照角变化,从而引起自身灰度的剧烈变化。在跟踪算法中,目标的特征表达和度量是目标跟踪的基础[1,2]。人们总是希望利用具有对光照和形变不敏感的特征来改进算法在目标产生快速形变时的性能[3,4,7]。当前在处理由目标姿态和灰度变化产生的跟踪问题时,存在着两种做法——基于不变性特征的跟踪方法和基于观测变化建模的跟踪方法。第一种利用对姿态或灰度变化不敏感的特征进行匹配跟踪[8]。第二种对目标表面模型的变化进行建模[9,10],利用变化模型生成刷新模板,最后利用刷新模板进行匹配跟踪。然而,对具有高速强机动特点的战斗机进行跟踪,不能简单的沿袭上述两种思路。因为飞机在做侧翻和机动躲避等动作时会产生快速形变,而快速形变带来了目标自身局部灰度分布的剧烈变化。这使得基于表面变化建模的模型很难适应目标快速形变带来的综合变化。在对战斗机目标的稳定跟踪问题中,选择具有光照不变性的特征,构造对该特征具有鲁棒性的相似度量算法是解决问题的关键所在。
本文选择对光照不敏感的梯度特征对目标进行跟踪,并提出一种新的梯度特征相似性度量的方法。第一部分给出梯度特征相似性度量的方法,第二部分利用梯度特征和相应的度量方法对目标进行跟踪,第三部分利用目标梯度特征的空间分布特点自适应的估计目标尺寸,第四部分给出实验结果和分析。
2 图像梯度特征相似性度量
梯度特征不同于灰度特征和边缘特征。灰度图像可以使用经典的MAD方法进行相似性度量,边缘特征可以使用Hausdorff距离进行相似性度量。梯度图像并不是二值图像,它不能使用Hausdorff距离进行点集之间的相似性度量。而梯度图像的能量分布主要集中在灰度突变的区域,这些区域反映了物体的结构信息,其在整个图像中所占有的能量比例非常有限,因而也不能直接使用MAD的方法进行相似性度量。
2.1 梯度特征相似性度量定义
梯度特征的相似性度量算法步骤如下:
首先,给出MAD相似性度量公式:
其中:M和S为两幅梯度特征图像,xsize和ysize分别为图像的长和宽,其中M为模板图像。
Step 1:对两幅梯度特征图像分别进行尺度为δ的形态学膨胀处理,记为
Step 2:对模板图像进行变换,得到匹配权值模板,记为P=f(M)。
对给定的M,我们按照如下的方式定义f(M):
其中:t(M,α)表示对M做尺度为α的形态学膨胀,G(·,β)表示对图像做尺度为β的高斯平滑。
Step 3:梯度特征相似度量公式如下:
其中:膨胀尺度δ和α和限制了度量所能适应的形变范围。
2.2 与MAD的相似性度量的比较
我们用式(4)与MAD对图1的测试图像和相应的梯度特征图像,进行相似性度量的对比。这里使用相对归一化方式评价度量结果的好坏。
MAD的归一化相关系数:
梯度特征相似性近似度量的归一化相关系数:
从表1可以看出,由于a和c原始图像之间存在较大的光照变化,尽管在空间结构上两者更相像,但由于受到光照变化的影响,MAD的度量结果产生错误。在对其梯度图像相似性进行度量时,两种方法都得到了正确的结果,但式(4)的度量结果明显比MAD度量更能反映两幅图像之间相似程度和差异程度。
3 基于梯度特征匹配的跟踪算法
战斗机目标具有高速强机动的特点,尤其在其做侧翻、俯冲、拉升的机动动作时,将在短时间内产生较大形变,并且快速形变也带来了目标自身灰度的剧烈变化。本文采用基于梯度特征匹配的跟踪算法对空中目标进行跟踪。算法框图如下:
仿真过程中使用的模板刷新策略如下:
1)目标模板的刷新:
根据估计出来的目标尺寸,在匹配位置切割相应大小的图像作为下一帧匹配的目标模板。
2)匹配权值模板的刷新:
其中Mn-1为第n-1帧的目标模板,0<γ<1。
David Vignon[3]在实现快速的Hausdorff距离匹配时,使用了近似计算方法,其原理是使用模板图像中物体边缘一定范围内的点参与两个图像之间的相似性度量。这里使用的度量方式与此类似,加权模板P加大了模板边缘附近区域梯度的影响,减轻了梯度相对较小的平坦区域在匹配定位过程中的影响。图像序列中,当物体形变在一定范围内时,这种方法可以有效的度量前后两帧之间物体的相似性。在实际环境中,由于高帧速图像采样,物体在前后两帧中形变不会太大,因而这种近似度量可以满足实际应用的要求。而且,基于梯度特征的度量结果受光照变化影响很小,能够适应由高速形变带来的灰度上的变化。同时,与Hausdorff距离度量相比,这种度量不需要对图像进行复杂的边缘提取。
4 目标尺寸的自适应估计方法
图像序列中,战斗机在短时间内会因其机动动作产生较大变化,这种变化非常明显的体现在目标成像大小的变化上。如果一味的使用固定尺寸模板进行匹配跟踪,当目标面积减小时,跟踪点将逐渐漂移到目标以外,造成跟踪失败。因此,在跟踪过程中自适应的调整目标模板尺寸是增强跟踪稳定性的关键因素之一。与地面复杂背景相比,空中目标所处的背景即使在有云情况下,也要简单的多,因此,本文利用目标梯度特征在局部空间占优的特点对目标尺寸进行自适应估计。
Step 1:对梯度特征图像进行块求和运算:
式中:BSM(i,j)为块求和特征图像,G(u,v)为梯度特征图像,M和N分别为求和块的长宽。序列图像中,求和块的长宽分别取前一帧目标模板尺寸的2/3~3/4。
Step 2:将BSM(i,j)在以目标为中心的局部范围内分别沿X和Y方向向两侧求和投影,得到两个投影分布矢量Vector_y和Vector_x。
式中:(m,n)为投影处理区域的起点,X和Y为投影区域的长和高。投影区域的长和高一般取前一帧目标模板尺寸的3倍大小,如图4所示。
Step 3:根据两个投影矢量估计目标大小。下面以Vector_x为例。
第一步:找到Vector_x的最大值和最小值,并记录最大值所处的位置p_max。
第二步:构造分布投影曲线的分割门限。
第三步:从p_max的位置开始向两侧搜索,找到分布投影曲线与门限T相交的地方p_left和p_right。目标尺寸的估计值为|p_right-p_left|,如图5所示。
在跟踪过程中,我们不直接使用估计尺寸作为下一帧匹配定位的模板尺寸,而是按照一定的策略调整模板尺寸:对第K帧图像,如果有尺寸估计值大于(或小于)前一帧使用的模板尺寸size(k-1),那么当前目标模板尺寸size(k)=size(k-1)+1(或size(k)=size(k-1)-1)。
5 实验结果
实验使用了两组可见光的飞机视频进行算法测试跟踪。仿真过程中,梯度图像匹配时的参数为δ=,1α=,1β=,5γ=0.618,自适应模板尺寸估计的参数θ=0 5.。两组测试序列中,序列1共315帧,序列2共130帧。图6是高空拍摄飞机略过地面的视频,其中目标在姿态、灰度和大小上都产生了快速变化。图7是有云背景下飞机由大变小的视频,在跟踪的最后一段,目标仅有5×5左右大小。
从实验结果看,算法能有效的适应目标产生的剧烈形变和由形变带来的灰度变化。在目标由大变小的过程中,由于采用了自适应模板尺寸调整的策略,因而使跟踪算法能够适应小目标的情况,提高了跟踪的稳定性。在跟踪过程中,匹配权值模板在匹配时加强了目标区域的影响。因此,图6中当目标在模板中的面积比例迅速减小时,匹配权值模板能够在一定程度上抑制模板刷新过程中背景因素的干扰,从而抑制了逐帧刷新带来的模板漂移。
实验在标准PC上(P4 2.0GHz、512M)用Watcom C编程实现。两组测试序列中,序列1的模板尺寸变化范围最大,模板尺寸最小为20×24,最大为64×64。匹配跟踪窗口大小为(2xsize(k))×(2ysize(k)),其中,xsize(k)和ysize(k)为第k帧目标模板的长和高。若在跟踪窗口内采用逐点匹配搜索最优点,则计算时间不能满足实时系统的要求,但由于跟踪时的匹配搜索算法是在局部窗口内寻找最优点,因此,可以采用遗传算法对匹配搜索进行优化[11]。从本文匹配算法的公式运算形式看,完全可以使用基于遗传算法的快速匹配策略进行优化,使跟踪算法满足实时运行的要求。
6 结论
本文提出了一种新的梯度特征图像相似性度量的方法,并结合自适应目标尺寸估计的方法对具有高速形变的空中目标进行了匹配跟踪。空中目标大小变化迅速,然而背景相对简单,利用图像的纹理信息和目标梯度空间分布的特点对空中目标大小进行估计,自适应的调整目标模板尺寸能够有效的增强跟踪稳定性。与传统的Hausdorff边缘匹配算法相比,该方法避免了复杂的边缘提取过程,而且匹配算法仅涉及加减乘运算,有利于工程实现。
参考文献
[1]Lei Yun,Ding Xiaoqing,Wang Shengjin.Adaptive Sparse Vector Tracking Via Online Bayesian Learning[C]//The International Workshop on Intelligent Computing in Pattern Analysis.Heidelberg,Berlin:Springer-verlag,2006:35-45.
[2]Shi Jianbo,Tomasi Carlo.Good Features To Track[C]//Proc.IEEE Computer Society Conf.Computer Vision and Pattern Recognition.Seattle,WA,USA:IEEE,1994:593-600.
[3]Vignon David,Lovell Brian C,Andrews Robert J.General Purpose Real-Time Object Tracking Using Hausdorff Transforms[C]//Proceedings of Special Session on Intelligent Systems for Video Processing.Annency,France:IPMU,2002:1-6.
[4]芮挺,王金岩,沈春林,等.Hausdorff距离下的景像特征快速匹配[J].光电工程,2005,32(6):20-23.RUI Ting,WANG Jin-yan,SEHN Chun-lin,et al.Fast scene matching of image feature using Hausdorff distance[J].Opto-Electronic Engineering,2005,32(6):20-23.
[5]Olson Clark F.A Probabilistic Formulation for Hausdorff Matching[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Santa Barbara,CA,USA:IEEE,1998:150-156.
[6]Collins R,Liu Y,Leordeanu M.Online selection of discriminative tracking features[J].Pattern Analysis and Machine Intelligence,2005,27(10):1631-1643.
[7]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proc.IEEE Computer Society Conf.Computer Vision and Pattern Recognition.San Diego,USA:IEEE,2005,1:886-893.
[8]Comaniciu D,Ramesh V,Meer P.Real-time tracking of non-rigid objects using mean shift[C]//IEEE Conference on Computer Vision and Pattern Recognition.Hilton Head Island,South Carolina,USA:IEEE,2000,2:142-149.
[9]Cootes T F,Wheeler G V,Walker K N,et al.View-based active appearance models[C]//Proceedings of the Fourth IEEE International Conference on Automatic Face and Gesture Recognition.Washington,DC,USA:IEEE,2002:227-238.
[10]Vacchetti L,Lepetit V,Fua P.Fusing online and offline information for stable3D tracking in real-time[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Monona Terrace Convention Center Madison,Wisconsin,USA:IEEE,2003,2:241-248.
特征量跟踪算法 篇6
目标跟踪在军事、安防、交通等领域应用极其广泛[1,2],目前是模式识别、图像处理等学科领域的热门研究课题。根据跟踪目标的数量,目标跟踪可分为单目标跟踪和多目标跟踪,两者的处理方式有很大不同。多目标跟踪涉及到目标特征相似或互斥情况,有时还需解决目标遮挡、重叠和分类问题[3,4,5]。单目标跟踪仅需选取目标单个特征即可[6,7]。
传统跟踪算法在视频分辨率低,帧图像模糊或噪声较多时跟踪效果较差。针对此情况,本文选择邻域特征、区域特征、运动方向特征和直方图特征等多个目标特征进行跟踪,并给出了联合特征代价函数以及数据关联运算方法。
1 相关工作
近年来,许多学者对单目标跟踪[4,5,6,7]和多目标跟踪[8,9,10]进行了研究。
文献[7]提出了TLD(Tracking-Learning-Detecting)算法。算法实现目标检测和跟踪同时进行,TLD算法使用NP学习方法检测和纠正跟踪过程中的错误,但NP不适合联合学习,在多目标情况下无法使用该算法。
文献[8]提出了一种基于视频的多目标跟踪算法。算法使用码本模型检测前景,提取每一帧的头部和脚部特征,根据几何约束关系计算目标高度,具有一定精度和鲁棒性。但码本模型仅适用于简单场景中的前景提取。
文献[9]提出标记点处理方法(Marked Point Processes,MPP)。算法能获取所有未知目标的后验概率,得出时空信息;并能识别和了解特定事件变化的外力。
针对复杂、低信噪比背景的红外小目标跟踪问题,文献[10]提出用阈值分割和形态学滤波检测目标,采用邻域轨迹和Kalman滤波跟踪目标,避免了噪声干扰。但跟踪的目标数量有限,也没考虑目标遮挡消失问题。
本文提出一种新的带图像分割的多目标跟踪算法。算法将多个有用的特征用于目标匹配,并设计了总代价函数,给出了代价函数的数据关联计算方法。实验视频结果证明,本文算法能获取良好的目标跟踪效果。
2 目标分割
本文提出的自动分割算法由四个步骤组成,如图1所示。
(1)进行局部双阈值处理;
(2)利用基于直方图反向投影的方法将两个不同阈值处理生成的二值目标掩码进行有效整合;
(3)利用区域和方差阈值移除噪声和干扰目标;
(4)对分割后的目标边界进行精提取。
2.1 局部双阈值处理
Otsu算法[11]是一种常用的阈值确定算法。通过Otsu算法确定的阈值可将直方图分为两类,使合并后的类内方差最小。利用Otsu改进型方法对每个区域选取自适应阈值。对于较暗的目标,阈值的大小需接近背景,位置的大小值为:
式中:τ是Otsu方法获取的阈值;μL(τ)表示直方图中经过阈值τ分类后获取较小的一类;p为偏移系数。利用式(1),通过设置不同大小的p可以获取两个阈值,即τlow=τ-plow(τ-μL(τ))作为低阈值,τhigh=τ-phigh(τ-μL(τ))作为高阈值。通过这两个阈值处理视频帧中的局部区域可获取两个相应的目标掩码Mlow和Mhigh,如文献[12,13]所述,利用一个3×3的中值滤波算子处理两个二值目标掩码。
2.2 直方图反向投影
由于两个目标掩码包含有不同数量的背景像素,所以通过两个目标掩码中像素分布的比较和聚合对分割边界进行精提取[14]。
首先,根据目标掩码的Mlow和Mhigh分别计算出两个灰度级别的直方图Hlow(r)和Hhigh(r)。任何灰度大小r的比例直方图定义如下所示:
其次,将比例直方图反向投影到视频帧域,即BP(x,y)=HR[I(x,y)],,其中,I(x,y)表示(x,y)所处位置的像素灰度值大小。对比例直方图HR(r)的反向投影进行阈值处理,二值分割掩码B(x,y)定义如下:
式中:θBP为范围在0~1之间的一个阈值。
2.3 区域和方差阈值处理
本文算法既利用直方图对掩码进行精确分割,还通过目标的区域和目标内像素值的方差去除区域内大于阈值上限或小于阈值下限的值。对于第k个分割目标Ok内的每个像素点(x,y),通过式(4)对其在前景掩码中对应的像素进行修改。
式中:A(·)表示目标区域;(θAL,θAU)为上边界和下边界内的阈值,用于判断像素点是否保留。
使用每个分割目标内像素的方差对候选目标进行检测。因前景目标拥有比背景或干扰目标更多的纹理特征,导致分割目标的方差可能更大。每个目标像素的方差为:
式中:表示第k个目标内像素的平均值。给定方差,利用式(6)对该目标的前景掩码进行阈值处理。
2.4 形态学处理
通过以上算法提取的前景目标,经常会出现一些噪声。例如,直方图反向投影在对目标边界进行精提取时会生成斑点。本文进一步利用形态学操作精确提取分割边界。首先利用结构元素对目标掩码做开形态学操作;然后进行闭合操作。平滑目标边界不会影响目标外形的细节信息[11]。
3 混合特征匹配跟踪
对目标进行分割后,利用混合特征进行快速匹配。本文所提跟踪算法利用目标整个寿命的时间相关性,而不仅仅是两个视频帧间的相关性。本文跟踪系统流程图如图2所示。
3.1 混合特征匹配
混合特征匹配利用各种有用特征测量目标间的相似性。对于在时间t和t-1处的目标Otj和Oit-1,本文对四个线索进行如下调查。
(1)邻域线索:给定欧式距离,其中xtj和ti分别表示在t时刻时目标j的观测坐标和目标i的预期坐标,利用运动预期方法获取目标预期结果。
(2)区域线索:为了消除区域间的视差问题,通过立体三角形计算目标的深度信息,对目标区域进行相应的归一化处理,使得多目标相对立体相机具有相同的距离。两个连续帧中关联目标间区域的差异十分微小,利用连接组件算法计算目标区域,用A(⋅)表示。时刻t的目标Otj和时刻t-1的目标Oit-1间区域的视差用|A(Otj)-A(Oit-1)|表示。
(3)运动方向线索:给定两个将要进行匹配的目标Ojt和Oit-1,本文用vi,jt=xjt-xit-1表示相应的运动向量。利用向量vi,jt和预定义参考向量vref间的角度θ(vi,jt,vref)表示运动方向,其表达式为:
根据运动趋势或者运动方向可以选取预定义的参考向量。
(4)直方图:本文采用32灰度级直方图间的距离矩阵。
综合以上四个线索,目标Otj和Oit-1间混合特征匹配的相似度如式(8)所示:
在本文所有视频数据的每帧图像上通过收集所有混合特征匹配候选者的特征值,系统计算出标准偏差。
匹配代价定义如式(9)所示:
式中{σ}表示特征的标准偏差。
3.2 Viterbi数据关联
在本文提出的Viterbi数据关联[15]系统中,所利用的立体信息是指匹配目标的立体信息,即视频帧中相同的目标作为一个目标进行观察以执行跟踪,为此,需要计算混合特征匹配代价的总和,即cijstereo(t)=cLij(t)+cRij(t)。其基本思想如图3所示,框架是一种有向图,每个节点在其寿命中都含有单独的框架、开始节点(三角形)和结束节点(正方形)。彩色箭头标记每个框架中的最优路径。从图3可以看出,节点被划分为有序子集N(t)={nj(t)|j=1,2,...,|N(t)|},其中t=1,2,...,T,边aij(t)连接相邻子集{ni(t-1),nj(t)}中任意的配对节点。节点表示一帧中存在的目标,将每个边界设定为cij(t)。一条路径(一系列的边)的总代价为:
其中:
3.2.1 单目标跟踪
对于单目标跟踪,本文利用文献[15]寻找最小代价。利用零代价和初始化一个节点的观察值,根据式(9)获取每个节点nj(t),j=1,2,...,|N(t)|。设定一个节点nj(t)的前身和累积代价分别为:
目标一旦离开视频边界,即到达框架的最后一级,则执行回溯。在最后一级中,以代价最小的节点开始执行回溯,根据事先在每一级中存储的数据遍历第一级以发现最优路径。
3.2.2 多目标跟踪
每个目标的起始帧可能不同,每个节点处的前期和最小代价也可能不同。本文为每个目标创建一个单独的框架进行跟踪,如图3所示。根据式(11)和式(12),利用所有观测值分别对每个目标进行数据关联,其中大多数错误警告都是在分割后处理阶段产生的,因此分割区域通常较小。对观测的位置和区域进行测试以将新目标和错误警告区分开来。因此,仅当目标的预期位置距离帧边界很近时才设定这个目标的跟踪过程结束,这也阻止了因暂时遮挡而引起的目标删除。其实就是为每个目标设置存活时间。图3中给出了目标跟踪总体框架,图中节点在任何阶段都允许包含多个路径。
数据关联中需要更新目标的位置和速度,设定帧t-1时刻第k个跟踪目标的位置和速度分别为xkt-1和vkt-1,当前帧预期的目标位置为。数据关联后,选取代价最小的观测节点更新位置和速度,即:xkt=xj*t,vkt=αvj*t+(1-α)vkt-1,其中,xj*t和vj*t分别表示代价最小观察节点的位置和速度,α表示更新比例。每一帧的数据关联及总结算法如下所示:
4 实验结果与分析
4.1 参数说明及度量函数
视频帧的尺寸为1 280×768像素,帧率为8 f/s。本文利用形态学做开操作时结构元素设定为7×7像素大小的模板(7×7为一个经验值),表1为根据经验设定的形态学操作模板中的参数大小。
为了对多目标跟踪的精度进行评估,本文设计了两种类型错误:假阳性(FP)和假阴性(FN),两种类型错误的权重相同。本文规定了真阳性(TP)的数量并提供了运动目标总的个数。运动目标总的个数(TO)是所有图像帧中目标的总和。主要跟踪(MT)和主要丢失(ML)的分数进而测量有多少跟踪成功或丢失,算法的精度分别定义为:
4.2 单目标跟踪效果分析
图4所示为一段比较模糊的足球比赛视频序列帧。从图4可以看出,比赛双方运动员中的一方穿着相同,很难直接辨识。利用本文算法对图4单目标进行跟踪,并将实验结果与文献[4]提出的粒子群优化算法(PSO-PF)和文献[5]提出的局部背景加权算法(CBWH)进行比较。图4(a)所示为本文算法结果,从图中可以看出,选择的运动员基本定位完整。即使有很多类似特征的运动员,因采用了目标运动方向特征和时间信息,目标也能准确定位,图4(b)和图4(c)分别是CBWH和PSO-PF跟踪结果,可以看出CBWH在第三帧已偏离目标,PSO-PF在第二帧已偏离目标。比较三种算法,本文算法精确性能明显优于CBWH和PSO-PF两种算法。
此外,测试了CBWH算法[5]和TLD算法[7]所使用的部分视频,表2为各算法的跟踪准确率比较。跟踪准确率是指正确分割锁定目标的时间比上总时间。总体来说,本文提出的单目标跟踪算法跟踪准确率高于其他两种算法。
4.3 多目标跟踪效果分析
图5为一段分辨率比较低的鱼类视频序列帧。从图中可以看出,帧背景比较黑暗,图像中目标姿态不断变化。利用本文算法对图5多目标进行跟踪,并将实验结果与文献[9]提出的标记点处理算法MPP和文献[10]提出的多目标Kalman跟踪器进行比较。图5是本文算法与MPP和Kalman的跟踪分割结果图。图5(a)是本文算法结果,可以看出目标基本完全定位,图5(b)和图5(c)分别是MPP和Kalman跟踪结果,其中红色框是漏检的目标。从图5可以看出,本文算法漏检率明显低于MPP和Kalman算法。表3是精度和召回率比较,其中实验总体目标数目设置为90个。从表3可以看出,本文算法精度和召回率明显优于MPP和Kalman算法。
5 结论
本文提出一种基于混合特征匹配的多目标分割跟踪算法,算法可用于低对比度的多目标跟踪。算法中采用的局部双阈值能克服低对比度和噪声对目标跟踪的影响,并利用直方图反向投影进行外形分割结果,利用四种特征进行目标匹配,并设计了总体代价函数以及代价函数的数据关联计算。实验结果表明,本文算法取得了较高的跟踪成功率,具有很好的实际应用价值。
下一步的研究内容是对于不同的场景,如何自适应地选择有效特征进行目标匹配。
摘要:传统跟踪算法在视频分辨率低、帧图像模糊或噪声较多时跟踪效果较差。针对此情况,提出一种混合特征匹配结合Viterbi数据关联的目标跟踪算法。首先,采用直方图反向投影技术对双局部阈值图像中的目标边缘进行有效分割,克服了低对比度问题;然后,将邻域特征、区域特征、运动方向特征和直方图特征作为目标表征特征,建立混合特征代价函数;最后,采用Viterbi数据关联计算代价总和,求得最相似目标。实验结果表明,在帧图像模糊或噪声较多的情况下,目标跟踪稳定且有效,单目标跟踪准确率为0.89,多目标跟踪精度达0.975,召回率达0.920,优于其他几种同类跟踪算法。
特征量跟踪算法 篇7
1 快速行为识别算法总体设计
Li等人选取物体类别信息和场景信息来识别静态视频中的人体行为[3]。这种识别方法包含了场景等高层语义信息,同时又没有对运动信息进行分析,因此,计算量大而且识别效果不是很好。本文提出的方法只需要标记出训练视频的行为类别标签。相对于其他方法,本文的识别方法是基于简单特征量信息的。
先介绍局部特征的含义,它是指在视频帧中出现的具有高频率和良好鲁棒性的特征信息,能够提供识别依据的统计数据信息。本文研究的方法就是从单帧视频或少量视频帧的光流特征和边缘特征中总结学习局部特征,从而识别出人体的行为。具体算法流程图如图1所示。
算法分为4个步骤:第一,输入训练视频集合,计算出训练视频集合的输入视频帧的运动特征和边缘特征,具体对应为光流特征和Canny边缘特征。第二,均匀采样图像块,并对每个图像块进行量化,统计生成判别特征集合。第三,采样输入视频的单帧或少量帧,从光流特征和边缘特征方面采样局部特征,统计视频帧中出现每种判别特征的频率,并对其进行编号。第四,利用已学习到的判别特征集合训练分类器,再通过分类器判断当前视频帧中的行为类别。
本文采用EP(emerging pattern)模式挖掘算法来生成分类器,区分各个类别行为的局部判别特征[4]。
2 局部特征的量化方法和判别方法
2.1 量化视频帧中局部特征的方法
EP模式挖掘算法前提需要有可作用的元素集合,因此,先给出编码视频帧中的局部特征并使其成为集合的方法。
图2中给出了计算一个视频帧中光流特征和Canny边缘特征的算法过程。首先,选定图2(c)(d)中的红色框中A×B大小的帧块范围,其中,A=40,B=40。按下列步骤量化视频帧块的特征为一个元素集合:第一,平均分割A×B帧块,其中,单个方格的尺寸为a×b,a=8,b=8。再依据图2(a)所示的方向量化盘,将运动方向量化取值为1~4的整数值。第二,结合每个方格在整个A×B帧块中的相对位置给出该方格对应的运动编码值。以图2(e)(f)中用黄色虚线框标记的方格为例,该方格的相对位置是4,运动方向即对应的光流特征量化为1。所以,该方格的运动编码值为41。同理,可计算出该方格的对应于边缘编码值为43。最终该方格的组合特征量化值为413。若单个方格中的运动幅值或者边缘幅值小于设定的阈值,则将该方格的量化值记为空,在图2中表示为‘X’。第三,依据上述方法,可得出所有方格的组合特征量化值,记为运动-边缘编码值集合,如图2(g)所示。
2.2 局部判别特征的学习方法
对行为进行分类,每个类别的行为都具有相应的特征。总结出这些特征,就可以对行为类别进行判别了。实验中,选取大小为40×40像素的视频帧进行研究,将包含每个行为类别的视频数据称为正例视频集合,从中量化出的局部特征形成正例数据集合;而除此之外的行为类别的视频数据构成反例视频集合,同理,从中量化出的局部特征形成反例数据集合。分别在这两种集合上应用EP算法,利用2.1中的方法进行量化,挖掘出两者的局部特征区别,这些区别就构成了两者的判别特征集合。应用EP模式挖掘算法之前,本文定义了两个阈值,通过调节阈值的大小,就可以控制挖掘出的局部特征的支持率和增长率。支持率具有描述能力,用来保证挖掘出的局部特征有统计意义;增长率用来保证局部特征的判别能力。
以图3给出了判别特征及其在视频帧中的分布情况示意图。图3(a)中,选取视频帧中大小为5×5像素的帧块(图中用紫色高亮标记)进行采样,每个帧块的数值集合的子集合(图中用白色高亮标记)对应一个判别特征实例。这个实例有一定的判别能力,同时还包含了其在整个视频帧中的位置信息。图3(b)(c)中,给出了分别利用光流特征、边缘特征和两者组合成的“光流+边缘”特征来量化视频帧得出的判别特征分布情况示意图,其中,每个像素的亮度反应了该像素点上判别特征分布的个数。3种判别特征的量化方法分别得出各自的有判别能力的行为语义结构。图3(b)中,光流特征通过躯干和腿部动作来判定“跑步”行为,通过手部的上扬动作来判别“挥手”行为,从而区别“跑步”和“挥手”行为。Canny边缘特征通过斜弯的腿部判定“跑步”行为,通过直立的腿部判定“挥手”行为。两者组合成的“光流+边缘”特征有着最好的区分效果,它通过“挥手”行为中的手部上扬动作和“跑步”行为中摆臂动作和腿部斜弯动作,来判定“挥手”和“跑步”两种行为。在图3(c)中,光流特征不能够很好的区分“跑步”和“慢跑”这两种行为。边缘特征是通过腿部的斜弯动作来判定“跑步”行为,通过身体躯干来判定“慢跑”行为的。由于这两种行为的腿部运动幅度不同,“慢跑”行为比“跑步”行为的幅度小,弯曲度也小,所以可以区分开这两种行为。而两者组合成的“光流+边缘”特征则在边缘特征的基础之上,又增加了人手臂的局部特征,故判别的特征更加显著。
3 基于局部判别特征的行为分类识别算法
3.1 单视频帧的行为识别算法
Boosting分类框架具有运算简单和识别准确率高的优点,可以用来从单视频帧中学习行为分类模型[5]。每个判别特征eb的判别分数的计算公式如下:
公式中,b表示行为类别,b∈B对应的Gb(H)。Gb(H)表示强分类器(strong classifier),它是通过弱分类器(weak classifier)来构造的,而弱分类器是通过整合所有学习到的局部判别特征来构造的。eb指学习到的行为类别b的判别特征,H指行为视频帧,Geb(H)指该判别特征所对应的弱分类器。Reb(H)指每个判别特征eb的判别分数,它是通过支持率d(eb)和增长率u(eb)计算出来的,m(H,eb)指判别特征eb在帧H中出现的次数。当Reb(H)>θ时,弱分类器的输出为1,即geb(H)=1;相反的,弱分类器的输出为O;其中,θ的值是通过最小化训练数据分类错误而学习得到的。视频帧的行为标签b*的计算公式如下:
3.2 视频段的行为识别算法
在已有的单帧行为识别算法的基础上,采用同样的训练分类模型的方法,并假设单帧行为分类模型已经训练好的前提下,视频段的行为识别算法步骤如下:
第一,以4为步长,从视频段中采样视频单帧。
第二,提出置信度的概念。因为采样具有的随机性,当采样得到的视频帧中含有较大噪声时,行为识别效果就会变差。从视频帧集合中提取出一个具有较高置信度的子集,并利用该子集中的视频帧来参与最终行为类别的判定。视频帧Hs的置信度conf(Hs)的计算公式如下:
其中βeb(Hs)表示在视频帧Hs中检测到的特征的弱分类器的权重。当conf(Hs)>0.7时,视频帧Hs被认为是置信帧;否则不是。所有置信帧组成的集合记为J。
第三,利用上节的算法对每个采样帧进行行为识别,识别结果记为Gb(Hs)∈{0,1}。
第四,采用投票的方式确定视频片断的行为类别标签,公式如下:
4 实验结果及分析
KTH人体行为数据库是公开的行为数据库,它包括了25个表演者执行6种简单行为,包括“拳击”、“挥手”、“拍手”、“慢跑”、“跑步”和“散步”。每个表演者在简单的背景下表演的这6个动作,分别在4个不同的条件下进行拍摄,包括室内场景、室外场景和摄像机焦距变化等,每种行为包含了96~99段视频序列。图4中展示了KTH数据库视频的样例视频帧。
基于KTH行为数据库来测试行为识别算法的效果。实验中,设定EP模式挖掘的增长率阈值是2,支持率由程序自动调整,并保证每个类别的行为都包含500个判别特征。随机的将所有视频帧依据2:8的比例划分为训练数据和测试数据,将10次测试结果的平均值作为最终的实验结果。
图5给出了在KTH数据库上本文的基于视频帧的行为识别方法与基于时空兴趣点的行为识别方法的结果比较图。从图中可以看出,行为识别准确率随着视频帧帧数的增加而不断提升。但当帧数达到20帧左右的位置时,行为识别准确率基本开始稳定。原因是在KTH数据库中的大多数行为属于重复运动,而运动的周期保持在20帧左右,所以,当帧数达到20以后,行为的判断信息不再增加,行为的识别准确率也就稳定不再增长了。本文的方法在“拳击”、“拍手”、“慢跑”和“散步”4种行为的识别准确率上优于基于时空兴趣点的方法,而在“挥手”和“跑步”两种行为的识别准确率上不如基于时空兴趣点的方法。分析其中原因,是本文的方法没有考虑特征在时间点上的关联性。
5 结语
介绍了基于简单特征量信息的快速行为识别算法总体流程,给出了量化视频帧中局部特征的量化方法和判别方法,在此基础上给出了基于局部判别特征的行为分类识别算法。从实验结果分析得知,本文的算法相较于目前流行的基于时空兴趣点的行为识别方法,具有运算快速和识别准确率较高的优点,且本文的方法是基于单帧视频或少数帧视频的。该算法仍存在待改进之处,需要进一步探索行为视频时空体中更加复杂的行为结构信息。
摘要:人体行为识别技术是利用机器视觉,以人体的生物特征参数为基础,对人的数量、行为和身份等信息进行快速准确分析判断的一种实用技术。该技术可应用于安防监控、安全验证、军事、商业和工业等领域。提出一种基于简单特征量信息的快速行为识别算法,与当前主流的算法相比,有可用更少的训练数据和识别效果更加高效的特点。
关键词:特征量,行为识别,分类器,KTH数据库
参考文献
[1]王蓉,杨宁,李锦涛.单像素人体轮廓提取方法研究[J].科学技术与工程,2014,14(24):252-265.
[2]王杰.视频流中人体的检测与分离[D].西安:西安电子科技大学,2013.
[3]孟凡辉,王浩,方宝富.可扩展梯度直方图人体检测算法研究与实现[J].广西师范大学学报(自然科学版),2011,29(3):168-172.
[4]史东承,冯占君.视频中人体行为分析[J].吉林大学学报(信息科学版),2014,32(5):521-527.
【特征量跟踪算法】推荐阅读:
特征点跟踪09-16
自然特征的跟踪08-08
捕获跟踪算法论文09-09
机动目标跟踪算法11-04
雷达多目标跟踪算法09-11
特征值算法06-09
图像特征提取算法研究06-05
SIFT特征匹配算法10-03
数据跟踪07-15
政策跟踪05-12