多特征融合论文

2024-10-07

多特征融合论文（通用7篇）

多特征融合论文篇1

0 引言

视觉目标跟踪本质上是从视频图像序列中估计出感兴趣目标的位置以及运行轨迹。目前,在视觉跟踪领域提出的跟踪方法大致可以分为两类:产生式方法和判别式方法。产生式方法只利用目标本身的外观信息来建模,搜索与目标模型相似度最高的候选目标区域来进行跟踪;具有代表性的产生式跟踪器如:Histogram-Based Tracker[1]、Sparsity-based Tracker[2]、WSL Appearance Tracker[3]等;判别式方法既利用了目标本身的信息,也利用了目标周围的背景信息,它将目标跟踪看成一个二分类问题,即从背景中区分出感兴趣的前景目标。具有代表性的判别式跟踪器如:多实例学习跟踪器[4]、Ensemble tracker[5]、On-line Boosting Tracker[6]等。

跟踪时构建的目标表观模型的准确性和稳定性会直接影响跟踪器的精度,由单一特征描述的目标表观模型很容易受到外界干扰,跟踪效果会变差,有时甚至会跟丢目标,融合多个特征进行视觉目标跟踪能很好地提高跟踪器的精度和鲁棒性。J.Vermaak等人[7]将颜色、运动和立体噪声特征融入到了粒子滤波框架。Avidan的Ensemble Tracker[5]联合了局部方向梯度直方图HOG[8]和每个像素的RGB值去构建特征向量。Q.Zhao等人[9]利用联合跟踪框架将两个独立的特征(颜色特征和HOG特征)通过两个在线SVM分类器联合起来用于跟踪。D.Wang等人[10]利用空间金字塔匹配核函数计算每个特征构建出的目标直方图和候选目标直方图之间的相似度并生成一系列的概率图,然后通过粒子群优化(Particle Swarm Optimization,PSO)算法解决一个回归问题将各概率图融合进行目标跟踪。

文献[11]利用颜色名称特征(Color Names,CN)[12]对CSK跟踪器[13]进行扩展,提出了CNT(Color Name Tracking)跟踪器,提高了CSK跟踪器的精度,但在一些复杂环境下,效果不是很好,精度低,鲁棒性也较差。在CNT跟踪器中单纯用颜色名称特征CN构建目标表观模型,当出现相似特征的干扰物时,会出现漂移跟丢目标。此外,目标的特征随着环境变化也在不断变化,导致在一些复杂场景中跟踪精度很低。

为了提高CNT跟踪器[11]在复杂场景中的跟踪精度,由以上多特征融合算法的启发,提出一种基于回归的自适应多特征融合跟踪算法(Regression-based Adaptive Multi-feature Fusion Tracking,RAMFT)。提取出各子图像块的灰度特征、HOG特征和颜色名称特征构建目标表观模型,利用正则化最小二乘分类器得到各响应值,利用加权和准则融合各响应值,在跟踪过程中通过求解岭回归方程对各权重实时地自适应更新,得到准确稳定的检测分数值,通过找到检测分数取最大值的位置去估计目标的真实位置,从而进行精确地目标跟踪。

1 CNT跟踪器

CNT跟踪器[11]主要是利用颜色名称特征(CN)对CSK跟踪器进行扩展,对在线密集采样得到的子图像块构建目标表观模型,然后通过训练一种正则化最小二乘分类器来进行目标跟踪。

1.1 正则化最小二乘分类器

通过在线密集采样得到含m个样本的训练图集和相应的标签(xi,yi),i=1,2,K,m,训练分类器f( x) 找到正则化风险最小的参数。线性分类器的形式为f(x)=<τ,x>+b,这里 <τ,x>表示对 τ 和x进行内积,b是一个偏差项,求出 τ 之后将样本点代入就可以求出b 。最小化的问题可以归纳为

式中:L(y ,f(x) )表示损失函数,l 是一个正则项控制量,当二次损失函数L(y,f(x))=(y-f(x))2时,式( 1 ) 就表示正则化最小二乘。为了改善在高维特征空间中的分类性能, 定义一个核函数, x是训练样本, z是测试样本,分别是训练和测试样本的特征向量空间,由文献[13]可以求出,对于正则化最小二乘核函数(Regularized Least Squares with Kernels,KRLS)得到一个闭合解:

其中K是核矩阵,其元素kij=k(xi,xj),I是单位矩阵。只要求出了 α ,就会得到前面的解 τ ,α 由系数αi组成,即α=(αi) ,由文献[13]可以解出KRLS的解为

将式(3)代入中,得到正则化最小二乘分类器的响应值

其中: A F(α) ,K(z,x)(k (zi,xi)), F表示离散傅里叶变换,F1表示离散傅里叶反变换。

1.2 快速检测

对于上述分类器,在第t帧的输入图像中,通过颜色名称特征对尺寸大小为M ×N的采样图像块构建的目标表观模型为zt,考虑所有位置的循环移位zt(c,d)作为第t+1帧的训练样本去训练分类器,用yt(c,d)表示zt(c,d)的标签,其中。在第t+1 帧的输入图像中,通过颜色名称特征对尺寸大小为M ×N的采样图像块构建出的目标表观模型为zt1,由式(4)可以得到在所有位置的分类器响应为

式中:。

CNT通过r取得最大响应的位置来估计该帧图像中真实目标的位置,取得了较好的跟踪效果,但在一些复杂场景中,由于光照、遮挡等众多因素的干扰,仅仅由颜色名称特征构建的目标表观模型极不稳定且不能准确地描述目标,从而导致跟踪精度低。

2 基于回归的自适应多特征融合跟踪

为了解决CNT跟踪器在复杂场景中跟踪精度低的问题,结合CNT跟踪框架提出一种基于回归的自适应多特征融合跟踪算法。

2.1 算法流程

本文的自适应多特征融合跟踪算法是通过提取多个特征分别构建出不同的目标表观模型,利用正则化最小二乘分类器得到各模型的响应,进而采取加权和准则融合各响应,在跟踪过程中通过求解一个岭回归方程实时地自适应更新权重,得到精确稳定的检测分数值,通过该检测分数值最大值的位置去估计目标的真实位置,算法流程如图1 所示。

2.2 自适应多特征融合

在第t帧,用qt表示当前帧目标的候选位置,用n个特征对目标图像块进行描述建立目标表观模型,通过上述分类器分别得到检测分数(即响应值)为ri(qi),i1,2,3,,n,通过加权和准则可得:

其中w=(w1,w2,K,wn),,初始化wi1/n(i1,2,,n),并在之后的跟踪过程中,基于岭回归方程设计权重wi的自适应更新策略增强各特征分量的局部判断力,进而提高跟踪精度。

2.2.1 岭回归方程

用qt表示第t帧目标位置的最优状态,其中第一帧目标位置的最优状态通过手动标记获取。设在qt的邻域N(qt*)里多特征融合后的响应为r(qt) ,则r(qt) 与r(qt)的差值应与qt和qt之间的距离成正比例关系,即当r(qt*)r(qt)的值越小时,qt与qt之间越近;当r(qt*)r(qt)的值越大时,qt与qt之间越远。并且,希望qt发生较小变化时能引起r(qt) 出现较大的变化,以增加跟踪器的位置判别力。因此,结合式(6),建立岭回归方程:

其中g(qt,qt*)=||qt-qt*||,是一个变量。由图2 可以直观地看到,ηt<0的曲线比ηt>0的曲线尖锐,说明当ηt<0时,qt的响应r(qt) 比ηt>0时更有位置判别力。所以,当所有的ht都小于零时,r(qt*)-r(qt)比g(qt,qt*)更具有位置判别力,故需要对ηt大于零的情况进行惩罚。

2.2.2 权重更新

由2.2.1 节可知,为了找到最优权重w*=(w1,w2,K,wn),需最大化r(qt*)-r(qt),而这等同于最小化,其中f(ηt)是用于惩罚ηt>0的成本函数,取Φ(ηt)=max(0,ηt)。设T为qt*的邻域N(qt*)里位置状态量的个数。由文献[14]可知,的最小化问题可以通过式(8)来实现。

其中δ 是一个正则化控制量,取δ =0.5,式(8)的最小化问题可以利用梯度下降法来处理。求出H(w) 的梯度:

其中:表示H(w) 的梯度,θ 是一个学习速率参数,初始取θ =1,之后每迭代一次减少为上一次的二分之一。

2.3 分类器更新

论文针对于每一个特征都进行了相应的分类器更新,这样使得跟踪器更具有鲁棒性。对于采用的第i个特征,考虑从第一帧到当前帧p提取出的目标表观特征{zt:t1,2,,p},从文献[11]可知分类器总成本函数的最小化可以通过式(11)的最小化来实现。

其中:在1.2 节已提到,,yt的元素为yt(c,d),。g 是学习速率参数,本文取γ =0.1,对AP的分子与分母分别通过式(12) 和(13) 更新,对于第n个特征在第p帧计算得到的AP分别为{AiPAPNi/APDi,i1,,n},目标表观模型zpi通过式(14)来更新,则可以得到总的更新策略:

3 实验结果及性能分析

3.1 实验装置与评价标准

实验仿真均在Matlab R2009a,Window8 系统,Pentium(R) Dual-Core CPU处理器,3.2 GHz主频和4G内存的计算机环境下编程实现。为了验证本文算法的有效性,采用了文献[15]中的跟踪评价方法,将本文提出的RAMFT跟踪器与CNT跟踪器、CT跟踪器[16]、IVT跟踪器[17]、STC跟踪器[18]进行了比较。选用的测试视频序列是Benchmark库[15]中一些比较有挑战性的视频序列,各视频序列的特点如表1 所示。

采用与[11,15]相同的衡量跟踪算法性能的三个重要指标,即平均中心位置误差(Average Center Location Error,ACLE)、距离精度(Distance Precision,DP)、重叠精度(Overlap Precision,OP)。ACLE表示跟踪结果中目标的估计中心位置与手动标记的ground-truth之间的平均欧式距离。DP表示在跟踪视频序列里中心位置误差(Center Location Error,CLE)小于一定阈值的帧数相对于视频序列总帧数的百分比(本文所有实验取与[11,15]相同的阈值20 pixels)。OP表示跟踪过程中估计的跟踪框与[15]中手动标记的跟踪框之间的重叠度SAOR超过一定阈值a (a[0,1])的帧数相对于视频序列总帧数的百分比(本文所有实验采用与[11,15]相同的阈值a0.5 )。重叠度的定义为

其中RT表示跟踪边界框的区域,RG表示ground-truth中手动标记的跟踪边界框区域,A表示求区域的面积。

3.2 实验结果及分析

3.2.1 定性分析

在六个测试视频序列中所有跟踪器的跟踪结果对比图如图3 所示(注:为了区分,采用各跟踪器的跟踪边框类型分别为:本文提出的RAMFT跟踪器的跟踪边框是实线,CNT跟踪器的跟踪边框是虚线,CT跟踪器的跟踪边框是点划线,IVT跟踪器的跟踪边框是点线以及STC跟踪器的跟踪边框是点划线且线宽比CT的线宽要小)。

1) 遮挡和光照变化

在Facebook2 中,目标被书本和帽子同时遮挡且有光照变化时,只有CT与RAMFT能较好跟踪,最后CT也漂移,RAMFT仍然能准确跟踪。在Coke中,由于光照变化强烈和部分遮挡,在几十帧的时候,除了STC与RAMFT,其他算法都已跟踪失败,最后只有RAMFT能准确跟踪。在Jogging中,目标被柱子完全遮挡时,CT、CNT、IVT、STC全部都跟踪漂移,目标再次出现时,只有RAMFT可以准确地跟踪。在Woman中,刚开始都能较好跟踪,目标被不同颜色的汽车连续遮挡后,只有本文算法能准确地跟踪。

2) 背景杂波、快速运动和旋转

在Basketball中,被跟踪的运动员有很多快速地形变,被相似球员干扰,旋转等诸多因素。刚开始除了STC,其他算法都能跟踪良好,在300 帧的时候,CT、IVT出现了漂移,随后CNT也逐渐漂移,最后只有RAMFT可以良好地跟踪。在Mhyang中,由于背景杂波和旋转等因素的干扰,CT表现很差,CNT与STC也有很大偏移,只有IVT与RAMFT跟踪效果最好。可以直观地看出,本文提出RAMFT跟踪器一直都能保持良好的跟踪,其他跟踪器大部分都会产生漂移或跟踪失败,本文算法性能优于其他四种算法。

3.2.2 定量分析

1) 以上算法的平均中心位置误差(ACLE)、距离精度(DP)、重叠精度(OP),分别如表2 所示,中心位置误差(CLE)曲线图如图4。当ACLE的值越小而DP和OP的值越大时,表明该跟踪器的跟踪精度越高,鲁棒性越好,反之不然。从表2 和曲线图中,可以看出,本文算法在跟踪过程中平均中心位置误差小,距离精度和重叠精度高,可见本文算法在精确性和鲁棒性等方面都优于其他四种算法。

2) 以上五个跟踪器的处理速度如表3 所示,从表3 可以看出,STC跟踪器的速度最快,其次是CNT跟踪器和RAMFT跟踪器。由于某些序列本身特征结构的复杂性较低,在提取特征时相对比较快或权重更新时对文中式(8)能较快地求解实现最小化,这样RAMFT跟踪器相对于CNT跟踪器只增加了较少的成本损耗,故在这些序列中RAMFT跟踪器与CNT跟踪器的处理速度基本相同,例如Basketball、Mhyang以及Facebook2 序列;而对于Jogging和Woman序列,由于序列本身复杂性较高导致多种特征的提取以及建模的复杂度有所增加,相比于CNT跟踪器提取单一的颜色名称特征多消耗了时间。从平均速度上看,RAMFT跟踪器比CNT跟踪器的处理速度稍微慢了一点,但每秒也处理了四十多帧,基本可以达到实时性。

f/s

4 结论

本文提出一种基于回归的自适应多特征融合的目标跟踪算法,通过一种在线检测跟踪框架采用不同特征构建出目标表观模型,通过正则化最小二乘分类器得到相应的响应值,最后利用回归的多特征融合算法得到精确而稳定的检测分数值,每一种特征的建模也单独地进行在线更新,使跟踪更适应复杂场景的需求。上述实验结果证明了本文算法的有效性和鲁棒性。此外,本文算法仍然存在需要改善的地方,未来的研究重点着力解决自适应目标尺度变化以及算法优化的问题,使得跟踪在更为复杂的场景中更加地鲁棒与高效。

基于多特征融合的人体行为识别篇2

人体行为识别在智能视频监控、人机交互、视频检索、运动分析、医疗诊断和监护等领域具有广阔的应用前景，已经成为计算机视觉领域备受关注的前沿研究课题。目前，基于视觉的人体行为特征的描述方法主要包括[1]:基于模板匹配的方法，该方法通过对视频序列中检测到的人体形状建立起一组与特定运动相对应的人体形状序列，而后采用模板匹配的方法对行为进行识别。该方法实时性好，能够识别简单行为，但要求提取出的人体前景较为精确[2];基于光流的方法，该方法仅仅依靠连续帧的相对运动，不受复杂背景的影响，但计算量大，而且不够鲁棒;Fathi等[3]提出了结合底层整体光流特征和中层局部光流特征对视频中的运动区域进行整体描述，该方法在相对单一的背景下取得较高的识别率，但是仅仅依靠光流信息仍不足以对运动特征进行描述;基于兴趣点的方法，该方法通过提取兴趣点，并对兴趣点周围局部区域进行描述。兴趣点是对显著区域的稀疏采样，其计算和存储代价较小。该方法的缺点是未能解决动态背景干扰问题。Yuan等[4]利用三维Harris检测器对动作视频中兴趣点进行提取，在此基础上对动作进行时空表征，进而实现动作识别。Zhang和Liu[5]用量化的局部SIFT特征实现人体行为的描述;基于语义描述的方法，它将场景中人的活动情况用填空的形式填入语法格式中，产生对人体行为的理解的自然语言描述[6]，该方法能够识别子事件并行发生的行为，但容易受低级子事件所带来的错误的影响。

多特征融合是获得鲁棒性更强的特征描述有效方法。融合的多特征既可更准确地表征运动，也可减少信息冗余，在精度和效率上有较大优势。本文通过选取人体行为区分度较高的运动方向特征、形状特征和光流变化特征进行描述，提出了一种基于MOH特征、2D-Sift特征和HOOF特征相结合的人体行为识别方法。多个特征之间采用基于特征层面的融合方法进行多特征融合。

1 人体行为识别框架

视频序列中的人体行为是不断变化的，对于不同行为可能出现某两帧极其相像(如走路和跑步)，因此，视频序列中的人体行为识别需要将视频序列分割成若干卷，对每一卷进行判别。人体行为识别框架如图1所示。通过构造运动历史图MHI提取出基于MHI图运动方向直方图MOH的全局特征，并对人体运动区域提取基于光流方向直方图HOOF的局部特征和2D-SIFT局部特征。对一个时空卷中所提取的HOOF特征和2D-SIFT局部特征分别使用视觉词袋模型BOW进行降维。最终联合MOH全局特征通过支持向量机(SVM)进行识别。

1.1 目标分割

提取出完整前景目标是实现特征提取和特征描述的关键，是识别的基础。帧差法效率高且对复杂环境和光照具有较强的鲁棒性，但提取出的目标轮廓不完整易出现空洞，如图2(c)所示。而高斯背景建模方法对全身运动的行为(如:走路，跑步，跳跃)提取得较为完整，而对人体的局部动作(如:挥手，拳击)则很难提取前景，如图2(b)所示。为了克服二者的缺点，本文通过对帧差法与高斯背景建模的方法提取出的前景取并集，提取出较为完整的前景目标，如图2(d)所示。

图中，(a)是Weizmann数据库中jump,wave2的一帧，(b)是高斯背景建模法前景目标提取，(c)是帧差法前景目标提取，(d)是两种方法相结合的目标提取。

1.2 运动区域提取

像素变化比率图PCRM(Pixel Change Ratio Map)[7]能够大致估计视频片段中的运动信息，运动越剧烈而且持续的时间越长，在像素变化比率图中就会越亮，也就是值越大。本文利用2.1节中得到的前景图像Di构造像素变化比率图。首先根据式(1)求得当前帧与前后两帧的像素变化分布。然后根据式(2)获得PCRM图像。

其中L为视频帧数。最后根据PCRM图像，将图像分别在水平方向和垂直方向进行投影，根据投影的波谷的位置，估计出运动位置，如图3所示。图中，第1行分别为动作Walk,Jack,Slide,Skip的PCRM图，第2行分别为估计出的运动位置。

2 特征提取

2.1 MOH特征提取

运动历史图(MHI)是一张静态图像，能提供一些运动属性，比如运动方向等，构造方法如式(3)所示:

其中τ为时间窗的大小，在时间窗之外的帧将被忽略，D(x,y,t)表示第t帧时的前景图像，x,y是像素坐标，构造的MHI图如图4(a)所示。

在获得MHI图像后，对MHI图像上的每个点(x,y)，根据式(4)求得运动方向θ(x,y)。

将θ(x,y)量化为K个bins(本文取K=18)，根据式(4)分别统计出落入每个bin中的梯度方向个数，形成运动方向直方图F。然而当θ选0°～360°的有符号梯度方向空间时，运动方向相反的同一个行为(如向左跑和向右跑)如图4(a)、(b)，可能映射到的直方图相差K/2，如图4(c)、(d)所示。为了解决该问题，传统的方法是将相反方向的梯度映射到直方图的同一个方向，即转换到0°～180°的无符号梯度方向空间，但该方法容易导致两个不同的动作可能拥有相同的特征表示，因此无法区分一些不同的动作。受文献[8]提出的Ex Ho G特征的启发，本文根据式(6)至式(8)对运动梯度方向直方图F作出了改进。

式中，根据将F(k)分为正梯度空间和负梯度空间两部分，为正梯度空间和负梯度空间对应bin的值相加的绝对值，Fdiff(k)为正梯度空间和负梯度空间对应bin的值相减的绝对值，最后将和Fdiff串联起来构成MOH特征FMOH。

图4中，(a)、(b)分别为向左跑和向右跑得MHI图，(c)、(d)为未改进前的运动方向直方图，(e)、(f)为改进后的运动方向直方图。

由图4(e)、(f)可见，改进的运动方向直方图在有符号梯度方向空间下，能有效地解决了相反方向运动时，同一动作类内聚类度较差的问题。为此，将改进的运动方向直方图(共计K=18维)作为最终的MOH特征FMOH。

2.2 2D-SIFT特征提取

SIFT特征不仅对图像的尺度、旋转具有不变性，而且对亮度和3D相机视角的改变也保持一定的稳定性;在时域和频域内都能较好的定位，减少因遮挡、杂乱或噪声引起的分裂概率，可以有效地用于匹配不同图像的场景和目标。

使用可变尺度高斯函数G(x,y，σ)和输入图像I(x,y)相卷积构建高斯金字塔，如式(9)所示:

其中，*表示卷积运算;σ是尺度因子，k为尺度因子的比例系数，并且有:

再根据式(11)构造Do G金字塔。

通过判断在Do G尺度空间金字塔中是否检测到最大值来确定兴趣点的位置。为了减少计算量和不同背景、光照对识别结果的影响，本文仅对人体运动区域提取SIFT兴趣点，并剔除掉不在前景目标上的兴趣点。提取的部分兴趣点如图5所示。

在提取出兴趣点后，需要对兴趣点进行描述，本文采用2D-SIFT描述子进行描述，即以兴趣点为中心选取16×16窗口，每一个小格代表兴趣点领域所在尺度空间的一个像素点，箭头方向代表该像素点的梯度方向，长度代表梯度幅值;将窗口划分为4×4个种子点，每个种子点由4×4个小块构成，在每个小块上计算8个方向的梯度方向直方图，可产生4×4×8=128个数据作为2D-SIFT描述子。

2.3 HOOF特征提取

光流是图像中像素点瞬间移动所产生的速度场，它体现了视频中运动物体的运动趋势，可以用来确定运动目标的运动情况。定义I(x,y,t)为视频中t时刻图像上(x,y)点的亮度，u和v分别为该点光流矢量沿x、y轴的两个分量。设t+dt时刻该点位置为(x+dx,y+dy)，其灰度为I(x+dx,y+dy,t+dt)，因此该点的光流约束方程为:

令dt→0，利用Taylor式展开得:

其中Ix、Iy、It分别为该像素点亮度值沿x、y、t三个方向的偏导数。式(13)限定了Ix、Iy、It与光流矢量u、v的关系，但仅由一个方程是无法计算出两个光流矢量的，因此专家们提出了许多计算光流的方法，目前主要的方法有:LK稀疏光流，HS稠密光流，高精度光流，大位移光流。其中LK稀疏光流虽然精度相对后两种方法较差，但计算速度快，适合实时运算。本文采用LK稀疏光流方法，首先对人体运动区域进行稀疏采样，并求得采样点稀疏光流，光流分布如图6所示。

设G(x,y)为采样点(x,y)的光流幅值，θ(x,y)为该点光流的方向，由于人体动作主要集中在手部和腿部，本文将人体运动区域等分为上中下3个区域，加上整体区域共计4个区域(part(i),0≤i≤3)。将θ(x,y)量化为K(本文取K=8)个bins，对每个区域根据式(14)至式(15)构造光流方向直方图。

其中，1≤k≤K表示第k个bin,0≤i≤3表示第i个区域，ε是为了防止分母为0而引入的一个很小的正数。另外，为了更好地描述区域内光流梯度的分布疏密信息，本文根据文[9]构造了三种光流梯度描述子，如式(16)至式(19)所示:

其中ai为所求光流梯度的区域面积，mk是该区域内光流方向属于第k个bin的方向角个数，ε是为了防止分母为0而引入的一个很小的正数。最后将每一个区域所提取的光流梯度直方图串联起来，构成最终的HOOF特征，如式(20)所示:

3 特征融合与判别

在特征提取中，MOH特征，2D-SIFT特征，HOOF特征分别代表了全局运动方向信息，形状信息，光流变化信息，为了得到更好的表示运动模型和更高的运动识别率，需要对这些信息进行有效的融合。

对每一个时空卷的所有兴趣点提取128维的2D-SIFT特征，并采用视觉词袋模型[10]将得到的所有2D-SIFT描述子映射到一个具有300个词汇的字典中，得到一个300维的统计直方图作为最终描述子F2D-Sift。同样的，对一个时空卷的每一帧提取100维的HOOF特征，使用视觉词袋模型将得到的所有HOOF描述子映射到一个具有50个词汇的字典中，得到一个50维的统计直方图作为最终描述子FHOOF。

有效的特征融合的先决条件是每一个单独的特征向量具有相同的物理意义，F2D-Sift和FHOOF均由视觉词袋模型方法得到，确保了这一条件。对于由M种方法在视觉词袋模型下得到的特征向量{Fl|Fl={fjl}(1≤j≤Kl)}，其中1≤l≤M,K为字典中词汇个数。融合后的特征向量为FBOW={f11,f21，…，f1K1，…，f1M,f2M，…，fMKM}，即F2D-Sift和FHOOF融合后的特征向量为FBOW={f2D-Sift1,f2D-Sift2，…，f2D-Sift300,fHOOF1,fHOOF2，…，fHOOF50}。

另外，对每一个时空卷提取一个18维MOH特征FMOH，归一化后与FBOW合并，合并后的特征向量如式(21)所示，最终将FFUSION输入支持向量机(SVM)进行判别。

4 实验结果与分析

本文利用Weizmann数据库[11]和KTH数据库进行实验评估。实验在Core i5 3.10 GHz的CPU,VS2010的编程环境上进行。

Weizmann行为数据库包含了10种动作，分别是弯腰，开合跳，上跳，双脚跳走，跑，侧身走，单脚跳走，走，单手挥动，双手挥动。每种动作由9个人执行，共有93个分辨率为180×144的视频文件。该数据库背景是静止的，数据库较为简单。实验采用交叉验证的方法。依次把每个人的所有动作作为一个测试集，其余人的动作作为训练集，如此进行了9轮验证。另外，分别从每一种动作集中随机选取一个视频组成一个测试集，剩余的作为训练集，如此进行了60轮验证。图7为本文方法在Weizmann数据库的识别结果，平均识别率达97.83%。

KTH行为数据集包含了6种动作，分别为拳击，拍手，挥手，慢跑，快跑，走。每种动作由25个人在4个不同的场景下完成，4中场景分别为室内，室外，室外放大，室外且穿不同颜色的衣服。共有600个分辨率为160×120的视频文件。该数据库动作类型较少，但数据量大，视频中背景噪声较大。由于数量集较大，测试采用分割法。随机从25个人中选取16个人的视频作为训练集，其余的9个人的视频作为测试集，如此进行40轮验证。图8为本文方法在KTH数据库的识别结果，平均识别率达91.38%。

表1列出了MOH特征，2D-SIFT特征和HOOF特征分别对Weizmann数据库与KTH数据库的识别率。

如表1所示，基于不同的数据库处理效果，MOH与2D-SIFT的特征识别效果差异显著。MOH特征对背景静止、相对简单的Weizmann数据库能够取得较高的识别率，而对于背景噪声较大的KTH数据库则取得较低的识别率。反观2D-SIFT，其对于KTH数据库的识别率明显高于对Weizmann数据库的识别率。因此，仅采用单一特征的识别方法其适应性相对较差。表2列出了MOH特征，2D-SIFT特征和HOOF特征相互融合的识别率。

如表2所示，采用相同的验证方法，不同特征相互融合后的识别率均有所提升。其中，融合了MOH特征，2D-SIFT特征和HOOF特征的方法对Weizmann数据库和KTH数据库的识别率相对于采用单个特征的最大识别率(如表1所示)分别提升了10.7%和4.83%，证明了本文提出的结合全局运动方向信息，形状信息和光流变化信息的多特征融合方法的有效性。

表3列出了本文方法与目前的其他方法对Weizmann数据库与KTH数据库识别率的比较。与其他方法相比，本文方法在Weizmann数据库与KTH数据库上均取得较高识别率。

5 结语

多特征融合论文篇3

随着互联网技术的快速发展和信息的日益膨胀, 不仅当今的互联网充斥着大量的垃圾信息, 而且Web网页已经不再像以往的网页内容简洁、风格简单。网页里面加入了很多元素比如显示样式, 脚本和大量的广告等等噪声信息。如何从众多的垃圾信息中找到有用信息?如何在网页中准确并完整地找到主题信息所在的位置?成为当今研究的热点课题。

Web网页正文信息提取领域, 已经有大量的研究工作和许多比较成熟的方法, 要求抽取的网页数据源来自于同一网站或者网页结构相似的主要有基于网页模板的方法[1,2,3], 基于DOM树结构及其它延伸的方法[4,5], 很多研究者还把这两种方法相结合进行信息抽取, 比如RoadRunner系统[6];抽取的网页数据源不局限于同一网站的主要有基于视觉特征的方法[7,8], 基于统计理论的方法[9,10]等。在实际应用中可根据面向数据源的不同选取不同的方法, 并且很多方法都取得了不错的实验结果。

基于统计理论的方法中, 用网页正文特征来确定正文信息位置的方法主要有:Song等人[11]利用正文信息常见的三个特征 (即:标点符号, 非超链文本和超链文本) , 将这些特征转化为统计信息值, 以此确定正文信息的位置;周等人[12]延续了Song的方法并在后续处理过程中做了改进, 提出SCF方法进一步提高了抽取的效果, 更好地适应了风格多样的网页;李连霞等人[13]总结了网页的多个特征, 利用统计概率的方法确定正文信息的位置。

在实际应用中现今的基于统计理论的方法有其局限性, 随着网页风格的多样化, 抽取准确率有所降低, 通用性不强。本文旨在开发一个面向实际应用的、针对不同类型网页的正文信息提取及其结构化的系统, 该系统是“基于人机共建智慧平台的语义智能搜索引擎”项目中的一个子系统 (辅助扩展搜索引擎的后台知识库, 以及前台用户搜索时及时反馈结构化的网页正文信息提高用户体验) , 该系统尽可能适用于不同风格类型网页和任意网站。抽取结果的高准确率以及通用性是设计网页正文信息抽取算法的难点。作者以百度百科、互动百科以及各知名导航网站里面的网址为基础不断往外延伸共爬取了五亿多个URL, 下载了三千多万的网页, 以此为实验数据源研究具有较高准确率、通用性较强的网页正文信息抽取方法。为了满足网页风格的多样性和算法本身的通用性, 提出了一个基于多特征的网页信息抽取方法, 即WIEHF (Webpages Information Extraction based on Heterogeneous Features) 方法。

1 WIEHF方法

1.1 基本概念

现今主流网站网页的设计思想都是按照块进行设计的, 把某个模块的内容放到一个块中, 而WIEHF方法的思想也按照网页设计的习惯, 先对网页进行分块, 然后再对每个块进行正文识别, 算出最可能包含正文信息的块并提取出正文信息。在网页设计中常用的能进行分块的标签有

标签 (后面称为容器标签) 等。以下给出容器标签等相关概念的定义。

定义1标签里面能嵌套其他标签和正文信息的标签称为容器标签。

定义2单正文体网页是指网页正文信息集中在一个容器标签中。

定义3多正文体网页是指网页正文信息分布在多个容器标签中。

1.2 多特征的描述

对大量网页的分析发现, 网页主要分为单正文体网页和多正文体网页。

单正文体网页的正文特征主要是文本集中在一个容器标签中, 里面包含很多标点符号, 文本里面具有对标题描述的语言, 而且较多数其他容器标签而言更靠近标题标签。

多正文体网页的正文特征主要是文本分布在多个容器标签, 而且根据网页设计的视觉习惯, 这些容器标签的显示风格极有可能是一样的, 里面可能也包含很多标点符号, 文本里面也具有对标题的少量描述语言, 靠近标题标签。

综上对不同类型网页正文特征的分析和描述, 网页正文所具有的多个特征包括:正文文本数量、正文标点符号、正文超链接文本和非超链接文本的关系、正文对标题的描述性语言、正文离标题的远近以及正文信息显示的样式和位置。

融合这些网页正文特征而提出的WIEHF方法是先将html文档转换成DOM树, 然后计算每个容器标签的正文支持度;同时伴随着计算过程中和计算后的一些处理, 详见1.3节中算法步骤具体描述。

本文通过Jsoup.jar第三方jar包是实现对网页DOM树的构建, 该jar包实现的功能是先对网页的缺省标签进行修复, 然后解析html文档以html标签为根节点遍历所有的标签建立DOM树, 如图1所示。

在遍历DOM树时, 通过对各个容器标签进行唯一性的标注来实现每个容器标签位置路径的唯一性, 比如通过对图1的DOM树标注以后得到结果如图2所示。

我们可以得到每个容器标签惟一的路径分别为html/body/table[1]、…、html/body/div[n]、html/body/div[n]/div[1], 以及title标签的路径html/head/title。

计算每个容器标签的正文支持度 (SD) , 它的计算思想是将正文特征分为三类, 第一类是正文离标题的远近, 借此算出距离支持度 (DSD) ;第二类是正文对标题的描述性语言, 借此算出标题支持度 (TSD) ;第三类是正文文本数量、正文标点符号、正文超链接文本和非超链接文本的关系, 借此算出一般支持度 (PSD) 。然后利用这些支持度算出总的正文支持度即可确定最有可能是正文的容器标签, 计算方法如下:

其中, SD为正文支持度, DSD为距离支持度, TSD为标题支持度, PSD为一般支持度。

DSD的计算思想是:距离标题标签越近的容器标签就越有可能支持它是包含正文的容器标签。具体做法是将所有容器标签和title标签映射到一维坐标系中, 在计算距离支持度时假设title为坐标系上的原点, 容器标签可用式 (2) 进行映射和转换成坐标系上的点, 即可算出距离支持度。

其中, rdi为容器标签路径上的序号, q是大于0的一个整型常数, 在实验过程中发现q=10比较合理, 比如:如图1的某个容器标签路径html/body/div[1]/div[1], rd1=1, rd2=1, 则DSD=1/ (1×100+1×10-1) =1/1.1。

TSD的计算思想是:容器标签中包含标题的实体词越多就越有可能支持它是包含正文的容器标签, 具体做法是先将标题分词 (本文采用的分词系统是西南交通大学耶宝智慧中文分词、词性标注和实体标注一体化系统http://www.yebol.com.cn) , 提取出里面的实体词, 然后统计在所有容器标签中总的出现次数, 选取出现次数最多的两个词 (First Word和SecondWord) , 用式 (3) 求得标题支持度。

其中, FW为First Word在容器标签中出现的次数, SW为SecondWord在容器标签中出现的次数, α和β是两个常数, 并且α<β, 为了平衡算出的正文支持度和考虑到这两个词的重要性程度, 实验中它们的取值是α=0.5, β=1。

PSD的设计思想是:每个网页里面都具有普遍特征, 即标点符号超、链接文本、非超链接文本。通过下面的计算方法, 建立起它们之间的关系并算出其对所在容器标签的支持度, 具体公式如下:

其中, NC为非链接文本的字数, HC为链接的文本的字数, FP为标点符号支持度, p为标点符号个数。标点符号越少是正文的可能性就越小, 所以就减小其对自己是正文的信息支持。

由于在1.3节中会涉及到路径距离的计算, 所以在此先介绍它的相关概念和计算方法。

定义4路径距离是指容器标签之间距离远近的一种描述。

其中, juli (i, j) 是容器标签i和容器标签j之间的路径距离, len (i) 是根节点到容器标签i所经过的节点个数, len (j) 是根节点到容器标签j所经过的节点个数, pre (i, j) 是到容器标签i和到容器标签j所经历的相同节点个数。比如:容器标签i的路径为html/body/div[1]/div[2]/div[2]和容器标签j的路径为html/body/div[1]/div[2]/div[3], 此时len (i) =5, 说明从根节点到标签i时要经过5个节点才能到;同样可算len (j) =5, pre (i, j) =4, 最后可算出juli (i, j) =1。又比如:若有标签路径html/body/div[1]/div[1]/div[1]/div[0]和html/body/div[1]/div[1]/div[2]/div[1]的路径距离为3。

1.3 算法步骤

WIEHF方法的具体处理步骤描述如下:

输入:某个网页的源代码

输出:抽取信息的结果集

步骤:

1) 清除script、meta、style等噪声标签, 保存title标题标签和子标题标签。

2) 遍历网页DOM树, 将容器标签依次抽取出并以key-value的形式保存, 其中key为标签的路径, value为容器标签包含的内容。以容器标签为单位, 用式 (4) 计算PSD。

3) 对title标签和各级子标题标签进行分词, 统计出现次数最多的两个词 (First Word和Second Word) 。用式 (3) 计算出每个容器标签的TSD值。

4) 再次遍历容器标签集合, 用式 (2) 计算每个容器标签的DSD, 并同时用式 (1) 计算出每个容器标签的SD。

5) 利用式 (6) 计算容器标签之间的路径距离。当juli=1时, 比较这两个容器标签的class属性, 若没有则比较他们的style属性及其他属性, 如果属性相同, 则对它们的内容进行合并, 并将它们的SD值进行相加。

6) 选取前七个SD值的容器标签, 选取最大SD值的容器标签, 其文本长度在前七个容器标签文本长度的总长度中占的比例, 与0.5相比, 若大于等于0.5则设路径距离阈值JULI=2, 若小于0.5则设路径距离阈值JULI=4。

7) 计算前七个容器标签到最大SD值的容器标签的路径距离juli, 如果juli≤JULI则将此容器标签加入到最后要返回的集合lastset中。

8) 对lastset里面的元素进行遍历, 若lastset里面的元素只有一个, 则直接返回, 若不是则将对里面的元素挨个进行判断。判断方法如下:如果元素的内容里出现了3个及以上词库 (版权信息的词库) 里面词的并且无标点符号, 则将对该元素直接舍弃。

2 实验验证和结果分析

实验选取5个单正文体类型的网站和5个多正文体类型的网站, 分别是:sina、sohu、tom、pharmnet、chinayy和搜狐人物频道、百度知道、百度贴吧、智联招聘、ubuntu。在这些网站中分别随机选取了200个网页, 实验结果见表1所示。对于结果用提取正文信息的准确率 (P) 和完整率 (R) 进行评价, 它们计算公式如下:

其中, C1表示实验的网页总数, C2表示正确提取正文信息的网页个数, C3表示完整提取正文信息的网页个数。准确率是以网页总数为前提, 完整率是以正确提取正文信息的网页个数为前提。

由于Song等人和周等人也是利用网页正文特征确定正文信息的位置, 和文本的方法属同类, 但在处理方式上有所不同。所以表2中加入他们的实验结果进行对比。

从表2中可以看出, 在单正文体网页和多正文体网页的抽取准确率上较以往的同类方法要高。

图3为对应表2的直观条形图。

在图3中, 可以直观发现本文方法的较高准确率。更多更完善的网页正文特征因素加入到网页信息抽取方法中, 对抽取效果有很大帮助, 对单正文体类型的网页和多正文体类型的网页的抽取结果都有较高的正确率。

3 结语

多特征融合论文篇4

基于手势的人机交互在机器人控制、3D动画、娱乐、汽车电子、安全认证等诸多领域应用广泛[1]。近年来,Sony,Toshiba,Nintendo,Microsoft,IBM,Nokia等国际知名企业纷纷致力于将手势交互应用于消费电子领域,推出了大量原型产品[2,3,4,5,6,7]。这些产品大多仍采用接触式传感器来测量手关节的参数,虽然可精确地还原手势的3D空间模型,却因不舒适而降低了用户体验。目前,手势交互正逐渐转变为通过非接触式的实时视频采集用户动作,以计算机视觉的方式分析手势的纯视觉方式。该方式下用户无须佩戴任何装置,也不受空间位置的约束,采用日常生活中的手势给出交互指令,在自然舒适的状态下进行人机对话[8]。

手势视觉交互的核心是手势检测,其实质是指通过系统的分析,标定出视频中特定手势出现的时间和空间位置。由于人手是由27自由度的复杂链接体[1],同一手势经常因尺度、旋转、仿射和用户个体差异等呈现外观差异,同时受到纹理混杂或相似颜色背景的干扰,使稳健的手势检测面临巨大挑战。

现有的手势视觉检测技术可分为3类:1)通过佩戴颜色标记进行检测,性能有保证,但使用不便[9];2)基于运动检测,方法简单但易受光照影响,不够稳定[10];3)通过机器学习的方法,运用Ada Boost技术,实现对特定手势的快速检测[11]。该方法对尺度和用户差异有很好的效果,但因采用Haar特征,易受背景混杂的影响,对交互场景有一定限制。

为在不同场景中实现稳健的交互手势检测,笔者提出了一种基于多特征融合的检测方案。在训练Ada Boost检测器基础上,通过结合混合高斯模型的肤色检测器和梯度方向直方图的识别器,运用连续多帧的结果,依据Fisher准则融合为最优线性鉴别式分类器,在多类复杂场景中取得了很好的检测结果。图1为多特征融合手势检测器原理图。以手掌与拳头两类典型的交互手势检测对本文方法进行验证。

2 Ada Boost手势检测器

本文采用Intel Open CV中的开源Ada Boost训练器[12]。在训练前将正样本图像调整为24×24像素灰度图,设定分类器结构为Tree Boost,采用Float Boost训练以便得到概率输出的结果,每级强分类器正样本通过率为99.5%,负样本通过率为50%。对于“拳头”,训练得到15级强分类器,使用1 250个Haar-like特征;对于“开手掌”,训练得到20级强分类器,使用1 730个Haar-like特征。为减少漏检,在融合过程中分别保留5级强分类器。

3 肤色块检测器

肤色是人体的特征,且在手势上分布较为一致。由于基于混合高斯模型(GMM)的检测器具备简练的参数化的建模方式和适合快速运算的特点,本文选择其作为肤色快检测器的基础。在本文的训练过程中,采用在不同光照和不同样本下采集的视频,标定出肤色区域的像素,约4 000 000个。以其他静止图片和视频中其他像素为非肤色像素集进行训练,分别生成16核的肤色模型和非肤色模型。

4 手势识别器

利用提取梯度方向直方图(HOG)特征描述手势,可以有效地解决手势平面内旋转造成的影响。因而基于Ada Boost检测的手势区域通过提取HOG特征并与相应的手势模板计算相似度,以概率的形式提供手势识别的置信度信息,参与融合过程。本文通过采集25个人的760个不同外观的手势样本,进行统计获得手势模板,具体过程参见文献[13]。

5 融合算法

本部分阐述的是多个检测器的融合方法,其融合依据为上述各检测器输出的检测结果区域Λ及其对应的置信度p G(Λ)。设检测过程从T0帧开始,则在T帧,Ada Boost手势检测器输出为{ΛjA,T,pjA,T}Mj=1,肤色块检测器输出为{ΛjC,T,{pi}jC,T}Nj=1。若T-1帧的融合后输出为{Λ*T-1,p*T-1},则多检测器的融合过程可概括为以下3个步骤:

1)初始化

设T=T0,当i∈[1,M],j∈[1,N],使得

式中:[λΛ,min,λΛ,max]和λp分别是单帧的手势区域面积的合适尺度范围和手势概率加权和阈值;α1,α2,α3为各置信度的权重。

则标记区域Λ*T0及其置信度p*T0为

完成初始化,令T=T+1,进入步骤2)。否则T=T+1,重复步骤1)。

2)单帧融合

当i∈[1,M],j∈[1,N],使得

其中,[λ′Λ,min,λ′Λ,max]为考虑了多帧重叠的较小的面积区间。

则标记区域ΛT*及其置信度pT*为

否则令T=T0,返回步骤1)。

3)多帧融合

若

其中,λT和λ′p,t分别为积累帧数阈值和积累置信度阈值。{βt}Tt=T0是一组遗忘因子,本文中满足

则输出手势区域ΛT*,并结束手势检测过程。否则令T=T+1,返回步骤2)。

上述算法中的关键问题是如何确定各检测器的输出概率融合阈值λp。事实上,从机器学习的观点来看,采用标记好的若干正样本区域{Λi}Ni=1,每个区域提供的参数包括piA,piC=max({pj}iC),piG,提供若干负样本区域{Λj}Mj=1,每个区域提供的参数包括pjA,pjC,pjG,则转化为一个半监督的学习问题。简化起见,设计一个线性分类器如下

设

式中:[pi,ωi]为一个标记了是/非手势区域的样本。存在正样本N1个,负样本N0个的训练集。若设各类样本均值向量mi为

样本类内离散度矩阵Si和总类内离散度矩阵Sw为

利用Fisher准则解得

于是可得

这一算法的最大特色在于综合考虑了目标尺度的需求、帧内多检测(识别)器的联合置信度、多帧检测结果的一致性和置信度的稳定性,最大程度上均衡了多检测器因采用单一特征而造成的性能缺陷。例如Haar特征在相似的衣服纹理上造成的误检,可由肤色块检测校正;而Haar特征在目标平面内小角度旋转下输出置信度很低,可由手势识别器中对小角度比较稳健的梯度方向直方图特征的置信度输出来提升,以免发生漏检。肤色块在背景颜色近似时造成连通域很大,可由Ada Boost检测调整。时域上多帧参数的验证则消除了背景运动,特别是用户身体移动的影响,因而能够比较准确地提供手势区域的目标模型,为全手势的人机交互奠定基础。

6 实验结果分析

为验证本文多检测器置信度融合的手势检测算法的检测性能和实时性能,这里特别给出通用计算机和低硬件资源的上网本两款平台上的测试结果。在下文中,A平台为配备Intel Pentium4 1.6 GHz CPU和2 Gbyte RAM的PC,B平台为配备Intel Atom 1.6 GHz CPU和2 Gbyte RAM的上网本。测试中使用的数据是实时采集的多个场景的交互视频,考虑到不同背景、光照的条件,在采集过程中,对用户的手势标准性未做严格限制,使得平面内旋转,尺度变化,与相似颜色背景、混杂背景的重叠等挑战更为突出。共测试5段视频,共1 782帧,每帧中包括1个开手掌手势,另有1 132帧不含交互手势或包括其他干扰手势。表1是各检测器在这些测试数据上的运行性能,表2是融合检测器各模块在平台A和平台B上的资源占用情况。图2中列出了一些有代表性的帧分别通过单独的检测器和融合后的检测结果。

图2a为使用Ada Boost的测试结果,图2b给出了对应各帧基于肤色/非肤色模型检测的肤色块,图2c给出了上述检测器结合手势识别器进行的融合检测的结果。可见,通过融合后的检测器,不仅手势的检测稳健性很强,更适合在低端的计算平台上进行实时处理,有利于嵌入不同平台上的应用程序。

7 小结

笔者从多特征融合的角度出发,深入研究了各种特征对手势检测问题的贡献和缺陷,从而提出一种融合式的手势检测器。从Ada Boost手势检测器的设计出发,依次论述了基于混合高斯模型的肤色块检测器的原理和训练过程、基于梯度方向直方图描述的手势识别器和多帧历史输出的验证模型,提出了多概率加权的判决准则和区域有效性判别准则,解决了异构特征在检测结果上的难于互补的困境。最后通过性能和效率的实验验证了融合式检测器的优势,证明了本文检测器在不同条件下,都能够有效地解决稳健检测特定手势的难题,为多种人机交互任务提供了保障。

摘要：基于AdaBoost手势检测器、混合高斯模型肤色Blob检测器的检测结果,结合特定手势识别器和多帧的输出,依据Fisher准则通过置信度信息融合为高可靠性的交互手势检测器,解决了在背景混杂和相似颜色条件下手势检测器的稳健性问题。

多特征融合的非线性目标跟踪算法篇5

如何提取可靠的目标特征和进行稳定的目标跟踪始终是机器视觉领域的关注热点,常用的跟踪方法有模板匹配、形心跟踪、边缘跟踪、彩色目标跟踪等等[1]。使用单一特征进行跟踪稳定性较差,比如模板匹配方法通过计算模板和搜索图像之间的相关度来提取最佳匹配位置[2],但当目标特征产生较大三维变形时将导致跟踪失效;形心和边缘[3]容易受复杂背景的影响等等。每种特征都各有优缺点,跟踪中使用多特征的集合有利于提高跟踪精度和降低跟踪误警率。Shearer提出一种基于运动连续性度量的多特征融合方法,但在背景剧烈运动的情况下很难正确衡量目标运动是否连贯[4];Triesch提出一种基于后验多特征贡献度计算的融合方法,但没考虑特征本身空间分布的合理性[5]。

粒子滤波是一种常用的非线性后验概率估计算法,适用于任何系统方程为非线性和噪声为非高斯的情况,精度可以逼进最优估计[6]。本文利用灰度直方图和边缘特征来表示目标,通过灰度直方图来表征目标的总体分布,利用边缘特征来提取目标的高频细节,将两者融合于粒子滤波概率模型框架中,并提出一种基于半峰宽和贡献度的特征可信度计算方法,实现了一种稳定的非线性目标跟踪算法。

2 多特征融合框架

2.1 粒子滤波算法

粒子滤波技术利用一组带有相关权值的随机样本{Pi,wi}i=1,…,Ns,以及基于这些样本的估算来表示后验概率密度。当样本数非常大时,这种估计将等同于后验概率密度[7]。表示为

其中:xk为k时刻的系统状态,zk为k时刻对系统的观测值,Ns为粒子数,wki为k时刻第i个粒子的权值。

2.2 多特征融合框架

粒子滤波方法建立了一个状态概率估计的递推框架,适用于非高斯、非线性的复杂跟踪场合。对于跟踪目标的单一特征,利用表征目标状态的一组粒子,并计算其权值,即可由式(1)得到目标状态的后验概率估计。使用粒子滤波对目标多个特征进行跟踪有两种基本方法:

第一种方法是用一个较复杂的模型对多种特征进行列举描述,形成一个多维状态空间,每个粒子都表征这个多维空间中的一个可能的状态。文献[8]证明,在维数大于10的空间里,使用粒子滤波器很难得到满意的结果。当状态空间的维数增加时,计算复杂度随指数增长。但若通过简化状态模型等方法将维数降低,又有可能丢失状态空间中的有用信息。

第二种方法是对每一种特征赋予一种相应的粒子进行表示,那么每种粒子仅需要表征一个较低维的状态,能大大提高粒子的效率。这样通过若干种粒子的集合来综合表示目标状态,既保留了多特征的信息,又降低了计算复杂度。因此本文采取第二种方法对多特征空间进行描述,假设共有m种特征,记表征特征i的粒子为Pi,其加权粒子集合为{Pij,wij}j=1,…,Nsi,则由所有特征的集合{{P0j,w0j}j=1,…,Nsi,…,{Pmj,wmj}j=1,…,Nsi}来计算多特征空间的后验分布概率,以灰度特征和边缘特征为例,可如式(2)所示。

其中:wik,h表征k时刻灰度粒子Ph的第i个粒子的归一化权值;wjk,e表征k时刻边缘粒子Pe的第j个粒子的归一化权值。α和β分别为灰度粒子和边缘粒子的加权因子,可由粒子数计算得到,即:α=Nsh/(Nsh+Nse),β=Nse/(Nsh+Nse)。

3 基于多特征的非线性目标跟踪

3.1 目标的多特征匹配

3.1.1 灰度直方图匹配

以差帧法或手工标注出目标初始位置后,可以建立目标灰度模板,计算其灰度直方图[9],如式(3)所示。

其中:Tn为第n级灰度的统计量,统计区域为M×N,f(x,y)为图像灰度函数。(i,j)处的归一化相关值为

其中:和分别为直方图模板Tn的均值和当前图像在坐标(i,j)处的直方图Sn(i,j)的均值。以灰度直方图来表征目标,统计图像的某个区域中所有像素在各灰度级出现的次数或概率,对目标进行仿射意义下的旋转不敏感。

3.1.2 边缘匹配

灰度直方图表示目标的灰度总体分布,而边缘特征则代表目标图像的细节部分,两者互为补充。首先在目标初始位置提取目标边缘模板EM,在后续每帧中得到图像边缘EI,利用Hausdorff距离来计算两者间的匹配程度[10],如下定义:

则(i,j)处的归一化边缘匹配值定义为

3.2 多特征粒子可信度的计算及粒子数重分配

对于跟踪单一特征的算法而言,应当在保证跟踪多种假设的前提下尽量提高粒子的效率,一般可以采用优化等方法使粒子向局部峰值点移动[11];对于本文所针对的多特征跟踪,多个特征之间可能有一定的联系,比如跟踪人脸器官,当人吃惊而张大嘴巴时,眉毛会上扬。但在一般场合,多个特征之间也可能不具有必然的联系,比如本文所采用的灰度特征和边缘特征,有可能两种特征同时都很明显,也有可能其中一种特征不太可靠。比如当飞机飞过较阴暗的云层,此时飞机整体灰度分布受到暗背景的干扰,灰度特征不可靠,但边缘还能较清晰的被识别出来。又如飞机飞过信号塔,局部受到遮挡,此时边缘特征受到较大干扰,但飞机的灰度特征还较为明显。因此不同特征在不同场合具有不同的可信程度,本文通过计算不同特征的可信程度来动态调节表征该特征的粒子数目,即可信度越高的特征将获得较多的粒子。

每个粒子表征目标的一种可能状态,其权值表示该粒子与目标实际状态的相关程度,则众多粒子的权值集合在空间上构成了一个“多峰”的相关值分布图,如图1为一维的示意图。

图1(a)中粒子聚集程度较高,峰形陡峭,此时粒子的加权较能有效表示目标真实状态,可信度高;图1(b)中粒子分布较为松散,峰形平坦,此时粒子之间的权值相差不大,没有粒子能对目标真实状态进行明显表征,这常出现在目标受遮挡或状态出现剧烈变化的情况下,因此其可信度较低。

本文提出一种基于半峰宽和各特征贡献程度的可信度计算方法,如下定义:

假设称Ri为特征i的可信度,且Ri满足:

其中:前一项中ai为特征i的相关权值波形的半峰宽,该值越大,表示波形越松散,相关峰值不突出;反之则表示相关峰值明显,可信度较大,因此该项表示了各特征相关波形分布的合理性。b和c为常数项。令NCall(i,j)为两种特征归一化相关值之积,即NCall(i,j)=NCh(i,j)·NCe(i,j),并得到峰值点ptp(ip,jp)。同样我们可得到灰度和边缘特征相关分布的峰值点pth(ih,jh)和pte(ie,je),则定义Ēi为特征i的峰值点pti到多特征加权后的峰值点ptp的欧氏距离。该值越小,说明所表征的特征与最终结果较相似,因此式中后一项表示了某特征对最终结果的贡献程度。

通过表征特征分布合理性的半峰宽ai以及表征各特征贡献度的Ēi,可以比较特征的可信程度,并相应动态调节粒子数的分配,以提高跟踪准确度。假设粒子总数Ns是一定的,则令各特征所拥有的粒子数与该特征可信度成正比,可信度高的特征获得较多的粒子数,即:

3.3 算法步骤

基于多特征融合的非线性粒子滤波算法步骤如下:

1)粒子初始化:在初始时刻t0,根据手工标注或差帧检测等方法提取目标初始位置,由式(3)提取目标初始灰度直方图模板,并通过sobel算子计算目标初始边缘模板。令粒子总数Ns=1000,灰度粒子Ph和边缘粒子Pe的数目初始化为Nsh=Nse=500,并定义初始样本分布mh0和me0。

2)粒子状态预测:在时刻t(t>0),利用系统动态模型对每个粒子进行状态预测,得到t时刻第i个灰度粒子的参数矢量mht,i以及第j个边缘粒子的参数矢量met,j。

3)系统观测:根据式(4)和(6)计算第i个灰度粒子的权值wik,h=NCh,第j个边缘粒子的权值wjk,e=NCe。

4)粒子加权:kt时刻的后验概率,也就是目标跟踪中所期望的目标参数mt,可以由多特征空间的后验分布概率式(2)计算。

5)粒子数目重分配:根据式(7)分别计算灰度粒子和边缘粒子的可信度,并由式(8)重新分配各特征的粒子数目。检查粒子权值,若粒子的权值太小,应从权值较大的粒子中衍生出后代粒子[12]。下一时刻的跟踪仍然从系统的状态预测步骤重新开始。

4 实验结果与分析

为验证本文算法的有效性,我们在PC机(CPU为P4 1.6G,内存512M)上用VC6.0编写了跟踪程序,用飞机飞过云层(序列1)、飞机飞过信号塔(序列2)和烟雾中的坦克(序列3)三段视频序列进行了跟踪实验。

如图2(a)为采用灰度直方图的跟踪结果,当飞机飞过云层时,目标整体灰度分布受到暗背景的严重干扰,跟踪点偏离目标,跟踪失败;但当飞机飞过信号塔时目标的灰度特性还较为明显;图2(b)为采用边缘特征的跟踪结果,当飞机飞过云层时,边缘特征还能较清晰的被提取出来,但当飞机飞过信号塔时,边缘特征受到较大干扰,跟踪失败。序列3中,目标处于较复杂的地面环境,受到背景道路和树林的干扰,与序列1类似,烟雾对灰度直方图跟踪造成了很大干扰,而其边缘跟踪还较为可靠,因此在多数场合中某种或某几种目标特征将对跟踪起有效作用。

(序列1:第20帧、第40帧;序列2:第20帧、第60帧;序列3:第50帧)(sequence 1:the 20th frame、the 40th frame;sequence 2:the 20th frame、the 60th frame;sequence 3:the 50th frame)

图2(c)为多特征融合方法的跟踪结果,我们根据两种跟踪方法可信度的比较来动态调节相应特征粒子,可信度大的特征拥有更多的粒子。同时对于单种特征来说,由众多粒子的权值构成的跟踪曲线在每一个时间点上构成山的形状,并保持多峰(多假设)状态沿着时间轴向前推进,这种方法克服了“峰值”跟踪的单一性。综合了可动态调节粒子数以及可进行“多峰”跟踪的粒子滤波方法,本文提出的多特征融合的非线性目标跟踪方法在较复杂的场景下、受到部分干扰时均能维持正确的跟踪过程。

图3是以上三种算法在序列1和序列2中的跟踪误差比较图(以水平方向为例)。图3(a)(序列1)中,在飞机飞过云层(第40帧)时,基于灰度直方图方法的跟踪误差已达到10个像素,并导致跟踪失败;基于边缘跟踪方法的最大跟踪误差为4个像素,平均误差为1.0个像素;基于多特征融合方法的最大跟踪误差为3个像素,平均误差为0.5个像素。图3(b)(序列2)中,在飞机飞过信号塔(第60帧)时,基于灰度直方图方法的最大跟踪误差为3个像素,平均误差为1.1个像素;基于边缘跟踪方法的跟踪误差已达到8个像素,并导致跟踪失败;基于多特征融合方法的最大跟踪误差为2个像素,平均误差为0.6个像素。由此可见本文提出的跟踪方法在两种干扰下均运行稳定,平均跟踪误差保持在1个像素以内。

(算法1:灰度直方图跟踪;算法2:边缘特征跟踪;算法3:多特征融合跟踪)(Algorithm 1:grey histogram tracking;Algorithm 2:edge feature tracking;Algorithm 3:multi-feature fusion tracking)

结束语

粒子滤波是近几年得到广泛关注的目标跟踪新算法,它最突出的优点是采取了粒子采样技术,以形成具有“多峰”形式的跟踪框架。本文通过灰度直方图来表征目标的总体分布,利用边缘特征来提取目标的高频细节,将两者融合于粒子滤波概率模型框架中,并根据特征可信度来动态调节特征粒子数目,实现了一种稳定的非线性目标跟踪算法。

摘要：为克服视频目标跟踪中仅利用单一特征易导致的跟踪失败,提出了一种基于多特征融合的非线性目标跟踪算法。通过灰度直方图来表征目标的总体分布,利用边缘特征来提取目标的高频细节,将两者融合于粒子滤波的概率模型框架中。并提出一种基于半峰宽和贡献度的特征可信度计算方法,动态调节粒子数目,使可信度高的特征拥有较多的粒子。最后,进行了目标跟踪仿真实验,结果表明,该算法具有较强的抗局部遮挡能力,与单特征跟踪算法相比,平均跟踪误差减小了0.5个像素。

关键词：多特征融合,特征可信度,灰度直方图,边缘特征,粒子滤波,视频跟踪

参考文献

[1]Munir A,Atherton D P.Maneuvering Target Tracking Using an Adaptive Interacting Multiple Model Algorithm[J].Proceedings of American Control Conference,1994,2:1324-1328.

[2]CHOI M S,KIM W Y.A novel two stage template matching for rotation and illumination invariance[J].Pattern Recognition.2002,35(1):119-129.

[3]BORGEFORS G.Hierarchical Chamfer Matching:a Parametric Edge Matching Algorithm[J].IEEE Trans on PAMI,1998,10(6):849-865.

[4]SHEARER K,WONG K D,VENKATESH S.Combining multiple tracking algorithms for improved general performance[J].Pattern Recognition,2001,34(6):1257-1269.

[5]JOCHEN T.Self-Organized Integration of Adaptive Visual Cues for Face Tracking[J].Proc.SPIE,2000,4051:397-406.

[6]CRISAN D,DOUCET A.A survey of convergence results on particle filtering methods for practitioners[J].IEEE Transactions on Signal Processing,2002,50(3):736-746.

[7]DOUCET A,GODSILL A.On sequential monte carlo sampling methods for bayesian filtering[J].Statist.Computer,2000,10:197-208.

[8]CASELLA G,ROBERT C P.Rao-Blackwellisation of sampling schemes[J].Biometria,1996,83(1):81-94.

[9]YANG X,XIAO Q,RAAFAT H.Direct Mapping Between Histograms:An Improved Interactive Image Enhancement Method[C]//Proc.of IEEE Int.Conf.on Systems.Charlottesville,Virginia:[s.n.],1991:243-247.

[10]HUTTENLOCHER D P,KLANDERMAN G A,RUCKLIDGE W J.Comparing Images Using the Hausdorff Distance[J].IEEE Trans Pattern Anal,Machine Intell,1993,15(3):850-863.

[11]姚剑敏,许廷发,倪国强.一种基于优化小波特征的非线性目标跟踪算法[J].光学精密工程,2007,15(3):428-433.YAO Jian-min,XU Ting-fa,NI Guo-qiang.Nonlinear target tracking method based on optimized wavelet features[J].Optics and Precision Engineering,2007,15(3):428-433.

多特征融合论文篇6

关键词：目标识别,SVM,SIFT,金字塔匹配核

1 概述

从海湾战争、科索沃战争到伊拉克战争已经表明,现代战争是高科技战争,防空、防海、防陆战争中,敌我目标的识别是战争成功与否的关键。在对战情的分析中,首先要对所发现的目标进行分析,以便分清"敌方目标","不明目标"和"我方目标",在此基础上才能有效的提高我军高科技战斗力.

针对我军战时获取的图像,通过图像分割,将图像分割成不同的区域.针对各个区域提取目标的特征,通过模式分类方法确定各个区域的类型。在此基础上,形成图像的语义。这将是战时判断敌我目标的一个有效方法。

本文提出了一种基于HSV颜色直方图、一二三阶颜色矩、Gabor小波和SIFT特征描述子的多特征融合方法,以解决敌方目标识别问题.为了验证本文提出的方法,我们主要在国际著名的Caltech 101数据库图像数据库上进行效果测试。

本文其余章节组织如下:第二部分综述采用的方法;第三部分给出了SVM分类所需的图像特征:RGB颜色直方图和颜色矩、Gabor小波、SIFT特征,同时给出了SIFT的金字塔核方法。第四部分在的Caltech 101数据库图像数据库进行实验,并给出了实验结果。

2 方法综述

本文的目地是为了实现一个简单而实用的敌对目标识别方法.因此,使用HSV颜色直方图、一、二、三阶颜色矩、Gabor小波和SIFT组成SVM特征空间以实现分类,通过多特征融合的方法实现了敌对目标识别.敌对目标识别方法流程如下:

2.1 图像特征的获取

对每个训练图像集合中的每一个图像,首先生成HSI颜色直方图、一、二、三阶颜色矩和Gabor小波构造第一个SVM特征子空间。然后针对SIFT构造第二个SVM特征子空间。针对这两个SVM特征子空间,分别使用LibSVM进行训练,获取SVM模型信息,使用训练好的SVM模型,多核多特征融合方式分类识别。图1是获取特征空间的过程,图2是针对特征空间,多特征多核识别。

2.2 负载均衡考虑

在图像推介过程中,需要针对训练图像和待分类图像获取RGB颜色直方图、一、二、三阶颜色矩和Gabor小波、SIFT特征,然后进行SVM训练.在推介过程中,需要模糊化0上下文信息,使用上下文敏感SVM和CF协同工作方式进行推介.因此推介系统需要极高的运算性能和运算内存,在实际处理中通常采取分布使处理,以实现负载均衡。本文采取多个服务器分担两个SVM训练、多核判断处理、协同推介。这些服务器之间通过TCP自定义协议方式进行通讯。分布式处理的过程如图3所示。

3 图像特征获取

利用图像的HSV颜色直方图、颜色矩、Gabor小波和SIFT特征进行目标分类,以此为基础训练三个SVM分类器,形成多判别分类器进行目标识别。

3.1 HSV颜色直方图和颜色矩

提取图像的HSV颜色直方图和图像的颜色矩。HSI颜色空间是直方图最常用的颜色空间,它的三个分量分别代表色彩(Hue)、饱和度(Saturation)和强度(Intensity).HSI模型是Munseu提出的,这个模型的建立基于两个重要的事实:(1)I分量与图像的彩色信息无关;(2)H和S分量与人感受颜色的方式是紧密相联的。这些特点使得HSI模型非常适合借助人的视觉系统来感知彩色特性。公式1为HIS与RGB转换公式。

颜色矩是一种简单而有效的颜色特征,是由Stricker和Oreng提出的,这种方法的数学基础是图像中的任何的颜色分布均可以用它的矩来表示。此外,由于颜色分布信息主要集中在低阶矩中,因此,仅采用颜色的一阶矩(mean)、二阶矩(Variance)和三阶矩(Skewness)就可以表达图像的颜色分布。公式2为一、二、三阶颜色矩计算公式。图4原始图像,图5HSI颜色直方图(16 bin),图6颜色矩。

3.2 Gabor小波

图像I(Z)=I(x,y)表示图像的灰度分布,则图像I和Gabor小波gμ,ν的卷积为:

符号茚表示卷积。二维Gabor小波的核函数gμ,ν[11]定义为:

其中ωμ,kν分别定义了波向量的方向和尺度,z=(x,y),‖‖定义了向量范式.在本文中取尺度为4,方向为6。

3.3 SIFT特征和同维方法

SIFT是由Lowe提出的图像局部特征描述子,在物体识别方面有很好的应用,SIFT算法具有如下特点:

1)SIFT对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性。

2)独特性好,信息量丰富,适用于在海量特征数据库中进行快速、准确的匹配。

3)多量性,即使少数的几个物体也可以产生大量SIFT特征向量。

4)高速性,经优化的SIFT匹配算法甚至可以达到实时的要求。

5)可扩展性,可以很方便的与其他形式的特征向量进行联合。

SIFT实质是一个基于极值点位置和图像方向直方图统计的特征描述子。其实现步骤分为三步:1、极值点位置获取;2、关键点方向分配;3、特征点描述子生成。

3.3.1 极值点获取步骤

首先对原图形进行高斯卷积生成尺度空间,获取空间极值点坐标,最后通过曲率精确定位极值点。

(1)使用不同尺度的高斯核,生成图像金子塔。L(x,y,σ)=G(x,y,σ)⊗I(x,y)这里(x,y)是空间坐标,σ是尺度坐标,σ决定图像被平滑程度。其中G(x,y,σ)是尺度可变高斯函数:

(2)满足在图像二维平面空间和DOG[19](Difference of Gauss)尺度空间中同时具有局部极值的点作为SIFT关键点。DOG算子定义为两个不同尺度的高斯核的差分。D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))茚I(x,y)-=L(x,y,kσ)-L(x,y,σ)。

为了寻找尺度空间的极值点,每一个采样点要和它所有的相邻点比较,看其是否比它的图像域和尺度域的相邻点大或者小。一般采样点要和它处于同一尺度的8个相邻点和上下相邻尺度对应的9×2个点共26个点比较,以确保在尺度空间和二维图像空间都检测到极值点。

(3)上面通过拟和三维二次函数确定了关键点的位置和尺度(达到亚像素精度)。然而因为DOG算子会产生较强的边缘响应,所以SIFT算法需要舍弃低对比度的关键点和不稳定的边缘响应点以增强匹配稳定性和提高抗噪声能力。舍弃关键点的依据是:一个定义不好的DOG的极值在横跨边缘的地方有较大的主曲率,而在垂直边缘的方向有较小的主曲率.主曲率通过一个2x2的Hessian矩阵H求出:,DOG的主曲率和H的特征值成正比,令α为最大特征值,β为最小的特征值,则Tr(H)=Dxx+Dyy=α+β,Det(H)=DxxDyy-(Dxy)2。令α=λβ,则的值在两个特征值相等的时候最小,随着r的增大而增大,因此,为了检测主曲率是否在某域值r下,只需检测。一般取λ=10。

3.3.2 关键点方向分配

首先针对图像I(x,y),利用关键点邻域像素进行梯度方向计算Ix和Ty。则(x,y)点的模值定义为:M(x,y)=√Ix(x,y)2+Ix(x,y)2,其方向定义为:θ(x,y)=tan-1(Iy(x,y)/Ix(x,y))。其中L所用的尺度为每个关键点各自所在的尺度。

针对图像I(x,y)中的所有点(x,y),获取γ邻域,并统计γ邻域的梯度直方图。梯度直方图的范围是0~360度,将其分割为β个柱。直方图的峰值则代表了该关键点处邻域梯度的主方向,即作为该关键点的方向。梯度方向直方图中,当存在另一个相当于主峰值80%能量的峰值时,则将这个方向认为是该关键点的辅方向。一个关键点可能会被指定具有多个方向(一个主方向,一个以上辅方向),这可以增强匹配的鲁棒性。一般取γ=16,β=8。通过以上几步,可检测出图像的SIFT关键点,每个关键点有三个信息:位置、所处尺度和方向,由此可以确定一个SIFT特征区域。

3.3.3 特征点描述子生成

SIFT描述子是对一个SIFT特征区域的描述,其生成步骤如下:

(1)首先将坐标轴旋转为SIFT特征区域的方向,以确保旋转不变性。

(2)接下来以关键点为中心取8×8的窗口。图7左部分的中央黑点为当前关键点的位置,每个小格代表关键点邻域所在尺度空间的一个像素,箭头方向代表该像素的梯度方向,箭头长度代表梯度模值,图中蓝色的圈代表高斯加权的范围(越靠近关键点的像素梯度方向信息贡献越大)。然后在每4×4的小块上计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值,即可形成一个种子点,如图7右部分所示。此图中一个关键点由2×2共4个种子点组成,每个种子点有8个方向向量信息。这种邻域方向性信息联合的思想增强了算法抗噪声的能力,同时对于含有定位误差的特征匹配也提供了较好的容错性。

实际计算过程中,为了增强匹配的稳健性,Lowe建议对每个关键点使用4×4共16个种子点来描述,这样对于一个关键点就可以产生128个数据,即最终形成128维的SIFT特征向量。此时SIFT特征向量已经去除了尺度变化、旋转等几何变形因素的影响,再继续将特征向量的长度归一化,则可以进一步去除光照变化的影响。

3.3.4 SIFT的金字塔方法

SIFT形成的特征描述子特征点个数不同、无序、而且位置互异。而SVM分类器需要向量同维,因此无法直接使用SVM针对SIFT特征进行分类。

针对该问题,国外进行了很多研究。2007年Kristen提出的金字塔核匹配方法,运算简单而且准确度较高,因此本文采取该方法解决SIFT分类问题。

该方法将特征子数据投影到不同的尺度空间,求同一尺度空间的重叠值。然后再求相邻尺度空间重叠值的交叉值。其采用的核函数如下:。其核函数具体计算方法如图9。

4 实验结果

本文采用Caltech 101数据库作为实验对象,该数据库一共用101种类数据以供识别。本文采用Libsvm作为分类器,其中训练测试样本共3600张图片。图片类型共36种,每种100张。本文采取训练样本和测试样本各占50%进行测试,部分Caltech101数据库图片如图10。

部分测试结果如表1:

参考文献

[1]刘忠伟,章毓晋.综合利用颜色和纹理特征的图像检索[J].通信学报,1999(5).

[2]王文惠,王展,周良柱,万建伟.基于内容的彩色图像颜色特征的提取方法[J].计算机辅助设计与图形学学报,2001(6).

[3]陈兵旗,孙明.Visual C++实用图像处理专业教程[M].北京:清华大学出版社,2004(03):132-138.

[4]张学工.关于统计学习理论和支持向量机[J].自动化学报,2000(06):32-42.

[5]李国正,王猛,曾华军.支持向量机导论[M].北京:电子工业出版社,2004.

多特征融合论文篇7

与光学成像相比,合成孔径雷达(Synthetic Aper⁃ture Radar,SAR)具有全天时、全天候、多极化、高分辨率等特点,被广泛应用于军事、民用中。随着SAR图像收集能力的不断增强,合成孔径雷达目标自动识别(SAR ATR)已成为国内外的研究热点。SAR ATR可表述为从SAR图像中分割出感兴趣的目标区域,对该区域提取目标相关特征,从而识别出目标所属类型。

SAR图像可用于目标识别的特征主要包括几何结构特征、灰度统计特征和变换特征等。在传统方法中,选择单一特征进行分类存在一定的缺陷,如识别率达不到要求、运行时间过长等,为了得到具有良好分类性能的分类器,提高目标识别准确率,可通过提取图像的多种有效特征,将其对应的分类器进行集成,对多个分类器的决策进行融合,从而克服单一特征识别的局限性,提高目标分类的准确性。

由于飞机的尺寸信息相对固定,且具有良好的区分效果,选择飞机的机身长度和翼展宽度作为待识别的几何特征;主成分分析(Principal Component Analysis,PCA)通过选择合适的基向量,将样本的高维信息降到较低维度空间,同时有效地表征样本的特征,具有良好的分类识别效果[1];Hu不变矩是一种较为常用的特征,通过Hu不变矩提取的特征具有平移、旋转、比例不变性,是目标识别中较为常见的一种特征[2]。因而本文对图像目标进行分割预处理后,分别提取目标的几何特征、PCA特征和Hu不变矩特征,作为目标分类识别的特征。

传统的飞机目标识别方法主要是从图像中提取目标的单一特征训练获得单一分类器来识别目标,但由于飞机目标的多特征性,提取的单一类别特征组成的单一分类器往往不能有效地识别每一类样本。可采用分类器组合的方法,通过聚集多个分类器的预测结果来提高分类的准确率,本文采用基于等级的决策融合方法[3],实现多个分类器的决策融合。

1 目标识别预处理

本文采用的目标识别方法如图1所示。主要步骤如下:

(1)图像预处理,分割出感兴趣的图像目标区域;

(2)特征提取,分别提取目标区域的几何长宽特征、PCA特征和Hu不变矩特征;

(3)分类,将几何特征、PCA特征、Hu不变矩特征分别使用单一的SVM分类器进行预分类;

(4)决策融合,采用基于等级的决策融合方法,将多个分类器的预分类结果进行融合,获得最终的识别结果。

在SAR目标自动识别系统中,CFAR(Constant False Alarm Rate,恒虚警率)算法作为一种经典算法常常被用于目标分割处理。CFAR检测[4]的基本原理为:选择待检测像素(Pixel Under Test,PUT)周围一定大小的背景邻域作为参考窗口,通过对参考窗中的背景像素进行广义Gamma建模(Generalized Gamma Distributed,GGD),获得目标分割阈值,并保证检测具有恒定不变的虚警率Pfa;将待检测像素与分割阈值进行比较,实现目标分割,具体实现流程如图2所示。

2 目标特征提取

基于目标特征的识别方法,可通过恰当地选择特征数据,在保留目标固有属性的同时,减少各种干扰,提高目标识别的准确性。特征的提取主要包括空域处理方法和变换域处理方法,如图像的几何特征、纹理特征、散射特征、PCA特征、Hu不变矩特征等。

2.1 几何特征提取

对于军用飞机来说,常用的参考数据包括长度、翼展、高度、空重、推力、最大燃油量等基本信息,而对于SAR图像来说,可从图像中获取的几何信息主要包括机身长度和翼展宽度。为了获得机身长度和翼展宽度,一般将飞机主轴旋转到竖直方向,再将飞机向竖直方向投影,即可获得机身长度,向水平方向投影,即可获得翼展宽度,如图3所示。

为了估算飞机的方位角,将0°~180°按照θ角度间隔划分成若干组,将旋转一定角度后的飞机灰度值向水平方向累加,统计累加峰值位置前后δ个像素的灰度值,将最大的灰度统计值对应的旋转角度定义为飞机的方位角。

式中:p为水平方向累加灰度值最大的列对应的列标;col Sumψ(i)表示旋转ψ角度后的第i列的灰度累加值,灰度累加值最大的旋转角度即为飞机的方位角。

根据飞机方位角将飞机转正后,将图像向竖直方向投影,则:

式中:Lplane为飞机的机身长度;Wplane为飞机的翼展宽度;idown为由下往上的第一个非零行坐标;iup为由上往下的第一个非零行坐标;jaxis为飞机主轴的列坐标;jleft为由左到右的第一个非零列坐标;jright为由右向左的第一个非零列坐标。由于原始图像中的飞机机翼结构可能出现缺失,因而翼展宽度根据较大的半机翼长度确定。

2.2 PCA特征提取

PCA是一种较为常见的降维特征,通过选择合适的基函数,将高维空间的样本数据通过线性变换投影到低维空间中。对于d维空间中的n个样本,将其投影到p(p<d)维空间,得到新的样本表示方法为:

相对原始样本,其平方误差准则函数为:

为使平方误差最小,将向量取为散布矩阵的前p个(从大到小)本征值对应的本征向量。彼此正交的本征向量构成了低维空间中的一组基向量,任何一个属于p维空间的向量x′i可表示为:

式中系数称为主成分。

2.3 Hu不变矩特征提取

Hu不变矩是由Hu在1962年提出的,具有平移、旋转和尺度不变性,是目标识别中较为常用的一种特征。对于灰度分布为f(x,y)的图像,其p+q阶矩定义为:

p+q阶中心矩定义为:

其中矩心(x0,y0)为

直接使用普通矩或中心矩进行特征表示不能使特征具有平移、旋转和比例不变性,因而需要对中心矩进行归一化。归一化中心矩表示如下:

Hu利用二阶和三阶中心矩构造了七个不变矩,使他们在连续图像中保持平移、缩放和旋转不变性。定义如下:

3 目标识别与决策融合

3.1 SVM的多类识别

SVM分类器是一种非常常见的二值分类算法,对于n维空间中非线性可分的两类样本,通过一个非线性映射ψ:Rn→RD将样本映射到高维特征空间RD中,映射后的样本在新的特征空间线性可分,从而可以获得一个最优的分割面。

采用一对一投票策略,可将SVM二分器推广到多类分类问题中。将待识别的A,B,C,D,E五类样本,每两类组成一个训练集,即(A,B)(A,C)(A,D)(A,E)(B,C)(B,D)(B,E)(C,D)(C,E)(D,E),得到10个(对于n类问题为n(n-1)2个)SVM二分器。将样本依次送入这10个二分器中,采取投票的方式,得到一组投票结果,最终目标判决为:

3.2 基于等级的决策融合

由于单个分类器采用的分类策略不同,有的采用最高分决策,有的采用最小均方误差决策,需要将各个分类器的结果变换为正确分类的概率。采用如下的变换方式将多类SVM分类器的输出表示成后验概率形式,其中φ1()为线性变换,φ2()和φ3()为非线性变换。

式中:Sk,q是第k个分类器的第q个非限制输出(分数),q=1,2,⋯,Q,k=1,2,⋯,K,Q为类别数,K为分类器总数。

yk,q=φ(Sk,q)=pk(q|x)为第k个分类器估计得到的目标x属于类别q的后验概率,满足条件:。则第k个分类器输出的类别决策为:

基于等级的决策融合算法[5]为每一个分类器构造一个新的矢量zk,zk中的每个分量被赋予一个分值,该分值的高低取决于该分量在变换输出矢量yk={yk,q;q=1,2,⋯,Q}中的等级得分,即zk=R(yk),其中R为等级变换函数,将输入矢量yk={yk,q;q=1,2,⋯,Q}转变为输出矢量zk={zk,q;q=1,2,⋯,Q}。矢量zk的分量zk,q按如下方法计算:

(1)定义一个等级矢量

(2)等级矢量初始化,

(3)令i=1∶Q,循环:

K个分类器决策融合后的最终类别为:

其中

4 实验结果分析

4.1 实验数据

本文使用的实验数据来自2014年拍摄的美国亚利桑那州的戴维斯·蒙森空军基地,如图4所示,该图为HH极化方式、X波段、0.67 m×0.67 m、9 016×4 571像素的Terra SAR图像,由于该基地用于收留美国退役飞机并进行报废处理,因而又有“飞机坟场”之称。选取“飞机坟场”中部分区域内的飞机做成200×200像素的切片,用于飞机识别,图5标注了所选区域对应的SAR图像,五类待识别样本切片的基本信息如表1所示。

4.2 实验结果分析

采用背景窗大小为162×162,目标窗大小为130×130,恒虚警率Pfa=0.01,根据Mo LC参数估计方法,实现杂波Gamma Inverse模型下的CFAR分割,获取飞机目标,其原始图像和分割结果如图6所示。

对分割后的图像分别提取目标的几何特征、PCA特征和Hu矩特征,每类样本随机选取35%的样本进行训练,而后对全部的样本进行识别,重复进行十次随机实验,统计每类样本的识别率。本文通过比较分别使用几何特征、PCA特征和Hu特征三种特征提取方法对目标进行识别获得的识别率,与三种特征决策融合后得到的识别率来说明决策融合的识别优势。

表2记录了使用几何特征对目标进行识别获取的识别准确率,图7直观地显示出了五类目标的机身长度和翼展宽度的分布情况,图8直观地显示出了五类样本基于几何特征的识别准确率情况。分析发现,尽管第一类目标的训练样本数量非常少,但是由于其长宽特征相对其他目标具有明显的可区分性,因而具有非常好的识别效果;而第三类、第四类样本的识别准确率非常低,平均识别率不超过70%,主要是因为这两类目标大部分样本具有相似的几何特征,在识别过程中容易相互错判,因而,仅仅通过几何特征无法将它们进行区分。

表3和表4分别记录了五类目标基于PCA特征和Hu矩特征识别的十次随机实验结果,图9和图10分别为基于PCA特征和基于Hu矩特征下的五类样本识别率曲线图。从图中可以看出,PCA和Hu特征对目标整体具有非常好的识别效果,但是由于第一类样本数量过少,在随机实验中容易出现极低的识别率,如PCA特征识别实验中,第七次识别率为30.77%,第八次为38.46%;Hu特征识别实验中,第一次识别率为30.77%;PCA特征对第一类样本的平均识别率不足70%,Hu特征对第一类样本的平均识别率不足60%。

为了克服几何特征对第三类和第四类样本的不可区分性,同时克服PCA特征和Hu特征对第一类样本的低识别率问题,采用基于等级决策融合方法对三种特征的识别结果进行决策融合,实验结果如表5和图11所示。分析发现,采用决策融合方法后,在十次随机试验中,五类目标的识别准确率均在90%以上,平均识别率都在94%以上,且第一类、第二类、第五类样本的平均识别率接近100%。

表6对比了分别使用几何特征、PCA特征、Hu矩特征进行识别,与采用决策融合方法进行识别,五类样本获得的识别准确率。可以看出,对于每一类目标样本,采用决策融合的方法获取的识别准确率都要优于单一特征识别的准确率。

5 结语

【多特征融合论文】推荐阅读：

加权特征融合08-19

管工融合论文07-22