视频目标检测论文

2024-12-04

视频目标检测论文(共8篇)

视频目标检测论文 篇1

摘要:视频图像中运动目标的检测一直是视觉分析的研究热点之一, 应用广泛。文中主要针对静态背景下即摄像头固定的情况下, 提出一种基于高斯模型的背景差分法来实现运动目标的检测。算法首先建立混合高斯背景模型, 然后再利用背景差分法提取运动轮廓, 最后通过后续的形态学处理得到完整的运动目标。实验结果表明, 该算法不仅能够检测到运动目标, 而且检测效果得到了提高。

关键词:视频图像,运动目标检测,混合高斯模型

0 引言

随着计算机技术、人工智能、图像工程等高科技的发展, 视频智能监控已经成为计算机视觉研究领域的一个热点课题。提取运动目标在视频监控中是一个非常重要的环节, 它是后期的处理, 如目标分类、目标识别、目标跟踪等的基础, 也是视频监控技术自动化和实时应用的关键[1,2,3]。目前, 常见的运动目标检测算法主要有帧间差分法[4]、背景差分法[5]和光流法[6]。其中, 帧间差分法实时性强, 能够适应各种动态环境, 但是不能提取目标的完整区域;背景差分法能够提取完整的目标信息, 但是不能精确地检测到场景中的运动目标;光流法能够在摄像机运动的情况下检测出独立的运动目标, 但是其计算复杂, 需要特殊的硬件设备支持, 实时性能差, 本文不予考虑。

本文结合传统的运动目标检测算法的优点, 提出一种基于混合高斯模型背景法的运动目标检测算法, 期望获得较好的效果。

1 运动目标检测

1.1 自适应混合高斯背景模型

采用背景差分法虽然可以从图像中提取完整的目标, 但是实际应用中, 外界的微小干扰都会引起背景图像的变化, 这些场景下固定位置的像素在不断地改变, 呈多模特性。所以问题的关键之处在于随着时间改变, 可以自适应地更新背景模型。

而混合高斯模型[7]针对这一点, 采用多个高斯分布去拟合背景, 对于复杂的背景具有良好的效果。本文研究的是静态背景下的目标检测, 主要包括背景建模、背景更新和背景提取。

1) 背景建模。将图像序列中的某一像素点 (i, j) , 设Xt为在时刻t的观察值, 对于给定点 (i, j) 的一系列观察值{X1, X2, …, Xt}, 可以看做是与其它点独立的随机统计过程, 用K个高斯分布的混合模型去模拟, 则当前t时刻 (i, j) 的概率分布为:

2) 背景更新。当读取完视频图像的像素后, 将当前帧像素xt与K个高斯分布进行匹配, 匹配数据为:

如果像素值xi与其中某个高斯分布的均值μi, t-1之差满足式 (3) , 则该像素与这个高斯分布匹配, 否则不匹配。如果匹配, 对高斯模型进行更新:

式中:α为模型学习速率, β为参数学习率。在混合高斯模型中为了适应环境的变化, 还要考虑权值的更新。如果匹配则该模型可以较好地描述背景其权值增加, 不匹配则权值减小。

对视频图像进行背景建模与更新的流程图如图1所示。

3) 背景提取

完成上述过程后, 得到新的一帧图像, 根据背景更新公式把模型的相应参数进行更新, 计算其优先级并按照高低排列, 实际情况中可以选取前几个优先级较大的, 取前b个值相加, 当和大于阈值T时, 可以根据式 (6) 得到其背景模型:

式中:T为选取的阈值, 其大小根据不同的场景决定, 场景较复杂时, 阈值相应地选取较大;场景简单时就选择较小的。

1.2 背景差分

当混合高斯背景模型完成时, 就可以采用背景差分提取出运动目标的轮廓。设当前帧图像为fk (x, y) , 背景帧为fbk (x, y) , 则差分图像为:

按照式 (8) 对得到的差分图像进行二值化处理, 当差分图像中某点像素大于阈值时, 则认为该像素点为前景, 反之, 则为背景。

1.3 形态学处理

由于图像中噪声的存在, 在通过以上操作后所检测到的运动目标会有空洞产生, 因此可以采用形态学滤波的方法填补目标区域的孔洞。数学形态学[8]包括基本的开运算和闭运算。开运算可以消除细小目标, 平滑图像的轮廓, 而闭运算可以去掉小洞, 填补目标内的细小的缝隙。

2 检测算法的实现

本文检测算法具体流程如图2所示。

1) 对背景图像进行初始化;2) 利用本文的算法提取视频序列图像中变化的部分, 并作二值化处理;3) 对以上处理后的图像进行形态学处理, 去除小的噪声点, 同时填补运动目标内部的孔洞和连接断点, 这样就得到完整的运动区域, 将运动目标提取出来。

3 实验结果分析

本实验是在2.0GHz的CPU, 2GB内存的PC机上, 采用MATLAB软件进行的检测。实验所用的视频为普通摄像机拍摄的, 视频分辨率为320×240像素。

实验结果如图3所示。

使用传统帧间差分的检测结果如图3 (c) 所示, 获取的运动目标轮廓不完整, 而且其内部容易产生一些空洞现象, 部分区域出现漏检。采用本文方法检测运动目标的最终结果如图3 (d) 所示, 目标与背景得到了正确分割, 其中运动目标的轮廓十分完整, 为后期的运动目标跟踪、识别奠定了基础。

4 结语

本文针对视频图像, 提出一种基于混合高斯模型的背景差分法来检测运动目标。实验结果表明, 此方法不仅能够精确地检测到运动目标, 而且运动目标的检测效果得到了提高, 具有较好的鲁棒性, 为后续工作提供了有力的支持。

参考文献

[1]Tsai D M, Lai S.Independent component analysis-based background subtraction for indoor surveillance[J].IEEE Trans on Image Processing, 2009, 18 (1) :158-167.

[2]Avidan S.Ensemble tracking[J].IEEE Trans Pattern Analysis and Machine Intelligence, 2007, 29 (2) :261-271.

[3]Wang Yang.Real-time moving vehicle detection with cast shadow removal in video based on conditional random field[J].IEEE Trans on Circuits and Systems for Video Technology, 2009, 19 (3) :437-441.

[4]Ha J E.Foreground objects detection using multiple difference images[J].Optical Engineering, 2010, 49 (4) :1-5.

[5]魏晓慧, 李良福, 钱钧.基于混合高斯模型的运动目标检测方法研究[J].应用化学, 2010, 31 (4) :574-578.

[6]Dessause M P, Dua S.Optical flow object detection, motion estimation, and tracking on moving vehicles using wavelet decompositions[J].SPIE, 2010, 7694:1-10.

[7]何信龙, 赵龙.基于改进高斯混合模型的实时运动目标检测[J].计算机应用研究, 2010, 27 (12) :476-477.

[8]阮秋琦, 阮宇智.数字图像处理[M].北京:电子工业出版社, 2011.

视频目标检测论文 篇2

摘要:针对线性判别分析只能提取线性特征而不能描述非线性特征的缺点,本文采用将核函数和Fisher判别分析方法的可分性结合起来的核Fisher判别分析的方法对视频中的运动目标进行自动分类,运动目标包含人、汽车和宠物三类。该方法取得了较好的分类效果,且在查全率、查准率和F1 -Measure获得了满意的性能。

关键词:线性判别分析;特征提取;核Fisher判别分析;运动目标分类;视频

中图分类号:TP391.41 文献标识码:A

Classification  of  Moving  Targets  in  Video  Based  on  the  Kernel  Fisher  Discriminant  Analysis.

Liu Li hong1,  Zeng Zhi gao1*, Pen Cheng2, Yang Fangwen1, Zhou Dan1, Yao Huidan1

  • College of Computer and Communication, Hunan university of technology , Zhu Zhou, 412007;

2. School Of energy Power And Mechanical Engineering, Beijing, 102206)

Abstract: In order to overcome the shortage of linear discriminant analysis which can only extract linear features and can not describe nonlinear characteristics, the Kernel Fisher Discriminant Analysis algorithm, which combines the kernel learning and the separation of linear discriminant analysis, is adopted to automatically classify the moving objects in video, and in this paper, the objects include three categories: people, cars and pets. The method has obtained satisfying performance both in this system and in the recall, precision and F1-score.

Keywords: linear discriminant analysis; feature extraction,;kernel Fisher discriminant analysis;moving object classification,;video

1 引言

随着社会的发展人们安防意识的逐步增强,大量的视频监控被安装到小区门口、写字楼、商场、交通路口、车站、机场等公共场所。监控视频得到的海量视频数据靠人为的传统处理方式已经不能满足当前社会的安全需求[1]。

因此,视频监控的智能化给计算机视觉在公共安全领域的应用提供了广阔的前景[2]。视频监控是对场景中的异常事件或人的异常行为进行监控[3]。运动目标检测和分类识别一直是机器视觉研究应用及智能视频监控中的关键技术,一直是研究的热点之一,许多的分类算法被提

出[4]。文献[2]中的分类方法要对目标的实际高度

和宽度等参数进行统计,工作量非常大且不能对空中的目标进行识别分类。文献[5]基于形状特征的运动目标分类方法采用的形状特征受到前景检测的影响,不能使用不同环境下的视频监控应用。周维[6]提出的方法对前景和背景的区分能力比较强,但识别率不是很显著。郭玲[7]采用颜色直方图对目标进行识别,背景对其影响比较大,识别效果不是很好。针对之前的方法识别率不高和操作复杂的问题,本文采用核Fisher判别分析(Kernel Fisher Discrimination Analysis,KFDA)算法[8,9]对视频监控图像中的车子、人以及宠物三类目标进行分类,且取得了较好的分类效果。

2 视频中运动目标的特征提取

对于大多数的实际数据一般的非线性方法不能很好地描述图像中一些复杂的非线性变化[10]。核Fisher判别分析既具有核技巧的非线性描述能力,又继承了Fisher线性判别分析的优点[10]。本文采用核Fisher判别分析来做视频监控中运动目标的分类。

核方法比普通的非线性方法更具有优势,它可以借助核函数,避免“维数灾难”,减少计算量,且需要对输入的空间进行任何直接的非线性映射。下面我们来介绍下核函数。

2.1 核函数

核函数就是把输入样本采用非线性变换将其映射到一个合适的特征空间中,然后应用统计学等方法去解决问题。

一般核函数都是使用Mencer核实现,本文采取的是多项式核函数:

2.2 核Fisher判别准则

KFDA算法简单的说就是将核技巧应用到

Fisher线性鉴别分析中。KFDA算法的基本思想:首先将原始训练样本通过一个非线性映射函数映射到一个高维的特征空间中,再在高维特征空间中进行Fisher线性鉴别分析,这样就隐含的实现了原输入空间的非线性判别。之后只需要在高维特征空间中进行Fisher线性鉴别分析,这样相对于原始空间来说进行的就是非线性鉴别分析。

KFDA算法的核学习方法的技巧就是通过原始空间的内积核函数在进行所有的运算,并没有涉及到具体的非线性映射[9]。KFDA算法能够将图像的非线性特征提取出来,这些非线性特征更有利于分类。

2.3 核Fisher算法实现步骤

基于核Fisher分类要首先实现两类分类,返回最接近待测样品的类别,然后用返回的类别和新的类别做两类分类,又能够得到比较接近的类别,最后得出未知样品的类别。

① 首先创建一个核PCA分量将输入空间映射到KPDA特征空间中,在KPCA空间中计算出类间散布矩阵和类内散布矩阵。

④ 利用最优鉴别向量对映射到空间中的训练样本和测试样本进行投影,对投影后的对数据通过最近邻法进行分类。

3 实验结果

为了验证本文算法的优越性,所以在相同的条件下运用KFDA算法、PCA算法和PCA结合LDA的算法同时对视频静态背景中的三类目标(人、汽车和宠物)进行分类,并且对分类器的性能进行了比较和分析。

实验环境:MATLAB R2012a,Intel(R) Pentium(R) CPUG2030 3.00GHz.训练集中每类

包含10张图片,测试集每类包含174张照片。

3.1 分类结果图

基于KFDA算法的部分分类结果图如下:

图1 基于KFDA算法的部分分类效果图

3.2 分类器性能评价标准

3.3 分类器性能分析

对PCA算法、PCA+LDA(PLA)算法和KFDA算法的分类结果进行比较和分析。下面的表格是对实验结果的记录和分析。

由表(1)可以计算出基于各个算法分类的查准率P,查全率R,F-Measure F,以及总的分类准确率M,数据如下表:

表(2)查准率P,查全率R,F1-score以及

总的分类准确率的比较

为了更为直观的表示数据,我们采用图表的方式对表(2)进行描述,如下图所示:

(A) 查准率P        (B)查全率R

(C)F1-Measure    (D)总的分类正确率

图2 (A),(B),(C),(D)分别代表查准率,

查全率,F1-Measureh和总的分类正确率;

从图(D)中看出本文采取的KFDA算法在总的分类正确率是最高的,从单一的结果来看分类器的性能是不全面的,应该从各个分类器对各个类别的分类性能去研究和分析。查准率标准下的各个算法的分类性能比较:基于PCA算法和PCA+LDA算法的分类对人的分类性能比对车子和宠物的要稍高些,本文采取的基于KFDA算法则对各个类别的分类性能都不错,且各个种类的性能均优于前两种算法。查全率标准下各个算法的分类性能比较:基于PCA算法的分类对车子的分类性能是最佳的,基于PCA+LDA算法的分类对宠物的分类最好,本文采取的KFDA算法对所有的类别的分类性能都比其他两种算法要好。基于PCA算法和基于PCA+LDA算法对人的查准率虽然最高,但是其查全率比较低,所以得到的F-Score则不是最高的。从(C)中我们可以看出PCA+LDA算法对车子的分类性能最好,对人的其次,最差的就是对宠物的分类。从综合的F-Measure可以看出基于PCA+LDA算法的分类性能总体都要比基于PCA算法的分类性能要好,基于KFDA算法的分类性能则比基于PCA+LDA算法的性能高。

4 总 结

本文采用基于核的Fisher判别方法对监控视频中的运动目标进行分类,并与基于PCA和

PCA结合LDA的算法进行了比较分析。结果表明

本文算法取得了很好的分类效果,并且各方面

性能指数要优于其他两种算法。但是仍然有两

点问题,在分类的过程中我们会把受到的外部环境的影响和物体的角度等造成的非线性特征抽取出来了,且KFDA算法一样的要面对小样本问题。如何降低这些问题的影响是我们要进一步研究的内容。本文做的是静态的目标检测,下一步要研究的是将该算法应用到动态场景中。

参考文献:

[1]  李占闯. 监控视频中的运动目标分类算法研究[D]. 西南大学. 2010年.

[2]  陈大海. 智能视频监控系统中目标分类技术研究与应用[D].广西大学. 2011年.

[3]  张建军,黄山,张洪斌,杨权,汪勤.  基于视频的运动目标检测与识别[J].  现代电子技术. 2009, 08(295).

[4]  王建平,刘伟,王金玲.一种视频运动目标的检测与识别方法[J]. 计算机技术与自动化.2007,26(3):78-80.

[5]  李崇辉.视频监控中运动目标的分类方法研究[D].华南理工大学. 2013年.

[6]  周维.视频监控中运动目标发现与跟踪算法研究[D].中国科学技术大学.2012年.

[7]  郭玲.智能视频监控中运动目标检测的算法研究[D].华南理工大学.2013年.

[8]  Volker Roth, Volker Steinghage. Nonlinear discriminant analysis using kernel functions [A]. Proc of Neural Information Processing Systems[C]. Denver,1995:568-574.

[9]  Sebastian Mika, Gunnai Ratsch, Jason Weston, et al. Fisher discriminant analysis with kernel[A].IEEE Workshop on Networks for Signal Processing[C].Piscataway,1999:41-48.

[10]  杜世强;基于核Fisher判别的人脸识别方法研究[D].陕西师范大学. 2007年.

[11]  Volker Roth, Vokler Steinhage. Nolinear discriminant analysis using kernel funtions[C]. In S.A.Solla,T.K.Lene, K.R.Muller, ediotrs. Advance in Neuar Information Processing Systmes12. Cambridge,MA:MTT Press, 2000: 568-574.

视频序列中目标的检测与跟踪 篇3

目标的检测与跟踪涉及到人工智能、机器视觉、生物医学、自动控制等多个学科,近年来,随着计算机技术的发展,得到了广泛的研究与应用[1]。目前比较流行的目标检测算法包括帧间运动估计和背景差分的方法,帧间运动估的方法是利用图像序列中相邻帧图像之间的差来提取图像的运动区域的。该方法实现简单,但只能检测相对运动的目标,并且检测出目标的位置不够精确。背景差分法首先定义视频图像的特定帧为背景,然后将当前帧和背景进行差分比较,如果同位置的像素特征、像素区域特征或其他特征的差别大于选定的阈值,则当前帧中该位置的像素区域就判定为前景目标区域,反之则为背景。该方法容易受到光线亮度变化的影响[2]。基于上述原因,本文提出了一种基于时间序列的编码建模算法,该算法能够解决像素剧烈变化的问题,可以提高复杂背景下目标检测的稳健性。目标的跟踪是通过算法获得目标在特定时间段上的运动轨迹,包括目标的产生、运动和销毁三个过程。由于算法中涉及到帧间目标空间位置的测量,在传统的跟踪算法中,当目标数目增加的时候,算法的时间复杂度呈指数形式增加。本文在分析上述问题基础上,将KD-Tree方法[3]引入目标跟踪算法之中,降低了算法的时间复杂度,同时降低了算法对目标数目的敏感程度,实现了高精度、高效率的目标检测与跟踪。

1 目标检测

很多场景都包含复杂的运动目标,诸如摇曳在风中的树、转动的风扇、摆动的窗帘等。通常这种场景中还有光线的变化。解决这个问题最好的方法是采用基于时间序列的编码建模算法,对每个像素或者一组像素建立时间序列模型,在每个像素点进行抽样,根据颜色扭曲尺度和亮度边界聚类获得编码本的集合,并不是所有像素点拥有相同数量的编码本数量。通过编码本表示的聚类子不需要对应单个高斯分布或者其他参数的分布,因此该编码方式是以像素为基础的。

归一化颜色算子是用来处理全局和局部亮度变化的方法,该技术在图像的暗色区域效果不理想,因为颜色比率的不确定性与亮度相关,所以灰度级低的像素点相对与灰度级高的像素点不确定性更高。这些不确定性使灰度级低的区域变得不稳定,在可能聚集在低灰度级的区域造成无检测[4]。本文通过建立颜色模型来估计颜色的亮度和扭曲,该模型依赖于编码元素主轴界定在亮度值高低边界的背景像素值。对于输入像素点pixi=(B,G,R)和编码本ci,定义Vi=(Bi,Gi,Ri),可得

pixi2=B2+R2+G2(1)

Vi2=Bi2+Gi2+Ri2(2)

由式(1)和式(2)可得

(pixi,Vi)2=(BiB+GiG+RiR)2 (3)

颜色扭曲度为

colordst(pixi,Vi)=pixi2-u2(4)

u2可以由式(5)求解

u2=(pixi,Vi)2Vi2(5)

此外,统计地分配亮度变化的最大和最小值,将其赋给一个编码本,在特定的范围内限制阴影水平和焦点水平,能够有效地适应亮度的变化。为了去除图像中引入的噪声,首先对目标检测完成的图像进行3×3的中值滤波,然后进行形态学处理,使待检测的目标形成一个完整的连通域,并在一定程度上消除中值滤波无法消除的噪声,最终得到比较理想的目标图像。

不同处理阶段目标检测的结果如图1所示。可以看到,在经过上述处理,得到了完整的目标。

2 目标跟踪

目标跟踪是建立在目标检测的基础上的,即确定实时视频帧中检测到的目标的运动轨迹,这种轨迹的建立可以通过目标特征的匹配来实现,通常采用的特征信息有目标的位置、尺度、形状以及颜色等。本文采用目标的位置(即每个目标的质心坐标)建立运动模型,实现目标轨迹的精确匹配。

将每帧图像检测出的多个目标同上一帧图像检测出的目标进行比较并分类,主要有3种情况:1)当前目标是由上一帧中某个目标运动得到的(运动速度大于或等于0);2)当前目标在上一帧中没有出现,是新增加的目标;3)某些目标在上一帧中出现过,但在当前帧消失了。

在跟踪用摄像机完整标定的情况下,视场中的目标的运动速度会保持在某个区间之内,即可以通过实验的方法确定某一类别目标的最大运动速度,因为摄像系统的帧率是一定的,所以可以确定目标在两帧之间的时间间隔内的最大位移,定义为D_max,以此作为阈值条件。然后把上一帧的所有目标的质心坐标放在一个数组中,作为一个待遍历的集合Vec。将当前帧的每一个目标的质心坐标在集合Vec中寻找出与之几何距离最近的对应目标A,然后计算该距离dD_max的关系:1)如果dD_max,当前帧的目标是从上一帧的目标A运动得到的;2)如果d>D_max,当前帧的目标是新增加的目标;3)如果在上一帧的目标中存在没有和当前帧目标相对应的,则说明没有对应的这些目标在当前帧中消失了。

针对上述3种情况,本文采用KD-Tree算法[5]实现目标跟踪。KD-Tree算法是一种由二叉搜索树推广而来的用于多维检索的树的结构形式(K即为空间的维数,此处定义K=2)。与二叉搜索树不同的是,它的每个结点表示k维空间的一个点,并且每一层都根据该层的分辨器对相应对象做出分枝决策。顶层结点按由分辨器决定的一个维度进行划分,第二层则按照该层的分辨器决定的另一个维度进行划分,以此类推在余下各维之间不断地划分。直至一个结点中的点数少于给定的最大点数时,结束划分。

如图2所示,在二维空间内存在点A,B,C,D,E,首先以A点的y维度为起始点,将点集分为2个部分,然后在左右2个子树中以B点和C点的x维度将左右2个子树分为2个部分,以此类推,在B点、C点各自的子树当中,以D点、E点的y维度对其子树划分,遍历集合当中的每一个点,就可以得到1个完整的KD-Tree。目标轨迹建立的过程就是在KD-Tree中搜索最近点的过程,采用KD-Tree进行最近点搜索可以提高系统的工作效率。

算法流程如下:

1)定义目标质心点坐标存储结构体,即

typedef struct Blob2D32f

{

int ID;

float x;

float y;

} kidBlob2D32f;

其中ID为每个目标对应的序号,xy分别为每个目标质心坐标的横、纵坐标值。

2) 将第i帧的每个目标(定义为Blobi,其中i=1,2,3,…,N)的横纵坐标按照Blob2D32f结构体形式进行存储,ID号从0开始顺次排列,然后存放在起始帧数组ArrayL中。

3) 将第i+1帧的每个目标的横纵坐标按照Blob2D32f结构体形式进行存储,ID号不填充,然后存放在当前帧数组ArrayN中。

4) 对起始帧数组ArrayL建立KD-Tree。

5) 定义D_max。

6) 遍历当前帧数组ArrayN中的每个Blobi,搜索其在KD-Tree中最短距离元素,定义最短距离为d

7) 如果d>D_max,则该Blobi为新当前帧新增加的目标,将其赋予一个新的ID;如果dD_max,则该Blobi为由上一帧的目标运动得到的,将其ID更新为ArrayL数组中与其距离最短的目标的ID,并将其对应元素在ArrayL数组中删除。

8) 遍历结束后,ArrayL数组中余下的Blobi即为上一帧存在但当前帧消失的目标,将其删除。

9) 将当前帧数组ArrayN中的元素更新到ArrayN数组中。

10) 循环执行步骤3)~9)过程,直到程序结束。

随着视频帧数据的不断采集,循环进行上述过程,即实现了目标的检测与跟踪。流程图如图3所示。

3 目标跟踪实验

采用三轴云台固定摄像机进行实验,视频图像分辨力为640×480,背景模型建立过程累积了35帧图像,在普通PC上目标检测与跟踪的速度可以达到25 f/s(帧/秒)。

图4分别为第4,6,26,150帧时目标跟踪的情况,可以看到,目标被完整地检测出来,在目标物像素尺寸相对整个视频帧图像的比例较大的时候,没有出现单一目标被误检测成多个目标的现象,且目标的运动能够被较好地跟踪。

4 结论

本文讨论了几种目标检测中背景建模的方法,并重点说明了背景差分的建模方法,对差分后的图像进行滤波和形态学处理之后,可以得到较完整的目标轮廓,并且通过KD-Tree算法对目标进行跟踪,大幅度提高了跟踪效率。

参考文献

[1]蔡荣太,吴元昊,王明佳,等.视频目标跟踪算法综述[J].电视技术,2010,34(12):125-127.

[2]潘翔鹤,赵曙光,柳宗浦,等.一种基于梯度图像帧间差分和背景差分的运动目标检测新方法[J].光电子技术,2009,29(1):34-36.

[3]SPROULL R F.Refinements to nearest-neighbor searching in K-dimen-sional trees[J].Algorithmica,1991,6(4):579-589.

[4]KIM K,CHALIDABHONGSE T H,HARWOOD D,et al.Real-time fore-ground-background segmentation using codebook model[J].Real-TimeImage,2005,11(3):172-185.

视频目标检测论文 篇4

1 运动目标的检测

1.1 灰度特征法

路面状况中柏油路面、黑色沥青路面居多, 这两种路面都是灰色路面, 路面上的车辆多为非灰色, 车辆和路面的区分可以利用车辆和路面在图像中的灰度信息特征的区别。24位位图中, 灰色物体表面像素的R、B、G的分量值fR (t) 、fB (t) 、fG (t) 基本上是相等的。使用公式 (1) 可以判断检测区是否是灰色:

TH为判断阈值, 若图像得到的路面信息不包含车辆, 这种理想状况下TH的值可以取0, 但是实际抓拍到的图片往往都会带有点颜色, 这主要是由于环境光线发生的变化所引起的, 结果导致三个分量不相等。当车体颜色为灰色时该算法不好区分路面和车体, 从而完成检测需要结合其他的判断技术。

1.2 帧差法

该检测方法基于运动图像序列前后两帧图像间的强相关性而提出[4]。图像中运动区域的提取是在相关摄像头固定的情况下通过连续图像序列中相邻的两帧图像使用基于像素的时间差分来进行, 设同一背景下的两幅运动图像在t1、t2时刻采集得到:f (x, y, t1) 、f (x, y, t2) , 那么下式就为差分图像的定义:

将式 (2) 的差分结果经过阈值处理, 能够提取出运动物体:

Td是分割阈值, 可以用自适应的方法确定或者事先给定, 阈值的选取要适合。差分图像中, 去除掉灰度变化不明显 (当中应该会包括背景的大部分以及小部分的目标) 的部分, 而保留的是变化比较明显的区域。运动目标在图像上的位置一般情况下都能够确定, 采用相关算法实现搜索范围缩小。

算法优点是:程序设计的复杂度较低, 算法实现比较简单;当光线等场景发生变化时不太敏感, 稳定性比较好, 能适应各种动态环境。算法缺点是:静止或运动速度过慢的物体没有办法检测出来;物体处于高速运动时, 由于分割区域和目标运动的速度有很强的相关性, 从而造成真实目标小于分割区域。相邻帧差在目标重叠的部分很容易形成比较大的空洞, 假如目标内部的灰度均匀分布的话, 那么接下来分析与识别物体不太容易, 不理想的情况下极有可能出现分割结果不连通。

1.3 背景差分法

背景差分方法[5]运动区域的检测利用背景图像及当前图像的差分来进行, 一般情况下能提供大部分所需特征数据, 出现光照、外来无关事件等场景发生动态变化时干扰敏感度很高, 进行背景差分时背景的选择非常重要。早期的方法为由人工进行观察, 找到一幅比较适合的图像作为背景, 为了加强系统的自适应性, 后来所采用的方法为每隔一段既定的时间, 更换一次背景图像, 目前进行背景差分时非常重要的一项工作就是背景模型的自适应更新。背景中的一幅或者将几幅图像进行平均都可以作为背景图像, 然后将后续图像的当前帧和确定好的背景图像完成相减, 从而消去背景, 像素数如果比阈值还要大, 可以确定监视场景中存在着运动的物体目标。公式如下所示:

BL为背景的亮度分量, IDL为背景帧差图, i用于表示帧数 (i=1, …, N) , 序列的总帧数为N, 阈值为T。本算法的优点包括:原理和算法设计简单易行;阈值的确定遵照实际情况, 然后进行处理, 能直接得到运动目标的形状、位置、大小等信息。天气、光线等外界因素会影响算法精确度是其弊端。

算法实际应用过程中, 背景模型的动态更新需要通过相关算法实现。实现背景图像的建模、自适应更新等, 是目前大部分研究人员的研究重点, 力图使背景接近理想状态, 从而尽量不要出现由于场景发生的变化而影响到视频图像的检测分割。背景建模常用的方法主要有:基于卡尔曼滤波的背景模型、基于统计的背景模型、基于高斯分布的背景模型等, 估计以及恢复背景大部分都是通过视频序列的帧间信息来进行的。

1.4 光流场法

为了实现近似估计真实运动场的目的, 可以通过光流场来反映各像素点灰度的变化, 可将其看成是一个瞬时速度场, 在图像平面上由具有灰度的像素点运动而产生[6]。一般情况下都是使用运动目标随着时间而变化的光流特性来进行基于光流方法的运动检测。为了初始化基于轮廓的跟踪算法, Meyer等使用了计算位移向量光流场, 运动目标的提取及跟踪方便有效, 独立的运动目标甚至可以在摄像机存在运动的情况下检测出来。本算法相对于其它算法来说过于复杂, 而且算法的抗噪性能也一直不是很理想, 缺乏所需硬件的话实时处理全帧视频流非常困难。

场景的信息不要求事先明确, 运动物体的速度能进行精确计算, 适应摄像机运动的情况等是光流场法的突出优点。由于使用迭代的方法, 计算量大、公式复杂, 对硬件支持要求很高, 如果硬件没有达到需要则实时性很难保证;有时候会出现即使没有产生运动, 而当外部照明出现了变化时, 光流依然可以观测到;某区域如果没有足够的灰度等级变化时, 经常会观测不到实际运动;颜色、边缘、灰度等空域特征需要使用, 从而提高分割精度, 实现准确分割, 上述都是光流场法的缺点。

1.5 其他方法

还有很多方法可以进行运动变化检测, Russell和Friedman利用了扩展后的EM算法, 由于使用了混合高斯分类模型, 除了自动更新, 也实现了像素进行运动的前景与背景自适应分类, 进行运动区域的分割时效果较好, 即使目标运动速度缓慢时分割效果依然得到保证;Stringa基于数学形态学的场景变化提出的检测算法即使环境条件不断发生变化分割效果基本上可以稳定获得[7]。

2 运动目标检测算法的评价标准

对运动目标进行检测时算法可以按照如下标准进行评价:出现了不同的路面状况、天气情况时还是可以正常的工作—鲁棒性;可以准确地提供各种交通参数例如车流量以及车速等多方面的应用—功能全面;能够对图像进行实时处理, 这一指标对算法提出了较高的要求—实时性指标;实际应用过程中, 考虑到成本问题, 满足低成本而高效率的算法, 进行大规模的推广会比较方便易行—成本低、效率高;提供的人机接口非常良好, 即使是非专业人员, 操作起来也同样方便简单—安装调试简单。

参考文献

[1]J.Badenas&F.P1a.Segmentation based on region-tracking in image sequences for traffic monitoring[A].Pattern Recognition, 1998.Proceedings.Fourteenth International Conference on Published[C].1998 Volume:2, 999-1001.

[2]P.H.Batavia, E.A.Plmerleau&C.E.Thorpe, Overtaking Vehicle Detection Using Implicit Optical Flow[A].Intelligent Transportation System, 1997.ITSC'97, IEEE Conference on Published[C].1997, 729-734.

[3]P.G.Michalopoulos.Vehicle Detection Video Through Image Processing:The Autoscope System[J].IEEE Transactions on vehicular technology, 1991, 40 (1) :279

[4]Seki M, Fujiwara H, Sumi K.A robust background subtraction method for changing background[J].Proceeding of IEEE workshop on Applications of Computer vision, 2000:207-213.

[5]Wu Zeju, Chen Jundong, Liu Yun, et al.Video object segmentation of still background[J].Journal of Qingdao Univesity of Science and Technology, 2004, 25 (5) :457-460.

[6]孙季丰, 王成清.基于特征点光流和卡尔曼滤波的运动车辆跟踪[J].华南理工大学学报, 2005, 33 (10) :19-23.

视频序列中的运动目标检测与跟踪 篇5

近年来,随着计算机速度的不断提高以及数字图像处理技术研究的不断深入,智能视频监控技术得到了很好的发展,并被广泛应用于军事及民用监控系统,它能够大大减少人力物力,保障监控场所安全[1]。

视屏监控技术主要包括运动目标检测、目标提取、目标识别与跟踪几个模块。其中以目标检测部分为关键。目前,常用的运动目标检测方法有:光流法、帧差法和背景减法。光流法对光线和噪声的变化特别敏感且计算复杂耗时,没有特别硬件支持很难在实时系统中应用[2]。帧差法是基于运动图像序列中,相邻两帧图像间具有强相关性而提出的检测方法,具有很强的自适应性,但分离出来的运动目标容易出现空洞和沿着运动方向拉伸,不利于进一步分析与识别[3]。背景减法是目前最简单而又常用的方法之一。背景减法适用于摄像机静止的情况,能够完整分割出运动对象,却容易受光线、天气等光照条件、前景目标短暂或长久性的闯入和移出、背景自身的运动(如:树叶摇动等)等因素的影响。尽管如此,在实时监控系统中背景减法仍是运动目标检测的最常用方法[4]。常用的背景建模方法为混合高斯模型[5],但是模型复杂,计算量大。本文的目标检测部分采用了基于直方图统计的多帧平均混合法做背景提取,然后使用背景减法提取运动目标[6]。

1 背景模型

由于交通场景中视频序列特定像素位置出现频率最高的像素值是背景像素值。实际上交通场景中的视频序列还有一个特点:某点背景的像素值总是在某个区间内波动。因此将某点的灰度范围[0,255]等分为若干区间[0,256/N],[256/N,2×256/N],…,[(256-256/N),255],N为等分区间数,对应于某个像素的每个区间,考虑其落在区间内像素点的灰度值的均值μ及区间的计数统计S。在读取视频序列的同时,更新背景。具体方法如下:

(1) 均值更新。如果:

ci(x,y)[(n-1)256/Ν,n×256/Ν]

则更新第n个区间的像素均值:

ui,n(x,y)=(1-α)ui-1,n(x,y)+αct(x,y)

否则:

ui,n(x,y)=ui-1,n(x,y)

(2) 区间计数统计更新。如果:

ci(x,y)[(n-1)256/Ν,n×256/Ν]

则更新第n个区间计数统计:

si,n(x,y)=βsi-1,n(x,y)+1

否则:

si,n(x,y)=si-1,n(x,y)

式中:ci(x,y)表示在第i帧图像中的坐标为(x,y)处的像素点的灰度值;αβ为权系数。这样将直方图灰度划分成区间段,对帧中的每个像素点计算ui,nsi,n后,比较不同区间段的si,n后,将具有最大si,n的区间的ui,n作为背景。

2 目标提取

2.1 噪音消除

在背景差分的基础上,可以得到一幅粗略的二值图像,然后对其采用3×3的方形窗口进行中值滤波,以消弱图像中噪声的影响。

2.2 形态学滤波[7]

噪声的影响可能会使目标边界呈现不同程度碎片,对此本文使用形态学滤波中的膨胀、开运算对二值图像做处理,使目标区域轮廓变得平滑,同时抑制峰值噪声。

2.3 阴影消除

阴影的存在不利于准确判断目标的位置,像素点(x,y)在未被阴影覆盖和被阴影覆盖时的亮度值近似成线性关系,由概率论中相关系数的性质可知,若随机变量XY成线性关系时,则XY的关系系数为1,因此本文利用了万相关系数的性质进行阴影检测与滤除[8]。

2.4 区域标记提取

经过以上方法处理后的前景背景二值图像中,目标为若干个黑色联通区域,首先通过八连通域区域标记法[9],给每个目标一个标记。

然后从左到右,从上到下扫描已经标记的图像,遇到相同标记的点时,就更新对应标记区域的中心上下左右四个坐标值,结束扫描后,再根据每个区域的上下左右四个座标值获取其中心坐标。如此,就得到了每个区域的标记以及具体位置。

最后,对于这些区域的异常情况例如对于携物者、牵手并行者、迎面相交者等做处理。处理方式主要根据目标区域的长、宽、中心坐标距离,面积等特征来做判断。例如一个区域的面积很小(小于某个阈值),并且距它最近的区域的距离大于某个值,那么把它当噪声处理,更改它的标记为255。

3 目标识别与跟踪

在连续的视屏序列中,采用背景差法得到的目标,需要识别当前图上的某个目标是与上一副图中的哪一个目标相对应。对于人流量大,行走速度快的情况,目标识别是一个比较繁琐的过程。本文采用最小距离匹配法做目标识别,构建以下结构体描述目标信息。定义两个该结构体类型指针。

struct TargetArea

{

int flag; //区域有效标号

int CorrespondingFlag; //匹配标号

int number; //区域中包含的像素数

int centerX; //区域中心X坐标

int centerY; // 区域中心Y坐标

int direction; //区域移动方向

}*mpPersonInAreaBefore,*mpPersonInAreaNow;

目标跟踪程序步骤如下:

(1) 统计监测区中的目标个数,使用一个循环语句来将当前目标与上次目标(上幅图中处于检测区的目标)之间的中心距离逐一比较,如果距离小于某个阈值,则认为匹配,那么将当前目标与上次目标变量中的CorrespondingFlag 置1,表示找到了匹配点。

(2) 对于已经找到匹配目标的当前目标,比较它与匹配目标的中心坐标(centerX,centerY)来得到他的行走方向。在本文实验中,因为行人在监控区的主要行走方向是上行和下行,因此只对centerY做了比较。然后根据结果给direction赋值(1表示上行,0表示静止,-1表示下行)。

(3) 对于当前目标中匹配标志为0的点,表示是新点,那么它可能是一个新进入监控区域的人,或者是一个噪声。如果距离监控区的边界线小于某个阈值,认为是新进入区域的人,否则认为是噪声,置区域有效标记flag为0。

(4) 对于上次目标中匹配标志为0的点,表示目标已经离开了监控区域。那么根据它的行走方向以及距离上下检测线的位置判断是上行穿过区域还是下行穿过区域。如果距离下检测线近而且行走标志为-1,则判为下行通过区域,下行人数计数器加1,如果距离上检测线近且方向标志为1,则认为上行通过检测区,上行人数计数器加1,否则认为是噪声。

(5) 判断结束,释放上次目标的数据空间,重新申请当前目标个数的目标结构体数据空间,将当前目标数据放入其中,更改匹配标志为0,以便与下一副图中的目标做对比。

4 实验数据与分析

实验中以每100 ms每张的频率针对四川大学室外场景拍摄了1 506张照片。通过对这些照片做图像处理分析,统计在这段时间内通过该区域的人数。视频图像帧的大小为320×240像素,在普通PC机(AMD Sempron Processor 3000+,1.60 GHz,1.00 GB的内存,天敏SDK2500视频采集卡)上,用VC++ 2005编写了一个基于对话框的程序做实验。图1为程序界面。打开视屏序列中的某幅图片后即可点击“视屏监控”按钮开始监控,程序界面可以显示实时刷新背景、背景差后经过处理的二值图像、经过区域标记和目标识别跟踪后的监测画面。设置了纵坐标从60~130的范围为监控区,在监控时间内通过监控区的行人人数显示在右下角。针对这次实验的1 506张照片,实验结果准确地统计出了通过区域的行人人数。

图2为使用直方图统计与多帧平均混合法得到的背景图像。

图3为背景差后的二值图像,目标用黑色表示,背景用白色表示,可以看出,目标被明显地提取出来了,并且经过消除噪声、形态学滤波、阴影消除后的前景二值图像,比较干净,具有较好的对比分析使用价值。

图4为行人特殊情况的目标提取结果,可以看出,对于相遇造成的目标重叠、两人紧靠并行、携物者,都能得到较好的目标提取结果。

图5为行人监测,行人进入监控区域后能对其进行跟踪,穿过区域时,能较准确地判断出其行走方向,并且统计人数。

5 结 语

本文针对固定场景提出一种基于背景模型的运动目标检测和跟踪算法。该方法使用直方图统计与多帧平均混合方法背景建模。使用八连通域区域标记法和最小距离匹配方法对目标进行识别跟踪,根据目标特征参数进行逻辑判断监控行人人数,都取得了良好的效果,并且能对多种特殊情况兼容处理,具有实用价值。

摘要:提出一种视频序列中的运动目标检测跟踪算法。该方法采用直方图统计与多帧平均混合作为动态背景更新法,经过噪音消除、形态学处理、阴影处理后,用区域标记法提取目标。利用目标特征参数建立目标数组,通过当前帧目标数组和前一帧目标数组距离匹配实现运动目标的快速跟踪。该方法与传统方法相比具有更好的学习能力,从而有效地提高了运动目标检测的正确率和快速性。实验结果表明该方法具有良好的鲁棒性和自适应性。

关键词:背景模型,背景提取,运动目标检测与跟踪,视频序列

参考文献

[1]施华,李翠华.视频图像中的运动目标跟踪[J].计算机工程与应用,2005(10):56-58.

[2]Kinoshita K,Enokidani M,Izumida M,et al.Tracking of aMoving Object Using One-Dimensional Optical Flow with aRotating Observer[A].9th International Conference on Con-trol,Automation,Robotics and Vision[C].2006:1-6.

[3]Gao Hongzhi,Green R.A Robust Moving Object Segmenta-tion Algorithm[A].Proceedings of the 2007 InternationalConference on Wavelet Analysis and Pattern Recognition[C].2007,1:214-217.

[4]Piccardi M.Background Subtraction Techniques:A Review[A].IEEE International Conference on Systems,Man andCybernetics[C].2004,4:3 099-3 104.

[5]Chris Stauffer,Grimson W E L.Adaptive Background Mix-ture Models for Real-time Tracking[A].IEEE Computer So-ciety Conference on Computer Vision and Pattern Recogni-tion[C].Fort Collins:IEEE Press,1999.246-252.

[6]李晓飞,梅中辉.一种基于直方图统计的多帧平均混合的背景提取算法[J].南京邮电大学学报:自然科学版,2008,28(6):74-77.

[7]冈萨雷斯,阮秋琦.数字图像处理[M].2版.北京:电子工业出版社,2003.

[8]蔡友杰,陈秀宏.基于视频图像的运动目标检测与识别[J].微计算机信息,2009,25(3):280-281.

视频目标检测论文 篇6

视频监控已经悄然出现在人们日常生活中的各个角落,其应用范围包括交通、银行、办公楼、军事等[1]。基于视频序列的运动目标检测是计算机视觉研究的一个重要领域和各种后续高层次处理的基础。视频监控算法的第一步是确定场景中运动目标的存在并且进行运动检测[2]。是否会出现一个新的目标是由监控现场图像、视频图像的变化序列确定的。常用的传统运动检测方法有:

1) 帧差法。帧间差分法是基于运动图像序列中相邻两帧图像间具有强相关性的检测方法,在摄像头固定的情况下对相邻两帧作差分运算来获得运动目标轮廓[3]。设在T1时刻和T2时刻采集到同一背景下的两幅运动图像为F1(x,y)和F2(x,y),则差分图像的定义为G(x,y)=F1(x,y)-F2(x,y),对上式的差分结果进行阈值处理,就可以提取出运动的物体。该方法具有更好的实时性,而且算法简单,计算量小,它不会因为累积背景变化而影响更新速度,对环境噪声不是很敏感。关键是选择的阈值,如果阈值设置太低,则此种方法还不足以抑制图像噪声,相反,如果设置太高,则图像中的细微变化将无法被检测出来。

2) 光流法。光流法是通过分析检测移动物体和场景变化、分割目标区域的空间和时间梯度估计运动目标的运动轨迹。虽然可以很好地适应背景变化,但由于光流法本身算法的复杂性、时效性和抗噪性都比较弱,所以在针对复杂背景的情况或是实时性要求比较高的系统中一般不予考虑。

3) 背景差法。其基本思想是用运动背景参数模型来近似背景图像的像素值[4,5]。通过建立背景模型,进而比较当前帧与背景帧,判定像素变化较大的区域为前景区域。这是一种直观高效的运算方法,目前广泛运用于目标检测[6]。但这种方法需要对背景模型进行定时的更新来适应周围环境的变化。

本文在对传统的3种方法进行分析比对后,考虑到系统对实时性的要求,选取最直接有效的背景差法。背景差法的核心问题是如何快速准确地对背景进行重构[7]。在以往的大量分析研究中,主流方法可以分为两类:第一类是通过建立高斯背景模型,通过检测模型能否匹配来判定目标像素是前景点还是背景点;第二类方法则是对当前提取的一组视频帧序列的像素点进行灰度值归类,通过计算其灰度值频率来确定是前景点或是背景点(一般认为背景像素点总是灰度频率最大的点)。

在第一类方法中,Ridder C等人通过Kalman滤波的方法,对每一个像素点建立一个高斯模型,虽然能够克服灯光变化、大雾天气等场景灰度缓慢变化的干扰,但对于叠加场景变化没有明显的效果,而且模型参数较多,势必会降低系统的工作效率。随后Friedman和Russell等人为了提高系统工作效率提出用3个高斯模型加权的方式来表征图像中各个像素点的特征,从而分离前景点,但实际应用中背景比较复杂,用一个高斯模型来描述背景是不够准确的,但如果增加高斯模型的个数又会降低系统检测的效率。Elgammal等人提出了一种无参数的核密度估计算法,虽然在一定程度上降低了运算量,但系统的工作效率依然无法满足实际应用的需求。

在第二类方法中,Long和Yang提出了只要目标像素点的灰度值处于稳定状态时间最久,那么它就是背景像素点[8]。但是如果运动物体的移动很缓慢或者有一段时间是处于静止状态的,那么目标像素点的灰度值必然是此段视频帧中处于稳定时间最长的[9,10],那么这种方法将会错误地判定这一运动物体像素点为背景像素点。为此Kornprobst等人提出了PDE的背景重构方法,可以在一定程度上解决这一问题,但微分方程中所涉及的参数设定起来比较困难,导致计算比较复杂,无法满足系统对实时性的需求。

因此,要使系统能在实际生活中稳定运行,不但要考虑各种外在因素的干扰,而且要考虑系统本身的工作速率,努力实现一个高速、稳定的通用系统。本文的研究方法是基于像素灰度值归类这一方法,保留其计算量小的优势,在复杂场景中拥有良好的自适应能力。其核心思想是背景像素点的灰度值一定是像素灰度序列中频率最高的灰度值。从这一原则出发,合理选择帧选取策略,采用更加快速有效的灰度归类方法,并结合形态学的方法对重构背景进行去噪处理。

2 改进的像素归类算法

像素灰度归类的算法基本包括6个部分:1) 视频帧序列的选取;2) 通过连续帧判定背景重构异常;3) 根据帧序列划分灰度近似区间;4) 通过间隔帧计算灰度近似区间的平均灰度值;5) 合并灰度值相近的灰度近似区间;6) 统计灰度值出现频率,找到包含像素灰度值频率最大的区间平均灰度值作为背景灰度值。

改进的像素归类算法步骤如下:

1) 步骤1,目标帧序列的选取。

从选取方式是可以分为连续选取和间隔选取。当一个像素点在有车辆经过时,分别采用连续和间隔两种帧选取方式的情况下灰度值的变化趋势如图1和图2所示。横轴代表视频帧数,纵轴代表观测像素点的灰度值,100左右灰度值为背景灰度值。通过曲线图可以得到以下结论:(1) 当观测区域内前景目标出现的频率较低时,两种选取方式的图像波动都不大,采用像素归类的方法可以准确地找到背景点,有效地分离前景目标;(2) 当观测区域内前景目标出现的频率较高时,前景目标灰度值的频率会超过背景区域的灰度值。此时可以看到连续选取的视频帧中同一点的像素值波动很大,而间隔选取的视频帧中像素点的波动并不大,此时如果采用传统的灰度归类方法,则会产生前景混入重构背景的现象,导致重构背景的不准确。

基于上述结论,采用连续选取与间隔选取并存的混合选取方式来提取视频帧,这样既可以克服由于提取视频帧过于频繁而导致的系统性能降低,又可以保证在前景目标出现频率较高的情况下及时调整背景重构策略,避免背景的错误重构。

从视频帧序列(I1,I2,…,IM)中等间隔抽取N帧以及第N-1帧与第N帧之间的n帧图像,记为(F1,F2,…,FN-1,f1,f2,…,fn-1,FN)。

2) 步骤2,重构异常的判定。

在前景目标出现频率较低的情况下,采用高频灰度替换的背景重构策略,而在前景目标出现频率较高的情况下会出现重构异常,则需要采用延时灰度替换的策略。这个延时是从当前时刻到前景目标恢复低频的时间。在这段时间内不对背景像素做替换。

通过利用f灰度序列的双峰和多峰特性来判定重构异常。具体方法为:

(1) 定义一个计数器count,假设图像第f1帧某一点像素的灰度值为f1(x,y)在f2帧某一点像素的灰度值为f2(x,y),则两者的像素灰度差为S(x,y)=f2(x,y)-f1(x,y),若S(x,y)>T,则count+1,否则count不变,其中T为阈值,用来判定是否需要更新背景灰度值。

(2) 依次遍历f1,f2,…,fn-1,FN,逐次求差。

(3) 若count>W,则不对此像素点做灰度值更新,否则更新。W为多峰界定阈值,W≥4。

3) 步骤3,划分灰度近似区间。

Fi(x,y)表示在视频帧序列中的第i帧图像中像素点(x,y)处的灰度值,可得到

undefined

此处的阈值T与步骤2中用的阈值一致。实验可知:256级灰度时,T在[15,30]范围内最为合适。由式(1)可知,当Qi(x,y)取1时,该像素点两帧之间灰度值差距较大,不属于同一灰度近似区间。当Qi(x,y)取0时,则属于同一灰度近似区间。

4) 步骤4,计算平均灰度值。

假设每个近似区间所含像素灰度值个数为(p1,p2,…,pi),则有

undefined

由假设可知N=P1+P2+…+Pi,初始化,令P0=1,分别对区间[1,P1],[1+P1,P1+P2],…,[1+P1+…+Pi,P1+P2+…+Pi+1]累加后除以像素点个数,得到其平均灰度值。

5)步骤5,合并灰度近似区间,将统计灰度值频率最高的作为背景灰度值。

当判定第i+1个和第i个灰度近似区间是否为灰度一致区间时,对2个灰度近似区间的平均灰度值做差分

undefined

当Wi(x,y)取0时,2个灰度近似区间可以合并成为灰度一致区间,当Wi(x,y)取0时则不能合并。

若第i个和第j个灰度近似区间合并后,得到灰度一致区间的平均灰度值为

undefined

遍历所有灰度近似区间,将所有可以合并的近似区间合并,统计合并后所有灰度一致区间中所包含的像素灰度值个数,取其中频率最高的一致区间的平均灰度值作为背景灰度值。表达式如下

undefined

3 目标检测与提取

背景差法是一种直接有效的目标检测方法,采用上述方法提取到参考背景图像后,用当前帧与背景帧做差分运算。其数学表达式为

式中:F(x,y)为当前帧像素灰度值,B(x,y)为背景帧像素灰度值。之后对差分结果进行二值化处理。其表达式为

undefined

式中:T为阈值,与上述灰度归类用到的阈值一致。用背景差法不可避免会产生一些噪点,这与阈值的选取有关。这里可以利用数学形态学的开运算去除噪点。

4 实验结果与分析

本文利用连续间隔视频帧同时提取的方式进行背景重构,同时与传统的背景重构方法以及GMM的背景建模方法进行比较,背景重构时所选取的阈值T为20个灰度值,W选取5个波动为多峰界定阈值。图3为每隔32帧提取到的视频图像。本文间隔选取帧以第96帧到第224帧的视频帧作为目标帧,帧间间隔为8,共计16帧。连续选取帧为第192帧到第224帧,帧间间隔为2,共计16帧。

可以看出,在车辆出现频率低的区域内,本文算法与GMM算法以及传统灰度归类算法的效果相近。而在车辆出现频率高的区域,传统灰度归类算法则会出现大量噪点。GMM算法也会出现前景点混入背景点的情况,而本文算法则可以有效地进行背景重构。

5 小结

本文基于改进的像素灰度归类的方法与形态学滤波相结合对背景进行重构,进而用背景差法来对目标进行检测。传统的像素灰度归类方法仅适用于检测区域内运动目标出现频率较低的情况,而本文的方法可以有效地克服这一局限性并且兼顾到系统实时性的需求。虽然这种方法仅适合固定摄像机的情况,但实时性好、计算量小、鲁棒性强,也可以很好地完成当目标出现频率较高的大流量场景下的目标检测任务。

参考文献

[1]孙涛,陈瑞平.视频监控系统中一种运动目标的检测方法[J].电视技术,2012,36(7):127-129.

[2]MITTAL A,PARAGIOS N.Motion-based background subtraction usingadaptive kernel density estimation[C]//Proc.the 2004 IEEE ComputerSociety Conf.on Computer Vision and Pattern Recognition.[S.l.]:IEEE Press,2004:302-309.

[3]MAGEE D.Tracking multiple vehicle using foreground,background andmotion models[J].Image and Vision Computing,2004,22(2):143-155.

[4]YU S S,XIAO D G,ZHOU J L,et al.Adaptive background subtractionalgorithm[J].Chinese Journal of Mini-Micro Systems,2003,24(7):1331-1334.

[5]余胜生,肖德贵,周敬利,等.自适应背景抽取算法[J].小型微型计算机系统,2003,24(7):1331-1334.

[6]沈盼盼,樊丰,伍瑞卿.基于RGB三通道分离的运动目标检测方法[J].电视技术,2012,36(3):137-140.

[7]ELGAMMAL A,HARWOOD D,DAVIS L.Non-Parametric model forbackground subtraction[C]//Proc.the 6th European Conf.on ComputerVision.Dublin,Ireland:[s.n.],2000:751-767.

[8]ELGAMMAL A,DURAISWAMI R,HARWOOD D,et al.Backgroundand foreground modeling using nonparametric kernel density estimationfor visual surveillance[J].Proceedings of the IEEE,2002,90(7):1151-1163.

[9]侯志强,韩崇昭.基于像素灰度归类的背景重构算法[J].软件学报,2005,16(9):1568-1576.

视频目标检测论文 篇7

智能视频监控系统, 是实现监控场景中的运动目标检测的监控系统, 通过对摄像机或传感器采集来的视频图像进行自动智能的分析和处理来实现[1,2,3]。在传统视频监控系统中, 存在及时性差和效率低的问题, 而这些问题都是由于人为因素造成的, 所以, 智能视频监控系统的产生, 很好解决了以上问题的发生。

1 系统总体设计

智能视频监控系统主要功能:视频数据采集——数据处理——画面显示——存储——异常情况报警——远程数据传输。在智能视频监控系统中, 本文所研究的视频监控移动目标检测系统只是其中一部分, 要求能实现视频数据采集、图像数据处理、实时结果显示等功能。系统的总体结构 (图1) 。

2 系统硬件设计

2.1 系统硬件构成

系统开发平台:Altera DE2;系统核心处理芯片:CycloneⅡEP2C35F672C6, 用于实现视频图像的实时采集及目标检测与跟踪, 系统硬件构成框图 (图2) 。

(1) 系统通过ADV7181B将摄像机输出的视频信号解码成ITU-R BT.656标准的YCb Cr4:2:2格式的数字视频信号;

(2) 存储时, 需通过FPGA转换成RGB格式数据, 存入SDRAM图像存储空间;

(3) 图像处理模块由DMA控制器从SDRAM中读取图像送入SRAM并进行处理;

(4) 处理后的数据使用ADV 7123对数字信号进行转换, 转换为模拟视频信号后输出到VGA显示器上, 视频解码芯片由FPGA构建的I2C总线配置模块进行初始化和控制, 系统CPU由NiosⅡ软核下载到FPGA实现, 系统上电后由EPCS16进行引导和配置, 系统主程序储存在FLASH中[4]。

2.2 视频输入及显示模块

由ADV7181B、I2C ADV Config两个模块组成视频输入, CCD摄像机将采集到的PAL制式模拟视频信号, 通过BNC接头输入到ADV7181B视频解码芯片中, 对于输入的模拟视频信号, 该芯片是能够自动识别, 通过内部3个54MHz高速ADC完成A/D变换, 输出标准的数字信号, 系统对ADV 7181B内部寄存器通过I2C ADV Config模块进行相应配置, 使解码输出为8位串行信号, 视频输入部分模块框图 (图3) , ADV7181B电路原理图 (图4) 。

2.3 NiosⅡ系统模块

使用SOPC Builder工具生成NiosⅡ系统模块, 包括32位嵌入式软核处理器NiosⅡ/s, 产生50/100MHz时钟信号的PLL锁相环, 存放中断向量的On-Chip Memory, 系统程序存储空间Flash及其Tristate Bridge, CPU处理存储空间SRAM及其Tristate Bridge, 直接存取控制器DMA Controller, 下载及调试接口设备JTAG UART、UART, CPU及μC/OS-Ⅱ操作系统的Interval Timer间隔定时器, System ID外设识别符等标准外设, 以及其它自定制逻辑模块, 包括使NiosⅡ能控制视频输入及显示模块、能在SDRAM中读写数据的CCD Controller外设逻辑等。完成的SOPC工程 (图5) , NiosⅡ处理器设置 (图6) 。

2.4 图像处理模块

模块利用QuartusⅡ的Mega Wizard Plug-In Manager工具, 使用Altera提供的LPM库的IP功能模块生成:Gray部分由1个PARALLEL_ADD多路加法模块、3个LPM_MULT乘法模块组成;Threshold部分由LPM_ABS绝对值模块、LPM_COMPARE比较模块组成, 用于实现移动目标提取。图像处理模块完成了移动目标检测的初步操作, 移动目标参数的计算由NiosⅡ通过C/C++算法来完成, PARALLEL_ADD模块设置 (图7) , 图像处理模块框图 (图8) 。

3 检测算法流程

移动目标检测算法:要求从采集的视频序列帧中检测出场景中出现的运动目标, 采集视频图像场景为静止背景, 该系统能够检测出单个或多个移动目标。具体分为以下三个阶段:

第一, 图像预处理:灰度图像转换, 采集图像滤波;

第二, 基于累积差分更新背景减除法:包括背景模型建立与更新, 移动目标提取;

第三, 检测后处理:形态学滤波, 连通分量分析。[5,6]。

4 实验结果分析

对本系统移动目标检测算法, 我们采集一段视频图像进行功能仿真, VGA 640×480像素30帧/秒, 其仿真情况 (图10) 。

图10-1为当前采集的第120帧图像;图10-2为转换为灰度图像;图1100--33为进行滤波后;

图1100--44为当前背景模型。通过上图仿真可看出, 图10-4背景模型较好地消除车辆进入场景留下的痕迹, 可以清楚看到场景区域树叶被风吹动产生的干扰。

5 结语

系统的核心处理芯片采用由Altera公司开发的Cyclone II EP2C35, 设计了一种基于视频监测移动目标检测系统。因为本系统的主要目的是对图像实时采集和移动目标检测, 所以, 对计算机算法的复杂度的要求不高, 并进行相应整改。背景减除法使用在累积差分更新法建立的背景模型中, 可更好适应场景的变化。针对静止的背景, 该系统能够实时有效地进行图像采集与移动目标进行检测。

参考文献

[1]郝菲.智能视频监控系统中运动目标检测与跟踪的研究[D].北京:北京交通大学, 2009.

[2]Collins R, Lipton A, Kanade T.Introduction to the SpecialSection on Video Surveil-lance[J].IEEE Transactions onPattern Analysis and Machine Intelligence, 2000, 22 (8) :745-746.

[3]Valera M, Velastin S.Intelligent Distributed SurveillanceSystems:A Review[C].Proceed-ings of IEEE Conference onVision Image and Signal Processing, 2005, 152 (2) :192-204.

[4]李月静, 谢维成, 石一兴, 等.基于SOPC的实时运动目标检测与跟踪系统[J].重庆理工大学学报 (自然科学) , 2011.

[5]洪子泉, 杨静宇.用于图像识别的图像代数特征抽取[J].自动化学报, 1992, 18 (2) :233-238.

视频目标检测论文 篇8

现场可编程门阵列 (FPGA) , 具有结构灵活、实时性强、功能完善的特点, 能为设计者提供最大的设计灵活性;所需外围器件少, 适合模块化设计, 开发周期短, 可擦除复用的一系列优点[2]。本文采用恒虚警这一经典的方法, 结合现场可编程门阵列 (FPGA) 技术, 对红外电视图像进行处理研究。充分利用恒虚警这一经典有效的检测方法和现场可编程门阵列在理论和操作上的优点, 进行红外视频目标的检测。从而实现高速、实时性与有效实现目标检测的统一。系统采用自行设计的专用电路, 区别于计算机系统, 实现小型专一化。采用外置可调谐式阈值设置, 可极大地减小环境变化对检测的影响, 增强对不同环境中目标检测的效果。

1 红外自适应恒虚警检测

1.1 红外目标特性

一般情况下, 目标后的背景热辐射对应光谱辐射空间分布的辐射值的变化是连续的。而对应所要的红外目标人或者飞机等高于环境温度的目标, 将被感知为一个灰度值高于此时周围背景的值。所获取的红外视频图像可以近似为以下模型[3], 即

式中:f (x, y) 表示所获得的红外图像;T (x, y) 表示目标图像;B (x, y) 表示背景图像;N (x, y) 表示获取图像时引入的噪声图像, 本文中视其为高斯白噪声[4]。由概率统计密度函数可描述为

式中:δ为噪声电压;u为标准偏差。在设定一定的门限阈值时, 可以计算出相应的虚警概率为

1.2 自适应恒虚警检测

红外图像反映的是场景温度特性有关的热辐射, 它的清晰度不高、对比度差, 尤其是野外背景。人、车、船等特定目标温度高于环境, 它们的红外图像的灰度就可能略高于背景, 尽管是忽隐忽现, 呈随机特性的高斯分布。采用恒虚警检测就是针对这种背景几乎被噪声淹没、被白化的弱信号情况下, 具有一定的鲁棒性的恒定检测发现目标的概率。单帧局部自适应恒虚警检测算法步骤是, 首先自适应求取估计检测阈值Th, 然后将待检测点YM (假设目标像素集合) 与自适应阈值Th比较, 按式 (4) 判断是否是真正目标点F (p) 。

所谓局部相对于单帧图像来说是一个n×n窗口, 这个窗口中的像素构成一个集合 (在小范围内, 对于背景视同一个准平稳的随机分布) 用来估算检测阈值Th, 窗口正中的2×2像素 (可能是一个冲激响应) 构成一个子集用来测算YM值。这个窗口无缝有序地滑动, 实现对整帧画面中所有可能的点目标的检测。在检测过程中的关键核心问题是自适应门限Th的估计。

对于n×n窗口局域, 它的阈值估计公式为

式中:a, b, c为经验常数, 在不同的实验背景中, 它的取值不尽相同, 因此在不同环境的试验中, 调整为相适应的值;μ为背景温度 (热辐射) 均值;σ为背景温度 (热辐射) 标准差, 表达式为

式中:f (x, y) 是红外摄像机采集的原始图像信号 (2×2代表垂直和水平坐标) , 按电视扫描格式采集顺序实时输入。

例如取n=8, 即8×8的卷积模板为例, 如图1所示。模板中t是目标可能位置, 模板正中2×2共4个像素点就是拟定被检测小目标的YM子集, 求YM值最简单的方法是取该4个点的均值, 最好的方法是用数学形态学对YM子集进行腐蚀和膨胀算法以及开运算和闭运算之后再取加权均值, 以去伪存真。在YM周围留有一圈“隔离带”, 图1卷积模板中的g, 它可能是背景, 也可能是目标对象, 它在两者之间起缓冲作用。本案制定的这个特殊模板非常有助于提高可靠性, 减少虚警概率。模板中其余的部分x表示运算区域。因为有“隔离带”后, 上述的相应求期望和方差的公式也需做相应的修正, 只累加运算最外两圈的像素。

为了剔除虚假背景信息, 在按式 (6) 和式 (7) 对图1进行运算时, 当像素点的值f (x, y) ≥Th时, 不参与运算。Th是先前历史 (例如相邻的上方和左方模板) 卷积运算Th值记录的均值。理论证明, 这一补充算法, 对提高鲁棒性非常重要。

2 电路实现

实现该电路的硬件结构图如图2所示。

要实现该电路, 最重要的是让该模板在FPGA中实现类似滑窗的电路。因此采集的红外视频信号首先将其转化为ITU-R BT.656信号[5], 由于该信号的灰度值Y和色差信号C没有分离, 不方便处理, 将其转为ITU-R BT.601[6], 在此模式下同时运用分离出的行场信号进行处理。调用Xilinx中现成的IPcore依次延时1, 2, …, n-1行;再加当前数据行, 及实现n行数据对齐。运用Verilog中reg[7:0], mem[n-1:0]实现同时操作一行中n个数据。这样即可形成N×N的模板运算。仿真结果如图3所示, 其中mem0是当前输入数据, mem1, …, mem7是依次延时1行到7个行时钟且对齐后的数据。

对于自动阈值的设定, 关键需要计算出均值和标准差。均值的求取可以在FPGA中用除法电路实现, 在设计中也可以运用移位电路相加的模式;对方差的求取, 可采取查找表的方法实现。同时注意运算的时序对齐问题。在运算中将相应的像素灰度值YM与阈值比较, 并进行二值化处理。就可得到只显示检测目标的二值化图像。仿真时序结果如图3所示, 检测到目标则fp_detect为1, 如图3最下方一行, 3处目标被检测到并二值化为1。

阈值的公式设计为外置可调式, 可适用于不同背景的目标检测。通过外置设备调整a, b, c的值, 从而改变Th的大小。

3 实验结果与分析

运用上述电路算法对采集的红外图像检测结果如图4、图5和图6所示。其中图4a、图5a分别为两个同背景下的红外原始视频图像。图4b与图5b都为效果较好二值图像, 图4c与5c都为效果较差二值图像, 它们分别是场景一与场景二处理后的图像, 都是通过调整阈值, 采用自适应恒虚警检测后的得到二值化图像。

图4b、图4c阈值选取时, 阈值式 (5) 中a, b, c分别为1, 0.25, 2;1, 0.125, 1;1, 0.5, 3;1, 0.25, 1。对不同背景图像, 图4a和图5a的信噪比不一样, 检测时阈值的设定也不一样。在同一背景下, 图4c的阈值小于图4b的阈值, 虚检点较多。同样地, 图5c的阈值设置过小, 造成过多的虚检。图4b和图5b的阈值设计比较合理, 既能有效检出目标, 同时虚检点最少。阈值设置也不是越大越好, 越大会造成目标的漏检。

通常为了能准确确定目标的方位, 可以采用装入预先采集的背景图显示, 如图6所示, 这样的显示, 尤其是在地面目标方位的判断中具有很好的效果, 在空域中可以判断大致的方位, 极大地增强人的识别效果。

当然CFAR也存在一定的漏检测或误检, 在检测时调整式 (5) 中的a, b, c值, 使人眼能有效地二次判断出目标, 另外可以采用自己提出的一种新型的轨迹记录的方法[7]。在上述的图4b和图5b, 检测效果比较好, 结合该显示方法, 经过人眼的二次判读, 能更加准确识别出目标, 减小误判。

4 小结

本文结合雷达中经典的恒虚警自适应检测法和FPGA, 充分运用两者各自的优势, 对红外视频目标进行检测。通过不断的多场景实验, 调制自适应的阈值。可以对不同场景的目标进行有效的检测。

摘要:运用雷达上经典的自适应恒虚警的检测方法, 分析红外图像特性, 针对红外目标特点, 结合FPGA的优势实现对红外视频图像目标的快速检测。兼顾了实时性、处理速度、系统可靠性等要求。外置可调谐式阈值设置, 可适应多环境问题。实验结果表现出较好的效果, 展现出较高的实用价值。

关键词:恒虚警,现场可编程逻辑门阵列,红外目标检测

参考文献

[1]何友, 关键, 孟祥伟, 等.雷达目标检测与恒虚警处理[M].2版.北京:清华大学出版社, 2011:1-10.

[2]邱军海, 关键, 宋杰, 等.常用雷达视频信号处理算法在FPGA上的实现[J].海军航空工程学院学报, 2006, 21 (6) :637-641.

[3]赵晶晶, 谌海新, 刘星彤, 等.红外小目标图像预处理方法研究[J].信号处理, 2009, 25 (7) :1088-1091.

[4]欧阳俊华, 黄庚华, 程鹏飞, 等.FPGA的激光雷达恒虚警控制技术研究[J].红外与毫米学报, 2009, 28 (1) :50-53.

[5]向厚振, 张志杰, 王鹏.基于FPGA视频和图像处理系统的FIFO缓存技术[J].电视技术, 2012, 36 (9) :41-43.

[6]GB/T 17953—2000, 4∶2∶2数字分量图像信号的接口[S].北京:中国标准出版社, 2000.

上一篇:综采工作面设备下一篇:工程领袖