视频目标(精选8篇)
视频目标 篇1
1 目标区域的重心跟踪
1.1 目标区域的重心
我们利用连通域标记[1]来判断行人。根据连通域的外接矩形的重心的跟着轨迹来判断行人。目标区域由于背景提取和二值化的偏差, 目标物的中心往往不是目标物的重心。所以本文根据目标区域计算目标区域的重心[2]。从而对重心进行跟踪。
由于二值化的影响使连通域标记的外接矩形的不能更好的反应目标物地真实情况。现在为了避免上述情况, 本文在确定外接矩形前进行二值化投影。先进行行投影。统计每行中的块为白色的块数, 再进行列投影, 统计每列中的块为白色的块数。
根据行投影和列投影计算目标物的重心。以重心的列的坐标计算为例, 其计算思想:设图像目标物块数为N, 列数为[0, L-1], 对应列i的目标物块数为ni, 几率为:
则重心的列y=i*pi。
1.2 目标区域的重心轨迹分析
得到目标物重心以后, 进行目标物重心的跟踪, 跟踪的思想:得到重心后, 保存重心的行和列, 第二帧在上一帧中的重心附近进行搜索, 搜索的范围本文设定为行数块数为4块列数的块数为8块, 如果搜索到有目标物的重心, 就认为两帧为同一目标物, 更新重心的列和行坐标, 搜索下一帧。本文搜索的帧数设定为10帧。根据每十帧目标物重心的跟踪轨迹[3], 分析目标物的速度。由于车辆速度较快, 行人速度较慢, 但阈值的选取有困难, 所以目标物的速度在本文中是十帧的位移矢量和, 这样做是为了放大速度之间的差距。
2 目标区域特征点的跟踪
2.1 特征点的选取
目标物的特征点[4]的选取直接影响到目标物的跟踪, 所以选取目标物的特征点要有代表性和特征性。本文选取目标物的棱角作为它的特征点。
特征点选取思想:在目标物的左右边缘两侧的像素的灰度值差别是非常大的, 一侧是目标物本身, 另一侧为背景, 同样, 在目标物的上下边缘两侧的像素得灰度值差别也是非常大的, 一侧是目标物本身, 另一侧为背景。所以我们利用目标物左右和上下边缘两侧的像素灰度差的来选取特征点。
特征点选取过程:
(1) 搜索图像, 当搜索到目标物上的像素时 (目标物像素值为255, 背景像素值为0) 计算它的左上与右上像素灰度值的差, 正前与正后的像素灰度值差, 左下与右下的像素灰度值差, 并将他们之差的绝对值求和。
(2) 当求得的和大于所设定阈值时, 认为这一点在目标物的边界上。
(3) 对 (2) 中的点计算它的左上与左下的像素灰度值差, 正上与正下的像素灰度值差, 右上与右下的像素灰度值差, 并将他们之差的绝对值求和。
(4) 当求得的和大于所设定阈值时, 认为这一点是目标物的特征点。否则不是目标物的特征点。
2.2 特征点的跟踪
特征点跟踪是根据第i帧中得到的模板在第i+1帧得到匹配最佳的目标区域。影响跟踪效果好坏的四个因素为:模板[5], 候选目标, 相似度的衡量。本文的跟踪方法模板都是需要更新的, 即第i帧中的模板在第i+1帧中找到最佳匹配的目标区域后, 在第i+2帧以i+1帧中找到最佳匹配的目标区域作为新的模板, 以此类推。
(1) 模板表示。跟踪方法模板的表示为特征点为中心的矩形框内的像素值。由于目标帧间运动小, 可以为下一帧的搜索指定一个范围。模板匹配的模板以块 (Block) 为存储结构的匹配过程就是基于块匹配[6]。块匹配跟踪的思想是将视频图像中的每一帧图像分成多个相互不重叠的子块 (M*N) , 并假设块内所有像素点的位移矢量完全是相同的, 把分出来的每个子块当作实际运动的目标物体。对于当前帧中的每一个子块, 在前一帧或后一帧某一设定的搜索范围 (K*L) 内, 根据给定的匹配准则, 找到与当前帧当前块块相似度最高的子块, 即为匹配块。由上一帧或者下一帧得到的匹配块, 和当前块的相对的位置可以得到这两帧的物体运动位移, 所得到的运动位移作为当前块运动矢量, 用D来表示。
设可能当前帧中的运动位移的最大矢量为D (dx, dy) , 则下一帧的块的搜索窗口的相应的大小可用 (M+2dx) * (N+2dy) 表示。当前匹配块与搜索窗口间的关系可用下图表示:
对视频图像中的每个含有目标的块 (8*6) 进行跟踪, 从而可以得到目标的运动轨迹。
(2) 候选目标表示。候选目标的表示为和特征点为中心的矩形框内灰度值。
(3) 目标物特征点的相似度衡量。相似度衡量是根据相应的计算来完成的, 相关计算值大的表示相似程度高。在计算相似度的衡量上用的函数最小平均绝对差值函数:
最小平均绝对差值函数 (MAD) :
3 结语
目标物体的跟踪是判断交通事件的重要途径, 区域的跟踪和目标特征点的跟踪是要基于图像二值化, 图像二值化的准确程度直接决定了跟踪的准确性, 特别是特征点的跟踪。当多个目标物体出现重叠或者遮挡时, 区域的跟踪和目标特征点的跟踪的方法就失去了作用。所以目标物体的遮挡问题是今后应该重点研究的方向。
参考文献
[1]黄卫, 陈里得.智能运输系统 (ITS) 概述[M].北京:人民交通出版社, 2001.
[2]黄若芸, 莫玉龙.用于智能交通“车流量监测”的压缩域内运动目标监测[J].上海大学学报, 2003, 9 (2) :100-104.
[3]于艳玲.视频检测中的的车辆速度检测技术研究[D].西安:长安大学, 2009.
[4]高红波, 王卫星.一种二值化图像连通区域标记的新算法[J].计算机应用, 2007.
[5]章毓晋.图像工程 (上册) :图像处理和分析[M].北京:清华大学出版社, 1999:256-265.
[6]肖志坚.H.264帧间编码技术的分析与改进[D].西安:西安电子科技大学, 2005.
[7]彭小宁, 杨明.基于局部图金字塔的不规则块匹配视频分割方法[J].计算机科学, 2008.
视频目标 篇2
[关键词]视频监控;智能视频分析;运动目标检测;
[中图分类号]TP391.4 [文献标识码]A [文章编号]1672-5158(2013)06-0203-01
1 引言
随着科学技术的发展以及人们对安全防范意识的不断增强,具有智能分析功能的新一代视频监控系统,已经开始渗入到我们的日常生活当中。
智能视频监控是指在不需要人为干预的情况下,利用计算机视觉分析方法对视频序列进行自动分析,实现运动目标检测、分类、识别、跟踪等,并在此基础上,通过预先设定的规则对目标的行为进行分析,从而为采取进一步措施提供参考(比如在对象进入设防区时自动报警)。其中,运动检测的目的是通过对监控视频图像序列的分析,确定监控场景中有无运动目标,进而把运动区域(也称前景区域)从检测图像中提取出来。在智能视频监控中扮演着重要的角色,是后续目标跟踪和运动分析的基础。
2 运动目标检测算法发展状况
国外对运动目标检测的理论及应用的研究较早,尤其在1996年至1999年间美国国防高级研究项目署的视频监控重大项目VSAM(Videosurveillance and Monitoring)。主要目标是通过视频理解、传感器融合、网络通信技术实现对未来战场、城市、机场等进行自动监控。
在国内,中国科学院自动化研究所里的生物识别与安全技术研究中心CBSR(Center for Biometrics and Security Research)研究开发有行人与车辆的多目标检测、跟踪以及分类、目标异常行为的识别与报警等智能分析技术,并实现一个动态场景集成、分析和演示系统,并最终推向实用。
3 现有的运动目标检测算法
根据序列图像的背景情况,运动目标检测算法可以分为静态背景下运动目标检测算法和动态背景下运动目标检测算法。静态背景是指摄像机在整个监视过程是静止的,而动态背景是指在监视过程中摄像机发生了移动,如平动、旋转或多自由度运动。动态背景下的运动目标检测由于目标与摄像机之间存在着复杂的相对运动,所以检测算法要比静态背景下的检测算法复杂的多。目前,—般的视频监控系统都是采用固定摄像头的方式,因此这里主要是研究静态背景下的运动目标检测算法。
运动目标检测方法主要有以下几种:帧间差分法、背景差分法、光流法以及混合高斯模型法。这些方法基于的原理不同,且各有优劣,以下详细介绍这几种方法。
3.1 帧间差分法
帧间差分法是一种基于像素的运动检测方法,它通过对视频图像序列中相邻两帧或相邻几帧图像进行差分运算来获得运动物体轮廓。
该法是运动目标检测方法最简单的一种,具有较低的时间复杂度以及运算简单等特点,可用于实时检测的系统。但是,这种算法存在一些局限性:(1)检测的运动目标区域大小与目标的运动速度有直接关系。当物体运动缓慢时,相邻两帧间的目标移动的距离小,检测的区域和实体相差也小,但如果速度慢到一定程度就会检测不到;当运动目标的速度很大时,检测的区域相应的会变大,从而造成检测的运动目标准确性偏低。(2)提取的运动区域会产生“空洞”现象。
3.2 背景差分法
背景差分法是通过对给定的视频序列图像进行学习,使用特定的数学模型来对图像中场景的背景进行建模并存储起来,然后用当前的视频序列图像与存储的背景模型做差分并通过选定适当的阈值来二值化,最终就得到相应的运动区域。该法在场景比较简单时,使用简单的背景模型可得到很好的检测效果,但在复杂多变的场景,就会出现过多的漏检现象。
因此,该方法仍需解决以下问题:(1)如何获取理想的背景模型以及建立理想的背景模型;(2)如何保持与更新背景。但是在环境比较复杂的情况下,背景都会随着时间的推移、外界光线变化以及现场环境的变化而发生改变,该法还是不能准确完整地提取运动目标。
3.3 光流法
光流是指图像中灰度模式的运动速度,它是图像中景物的三维速度矢量在成像平面上的投影,它表示了景物在图像中位置的瞬时变化,而光流场是运动场在二维图像上的投影,该物理量包含了有关运动和结构的重要信息。一般情况下,可以通过物体的运动场研究物体的运动,把光流看作运动场,通过研究光流场来估计图像序列的运动情况。
光流法的优点是检测精度较高,适合做精确分析,可以获得目标的运动参数等信息,也可以解决传统的基于特征的运动目标检测难以解决的遮挡,重合等问题。但实际应用中,存在运算量大、件要求较、对噪声非常敏感等问题。
3.4 混合高斯模型法
Grimson等人首先提出了基于混合高斯模型的背景建模算法,它的基本思想是:每一个像素的颜色值用个单高斯分布描述,的选取依赖于像素值的分布情况,通常值取3~5。由于彩色图像颜色通道之间相关性很小,可以忽略各通道间的之间相关性,假定了三个通道相互独立,且具有相同的方差,因此只需对均值、方差和协方差三个参数进行初始化、计算、更新,即可实现混合高斯模型的背景建模。
因此,该算法具有鲁棒性强,受外界条件变化的影响较小,能够适应复杂环境下运动目标检测,不仅克服了帧间差分法容易出现遗漏的缺点,也很好地解决背景差分法对光照等外部条件造成的动态场景变化过于敏感的问题,能够对运动目标进行快速准确的定位。由于混合高斯模型有其自身的优点,所以得到广泛学者的研究。
结论与展望
典型视频目标跟踪方法实现与分析 篇3
随着计算机技术的发展和计算机视觉原理的广泛应用,利用计算机图像视频处理技术对目标进行实时跟踪成为当今的研究热点。对目标进行动态实时跟踪定位在智能化交通系统、智能监控系统、军事目标检测及医学导航手术中手术器械定位等方面具有很高的应用价值[1,2,3]。同时,运动目标跟踪也是计算机视觉研究领域的一个重要课题,国内外已进行了大量研究工作。本文主要对这些研究工作中的经典方法包括背景预测法、帧间差分法和MeanShift法[4,5,6]进行分析,介绍其基本思想和算法步骤,并根据实验结果分析各自优缺点。
1运动目标跟踪基本方法
1.1背景预测法
背景预测算法的基本思想如图1所示。图像中的任何一个像素点,如果属于背景,则其灰度值与属于同一背景的其它像素点灰度值相关性较强,一定可以用周围区域的背景点预测;如果属于目标,其灰度值与周围像素点的灰度值相关性较差,在图像局 部会形成 一个或几 个异常点。利用这一差异分离目标与背景是背景预测方法的出发点。图像中任何一个像素点灰度的背景预测值都可以利用其周围区域的一些像素点灰度值经过加权组合产生,将图像中所有像素点的实际灰度值与预测值相减得到预测残差,然后在预测残差图像上进行阈值检测。
1.2帧间差分法
帧间差分法直接求取前后两帧图像之间的差别,如图2所示。帧间差分法是将图像序列中连续两帧或三帧图像所对应的像素灰度值相减,并且加以阈值化来分割图像中的运动区域。其思想是通过帧间差分,利用运动序列图像相邻帧的强相关性进行变化检测,进而通过对变化图像的滤波确定运动目标。
传统的帧间差分法是利用序列图像中相邻两帧做帧差运算。运动目标运动速度缓慢时,差分后提取的运动目标内部则会存在空洞,严重的会使提取的运动目标区域局部边缘产生缺口,这种情况采用图像形态学也无法修复。所以在本文中采用三帧差求取运动目标区域,使目标提取更加准确。对相邻三帧中前两帧和后两帧分别利用传统的帧间差提取运动区域,再对两个结果取公共部分,即为中间帧的运动区域。
1.3MeanShift法
MeanShift算法是指一个迭代的步骤,即先算出当前点的偏移均值,移动该点到其偏移均值,然后以此为新的起始点,继续移动,直到满足一定条件结束。
对于跟踪目标明候选区域,假设{Xi}i=1,...,n是以y为中心的像素点,k(x)依然是以h为半径核函数的 轮廓函数,u∈1…255,则候选区域的概率密度模型为:
于是问题转化为找取离散位置y,使其密度函数与目标密度函数具有最大相似度。
为了定义相似性度量,Bhattachaxyya系数被用于评价直方图的匹配程度。假设目标模型为m级直方图,目标的离散密度函数估计为位置在y的候选目标的密度函数估计为则目标与候选目标的相似性系数为:
为了计算Bhattacharyya系数的最大值,把在y0点泰勒展开为:
其中为权系数,由于上式中第一项独立于y常数,所以要使最大化需使后一项最大化。因此迭代求中心点的公式更新为:
2实验结果及分析
本文使用VisualC++作为可视化软件开发工具,以上3种方法实验结果如下:
(1)背景预测法实验结果如图3所示。背景预测法能够快速、准确地分割出运动物体,但容易受环境和光照的变化影响,而且如果运动目标与背景颜色相似,则检测出来的运动目标通常不完整。另外,该方法没有考虑到摄像机的抖动可能引起背景运动,造成差图像中存在较多的伪运动信息。
(2)帧间差分法实验结果如图4所示。帧间差分法直接求取前后两帧图像 之间的差 别,其对物体 运动比较 敏感,实际上检测到的是 目标与背 景发生相 对运动的 区域(包括运动目标和显露区域),受光线影响较小。另外该算法易于实现且实时性较好,因而成为目前广泛应用的目标检测方法。但缺点是跟踪连续性不够,帧间差别较明显,导致整个跟踪过程不够连贯。
(3)MeanShift实验结果如图5所示。该目标跟踪的方法利用了图像中目标自身的静态特性及运动特性,可以不依赖操作人员,自动对符合条件的运动目标进行检测和跟踪,并在检测和跟踪过程中采用了多种特征的判据判断与引入目标运动特征的跟踪方法,不依赖于先验知识和数据,自适应性非常好。但从实验结果可以看出,检测仍然不够准确,跟踪框范围过大,无法及时锁定运动目标,有一定滞后性。如果移动较快或移动范围较大,甚至有可能丢失跟踪目标。
3三种方法比较
3.1方法效率比较
度量一个程序的执行时间通常有两种方法,事后统计法和事前分析估计法。本文采取第一种方法对以上3种检测跟踪方法进行比较,结果如表1所示。
应用于该程序测试的视频在正常情况下长19s,前两种方法执行时间较长,这样可能导致在检测运动较快的目标时,虽然能检测到目标移动,但是跟踪不够及时。MeanShift相对而言实时性较好,但在实际应用中,仍然存在较大误差。
3.2资源占有率比较
衡量一个软件的好坏,占用资源的大小是一个非常重要的衡量指标。不同程序运行时的CPU占有率和所占有的内存资源如表2所示。
从表中可以看出,3种方法在占用系统资源方面差别不大,特别是前两种方法。但其CPU占有率都超过一半,增大了系统负担,如果有其它程序并行运行,将可能造成系统速度过慢。
4结语
从实验结果可以看出,背景预测法在运动目标所处环境过于复杂或当目标被遮挡时很难精确地分割出目标物体,所以运动目标的检测和分割在很大程度上影响了跟踪精度,同时也增加了跟踪的复杂性;帧间差分法提高了对环境干扰的抵抗能力,改善了运动目标的边缘特性,使检测出来的目标更加完整,但实时性不强;MeanShift虽然效率较高,但是当要 跟踪的目 标运动过 快时,MeanShift在后一帧中则很难准确跟踪到目标位置。
摘要:分析目前运动目标检测跟踪中的经典方法,包括帧间差分法、背景差分法和Mean Shift法,探讨其适用范围及优缺点,然后对3种算法进行验证,给出实验结果,并分析其优缺点。
基于运动目标的监控视频检索方法 篇4
随着“平安城市”和“3111工程”在全国范围内的实施,越来越多的专用视频监控网络建成并投入使用,这些监控网络在公安工作中发挥着较大的作用。然而,随着监控网络规模的扩大,视频数据呈现海量增长的趋势,视频调用查看所占用的警力也成倍增长,常有案件,警方为查找某嫌疑车或嫌疑人,投入大量人力花几天时间来浏览数量庞大的录像文件,从而成为制约监控网络、监控视频效能充分发挥的瓶颈。究其原因,主要在于视频信息具有非结构化和内容的多义性特性,传统的基于关键词的数据库检索方法难以实现。因此如何快速有效地搜索出感兴趣的视频内容己成为一大挑战。
1视频检索技术
视频检索是从大量的视频数据中找到所需的视频片断[1]。视频检索是当前多媒体数据库发展的一个重要研究领域,它综合了数字图像处理、数字视频处理、多媒体技术、数据库技术等多学科的内容,是目前世界各国学者研究的热点问题之一。为了能有效快捷地对海量视觉信息进行过滤、浏览和检索,人们提出了基于内容的视频检索CBVR(Content—based Video Retrieval)技术,并取得了一定的进展。目前基于内容的视频检索技术主要有[2]:基于元数据的视频检索技术、基于文本数据的视频检索技术、基于关键帧的视频检索技术、基于语义特征的视频检索技术、基于对象的视频检索技术。
2基于运动目标的监控视频检索
纵观众多监控场合,他们通常都有以下共同特点:
• 监控场景固定。
• 感兴趣的内容固定。
在绝大多数的监控中,通常只关心车辆和人员情况,此二者在监控视频中多为运动体。并且,实际对监控视频的调用中,经常是找到第一次出现嫌疑车辆或人员的视频录像,然后扩大范围,查找周边监控录像中出现过的类似特征的嫌疑车辆或人员,最终还原出嫌疑车辆的犯罪路线。因此,对监控视频的检索,往往是对嫌疑车辆或人员的查找。为此,本文结合基于对象的视频检索技术,提出一种基于运动目标的监控视频检索方法(如图1所示)。该方法首先检测监控视频中的运动目标,将运动目标存成图片,并对运动目标提取特征,生成相应的视频描述文件。检索时,只需通过输入图片的特征与描述文件中的特征相匹配最终查找出视频中的相似对象。
2.1运动目标的检测
在视频图像背景区域固定不动时,常用的运动目标检测方法有光流法、相邻差分法和背景差分法[3]。光流法在不需要背景区域的任何先验知识条件下就能够实现对运动目标的检测和跟踪,但光流法运算复杂、计算量大且抗噪性差;相邻差分法是利用连续两帧或几帧图像的做差结果检测运动目标,并通过阈值化方法提取图像中的运动区域,相邻差分法当检测表面光滑而且运动较慢的目标时,往往检测到的前景目标是不连通的碎片,这对后续处理是不利的;背景差分法通过利用背景参考模型建立背景图像,当前帧减去背景图像,然后对所得图像选择合适的阈值二值化以后,就得到完整的运动目标,是一种最为简单和有效的方法。本文采用基于中值模型的背景差分法来提取运动目标,相关的对比研究表明该算法简单、检测效果不亚于那些相对复杂的背景建模算法[4]。算法主要包括以下几部分:
(1) 背景初始化 将视频帧转化成灰度图像并分块,每块大小为16×16。若连续两帧,对应块变化小于5%,认为该块无变化,若连续10帧无变化,则将该块数据填充至背景相应部分,最终获得初始背景图像BG0;
(2) 背景更新 建一个大小为K(实验中取50)的帧缓冲池,存储帧记为I1,I2,…,Ik,并以N帧(实验中取15)间隔采样更新缓冲池中的帧。将当前背景BG0与缓冲池中的K帧,共K+1帧中的像素(i,j)按灰度强度排序,取中值更新背景图像中相应像素;
(3) 获取前景 当前帧图像I,其R、G、B分量图像分别为Ir,Ig,Ib,由Ir-BG0、Ig-BG0、Ib-BG0分别获得前景图像Dr、Dg、Db,并分别以下式二值化:
最终的运动前景图像为:
f(i,j)=fr(i,j)|fg(i,j)|fb(i,f)
其中,threshl(i,j)与thresh&(i,j)按以下公式获得(Ip表示排序的K帧图像中的第P帧):
λ、l、h通过实验确定,本文取15,10,20。该算法的程序设计框图如图2所示。
2.2特征选取
本文对运动物体的特征选取主要分颜色特征和纹理特征两类,具体包括以下四种:
(1) 颜色布局 它以一种非常紧密的形式有效地表示了视觉信号的颜色空间分布,其基本提取方法是:将图像从RGB空间映射到YCrCb空间后,分成64块,计算每一块中所有像素各颜色分量(Y,Cr,Cb)的平均值,并以此作为该块的颜色,然后对各块的平均值数据进行DCT变换,通过之字形扫描和量化,取出三组颜色DCT变换后的低频分量,共同构成该图像的颜色布局描述符,CLD={DY,DCr,DCb}。
(2) 颜色结构 它不仅能够反映图像的色彩信息,类似于颜色直方图,而且描绘了图像的局部颜色结构特征。通过考虑一个8×8像素结构化元素中的所有颜色,将颜色结构信息加入到该描述符中,而不是单独考虑每个像素,表达了一幅图像中的局部颜色结构信息。虽然它与颜色直方图相关,但并不相同:不是突出某种颜色个别图像采样的相对频数,而是突出包含某种颜色图像采样的结构化元素的相对频数。颜色结构可从不同的颜色空间提取,如MPEG-7中使用了HMMD颜色空间[5]。
(3) 主导颜色 它描述子图像中任意不规则区域中处于支配地位的颜色信息。在给定的图像区域,颜色信息将由少数具有代表性的色彩(即主导颜色)来表示。主导颜色可以表示为:FC={ci,pi,vi},s},(i=1,2,…,n)其中,ci表示第i个主导颜色,pi表示第i个主导颜色所占比重,vi表示其颜色方差,s表示主颜色的空间一致性,ci、pi、vi和s通过对颜色聚类后求得。图像任意区域中的主导颜色个数i的选择,国际上已有相关研究,如MPEG-7中规定主导颜色个数最多可以有8个[5]。
(4) 边缘直方图 它描述了边缘的空间分布信息,边缘的空间分布是重要的纹理信息,尤其当图像中的纹理分布不一致时,该描述子可用于图像间的匹配。首先将图像划分成16个互不重叠的矩形区域,对每个图像区域分别按0°、90°、45°、135°角四个方向和一个无方向性边缘五类信息进行直方图统计。此描述子具有尺度不变性,支持纹理旋转和旋转不变匹配,适用于非一致纹理图像。
2.3视频描述
对视频内容的描述包括:结构(区域、帧、视频段)和语义(物体、事件、抽象概念)描述。结构信息是在空间、时间、时空上组织而成,通过使用颜色、纹理、形状、运动等进行描述。语义信息通过文本注释对每一分段进一步描述。本文的视频描述如图3所示[6]。
2.4相似度计算及归一化
对于两个颜色布局描述符CLD1={DY,DCr,DCb}和CLD2={DY′,DCr′,DCb′},它们之间的相似度计算公式为:
其中(DYi,DCri,DCbi)表示各颜色分量的第i个DCT系数,wyi,wri,wbi为权重系数。
而对于两个主导颜色描述符FC1={{ci,pi,vi},s},(i=1,2,…,M)和FC2={cj,qj,vj},s},(j=1,2,…,N),在不考虑颜色方差V和主导颜色的空间一致性S时,两个描述符之间的距离为:
d(FC1,FC2)=∑
系数ai,j表示两种颜色的相似性:ai,j=1-di,j/dmax,其中di,j是颜色i和j之间的欧氏距离,dmax是两种颜色间的最大距离。在HSV空间中两种颜色(h1,s1,v1)和(h2,s2,v2)(其中的s和v归一化到
两个边缘直方图描述子的距离计算方法采用文献[7]提出的在原有的局部边缘分布统计的基础上,进一步统计图像纹理的全局和半全局的边缘分布,而后采用L1距离来计算。同样,类似于其他的直方图,选用L1距离来计算两个颜色结构描述子的相似度。
由于不同算法得到的视觉特征的物理意义不同,其范围的差别较大,相似距离互相之间的可比性差,因此在利用综合特征进行检索时,需要对不同特征向量计算所得的相似距离进行归一化处理。这样才能保证不同的算法在加权中处于平等的地位,保证不同特征向量在进行检索时具有相同的作用。本文对相似距离归一化使用高斯归一化方法。高斯归一化方法特点是归一化之后一些超大或者超小的元素值对整个归一化后的元素值分布影响不大。在经过归一化之后,我们将各个相似距离变换到[0,1]的区间上。对不同特征量的相似距离采用加权相加,得到最终的相似距离。
2.5实验结果
基于上述方法,本文实现了一个原型系统。该系统的实验环境为Intel(R) Core(TM)2 Duo 2.33GHz,Windows XP,2GB内存。通过道路上架设Honeywell HDC-505PV摄像机,使用MicroViewE43采集卡采集的监控视频以及网络下载获取的监控视频作为实验数据。为监控视频生成描述后,通过输入示例图片进行检索,检索结果如图4、图5所示(示例中人物检索所用视频的分辨率为384×288,长约为5分钟,车辆检索所用视频分辨率为704×576,长约为60分钟)。左上角为输入所要检索的图片,右上栏为检索出的相似图片,以相似度从大到小排列。点击图片,视频定位到相应帧。
3结语
基于运动目标的监控视频检索是一种基于对象的视频检索方法,通过对监控视频的分析获得运动目标,以运动目标为对象提取特征,而非以关键帧为对象提取特征,在一定程度上提高了检索准确率。实践证明,该方法具有一定的实用性,为警方在监控视频中查找嫌疑车辆或嫌疑人员提供帮助。下一步将研究基于运动目标的视频语义检索方法。
摘要:随着我国视频监控网络的不断壮大,监控视频数据呈现海量增长的趋势,如何快速有效地进行监控视频检索变得越来越重要。提出一种基于运动目标的监控视频检索方法。对监控视频中的运动目标提取特征,生成相应的视频描述文件,通过匹配查询图片与描述文件中的运动目标特征最终找到相似对象出现的视频片断。实验表明,该方法实用性较好。
关键词:监控视频,视频检索,运动目标,特征提取
参考文献
[1]老松杨,刘海涛,白亮,等.视频检索综述[J].数字图书馆论坛,2006,27(8):10-17.
[2]陆建江,张亚非,徐伟光,等.智能检索技术[M].北京:科学出版社,2009.
[3]张娟,毛晓波,陈铁军.运动目标跟踪算法研究综述[J].计算机应用研究,2009,26(12):4407-4410.
[4]Parks D,Fels S.Evaluation of Background Subtraction Algorithms withPost-processing[C]//IEEE International Conference on AdvancedVideo and Signal-based Surveillance,AVSS 2008,Sept.2008.
[5]ISO/IEC 15938-3:2002(E)Information technology—Multimediacontent description interface—Part 3:Visual[S].
[6]ISO/IEC 15938-5:2003/Amd.2:2005(E)Information technology—Multimedia content description interface—Part 5:Multimedia descrip-tion schemes[S].
视频图像中运动目标检测算法研究 篇5
关键词:视频图像,运动目标检测,混合高斯模型
0 引言
随着计算机技术、人工智能、图像工程等高科技的发展, 视频智能监控已经成为计算机视觉研究领域的一个热点课题。提取运动目标在视频监控中是一个非常重要的环节, 它是后期的处理, 如目标分类、目标识别、目标跟踪等的基础, 也是视频监控技术自动化和实时应用的关键[1,2,3]。目前, 常见的运动目标检测算法主要有帧间差分法[4]、背景差分法[5]和光流法[6]。其中, 帧间差分法实时性强, 能够适应各种动态环境, 但是不能提取目标的完整区域;背景差分法能够提取完整的目标信息, 但是不能精确地检测到场景中的运动目标;光流法能够在摄像机运动的情况下检测出独立的运动目标, 但是其计算复杂, 需要特殊的硬件设备支持, 实时性能差, 本文不予考虑。
本文结合传统的运动目标检测算法的优点, 提出一种基于混合高斯模型背景法的运动目标检测算法, 期望获得较好的效果。
1 运动目标检测
1.1 自适应混合高斯背景模型
采用背景差分法虽然可以从图像中提取完整的目标, 但是实际应用中, 外界的微小干扰都会引起背景图像的变化, 这些场景下固定位置的像素在不断地改变, 呈多模特性。所以问题的关键之处在于随着时间改变, 可以自适应地更新背景模型。
而混合高斯模型[7]针对这一点, 采用多个高斯分布去拟合背景, 对于复杂的背景具有良好的效果。本文研究的是静态背景下的目标检测, 主要包括背景建模、背景更新和背景提取。
1) 背景建模。将图像序列中的某一像素点 (i, j) , 设Xt为在时刻t的观察值, 对于给定点 (i, j) 的一系列观察值{X1, X2, …, Xt}, 可以看做是与其它点独立的随机统计过程, 用K个高斯分布的混合模型去模拟, 则当前t时刻 (i, j) 的概率分布为:
2) 背景更新。当读取完视频图像的像素后, 将当前帧像素xt与K个高斯分布进行匹配, 匹配数据为:
如果像素值xi与其中某个高斯分布的均值μi, t-1之差满足式 (3) , 则该像素与这个高斯分布匹配, 否则不匹配。如果匹配, 对高斯模型进行更新:
式中:α为模型学习速率, β为参数学习率。在混合高斯模型中为了适应环境的变化, 还要考虑权值的更新。如果匹配则该模型可以较好地描述背景其权值增加, 不匹配则权值减小。
对视频图像进行背景建模与更新的流程图如图1所示。
3) 背景提取
完成上述过程后, 得到新的一帧图像, 根据背景更新公式把模型的相应参数进行更新, 计算其优先级并按照高低排列, 实际情况中可以选取前几个优先级较大的, 取前b个值相加, 当和大于阈值T时, 可以根据式 (6) 得到其背景模型:
式中:T为选取的阈值, 其大小根据不同的场景决定, 场景较复杂时, 阈值相应地选取较大;场景简单时就选择较小的。
1.2 背景差分
当混合高斯背景模型完成时, 就可以采用背景差分提取出运动目标的轮廓。设当前帧图像为fk (x, y) , 背景帧为fbk (x, y) , 则差分图像为:
按照式 (8) 对得到的差分图像进行二值化处理, 当差分图像中某点像素大于阈值时, 则认为该像素点为前景, 反之, 则为背景。
1.3 形态学处理
由于图像中噪声的存在, 在通过以上操作后所检测到的运动目标会有空洞产生, 因此可以采用形态学滤波的方法填补目标区域的孔洞。数学形态学[8]包括基本的开运算和闭运算。开运算可以消除细小目标, 平滑图像的轮廓, 而闭运算可以去掉小洞, 填补目标内的细小的缝隙。
2 检测算法的实现
本文检测算法具体流程如图2所示。
1) 对背景图像进行初始化;2) 利用本文的算法提取视频序列图像中变化的部分, 并作二值化处理;3) 对以上处理后的图像进行形态学处理, 去除小的噪声点, 同时填补运动目标内部的孔洞和连接断点, 这样就得到完整的运动区域, 将运动目标提取出来。
3 实验结果分析
本实验是在2.0GHz的CPU, 2GB内存的PC机上, 采用MATLAB软件进行的检测。实验所用的视频为普通摄像机拍摄的, 视频分辨率为320×240像素。
实验结果如图3所示。
使用传统帧间差分的检测结果如图3 (c) 所示, 获取的运动目标轮廓不完整, 而且其内部容易产生一些空洞现象, 部分区域出现漏检。采用本文方法检测运动目标的最终结果如图3 (d) 所示, 目标与背景得到了正确分割, 其中运动目标的轮廓十分完整, 为后期的运动目标跟踪、识别奠定了基础。
4 结语
本文针对视频图像, 提出一种基于混合高斯模型的背景差分法来检测运动目标。实验结果表明, 此方法不仅能够精确地检测到运动目标, 而且运动目标的检测效果得到了提高, 具有较好的鲁棒性, 为后续工作提供了有力的支持。
参考文献
[1]Tsai D M, Lai S.Independent component analysis-based background subtraction for indoor surveillance[J].IEEE Trans on Image Processing, 2009, 18 (1) :158-167.
[2]Avidan S.Ensemble tracking[J].IEEE Trans Pattern Analysis and Machine Intelligence, 2007, 29 (2) :261-271.
[3]Wang Yang.Real-time moving vehicle detection with cast shadow removal in video based on conditional random field[J].IEEE Trans on Circuits and Systems for Video Technology, 2009, 19 (3) :437-441.
[4]Ha J E.Foreground objects detection using multiple difference images[J].Optical Engineering, 2010, 49 (4) :1-5.
[5]魏晓慧, 李良福, 钱钧.基于混合高斯模型的运动目标检测方法研究[J].应用化学, 2010, 31 (4) :574-578.
[6]Dessause M P, Dua S.Optical flow object detection, motion estimation, and tracking on moving vehicles using wavelet decompositions[J].SPIE, 2010, 7694:1-10.
[7]何信龙, 赵龙.基于改进高斯混合模型的实时运动目标检测[J].计算机应用研究, 2010, 27 (12) :476-477.
视频目标 篇6
近年来,科学技术的不断发展以及人民生活水平的不断提高使人类对生活质量和本身的安全性保证需求愈来愈高。视频监控由于能形象、直观地表示信息而被应用于大部分公共场所。相比较传统的视频监控,高端化的视频监控系统可通过计算机视觉、图像处理等技术提取出人们感兴趣的目标信息图像,然后对其进行检测、跟踪、分类以及行为理解和描述等过程来判别监控画面中的情况,代表了未来视频监控产业的发展趋势。视频监控系统的关键技术主要有四个方面:目标的检测,目标的跟踪,目标的分类,行为的理解与描述。
视频目标检测在人机交互、视频监控、交通视频、视频会议、客流量统计等许多方面都有非常重要的应用,是当今计算机视觉领域的研究热点与难点之一。传统的检测算法[1]如背景差分法、相邻帧差法、光流场法等已相对成熟,但存在不足:背景差分法对光线等外在因素的变化过于敏感,帧差法检测目标的完整性较差,光流场法的计算比较复杂且容易被外界噪声干扰。因此,学者们提出了许多改进算法,如背景移动补偿算法[2]、帧间差法与背景差分相结合的算法[3]等。
2 互相关信息(Mutual information)
互相关信息是一种具有测量图像间的统计相关性作用的信息理论概念。它代表图像间的重合区域,重合区域越多,互相关信息越大。当两幅图像在几何上完全重合时的互相关信息是最大的,称为最大互信息。
假设有两个随机变量A和B ,灰度值范围为0—255,
Pr(a)和Pr(b)分别是它们各自的概率密度函数,Prf(a,b)表示它们之间的相关密度函数。那么随机变量A和B的互相关信息表示如下:
式中,H(A)、H(B)是两变量的边缘熵,H(A,B)是联合熵。定义式分别如下。
其中,a,b ∈[0,255]。
由于联合熵的值取决于边缘熵与变换函数,因此需要找出最优变换函数对图像进行配准,以让联合熵最小,则此时的互相关信息为最大互信息。因为互相关信息是关于图像全部像素的,所以带来的计算量较大。小波变换为一种拥有多分辨率的时间——尺度分析方法,本文结合小波分解的方法,对配准图像进行小波变换,主要包括平移和旋转,因此,通过对小波变换函数中平移和旋转参数的最优化以获得最大互信息。
3 改进蜂群算法(Improved bee colony algorithm)
所谓人工蜂群算法就是对蜜蜂行为加以模拟而提出的一种优化算法。蜂群中出现群体智慧的最小搜索模型主要包括四个基本的组成要素:食物源、引领蜂、侦查蜂与跟随蜂。
在蜂群算法中,优化问题的一个可能解就是一个食物源的位置,解的质量(适应度)就是食物源的花蜜数目。详细过程如下:起先,生成具有SN个解(食物源)的初始种,其中的各个解—— xi是一个维数为D(待优化参数的数目)的向量;其次,所有的食物源都要被蜜蜂进行反复(次数为MCN)搜寻:对应的食物源(解)先被引领蜂在邻域作一次搜寻,通过对比搜寻前后两个食物源的花蜜数目后,选取适应度相对高即花蜜数目大的食物源(解)来采蜜;结束搜寻以后,所有的引领蜂将食物源上花蜜数目的信息传递给跟随蜂,跟随蜂通过获得的信息按照一定的概率选取食物源,即花蜜越多的食物源被选择的可能性越大。而后,跟随蜂为了选取更好的解也作一次与引领蜂相同的邻域搜寻。
跟随蜂根据如下的概率值Pi选取食物源
式中,fit1表示第个i解的适应度。
引领蜂与跟随蜂通过式(4)作邻域搜寻:
其中,k∈{1,2,…,SN},j∈{1,2,…,D}以上k和j都是随机选择的,并且k≠i。r 在-1和1之间。
在蜂群算法中,通过次循环之后得不到改善的解要被丢弃,这里的“”便是算法中的一个关键的控制参数。假设是被丢弃的解,侦查蜂可以随机生成一个新解对进行代替。
以上表述可以看出,蜂群算法中的三个控制参数——食物源的数目、引领蜂的数目、跟随蜂的数目(SN)是相等的。以上整个算法的核心包括三个部分:(1)引领蜂:邻域搜索;(2)跟随蜂:将搜寻范围缩小后对邻域作搜寻;(3)侦查蜂:随机搜索。
因为蜜蜂随机选择邻域个体,并且未考虑食物源之间的内部联系,致使收敛速度较为缓慢。为了提高收敛性能,提出改进蜂群算法,将式(4)变化为
式中, τ—遗忘因子,代表搜寻其它食物源时对当前食物源的记忆强度,并且为了使蜜蜂充分的利用邻域个体的搜索信息从而更好地寻找到全局的最优点,在下一食物源的搜索过程中遗忘因子会动态调整τ=λ·ωr;η—邻域因子,确定信息共享的强度是根据邻域个体食物源的优劣来进行的,在搜索后期为了使蜜蜂具有较强的全局寻优能力,邻域因子进行动态变化η=λ·wη。λ为常量,以1为分界线,当食物源质量比蜜蜂当前食物源质量劣时取λ<1,当邻域个体食物源质量优于蜜蜂当前食物源质量时取λ>1,从而让蜜蜂可以向高质量的食物源移动。
邻域因子η、遗忘因子τ中的参数wη、wr随搜索进程动态变化如下:
式中,iter代表搜索步数;w1、w2、w3与w4都是常量,取值在[0.1,1.5],且w2>w1、w4>w3。为了使蜜蜂迅速向最优食物源区域移动,遗忘因子τ中的参数wτ随搜索进程从w2逐渐下降至w1, 取值范围在[0.8,1];随着搜索的进行,邻域因子η中的参数wη从w3逐渐上升到w4,代表逐渐增大邻域个体与当前蜜蜂的信息共享强度,β取值范围在[1,1.2]。
4 三帧差分法(Three frame difference method)
三帧差分法把相邻三帧图像当作一组进行差分,可以将实际运动目标的轮廓完整的检测出来,具体算法如下:
(1)读取图像序列中的三帧图像Ik-1、Ik、Ik+1,依次计算出相连两帧图像的绝对差值灰度图B(k,k-1)、B(k,k+1),设置阈值T对差值图像进行二值化,提取运动目标区域如下:
(2)通过逻辑“与”运算提取B(k,k-1)和B(k+1,k)的交集,获取运动目标:
5 计算分析(Calculation and analysis)
5.1 基于改进蜂群算法的视频目标检测算法流程
(1)首先通过小波变换将图像映射到小波域。
(2)利用式(1)作为衡量标准进行基于互相关信息的图像配准计算。
(3)采用改进的蜂群算法优化两幅图像间的互信息值,此算法通过迭代后将获得最优的小波变换平移参数与旋转参数。
(4)最终依靠三帧差分法实现对图像中运动目标的增测,使用矩形框将目标进行标记,完成目标检测。
5.2 结果与分析
图1 基于蜂群算法的视频目标检测结果 Fig.1 The video target detection result based on bee colony algorithm
图2 基于改进蜂群算法的视频目标检测结果 Fig.2 The video target detection result based on improved bee colony algorithm
图1和图2分别为基于蜂群算法和改进蜂群算法的视频目标检测结果。从中可看出,基于蜂群算法检测到的目标范围过大,而基于改进蜂群算法检测出的目标范围更加精确,也更能够反映出真实情况。
6 结论(Conclusion)
视频目标 篇7
1 运动目标的检测
1.1 灰度特征法
路面状况中柏油路面、黑色沥青路面居多, 这两种路面都是灰色路面, 路面上的车辆多为非灰色, 车辆和路面的区分可以利用车辆和路面在图像中的灰度信息特征的区别。24位位图中, 灰色物体表面像素的R、B、G的分量值fR (t) 、fB (t) 、fG (t) 基本上是相等的。使用公式 (1) 可以判断检测区是否是灰色:
TH为判断阈值, 若图像得到的路面信息不包含车辆, 这种理想状况下TH的值可以取0, 但是实际抓拍到的图片往往都会带有点颜色, 这主要是由于环境光线发生的变化所引起的, 结果导致三个分量不相等。当车体颜色为灰色时该算法不好区分路面和车体, 从而完成检测需要结合其他的判断技术。
1.2 帧差法
该检测方法基于运动图像序列前后两帧图像间的强相关性而提出[4]。图像中运动区域的提取是在相关摄像头固定的情况下通过连续图像序列中相邻的两帧图像使用基于像素的时间差分来进行, 设同一背景下的两幅运动图像在t1、t2时刻采集得到:f (x, y, t1) 、f (x, y, t2) , 那么下式就为差分图像的定义:
将式 (2) 的差分结果经过阈值处理, 能够提取出运动物体:
Td是分割阈值, 可以用自适应的方法确定或者事先给定, 阈值的选取要适合。差分图像中, 去除掉灰度变化不明显 (当中应该会包括背景的大部分以及小部分的目标) 的部分, 而保留的是变化比较明显的区域。运动目标在图像上的位置一般情况下都能够确定, 采用相关算法实现搜索范围缩小。
算法优点是:程序设计的复杂度较低, 算法实现比较简单;当光线等场景发生变化时不太敏感, 稳定性比较好, 能适应各种动态环境。算法缺点是:静止或运动速度过慢的物体没有办法检测出来;物体处于高速运动时, 由于分割区域和目标运动的速度有很强的相关性, 从而造成真实目标小于分割区域。相邻帧差在目标重叠的部分很容易形成比较大的空洞, 假如目标内部的灰度均匀分布的话, 那么接下来分析与识别物体不太容易, 不理想的情况下极有可能出现分割结果不连通。
1.3 背景差分法
背景差分方法[5]运动区域的检测利用背景图像及当前图像的差分来进行, 一般情况下能提供大部分所需特征数据, 出现光照、外来无关事件等场景发生动态变化时干扰敏感度很高, 进行背景差分时背景的选择非常重要。早期的方法为由人工进行观察, 找到一幅比较适合的图像作为背景, 为了加强系统的自适应性, 后来所采用的方法为每隔一段既定的时间, 更换一次背景图像, 目前进行背景差分时非常重要的一项工作就是背景模型的自适应更新。背景中的一幅或者将几幅图像进行平均都可以作为背景图像, 然后将后续图像的当前帧和确定好的背景图像完成相减, 从而消去背景, 像素数如果比阈值还要大, 可以确定监视场景中存在着运动的物体目标。公式如下所示:
BL为背景的亮度分量, IDL为背景帧差图, i用于表示帧数 (i=1, …, N) , 序列的总帧数为N, 阈值为T。本算法的优点包括:原理和算法设计简单易行;阈值的确定遵照实际情况, 然后进行处理, 能直接得到运动目标的形状、位置、大小等信息。天气、光线等外界因素会影响算法精确度是其弊端。
算法实际应用过程中, 背景模型的动态更新需要通过相关算法实现。实现背景图像的建模、自适应更新等, 是目前大部分研究人员的研究重点, 力图使背景接近理想状态, 从而尽量不要出现由于场景发生的变化而影响到视频图像的检测分割。背景建模常用的方法主要有:基于卡尔曼滤波的背景模型、基于统计的背景模型、基于高斯分布的背景模型等, 估计以及恢复背景大部分都是通过视频序列的帧间信息来进行的。
1.4 光流场法
为了实现近似估计真实运动场的目的, 可以通过光流场来反映各像素点灰度的变化, 可将其看成是一个瞬时速度场, 在图像平面上由具有灰度的像素点运动而产生[6]。一般情况下都是使用运动目标随着时间而变化的光流特性来进行基于光流方法的运动检测。为了初始化基于轮廓的跟踪算法, Meyer等使用了计算位移向量光流场, 运动目标的提取及跟踪方便有效, 独立的运动目标甚至可以在摄像机存在运动的情况下检测出来。本算法相对于其它算法来说过于复杂, 而且算法的抗噪性能也一直不是很理想, 缺乏所需硬件的话实时处理全帧视频流非常困难。
场景的信息不要求事先明确, 运动物体的速度能进行精确计算, 适应摄像机运动的情况等是光流场法的突出优点。由于使用迭代的方法, 计算量大、公式复杂, 对硬件支持要求很高, 如果硬件没有达到需要则实时性很难保证;有时候会出现即使没有产生运动, 而当外部照明出现了变化时, 光流依然可以观测到;某区域如果没有足够的灰度等级变化时, 经常会观测不到实际运动;颜色、边缘、灰度等空域特征需要使用, 从而提高分割精度, 实现准确分割, 上述都是光流场法的缺点。
1.5 其他方法
还有很多方法可以进行运动变化检测, Russell和Friedman利用了扩展后的EM算法, 由于使用了混合高斯分类模型, 除了自动更新, 也实现了像素进行运动的前景与背景自适应分类, 进行运动区域的分割时效果较好, 即使目标运动速度缓慢时分割效果依然得到保证;Stringa基于数学形态学的场景变化提出的检测算法即使环境条件不断发生变化分割效果基本上可以稳定获得[7]。
2 运动目标检测算法的评价标准
对运动目标进行检测时算法可以按照如下标准进行评价:出现了不同的路面状况、天气情况时还是可以正常的工作—鲁棒性;可以准确地提供各种交通参数例如车流量以及车速等多方面的应用—功能全面;能够对图像进行实时处理, 这一指标对算法提出了较高的要求—实时性指标;实际应用过程中, 考虑到成本问题, 满足低成本而高效率的算法, 进行大规模的推广会比较方便易行—成本低、效率高;提供的人机接口非常良好, 即使是非专业人员, 操作起来也同样方便简单—安装调试简单。
参考文献
[1]J.Badenas&F.P1a.Segmentation based on region-tracking in image sequences for traffic monitoring[A].Pattern Recognition, 1998.Proceedings.Fourteenth International Conference on Published[C].1998 Volume:2, 999-1001.
[2]P.H.Batavia, E.A.Plmerleau&C.E.Thorpe, Overtaking Vehicle Detection Using Implicit Optical Flow[A].Intelligent Transportation System, 1997.ITSC'97, IEEE Conference on Published[C].1997, 729-734.
[3]P.G.Michalopoulos.Vehicle Detection Video Through Image Processing:The Autoscope System[J].IEEE Transactions on vehicular technology, 1991, 40 (1) :279
[4]Seki M, Fujiwara H, Sumi K.A robust background subtraction method for changing background[J].Proceeding of IEEE workshop on Applications of Computer vision, 2000:207-213.
[5]Wu Zeju, Chen Jundong, Liu Yun, et al.Video object segmentation of still background[J].Journal of Qingdao Univesity of Science and Technology, 2004, 25 (5) :457-460.
[6]孙季丰, 王成清.基于特征点光流和卡尔曼滤波的运动车辆跟踪[J].华南理工大学学报, 2005, 33 (10) :19-23.
视频序列中的运动目标检测与跟踪 篇8
近年来,随着计算机速度的不断提高以及数字图像处理技术研究的不断深入,智能视频监控技术得到了很好的发展,并被广泛应用于军事及民用监控系统,它能够大大减少人力物力,保障监控场所安全[1]。
视屏监控技术主要包括运动目标检测、目标提取、目标识别与跟踪几个模块。其中以目标检测部分为关键。目前,常用的运动目标检测方法有:光流法、帧差法和背景减法。光流法对光线和噪声的变化特别敏感且计算复杂耗时,没有特别硬件支持很难在实时系统中应用[2]。帧差法是基于运动图像序列中,相邻两帧图像间具有强相关性而提出的检测方法,具有很强的自适应性,但分离出来的运动目标容易出现空洞和沿着运动方向拉伸,不利于进一步分析与识别[3]。背景减法是目前最简单而又常用的方法之一。背景减法适用于摄像机静止的情况,能够完整分割出运动对象,却容易受光线、天气等光照条件、前景目标短暂或长久性的闯入和移出、背景自身的运动(如:树叶摇动等)等因素的影响。尽管如此,在实时监控系统中背景减法仍是运动目标检测的最常用方法[4]。常用的背景建模方法为混合高斯模型[5],但是模型复杂,计算量大。本文的目标检测部分采用了基于直方图统计的多帧平均混合法做背景提取,然后使用背景减法提取运动目标[6]。
1 背景模型
由于交通场景中视频序列特定像素位置出现频率最高的像素值是背景像素值。实际上交通场景中的视频序列还有一个特点:某点背景的像素值总是在某个区间内波动。因此将某点的灰度范围[0,255]等分为若干区间[0,256/N],[256/N,2×256/N],…,[(256-256/N),255],N为等分区间数,对应于某个像素的每个区间,考虑其落在区间内像素点的灰度值的均值μ及区间的计数统计S。在读取视频序列的同时,更新背景。具体方法如下:
(1) 均值更新。如果:
则更新第n个区间的像素均值:
否则:
(2) 区间计数统计更新。如果:
则更新第n个区间计数统计:
否则:
式中:ci(x,y)表示在第i帧图像中的坐标为(x,y)处的像素点的灰度值;α与β为权系数。这样将直方图灰度划分成区间段,对帧中的每个像素点计算ui,n和si,n后,比较不同区间段的si,n后,将具有最大si,n的区间的ui,n作为背景。
2 目标提取
2.1 噪音消除
在背景差分的基础上,可以得到一幅粗略的二值图像,然后对其采用3×3的方形窗口进行中值滤波,以消弱图像中噪声的影响。
2.2 形态学滤波[7]
噪声的影响可能会使目标边界呈现不同程度碎片,对此本文使用形态学滤波中的膨胀、开运算对二值图像做处理,使目标区域轮廓变得平滑,同时抑制峰值噪声。
2.3 阴影消除
阴影的存在不利于准确判断目标的位置,像素点(x,y)在未被阴影覆盖和被阴影覆盖时的亮度值近似成线性关系,由概率论中相关系数的性质可知,若随机变量X和Y成线性关系时,则X和Y的关系系数为1,因此本文利用了万相关系数的性质进行阴影检测与滤除[8]。
2.4 区域标记提取
经过以上方法处理后的前景背景二值图像中,目标为若干个黑色联通区域,首先通过八连通域区域标记法[9],给每个目标一个标记。
然后从左到右,从上到下扫描已经标记的图像,遇到相同标记的点时,就更新对应标记区域的中心上下左右四个坐标值,结束扫描后,再根据每个区域的上下左右四个座标值获取其中心坐标。如此,就得到了每个区域的标记以及具体位置。
最后,对于这些区域的异常情况例如对于携物者、牵手并行者、迎面相交者等做处理。处理方式主要根据目标区域的长、宽、中心坐标距离,面积等特征来做判断。例如一个区域的面积很小(小于某个阈值),并且距它最近的区域的距离大于某个值,那么把它当噪声处理,更改它的标记为255。
3 目标识别与跟踪
在连续的视屏序列中,采用背景差法得到的目标,需要识别当前图上的某个目标是与上一副图中的哪一个目标相对应。对于人流量大,行走速度快的情况,目标识别是一个比较繁琐的过程。本文采用最小距离匹配法做目标识别,构建以下结构体描述目标信息。定义两个该结构体类型指针。
struct TargetArea
{
int flag; //区域有效标号
int CorrespondingFlag; //匹配标号
int number; //区域中包含的像素数
int centerX; //区域中心X坐标
int centerY; // 区域中心Y坐标
int direction; //区域移动方向
}*mpPersonInAreaBefore,*mpPersonInAreaNow;
目标跟踪程序步骤如下:
(1) 统计监测区中的目标个数,使用一个循环语句来将当前目标与上次目标(上幅图中处于检测区的目标)之间的中心距离逐一比较,如果距离小于某个阈值,则认为匹配,那么将当前目标与上次目标变量中的CorrespondingFlag 置1,表示找到了匹配点。
(2) 对于已经找到匹配目标的当前目标,比较它与匹配目标的中心坐标(centerX,centerY)来得到他的行走方向。在本文实验中,因为行人在监控区的主要行走方向是上行和下行,因此只对centerY做了比较。然后根据结果给direction赋值(1表示上行,0表示静止,-1表示下行)。
(3) 对于当前目标中匹配标志为0的点,表示是新点,那么它可能是一个新进入监控区域的人,或者是一个噪声。如果距离监控区的边界线小于某个阈值,认为是新进入区域的人,否则认为是噪声,置区域有效标记flag为0。
(4) 对于上次目标中匹配标志为0的点,表示目标已经离开了监控区域。那么根据它的行走方向以及距离上下检测线的位置判断是上行穿过区域还是下行穿过区域。如果距离下检测线近而且行走标志为-1,则判为下行通过区域,下行人数计数器加1,如果距离上检测线近且方向标志为1,则认为上行通过检测区,上行人数计数器加1,否则认为是噪声。
(5) 判断结束,释放上次目标的数据空间,重新申请当前目标个数的目标结构体数据空间,将当前目标数据放入其中,更改匹配标志为0,以便与下一副图中的目标做对比。
4 实验数据与分析
实验中以每100 ms每张的频率针对四川大学室外场景拍摄了1 506张照片。通过对这些照片做图像处理分析,统计在这段时间内通过该区域的人数。视频图像帧的大小为320×240像素,在普通PC机(AMD Sempron Processor 3000+,1.60 GHz,1.00 GB的内存,天敏SDK2500视频采集卡)上,用VC++ 2005编写了一个基于对话框的程序做实验。图1为程序界面。打开视屏序列中的某幅图片后即可点击“视屏监控”按钮开始监控,程序界面可以显示实时刷新背景、背景差后经过处理的二值图像、经过区域标记和目标识别跟踪后的监测画面。设置了纵坐标从60~130的范围为监控区,在监控时间内通过监控区的行人人数显示在右下角。针对这次实验的1 506张照片,实验结果准确地统计出了通过区域的行人人数。
图2为使用直方图统计与多帧平均混合法得到的背景图像。
图3为背景差后的二值图像,目标用黑色表示,背景用白色表示,可以看出,目标被明显地提取出来了,并且经过消除噪声、形态学滤波、阴影消除后的前景二值图像,比较干净,具有较好的对比分析使用价值。
图4为行人特殊情况的目标提取结果,可以看出,对于相遇造成的目标重叠、两人紧靠并行、携物者,都能得到较好的目标提取结果。
图5为行人监测,行人进入监控区域后能对其进行跟踪,穿过区域时,能较准确地判断出其行走方向,并且统计人数。
5 结 语
本文针对固定场景提出一种基于背景模型的运动目标检测和跟踪算法。该方法使用直方图统计与多帧平均混合方法背景建模。使用八连通域区域标记法和最小距离匹配方法对目标进行识别跟踪,根据目标特征参数进行逻辑判断监控行人人数,都取得了良好的效果,并且能对多种特殊情况兼容处理,具有实用价值。
摘要:提出一种视频序列中的运动目标检测跟踪算法。该方法采用直方图统计与多帧平均混合作为动态背景更新法,经过噪音消除、形态学处理、阴影处理后,用区域标记法提取目标。利用目标特征参数建立目标数组,通过当前帧目标数组和前一帧目标数组距离匹配实现运动目标的快速跟踪。该方法与传统方法相比具有更好的学习能力,从而有效地提高了运动目标检测的正确率和快速性。实验结果表明该方法具有良好的鲁棒性和自适应性。
关键词:背景模型,背景提取,运动目标检测与跟踪,视频序列
参考文献
[1]施华,李翠华.视频图像中的运动目标跟踪[J].计算机工程与应用,2005(10):56-58.
[2]Kinoshita K,Enokidani M,Izumida M,et al.Tracking of aMoving Object Using One-Dimensional Optical Flow with aRotating Observer[A].9th International Conference on Con-trol,Automation,Robotics and Vision[C].2006:1-6.
[3]Gao Hongzhi,Green R.A Robust Moving Object Segmenta-tion Algorithm[A].Proceedings of the 2007 InternationalConference on Wavelet Analysis and Pattern Recognition[C].2007,1:214-217.
[4]Piccardi M.Background Subtraction Techniques:A Review[A].IEEE International Conference on Systems,Man andCybernetics[C].2004,4:3 099-3 104.
[5]Chris Stauffer,Grimson W E L.Adaptive Background Mix-ture Models for Real-time Tracking[A].IEEE Computer So-ciety Conference on Computer Vision and Pattern Recogni-tion[C].Fort Collins:IEEE Press,1999.246-252.
[6]李晓飞,梅中辉.一种基于直方图统计的多帧平均混合的背景提取算法[J].南京邮电大学学报:自然科学版,2008,28(6):74-77.
[7]冈萨雷斯,阮秋琦.数字图像处理[M].2版.北京:电子工业出版社,2003.
[8]蔡友杰,陈秀宏.基于视频图像的运动目标检测与识别[J].微计算机信息,2009,25(3):280-281.