运动矢量分类

2024-05-25

运动矢量分类(精选3篇)

运动矢量分类 篇1

H.264/AVC视频编码标准中运动估计模块是视频编码的重要部分, 它直接决定着编码效率和压缩视频的质量。运动估计的重要内容就是运动搜索和模式选择两部分, 运动搜索模型大致分为全搜索模型和快速搜索模型两类[1]。

全搜索模型是所有搜索模型中最为简单可靠的一种, 能获得高质量的视频, 但由于该方法进行的是逐点搜索, 所以该搜索方法的实现计算量大、耗时长, 不利于编码器实时性的实现。因此提出了多种快速搜索方法, 如三步搜索法[2]、四步搜索法[3]、 DIA[4]、UMHexagonS[5]等, 这些搜索方法和全搜索相比减少了搜索点数和并且降低了计算量, 并且快速搜索方法得到的视频质量和全搜索方法得到的视频质量相比没有明显降低。

尽管快速搜索方法已经达到了很好的改善效果, 但运动搜索的速度和计算量仍然存在很大的改进空间。在运动估计过程中, 每个搜索块都有不同的动态的预测运动矢量 (mvp) , 预测运动矢量的方向和编码块的运动方向是一致的, 利用运动矢量的这一特性可以判断编码块的运动方向。本文首先制定了不同方向的搜索模型, 然后根据预测运动矢量的方向确定选用的搜索模型, 该方法更好地减少了搜索点数, 降低了搜索时间, 进而提高了编码速度。

1 H.264/AVC运动估计过程

在H.264/AVC视频编码中, 运动估计包括运动搜索和模式选择两部分, 主要用于帧间预测编码部分。在H.264/AVC视频编码标准中P帧帧间预测模式有七种:P_16×16模式、P_16×8模式、 P_8×16模式、P_8×8模式、P_8×4模式、P_4×8模式和P_4×4模式[6]。运动估计首先通过运动搜索部分搜索到当前块的最佳匹配块, 计算出七种当前块和最佳匹配块率失真代价值, 通过七个代价之间的比较, 选出代价值最小的作为最佳预测模式。 帧间率失真函数代价值计算如式 (1) 所示。

式 (1) 中:SATD (x, y) 表示当前编码块x和最佳匹配块y的像素值差的绝对值之和;SATD (x, y) 是当前编码块x和最佳匹配块y的像素值差经过哈达玛变换后所得到的系数之和;IMOTION是运动估计的拉格朗日乘子, Δmv表示预测运动矢量与实际运动矢量的差值, b (Δmv) 表示编码 Δmv所需比特数[7]。 Bcost值最小时选块就是当前块的最佳匹配块。

2运动搜索算法优化

2.1原有菱形搜索算法分析

菱形算法具有实现简单、鲁棒性高等特点, 是视频编码中的一种高效快速的运动估计算法。菱形搜索模板如图1所示。

在该模板中n取值可以根据搜索步长不同而不同, 在搜索时对搜索点o、a、b、c和d共5个点, 分别计算出对应匹配块的SAD值。

菱形搜索的实现流程如图2所示, 候选搜索起始点是利用当前块与邻近块的空间相关性, 以及参考帧中对应位置的时间相关性预测得到, 将几个候选搜索起始点进行比较得到最佳搜索起始点。该模板中n取值可以根据搜索步长不同的而不同, 在搜索时对搜索点o、a、b、c和d共5个点, 分别计算出对应匹配块的SAD值, 若最小值在点o取得, 则终止搜索, 否则, 继续使用该模板进行搜索, 直到将搜索区域内的搜索点搜索完毕。但是该菱形搜索模型在同一个测试码流中始终有着固定的搜索步长和范围, 在搜索区中有一定的搜索空区, 这样将导致计算资源浪费。搜索步长较短时搜索到最佳点需要计算的搜索块也就较多, 计算量也会随着增大, 搜索步长大时, 搜索到最佳匹配块需要计算的搜索块相对较少。

2.2改进的菱形搜索方法

本文针对前文提到的不足, 提出了以下改进方法。由于mvp所指向的方向和当前编码块的运动方向是一致的, 所以通过预测运动矢量可以大致判定最佳匹配块所在位置的方向。本文提出了对角线不相等的菱形搜索模型优化方法。

首先, 将mvp终点的所在位置划分为平面坐标系中的一、二、三、四象限。

其次, 当mvp终点在一、三象限时, 可以采用一三象限跨度较大的搜索模型如图4所示, 这样可以更快地找到最佳匹配点;当mvp终点在二、四象限时, 可以采用二、四象限跨度较大的搜索模型如图5所示。

该菱形搜索方法的实现过程为:首先, 通过对候选搜索起始点对应块的代价值计算, 比较得出最优的mvp。然后, 判断mvp的横纵坐标值的正负性是否一致, 若正负性一致, 则选用图4所示的一、三象限跨度较大的菱形模型, 若正负性不一致则选用图5所示的二、四象限跨度较大的菱形模型。这样在当前块的运动方向上进行搜索, 可以更快速地搜索到最佳匹配块。

3实验结果

本文对上述改进方法进行了实验分析, 分别从峰值信噪比 (PSNR) 、码率 (BR) 和帧率 (FPS) 三个方面将新的菱形搜索方法和原有菱形搜索方法进行了比较。实验过程中的参数设置为:参考帧帧数为5帧, I帧的QP设为30, P帧的QP设为32, 编码序列为IPPP格式。本实验分别对QCIF (分辨率为176×144) 、CIF (分辨率为352×288) 、D1 (分辨率为704×576) 三种格式的视频序列进行测试, 并分析比较了不同运动剧烈程度的经典测试序列 (表3中FUN和APPLE为实验室采集的测试序列) 的峰值信噪比、码率和帧率的变化。实验数据见表1~ 表3。

上述表格中 Δ (PSNR) =优化后峰值信噪比- 优化前峰值信噪比, Δ (BR) = (优化后码率- 优化前码率) /优化前码率 ×100%, Δ (FPS) = (优化后帧率-优化前帧率) /优化前帧率×100%, 其中“+” 表示提高, “-”表示降低。信噪比中“+”表示图像质量提高, 码率中“-”表示压缩率大, 帧率中“+”表示帧率提高, 编码速度提高。由实验结果可以看出, 所有测试序列信噪比降低不超出0.30dB, 码率增加不超出0.40%, 帧率都有了明显提高。总体来看, 在峰值信噪比和码率变化不明显的情况下, 帧率平均提高5.73%, 更好地满足了编码器的实时性要求。

4小结

本文通过对H.264/AVC编码器整像素运动估计算法中运动搜索模型的分析, 深入研究了菱形搜索模型的特点和不足之处, 并提出对相应的菱形搜索模型进行改进。本文提出的基于预测运动矢量的菱形搜索方法, 该方法首先将菱形搜索模型划分为两类, 根据当前编码块预测运动矢量的方向, 来确定采用的菱形搜索模型。大量测试结果表明, 该方法在没有明显降低图像质量和视频压缩率的情况下, 大幅度提高了H.264/AVC编码器的编码速度, 进一步满足了视频压缩编码的实时性要求。

参考文献

[1] 刘易, 李太君.H.264中快速运动估计UMHexagonS算法的改进.计算机技术与应用, 2011;37 (8) :128—130

[2] 焦梅.AVS视频编码器优化及算法研究.济南:山东大学, 2009

[3] 王园园, 张刚, 李付江, 等.AVS的自适应提前终止运动估计算法.电视技术, 2012;36 (23) :9—11, 14

[4] Zhu Shang, Ma Kaikuang.A new diamond search algorithm for fast block-matching motion estimation.IEEE Trans Image Processing, 2000;9 (2) :287—290

[5] 杨齐, 李子印.一种改进的UMHexagonS运动估计算法.电视技术, 2012;36 (5) :15—17, 25

[6] 毕厚杰.视频压缩编码标准——H.264/AVC.北京:人民邮电出版社, 2005

[7] 黄春庆, 邱晓彬.基于x264的快速运动估计算法优化.控制工程, 2010;17 (6) :820—823, 848

运动矢量分类 篇2

General Terms 一般词汇

manager经纪人

instructor 教练,技术指导

guide 领队

trainer助理教练

professional 职业运动员

amateur业余运动员,爱好者

enthusiast, fan 迷,爱好者

favourite 可望取胜者 (美作:favorite)

outsider 无取胜希望者

championship 冠军赛,锦标赛

champion 冠军

record纪录

record holder 纪录创造者

ace 网球赛中的一分

Winter Olympics 冬季奥林匹克运动会

Universiade 世界大学生运动会

stadium运动场

track 跑道

ring 圈

ground, field 场地

pitch (足球、橄榄球)场地

court 网球场

team, side 队

referee, umpire (网球.棒球)裁判

linesman,touch judge (橄榄球)裁判

contestant,competitor,player 运动员

运动矢量分类 篇3

拥挤人群行为分析在计算机视觉中是个新的研究方向,相关研究技术和视频算法不断更新,面向人群运动状态的研究成为热门应用领域,譬如人群骚乱的快速预警、混乱行为的自动识别、拥挤场景中异常行为区域的定位等。

拥挤场景中人群行为分析主要有三种方法:(1)对于行人个体行为判别的微观方法,将群体视为由相互独立的个体组成,群体行为是各个个体行为的集合表现[6]。为了分析群体目标的行为,必须要对单个目标进行分割和提取[7]。该方法在分辨物体、追踪轨迹、识别大密度群体行为等方面复杂性较高,效果较差。(2)基于人群群体运动的宏观方法,将人群整体作为研究对象,提取人群整体的运动特征,建立模型,分析人群运动状态,但是无法对单独个体的运动行为进行判定。在Avidan[11]、Vasconcelos和Chan[8]等人的相关研究中,采用场景模拟技术取代个体追踪技术,分别用来获取人群行为和交通车辆的特征。这是与微观法截然不同的对密集人群的检测方法。(3)基于微观和宏观的混合方法,对个体目标和群体目标同时进行研究,如Ali和Shahs[3]提出的拥挤场景下行人的追踪方法。Helbing等人提出基于社会心理学的社会力模型模拟行人行为[2],社会力能够表现出行人与行人、行人与周围环境的交互作用,属于微观方法。Helbing在著作中,结合社会恐慌群体模型和社会力模型,提出一种广泛应用模型[10],心理学和周围环境的作用都被考虑用于群体行为分析,能够较好的对人群行为进行仿真。

文本首先对视频帧进行运动矢量提取处理,采用运动矢量场提取人群运动特征;然后基于社会力模型计算运动矢量微粒之间的相互作用力;最后对相互作用力采用词袋法实现行为判别,图1为本文算法流程图。

2社会力模型

通过分析行人的个人动机和周围环境约束条件,对社会力模型中的行人运动特性进行研究[13]。假设在该模型中,有N个行人,第i人的质量为mi,其速度vi的变化为:

实际作用力aF和个人动机、环境约束有关,包括两部分:个人动机产生的力Fp,与周围行人和环境相互作用产生的力Fint。

人群中的行人总是追求环境中的某个目标和目的地,每个行人都有一个希望的方向和速率vpi。拥挤人群限制行人的实际运动,实际运动速率vi将不同于希望速率。基于个人动机的作用力Fp,行人倾向于达到其希望的速率vpi。是松弛参数。

基于心理学的倾向考虑,相互作用力Fint包括排斥和吸引力Fped,在人与人之间保持一个合适的社会距离;相互作用力Fint还包括环境作用力wF,避免撞到墙壁、建筑物和其它障碍。因此,Fint可以定义为

在人群之中,行人之间由于存在关系或者具有好感而保持较小距离,由于对别人或者环境感到不舒服而保持较远距离。

通用的社会力模型针对恐慌事件的影响展开分析,譬如在某个危险的事故之中,出现的集体逃离行为。此时,行人的希望速率vpi可以为:

其中,pi是恐慌权重参数,是相邻行人的平均速率。对于行人i,若突出个人行为,则;若突出群体行为,则。通用的社会力模型可以概括为:

通用的社会力模型是拥挤行为仿真研究的基础,不仅通过计算机图形学[5],可以模拟出真实的拥挤场景;而且该模型的参数分析可以为有效控制群体运动提供有价值的动态信息。

3基于运动矢量计算的相互作用力估算

在原社会力模型中,主要光流法对运动人群的运动特征进行提取,导致运算数据大,运算速度慢的情况,本文针对这个问题,提出了采用运动矢量提取人群运动特征的方法。运动矢量是储存于高清压缩视频码流中,通过直接提取运动矢量,可以提高运动特征的提取速度。

在H264压缩视频帧中,帧间预测宏块模式包含7种,分别为(16×16)、(16×8)、(8×16)、(8×8)、(8×4)、(4×8)和(4×4),为了兼顾计算量与计算的准确性,统一将其归一化为(4×4)宏块,我们称为计算宏块,以避免多宏块带来的影响。将每个计算宏块视为一个微粒,采用计算宏块的运动矢量表示微粒的运动状态。(如图2所示)

设MV(xi,yi)为微粒i(7)x,y(8)计算宏块的运动矢量,也就是微粒i的实际运动速度。MVave(xi,yi)为计算宏块周围的有效时空平均值,采用相邻计算宏块(7)x,y(8)的运动矢量的双线性插值进行计算,可以视为计算宏块之间的平均速度。

将公式(10)、(11)代入公式(3)中,可以得到微粒i的期望速度vpi:

为了便于计算,假设宏块微粒质量为1,将公式(12)代入社会力公式(4)中,得到相互作用力:

由公式(13)可以得到基于运动矢量的社会力相互作用力为:

4异常拥挤行为判别

计算相互作用力决定了平流输送微粒之间的协同配合,然而非连续的作用力并不能用来表明异常现象。但是一段持续时间的持续力能够做到。因此对于一个有m像素的连续移动图像帧I(t),将其叠加,创建一个关于力流Sf(t)的特征矩阵。图3表明四组不同运动人群视频的相互作用力流,红色区域表示高相互作用力,蓝色区域表示低相互作用力。

对于力流Sf(t)的模拟是一个特殊的情景模拟过程,需要在计算机视觉中进行学习。词袋方法是一种典型的分析方法[12]。使用词袋方法对可能性力流Sf(t)进行估算,需要使用正常行为视频进行LDA训练。

首先采用LDA将连续T帧视频帧的力流分割为块,每块成为单元处理模块;然后从每个单元处理模块Dj中提取视觉单词Zj,从运动矢量非零区域随机提取大小为nnT的视觉单元;最后采用平均K值聚类方法集合成大小为C的编码集合。

对于给定场景或相似场景组群的正常力流,设立集合D(28)D1,D2,D3,...,DM,采用LDA判别人群行为的状态分布。使用改进的最大期望值(EM)算法[12],可以达到词语包模型的最大可能性集合:

α和β是学习模型参数。通过使用这个模型,估算来自视频组的每个单元处理模块的可能值p(D j|α,β)。通过基于估算可能值的相对应阈值,判定视频是否异常。

5实验与讨论

在UMN和WEB数据库上对本文方法进行验证[1],UMN数据库包含3种不同的室内和室外场景,由11个不同逃散事件情节组成。每个视频包含最初的正常行为和最后的异常行为。WEB数据库包含如行人步行、马拉松长跑等12个正常人群场景序列和恐慌逃散、游行抗议和群体斗殴等8组异常行为场景。

图4表明UMN视频库中三个不同场景中对于视频帧中异常行为的判别定位,左图为原始视频帧,右图为对应的相互作用力判别帧,其中颜色较亮区域为异常行为区域。通过对照比较原始帧与判别帧,本方法能够有效判定和定位人群场景中的异常区域。

表1为本文方法与光流法对视频帧处理的时间对比,表明图片分辨率越高,处理速度越快。表2为在UMN视频库上不同算法的ROC曲线(receiver operating characteristic curve,受试者工作特征曲线)下的面积AUC值的对比,实验表明,本文方法对于异常行为的检测高于Optical Flow算法[14]和1-NN算法[15]。

6结语

本文提出了采用运动矢量和社会力模型判定人群异常行为的方法,本方法不需要对行人个体进行提取、分割和追踪。实验结果表明,本文方法区分和定位人群场景中的异常行为效果显著,并且与原社会力模型相比,判别速度有明显提升。

摘要:面向人群场景中异常拥挤行为检测,本文提出基于运动矢量的检测方法。该方法首先采用运动矢量场提取人群运动特征;然后基于社会力模型计算运动矢量微粒之间的相互作用力;最后对相互作用力采用词袋法实现行为判别。仿真实验表明,本算法可以区分人群场景中异常区域内相互作用力的大小,对异常拥挤行为进行判别和定位。

上一篇:拓展语文教学下一篇:贞观文化广场