视频镜头分割方法

2024-08-20

视频镜头分割方法(精选4篇)

视频镜头分割方法 篇1

视频剪辑中的镜头长度不同于平常所说的镜头长度,一般的镜头长度是指摄像过程中摄像机从开机到关机所拍摄的画面长度,但在视频剪辑中,镜头长度是剪辑点之间的画面片段[1]。现在绝大多数影视作品都不可能只使用一个长镜头,必须要用蒙太奇的手法,重新组合多个镜头片段,以构成一部完整的作品。因此,在视频剪辑中如何确定镜头长度需要恰当的方法,以保证视频作品具有较高的观赏性。

1 根据视频内容风格确定镜头长度

在进行视频剪辑之前,先要对视频内容的风格进行研究,以把握作品剪辑后的最终风格,从而指导剪辑过程中镜头长度的确定。对于视频的风格,影视艺术中常用蒙太奇的手法来调节原始镜头,而另外一种长镜头的表现手法则力求表现最原始的画面。例如,在纪录片的剪辑中,一般会保留很多长镜头,只需要在各个长镜头中间插入几个衔接的短镜头,以展现内容的真实性,突出纪录片的纪实风格。相比之下,商业性的影视作品就更重视镜头的调换。在商业片的剪辑中,人物及剧情的变化需要在短时间内体现出来,若使用太多长镜头,会使内容显得拖沓,难以表现内容和风格。例如,电影《少年派的奇幻漂流》讲述了派回忆童年时期的一次重大经历以及幸存下来的思考,在电影短短的时间内要展现很长的时间跨度,就需要根据内容风格的变化进行镜头长度的调整。整部电影长镜头用得不多,但在一个夜晚的海天美景上使用了一个较长的镜头,此刻所强调的意味是磨难中的美好,长镜头的使用可以表达这种画面变换后的特定风格。由此可以看出,镜头长度的确定需要结合视频内容的整体风格和各个节点的风格,在切换镜头的时候对不同镜头的长度进行调节。

2 根据视频内容节奏确定镜头长度

镜头长度的确定要紧贴视频内容的节奏,根据节奏的起伏来调整画面切换的频率。节奏是表达视频风格的一种主要形式,镜头长度会影响视频的节奏,镜头的长短会带给人不一样的感受。长镜头尽量让画面的时间贴近现实时间,让人在缓慢的时间流逝中体验到舒缓的感觉,常用在情感类影视作品中。短镜头则常用于科幻动作类影视作品,通过紧凑的画面变换来加快节奏,展现惊险刺激的内容。有时在观看电影的时候可以看到特别长的人物特写镜头,根据剧情的走向,这样的镜头可以让观众产生特别的感受,在画面还未频繁切换的时候就调动了观众的情绪,以特殊的方式来调节影视作品的节奏。一般来说,镜头长度越来越短,内容的节奏变化就越来越快,会让人的神经逐渐紧张起来;在剧情缓慢发展的时候,长镜头就能带来平和的感觉[2]。

3 根据观众观看需求确定镜头长度

视频剪辑的最终目的还是为了满足观众的需求,这是视频剪辑中确定镜头长度必须考虑的问题。一部完整的影视作品首先要在内容上体现其完整性,所拍摄的主要内容都必须剪入最终成品当中。因此,镜头长度的确定要结合视频内容的长度。在进行镜头切换的时候,观众的注意力和视觉形象都会发生变化,在进入另一个镜头后,必须保证观众能有足够的时间来看清画面的内容[3],视频内容对镜头的影响包括以下几点。

第一,画面主体的位置。在镜头切换后,如果画面主体在近处,就能在短镜头中让观众看清,若画面主体在远处,则要使用稍长的镜头。第二,画面主体的运动状态。静态的主体容易在短时间内让观众看清,用短镜头即可,而动态的主体则要根据其运动的速度来调节镜头长度,让观众在合理的时间内掌握主体内容。第三,画面景别的影响。在近景画面中,画面信息较少,画面主体比较突出,适合用短镜头,而在远景当中,画面的信息较多,观众分辨主体所需时间较长,因而要用较长的镜头。第四,画面亮度。画面亮度变化同样会对镜头的视觉效果造成影响,在偏暗的画面中,要放长镜头便于观众看清画面,而在明亮的画面中,就不太需要考虑画面亮度影响。第五,声音的影响。很多时候观众不仅靠画面获取信息,还可以根据视频的声音跟进内容节奏。有时候可能用长镜头的固定画面来搭配声音的变化,描述剧情的走向。第六,画面描写长度。与内容长度的影响不同,画面描写长度与镜头气氛渲染的程度有关,当画面要让观众感受到惊悚恐怖的气氛时,可以用长镜头来描写一个恐怖的画面;而在展现轻松活跃的气氛时,就可以用多个短镜头来实现画面的跳跃。

4 结语

综上所述,视频剪辑中镜头长度的确定要慎重,必须综合考虑视频内容的风格、节奏,以及观众的观感,结合这三点影响因素,视频剪辑才能达到最理想的效果。在影视剧的视频剪辑中,镜头长度要充分把握剪辑的灵活性,有时要使用长镜头来写意,有时可能用密集的短镜头来加快节奏,具体的镜头长度确定还要多结合实际,在实践当中总结经验。

摘要:在视频剪辑过程中,如何确定视频的镜头长度十分重要,需要综合考虑多个因素对视频效果的影响。视频剪辑中镜头的长度一般要注意三个问题即视频内容的风格、视频内容的节奏、观众的观看需求。根据以上三点来合理剪辑镜头长度,能够让视频达到最佳的观看效果。本文具体分析如何参考这三个因素来确定镜头长度。

关键词:视频剪辑,镜头长度,确定方法

参考文献

[1]陈攀.艺术类院校多媒体视频的非线性编辑课程教学设计[J].广西科学院学报,2011,(3).

视频镜头分割方法 篇2

关键词:镜头边界检测,自适应模糊神经推理系统,阈值

1. 引言

视频/图像分析一直是计算机视觉领域的热门课题,其理论与应用研究受到广泛关注。人们对视频数据的认识归纳是有层次性的[1],帧是视频的最小组成单元,是一幅静止的图象。镜头是视频的基本单元。所以,视频镜头边界检测是进行视频内容分析的首要步骤,是基于内容的视频检索中更高一级的语义、内容分析的基础。

目前压缩域镜头转换检测算法主要为基于帧间差和模型的阈值法[2,3],阈值法的关键在于选取合适的阈值[4]。依靠经验人工选择阈值的方法,实质上是将视频边界特征与非边界特征线性化。不同的视频数据阈值不相同,所以难以找到适合所有视频数据通用的阈值,不利于实现镜头边界的自动检测。本文提出一种新的镜头边界检测方法。该方法首先提取合适的视频图像特征量,在传统的灰度帧差、直方图的基础上,加入二值信息特征分析;然后通过多次对视频数据进行自适应的模糊推理训练;最后找到合适的模糊规则,从而能更准确地实现边界的检测。

2. 基于ANFI S建模模型

自适应模糊神经推理系统(adaptive neuro—fuzzy inference system,ANFIS),是模糊逻辑和神经网络的结合物,既有模糊逻辑适于表示人的定性或模糊的经验和知识的特点,又有神经网络自适应、自学习机制。根据Roger Jang提出的一阶Sugeno型模糊推理系统,可以用MATLAB软件的工具箱函数ANFIS构建一个模糊推理系(FIS)。

ANFIS用若干线形函数进行适当组合来逼近这个非线性过程。通过Stone-Weierstrass定理,可以证明,Sugeno模型能以任意精度匹配紧集上的任意非线性函数(具体证明可以见参考文献[6]和[7])。ANF1S作为一种很有特色的神经网络,同样具有以任意精度逼近任意线性和非线性函数的功能,并且收敛速度快,样本需要量少。

ANFIS的实质是使用神经网络中比较成熟的参数学习算法———反向传播算法或者是混和最小二乘估计的反向传播算法,对给定的一组输入/输出数据集进行学习来调整FIS中变量的隶属度函数的形状参数,所以ANFIS是一种基于已有数据的建模方法。而建立的模糊系统模型能否很好地模拟这些数据并能用于预报,就是检验算法和模型的标准[6,7]。

3. 基于模糊推理的视频镜头边界检测

由于模糊推理分析具有描述样本类属中介性的优点,能客观地反映现实世界,所以,本文提出用模糊逻辑综合使用各种特征对镜头边界检测系统输出和镜头变化类型(如对渐变,突变)进行中介性描述。突变和渐变是一个模糊概念,在这里认为前后帧变化很明显就是突变,而渐变变化较比较平滑。而这种所谓的“明显”,“平滑”的概念就是语言中模糊量。本算法提出用隶属度函数定义帧间差较大、中等和较小等概念,并根据帧间差的统计分布自适应地确定隶属度,以适应不同类型的视频片断。

通过对多组不同类型视频进行ANFIS训练,获得性能较好的FIS结构,提取模糊规则,用于视频边界检测。

4. 视频特征提取

视频特征的提取是作为模糊推理的输入,而在采用MATLAB进行ANFIS训练[8,9,10]时,要考虑系统训练数据输入项的选择。

输入变量的选择也就是意味着随着输入变量的个数增加,规则产生的个数呈指数增加,即所谓的维数爆炸,势必使系统训练和推理时间大幅度延长,不利于实际应用。在视频镜头边界检测中,为了考虑算法执行的效率,采用了3个变量作为输入。

因此,要选用合适的三个特征量来检测镜头边界,而镜头变化由灰度特征,纹理特征,直方图特征来决定。因此,以平均灰度的一次帧差C1,加权灰度直方图差D-histb,分块加权二值图像信息。

(1)平均灰度的一次帧差C1:

其中,Ik(x,y)是第k帧图像的(x,y)像素点的灰度值,G(k)为该帧图像的平均灰度。Ik+1(x,y)是第k+1帧图像的(x,y)像素点的灰度值,G(k+1)为第k+1帧图像的平均灰度。

(2)分块加权灰度直方图差D-histb:

以前没有考虑分块时,每帧图像的灰度直方图差为:

Hki为第k帧图象的第i级灰度的橡素点直方图,H(k+1)i为第k+1帧图象的第i级灰度的像素点直方图。由于直方图特征值不能记录像素点位置信息,难以反映视频图像的空间信息,提出了一种灰度直方图的改进的分区直方图的概念。将整个视频帧不均匀分割为M×N大小的子块,首先可以考虑将视频分为3行3列大小不等的9个子块,然后分别求出各块直方图帧间差,再对这9块帧间差按大小进行排序,根据排序大小定义加权值。

5. 系统的训练与检测

(1)系统训练数据输入项选择

以前面的3个特征值作为ANFIS的输入。

(2)确定输入变量的隶属度函数及数量

隶属函数是模糊系统中的一个重要概念,模糊系统中常用的隶属度函数很多,Matlab模糊工具箱中包含11种。经过多次实验,本算法采用Gauss型隶属函数。

(3)输出数据选择

在选择输出数据方面,由于输出变量只有一个,根据镜头变化程度,定义:镜头内部,输出为0;Cut(突变),输出为1;FADE IN/OUT(淡入/淡出),输出为0.4;Dissolve(溶解),输出为0.3;Wipe(扫换),输出为0.2。

(4)ANFIS训练参数获得

最后当训练误差小于5%时,训练生成的自适应模糊推理神经模糊推理系统能逼近视频镜头检测非线性系统,说明获得了性能不错的FIS结构。此时,可以得到该模糊结构的前提参数和结论参数,则可以采用这个模糊推理结构来进行预报。

6. 结果与分析

实验数据来自于从电视上截取的电视片断、从网络上下载电视节目和TRECVID2005、TRECVID2006测试集等。内容包括电影、精彩镜头集锦、宣传片、广告等视频片断,实验环境是P4-114GHz CPU+512MB内存的PC机和WindowsXP操作系统。视频分割的结果位置与人工标记的精确位置进行对比以检验结果的准确性。

用查准率(准确率)和查全率(招回率)两个指标来评价,即:

准确率(查准率)=正确检出数/(正确检出数+误检数)

招回率(查全率)=正确检出数/(正确检出数+漏检数)

在该实验中,先用本文提出的模糊推理方法进行检测,表1为用本文提出的基于模糊逻辑的方法进行镜头边界检测的结果。然后再用传统方法法进行镜头边界检测,其结果如表2所示。

由此可见,试验中所采用的算法取得了令人满意的检测效果,个别的误检来自于视频中镜头的大幅度晃动、镜头快速水平扫过不同的场景等情况,而漏检来自于渐变前后两个镜头的颜色差别及其微小的情况。这些误差与在建立模糊推理时选择的训练数据的合理性有关,模糊推理模型的建立毕竟是以本文中所选择的数据为基础,训练数据选择的合理性、正确性、多样性能获得较好的前提和结论参数,所以在选择训练数据要尽可能地考虑到比较特殊的变化边界。

7. 结论

镜头边界检测不仅是实现基于内容的视频检索的一个重要步骤,而且一直是视频检索领域的研究热点,本文提出了一种基于模糊神经推理的镜头边界检测的策略,是因为考虑到镜头检测是一个复杂的非线性的过程,所以很难选择合适的阈值来正确区分镜头内部和边界。采用模糊神经推理较好地描述镜头边界检测的非线形性过程。ANF1S作为一种很有特色的神经网络,以任意精度逼近任意非线性函数的功能,并且收敛速度快,样本需要量少。模型运算速度快,结果可靠,效果好。同时在视频特征提取中,还加入二值信息特征分析。在NIST提供的测试数据集上,本方法取得了不错的试验结果。

参考文献

[1]Rui Y,Huang T S and M eh ro tra S.Constructing Table Of Contents For Videos[J].ACM Journal of Multimedia Systems,1999,7(5):359~368.

[2]Jinhui Yuan,Huiyi Wang,Lan Xiao“A Formal Study of Shot Boundary Detection”[J].IEEE Transactions on Circuits and Systems for Video Technology,vol.17,no.2,Feb.2007:168-186.

[3]U.Gargi,R.Kasturi,and S.H.Strayer,“Performance characterization of video-shot-change detection methods”[J],IEEE Trans.Circuits Syst.Video Technol.,vol.10,no.1,pp.1-13,Feb.2000.

[4]原野,宋擒豹,沈钧毅,倪冰等.一个自动阈值选择的镜头检测算法[J].小型微型计算机系统,2004,7(25):1337~1340.

[5]NAphade MR,Mehrotra R,Ferman A M,et al.A high-performance shot boundary detection algorithm using multiple cues[C].Proceedings of International Conference on Image Processing,1998:884-887.

[6]J.Wesley Hines.Fuzzy and Neural Approaches in Engineering-MATLAB Supplement[M].John Wiley and Sons,New York,1997:35~45.

[7]李士勇等.模糊控制.神经控制和智能控制论[M].哈尔滨:哈尔滨工大学出版社,1998:21~26.

[8]闻新,周露,李东江等.MATLAB模糊逻辑工具箱的分析与应用[M].北京:科学出版社,2002:244~246.

[9]吴晓莉,林哲辉等.MATLAB辅助模糊系统设计[M].西安:西安电子科技大学出版社,2002:14~99.

视频镜头分割方法 篇3

随着多媒体技术和互联网技术的大力发展,立体视频技术正迅速发展起来。与传统的2D视频相比,3D立体视频能够为大众创造更加直观真实的场景感受,同时也可以使观众获得更加强烈的临场感。但是由于立体视频自身显示技术的不完善、3D立体视频内容的不兼容、以及观影环境的局限性,使得人们在观看立体视频时经常出现视觉不舒适等症状(头痛、眼干、视疲劳等)[1,2]。

观影者在观看立体视频时常用视觉舒适度这一概念反映主观感受到的视觉舒适程度,具体表现在观看立体视频一段时间后,眼睛的疲劳程度和身体的反映状况等。研究表明,人眼对呈现给左、右眼图像的一致性程度要求很高,如果呈现给左、右眼的图像的差异超过了一定范围,人眼就无法将其融合成单一自然的立体图像,从而导致观看立体图像时出现不舒适的症状。立体视频内容的舒适与否直接关系到观影者的视觉感受与生理健康,这已经成为立体产品迅速普及并被用户广泛认同的主要制约因素之一[3]。

目前,立体图像质量评价标准大致可以分为两类:基于视觉感知的测量方法和基于视觉兴趣的测量方法。其中基于视觉兴趣的图像质量评价方法的思想是:由于人眼在观看一幅图像时只能对其中部分区域的细节具有良好的分辨能力,而不能同时分辨图像中的其他区域,同时视觉只对视场中(亮度或纹理)发生显著变化的区域感兴趣,即人眼视觉系统具有一定的选择性。所以将图像分为视觉感兴趣区[4](ROI,RegionofInterest)和非感兴趣区,并根据感兴趣程度对其设定加权值。所谓的视觉感兴趣区是指人眼只会对图像中显著变化的区域发生兴趣仔细观看,而对那些亮度均匀的平滑区域或空间频率相近的纹理区则忽略掉。整幅图像的视觉质量往往取决于感兴趣区的质量,非感兴趣区的图像质量的降低则影响较小。

结合当今视觉舒适度的研究发展现状,本文提出了一种基于特征区域分割的立体视频视觉舒适度评价方法,同时建立了一个基于人类视觉特性的视觉舒适度评价模型。

1评价系统框架

如下框图1所示,本算法以区域分割和深度感知[5]为基本框架,结合空间合并技术[6],建立符合人眼视觉特性的舒适度模型。考虑到人眼在观看图像时对色彩鲜艳且与周围景物存在明显差异的区域分配更多的注意力的特性,本文引入一种显著性区域提取方法GBVS(thegraph-basedvisualsaliency)算法[7],该算法可以较为清晰准确地将图像中吸引人类注意力的显著性区域标注出来。该系统首先对当前帧左、右视图进行处理,得到该视图对的标准视差图,然后应用GBVS算法分别处理左、右视图,得到显著性区域分布图,将之前获得的标准视差图与显著性区域分布图按阈值为0.5,1:1的比例合成为一幅图像,对这幅图像进行分割提取可以得到对应的显著性区域(即吸引人眼大部分注意力,可以对实验结果造成较大偏差的区域),再利用高阶检测的办法对相邻两帧视图进行处理,抑制噪声的同时,可以得到相邻帧视图的运动区域[8]。对以上所得到的区域进行分割提取,计算他们各自的视差深度d,这里引用空间合并技术,可以得到较为稳定的视差深度d的值,代入视觉舒适度模型进而得到视觉舒适度评分结果[9,10]。

2建立评价模型

由于人类在观看3D立体视频时会产生视觉疲劳并伴随着头痛、眼干等不良症状,因此有必要展开相关实验对不同状态下的观测结果进行比较。实验结果表明,无不良症状下的观测结果与伴随头痛、眼干、视觉疲劳等症状下的实验结果曲线形态大体相同,由此提出假设认为人眼在观测3D立体视频时所得到的视觉舒适程度满足一定函数关系,根据主观评价实验的结果与视差深度d的逻辑关系,确定立体视频视觉舒适度评价模型的数学表达式:VC=c1d3+c2d2+c3d+c4,其中VC为视觉舒适度评分,c为特征参数,d为视差深度。

2.1特征区域选取

考虑到人眼注意力机制的特殊性,在观测视频时会对色彩鲜艳且区别于周围景物的显著性区域以及处于运动状态下的运动区域投入较多的注意力,因此本文仅对以上两种特征区域进行讨论。

对于特征区域的选取,本文提出了将显著性区域内的运动对象和原视图中的运动对象同时归为运动区域,将剩下的背景对象归为显著性区域的背景部分的构思,并以此模拟人眼视觉注意力机制。

首先是对运动区域进行分割、提取。所谓运动区域即相邻帧图像内存在帧差的对象区域,由于对象的快速位移,可能引入相应的噪声干扰,因此为了抑制噪声的干扰,提取出较为清晰的运动区域,本文中采用高阶统计的检测方法,将运动区域的帧差视为非高斯信号,噪声及背景静态的区域视为均值为零的高斯信号,这样,运动区域的检测可以模拟为从高斯信号中提取非高斯信号的过程。

接下来是显著性区域的分割、提取。通过GBVS算法提取出的显著性区域为图像中最能引起观测者兴趣、最能表现图像内容的区域。这些区域含有较大的信息量,对于立体图像的分析和评分起着重要的作用。对于显著性区域的选取,常用的方法是以人的注意力机制为基础,通过数学模型模拟人类的注意力机制,实现对显著性区域的自适应提取,所提取的显著性区域通常颜色突出、内容丰富,可以很好的表现图像的特征。

2.2评价模型

虽然人眼的注意力大部分集中在运动区域及显著性区域静态部分,但是考虑到人眼常常会被快速运动的物体牵扯更多的精力,所以本文对运动区域及显著性区域静态部分给予不同的权值即w1、w2,分别赋值为0.8、0.2。结合之前提到的视觉舒适度模型,可以得到模拟人类视觉特征的视觉舒适度评价模型:

其中VC为视觉舒适度评分,dM为运动区域部分的视差深度,dS为显著性区域背景部分的视差深度,w1、w2分别赋值为0.8、0.2,a1、a2、a3、a4、b1、b2、b3、b4 为相应的特征参数。

3主观评价实验

3.1设备与观看环境

本次实验在NVIDIA3D Vision显示平台下进行的,其配置为英特尔CoreTM2Duo3GHz处理器、GeForceGTX240显卡,放映设备采用SonyVPLHW30ES立体视频投影机,测试者通过佩戴Sony主动快门眼镜站在距离立体屏幕3 m处完成对立体视频的观看,其中立体屏幕设定高度为2m。

3.2观测人员

实验选取双目视觉生理正常(裸视或佩戴眼镜矫正视力达到1.0,没有对实验数据造成影响的眼部疾病)的被试者共16人:其中年龄为20~35岁;男性12人,女性4人;有立体技术背景的10人,没有立体技术背景的6人;并且被试者佩戴主动快门眼镜无不良反映。

3.3评分标准与实验片源

依据ITU(2000)电视图像质量主观评价推荐准则[11],对立体图像舒适度分5个等级进行评价,其中评分的精度达到0.1。具体舒适等级描述以及评分标准由表1给出。

实验片源采用国际视频组织发布的标准序列作为立体视频序列,并利用相关软件进行处理,转变成左右格式立体视频,通过ssp立体视频播放软件实现片源播放。

3.4实验数据

本次实验通过测试连续帧立体视频序列,使被试者主观评判给出不同视差深度下各运动区域及显著性区静态部分的评分,将不同视差深度情况下的主观评分在坐标系中表示出来,形成一条光滑的曲线,并通过该曲线求解模拟人眼视觉特性的舒适度评价模型。

通过计算机测量图像中各区域水平视差,根据水平视差的定义和立体感知原理,通过计算获得相应目标区域的视差深度d,水平视差与视差深度的逻辑关系如下式所示:

其中L、e为设定的已知量,在忽略掉垂直视差的情况下,p为左、右视图的水平视差。

4实验结果与结论

下表2展示了被试者在不同视差深度情况下的视觉舒适程度,这里通过舒适度等级评分表示视觉舒适程度[12],由此我们可以完善之前提到的视觉舒适度模型,可表示为:

为了校验所得模型的可靠性,本文再次让被试者观看6段当前热映的3D立体电影,并为之评分。实验结果表明,通过本文得到的舒适度模型计算的舒适度评分与被试者主观给出的舒适程度评分大体相同,由此可以看出,本文中所提及的舒适度模型,具有较好的实用性,对于立体视频舒适度评价的快速发展具有重要意义。

视频镜头分割方法 篇4

视频序列中的运动对象分割是指对图像或视频序列按一定的标准分割成区域。其在图像压缩、可视电话、视频会议和视频检索等方面很多领域中都有广泛的应用。

目前运动对象分割的算法基本可分为光流法[1]、背景差法[2]和帧间差法[3]等。光流法的分割效果不错, 但是容易受到噪声和光照变化等的影响, 并且计算起来比较复杂, 实时性较差;帧差法实现起来比较简单, 对环境变化适应性较强, 但是由于运动目标上的像素、纹理等信息比较接近, 因此不能检测出完整的目标;背景差法也可得到比较理想的分割结果, 但是对光照引起的动态场的变化非常敏感, 运动目标的阴影也影响了分割结果的准确性。针对低比特率多媒体应用的视频序列, 本文提出了一种简单高效的分割算法。首先利用对称差分得到差分图像, 然后求出当前帧的梯度图像, 二者相与得到比较连续的运动对象边界;再对其进行形态学处理和二次扫描填充该得到分割结果。在取得较好分割效果的同时, 由于该算法计算量较小, 减小了处理时间, 具有一定速度优势。

1算法描述

1.1算法概述及流程图

图1为本文算法的流程图。对于输入视频的第K帧图像, 首先通过对称差分得到差分图像, 然后对其进行Canny边缘检测得到梯度图像, 两种图像相与后获得运动对象边界, 再经过形态学处理及二次扫描得到运动对象掩模, 最后用原图像的灰度值填充该区域取得分割结果。

1.2预处理

原始帧中往往存在一些噪声, 直接进行处理受噪声影响比较大。因此在分割前必须先对图像进行滤波去噪处理。因为经过中值滤波后图像可以保持比较完整的边缘, 所以本文采用中值滤波来预处理各帧图像。

1.3对称差分检测运动目标

一般视频序列包括背景和运动目标。为了将运动目标从静止背景中分离出来, 可以对相邻的两帧源图像进行差分, 由于图像帧之间的显著差异能快速地检测出目标的运动范围, 但是仅仅两帧之间的差分获得的运动轮廓经常不完整, 因此本文采用连续三帧序列图像通过对称差分相“与”, 能较好地检测出中间帧的运动目标的形状轮廓。具体操作如下:

把视频序列的连续三帧源图像设为f (k-1) (x, y) 、f (k) (x, y) 和f (k+1) (x, y) , 分别计算相邻两帧源图像的绝对差分灰度图像:

D (k, k-1) =|f (k) (x, y) -f (k-1) (x, y) | (1)

D (k, k-1) =|f (k+1) (x, y) -f (k) (x, y) | (2)

对两个绝对差灰度图像, 选取适当的阈值进行二值化。设T是二值化所需的阈值, B是二值化后得到的图像。则有:

T的准确选取是得到准确的运动对象掩模的重要前提。本文采用一种最佳阈值确定方法, 参见文献[4], 利用下列形式可以找到关于二值化问题所需要的最佳阈值。

E (Τ) =Ρ22πσ2-Τexp{- (s-μ2) 2σ22}ds+Ρ12πσ1Τexp{- (s-μ1) 2σ12}ds (4)

其中Pl是一模式的先验概率, μlσl分别表示该模式的平均偏差和标准偏差。可以通过数值计算法求出这些参数, 通过使关于T的整个误差概率最小, 可以找出二值化问题的最佳阈值。通过式 (3) 运算得到两个绝对差二值图像B (k, k-1) 和B (k+1, k) 。在每一个像素位置, 把两个绝对差二值图像相“与”, 得到对称差分结果二值图像D (k) (x, y) , 这就是k帧源图像中运动目标从背景中分离的初步结果。

1.4获取梯度图像 (G)

边缘信息是区分不同物体的重要依据, 它一般用图像的空间梯度 (g) 来表示。梯度的求取方法很多, 最简单的是直接对图像求取xy方向的偏导, 也可以用Sobel算子或者形态梯度算子来计算。实际上由于噪声的存在, 通常要对图像进行滤波处理, 但是滤波会使边缘变得模糊 (中值滤波稍好一些) 。因此, 上述方法得到的并不是对图像精确的边缘, 而是具有一定的宽度。为了得到单像素宽度的精确的对象边缘, 本文采用Canny算法。Canny算法是所谓“最优边缘检测”的一种, 它可以得到单像素宽度的边缘。

1.5初始化边缘模板 (E)

由于差分模板中不仅包含运动的物体, 还包含显露出来的背景部分, 为了消除显露背景, 得到只有运动物体的模板, 可以把差分图像和梯度图像相“与”, 将其结果定义为边缘模板E:

E (p) =D (p) &G (p) (5)

式中p是图像中的任意一点。

1.6运动对象的提取

为了准确地提取运动对象, 本文采用了二次扫描方法[5]。对边缘模板按行扫描, 得到每行的第一个和最后一个属于运动区域的像素, 两者之间的像素就属于运动区域, 用255的灰度值填充这些区域得到水平方向上的候选分割区域。为了消除按行扫描得到的运动区域的误差, 再按列扫描, 同样可以得到一个垂直方向上的候选分割区域。将两候选分割区域进行“与”操作, 即可得到提取的运动对象掩模, 由二进制“1”表示。最后用原图像的灰度值填充图像中为“1”的部分, 即可得到分割图像。

运动对象掩模中会有的孤立点和一些空洞, 可以通过形态学操作来消除, 从而得到紧凑的掩模图像。通常使用开、闭运算以得到满意结果。在本算法中, 我们不采用开、闭运算, 而是采用三次膨胀后再腐蚀的方法来达到填充空洞和去除小物体的目的。设运动对象掩模为F, 膨胀和腐蚀使用的结构元素为M, 则膨胀操作用FM表示, 腐蚀操作用FΘM表示。

(FM) (x, y) =max{F (x-x′, y-y′) +

M (x′, y′) | (x′, y′) ∈DM} (6)

其中, DMM的定义域, F (x, y) 在F的定义域外假设为-∞;

(FΘM) (x, y) =min{F (x+x′, y+y′) -

M (x′, y′) | (x′, y′) ∈DM} (7)

其中, DMM的定义域, F (x, y) 在F的定义域外假设为+∞。

本实验中M采用了平坦的3×3的结构元素。

实验证明, 这种方法比利用开、闭运算的效果更令人满意。

2实验结果与分析

使用Matlab7.0在PIV, 1.7GHz的平台上对本算法进行测试。选取MPEG-4标准测试序列中典型的视频会议和新闻播报图像序列作为测试样本。实验结果如图2-图5所示。图2使用的Clairey视频序列, 其中图2 (1) 为Clairey序列第8帧;图2 (2) 为传统帧差累积算法[3]得到的结果, 可以看出头部带有显露的背景;图2 (3) 为本文算法得到的结果有效的去除了显露的背景。图3使用miss视频序列, 其中图3 (1) 为miss视频序列第12帧;图3 (2) 为对称差分算法[6]得到的结果, 其头部的轮廓过大, 不够精确;图3 (3) 为本文算法得到的结果, 运动对象的轮廓较为精确。图4为另一视频序列的分割结果, 其中图4 (1) 为此视频序列的第9帧;图4 (2) 为背景减法[7]的分割结果, 运动对象的边缘不够精确, 左肘部有缺失;图4 (3) 为本文算法的分割结果, 运动对象的边缘比较精确。

为了充分验证本文算法的效果, 本实验对有加入噪声的视频序列进行了测试。结果如图5所示。图5 (1) 为Clairey视频序列第19帧, 图5 (2) 为加入噪声的该帧图像, 图5 (3) 为分割结果。可以看出虽然头部边缘和图像上边缘有少许背景, 但是总体分割效果较好, 受噪声影响不大。

从实验结果看来, 本文算法取得了较好的分割效果。与传统帧差累积算法获得的分割结果相比, 有效地去除了显露背景部分, 同时能够克服对称差分算法所得结果轮廓偏大, 边缘不够精确的缺点, 当运动对象某部位和背景色彩纹理相近时, 所得结果不会出现部位有所缺失的现象, 如背景减法。在视频序列加入噪声的情况下, 也能取得较好的分割效果。由于只用连续的三帧作差分, 处理的速度大大提升, 在实时性方面有较大优势。与其它算法运行时间对照如表1所示。

3结论

本文提出了一种时空结合的视频序列中的运动对象分割方法, 利用时域的帧差和空域的对象的边缘信息相结合, 算法简单, 快速准确。对于低比特率的视频播报视频序列均能取得较好的分割效果。由于只用连续的三帧作差分, 处理速度也大为提高。

摘要:为了提高视频分割的实时性和效果, 针对低比特率多媒体应用的视频序列, 提出了一种简单快速的运动对象分割方法。首先利用对称差分得到差分图像, 然后再求出当前帧的梯度图像, 二者相与得到连续的运动对象边界;再对其进行形态学处理及二次扫描, 得到运动对象掩模;最后用原图像的灰度值填充该区域。实验证明, 使用该方法得到了较好的分割效果并缩短了处理时间。

关键词:对称差分,梯度图像,运动区域,运动对象掩模

参考文献

[1]Zinbi Y, Chahir Y, Elmoataz A.Moving object segmentation using opti-cal flow with active contour model[J].IEEE Information and Commu-nication Technologies:711 April, 2008:15.

[2]Mahfuzul Haque, Manzur Murshed, Manoranjan Paul.A Hybrid objectdetection technique from dynamic background using Gaussian MixtureModels[J].IEEE Multimedia Signal Processing:810 Oct, 2008:915920.

[3]许悦雷, 左继章, 张雄.一种累积帧差视频对象分割算法[J].光电工程, 2004, 31 (7) :6972.

[4]Robert T, Collins et al.A system for video surveillance and monitoring[R].Technical Report CMURITR-00-12, Carnegie Mellon University2000, http://www.cs.cmu.edu.

[5]Changick Kim, Jenq-Neng Hwang.Fast and automatic video object seg-mentation and tracking for content-based applications[J].IEEE Trans-actions on Circuits and Systems for Video Technology, February, 2002, 12 (2) :122129.

[6]肖丽君, 于哲舟, 周栩, 等.基于对称差分算法的视频运动目标分割[J].吉林大学学报:理学版, 2008, 46 (4) :693698.

[7]侯伟, 卢炎麟, 郑河荣, 等.固定背景下的视频分割及在交通视频流的应用[J].计算机技术与发展, 2008, 18 (9) :192194.

【视频镜头分割方法】推荐阅读:

视频镜头检测07-13

电影镜头06-04

镜头设计08-16

镜头运动10-10

摄像镜头11-09

变焦镜头05-23

慢镜头06-30

动画镜头语言07-26

镜头的组接11-02

广角镜头01-08

上一篇:多元唱法下一篇:孟子和谐社会思想