自适应前景提取

2024-05-23

自适应前景提取(精选4篇)

自适应前景提取 篇1

摘要:在复杂场景下的运动前景提取是智能视频监控的基础部分。高斯混合模型是常用的背景建模方法,针对高斯混合模型中模型个数固化导致的无谓的系统开销,提出基于单高斯模型成长的动态个数调整形成的高斯混合模型。对模型的更新率根据场景变化的剧烈程度进行实时改变,能较好适应突发场景、光照的变化。对提取的运动前景进行形态学处理,得到最后的提取目标。实验结果表明,该方法背景建模适应性强,提取前景精度有所提升。

关键词:高斯混合模型,自适应背景更新,更新率

0 引言

视频监控已渗透到当今社会的方方面面,对个人与公众安全产生了深刻影响。随着计算机视觉及图像处理技术的进步,视频监控正逐步向智能化发展。运动目标检测是智能视频监控的基础部分,对提高监控系统的准确性有着重要影响。

主流的运动前景提取算法有:背景减除法、帧间差分法、光流法。背景减除法是通过视频帧与背景模型作差分提取出运动的前景目标。该方法原理简单,计算量小,适用范围广。但在现实环境中,监控场景虽然固定,但非绝对不变,比如光照的变化,背景的干扰(摇晃的树叶、粼粼的水波)。因此,如何建立一个动态更新的背景,以适应各种因素的干扰,是研究的重点。

高斯混合模型[1]的实质是对每一像素点设立多个高斯分布,联合多个分布进行背景建模。但基于高斯混合模型的目标检测算法复杂度较高,分布个数的选择对前景提取效果影响明显。此外,采集视频图像中存在的噪声也易对前景的提取造成干扰[2]。针对混合高斯模型存在的不足,许多研究者提出了改进算法。王永忠等[3]利用GMM学习每个像素的时间域与非参数密度估计构造的空间域融合,改进了检测效果。Zhao等[4]将高斯混合模型扩展到了邻域,并用马尔可夫随机场分割前景,同时算法的复杂度也急剧增加。文献[5,6]通过帧间差分与高斯背景相结合分割前景目标,同时也增加了时间开销;Fradi[7]将选择流融入混合高斯模型提高了前景分割的精确性;范文超等[8]对视频图像进行分块以实现滤波效果,采取自适应的高斯分布个数提高了检测速度。Zhang等[9]用统计学方法建立自适应的2-D学习率查找表,针对每个像素设定不同学习率,较好地进行了GMM的更新。刘万军等[10]在此基础上融合了图像熵与更新率查找表,对光照突变时的背景更新调节有较好效果。

本文利用单高斯模型进行初始化的背景建模,根据背景的复杂度动态增减高斯模型个数,同时对参数更新策略加以调整,在监控场景变化或受到扰动时的前景提取效果有所提升。最后,对提取出的前景目标进行形态学处理,以较小的开销优化检测结果。实验表明,本文的算法较传统的高斯建模方法检测算法效果更好,能实时提取运动目标。

1 混合高斯模型

1.1 混合高斯模型介绍

混合高斯模型由Stauffer等[1]等提出,核心思想是对背景图像中的每一像素点用K个高斯分布来表示。一般来说K取3~5之间。K太小不足以充分表示背景的变化;K增大时,背景模型的抗干扰能力会增强,同时运算开销也相应增加。对某一个像素点{x,y},其时间序列{X1,X2,…,Xt}可以用K个高斯分布叠加表示,Xt为t时刻点{x,y}的观察值。Xt的概率密度函数可表示为:

式中,K为高斯分布的个数;ωi,t为在t时刻第i个高斯分布的权值;μi,t为在t时刻第i个高斯分布的均值;∑i,t为在t时刻第i个高斯分布的协方差矩阵。Xt为n维的向量,n=1时Xt代表像素点的灰度值,n=3时Xt代表像素点的RGB数值。

1.2 运动目标提取

传统高斯混合模型设定固定的高斯模型个数,将像素点的观察值Xt与K个分布中的前M个一一对比,直至与某分布相匹配。匹配规则为:|Xt-μi,t-1|<2.5δi,t-1。若能匹配,则需对各高斯分布的权值、均值及方差进行更新;若不匹配,则该像素点此时被判定为前景点,提取出运动目标。

1.3 模型参数更新

在进行像素点的匹配后,需根据匹配情况调整各分布的权重,均值及方差,构建新的背景模型,以适应新一帧的前景目标提取。当像素点观察值与某一高斯分布相匹配时,对参数进行更新:

其中,α为权值更新率;ρ是参数更新率。匹配时Ti,t为1,否则为0。由式(3)可知,匹配的模型权重会增加,反之,则会下降。均值和方差也会随像素点的当前值而更新。在高斯模型的参数调整后需归一化各分布的权重。

在权值归一化后,对像素点的高斯模型按ωi,t/δi,t从小到大的顺序进行排序。若排序的前M个模型的权重之和满足式(7),则认为这前M个高斯模型描述背景,其余的高斯模型描述运动物体。

式中,T为权值阈值,T∈(0.5,1)。

2 改进的混合高斯模型

2.1 初始高斯模型设定

混合高斯模型设定一个固定的模型个数后便不再改变,本文起初用单高斯模型来进行背景建模,即取K为1,μ取像素点的初始值μ0,其权重为1。

2.2 高斯模型动态调整

单个高斯模型并不能满足场景的动态变化,容易引起误检。对高斯模型的个数进行动态的增减,以适应监控场景的变化。当然,为避免运算量过大,不能满足实时检测,对高斯模型个数设定最大值,本文取K最大为4。具体流程如下:

将像素点数值与当前分布匹配,若能匹配,则判定为背景点,同时更新权值、参数。若未能匹配,则增加一个新的高斯模型,μk,t=Xt(像素点的当前数值即为新增加的第K个高斯模型均值),δi,t=36,ωk取一个较小值。如此,直至模型个数达到上限。在背景趋于平静时,无需维持较高的模型数目,可对模型进行删除或合并,剔除无效分布、合并冗余分布[11]。以下是精简高斯模型个数的两种策略:

1)分布删除

对像素点的每个高斯分布的连续未匹配次数进行统计,记为Fk,并设定一个阈值Fmax,Fk=Fmax时,表示此模型长时间未被匹配,将其删除。另外,若某一高斯模型的分布权值不断降低,则说明其不适应背景的变化,不能很好的描述,同时,还会继续学习更新,影响模型的收敛速度,需将其删除。

2)分布合并

当某一像素点的两个高斯分布a、b均值比较接近时,合并这两个分布,合并后高斯分布为c,参数转换为:

2.3 高斯模型动态更新

在混合高斯模型进行建模时,不仅要考虑高斯模型的个数,适应背景复杂度的变化,而且要根据背景变化的快慢,调整背景模型的更新速率。若背景变换太快,或有突然的光照变化,更新率过小时检测效果不理想。在上文进行目标检测时进行了图像序列的灰度化,在监控场景发生转换或光照突变时,一般灰度值都会有明显的改变。利用此原理,将背景的更新率与灰度值的变化率相匹配,实现更新率的动态改变。

首先,对图像进行灰度化变换,即Xt→ht,(ht,代表当前帧所有像素点灰度值的平均值),再根据灰度值ht的变化调整式(3)-式(6)中的更新率α。定义场景变化率γ,反应场景变化的速率。设定一个固定阈值γ0,如果参数γ过大,即γ>γ0,则证明场景变化剧烈,没有在原有背景基础上进行更新的必要,选择新的帧作为背景进行建模。若γ≤γ0,对更新率进行调整:

实现更新率随灰度值变化的动态改变。

2.4 形态学处理

在改进高斯混合模型提取到运动前景后,不可避免会存在一些噪声点、检测目标内部有空洞等现象。为此,通过简单的形态学处理可有所改观。

改进后的高斯混合模型的流程如图1所示。

3 实验结果及分析

为验证本文算法对前景提取的有效性,对其进行实验验证,并与传统单高斯及高斯混合模型的检测效果进行对比。本次实验是基于个人计算机实现的,配置为:CPU为Intel(R)Core(TM)i5-3210M 2.5 GHz,内存4 GB,仿真软件为Matlab2014a。在具体实验时,本文先将输入的彩色图像进行灰度化的处理,减少了计算量。

本文采用Wallflower视频集中的五个视频作为测试集,分别为Waving Trees(WT),Light Switch(LS),Time Of Day(TD),Camouflage(CF),Foregrou-nd Aperture(FA)。为对本文提出算法的前景提取效果客观衡量,分别用单高斯模型(方法1)、高斯混合模型(方法2)、基于Parzen窗的非参数概率密度估计的混合高斯背景建模[11](方法3)、基于EM的自适应混合高斯模型[12](方法4)与本文提出的改进高斯混合模型进行对比。对五种方法的运行时间及检测效果进行比较。表1给出了这5种算法对以上5个视频段平均每秒钟处理的帧数。

从实验效果来看,本文的改进算法相比高斯混合模型及基于Parzen窗的非参数概率密度估计的混合高斯背景建模处理速度有所提升,主要得益于实时调整模型的个数,在背景稳定的情况下,以较少的模型对背景建模,总体减少了程序的开销。但与单高斯模型相比,处理速度处于劣势,原因是单高斯模型以固定单一高斯模型背景建模,处理速度快,但其检测效果不及本文提出的改进算法。本文与基于EM的自适应混合高斯模型的处理速度相比略有下降,主要是因为引入了背景重建策略,监控场景突变时进行了背景重建,增加了运算开销。可以说,改进后的高斯模型用处理速度上的损耗获得了更好的前景提取效果。

图2从上至下分别为原图像、理想前景、单高斯模型、高斯混合模型、基于Parzen窗的非参数概率密度估计的混合高斯背景建模、基于EM的自适应混合高斯模型、本文改进高斯混合模型。

引入以下参数对本文算法性能定量评价:查全率(Recall)Recall=tp/(tp+fn);查准率(Precision)Precision=tp/(tp+fp)tp:判断正确的前景点,fp:判断错误的前景点,fn:判断错误的背景点。

从图2和表2可以看出,本文方法在查准率上有所提高,主要得益于自适应的动态背景建模,根据监控场景变化的快慢实时调整模型个数及更新率,此外加入形态学处理,滤除了部分噪声点。

本文方法相比传统单高斯和高斯混合模型在查准率和查全率上皆有较大提高,得益于改进的模型个数动态调整,与更新率的实时变化。与方法3(非参数密度估计法)相比在查全率上处于劣势,源于本文方法提取前景内部存在空洞。与方法4相比本文效果也更好,查全、查准率都有提升,在Light Switch场景中都能适应光照的突变,相较方法3,在查准率上更胜一筹。在Waving Trees场景中,方法1、方法3在人的周围由于树叶的晃动,有诸多干扰点,拉低了检测的查准率,而本文的背景建模策略有效地减少了此类干扰。

本文方法在查全率及查准率上总体效果有所提升,提取出良好的前景目标。同时也需认识到,提出的背景建模策略虽能更好地适应各种监控场景的变化,但也使处理速度有所降低。

4 结语

本文针对高斯混合模型耗时长,前景提取精确度不高等问题,提出了模型个数动态调整的高斯模型,开始用单个高斯模型背景建模,根据背景的复杂程度动态增减模型个数,并设定模型个数上限以控制目标检测的时间。其次,根据场景中背景变化引起的灰度变化来控制背景模型的更新速率,对光照的变化表现出良好的适应效果。实验证明,本文算法实时性适中,查全率和查准率都有所提升,总体检测效果良好。下一步需着重提高前景提取的实时性。

参考文献

[1]Stauffer C,Grimson W E L.Adaptive background mixture models for real-time tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Fort Collins:IEEE,1999:2246-2252.

[2]Blanding W R,Willett P K,Bar-Shalom Y.Multiple targets tracking using maximum likelihood probabilistic data association[C]//2007IEEE Aerospace Conference.IEEE,2007:1-12.

[3]王永忠,梁彦,潘泉,等.基于自适应混合高斯模型的时空背景建模[J].自动化学报,2009,35(4):371-378.

[4]Zhao Z,Bouwmans T,Zhang X,et al.A fuzzy background modeling approach for motion detection in dynamic backgrounds[C]//Proceedings of the Second Conference on Multimedia and Signal Processing.Springer,2012:177-185.

[5]於正强,潘赟,宦若虹.一种结合帧差法和混合高斯的运动检测方法[J].计算机应用与软件,2015,32(4):129-132,270.

[6]连晓峰,张弢,刘载文,等.一种改进的运动人体目标检测方法研究[J].计算机仿真,2011,28(2):308-311.

[7]Fradi H,Dugelay J L.Robust Foreground Segmentation Using improved Gaussion Mixture Model and Optical Flow[C]//2012 International Conference on Informatics,Electronics&Vision(ICIEV),2012:248-253.

[8]范文超,李晓宇,魏凯,等.基于改进的高斯混合模型的运动目标检测[J].计算机科学,2015,42(5):286-288,319.

[9]Zhang R,Gong W,Grzeda V,et al.An adaptive learning rate method for improving adaptability of background models[J].IEEE Signal Processing Letters,2013,20(12):1266-1269.

[10]刘万军,李琳.基于熵理论改进混合高斯模型的运动目标检测算法[J].计算机应用研究,2015,32(7):2226-2229,2233.

[11]Tanaka T,Shimada A,Arita D,et al.Non-parametric background and shadow modeling for object detection[C]//Proceedings of the 8th Asian Conference on Computer Vision,Tokyo,2007:159-168.

[12]李百惠,杨庚.混合高斯模型的自适应前景提取[J].中国图象图形学报,2013,18(12):1620-1627.

自适应前景提取 篇2

笔者以矿物浮选泡沫为研究对象, 首先通过形态开闭重构预处理泡沫图像, 降低噪声的影响, 然后选择合适的边界检测模板, 利用改进的微粒群算法自适应优选谷底检测阈值, 根据逻辑规则获取气泡边界, 再通过细化、滤波等后期处理得到最终的分割结果, 并对所得的气泡形状和大小形态特征进行统计分析, 证明泡沫形态特征服从gamma分布。所提方法可以有效提高泡沫分割的精度和效率, 对混合尺寸和形状的泡沫分割具有较强的鲁棒性。

1 矿物泡沫图像的获取及特点

泡沫浮选是气、液、固三相交互的复杂物理化学反应过程。在浮选机中添加各种药剂, 与送入浮选机的微粒矿物、工业用水等混合形成矿浆。皮带轮带动叶轮高速旋转, 风机压入的空气流在旋涡作用以及矿浆与气流垂直交叉运动的剪切作用下被分割成众多微小气泡, 气泡在上升过程中与疏水的有价矿物粘附, 在浮选机液面表层聚集成为矿化泡沫, 在刮板的作用下回收富集为精矿。而脉石等亲水性矿物由于不能与气泡粘附而滞留在矿浆中, 作为尾矿排出。气泡越小, 与微细矿粒的碰撞机会越多, 表面势能越小, 泡沫属于相对稳定的热力学体系, 泡沫含矿量越高, 越有利于矿物的富集回收。亮度高且色温稳定的荧光灯作为光源为摄像机照明, 同时降低环境光照的影响, 光源尽量靠近摄像机, 其安装高度略高于摄像机镜头的高度, 在泡沫表层上方110cm处安装彩色CCD摄像机拍摄泡沫视频, 视野为12×9cm2, 拍摄速率为7.5帧/s。图像视频信号通过光纤传输到工业计算机的图像采集卡, 其将连续的模拟信号转换成离散的数字信号实时显示。

图1是现场采集的一幅泡沫图像, 从中可见, 摄像机视野内充满挤压层叠的泡沫, 浮选气泡大小不一、形状各异, 泡沫表面亮点分布不均、边界模糊, 泡沫图像噪声较大。

2 适应度反馈微粒群优化谷底检测的矿物泡沫图像分割

泡沫图像含有的噪声是进行分割处理的障碍, 通过面积重构开闭运算等预处理[6]降低噪声的影响。图2是泡沫灰度图像纵切面示意图, 灰度较低的像素点构成气泡的边缘, 每个气泡的边缘具有不同的灰度值, 构成谷底分布特点。

2.1 谷底检测算法

设f (i, j) 表示矿物泡沫图像在像素点 (i, j) 的灰度值, i=1, 2, …, M;j=1, 2, …, N。如图3所示, 定义边缘检测模板X有3×3个子模板Xm, m=0, 1, …;8表示子模板的序号, 且X0位于模板的几何中心。每个子模板包含k×k个像素amn, k=1, 2, 3, …;n=0, 1, …, (k×k-1) 。

设g (i, j) ∈{0, 1}表示像素 (i, j) 的状态, g (i, j) =0表示边界像素, g (i, j) =1表示非边界像素。定义g0° (i, j) 表示f (i, j) 在0°的状态, undefined为子模板Xm的平均灰度值, undefined。在点 (i, j) 的0°、45°、90°、135° 4个方向分别进行灰度值比较:

根据式 (1) 的逻辑规则确定气泡边界。其中t为阈值, t太大, 导致边缘不连续或丢失;t太小, 导致边缘太粗或者伪边缘, 因此t合适的取值大小是算法的关键。

2.2 适应度反馈微粒群优化谷底检测阈值

针对传统的边缘检测算法的阈值选取问题, Kapur J N等提出一维直方图的最大熵法[9], 但是泡沫图像的信噪比较低, 一维最大熵阈值分割的效果不佳。Abutaleb A S提出二维最大熵法搜索阈值[10], 能够有效地抑制噪声, 但运算速度慢、复杂性高, 很难应用于实时处理。

阈值优选的本质可以看作目标函数极值问题的求解, Pai P Y等采用遗传算法动态获取最优的分割阈值[11]。笔者针对标准微粒群算法 (Standard Particle Swarm Optimization, SPSO) 容易早熟, 并且惯性权重ω线性递减导致进化后期算法收敛速度明显下降[12]的问题, 采用适应度反馈的形式, 将惯性权重ω和加速因子c1、c2设置为全局最优点适应度的函数:

其中F (Gk) 是算法第k次迭代所得的全局最优点适应度, α=1/F (G1) , n∈ (1, 2) , 一般n取值为1.5即可。对粒子进行更新操作:

其中k=1, 2, …, m为迭代次数, 惯性权重ω根据迭代次数线性递减, 加速因子c1和c2取值为2, r1和r2是均匀分布于[0, 1]之间的两个随机数。

由式 (2) 、 (3) 可见, 如果全局适应度很大, 粒子距离全局最优点会很远, 因为ω和c数值较大, 所以粒子以较大的飞行速度探索整个解空间;反之, 当粒子接近全局最优点时, 因为ω和c数值较小, 粒子以较小的移动步长开发局部解空间。

定义泡沫图像的背景和目标分别为:

其中t为分割阈值, pi表示图像中灰度级i出现的概率, undefined, 其模糊划分熵[13]为:

undefined (5)

其中undefined。

当HT取得最大值时, 对应的阈值就是最佳阈值, 记为t*, 因此选择适应度函数为:

undefined (6)

令Pi、Pg分别表示当前第i个粒子经历的最优点和全局最优点, 则采用FFPSO算法优选t的步骤如下:

a. 初始化种群规模M、终止条件, 为每个粒子随机产生一个位置Xi和速度Vi, i=1, 2, …, M;

b. 按照式 (6) 计算粒子的适应度f (Xi) ;

c. 更新个体极值和全局极值;

d. 若满足终止条件, 则Pg对应的位置就是最优阈值取值, 否则转步骤e;

e. 按式 (2) 计算ω和c1, c2;

f. 按式 (3) 更新粒子的速度和位置, 返回b。

其中步骤c的具体过程为:

2.3 泡沫图像分割结果

对适应度反馈微粒群优化谷底检测的矿物泡沫边界进行细化和滤波, 删除孤立点。图4是对图1泡沫图像采用不同分割方法的处理结果。从中可见, 利用阈值分割算法[14]分割泡沫图像很难确定气泡的边缘信息, 更无法合理地统计出泡沫的个数和面积。采用Vincent提出的经典分水岭分割法[15], 易受干扰信号影响, 造成过分割和欠分割。

对分割后的图像进行像素标定得到气泡的实际面积, 并以与气泡区域具有相同标准二阶中心矩的椭圆的离心率描述气泡形状特征。图5是泡沫大小和形状的统计分布直方图, 利用极大似然法进行gamma拟合, 直方图的包络曲线为gamma拟合效果, 可见泡沫大小服从gamma分布, 将泡沫离心率向量X对数化以提高其对称性, 证明泡沫形状也服从gamma分布。泡沫形态特征的统计分布参数见表1。

2.4 泡沫图像分割效果评估

笔者采用一种区域均匀化测度[16]方法评价分割效果, 该方法无需先验分割图像, 且评判更加客观, 具体计算方法为:

undefined (7)

式中 c——阈值数目;

Rj ——第j个气泡区域;

N ——泡沫图像的像素总数;

fi ——像素i的灰度级;

μj ——第j个气泡区域的灰度均值;

fmax ——泡沫图像的最大灰度值;

fmin ——泡沫图像的最小灰度值。

显然, u数值越大表明分割效果越好。表2是采用文献[9]的阈值分割法, 与标准的谷底检测及笔者提出的适应度反馈微粒群优化的谷底检测方法比较, 可知笔者所提方法更加优越。

3 结束语

自适应前景提取 篇3

随着多媒体信息的日益膨胀,有效地对多媒体数据进行内容分析和摘要变得愈发重要。体育比赛精彩片段的自动提取即为研究的热点之一[1,2,3,4,5,6]。利用这一功能,用户可以从大量数据中方便地获取比赛中的重要事件(如足球比赛的进球)。目前,精彩片断提取问题仍然没有很好地解决,其中的关键困难在于如何将底层的声学/视觉特征和高层的特定事件联系起来。为解决这一问题,目前广泛采用的方法是引入一个描述语义关键字的中间层[1,3]。常用的中间层语义关键字包括摄像机模式(远景/近景)、镜头位置(前场/中场)、解说是否兴奋、哨声、掌声等。中层关键字的检测精度直接影响了整个系统的性能。本文重点研究兴奋解说这一重要的中间层关键字。这一研究成果被用于一个达到领先水平的体育视频精彩片断检测系统中[5,6]。

兴奋解说被认为是最明显和可靠的指示精彩片断的中间层关键字之一[2,3,4]。一段兴奋的解说通常会对应体育比赛中一个较为重要的片断。兴奋解说提取的方法一般可以分为两类:基于学习的和基于规则的。基于学习的方法[2,3]使用训练数据建立产生式模型,如高斯混合模型(GMM);或直接训练分类器,如支持向量机(SVM),来实现对兴奋解说的提取。基于规则的方法通常利用简单的声学特征(能量、基音等)和一些简单的门限得到兴奋解说[4]。一般而言,基于学习的方法的性能高于基于规则的方法,而基于规则的方法通常复杂度低、实现简单。

在实际使用中,基于学习的检测方法的性能经常受到训练与测试数据失配的影响。如何克服失配成为一个重要的问题,而这一问题在体育比赛视频中尤为突出。体育比赛中的音频构成非常复杂,包括解说声音、背景音乐、来自观众的噪声(掌声、笑声等)。另外,在录制过程中加入的自动增益控制(AGC)进一步增加了问题的复杂性。另一个重要的问题是,现有的兴奋解说检测[2,3,4]大多假设兴奋语音的持续长度较长,忽略了时间很短但兴奋度很高的片断,而这些短的片断可能表征了重要的事件。例如,在足球比赛中,短而兴奋的解说可能表示远射或严重犯规,这些事件不应该被忽略。

考虑到上述的问题,我们提出了一种基于GMM和无监督、自适应的兴奋解说检测方法,进而提取出体育比赛的精彩片断。其主要思想是:首先利用训练得到的初始模型对测试数据进行分类,而后利用对应类的测试数据更新模型,达到减少训练与测试数据失配的目的,提高分类的灵敏度和精确度。我们对足球比赛视频的实验结果验证了提出方法的有效性。

1 兴奋解说的检测

1.1 兴奋解说和普通解说的建模

从语谱图上可以较容易地观察到兴奋语音和普通语音的区别(如图1所示)。兴奋语音和普通语音的差别主要表现为以下三点:

1)兴奋语音的基音明显升高;

2)兴奋语音的能量较大;

3)相比普通语音,兴奋语音的能量分布更趋于高频段(2000Hz-3000Hz)。

尽管如此,简单地使用基音、能量以及能量分布只能滤除明显非兴奋的语音部分,而不能作为可靠的检测兴奋语音的手段。首先,有多种原因可能导致基音升高,如惊讶、疑问等。其次,体育比赛中语音受到自动增益控制和背景噪声的影响,其能量和能量分布很难准确估计。有鉴于此,我们使用高斯混合模型(GMM)来描述兴奋语音和普通语音。GMM可以更为准确地刻画兴奋语音和普通语音条件下的特征的联合概率分布,进而有效提高模型的稳健性。

一个D-维矢量x的GMM分布定义为:

这里N(x|μ,∑)表示均值为μ,协方差矩阵为∑的高斯分布。K表示GMM中高斯分量的个数,ωk是第k个高斯分布的权重。我们用λ表示GMM中的所有参数。给定一个训练向量集,GMM参数的最大似然估计可以由EM算法[7]得到。

1.2用MAP更新GMM

我们用λe,λn分别表示兴奋语音和普通语音对应的GMM模型参数。λe,λn的初始模型可以从标注好的训练数据中训练得到。系统运行时的测试数据是与训练数据有差别的,属于训练集外数据。我们希望λe,λn能匹配测试中的音频环境。然而,在高度变化的体育比赛中,初始模型一般很难满足这种条件。

为了补偿训练和测试中的失配,我们利用最大后验(MAP)方法更新λe,λn。由于在测试中,兴奋语音和普通语音的准确划分无法得到,我们使用根据初始模型进行初分类得到的假定的兴奋语音和普通语音更新初始模型。

高斯混合模型的MAP估计可以用式(3)、式(4)求出[8]。在本文的具体应用中,我们只更新GMM中各个高斯分量的均值和协方差矩阵,保持权重不变。

在这里,T为训练数据的帧数,P(k|xt)表示第k个高斯分量的后验概率。α1,α2是用于控制更新的程度的经验参数。

1.3 兴奋解说检测

假设我们已经利用手工标注的数据训练出兴奋语音和普通语音的初始GMM模型。这两个模型描述了兴奋语音和普通语音的平均统计特性,提供了检测中的先验知识。兴奋语音的检测过程可以用图2表示。

由于兴奋语音的特性主要体现在浊音区域,所以无论是在训练还是在测试中,我们仅取语音浊音段数据进行处理。输入的音频流首先经过VAD(Voice Activity Detection)滤除非浊音部分。接着,从得到的浊音段提取特征并缓存。

经过特征提取,无监督的模型更新开始。首先使用λe和λn初始模型计算各个浊音段的对数似然比得分,利用得分将浊音段分为3类:

A)和兴奋语音很接近的浊音段(得分很高的浊音段);

B)和普通语音很接近的浊音段(得分很低的浊音段);

C)其它浊音段。

接着,我们利用类A和B中的浊音段对应的特征,根据式(3)和式(4)分别更新λe和λn,得到更新后的模型λe*和λn*。

最后,我们利用更新后的模型再次计算各个浊音段的似然比得分,提取出得分最高的片段。经过合并,输出兴奋语音段。

1.4 利用兴奋解说进行精彩片断提取

从得到的中间层关键字出发,准确地推断出高层事件目前依然是一个有待解决的问题。在本文中,我们使用一种简单的后处理方法,根据兴奋解说直接提取精彩片断。文献[5,6]介绍了本文方法在更复杂的体育视频精彩片断检测系统中的应用。

具体来说,我们根据得到的每个兴奋语音片段的对数似然比得分和持续时间,利用式(5)进行打分。

式中,llr是对数似然比得分,τ是该片断的持续长度。通过调整参数β,我们可以选择偏向短时间但兴奋度高的语音(增大β)或者偏向长时间但兴奋程度一般的语音(减小β)。最后,得分最高的前N个片断被选出,经过合并后作为兴奋片断的候选。

2 实验

我们进行了两个实验来分别测试算法用于兴奋解说检测和精彩片断提取的有效性。在实验中,我们选用19维特征,其中包括14维MFCC特征,4维的基音特征(基音、一阶差分、二阶差分、置信度)以及一维能量。其中MFCC特征能够有效地描述语音的能量分布,基音和能量则是兴奋语音的重要特征。

初始的兴奋语音模型由手工标注的8个半场足球比赛中的兴奋语音训练得到。初始的普通语音模型由广播数据(Hub4-NE)[9]训练得出。每个GMM模型含有128个高斯分量。

2.1 兴奋解说检测实验

我们从训练集外,随机选取了6个半场足球比赛来测试兴奋解说检测的准确度。在每个半场中,系统自动选取15或20个兴奋语音片段。经过人工检验,正确检出的片段为62(15候选)和87(120候选),正确率为68.9%和72.5%。具体的结果如表1所示。兴奋解说的判别由几个实验者共同决定。

对于表1中较差的结果(如第一个半场比赛),经过进一步的检验,这一性能的下降主要是背景噪声过强和解说鼻音过重造成的。考虑到测试数据是随机抽取的,其中的解说者、解说风格、比赛类型以及激烈程度各不相同,本文算法取得了较为令人满意的性能。

2.2 精彩片段提取实验

为了测试精彩片段提取系统的整体性能,我们从训练集外,随机选取了13个半场球赛,共包含23个进球。为了评价的一致性和测试方便,我们仅使用是否包含进球作为精彩片段识别正确的标志,并统计召回率。值得注意的是,这种评价方式忽略了除进球外的其它重要事件,因而得出的只是系统性能的保守估计。实验的结果如表2所示。在实验中,我们从每个半场中提取出的候选精彩片段数固定为5和10,结果表明在10候选的情况下,87%的进球被成功召回。

我们还测试了无监督自适应对系统性能造成的影响,结果列入表2。经过无监督自适应后,对5候选和10候选的情况,召回率分别提高9.5%和4.4%。

摘要:提出一种通过兴奋解说检测进行体育比赛精彩片断提取的方法。该方法包括训练和检测两个阶段:在训练中,基于训练数据对兴奋语音和普通语音分别建立高斯混合模型GMM(Gaussian Mixture Model),构成初始的分类器;在集外检测中,首先使用最大后验方法MAP(Maximum A Posteriori),基于测试数据对初始模型进行无监督自适应,进而利用更新后模型构成分类器识别体育解说的兴奋部分,经进一步处理得到精彩片断。将该方法用于足球比赛视频,实验表明,该方法能够召回87%的进球。引入无监督自适应有效地减少了由干训练数据与测试数据失配造成的性能下降,提高了兴奋解说检测和精彩片段提取的性能。

关键词:体育比赛精彩片断提取,无监督自适应,高斯混合模型

参考文献

[1]Xiong Z,Radhakrishnan R,Divakaran A,Huang T S.Effective and effi- cient sports highlights extraction using the minimum description length criterion in selecting GMM structures.ICME Conference,2004.

[2]Bui Y,Gupta A,Acero A.Automatically extracting highlights for TV baseball programs.ACM Multimedia Conference,2000:105-115.

[3]Coldefy F,Bouthemy P.Unsupervised soccer video abstraction based on pitch,dominant color and camera motion analysis.ACM Multimedia ??Conferenco,2004.

[4]Tjondronegoro D,Chen Y P,Pham B.Sports video summarization using highlights and play-breaks.Proc.of the 5th ACM SIGMM international workshop on Multimedia information retrieval,2003.

[5]Wang T,Li J,Diao Q,Hu W,Zhang Y.Semantic event detection using conditional random fields.International Workshop on Semantic Learn- ing Applications in Multimedia,2006.

[6]Li J,Wang T,Hu W,Sun M,Zhang Y.Soccer highlight detection using two-dependence bayesian network.ICME Conference,2006.

[7]Dempster A P,Laird N M,Rubin D.Maximum-likelihood from incom- plete data via the EM algorithm.Journal of the Royal Statistical Socie- ty,Series B,39,1977.

[8]Gauvain J L,Lee C H.Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains.IEEE Trans.Speech Audio Proc.,1994,4(2):291-298.

自适应前景提取 篇4

时频分析是提取齿轮振动信号非平稳特征的有力工具。典型的时频分析方法有小波变换[1,2,3]、经验模式分解[4,5,6]和局部均值分解[7]。但是这些方法都存在着各自的局限性。Yan等[7,8]提出了一种新的时频分析方法———频率切片小波变换 (frequency slice wavelet transform, FSWT) 方法。FSWT通过引入频率切片函数使傅里叶变换具有实现时频分析的功能, 能灵活地实现信号的滤波与分割。段晨东等[9]将FSWT应用到炼油厂齿轮箱摩擦故障特征提取中, 取得了较好的效果。研究发现, 齿轮振动信号中的噪声会降低FSWT的频率分辨率, 当信号的信噪比较低时, FSWT不能有效地提取出故障特征, 因此, 在对强噪环境下的齿轮振动信号进行FSWT前要进行降噪。

王宏超等[10]将最小熵解卷积 (minimum entropy deconvolution, MED) 用于轴承故障信号的降噪中, 取得较好的效果。McDonald等[11]对MED进行改进, 提出了最大相关峭度解卷积 (maximum correlated kurtosis deconvolution, MCKD) 方法, 并将其用于齿轮故障诊断, 取得了良好的效果。研究发现, 采用MCKD对齿轮振动信号进行降噪, 降噪效果受有限冲击响应滤波器阶数的影响较大, 实际过程中往往采用试验的方法来确定阶数, 既费时间, 又得不到最佳的降噪效果, 为此提出了自适应的MCKD方法, 用于确定最优的滤波器阶数。

本文针对采用FSWT提取强噪环境下的齿轮故障特征的不足, 将自适应MCKD用于齿轮振动信号的降噪处理, 然后再对降噪后的信号进行FSWT和故障特征提取。应用实例验证了本文方法的有效性。

1 频率切片小波变换原理

1.1 频率切片小波变换[9?10]

设信号f (x) ∈L2 (R) , 若p (t) 的傅里叶变换存在, 其频率切片小波变换为

其中, σ为尺度因子, σ≠0;λ为能量系数, λ≠0。σ、λ为常数或为频率ω、u和时间t的函数。在FSWT中是母小波函数p (t) 的频域形式, 小波函数是其在频域伸缩平移的结果, 的共轭函数。

从式 (1) 可以看出, FSWT拓展了短时傅里叶变换的功能, 通过引入尺度因子和平移因子, 获得了可变的时频窗, 通过引入使传统的傅里叶变换具有了时频分析的功能。

采用Parseval方程, 可以将式 (1) 转换到时域:

1.2 频率切片小波变换尺度因子的选择

不失一般性, 令λ=1, 根据Morlet小波变换原理, σ∝ω, 因此, 设尺度因子σ=ω/κ, κ>0, 则

把κ (u-ω) /ω引入频率切片函数, κ与ω、u无关, 用它来调节变换对频率或时间的灵敏度, 称之为时频分辨率数。则式 (2) 变为

受Heisenberg不确定性原理的限制, 不可能同时在时域和频域得到高的分辨率。因此, 变换中采用折中方案估计σ和ω, 对分析信号引入2个评价系数。一是频率分辨比率:

另一个是幅值期望响应比率υ (0<υ≤1) , 通常υ取等。

如果f (t) =eiω0t, 且其FSWT满足则

若脉冲函数f (t) =δ (t-t0) , 且其FSWT满足则

当切片函数时, μ=1/2, 由式 (7) 和式 (9) 可以得到

要使式 (10) 、式 (11) 成立, 则

1.3 频率切片小波变换的逆变换

FSWT实现了信号的时频分解, 通过逆变换重构原始信号, 它的逆变换为

2 最大相关峭度解卷积原理

为了提取信号中的周期性故障特征, 最大相关峭度解卷积方法通过选取一个有限冲击响应滤波器使周期已知信号滤波后的相关峭度最大[11], 从而达到突出信号中的冲击成分的目的。

相关峭度定义为

式中, yn为周期信号;T为信号yn的周期;f为滤波器系数矩阵;L为有限冲击响应滤波器的长度;M为移位数。

使用高阶移位相关峭度解卷积方法能够提高故障检测能力, 增大移位数能增大这种算法解卷积的序列脉冲数。M一般可以取1~7。M>7时, 此迭代方法会因超出浮点指数的范围而降低计算的精度, 故本文取M为7。

为了选取一个最优滤波器, 从而使KM (T) 最大, 令

求解得到滤波器的结果:

通过迭代方式求滤波器参数的过程如下: (1) 确定周期T、移位数M和滤波器的长度L; (2) 计算输入信号x的xT、x0x0T、 (x0x0T) -1; (3) 计算滤波后的输出信号y; (4) 根据y计算αm和β; (5) 计算新滤波器的系数矩阵f; (6) 如果滤波前后信号的ΔKM (T) >ε (ε为用来控制迭代终止的较小正数) , 跳到第 (3) 步继续循环, 否则停止递归。

3 自适应MCKD方法的实现

MCKD降噪要获得最佳的降噪效果, 需要确定最优的滤波器的阶数L, 其关键问题是如何衡量降噪效果的好坏。改变L的值, 采用峭度、近似熵和样本熵等参数来衡量MCKD降噪的效果, 其结果并不好。本文参考文献[12], 提出一种通过计算齿轮振动信号信噪比的方法来衡量MCKD降噪的效果, 即对齿轮振动信号采用MCKD降噪, 对降噪后的信号采用Hilbert变换提取包络信号, 计算包络信号的功率谱, 定义包络信号的信噪比Rsnr:

式中, X (f0) 为包络信号的功率谱;N (f0) 为背景噪声谱, 是在故障特征频率 (转频) f0附近频段内的平均值, 信噪比越大, 降噪效果越好。

自适应MCKD滤波的实现步骤如下: (1) 初始化滤波器的阶数L的值, 取L的值为2, 确定故障特征频率, 计算出周期T; (2) 设置参数L的搜索范围及搜索步长, L的搜索范围为2~1000, 搜索步长为1; (3) 采用MCKD降噪, 对降噪后的信号采用Hilbert变换提取包络信号, 然后计算包络信号的功率谱, 最后计算包络信号的信噪比Rsnr, 将最大Rsnr对应的滤波器阶数L的值作为最优滤波器的阶数; (4) 以最优L作为滤波器的阶数对信号进行滤波。

4 仿真信号分析

为了验证自适应MCKD提取冲击脉冲的能力并将其与MED的提取能力作比较, 对频率为100Hz的冲击信号进行分析。未加噪信号的时域波形如图1所示。

对图1的仿真信号添加高斯白噪声 (信噪比为-1dB, 其时域波形和频谱如图2所示) 。由图2可知, 信号的冲击特征不明显。对加噪信号进行MED降噪后的时域波形和频谱如图3所示, 从中可以看出, MED成功地提取出周期冲击脉冲。对加噪信号进行自适应MCKD降噪后的时域波形和频谱如图4所示, 从中可以看出, MCKD降噪效果更加明显。

为了比较两种方法对强噪声环境中故障特征的提取能力, 对图1中的信号添加高斯白噪声 (信噪比为-7.5dB, 信号的时域波形和频谱如图5所示) 。由图5可知, 信号的冲击特征完全被强噪声淹没。对加噪信号进行MED降噪后的时域波形和频谱如图6所示, 从中可以看出, MED未能提取出周期冲击脉冲特征。

对加噪信号进行自适应MCKD降噪, 最优滤波器的阶数为260, 降噪后的时域波形和频谱如图7所示, 由图知, 自适应MCKD成功地提取出了周期冲击脉冲。

以上分析表明, 自适应MCKD降噪能力优于MED的降噪能力, 特别是适用于强噪环境下信号特征的提取。

5 自适应MCKD与FSWT的特征提取方法

将自适应MCKD和FSWT相结合, 应用到齿轮故障诊断中, 主要包括以下步骤:

(1) 对齿轮故障信号x (t) 进行自适应MCKD降噪;

(2) 在选择合适的频率切片函数^p (ω) 之后, 针对降噪后的信号特性估算频率分辨比率η及幅值期望响应比率ν, 计算初步的时频分辨系数κ;

(3) 选择频率切片区间为信号的Nyquist分析频带, 对信号进行FSWT变换, 求取信号的时频分解系数W (t, ω, κ) , 得到信号在全频带的时频幅值分布图和时频分布图;

(4) 根据时频分布图上的能量分布, 选取切片区间的信号分量进行分割, 采用FSWT变换求取信号在切片区间的细化时频分布和时频幅值分布, 采用FSWT逆变换获得切片区间的重构信号, 从而提取故障特征。

6 齿轮故障诊断实例

在齿轮箱故障模拟实验台上采集齿轮故障振动信号。实验台由控制台、变频电机、减速器、增速器和磁粉制动器等组成, 如图8所示。齿轮箱输入轴齿轮齿数z1=81, 输出轴齿轮齿数z2=16, 在输入轴齿轮的一个齿上设置崩齿故障, 崩齿长度占齿宽的1/3, 将振动加速度传感器垂直安装在轴承座上, 测取垂直方向的振动信号, 采样频率为2048Hz。输入轴转频fr1=4Hz, 输出轴转频fr2=20Hz。

1.变频电机2.行星减速器3.光电传感器4.加速度传感器5.增速箱6.加速度传感器7.磁粉制动器

图9为崩齿故障振动信号的时域波形和频谱图, 从时域波形图中难以分辨出信号的具体特征;频谱图中, 频率成分比较复杂, 故障特征被背景信号淹没。对齿故障振动信号采用FSWT进行分析。根据式 (10) , 取η=0.025, 则κ=33.3, 故频率切片小波变换中可以选取参数:

频率切片区间取0~1010Hz, 图10为该信号的FSWT结果, 从图10可以看到能量最强的频带为940~1010Hz。

按式 (17) 选取FSWT的参数, 频率切片区间取940~1010Hz, 图11为该信号的FSWT细化分析结果。从图11不能识别出齿轮故障特征。以上分析表明由于噪声的影响, FSWT分析不能成功地提取出齿轮信号的故障特征。

对崩齿故障振动信号进行自适应MCKD降噪, 最优滤波器的阶数为448, 降噪后的时域波形如图12所示。对降噪后的信号进行FSWT分析, 频率切片区间取0~1010Hz, 图13所示为该信号的FSWT结果。从图13可以看到能量最强的频带940~1010Hz。按式 (17) 选取FSWT的参数, 频率切片区间取940~1010Hz, 图14为该信号的FSWT细化分析结果。从图14a可以看出等间距的色块, 间隔为0.25s;从图14b可以观察到等间距的冲击, 间隔为0.25s。0.25s正好是转频4Hz的倒数, 齿轮每转动一周, 冲击4次, 表明齿轮存在局部故障, 与实际相符。

为了对比分析, 对齿轮故障信号进行MED降噪, 按式 (17) 选取FSWT的参数, 频率切片区间取940~1010Hz进行分析。图15所示为降噪后的齿轮故障信号的FSWT细化分析结果, 从图15可以看到等间距的冲击, 间距约为0.25s, 但冲击没有图14中的明显。以上分析表明, 基于MCKD与FSWT的时频分析方法效果更好。

7 结论

(1) 提出了一种自适应的MCKD降噪方法, 解决了MCKD最优滤波器的阶数难以确定的问题。

(2) 自适应的MCKD比MED降噪能力更强, 特别适合强噪环境下齿轮故障信号的特征提取。

(3) 对齿轮故障信号进行频率切片小波变换分析前, 进行自适应的MCKD降噪处理能突出故障特征, 提高频率分辨率。

参考文献

[1]孙海亮, 訾艳阳, 何正嘉.多小波自适应分块阈值降噪及其在轧机齿轮故障诊断中的应用[J].振动工程学报, 2013, 26 (1) :127-134.Sun Hailiang, Zi Yanyang, He Zhengjia.Multiwavelet Denoising with Adaptive Block Thresholding and Its Application in Gearbox Diagnosis of Rolling Mills[J].Journal of Vibration Engineering, 2013, 26 (1) :127-134.

[2]Jiang Yonghua, Tang Baoping, Qin Yi, et al.Feature Extraction Method of Wind Turbine Based on Adaptive Morlet Wavelet and SVD[J].Renewable Energy, 2011, 36 (12) :2146-2153.

[3]胡劲松, 杨世锡, 吴昭同, 等.基于经验模态分解的旋转机械振动信号滤波技术研究[J].振动、测试与诊断, 2003, 23 (2) :96-99.Hu Jingsong, Yang Shixi, Wu Zhaotong, et al.The Study of EMD Based Filtering Technique for Vibration Signals in Rotating Machinery[J].Journal of Vibration, Measurement&Diagnosis, 2003, 23 (2) :96-99.

[4]程军圣, 于德介, 杨宇.Hilbert-Huang变换在齿轮故障诊断中的应用[J].机械工程学报, 2005, 41 (6) :102-107.Cheng Junsheng, Yu Dejie, Yang Yu.Application of Hilbert-Huang Transform Method to Gear Fault Diagnosis[J].Chinese Journal of Mechanical Engineering, 2005, 41 (6) :102-107.

[5]张亢, 程军圣, 杨宇.基于自适应波形匹配延拓的局部均值分解端点效应处理方法[J].中国机械工程, 2010, 21 (4) :457-462.Zhang Kang, Cheng Junsheng, Yang Yu.Processing Method for End Effects of Local Mean Decomposition Based on Self-adaptive Waveform Matching Extending[J].China Mechanical Engineering, 2010, 21 (4) :457-462.

[6]钟先友, 曾良才, 赵春华, 等.基于BITD和同态滤波解调的齿轮故障诊断方法[J].中国机械工程, 2013, 24 (20) :2775-2780.Zhong Xianyou, Zeng Liangcai, Zhao Chunhua, et al.A Gear Fault Diagnosis Based on BITD and Homomorphic Filtering Demodulation[J].China Mechanical Engineering, 2013, 24 (20) :2775-2780.

[7]Yan Z, Miyamoto A, Jiang Z.Frequency Slice Wavelet Transform for Transient Vibration Response Analysis[J].Mechanical Systems and Signal Processing, 2009, 23 (5) :1474-1489.

[8]Yan Z, Miyamoto A, Jiang Z, et al.An Overall Theoretical Description of Frequency Slice Wavelet Transform[J].Mechanical Systems and Signal Processing, 2010, 24 (2) :491-507.

[9]段晨东, 高强.基于时频切片分析的故障诊断方法及应用[J].振动与冲击, 2011, 30 (9) :1-5.Duan Chendong, Gao Qiang.Noval Fault Diagnosis Approach Using Time-frequency Slice Analysis and Its Application[J].Journal of Vibration and Shock, 2011, 30 (9) :1-5.

[10]王宏超, 陈进, 董广明.基于最小熵解卷积与稀疏分解的滚动轴承微弱故障特征提取[J].机械工程学报, 2013, 49 (1) :88-94.Wang Hongchao, Chen Jin, Dong Guangming.Fault Diagnosis Method for Rolling Bearing’s Weak Fault Based on Minimum Entropy Deconvolution and Sparse Decomposition[J].Chinese Journal of Mechanical Engineering, 2013, 49 (1) :88-94.

[11]McDonald G L, Qing Zhao, Zuo Ming J.Maximum Correlated Kurtosis Deconvolution and Application on Gear Tooth Chip Fault Detection[J].Mechanical Systems and Signal Processing, 2012, 33:237-255.

上一篇:相关表现下一篇:手机移动办公系统