抗噪性能(共3篇)
抗噪性能 篇1
0 引言
1965年Cooely-Tukey在《计算数学》杂志上首次发表快速傅立叶变换(FFT)算法[1],FFT和频谱分析很快发展成为机械设备故障诊断、振动分析、无线电通信、信息图象处理和自动控制等多种学科重要的理论基础。然而由于时域截断和频域的离散化,经FFT得到的离散频谱,频率、幅值和相位均可能产生较大误差。因此,频谱分析的结果在许多领域只能定性而不能精确地定量分析和解决问题,大大限制了该技术的工程应用,特别是在机械振动和故障诊断中的应用受到极大限制。所以要对离散频谱分析得到的各频率成分参数进行校正,以得到较为精确的频率、幅值和相位估计值,由此国内外学者提出了各种离散频谱校正方法[2]。
对于单频率谐波信号(间隔较远的多频率信号)进行离散频谱校正,目前国内外有四种对幅值谱或功率谱进行校正的方法:1)比值校正法(内插法);2)能量重心校正法;3)F F T+F T连续细化分析傅立叶变换法;4)相位差法,分为时移法、改变窗长法和综合法。对于无噪声的谐波信号来说,如果忽略负频率成分的影响,其中比值法、相位差法的校正值都是准确解,能量重校正法是近似度很高的精确解,而FFT+FT连续细化分析傅立叶变换法的精度则依赖于细化倍数。
离散频谱校正在无噪声的情况下能够取得很高的频率估计精度,但是在实际的工程应用中,不可避免的存在着噪声,影响离散频谱分析的精度。因此,研究噪声对离散频谱校正方法估计精度的影响,提高各离散频谱校正方法的抗噪能力具有重要的意义。2002年朱利民等对时移相位差法的特例—时移点数L为离散频谱分析点数N,进行了深入分析[3]。2004年齐国清等分析了噪声对插值校正估计精度的影响[4]。
本文将从各离散频谱校正方法的算法原理出发,着重分析由于算法本身的原因(注:并不研究由于噪声过大,导致谐波信号引入噪声后,校正方法失效的情况),为进一步改进各校正方法的抗噪性能打下基础。由于各校正方法的幅值和相位估计均依赖于频率参数的估计,因此,这里只研究频率估计的精度。
1 离散频谱校正方法的抗噪性能分析
以高斯白噪声背景下的谐波信号,对各离散频谱校正方法的抗噪性能进行分析。设以采样频率fs实际采集得到的N点观测信号为:
其中
为一谐波信号,其幅值、归一化频率(以fs/N归一)和初始相位分别为A、v和α。y0[n]为噪声序列,表示测量的不确定度,这里设其为一均值为0、方差为σ2的高斯白噪声序列,则观测信号的信噪比(SNR)为
设归一化的谐波信号频率值v=k+δ(4)
其中k为最接近于v的整数,表示谐波信号本身最大幅值对应的谱线号,则有归一化频率偏差量δ∈[-0.5,0.5],各离散频谱校正方法的抗噪性能都与这一偏差量有关。
1.1 比值校正法
内插法是最早开始研究的一种离散频谱校正方法,现已系统地发展成为比值校正法。这种方法利用谐波信号主瓣峰顶附近二条谱线的窗谱函数比值,即主瓣内最大幅值Ak和次大幅值Ak'(k'表示Ak'对应的谱线号)的比值,建立一个以归一化频率校正量δ为变量的方程,再解出δ,进而进行频率、幅值和相位校正。解方程求归一化频率偏差的方法是多样化的,直接导出公式的方法称比值公式法[5],利用迭代求解的方法称为比值迭代公式法,用搜索求解的方法称比值峰值搜索法[6]。
在没有噪声干扰的情况下,如果不考虑频率间的干涉,比值校正法由于本身是一个理论解,估计精度非常高。但是在引入噪声后,比值校正法最关键的是要正确的找到最大谱线号k和次大谱线号k',然后从中插值得到归一化频率的估计值,因此估计的精度依赖于k和k'的获得。对于k来说,当信噪比SNR足够大时,由于Ak足够大,因此总能被找到;但是当δ靠近0时,Ak'变小,其抗噪能力也相应变弱,容易在K的相反方向找到一个次大值谱线号,这时将导致插值方向的错误,使得估计结果错误。由于矩形窗的主瓣宽度只有2个频率分辨率,当δ趋近0时,Ak'也趋近0,其抗噪能力很差,很容易出现插值方向错误的情况,而加Hanning窗等加大了主瓣宽度,基本可避免这种插值方向错误的情况。
1.2 能量重心法
能量重心法是根据对称窗函数离散频谱的能量重心特性推导出的一种离散频谱校正方法,是一种适用于加各种对称窗的通用频谱校正方法[7]。在实际应用中,由于只能取主瓣内有限的几条谱线来进行计算,因此这种方法是一种精度较高的近似估计方法,其近似精度主要与加窗类型和归一化频率偏差量δ有关,具体可参见文献[7]中对常用窗函数能量重心校正法的误差分析。其中,由于矩形窗旁瓣大,泄露大,加矩形窗的能量重心法估计精度较低,而加Hanning窗等可减少泄露,可显著提高校正的精度。
由于能量重心法利用的是谐波信号的整体能量来进行校正,因此,只要高斯白噪声背景下的谐波信号信噪比足够大,这种方法都适用,所以这种方法的抗噪性能较稳定,其最终的估计精度主要取决于近似的精度。
1.3 FFT+FT法
FFT+FT谱连续细化分析傅立叶变换的实质是用FFT作全景谱,针对要细化的局部再用改进的连续FT进行运算,以得到局部细化精度极高的频谱[8]。这种方法可以在不增加采样长度的前提下,大大提高了频率分辨率,提高幅值和相位的计算精度。虽然与FFT方法相比速度下降了很多,但在现阶段微机速度飞速提高的基础上,采用分段细化的方式,增加的计算时间是可以接受的。
这种方法的估计精度取决于细化后的频率分辨力,分辨力越高,抗噪性能越好。
1.4 相位差法
相位差校正法有三种方法:时域平移法[9]、改变窗长法[10]和综合相位差法[11]。综合相位差法的做法是先取一段N点的时域序列,然后滞后L点再取M点作为第二段,再分别对这两段时域序列分别进行N点和M点的FFT分析,利用对应峰值谱线的相位差进行频谱校正。时域平移法可做为两段时域信号长度相等的特殊综合相位差法,而改变窗长法则可作为滞后点数L=0的特殊综合相位差法。下面从综合相位差法的原理来分析这三种方法的抗噪性能。
对于按式(2)生成的无噪声的谐波仿真信号,运用综合相位差法得到的最终相位差为:
然后得到归一化校正频率
需要注意的是,在实际算法中,经过FFT分析得到的相位都是在主值区间(-π,π],因此需要限定∆ϕ同样在这个主值区间内,这样才能够通过到主值区间的调整最终得到式(5)。由于归一化频率偏差δ的取值范围为[-0.5,0.5](不考虑最大幅值谱线找错的情况),这样为保证∆ϕ总是在主值区间内,要求
对于引入噪声后的信号,由于噪声对相位的影响,上式条件的满足并不能总保证∆ϕ+ξ(其中ξ为噪声对相位的影响)在主值区间内,这时综合相位差法仍然把其调整到主值区间来进行校正,就有可能出现估计错误的情况。因此,这时为了避免出现估计错误,应该让∆ϕ尽量不靠近主值区间的边缘,即需要β不接近于2。但是从另一方面来说,从式(6)来看,β越大,噪声引起的相位偏差ξ对校正结果的影响越小,这种方法的抗噪性能越高,事实上,如果知道归一化频率偏差β绝对值的确切范围|β|<δmax,可以让β在避免∆ϕ+ξ超过主值区间范围的情况下尽可能的接近于1/δmax来提高抗噪能力。
由以上分析进一步可得,对于M=N的特殊综合相位差法——时移相位差法来说,L/N越靠近1/(2δmax),抗噪能力越强,但出现估计错误的可能性越大;对于L=0的特殊综合相位差法——改变窗长相位差法来说,M/N越靠近1/δmax+1,抗噪能力越强,出现估计错误的可能性越大;
2 仿真验证
取A=1,α=π/3,γ=-6db,v按间隔0.02从123取到124,fs=1024,N=1024,按式(1)和式(2)生成仿真信号,对于每一个归一化频率均生成300个模拟信号,分别用加矩形窗和加Hanning窗的比值法、能量重心法和FFT+FT法进行频率估计,最后得到频率估计误差均方根值随归一化频率v变化的规律如图1所示。
取不同的时移点数L和窗长M得到第二段信号,用相位差法进行频率估计,得到频率估计误差均方根值随归一化频率变化的规律如图2所示。
由图1和图2可明显看出各离散频谱校正方法的抗噪性能同上述分析吻合。
3 结论
在没有噪声的情况下,现有的各种离散频谱校正方法的估计值都是精确解或高精度的近似解。但是在噪声的影响下,运用离散频谱校正方法进行参数估计的精度有所下降,甚至在某些情况下由于算法本身的原因,而使得校正失效。本文根据各离散频谱校正方法的原理和特点,系统的分析了各自的抗噪性能及其影响因素,可为实际工程应用中选用合适的校正方法和参数做如下参考:
1)若能估计归一化频率偏差的绝对值落在0.5附近,建议采用加矩形窗的比值校正法;
2)若能估计归一化频率偏差的绝对值落在0附近,为计算简单方便,可采用加Hanning窗的能量重心法;为提高估计精度,可采用相位差法,并可通过设置参数到一适当值进一步提高抗噪性能;
3)若不能估计归一化频率偏差的范围,建议采用加Hanning窗的能量重心法;也可设置参数为保守值,使用相位差法;如不考虑计算量的问题,可考虑不加窗的FFT+FT谱连续细化分析傅立叶变换法;
4)以上加窗情况指的是针对单频率信号或频率间隔较大的多频率信号而言,对于频率间隔较小的多频率信号来说均应加Hanning窗。
参考文献
[1]Cooley J.W.and J.W.Tukey.An algorithm for the machinecalculation of complex fourier series[J].Mathematics of Computation,1965,19(90):297-301.
[2]丁康,张晓飞.频谱校正理论的发展[J].振动工程学报,2000,13(1):14-22.
[3]Li-Min Zhu,Han-Xiong Li,H.Ding,You-Lun Xiong.Noiseinfluence on estimation of signal parameter from the pHasedifference of discrete fourier transeforms[J].MecHanicalSystems and Signal Processing,2002,16(6):991-1004.
[4]齐国清,贾欣乐.插值FFT估计正弦信号频率的精度分析[J].电子学报,2004,32(4):625-629.
[5]Thomas Grandke.Interpolation algorithms for discrete fou-rier transforms of weighted signals[J].IEEE Transactionson Instrumentation and Measurement.1983,32(2):350-355.
[6]余佳兵,史铁林,杨叔子.窗谱校正方法的实用峰值搜索算法研究[J].振动工程学报,1997,10(2):12-16.
[7]丁康,江利旗.离散频谱的能量重心校正法[J].振动工程学报,2001,14(3):354-358.
[8]刘进明,应怀樵.FFT谱连续细化分析的富里叶变换法[J].振动工程学报,1995,8(2):162-166.
[9]Ding Kang,Luo Jiangkai and Xie Ming.Time-shifting corr-ecting method of phase difference on discrete spectrum[J].Applied Mathematics and Mechanics.2002,23(7):819-827.
[10]Kay S A.Fast and accurate single frequency estimator[J].IEEE Trans ASSP.1989,37(12):1987-1990.
[11]丁康,钟舜聪,朱小勇.通用的离散频谱相位差校正方法[J].电子学报,2003,31(1):142-145.
抗噪性能 篇2
强噪声背景下微弱信号的检测广泛应用于工业故障诊断及通信信号接收等领域,对新技术研究及相关领域的发展具有重要的意义[1,2]。噪声对弱信号检测实现的影响是该领域中的一个重要课题。文献[3]讨论了高斯白噪声对弱信号混沌检测的影响,文献[4]主要研究了色噪声背景下微弱正弦信号的混沌检测方法,文献[5]研究了基于混沌相平面变化的微弱信号检测算法,实现了信噪比为-48 dB条件下微弱信号的检测。
应用混沌相平面检测算法对各种噪声条件下系统的检测性能进行了研究,对基于Duffing方程的混沌系统在白噪声、色噪声及脉冲噪声等各种噪声背景下的免疫性进行了仿真分析,为进一步探究混沌系统优良抗噪性能的机理,降低强噪声背景下可检测信号的信噪比门限提供了一定的依据和借鉴。
1 基于Duffing振子的正弦信号检测
混沌动力学系统主要有Duffing模型和Lorenz模型和Vanderpol模型等,其中Duffing方程研究的比较充分,在微弱信号检测领域应用广泛[6]。Holmes型Duffing方程标准形式如下:
式中,γcos(ωt)为系统内置周期策动力,k为阻尼比,-x+x3为非线性恢复力。
基于Duffing方程构成的混沌系统对周期策动力的强度γ有强烈的敏感性,在阻尼比固定的情况下,随着周期性策动力的强度变化,系统将历经同宿轨道、分叉轨迹、混沌状态、临界状态以及大尺度周期状态等,表现出丰富的非线性动力学特性[7]。其中,系统在混沌态对应的相图为一定区域内永不封闭的轨迹,在大尺度周期态对应的相图为封闭曲线,二者截然不同,因此,常将系统由混沌状态到大尺度周期状态的转变作为微弱信号检测的依据,如图1所示(图2均略去了过渡状态点)。
弱信号检测原理:将待测信号作为作为Duffing方程周期策动力的摄动,当系统周期策动力γ=γd时,系统处于临界状态。但是此时若有满足特定条件的信号加入到系统中,即使信号的幅值极小,系统也将发生相变由混沌状态进入大尺度周期状态,然后根据系统是否发生相变来判定信号的存在与否及被测信号幅度、频率等物理量。
2 噪声影响分析
如果在微弱信号检测中不考虑噪声的影响,系统在混沌态和大尺度周期态下的相平面轨道都是平滑的。但是,事实上在任何信号检测过程中,检测过程中的噪声都是不可避免的。
假设n(t)为检测过程中的噪声,添加噪声n(t)后,系统检测方程为:
分析表明,Duffing系统在外加周期驱动力时的平衡态为双曲平衡态。假设系统检测方程在临界状态下的解为x,用Δx(t)表示噪声对系统检测输出x(t)的微小扰动,其中,假设噪声的均值为0,方差为σ2,经整理得出噪声存在的情况下系统的随机微分方程形式[8]:
相比系统检测输出x(t),Δx(t)的值很小,所以略去Δx(t)的高阶量,得到式(3)的矢量微分方程形式:
其中,主要矢量分别表示为:
, (5)
, (6)
。 (7)
该矢量微分方程存在一个满足某个初始条件的唯一的解,可以表示为:
X(t)=Φ(t,t0)X0+∫
式中,Φ为系统的状态矩阵。由于主要对系统稳态时的性能进行分析,而式(10)第1项为暂态解,将很快衰减为0,对于第2项,考虑其统计特性,有:
E[X(t)]=∫tt0Φ(t,u)E[N(u)]du=0, (9)
ΓXX(u,v)=∫
其中,
。 (11)
ΓYY(u,v),ΓXX(t,s)分别表示输入噪声在时刻u和v,输出噪声在时刻t和s的相关函数矩阵。在式(11)中,令u=v,t=s,t0=-∞,可以得到噪声在某时刻的均方值:
由上可以得出结论:噪声并没有对系统原轨迹产生根本的影响,只是使系统的运行轨迹变得不再光滑,在理想轨迹附近有波动,即噪声使系统输出相轨道上布满了“毛刺”,其粗糙程度的大小由方差决定,但总体均值为零。另外,由于上述推导过程中对噪声分布的问题并没有进行限定,因而理论上,对于任意分布的平稳随机噪声,基于Duffing方程的混沌系统都具有良好的免疫性能。
3 仿真实验分析
(1)实验1 混有白噪声的正弦信号检测
调整系统的内置周期策动力强度为γ=0.80,使系统处于临界状态,加入高斯白噪声并逐渐增加噪声强度,发现系统仍将处于混沌状态,如图2(a)所示;加入混有高斯白噪声的正弦信号,待测信号强度为0.01 V,系统将跃变到大尺度周期状态,如图2(b)所示;由于噪声方差较小,系统相轨迹比较平滑,“毛刺”几乎看不到;继续增大白噪声强度,系统轨道将变粗,“毛刺”增多,如图2(c)所示;当噪声增加到一定强度时,噪声干扰将占据主导地位,由系统相图将无法判别系统是否发生相变进入了大尺度周期状态,如图2(d)所示。
系统可检测信号的信噪比为:
其中,图2(b),图2(c),图2(d)的信噪比分别为:-26 dB,-36 dB和-46 dB。进一步的仿真实验表明,基于Duffing方程的混沌检测系统的检测门限可达-42 dB。
(2)实验2 混有色噪声的正弦信号检测
采用高斯白噪声通过低通滤波器的方法产生色噪声,其中滤波器为四阶低通滤波器。系统传递函数为:
其中,通过调节滤波器参数k,可以实现对噪声功率的控制。归一化的通带截止频率为ωp=0.15 Hz,阻带起始频率为ωs=0.2 Hz,调整滤波器参数k,使得噪声功率变为2.115×10-4 W,待测正弦信号强度为0.01 V,加入正弦信号后系统的相轨迹跃变到大尺度周期状态,此时系统实现检测信号的信噪比为SNR=-29.633 0 dB。
(3)实验3 混有脉冲噪声的正弦信号检测
该节对混有脉冲噪声的正弦信号进行检测实验,噪声的脉冲峰值分别为Vp=0.4,0.6,0.8,1.0,1.2,1.4,对受到不同强度噪声污染的正弦信号进行检测实验,待测信号强度为B=0.01 V。检测结果表明,Vp=1.0时,系统相轨迹仍然非常平滑,Vp=1.2时,系统相轨迹在脉冲噪声峰值处有相应的大幅度冲击相应。故系统可检测信号的最大信噪比表示为:
(4)实验4 混有复杂噪声的正弦信号检测
对复杂噪声条件下混沌检测系统的抗噪性能进行实验分析。这种噪声在低振幅部分具有高斯特性,在高振幅部分具有近似于指数正态分布特性,总体可以表示为背景高斯白噪声和脉冲噪声的叠加,噪声模型为:
n(t)=Aem(t)sin[w0t+θ(t)], (16)
式中,m(t)为零均值实平稳高斯过程,方差为σ
定义偏差Vd为:
Vd=10σ
通过控制Vd的大小来模拟噪声成分的变化。Vd较小时,噪声中的脉冲成分所占的比例较小,噪声主要表现高斯特性;而当Vd的值增大时,噪声中的脉冲成分所占的比例也会随之变大,此时,脉冲成分集中了噪声的大部分能量,将对检测系统的性能产生显著的影响。
Vd=2和Vd=10时的噪声分布分别如图3和图4所示,由仿真可以明显地看出2种情况下噪声分布的差别(仿真实验中固定常量A=1)。
仿真实验结果表明,Vd较小时(Vd=2),噪声主要表现高斯特性,只有极少脉冲成分。采用式(15)的信噪比计算公式,系统可实现的信号检测门限为SNR=-41.693 3 dB;Vd较大时(Vd=4.5),噪声中的脉冲成分将继续增加,系统可实现的信号检测门限为-39.385 1 dB;继续增大Vd值(Vd=7),噪声中的脉冲成分增加,系统可实现的信号检测门限为-25.342 2 dB;
Vd非常大时(Vd=10),噪声将以脉冲成分为主,系统可实现的信号检测门限为-17.605 5 dB。
4 结束语
研究了基于Duffing方程的微弱信号检测方法,采用混沌相平面检测算法对不同噪声条件下算法的抗噪性能进行了分析,理论分析和仿真实验均表明基于Duffing方程的混沌检测算法对白噪声、色噪声、脉冲噪声及混叠噪声等都具有较强的免疫性和较低的信噪比工作下限,相对于传统的时域信号处理方法具有很大的优势。对基于Duffing方程的微弱信号检测方法的抗噪性能进行分析,为进一步探究混沌系统优良抗噪性能的机理, 降低强噪声背景可检测信号的信噪比门限提供了一定的理论依据和借鉴。混沌检测方法优异的抗噪性能,使得它在弱信号检测及相关领域极具发展前景。
参考文献
[1]李爽,徐伟,李瑞红.利用随机相位实现Duffing系统的混沌控制.物理学报,2006,55(3):1049-1054.
[2]CHEN H,VARSHNEY P K,KAY S M,et al.Theory ofstochastic renson-ance effect in signal detection:part1-dixed detectors.[J].IEEE transactions on SignalProcessing,2005,55(7):3172-3185.
[3]兀旦辉,李秦君,杨萍.噪声对基于Duffing方程弱信号检测的影响研究.计算机测量与控制,2010,18(1):61-63.
[4]李月,杨宝俊,石要武.色噪声背景下微弱正弦信号的混沌检测[J].物理学报,2003,52(3):526-530.
[5]张浩然,侯楚林.基于混沌相平面变化的微弱信号检测[J].计算机测量与控制,2010,18(12):2718-2720.
[6]WANG Xu-yi,FEI Rui-wang.Detection of Amplitude-varied Weak Signal by Gene-tic Adaptive StochasticResonance Algo-rithm[C]∥ICEMI,2007(2):626-630.
[7]叶青华,黄海宁,张春华.用于微弱信号检测的随机共振系统设计[J].电子学报,2009,37(1):216-220.
抗噪性能 篇3
说话人识别中关键问题之一是提取有效的特征参数。不同的特征参数对说话人识别会产生不同的效果,直接影响识别系统的识别率及鲁棒性。目前常见的特征参数有线性预测系数(LPC)、线性预测倒谱参数(LPCC)、线谱对参数(LSP)和Mel频率倒谱系数(MFCC)等。然而,在实际的说话人识别系统中,容易受到噪声的干扰,尤其是在低信噪比下,系统的识别率大大下降[1,2,3]。
对语音信号进行预处理能有效地去除信号中的噪声,尤其是在低信噪比的环境下,语音信号的预处理能对识别效果产生很大的影响。文献[4]采用改进谱减法能更好地去除背景噪声和残余噪声,但在低信噪比环境下对语音信号的可懂度损伤较大。文献[5]中采用听觉掩蔽效应能对语音消噪,但掩蔽门限的估计会存在很大误差。文献[6]中Gammatone滤波器组是基于人耳耳蜗听觉模型建立的,该滤波器组能很好地模拟基底膜的分频特性,能进一步抑制背景噪声,提高说话人语音信号的可懂度,但是不能提高语音信噪比。
任何信号都是由一些不同的基本模式分量组成的。每个模式可以是线性的或非线性的,一个信号可以包含多个基本模式分量,如果模式之间相互重叠,则形成复合信号。语音信号作为非平稳复合信号,分析时需要使用具有局域性的基本量和基本函数。一般采用的方法有:短时傅里叶变换、Gabor展开、小波变换等。这些方法的共同点就是采用具有有限支撑的震荡衰减波形作为基函数,然后截取一小段时间区域内的信号进行相似性的度量,而且这些基函数大多数预先选定的。而经验模态分解(EMD)方法则得到了一个自适应的广义基。基函数没有统一的表达式,而是依赖信号本身,是自适应的,不同的信号经分解会得到不同的基函数,与传统的分析工具有本质的区别。基于EMD的时频分析方法能够定量地描述频率和时间的关系,准确地刻画信号的非平稳特性,实现对时变信号的完整分析[7]。RLS自适应滤波器可以按事先设定的准则自动调节本身的传递函数以达到所需要的输。本文将EMD和RLS相结合作为语音信号预处理器,将带噪信号经过预处理后进行EMD分解,分解得到时间尺度不同的基本模式分量(IMF)。这些IMF会按照频率从高到低的顺序排列,然后对噪声主要存在的IMF通过递推最小二乘算法(RLS)构造的滤波器滤波,自适应地最优逼近噪声分量,然后重构出信号,以此达到去噪的效果。最后通过Gammatone滤波器组,提取特征参数GFCC用于此说话人识别。在低信噪比的背景下,该方法的识别率和鲁棒性均高于普通增强处理的说话人识别系统。
1 EMD与RLS的语音抗噪算法
1.1 EMD分解算法
基本模式分量须满足两个条件:
(1)在整个语音信号数列中,信号极值点数量与过零点数量相差小于等于1。
(2)在任意一段时间内,信号上包络线、下包络线确定的平均值为0[8]。
对于给定信号x(t),EMD分解方法[9]如下:
(1)检测x(t)所有局部极大、极小值点,进而分别确定x(t)的上、下包络线。再取两条包络线的平均值组成新序列m(t)。
(2)从x(t)中减去m(t),得:h1(t)=x(t)-m(t),如果h1(t)不满足条件(1)和(2),则把h1(t)作为新的x(t),重复步骤(1)和步骤(2),直到h1(t)满足条件,记:c1(t)=h1(t)。
(3)从x(t)中分解出第一个基本模式分量c1(t)后,减去c1(t),得到剩余值序列:r1(t)=x(t)-c1(t)。
(4)把r1(t)作为新的原始信号重复上述操作,依次可得c1(t),c2(t),…,cn(t),最后分解剩余一项rn(t)。记:
对分解的过程设定一个停止条件:当cn(t)或rn(t)小于预设值Sd时,则分解停止,即:
式中,T表示信号的时间长度;hk-1(t)和hk(t)为筛选基本模式过程中的两个连续处理结果的时间序列。Sd的值通常取0.2~0.3[10]。图1和图2给出了一段受高斯白噪声污染的语音信号(-5 d B),及这段加噪信号经EMD分解后的IMF分量。可以发现,噪声信号基本包含在高频的基本模式分量中。
1.2 RLS算法
RLS算法即“递推最小二乘法”[11],它是考察一个由平稳信号输入的自适应系统在一段时间内输出误差信号的平均功率,并使该平均功率达到最小作为自适应系统的性能准则。RLS算法的递推公式为:
式(3)说明在n时刻的最佳值v(n)可由n-1时刻的最佳值v(n-1)加一修正量得到,g(n)[d(n)-xT(n)v(n-1)]为修正量。其中xT(n)v(n-1)为根据n-1时刻的最佳加权和n时刻数据对d(n)之预测值。g(n)为比例增益系数,表达式为:
式中,λ为遗忘因子,它是小于1的正数,其变化对算法影响很大。算法的有效记忆长度用t来表示,t定义为:
因此,λ越小,对应的t越小,稳态误差就越大,这样对信号的非平稳性跟踪性能就越好。但是如果λ太小,t会小于信号每个平稳段的有效时间,因而就不能充分利用所有能够获取的采样数据,导致计算出的权矢量v(n)将会受到噪声的严重影响,对于平稳信号λ的最佳值为1。图3为自适应噪声消除器的结构图。
图3中带噪信号d(n)包括原始语音信号和噪声,x(n)为参考噪声输入。在实际工作过程中,此种自适应噪声消除器主要是完成d(n)中的噪声估计,使输出的噪声估计值y(n)尽可能接近d(n)中的噪声信号,然后从带噪信号中直接减去y(n),进而达到消噪的效果。
1.3 本文算法
针对几种典型的高频噪声,本文提出了一种将EMD和RLS结合作为预处理器的语音信号抗噪算法。在实验室环境下采用不同的噪声对语音信号加噪,然后用经验模式分解法(EMD)分解加噪后语音信号,进而得到时间尺度不同的IMF分量。这些IMF会按照频率从高到低的顺序排列,理论上分解后的绝大部分IMF分量中都会掺杂所加的噪声信号的分量。考虑到实验采用的噪声信号一般时间尺度小,频率相对较高,所以当用EMD方法分解带噪语音信号后,噪声信号主要分布在频率较高的IMF分量中。这样可以避免对带噪信号进行全频降噪处理,损害到一些无需处理的有用原始语音信号,而只需对高频IMF分量进行处理。因此,本文提出一种只对高频的IMF分量采用RLS自适应滤波器进行处理的算法,算法框图如图4所示。首先对带噪语音信号进行数字化、预加重、加窗分帧和端点检测等前处理。然后对处理后的信号EMD分解,对分解出的高频IMF分量(第1~m级)进行RLS处理,m一般取N/3。将处理后的IMF分量与未处理的低频IMF分量进(第m+1~N级)行叠加,重构增强后的语音信号。最后输入Gammatone滤波器组,提取特征参数GFCC,用高斯混合模型对语音信号识别。
2 Gammatone特征提取
2.1 Gammatone滤波器
Gammatone滤波器[12]最早应用于描述听觉系统脉冲响应函数的形状,后来应用于耳蜗听觉模型,用来模拟人耳听觉频率响应,其时域表达形式如下:
式中,k为滤波器增益,a为滤波器阶数,f为中心频率,ф为相位,b为衰减因子,该因子决定相应的滤波器的带宽,它与中心频率f的关系为:
由于Gammatone滤波器的时域表达式为冲击响应函数,所以将其进行傅里叶变换就可以得到其频率响应特性。不同中心频率的Gammatone滤波器幅频响应曲线如图5所示。
2.2 GFCC特征参数的提取
根据Gammatone滤波器的特性,准备将该滤波器应用到说话人识别系统中。将输入的语音信号通过一组Gammatone滤波器,进而语音信号由时域转换到频域。
这里采用一组64个的4阶Gammatone滤波器,其中心频率在50~8000 Hz之间。由于滤波器的输出保留原来的采样频率,按时间维度取响应频率为100 Hz、通道数为64的Gammatone滤波器。这样就产生了相应的帧移为10 ms,进而可以应用到短时间的语音特征提取中。当语音信号通过以上的滤波器时,输出信号Gm(i)的响应表达式为:
式中,N=64是滤波器的通道数,M是采样之后的帧数。
这样Gm(i)构成了一个矩阵,代表输入信号在频域的分布变化。这里采用类耳蜗图[13]来描述输入信号在频域的分布变化。与具有直观分辨率的语谱图不同,类耳蜗图在低频段的分辨率优于在高频段的分辨率。图6是一段纯净语音信号的语谱图和类耳蜗图。图7是一段加噪语音信号的语谱图和类耳蜗图。从图中对比可以看出,类耳蜗图的分辨效果更加清晰,能更好地反映语音信号的能量分布,尤其是在有噪声背景下,类耳蜗图的优势更突出,更能反映出语音信号的特性。因此,将对类耳蜗图进行下一步的分析。
将类耳蜗图的每一帧称为Gammatone特征系(GF),一个GF特征矢量由64个频率成分组成。但是在实际的说话人识别系统中,GF特征矢量的维度比较大,计算量较大。此外,由于相邻的滤波器通道有重叠的部分,GF特征矢量相互之间存在相关性。因此,为了减小GF特征矢量的维度及相关性,这里对每一个GF特征矢量进行离散余弦变换(DCT),具体表示为:
这里将系数Ci(j)称为GFCCs系数,在实际的说话人识别系统中,并非取全部维数的GFCCs系数。首先计算64维的γ-Tone滤波器系数矩阵的协方差矩阵和PCA转换矩阵,文献[14]证明,PCA的主方向就是协方差阵的特征值对应的特征向量。要将原向量降到目标维数,只需取最大特征值对应的特征向量组成PCA转换矩阵即可,根据主成分累计贡献率计算公式,其中λi为S的第i个特征根,按照累积贡献率不小于85%的准则,将64维降到26维。GFCC特征参数表示为:
3 实验结果与分析
实验所用的语音库是利用麦克风录制的,语音采用的是单声道,8 KHz的采样频率,16 bit量化。该语音库由20人录制的,每个人录制10段语音,时长分2、5和10 s不等,将每个人的4段语音作为训练样本集,另外6段语音作为测试样本集。混入噪声选自NOISEX-92标准噪声库[15]中的White噪声、Car噪声、Factory噪声,信噪比分别为-10、-5、0、5和10 d B。采用的识别方法是高斯混合模型(GMM),GMM的混合数是16。特征参数GFCC的提取采用64通道的Gammatone滤波器,实验数据表明,经过DCT变换后的GFCC参数,低26维系数占据了全部GFCC参数的主要特征信息,而高于26维的GFCC值都接近于0,提供的信息几乎可以忽略。因此本文采用26维GFCC作为特征向量,仿真结果如图8所示。
为了获得经本文算法处理后的语音的听觉主观感受,采取主观MOS评分法,接受10位听众的听觉感受测试。听众根据处理后语音的清晰度、可懂度和噪声情况综合给出评分,然后记录不同算法处理后的MOS均分,如表1所示。
从图8和表1中可以看出,本文算法的识别率和MOS评分要高于一般的语音去噪增强算法,不仅提高了信噪比,主观感觉到的噪声也明显降低,体现出了本文算法的优越性。
4 结语