量化编码

2024-11-17

量化编码(共5篇)

量化编码 篇1

一、引言

H.264是最新的视频编码标准,是目前图像通信研究领域的一个热点,它综合考虑了编码效率和网络传输,吸收了以往各种编码方案的优点,在语法结构、编码预测算法、数据变换等方面进行了很大的改进,使得其在低码率压缩、抗误码性及网络接入等性能上有了巨大的提高,必将成为视频压缩的重要标准。

现有的视频编码标准采用的都是基于变换的混合编码算法,变换将在空间域内以像素值形式表示的图像信息变换到变换域中,以变换系数的形式加以表示。显然,如果变换选择得当,所得的变换系数之间的相关性要明显小于原像素值之间的相关性,从而达到去除图像冗余度的目的。H.264相比于以前的视频编码标准的一个重要区别就是用4×4整数变换算法取代了传统的DCT变换编码算法,整数变换和量化可以通过16位算术加法运算完成,能够在不影响编码性能的前提下,有效地降低计算复杂度,更利于硬件实现,且避免了编码器和解码器间逆变换的失配问题[1,2]。本文详细分析了H.264的变换及量化的原理,并给出具体的实现方法。

二、H.264变换编码

变换编码是视频编码标准的一项最基本技术,用来消除图像的频域冗余[3],在以往的MEPG-1到MEPG-4及H.261,H.263都采用8×8的DCT作为基本变换。DCT的实质是通过线性变换X=H*x,将一个N维向量x变换为变换系数向量X。DCT的变换核H第k行第n列的元素定义为:

其中k=0,1…N-1,n=0,1...N-1,c0=,ck=1。由于DCT是线性正交变换,因此其反变换为x=HT*X。由于DCT的正反变换采用浮点计算,且H(k,n)的计算结果是无理数,因此在正反变换之间存在无法避免的舍入误差,即存在失配问题。而在帧间预测时,这咱由变换失配引起的舍入误差将被不断积累、放大,这将引起编码性能的迅速下降。

H.264不但在帧间编码使用了预测技术,而且帧内编码也使用了预测技术,因而它对预测残差变换前后的精度是非常敏感的。为了解决DCT变换的舍入误差,解决8x8块分割的变换不精确性,H.264协议标中采用的变换方式主要有3种[3]:(1)4×4的残差变换;(2)4×4的亮度直流系数变换;(3)2×2的色度直流系数变换。如图1所示。

2.1 4×4的残差变换

H.264对残差采用基于4×4块的变换编码,并使用了以整数为基础的空间变换,其优点在于:在编码器中和解码器中允许精度相同的变换和反变换,便于使用简单的定点运算方式,避免了浮点运算舍入问题造成的误差,从而避免了正变换和反变换的“失配”问题;变换的单位由原来8×8的块缩减到4×4块,运动物体的划分更为精确,这样,变换块尺寸的减少可明显减少变换引起的块边缘噪声,而且4×4变换核没有乘法操作,只需进行加法和移位运算,同时,变换比例系数被整合到量化器中,大大提高了运算速度。

设A为4×4的变换矩阵,则DCT变换可以表示为:AY=AXAT,其中:A={aij}(i,j=0,1,2,3),A矩阵中的每系数为:

令,并定义运算符“”表示两个矩阵对应系数相乘,则A可表示为:

其中:d=c/b(≈0.414),为了简化计算,取d=1/2,同时为了保持变换的正交性,对了进行修正,取,对矩阵C中第2行和第4行,以及矩阵CT中的第2列和第4列元素乘以2,相应的修改了矩阵E为Ef,以保持上式成立,得到如下变换公式:

这时C为正变换矩阵,Ef为正变换尺度调整矩阵,H.264将变换的Ef部分融合到量化过程中,变换的实际输出为(CXCT),实现过程中,上式的矩阵乘法运算改造成二次一维整数DCT变换,可以先对图像或其残差块的每行进行一维整数DCT,然后对经行变换的声的每列再应用一维整数DCT,每一次一维整数DCT变换可以采用蝶形快速算法,这样只需通过加法、减法及移位运算就可以完成变换过程。

2.2 4×4的亮度直流系数变换

当宏块的编码在16×16帧内模式下,此时整个16×16块的亮度分量是由相邻象素点预测得到。宏块的16个4×4块的直流分量组成一个4×4直流系数矩阵XD,这个矩阵的变换采用离散哈达马变换,即图1所示的变换2,其正变换公式为:

式中ZD是YD量化后的矩阵,在帧内编码的宏块里,大多数的能量都集中在直流系数上,这种变换有利于进一步去除4×4的亮度直流信号的相关性。

2.3 2×2的色度直流系数变换

一个宏块中,每种色度分量都有4个4X4的块。每个4X4的块都可看作4X4的残留变换。变换后的所有4X4块的直流系数组成2X2的块WD要在量化前做一次离散哈达码变换。其变换公式如下:

三、H.264量化实现

量化是在不降低视觉效果的前提下减少图像编码的长度,减少视觉恢复中不必要的信息,达到数据压缩的目的。H.264采用非均匀量化,支持52种量化步长,每个宏块的量化步长由量化参数QP决定,QP增加1,量化步长增加12.5%,QP增加6时,量化步长则增加1倍。H.264在高量化和低量化上进行了扩展,允许更广泛的量化水平,使得精确的量化成为可能,在码率和图像质量间达到折中。其量化公式如下:

Wij是矩阵(CXCT)中的转换系数,Qstep为量化步长,PF是矩阵Ef中的元素是尺度调整矩阵,取值为a2,ab/2,b2/4,其取值随着系数位置(i,j)的变化而变化,当位置为(0,0)、(2,0)、(0,2)、(2,2)是为a2,(1,1)、(1,3)、(3,1)、(3,3)为b2/4,其它位置为ab/2。为了将除法运算变成移位运算,利用量化步长随量化参数每增加6而增加一倍的性质,可以进一步简化。令qbits=15+floor(QP/6),floor(x)的功能是求不大于x的最大整数。MF=PF*2qbits/Qstep,则Zij=round(Wij×MF/2qbits),进而使用右移运算得到的量化公式如下:

其中f为偏移量,其作用是改善恢复图像的视觉效果,对于帧内预测图像f=2qbits/3而帧间编码宏块f=2qbits/6。MF由QP,QPstep及变换PF计算得出,并设置一个三维静态数组存放。

四、结束语

本文详细分析了H.264标准的变换及量化原理。H.264采用4X4的整数变换,消除了因浮点运算造成的漂移,通过加减及移位运算避免了因乘法运算的巨大运算量,提高了运算速度,并将尺度调整融合到量化过程,使得量化和变换具有更好的效果及更高的压缩效率。

参考文献

[1]T.Wiegand,G.J.Sullivan,G.Bjontegaard.etc.Overview of the H.264/AVC Video Coding Standard.IEEE Trans.Circuits Syst.VideoTechnol.,vol.13,pp.560~576,July2003

[2]毕厚杰,新一代视频压缩编码标准-H.264/AVC.北京:人民邮电出版社.2005

[3]Mathias Wien.Variable Block_Size Transforms for H.264/AVC.IEEE Trans.Circuits Syst.Video Technol,vol.13,pp.604~613,July2003

量化编码 篇2

关键词:视频编码,D-Q模型,广义高斯分布,柯西分布,拉普拉斯分布

随着视频技术的发展,一系列的视频编码标准相继出现,H.264/AVC是目前最成熟的视频编码标准。在视频编码过程中,码率控制和模式选择已经成为一个研究热点。码率控制即通过R-D模型来选择量化参数,分配编码比特。R-D模型通常包括R-Q模型和D-Q模型,本文主要对D-Q模型进行深入研究。

近几年来,一些学者专家基于DCT系数分布模型提出了许多D-Q模型。文献[1]基于柯西分布提出D-Q模型;文献[2,3]提出一种基于拉普拉斯分布的D-Q模型;文献[4]提出一种基于广义高斯分布的D-Q模型,文献[5]对基于柯西的D-Q模型进行了改进,文献[6]基于这些失真模型总结了其在率失真模型中的应用。面对这些主流的D-Q模型,有必要对其进行精确度和复杂度的比较,分析其优缺点,目的是在此基础上对D-Q模型加以改进。

1 主流的D-Q模型

本节将简单介绍目前几种主流的D-Q模型,包括基于拉普拉斯分布、柯西分布、广义高斯分布的D-Q模型。

1.1 基于拉普拉斯分布的D-Q模型

文献[2]中基于拉普拉斯分布提出了估计编码失真的方法,公式为

DC(Q)=β×SATDc(QQp (1)

式中:β是一个模型参数;p与编码帧类型有关。

1.2 基于柯西分布的R-Q模型

文献[1]根据柯西分布概率密度函数,通过理论推导简化了D-Q模型

D(Q)≈bQβ (2)

式中,参数b与编码帧熵值有关。

1.3 其他主流D-Q模型

文献[7]根据QPPSNR的关系推导出了一个新的D-Q模型

D=255210((lQΡ+b)/10)(3)

赵欣等人在文献[4]中提出了一个新的D-Q模型

D≈[d·Qstep2+r]>>(2·qbits) (4)

2 D-Q模型精确度分析

2.1 帧级D-Q模型精确度比较

本节通过实验对上述4种D-Q模型帧级精准度进行分析。Model SATD,Model Cauchy,Model MSW,Model GGD分别代表上节中公式(1)(2)(3)(4)的模型。由于篇幅限制,只给出了对Foreman和Bus序列的测试(笔者已经证实对其他序列的测试也有相同结果),如图1所示。

由图可见,Model GGD可以较好地估计出实际失真,但复杂度也是最高的,对于硬件实现是一个比较大的挑战。从上节中的4个公式也可发现,Model Cauchy的复杂度是最低的。

2.2 宏块级D-Q模型精确度比较

由于宏块级的D-Q模型对码率控制和模式选择而言非常重要,因此有必要对宏块级的D-Q模型进行研究,为了比较宏块级D-Q模型的精确度,笔者做了大量实验。如图2所示,横坐标表示用模型估计出的失真和实际失真的差值(error),纵坐标表示宏块的数目(nMB),在横坐标为0附近的时候,纵坐标的值越高,说明了该模型的精确度越高。该实验的测试环境是foreman和football序列,QP值为36。可见,在foreman序列中,基于柯西分布的D-Q模型精确度是最高的;在football序列中,Model Cauchy的精确度要略低于其他D-Q模型,但其复杂度最低。

3 改进后的D-Q模型

在对几种主流D-Q模型的精确度进行比较之后,下面将对基于柯西分布的D-Q模型加以改进,以提高其精确度。

如式(2)所示,基于柯西分布的D-Q模型中有两个参数——bβ,它的参数更新是根据前一帧相同位置块的实际失真来计算当前块的参数。众所周知,相邻帧里的宏块由于运动会发生位移,直接采用前一帧相同位置的宏块来计算当前参数会产生误差,因此,本文提出了一种基于运动补偿的D-Q模型,即通过补偿后的参考帧来预测当前块的模型参数。结果如图3所示,横坐标表示宏块实际失真和模型估计得出的失真的差值,纵坐标表示宏块个数,本实验的测试序列是foreman序列,图3a和图3c是原始柯西模型的结果,图3b和图3d是改进后模型的结果,可见改进后的模型明显要比原始模型的精确度要高。为了更加清楚地对这两个模型精确度进行比较,在表1中列出不同序列、不同QP下计算得到

error_rate=|distortion_a(i)-distortion_e(i)||distortion_a(i)|

式中:distortion_a(i)和distortion_a(i)分别代表实际失真和模型估计的失真。

4 结论

本文介绍了目前主流的几种D-Q模型,并且从宏块级和帧级进行了精确度的比较,在宏块级中,针对不同的序列,各模型有不同的性能,当视频运动信息比较少的时候,基于柯西分布的D-Q模型精确度较高,当视频运动比较复杂的时候,赵欣等人提出的模型精确度较高;在帧级中,公式(4)中的模型精确度较高。然后在基于柯西分布的D-Q模型基础上加以改进,提高了模型精确度。

由于D-Q模型的复杂度和数据依赖关系,在硬件中实现是一个较大的挑战。在以后的工作中,将重点研究适用于硬件实现的D-Q模型。

参考文献

[1]KAMACI N,ALTUNBASAK Y,MERSEREAU R M.Frame bit allocation for the H.264/AVC video coder via cauchy-density-based rate and dis-tortion models[J].IEEE Trans.Circuits Syst.Video Technol.,2005,15(8):994-1006.

[2]KWON D-K,SHEN Mei-yin,KUO C-C J.Rate control for H.264video with enhanced rate and distortion models[J].IEEE Trans.Circuits Syst.Video Technol.,2007,17(5):517-529.

[3]GUO Liwei.A novel analytic quantization-distortion model for hybrid

[4]ZHAO Xin,SUN Jun,MA Siwei,et al.Novel statistical modeling,analysis and implementation of rate-distortion estimation for H.264/AVC coders[J].IEEE Trans.Circuits Syst.Video Technol.,2010,20(5):647-660.

[5]HU Sudeng,WANG Hanli,KWONG S,et al.Rate control optimization for temporal-layer scalable video coding[J].IEEE Trans.Circuits Syst.Video Technol.,2011,21(8):1152-1162.

[6]马宏兴,张伶.H.264/AVC率失真优化技术综述[J].电视技术,2010,34(6):19-22.

量化编码 篇3

监控音视频编码是面向安全防范领域的新编码技术, 它的提出和发展一方面源自社会治安防控体系建设对电视监控的市场需求, 另一方面源自现有的音视频编码标准多针对广播电视网络等多媒体领域, 在监控场合直接采用表现出很大的不适应性。我国政府于2008年启动了国家标准《安全防范监控数字视音频编解码技术标准》 (Surveillance Video and Audio Coding, SVAC) 的制定工作, 并于2010年批准公布。目前相关监控产品已在推广中, 这对维护国家安定、保障公民生活安定, 打击预防犯罪具有重要意义[1,2]。

出于应用场合的特殊性, 为更好地对语音信号进行说话人可识别的保护, 减少语音编码失真对表征说话人个体信息的特征参数的影响, SVAC监控音频编码器在前端进行特征参数的提取和量化编码, 这是其与现有语音频编码器的主要差异。

特征参数量化编码后耗用码率较低, 存在一定的量化误差。目前这种误差和语音信号编解码后提取的特征参数误差缺乏定量的对比和分析, 本文对SVAC监控音频编码器的特征参数量化单元进行性能分析, 然后有针对性地设计了新码本。

1 SVAC监控音频编码器

图1是SVAC监控音频编码器的整体框架, 可分为并行的两路:音频编码和特征参数编码。输入信号经采样率转换后, 一路输出给音频编码模块, 利用异常事件器检测到的事件重要性控制编码码率, 另一路输出给特征参数编码模块, 进行特征参数的提取和量化编码。

特征参数编码模块中, 提取梅尔频率倒谱系数 (Mel-Frequency Cepstral Coefficients, MFCC) [3]进行编码, 提供两种编码模式:直接模式和预测模式 (图1的虚线) 。直接编码模式对提取MFCC特征直接量化编码;而预测编码模式则需要对音频编码器的码流进行解码得到重建信号, 对重建信号和原始信号分别提取MFCC特征, 使用重建信号MFCC特征作为原始信号MFCC特征的预测, 最后对预测残差进行量化编码[4,5]。直接编码模式码率为4.8kbps, 预测编码模式码率为3.2kbps。

2 MFCC量化与编码

SVAC音频编码器提取的特征量包括12阶的MFCC系数

i表示帧索引。此外还包括MFCC系数C (0) , 对数能量系数ln E (t) , 以及语音活动检测 (Voice Activity Detection, VAD) 标志位。特征矢量表示如下:

特征矢量y (t) 量化使用分裂的矢量量化[6,7,8]。14个系数 (c (1) ~c (12) , c (0) , ln E) 两个一组, 被分成7组, 每组都用独立的VQ码本进行量化, VAD标志位作为一个独立比特进行传输。矢量量化选择加权欧氏距离为量化失真度量尺度:

qi, i+1j表示码本Qi, i+1j的第j个码字, (Ni, i+1-1) 为码本大小, Wi, i+1为码本Qi, i+1j的加权矩阵, idxi, i+1 (t) 表示量化所得到的码本索引。

针对直接编码和预测编码两种模式, 矢量量化的码表相应分为两组, 这里以预测编码模式为例, 其量化码表分配情况如表1所示。可以统计所有子矢量耗用比特数总和为29, 再加上1个VAD标志位, 最多耗用30bit。码流复用前的识别特征参数打包, 再加上2bit的CRC校验和, 总共32bit, 实现了3.2kbps的特征参数编码 (单帧信号的时长为10ms) 。

3 量化器性能分析

对直接和预测两种模式下SVAC特征参数量化器性能进行测试分析, 实验素材包括多组48k Hz采样、16bit量化的单声道男女人声语音信号。这里只关注c (1) ~c (12) 的量化。

3.1 实验1

实验1关注SVAC直接编码模式下的量化失真和语音信号经中低码率编码后的编码失真对MFCC的影响, 为了方便比较, 语音编码器选择SVAC的语音编码, 码率分别选10.4kbps、16.8kbps和24kbps (其中包括了特征参数耗用的4.8kbps) 。

图2和图3分别是20帧信号的特征参数C3和C10比较曲线, 这里编码码率为10.4kbps。从图可见, 由低码率编解码重建的语音信号提取的MFCC曲线与MFCC真实值偏差较大, 而SVAC的MFCC量化值更接近真实值。其实SVAC编码器为宽带语音编码[9], 对于一些窄带编码器, 语音信号在编码中高频部分被直接截掉, 相应的特征参数也丢失, 这样的失真才更影响后端的识别工作。

再给出定量分析。用标准方差衡量MFCC失真值相对于真实值的误差估计, 定义如下:

其中, 是失真MFCC值, c (i, n) 是真实MFCC值, i是MFCC序号, 1≤i≤12, n代表帧索引, M是样本帧个数, 实验中对多组语音信号取6000个样本帧。

表2是多种情况下MFCC与真实值的误差统计, 相应曲线在图4中给出。可以看出, SVAC的MFCC量化误差明显低于语音信号经编码后的MFCC误差, 尤其码率越低, 编码后的MFCC的失真越严重。考察12个MFCC值, SVAC的C1到C4的量化误差相对大, 接近于24kbps编码时的MFCC失真, 尤其是C2, 误差甚至高于16kbps编码带来的MFCC误差, 这是由其相应码本大小不足引起的。C5到C10误差相对小, 对比各码率段编码带来的失真优势扩大, C10到C11的量化误差又稍微提升。

由实验1得出以下结论:首先, 语音信号编码对其特征参数带来影响, 码率越低失真越严重, SVAC为更好地支持识别工作, 在前端进行特征提取是必然设计。第二, SVAC直接编码模式下部分特征参数量化误差相对较大, 有的甚至超过语音信号编码失真带来的误差, 这导致在前端进行特征提取和编码失去意义。对它们的改进是新量化器的设计方向。

3.2 实验2

实验关注直接编码和预测编码两种模式下MF-CC的误差比较。预测模式编码率分别选10.4kbps、16.8kbps和24kbps。

图5是预测模式下的3种误差与直接模式的误差比较。可以看出, 预测模式中, 语音信号编码率越高, MFCC误差越小, 并且3种码率下的误差与直接模式的误差相近, 特别是24kbps时, 预测模式的误差要略优于直接模式。

下面分析其原因:预测模式的差值编码提高了编码增益, 同时, 码率的降低又增加了量化误差, 相互抵消, 最终整体编码效果应和直接模式接近。

由实验2得出如下结论:SVAC特征参数编码中, 预测模式3.2kbps编码性能与直接模式4.8kbps量化性能相近, 即编码器通过增加复杂度的代价, 获得了更高的增益。

4 新码本设计

对直接编码模式下的特征参数设计新量化码本[10,11]。依据实验1的结果, (C1, C2) 和 (C3, C4) 耗用比特增加2bit, 其它特征参数增加1bit。如直接编码模式下C1和C2在原有的分裂矢量量化中, 码本大小为64, 即耗用6bit, 新码本增加到8bit, 大小为256。

首先确定失真测度, 沿用第3节提及的加权欧氏距离表征误差的度量尺度。每一对特征参数用多组语音信号的20000个样本进行训练, 码本设计采用经典的LBG算法[12], 它是一种递推算法, 从一个事先选定的初始码本开始迭代, 直到系统性能满足要求或不再有明显的改进为止。以欧氏距离计算两个矢量畸变时的LBG算法具体实现步骤如下:

①设定码本和迭代训练参数:训练矢量X的集合为S, 码本尺寸为J, 算法最大迭代次数为L, 畸变改进阈值为δ。

②设定初始化值:初始码本的J个码字的初始值为Y1 (0) , Y2 (0) , …, YJ (0) ;畸变初值D (0) =∞, 迭代次数初值m=∞。

③假定根据最近邻准原则将S分为J个子集S1 (m) , S2 (m) , …, SJ (m) , 即当X∈SJ (m) 时, 下式应成立:d (X, Yl (m-1) ) ≤d (X, Yi (m-1) ) , i, i≠l。d () 为失真测度。

④计算总畸变:。计算畸变改进量ΔD (m) 的相对值。计算新码本的码字。

⑤如果δ (m) <δ, 则转入⑦, 否则转入⑥。

⑥如果m

⑦迭代终止, 输出Y1 (m) , Y2 (m) , …, YJ (m) 作为码本的码字。

LBG算法开始迭代前必须先确定一个初始码本, 这里采用分裂生成法, 步骤如下:

①求出S中全体训练矢量X的质心作为初始码本的码字Y1 (0) 。

②利用一个较小的阈值矢量ε将Y1 (0) 一分为二, 即:

以Y1 (1) '和Y2 (1) '为新的初始码本, 利用LBG算法进行迭代计算, 求得新码本Y1 (1) 和Y2 (1) 。

③重复上面的循环, 即将Y1 (1) 和Y2 (1) 各分裂为二, 得:

再以Y1 (2) '、Y2 (2) '、Y3 (2) '和Y4 (2) '为新的初始码本, 利用LBG算法进行迭代, 求取新质心, 如此继续。设所需码本码字数J=2r, 则共需做r轮上述的循环, 直至聚类完毕, 此时各类的质心就是所需的码字。

图6是利用新码本和旧码本对特征参数直接量化后与其真实值的误差比较曲线, 实验素材和方法同实验1和实验2。可以看出, 用新码本量化, 所有特征参数量化误差减小, C1至C4的改善最明显, 新码本设计收效。

5 结束语

SVAC监控音频编码器在前端提取MFCC进行量化编码, 以防止语音编码失真引起MFCC失真, 影响后端的说话人识别, 而前端MFCC的量化器也存在量化失真, 有必要对两种失真进行统计比较, 为MF-CC量化器的改进方向提供支持。本文对量化器性能进行了实验分析, 得出的结论是:SVAC在前端进行MFCC提取是必然设计, MFCC的预测模式虽然编码码率低, 但编码性能与直接模式相近。同时, 直接编码模式中, 部分MFCC量化误差较大, 本文为此有针对性地设计了新码本。

对新码本设计做出以下说明:本文的量化改进只以减小所有特征参数的量化失真为准则, 考虑它们对识别的不同贡献, 依据其识别权重决定不同的量化策略更为合理, 这是以后的研究方向。

参考文献

[1]陈朝武, 郅晨, 张跃.SVAC标准技术创新及其在视频监控联网系统中的作用[J].警察技术, 2011, 4:62-65.

[2]蔡韶华.关于SVAC标准技术优势及其应用的探析[J].中国安防, 2012, 10:86-88.

[3]Hossan M A, Memon S, Gregory M A.A novel approach for MFCC feature extraction[C].ICSPCS’10 4th Annual IEEE.13-15 Dec.2010:1-5.

[4]Wang Chen, Miao Zhen-jiang, Meng Xiao.Differential MFCC and Vector Quantization Used for Real-Time Speaker Recognition System[C].CISP’08 Congress on, 27-30 May 2008:319-323.

[5]张晶, 范明, 冯文全, 等.基于MFCC参数的说话人特征提取算法的改进[J].语音技术, 2009, 33 (9) :61-64.

[6]李凤莲, 张雪英, 王子中, 等.码书分类重排矢量量化方法及其应用[J].清华大学学报:自然科学版, 2013, 53 (6) :893-897.

[7]Xuan Hou, Research of model of Quantum Learning Vector Quantization Neural Network[C]//Electronic and Mechanical Engineering and Information Technology (EMEIT) , 2011 International Conference on, 2011:3893-3896.

[8]Bouttefroy P L M, Bouzerdoum A, Beghdadi A, et al.Multi-resolution Mean-Shift Algorithm for Vector Quantization[C]//Data Compression Conference (DCC) , 2010:523.

[9]赵力.语音信号处理[M].北京:机械工业出版社, 2009.

[10]陈善学, 张艳, 吴立彬.用于LBG初始码书设计的改进PNN算法[J].重庆邮电大学学报:自然科学版, 2012, 24 (1) :50-54.

[11]Zhou Di, Wang Hong-hui, Zhang Zhuan-xia, et al.Double order hybrid optimum codebook design for speaker recognition[C].Electrical and Control Engineering (ICECE) , 2011 International Conference on, 2011:4464-4467.

量化编码 篇4

关键词:线谱对频率,LSF参数量化,FFT

1 线谱对频率(LS F)

线谱对频率(Linear Spectral Frequency:LSF)在语音编码中起着十分重要的作用。LPC分析(Linear Prediction Coder:线性预测分析)就是去除语音信号的短时相关性。在获得LPC参数后,就应该将LPC参数传递到解码端。解码端获得LPC参数后,构成LPC合成滤波器。

但是,实验表明LPC参数的量化特性和插值特性都非常糟糕。量化后的LPC参数不能够保证它构成的LPC合成滤波器的稳定性。所以,可以采用反射系数、对数面积比、反正弦的变化的参数来量化LPC参数。但是,迄今为止,最好的也是最广泛应用的是线谱对参数或线谱对频率量化。本文主要讨论线谱对频率量化。

去掉z=±1这两个零点:

G1(z)、G2(z)的阶数分别是2M1和2M2,它们与阶数P的关系是:

LSF参数就是G1(z)、G2(z)的根。它们的性质有:(1)G1(z)、G2(z)的所有根都位于单位圆上。

(2)G1(z)、G2(z)的根在单位圆上相互交错,并满足如下关系:

{wi}i=1,2…P被定义为LSF参数。LSF参数可以用弧度表示,也可以用频率形式表示:

LSP参数是LSF参数的余弦形式,表示为:

LSF参数具有非常好的量化特性和内插特性,可以保证从量化后的LSP参数获得的LPC合成滤波器稳定。

2 LS F参数的量化

论述LSF参数量化的标志性论文是参文[1]。在这篇文章中,K.K.Paliwal和B.S.Atal详细的论述了LSF参数量化的各个方面。

首先要进行的是量化后的语音谱和未量化的语音谱的比较,所以定义谱失真测度如下:

通过谱失真可以制定LSP透明量化的标准:

(1)平均谱失真接近1dB

(2)没有大于4dB的谱失真的帧

(3)2~4dB的谱失真的帧数小于2%

如果满足以上3个条件,那么进行的LSF量化就是透明的。重构的语音信号与原始语音没有听感上的任何差别。现在的问题是如果直接计算谱失真,需要很大的计算量,参考文献[1]中也没有提出如何进行。

作者采用以下的方法来进行谱失真的求取。

我们可以通过求h(n)的傅氏变换求得A(ejw),实际实现的时候,采用2*N点(N=128,256)的FFT,即得

在谱失真测度中的积分元素为:

作者认为这样通过FFT求取的谱失真测度的方法应该是一个比较好的解决方法。这样的快速算法也可用于后述的感觉加权因子的求取从而节省运算量。

在参考文献[1]中,B.S.Atal等人提出了感觉加权的LSF参数量化方法。进行LSF量化时,采用加权欧拉距离如下:

其中fi和f赞i是测试和参考LSF矢量。ci和wi是对应第i维LSF的权重。ci是固定权重,wi是自适应权重。

自适应权重wi考虑的语音的谱特性。在语音信号中,如果某个频率点谱幅度比较大的时候,它对语音的听觉效果就起着较大的作用。反之,作用就小。所以,在量化器中引入自适应权重wi在每一帧考虑语音的谱幅度,它的变化是随着每一帧语音的谱幅度的不同而不同的,所以称为自适应权重。

另外,人们对语音的低频成分较高频成分敏感。所以采用固定权重ci,在低频成分权重较高而在高频成分权重较低。ci不随着每一帧语音的不同而不同,所以称为固定权重。

r是一个常数,范围是0

在参考文献[1]中,采用加权欧拉距离作为测度,对LSF参数进行量化。B.S.Atal等人将10维的LSF参数分裂成4维和6维两个子矢量(考虑到对整个10维的LSF量化需要占用非常大的运算量和存储空间),每个子矢量用12bit量化,整个量化器采用24bit量化,最后能够达到透明量化的目标。

需要指出的是虽然在众多参考文献中,谱失真测度的计算公式是对[0,Fs]来进行的:。但是,只有在参考文献[1]中,有一处提到了实际进行计算的范围是[0,3000HZ]。这个问题很好理解,因为在采用加权欧拉距离作为量化测度时,固定权重ci针对不同维的LSF是不同的,在高频成分ci的值比较小。这就是说,量化器可以在高频端允许较大的误差。这样,如果计算谱失真,在整个频段内进行计算,那么就等于等同的考虑各个频率点。这与量化时,固定权重的选择相违背。所以,在实际计算谱失真时,进行计算的范围是[0,3000HZ]。

由于自适应权重wi=[P(fi)]r,for 1≤i≤10的计算需要比较大的运算量,所以就产生了各种变相的权重。这些权重也能够比较好的反映语音信号谱的特性,但是毕竟不如wi=[P(fi)]r精确。

3 结束语

LSF在语音编码中具有非常重要的地位。本文提出的过FFT求取的谱失真测度的方法应该是一个比较好的解决方法。这样的快速算法也可以用于后述的感觉加权因子的求取从而节省运算量。

参考文献

[1]K.K.Paliwal and B.S.Atal,“Efficient vector quantization of LPC parame-ters at 24 bits/frame,”IEEE Trans.Speech and Audio Processing,vol.1,no.1,1993.3-14.

[2]ITU-T Recommendation G.723,“Dual rate speech Coder for multimedia communications transmitting at 5.3&6.3 kbit/s,”1996.

量化编码 篇5

关键词:矢量化编码,缺陷跟踪,语音,数据采集

0 引言

发音在留学生汉语学习及交流中起着举足轻重的作用, 如何对汉语学习者的发音做出科学、有效的评价一直是语音评价研究的热点, 而数字化的语音则是评价的主体和前提基础。近年来, 国内对汉语语音识别、语音评价系统做了大量研究, 主要成果如下:袁毅、吴晨[1]提出了柔性可扩展体系结构非特定人语音识别系统的框架模型, 验证了在该模型指导下所开发出的语音识别系统的实用性和稳定性;施伟[2]提出了对外汉语教学中的发音自动评价系统, 通过分析输入语音数据, 提取语音特征并与参考标准进行匹配比较, 由评分机制根据相似程度大小给出相应的评价;施剑等人[3]提出了一种基于USB2.0 接口芯片ISP1581, 并采用FPGA芯片EP1C3T144 实现麦克风阵列语音数据采集的方法。 就以上研究而言, 大部分停留在理论和实验甚至停滞阶段, 对语音数据的采集原则、方法都未做深入研究, 目前还没有一套针对留学生的、稳定性、扩展性较好的汉语数据采集范程及对应的汉语语音数据采集系统。

另外一方面, 在老挝, 学习汉语者越来越多, 汉语教学在老挝形成不断发展的态势[4]。 本文作者提出的基于老挝留学生发音的汉语语音评价体系[5]是一个全方位衡量和评价老挝留学生汉语语音习得程度和质量高低并且反馈发音指导建议的智能化系统, 可用来提高老挝留学生汉语发音正确率, 使其能更好地掌握汉语发音方式、方法。虽然该体系提供了评价老挝留学生汉语语音的操作机制和基本方法, 但未对语音数据采集做进一步研究, 制约了语音评价系统的开发进程和老挝留学生的汉语语音学习和交流, 本文就针对其汉语语音数据采集原则、过程、基本方法做了探索。

1 数据采集的基本原则

对于老挝留学生来说, 汉语语音数据采集起来较为困难, 它不同于其它领域中的数据采集。首先, 老挝留学生汉语发音偏误类型繁多, 偏误产生过程中带有较多的母语“ 负迁移”现象, 难以数字化;其次, 老挝留学生汉语发音动作, 语声特性以及听感都各具特点。

基于以上原因, 本文认为老挝留学生的汉语语音数据采集应当遵循以下原则:

1.1 科学性原则

科学性原则要求在采集与汉语语音指标相关的数据时, 要有科学的理论作指导, 使语音数据采集过程能够在逻辑结构上严谨、合理, 紧抓汉语发音衡量指标的实质, 并具有针对性的量化语音指标, 尽可能排除主观评价的误差;另外, 科学性原则还要求协调好语音数据采集中各个过程之间的关系:有的过程之间有横向联系, 反映不同侧面的相互制约关系;有的过程之间有纵向联系, 反映不同层次之间的包含关系。

1.2 数据性原则

老挝留学生发音的汉语语音评价体系[5]是利用现代信息技术建立的, 系统中对汉语语音的描述更多的是采用了机器化的数据表格, 语言和程序。 数据性原则是指采集到的汉语语音信息以一定的数据类型、数据格式、存储方式存在于评价系统中。 在这里值得注意的是, 即使是像对老挝留学生语调方面的主观评价也应该通过[5]中的偏误标记形成数据, 以便利用计算机进行相关处理。

1.3 实用性原则

实用性原则是指语音数据采集方法、 过程应具可行性、可操作性和稳定性。即采集方法要客观明确, 采集过程尽可能细化, 语音数据易于采集且准确可靠, 整体操作有规程约束。

1.4 可比性原则

可比性原则是指采集到的语音数据值要保持有效可比, 通过将其与参照值 ( 或标准值) 对比, 清查“ 可疑数据”, 再根据不同的情况, 综合评价采集到的语音数据。

从语言学角度, 可比性原则既指老挝留学生与其他国家留学生在习得汉语语音的层面上可比, 也指老挝留学生在老挝留学生之间习得汉语的层面上可比。

2 VQF技术与缺陷跟踪机制

2.1 VQF技术简介

VQF指的是Twin VQ ( Transform -domain Weighted I Nterleave Vector Quantization) , VQF是一种音频压缩技术。VQF所采用的是一种称为“ 矢量化编码 ( vectorquantization) ”的压缩技术, 其使用范围从电话、AM短波乃至音频CD;从单声道信号到立体声信号, 它都能提供了很好的编码/压缩支持, 它是数字化微格实验的音频支持技术, 可大量运用于不同类型、规格的微格实验室。

本文选用VQF技术的原因在于, 其一, 该技术直接集成于学校数字化微格实验室内, 便于老挝学生实时的使用其录音, 回放功能;其二, VQF具有很强的纠错能力, 学校微格平台特别提供了一个纠错环境来处理数据错误及帧丢失的情况, 该技术先将音频数据矢量化, 然后对音频波形中相类似的波形部分统一与平滑化, 并强化突出听感的部分, 最后对处理后的矢量数据标量化再进行压缩而成, 也即它能很大程度的保证音质, 这也是保证本研究的顺利进行的必要条件之一;其三, 汉语语音数据采集的有效性取决于音频压缩技术的成熟度, 而VQF就能做到, 如:当VQF以44k Hz、80kbit/s的音频采样率压缩汉语单音节词时, 它的音质优于44k Hz、128kbit/s的MP3 格式语音文件, 当VQF以44k Hz、96kbit/s的频率压缩时, 它的音质几乎等于44k Hz、256kbit/s的MP3 格式的语音文件。 经Sound VQ压缩后的语音音频文件在进行回放效果试听时, 和原音频文件几乎一样。

2.2 缺陷跟踪机制

缺陷跟踪主要是完成对缺陷报告的记录、分析和状态更新等管理。一个完善的缺陷跟踪机制对于测试的成功实施是非常重要的。

汉语语音数据采集是一个错综复杂、 数据吞吐量大、环环相扣的软件过程, 除了要对采集数据本身的质量进行控制外, 同时也可以对检查、评估、保存和理解数据进行控制, 以保证采集过程迭代的顺利进行, 这种缺陷跟踪可通过最简单的EXCEL表格和Access数据库来完成 ( 项目研究中使用Excel 2007 版本) 。

在老挝留学生汉语语音数据采集过程中引入缺陷跟踪机制, 有利于确保采集过程和系统设计的一致性;有利于在早期发现问题所在, 降低维护成本, 降低重复劳动;有利于反馈每一个采集环节的异常情况, 及时做出相应调整。

3 数据采集的过程

汉语语音数据采集的主要任务是量化各类发音指标, 为采集和保存语音数据而制定的规程需要并入语音评价的整个过程, 且使其具有操作性。 这就意味着把参与采集的老挝留学生 ( 或者实验员) , 采集方法以及实践定位到语音采集过程中的适当位置, 为随后的分析和比对工作采集和保存语音数据。 以下是数据采集的基本过程:

3.1 规范化语音数据、记录表格以及存储数据的方式

长期以来, 没有形成一套规范的语音数据集, 没有规范的记录表格。在对汉语语音采集研究中, 每个科研团队采集到的语音数据在格式, 取值范围、存储方式上不尽相同, 例如, 有项目组将语音数据定义为小数, 有的定义为整数、指数等等;有的项目组使用数据库技术存储语音数据, 而有的则使用纸质版的语图来存储语音数据。这样一来, 采集到的数据不但在数值上不准确, 不具可比性、操作性, 在存储方式上也不一致, 更不用说用规范的表格来记录了。

鉴于基于老挝留学生发音的汉语语音评价系统是一种信息化的工具, 明智的做法是:在采集语音数据之前, 针对于每一个语音值, 由微格实验室中的计算机专员规定统一的数据类型、数据格式、有效值范围以及规范的记录表格, 并规定使用统一的数据库来存储采集到的数据, 最后将这些规定形成文字说明。 这样做的好处是:便于使用计算机操作和处理语音数据、避免大量重复劳动、提高采集及评价的效率。

3.2 采集数据

一旦前期准备工作完成后, 我们就可以开始采集数据了。采集语音数据的关键在于能对每一个将被量化的语音指标提出问题、并加以解决。例如:影响汉语语音数据的因素是什么? 采集过程中哪里容易出错? 最终想要得到怎样的数据?等等。通常情况下, 留学生汉语语音数据采集的方式都比较单一, 经常忽略因母语造成的语音偏误, 也没有从老挝学生汉语发音的特征出发, 没有实现老挝人之间讲汉语的对比和对照。本文就现行汉语语音数据采集中存在的弊端提出了一种用陷跟踪机制来采集数据的方法, 其原理如图1 所示。

在图1 中, 方框之间的连线表示语音数据采集的流程, 这些方框指明了在采集过程中必须完成的任务:

3.2.1 认可过程

认可过程用以进一步确认待测试的语音指标能否准确的描述老挝留学生在元音发音、辅音发音、声调、语调方面的表现。

3.2.2 分类量化过程

分类量化过程是将已认可的测试指标分类量化为语音数据的过程, 包括:①元音发音指标量化为把“ ü”发成“ u”, 把“ iong”发成“ ong”, 把“ ue”发成“ ie”几种元音偏误产生后对应的元音习得等级[5];②辅音发音指标量化为把部分“ ch、c、L”发成“ x、s、sh”, 发音部分把“ r”发成“ l”, 发音部分把“ f”发成“ p”几种辅音偏误产生后对应的辅音习得等级;③声调指标量化为中平调33 或44, 发阳平调值约为224, 发上声发成半上[21]等声调偏误产生后对应的声调习得等级[6];④语调指标量化为双音节词语格式配合、不能分辨轻声词、不能通过句末的升调来表示疑问等语调偏误产生后对应的语调习得等级[4]。

3.2.3 检查和评估过程

检查过程用以检查和评估语音数据 ( 已量化的语音指标) 的准确性、一致性和有效性, 它是判定语音数据是否准确和规范的重要途径。准确性检查要求语音数据必须是按照规定说明采集的、完整的、在数学上是正确的;一致性检查要求检查者必须充分了解以前记录的语音数据, 通过对比, 检查出异常或不一致的数据;有效性检查要求能够证明用于描述某个语音发音指标的值能真实的反映该指标的数字含义, 确保采集到的语音数据对于汉语发音本身是有效、可靠的。

3.2.4 记录过程

记录过程是把已检查的汉语语音数据记录在事先定义好的表格中, 这些表格可以记录一个语音指标对应的一组数据, 也可以记录多个语音指标对应的多组数据。

语音数据采集中的这四个过程是相辅相成, 相互制约的。 认可过程是执行其它三个过程的前提条件;分类量化过程是语音数据采集的核心环节, 直接决定着数据的准确性;检查过程是语音数据采集的必要环节, 起到了承上启下的作用;记录过程则是对前三个过程的归纳和总结。

随着汉语语音采集过程的深入, 或当语音指标比较复杂时, 我们就会发现要用精细的方法来采集数据。缺陷跟踪就是一种过程细化的机制, 将它运用于语音数据采集的全过程, 它可以让实验员者在发现数据有问题时追述缺陷, 找到在采集过程中遗漏的东西, 有效地保证了语音数据的准确性和规范性, 提高了留学生习得汉语语音的效率。 图1 也即某个汉语语音从输入到处理, 再到输出的缺陷跟踪过程, 例如, 如果某个语音在分类量化后元音指标未能通过检查过程, 则该含有“ 缺陷”的语音数据将会被反馈至语音识别层[5], 进行重新识别或者重新输入。

3.3 存储采集到的语音数据

当采集工作结束后, 我们需要对已采集到的语音数据进行保存。一般说来, 个人计算机数据系统和Excel电子表格对数据保存和分析就足够了。然而, 若干指标量化后形成的语音数据是非常庞大的, 而且这些数据是多目的的, 一个语音数据可能对应着对应一个或者多个测试结果;其次, 数据之间的关系复杂、不容易理顺, 因此需要建立一个或者多个数据库来存储它们供以后使用。

为管理好存储语音数据信息的数据库还应该确认以下内容: ①谁负责录入和维护数据;②谁可以访问数据; ③数据存储在硬盘上什么位置;④基于建立好的数据库, 基于基于老挝留学生发音特征的汉语语音评价系统要具有编辑和检索各类语音数据的机制。

4 结束语

对于留学生来说, 汉语语音学习活动是一项非常复杂的活动, 因而在对其语音指标量化的科研教学评价过程中, 采集到的数据往往过于粗糙, 难以科学地表现老挝留学生汉语发音的本质特征。 为了采集到准确、规范的语音数据, 本文使用了微格中的VQF音频技术采集数据, 设计了科学、有效的数据采集原则及过程, 但使用本文提出的分类量化的采集方法还未完全实现, 有待进一步研究。

本研究前期预测效果显著, 前期效益价值体现在:95%的老挝学生参与了语音数据采集环节, 项目组成功输入语音数据共计15891 条 ( 按单个音节计算) , 其中有效数据13936 条, 占87.69%, 建立了基于老挝留学生发音特征的的汉语语音数据库, 为做语音识别、对比研究奠定了数据技术基础, 预计有很高的使用价值, 为老挝留学生学习汉语提供了一个新的平台。该研究受到了学校及社会老挝学生的关注和一致好评。

参考文献

[1]袁毅, 吴晨.柔性可扩展体系结构非特定人语音识别系统[J].计算机应用研究, 2006 (12) :203-206.

[2]施伟, 谢湘.一种基于语音识别的汉语发音评价系统[C].第七届中文信息处理国际会议[C].2007:032-036.

[3]施剑, 何成林, 杜利民.基于USB2.0的麦克风阵列语音数据采集系统设计[J].计算机工程, 2006:216-218.

[4]邓瑶.老挝汉语初学者语音偏误分析及教学策略-基于昆明学院老挝学生普通话语音学习的调查[J].西南学刊第五辑, 2013:267-274.

[5]陈展.基于老挝留学生发音特征的汉语语音评价体系研究[J].现代语文 (语言研究) 西南学刊, 2015 (3) :81-82.

上一篇:绿色持续创新下一篇:有线电视系统防雷接地