音频压缩编码

2024-09-17

音频压缩编码（精选8篇）

音频压缩编码篇1

现代社会是信息社会,随着信息技术的发展,图像信息被广泛应用于多媒体通信、计算机系统和网络中。因为对图像的要求越来越高,图像信息量也越来越大,所以在传输之前需要进行信息处理,必须采用合适的方法对其进行压缩,因此有必要对图像压缩编码方法进行研究。

1 图像压缩编码

1.1 概述

图像压缩编码就是在满足一定保真度和图像质量的前提下,对图像数据进行变换、编码和压缩,去除多余的数据以减少表示数字图像时需要的数据量,便于图像的存储和传输。即以较少的数据量有损或无损地表示原来的像素矩阵的技术,也称图像编码。

1.2 图像压缩编码原理

图像数据的压缩机理来自两个方面:一是利用图像中存在大量冗余度可供压缩;二是利用人眼的视觉特性。

1.2.1 图像数据的冗余度

1)空间冗余:

在一幅图像中规则的物体和规则的背景具有很强的相关性。

2)时间冗余:电视图像序列中相邻两幅图像之间有较大的相关性。

3)结构冗余和知识冗余:

图像从大面积上看常存在有纹理结构,称之为结构冗余。

4)视觉冗余:人眼的视觉系统对于图像的感知是非均匀和非线性的,对图像的变化并不都能察觉出来。

1.2.2 人眼的视觉特性

1)亮度辨别阈值:当景物的亮度在背景亮度基础上增加很少时,人眼是辨别不出的,只有当亮度增加到某一数值时,人眼才能感觉其亮度有变化。人眼刚刚能察觉的亮度变化值称为亮度辨别阈值。

2)视觉阈值:视觉阈值是指干扰或失真刚好可以被察觉的门限值,低于它就察觉不出来,高于它才看得出来,这是一个统计值。

3)空间分辨力:空间分辨力是指对一幅图像相邻像素的灰度和细节的分辨力,视觉对于不同图像内容的分辨力不同。

4)掩盖效应:“掩盖效应”是指人眼对图像中量化误差的敏感程度,与图像信号变化的剧烈程度有关。

1.3 图像压缩编码的分类

根据编码过程中是否存在信息损耗可将图像编码分为:

1)无损压缩:又称为可逆编码(Reversible Coding),解压缩时可完全回复原始数据而不引起任何失真;

2)有损压缩:又称不可逆压缩(Non-Reversible Coding),不能完全恢复原始数据,一定的失真换来可观的压缩比。

根据编码原理可以将图像编码分为:

1)熵编码:熵编码是编码过程中按熵原理不丢失任何信息的编码。熵编码基本原理是给出现概率大的信息符号赋予短码字,出现概率小的信息符号赋予长码字,最终使得平均码长最小。常见熵编码方法有哈夫曼编码、算术编码和行程编码(Run Length En-coding)。

2)预测编码:预测编码是根据离散信号之间存在着一定关联性的特点,利用前面一个或多个信号预测下一个信号进行,然后对实际值和预测值的差(预测误差)进行编码。预测编码可分为帧内预测和帧间预测,常见的预测编码有差分脉码调制(DifferentialPulse Code Modulation,DPCM)和自适应差分脉冲编码(Adaptive Differential Pulse Code Modulation,ADPCM)。

3)变换编码:变换编码通常是将空域图像信号映射变换到另一个正交矢量空间(变换域或频域),产生一批变换系数,然后对这些变换系数进行编码处理。图像信号在空域描述时,数据之间相关性大,冗余量大,经过变换到变换域中去描述,数据相关性大大减少,冗余量减少,参数独立,数据量少,这样再进行适当的量化和编码就能得到较大的压缩比。常用的正交变换有傅立叶(Fouries)变换、正弦变换、余弦变换、哈尔(Haar)变换、沃尔什(Walsh)变换、斜(Slant)变换和K-L(Karhunen-Loeve)变换等。

4)混合编码:混合编码是指综合使用了熵编码、预测编码或变换编码的编码方法,如JPEG标准和MPEG标准。

1.4 图像压缩编码方法介绍

1.4.1 哈夫曼编码

基本思想是统计一下灰度级的出现概率,建立一个概率统计表,将最常出现(概率大的)的灰度级用最短的编码,最少出现的灰度级用最长的编码。

步骤:1)将输入灰度级按概率大小由大到小排序;2)将最小的两个概率相加得到一个新的概率集合,重复第1步,直到只有两个概率集合为止;3)反向分配码字。

特点:1)码值不唯一;2)对不同概率分布的信源,哈夫曼编码的编码效率有所差别,对于二进制编码,当信源概率为2的负幂次方时,哈夫曼编码的编码效率可达100%,其平均码字长度也很短,而当信源概率为均匀分布时,其编码效果明显降低。3)需先计算图像数据的概率特性形成编码表后才对图像编码,因此缺乏构造性。

1.4.2 预测编码

基本思想是通过提取每个像素中的信息并对它们编码来消除像素间的冗余,它是根据离散信号之间存在一定关联性的特点,利用前面一个或者多个信号对下一个信号进行预测,然后对实际值和预测的差值(预测误差)进行编码。

预测编码是比较易于实现的,如差分脉冲编预测编码(Differential Pulse Code Modulation,DPCM)方法。

在这种方法中,每一个像素灰度值,用先前扫描过的像素灰度值去减,求出他们的差值,此差值称为预测误差,预测误差被量化和编码与传送。接收端再将此差值与预测值相加,重建原始图像像素信号。由于量化和传送的仅是误差信号,根据一般扫描图像信号在空间及时间邻域内个像素的相关性,预测误差分布更加集中,即熵值比原来图像小,可用较少的单位像素比特率进行编码,使得图像数据得以压缩。

预测编码原理框图如图1。

预测编码具有高的编码压缩比,其缺点就是降低了抗误码的能力。

DPCM的MATLAB实现代码如下:

subplot(3,2,4),imshow(abs(p),[0 1]);title('解码用的残差图像');

subplot(3,2,5),imshow(j,[0 256]);title('使用残差和线性预测重建后的图像');

subplot(3,2,6),imshow(abs(d),[0 1]);title('解码重建后图像的误差');

1.4.3 变换编码

基本思想是先将空间域图像通过某种正交变换,获得一系列变换系数。在变换过程中,使图像变换系数能量相对集中,再对其变换系数,进行区域量化,按其所含能量大小,分配以不同的数据量(比特数)去描述,如高能量区域赋予多比特,反之,则短的比特数,这样可以提高压缩比。

变换编码原理框图如图2。

问题:1)分块大小;2)变换方式;3)比特分配;4)编码方案。

优点:1)压缩比高;2)视觉感觉好。

缺点:计算复杂。

变换编码是一种图像有损编码。在能达到的压缩比和信息损失之间存在一个折衷。一般情况下,人眼是信息丢失能否接受的最终裁判。对图像失真的定量计算,如均方误差,往往和人眼的主观感觉不一致。

常用的变换方法有DCT变换和WHT变换等。图像进行变换后,接下来要对变换后的系数量化,在量化后才能对其编码。其中常用的系数量化方法有:区域编码、行程编码、门限编码等。

DCT变换的全称是离散余弦变换(Discrete Cosine Transform,DCT)。在傅立叶级数展开式中,如果被展开的函数是实偶函数,那么其傅立叶级数中只包含余弦项,再将其离散化可导出余弦变换。DCT是先将整体图像分成N*N(N=8或16)像素块,然后对N*N(N=8或16)像素块一一进行单独的DCT变换。由于大多数图像的高频分量很小,相应于图像高频分量的系数经常为零,而且人眼对高频成分的失真基本不容易分辨认来,所以可经过适当的量化。

DCT变换的MATLAB实现代码如下:

2 总结

本文介绍了图像压缩编码的基本原理,分类以及现有的部分图像压缩编码方法进行了初步的归纳和探讨,研究了三种常见的图像压缩编码方法,并粗略探讨了它们的MATLAB代码实现。在图像信息量激增、网络特性和速度都飞速提高的今天,对高效合理的图像压缩算法的研究也越来越受到重视,很多方面的问题也越来越突出,如编码的复杂度、实时性的改善,解码的迅速性的提高以及图像恢复的质量问题等,这些都是值得我们研究的方向。

参考文献

[1]张丰德.数字图像处理[M].北京:人民邮电出版社,2009.

[2]冈萨雷斯.数字图像处理[M].北京:电子工业出版社,2004.

[3]李俊山,李旭辉.数字图像处理[M].北京:清华大学出版社,2007.

[4]夏良正.数字图像处理:修订版[M].南京:东南大学出版社,2005.

音频压缩编码篇2

为了便于对比，这里所采用的图像仍然是256×256的Lena灰度图像，分解所用的滤波器是双正交B97滤波器，分解级数为4。实际均在Pentium 4/1.5、RAM128MB的机器上编译完成。图4和图5是消噪图像（原噪声图像方差=100）和消噪图像分形压缩结果。

经小波域去噪的图像分形压缩编码性能明显提高，一是体现在编码时间上，去噪图像的编码时间与有噪图像相比大大缩短，效率大大提高，分形压缩方法本身特点就是压缩时间长，因此这种效率的提高是非常可观的；二是图像质量明显好转，信噪比有较大的提高，保证了分形压缩编码的质量（如图5所示）。以上实验和结论充分说明了图像小波域的去噪方法能够对噪声图像进行良好的消噪处理，保证了分形压缩编码方法的编码效率和图像质量。

音频压缩编码篇3

关键词：票据图像,多分辨率分解,零树编码,JPEG压缩标准,边缘细节信息

票据图像作为人们生活和工作中广泛应用的图像,在许多多媒体系统中都需要存储和传输的,例如医院信息系统和电子金融管理系统。长期以来,数字图像压缩编码技术主要采用JPEG压缩标准[1]来进行压缩。对于一般的自然图像来说,JPEG压缩标准在保证图像质量的前提下具有较高的压缩比。但是对于JPEG压缩标准中主要利用离散余弦变换DCT(Discrete Cosine Transform DCT)技术完成图像的变换编码,然而经过DCT处理的图像编码在大的压缩比下存在着严重的块状效应,这非常不利于票据图像的压缩及存储。因为票据图像中包含了丰富的边缘细节信息,这些都是票据图像中的重要信息,需要完整的保留下来。所以出现了一些基于二值化分割算法来获得高的压缩比[2,3,4,5,6],但是这些方法不仅要面对图像分割的挑战,而且有时对图像重要的信息在压缩以后已经丢失了。

为此,该文通过对Shapiro提出的嵌入式零树小波编码算法EZW(Embedded Zerotree Wavelet,EZW)[7]分析的基础上,实现了针对票据图像的零树编码,并进行了仿真试验,仿真结果与JPEG压缩标准作了比较,在大的压缩比下,票据图像的边缘细节信息得以保留,保证了阅读质量。

1 算法设计

本文方法是是针对票据图像进行压缩编码,票据图像与普通自然图像有着明显的区别,因此首先要了解票据图像有如下特点:

1)票据图像颜色单一,从视觉效果上,一幅票据图像有4-5种颜色就可以显示整幅图像的信息。

2)票据图像在一个小区域内像素颜色一致(不包括背景颜色)。

3)票据图像存在着大面积的背景区域。

根据票据图像特点(1)和(2),可以将票据图像进行颜色聚类,得到调色板和颜色位图。每幅颜色位图代表调色板中的一种颜色,而颜色位图可以用一幅二值图像来表示,黑色代表背景,白色代表前景,即前景信息就是原始图像中代表该颜色的信息。根据特点(3),可以判断出每幅位图中都包含大面积的背景区域,对每幅颜色位图进行二值图像的多分辨率分解得到金字塔结构图,在分析EZW算法的基础上对每幅位图的金字塔结构图进行改进的零树编码。在解码端,根据解码得到的金字塔结构图,重构颜色位图,根据对应调色板的颜色得到解压缩的图像。

1.1 颜色位图的多分辨率分解

对于原始的颜色位图,它是一幅二值图像,将图像中的像素点分为2×2像素的方块,并按图1所示规则[8]进行分解,得到原始二值图像的低频子图。

其中不全为0或者不全为1。将得到的低频子图按图2所示规则映射到原图尺寸大小。

将映射得到图像与原始位图相减得到残差图,即高频子图。此时低频子图与高频子图就构成了一个金字塔结构图。对于低频子图再进行几次上述算法处理,便得到了原始位图的金字塔结构图。

1.2 改进的零树编码

EZW方法是基于小波变换之后进行编码的,经过小波变换后的图像具有多分辨特性,EZW算法就是利用不同分辨率子带中同一空间位置的数据构成一棵树,利用树中的低频数据的幅度值大、高频数据的幅度值小的特点,生成零树,从而达到压缩的目的。

原始位图经过多分辨率分解后的金字塔结构图,在不同分辨率层级中同一空间位置的数据具有相关性。以图3所示的金字塔结构图为例,将金字塔结构中最低分辨率层级中的每个像素点作为“父亲”,那么该分辨率层级上每个像素点都有4个“儿子”存在于下一分辨率层级,在最高分辨率层级中有16个“孙子”。根据原始位图多分辨分解算法,可以得知其金字塔结构图中不同分辨率层级中同一空间位置的数据有如下特点:

1)每个分辨率层级中的“1”,其子孙后代全为0;

2)每个分辨率层级中的“0”,其子孙后代中可能全为0或者含有1。

EZW算法中从最低分辨率的系数开始扫描,判断扫描到的系数是否为“正显著系数”、“负显著系数”、“零树跟”和“孤立零点”,然后进行编码输出。因此,根据EZW的编码思想及上述特点,改进的零树编码算法如下:

1)扫描整个金字塔结构图,按照自上至下,自左至右的顺序扫描;

2)若扫描到“1”,则认为该点为正的零树跟,标记其子孙节点都无需扫描编码,将该点编码为“p”;

3)若扫描到“0”,判断其子孙节点是否全为0。

(1)若其子孙节点全为0,则认为该点为负的零树跟,标记其子孙节点都无需扫描编码,将该点编码为“t”;

(2)若其子孙节点有1,则认为该点为孤立零点,编码为“z”。

2 实验验证

为了检验本文对于票据图像的压缩编码算法,本小节对票据图像分别进行了本文的压缩编码算法和JPEG压缩编码,并给出实验结果对比。为了验证本文算法的有效性,同时给出了二者之间峰值信噪比、视觉效果和细节保留的对比。

图4为原始票据图像,图5为JPEG压缩后的图像,图6为本文方法压缩后的图像。实验表明,JPEG压缩标准的压缩比已经达不到本文方法的压缩比了。如表1所示,JPEG压缩能够达到的最大压缩比为113:1,而本文的方法已经达到了137:1,而且在峰值信噪比上本文方法也要高于JPEG压缩。从阅读质量上来看,经过本文压缩方法后的解码图像能够更好有利于从图像中获取信息,JPEG压缩后的图像已经产生了明显的块状效应,造成图像模糊。图7中自上而下为原图像细节、JPEG压缩后细节和本文方法压缩后细节,可以看到本文方法保留了更多的票据图像的边缘细节信息,保证了票据图像的信息传达。

3 结束语

本文研究了一种针对票据图像有效的压缩编码算法。首先,针对票据图像的特殊性进行了预处理,其次对零树编码进行了改进以适用于票据图像的编码,不仅仅提高了压缩比,而且还保留了票据图像中重要的边缘细节信息。实验表明,该文方法在同等压缩比下,解压缩后的图像在峰值信噪比和视觉效果上,尤其是在边缘细节信息的保留上都要优于JPEG压缩标准。

参考文献

[1]http://www.jpeg.org/jpeg/index.html[S].

[2]Shapiro,J.M.:‘Embedded image coding using zerotrees of wavelets coefficients’[J].IEEE Trans.Signal Process.,1993,41:3445–3462.

[3]Howard P G.Text image compression using soft pattern matching[J].The Computer Journal,1997(40):146-156.

[4]Seropian A,Vincent N.Writers authentication and fractal compression[J].Proceedings.8th International Workshop on Frontiers in Hand writing Recognition,2002:434-439.

[5]Howard P G.Lossless and lossy compression of text images by soft pattern matching[J].Proceedings Data CompressionConference,1996:210-219.

[6]Ye Y,Cosman P.Fast and memory efficient text image compression with JBIG2”[J].IEEE Transactions on Image Processing,2003,12(8):944-956.

[7]Y.Ye,and P.Cosman,“Dictionary design for text image compression with JBIG2”[J].IEEE Transactions on Image Processing,2001,10(6):818-828.

DRA分层音频编码技术篇4

关键词：DRA,分层编码,数字音频广播

在分层音频编码上, 国外已经研究了几种精细分层的有损数字音频编码方法及无损音频编码, 主要包括:1) ISO/IEC 14496-3 MPEG-4 BSAC (Bit Sliced Arithmetic Coding) 比特片算术编码[1], 在这种编码算法中, 基于对MDCT (修正离散余弦变换) 变换后的变换域系数 (频谱系数) 被量化为整数后, 从低频到高频分成多个组, 每个组谱系数从高位到低位形成比特片方式进行算术编码, 因此可以实现非常精细的分层 (或者伸缩) 编码。2) 在MPEG-4第三部分和MPEG-2第七部分中都提供了可伸缩采样率编码算法AAC-SSR (Advanced Audio CodingScalable Sampling Rate) , 首先是由Sony提出的, 编码架构也类似于其独有的ARTAC (Adaptive Transform Acoustic Coding) 编码。其基本算法是:首先将输入的数字音频信号通过4带的多相正交滤波器组 (Polyphase Quadrature Filter, PQF) 分割成4个频带, 然后这4个频带分别进行1个256点MDCT (512样点窗长) 或8个32点 (64样点窗长) MDCT。这种技术的好处在于每个频带内可以独立选择长块或短块MDCT, 因此对高频可使用短块编码增强时间分辨率;而对低频使用长块编码获得高频率分辨率。3) MPEG-4 SLS (Scalable Lossless Coding) 有两种方式。一种是有损音频编码层 (如AAC) 和无损误差增强层, 这样就保证了与原来有损编码的后向兼容。另外一种是没有有损编码层, 仅仅无损增强层。在这两种方式中, 无损增强层能够实现精细分层, 提供低质量、高质量以及无损质量。

第一种分层编码算法为了实现精细分层, 需要考虑限制频谱分区长度等, 而导致需要较多额外开销降低了编码效率;第二种分层编码算法由于应用了4个PQF, 造成带间存在混迭, 因此相邻部分的变换域系数编码效率会下降;而第三种分层也是一种极其精细的分层编码技术, 同样存在需要较多额外开销的问题。

中国数字音频 (调频) 广播 (CDR) 系统已经分别颁布了信道标准[2]和复用标准, 其中在信道传输技术规范中, 调制技术支持粗分层调制, 且信道编码支持不等错保护技术, 因此数字音频信源编码技术最好能够适配信道传输技术, 而上述的几种分层编码技术不太合适, 同时已颁布的我国多声道数字音频编码技术规范DRA[3]也不支持分层方式。为此本文提出了一种新的基于DRA分层编码方法, 简称为DRA+L, 在使用很小额外开销的条件下提供2层的帧结构, 同时保证了与原DRA兼容。

1 DRA分层编码结构

图1给出了DRA基本帧结构示意图[3], 在帧头信息中有1 bit指明是否在帧尾存在辅助数据部分, 其目的就是为以后应用需求而进行功能及性能增强所保留的扩展单元, 这样也确保了增强后的编码算法仍与原DRA兼容。另外需要注意的是, DRA帧头信息中的帧长度信息的计算并不包含辅助数据部分, 因此辅助数据部分需要独立定义自身的长度, 便于解码器拆分辅助数据单元, 并且易于快速同步。

1.1 辅助数据一般结构

辅助数据结构示意图如图2所示, 其中DRA帧头信息中的帧长信息是以32比特 (4 byte) 为单位。辅助数据中每个数据块下面小括号内的数字表示其占用的长度, 单位为bit。X1, Xn分别为第1个和第n个辅助类型的数据长度, 单位为byte。在辅助数据的开始是辅助数据的长度指示, 当辅助数据比较短时 (小于256 byte) , 直接使用8 bit基本长度信息描述;否则辅助数据长度通过16 bit扩展长度与前面的8 bit基本长度共同描述, 即在256基础上累加16 bit无符号二进制数所表示的数值作为整个辅助数据长度。

每种辅助数据的类型由三部分组成:第一部分是本类型附属数据的长度, 用12 bit描述 (以byte为单位) ;第二部分为本类型附属数据的具体类型, 以4 bit表示, 最后一部分是本类型辅助数据的有效载荷。

1.2 分层编码的数据结构

DRA分层编码就是在国标DRA算法的基础上通过分层编码辅助数据的增强扩展而实现的。分层编码可根据编码的声道数进一步分为单声道/立体声的分层和5.1环绕声分层, 其码流结构分别如图3和图4所示的两层结构 (即基本层和增强层) 。

1) 单声道/立体声分层帧结构

在单声道/立体声分层编码模式时, 分层编码的基本层就是在它所分配的码率限制下通过国标DRA编码单声道或立体声;分层编码的增强层首先是辅助数据的总长度, 辅助数据内部仅包含一种辅助数据类型, 即分层编码类型。分层编码类型包括:12 bit分层编码类型长度、4 bit分层编码类型指示和分层编码扩展的有效载荷。在有效载荷的开始, 通2 bit声道模式“00”用于表示当前DRA分层编码是是单声道/立体声分层编码;有效载荷的其他部分则为单声道/立体声残差的DRA编码信息。

2) 环绕声分层编码帧结构

在5.1环绕声分层编码模式时, 分层编码的基本层就是前置左右声道对的DRA编码;增强层的结构与单声道/立体声分层的增强层相似, 但有效载荷的开始2 bit声道模式置为“10”, 并且有效载荷的其他部分为其余声道 (中央声道、超重低音及左右环绕声道对) 的DRA编码信息。

3) 低码率DRA分层编码帧结构

当在数字音频 (调频) 广播等应用中, 有时需要在一个模拟调频节目内传输多路数字立体声信号或环绕声信号, 因此要求DRA可提供更高编码效率而降低码率, 这时需要在DRA算法的基础上增加一些增强编码工具, 例如带宽扩展及参数立体声等, 实现低码率DRA编码算法。参照DRA分层编码结构图3和图4, 可以通过简单修改给出低码率DRA分层编码结构。

(1) 单声道/立体声低码率DRA分层

单声道低码率DRA分层:基本层包括单声道低频部分的DRA编码、辅助信息长度信息、带宽扩展类型辅助数据 (包括带宽扩展辅助数据的长度、类型及数据) ;增强层包括图3中辅助信息长度之后的所有部分 (其中残差DRA编码也是编码单声道的低频部分的残差信号) 。

立体声低码率DRA分层:当不采用参数立体声时, 基本层包括立体声对低频部分的DRA编码、辅助信息长度信息、带宽扩展类型辅助数据;增强层包括图3中辅助信息长度之后的所有部分。当采用参数立体声时, 基本层包括立体声对下混为单声道后的单声道低频部分DRA编码、辅助信息长度信息、带宽扩展类型辅助数据 (在数据内部包含参数立体声编码数据) ;增强层包括图3中辅助信息长度之后的所有部分。

(2) 环绕声低码率DRA分层

基本层包括左右立体声对低码率DRA编码信息 (包括左右立体声对低频部分的DRA编码或者下混后的单声道低频部分的DRA编码、辅助信息长度和带宽扩展类型辅助数据) ;增强层为图4辅助信息长度之后的所有部分 (其中中央声道C采用低码率DRA单声道编码方法, 左右环绕声道对采用低码率DRA声道对编码方法) 。

2 分层编码算法

2.1 单声道和立体声分层编码算法

图5给出了单声道/立体声分层编码的原理框图, 其中基本层为单声道或立体声的DRA编码 (图中虚线框内的两个模块带宽扩展 (BWE) 编码和参数立体声 (PS) 编码是低码率DRA编码的增强单元) , 其中DRA完全符合国家标准规范的压缩算法;增强层则是对残差信号的编码, 用于进一步改善解码信号的精度。下面主要介绍3个部分:DRA残差信号的计算、DRA残差信号量化和DRA残差信号的码书编码。

1) DRA残差信号的计算

GB/T 22726—2008国标中实现DRA的标准算法简单示意图如图6所示 (为了清晰, 特将解码端也做了简单描述, 其中解码端模块见图6的虚线框图) 。时域数据x[n]经过MDCT变换到频域得到谱系数X[k], 将频域系数分成多个子带, 对其中属于子带b的谱系数除以一个量化步长Δb, 然后取整 (nint) 得到量化后的谱系数X̂[k], 其中每个量化步长Δb和谱系数X̂[k]通过各种方式传输到解码端。在解码端对量化后谱系数X̂[k]乘以量化步长Δb, 得到逆量化的谱系数X͂[k], 对其做IMDCT得到解码后的时域系数x͂[n]。

DRA分层算法简单示意图如图7所示的中间模块。由图7可以看到, 基本层和图6的编码端完全一致, 也即完全兼容。增强层包括:取整得到的量化后的谱系数X̂[k]在增强层乘以量化步长Δb恢复出量化后的谱系数X͂[k], 然后用原始谱系数X[k]减去量化后的谱系数X͂[k], 得到残差谱系数E[k]。将残差谱系数E[k]分成多个子带, 对其中属于子带e的谱系数除以一个残差谱系数量化步长Δe, 取整 (nint) 得到量化后的残差谱系数Ê[k]。增强层需要传输残差谱系数量化步长Δe和量化后的残差谱系数Ê[k]。在解码端对量化后谱系数X̂[k]乘以量化步长Δb, 得到逆量化的谱系数X͂[k];对量化后残差谱系数Ê[k]乘以残差谱系数量化步长Δe, 得到逆量化的残差谱系数E͂[k]。最后将基本层得到的逆量化的谱系数X͂[k]和增强层得到的逆量化的残差谱系数E͂[k]相加, 并对和做IMDCT得到解码后的时域系数x͂[n]。

2) 残差信号的量化

由于残差信号的概率分布与原始音频信号的概率分布不同, 特别是0附近的小信号概率明显增大, 因此残差信号的量化算法是对DRA量化算法的改进, 主要是重新定义了量化码书1和2的都为4维Huffman编码 (其他码书相同) , 分别对应量化频谱系数的绝对值在1和2的情况, 并且重新训练并编制了新的Huffman码书, 提高了编码效率。

残差信号的量化步长采用差分编码Huffman编码方式表示 (第一个量化步长用7 bit绝对值表示) , 而DRA标准是量化步长绝对值Huffman编码方式。

3) 残差信号的码书选择及应用范围

不同于DRA编码规范中固定用5 bit表示码书段个数, 残差信号的码数段个数对平稳帧仍用5 bit, 但对瞬态帧仅用4 bit。

码书的应用范围划分进一步简化, 并且从Huffman编码改为游程编码。如果是平稳帧时, 每16个谱线为1个编码子带, 即每16个谱线用1个Huffman码书。所以1 024个谱线有64个编码子带。码书的应用范围先用5 bit表示最多32个编码子带, 如果应用范围大于32个编码子带, 则再用5 bit, 这时最多可以表示64个编码子带;如果是瞬态帧, 每8×n Block Num (n Block Num取值可参考文献[3]) 个谱线为一个编码子带, 即每8×n Block Num个谱线用一个Huffman码书。所以128×n Block Num个谱线有16个编码子带。码书的应用范围先用3 bit表示最多8个编码子带, 如果应用范围大于8个编码子带, 则再用3 bit, 这时最多可以表示16个编码子带。

对每个码书段的码书索引量化方式由Huffman编码改为更简单的哥伦布编码。

2.2 环绕声分层编码算法

与立体声分层编码算法相比, 图8所示的DRA环绕声分层编码算法比较简单。基本层是对左 (L) 和右 (R) 声道对进行DRA编码;增强层是对中央声道 (C) 进行DRA编码, 对超重低音 (LFE) 声道进行DRA编码, 以及对左环绕 (Ls) 和右环绕 (Rs) 声道对进行DRA编码。声道在编码时可能开启和差立体声模块, 一般不使用强度立体声工具。

当低码率DRA环绕声分层编码时, 其中的DRA编码替换为低码率DRA编码即可, 其中声道对编码可能开启参数立体声编码模块, 提高低码率 (例如低于128 kbit/s环绕声情况) 下的编码效率和主观声音质量。

3 DRA分层编码的试验及分析

DRA环绕声分层编码是在DRA环绕声分层编码算法的基础上通过简单调整各声道编码数据实现分层的, 仅仅引入了很少的额外辅助数据, 占整帧数据的比例很小, 因此环绕声分层编码的总声音质量和DRA环绕声相当, 环绕声分层编码基本层的主观声音质量与相应码率的DRA立体声质量一样;而DRA单声道/立体声分层编码采用残差方式, 与原DRA编码差别较大, 下面将重点分析这种情况下的声音质量比较。而低码率DRA分层编码的性能可对照DRA分层编码结果, 本文不再累述。

3.1 DRA分层编码的额外开销分析

由于单声道/立体声分层编码主要通过残差方式实现, 因此这里主要分层环绕声分层编码的额外开销问题, 表1给出了48 k Hz采样率下不同典型码率时环绕声分层编码额外开销情况。由于DRA帧长是32比特的倍数, 以及基本层和增强层具有同样的长度, 同时应用中实际比特率一般应低于典型设置的比特率, 因此表1中给出了实际比特率。

3.2 DRA分层编码性能客观测试结果

考虑到DRA分层编码属于感觉音频编码技术, 因此基于心理声学模型的客观测试软件能够较准确地衡量这种编码算法。主要测试条件及内容如下:

1) 测试软件:本文采用基于ITU-R BS.1387标准[4]的商用客观测试软件CRC-SEAQ。

2) 测试音频片段:12个48 k Hz和16 bit量化的MPEG立体声测试序列。

3) 码率:DRA分层@64 kbit/s基本层+64 kbit/s增强层和DRA分层@64 kbit/s基本层。

4) 输出:客观差别分ODG (数值越接近0越好) 。

测试结果如图9所示, 其中前12列分别对应12个不同的MPEG测试序列, 最后一列为12个测试序列得分的平均值。上面的折线表示DRA分层编码ODG分数, 下面的折线为DRA分层编码中仅仅解码基本层所获得的ODG分数。可以看到仅解码DRA分层编码的基本层可提供基本的收听质量, 通过增强层解码可提高约1分的平均分, 能够进一步明显提高总的主观声音质量。

4 DRA分层编码的应用示例

在数字音频 (调频) 广播应用中, DRA分层编码应用如图10所示, 通过DRA粗分层音频编码算法将输入的数字音频信号编码分为基本层和增强层两组数据, 通过非等错信道编码可对基本层给予强误码保护, 对增强层给予弱保护;或者通过分层调制技术使得基本层和增强层有不同的抗干扰能力;最后通过发射机播出。由于 (调频) 广播信道一般为无线信道, 除了随着距离增加信号自然衰减之外, 还受到各种衰落、遮挡、电磁干扰等, 在接收端通常无法完全正确解调被干扰的信号, 可用功信道解码降低误码率。如图中用户1的情况, 接收环境比较差, 只能正确解码基本层, 如果广播的是环绕声节目, 则用户1可收听高质量的立体声部分;如果广播的是立体声节目, 用户1将接收到基本质量的立体声信号。用户2有良好的接收环境, 可完全解码基本层和增强层, 这样用户2可收听高质量环绕声广播或者高质量立体声广播。

5 结论

本文提出的DRA分层编码是基于DRA技术而开发的一种新的编码算法, 主要特点是DRA分层编码提供了一种新的粗分层码流结构, 并且由于DRA环绕声分层编码仅仅是通过引入小于1%的额外开销控制多声道编码数据重新组织而实现了分层, 保证了环绕声分层编码质量基本无下降;DRA单声道/立体声分层采用残差再编码的技术实现的分层, 客观测试表明DRA单声道/立体声分层编码可在基本层的ODG分数上通过增强层进一步明显改善大约1分。由于DRA分层编码是通过DRA编码算法中辅助数据的扩展来实现, 因此DRA分层编码与DRA编码兼容, DRA编码可完全解析基本层数据。DRA分层编码特别适用于数字音频广播, 可与非等错信道编码和分层调制技术完美结合, 提供最佳的收听效果。

参考文献

[1]ISO/IEC 14496-3, Information technology-coding of audio-visual objects-part 3:audio[S].2004.

[2]GY/T 268.1, 调频频段数字音频广播第1部分:数字广播信道帧结构、信道编码和调制[S].2013.

[3]GB/T 22726—2008, 多声道数字音频编解码技术规范[S].2008.

音频压缩编码篇5

关键词：小波变换,音频压缩

一段音频信息包含有大量的数据, 由于存储空间或传输带宽的限制, 对音频进行存储或传输之前首先要对其进行压缩。传统的音频压缩算法如ADPCM、子带编码等要么压缩失真度较高, 要么压缩率较低, 而且存在错误传播问题。采用小波变换和嵌入式编码能保证较高的压缩率、较低的失真度, 而且可以对压缩数据进行分级保护, 能有效保留原始音频信息的状态特征参数, 从而最大程度的保证恢复原始音频。

1 提升小波变换

1.1 小波变换含义

小波是定义在有限间隔且平均值为0的函数ψ (t) , 有:。这里, ψ (t) 函数称为基本小波或母小波, 通过将ψ (t) 函数的伸缩和平移, 可形成一个函数簇ψa, b (t) :

式中, a为频率因子或尺度因子, b为时间因子或平移因子。

1.2 提升小波变换

Daube chie s (9, 7) 小波滤波器是被J PEG2000所采用用于有损图像压缩的缺省滤波器, 滤波器长度分别为9和7, 用提升小波算法实现该小波变换的提升:

h軒e=h4 (z2+z-2) +h2 (z1+z-1) +h0, h軒0 (z) =h3 (z2+z-1) +h1 (z+1)

这里选用小波与对偶小波都具有4阶消失矩的Daubechies (9, 7) 小波滤波器, 滤波器系数采用4阶消失炬的对偶小波滤波器系数。

式 (2) 中的即为Daubechies (9, 7) 小波滤波器的分解系数。

2 小波编码

2.1 嵌入式编码

用单一码流提供多种质量的音频需要对编码对象、编码数据进行有效的组织。从码流的组织来看, 可以用下面的关系抽象的表示:

其中, V表示目标音频。如果V与原音频相同, 则编码是无损的, 反之, 编码是有损的。V0表示编码提供的基本质量的音频, 也表示它对应的码流;△i (i=1…n) 代表n个不同质量等级对应的码流的增量, 它也可以称为控制的“粒度”。“+”号表示每一部分对应的解码音频满足叠加要求。这样, 随着解码过程的进行, 音频的总体质量按照递增的方式改变。满足式 (3) 的编码称为嵌入式编码。

2.2 SPIHT编码

SPIHT (Se t Partitioning in Hie rarchicalTre e s) 编码算法是一种性能优良的EZW改进编码算法。它能够生成一个潜入位流, 使接收到的位流在任意点中断时, 都可解压和重构音频, 具有很好的渐进传输特性。

SPIHT算法的主要步骤如下:

1) 阈值和有序表初始化

2) 显著性扫描由以下两个大的步骤组成:

a.依次检查LIP中所有小波系数 (i, j) , 确定其是否重要。

若重要, 则输出1及其符号位, 其中正负号的编码分别为1和0, 然后将 (i, j) 从LIP中删除, 并添加到LSP的尾部。

若不重要, 则输出0。

b.对LIS中的每个表项依次处理, 并对D型表项和L型表项分别采用不同的处理方法, 对排序扫描开始前LIS中的每个表项及扫描过程中添加到其中的所有表项全部处理完后, 这次排序扫描过程结束。

3) 精细扫描。对LSP中的每个表项 (i, j) , 若 (i, j) 不是在刚刚进行过的扫描过程中新添加的, 则输出ci, j的二进表示中的第个n重要的位, 其中T=2n是扫描过程中设定的阈值。

4) 令n=n-1, 跳转到步骤2。

3 小波变换和编码的DSP实现和结论

本项目采用TI公司的TMS320VC5502芯片作为主芯片, 该芯片是16位定点DSP, 主频最大达300MHz, 片内有64K字节的SDRAM, 32K字节的ROM。

本项目综合考虑充分利用DSP芯片上的片上资源、计算复杂度、音频延时等因素, 采用265个48K采样率16Bits的音频数据作为一个数据帧, 组成一个16×16的16Bits音频数据方阵, 对该方阵进行二维的Daubechies (9, 7) 小波变换, 得到16×16=256个16Bits小波系数, 然后对这256个系数采用SPIHT编码。程序用C语言编写, 部分循环程序采用内嵌汇编编写, 式 (2) 的小数系数则采用移位和, 用整数运算来实现, 下表是对不同压缩比率时解码恢复的音频数据指标:

从上表可以看出, 当压缩率小于8:1时, 解压缩的音频指标相差不大, 基本满足CD的音质要求, 但当压缩率达到10:1时, 解压缩的音频指标迅速变差, 不符合CD音质要求, 故不能采用大于8:1的压缩率。

参考文献

[1]I.Daubechies and W.Sweldens.Factoring Wavelet Transforms into Lifting Steps.Journal of Analysisand Application, 1998.

音频信号数字化编码方式分析篇6

一、声音信息中存在着以下冗余:1、幅度分布的非均匀性;2、样值间的相关性;3、周期间的相关性;4、话音间隙冗余。

二、听觉器官的不敏感性也就是专业语言所说的听觉的掩蔽效应, 它主要表现在以下两个方面:

1.频谱掩蔽效应

比如在一个频率1KHz, 强度为70d B的声音背景下的掩蔽门限线图如下

2.时间掩蔽效应

声压强度大的声音信号出现之前和之后的短暂时间内已存在的弱音信号也会被强音信号掩蔽掉, 分别称为前掩蔽 (20ms) 和后掩蔽 (100~200ms) 。

音频的编码技术通常会用到MPEG-1、MPEG-2标准。MPEG即Moving Picture Experts Group是国际电联ITU标准专家组制定的音频编码标准。MPEG强调人的听觉心理声学模型的利用。可利用估计听觉掩蔽阈值、量化精度、尺度化等各种压缩手段进行压缩编码。

MPEG-1音频 (ISO/IEC 11172-3) 描述了具有如下属性的三层音频编码:

层次Ⅰ, 将音频信号输入按一定格式固定分割成32个子带, 子带系数的量化精度为4bit, 比例因子为6bit, 单声道码率为192k bit/s.

层次Ⅱ, 采用自适应的比特分配, 子带低频量化精度为4bit, 中频段为3bit, 高频段为2bit;比例因子为6bit;高保真度码率为128k bit/s.

层次Ⅲ, 用混合带通滤波器提高频率分配率, 采用非均匀量化、自适应分段和量化值熵编码技术。每通道64k bit/s.

MPEG-2音频是在1994年11月为数字电视而提出来的, 其发展分为三个阶段:

第一阶段是对MPEG-1增加了低采样频率, 有16KHZ, 22.05KHZ, 以及24KHZ。

第二阶段是对MPEG-1实施了向后兼容的多声道扩展, 将其称为MPEG-2BC。支持单声道, 双声道, 多声道等编码。并附加“低频加重”扩展声道, 从而达到五声道编码。

第三阶段是向后不兼容, 将其称为MPEG-2 AAC先进音频编码。采样频率可以低至8KHZ;而高至96KHZ范围内的1-48个通道可选的高音质音频编码。

摘要：通过对声音信号特点和人耳听觉特性的理解来分析音频信号数字化的编码方式。

关键词：声音冗余,掩蔽效应,MPEG-1,MPEG-2

参考文献

[1]数字音频技术.作者: (美) 波尔曼 (Pohlmann, K.C)

视频压缩编码对运动检测的影响篇7

关键词：运动检测,视频压缩,量化参数,方差

1 研究背景及目的

运动检测是从视频序列中将运动或发生变化的区域从背景中标识出来的一项技术, 也是进行更高层次视频图像分析处理的重要基础, 以及图像分析和处理的关键, 广泛应用于视频分析之中。所以, 有必要对视频图像序列中的运动目标进行分析和检测。近几年来, 很多学者专家对运动目标检测进行了研究, 提出了很多有效的算法:初秀琴等[1]主要对物体平面运动进行了检测和分析;司红伟等[2]提出了基于背景估计的运动检测算法;RHess等[3,4]在体育视频中球员的运动检测方面做出了卓越贡献;Brox等提出LDOF光流法来进行运动检测[5], 本文也选择采用该方法。

随着众多如数码相机、互联网高清视频、数字电视、数码摄像机等高清数码产品的逐渐普及, 现有的视频编解码标准已经不能满足要求。尤其对于有着平滑背景的高分辨率视频, 需要一种高效率的视频压缩编码技术, 当前视频压缩编码技术的国际组织有两个:一个是国际标准化组织 (ISO) , 另一个是国际电联 (ITU-T) 。视频编码压缩标准有两套[6]:一套是由VCEG制定的ITU-T 标准, 另一套是由MPEG制定的MPEG标准。其中, ITU-T 标准有H.261、H.262、H.263、H.263v2、H.264;MPEG 标准有MPEG-1、MPEG-2、 (MPEG-3) 、MPEG-4、MPEG-7、MPEG-21。

近几年, ITU-T/VCEG和ISO-IEC/MPEG两大国际标准化组织成立了视频编码联合开发小组 (JCT-VC) , 其目标是开发新一代国际视频标准, 名称为高性能视频编码标准 (HEVC) 。该标准的目标是在保持H.264/AVC标准视频质量的基础上, 使比特率降低一半, 即压缩率提高一倍。据HEVC参考软件HM仿真结果显示, 目前针对HEVC标准提出的各个提案还未达到压缩率提升一半的目标。与H.264/AVC视频标准一样, HEVC也包含帧内预测、帧间预测、运动估计与补偿、正交变换、量化、滤波、熵编码和重建等编解码流程[7]。

本文选择最新的HEVC和H.264两种标准, 来探究视频压缩编码对运动检测的影响。通过实验结果来分析每一种压缩编码对运动检测的影响。并找出影响较小的一种。

2 实验步骤

本文先对未压缩的视频进行分析, 检测运动信息, 采集原始数据。然后选择H.264和HEVC两种编码标准进行压缩实验。由于在同一压缩标准下, 量化参数越大, 视频压缩比也就越大。所以, 在每种编码标准中, 本文采用3个不同的量化参数, 即20、26和32, 分别进行3组实验, 进行纵向对比。然后, 再进行同压缩比下两种方法的横向对比。在这一系列实验中, 每组的实验步骤大致相同, 如下所述。

2.1 视频图像采集

本文从视频数据Hallmonitor (352×288) 中, 均匀提取了25个 (352×288) 大小的帧, 然后用这25帧图像作为原始视频图像序列来进行运动检测。

2.2 基于光流的运动检测

本文用LDOF光流方法[5]来检测原始视频图像序列中相邻两帧之间的运动信息, 包括由于光照变化造成的阴影。

本文用任意相邻两帧举例说明。提取运动信息后, 得到一个二维的光流矩阵。对于该矩阵的每个像素点来说, 第一个维度表明了其在相邻两帧中, 水平方向上移动的距离 (以下表示为x) ;第二个维度表示其在相邻两帧中, 垂直方向上移动的距离 (以下表示为y) 。

之后, 本文设置一个值作为每个像素点在相邻两帧之间移动的绝对距离 (以下表示为y) 。定义如下:

$l = \sqrt{x^{2} + y^{2}} (1)$

设定一个l的值, 作为运动检测的门限值。显然, 门限值设定得越小, 运动检测的精度越高。所以, 设定门限值为1, 也就意味着, 在相邻两帧之间, 每个对应像素点移动的绝对位移在1以上, 就把其考虑进去, 作为运动对象。为了对比明显, 本文把发生运动的像素点的值设定为0, 没有运动的像素点的值设定为255。在处理所有25个原始采样帧中24对两两相邻的帧后, 得到了24个大小为 (352×288) 的二值矩阵, 即24帧二值运动信息图像, 其中检测到运动信息的区域为黑色, 静止区域为白色。

由于原始采样帧中的第25帧只作为与第24帧的比较求光流之用, 所以, 为了与二值光流图像进行一一对比, 在实验数据中将其舍掉。

图1为在未压缩的视频中得到的原始采样帧, 以及通过LDOF光流方法[5]得出的原始二值运动信息图像。然后在同一压缩标准下, 设定不同的量化参数来进行视频压缩实验。

图2-4是压缩标准设定为H.264时, 量化参数分别为20、26、32的实验结果图。

图5-7是压缩标准设定为HEVC时, 量化参数分别为20、26、32的实验结果图。其中图1-7中的左边的三个图像为视频中25个采样帧中的第1、第13和第24帧, 右边三个图像为24个二值运动信息图像的第1、第13和第24帧。

3 实验结果分析

在经过压缩的每组实验数据中, 本文将每一帧二值运动信息图像分别与对应的未压缩的每帧二值运动信息图像, 在每一个对应像素求方差值。进而得到每组实验所有二值运动细心图像的方差最大值和平均值, 如表1-2所示。

从表中可以看出, 在同一个视频压缩编码标准中, 设定的量化参数越大, 方差平均值就越大。也就意味着压缩前后的二值运动信息图像的差距, 与量化参数成正比。可以得出结论:量化参数越大, 对运动检测的影响越大。从表中还可得知, 在同一个量化参数下, HEVC压缩标准下的方差平均值比H.264压缩标准下的明显要小, 在大部分实验组中, 方差最大值也要小。说明, 相对于H.264压缩标准来说, HEVC压缩标准对运动检测产生的影响也就小很多。

4 结束语

本文首先介绍了几种运动检测的方法和当前流行的一些视频编码压缩标准。然后选用目前最先进的HEVC和H.264, 在不同的量化参数下对同一段视频图像序列进行实验, 分析了这两种视频压缩技术对运动检测的影响。实验结果显示, 在同一个压缩标准中, 量化参数越大, 对运动检测影响越大。在同一个压缩比率下, HEVC压缩标准对运动检测产生的影响, 相对于H.264压缩标准来说要小。由此得知, 目前先进的几个视频压缩标准中, HEVC对于运动检测的影响较小。

参考文献

[1]初秀琴, 李玉山, 杨莉.运动物体参数估计与跟踪的线对应新算法[J].西安电子科技大学学报, 2003, 30 (2) :174-178.

[2]司红伟, 全蕾, 张杰.基于背景估计的运动检测算法[J].计算机工程与设计, 2011, 32 (1) :262-265.

[3]Hess R, Fern A, Mortensen E.Mixture-of-parts pictorial struc-tures for objects with variable part sets[C].IEEE 11th InternationalConference on Computer Vision, 2007:1-8.

[4]Hess R, Fern A.Improved video registration using non-distinctivelocal image features[C].Proc IEEE Conf on Computer Vision andPattern Recognition, 2007:1-8.

[5]Brox T, Malik J.Large displacement optical flow:descriptor mat-ching in variational motion estimation[J].IEEE Transactions on Pat-tern Analysis and Machine Intelligence, 2010, 33 (3) :500-513.

[6]Szczerba K.Fast Compressed Domain Motion Detection in H.264Video Streams for Video Surveillance Applications[C].IEEE Inter-national Conference on Advanced Video and Signal Based Surveil-lance, 2009:478-483.

率失真优化的压缩感知图像编码篇8

率失真性能是衡量图像编码系统性能的重要准则。率失真技术可以不受编码结构和技术的限制,通过配置最优的编码参数提高编码性能,是实际编码系统中常用的优化方法。量化是传统的有损编码系统中的主要失真来源,量化器性能很大程度上决定了编码效率,因而可以选择合适的量化参数使得给定编码码率下失真最小。然而在基于压缩感知的图像编码系统中除了量化,采样过程也会引起失真和码率的变化,也就是说给定码率条件下最优的编码性能由量化参数和采样参数共同决定。因而分析量化参数、采样参数和编码码率、失真之间的关系对确定最优的参数配置至关重要。

目前在基于压缩感知的图像编码系统的编码参数和码率失真之间关系的研究方面已有一些成果。文献[5]中针对传统的视频编码系统提出了延迟-能量-率失真模型。文献[6,7]针对压缩感知编码视频流提出了码率-能量-失真模型。该模型可以用于估计接收端接收到的受信道噪声污染的视频流的质量。但在基于压缩感知的图像编码系统中最优的编码参数选择方面研究成果较少。文献[8]中针对分布式视频压缩感知编码框架提出了压缩感知采样率的分配方法,该方法基于图像区域的稀疏程度进行采样率的分配,稀疏度高的区域分配较低的采样率,稀疏度低的区域分配较高的采样率。但是该方法并没有考虑量化对编码码率和失真的影响。而且算法还需要额外传输附加信息到接收端。文献[9]提出了率失真优化的码率分配方案,然而算法的效率很大程度上取决于失真模型的正确性。

本文首先分析了基于压缩感知的图像编码系统的编码参数与码率和失真之间的关系,然后分别提出了码率和失真模型,最后将上述模型用于压缩感知编码算法的优化,提出了基于率失真优化的压缩感知编码算法,选择最优的采样率和量化参数,使得编码器性能最佳。

1 压缩感知

压缩感知(Compressive Sensing)是通过线性投影将高维信号编码为低维信号的采样方法。压缩感知包括3个主要问题:稀疏表示、信号测量和信号重构。压缩感知理论实现的基础是信号的稀疏性。稀疏度定义为离散时间信号中非零元素的个数。如果在某个正交基下信号是稀疏的,并且稀疏度K远小于信号的维数N,那么该信号被称为稀疏的或可压缩的,可以通过压缩感知对信号压缩。自然图像在诸如离散余弦变换和小波变换这类变换下都是稀疏的,因此将图像看作矢量u∈RN,那么图像在正交基ΨN×N下的映射信号x是

假设存在测量矩阵Φ,维数是L×N,L≤N,则通过非相关测量将信号x投影到测量矩阵Φ上,即

可以得到测量值y,此时信号维数从N降到了L,降低了数据量。压缩感知理论证明只要采样矩阵满足限制等距特性(Restricted Isometry Property,RIP),那么从测量值y中可以高精度地重构出原信号x[10,11]。当满足RIP条件时,原信号可以通过求解下式所示的最小l0范数问题来重构,得到重构信号

由于L≤N,式(3)的求解是一个病态问题,有无穷多组解,计算复杂度很高。因此Donoho and Candes提出当满足RIP条件时,可以用l1范式代替l0范式,将式(3)转换为一个凸优化问题进行求解

通常采样个数L≥αKlog N时,可以精确重构出x。其中α是一个很小的常数。在实际环境中通常存在各种各样的噪声,对测量数据造成干扰,比如图像压缩系统中编码端就会引入量化误差。在噪声环境下信号的重构可以进一步写为

其中:参数ε表示噪声。在重构过程中,重构信号质量与测量矩阵、正交基都有关系。精确重构原信号所需的样本个数也由正交基和测量矩阵的相关性决定[12]。正交基和测量矩阵的相关性越低,精确重建稀疏信号所需要的采样个数就越少。

2 码率-失真模型

传统的视频编码系统中,量化是产生失真的主要原因,量化参数(量化步长)越大,失真越大,编码码率越小;而在压缩感知编码系统中,失真由量化和线性测量共同产生。量化参数和测量数目的设置直接影响系统的性能。比如减小量化步长会提高码率,减小失真;而增大量化步长会降低码率,增加失真。增加采样个数会增加码率,同时减小失真;而减小测量数目会降低码率,增加失真。由于无法保证码率和失真同时达到最小,因此需要在码率和失真这两个参数中获取最优的Pareto均衡。

采样个数和量化参数互不相关,因此可以分别分析他们对码率和失真的影响。当测量值的数目固定时,码率和失真随量化参数的变化如图1和图2所示。图中,Rcs表示采样个数占总数的百分比,失真是源图像和重构图像之间的均方误差。可以看出采样个数不变时,码率随着量化参数的增大而下降,失真随量化参数的增大而增加。从图1a和图2a中可以看出,码率和量化参数QP之间近似服从幂函数的分布,而图1b和图2b中失真和量化参数也近似服从幂函数分布,码率和失真与量化阶之间的关系可表示为

式中:α1,α2,α3和α4是模型参数,取值与原信号有关;R1表示码率;D1表示失真。当量化参数固定时,码率和失真随采样个数变化如图3和图4所示。可以看出码率R2随采样个数呈线性变化,失真D2随采样个数呈指数分布

式中:β1,β2,β3是模型参数,因此可以建立码率R和采样个数NCS、量化参数QP之间的数学模型

式中:αR,βR和γR是模型参数,取值与原信号有关。总失真由测量模块产生的失真和量化模块产生的失真构成,D=D1+D2。测量模块产生的失真随采样个数呈指数分布,量化产生的失真服从幂函数分布,因此失真模型可以定义为

式中:αD,βD和γD是模型参数,取值与原信号有关。

3 率失真优化的压缩感知编码

理想情况下期望最优的编码器以最小的码率获得失真最小的图像,也就是在给定码率Rb的条件下失真最小的编码器

式中:U是源图像;S是编码器配置参数矢量;D(U,S),R(U,S)分别是失真和码率。式(12)的最优值就是码率受限条件下最优的视频编码器性能。从式(12)中可以看出,编码器的失真受码率的约束,无法同时使得码率和失真最小。当给定编码码率一定时,如果分配较多比特用于采样,那么用于表示每个样值的比特数较少,导致失真增大;反之,如果用于量化的比特数较多,那么用于采样的比特就会较少,同样导致失真增大。因此根据上节提出的码率-失真模型,分析码率、失真和编码参数(量化参数和采样个数)之间的关系,提出了基于率失真优化的压缩感知编码算法,求解最优的编码参数配置,得到给定码率条件下的失真最小的编码器。

压缩感知编码框架中影响性能的因素有2个,即采样个数和量化参数,因此最优的编码参数配置实际上就是求解能够使编码效率最高的采样个数和量化参数。式(12)可以改写为

式中:D(U,NCS,QP)和R(U,NCS,QP)分别是在编码参数NCS,QP下得到的失真和码率。通过式(10)的码率模型可以计算出每组NCS,QP的取值下对应的编码码率,通过式(11)可以得到在该码率下产生的失真。式(13)可以使用拉格朗日法或是动态规划法求解。由于动态规划的复杂度随着编码单元的增加呈指数上升,导致计算量巨大,因此通常采用拉格朗日法求解。当满足KKT条件时,式(13)表示的受限优化问题可以转换成不受限优化问题,可以由下式解出

式中:λ≥0称为拉格朗日因子,也是率失真曲线的斜率。λ用来衡量码率和失真的相对重要性。λ越小失真越重要,λ越大码率越重要。拉格朗日代价值J(U,NCS,QP,λ)用于衡量编码性能的优劣,代价值越小编码性能越好。能够使得代价值最小的参数配置S*={N*CS,Q*P}就被称为最优的参数配置,对应的λ*是最优的率失真斜率,失真D*是在该码率Rb下的最小失真。诸如牛顿法或二分法这类快速搜索算法通常用于求解λ*,然而算法复杂度都较高,相当耗时。本文中通过求解KKT条件计算最优的拉格朗日因子。既然最优的参数配置S*使得J(U,NCS,QP,λ)达到最小值,那么J(U,NCS,QP,λ)的梯度在S*的值为0,也就是

式中:表示梯度运算。因此对于上面的凸优化问题,KKT条件如下

因此如果存在λ*满足KKT条件,对应的S*也就是J(U,NCS,QP)的最小值。求解满足KKT条件的λ*就可以得到式(14)的最优解,也就是最优的压缩感知编码器。

4 实验结果

本文所提算法基于Matlab编码平台进行了实验。在发送端待测图片先进行小波变换,得到稀疏信号,然后由测量矩阵进行采样,采样后的数据再经过均匀量化和算术编码生成编码码字。在接收端编码码字先算术解码和反量化,然后根据得到的采样数据进行重构。目前有多种重构算法,算法的性能与图片在小波域的稀疏性有关。本实验中采用OMP(Orthogonal Matching Pursuit)算法重构信号[13]。重构后的信号再经过小波反变换就恢复出了原图片。

实验测试了文中所提的码率和失真模型的正确性。图5显示了根据码率模型估算的码率和实际测试码率的比较。从图中可以看出,由采样数目和量化参数估算的码率和实际编码码率相符。依据码率-失真模型计算出的率失真曲线和实际测试曲线的对比如图6所示。其中图6a是在固定量化参数条件下得到的率失真曲线,图6b是在固定测量数目的条件下得到的率失真曲线,并且图中的曲线代表实际测试得到的率失真关系,菱形和星型代表模型计算结果。从图中可以看出模型产生的率失真曲线和实际曲线相符。实验还对率失真优化的压缩感知编码系统的性能进行了测试。测试结果如图7所示。可以看出根据本文提出的码率-失真模型对编码系统进行率失真优化后,系统的编码性能有了明显提高,和未优化时相比增益约有2 d B。

5 结论

本文通过分析压缩感知编码系统中编码参数和码率以及失真的关系,提出了基于压缩感知的图像编码系统的码率-失真模型。并且根据所提模型设计了率失真优化的压缩感知图像编码算法。通过优化测量数目和量化参数,得到给定码率下失真最小的编码器。实验结果表明该码率-失真模型能够很好地拟合实际率失真曲线,以此为基础提出的率失真优化算法能够有效提高压缩感知图像编码系统的性能。

摘要：针对基于压缩感知的图像编码系统,分析了系统中编码参数和码率以及失真的关系,在此基础上提出了基于压缩感知的图像编码系统的码率-失真模型。根据所提模型设计了率失真优化的压缩感知图像编码算法。在给定码率的条件下,优化编码参数,使得编码器失真最小。算法在Matlab的编码平台上进行了仿真和实验,结果证明提出的码率-失真模型能够很好地拟合实际率失真曲线,并且基于该模型的率失真优化算法有效的提高了压缩感知图像编码系统的性能。

【音频压缩编码】推荐阅读：

音频压缩采集终端论文07-07

压缩编码技术07-15

图像压缩编码05-08

压缩编码算法07-28

图像预测压缩编码算法07-18

数据压缩编码器06-20

音频信号07-20

音频管理06-08

音频技巧06-19

音频音响系统05-23

>> 查看更多相关文档