预测编码

2024-10-12

预测编码（共6篇）

预测编码篇1

0引言

图像压缩是信号与信息处理领域中的重要内容。这些年来涌现了许多压缩技术,如变换压缩编码算法、向量量化压缩编码算法、分形压缩编码算法等。变换压缩编码是目前比较有效、应用比较广泛的一类方法,使用时要先对图像进行线性正交变换。向量量化图像压缩编码算法具有压缩比高、解码迅速等优点,但也存在边缘容易失真、编码时间较长的缺陷。分形图像压缩编码算法具有思路新颖、算法简单、与原图像分辨率无关等优点,但在处理不具有明显确定性分形结构的图像时,图像复原质量不理想,另外,分形图像压缩编码算法所需时间较长。

图像压缩的目的是对给定的图像用尽可能少的数据来表示。预测编码根据图像像素之间的相关性,利用邻近像素对当前像素进行预测。用它再配合图像压缩算法就能有效地进行图像压缩。本文基于四叉树的原理,提出一个新的用于图像压缩的预测编码,它把图像分成若干个子块,通过子块间的映射减少数据在时间和空间上的相关性,从而达到压缩的目的。这种算法实现方便且快速有效,具有更大的压缩率但不降低图像质量。

1压缩方法

1.1假设和定义

为便于描述,给出下述假设和定义。假设原始图像是大小为M×N的长方形矩阵,且M、N都能被2整除,M、N为正整数。假设像素灰度的范围是0—255 ,用1字节(8 bit)存储一个像素的灰度值。F代表该原始图像矩阵,f(x,y)代表矩阵F第x行,第y列的元素。

1.2实现原理

STEP 1 把原始图像按一定规律分成四个图像子块,其长度和宽度均为原始图像的二分之一。具体方法如图1所示。

STEP 2 选择基准矩阵和参考矩阵

基准矩阵的选择是任意的,本文选择A作为基准矩阵,其余三个子图作为参考矩阵。基准矩阵在压缩前后是不变的。

STEP 3 建立映射

在参考矩阵C内选择一个元素c(x,y),同时相应找到基准矩阵A相同位置的元素a(x,y),然后用像素直接复制法或引入系数的方法建立映射。然后三个参考矩阵逐一和基准矩阵建立映射,每个参考矩阵与基准矩阵的映射方法是一样的。如图2所示。

本文介绍两种建立映射关系的方法,一种是像素复制法,另一种是系数法。这两种方法大致是一样的,只是在最后的数值处理上有点差别。

STEP 4 像素直接复制法

选择参考矩阵内的一个点c(x,y),再找到基准矩阵内相同位置的点a(x,y)后,用a(x,y)领域像素值最接近c(x,y)的点来代替点c(x,y)。如图3所示。下面是数学表达式:

STEP 5 系数法

声明一组(这里取八个,可以根据要求多取或少取)预测系数(0.3,0.5,0.8,1,1.3,1.5,1.8,2.0)。

选择参考矩阵内的一个点c(x,y),再找到基准矩阵内相同位置的点a(x,y)后,选定点a(x,y)周围若干个点(n<=9,包括a(x,y)自己),让这些点依次乘以上述八个预测系数,产生8*n个灰度值。最后用最接近c(x,y)点的灰度值来取代c点所代表的灰度值.它的原理和像素直接复制法基本相同,示意图也和像素直接复制法大致一样.下面是数学表达式:

2预测编码

2.1复制法的预测编码

在图3中a(x,y)的领域有八个像素点,把它们分别编码的话,三位数字排列就可以表示它们,分别为000、001、010、011、100、101、110、111。由于像素复制法是直接用基准矩阵的像素值代替参考矩阵相应的像素值,而一个像素点在计算机内所占的存储空间为八位,所以用三位编码来代替像素值的话,就达到了压缩数据的目的。

图像精度要求不是很高的话,还可以用两位、甚至一位编码来压缩图像。如果用两位编码,那么在基准像素点的领域内只有四个像素点可供选择,如果用一位编码,那只有两个像素点可供选择了。

2.2系数法的预测编码

系数法与复制法不同的地方,就是多了一组预测系数。同理对预测系数进行编码,分别为000、001、010、011、100、101、110、111。然后再结合像素复制法的编码,把两者结合起来就组成了系数法的预测编码。在精度要求高的时候,可以用四位编码来表示预测系数。用像素复制法编码代表的像素值再乘以预测系数代表的预测系数,就得到了所要代替的参考矩阵的像素值。引入系数法的图像压缩率比像素直接复制法要稍低一点,理论上压缩还原后的图像质量也要好一些。

3实验与分析

3.1复制法

如图4所示,三张图比较下来,d图效果最好,因为它存储的信息是最多的,使用了三位编码。b图是效果最差的,存储的信息是最少的,它的图像边缘都是像小阶梯形的,处理得很粗糙。c图效果比b图稍好,边缘的处理上稍微平滑了一点,但肉眼还是可以很容易看出来。d图的效果又比c图稍好,边缘处理得更加平滑。

复制法的优点是简单,除了边缘外,其他处理得和原图都非常接近,几乎看不出缺点,唯一不足是边缘处理得不是很好,但随着编码位数的增加,它的效果会变得越来越好。

3.2系数法

如图5所示,在b图中,它的像素编码是一位,预测系数编码是三位,相比较复制法,它边缘处理得比较理想,很平滑、几乎没有毛刺。c图使用了一位像素编码、四位预测系数编码的系数法,它比b图要处理得好些,这是因为c图用了16个预测系数,所以颜色和原图更加接近了,边缘方面也很理想,没有毛刺、失真度明显减小。d图也是五位编码,其中,两位像素编码、三位预测系数编码。它比b图要处理得好些,颜色要明亮些,但相比c图,它的边缘处理就稍显逊色一点。从c图和d图中,可以看到相同的编码位数,包含预测系数多的还原图效果更佳。

3.3算法改进

系数法的优点是边缘平滑,缺点是颜色稍显失真。解决的方法是增加预测系数的位数,在一定范围内增加它的精度。例如,有一组预测系数原来为(0.3,0.5,0.8,1,1.3,1.5,1.8,2.0),把它变化为:(0,0.3,0.4,0.5,0.65,0.8,0.9,1,1.2,1.3,1.4,1.5,1.65,1.8,1.9,2.0),这样它的压缩精度就会提高,颜色失真问题会得到很大改善。

复制法的缺点是边缘处理得不好,特别是在一位编码的时候。产生这个问题的原因也是精度不够,增加像素编码位数就能改善这个问题。

4结束语

本文主要介绍了一种新型的图像压缩算法,它有两个分支,一个是复制法,一个是系数法。复制法相比系数法,在流程上要简单,而且颜色失真度小,唯一的不足是边缘处理得不是很好。而这恰好是系数法的优点,它在边缘处理上效果非常好,与原图几乎一样,但它的缺点就是颜色失真度比复制法要大。最后提出了针对这两个问题的改进方法,根据实验分析和结果可以看出,这种算法快速有效,取得了预想的成果。

摘要：提出了一种思想新颖、实现方便的图像压缩算法。它是一种基于预测编码、通过隔行隔列分解图像,组成四个子块,然后通过图像子块间的映射来实现图像压缩的方法。预测编码采用固定的预测系数,使得预测过程速度很快。

关键词：预测系数,参考像素,压缩率,相对数据冗余度

参考文献

[1]王文成,卢金明,张永林.图像无损压缩的预测编码及量化误差处理.光电子.激光,2004,15(5):608-611.

[2]李宏贵,李兴国,罗正发.基于四叉树的灰度图像压缩方法.系统工程与电子技术,2004,26(7):981-984.

[3]王向阳.关于图像压缩编码算法研究的综述.烟台师范学院学报:自然科学版,2001,17(4):288-295.

[4]Babacan S D,Sayood K.Predictive image compression using conditionalaverages.Data Compression Conference,proceedings.DCC,2004:524.

[5]Das M.Efficient method for lossless image compression using subopti-mal.adaptive multiplicative autoregressive models.Electronics Letters,1997:1302-1304.

预测编码篇2

关键词：视频压缩编码,运动补偿,块匹配算法,运动估计

1、引言

运动补偿预测是视频压缩的关键技术之一。运动补偿技术的主要思想是利用相邻帧图像之间的相似性进行数据压缩, 实质上是一种差分编码调制技术 (DPCM) 。它对于提高时变图像序列的传输效率具有重要意义。

运动补偿预测 (MCP, Motion Compensation Prediction) 广泛应用于可视电话、视频会议等小运动量、中低比特率的视频编码, 在大运动量、高比特率环境中也表现出较好的性能。在目前己成为国际标准的视频压缩方法中, 无论是H.261、H.263、MPEG-l、MPEG-2等第一代压缩编码技术, 还是H.264、MPEG-4等第二代压缩编码技术, 都无一例外地使用了运动补偿技术[1]。

2、运动补偿概述

1、运动补偿预测技术的基本内容

运动补偿技术是对活动图像进行压缩时所使用的一种帧间编码技术。活动图像实际上是一个静止图像的序列, 在一般情况下, 相邻帧间的内容实际相差不大 (除了有场景切换等) , 有很大一部分甚至是完全一样的, 所以相邻帧间有较大的相关性, 也就是有很大的冗余, 这种相关性称为时域相关性。运动补偿的目的就是要消除这种时域相关性。

运动补偿预测技术通常由图像分割、运动检测估值、运动补偿、预测信息编码几个方面组成[2]。图像分割是运动补偿预测的基础, 但是由于图像分割比较复杂, 所以通常采用把图像分成矩形小块或者采用对每个象素的位移都进行递归估计的方法。运动估计技术的目的在于最小化编码预测误差信息和运动矢量所需相应的带宽, 主要可以分为梯度算法、象素递归算法、块匹配算法、频域算法四类。其中, 最常使用的是块匹配算法和像素递归法, 两种算法各有其特点, 通常像素递归法较块匹配法精度高。对多运动画面的适应能力也强, 但只能跟踪较小的位移 (2-3像素/帧) , 且实现复杂。块匹配法虽然精度低于像素递归法, 但由于其位移跟踪能力强 (不低于6、7像素/帧) , 且实现简单, 因此在H.263和MPEG中获得了广泛的应用。

2. 运动补偿基本原理

在视频播放过程中, 一个对象从前一帧中的左边移动到瞬态帧中的右边。如果考虑连续帧中的相同的像素内容, 将看见瞬态帧和当前帧的运动部分来自互相远离的屏幕部分。在这些像素之间几乎不存在任何相似性, 所以差别图片信号会在运动区域得到极大的增强。随着信号功率的增加, 数据速率也会增加。当一个摄相机移过一个细节非常详细的图片内容的画面时, 结果是必须为差别帧传递比原始帧更多的数据。为利用前面的帧作为预测器, 使前面帧和瞬态帧进行匹配的方法称之为运动补偿。

在视频编码过程中, 编码器从旧帧中取出对象, 就像它来自一组构造块, 并将其移动到正确的位置。当编码器对图像序列中的第N帧进行处理时, 利用运动估计技术, 得到第N帧的预测帧N'。在实际编码传输的时候, 并不是传输第N帧, 而是第N帧和其预测值的差值△。如果运动估计十分有效, △中的概率基本上分布在零的附近, 从而导致△比原始图像第N帧的能量小得多, 编码传输△所需的比特数也就小得多, 这就是运动补偿能够去除信源中冗余度的本质所在。

3. 图像序列的帧间编码和运动补偿预测

在自然场景中, 一个序列中连续帧的相似性非常大。在数据压缩期间可以利用这个事实, 并通过仅传输帧间出现的较小的差别而节省位数。当出现运动时, 相似性减少而导致数据速率提高, 但是图片内容中相同的对象仍然出现在后面的帧中, 只是出现在另一个地方。通过将移动的对象放置在合适的地方, 就可能重现帧间的类似部分。

在视频编码过程中, 运动补偿的本质是对运动的测量。这可以使用块匹配方法来实现, 为了减少数学上的复杂性, 在寻找最佳匹配块时, 使用了比较简单的块匹配准则, 如像素的绝对差值的均值法。最佳匹配块的位置取决于目标块的位置, 而目标块的位置是用运动矢量来表示的[3]。

3、块匹配运动估值算法[4]

在数据压缩中, 块匹配运动估计器可以任意处理每个新帧, 使其用大小完全相同的直接相邻的对象进行传送。另外, 对象仅仅能在2维平面上在一个方向上统一地移动, 因而, 被传输的帧被分割为一系列矩形图案块, 它们是连续产生的。运动预测器假设图案块仅仅能在x和y方向上移动一个最大值。对于每个图案块, 存在一个搜索区域, 根据基本模型, 在先前帧的这个区城内可以找到那个图案块。在使用等长步长的情况下, 图案块逐渐移动通过搜索区城内的连续位置, 并且每个位置都和旧图片进行比较。

如果某个图案块的位移达到了最佳的相似性或匹配结果, 运动补偿帧的块将填充属于先前帧的块的内容。这将和前面搜索的图案块产生最佳的匹配。通过这种方式, 运动补偿帧可以和瞬态帧尽可能地接近。

位移中的x和y成分通过侧向通道传送到接收器, 目的是可以从旧帧中构造运动补偿帧。向量的数据速率取决于查找区域的大小, 以及期望的向量的精确程度。对象的轮廓没有必要传送, 原因是所有的对象具有完全相同的矩形。

块匹配法是目前视频压缩中最常用的运动估值算法, 块匹配算法适合于物体作平移运动。其基本思想如图1所示。

首先, 将当前的帧 (第k帧) 划分力M×N图像子块, 并假定位于同一子块内的所有像素具有相同的位移。在前一帧 (第K-1帧) 内开辟大小为 (M+2h) × (N+2v) 的搜索区。在该搜索区内寻求图像子块的最优匹配来得到其运动矢量的估值 (i, j) 。

常用的匹配准则有归一化互相关函数 (NCCF) , 均方 (MSE) 和帧间绝对误差 (MAD) 等, 因MAD准则计算量小和硬件实现简单, 所以用得较多。MAD定义为:

其中, fk表示第K帧灰度值, i, j为水平和垂直方向的偏移量。

最优匹配的搜索方法有多种, 其中最可靠的是全搜索法, 即对搜索区内每一个点都计算MAD值, 最小的MAD (i, j) 值对应最优匹配, 它共需计算 (M+2h) × (N+2v) 个MAD值。全搜索方法的最大优点是能保证全局最优, 同时算法简单, 易于实现。但缺点是计算量较大, 特别是搜索区很大时, 难于实时处理, 为此, 提出了很多快速算法, 如正交搜索算法 (OSA) 、交叉搜索算法 (CSA) 、共轭方向搜索 (CDS) 、三步搜索 (TSS) 、二维对数 (TDL) 等。从已有的快速算法的综合性能考查 (计算量, 算法复杂度, 运动估值的精度等方面) , 总的来说还不能替代全搜索算法。

4、运动估值技术的发展方向

运动估值技术的研究都是围绕着实时性与估计精度这一对矛盾展开的。由于运动估值在视频压缩中的重要性, 新的运动估值算法仍在不断涌现, 其研究方向主要包括并行算法、神经网络方法等。

目前, 快速运动估值算法Unsymmetrical-Cross MutiHexagon Search (非对称十字型多层次六边形格点搜索算法) 是一种运算量相对于H.264中原有快速全搜索算法可节约90%以上的新算法, 由于它在高码率大运动图像序列编码时, 在保持较好率失真性能的条件下, 运算量十分低, 已被H.264标准正式采纳[5]。

5、结论

本文对现有图像压缩标准中的运动补偿压缩编码方式进行了初步的归纳和探讨。在多媒体信息量激增、网络特性和速度都飞速提高的今天, 对高效合理的压缩算法的研究也越来越受到重视, 很多方面的问题也越来越突出, 如编码的复杂度、实时性的改善, 解码速度的提高以及图像恢复的质量问题等。更重要的是随着信息量的不断增大, 信息检索的质量也与压缩编码方法有着越来越紧密的联系, 这些都是要解决的问题。从发展的现状看来, 由于小波和分形的混合图像编码方法能充分发挥小波和分形编码的优点, 弥补相互的不足, 因此成为了图像压缩的一个重要研究方向, 但是还远远不够成熟, 有待进一步提高。

参考文献

[1].[美]索拉里 (Solari, S.J.) 著陈河南等译.数字视频与音频压缩[M].北京:电子工业出版社, 2000:66-72.

[2].黎洪松.数字视频技术及其应用[M].北京:清华大学出版社.1997:36-38.

[3].[美]惠特克 (Whitaker, J.) 著曹晨等译.高清晰度数字视频原理与应用[M].北京:电子工业出版社, 2002:133-136.

[4].A.Murat Tekalp.数字视频处理[M].北京:清华大学出版社, 1998:93-96.

预测编码篇3

自从水印提出以后, 研究者就致力于寻找有效的解决水印的算法, 来提高水印的性能。现在图像的水印研究很成熟, 各种的算法应用在图像水印中。随着视频的广泛应用, 研究者开始把图像水印的算法应用在视频水印中, 达到视频水印的性能要求。

根据人类视觉系统[2,6]的照度掩蔽特性和纹理掩蔽特性, 可将水印嵌入在图像、音频和视频中。离散小波变换 (DWT) 的数字视频水印利用小波变换的多分辨率特性和视觉系统的掩蔽特性, 能够提高视频的抗压缩能力、鲁棒性和不可感知特性。关于DWT算法的视频水印研究方面, Osama S.Faragallah[3]提出一种在DWT域的SVD视频水印, 利用DWT对视频进行双尺度分解, 然后对高频子带HH、中频子带LH和HL进行SVD分解, 将水印掩藏在分解后的系数中。这些算法增加针对基于视频的特性和针对图像处理攻击的鲁棒性, 实现高安全级别, 抵抗对位错误保护水印, 获得良好的感知质量。刘红梅等人提出一种小波变换域的自适应视频水印算法[4]。嵌入水印对多种攻击, 如加性Gaussian噪声、高压缩比的MPEG-2 压缩编码、时域抽样和丢帧, 以及空域抽样等具有很好的稳健性。大多数研究者改进了视频水印的鲁棒性和抗攻击性, 但视频容量没有得到提升。为提升水印的安全性和容量, 本文利用线性预测编码方式, 对视频水印进行压缩, 去除冗余, 从而提高了视频的安全性, 并结合2D-DWT小波分解, 同时增强了水印的鲁棒性。

1 线性预测编码压缩模型

线性预测 (Linear Predication, 简称LP) 的基本思想是:信号的每个取样值可以用它过去的若干个取样值的加权和 (线性组合) 来表示;各加权系数的确定原则是使预测误差的均方值最小。如果利用过去q个取样值来进行预测, 称为q阶线性预测。

对于一个视频水印序列x (n) , 如果知道它是一个周期脉冲序列或一个高斯白噪声序列激励一个全极点模型所产生的, 那么线性预测算法就能按照最小均方误差的准则估计出模型的参数q以及a1~aq。

将一帧的视频信号x (n) 的预测值用∧x (n) 表示:

式 (1) 中, N为正整数;-al表示加权系数, 也称为预测系数。因为设计的是由激励产生的全极点模型, 故定义激励信号en和增益系数G, 其预测误差为en:

预测误差按均方准则来确定:

那么便可以通过式 (3) 来衡量线性预测的质量。显然 εmin越接近于零, 预测的准确度在均方误差最小的意义上最好。对于特权进程的运行特征, 可以对其建立时间序列模型, 提取模型参数作为入侵检测特征, 即用一组模型参数近似表达短系统调用序列的功能特征。关于LP模型的详细内容参见文献[8]。利用线性预测编码压缩技术, 可以使视频更精确且可以大量压缩数据来减小水印嵌入后整体冗余与噪声量, 提升视频水印的安全性。

2 基于线性预测编码的DWT域鲁棒性视频水印

2.1 2D-DWT三层小波分解

视频看作运动的图像, 则相较于图像, 视频的复杂度相对较高, 纹理区域较复杂。再根据人眼视觉系统具有掩蔽特性, 纹理越复杂, 掩蔽域值越高。通过分析DWT可将视频帧分解为高频和低频两部分, 分别表示视频帧的纹理、轮廓和细节部分。

离散小波变换及离散小波函数的公式如下:

式 (3) 中, a0j是尺度参数a的离散化;b0j为平移参数b。

将视频进行2D-DWT三层分解, 在第三层分解系数中, 因不确定嵌入哪个位置取得的视觉效果和水印质量比较好, 通过利用一些优化算法, 筛选出最优的比例a, b, c, d (a+b+c+d=1) 。将最优比例水印对应嵌入到LL3、HL3、LH3、HH3 位置中, 达到了视觉掩蔽特性效果。分解示意图如图一所示。

根据图一细化的视频帧, 可以清晰明确的了解嵌入的位置, 嵌入此位置既不影响人眼视觉的效果感应, 同时增强了视频水印的鲁棒性。通过一些算法测试, 嵌入水印后的视频可以抵抗噪声攻击、几何攻击等, 达到水印的目的。

2.2 视频水印嵌入与提取

本文将水印研究模拟通信模型, 结合水印嵌入过程和通信模型的特点, 可得出水印的通信模型。基于上述线性预测编码及2D-DWT三层小波分解算法分析, 对视频进行压缩后, 冗余度降低, 水印嵌入后整体的视频水印冗余度也相应降低, 提取出的水印信噪比得到相应提高。视频水印信号为x (n) , 将式 (2) 带入式 (3) 式可得:

为了减小预测误差, 应相应改变阶数的取值。当x (n) 由非理想模型产生, 而用一个全极点模型来估计其参数时, 只能说是用此理想模型来逼近实际的模型。在此情况下, 无所谓原产生模型的实际阶数q应等于何值, 此时提高q值可以改善逼近效果。但是在实际运算中, q值增加到一定程度以后, εmin的降低就很微弱了。进一步增加值不但大大增加运算量, 而且由于有限字长的影响, 参数估计效果反而变坏。

3 仿真结果分析

为了验证算法, 在Matlab环境下对视频水印进行仿真实验, 测试不同q值, 提取的水印效果信噪比值。图三、图四中的视频图像与水印图像均在q=8条件下产生的图像效果。图三为Forman水印嵌入前后对比图, 图四为水印嵌入前与提取后的对比图。

对于不同的模型q阶数水印, 视频水印的视觉效果及视频水印的峰值信噪比 (PSNR) 有所变化。通过实验不同q阶数, 来验证峰值信噪比PSNR和均方误差MSE。如图五所示。

经过图五分析可得, 当q阶数为8 时, 达到峰值信噪比的最大值, 当在增加或减少阶数时, 峰值信噪比开始呈现下降趋势。q=8 时, 峰值信噪比 (PSNR) 的值为39.10834, 其均方误差也会趋于0。由图五分析可知, q阶数在7~10 之间时, 视频水印的质量会相对较好。

4 结束语

针对线性预测编码方法, 本文提出了线性预测编码的DWT域的视频水印算法。基于各位学者对DWT域小波分解的视频水印研究, 在结合预测线性编码后, 通过改变量化阶数, 从而提升视频水印的质量, 实现了对视频的冗余得到一定的去除, 提升了视频水印的嵌入容量, 增强了视频水印的安全性及抗几何攻击[7]。

参考文献

[1]叶闯, 沈益青, 李豪, 等.基于人类视觉特性 (HVS) 的离散小波变换 (DWT) 数字水印算法[J].浙江大学学报 (理学版) , 2013, 40 (02) :152-155, 165.

[2]Tao Chen, Hongtao Lu.Robust spatial LSBwatermarking of color images against JPEG compression.Advanced Computational Intelligence (ICACI) [J].IEEE Fifth International Conference on, 2012, 872 (875) :18-20.

[3]Osama S.Faragallah, Efficient video watermarking based on singular value decomposition in the discrete wavelet transform domain, Dept of Computer Science&Engineering, Faculty of Electronic Engineering, Minufiya University, Menouf 32952, Egypt, Int.J.Electron.Commun., 2013, (67) :189-196.

[4]刘红梅, 黄继武, 肖自美.一种小波变换域的自适应视频水印算法[J].电子学报, 2001, 29 (12) :1656-1660.

[5]Qiwei Lin.An error correction coding combined robust video watermar-king algorithm for H.264 standard[A].Anti-Counterfeiting, Security and I-dentification (ASID) , 2013 IEEE International Conference[C].2013.

[6]Jie Shi, Qin Yan, Huijuan Shi, et al.Visual attention based image zero watermark scheme with ensemble similarity[A].Wireless Communica-tions&Signal Processing (WCSP) , 2013 International Conference[C].2013.

[7]王向阳, 杨艺萍, 杨红颖.基于小波矩的抗几何攻击数字图像水印算法研究[J].中国图象图形学报, 2010, (01) :15-19.

预测编码篇4

H.264/AVC是ITU_T和MPEG联合制定的新的国际视频编码标准,以传统的混合编码框架为基础,提供了更多可供选择的编码模式。在H.264/AVC中,编码器依据图像内容选择合适的编码模式,使得整体编码性能相对于先前的标准得到了显著的提高[1]。但在编码过程中,由于标准采用率失真优化的方法[2],需对每一种块划分模式计算其失真度和比特率,这就使得编码过程较为复杂,增加了编码所需要的时间。

目前已有人提出一些算法对块划分模式进行快速选择,如文献[3]通过判断当前块是否处于均质区来对宏块模式进行选择,文献[4]对相邻两帧的静止区及均质区进行判断,再采用相应的宏块模式进行计算,文献[5]对原图像进行缩放,然后在原始图像与缩放图像之间建立映射,进行宏块模式选择。文献[6]中提出利用当前块的DCT系数计算该块的能量,从而得出块的纹理复杂度,并进行快速的划分模式选择。这些方法都在很大程度上减少了计算量。

1 H.264帧间宏块模式选择与分析

H.264/AVC视频编码标准进行帧间预测编码时,要对如表1所示的各种可选的宏块类型中,遍历每种可用的编码模式[7],计算出每种模式下的图像失真度、率失真开销,公式如下:

式中,J即率失真开销,QP为宏块的量化参数,s,c分别表示原始图像和重建图像的像素值,λMODE为拉格朗日系数,MODE为当前宏块可选的一种编码模式,R(s,c,MODE|QP)表示在特定QP和MODE下当前宏块的编码输出比特数,SSD(s,c,MODE|QP)表示图像失真度。

在帧间预测时,宏块最终选取的编码模式为所有的模式组合中使J最小的那一种组合。整个率失真开销的计算如图1所示。

从图1中可以看出:每种块划分模式下的率失真开销的计算,编码器都要重复执行整数DCT变换/量化,整数DCT反量化/反变换,熵编码。对于某些视频序列,一些划分模式出现的概率很小,但率失真优化算法为了确定最佳的块划分模式,编码器仍会计算所有块划分模式组合的率失真开销。这样,就会增加一些无用的计算。如果能够略掉这些无用的计算,则会相应地节省计算时间。

2 理论分析与设计

实际上,为了提高编码效率,标准对于图像所表现出的不同纹理特征,会采用不同的编码模式。通常对运动补偿后残差较小的宏块,采用大的块模式编码(SKIP/DIRECT、16×16、16×8、8×16),对于残差大的宏块采用较小的块尺寸(8×8,8×4,4×8,4×4)。

由此可得,如果在进行率失真优化时,能够事先减少编码模式的数量,同时又能够保持图像质量基本不变,就可以节省编码时间。

通过测试模型JM7.6[8]对各种QCIF 图像序列的前100个P、B帧进行的统计,发现在Container、Miss、News等图像序列中,SKIP/DIRECT模式所占比例在一些图像序列中可占70%以上,如表2所示。

在实验中,发现一个普遍现象,即随着当前帧内SKIP/DERICT模式与16×16模式的宏块编码的依次增多,其所对应的MAD值有变大的趋势。为了更清楚一些,在此将宏块的所选择的模式及其MAD、MAFD用曲线表示出来,如图2,图3所示。其中纵坐标为帧间预测模式(0:SKIP/DIRECT,1:16×16,2:16×8,3:8×16,4:8×8,5:8×4,6:4×8,7:4×4)[8]。横坐标为该帧内的第几块,BESTMODE为采用率失真优化后当前宏块所采用的编码模式。

MAFD为当前帧与其参考帧的平均绝对帧差,MAD为宏块平均绝对差,两者定义如下:

$Μ A F D = \frac{1}{Μ Ν} \sum_{i = 1}^{Μ} \sum_{j = 1}^{Ν} | x_{i, j} - y_{i, j} |$

$Μ A D = \frac{1}{256} \sum_{i = 1}^{16} \sum_{j = 1}^{16} | x_{i, j} - y_{i, j} |$

其中xi,j,yi,j是当前帧与参考帧在(i,j)处的像素值,M、N是当前帧的水平与垂直尺寸。

由图2、图3可以看到,在自然序列News、Mother_and_Daughter的随机P或者B帧中,当宏块模式采用SKIP/DIRECT模式时,随着当前帧内所编码宏块的依次增加,其MAD值在整体上有着上升的趋势,随着进一步的实验,通过大量各种序列的实验及做图观测,我们得出下面三条结论:

1) Miss、Container、Suzie、News等运动比较平缓的图像序列中的B或P帧局部区域内,如果采用SKIP/DIRECT模式或者16×16块模式,则其MAD值相差不大,且其值会随着当前帧SKIP/DIRECT宏块模式编码的依次增多,其所对应的MAD值整体上有着变大的趋势。

2) 在对运动比较剧烈的图像序列Foreman、Carphone、Glasgow的B或P帧进行预测时,当MAD值较大时,很少采用SKIP/DIRECT模式块模式来进行预测。

3) 如果当前宏块的前面的宏块采用的是SKIP/DIRECT模式,且两者的MAD值相差较小,则当前宏块很大可能是采用SKIP/DIRECT模式;如果当前宏块前面的宏块采用的是16×16的宏块模式,且相邻宏块的MAD值相差较小时,当前宏块很可能采用16×16、16×8、8×16模式,当然这种趋势在运动剧烈的图像中变得不可捉摸。

基于以上三条规律,我们可以很好地利用这些特性来设计出新的算法,对当前宏块的模式选择进行预测。

3 快速算法设计

设定的预测方案如下:

(1) 如果当前宏块的MAD值小于T1,则当前宏块采用SKIP/DIRECT模式;

(2) 如果当前宏块的MAD值小于T2,则当前宏块采用16×16、16×8、8×16的宏块进行预测;

(3) 否则,按标准算法进行预测。

T1,T2的定义如下:

T1=MADFSKIP/DIERCT+Δ1

T2=MADF16×16+Δ2

其中MADFSKIP/DIERCT为当前宏块之前所采用SKIP/DIRECT模式的宏块所对应的MAD值,MADF16×16为当前宏块之前所采用16×16模式的宏块所对应的MAD值;Δ1,Δ2为修正值,其随着MAD值的变化而变化,具体如表3、表4所示。

改进算法是在JVT标准算法JM7.6上的率失真优化程序rdopt.c中的void encode_one_macroblock ()函数中加以实现,具体算法设计如下:

(1) 计算当前I宏块的MADI;

(2) 如果I宏块为当前帧的第一个宏块,则计算当前帧与其前一帧的MAFD帧;

(3) 如果当前宏块采用的是SKIP/DIRECT模式,则令T1= MADI+Δ1;如果当前宏块采用的是16×16的宏块模式,则令T2 = MADI+Δ2;

(4) 计算下一宏块的MADI,如果MADI < T1,则当前宏块采用SKIP/DIRECT模式,并令T1= MADI+Δ1;如果不满足条件,则转到(5);

(5) 如果MADI < T2 ,则当前宏块采用16×16、16×8、8×16的宏块模式进行预测,并令T2 = MADI+Δ2;如果不满足条件,则转到(6);

(6) 不满足条件者按标准JM7.6算法进行计算。

4 实验结果与分析

本实验在PC机上编程实现,PC机配置:CPU,AMD Athlon XP 2500+;内存,768MB。

JM7.6参数设置:采用CABAC、5参考帧、搜索范围±16;使用Hadamard变换、RDO;P帧QP=28、B帧QP=30;视频为QCif(尺寸:176×144),编码序列分别为IPPP、IBBP。

选取9种视频序列的前100帧,对IPPP、IBBP分别采用标准算法JM7.6及本文提出的改进算法进行实验。实验结果从编码时间(Time)、亮度分量Y的信噪比(Y SNR)、输出码率(Bits)三个方面进行统计,处理结果如表5、表6中所示。其中,Time栏中的负值表示改进算法比原H.264/AVC标准算法在编码时间方面节省的百分比;Y SNR中的负值表示改进算法比H.264/AVC原标准算法在量度信噪比的下降数;Bits栏为相比于原标准算法,改进算法相比于标准算法的比特波动情况。

由表5、表6可以看出,在实验参数设置一致的情况下,无论是对IPPP或IBBP编码序列,在Y SNR减少0.1dB以内,Bits增加不大的情况下,编码时间都得到或多或少的节省。只是对于运动剧烈的视频序列,如mobile,编码时间节省有限,而对于运动平缓的视频序列,如Miss,mother_daughter等,编码时间甚至可节省近50%。这符合算法设计,因为对于运动变化剧烈的图像,由于相邻块之间的相关性较差,因而满足阈值判断的块数就较少,因此,编码时间节省有限;对于变化比较平缓的图像,相邻块之间的相关性较强,满足阈值判断的块数就多,变化越缓慢的图像,满足条件的块数就越多,因此,编码时间节省百分比就越大。

由于在实验中采用的是阈值判断,因而存在着误判情况,如果对原标准中较小的宏块模式误判成满足条件者,即采用较大宏块模式进行编码,其图像质量Y SNR自然会降低,而在比特数方面,由于预测宏块与原始宏块的残差增大,会导致比特数的增加,这就是实验结果Bits中为什么大多数为正值的主要原因。反之,亦然。

图4和图5为 Miss_American(IBBP)在Time和Y SNR的前100帧数据比较图,由图可见,改进算法相对于标准算法,在YSNR基本保持不变的情况下,其编码时间有着较为明显的节省。

5 结语

通过分析H.264/AVC帧间编码SKIP/DIRECT模式选择的基础之上,提出了一种快速的帧间自适应宏块模式选择算法,该算法依据当前块之前最近采用的SKIP/DIRECT模式或者16×16宏块模式的MAD值,来对当前宏块的模式进行预判,从而减少帧间宏块模式选择的数量。从验证模型JM7.6上的实验结果来看,在保持图像编码质量, 视频编码比特没有太大增加的情况下,对变化不是很剧烈的视频序列,该算法可节省近50%的编码时间,对变化较剧烈的视频序列,亦可节省近10%的编码时间,弥补了原标准在帧间预测方面需要大量计算时间的不足,提高了编码器的工作效率。

摘要：通过对H.264/AVC帧间预测模式选择的实验观测,发现最近采用的SKIP/DIRECT模式或者16×16宏块模式,和当前块的选择模式有着空间和时间上的关联。依据这一现象,提出了一种快速的帧间自适应宏块模式选择算法。从验证模型JM7.6上的实验结果来看,在保持图像编码质量,视频编码比特没有太大增加的情况下,该算法对变化不是很剧烈的视频序列,可节省近50%的编码时间,对变化较为剧烈的视频序列,亦可节省近10%的编码时间,降低了原标准在进行帧间预测时的复杂度,提高了编码器的工作效率。

关键词：H.264/AVC,宏块类型,率失真优化,帧间预测

参考文献

[1]Joint Video Team(JVT)of ISO/IEC MPEG and ITU-T VCEG Work-ing Draft,Geneva,Switzerland.January,2002.

[2]Sullivan G J,Wiegand T.Rate-distortion optimization for video com-pression[J].IEEE Signal Processing Magazine.November,1998,15:74-90.

[3] Wu D,Pan F,Lim K P,et al.Fast Intermode Decision in H.264/AVC Video Coding[J].IEEE Transactions on Circuits and Systems for Video Technology,2005,15(7):406-409.

[4]Jing X,Chau L P.Fast approach for H.264 inter mode decision[J].E-lectronics Letters 19th,2004,40(17):1123-1126.

[5] Zhu Dongdong,Dai Qionghai,Ding Rong.Fast Inter Prediction Mode Decision for H.264[J].IEEE International Conference on Multimedia Expo,2004,2:1123-1126.

[6]Yu A C.Efficient Block-Size Selection Algorithm for Inter-Frame Cod-ing in H.264/MPEG-4 AVC[J].IEEE International Conference on A-coustics,Speech,and Signal Processing,2004,3:169-172.

[7] Ralf S,Thomas W,Heiko S.The emerging H.264/AVC Standard EBU Technical Review.January,2003.

预测编码篇5

1 HEVC帧内预测方法

在HEVC中, 每个图像被分割为正方形图像区域, 称之为最大编码单元 (largest coding unit, LCU) , 最大为64×64.LCU进一步分裂为更小的称之为CU (coding unit) 的单元, 作为帧内编码的基本单元。HEVC参考模型HM采用了一种基于四叉树的图像分割和预测方法。图1显示了对一个64×64的LCU进行分割, 并用多种不同尺度的预测块进行编码, HEVC中一个预测块称之为预测单元 (prediction unit, PU) 。帧内编码预测块都是正方形的。HEVC总共支持5层帧内预测单元, 但对于HEVC Main Profile, 共有4种有效的帧内预测块尺度类型:8×8, 16×16, 32×32及64×64。图1显示了对一个64×64最大编码块的4层不同尺度预测块分割以及编码顺序。与H.264/AVC相比, 除了预测块类型数量增加, 每一个块的预测模式数量也有增加。

HEVC支持总共35种帧内预测模式, 表1规定了每个模式的序号和名称, 其中:模式0表示Planar预测, 模式1表示DC预测, 模式2至34表示不同方向的角度预测。

HEVC采用RDO技术来获取最佳编码性能。参考软件HM10.0[6]中, 首先使用Hadmard代价模型遍历当前预测块的35种帧内预测模式, 选择其中的最佳候选预测模式;然后使用RDO代价模型遍历当前预测块的最有可能模式, 选择其中的最佳候选模式;最后对这两种候选模式再一次使用RDO代价模型得到当前预测块的最佳帧内预测模式以及相应的最小代价。对于一个64×64预测块, 其分割方式及编码顺序如图1所示, 首先计算4个8×8预测块的最佳模式和最小代价, 将其相加得到8×8分割下的最小代价和, 再计算16×16预测块的最佳模式和最小代价, 比较决定当前16×16预测块是否需要分割为4个8×8预测块;按照同样的方式处理下一个16×16预测块, 将4个16×16预测块的最佳代价相加, 与32×32预测块的最小代价进行比较, 决定当前32×32预测块是否需要分割为4个16×16预测块。按照这种方法处理4个32×32预测块, 将4个最小代价相加与64×64预测块的最小代价进行比较, 决定当前64×64预测块是否需要分割为4个32×32预测块。可见一个最大编码单元帧内预测模式的判定需要大量的计算。对于高清或超高清视频序列, 如此高的计算复杂度非常不利于实时应用。

2 HEVC帧内预测块尺度的快速选择方法

通过观察容易发现, 最佳帧内编码块类型与图像块的纹理复杂度高度相关, 因此, 纹理复杂度的检测是本文算法的关键问题。

一般情况下, 大块类型适合于图像中的连续平滑区域, 而小块尺度适合于边缘以及纹理丰富的区域[7,8]。由于视频的图像分辨率从标准到高清甚至超高清, 图像会包含较大的平滑区域, 使用大块尺度编码效率较高。这就是HEVC支持较大编码块的原因, 同时也有较灵活的分割结构来处理纹理区域以及非对称区域。复杂图像块一般在像素的强度上有着明显的不相似性, 而这种不相似性通过统计上的方差很容易检测。

均方误差 (MSE) 可以用来有效地表示图像块的复杂度[9], 为避免平方运算, 用平均绝对误差 (MAD) 代替MSE表示预测图像块的复杂度, 其计算公式如式 (1) 与式 (2) 所示, 其中f (x, y) 表示图像块中的像素亮度分量。

在参考软件HM10.0[6]中, 采用遍历搜索的方式对几种不同纹理的视频序列进行测试, 可以得到各个预测单元的最佳分割方式, 如图2所示。统计可得最佳预测块尺度类型与其对应的平均MAD值, 如表2所示。

观察可知, 最佳预测块类型基本遵循两条规律:第一, 纹理简单区域选择大尺度模式, 纹理复杂区域选择小尺度模式;第二, 64×64的MAD值一般较小, 8×8的MAD值一般较大, 32×32和16×16的MAD值介于两者之间。

将这个特点应用于HEVC帧内预测块类型选择过程中, 设置3个MAD阈值THmad1, THmad2, TH-mad3, 提前检测各个尺度预测块的MAD值, 选择预测块类型, 减少穷尽搜索代价计算过程。大大降低了帧内预测块尺度模式选择的复杂度。具体步骤如下:

1) 对于当前64×64预测块, 若MAD≤TH-mad1, 则不对其进行分割, 直接采用64×64预测类型, 否则进入步骤2) 。

2) 将64×64预测块分割为4个32×32预测块, 对于每个32×32预测块, 若THmad1<MAD≤THmad2, 则不对其进行分割, 直接采用P32×32预测模式, 否则进入步骤3) 。

3) 将32×32预测块分割为4个16×16预测块, 对于每个16×16预测块, 若THmad2<MAD≤THmad3, 则不对其进行分割, 直接采用16×16预测模式, 否则进入步骤4) 。

4) 将16×16预测块分割为4个8×8预测块, 直接采用8×8预测模式。

很显然, 这种基于MAD的帧内块尺度模式选择的方法取决于阈值THmad1, THmad2, THmad3以及THmad4的大小。通过大量实验, 设置THmad1=2, THmad2=3, THmad3=6。进一步观察图1, 发现仍然有少数预测块的最佳模式分布并不满足上述两条规律, 主要是因为采用RDO技术进行模式选择只能够获得客观上的最佳模式, 忽略了主观效果。任何情况下, 只选择最小RD代价所对应的模式为最佳模式, 而不考虑预测块的具体复杂度, 从而造成了不少计算冗余。所以, 提出的基于纹理复杂度选择块尺度的方法非常具有实际意义。

3实验结果与分析

将本文算法在HEVC测试模型HM10.0[6]中进行评估。为了将所提出的算法与测试模型HM10.0的性能进行比较, 使用相同的PC平台进行仿真测试, 硬件平台为:Intel Core处理器, 主频2.20GHz, 内存2GB.采用多个不同分辨率, 不同纹理特性的视频序列Class A到Class E测试算法的性能。测试条件设置如下:采用HEVC Main Profile进行编码, 编码对象为每个视频序列的前100帧;全I真编码;QP设置为32。评估算法率失真性能和计算复杂度的参数为与参考软件HM10.0中的穷尽搜索算法相比重建图像质量降低的分贝数ΔPSNR (d B) , 总比特率升高的百分比ΔBit-rate (%) , 以及平均编码时间减少的百分比ΔEnc Time (%) , 其中, ΔPSNR与ΔBit-rate的计算可参考文献[10], ΔEnc Time的计算如式 (3) 所示:

表3~表7列出了本文算法与参考模型HM10.0测试视频序列Class A到Class E的实验结果。对视频序列Class A的测试结果如表3所示, PSNR平均损失了0.025 d B, 比特率平均提高了2.015%, 编码时间减少了25.175%。对视频序列Class B的测试结果如表4所示, PSNR平均损失了0.024 6 d B, 比特率平均提高了2.868%, 编码时间减少了29.414%。对视频序列Class C的测试结果如表5所示, PSNR平均损失了0.061 d B, 比特率平均提高了3.362 5%, 编码时间减少了29.91%。对视频序列Class D的测试结果如表6所示, PSNR平均损失了0.018 3 d B, 比特率平均提高了3.4275%, 编码时间减少了30.545%。对视频序列Class E的测试结果如表7所示, PSNR平均损失了0.024d B, 比特率平均提高了3.81%, 编码时间减少了34.306 7%。实验结果表明, 与HM10.0中穷尽搜索帧内模式选择算法相比, 本文算法能够平均减少29.87%的编码时间, 同时比特率增加3.09%, PSNR下降0.031%。

图3显示了Class D视频序列Race Horses中的第1帧原图, 图4显示了对Class D视频序列RaceHorses第1帧采用本文方法编码后的重构图像, 而对两幅图像进行直接目视对比容易发现:除了人的面部细节清晰度略微降低外, 重构图像与原图在主观视觉上完全一致。

综上, 本文算法处理不同分辨率, 不同纹理结构的视频图像时, 都能够显著提高其编码速度, 而PSNR和Bit-rate的损失可以微乎其微, 同时能够保持较好的解码图像质量。

4结论

为降低HEVC帧内预测块尺度选择的计算复杂度, 提出了一种基于纹理复杂度的帧内预测块尺度快速选择方法。该方法利用简单的平均绝对误差估计, 提前检测预测块的纹理复杂度, 从而快速有效地判断预测块的尺度类型, 减少穷尽搜索代价计算过程。实验结果表明, 本文方法能够在保持较高率失真性能以及图像质量的前提下, 有效降低HEVC帧内预测块尺度模式选择的计算复杂度, 从而明显提高HEVC的编码效率。

参考文献

[1] JCT-VC.Working draft 9 of high-efficiency video coding.Geneva:JCT-VC, 2013

[2] Sullivan G J, Ohm J, Woo J H, et al.Overview of the high efficiency video coding (HEVC) standard.IEEE Transactions on Circuits and Systems for Video Technology, 2012;22 (12) :1649—1668

[3] Lainema J, Bossen F, Woo J H.Intra coding of the HEVC standard.IEEE Transactions on Circuits and Systems for Video Technology, 2012;22 (12) :1792—1801

[4] Liang Z, Li Z, Ma S W, et al.Fast mode decision algorithm for intra prediction in HEVC.2011 IEEE Visual Communications and Image Processing.Tainan, Taiwan:IEEE Impress, 2011:1—4

[5] Wei J, Ma H, Yao W C.Gradient based fast mode decision algorithm for intra prediction in HEVC.2nd International Conference on Consumer Electronics, Communications and Networks, Three Gorges, China:IEEE Impress, 2012:1836—1840

[6] JCT-VC.Reference Software HM 10.0.2009-11-12[2010-01-20].https://hevc.hhi.fraunhofer.de/svn/svn_HEVCSoftware/tagss/HM-10.0

[7] Bharanitharan K, Liu B D, Yang J F, et al.A low complexity detection of discrete cross differences for fast H.264/AVC intra prediction.IEEE Transaction on Multimedia, 2008;11 (7) :1250—1260

[8] Pan F, Lin X, Rahardja S, et al.Fast mode decision algorithm for intra-prediction in H.264/AVCvideo coding.IEEE Transactions on Circuits and Systems for Video Technology, 2005;15 (7) :813—822

[9] Yu A, Ngan K, Martin G.Efficient intra-and inter-mode selection algorithms for H.264/AVC.Journal of Visual Communication and Image Represent, 2006;17 (2) :322—343

预测编码篇6

藏密学 (Steganograph) 是信息隐藏技术中重要一环, 其目标是希望在不被第三者发觉的情况下, 让重要的秘密讯息藏匿在掩护媒体 (Cover Media) 中而成伪装媒体 (Stego Media) 。如此, 便可以利用传送伪装媒体的过程, 一并传达秘密讯息, 同时不被任何人察觉。然而对于应用于影像的藏密技术而言, 必须在影像的质量以及秘密讯息的藏量中进行取舍。因为通常藏入较多的秘密讯息时, 容易被有心人士发觉并进而加以破解。因此, 为了防止影像质量被破坏得太严重, 故无法藏入过多的信息。如何能够保持高水平的影像质量, 并且能够达到最大秘密讯息藏量, 一直是学者们所追求的目标。此外, 为了节省网络占用太大的带宽, 增加数据传送效能及降低数据储存容量, 多媒体数据皆需经由压缩技术先行处理。因此, 一般较为常见的藏密技术建构于VQ[1]、SMVQ[2]等压缩域上发展。

属于压缩域的信息隐藏技术为了维持解压后的影像质量, 通常都会结合多种影像压缩技术对影像进行处理, 此时便必须使用一些额外的指示位, 记录每个压缩区块所使用的压缩方法, 使接收方获得压缩后的影像后, 能够根据这些指示位, 正确地分辨, 应该使用何种压缩技术将每个区块影像还原。然而, 这些用来记录额外指示位的藏匿空间, 无疑是一项额外的成本付出。Wu et al. [3]提出了不需使用额外指示位做记录的信息隐藏技术。此技术藉由更改压缩影像索引值达到藏入秘密讯息的目的。且藏入秘密讯息后的伪装影像, 信息藏量相当高, 同时可以呈现良好的影像质量。

另外一个信息隐藏技术中较为热门的议题, 便是可逆式信息隐藏技术, 其特点为使用此技术在掩护影像中藏入秘密讯息进而成为的伪装影像, 当接收方提取出秘密讯息后, 可以完整还原为原始影像。直方图位移法 (Histogram Shifting) 是Ni et al.[4]在空间域上提出的可逆式信息隐藏技术。其方法通过将掩护影像中的每个像素值进行累计, 而将所获得的数据以直方图呈现, 标示出直方图内出现最高频的峰点 (Peak Point) 像素值 (简称P) 及没有出现的像素值称为零点 (Zero Point) (简称Z) , 然后将将[P+1, Z-1]范围内的像素值全部加1, 便能创造P+1作为藏入秘密讯息的空间。当欲藏入的秘密讯息为02时便可藏入P点, 当欲藏入的秘密讯息为12时便可以藏P+1点。此方法的总藏量为P点的数量。

因此本研究将上述两个方法的特点加以结合并改进其缺点, 提出能够有效提升信息藏量的信息隐藏技术。在本研究所使用的方法中, 将秘密讯息的藏入动作分为两个阶段。第一阶段改良Wu et al.[3]所提出的方法, 本文提出在状态编码簿 (State Codebook) 中, 使用内插法对状态编码簿进行编码字的扩充的程序, 能够有效地大幅减少, 编码值在经过第二阶段藏入秘密讯息的更改后, 还原影像时可能会造成的区块预测失败的问题。另外第二阶段则根据直方图位移法的概念, 提出将直方图中的每个编码值皆视为可藏入秘密讯息的峰值, 藉此增加秘密讯息的藏量。当然此方法一样不需记录额外的指示位, 便可无损地将影像还原至第一阶段压缩影像质量, 所以信息藏入量将充分地获得使用。

本文将于第2章探讨Wu et al.[3]所提出的方法, 接着在第3章介绍本研究所使用的方法, 第4章为本研究的实验结果, 最后根据研究结果, 于第5章提出结论。

2 文献探讨

Wu et al. [3]所提出的方法, 首先必须运用LBG算法[5]对多张训练影像进行编码簿训练, 进而产生一本编码簿, 接着再将上述多张训练影像, 分别切割成K个大小相同的不重复区块, 然后再利用公式1, 依照目前处理区块的上方区块 (U) 以及左方区块 (L) 所提供的边缘像素值信息, 将区块进行依照类型分类, 之后所有的区块便可以分成4种不同类型, 接着再次使用运用LBG算法[5]对每个类型的区块单独进行编码簿训练, 藉此产出C1、C2、C3及C4四本不相同的编码簿。公式1区块类型分类方法[3]如下:Type (1) :if var (U) >THvar & var (L) >THvar;Type (2) :if var (U) >THvar & var (L) ≦ THvar;Type (3) :if var (U) ≦ THvar & var (L) >THvar;Type (4) :if var (U) ≦ THvar & var (L) ≦ THvar。

然后将遮蔽影像 (Cover Imager) I, 以同样的大小切割成K个大小相同的不重复区块, 再依据每个区块的变异程度 (THvar) 不同, 将区块依据不同的类型进行分类。分类后的区块, 将会分成4种不同类型, 每种类型会有相对应的编码簿及编码策略, 属于第一、二、三类型区块, 将分别使用相对应的C1、C2、C3编码簿, 进行 VQ编码, 同时这3类的区块中将不会进行秘密讯息的藏入。至于第四类型的区块, 则使用C4编码簿进行SMVQ编码, 并且更进一步地判断是否能够藏入机密讯息。此方法是以SMVQ编码后的失真度 (THsmd) , 判别该区块是否适合进行秘密讯息藏入的关键。假若区块 (X) 进行SMVQ编码所产生的状态编码簿大小为n, 与编码区块 (X) 最为相似的编码字为sw (X) 。令d= (X, sw (X) ) 表示编码区块 (X) 与sw (X) 编码字的欧几里得距离, 若d>THsmd代表该区块失真过大, 不适合藏入秘密讯息, 因此使用C4编码簿对该进行VQ编码, 并在最后加入一个领导位串 (leading bitstream) 作为标识, 该领导值的二进制值为 (n-1) , 代表此编码区块不藏入秘密讯息;反之, 若d≤THsmd, 则表示区块的失真在可容忍范围内, 故藏入秘密讯息。

3 本文提出的方法

首先, 将状态编码簿中的n编码字, 使用内插法进行扩充, 扩充成2n-1个编码字, 以提高每个编码字之间的相似度, 如此将可以改善解压缩影像时失真的问题。接着便可将第一阶段藏入机密讯息后的编码表由左而右、由上而下依序扫描, 找出属于相对平滑的第四种类型区块之编码值, 并将这些编码值依其出现频率进行统计, 制作编码直方图。以下举例说明秘密讯息藏入过程。假设图1 (a) 表示整张表皆为第四种类型的可藏区块编码值, 图1 (b) 为编码值表之直方图例。然后便可根据编码值由大至小将秘密讯息藏入, 编码值本身为峰值, 当秘密讯息为02时, 则编码值不变动;但当欲藏入的秘密讯息为12时, 则将编码值加1。在图1 (a) 共有9个皆为第四种类型的可藏区块编码值, 因此亦可藏入9个位。假设机密串流为S= (101011101) 2, 按照此方法将秘密讯息藏入后的编码值过程如下:首先观察图1 (b) 中最大的编码值为7, 其数量为1, 因此我们可以藏入1个位的秘密讯息 (1) 2。依照上述藏入方法将编码值7加1, 藏入秘密讯息后的编码表如图2 (b) 所示。

接着观察图1 (b) 中第二大的编码值为6, 其数量为1。先将编码值6之后的所有编码值皆加1 (向右位移) , 藉以创造藏匿空间, 接着依照上述藏入方法操作可以藏入1个位的秘密讯息 (0) 2, 因此编码值6不变动, 藏入秘密讯息后的编码表如图3 (a) 所示。

观察图1 (b) 中第三大的编码值为5, 其数量为2, 因此先将编码值5之后的所有编码值皆加1以向右位移, 藉以创造藏匿空间, 接着依照上述藏入方法操作可以藏入2个位的秘密讯息 (10) 2, 如图4 (a) 所示。依照此方法对编码表进行操作, 直到编码表中的最小编码值完成秘密讯息的藏入, 并另行记录最大编码值相关信息后, 便完成第二阶段秘密讯息的藏入。本文先进行直方图向左位移的方式还原编码值后并同时提取机密讯息后, 再提取Wu et al.的取出秘密讯息程序。先行左而右上而下扫描整张编码表, 找出编码表内为第四种类型可藏的区块, 并将编码值依其出现频率累计, 制作为编码直方图。如图5所示, 已知编码表最大编码值为13, 数量为1, 可以取出藏入的秘密讯息为 (1) 2。取出秘密讯息后, 再将编码值13减1进行向左位移还原, 如图6所示。照理接着要处理编码值11, 但是编码值11为空值 (图6 (b) ) , 先将11之右的值全减1, 再往左找到编码值10, 其数量为1。此时, 可以取回秘密讯息 (0) 2, 并将编码值10之后的编码值, 全部减1进行位移还原。

以此方法对编码表进行操作, 直到编码表中的最小编码值完成秘密讯息的提取, 便完成第一阶段秘密讯息的提取, 并且将编码表还原到使用Wu et al. [3]所提出藏入法的编码串流。

4 实验结果

本文所进行的实验过程, 首先运用LBG算法[5]对5张512×512的灰阶影像分别为Lena、Airplane、Boat、Peppers以及Toy进行编码簿训练以产生一本原始编码簿。然后将4张512×512的灰阶影像Lena、Airplane、Peppers及Boat, 以4×4为区块大小, 将影像切割成为多个不重叠区块, 接着利用公式1将区块分类后, 再根据区块的类型分别进行训练, 以产生C1, C2, C3以及C4等4本编码簿, 每一编码簿的大小为512×512。针对可藏区块, 则是以大小为32的状态编码簿来进行Wu et al[3]、结合区块预测及编码连索位移之信息隐[6]本文所提出的区块内插预测法, 以便将可藏编码以连索位移的可回复式藏密方式, 将秘密讯息藏入影像中。

经实验证实, 当在影像中藏入18 593个位的数据量时, Lena影像的PSNR值达31.45dB, Airplane影像的PSNR值为30.85dB, Boat影像的PSNR值为30.52dB, Peppers影像的PSNR值为29.54dB。当影像质量PSNR值维持为31.45时, Wu et al[3]的总藏入量为16 000 bits, 而没有使用内插法在SMVQ预测中进行编码字扩充的编码连锁位移信息隐藏技术[6] 总藏入量为18 417 bits, 至于本文所提出的方法总藏入量高达18 593 bits。由图7及图8的实验结果可以看出, 在相同的PSNR值之下, 本文所提出的方法相较于Wu et al[3]可使信息总藏入量提升约16%, 相较于没有运用内插法的连锁位移信息隐藏技术[6], 本研究使用内插法来产生状态代码的信息总藏入量可以再提升约1%, 由此可知本文所提出的方法较为胜出。

5 结论

本文所提出的方法, 经由改良并强化Wu et al.[3] 所提出的方法后, 再通过直方图连索位移可逆式信息隐藏法, 在不需记录额外的信息, 便可完整取回秘密讯息, 并拥有能够完整还原成第一阶段的影像的能力, 因此本文所提出的方法, 不仅拥有令人满意的解压缩影像质量, 同时拥有较高的信息藏入量。

摘要：为了提升数字多媒体数据的传输效能及安全, 学者们在压缩域纷纷提出许多信息隐藏技术。本文提出一个两阶段藏密法, 期能达到高藏量又不会造成解压缩后影像有不合理的失真效果。第一阶段采用Wuetal.的区块编码策略, 在不需额外记录位即可在译码阶段判别哪一个区块为可藏。虽然, 此阶段不用辅助位所以信息藏量相对较高, 影像失真度亦在可容忍的范围内;然而, 受限于可藏区块为相对平滑, 故在不影响影像质量的情况之下, 欲再提升藏量的就必须采用可回复式藏密法。因此, 本文在第二阶段提出植基于区块内插预测之无失真式可连索编码位移之隐藏技术, 使用内插法对SMVQ区块预测中的状态编码簿, 进行编码字扩充程序, 能够在不影响原影像质量的情况之下, 利用大小为2n-1的状态编码簿, 藏入n个位的秘密信息。根据本研究的实验证明, 此方法较Wuetal.所提出的方法, 能够有效提升大约16%的信息藏入量, 同时可以将机密讯息完整取回, 并将影像无损还原至第一阶段, 再藉由Wuetal.的方法取出第一阶段的秘密位并解压缩影像。

关键词：信息隐藏,藏密学,SMVQ预测法,可逆式信息隐藏技术,直方图位移法

参考文献

[1]R M Gray.Vector Quantization[J].IEEE Acoustics, Speech and Sidnal Processing Magazine, 1984, 1 (2) :4-29.

[2]TKim.Side Match and Overlap Match Vector Quantizes for Images[J].IEEE Transactions on Image Processing, 1992, 1 (2) :170-185.

[3]M N Wu, C C Lin, and C C Chang.An Embedding Technique Dased upon Block Prediction[J].Journal of Systems and Software, 2008, 81 (9) :1505-1516.

[4]Z Ni, Y Q Shi.et al.Reversible Data Hiding[J].IEEE Transac-tions on Circuits and Systems for Video Technology, 2006, 16 (3) :354-362.

[5]Y Linde, ABuzo, and R MGray.An Algorithm for Vector Quantizer Design[J].IEEE Transactions on Communications, 1980, 28 (1) :84-85.

【预测编码】推荐阅读：

线性预测编码05-27

图像预测压缩编码算法07-18

一种网络编码和信道编码的联合设计07-06

技术编码07-18