音视频数据压缩

2024-06-10

音视频数据压缩（共7篇）

音视频数据压缩篇1

1 引言

数字视频按照编码格式可分为非压缩原始视频和压缩视频, 目前压缩域视频使用最为广泛, 因此在压缩域视频进行数据嵌入相对于非压缩视频具有更广泛的应用前景。与图像水印等相比, 视频水印具有更高的要求, 且技术更为复杂。实现视频在线处理对算法的实时性要求很高, 设计一种基于压缩视频的低时间复杂度数据嵌入方法具有重要的应用价值。

在压缩域中进行数据嵌入是目前国内外的一个研究热点[1,2,3,4,5,6,7], 在压缩域视频中进行实时数据嵌入具有较大的挑战性。目前在压缩域视频进行数据嵌入, 常采用对压缩视频解码到DCT域, 然后对DCT系数进行修改, 再进行视频编码, 或者在运动向量中嵌入水印等方法。此类方法的缺点是算法复杂度高, 难以实时处理, 且嵌入数据后会影响原视频文件的大小。如果在压缩域直接进行数据嵌入, 存在压缩域视频的冗余较小, 所嵌入的数据量较少, 数据嵌入效率较低的问题。基于此提出了一种低时间复杂度, 满足嵌入式系统要求的高效率数据嵌入方法, 将水印直接嵌入到压缩数据流中, 不需要对视频进行解码和再编码, 算法采用的运算主要为位运算, 可大大降低算法的复杂度。此方法不改变原视频大小和码率, 引入的视频失真也很小, 且提取数据不需要原宿主视频, 适合在嵌入式终端上进行视频完整性认证。本文采用该方法在MPEG2视频的VLC域中进行了实验验证, 可快速、高效地进行数据嵌入和数据提取。

本文第2节给出了该算法的详细描述; 第3节基于该算法给出了MPEG -2视频认证方法; 第4节给出了实验结果并对进行了相应分析。第5节给出了结论。本文的方法是对工作[8]的进一步扩展应用, 通过对视频VLC提取抽象比特流, 将高嵌入效率算法应用于压缩视频领域。本文算法基于VLC, 对于压缩域视频具有较好的普适性, 通过将认证信息嵌入到视频流中, 不占用额外的带宽, 并且具有较好隐蔽性, 不易被发现和篡改, 可进行视频的完整性认证, 视频产权保护等。

2 算法描述

2. 1 算法框图

嵌入算法框图如图1所示, 对于压缩视频, 在VLC域根据一定规则选择lc -VLC码, 具体规则在2.2节中进行描述; 并根据lc -VLC码最低位将其抽象为“0”、“1”, 从而组成可修改比特流。根据待嵌入数据 ( 如认证信息) 和密钥H计算嵌入位置, 将嵌入位置相应的抽象比特位进行取反, 具体嵌入数据算法在2.3节中进行描述。最后将嵌入数据后的抽象比特流0”, “1”逆转为相应的lc -VLC码, 从而得到嵌入数据后的压缩视频。

提取算法框图如图2所示, 对于压缩视频, 在VLC域根据与嵌入算法相对应的规则选择lc -VLC码, 并根据最低位将其抽象为“0”, “1”, 从而组成比特流。根据密钥H输入, 经过2.3节的数据提取算法, 可得到所嵌入的数据 ( 如认证信息) 。

2. 2 抽象可修改比特

Langelaar在文献[3, 4]中提出了一种基于熵编码的数据嵌入方法, Langelaar的工作可作为压缩域视频数据嵌入的一项里程碑的工作。该方法的优点在于不会改变原始视频码率, 实时性好, 但该方法的一个缺点是对宿主视频的修改较大。本文在此基础上, 同样选择有如下特征的VLC作为嵌入认证码的宿主可修改向量。

( run, level) 域中的run值一致

( run, level) 域中的level值只相差1

VLC长度一致

符合以上要求的VLC称为label -bit -carrying -VLC ( lc -VLC) 。本文的工作相对于[3,4]的工作, 大大减小了对宿主数据的修改, 具有更高的数据嵌入效率。

MPEG - 2作为本文的具体应用场景, 根据MPEG - 2标准表B. 14和B. 15[9], 存在着许多满足要求的lc- VLC。在视频P帧B帧中选取run值一致, 最低位分别为0和1的两个lc - VLC作为一组, 如: 0010 0110 s和0010 0001 s, 其中s表示level的符号位。在一组lc -VLC中, 将最低位为0的lc -VLC抽象为宿主可修改比特“0”, 最低位为1的lc -VLC抽象为宿主可修改比特“1”。这种宿主向量选择方式不会更改VLC的长度, 对原始视频码率不会有任何影响。

2. 3 数据嵌入 /提取算法

如果d = 0 , 说明a = s , 则r = c。因此有aT= HrT。

如果d≠0 , 在加权矩阵H中寻找与d向量相等的hj, 假设为第k列, 令

其中1≤j≤n。此时, 计算:

综上所述, 从向量c转化到向量r最多只需要修改一个比特。数据提取过程只需要计算式, 即可得到嵌入的数据向量a。

矩阵H选择有很多, 也可以作为一个用户密钥。矩阵H可供选择的数目约为C2m-1n× (2m- 1) ! × ( 2m1) ( n-2m+1) 种, 其中m = log2 ( n + 1) 。

3 基于数据嵌入 /提取算法的 MPEG - 2 视频验证

3. 1 认证码嵌入方法

本文基于MPEG -2进行了实验验证, 为了验证视频P帧B帧是否有足够数量的lc -VLC, 作者对多种码率的多个测试视频进行了测试。部分数据如表1。

从实验结果可看出, MPEG2视频中P帧B帧中具有充足的lc -VLC码, 可供进行数据嵌入。在实际应用中, 所嵌入数据 ( 认证码长度l ) 可根据码流的码率灵活选择。例如, 将1.4Mbit/s码率作为参考码率, 认证码长度l = 12。则认证码嵌入方法和提取方法的描述以l = 12比特为例, 其他长度的认证码嵌入和提取方法可依此类推。设相邻两个I帧之间的P帧B帧中所包含的lc -VLC数量为n , 将这n个lc -VLC按出现的先后顺序排列成待嵌入数据向量c。根据不同的n值选择相应的方法将认证码w嵌入到向量c中, 进行了多次认证码数据嵌入, 具体如下:

当n≥126 , 将向量c分为n/2比特和n/2比特两个向量, 将I帧认证码的前6比特和后6比特利用2. 3节的算法分别嵌入到两个向量中;

当126 > n≥63 , 将I帧认证码的前6比特利用2.3节的算法嵌入到向量c中;

当n < 63 , 不处理。

3. 2 认证码的提取与完整性认证

在接收端将P帧B帧中所包含的lc -VLC根据与嵌入时相同的规则转化为宿主向量r。根据宿主向量r的长度n取值不同, 采用相应的方法提取出嵌入的认证码w。

当n≥126 , 把向量r分为n/2比特和n/2比特两个向量, 根据式分别计算出嵌入向量wH6和wL6, 将wH6和wL6串联组成认证码w。w即为所嵌入的12位认证码;

当126 > n≥63 , 把向量r根据式 ( 3) 计算出嵌入向量wH6。wH6等于w的前6比特向量;

当n < 63 , 不处理。

根据所提取的12位认证码w , 可判断该视频是否合法。

4 实验分析

采用本文中提出的MPEG -2视频完整性认证方法对多个标准参考视频进行了完整性认证实验。由于篇幅所限, 本文给出了部分实验结果。实验所采用的测试视频分辨率为352×288。

4. 1 认证码嵌入对视频质量的影响

本文方法的认证码嵌入在P帧B帧中, 对于I帧没有影响。图3显示foreman视频, 300帧嵌入240比特认证码, 在嵌入认证码前后图像的对比效果, 嵌入后对图像影响很小。

采用基于文献[3, 4]中的嵌入算法, 与直接嵌入认证码相比, 对原始视频的VLC修改数量少, 对原始视频的PSNR影响小。本文方法在嵌入认证码前后, 经实验平均PSNR的变化范围小于0.01dB; 同时, 嵌入认证码后视频与嵌入认证码前视频的均方误差MSE也很小。实验数据表明本文方法在嵌入认证码后对视频影响很小。

认证实验使用的嵌入式平台为处理器400MHz Dual -Core和Linux操作系统。本文的视频嵌入和提取方法在该平台上测试通过, 满足实时性要求。实验采用该方法可实现视频的完整性认证。

本文方法与Langelaar的算法相比, 嵌入长度l比特的认证码, 在P帧B帧lc -VLC数量充足的情况下, Langelaar的算法平均需要修改l /2个lc - VLC, 而采用本文的方法, 对于n个lc - VLC码, 最多仅修改其中的1个lc - VLC码, 便可以嵌入log2 ( n + 1) 比特的数据, 对宿主数据的修改很小, 因此本文算法对宿主视频质量的影响更小; 且算法矩阵可作为密钥, 比Langelaar算法具有更好的安全性。

5 结束语

本文给出了一种具有较好通用性的压缩域视频数据嵌入方法。该方法基于VLC域, 对lc -VLC码进行数据抽象后进行数据嵌入, 数据修改量很小, 对于n个lc -VLC码, 最多仅修改其中的1个lc -VLC码, 便可以嵌入log2 ( n + 1) 比特的数据, 且该方法具有较好的安全性。该方法在MPEG -2视频中进行了实验验证, 将P帧B帧中的lc -VLC码根据本文的算法, 进行修改, 从而实现对视频的完整性认证。该方法不改变原始视频的码率, 与Langelaar的算法相比具有更低的视频失真, 并具有更好的安全性, 该方法满足嵌入式终端中实时性的要求。

摘要：基于压缩视频, 提出了一种低时间复杂度, 满足嵌入式实时性要求的高效率数据嵌入方法, 可以在压缩视频的VLC域中快速、高效地进行机密数据嵌入。该方法不修改原视频码率, 引入的视频失真小, 且提取数据不需要原宿主视频, 算法具有较低的时间复杂度。基于此方法给出了一种MPEG-2视频完整性验证方法, 取得了较好的实验结果。

关键词：数据嵌入,视频,压缩域

参考文献

[1]Mansouri A, Aznaveh A M, Torkamani-Azar F, Kurugollu F.A Low Complexity Video Watermarking in H.264 Compressed Domain[J].IEEE Transactions on Information Forensics and Security.2010, 5 (4) :649-657

[2]Shiguo Lian, Zhongxuan Liu, Zhen Ren, Haila Wang.Commutative Encryption and Watermarking in Video Compression[J].IEEE Transactions on Circuits and Systems for Video Technology.2007, 17 (6) :774-778

[3]Minghua C, Yun H, Lagendijk R L.A fragile watermark error detection scheme for wireless video communications[J].IEEE Transactions on Multimedia.2005, 7 (2) :201-211

[4]Langelaar G C.Real-time Watermarking Techniques for Compressed Video Data[D].Thesis Delft University of Technology, 2000

[5]霍菲菲, 高新波.基于三维小波变换的视频水印嵌入与盲提取算法[J].电子与信息学报, 2007, 29 (2) :447-450

[6]王丽君, 姚鸿勋, 刘绍辉, 高文.压缩域自适应映射能量视频水印算法[J].计算机学报, 2005, 28 (11) :1843-1852

[7]徐甲甲, 张卫明, 俞能海等.一种基于秘密共享与运动矢量的视频水印算法[J].电子学报, 2012, 1 (1) :8-13

[8]郭志川, 程义民等.基于GSM语音的汉字隐秘传输方法[J].中国科学技术大学学报, 2006, 36 (5) :530-534

[9]ISO/IEC 13818-2.Information Technology Generic Coding of Moving Picture[S].International Organization for Standardization, 1995

音视频数据压缩篇2

在视频点播、视频会议、可视电话等多媒体应用中,由于网络传输中的延迟、抖动、网络拥塞,以及发送端的发送速度与接收端的接收速度的不匹配等问题,使得接收端的媒体存在非良好匹配(异步)的现象。通过媒体同步技术可解决这些问题,其中音视频的同步是一个关键性技术。

目前的媒体同步技术主要有[1,2,3,4]:1)时间戳同步法,是把多个媒体的数据流单元加进统一的时间戳(时间码),具有相同时间戳媒体的单元同时进行播放,以达到媒体间同步的目的;2)同步标记法,是在发送端发出一个同步标记,接收端接收同步标记,用来对各个媒体进行同步处理以达到双方通信同步的目的;3)多路复用同步法,将多个媒体流的数据复用到一个数据流或一个报文中,从而使其在多媒体传输中自然保持媒体间的相互关系,以达到媒体间同步的目的。

H.264是当前主流的视频编码标准[5],具有十分广阔的应用前景,笔者基于H.264/AVC标准,提出了一种利用DCT系数奇偶性的音视频同步压缩方法,在进行视频编码时将音频比特流嵌入,对音视频信息进行压缩和传输,这样音视频信息就可以同步传输到接收端,之后解出视频信息同时提取音频流。该方法不仅可以无失真提取音频,不增加编码文件大小,同时对解码视频的质量影响较小,具有极大的可行性。

2 同步编码原理

H.264/AVC在进行编解码时,首先是把视频系列的每一帧进行分块,得到子块,然后基于这些子块进行DCT变换、量化,之后进行重排和熵编码得到编码码流(其中有一个为了获得重构图像的图像重建过程)。由于DCT变换后,对人眼敏感的是DCT系数的低频部分,高频部分对图像质量的影响很小,而DCT系数的中频部分有相似的数量级[6,7],对中频系数进行微小的改变对图像质量不会产生很大影响。一个音频序列可看作是一个二进制比特流,每个比特位的值为0或1,这样就可利用DCT系数的某种关系来传输音频序列,分别用两种不同情况来表示音频比特位的两种不同取值即可实现。笔者利用DCT系数的奇偶特性来表示音频比特的0和1两种取值,图1是音视频同步编码的原理框图。

在视频图像经过变换、量化后,在每个子块中选定一个位置,若该位置的DCT系数是非零的,则用该位置的DCT系数为偶数来传输音频比特的0,而用该位置的系数为奇数来传输音频比特1,若系数不满足该关系,则强制修改系数使之满足,嵌入算法为

式中:Aud(j)代表音频系列的某一个比特位的值,W(ij)代表选定位置的DCT系数量化后的值。

对应的C代码如下:

同步编码过程如下:

1)原始视频帧和重建帧经过帧内预测和运动补偿等过程得到图像残差;

2)对视频图像残差进行变换和量化,得到量化后的视频DCT系数;

3)根据式(1)的过程将音频比特流嵌入量化后的视频DCT系数中,得到含有音视频信息的DCT系数;

4)上述得到的DCT系数经过重排序和熵编码得到音视频混合编码文件。

经过上述过程,即可将混合编码文件打包同步传输到接收端。

3 同步解码原理

接收端得到传输过来的混合压缩码流后,就可以分别解出音频和视频信息,对音视频混合码流解码的原理如图2所示。

通过对编码端的音频嵌入过程的分析可以知道,嵌入音频后,选定位置的非零视频DCT系数的奇偶性代表了相应的音频比特信息,在重排序后判断这些选定位置的DCT系数的奇偶性就可以获得音频各个比特位的值,音频提取的算法如下(其中的W(ij)_是解码端在重排序后相应位置的DCT系数)

对应的C代码如下:

与编码过程类似,混合码流解码的具体过程如下:

1)混合码流经过熵解码和重排序得到含有音频和视频信息的DCT系数;

2)按照式(2)从含有音视频信息的DCT非零系数中解出音频比特流;

3)重排后的DCT系数经过反量化、反变换、环路滤波以及运动补偿、帧内预测等过程解析出视频信息。

4 实验结果

为了检验提出的音视频同步压缩方法对视频图像质量带来的影响,客观方面用解码恢复图像与原始视频的峰值信噪比(PSNR)来衡量,主观方面则直接显示图像并进行对比。

基于H.264/AVC的JM模型对上述音视频同步编码方法进行验证。试验中输入的音频是16位、单声道的PCM格式,采样频率为16 k Hz,输入的视频文件分别是suzie_cif.yuv和foreman_cif.yuv,试验结果如表1所示(其中的单独解码文件是指用H.264的JM模型直接对原始视频编解码后得到的解码文件,而同步解码文件则是用音视频同步压缩方法得到的解码文件)。而且从试验效果发现,各视频系列的解码恢复图像与原始图像相比较,几乎察觉不到图像质量的变化。这里仅给出一组图像对比结果,见图3。

除此之外,图4给出了原始音频文件和音视频同步压缩后恢复出的音频文件的时域波形图。

试验证明,利用笔者提出的基于H.264/AVC的音视频同步压缩方法,得到的解码图像和原始图像相比PSNR损失很少,主观方面图像质量降低很少,基本可以做到人眼察觉不到的程度,同时该方法对音频而言完全无损,在解码端可以无失真地提取音频信息。

5 结论

笔者提出了一种基于H.264/AVC的音视频同步编解码方法,在编码端利用选定位置的视频DCT系数的奇偶特性将音频嵌入视频进行同步编码,解码端再从视频DCT系数中提取出音频信息,并在H.264/AVC的JM模型的基础上对该方法进行了验证。一方面该方法选定对人眼不敏感的中频DCT系数来嵌入音频信息,降低了视频图像质量的下降,同时仅利用非零系数来嵌入音频比特,并且当系数为-1时采用了有别于其他系数的处理方法,防止了音频嵌入时将非零的视频DCT系数修改为0或者将0系数修改为非零的系数,更进一步降低了对视频图像的影响,并且可以确保视频编码文件的大小不会发生变化;另一方面,音频嵌入后所经过的重排序、熵编码和熵解码都是无损的过程,所以该方法可以完全无失真地提取出音频。

与传统的音视频同步方法相比,笔者提出的基于H.264/AVC、利用视频DCT系数奇偶特性的音视频同步压缩方案只对隐藏了音频信息的视频图像进行压缩编码和传输,完全省去了对音频进行单独编解码和传输的部分,大大节约了硬件和网络资源,在取得了较好压缩编码效果的情况下实现了音视频信号的完全同步传输,并克服了由于信道延时以及音视频不统一编码所带来的接收端接收不同步问题。

参考文献

[1]曹理宇,姚丹霖.MPEG-4流媒体系统中的视音频同步[J].计算机应用,2005,25(1):128-131.

[2]李国辉,许健,汤大权.多媒体音频视频对象的同步技术研究[J].计算机研究与发展,1995(4):49-54.

[3]RADHAKRISHNAN R,TERRY K,BAUER C.Audio and video sig-natures for synchronization[C]//Proc.IEEE International Conference on Multimedia and Expo.[S.l.]:IEEE Press,2008:1549-1552.

[4]CHAN H-Y,LIU N-B,SHIAH C-W,et al.A novel audio/video synchronization model and its application in multimedia authoring system[C]//Proc.IEEE International Conference on Consumer Elec-tronics,1994.[S.l.]:IEEE Press,1994:176-177.

[5]WIEGAND T,SULLIVAN G J,BJONTEGAARD G,et al.Overview of the H.264/AVC video coding standard[J].IEEE Trans.Circuits and Systems for Video Technology,2003,13(7):560-576.

[6]ALTUNBASAK Y,KAMACI N.An analysis of the DCT coefficient distribution with the H.264video coder[C]//Proc.IEEE Interna-tional Conference on Acoustics,Speech,and Signal Processing,2004:volume3.[S.l.]:IEEE Press,2004:177-180.

AVS+视频压缩技术及其应用篇3

在人类所获取的信息中, 通过视觉和听觉获取的信息约占外界信息的90%以上。以视频信息和音频信息为主的多媒体技术是21世纪最具时代特征和最富有活力的研究和应用领域之一。人们对于数字技术下视频的实时性、流畅性、清晰性等的要求越来越高, H.264国际标准的专利费非常昂贵, 各个环节都要收费, 还有后续的广播费、点播费、软件费等。鉴于这种情况, 我国在音视频领域进行了研究规划, 取得了技术突破, 自主制定了数字音视频解码技术标准AVS (Audio Videocoding Standard) 。继AVS标准之后, 国家广电总局在2012年7月正式颁布了广播电影电视行业标准GY/T257.1-2012《广播电视先进音视频编码解码第1部分:视频》行业标准, 简称AVS+。

1 AVS+

AVS+是2012年7月发布的《广播电视先进音视频编解码第1部分:视频》行业标准, 要想知道什么是AVS+必须先了解AVS。AVS标准的正式名称是《信息技术先进音视频编码》, 音视频编解码标准的作用是把数字视频和音频数据压缩为原来的2%以下, 以保证传输带宽和存储容量能够被最有效地利用[1]。

AVS标准分为9个部分, 包括系统、视频、音频、数字版权管理等4个技术标准, 如图1所示。AVS标准的视频标准与H.264相类似, 分为变换、量化、熵编码、帧内预测、帧间预测、环路滤波等技术模块。此外, AVS视频标准还定义了3种不同类型的图像:I帧、P帧和B帧, I帧中的宏块负责帧内预测, P帧和B帧的宏块负责帧内预测或帧间预测。AVS视频编码器框图如图2所示[2]。

AVS采用的是混合编码方案, 视频编码并非单一的算法, 而是一整套的编码工具。起初各条技术主线平行开展, 每个主要的工具都是作为视频编码的完整解决方案而提出, 最后各性能最佳者汇合成为完整的解决方案, 这样综合起来就可以达到压缩比较高的综合压缩效果[3]。

2 AVS+关键技术

随着数字高清电视和3D高清电视的快速发展, 为了节约带宽和存储, 就需要对视频进行更好的压缩。AVS同MPEG-2、H.264的编码框架一样, 都属于混合编码, AVS的关键技术与H.264也是基本对应的, AVS+是在AVS基础上完成的, 二者大部分内容是相符合的, AVS+向下兼容AVS, 即AVS编码的视频码流AVS+可以解码, 同时在AVS基础上增加了4项新技术———高级熵编码、图像级自适应加权量化、同极性场跳过模式编码、增强场编码技术, 可以说是对AVS标准的优化升级[4]。AVS+相对更简单一些, 对硬件资源的消耗更少, 这些相对于H.264来说可以大大降低国内音视频产业的专利费负担, 同时也更易于硬件技术和设备的实现, 如表1所示。

根据“AVS技术应用联合推进工作组”联合组长高文院士介绍, AVS+标准在核心工具中的熵编码 (算术编码CBAC) , 以及次要工具加权量化 (AWQ) 、增强场编码 (B-Direct、P-Skip) 方面都有所更新[5]。我们将AVS+的关键技术与H.264High 4:2:2进行对比, 从表2中可以清晰地看出AVS+在预测、运动补偿、变换、熵编码等多个方面都有所改变。例如, 运动补偿去掉了“8×4、4×8、4×4”;多参考帧改为“最多2个或者4个”;滤波则变为“8×8块边界”。在熵编码中摒弃了变长编码, 选择性能优良的算数编码, H.264使用的是CAVLC和CABAC这两种编码方法, 而AVS+选择使用的则是复杂程度比较小的自适应2DVLC和新的内容自适应算数编码。因为我国的数字电视的高清标准是隔行扫描的, 在新技术增加之后, 运动场景的场编码图像就会比老技术标准清晰很多。

3 AVS+应用前景

AVS标准是一套适应面十分广阔的技术标准, 技术性能先进、实现复杂度低、专利负担费用低, 能提升国内企业的核心竞争力。AVS技术应用联合推进工作组在一年内完成AVS+标准的制定、优化、测试、验证、颁布、产品研发等一系列工作, AVS+标准的产业链正在逐步建立和完善。

为了使高标清节目编码向AVS+过渡, 工作组做出了以下部署:

(1) 卫星传输高清频道与地面高清频道将全部采用AVS+。卫星传输高清频道是新开展的业务, 还有地面的高清频道将在全国推广普及, 新开展的业务一开始就采用AVS+有利于AVS+的快速发展和部署。

(2) 以城市为单位, 逐步将目前地面标清节目的编码器由MPEG2改为AVS+, 同时配合直播星户户通的推进, 在农村的地面数字电视网准备大规模建设, 直接采用AVS+。

(3) 要求 (在3D实验频道之后) 新开办的3D电视频道采用AVS+。

从模拟到数字、从标清到高清, 从单向到双向, 从传统电视到智能电视, 电视业在不断向前演进。2009年, 电影业的3D风潮很快波及到电视。在CES 2011国际消费电子展上, Sony、Samsung、Panasonic等家电巨头纷纷推出全线3D电视产品。AVS+的应用和推广, 满足了高清晰度电视、3D电视等广播电影电视新业务发展的需要, 将带动我国直播星进入高清时代, 并快速带动各地有线、无线和网络电视转播和制播AVS+节目。同时, 在IPTV、CM-MB手机电视方面也有着广阔的应用空间。

摘要：视频技术从标清到高清, 电视从模拟到数字, 视频压缩技术成为重要的研究和应用领域。介绍了我国研究制定的AVS+标准, 将其关键技术与H.264进行了对比, 并介绍了AVS+的应用领域。

关键词：AVS+,视频技术,编码

参考文献

[1]高文, 黄铁军, 吴枫, 等.信息技术-先进音视频编码:第2部分:视频 (GB/T 20090.2-2006) [S].北京:中国标准出版社, 2006.

[2]广播电视先进音视频编解码:第1部分 (GY/T 257.1-2012) :视频[EB/OL].http://www.spsp.gov.cn/Page/QT/2012/GYT%20257-2012.shtml.

[3]黄铁军.AVS标准的背景、进展与产业应用展望[J].信息技术与标准化, 2003 (9) :4-8.

[4]鲁晨.AVS+产业化加速将全面推广使用[EB/OL].http://www.sarft.net/a/82765.aspx, 2013-10-9.

[5]董文辉, 邓向冬.AVS+视频压缩技术及应用[J].广播与电视技术, 2012 (12) :41-43.

[6]黄铁军, 高文.AVS标准制定背景与知识产权状况[J].电视技术, 2005 (7) :4-7.

[7]梁凡.AVS视频标准的技术特点[J].数字电视与数字视频, 2005 (7) :12-15.

[8]侯金亭, 马思伟, 高文.AVS标准综述[J].计算机工程, 2009, 35 (8) :247-252.

音视频数据压缩篇4

1 FPGA硬件平台

在实际中需要的是灵活的设计方法,即根据需要在实验室就能设计、更改大规模数字逻辑,研制自己的ASIC并马上投入使用,这就是可编程逻辑器件的基本思想。FPGA/CPLD既继承了ASIC的大规模、高集成度、高可靠性的优点,又克服了普通ASIC设计周期长、投资大、灵活性差的缺点,逐步成为复杂电路设计的理想首选。

FPGA硬件系统主要是基于算法的复杂程度来进行选择。本文选用方法为:将整个系统集成在一个芯片内部,选用大规模的FPGA芯片,使用专用软件采用“自上而下”的设计方法将系统在芯片内部划分为子模块。这种方法的优点在于其电路设计更趋合理,不受通用元器件的限制,降低了硬件电路的设计难度。各个子模块间在内部连接,减少电磁干扰并且降低了功耗。其缺点是可测性较差,很难观测中间电路的波形和时序,需要靠软件仿真来解决测试问题。

FPGA一般由三种可编程电路和一个用于存放编程数据的内嵌存储器SRAM组成。这三种可编程电路分别是:二维可编程逻辑块CLB(Configurable Logic Block)、输入/输出模块IO(I/O Block)和互连资源模块IR(Interconnect Resource)。输入/输出模块是芯片与外界的接口,完成不同电气特性下的输入/输出功能要求;二维可编程逻辑快是编程逻辑的主体,可以根据设计灵活地改变连接与配置,完成不同的逻辑功能;互连资源连接所有的二维可编程逻辑块和输入/输出模块,连线长度和工艺决定着信号在连线上的驱动能力和传输速度;内嵌存储器SRAM可以在芯片内部存储数据。

在设计可编程逻辑器件时,会碰到区分FPGA和CPLD的问题。其实FPGA和CPLD只是其内部结构稍有不同,FPGA的二维逻辑阵列模块是基于查找表(Look-Up-Table)结构的,其本质上就是一个RAM。而CPLD的二维逻辑阵列块是基于乘积项(ProductTerm)结构的。通常FPGA中寄存器资源比较丰富,适合做同步时序电路较多的设计:CPLD中组合逻辑资源比较丰富,适合做组合电路较多的设计。

这里,选择了Altera公司的CycloneⅡ系列芯片作为视频编码算法的主芯片。Altera是全球最大的可编程逻辑器件供应商之一,其FPGA器件具有良好的性能,主要体现在技术和结构上,Altera器件采用铜铝布线的先进CMOS技术,具有非常低的功耗和相当高的速度;采用互连结构,提供快速、连续的信号延时和具有相同延时的时钟总线结构;逻辑集成度高,可将更多的数字逻辑集成进更少的器件中来缩小印制板的尺寸和降低系统研发成本;具有短的开发周期,使用专用的软件设计输入、处理、校验以及器件编程一共仅需几个小时,一天内可完成几个完整设计。

CycloneⅡ系列是目前主流的大规模FPAG之一,它基于1.2V电压,0.09um工艺,全铜层覆盖的SRAM架构。内部有大量的LE和RAM。CycloneⅡ芯片同时提供22个数字信号处理器模块用来完成复杂的运算。在后面的说明中可以看出,多个并行乘法器对完成DCT模块的功能提供了良好的硬件环境。另外,CycloneⅡ芯片支持各种I/O标准和完整的层次化时钟管理方案,可以达到最高420MHz的运算速度,其内部还有4个PLL(Phase-Lock Loops锁相环),使得系统性能得到极大的提高。

2 开发平台关键技术分析

2.1 硬件描述语言

硬件描述语言HDL是一种用形式化方法描述数字电路和系统的语言。利用这种语言,数字电路系统的设计可以从上层到下层(从抽象到具体)逐层描述自己的设计思想,用一系列分层次的模块来表示极其复杂的数字系统。然后,利用电子设计自动化(EDA)工具,逐层进行仿真验证,再把其中需要变为实际电路的模块组合,经过自动综合工具转换到门级电路网表。接下去,再用专用集成电路ASIC或现场可编程门阵列FPGA自动布局布线工具,把网表转换为要实现的具体电路布线结构。

Verilog HDL和VHDL作为描述硬件电路设计的语言,其共同特点在于:能形式化地抽象表示电路的行为和结构;支持逻辑设计中层次与范围的描述;可借用高级语言的精巧结构来简化电路行为的描述等等。由于Verilog语言灵活且和C语言类似,便于算法的实现,本文中采用它进行FPGA编程。

2.2 软件开发平台

在进行FPGA设计时,通常使用集成的PLD/FPGA开发环境。这类软件都是由PLD/FPGA芯片厂家提供,基本上都可以完成所有的设计输入(原理图或硬件描述语言)、仿真、综合、布线、下载等工作。Altera提供的集成开发环境为Quartus II,课题中使用的是6.0版本。FPGA的设计已经形成了一个完整的体系,设计过程明了,设计工具详尽,验证手段真实可信。

3 系统整体设计方法

3.1 自顶向下设计方法

从底向上的设计在某种意义上可以看作是Top-Down设计的逆过程。虽然设计也是从系统开始,即从设计树的树根开始对设计进行逐次划分,但划分时首先考虑的是单元是否存在,即设计划分过程必须从存在的基本单元出发,设计树最末枝上的单元要么是己经制造出的单元,要么是其他项目已经开发好的单元,或者是可以得到的单元。

自顶向下的设计过程中在每一层次划分时都要对某些目标作优化Top-Down的设计过程是理想的设计过程,它的缺点是得到的最小单元不标准,制造成本可能很高。从底向上的设计过程采用标准的设计单元,通常比较经济,但有时可能不能满足一定特定的指标要求。复杂数字逻辑电路和系统的设计过程通常是这两种设计方法的结合,设计时需要考虑多个目标的综合平衡。

3.2 有限状态机

控制单元的实现方式有:有限状态机、控制寄存器和微代码控制器等。有限状态机在时间尺度上对其控制信号进行离散化控制,利用状态转移使控制信号在有限状态机的状态节拍控制下变化,以实现对被控对象的控制。

在本文的FPGA编程中,大多数模块采用有限状态机模型。模块复位时处于空闲状态,只要外部触发信号在时钟的上升沿无效,模块一直处于空闲状态。当有数据需要该模块处理时,其它模块使得此模块的外部触发信号有效,从而使他脱离空闲状态,进入有效状态。在外部时钟的触发下,模块依次进入状态1,2,…,N。当本次任务完成后,模块又进入空闲状态。

3.3 流水线设计技术

流水线的设计方法已经在高性能的、需要经常进行大规模运算的系统中得到广泛的应用。高性能的DSP系统也在它的构件中使用了流水线技术。所谓流水线设计实际上是把规模较大、层次较多的组合逻辑电路分为几个级,在每一级插入寄存器组并暂存中间数据。K级的流水线就是从组合逻辑的输入到输出恰好有K个寄存器组。

组合逻辑包括两级:第一级的延迟是T1和T2中最大的一个,第二级延迟是T3的延迟。为了得到稳定的输出结果,需要的延迟时间为max(T1,T3)+T2个时间单位。图1采用了流水线技术,在每一级的输出加了一个寄存器。第一级存储器所具有的总的延迟为T1与T2的最大值加上寄存器的触发时间Ti。第二级的延迟为T3加上Ti。因此,采用流水线设计为了取得稳定的输出总的延迟为max(max(T1,T2)十Ti,T3+Ti)。对于FPGA来说TI和T2的值相对于寄存器触发时间Ti要长的多。流水线设计的优势在于它提高了系统的吞吐量。这种性能上的提高是以消耗较多的寄存器资源为代价的。

3.4 I2C总线

I2C(Inter-Integrated Circuit)总线是由PHILIPS公司开发的串行两线总线,自80年代产生以来,由于其简单性和可靠性,而被广泛应用于集成电路及外围设备。

1)I2C总线特点。仅两条线工作,串行数据线SDA(Serial Data Line)和串行时钟线SCL(Serial Clock Line)。每个设备通过软件编址,或为主设备,或为从设备,通过唯一的地址连到I2C总线上,或为主设备,或为从设备,这取决于其在某时刻所起的功能,由主设备发起数据传输。在标准模式传输中,串行8位传输方式和双向传输方式能达到100Kbit/S的速度,在快速模式传输中,能达到400Kbit/S,在高速模式传输中,能达到3.4Mbit/s的速度。

2)工作原理。由于I2C总线是多主控制总线,即连到I2C总线上的主设备可以有多个。因通常主设备为微控制器,故以下对I2C总线的讨论以两个连到I2C上的微控制器为例。数据传输过程如下:当A控制器传输数据到B控制器时,此时,A控制器发起传输,则为主设备,B控制器为从设备,传输步骤为:(1)A控制器(主设备)寻址B控制器;(2)A控制器发送数据(主传输)到B控制器(从接收);(3)A控制器终止传输。当B控制器传输数据到A控制器时,此时,B控制器发起传输,则为主设备,A控制器为从设备,传输步骤同上,只不过方向向反。

4 视频采集模块的FPGA的实现

4.1 采集模块系统设计

本文主要对视频采集模块进行了设计和实现。其中视频源有DVD影碟机提供,从DVD影碟机出来的视频信号被采集进FPGA里面,经过处理之后,通过VGA显示器播放出来。

4.2 系统硬件设计

本系统选用的FPGA芯片是美国Altera公司最新推出的CycloneII系列的EP2C35。该芯片具有35000个逻辑单元、672个引脚、475个用户自定义I/O接口、35个嵌入式乘法器和4个锁相环,是一个集成度极高和功能强大的FPGA芯片。在FPGA中设计有NiosII软核CPU和挂接在该NiosII系统的Avalon总线上的I2C配置接口模块、输入控制接口(FIFO_IN CONTROL),输出控制接口(FIFO_OUT CONTROL)、存储器控制接口(SDRAM CONTROL)、输入控制器(DMA_IN)、输出控制器(DMA_OUT),TV编码器(TV_EN-CODER)和用于接收按键信息的通用并行接口(PIO)等模块。FPGA外连接有视频解码芯片(ADV7181)、编码芯片ADV7123、图像数据存储模块(SDRAM)和控制按键(KEYBORD)等。系统以FPGA芯片EP2C35为基础配置了NiosⅡ软核处理器作为控制核心,又在Avalon总线上挂接相应的接口模块,与FPGA的外围单元一起共同完成视频采集的功能。其中,ADV7181输出的是ITU656 YUV 42:2的数字信号,而ADV7123是对RGB格式的数字信号进行D/A转换。TV编码器的功能就是实现这两种不同格式的数字信号的格式转换。

4.3 ADV7181的I2C总线接口设计

本设计对模拟视频信号进行A/D转换的功能是通过ADV7181来实现的。ADV7181是ADI公司近期退出的一颗低功耗多功能的高速视频解码芯片。芯片能自动检测并转换标准的PAL、NTSC和SECAM制式的全电视信号为ITU656。YUV 4:2:2格式的复合视频数字信号。ADV 7181的控制寄存器是通过I2C总线方式实现配置的,采用Verilog硬件描述语言设计。该接口的功能由两个模块来完成:I2C_Controll模块用来产生I2C总线规范的时序,I2C_Config模块用来产生需要配置的寄存器的地址和配置参数该模块主要是依据查找表算法来设计的。

5 结束语

本系统较好地利用FPGA强大的可编程功能,构建了硬件结构简单、高集成度,高性能和高灵活性的视频压缩处理系统。方案设计中还考虑到了系统的适应性、可靠性需求,选用芯片均能适应复杂环境和高可靠性的特殊环境需要。

参考文献

[1]王彩霞,赵刚,刘三民.H.264的视频压缩技术的研究与分析[J].计算机与信息技术,2009,Z1.

视频压缩编码对运动检测的影响篇5

关键词：运动检测,视频压缩,量化参数,方差

1 研究背景及目的

运动检测是从视频序列中将运动或发生变化的区域从背景中标识出来的一项技术, 也是进行更高层次视频图像分析处理的重要基础, 以及图像分析和处理的关键, 广泛应用于视频分析之中。所以, 有必要对视频图像序列中的运动目标进行分析和检测。近几年来, 很多学者专家对运动目标检测进行了研究, 提出了很多有效的算法:初秀琴等[1]主要对物体平面运动进行了检测和分析;司红伟等[2]提出了基于背景估计的运动检测算法;RHess等[3,4]在体育视频中球员的运动检测方面做出了卓越贡献;Brox等提出LDOF光流法来进行运动检测[5], 本文也选择采用该方法。

随着众多如数码相机、互联网高清视频、数字电视、数码摄像机等高清数码产品的逐渐普及, 现有的视频编解码标准已经不能满足要求。尤其对于有着平滑背景的高分辨率视频, 需要一种高效率的视频压缩编码技术, 当前视频压缩编码技术的国际组织有两个:一个是国际标准化组织 (ISO) , 另一个是国际电联 (ITU-T) 。视频编码压缩标准有两套[6]:一套是由VCEG制定的ITU-T 标准, 另一套是由MPEG制定的MPEG标准。其中, ITU-T 标准有H.261、H.262、H.263、H.263v2、H.264;MPEG 标准有MPEG-1、MPEG-2、 (MPEG-3) 、MPEG-4、MPEG-7、MPEG-21。

近几年, ITU-T/VCEG和ISO-IEC/MPEG两大国际标准化组织成立了视频编码联合开发小组 (JCT-VC) , 其目标是开发新一代国际视频标准, 名称为高性能视频编码标准 (HEVC) 。该标准的目标是在保持H.264/AVC标准视频质量的基础上, 使比特率降低一半, 即压缩率提高一倍。据HEVC参考软件HM仿真结果显示, 目前针对HEVC标准提出的各个提案还未达到压缩率提升一半的目标。与H.264/AVC视频标准一样, HEVC也包含帧内预测、帧间预测、运动估计与补偿、正交变换、量化、滤波、熵编码和重建等编解码流程[7]。

本文选择最新的HEVC和H.264两种标准, 来探究视频压缩编码对运动检测的影响。通过实验结果来分析每一种压缩编码对运动检测的影响。并找出影响较小的一种。

2 实验步骤

本文先对未压缩的视频进行分析, 检测运动信息, 采集原始数据。然后选择H.264和HEVC两种编码标准进行压缩实验。由于在同一压缩标准下, 量化参数越大, 视频压缩比也就越大。所以, 在每种编码标准中, 本文采用3个不同的量化参数, 即20、26和32, 分别进行3组实验, 进行纵向对比。然后, 再进行同压缩比下两种方法的横向对比。在这一系列实验中, 每组的实验步骤大致相同, 如下所述。

2.1 视频图像采集

本文从视频数据Hallmonitor (352×288) 中, 均匀提取了25个 (352×288) 大小的帧, 然后用这25帧图像作为原始视频图像序列来进行运动检测。

2.2 基于光流的运动检测

本文用LDOF光流方法[5]来检测原始视频图像序列中相邻两帧之间的运动信息, 包括由于光照变化造成的阴影。

本文用任意相邻两帧举例说明。提取运动信息后, 得到一个二维的光流矩阵。对于该矩阵的每个像素点来说, 第一个维度表明了其在相邻两帧中, 水平方向上移动的距离 (以下表示为x) ;第二个维度表示其在相邻两帧中, 垂直方向上移动的距离 (以下表示为y) 。

之后, 本文设置一个值作为每个像素点在相邻两帧之间移动的绝对距离 (以下表示为y) 。定义如下:

$l = \sqrt{x^{2} + y^{2}} (1)$

设定一个l的值, 作为运动检测的门限值。显然, 门限值设定得越小, 运动检测的精度越高。所以, 设定门限值为1, 也就意味着, 在相邻两帧之间, 每个对应像素点移动的绝对位移在1以上, 就把其考虑进去, 作为运动对象。为了对比明显, 本文把发生运动的像素点的值设定为0, 没有运动的像素点的值设定为255。在处理所有25个原始采样帧中24对两两相邻的帧后, 得到了24个大小为 (352×288) 的二值矩阵, 即24帧二值运动信息图像, 其中检测到运动信息的区域为黑色, 静止区域为白色。

由于原始采样帧中的第25帧只作为与第24帧的比较求光流之用, 所以, 为了与二值光流图像进行一一对比, 在实验数据中将其舍掉。

图1为在未压缩的视频中得到的原始采样帧, 以及通过LDOF光流方法[5]得出的原始二值运动信息图像。然后在同一压缩标准下, 设定不同的量化参数来进行视频压缩实验。

图2-4是压缩标准设定为H.264时, 量化参数分别为20、26、32的实验结果图。

图5-7是压缩标准设定为HEVC时, 量化参数分别为20、26、32的实验结果图。其中图1-7中的左边的三个图像为视频中25个采样帧中的第1、第13和第24帧, 右边三个图像为24个二值运动信息图像的第1、第13和第24帧。

3 实验结果分析

在经过压缩的每组实验数据中, 本文将每一帧二值运动信息图像分别与对应的未压缩的每帧二值运动信息图像, 在每一个对应像素求方差值。进而得到每组实验所有二值运动细心图像的方差最大值和平均值, 如表1-2所示。

从表中可以看出, 在同一个视频压缩编码标准中, 设定的量化参数越大, 方差平均值就越大。也就意味着压缩前后的二值运动信息图像的差距, 与量化参数成正比。可以得出结论:量化参数越大, 对运动检测的影响越大。从表中还可得知, 在同一个量化参数下, HEVC压缩标准下的方差平均值比H.264压缩标准下的明显要小, 在大部分实验组中, 方差最大值也要小。说明, 相对于H.264压缩标准来说, HEVC压缩标准对运动检测产生的影响也就小很多。

4 结束语

本文首先介绍了几种运动检测的方法和当前流行的一些视频编码压缩标准。然后选用目前最先进的HEVC和H.264, 在不同的量化参数下对同一段视频图像序列进行实验, 分析了这两种视频压缩技术对运动检测的影响。实验结果显示, 在同一个压缩标准中, 量化参数越大, 对运动检测影响越大。在同一个压缩比率下, HEVC压缩标准对运动检测产生的影响, 相对于H.264压缩标准来说要小。由此得知, 目前先进的几个视频压缩标准中, HEVC对于运动检测的影响较小。

参考文献

[1]初秀琴, 李玉山, 杨莉.运动物体参数估计与跟踪的线对应新算法[J].西安电子科技大学学报, 2003, 30 (2) :174-178.

[2]司红伟, 全蕾, 张杰.基于背景估计的运动检测算法[J].计算机工程与设计, 2011, 32 (1) :262-265.

[3]Hess R, Fern A, Mortensen E.Mixture-of-parts pictorial struc-tures for objects with variable part sets[C].IEEE 11th InternationalConference on Computer Vision, 2007:1-8.

[4]Hess R, Fern A.Improved video registration using non-distinctivelocal image features[C].Proc IEEE Conf on Computer Vision andPattern Recognition, 2007:1-8.

[5]Brox T, Malik J.Large displacement optical flow:descriptor mat-ching in variational motion estimation[J].IEEE Transactions on Pat-tern Analysis and Machine Intelligence, 2010, 33 (3) :500-513.

[6]Szczerba K.Fast Compressed Domain Motion Detection in H.264Video Streams for Video Surveillance Applications[C].IEEE Inter-national Conference on Advanced Video and Signal Based Surveil-lance, 2009:478-483.

视频压缩中运动估计算法的研究篇6

近年来,多媒体技术的飞速发展,在众多应用领域,对视频图像的实时压缩提出了更高的要求,快速、高效的压缩算法是解决这一问题的关键。

运动估计是视频压缩编码系统中非常重要的模块,它直接影响到视频数据压缩编码的效率和编码质量。运动估计越准确,编码的效率就越高,解码出来的视频质量就越好。同时,运动估计的计算复杂度在整个视频数据压缩编码系统中最大,占整个系统计算量的50%以上。因此,运动估计性能的好坏不仅很大程度上决定了视频图像压缩编码的质量,还根本性地决定了整个视频压缩编码系统的实时性能。

研究高效的运动估计算法对提高视频数据压缩编码的效率有着非常重要的实际意义,是解决目前视频数据中高效压缩问题的有效途径。因此,运动估计作为实现视频压缩的核心技术,一直是视频压缩领域的研究热点。

1 MVFAST算法

Hosur和Kai-Kuang Ma等人在1999年提出了动矢量场自适应搜索算法(motion vector field adaptive search technology,MVFAST)[1]。在2000年3月的MPEG Noordwijkerhout会议上,MVFAST作为运动估计的核心算法被纳入MPEG-4新增的第7部分。

1.1 算法基本思想

MVFAST算法的基本思想是以视频运动的时空相关性为基础,首先通过搜索起始点的预测使当前块的初始运动矢量有可能接近最终运动矢量;其次通过简单有效的视频分类和合适的搜索模式,使其能根据视频运动的类型进行自适应的搜索;最后采用高效的搜索中止准则以保证搜索结果在这个预测的起点附近结束时具有足够的精度,从而实现快速且精度高的运动矢量搜索。

1.2 基本方法

大菱形搜索模式的方法如下:

Step 1:按照图1(a)的点位近9点搜索,如果中心点的SAD值最小,则转到Step 3,否则转到Step 2。

Step 2:将搜索中心移到在上次搜索中得到的最小SAD值对应的点位上,再进行1次大菱形搜索,如果中心点的SAD值最小,则转到Step 3;否则,重复执行Step 2。

Step 3:将大菱形搜索模式转换为小菱形搜索模式,并将搜索中心移到在上次搜索中得到的最小SAD值对应的点位上,只进行1次小菱形搜索,将得到的最小SAD值对应的点位设置为最终的运动矢量值。

小菱形搜索模式的方法如下:

Step 1:按照图1(b)的点位进行5点搜索,如果中心点的SAD值最小,则中心点对应的位置就是最后的运动矢量值,否则转到Step 2。

Step 2:将搜索中心移到在上次搜索中得到的最小SAD值对应的点位上,再进行1次小菱形搜索,如果中心点的SAD值最小,则选择中心点的位置为最终的运动矢量;否则,重复执行Step 2。

MVFAST算法考虑几个相邻块的运动矢量确定菱形搜索的起始点,并根据宏块的不同运动强度自适应地选择大小模板来进行匹配搜索,在图像质量和速度上都表现出了好的性能,而且不需要辅助内存来存储搜索点和运动矢量。

2 改进算法思想

2.1 块运动类型划分的改进

运动物体的整体性和视频运动的连续性致使视频的运动具有时间和空间上的相关性,这种相关性可以用来预测当前块的运动方向和运动大小,因此对当前块的运动类型进行划分。一般而言,当前块与前一帧对应位置块的像素值绝对差和SAD在一定程度上反映出图像变化的剧烈程度。SAD值大,反映图像变化大,运动速度快;SAD值小,反映图像改变小,图像变化不明显。因此可利用与前一帧对应位置块的SAD值来进行块运动类型划分[2]。为更准确地划分块运动类型,改进算法综合使用这两类依据,使得当相邻参考块与当前块的相关性较弱时,不至于引起不准确的运动类型划分。

改进算法的块运动类型划分依据如下:设参考块的运动矢量集合为V={V0,V1,V2,V3,V4}。其中,V0=(0,0),Vi=(xi,yi)(i≠0)为图2中的1,2,3和4块的运动向量。对于V中的所有候选矢量,令li=|xi|+|yi|,L=max{l1,l2,l3,l4},设定阈值L1和L2。令当前块与前一帧对应位置块中像素值的SAD值为SAD0,设定阈值T1和T2。当SAD0≤T1时,当前块被认为是静止块;当T1T2且L≤L2时,当前块被认为是中等运动块;否则当前块被认为是大运动块。

这种划分方法相对MVFAST算法中的方法加强了划分的条件判断,但并未因使用与前一帧对应位置块的SAD值而增加计算量和存储复杂度,因为当前块与前一帧对应位置块中像素值的SAD值SAD0在进行静止块检测时已计算出,而且在静止块检测后,就可以进行此块运动类型的判断,无需存储SAD0值。

2.2 起始搜索点预测

改进算法采用了MVFAST算法中起始搜索点的选取方式,即搜索起始点根据当前块的运动类型进行设定:如果当前块为小运动块或中等运动块时,意味着子块的最优运动矢量位于(0,0)附近较小的区域内,无需进行起始点预测;如果当前块为大运动类型块,其最优运动矢量往往偏离中心点(0,0)较远,精确预测的搜索起始点更接近物体的真实运动矢量,从而减少搜索点数。

视频运动的时空相关性可以用来对搜索起点进行预测[3,4],其基本思想是:用空间位置上相邻且已经编码的块或时间上相邻且已编码的块的运动来预测当前块的初始运动矢量,再以此为起点做进一步的搜索。综合考虑计算量和预测效果等因素,选择左上,右上3个空间相邻块(如图2中的1,2,3)和上一帧对应位置块(如图2中的4)中运动矢量的对应点作为候选点进行预测。

搜索起点预测的主要方法有中值法、加权法和SAD比较法。因为SAD比较法的预测精度最好,能够最快地寻找到最优矢量,同时它所得出的预测起始点必然是某个相邻块的运动矢量,使得运动矢量场具有连续性,利于差分编码,所以改进算法采用了SAD比较法来预测搜索起始点。

2.3 大运动块的相对运动类型划分

改进算法加强判定小、中等运动类型的条件,使得更多的块判定为大运动块,要进行起始点的预测。这样,一方面更多的块由于使用预测的起始点进行匹配搜索而减少搜索点数,加快搜索速度;另一方面,由于块间相关性的不同,预测的准确性必然不同,若对这些大运动块采用相同的搜索策略,必然造成搜索不足或搜索冗余。因此考虑将大运动块在搜索起始点预测后进行相对预测点的相对运动类型的划分,将大运动块分为相对静止块、相对小运动块和相对大运动块。为避免复杂条件计算,其判别仅利用当前块与预测起始点对应块的像素值的SAD值,令其为SADp。如果SADp≤T1,则判定当前块为相对静止块;如果T1T2,则判定当前块为相对大运动块。

2.4 搜索模式

搜索模式根据图像宏块的移动剧烈程度不同而不同,但是搜索模式也不宜复杂。在兼顾速度和精度的要求下,改进算法根据预测的运动剧烈程度选用不同的搜索模式:小运动使用简化的小菱形搜索模式,即只进行一次小菱形搜索;中运动使用小菱形搜索模式;大运动根据起始搜索点预测的准确性自适应地选择搜索模式,相对小运动块使用简化的小菱形搜索模式,相对大运动块使用小菱形搜索模式。

2.5 搜索中止准则

为提高算法的速度,一些算法使用了SAD阈值作为搜索中止的条件,即当SAD值小于某一阈值时中止搜索过程。MVFAST采用固定的阈值,PMVFAST则以当前块中左边、上边和右上边相邻块的最小SAD的最小值作为阈值。事实上,固定的阈值不具有普适性,而当前帧相邻块的最小SAD分布在数值上也没有很明确的相关性。但相邻帧对应位置块的最小SAD值间普遍存在着某种比例关系,其平均比值在0.95～1.07之间。为此,改进算法的搜索中止准则是:以参考帧对应位置块的最小SAD值乘以某个系数作为SAD阈值,即若SAD

3 改进算法描述[7,8,9,10]

改进算法的具体描述如下:

(1)初始化阈值。根据实验经验值选取阈值L1=1,L2=2。若当前块为第一个P帧内的块,阈值T1设为512,否则,T1=a×Ref_SAD,其中,a为常数,设定为0.95,Ref_SAD为参考帧对应位置块的最小SAD值。若T1<512,设定T1=512;若T1>1 024,设定T1=1 024。阈值T2设定为T2=T1+256。

(2)静止块检测。搜索零矢量位置(0,0)点,得出该点的SAD值SAD0,如果SAD0≤T1,则判定该块为静止块,(0,0)位置即为最优运动矢量。

(3)运动类型检测。对于非静止块,计算L,当T1T2且L≤L2时,当前块被认为是中等运动块;否则当前块被认为是大运动块。

(4)初始搜索点的选取。根据当前块的运动类型设定搜索起始点,如果当前块为小运动块或中等运动块时,无需进行起始点预测,以中心点(0,0)为搜索起点;如果当前块为大运动类型,计算运动矢量集合V中的每个运动矢量对应的SAD值,将最小SAD值对应的运动矢量Vn所对应的点作为搜索起始点。

(5)执行搜索。对于小运动块,只使用1次小菱形搜索,就输出运动矢量,并保存最小SAD值。对于中等运动块,使用小菱形搜索至最优点在小菱形中心点,输出运动矢量,并保存最小SAD值;对于大运动块,在搜索起点预测后,计算SADp,当SADp≤T1时,当前块被认为是相对静止块,提前结束搜索;当T1T2时,当前块被认为是相对大运动块,使用小菱形搜索至最优点在小菱形中心点,输出运动矢量,并保存最小SAD值。在执行搜索的过程中,一旦满足提前结束搜索条件SAD≤T1,结束搜索,输出运动矢量,并保存最小SAD值。

4 改进算法性能测试

采用改进算法分别对Mother and daughter序列中,Foreman序列的前100帧和Football序列的前90帧进行实验。表1、表2列出FS,MVFAST,PMV-FAST和改进算法的实验结果。其中,各项评估标准均为序列各帧的平均值,加速倍数和ΔPSNR均以FS算法的搜索结果为基准。

表1、表2实验数据表明,与FS算法相比,改进算法在PSNR稍有下降的情况下,搜索速度得到大幅度提高;与MVFAST和PMVFAST算法相比,改进算法在PSNR稍有下降的情况下,搜索点数分别平均下降1.86个和1.09个。

图3给出了压缩前Foreman序列的第98帧图像及其解码后的恢复图像。可以看出,改进算法在加快运动估计搜索速度的同时,图像质量并没有明显下降。

实验结果表明,本文提出的改进运动矢量场自适应运动估计算法具有搜索速度上的明显优势,但恢复图像质量只稍有下降。

5 结语

基于对MVFAST算法的分析,充分利用视频图像的特点和运动矢量分布特性,提出了一种改进的运动矢量场自适应运动估计算法。改进算法基于MVFAST分级搜索的思想,优化了运动强度的划分方法,引入了相对运动类型的划分来对大运动块自适应地选择搜索模式,搜索中尽量使用简单策略,并自适应地提前结束搜索。实验结果表明,改进算法具有搜索速度上的明显优势,但恢复图像质量稍有下降。

摘要：MVFAST算法是视频压缩中一种重要的运动估计算法,但其缺乏是对图像时域相关性的考虑会造成不恰当的运动类型划分。因此,针对这个问题提出一种改进的运动矢量场自适应运动估计算法。该算法基于MVFAST分级搜索的思想,通过优化运动强度的划分方法,引入相对运动类型的划分来对大运动块自适应地选择搜索模式,使用简单的搜索策略,自适应地提前结束搜索。实验结果表明,该改进算法与MVFAST算法相比,在图像质量稍有下降的前提下,具有搜索速度上的明显优势。

关键词：视频压缩,运动估计,块匹配,搜索策略

参考文献

[1]HOSUR P I,MA K K.Motion vector field adaptive fast motion estimation[C]//Proc.2nd Int.Conf.Information, Communications and Signal Processing.Singapore:ICICSP, 1999:79-88.

[2]魏星,蒋建国,齐美彬.基于选择预测的自适应运动估计算法[J].中国图像图形学报,2005,10(7):873-877.

[3]HSIEH C H,LU P C,SHYN J S,et al.Motion estimation algorithm using interblock correlation[J].Electronics Letters, 1990,26(5):276-277.

[4]施建良,潘健,余松煌.区域运动相关性的运动估计方法[J].上海交通大学学报,1998,32(9):6-9.

[5]徐丽琨,黄登山.基于H.263视频压缩的新钻石搜索算法[J].微计算机应用,2005,26(5):516-520.

[6]徐丽琨,黄登山.基于H.263标准的视频压缩算法的优化及研发[J].电力系统通信,2005,26(7):31-34,41.

[7]武媛媛,郭英,苏兮,等.改进的十字菱形搜索算法[J].中国体视学与图像分析,2009(2):168-172.

[8]刘锋,庄奕琪,何威.一种新的算法可编程的运动估计协处理器[J].电路与系统学报,2007(5):126-130.

[9]何军球,赵欢.基于运动复杂度的快速模式选择算法[J].计算机工程与应用,2009(7):79-81.

[10]黎仁国.基于图像复杂度SAD计算的H.264全搜索快速算法[J].绵阳师范学院学报,2009,28(1):88-90.

音视频数据压缩篇7

1 对高清数字电视视频压缩编码的概述

在对高清数字电视视频压缩编码色度采样为例进行概括, 我们对高清数字电视视频压缩编码技术有效研究的目的是更新视频压缩标准, 用新的压缩标准来满足宽带传输高标准要求, 这样可以提高数字电视画面的分辨率。我们在平时用电视在接收4K信号图像的时候, 这个时候我们电视接收到的这个信号图像, 它的用一个原始数据率, 通过原始数据率我们可以归总出来一个结果:2.78Gbit/s。假如我们接收到一个8K的图像信号, 它相应的也应该有一个原始数据率, 这个原始数据率是11Gbit/s, 我们在运用传统的视频压缩标准的时候, 在一定程度上我们用H.264的形式对4K进行模式图像, 然后对其开始压缩, 在对4K图像进行压缩的时候, 它的压缩量会变小。这样的话就不能满足视频图像处理要求, 但是这种压缩方式对宽带传输有很大的要求。降低宽带传输时的限制要求, 世界研究人员经过精心的研究, 研究出了HEVC技术, 它是从264/AVC新一代视频编码技术, 它的主要功能是在对其压缩的时候, 这样电视会给电视一个很好的视频压缩效率, 它与原来的视频图像压缩效果相比不仅性能提高了, 而提高了一倍。所以, 它在领先于其他编码技术的同时, 也在高清电视压缩技术上取代了传统视频编码技术。

2 电视压缩编码技术

2.1 HEVC编码结构技术

电视编码技术主要是HEVC编码技术, 它采用的是H.264中的编码框架, HEVC编码采用H264的同时在内容结构上也运用先进的技术得到了更新, 让他在性能上更具有应变度。有关人士通过研究, 在HEVC编码技术的基础上通过精心研究, 发明了新型的, 在新能上更具优势的超大尺寸的编码结构, 该编码还加入了三种不同的结构方式, 并且还运用这三种方式来进行有效的分隔、编码, 这样做的好处是很大程度上保障了的编码压缩后的效果。还有就是HEVC编码技术在结构上要比H.264编码结构很大程度上大很多。有了HEVC编码结构, HEVC编码结构中的CU代表的是编码单元, CU的内部结构方式和整体上的结构是相同的, 在整个CU编码中, 最大的CU是64×64, 最小的CU甚至可以达到8×8。这就说明了划分出的CU单元它的形状应该都是正方形。TU的作用和CU相关, 它的功能是是对预测CU。TU在预测CU时, TU单元的大小要小于CU的大小, 在划分中可以成为任何形状, 完全不受限制。

2.2 帧内预测编码技术

HEVC不单单是只有压缩编码的功能, 它还有帧内预测编码的技术, 就是可以对高清电视视频进行编码。它的这种功能, 也是在H.264编码技术的基础上发展出来的。在HEVC帧内预测编码技术中, 在HEVC编码中, 预测单元的PU大小是不相同的, 他们的分布分别在一个规中规矩的位置。但是在实际预测的过程中, HEVC对大小不同的PU提供出了相应的非方向性预测方法, 并且它还为此提供了多方向性帧内预测的有效方法, 很好的为PU预测单元操作成功提供了有利条件。

2.3 编码环路滤波技术

提到环路滤波技术, 我们就必须要提到SAO了。SAO在类型方面有两种类型:一种是带状补偿;另一种是边缘补偿。边缘补偿是把一种像素和它旁边的像素, 两者充分的进行优势对比, 完成之后, 要把像素分类标识的方法进行合理的分类。解码的过程应该根据对应的分类标识有效的补偿。各个模板只对相邻的像素产生相比较现象, 因此在实际操作的时候非常简单。LCU能够在一定环境下进入独立解码状态, 在顶行和底行的LCU像素一般不对模板进行有效处理;根据这个现象我们可以看出, 任何一个LCU的左右两列, 它们的像素也不对模板进行信息处理工作。一般重建图像很容易在一定环境下失真, 为了避免这种失真现象进一步发生, 科技人员用HEVC引入了一项自适应环路滤波器技术。这种技术是采用了一种叫树形的自适应环路滤波器, 科技人员采用这种形式的滤波器主要是为了防止编码图像产生噪声。自适应环路滤波器对于亮度分量来说, 滤波器在形状上是以点对称的二维滤波器;在色度分量上, 滤波器形状又变为一个正方形点对称矩形二维滤波器。

3 结语

高清数字电视在技术已经发展到领先地位, 在短时期内不会有更新的产品, 但是IVIPEG2在数字电视上还会起很长时间的作用。高清数字电视内部结构标准有很大的开放性, 所以它有非常广泛的应用, 在高清数字电视方面有很大的竞争力。它在很长一段时间内不管是在多媒体领域还是在移动视频领域都会有个一很好的前景。

参考文献

[1]王玉柱.浅析超高清数字电视视频压缩编码技术[J].黑龙江科技信息, 2014, (4) :17.

[2]李强, 贺晓华.数字电视视频压缩标准[J].湖南人文科技学院学报, 2006, (3) :82.

【音视频数据压缩】推荐阅读：

音视频设备07-08

互联网音视频06-03

视频压缩算法08-25