帧间模式选择(共6篇)
帧间模式选择 篇1
摘要:AVS帧间模式选择率失真优化使用绝对误差和 (SAD) 作为失真度度量, 方法简单, 但不能很好符合人的人眼视觉系统 (HVS) ;最近提出的结构相似度 (SSIM) 图像质量评价方法更符合HVS的特性, 但率失真优化使用SSIM作为失真度度量, 计算复杂, 不利于实时编码。结合SAD和SSIM的优点, 采用两者的结合作为失真度度量。取SAD的最优值和次优值, 计算其差值, 根据差值和阈值的比较判断是否需要SSIM计算。需要计算SSIM值时, 根据SSIM的最优值和次优值的情况判断是否需要对帧间模式进行修正。实验结果表明, 该算法较传统算法有较好的主观质量, 编码时间增加很少。
关键词:AVS,结构相似度,率失真优化,帧间模式选择
0 引言
视频质量评价方法分为主观评价方法和客观评价方法2种。均方误差 (MSE) 和峰值信噪比 (PSNR) 计算复杂度低和物理意义清晰, 因而成为多年来应用最广泛的客观评价标准[1]。但其没有充分考虑到人眼的视觉特性, 不能很好地和视觉质量相吻合。近几年提出的结构相似度 (SSIM) 图像质量评价方法, 将失真建模为亮度、对比度和结构3不同因素的组合, 较好符合人的主观感受, 优于传统的PSNR等方法, 但不能很好地评价严重模糊的图像[2]。
传统AVS率失真优化算法在帧间模式选择过程中采用SAD作为失真度量, 最后采用PSNR来衡量视频图像的质量。虽然SAD和PSNR计算简单且物理意义清晰, 但不能很好地和视觉质量相吻合[3]。采用SSIM作为率失真优化失真度量, 虽能较好符合人的主观感受, 但会大大增加编码器复杂度, 同时对低码率视频质量效果不很好。本文结合SAD和SSIM的优点, 采用两者的结合作为失真度度量, 采用PSNR和SSIM共同来衡量视频图像的质量。
1 AVS帧间模式选择算法分析
AVS标准帧间预测算法针对每个宏块提供多种预测模式:16×16模式, 16×8模式, 8×16模式, 8×8模式, 帧内模式, 以及SKIP模式, 编码端需要对编码宏块选取最佳的编码模式, 以达到最佳的编码效果[4]。编码端普遍采用如下率失真优化准则确定最优匹配模式:
式中mode表示当前宏块的一种预测编码模式, Jmode (s, c, mode|λmode) 表示模式mode下的率失真代价 (RD-cost) , s为原始的视频信号, c为采用mode模式编码后的重构视频信号, λmode为朗格朗日乘子, R (s, c, mode) 表示mode模式下所有编码比特数, SAD (s, c, mode) 为原始信号和重构信号之间的绝对误差和, 采用下式计算:
式中B1, B2表示块的水平和垂直像素数, 可以取值16、8, mx、my表示运动矢量。
SSIM更符合人类的视觉和主观评价标准。设x、y分别为参考图像和待评估图像, SSIM定义为:
其中l (x, y) 是亮度比较, 用参考图像和待评估图像的均值μx和μy来计算;c (x, y) 是对比度比较, 用参考图像和待评估图像的方差σx和σy来估计;s (x, y) 是结构比较, 用参考图像和待评估图像的协方差σxy来度量。α、β、γ>0, 分别用来调整亮度、对比度和结构信息的权重。大部分文章中取α=β=γ=1[5,6]。采用SSIM作为率失真优化失真度量, SSIM值越高, 表明失真图像和原图像相似度越高, 失真图像的质量越好。
2 结合结构相似度的AVS帧间模式选择算法
使用绝对误差和SAD作为失真度度量, 方法简单, 但不能很好符合人的主观视觉;率失真优化使用SSIM作为失真度度量, 计算复杂, 不利于实时编码。分别采用SAD和SSIM作为失真度度量, 得到最佳模式在很大程度是相同的, 表1和表2揭示了采用两种不同方法选择得到相同最佳模式所占的比例 (%) 。为验证普遍性, 采用不同QP, 不同分辨率, 运动程度不同的典型序列做实验。
从表1和表2中数据可以看出, 分别采用SAD和SSIM作为失真度度量, 得到相同模式所占比例很高。根据上述情况, 在大多说情况下, 率失真优化仍采用SAD作为失真度度量, 在一些特殊情况下, 参考SSIM作为失真度度量的值, 修正帧间最佳模式。这样既提高了视频主观质量, 又兼顾了算法的处理速度。
如何确定何时采用SSIM进行帧间模式修正是算法实现的关键, 本文根据相邻宏块相关性自适应调整判决阈值TH。TH决定着算法速度和质量, TH取得过小, 将不能起到改善主观质量的目的, TH取得过大, 将不能加快算法处理速度。相邻宏块之间, 率失真特性之间也均具有较强的相关性。为此根据相邻宏块的TH分布情况, 提出自适应的调整阈值, 既保证了图像质量, 又提高了编码速度。
设当前编码宏块上, 左率失真优化采用SAD作为失真度度量, 其最佳模式与次优模式率失真代价差值分别为JDA和JDB, JDC为当前编码宏块最佳模式与次优模式率失真代价差值, JDmax为JDA和JDB的最大值。
判决阈值TH设定为:
如果JDC小于TH, 则进一步做帧间模式修正, 否则不做修正。率失真优化分别采用SAD和SSIM作为失真度量, 需要建立二者之间的关系。设THsad和THSSIM分别表示采用SAD和SSIM作为失真度量, 当前宏块最佳模式与次优模式率失真代价差值。本文首先对THsad和THSSIM进行归一化处理得到THsad1和THSSIM1。THSSIM1值越大, THsad取得的值越小, 则对帧间模式修正取得的效果越好。故取二者的比值K=THSSIM1/THsad来决定是否进行模式修正。由于采用不同评价体系, THsad和THSSIM1值不在一个数量级上, K的值为小数, 为了计算的方便, 需要找出一个乘数因子α来平衡二者数量级, 公式如下:
K值大于1, 则对帧间模式进行修正, 否则不做修正。经过大量的实验发现, 如取得较好的率失真优化效果, α的选取与QP有一定的关系, QP增大, α的取值相应增加, 效果更好。经过试验, 得到α的经验值, 取值如下:
为了计算的简化, 将修正因子做成修正表, 其表如下:
最后帧间模式选择算法实现步骤:
1) 率失真优化采用SAD作为失真度度量, 计算此时宏块帧间最佳模式和次优模式, 分别标记为Modeb和Modep, 对应的失真代价分别为Jb和Jp。
2) 计算失真代价Jb和Jp差值THsad, 与设置的阈值TH作比较, 若THsad大于TH, 跳转到步骤6) ;否则, 跳转到步骤3) 。
3) 计算Modeb和Modep对应的结构相似度SSIM值, 分别为SSIMb和SSIMp。
4) 计算结构相似度SSIMb和SSIMp差值THSSIM, 若大于零, 跳转到步骤6) ;否则, 跳转到步骤5) 。
5) 根据公式 (4) 求得比例因子K, 若大于1, 对帧间模式做修正, 确定SAD下的次优模式为宏块帧间最佳模式, 跳转到步骤7) 。
6) 宏块帧间最佳模式为Modeb。
7) 宏块帧间模式选择算法结束。
3 实验结果及分析
为验证本文算法有效性, 对D1格式的典型序列进行了测试, Y∶U∶V是4∶2∶0, 量化参数QP分别为28, 32, 36, 40, 44, 编码300帧, 以下表格为实验结果。表3-表6为仅采用SSIM做率失真优化与采用SAD做率失真优化的算法比较结果, 表7-表10为本文算法与采用SAD做率失真优化算法的比较结果。
从表3-表6结果可以看出, 采用SSIM做率失真优化, 可以提高视频主观质量, 但也带来了编码码率增加和编码时间大幅度提高, 同时在高QP下, 编码PSNR值下降明显, 在高QP下, SSIM也不能很好反应图像主观质量。从表7-表10结果可以看出, 采用本文算法可以提高视频主观质量, 和采用SSIM做率失真优化效果相当, 但编码时间增加很少, 在高QP下编码PSNR值也没有明显下降。
4 结语
本文结合SAD和SSIM的优点, 采用两者的结合作为失真度度量。本文自适应地调整判决阈值, 较传统算法有较好的主观质量。本文的判决因子采用经验值, 有一定的局限性, 在以后的研究中可进一步做理论研究, 找到更好的判决因子。
参考文献
[1]杨春玲, 肖东琴.基于SSE和SSIM的H.264帧内预测模式选择改进算法[J].电子与信息学报, 2011, 33 (2) :289-294.
[2]王宇庆, 刘维亚, 王勇.一种基于局部方差和结构相似度的图像质量评价方法[J].光电子·激光, 2008, 19 (11) :1546-1553.
[3]陈云善, 高慧斌, 苏宛新, 等.结构相似度在AVS帧间模式选择中的应用[J].光电子·激光, 2011, 22 (3) :435-439.
[4]GB/T 200090.2-2006信息技术先进音视频编码.第2部分:视频[S].2006.
[5]庄晓丽, 陈红卫.基于梯度幅度值的结构相似度的图像质量评价方法[J].计算机应用与软件, 2009, 26 (10) :222-224.
[6]杨威, 赵剡, 许东.基于人眼视觉的结构相似度图像质量评价方法[J].北京航空航天大学学报, 2008, 34 (1) :1-4.
帧间模式选择 篇2
随着市场竞争的日益开放和激烈,现代营销模式主要包括以下三类:传统营销模式、电话营销模式、网络营销模式。
下面,我们将对这三类营销模式进行简要的分析和研究。
传统营销模式
传统营销模式是绝大部分企业选择的营销模式,也是最普遍的一种营销模式。传统营销模式又可以细分成:
1、代理商营销模式。企业营销主要依赖于代理商团队,企业在各个地区招聘区域代理或者独家代理,然后通过这些代理,再发展下线经销、分销、零售队伍;企业只需要负责对口联系这些代理商,其他工作都不需要介入。
代理商营销模式通用于各行各业,尤其是在企业成立之初、或者是企业刚进入一个新的地区、新的领域,大多会选择代理商营销模式。这样可以最大限度节约企业发展壮大的时间,抢占市场份额。
现代社会的各种会议营销(招商会议),基本上都属于代理商营销模式。这种模式,尤其适用于新、小企业,
2、经销商(分销商)营销模式。在市场竞争很激烈的行业,或者是综合实力比较强大的企业,多会选择经销商营销模式,这是代理商营销模式的一种进化。因为企业发展壮大了,同时市场竞争激烈导致企业利润空间大幅度压缩,为了更好的开拓市场,企业必然会选择“淘汰代理商、重点扶持经销商”的营销政策。
这种营销模式更多适用于那些发展比较成熟、综合实力较强的企业。
3、直营模式。采取这种营销模式的企业,主要业绩来源于自我经营,而不是依赖于代理商、经销商等渠道合作伙伴。
比如:绝大部分保险、直销企业,都是采取直营模式;另外,还有一些企业,通过登门入户拜访、或者是扫马路等形式,来做自己的营销推广,他们这种营销模式都属于是直营模式。
直营模式在某些特定的行业、特定的地区非常有成效。
传统营销模式广泛应用于各个领域;尤其是金额较大的产品销售,更依赖于传统营销模式。因为金额较大的产品销售,客户在没有见到厂商的员工时,一般都会非常谨慎,不会提前支付款项。
举个最简单的例子:某个客户要购买房产,在这个客户没有见到房产中介和房子业主前,这个客户是不会支付购房款的――因为一套房产少则几十万,多则几百万上千万,客户肯定不会傻兮兮的相信“网络营销”或者“电话营销”的!
帧间模式选择 篇3
H.264/AVC是ITU_T和MPEG联合制定的新的国际视频编码标准,以传统的混合编码框架为基础,提供了更多可供选择的编码模式。在H.264/AVC中,编码器依据图像内容选择合适的编码模式,使得整体编码性能相对于先前的标准得到了显著的提高[1]。但在编码过程中,由于标准采用率失真优化的方法[2],需对每一种块划分模式计算其失真度和比特率,这就使得编码过程较为复杂,增加了编码所需要的时间。
目前已有人提出一些算法对块划分模式进行快速选择,如文献[3]通过判断当前块是否处于均质区来对宏块模式进行选择,文献[4]对相邻两帧的静止区及均质区进行判断,再采用相应的宏块模式进行计算,文献[5]对原图像进行缩放,然后在原始图像与缩放图像之间建立映射,进行宏块模式选择。文献[6]中提出利用当前块的DCT系数计算该块的能量,从而得出块的纹理复杂度,并进行快速的划分模式选择。这些方法都在很大程度上减少了计算量。
1 H.264帧间宏块模式选择与分析
H.264/AVC视频编码标准进行帧间预测编码时,要对如表1所示的各种可选的宏块类型中,遍历每种可用的编码模式[7],计算出每种模式下的图像失真度、率失真开销,公式如下:
式中,J即率失真开销,QP为宏块的量化参数,s,c分别表示原始图像和重建图像的像素值,λMODE为拉格朗日系数,MODE为当前宏块可选的一种编码模式,R(s,c,MODE|QP)表示在特定QP和MODE下当前宏块的编码输出比特数,SSD(s,c,MODE|QP)表示图像失真度。
在帧间预测时,宏块最终选取的编码模式为所有的模式组合中使J最小的那一种组合。整个率失真开销的计算如图1所示。
从图1中可以看出:每种块划分模式下的率失真开销的计算,编码器都要重复执行整数DCT变换/量化,整数DCT反量化/反变换,熵编码。对于某些视频序列,一些划分模式出现的概率很小,但率失真优化算法为了确定最佳的块划分模式,编码器仍会计算所有块划分模式组合的率失真开销。这样,就会增加一些无用的计算。如果能够略掉这些无用的计算,则会相应地节省计算时间。
2 理论分析与设计
实际上,为了提高编码效率,标准对于图像所表现出的不同纹理特征,会采用不同的编码模式。通常对运动补偿后残差较小的宏块,采用大的块模式编码(SKIP/DIRECT、16×16、16×8、8×16),对于残差大的宏块采用较小的块尺寸(8×8,8×4,4×8,4×4)。
由此可得,如果在进行率失真优化时,能够事先减少编码模式的数量,同时又能够保持图像质量基本不变,就可以节省编码时间。
通过测试模型JM7.6[8]对各种QCIF 图像序列的前100个P、B帧进行的统计,发现在Container、Miss、News等图像序列中,SKIP/DIRECT模式所占比例在一些图像序列中可占70%以上,如表2所示。
在实验中,发现一个普遍现象,即随着当前帧内SKIP/DERICT模式与16×16模式的宏块编码的依次增多,其所对应的MAD值有变大的趋势。为了更清楚一些,在此将宏块的所选择的模式及其MAD、MAFD用曲线表示出来,如图2,图3所示。其中纵坐标为帧间预测模式(0:SKIP/DIRECT,1:16×16,2:16×8,3:8×16,4:8×8,5:8×4,6:4×8,7:4×4)[8]。横坐标为该帧内的第几块,BESTMODE为采用率失真优化后当前宏块所采用的编码模式。
MAFD为当前帧与其参考帧的平均绝对帧差,MAD为宏块平均绝对差,两者定义如下:
其中xi,j,yi,j是当前帧与参考帧在(i,j)处的像素值,M、N是当前帧的水平与垂直尺寸。
由图2、图3可以看到,在自然序列News、Mother_and_Daughter的随机P或者B帧中,当宏块模式采用SKIP/DIRECT模式时,随着当前帧内所编码宏块的依次增加,其MAD值在整体上有着上升的趋势,随着进一步的实验,通过大量各种序列的实验及做图观测,我们得出下面三条结论:
1) Miss、Container、Suzie、News等运动比较平缓的图像序列中的B或P帧局部区域内,如果采用SKIP/DIRECT模式或者16×16块模式,则其MAD值相差不大,且其值会随着当前帧SKIP/DIRECT宏块模式编码的依次增多,其所对应的MAD值整体上有着变大的趋势。
2) 在对运动比较剧烈的图像序列Foreman、Carphone、Glasgow的B或P帧进行预测时,当MAD值较大时,很少采用SKIP/DIRECT模式块模式来进行预测。
3) 如果当前宏块的前面的宏块采用的是SKIP/DIRECT模式,且两者的MAD值相差较小,则当前宏块很大可能是采用SKIP/DIRECT模式;如果当前宏块前面的宏块采用的是16×16的宏块模式,且相邻宏块的MAD值相差较小时,当前宏块很可能采用16×16、16×8、8×16模式,当然这种趋势在运动剧烈的图像中变得不可捉摸。
基于以上三条规律,我们可以很好地利用这些特性来设计出新的算法,对当前宏块的模式选择进行预测。
3 快速算法设计
设定的预测方案如下:
(1) 如果当前宏块的MAD值小于T1,则当前宏块采用SKIP/DIRECT模式;
(2) 如果当前宏块的MAD值小于T2,则当前宏块采用16×16、16×8、8×16的宏块进行预测;
(3) 否则,按标准算法进行预测。
T1,T2的定义如下:
T1=MADFSKIP/DIERCT+Δ1
T2=MADF16×16+Δ2
其中MADFSKIP/DIERCT为当前宏块之前所采用SKIP/DIRECT模式的宏块所对应的MAD值,MADF16×16为当前宏块之前所采用16×16模式的宏块所对应的MAD值;Δ1,Δ2为修正值,其随着MAD值的变化而变化,具体如表3、表4所示。
改进算法是在JVT标准算法JM7.6上的率失真优化程序rdopt.c中的void encode_one_macroblock ()函数中加以实现,具体算法设计如下:
(1) 计算当前I宏块的MADI;
(2) 如果I宏块为当前帧的第一个宏块,则计算当前帧与其前一帧的MAFD帧;
(3) 如果当前宏块采用的是SKIP/DIRECT模式,则令T1= MADI+Δ1;如果当前宏块采用的是16×16的宏块模式,则令T2 = MADI+Δ2;
(4) 计算下一宏块的MADI,如果MADI < T1,则当前宏块采用SKIP/DIRECT模式,并令T1= MADI+Δ1;如果不满足条件,则转到(5);
(5) 如果MADI < T2 ,则当前宏块采用16×16、16×8、8×16的宏块模式进行预测,并令T2 = MADI+Δ2;如果不满足条件,则转到(6);
(6) 不满足条件者按标准JM7.6算法进行计算。
4 实验结果与分析
本实验在PC机上编程实现,PC机配置:CPU,AMD Athlon XP 2500+;内存,768MB。
JM7.6参数设置:采用CABAC、5参考帧、搜索范围±16;使用Hadamard变换、RDO;P帧QP=28、B帧QP=30;视频为QCif(尺寸:176×144),编码序列分别为IPPP、IBBP。
选取9种视频序列的前100帧,对IPPP、IBBP分别采用标准算法JM7.6及本文提出的改进算法进行实验。实验结果从编码时间(Time)、亮度分量Y的信噪比(Y SNR)、输出码率(Bits)三个方面进行统计,处理结果如表5、表6中所示。其中,Time栏中的负值表示改进算法比原H.264/AVC标准算法在编码时间方面节省的百分比;Y SNR中的负值表示改进算法比H.264/AVC原标准算法在量度信噪比的下降数;Bits栏为相比于原标准算法,改进算法相比于标准算法的比特波动情况。
由表5、表6可以看出,在实验参数设置一致的情况下,无论是对IPPP或IBBP编码序列,在Y SNR减少0.1dB以内,Bits增加不大的情况下,编码时间都得到或多或少的节省。只是对于运动剧烈的视频序列,如mobile,编码时间节省有限,而对于运动平缓的视频序列,如Miss,mother_daughter等,编码时间甚至可节省近50%。这符合算法设计,因为对于运动变化剧烈的图像,由于相邻块之间的相关性较差,因而满足阈值判断的块数就较少,因此,编码时间节省有限;对于变化比较平缓的图像,相邻块之间的相关性较强,满足阈值判断的块数就多,变化越缓慢的图像,满足条件的块数就越多,因此,编码时间节省百分比就越大。
由于在实验中采用的是阈值判断,因而存在着误判情况,如果对原标准中较小的宏块模式误判成满足条件者,即采用较大宏块模式进行编码,其图像质量Y SNR自然会降低,而在比特数方面,由于预测宏块与原始宏块的残差增大,会导致比特数的增加,这就是实验结果Bits中为什么大多数为正值的主要原因。反之,亦然。
图4和图5为 Miss_American(IBBP)在Time和Y SNR的前100帧数据比较图,由图可见,改进算法相对于标准算法,在YSNR基本保持不变的情况下,其编码时间有着较为明显的节省。
5 结 语
通过分析H.264/AVC帧间编码SKIP/DIRECT模式选择的基础之上,提出了一种快速的帧间自适应宏块模式选择算法,该算法依据当前块之前最近采用的SKIP/DIRECT模式或者16×16宏块模式的MAD值,来对当前宏块的模式进行预判,从而减少帧间宏块模式选择的数量。从验证模型JM7.6上的实验结果来看,在保持图像编码质量, 视频编码比特没有太大增加的情况下,对变化不是很剧烈的视频序列,该算法可节省近50%的编码时间,对变化较剧烈的视频序列,亦可节省近10%的编码时间,弥补了原标准在帧间预测方面需要大量计算时间的不足,提高了编码器的工作效率。
摘要:通过对H.264/AVC帧间预测模式选择的实验观测,发现最近采用的SKIP/DIRECT模式或者16×16宏块模式,和当前块的选择模式有着空间和时间上的关联。依据这一现象,提出了一种快速的帧间自适应宏块模式选择算法。从验证模型JM7.6上的实验结果来看,在保持图像编码质量,视频编码比特没有太大增加的情况下,该算法对变化不是很剧烈的视频序列,可节省近50%的编码时间,对变化较为剧烈的视频序列,亦可节省近10%的编码时间,降低了原标准在进行帧间预测时的复杂度,提高了编码器的工作效率。
关键词:H.264/AVC,宏块类型,率失真优化,帧间预测
参考文献
[1]Joint Video Team(JVT)of ISO/IEC MPEG and ITU-T VCEG Work-ing Draft,Geneva,Switzerland.January,2002.
[2]Sullivan G J,Wiegand T.Rate-distortion optimization for video com-pression[J].IEEE Signal Processing Magazine.November,1998,15:74-90.
[3] Wu D,Pan F,Lim K P,et al.Fast Intermode Decision in H.264/AVC Video Coding[J].IEEE Transactions on Circuits and Systems for Video Technology,2005,15(7):406-409.
[4]Jing X,Chau L P.Fast approach for H.264 inter mode decision[J].E-lectronics Letters 19th,2004,40(17):1123-1126.
[5] Zhu Dongdong,Dai Qionghai,Ding Rong.Fast Inter Prediction Mode Decision for H.264[J].IEEE International Conference on Multimedia Expo,2004,2:1123-1126.
[6]Yu A C.Efficient Block-Size Selection Algorithm for Inter-Frame Cod-ing in H.264/MPEG-4 AVC[J].IEEE International Conference on A-coustics,Speech,and Signal Processing,2004,3:169-172.
[7] Ralf S,Thomas W,Heiko S.The emerging H.264/AVC Standard EBU Technical Review.January,2003.
帧间模式选择 篇4
摘要:从保持距离型融资模式与关系型融资模式的内在效率分析,两者都具有经济合理性;从世界融资模式的发展趋势来看,两者有相互融合的趋势;由于我国的特殊情况,现阶段企业的融资模式应采取过渡模式,即间接融资为主并逐渐减少,直接融资为辅并大力发展的过渡模式;目标模式应符合世界融资模式的趋势,是融两种融资方式于一体的有中国特色的融资模式。
一、导论
两种融资模式―――保持距离型融资模式与关系型融资模式―――究竟哪种更有效率,对这一问题的回答国内外一直存在较大分歧:东亚危机之前,由于经济的持续繁荣,以及日本企业在世界市场上强劲的竞争力,主流的观点认为,关系型融资模式在法制和市场环境相对不完善的情况下,较好地解决了市场残缺和市场失灵问题,使信息、产权和激励机制统一起来(青木昌彦,;斯蒂格利茨,;伯格络夫,1995)。东亚危机使东亚金融体制的脆弱性暴露无遗,经济学界批判的矛头指向东亚的融资体制,认为关系型融资模式是政府主导性市场经济的必然产物,它导致了过密的`银企关系和银行体制的脆弱性,并且必然随着金融深化而消失(王跃生,1999;张昌彩,1999),即关系型融资本身是不具备效率的模式。同时,世界市场经济国家的融资模式出现了趋同的势头,英美的融资模式有向关系型融资模式演化的趋势(Moerland,1995)日德的证券市场也日趋活跃,这就存在一个问题,即关系型融资本身是否具有经济合理性,还是有其他因素影响了其效率。
二、融资模式效率分析
由于信息不对称和市场中不确定性的广泛存在,为了保护投资者的利益必须通过某种渠道对企业监督控制,一般来说,有两种典型的融资模式:以英美为代表的保持距离型融资和以日德为代表的关系型融资(控制导向型融资模式)。所谓保持距离型融资是指投资者并不直接`干预经营战略决策,只要他们得到合同规定的支付,信息的收集和对企业的监督靠市场和法律来实施;关系型融资是投资者直接干预经营战略决策来保证其利益的实现,信息的收集和对企业的监督主要在密切的长期的交易关系中进行。投资者对融资模式的选择也就是对信息的收集监督方式的选择,这使投资者必须对以下几个方面进行权衡:
1.信息租金和信息成本的权衡。所谓信息租金就是通过信息的收集减少投资风险,增加投资收益,其实质是减少代理成本。它大致来源于三个方面的信息收集:事前对企业风险态度的了解和项目风险的估测,避免逆向选择问题;事中对资金使用去向的监督,避免道德风险问题;事后跟踪监督,了解企业经营成果和经营状况,保证利益的实现。信息租金越大,投资者收集信息的动力越强烈。
从市场收集信息要花费成本,其大小取决于以下因素:从制度安排上来看,首先是法律制度的完备性和可置信程度。一般来说,法律制度越健全,规则越细致,人们的行动就越可能被准确地预期;法律制度的执行越严格,司法越公正,法律制度的可置信程度越高,契约的实施执行越有保证;因此,完善的法律制度在很大程度上增强社会预期,降低信息收集成本。其次是激励机制的设计。信息的不对称和不确定性的存在使激励机制成为必要,而使契约双方利益相容的激励机制又可以使信息被正确地显示,从而降低信息收集成本(Hart,1995)。第三,产权的清晰程度。按照德姆塞茨的定义,“产权是一种社会工具,其重要性就在于事实上它们能帮助一个人形成他与其他人交易时的合理预期。”(德姆塞茨,1994)产权越明晰,就能提供越多的合理预期,从市场上收集信息的成本就越低。从经济的角度看,一是市场交易规模影响着信息的收集成本。一方面,交易规模的扩大与伴之而来的分工深化,使信息的收集存在分工优势和规模经济(施蒂格勒,);另一方面,产权本身不仅是交易的前提,
帧间模式选择 篇5
先进的编码技术使编码效率提高了,但是编码过程更加复杂了。例如在采用四叉树划分结构进行编码时,如果最小编码单元的尺寸为8×8,则每个64×64的块共有1+174=83 522种可能的划分方式。而AVS1,每个宏块有4种划分方式,16个宏块是相加的关系,编码一个64×64的图像块只需要64种可能的方式。相比之下,其编码复杂度提高了许多倍数,其他新技术也有类似情况。因此,研究如何降低AVS2的编码复杂度,是非常有必要的。
1 AVS2帧间预测相关技术介绍
1.1 AVS2的编码块结构
为了更加灵活、高效地划分视频场景中的不同纹理细节的视频内容或者视频对象,AVS2采用了基于编码单元(Coding Unit,CU)、预测单元(Prediction Unit,PU)和变换单元(Transform Unit,TU)的编码结构[2]。用CU代替了AVS1中的宏块,并赋予其更多灵活的功能。CU基于四叉树结构进行划分,过程如图1所示。最大编码单元LCU(Largest Coding Unit)大小为64×64,深度为0,LCU可以划分为4个32×32的CU,深度为1,每个32×32的CU又可以划分为4个16×16的CU,如此递归划分直到CU的大小为8×8,也就是最小编码单元SCU(Smallest Coding Unit)。在编码过程中每幅图像都可被划分为多个LCU,然后按照上述过程递归划分。
PU是进行预测(包括帧内和帧间预测)的基本单元,由CU划分而得到。在AVS2中,对于一个大小为2N×2N的CU来说,它可以被划分成多个PU,AVS2帧间PU的划分模式如图2所示。图2列出了8种帧间CU划分为PU的模式,其中NO_SPLIT,HOR_SYM,VER_SYM和CROSS_SPLIT是对称划分,而HOR_UP,HOR_DOWN,VER_LEFT和VER_RIGHT是非对称划分,它们都是帧间的预测模式[2]。除此之外帧间还有与NO_SPLIT划分尺寸相同的SKIP预测模式,一共有9种帧间预测模式。
1.2 AVS2帧间预测过程
AVS2进行帧间预测编码时,将一幅图像分成若干个LCU。对每个LCU采用类似树的后续遍历顺序进行编码,过程如图1所示。要确定一个LCU的编码模式需要遍历LCU下各个深度的CU的所有预测模式。如果最小编码单元的尺寸为8×8,则每个64×64的LCU理论上需要尝试预测模式计算:13×(1+4+42+43)=1 105次。对一幅1 920×1 080分辨率的视频图像进行率失真模式选择计算,大约需进行1 105×1 920×1 080÷64÷64≈559 406次,而每种帧间模式需要遍历参考图像,进行运动估计和运动补偿等计算,可见AVS2的帧间编码过程极其复杂和耗时,因此优化AVS2的帧间编码算法对于其实时应用有重大意义。
2 基于时域空域相关性以及纹理特征的预测模式判决方法
目前已有一些降低视频编码复杂度的算法。如文献[3]提出一种帧内预测模式快速决策算法来减小帧内预测模式的数量。文献[4]提出了一种AVS2帧内快速算法,该算法利用已编码CU预测上层CU的模式。文献[5]提出的算法利用相邻PU的相关性避免遍历所有的参考图像,从而提高编码效率。
2.1 AVS2的模式选择算法
以往对编码块的帧间预测模式研究,较多的是利用时域和空域相关性,如把周围已编码图像块的预测模式作为候选模式对当前正在编码的块进行预测,虽然这些方法对减小当前块的模式计算有一定效果,但是往往因为信息利用得不全产生误差,而且误差会对预测下一编码单元产生影响。有的算法还会设定一个阈值用于判断是否进行预测,该阈值设定的精确性非常关键,其精确度直接影响模式选择的效果。本文所提出的算法除利用时域和空域中相邻的编码块,还利用纹理信息进行快速模式判决,可降低外部因素导致的误差。
相邻块与待编码块存在很多相似特征,所以编码块的预测模式和时域、空域相邻的编码块的预测模式存在很强的相关性。而就一个编码块而言,各种帧间预测模式被选择的概率存在很大差异。为了分析各帧间预测模式的分布情况,本文选取了几个序列进行实验以统计每种预测模式的使用概率。为保证实验的普适性,所选取的序列拥有不同的分辨率和纹理特征,Catus,Basketball Drive,City序列的分辨率分别为1 920×1 280,1 280×720,832×480。实验结果如表1所示。
从表1可以看出,编码块的预测模式中各种模式被选为最佳模式的概率差异很大,其中SKIP模式被选为最佳模式的概率最大,平均达到了70%多。而且对于不同的序列而言,每种预测模式被选为最佳模式的概率差异也较大。从表中还可以看出,当序列中的水平(垂直)对称模式使用的概率较大时,水平(垂直)非对称模式也使用得更多。从这些实验结果不难推断,编码块选择何种预测模式和序列本身的纹理特性有很大的关系。
AVS2在帧间预测过程中,并没有考虑序列的纹理特征,都是遍历尝试所有的预测模式以找到最佳模式。本文综合利用预测模式的时域、空域相关性以及编码块的纹理特征,提出快速方法加快帧间预测模式判决,同时保证编码效率。
2.2 时空域相关性以及纹理特征分析
本节在对当前CU进行模式预测之前,可以选取多个时域、空域相邻块作为参考块,并且从参考块中选取一个和当前编码块纹理最接近的参考块作为最佳参考块。接着分析当前CU的纹理特性,根据纹理特性判断进行水平对称划分还是进行垂直对称划分,同时将最佳参考块的预测模式作为对比,避免产生差错。在确定了水平还是垂直划分之后,进一步分析CU的纹理特征,决定是否进行非对称划分。通过该算法可以使帧间预测的复杂度大大减小,而且最佳参考块的存在保证了算法的准确性。
目前已有较多方法用于检验一幅图片的纹理信息,如文献[6]使用图像熵值来判定纹理特征;文献[7]使用归一化后的直流交流系数比AC_DC_ratio来表征图像的纹理复杂度;文献[8]则使用灰度直方图的自相关函数来判断纹理;文献[9]则采用MAD分析待编码宏块水平和垂直方向上的纹理复杂度。
最小均方误差MSE可以有效反映一组数据的变化程度。如果图像某个方向上像素的MSE较小,也就是起伏程度较小,那么这个方向上的像素属于同一对象的概率就较大。因此本文就用MSE来表述图像的纹理特征。
根据MSE的定义,可以利用式(1)和(2)计算CU垂直方向和水平方向的均方误差,即
式中:MSEVer和MSEHor表示CU垂直方向和水平方向的均方误差;W和H分别是待编码CU的宽度和高度(以像素点为单位);α和β是系数值,用于调整不同划分模式下的水平与垂直方向上的像素点数,计算MSEVer和MSEHor时,α和β的值都为1;p(x,y)表示CU像素点的值;mx和my在计算MSEVer和MSEHor时分别表示当前CU的第x+1行像素点的平均值和第y+1列像素点的平均值。
两个编码块纹理特征的相似度,可以利用水平均方误差MSEHor和垂直均方误差MSEVer的绝对误差的和来表示,如式(3)。abs越小就表示两个编码块的纹理特征越接近。
若一组像素具有较小的MSE则表明这些像素值比较接近,划分到同一块的可能性就比较大。所以如果MSEHor<MSEVer,那么就可以判断CU水平方向的像素点属于同一个对象的概率较大,则计算水平对称模式HOR_SYM的率失真代价,否则计算垂直对称模式VER_SYM的率失真代价。
当然也要考虑一些特殊情况,比如由于光线等其他外部因素的影响可能导致一些并不属于同一个对象的像素点具有比较接近的像素值。所以本文在进行纹理分析之前选择一个最佳参考块,根据最佳参考块的预测模式就能避免因为外部因素而产生差错。例如若根据纹理特征判断应该计算当前CU的水平对称模式HOR_SYM并且舍弃垂直对称模式VER_SYM,而最佳参考块的预测模式是3种垂直划分模式VER_SYM,VER_LEFT,VER_RIGHT中的1种,这时就有必要计算垂直对称模式VER_SYM。
由于水平和垂直方向上还有4种非对称模式,即水平和垂直各有2个非对称模式,如图1所示。所以水平对称模式或垂直对称模式被确定之后,对水平方向或垂直方向的纹理进一步分析,仍使用式(1)和式(2)对当前深度下非对称划分的PU的均方误差求值。分析水平非对称的两种模式HOR_UP和HOR_DOWN时,使用式(2),并用MSEUp Up和MSEUp Down分别代表HOR_UP模式下的上下块的MSE,α的值都为1,β的值分别为0.25和0.75;用MSEDown Up和MSEDown Down分别代表HOR_DOWN模式下的上下块的MSE,α的值都为1,β的值分别为0.75和0.25。计算这4个PU的MSE时mx表示当前PU的第x+1行像素点的平均值。分析垂直非对称的两种模式VER_LEFT和VER_RIGHT时,使用式(1),并用MSELeft Left和MSELeftRight分别代表VER_LEFT模式下的左右块的MSE,α的值分别为0.25和0.75,β的值都为1;用MSERight Left和MSERightRight分别代表VER_RIGHT模式下的左右块的MSE,α的值为0.75和0.25,β的值都为1。计算这4个MSE时my表示当前PU第y+1列像素点的平均值。
对于水平和垂直方向上的4种非对称模式,如果小尺寸PU的均方误差小于大尺寸PU的均方误差,那么小尺寸PU中的像素点属于同一个对象的概率较大,则计算该模式的代价。如对于VER_LEFT模式而言,若MSELeft Left<MSELeftRight,则计算VER_LEFT模式的代价,否则放弃该模式。其他3种非对称预测模式作类似处理。
2.3 算法流程
根据上述分析,本文提出了一种基于时域空域相关性以及纹理特征的帧间预测模式快速判决方法,算法流程如图3所示。算法的具体步骤如下:
1)对当前CU进行编码前,选取前一帧对应位置相同深度的CU,以及同一帧左边和上边相邻位置同一深度的CU作为参考CU。计算当前CU以及3个参考CU的水平均方误差MSEHor和垂直均方误差MSEVer。利用式(3)将3个参考CU的纹理与当前CU的纹理进行比较,选择纹理最接近的CU作为当前CU的最佳参考块,并且获得最佳参考块的预测模式Mode0。
2)计算NO_SPLIT模式的率失真代价,并将当前CU的最佳预测模式Best Mode设为NO_SPLIT模式。
3)比较当前CU水平均方误差MSEHor和垂直均方误差MSEVer。若MSEHor<MSEVer,跳转到步骤4);若MSEVer<MSEHor,跳转到步骤5)。
4)若Mode0为3种垂直划分模式VER_SYM、VER_LEFT、VER_RIGHT中的1种,则计算水平对称模式HOR_SYM和垂直对称模式VER_SYM的率失真代价,并且与当前最佳模式相比,选择代价最小的模式作为最佳预测模式Best Mode;否则只计算水平对称模式HOR_SYM的率失真代价,并与当前最佳模式比较得到最佳模式Best Mode。
5)若Mode0为3种水平划分模式HOR_SYM、HOR_UP、HOR_DOWN中的1种,则计算垂直对称模式VER_SYM和水平对称模式HOR_SYM的率失真代价,并且与当前最佳模式相比,选择代价最小的模式作为最佳预测模式Best Mode;否则只计算垂直对称模式VER_SYM的率失真代价,并与当前最佳模式比较得到最佳模式Best Mode。
6)若经过步骤4)或步骤5)之后最佳模式BestMode为NO_SPLIT模式,则结束后续非对称模式计算,跳转到步骤9)。
7)若经过步骤4)或步骤5)之后最佳模式BestMode为水平对称模式HOR_SYM,则计算水平非对称模式HOR_UP(HOR_DOWN)上方位置PU的水平均方误差MSEUp Up(MSEDown Up)和下方位置PU的水平均方误差MSEUp Down(MSEDown Down)。若MSEUp Up<MSEUp Down(MSEDown Down<MSEDown Up),则对水平非对称模式HOR_UP(HOR_DOWN)进行模式计算;否则跳过该模式。
8)若经过步骤4)或步骤5)之后最佳模式BestMode为垂直对称模式VER_SYM,则计算垂直非对称模式VER_LEFT(VER_RIGHT)左侧位置PU的垂直均方误差MSELeft Left(MSERight Left)和右侧位置PU的垂直均方误差MSELeftRight(MSERightRight)。若MSELeft Left<MSELeftRight(MSERightRight<MSERight Left),则对垂直非对称模式VER_LEFT(VER_RIGHT)进行模式计算;否则跳过该模式。
9)比较其他剩余模式。
由算法的流程图和具体步骤可知该算法最多可以减少5种模式计算,最少也可以减少3种模式计算,使帧间编码复杂度大大减小。更重要的是,该算法不需要设定阈值,这样产生误差的概率就很小,而且在利用纹理特征进行模式判决时,利用最佳参考块作比较,这样进一步保证了算法的准确性。
3 实验结果
利用AVS2参考软件RD12.0作为实验平台测试本文提出算法的性能,并且与遍历所有模式的算法进行比较,实验条件如表2所示。本文通过式(4)~(6)进行数据分析,测试不同量化参数(QP)、不同序列下的编码时间time、峰值信噪比PSNR及编码比特率Bit-rate的变化,从而对算法进行综合评价。式(4)中,timereference是原始算法在RD12.0上的编码时间,timeproposed是使用本文提出的快速算法在RD12.0上的编码时间,Δtime即表示两种算法编码时间上的变化。式(5)和(6)中各变量的意义与式(4)类似。
为了验证算法的通用性,本文选择具有不同分辨率、纹理及运动特征的视频序列进行测试。测试序列的分辨率如下:Basketball Drive与Kimonol为1 920×1 080,City与Crew为1 280×720,Party Scene与Race Horses为832×480。表3为本文算法与遍历所有预测模式的算法编码时间及BD-PSNR和BD-Rate的实验比较结果。
从表3中可以看出,本文提出的基于时域、空域相关性以及纹理特征的帧间预测模式判决方法,可显著降低帧间编码时间,而且编码性能只有极小的损失。不同QP下平均编码时间都超过34%的下降,QP为45时,平均编码时间下降44.67%。特别的对于运动比较平缓的Kimonol序列,下降的编码时间最多,在QP为45时达到55.11%,而纹理复杂的City序列,其编码时间平均下降也达到30%多。因为该算法采用相邻最佳参考块作比较,进一步降低判断误差,对编码比特率以及PSNR影响非常小。
4 结语
本文针对AVS2的帧间预测过程中多划分模式带来的编码复杂度增加问题,通过利用时域、空域相关性以及CU的纹理信息,确定PU的最可能划分方式,选择可能性较大的模式进行计算,从而避免遍历计算所有模式。实验结果表明,本文提出的算法应用于AVS2参考软件中,可降低编码时间平均约38%,而编码性能基本保持不变,有助于其实时实现,可促进AVS2视频编码在高清、超高清视频领域的应用。
摘要:新一代国家自主音视频编码标准AVS2已制定完成,相对于上一代标准其具有更高的编码效率,但同时编码复杂度大幅度增加。为了降低编码器的编码复杂度以达到实时应用性能,针对编码单元的预测单元划分进行深入研究,提出了一种帧间预测模式快速判决方法,该方法利用编码单元时域与空域的信息再结合编码单元的纹理信息来预测其划分方式,从而在帧间编码过程中避免遍历所有划分模式。实验表明,该算法可以使编码时间平均下降38%,并且对编码效率影响很小。
关键词:AVS2,帧间预测模式,时空域相关性,纹理特征
参考文献
[1]黄铁军.AVS2标准及未来展望[J].电视技术,2014,38(22):7-10.
[2]周芸.AVS2视频编码关键技术[J].广播电视信息,2015,9(2):18-21.
[3]SHEN X,YU L,CHEN J.Fast coding unit size selection for HEVC based on Bayesian decision rule[C]//Proc.Picture Coding Symposium(PCS).California,[s.n.],2012:453-456.
[4]赵超,赵海武,王国中,等.快速AVS2帧内预测选择算法[J].计算机应用,2015,35(11):3284-3287.
[5]林琪,赵海武,王国中,等.面向AVS2的快速帧间预测算法[J].电视技术,2014,38(17):76-84.
[6]郑箫桢.AVS视频提案AVS_M3012:AMP快速决策机制[EB/OL].[2016-03-10].http://www.avs.org.cn/index.asp?meetingid=65&filetype=proposal.
[7]孟庆磊,姚春莲,宋建斌,等.一种面向H.264/AVC的快速帧内预测选择算法[J].北京航空航天大学学报,2007,33(2):219-223.
[8]LIN Y K,CHANG T S.Fast block type decision algorithm for intra prediction in H.264[C]//Proc.International Conference on Image Processing(ICIP).Genova,Italy:[s.n.],2005:54-58.
帧间模式选择 篇6
HEVC将每帧图像按最大编码单元(Largest Coding Units,LCU)进行划分,每个LCU又可分为一个或多个不同深度(depth)的CU,包括64×64(depth=0)、32×32(depth=1)、16×16(depth=2)、8×8(depth=3)等4种CU模式。每一深度的CU又可按2N×2N、2N×N、N×2N、N×N、2N×nU、2N×nD、n L×2N、nR×2N等8种PU模式进行预测编码[3]。在编码过程中,HEVC采用遍历方式比较上述各种CU及其PU模式的率失真代价,并根据率失真代价确定LCU的最优四叉树结构以及各深度CU的最优PU预测模式,这使得编码器的计算量非常巨大。
为了降低编码复杂度,HEVC采纳了早期编码单元设置(Early Coding Unit,ECU)[4]、快速合并模式(Fast Decision for Merge,FDM)[5]、编码标志快速终止(Coded Block Flag,CBF)[6]、自适应CU深度遍历(A-daptive CU Depth Range,ACUDR)[7]等一些快速编码算法,以减少编码时间。
为进一步提高HEVC的编码速度,Kim等人[8]通过分析运动矢量差和CBF,提前检测当前PU是否满足Skip模式,并终止后续PU预测模式的遍历计算。Lee等人[9]等利用时域相关性来预测当前CU的深度范围,跳过部分可能性较低的CU模式。Shen等人[10]利用时空相关性以及CU层间相关性来预测当前CU的深度范围,并通过检查运动矢量和率失真代价,提前终止PU模式的计算,以降低编码复杂度。
近来,蒋等人[11]提出了一种基于贝叶斯决策的CU快速判决算法,通过相邻LCU的四叉树结构来预测当前LCU的深度范围,并依据率失真代价和阈值的比较进行CU提前终止判决。晏等人[12]提出了一种CU分级判决快速算法,采用自适应权值量化分析时空相邻CU之间的相关性,并预测当前CU的深度范围,跳过和提前终止不必要的深度计算。
上述快速算法在很大程度上减少了CU遍历范围,但若能结合CU运动特征分类进行CU深度预测,可进一步提高编码速度。本研究将基于CU的运动特征,分类进行CU及PU模式的快速判决,加快HEVC帧间编码速度。
1 HEVC帧间模式快速判决算法
1.1 CU运动特征检测
在帧间编码过程中,背景和纹理平滑区往往采用大尺寸CU进行编码,以降低编码码率;运动剧烈区域往往采用小尺寸CU进行编码,以提高编码质量。因此,预判CU的运动特征是提高编码速度的关键。
帧间差分法是比较常用且有效的运动对象检测法[13],即利用前后两帧相同位置处像素的亮度绝对差来衡量运动变化程度。本文采用LCU中4个32×32子CU的二阶亮度绝对差来检测运动对象并衡量其运动幅度。32×32子CU的一阶帧差(First Difference of CU,FD)计算如下
式中:FD(cur)表示当前32×32子CU的一阶帧差;fcur(x,y)表示当前32×32子CU的亮度像素值;gcol(x,y)表示前一帧相同位置处32×32子CU的亮度像素值。
但是由于摄像机抖动、镜头运动、光照等影响,一阶帧差的运动对象检测效果并不理想。鉴于由摄像机抖动所产生的帧间差是持续的、大小相近的,因此本文通过计算二阶帧差,滤除由摄像机抖动等因素所带来的扰动和噪声。32×32子CU的二阶帧差(Second Order Difference of CU,SOD)的定义如下
式中:SOD(cur)表示当前32×32子CU的二阶帧差;FD(col)表示前一帧相同位置处子CU的一阶帧差。
基于上述分析,本文根据二阶帧差SOD来衡量CU的运动特征,并将当前CU分为3种类型:背景平滑区、运动平缓区和运动剧烈区。具体分类如下
根据编码经验,设置T1=128,T2=3×T1,能取得较佳的编码效果。
1.2 运动特征对CU及PU时域相关性的影响
为了掌握相邻两帧之间CU及PU最优模式的相关性概率,分析CU运动特征对CU及PU模式划分的影响,本文采用Class A~E的15个不同分辨率和运动特性的视频序列进行编码统计。测试平台为HEVC参考软件HM12.0[14],统计结果如图1和表1所示。
表1中,PCU表示相邻两帧相同位置CU其模式相同的概率,即CU模式相同的面积/图像总面积;PPU表示相同位置PU模式相同的概率。据表1的数据统计可知,运动剧烈区,其相邻两帧之间的PCU平均仅为50.4%;说明其时域相关性较弱,前帧相同位置的最优CU模式不具有参考意义。而对于背景平滑区,其相邻两帧之间的CU及PU模式有着高度的相似性,其PCU平均为82.6%,其PPU平均达89.2%,分别比运动剧烈区高出32.2%和27.7%。因此,对于背景平滑区,可以使用前帧相同位置的最优CU及PU模式来预测当前CU及PU的模式范围;其预测准确性高,且对不同类型的序列都比较稳定。
从图1可见,各种PU预测模式中,2N×2N模式的使用概率高达84.6%,远高于其他预测模式的使用率。结合表1的统计数据,若当前CU被判为背景平滑区,则当前CU的PU模式更有可能为前帧对应位置的最优PU模式和2N×2N模式;因此,根据一定的判断条件跳过其他冗余PU模式是合理的。
1.3 CU划分模式快速判决
步骤1)第1个P帧图像,根据LCU的一阶帧差结果进行运动区和背景区的判断。如果当前LCU的一阶帧差FD>1 920,则判为运动区;否则判为背景区。对运动区遍历计算深度depth=1~3的CU模式,并根据率失真代价选择最优的CU四叉树结构;对背景区,则直接确定depth=0为最佳CU模式。
步骤2)后续P帧图像,先进行二阶帧差计算,判断当前CU的运动特征,并根据CU特征选取相应的编码策略。如果当前LCU中某个32×32子CU的二阶帧差SOD>T2,则判定当前LCU处于运动区,转入步骤3);否则,判定当前LCU处于背景区,转入步骤4)。
步骤3)运动区。如果当前32×32子CU的二阶帧差SOD>T2,属于运动剧烈区,则设置当前CU的深度遍历范围为depth=1~3。非运动剧烈区,首先获取前帧相同位置处CU的最小深度MinDepth和最大深度MaxDepth,作为当前CU划分的预测范围。然后进一步优化,如果当前32×32子CU的二阶帧差SOD>T1,属于运动平缓区,则修正CU预测范围MinDepth--、MaxDepth++。转入步骤5)。
步骤4)背景区。首先获取前帧相同位置处CU的最小深度MinDepth和最大深度MaxDepth,作为当前CU的预测范围。进一步优化,如果当前32×32子CU的二阶帧差SOD>T1,属于运动平缓区,则Max Depth++;如果当前32×32子CU的二阶帧差SOD≤T1,属于背景平滑区,则MinDepth--。
步骤5)跳过和终止不必要的CU深度,进行编码计算。根据对当前CU的预测范围,跳过深度depth<MinDepth的CU模式,并当深度depth=MaxDepth时,终止当前CU的进一步划分。最后,根据率失真代价选择当前CU的最优模式。
步骤6)对LCU中的每个子CU,递归进行步骤2)~5)的判决过程。
1.4 PU预测模式快速判决算法
步骤1)第1个P帧图像,采用PU预测模式全遍历计算,根据率失真代价选择最优的PU预测模式。
步骤2)后续P帧图像,依据二阶帧差计算结果,分运动区、平缓区、背景区等3种情况设置PU模式候选范围。
步骤3)运动区,采用所有PU预测模式全遍历计算。
步骤4)平缓区,采用2N×2N、2N×N、N×2N、和前帧对应位置的最优PU模式组成候选集。
步骤5)背景区,采用2N×2N、前帧对应位置的最优PU模式组成候选集。
步骤6)根据PU模式候选集,计算最优PU模式。如果在2N×2N模式下,残差经量化后的所有系数为0,且运动矢量差值也为0,则认定2N×2N模式为当前CU的最优PU模式,提前终止PU模式候选集的计算。
本文算法CU及PU模式判决过程如图2所示。
2 实验结果及数据分析
为测试与分析快速算法的性能,在HM12.0软件平台上按通用测试条件[15]进行测试分析。编码器采用低复杂度配置、低延时编码方案,具体测试参数为:IPPP,Max Partition Depth=4,Motion Search Range=64;采用快速合并模式判决算法(Fast Decision for Merge,FDM)、快速运动估计搜索算法(Enhanced Predictive Zonal Search,EPZS)和运动搜索加速算法(Fast Encoder Decision,FEN);编码QP设置为22、27、32和37。
算法性能采用BDBR和BDPSNR[16]指标进行评价,分别表示同样PSNR下码率的损失和相同码率下PSNR的损失情况。采用平均节省时间(Average Saving Time,AST)表示编码复杂度,其定义如下
式中:AST表示本文算法相比HM12.0节省的编码时间;Timeproposed和TimeHM12.0分别表示本文算法和HM12.0的总体编码时间。
由表2可见,与HM12.0编码器相比,本文算法的BDBR平均增加1.530%,BDPSNR平均损失0.068 dB,编码时间AST平均节省48.389%。这一结果说明,本文提出的HEVC帧间模式快速判决算法具有良好的率失真性能,能大幅降低编码时间。特别是对于背景静止、运动复杂度较低的序列,本文算法可以跳过大量不必要的CU深度和PU模式计算,加速效果尤为显著。
图图33和和图图44分分别别为为HHMM1122..00和和本本文文快快速速算算法法对对““BBaasskkeettbbaallllPPaassss””((441166××224400))序序列列进进行行编编码码的的最最优优CCUU划划分分示示意意图图。。根根据据图图33和和图图44的的对对比比可可见见,,仅仅有有55处处地地方方CCUU划划分分结结构构不不同同,,且且CCUU划划分分深深度度差差都都仅仅为为11((如如图图44中中圆圆圈圈标标识识的的区区域域))。。这这说说明明本本文文快快速速算算法法的的CCUU划划分分准准确确性性较较高高。。
为进一步评估本文快速算法的性能,笔者将文献[11]中编码单元裁剪与快速选择算法、文献[12]中时空相关的CU分级判决算法和本文基于运动特征的快速算法进行比较。从表3各种快速算法的率失真和编码时间对比数据可知,与文献[11]提出的算法相比,本文算法的BDBR降低0.65%,编码时间能多节省6%;与文献[12]提出的算法相比,本文算法的编码时间能节省3%,BDPSNR提高0.02 dB,BDBR降低0.98%。因此,本文快速算法的综合性能要优于这两种快速算法。其主要原因是本文算法通过二阶帧差法提取运动对象,提高了对不同运动特征的CU及PU的预测针对性和准确性,特别是有效减少了背景平滑区的CU及PU遍历范围。
3 小结