边信息融合(精选4篇)
边信息融合 篇1
0 引言
立体视频 (Three Dimension Video, 3DV) 作为一种新型的视觉信息媒体, 已经深入到了人们生活、工作和娱乐的各个方面。作为立体视频的一种重要表现形式, 多视点视频的获取、编码与传输也受到了广泛的重视。然而, 与单一视点的视频序列相比, 多视点视频的数据量随着视点数目的增加而呈线性增长趋势;如此庞大的数据量成为制约多视点视频获得广泛应用的重要因素。因此, 对多视点视频序列进行高效的压缩和编码, 以减少所需的传输带宽和存储空间, 已成为研究多视点视频的一项重要课题。
由于多视点视频是由摄像机阵列在同一时刻拍摄同一场景得到, 不同摄像机之间仅存在拍摄角度和位置的细微差异, 因此不同的视点序列之间存在着强烈的相关性。为了更加有效地对多视点视频序列进行编码, 不仅要利用单个视点序列的时间相关性和空间相关性, 同时也要挖掘出视点之间的相关性。文献[1-2]提出了分布式多视点视频编码 (Distributed Multi-view Video Coding, DMVC) 方案。这种编码体系基于Wyner-Ziv理论[3], 可以在解码端挖掘视点间的相关性, 提高视频编码效率的同时避免了编码端大规模的数据交互, 适用于无线分布式传感网络等编码端功率或计算能力受限的情况。
在分布式多视点视频编码系统中, 边信息的质量对于整体的编码效率有重要的影响。在解码端, 根据边信息的生成方式可以将其分为两类:一种是由时间方向上的相邻关键帧经过运动补偿内插算法得到的时间边信息, 另一种是由视点间关键帧通过变换算法得到的视点间边信息。为了能够得到更加准确的边信息, 需要对这两种边信息进行有效的融合。边信息的融合过程是指, 对于视频帧中的某一特定区域, 通过自适应的选择两种边信息中较为准确的部分作为融合结果。现有的边信息融合方案通常只考虑到了时间边信息的可靠性:文献[4]对现有的边信息融合方案进行了系统的研究;文献[5]提出了依据可靠性度量对边信息进行融合;文献[6]引入了基于时间边信息的边信息融合模板 (fusion mask) , 用来提升融合边信息的质量;文献[7]中, 将MCTI算法中的视频块运动矢量作为评判标准, 在时间边信息和视间边信息中进行选择。
本文提出了基于边信息可靠性估计的融合算法, 根据时间边信息与视点间边信息的合成原理, 对其时间上的连续性与空间结构特性进行挖掘与分析, 从而得到边信息可靠性的预测值, 然后再根据不同分块的可靠性进行边信息融合。实验结果表明了该算法相对于目前的边信息融合算法来说, 最终得到的边信息更接近原始图像, 而且具有算法复杂度低的特点, 可以应用于实时解码。
1 分布式多视点视频编码框架
分布式多视点视频编码可以看作单一视点分布式视频编码的一种扩展形式。在分布式多视点视频编码中, 视频帧是由WZ帧和K帧组成。图1中描述了DMVC编码体系下WZ帧与K帧的分布结构。对于每个WZ帧来说, 其在同一视点相邻时刻的前后两帧与同一时刻相邻视点的两帧都是K帧。这样的帧结构分布, 使得解码端既能有效地利用同一视点序列中的时间相关性, 又能够很好地挖掘出不同视角间的相关性;从而提升多视点视频的编码效率。
图2展示了分布式多视点视频的编码框架。对于某一特定的WZ帧Xm, t, 它的时间边信息 (temporal side information) YTm, t可以通过时间方向上的前后两帧Xm, t-1和Xm, t+1生成[8]。而视点间边信息YVm, t可以通过左右视点的相邻帧Xm-1, t和Xm+1, t获得[7]。本文的贡献在于对这两种边信息的融合算法进行研究。通过生成的边信息YTm, t、YVm, t以及相应的误差估计图RTm, t、RVm, t, 可以融合得到更加准确的融合边信息Ym, t;从而提升整个编码框架的编码效率。在对本文提出的基于边信息可靠性的融合算法进行讲解之前, 首先对两种边信息的生成算法进行简单的介绍。
1.1 时间边信息的生成
在分布式视频编码中, 时间边信息的产生方法有很多种。最简单的方法是关键帧复制法, 即直接复制前一个已经解码的关键帧作为边信息。由关键帧复制法扩展得到的方法是前后关键帧平均法, 它将前后两个相邻的关键帧在相同位置处的像素值进行平均, 作为相应位置处的边信息。显然, 当视频中的物体运动比较剧烈, 或者视频序列相邻帧间的相关性比较低时, 采用上面两种方法得到的边信息与原始WZ帧会有较大的误差。本文中采用文献[8]提出的运动补偿时域内插方法获取时间边信息, 主要包括四个模块:前向运动估计、双向运动估计、空间平滑和双向运动补偿。它可以充分挖掘相邻帧在时间域和空间域上的相关性, 找到最接近真实运动场景的运动矢量, 生成精确的时间边信息。
1.2 视点间边信息的生成
一般来讲, 视点间边信息是由相邻视点中的关键帧通过仿射变换得到[2,7]。本文中, 采用文献[7]提出的基于子图匹配的仿射变换算法, 生成高质量的视点间边信息。它主要分为以下4个步骤:图像分割、基于子图的SIFT特征点匹配、基于子图的仿射变换、左右视点融合。采用基于子图的仿射变换算法, 可以对图像中不同深度的物体, 比如前景物体与背景区域, 分别进行变换, 得到更加精确的视点间边信息。关于此算法的具体流程, 可以参考文献[7]。
2 基于可靠性估计的边信息融合算法
2.1 时间边信息可靠性估计算法
根据1.1节中的描述, 时间边信息YTm, t是基于前后两个关键帧的双向运动补偿和时域内插[8]得到的, 如图3所示。由于在分布式视频编码框架中, 解码端无法获取WZ帧的信息, 因此无法对运动矢量的准确性做出判断。由于MCTI算法基于物体运动的两个假设:物体具有线性运动以及运动比较缓慢;因此对于视频帧中较为快速和非规则的运动物体来说, 得到时间边信息的质量并不理想。如图4 (a) 中, 展示了Race1序列中第120帧所对应的时间边信息。视频序列中的赛车具有十分快速而且非规则的运动特性, 从图中也可看出, 这一区域合成出来的时间边信息质量比较差。图4 (b) 中展示了时间边信息误差图ETm, t, 它是直接将原始WZ帧与对应的时间边信息作差得到的;为了便于展示, 在边信息误差图中, 把几乎没有差异的区域设为灰色, 而差异较大的区域设为白色或黑色。
如果直接利用时间边信息误差图ETm, t来对边信息的融合进行指导, 将得到理想情况下的融合结果。但是由于WZ帧无法在解码端获取, 因此这样的误差图也无法得到的。由于时间边信息是经过运动补偿后的前后关键帧进行平均得到的结果, 那么二者作差的结果, 也可以作为对时间边信息可靠性的一种度量方法。如图4 (c) 所示, 可以发现, 这样得到的估计误差图RTm, t, 可以较粗略地描述时间边信息中的不可靠区域, 这也印证了上文的假设。这种假设的思想是基于:如果通过运动补偿内插得到的运动矢量对于前后关键帧都是准确的, 那么通过运动补偿后所对应的视频块之间的差异应该比较小;如果说其中至少一个关键帧的运动矢量不准确, 那么它所对应的补偿结果将会有较大的变形, 其相应的估计误差值也会随之增加。
2.2 视点间边信息可靠性估计方法
视点间边信息YVm, t是由相邻视点间关键帧通过仿射变换得到, 而仿射变换的参数是根据WZ帧与关键帧间匹配的SIFT特征点对计算出来, 如图5所示。与时间边信息的情况类似, 图6 (b) 为视点间边信息的误差图EVm, t, 同样用灰色区域表示。相比于图4 (b) 来说, 图6 (b) 具加更平滑的性质, 而且误差值也更小。也就是说, 对于运动非常快速和不规则的区域来说, 视点间边信息可以提供对原始WZ帧更加准确的估计。
与时间边信息的情况类似, 视点间边信息的估计误差图RVm, t也可以通过对左右两个视点仿射变换后的结果作差得到, 如图6 (c) 所示。可以看出, 估计误差图RVm, t也是对相应边信息误差EVm, t的一种大致估计。另外, 值得说明的是, 在视频帧的边界区域, 存在非常大的预测误差, 这是由于视点间的存在一定的视差。
2.3 基于预测误差值的边信息融合
基于上述对边信息误差值的预测值, 可以直接对边信息进行融合, 选取相对预测误差较小的情况作为最终的融合边信息。对某一特定视频块i来说, 将其对应的预测误差值定义为估计误差图在对应视频块内的均值, 如式 (1) 所示。
其中, 分别是前向参考帧和后向参考帧中所对应的视频块, 分别对应于左右两个视点关键帧中仿射变换后的结果。B是块i内像素点的个数, p={1, 2, …, B}对应块内像素点的下标。由式 (1) , 可以发现, 时间预测误差值riT实际上是前向参考帧和后向参考帧中所对应视频块的绝对差值的平均;显然, riT的值越小表示时间边信息中所对应的块质量越好。由此, 对于融合边信息中的某一块i, 首先比较对应的时间边信息预测误差值riT与视点间边信息预测误差值riV, 然后选择具有较小预测误差值对应的视频块作为最终的融合边信息。如式 (2) 所示, li表示当前边信息状态, T和V分别表示最终边信息对应的当前块取自时间边信息YTm, t或YVm, t。
3 实验结果与分析
本文进行了大量的实验测试来论证基于预测误差值的边信息融合算法的有效性, 本节将主要论述实验的配置与实验结果的分析。本文提出的融合算法与现有的基于运动矢量的边信息融合算法[7]作了对比;实验中视频帧结构如图1所示, 选取三个典型的测试序列中的100帧作为实验数据 (Race 1, Flamenco 2, Vassar) 。详细的实验配置如表1所示。值得说明的是, 在实验中被测序列均通过下采样至320×240的分辨率, 这是为了将DMVC中WZ帧解码与重构的时间减少至可以接受的范围。由于序列Race1/Vassar中的前85/80帧的物体运动十分缓和, 融合结果基本都是挑选自时间边信息;因此对于这两个序列, 本文选择分布测试其85/80帧至185/180帧作为融合效果的分析。
3.1 融合边信息的质量评价
表2提供了基于预测误差值的融合算法的客观质量。其中选取了三个视频序列中的100帧进行实验, 同时将时间边信息、视点边信息以及基于运动矢量的融合算法[7]作为对比。实验数据显示, 本文提出的基于预测误差值的融合算法比其他算法的性能更好。对于序列Flamenco 2和Vassar, 分块大小为8×8时达到最佳的融合效果, 而对于序列Race 1来说, 16×16时达到分块大小更优。这是不同序列之间的物体运动性质决定的, 在运动比较剧烈的区域, 预测误差值的准确性有所降低, 然而可以通过增大视频分块的方法将这一劣势抵消。关于视频分块对于融合算法的性能影响, 将会在下一节作讨论。图7中, 第一行列出了原始视频序列中的WZ帧, 第二行展示了采用本文所提方案的融合结果, 其中视频块大小设为4×4。可以看出, 本文提出的融合算法对于物体结构的表述看起来更加平滑和真实。
3.2 视频块大小对于融合算法的影响
接下来, 本文比较基于不同块大小的边信息融合结果, 对这种融合方案的性能和特征作出分析。图8列举出了基于预测误差值的融合算法的主观质量和客观评价, 选择Vassar视频序列的第88帧作为测试用例。在图8 (b) 中, 可以看到, 在一些运动剧烈的地方有着明显的块效应。例如, 汽车的轮子以及边缘轮廓。而图8 (c) 中的视点间边信息, 在这些区域内都显示出了较好的合成质量, 然而由于视点间视差的存在, 对于一些静止的物体反而会存在失真;比如说电线杆有鬼影的效果。图8的第二行是基于预测误差值的边信息融合结果。由图8 (d) -8 (f) 可以看出, 融合边信息的客观质量较时间边信息或者视点间边信息有着较大的提升。观察图8 (d) (4×4) 中由红色矩形所标记的区域, 前景中的电线杆取自时间边信息, 而后景中的车轮取自视点间边信息。这一现象说明了融合算法确实可以自适应地选择质量较高的边信息来作为最后的融合结果。但由于估计误差图RTm, t和RVm, t对于边信息的误差只是提供了一种较为粗略的估计, 因此二者之间的不一致性是影响最终融合结果的重要原因。例如, 在图8 (d) 中, 观察被蓝色矩形标记的前车轮, 在车轮的左下方区域出现了错误的融合结果。不过, 这种估计误差的不准确性仅仅出现在局部区域, 而且可以通过增加分块大小来消除, 如图8 (e) 中所示。虽然增加分块大小可以消除误差不准确性造成的影响, 但是同时也意味着在选择时间边信息或视点边信息时的灵活性降低。这两个方面的因素互相折衷, 存在一个最优的分块大小, 使得最终的融合边信息达到最好的效果。对于图8中所示的视频帧来说, 最优的分块大小是8×8像素。
4 结束语
本文针对分布式多视点视频编码提出了一种基于可靠性分析的边信息融合方案, 可以利用已有边信息的时间上连续性与空间结构特性等信息, 对边信息的可靠性作出有效预计, 再进行融合算法。实验结果表明了该算法相对于现有融合方案来说能够得到更好的融合结果, 同时没有引入额外的计算开销, 适于实时解码的应用场景。
摘要:在分布式多视点视频编码系统中, 边信息的质量对于整体的编码效率有重要的影响。在解码端, 可以得到两种类型的边信息:时间边信息与视点间边信息。为了能够得到更加准确的边信息, 需要对这两种边信息进行有效的融合。文中提出了基于边信息可靠性估计的融合算法, 对边信息时间上的连续性与空间结构特性进行挖掘与分析, 从而得到边信息误差的预测值并进行边信息融合。实验结果表明了本中提出的算法相对于现有融合算法来说, 具有更好的融合效果, 可以有效提升分布式编码框架的效率。
关键词:边信息融合,分布式视频编码,多视点视频,可靠性估计
参考文献
[1]Guillemot C, Pereira F, Torres L, et al.Distributed monoview and multiview video coding[J].IEEE Signal Processing Magazine, Sept.2007, 24 (5) :67-76.
[2]Guo X, Lu Y, Wu F, et al.Wyner-Ziv-based multiview video coding[J].IEEE Trans.Circuits Syst.Video Technol, Jun.2008, 18 (6) :713-724.
[3]Wyner A.Recent results in the shannon theory[J].IEEE Trans.Inform.Theory, Jan.1974, 20 (1) :2-10.
[4]Maugey T, Miled W, Cagnazzo M, et al.Fusion schemes for multiview distributed video coding[C]//Proc.European Signal Processing Conference, Aug.2009.
[5]Artigas X, Angeli E, Torres L.Side information generation for multiview distributed video coding using a fusion approach[C]//Proc.the Nordic Signal Processing Symposium, Iceland, Jun.2006:250-253.
[6]Ouaret M, Dufaux F, Ebrahimi T.Fusion-based multiview distributed video coding[C]//Proc.ACM Int.Workshop Video Surveillance and Sensor Networks, Oct.2006:139-144.
[7]Xiong H, Lv H, Zhang Y, et al.Subgraphs matching-based side information generation for distributed multiview video coding[J].EURASIP J.Adv.Signal Process, article.386795, 2009:17.
[8]Ascenso J, Pereira F.Advanced side information creation techniques and framework for Wyner-Ziv video coding[J].Journal of Visual Communication and Image Representation, Dec.2008, 19 (8) :600-613.
边信息融合 篇2
多视角分布式视频编码MDVC
目前,针对时间边信息与空间边信息的融合方法主要有三类。第一类是在像素层面上生成针对时间边信息可靠程度的模版,并以此为基准生成最终的融合模版,称为时间主导融合模版,空间边信息在融合过程中只是起辅助作用。文献
第二类方法是在像素层面上生成针对空间边信息可靠程度的模版,对空间边信息中不可靠的位置采用时间边信息对应位置的像素值,称为空间补偿融合模版。代表方法是Maugey等人提出基于密集视差的边信息融合模板生成方法
第三类方法是在像素层面上分别得到时间边信息与空间边信息的可靠性模版,综合分析得到最终的融合模版,称为时空补偿融合模版。代表技术为Brites等人在文献
为了解决上述时空边信息融合方法中存在的问题,本文提出一种基于置信度的时空边信息融合方法。该方法利用时间边信息生成阶段得到的运动矢量与空间边信息生成阶段得到的视差向量,得到时间与空间边信息之间的置信度;再结合时间像素转移模版与空间像素转移模版,得到最终的时空融合模版,进而获得最终的时空融合边信息。
1 多视角分布式视频编码框架
本文采用文献
图1 多视角分布式视频编码框架
2 基于置信度的时空边信息融合方法
现有时空边信息融合方法中主要存在两个问题:1)在生成时空融合模版时,只单独确认了时间边信息或空间边信息的可靠程度,没有对两种边信息地可靠程度进行区分;2)没有充分分析所有可能的情况,简单地在时间边信息不可靠时采用空间边信息或空间边信息不可靠时采用时间边信息,没有提出当时间边信息与空间边信息都可靠或都不可靠时的处理办法。针对这两个问题,本文提出了一种基于置信度的时空边信息融合方法,具体实现框架如图2所示。
图2 时空边信息融合模版生成框架
2.1 时间边信息可靠性模版生成
为了获得时间边信息在不同区域的可靠性,本文采用与文献
(1)计算图像差异。由于时间边信息是由XBshifted与XFshifted进行像素内插产生
其中,D(x,y)代表残差图像的像素值,x为水平方向坐标,y为垂直方向的坐标。
(2)直方图均衡化。原始的残差图在很多区域的值过于集中,无法准确进行可靠性区分。为了获得更加明显的差异,需要对其进行直方图均衡化处理
(3)归一化差异。获得DE后,需要以阈值θ来对图像进行分割,小于θ表明XBshifted与XFshifted的像素差异较小,反之表明差异较大。首先,为θ设置一个有效的初始值,计算DE中所有大于θ的像素的平均值为μ0,小于θ的像素的平均值为μ1,再利用式(3)进行循环迭代:
直到θ的值趋向稳定,最后得到归一化图像S:
(4)形态学修正。为了使图像中可靠与不可靠的区域更加连续,需对S进行形态学修正。对归一化图像中值为1的部分进行膨胀处理,膨胀模版的大小为3,再进行中值滤波,去除S中的部分独立的点。得到XBshifted与XFshifted之间的像素相似度模版。
(5)最终时间边信息可靠性模板的生成。将XBshifted与XFshifted,XBshifted与SIT,XFshifted与SIT依次进行步骤(1)-步骤(4)的操作得到对应的相似度模版F1、F2与F3。通常情况下,时间边信息的可靠程度较高,对时间边信息可靠性模板FT采用最严格的判决条件以提高准确性。
其中,FT的值为0代表时间边信息中的像素值是可靠的,对应原始WZ帧中背景的部分;1代表时间边信息中该位置的像素值不可靠,对应原始WZ帧中前景的部分。
2.2 空间边信息可靠性模版生成
传统的空间像素转移模版大多采用左右视角向中间视角投影并计算差异的方式,利用视差图、摄像机的投影矩阵、单应性矩阵等方法分别将左右视角映射到中间视角的位置进行处理,进而得到所需的空间边信息可靠性模版。但是以左右视角为基准的投影方法受到光照、视差、拍摄角度等不同条件的影响,生成的映射图像会出现大量的重叠与未覆盖的问题。为了解决这些问题,需要将左右视角相对于中间视角的视差向量转换为中间视角相对于左右视角的视差向量
(1)生成相似度模版。由于左右视角之间的像素差异较大,直接对XLmapping与XRmapping进行像素相似性处理的结果准确性较低,影响最终空间边信息可靠性模版的精确度。因此仅对XLmapping与SIS,XRmapping与SIS进行2.1节中步骤(1)-步骤(4)的操作,得到对应的像素相似度模版Fa与Fb。
(2)空间边信息可靠性模版生成。由于左右视角存在边界或遮盖等情况,空间边信息不完全是由左右视角相同物体的像素取均值得到,实际操作中可能单独使用了左视角或者右视角的像素值。为了更好地表示空间上左右视角之间像素的差异性,空间像素模版FS采用三种值表示不同的可靠程度。
其中,如果FS的值为2,表示空间边信息中该位置是可靠的,对应原始WZ帧的前景部分;如果为0,则代表空间边信息中该位置完全不可靠,对应原始WZ帧的背景部分;1则代表该空间边信息在该位置的可靠性未知。
2.3 时空置信度模版生成
虽然时间与空间可靠性模版FT与FS能较好地体现时间边信息SIT、空间边信息SIS与原始WZ帧的相似程度,但是当FT与FS所代表的位置都可靠或者都不可靠时无法进行可靠程度区分,即无法判断此时SIT与SIS谁更接近原始的WZ帧。为了解决这个问题,本文提出一种基于像素的时空置信度模版FT&S的生成方法。
Dufaux在文献
直接使用块进行操作会降低最终结果的精确度,即使时间边信息对应块的置信度更高,也可能存在空间边信息对应块中部分像素更接近原始的WZ帧的情况。为了解决这个问题,本文对块内像素按照该块的运动矢量和视差向量的映射分别计算差的绝对值并进行对比。实际操作中运动矢量和视差向量存在很多错误,需要对对应块之间的SAD值和像素之间的差异值进行限定,具体步骤如下:
步骤1越界判断。以像素为单位,代入该像素所属块的时间运动矢量MV与空间视差向量DV,并判断对应的像素的位置是否越界。如果代入MV后没有越界而DV越界,表示时间边信息更可靠,将该像素位置的FT&S的值设为0;如果代入DV后没有越界而MV越界,则表示空间边信息更可靠,将其设为1;如果代入DV与MV都越界,表示时间边信息与空间边信息可靠性未知,将其设为2。通过越界判断可以确保MV与DV对应的位置存在。
步骤2块可靠性判断。计算待处理像素所属的块代入MV后在时间上前后帧中对应块之间的绝对差值和SADT,与代入DV后空间上左右视角在当前时刻的帧中对应块之间的绝对差值和SADS。设置阈值TB,当SADT小于TB而SADS大于该阈值时,该像素位置FT&S的值设置为0;当SADT大于TB而SADS小于该阈值时设为1;当SADT与SADS都大于TB时设为2;当SADT与SADS都小于TB时进行下一步操作。
步骤3像素可靠性判断。计算待处理像素位置代入MV后在时间上前后帧对应位置像素值之间的差异PixelT,代入DV后在空间上左右视角在相同时刻的帧对应位置像素值之间的差异PixelS。设置阈值TP,当PixelT小于TP而PixelS大于该阈值时,该像素位置FT&S的值设置为0;当PixelT大于TP而PixelS小于该阈值时设为1;当PixelT与PixelS都大于TP时设为2;当PixelT与PixelS都小于TP时进行下一步操作。
步骤4最终置信度模板生成。经过步骤1-步骤3的操作后可以认为PixelT与PixelS分别代表时间与空间边信息在该像素位置的置信度。当PixelT小于PixelS时,该像素位置FT&S的值设置为0;当PixelT大于PixelS时设为1;当PixelT等于PixelS时设为2。
2.4 时空融合模版生成
通过2.1节、2.2节和2.3节可以分别得到生成过程不相关的三个模板,最终时空融合模板的生成需要确定不同模板之间的权重。当时间边信息质量远超空间边信息时,以时间边信息可靠性模板为主,用空间边信息可靠性模板与时空置信度模板进行辅助纠正;当空间边信息效果超过时间边信息时,以空间边信息可靠性模板为主;当时间运动矢量与空间视差向量准确度较高时,时空置信度模板最为接近理想状况。
目前,时间边信息的生成方法较为成熟,而空间边信息的生成方法对不同景深、视差的序列的结果存在较大差异
(1)当FT(x,y)值为0以及FS(x,y)值为0或1时,说明图像中(x,y)位置上的时间边信息可靠而空间边信息不可靠。此时,F(x,y)的值设为0,表示时空融合边信息在该位置采用时间边信息中对应位置的像素值。
(2)当FT(x,y)值为1而FS(x,y)值为2时,图像中(x,y)位置上时间边信息不可靠而空间边信息可靠。F(x,y)的值设为1,表示时空融合边信息在该位置采用空间边信息中对应位置的像素值。
(3)当FT(x,y)值为0而FS(x,y)值为2时,图像中(x,y)位置上时间边信息与空间边信息都可靠,需要利用时空置信度模板进行进一步区分。若FT&S在(x,y)位置的值为0,则F(x,y)的值为0;若FT&S为1,则F(x,y)的值设为1;如果FT&S值为2,表明时间上前后帧的差异要小于空间上左右帧的差异,可将F(x,y)的值设为0。若序列在时间上变化远大于空间上的差异,则F(x,y)的值设为1。
(4)当FT(x,y)值为1而FS(x,y)的值为0时,图像中(x,y)位置上时间边信息与空间边信息都不可靠,与(3)相同。
(5)当FT(x,y)值为1而FS(x,y)的值为1时,时间边信息不可靠而空间边信息可靠性未知。若FT&S在(x,y)位置的值为0,则F(x,y)的值设为0;若FT&S值为1或者2,则F(x,y)的值为1。
由于利用了时空置信度模板,并考虑了各种可能情况,故本文提出的时空融合模版生成方法得到的融合边信息更加接近实际的WZ帧。
3 实验结果及分析
本文的仿真实验平台采用以基于LDPC码的DCT域的Wyner-Ziv编码系统
图3给出了在三个算法在三个序列中的率失真(R-D)曲线。从图中可以看出,本文的时空融合方法在不同序列、量化级别下都有一定程度的提升。在vassar序列中码率为177.41 kbps时相比于时间主导融合方法,峰值信噪比的提升最大为0.79 d B。这主要是由于这个序列中空间边信息的结果相对较好,而时间主导融合方法对空间边信息利用较差。在exit序列中码率为324.40 kbps时相比于时空补偿融合模板,峰值信噪比提升最大为0.58 d B。这主要是由于这个序列的景物深度差异很大,时间边信息与空间边信息的结果都不太好,而时空补偿融合模板没有对时间边信息与空间边信息的可靠程度进行区分。在ballroom序列中,三个算法效果相当,本文的算法略优。出现这种情况主要是由于该序列中时间边信息与空间边信息的结果都较为优秀,不论采用哪种边信息,结果差异不大,由于本文综合分析了所有可能情况,因此效果相对最优。
图3 三种序列的R-D曲线
为了更加详细比较上述三种融合方法的性能,表1给出了ballroom、vassar和exit视频序列在不同量化系数和不同时空边信息融合方法下WZ系统的平均PSNR与平均码率。从表1可以看出,本文提出的基于置信度的时空边信息融合方法在不同的量化系数下达到相同PSNR所需的平均码率均小于时间主导融合方法与时空补偿融合方法。这主要是由于本文的方法对时间边信息与空间边信息的可靠程度进行了区分,并分析了所有可能性。在计算复杂度没有明显增加的情况下,能够有效地降低MDVC系统的码率,提高压缩性能。
表1 ballroom、vassar和exit对应的平均PSNR值和平均码率
图4给出了vassar序列的第二帧在量化参数Q=0.5的情况下采用不同融合模板得到的融合边信息的视觉效果。可以看出,本文算法能最好地保留图像中汽车和门的边框部分。时间主导融合方法没有分析空间边信息的可靠性,无法剔除空间边信息中不可靠的部分。时空补偿融合方法由于没有引入对时间边信息与空间边信息可靠程度的分级,没有选择出时间边信息与空间边信息中最优的部分。
图4 vassar序列中第二帧在不同实验下视觉对比图
4 结语
本文针对现有时空边信息融合中存在的问题,提出了一种基于置信度的时空边信息融合方法。该方法利用边信息生成阶段得到的时间上的运动矢量与空间上的视差向量得到时空置信度模板,再结合时间边信息可靠性模板与空间边信息可靠性模板,得到最终的时空融合模板。在相同码率下,相比于时间主导融合方法最高有0.79 d B的提升,相比于时空补偿融合模板最高有0.58 d B的提升。此外,本文的算法能较好地保留图像中的细节部分,主观效果更加优秀。
摘要:在现有的多视角分布式视频编码MDVC(Multi-view Distributed Video Coding)边信息SI(side information)生成方法中,时间与空间边信息的融合未能有效地选择和提取两种边信息的可靠部分。针对这个问题,提出一种基于置信度的时空边信息的融合方法。利用时间和空间边信息的可靠性模版以及时空置信度的模版,获得时空融合模版;然后,利用时空融合模版从时间边信息与空间边信息中选择出最优的像素组成最终的融合边信息。实验结果表明,在相同码率的条件下,获得的峰值信噪比PSNR(Peak Signal to Noise Ratio)相比于时间主导融合方法最高有0.79 d B的提升,相比于时空补偿融合模板最高有0.58 d B的提升。此外,获得的重构帧能有效地保留原始图像的细节部分。
边信息融合 篇3
随着WWW的快速发展,Web网页中已经存放了涵盖各个领域的大量有价值的信息,庞杂的数据日益增多。Web在给我们带来快速、便捷、廉价、丰富信息的同时,也给我们带来了一个问题。由于越来越多的企业和个人通过Web发布信息,使得Web上的信息量以指数级的增长速度在增长,Web上庞大的信息量和用户需求之间产生了严重的不平衡矛盾,用户为了获取自己需要的一点点信息,可能需要花费几十分钟、几个小时、甚至更长时间来搜索、浏览网页查找所需信息,一不小心就会淹没在信息的汪洋之中。
目前,针对Web信息的抽取工具大致可以分为2类:基于特别语法的信息抽取工具盒基于归纳学习的信息抽取工具。基于特别语法的信息抽取工具主要有TSIMMIS。基于归纳学习的信息抽取工具主要用于自动生成针对结构相似的Web页面的包装器。这种信息抽取方法没有考虑信息项之间的次序辨析和信息项在Web页面中的位置特征,信息抽取模型的表达能力不足,从而影响了信息抽取的性能。
作为一种机器学习模型,条件随机场模型由于其前后相连的序列关系已经成功的应用到Web信息抽取中。由于Web信息项之间的逻辑关系是“非线性的”;传统的基于CRFs的信息抽取方式是以目标项的前后文item作为词汇,而对Web信息进行抽取时,则会包含目标项的格式、位置等特征项信息。
根据Web信息的特点,本文提出了一种基于二维关联边条件随机场的web信息抽取方法,给出了根据序列表示词性的二维关联边条件随机场信息抽取模型的算法及相应的信息抽取算法。
2 信息抽取模型构造算法及信息抽取算法
信息抽取模型的构造过程如图1所示。首先使用HTML解析器将输入的Web文档解析为一个词性序列,然后对待抽取的信息项在条件随机场模型中进行标注,最后使用二维关联边条件随机场模型中相应的公式对标注的结果进行归纳,获得信息抽取模型。
2.1 二维关联边条件随机场标注模型
定义设G=<X,Y>是一个二维条件随机场,X是序列观测数据随机变量,Y是状态标注序列随机变量。Yi,j是Y在位置(i,j)上的组成元素。如果存在Yi,j,Ym,n,且Yi,j∈Y,Ym,n∈Y,|i-m|<1,|j-n|>1,使得Ym,n依赖于Yi,j,则对称边(Yi,j,Ym,n)是一条关联边,并称包含关联边的二维条件随机场模型为二维关联边条件随机场。
在本文提出的模型中,关联边分为两种类型:CU型关联边和UU型关联边,当Yi,j不具有确定的语义标签时,称关联边(Yi,j,Ym,n)为Certain-Uncertain型关联边,简称CU型关联边;当Ym,n和Yi,j都不具有确定的语义标签时,称关联边(Yi,j,Ym,n)为UncertainUncertain型关联边,简称UU型关联边。利用二维关联边条件随机场模型主要完成三方面的工作:(1)建立关联边;(2)参数估计;(3)特征向量。
2.2 信息抽取算法
得到信息抽取模型后,按照如下步骤抽取Web信息:(1)根据生成算法将输入的Web文档解析为词性序列;(2)按照顺序遍历方式提取词性序列中每个text属性不为空的节点的路径作为观测值;(3)采用Viterbi算法将待抽取的输入序列标记为最大概率状态标签序列。
3 实验
实验数据来源于BigBook网站,输入关键字IBM后查询得到48个网页,共630条记录。每条记录由公司名、街道、城市、电话、传真以及E-mail等项构成。在实验中,随机选择100条作为训练样例,然后再整个数据集上进行测试。
为了便于对Web信息抽取的结果进行衡量和分析,采用召回率(recall)和准确率(precision)2个指标作为算法评价标准。实验结果如表1所示。
4 结束语
本文在对现有的信息抽取工具和方法进行深入分析的基础上,提出了一种基于二维关联边条件随机场的Web信息抽取方法:首先将给定的HTML标记序列解析为一个词性序列,接着在词性序列上对信息项及其所在的位置进行标注,然后使用二维关联边条件随机场模型中相应的概率公式计算模型所需的参数,从而获得信息抽取模型。实验表明该方法获得了更好的抽取性能。
参考文献
[1]WIEDRHOLD G.Mediators in the Architecture of Future Information System.IEEE Computer,1992.25(3):38-49.
[2]Hammar J,Garcia-Molina H,Cho j,et al.Extraction semi-structured information from the Web[C].In Proceedings of the Workshop on Management of Semi-structured Data,Tucson Arizona,1997.
[3]石宇.基于XML的Web信息抽取与集成技术的研究:[硕士学位论文].大连海事大学,2006.
边信息融合 篇4
关键词:分布式视频编码,边信息,代价值,块匹配
分布式视频编码(DVC)[1,2]就是为了解决传统视频编码在视频通信中遇到的编码器复杂等问题而提出来的。以Slepian和Wolf建立的分布式无损编码理论,Wyner和Ziv建立解码端辅助信息的有损编码理论为基础,在编码端将视频序列分为Key帧和WZ帧进行独立编码,Key帧采用传统的编码方式,WZ帧则采用Tuobo码或LDPC码进行信道编码。在解码端采用联合解码,利用时域相邻帧的高度相关性,通过对已解码Key帧的运动估计,进行时域内插求取边信息,再将生成的边信息用于当前WZ帧的重构。这就像耗时的运动估计和补偿技术从编码端移到了解码端,大大降低了编码端的复杂度。
分布式视频编码的主要效率很大程度上取决于所估计的边信息的质量,生成的边信息与原始的WZ帧越接近,解码端所需的校验码就越少,相应的码率也越小,并且重构的WZ帧质量也就越好。而在边信息估计中一般都是采用块匹配准则进行运动估计来求取运动矢量的,因此块匹配准则函数在分布式视频编码系统中起着非常重要的作用。文献[3]通过一个加权系数扩展搜索块的大小提出了一种加权MAD算法;文献[4]根据拉格朗日代价函数将相邻块的代价值相结合来进行匹配搜索;文献[5]中将平均绝对误差和与边缘绝对误差和相结合来进行匹配搜索。这3种方法在一定程度上都能减少方块效应,其中文献[3]实现比较简单,文献[4]和文献[5]中的算法复杂度比较高,然而当运动估计中搜索范围比较大的时候,上述3种方法估计的运动矢量与真实的运动矢量之间将会存在较大的偏差,因此使运动估计得到的运动矢量尽可能地接近实际运动矢量是很有必要的,而单纯地采用每个代价值函数作为匹配准则不是一种很有效的算法,因此本文在文献[3]的基础上增加了运动矢量的代价值作为约束条件来共同定义块匹配准则函数,实验表明该方法能有效地改善图像的主观质量,提高峰值信噪比。
1 问题描述
在采用插值法生成边信息的过程中,运动矢量的估计起着至关重要的作用,块匹配运动估计是一种简单易实现且高效的估计算法,因此这里采用块匹配算法来进行运动估计。
块匹配算法将当前帧分为大小为m×n的互不重叠的块,并假设每个块中的所有像素点的运动方向是一致的,以搜索块为基本单位,在参考帧内开辟大小为(m+2w)×(n+2w)的空间进行估计搜索,找到与其最为匹配的块,得到当前块与匹配块之间的运动矢量(dx,dy)。其中w为X和Y方向上的搜索范围。实际应用中通常取m=n,其搜索示意图如图1所示。
影响块匹配运动估计效果的因素除了搜索范围还有搜索步长、块大小和匹配准则。步长是相邻两次搜索之间的距离,合理地选择步长可以有效降低搜索的复杂度。块大小需要根据视频图像的大小和内容来进行选择。稍微大点的块(如16×16)在运动丰富的序列中估计不准确,比较适合于纹理简单而平坦的区域,小块(如4×4)在运动平缓或纹理简单的序列中不能很好地捕捉到运动矢量,相对而言比较适合于纹理比较丰富的区域,因此,本实验中块尺寸大小选取8×8。
块匹配准则是描叙两个块之间相似程度的误差函数,通常有绝对平均误差函数、互相关函数和均方误差函数等。误差函数对运动估计复杂度有着很大的影响。函数越复杂搜索也就越慢。因此,需对误差函数作研究,以求在不影响匹配精度的情况下减少匹配时间。误差函数越精确描述出的两块间差别也就越精确,两个子块之间的误差函数值越小就表示这两个块越匹配,块匹配运动估计算法也就是根据误差函数的最小值来得到运动矢量的。
2 算法研究
块匹配误差函数有很多,它们在复杂度和准确度等方面各不相同。分布式视频编码与传统视频编码中不同的是运动估计位于解码端,因此在前向运动估计边信息插值模块的运动矢量和宏块分割模式判决时,无须考虑运动信息的编码比特,即误差匹配函数只与原始数据和预测值之间的差值有关。其中最常用的就是平均绝对差(Mean Absolute Diference,MAD)。对于一个m×n块,使用下式作为运动矢量失真函数
式中:X2k-1(i,j)是前一参考中帧宏块的像素值,X2k+1(i+dx,j+dy)是后一参考帧中相应宏块的像素值,(dx,dy)为两宏块之间的运动矢量,(-w<dx<w,-w<dy<w),w是搜索范围。为了减少乘法运算,实际应用中也通常用绝对误差和(Sum of Absolute Diference,SAD)来代替MAD
然后根据估计得到的运动矢量进行时域内插得到边信息,若估计的运动矢量与真实的运动矢量有较大差距,则生成的图像会出现方块效应,造成解码图像质量下降,所以在Wyner-Ziv视频编码中,估计的运动矢量需要尽可能地和真实运动矢量相一致,一个好的匹配准则能够估计出最真实的运动矢量,因此,需要找到对当前帧最好的一个估计,并基于此来实现运动补偿。
文献[3]在原有MAD的基础上提出了一种加权MAD算法,假设当前块大小为8×8,该算法通过外扩4个像素即扩展块为12×12,然后对扩展的像素乘以一个加权值来进行运动估计,用公式描叙为
式中:x,y为当前块的左顶点坐标;dx,dy为当前块相对于参考块之间的距离,权值α(i,j)为
由于考虑到搜索块周围相邻的几个像素,因此该准则能够减少一定的方块效应。
文献[4]采用拉格朗日代价函数
Jλ(v)=Di(v)+λ(Dj(v)-Dj(vj)) (5)
式中:Di(v)=MAD(dx,dy);j为块i周围的8个邻块;vj为各个8邻块的对应的运动矢量;
由于在当前宏块的实际搜索中只能提前知道该宏块的左上宏块、上宏块、右上宏块以及左宏块,所以在拉格朗日代价函数中只计算该4个块的λ(Dj(v)-Dj(vj)),且N=4,β取值为10。
文献[5]中将平均绝对误差和与边缘绝对误差和相结合来进行匹配搜索,定义为
总的误差函数D=αBAD+(1-α)MAD,α取0.3时最佳。
这3种匹配函数都是利用当前块的相邻像素点或者相邻块来去除图像的方块效应的,其中文献[3]实现比较简单,文献[4]和文献[5]中误差函数的计算复杂度比较高,但他们估计的运动矢量与真实的运动矢量之间仍存在较大的偏差。文献[6]表明在MAD相同的情况下再经过运动矢量代价值的筛选能使估计得到的运动矢量更加精确,因此本文在文献[3]的基础上结合运动矢量的代价值进一步优化匹配准则,提高边信息的质量,又因为绝对值的稳定性大于平方,因此,本文所使用的匹配误差准则函数定义为
MV_COST(dx,dy)=KSAD(dx,dy)×
(1+K×(abs(dx)+abs(dy)) (7)
式中,K是一个平滑常数,是当运动矢量达到搜索范围的最大值附近时用来控制其代价值的,实验表明K取0.05的时候最恰当[7]。因为本文算法所采用的块匹配函数规范了运动估计中的运动矢量场,因此可以将搜索范围由8扩展到32。而当视频序列运动比较剧烈的时候或采用的搜索步长比较大的时候,新增加的搜索范围可以提高运动估计矢量的精度,从而提高内插帧的质量,另外本算法对KSAD中的权值α(i,j)也进行了修正,对于4个块共用的像素权值设为0.2,对于2个块共用的像素权值采用0.3[8]。
另外,在前向或后向运动补偿中,很容易存在叠补和漏补的情况,针对这种情况,本文采用文献[9]中的方法,在重构补偿之前先用X2k-1和X2k+1的平均值对Y2k赋初值,然后再根据重叠次数对每个像素点进行加权补偿。
3 实验结果及分析
实验采用具有代表性的QCIF(176×144)格式标准视频图像序列“Foreman”和“Football”共100帧进行研究,采用1∶1的比例,每两个关键帧之间一个WZ帧,关键帧采用原始图像,即采用无失真编码,采用文献[9]中叠补和漏补的补偿方法,用峰值信噪比(PSNR)来衡量生成的边信息图像质量。图2和图3分别给出了Foreman和Football使用几种不同匹配准则估计补偿的结果,表1给出了相应的平均PSNR。
图4a~e分别为使用SAD、文献[3]、文献[4]、文献[5]以及本文所论述的匹配准则对Foreman序列第74帧进行边信息估计的结果,图4f为原始WZ帧。由图可以看出本算法估计的图像与原始WZ帧最接近,即效果最好。
4 结论
边信息在分布式视频编码中起着非常重要的作用,边信息越精确,解码端所需的校验码就越少,相应的码率也越小;并且,重构的WZ帧质量也就越好。本文研究了几种匹配准则函数,并在此基础上将运动矢量的代价值应用到加权SAD中作为新的块匹配的估计准则。实验结果表明,采用本文的算法可以改善图像的主观质量,提高图像的峰值信噪比。
参考文献
[1]GIROD B,AARON A,RANE S,et al.Distributed video coding[J].Pro-ceedings of the IEEE,2005,93(1):71-83.
[2]PURI R,MAJUMDAR A,ISHWAR P.Distributed video coding in wire-less sensor networks[J].IEEE Signal Processing Magazine,2006,23(4):94-106.
[3]干宗良,朱秀昌.Wyner-Ziv视频编码中边信息估计改进算法[J].计算机工程与应用,2007,43(19):53-56.
[4]ASCENSO J,PEREIRA F.Advanced side information creation tech-niques and framework for Wyner–Ziv video coding[J].Vis.Commun.Image R.,2008(19):600-613.
[5]YE Shuiming,OUARET M,DUFAUX F,et al.Improved side informationgeneration for distributed video coding by exploiting spatial and temporalcorrelations[J].EURASIP Journal on Image and Video Processing,2009(1):1-15.
[6]宋彬,贺红,刘海华,等.Wyner-Ziv视频编码中边信息生成算法研究[J].通信学报,2010,31(12):97-103.
[7]ASCENSO J,BRITES C,PEREIRA F.Content adaptive Wyner-Ziv videocoding driven by motion activity[C]//Proc.2006 IEEE International Con-ference on Image Processing.Atlanta,USA:IEEE Press,2006:605-608.
[8]卿粼波,何小海,吕瑞,等.分布式视频编码中边信息的多策略优化[J].四川大学学报:工程科学版,2008(1):138-143.