虚拟视点图像

2024-05-29

虚拟视点图像(通用4篇)

虚拟视点图像 篇1

1 引言

基于图像绘制(Image Based Rendering,IBR)技术是近年来发展十分迅速的高效的真实感复杂场景实时绘制方法,是一种快速生成新视点图像的新技术。IBR的核心思想是利用已知的图像来加速绘制新图像的过程。但是单纯利用已知图像生成新视点图像,需要处理的图像数据是非常庞大的,给数据的存储与传输带来了很大困难。为克服这种不足,基于深度图像的绘制(Depth Image Based Rendering,DIBR)技术被提出。DIBR技术通过给源图像中的可见像素引入深度信息并用彩色图像及其对应的深度图像生成新视点图像,其核心是3D image warping[1]方程。DIBR技术由于将场景的深度信息引入到IBR中,从而大大减少了参考图像的数目,节省了图像数据存储空间和传输带宽。DIBR技术是IBR的一个新的发展方向并将在交互式电视系统中得到广泛应用。德国HHI研究所已经提出,未来的3D电视系统可以将单路视频图像及其对应的每个像素的深度信息进行编码和传输,在接收端利用DIBR技术,实时生成一个或者多个虚拟视点的3D场景,产生三维视觉效果[2]。

DIBR绘制图像过程中一个很重要的问题就是如何解决生成虚拟图像中的空洞问题。产生空洞的主要原因是在参考视点中一些被遮挡的区域在新视点中成为可见区域,这些区域的像素在源参考图像中找不到任何信息。深度图像中深度值有较大变化的区域(主要发生在物体的边缘部分)在新视点中也可能产生较大的空洞。

目前空洞填充的方法主要有基于邻域方法、利用层次深度图像法(Layered Depth Image,LDI)[3]、预处理深度图像法等[4,5,6]。但是,邻域插值方法是一种近似处理,会导致填补区域的模糊和图像的失真,降低了生成的虚拟视点图像的质量,且只能处理较小的空洞;LDI计算复杂度高且需要很大的传输带宽;预处理深度图像法在虚拟视点与源参考视点较远时,效果并不明显。笔者提出了一种结合多幅参考图像与逆映射的基于深度图像绘制方法,利用离虚拟视点最近的两个视点图像作为参考图像,由这两幅参考图像分别生成虚拟视点位置的目标图像,然后将生成的两幅目标图像融合填补生成的虚拟视点图像中的大部分空洞,再利用投影得到的目标图像的深度图,经不对称平滑后逆映射到参考图像以填补融合后的剩余空洞。本方法有效填补了虚拟视点目标图像中出现的空洞,减小了图像失真,从而生成高质量的虚拟视点图像。

2 基于深度的图像绘制方法

2.1 3D image warping

3D image warping描述了任意三维空间点在不同成像平面上投影的对应像素的变换关系,利用深度图像,3D image warping将参考图像中的像素点映射到目标图像中。3D image warping一般可以分为两步:1)首先将源参考图像的像素利用其深度信息重投影到它们对应的三维空间中的位置;2)然后根据虚拟视点的位置(如相机平移、旋转参数)将这些三维空间点再投影到虚拟相机平面进行成像。

假设系统带有两个摄像机(即有两个视点),M是自由空间点集,它在两个视点的映射是m和m'。定义第1个摄像机(第1个视点)的坐标是世界坐标系的原点,可得

式中:m和m'分别是参考图像和目标图像中像素的坐标,Z和Z'分别是三维空间点在第1个和第2个摄像机坐标系下的深度值,矩阵A和A'是指第1个和第2个摄像机的内参矩阵,矩阵R和矩阵T是指第2个摄像机相对于第1个摄像机的旋转矩阵和平移矩阵。

因此,在给定相机参数和深度的情况下可以根据式(1)从一幅参考图像得到任意视点图像。

2.2 空洞填补

由于视点的变化导致场景中景物前后遮挡关系发生了变化,在利用DIBR技术生成虚拟视点图像时会出现可见性和空洞问题。可见性问题即当用三维图像变换方程生成新视点图像时,有可能出现参考图像中的几个像素点映射到目标图像中的同一个像素点的情况。在计算机图形学中处理可见性问题通常是用传统的z-bufer算法,该算法需要比较深度值,绘制速度比较慢。这里采用的是Mc Millan提出的极线排序法[7]。例如本实验的摄像机模型系统,若虚拟视点在参考视点右侧,则对于参考视点中的像素,按照逐行从左向右的参考顺序进行绘制;若虚拟视点在参考视点左侧,则对于参考视点中的像素按照逐行从右向左的参考顺序进行绘制。极线排序法能有效解决可见性问题,得到目标视点正确的可见图像。

如何填充目标图像中的空洞是DIBR技术中另一个很重要的问题。由于场景的深度是不连续的,在物体边界处会有深度的突变以及遮挡的问题,从而导致当目标视点与参考视点间的基线距离较大时,目标图像中会产生很大的空洞,严重降低了生成的目标图像的质量。

因此提出了一种利用多幅参考图像和逆映射相结合的方法来填充生成的目标图像中的空洞。首先通过融合多幅参考图像生成的目标图像来填补目标图像中的大多数空洞,对于不能被填补的少量空洞则利用投影得到的目标图像的深度图,将其逆映射到参考图像,用其在参考图像中对应的内容来填补。通常情况下一幅参考图像所提供的像素信息是不够的,生成的目标图像中有的像素可能在参考图像中找不到任何信息;有的像素信息(如那些被遮挡的像素)在这幅参考图像中不存在但在生成的虚拟视点目标图像中出现了,这时就需要从别的参考图像中得到这些像素的信息。利用离虚拟视点最近的两个视点图像来合成目标图像,首先用两幅参考图像分别生成同一虚拟视点位置的目标图像,然后再将这两幅目标图像融合以填补目标图像中的空洞。

如图1所示的虚拟视点图像是两个邻近视点图像分别生成的目标图像融合而成。通过融合多幅参考图像生成的目标图像能较好地填补目标图像中的大空洞。融合的方式如下

式中:I(x,y)是虚拟视点图像坐标(x,y)处的像素值,IL,IR分别表示两个邻近相机的参考图像,(uL,vL)和(uR,vR)分别是虚拟视点图像像素(x,y)在由两个参考图像分别生成的目标图像上的对应点,t是相机的外参矩阵的平移向量。

图1显示图像融合后得到的目标图像中还有少许剩余的空洞没有得到填补,如图中左下角的空洞区域,这种空洞插值的效果并不理想。因此,提出用逆映射的方法来填补这些剩余的空洞。逆映射技术是从目标图像出发,将目标图像上的像素逆向映射到参考图像中以获取像素值[8]。由于逆向映射方法是从目标图像出发,反求目标像素在参考图像上的对应点,那么每个点包括空洞点都能在参考图像中找到对应点,所以该方法能有效地解决正向映射中产生的空洞问题。但由于逆映射时需要在参考图像中进行像素的匹配搜索,因而影响了算法的效率。对此问题的解决措施是利用由多幅参考图像相应的深度图投影变换生成的目标图像深度图进行逆映射,避免了在参考图像中的匹配搜索过程,因此算法的复杂度没有明显的增加,最后生成的目标图像如图2所示,与图1相比,质量得到明显改善。

在逆映射填空洞过程中,利用前面的投影变换得到目标图像的深度图,然后对深度图像进行在垂直和水平方向非对称的高斯平滑,以减小深度的突变,同时也平滑掉了目标图像深度图中的少量小空洞,最后利用平滑后的深度图将目标图像中的空洞像素逆映射到不同的参考图像中,从而得到该空洞像素值。

根据3D image warping的特性,左边视点看到的场景左边部分多些,右边视点看到的场景右边部分多些。因此在融合后的目标图像中,横坐标u小于(1-α)Image Width(Image Width表示图像的宽度)的空洞像素被逆映射到左边的参考视点图像中,其余的空洞像素被逆映射到右边的参考视点图像中。

3 实验结果

为验证本文算法的有效性,对多个Microsoft Research(MSR)交互视觉媒体组提供的多视点序列作了测试,这些序列包括由8个摄像机捕获的100帧彩色图像序列和由立体对应计算得到的深度图,8个摄像机成1维弧形排列且每两个摄像机之间的水平间距是20 cm。MSR同时提供了摄像机标定参数,包括内参数、桶形扭曲、旋转矩阵和平移矩阵。应用本文算法,利用第4个摄像机拍摄的图像和第6个摄像机拍摄的图像合成第5个摄像机位置的图像。本文的第2部分已经给出了其中Breakdancers序列的实验结果,另一个Ballet序列的实验结果如图3所示。图3a和图3b分别是第4个摄像机与第6个摄像机所拍摄的图片,图3c和图3d是由单一源参考图像3D image warping得到的不同当前虚拟视点位置的目标图像。图3e是两幅带空洞的目标图像融合后的结果,可见融合填补了目标图像中大部分空洞。图3f是逆映射填补剩余空洞后最终生成的目标图像。与第5个摄像机位置拍摄的真实图像相比,本文算法合成的第5个摄像机位置的Breakdancers和Ballet图像的峰值信噪(PSNR)分别为30.677 0 d B和32.763 8 d B,本文算法合成的虚拟视点图像质量较好。

4 小结

提出了一种基于深度的图像绘制算法,在给定摄像机参数的条件下能生成高质量的任意虚拟视点图像。算法结合了多幅参考图像和逆映射的方法,较好地解决了用DIBR技术生成虚拟视点图像中的空洞问题,实验结果表明最终生成的虚拟视点图像具有良好的视觉效果。下一步工作是对图像融合方法进行优化以进一步提高虚拟视点图像质量。

参考文献

[1]MCMILLAN L.An image-based approach to three-dimensional computer graphics[D].NC,USA:University of North Carolina at Chapel Hill,1997.

[2]FEHN C A.3D-TV approach using depth-image-based rendering(DIBR)[C]//Proc.Visualization,Imaging,and Image Processing'03.Benalmádena,Spain:[s.n.],2003:482-487.

[3]SHADE J,GORTLER S,HE L W,et al.Layered depth images[C]//Proc.ACM SIGGRAPH'98.Orlando:[s.n.],1998:231-242.

[4]ZHANG Liang,TAM W J.Stereoscopic image generation based on depth images for3DTV[J].IEEE Trans.Broadcasting,2005,51(2):191-199.

[5]CHEN W Y,CHANG Y L,LIN S F,et al.Efficient depth image based rendering with edge dependent depth filter and interpolation[C]//Proc.ICME2005.[S.l.]:IEEE Press,2005:1314-1317.

[6]JUNG K H,PARK Y K,KIM J K,et al.Depth image based ren-dering for3D data services over T-DMB[C]//Proc.IEEE3DTV-CON'08.Istanbul,Turkey:[s.n.],2008:28-30.

[7]MCMILLAN L.A list-priority rendering algorithm for redisplayingprojected surfaces[D].NC,USA:University of North Carolina at Chapel Hill,1995.

[8]MARCATO R W.Optimizing an inverse warper[D].Boston:MIT,1998.

虚拟视点图像 篇2

随着立体显示技术的发展,多视点成像技术已经受到了来自各方面不同领域( 例如3DTV,三维重建) 越来越多的关注。一般的多视点成像技术主要分为两类: 第一种是直接使用多相机阵列; 另一种使用单路的深度相机配合单路彩色相机的方法合成多个虚拟视点。

前者容易得到高质量的多视点成像,但往往由于价格昂贵,系统复杂操作不易,数据传输量大等各种原因,其实际应用往往受到限制[1,2]。对比起来,第二种基于DIBR的技术更为轻便简单易用。许多基于该方法的技术是使用TOF深度相机结合一个彩色相机[3,4]。然而TOF相机价格昂贵,其获取的深度图分辨率低,比如,176 × 144 或者200 × 200,这往往限制了它在这方面的应用。Kinect是微软研发的能同时获取场景深度和彩色信息的相机,主要用于人机交互和3D场景重建。Kinect的价格便宜,图像分辨率高,但由于Kinect的成像机理,从Kinect获取的深度图质量差: 图中包含了许多噪声和信息缺失,尤其在场景边缘处出现大面积的像素点丢失。当前存在解决该问题的方法主要是基于图像修复技术。

图像修复是数字图像处理领域的一个关键技术,其通常作为图像分割,特征提取等其他算法的预处理。目前对于Kinect该类纹理信息不丰富的深度图,主要存在空域和时域两种修复方法。Matyunin[5]通过连续帧图像时域信息相互填充的方法对Kinect的深度图进行帧间填补得到无空洞的深度图; Lai[6]迭代使用中值滤波实现空域填补,但在大面积的空洞处会遗留模糊。使用空域修复的方法较为经典的方法之一是Criminisi[7]的Exemlar - Based方法。其充分利用了图像内的结构信息和不同平面的纹理信息。

由于Kinect的彩色图纹理信息较差,图像中会存在伪彩色,尤其在色彩交错的纹理复杂区。再加上Kinect深度图边缘存在波动,同时随着距离,深度值精度会下降等问题,传统的图像修复方法不管是在前期深度图修复还是后期视点合成的彩色图修复问题都很难得到理想效果。

1 深度图修复

Kinect深度图的信息丢失可以分为三种: 第一种分布在前后景交接的边缘处,该种缺失信息稳定,面积大; 第二种分布在透明或者光滑的平面上; 第三种属于随机噪声分布在背景中。后两种所占的比率往往远低于第一种。大部分深度缺失跨越了深度出现跳变的领域。我们方法是基于彩色边缘引导的从外而内的空洞收缩方法。

Kinect的边缘是不稳定的,部分深度信息错误越界,原来属于背景的像素可能会被前景像素填充,而原来属于背景的像素可能会被前景填充。如果直接使用原始的深度图则丢失点的预测会受到错误像素影响。对此,对深度图的空洞进行了一个形态学的球形膨胀,使得空洞能够完整覆盖其附近错误的边缘,如图1( c) 。

对于每个不同的空洞,采取Telea[8]中FMM方法从空洞边缘开始收集丢失的像素点( 在这里,Ω表示空洞丢失处, 表示空洞的边缘) :

公式中的解T就是 Ω 内像素点至 的距离,FMM能够保证 上的像素点被处理的顺序是由外至里的一个收缩顺序,也就是 上的点是最先被填补。

令D为处理中的深度图,I为对应的彩色图,E为从I中提取的边缘信息,在点p的深度值表示为Dp,在p点的彩色值表示为Ip。

这里引用的Fast Marching Method来收集Ω 上的点并存于堆栈中。在收集点的过程中,使用一个标记数组f,将其初始化为0,如果找到一个点p处于深度不连续处,将f( p) 置1,在空洞收缩的过程中若再次搜索至该点,将该点放入堆栈中进行插值。如果点E( p) 值为0,则直接使用公式对该点进行插值,如果E( p) 值为1,则将f( p) 值置1,在第二次搜索至该点的时候判断f( p) 值为1 同时E( p) 值为1,则使用公式填补。

上述方法保证了空洞的填补是向边界收缩的,而不是顺序随机地填补。如此保证了填补的准确性,前景信息不会出现在背景,反之亦然。当空洞填补收缩第一次遇到边缘处的时候会停止该方向的修复,取而代之是反方向的收缩填补。图1 中的( g) - ( i) 为详细图示。

对栈中丢失点填补的方法采用三边滤波的方法。G( .)为高斯核,W为等于所有权重和的正交化因子。Gλ为空域距离项,Gξ为深度差项,G为彩色差别项。

整个修复过程如图1 所示。当边缘像素点被填补过后,重复以上方法继续进行填补修复。直至没有空洞存在算法结束。

(a)和(b)表示原始彩色图和深度图;(d)为使用canny算子求出的边缘图;(c)为空洞膨胀后的深度图;(e)为(c)和(d)叠加图;(g)-(i)为空洞填补

2 视差图生成以及预处理

在得到修复后的深度图Dr后,根据公式得到视差图R。b为Kinect的IR发射器和接收器的距离( 基线距离) ,F为Kinect的焦距,b的值参考官方数据为7. 5cm。F通过对Kinect标定为582,此数值根据不同的设备上下波动小段范围。

根据DIBR,使用公式( 6) ( fact表示不同尺度大小的图的量化因子,默认为1) 通过平移原始彩色图像每一点像素,平移距离和每点的视差成比例。这里的( x,y)表示一个点具体的横纵坐标值由此得到原始的N个带着量化噪声和背景信息丢失的虚拟视点。i表示第几个虚拟视点。

对于当前生成的虚拟视点,有两种彩色信息缺失。第一种属于像素点平移时产生的量化误差,该种缺失面积小,分布零散。第二种属于视差带来的,这种缺失是因为在原图中就看不见的背景,在平移后显示了出来,该种缺失面积大,主要分布在前景和背景交临的地方。对于前者,采用简单而有效的填补方法,检测到其位置后,通过使用周围像素进行均值插值填补。

3 彩色图修复

对于背景存在的背景缺失Criminisi[7],提供了一种基于图像纹理结构有效的图像修复方法。该算法沿着彩色图像中的空洞边缘计算每一块的优先级,优先级的计算是通过数据项C( p) 和自信项D( p) 计算得到的。使用基于Crimini方法修改的方法,C( p)表示块的自信度,如果块所拥有的原始像素越多,该值越大。D( p) 表示块的计算优先级,位于边缘处的块的D( p)大于位于平滑区域处的块的D( p) 值。R( p) 表示深度限制项,在深度跳变的地方R( p) 值为0,在深度平滑处,和目标块的平均深度值差的小的块R( p)值大。深度限制项的计算取决于虚拟视点图对应的深度。

在以下公式实行之前,需要得到虚拟视点深度图Ddr。同样的,通过公式( 6) 计算出对应的深度图( 将公式中的I换成D) ,只不过对于深度图中存在的背景空缺信息,使用最近邻像素点进行填补,左视点中存在的空缺使用背景中的像素从右向左填补,右视点中存在的空缺使用背景像素从左往右填补。在得到虚拟视点深度图后,如果块处于深度跳变的区域,其深度限制项的值被赋为0,继而整个块的优先级都为0,根据上述的赋值,在彩色图中处于背景和前景交界的地方的块是最后填补的,如此确定了虚拟视点中的修复顺序,从背景向前景填补。

三个项的计算公式如下( Ψp表示点p所在的块,|Ψp|是表示块的大小,Φ 表示无空洞区域,α 表示正交化因子,⊥表示正交化算子,np表示垂直于Ω 的单位向量) :

R( p) 项决定了不同深度层面的块的优先级。|Zp|表示块中所有的深度值的和, 表示块的平均值,和 Ψp处于同一深度层次的块的优先级更高。下面的公式判断点是否处于深度跳变的区域( θ 为度量单位,ε∈[10,30],具体大小根据深度图决定) :

通过公式计算出块的优先级后P( p),找到P( p) 最大的以p为中心的块进行优先填补。填补方法是在一个W × W的区域内搜索相似块,利用公式判断和目标块在深度和彩色域差别最小的块,找到之后使用块整体进行填补目标块的丢失信息。

分别为彩色图和深度图中对块与块间做SSD计算的值。η 和 β 分别为彩色通道和深度通道的加权因子。填补过后,目标块的自信项更新为:

当虚拟视点背景中不在有空洞缺失,算法结束。

4 实验结果

为了验证本文深度恢复方法的有效性和虚拟视点成像质量,在该部分分两个实验进行对比验证。第一个实验是对比深度恢复的效果,第二个实验是对比虚拟视点绘制效果。所有实验是基于Open NI开发环境C ++ 实现,硬件设施: Intel 2. 8GHz CPU和4GB RAM。

深度对比实验结果如图2 所示,使用了三种深度修复的方法和本文方法进行对比,该三种算法分别为: 双边滤波,中值滤波,FMM。实验过程中,每个算法的各个参数固定。实验的三组原始数据皆从Kinect中获取。从图中看出,该方法保边效果优秀,边缘不会出现抖动,也不会出现填补越界。

(a)表示原始的深度图,位于深度图角上的表示对应的彩色图。(b)表示本文深度恢复的方法修复的结果;(c)-(e)分别表示Bilateral Filter,Median Filter,Telea[8]三种深度修复的方法。

虚拟视点恢复实验结果如图3,两组为Kinect原始数据,一组为标准测试序列。对比的4 个方法分别为: Bertlmio[9],Exemplar[7],Local Optimisation[10],Telea[8]。从实验结果中观察得到,本文方法有效地分割了前后景,同时将背景的纹理结构较为准确修复。而Kinect的伪彩色对其他4 种方法影响较大。

5 结束语

本文提供了一种基于微软Kinect的多视点成像的计算方法。原始深度图的质量通过边缘引导的收缩插值算法得到极大改善。生成虚拟多视点的纹理由块优先级和深度导图得到修复。实验结果展示我们的深度恢复方法和虚拟视点成像质量都比以往类似的方法要优秀,所得到的三维成像效果显著。

一共三组数据,第一行和第二行为Kinect采集数据,第三行为标准测试序列数据。第一列中的每个小图表示生成的虚拟视点。每一列表示了不同算法的修复效果。第一列表示本文的算法效果,第二至第五列分别表示以下算法效果:Bertlmio,Exemplar,Local Optimisation,Telea.

该方法无论在虚拟视点修复还是深度图的插值过程中都利用彩色图和深度图,这也是Kinect优于其他成像系统的一个要点。在以后的研究中,除思考如何提高算法的效率外,还会继续致力如何提高深度图恢复质量进行高质量的视点绘制。

摘要:传统的多视点生成方法是基于多相机阵列系统的关键技术。现提出了基于Kinect的多视点成像计算方法。首先对Kinect的深度图使用三边滤波器进行平滑,根据修复好的深度图配合彩色图,利用DIBR技术生成多个存在空缺信息的彩色视点;最后结合彩色图的纹理结构信息和深度图的背景信息对有丢失信息的彩色图进行修复。实验结果表明,文中提出的深度修复方法能够有效地修补Kinect的深度图,生成的虚拟视点图在3DTV上效果明显,立体视觉效果显著。

虚拟视点图像 篇3

关键词:中间视图合成,NSCT,图像融合,去块效应

中间视点合成主要被用于3D电视和虚拟现实,它可以被分为两大类:基于计算机图形学的三维几何模型的绘制技术(3D Model-Based Rendering,MBR)和基于图像的绘制技术(Image-Based Rendering,IBR)[1]。

第一个利用立体图像进行视合成的应用是由Ott等人于1993年提出的,他们考虑了在远程会议中参与者眼睛虚拟接触交流的问题[2]。给定放置于远程会议显示器两端的两个摄像机,利用已知的两幅图像合成了虚拟的中间视图,文中算法没有考虑遮挡区域,忽略了视差图中由于遮挡造成的空洞,在合成视图的空洞部分使用了灰度插值。在解决计算机图形学中有效进行图像绘制的问题时,Seitz和Dyer在仿射投影模型下,得到了图像插值合成正确视图的准则[3]。他们指出,如果参考图像首先被校正,一定范围内的视图可以被正确合成,另外还提出了将灰度一致的区域作为整体进行匹配和移动的视图插值算法。在随后工作中,他们将该方法扩展到透视投影下,也使用了多个图像,并提出了视图变形(view morphing)的方法。McMillan和Bishop由2个视图通过拼图(mosaic)技术获得的全景图中合成了新视图[4],他们使用了图像变换(wrap)技术,算法中没有处理部分遮挡的区域。另外,他们还在假设给出视差图的情况下,得到了在头盔式显示系统中实时合成新视点图像的方法,并给出了一种基于前向映射(forward mapping)解决遮挡问题的简单算法。Avidan和Shashua由3个视图已知的张量变换求得另一新视点的张量,获得了新视点图像[5]。Habed和Boufama在假设对应问题已知的前提下对视合成算法的几何方法进行了比较[6],假设已知2个参考图像和新视点图像上15个对应点,分别利用极线几何、三线性张量、投影矩阵以及3D透视重建的方法进行了视合成,并用模拟和真实图像进行了比较实验。

人们在Seitz三步法的基础上不断探索和完善,又产生了许多新的方法以达到更好的效果。

本文中提出的中间视图合成方法属于几何信息的IBR技术,它引入了NSCT变换域图像融合、去块状相应等新的概念。

1图像匹配与配准

由于构造SIFT特征时,在很多细节上进行了特殊处理,使得SIFT对图像的复杂变形和光照变化具有了较强的适应性,定位精度比较高。

SIFT算法的实现主要包括4个步骤:

(1)检测尺度空间极值点;

(2)精确定位极值点;

(3)为每个关键点指定方向参数;

(4)生成SIFT特征向量。

本文采取SIFT算子对图像进行特征检测,然后根据检测出的特征点对图像对进行相似度匹配。

块匹配法是最常用的视差估计方法,其基本思想是将目标图像分割为固定尺寸的块,并找出每个块在参考图像中的最佳匹配。

通过SIFT特征匹配确定图像间的对应关系之后,需要对图像进行配准。传统的配准方法一般是在给定图像对中,其中一幅图像作为基准图,另一幅图像作为待配图,按照两幅图像中的公共部分,通过平移、旋转等几何变换,将待配图对准到基准图。

由于本文算法是根据给定图像对合成中间视图,在配准时,选取该虚拟的中间视图作为基准图,给定图像对均为待配图,将待配图通过几何变换对准到虚拟的中间视图。

为了得到比较好的配准结果,采用粗配准和细配准结合的配准方法。

2非下采样Contourlet变换

Contourlet变换由LP和DFB两部分组成。为了保留Contourlet变换的频率分割结构同时实现移不变性,去掉对图像下采样,构造相应的分级和各种方向滤波器,得到NSCT。它由两个具有平移不变性的部分组成:非下采样金字塔(Nonsubsampled Pyramid,NSP)和非下采样方向滤波器组(Nonsubsampled Directional Filter Bank,NSDFB)。NSP实现了该方法的多尺度特性而NSFB则保证其方向性。

NSP分级结构是通过多级迭代的方式实现的。首先提供满足下列完全重建条件的一组基本的低通、高通滤波器组:

式(1)中,H0(z)为低通分解滤波器,H1(z)为高通分解滤波器,G0(z)为低通重建滤波器,G1(z)为高通重建滤波器。

NSDFB由严格的二通道风扇滤波器和它的重采样构成。为了使NSCT具有良好的方向性,滤波器组的上采样因子Q定义为:

NSCT在基本风扇滤波器组或钻石滤波器组的基础上,通过对滤波器的重组来得到需要的象限滤波器组、平行滤波器组,避免了对图像的采样操作。风扇滤波器组和钻石滤波器组可通过调制π来相互转换。

3基于图像融合的中间视点合成

图像融合的过程如图1所示。首先,将多个图像传感器(同构或异构)获取的同一场景的源图像数据作必要的预处理(如抑制噪声、消除畸变、增强边缘等),并进行时空配准;然后,根据一定的算法将各个图像数据之中所包含的信息优势或互补性有机的结合起来,产生一幅融合图像。最后,对融合图像进行质量评价以衡量本次融合的优劣,并输出融合图像用于显示或后处理。

图像融合的优点主要包括以下两点:(1)通过冗余信息提高可靠性;(2)通过互补信息提高信息容量。

3.1 NSCT变换域的图像融合

对图像进行NSCT分解,变换到变换域之后,就可以对其进行采取融合方法合成中间视图,并进行空洞处理,得到清晰地中间视图。

图像融合是把来自多传感数据的信息互补合成一幅新的图像,提供比原图像更丰富的视觉信息。图像融合的方法可以分为三个层次:像素级融合,特征级融合,决策级融合。在很多图像融合应用领域中,提取目标区域并根据区域特征进行图像融合的方法相对于未进行区域划分的像素级融合更能取得合理的融合效果。基于区域的融合法是从像素级融合到特征级融合的中间层次。本文采取的是基于区域的融合方法。

对图像进行NSCT分解后,会得到图像不同尺度层的NSCT系数。低频子带包含了图像的内容信息,高频子带则包含了图像的纹理特征等细节信息,由于所包含信息的不同,需对这两个部分采用不同的融合规则进行处理。

3.1.1 低频部分

低频部分采取的区域方差取大的融合规则。区域方差可以反映区域信息含量,区域方法越大,所含信息含量越丰富,因此,低频部分选取信息含量更丰富的图像作为融合结果。

区域方差定义如下:

Var(X)=1ΜΝi=1Μj=1Ν[X(i,j)-X¯]2(3)

式(3)中,表示大小为M×N的区域,X(i,j)表示区域中像素点的灰度值,X¯表示区域X的灰度平均值。窗口大小一般选为3×3或5×5。

3.1.2 高频部分

高频部分采取区域能量取大的融合规则。区域能量是指区域X内各像素点灰度值平方之和,区域能量越大,所包含的高频信息越丰富。

区域能量定义如下:

E(X)=i=1Μj=1Ν[X(i,j)]2 (4)

式(4)中,X表示大小为M×N的区域,X(i,j)表示区域X中像素点(i,j)的灰度值,窗口大小一般选为3×3或5×5。

3.2 空洞处理

在对配准后的图像进行处理合成中间视图的过程中会产生空洞。新视图中的空洞是指场景点在源参考视图中不可见的点。要得到更加清晰的虚拟视图则需要对空洞进行填充处理。

根据空洞产生的原因,可以将其分为两类:1)在源参考图像中的一幅中可见,而在另一幅图像中不可见的点;2)在所有源参考图像中均不可见,一般由于3D场景或物体的遮挡产生。

对于这两类不同的空洞点,我们采取两种不同的方式予以填充。第一类空洞点,取其在源参考图像中可见的对应像素点予以填充。第二类空洞点,由于其在源参考图像中均不可见,在融合过程中无法去除,而且从源图像中也无法直接获得其像素值,我们采取近邻插值法,找出离空洞点最近的两个非空洞点,插值得到该空洞点的像素值。

3.3 分块效应的去除

中间视点视图在作了空洞去除后,进行自适应有理滤波,以去除分块效应,自适应有理滤波的模板如图2。

c为待滤波像素位置,以它为中心形成一个3×3的掩模,其余位置设为bi,i=1,2,…,8,粗实线代表相邻块的分界。若对于任一点x,以f(x)代表x点处的像素灰度,f˜(x)代表x点处滤波后得到的像素灰度,则针对c点的滤波结果为:

f(c)=w1(f(b1)+f(b8))/2+w2(f(b1)+f(b8))/2+w3(f(b1)+f(b8))/2+w4(f(b1)+f(b8))/2+f(c)(1-w1-w2-w3-w4)2 (5)

w1=1/41+k(f(b1)-f(b8))2,w2=1/41+k(f(b2)-f(b7))2,w3=1/41+k(f(b3)-f(b6))2,w4=1/41+k(f(b4)-f(b5))2(6)

k=k1σL2k2σΤ2+σL2 (7)

σL2=19((f(c)-μL)2+i=18(f(bi)-μL)2) (8)

μL=19(f(c)+i=18f(bi)) (9)

其中,σΤ2为政府图像的像素方差。

4.1 实验结果

本文采取SIFT算子对图像进行特征检测,然后根据检测出的特征点对图像对进行相似度匹配。本文算法采取分辨率为320×240的flaming图像对作为实验对象。图3为实验采用的参考图像对flaming。

SIFT算子特征检测及匹配的结果分别如图4、图5所示。

由图可知,SIFT算子检测的特征点主要集中在图像的高频区,具有很明显的特征,匹配结果也非常准确,对后续配准过程非常有利。

采用块匹配配准后的结果如图6所示。

将flaming左图进行NSCT变换得到结果如图7所示:

图7中a)、b)分别为NSCT变换后第一层的低频部分和高频部分的图像,共进行了三层的NSCT分解。由于NSCT变换的多方向性,在第三层会显示出8个方向的高频图像。

对经过配准后的含有块效应的配准图像,在NSCT域进行融合处理,并进行空洞填充、基于图像恢复后处理的去除块状效应的如图8所示的中间视点图像。

4 结论

本文在分析了图像配准的基础上,研究了基于NSCT变换图像融合方法。并应用于视图合成。同时,通过进行空洞处理,和分块效应处理,取得了较好的中间视图生成效果。

参考文献

[1]吕朝辉,董跃.基于图像的中间视合成方法综述.数字视频,2009;33(06):26—29

[2] Ott M,Lewis J,Cox I J.Teleconferencing eye contact using a virtualcamera.http://www.adastral.ucl.ac.uk/icox/papers/1993/ic93.pdf.2008-03-01

[3] Seitz S M,Dyer C R.View morphing.In Proceedings of the ACMSpecial Interest Group on Computer Graphics(SIGGRAPH'96).New York:ACM Press,1996:21—30

[4] Mcmillan L,Bishop G.Plenoptic modeling:An image-based renderingsystem.http://www.cs.unc.edu/mcmillan/papers/sig95_mcmil-lan.pdf.2008-06-05

[5] Avian S,Shashua A.Novel view synthesis in tensorspace.http://eprints.kfupm.edu.sa/53549/1/53549.pdf.2008-03-05

虚拟视点图像 篇4

但是在实际中, 即使是同一目标, 也会由于在不同位置、不同环境、不同时间, 甚至使用不同的设备进行拍摄而导致每一张照片之间存在或多或少的差异。包括光照强度、相机的快门速度和曝光、CCD噪音等均会影响到图片质量[4]。为了减少这种差异, 需要对其进行校正。

据现有的研究成果, 多视点视频颜色校正算法一般分为两大类:全局颜色校正和局部颜色校正。前者位于多视点视频编码的前端, 将捕获到的整个场景的数据进行颜色校正属于预处理过程, 方便进一步对多视点视频进行处理;后者需要在MVC编码器中实现, 算法复杂度要求比较高。文献[5]提出利用K-L变化进行颜色校正, 文献[6]提出用卡尔曼滤波进行跟踪的方法进行颜色校正, 文献[7]提出利用RGB空间进行全局颜色校正的算法, 文献[8]利用不同颜色空间进行颜色校正并进行分析, 但这几种算法复杂度较高。

本文的研究目的是提出一种较为简单的全局颜色校正算法, 利用一种快速确定参数的基于全局的直方图校正方法对不同序列进行颜色校正, 从主观的视觉感受和客观直方图校正前后的对比中得出结论。实验结果表明, 该方法颜色校正效果较为理想。

1 校正原理

颜色校正的初衷是基于消除不同摄像设备、不同环境场合之间的颜色差异, 使其尽量达到统一。因此不仅要通过一个客观的数据来反应校正结果, 更要通过人眼的主观感受来判断该校正是否具有良好的性能。而在众多的校正方法之中, 基于直方图匹配的颜色校正是较好的选择。

最简单的全局颜色校正方法是建立两幅图像为线性关系, 通过分别匹配不同颜色空间中3个分量的直方图来校正图像[9]

式中:Io (Xo) , Io (Yo) , Io (Zo) 分别表示原始图像的3个分量的直方图分布;Ic (Xc) , Ic (Yc) , Ic (Zc) 分别表示待校正图像的3个分量的直方图分布;a和b分别为两个校正因子, 其中a是乘因, b是加因。为求a, b值, 最初的方法是通过寻找图像之间精确的对应点, 利用最小二乘法来求解最优的a和b值, 用这种方法计算a, b值计算量较大[5]。

为降低计算量, 本文设计一种快速确定参数的颜色校正方法。从RGB空间进行颜色校正, 下面以RGB空间的R分量的直方图为例, 详细说明一下参数的确定方法。

1) 通过MATLAB (见图1) 分别获得原始图像Ro, 待校正图像Rc和Rdel (Rdel=|Ro-Rc|) 每一点的R值。其中Rdel为像素点的差异。

2) 将Ro, Rc和Rdel每个点的值分别统计成直方图的分布数据, 见图2。

3) 确定b的取值范围。在本文中规定, 如果Rdel中某个值上的像素数超过图片总像素的1%, 则该点就被列为b的一个取值点, 见图3。

4) 任取直方图中Ro和Rc各自不重复的两点组成一组二元一次方程组, 计算出其一组a, b解, 这些解就作为样本, 用于筛选出a, b取值范围, 见图4。

5) 通过得出的b的取值范围去筛选出满足条件的a的值, 以0.1为一个区间, 就可以得到a的取值范围。如图所示, 可以选择0.7~0.8这个范围作为a的取值, 因为此时有最多组的解满足该条件, 见图5。同时还给出了极端情况 (b=0) 的参数a的符合要求的解, 可以看到, 依然选择的是0.7~0.8这个区域, 这说明0.7~0.8这个参数段是最恰当的选择。

6) 最后确定参数的取值为a在0.7~0.8之间, b在0~30之间。参数a决定了直方图的分布疏密, 而参数b决定了直方图的位置。以RGB空间为例, 参数a和b对于直方图的影响见图6。

2 仿真结果和分析

本文采用了MPEG专家组建议的标准多视点序列golf2, Janine2在MATLAB环境下分别在RGB, YUV, CIELab这3个颜色空间中, 应用上述方法对不同序列图像进行了校正。

图7为golf2序列校正结果, 从校正效果来看, golf2在RGB空间和CIELAB空间的校正效果较好, 在YUV空间的校正效果较差。图8~图10为golf2的参考图像和校正图像的直方图比较, 由图可知RGB空间中两直方图匹配效果最好, CIELAB次之, YUV最差。即golf2在RGB空间中的校正效果最好。

图11为Janine2序列的校正结果从主观效果来看, 在颜色差异较大的情况下, 本文方法校正的效果也比较理想。

图12~图14为Janine2参考图像和校正图像的直方图比较, 从直方图的比较来看, CIELAB空间中的两直方图的形状最为相似, 因此校正效果最好。RGB次之, YUV最差。

3 结束语

本文以多视点视频作为实验用序列, 在不同颜色空间中进行颜色校正。通过上文的仿真和分析后可知, 原始图片和待校正图片之间的视差在不同空间中的影响程度不同。在RGB空间中, 两图片之间视差越大, 校正后获得的参数的精度就越低。这点在race1中的表现尤为明显。而这一点在YUV空间中并非如此, 可以明显看到, 在YUV空间中, race1的校正效果是3张图片中最佳的。在CIELAB空间中, 也可以看到Janine2和race1由于视差关系使得直方图与原始图像存在一定差距, 但是依然获得了较好的效果, 因此可以说视差对于CIELAB空间的影响不是很大。参考文献:

摘要:提出了一种基于快速确定参数的全局直方图匹配的颜色校正方法, 对于标准的多视点视频序列, 利用直方图, 分别快速估算出其在RGB, YUV, CIELab这3个颜色空间下的3个分量线性方程的参数值, 在MATLAB环境下仿真出3个不同颜色空间中的校正结果, 并对其进行分析和比较, 实验结果表明了该方法的有效性和可靠性。

关键词:颜色空间,颜色校正,直方图匹配,自由视点视频,视差

参考文献

[1]喻莉, 熊玮, 钟刚, 等.基于尺寸可变块匹配的多视点视频颜色校正方法[J].计算机工程与科学, 2011, 33 (8) :138-142.

[2]蒋刚毅, 费跃, 邵枫, 等.面向编码和绘制多视点图像颜色校正[J].光子学报, 2009, 38 (9) :2430-2434.

[3]熊玮.多视点视频中的颜色校正方法研究[D].武汉:华中科技大学, 2011.

[4]邵枫.自由视点视频信号处理中的关键技术研究[D].杭州:浙江大学, 2006.

[5]邵枫, 蒋刚毅, 郁梅, 等.一种多视点视频自动颜色校正系统[J].光学学报, 2007, 27 (5) :830-834.

[6]SHAO Feng, JIANG Guangyi, YU Mei.Dominant color tracking based color correction for multi-view video using Kalman filter[C]//Proc.International Conference on Chart Computational Intelligence and Software Engineering.[S.l.]:IEEE Press, 2009:409-416.

[7]赵鹏, 何小海, 王正勇, 等.一种多视点视频颜色校正方法[J], 电视技术, 2011, 35 (21) :29-31.

[8]刘颐, 王永芳, 张兆杨, 基于不同颜色空间的多视点视频颜色校正的性能分析[J].电视技术, 2009, 33 (11) :18-20.

上一篇:软件测试质量管理下一篇:建筑厨卫