图像深度

2024-05-30

图像深度(共7篇)

图像深度 篇1

0 引言

距离信息在物体识别、路径规划以及场景复原上都有着重要应用。人类可以轻易地判断出障碍物距离我们有多远,但是对于笨拙机器人来说,这个任务就变得相当艰巨了。随着机器人导航在机器人应用领域里变得越来越重要,深度检测自然成为了研究的重点。在机器视觉领域,深度检测可以通过摄像头或者其他图像处理的方法,一般常用的是立体视觉法。但是立体视觉会受限与摄像头基线之间距离,还会受到亮度噪声的影响,利用多个摄像头将会花费更多的成本。因此,我们考虑用一个摄像头来完成深度检测的任务。

目前,相关的研究主要有Michels、Saxena以及Y.Ng等人利用监督训练法估计一维深度信息,从而实现小车在高速下的自主避障[1];Guo Hong和Lu Yi等人通过单一摄像头拍摄一系列目标物图像来估计物体深度信息[2];Gini和Marchi等人在已知室内环境的条件下,利用单个摄像头实现小车的自主运动[3]。本文主要通过模型参数的训练,从而提取出单幅图像的三维深度信息图。

1 模型建立

人类天生具有判断物体距离的能力,我们往往可以根据物体的纹理特征的变化、纹理梯度的变化、物体完整性以及物体的模糊程度来估计他们的距离。例如,在我们的视觉感知里,同一个物体在不同的距离具有不同的大小以及不同的纹理变化,在不同的距离同一物体的清晰度也将发生变化。同时,我们在判断物体远近的时候还要参考周围环境的影响,例如,如果只看到一幅图像中某一蓝色区域,那么我们将很难判断这块区域到底是天空、海洋还是某一蓝色物体的一部分。因此,我们将图像的纹理变化、纹理梯度以及模糊度作为特征提取出来,并参考图像全部信息来建立并训练模型。

1.1 特征的提取

首先,我们将图像划分成很多的小块,对应于每一小块,它具有独立的深度信息以及相关深度信息,我们要做的是提取与这些信息相关的图像特征。将图像转换到YCb Cr的颜色空间里,其中Y代表亮度层,Cb和Cr为两个颜色层,很多纹理信息都包含在其亮度层里。

为了提取独立深度特征,我们应用Laws'masks[4]作为滤波器去处理图像的Y层,从而得到纹理能量作为纹理变化的特征,应用边缘检测滤波器得到图像纹理梯度变化特征,而模糊度主要体现在颜色层上,因此应用平均值滤波器处理Cb&Cr层来得到模糊度特征。我们将17个滤波器函数(9个Laws'masks、6个边缘检测滤波器以及两个颜色层)Fn(x,y),n=1,2…17作用于图像,可以得到图像的独立深度特征为:

对于图像中每一个小块,它的深度信息不仅与自身特征有关,还与周围邻域的特征有关,为了便于研究,我们将图像分层,不同层里相同大小的块包含着不同的全局信息。因此我们在提取某一块的独立特征时,应包括在不同层下的该块及其四个邻域的独立深度特征。

对应于某一块i,我们计算它的直方图,并用17个滤波器函数处理,从而得到它的特征yi,这一特征用来表征不同位置深度信息的相关性。因此,我们用yij=yi-yj作为相邻块之间的相关深度特征。如图1所示:

1.2 模型的建立

关于马尔科夫随机场的详细介绍请参考文献[5]。

利用马尔科夫随机场模型区建立不同块之间的深度关系,为了得到不同层之间的关系,我们定义di(s):s=1,2,3代表不同层中某一块i的深度值,其中di(s+1)=(1/5)Σje Ns(i)∪(i)dj(s),Nj(s)为块i的四个邻域,表示高一层的深度值由低层深度值加权平均得到。我们建立高斯-马尔科夫模型如下:

其中M是最底层图像划分的块数;xi是每一块所对应的独立深度特征;θ和σ是模型参数,由于大多数物体为垂直状态分布,因此我们仅对不同行求不同的参数;Z是归一化参数。其中θ可通过最小二乘法求得,式(2)中第一项为单一块的绝对深度预测,第二项通过相邻块之间的关系对第一项进行修正。如果σ为一固定常数,则对于不通图像其修正项对结果的影响将变得不准确。因此我们令σ21r=vrxi、σ22rs=urs|yijs|,对不同的行求出不同的参数,从而使得模型更为符合实际。参数训练之后,利用最大后验概率法,对新图像求式(2)最大时对应的即可[6]。

2 图像及深度图采集

我们采用LMS111激光扫描仪,配合相机采集图像及相关深度信息图,这些数据主要用于模型参数的训练。其中LMS111最大测量距离为20米,水平扫描角度为270度,工作时每隔0.5度采集一个数据,工作频率为50HZ,平均误差为30mm。由于LMS111只能采集二维信息,因此我们设计一套支架,使得LMS111扫描平面可以在竖直方向连续采集,从而实现三维信息采集。整个采集系统如图2所示。

如图2所示,1为相机,用于拍摄图片;2为1:720减速箱,手柄每转一周将提供0.5度转角;3为联轴器,连接减速箱与LMS支架;4为LMS支架,将转动轴与扫描平面重合;5为LMS扫描仪;6为整体支架;7为限位卡槽,控制转角在-60到60度之间;8为轴承。采集图像及其相关深度图如图3所示:

3 测试及误差分析

新图像测试结果如图4所示:

上图为相机采集图片,中图为实际深度信息图,下图为测试图。

误差是以log10为底,比如误差为0.1328,是指100.1928=1.3577,实际误差为35.77%

由图5可以看出,有较多的点误差分布在0.1461~0.1761之间。由于室内物体一般比较规则,且距离较近,因此具有较好的预测结果,而室外环境比较复杂,特别是一些不规则的物体,将很大程度到影响测试结果。

4 结论

通过提取图像特征,在高斯-马尔科夫随机场模型的基础上,利用LMS激光扫描仪系统采集的图像作为训练数据,训练模型参数并应用于提取新图像深度信息,结果表明,该方法可以实现单幅图像深度信息的提取,且误差主要分布在某个区域,这为我们进一步改善该算法打下了基础。

参考文献

[1]J.Michels,A.Saxena,and A.Y.Ng.High Speed Ob-stacle Avoi-dance Using Monocular Vision and Reinforcement Learning.In ICML,2005.

[2]H.Guo and Y.Lu.Depth Detection of Targets in a Monocular Image Sequence.18th Digital Avionic Systems Conference,1999.

[3]G.Gini and A.Marchi.Indoor Robot Navigation with Single Camera Vision.In PRIS,2002.

[4]E.R.Davies.Laws'texture energy in TEXTURE.In Machine vision:Theory,Algorithms,Practicalities3th edition.2005.Pg756-779.

[5]Gerhard,Winkler.Image.Analysis,Random Fields and Dyn-amic Monte Carlo Methods:A Mathematical Introduction.Springer-Verlag,1995.

[6]Ashutosh Saxena,Sung H.Chung,and Andrew Y.Ng.Learning depth from single monocular images.In NIPS18,2006.

图像深度 篇2

本文重点研究了双目立体视觉下的医学图像匹配与深度信息恢复,为了克服SIFT提取的特征不是人们视觉中的角点,且计算量较大,实时性差的问题,提出了一种将Harris算子和SIFT算子相结合的算法,以便于较准确、快速地提取特征点,对医学图像进行匹配,得出视差图,最后通过三角测量的方法恢复医学图像的深度信息。

1 双目立体视觉系统模型

双目立体视觉的基本原理是从两个视点观察同一景物,以获取在不同视角下的感知图像,然后通过三角测量原理计算图像像素间的位置偏差来获取景物的三维信息。本文重点研究的是两台摄像机平行放置的双目视觉系统。图1 给出了双目成像系统的平面示意图,图中的L和R分别代表左右两个摄像机,f表示焦距,这样就构成了一个主光轴平行的双目视觉模型。

三角测量法恢复深度信息的原理图,如图2 所示,CL、CR分别表示左右摄像机的光心的位置; f表示摄像机的焦距; b表示CL与CR之间的距离。目标上的点P过CL和CR分别向图像面做垂线,过P向图像面做垂线,AL、AR、B表示垂足。

令|ALPL|= la, |ARPR|= lb,|PRB |= a,根据三角形相似原理,则有

由式( 1) 和式( 2) 化简可得

将式( 3) 式带入式( 1) 中,可得

式中,la- lb称为P在左右两个图像面上形成的视差;表示P在左右两幅图像中的成像点的位置差异。因此,要恢复出图像的深度信息,最关键的是要求得视差。

2 图像匹配算法

2. 1 SIFT算法原理

SIFT算子特征是图像的局部特征,其在平移、尺度缩放、旋转、对亮度影响及抗噪性能等方面具有一定的优势,SIFT特征匹配算法主要经过两个阶段: ( 1) SIFT特征的生成; ( 2) SIFT特征向量的匹配[11]。

任何一幅二维图像,将其与Gaussian核卷积可以得到不同尺度下的尺度空间

其中,; ( x,y) 表示空间坐标; σ 表示尺度空间; L表示图像的尺度空间。

SIFT匹配算法包括4 个过程: ( 1 ) 对空间尺度的极值点进行检测。首先对所有的图像与尺度的位置进行搜索,再通过Gaussian差分公式来检验具有尺度缩放和旋转不变性的特征点; ( 2) 定位极值点。精确对各个候选点进行尺度与位置的确定,以增强图像匹配的正确性; ( 3) 关键点方向的确定。对每个关键点进行一个方向的分配,保证尺度的旋转不变性; ( 4) 特征点描述子的生成。利用梯度统计的方法对关键点当前所在的尺度空间的区域进行统计,进而生成特征点描述子。

2. 2 SIFT与Harris结合提取特征点

由于医学图像处理对实时性要求较高,且SIFT算法提取特征点的数量较多、耗时较长,SIFT算法提取的特征点不能准确定位角点,故将Harris算法与SIFT算法结合,采用Harris提取特征点取代SIFT算法极值点。Harris是较为稳定有效的一种特征点提取算法,有如下角点响应函数

其中,det( Aρ) 表示Aρ的行列式; tr( Aρ) 表示Aρ的迹;Aρ为相关系数矩阵; k为可变参数。R( Aρ) > 0 且值较大时,被检测点为角点,当R( Aρ) < 0 且值较小时,被检测点则位于边缘区域,|R( Aρ)|较小时,被检测点位于平坦区域。

2. 3 图像特征点匹配步骤

图3 给出了图像特征点匹配的步骤,当两幅医学图像的特征向量生成后,采用欧氏距离作为两幅医学图像特征点的相似性判定准则[12]。首先取出左图像的特征点,找出与右图像中欧氏距离最近的前两个特征点,若离这两个特征点的最近距离和次近距离的比值小于某个比例阈值,则接受这一匹配点。

3 实验结果与分析

在PC机上用Matlab 2012b实现本文提出的算法,对获取的两幅医学图像进行特征点提取,并将Harris与SIFT相结合的算法与SIFT算法的匹配结果进行对比和分析,最后运用三角测量原理恢复医学图像的深度信息。本文的医学图像取自二尖瓣索修复手术视频,如图4 和图5 所示,实验中,摄像机光心距离取0. 5 m,匹配阈值取0. 49。匹配结果如图6 和图7 所示。

表1 为图6 和图7 的匹配结果统计,可以看出,本文提出的将Harris与SIFT相结合对医学图像进行特征点匹配生成的特征点数量要比SIFT算法少,从而在一定程度上减小了数据库容量和有待匹配的特征点数量,缩短了匹配时间。并在生成SIFT描述子之前,本文提出的算法采用Harris算子检测特征点,计算量较小,与SIFT算法特征点匹配相比,去除了部分不显著的特征点,减小了特征描述生成阶段的计算量和生成的次数,提高了匹配精度,可满足医学图像处理实时性要求。

图8 给出了将Harris与SIFT算法结合提取特征点后,并进行匹配后得到的较密集视差图。由实验结果可知,得到的视差图能够较好地体现出医学图像的特征,从中可较为清晰地看出手术夹子以及人体的轮廓信息,且图像含有的噪声较少。图9 是根据三角测量法对医学图像进行深度信息恢复的结果,图像能较好地反映原有医学图像的信息,表明本文采用的匹配算法有较好的效果。

4 结束语

SIFT算法在平移、尺度缩放、旋转、对亮度影响及抗噪性能等方面均具有一定的优势,但在处理实时性要求较高的医学图像时,提取的特征点过多且可能不是角点,计算量较大。由实验结果可看出,本文提出的将Harris与SIFT算法相结合,在一定程度上弥补了这一缺点,降低了特征点提取和图像匹配的复杂度,同时缩短了匹配时间,保证了正确匹配率,满足了医学图像处理实时性的要求。同时,可增强算法的抗噪声能力和对图像进行变化的鲁棒性,医学图像深度信息恢复结果进一步验证了该算法的有效性。对医学图像进行三维重建,实现从二维图像到三维空间的重构,使结果更接近人眼所能反映出的图像,将是下一步研究工作的目标。

摘要:针对医学图像深度信息恢复的实时性问题,提出了一种Harris角点检测与SIFT特征点检测相结合的算法,提取医学图像的特征点,采用欧式距离作为相似性判定准则将特征点进行匹配,克服了传统SIFT算法提取特征点过多、耗时长的问题。并对获得较致密的视差图,运用三角测量的方法恢复医学图像的深度信息。实验结果表明,文中所提算法在缩短了医学图像深度信息恢复的时间的同时提高了精度,验证了该算法的有效性。

图像深度 篇3

层次深度图 (Layered Depth Images, LDIs) 是由SHADE J等人在[1]中首次提出来的一种新型的表示和绘制复杂模型的工具。当使用2D深度纹理队列来表示模型的LDIs, 如果模型比较复杂或者顶点数目较多的时候, 存储空间将变得很大, 所以不得不考虑如何减少存纹理队列的储量。试图通过降低LDIs的深度复杂度来减少LDIs的空间消耗。据观察不通视线方向所产生的层次深度是不同的, 进而所占的纹理总单元数目也不同, 所以可以把以上问题转化为一种寻找最佳视线方向的优化问题并利用粒子群优化算法 (Particle Swarm Optimization, PSO) 寻找一个能使纹理存储空间达到最小的视线方向。因为模型一般可以用相同颜色的像元表示, 所以再结合传统图像压缩算法如行程长度编码、LZW自适应字典算法等来压缩深度图队列可以达到减少存储空间的目的。

2 粒子群优化算法

粒子群优化 (Particle Swarm Optimization, PSO) 最早是由心理学研究人员Kennedy博士和计算智能研究人员Eberhart博士于1995年提出的[3], 它是源于对鸟群觅食过程中的迁徙和群居的模拟。PSO是一种基于群体的优化工具, 同时也是一种基于迭代的优化工具。系统初始化为一组随机解, 通过迭代搜寻最优值, 粒子 (潜在的解) 在解空间追随最优的粒子进行搜索。在PSO中, 采用信息共享机制, 它有着简单容易实现同时又有深刻的智能背景的特点[4]。PSO算法一般是采用下面的公式对粒子进行操作的。

其中粒子的标号i=1, 2, …, m;k为迭代代数;学习因子c1, c2是两个正常数, 一般取值为2;r1, r2是均匀分布于[0, 1]之间的两个随机数。为了控制粒子在合理的区域内, 需要指定Vmax和Xmax来限制。公式 (1) 主要通过三部分来计算粒子i新速度:粒子i前一时刻的速度;粒子i当前位置与自己最好位置之间的距离和粒子i当前位置与群体最好位置之间的距离。粒子i通过公式 (2) 计算新位置的坐标[5]。

3 核心算法

通过观察我们发现使得层次深度达到最小的视线方向不唯一, 但每个视线方向上所产生的有效纹元 (纹理像素) 数目是不同的, 如图1。在LDIs中每层纹元的数目之和越小那么存储空间也越小, 所以减少纹理的存储空间的问题最终可以转化为找到最佳的视线方向满足最小有效纹元之和。

在[6]中Matthias等人设计了一种计算LDI最佳视线视点计算方法 (简称ODP) 。该算法首先以模型中心为原点, 建立一个半径为R的球体, 然后从经度和纬度方向把球体平均分割为N个片段。每个片段就是视点的一个位置, 算法通过访问球体上的每个位置计算ds和cs, 最后为他们排序来找到最优相机位置, 算法精度跟经度维度线的间隔选取相关, 复杂度为O (n2) 。这是一个比较鲁棒的算法, 在此基础上我们设计了一种利用粒子群优化算法求解最佳相机位置和保证最小存储的智能算法。也假设在模型所在的物体坐标系下视点是在以模型中心为原点有一个半径为R的球体上, 如图3, 视点在球表面坐标为, 其中其中sh、sv分别为经度和纬度单位距离。算法中每个粒子P的速度和位置由经度坐标和纬度坐标确定粒子飞行的距离单位可根据需要的精度设定。

最优解在球面的位置X也就是相机位置我们令每层深度图LDIk (k=1, …, n) 是大小为W*H的网格。IDIk所在平面总是以向量O ODP的方向为法向量。如果采用的是透视投影深度图, 那么视线是以视点ODP为起点, 以线段{ODP, O}为中心, 并经过深度图每个纹元IDIkij的一组发散视线, 而每层的有效纹元为模型的透视投影所在纹元。适应度函数为所有图层的有效纹元总数。

4 试验与讨论

测试平台是Windows XP, PIV 2.2CPU, 显卡NVIDIA Ge Force 9500 GT 512MB显存, 1G RAM。测试对象三角面片为20.4k, 如图1。设最小位移角度为1度, 初始种群数为30和100个。表1是算法的效率对比。通过这两个实验结果表明PSOO算法比[6]中的传统算法ODP能更快速的找到最佳方向和计算最小存储空间。

5 结论

提出了一种基于PSO的层次深度图的存储空间优化算法 (PSOO) 。通过把层次深度图用2D纹理队列存储, 并把最小存储计算问题转化为在视线空间内的最优化问题, 利用粒子群优化算法寻找最优方向使有效纹元总数最小来减少消耗的系统空间。

参考文献

[1]SHADE J., GORTLER S., WEI HE L., SZELISKI R.:Layered Depth Images[C].In SIG-GRAPH'98, ACM, pp.231-242.

[2]NVIDIA:NVIDIA OpenGL Extension Speci-fications for the GeForce8Series Architecture (G8x) [R], November2006.

[3]KENNEDY, J.and EBERHAERTt, R.Parti-cle Swarm Optimization[C], IEEE International Conference on Neural Networks (Perth, Aus-tralia) , Piscataway, NJ, IV:1942-1948, 1995.

[4]KRINK T, VESTERTROM J S, RIGET J.Particle Swarm Optimization with spatial parti-cle extension[C].The IEEE Congress on Evo-lutionary Computation, Honolulu, Hawaii, USA, 2002.

[5]周驰, 高海兵, 高亮等.粒子群优化算法[J].计算机应用研究, 2003, 21 (12) :5-11.

深度图像处理在车辆识别中的应用 篇4

在复杂环境中,由于背景光照、阴影的影响,传统相机采集的彩色图像景物灰度差较小以及噪声的存在,难以准确检测到目标对象边缘,造成图形处理识别计算量大,识别速度慢等问题。随着微软的深度图像采集设备Kinect的出现,图像识别技术可以有效利用深度图像信息和彩色图像信息的各自优势从而提高图像中目标识别效率。本文所介绍的内容便是通过Kinect设备采集车辆深度图像信息,根据先验知识提取深度图像感兴趣区域并映射到彩色图像中达到快速分割目标车辆目的,从而提高软件对图像中车辆快速识别能力。

1深度相机Kinect简介

深度相机Kinect 2.0如图1所示是微软公司2014年10月发布的一款低成本的图像信息采集设备。它可以每秒钟获取30帧512*424的11位深度信息和1920*1080的8位彩色图像信息。其深度探测范围0m到8m,有效范围0.5m到5m,深度相机和彩色相机的视角范围都是纵向角度60°,横向70°。

根据Prime Sense公司对深度信息采集原理的描述,相机运用结构光(structured light)技术获取深度图像,即将红外光源照射到磨砂玻璃(不均匀的透明介质)和红外滤光片后在物体表面形成随机衍射斑点,这些斑点在空间的不同位置产生随机散斑图案,通过红外摄像机捕捉物体表面的散斑图案,再与事先标定的散斑图案依次对比从而获取深度信息。如图2所示,相机通过处理深度信息生成深度图像,该深度图像为位图图像,其每个像素占16位,其中高13位表示最近的物体到深度相机的距离,单位为mm。

由以上的介绍可知,深度相机可以获取深度图像,图像的每个像素保存了最近物体到深度相机的距离信息。在应用深度信息之前,我们需要对Kinect for Windows SDK的功能及其特点进一步了解。Kinect for Windows SDK是由微软公司推出的软件开发包,允许开发人员通过Visual Studio 2015访问从深度相机上传输的数据流,通过使用C#等编程语言对彩色和深度数据进行处理并开发相关应用。SDK目前可以提供基本的API,包括彩色图像数据API、深度数据API及音频数据API。

深度相机Kinect的主要优势有以下几个方面:

(1)高性能。

Kinect深度图像系统采用的是的是PS1080系统级芯片。该芯片使得深度相机可以准确的控制红外光源,对图像进行编码并主动投射红外光谱,并可以将CMOS图像传感器接受到的散斑进行处理并生成深度图像。彩色摄像机可以获取高质量彩色图像,准确表达图像中详细的纹理特征和光谱数据。

(2)高鲁棒性。

由于深度相机Kinect获取的深度图像是由红外光源编码成像,因此与环境光线无关,在弱光、夜晚和不良环境等情况下,测量结果都不会受到干扰。

(3)兼容性。

软件开发包提供了一些与诸如Emgu CV、open NI、Unity3D等其他应用环境的接口,Kinect提供的原始数据可以方便的被开发人员调用。

2处理深度图像并完成车辆识别功能

通过以上的介绍我们了解到,在Kinect的开发包中,我们可以调用Emgu CV图像处理库处理Kinect提供的原始深度图像和彩色图像,让程序对图像中车辆的识别更加准确,效率更高。下面具体介绍在Windows10系统下,在VS2015中部署开发环境并使用深度图像和彩色图像完成图像识别功能的应用。如图3所示,基于深度图像处理过程可简要概括为如下步骤:深度图像的采集及预处理,特征提取,目标识别,映射转换,输出。

2.1配置开发环境

安装Kinect for Windows SDK 2.0及Emgu CV 3.0到系统中,将Kinect SDK和Emgu CV文件夹中的动态链接库添加到系统环境变量中,在VS2015中新建WPF工程,并添加相应的动态链接数据库文件到工程的引用目录中,这样就可以通过声明相关的命名空间来调用Kinect SDK和Emgu CV中提供的方法去处理图形图像。

2.2车辆识别方法

2.2.1深度图像采集

使用相机采集深度图像,需要首先对Kinect设备初始化,然后通过Bitmap Frame类对Bitmap Source中捕获到的深度数据流转换为Bitmap图形数据,并使用Bitmap Encoder类中的Save()方法保存为bmp文件,从而实现深度图像的获取及保存功能,部分代码如下:

2.2.2深度图像预处理

深度图像预处理是将深度图像进行影像增强,并且依据先验知识将深度图像中的前景(感兴趣区域)从图像中分割出来。目前图像分割常用的三种方法有:阈值分割,边缘分割,区域分割。阈值分割分为全局阈值化分割和局部自适应阈值分割,由于深度图像的灰度值具有明显的分层性,灰度较高的图像区域的二值化阈值通常会较高,而灰度较低的图像区域的二值化阈值则会相适应地变小。不同的局部图像区域将会拥有相对应的局部二值化阈值,所以本文利用Emgu CV实现局部自适应阈值分割,通过调节block Size值,快速地区分图像中感兴趣的前景目标和背景。在解决方案中加入Kinect和Emgu CV的引用,并声明使用命名空间:

通过调用Cv Invoke.cv Adaptive Threshold()方法对深度图像局部自适应阈值分割,从而剔除图像中背景干扰,提取出的前景目标可以进行下一步处理。

2.2.3特征提取

根据深度图像的预处理得到目标图像,提取其外部轮廓特征。对于查找轮廓我们一般要对图像Canny检测,但是实现较为复杂,在本文中采用Find Contours()方法直接对由深度图像二值化的图像进行轮廓的提取,部分代码如下:

得到目标轮廓。

2.2.4目标识别

目标识别技术主要有简单参数分类法和模板匹配法两种。简单参数分类法需要事先建立车辆参数数据库,主要以车辆几何特征作为参数,优点是识别较为准确,但是对图像中目标的拍摄角度要求较高,实用性较差;模板匹配法是事先建立一个模板数据库,主要记录车辆的外部轮廓特征,将目标图像与库中的模板进行匹配,优点是车辆特征简单,容易提取,鲁棒性高,本文选用模板匹配法进行目标轮廓的识别,并显示识别结果:

2.2.5映射转换

通过目标特征识别,已经车辆目标保留在深度图像中,但是Kinect相机中红外摄像头和彩色摄像头位于设备内的不同位置,因此深度图像中的像素和彩色图像的同一位置的像素点并不能一一对应。如图4所示,Kinect SDK中包含彩色图像二维坐标、深度图像空间坐标,需要在Coordinate Mapper类中通过调用Map Depth Points To Color Space()方法实现坐标映射转换,将深度图像空间坐标映射为对应的彩色图像二维坐标。

2.2.6车辆识别实验与结果

深度相机采集的图像如图5所示。

对深度图像进行处理后图6所示。

经过对比,基于深度图像处理的车辆识别技术在实际使用过程中,识别率较高,且当采集图像时的环境噪声较多时,本方法识别所需的时间更加明显小于传统识别方法,有较高的实用性。

3结语

本文提出一种基于深度图像处理的车辆识别方法,介绍了深度相机Kinect的特点和优势,并以一款车辆识别软件的设计为背景,说明了深度相机的图像信息的采集和处理过程,详细叙述了运用Emgu CV图像处理库和Kinect SDK对深度图像和彩色图像完成具体的图像处理及车辆识别任务,最后通过实验来验证识别的效果,并对比传统识别方法,在图像背景较复杂的条件下,本方法的优势更加明显,具有较好的应用前景。

参考文献

[1]余涛.Kinect应用开发实战[M].北京:机械工业出版社,2012.

[2]冯伟兴,唐墨,贺波,等.Visual C++数字图像模式识别技术相机[M].北京:机械工业出版社,2010.

[3]刘瑞祯,于仕琪.Open CV教程——基础篇[M].北京:航空航天大学出版社,2007.

[4]吴国斌,李斌,阎骥洲.Kinect人体交互开发实践[M].北京:人民邮电出版社,2013.

[5]余亚玲,张华,刘桂华,等.基于不确定度评价的Kinect深度图预处理[J].计算机应用,2016.

[6]J.R.Parker.Algorithms for Image Processing and Computer Vesion[M].2nd ed,Wiley Publishing,Inc,2012.

[7]Christian Nagel,Bill Evjen,Jay Glynn,et al.Professional C#5.0 and NET 4.5.1[M].9th ed,Wiley Publishing,Inc,2014.

图像深度 篇5

本文针对特征提取算法的普适性问题展开研究, 首次将反馈学习理论与3DLBP特征提取过程相结合, 提出了一种自适应性的3DLBP特征提取算法。实验结果表明, 利用自适应3DLBP特征提取算法获取的人脸深度图像特征对训练样本集的变化具有较好的有效性和稳定性, 在FRGCv2.0人脸数据库上取得了理想的识别性能。

1机器学习理论与特征提取算法

1.1机器学习理论

机器学习就是要使计算机能模拟人类的学习行为, 通过主动的学习来获取知识和技能, 并不断改善其性能, 最终实现自我完善。目前, 在机器学习研究领域中被普遍接受和认同的一个观点是:学习应该是系统运行过程中的某种改进。而这种改进使得系统在进行重复或类似的工作时, 能够具有更好的性能[8]。

对于特征提取而言, 机器学习系统应遵循学习的增量性以及学习的自适应性标准[9]。其中, 自适应性体现了反馈的观点, 即学习结果反作用于学习过程。因此, 对低质量的训练具有理想的鲁棒性, 能够使学习过程向平衡状态发展。

1.2自适应特征提取算法

自适应特征提取算法是将反馈学习理论与统计学习过程相结合, 即在特征的提取过程中, 利用测试样本对算法的关键参数进行不断的修正和优化, 从而提高特征提取算法的普适性。以经典的Fisherface特征提取算法为例进行分析。首先通过对训练样本集的学习可以获得一组最佳鉴别矢量集;系统将该鉴别矢量集作为初始知识并对测试样本进行特征提取和分类识别;当第一次分类结束后, 并不立刻对结果进行判断和输出, 而是利用该分类结果对鉴别矢量集进行动态优化, 具体过程如图1所示。

该特征提取算法的主要特点是:利用训练样本获得的鉴别矢量集仅作为系统的初始知识;而将优化鉴别矢量集的过程视为系统的学习功能。但是, 在上述学习过程中尚存有明显不足, 即对错分类样本的学习会引起鉴别矢量集出现较大的偏差和不稳定。针对该问题, 本文进一步提出采用多分类器来提高预分类的正确率, 从而尽量避免系统对错分样本的学习。因此, 自适应特征提取过程如图2所示。

2自适应3DLBP特征的提取

2.1人脸深度图像的获取

人脸深度图像不同于普通的二维纹理图像。在深度图像中, 像素值代表了一个相对的深度信息。因此, 每个像素都包含了三维坐标系下各个坐标值的空间信息。人脸深度图像数据反映了人脸表面的三维信息, 获取过程具体包括:

1) 获取3D人脸数据

3D人脸数据既可以通过各种三维扫描设备主动获取, 也可以通过三维重建的方法间接获取。本文所使用的3D人脸数据主要来自于FRGCv2.0[10]人脸数据库。

2) 3D人脸数据的方位归一化

获取的3D人脸数据可以具有不同的尺寸、位置和方向, 由于人脸深度图像反映了人脸表面在三维坐标系下的空间信息, 所以在提取深度图像之前需要将3D人脸数据置于一个标准的坐标系中, 即方位归一化。方位归一化一般包括以下过程:旋转归一化、平移归一化和尺度归一化等处理[11]。

3) 基于正交投影的人脸深度图像

将3D人脸数据投影为平面图像的方法有很多。其中, 最具代表性的是基于正交投影的处理方法。该方法首先计算3D人脸模型的最小包围立方体, 如图3所示。然后, 将立方体的深度空间均分为256个像素单元, 即像素灰度级别为0~255;最后选取与Z轴垂直的平面为坐标面进行投影, 投影的基本原则是:距离坐标面越远像素灰度越大, 颜色越深。

2.2自适应3DLBP特征

对于获取的人脸深度图像而言, 由于其本身已经包含有完整的人脸空间结构信息, 且对光照变化具有稳定性。因此, 本文提出直接利用3DLBP算子[11]对人脸深度图像进行特征提取。同时, 将3DLBP特征图谱划分成多个不重叠的区域从而保留其空间结构信息;最后, 提取区域直方图并连接成完整的直方图序列, 作为该对象的3DLBP特征表示。当采用 (8, 2) 邻域算子时的处理结果如图4所示。

加入空间信息后的直方图, 即为区域3DLBP直方图 (Regional 3DLBP Histogram, R3DLBPH) 。当3DLBP特征图谱的灰度级范围为[0, L-1]时, R3DLBPH直方图定义为

其中,

式中:i=0, …, m-1, j=0, …, L-1。将所有R3DLBPH直方图连接成一个直方图序列作为人脸的3DLBP直方图特征表示, 即

然而, 提取的3DLBP直方图特征维数非常高, 且含有大量的冗余信息。为了能够在低维空间中表示3DLBP直方图特征, 本文提出一种基于集成分段FDA (Ensemble of Piecewise FDA, EPFDA) 的自适应处理方法。该处理方法不仅能够较好地融合直方图序列的全局与局部特征, 并且还能够针对测试样本进行动态调整, 使特征提取过程具有自适应性。因此, 自适应3DLBP特征提取过程如图5所示。

3DLBP直方图特征是由所有R3DLBPH直方图连接成一个直方图序列, 在对3DLBP图谱的划分过程中, 可以保留特征图谱的局部空间信息。直方图特征的集成分段就是将全局与局部特征相互融合, 即将3DLBP直方图特征进行分段, 对不同的集成分段直方图分别进行特征提取。因此, 式 (3) 可表示为

式中:n=c×j为R2DHaar LBPH数量;L为3DLBP图谱中箱格的数量;p=0, 1, …, n-1。将n个R3DLBPH分成K个片段, 所以3DLBP直方图特征可表示为

式中:Gq为第q个包含特定数量 (nq) R3DLBPH的特征片段。对每个特征片段Gq建立FDA模型, 将其变换到第q个判别子空间的低维表示Fq, 即

式中:WFDAq为第q个判别子空间的投影矩阵。这样, 通过建立K个FDA子空间, 人脸深度图像可表示为

3实验结果及其分析

3.1 实验数据库介绍

FRGCv2.0人脸数据库包含有不同对象在不同表情和光照条件下的二维人脸图像与三维结构数据。其中, 三维结构数据采用结构光三维扫描仪在受控环境下进行拍摄。获取的人脸深度数据为三维点云数据, 而与之配准的彩色图像分辨率为640×480。

本文采用其中275位对象的943个样本 (每个样本包括深度数据和与之配准的彩色图像) 作为实验样本。同时, 对三维人脸数据进行姿态矫正、平滑、切割等预处理, 并最终生成150×130像素的深度图像。预处理后的部分人脸深度图像如图6所示。

在该实验数据库中, 不同对象所包含的样本数量并不完全相同, 具体分布情况如表1所示。本文取出86位对象的529个样本数据用于实验 (每位对象的样本数不少于5个) 。

3.2 算法性能比较分析

大量文献和实验结果[12,13]均表明像素邻域 (P, R) 对基于LBP算子的识别方法有直接影响, 在相同实验条件下, (8, 2) 邻域比 (8, 1) 邻域的效果要好。因此, 本文采用圆形的 (8, 2) 邻域提取3DLBP直方图特征;对150×130像素的人脸深度图像进行3DLBP特征提取后, 大小为146×126像素。每位对象随机取3幅图像用于训练, 其他图像用于测试, 即训练集样本数为258, 测试集样本数为271。实验采用等错误率 (EER) 作为算法性能的评价指标, 并取5次运行结果的平均值作为最后的等错误率 (等错误率越低, 算法性能越好) 。

3.2.1 实验1:基于自适应3DLBP特征的性能比较测试

本实验重点分析自适应3DLBP特征与3DLBP特征在分类识别测试中的性能差异。先将人脸特征图谱分成2×2个大小相同的区域, 即EP=4;然后, 再将每个区域分成分成k×k (k=7, 9, …, 21) 个大小相同的不重叠区域, 并分别提取自适应3DLBP (Adaptive 3DLBP) 特征与3DLBP特征。自适应3DLBP特征提取算法的关键步骤是对测试样本进行学习, 即在第一次分类识别后, 将训练样本与测试样本一起构成新的训练样本, 完成对鉴别矢量集的优化与自适应学习。其中, 对测试样本的正确分类将直接影响整个算法的稳定性和有效性。本实验利用最小距离和最近邻分类器对测试样本进行分类识别, 并将具有相同分类结果的测试样本与原训练样本一起构成新的训练样本集, 实现对鉴别矢量集的动态优化, 实验结果如图7所示。

通过图7可以看出利用自适应3DLBP特征提取算法可以在一定程度上改善特征的可鉴别性, 但是这种改变并不明显, 对于最低等错误率甚至略微上升。究其原因, 是在利用两分类器对测试样本进行分类学习的过程中, 对错误分类样本的学习导致了自适应3DLBP特征鉴别矢量集出现偏差, 影响了后续的性能表现。

同时, 值得注意的是随着k值的增大, 两种特征的等错误率均有所上升。本实验同样尝试了将3DLBP标记图像分成不同数量的区域, 但其效果都不如EP=4时的实验结果。当EP=4时, 基于两种特征的最低等错误率及相应的区域划分k如表2所示。

3.2.2 实验2:基于少量训练样本集的性能比较测试

自适应特征提取算法的最大特点在于特征提取过程中的自适应学习和动态优化调整。为了验证这一特性, 本实验对训练样本集进行调整。每人随机取2幅图像用于训练, 其他图像用于测试, 即训练集样本数为172, 测试集样本数为357。利用自适应3DLBP与3DLBP特征分别进行分类识别。在EP=4时, 不同区域数目下的等错误率如图8所示。

通过对比图7、图8可以看出, 当训练样本数量减少的情况下, 基于3DLBP特征提取算法的识别性能有所下降, 等错误率显著上升;而基于自适应3DLBP特征的人脸识别系统性能基本保持稳定。通过对比实验可以看出, 自适应特征提取算法对于低质量的训练样本具有较好的鲁棒性, 能够在分类识别的过程中对系统的关键参数进行动态优化, 使提取的特征更加符合测试样本的特征变化, 因此具有一定自适应性。

4总结与展望

本文针对人脸深度图像的识别问题展开研究, 提出了一种自适应3DLBP特征提取算法。该特征提取算法以机器学习理论为基础, 首次将反馈学习与3DLBP特征提取过程相结合, 即利用测试样本对算法的关键参数进行修正和优化;然后再使用优化后的算法进行特征提取及分类识别;同时, 为了提高自适应特征提取算法的稳定性, 本文提出在预分类处理中使用多分类器对反馈学习过程进行优化。实验结果表明, 自适应3DLBP特征对训练样本集的变化具有较好的有效性和稳定性, 在FRGCv2.0人脸数据库上取得了理想的识别效果。如何将该自适应特征提取算法进行扩展以适合不同模态的人脸特征将是下一步研究的重点。

摘要:针对人脸深度图像的分类识别问题展开研究, 提出一种自适应3DLBP (3D Local Binary Pattern, 3DLBP) 特征提取算法。该特征提取算法以机器学习理论为基础, 首次将反馈学习理论与3DLBP特征提取过程相结合, 以保证特征提取算法对训练样本集的变化具有理想的普适性;同时, 为了提高自适应特征提取算法的稳定性, 提出使用多分类器对反馈学习过程进行优化。实验结果表明, 自适应3DLBP特征对训练样本集的变化具有较好的有效性和稳定性, 在FRGCv2.0人脸数据库上取得了理想的识别效果。

图像深度 篇6

颜色加深度的一个关键问题是深度传感器与图像传感器相比存在较差的空间分辨率。因此, 一种提高深度图像空间分辨率的技术被提出来, 即深度图像超分辨率技术。为了实现这个目的, 文献[6-9]介绍了各种深度图像超分辨率算法。文献[6]提出了一种局部直方图, 该直方图利用相邻颜色和深度像素插值每个像素并且作为概率密度函数 (pdf) , 将最大pdf作为目标深度值。然而, 本文发现这样的策略并非总能达到最佳超分辨率性能, 因为有时在插值深度边缘会产生伪影。文献[7]是对飞行时间相机获得的深度图像进行超分辨率重建, 结合局部和非局部相似性约束, 同场景的高分辨率场景彩色图像的自适应权重滤波, 虽然取得一定效果, 但颜色边缘不一致, 而且不具有实时性。文献[8]提出了一种自适应中值滤波器和双边滤波器上采样深度图像, 这种方法可以产生不存在纹理复制问题的锐化边缘, 但是获取的深度边缘与颜色边缘十分不一致, 因为在超分辨率深度图像中没有使用彩色信息。文献[9]讨论了飞行时间相机、基于马尔可夫随机场 (MRF) 框架的超分辨率技术、最大后验概率 (MAP) 等超分辨率技术、小波在超分辨率技术的应用等, 提出将参数模型融入到正则化约束项对深度图像局部边缘进行约束, 该模型是针对彩色图像局部结构特征的深度图像超分辨率。

上述和其他许多深度图像超分辨技术试图找到一个有效的滤波器方案或者联合一些滤波器方法。本文假设没有一种滤波器性能普遍优于其他滤波器, 且启发式滤波器组合方法总存在改进空间。从这个观点看, 本文超分辨率深度图像采用机器学习技术。由于存在颜色加深度图像数据库[10], 因此训练图像由低分辨率 (LR) 深度图像和与其对应的高分辨率 (HR) 彩色深度图像对组成。给定训练样本和多个候选滤波器, 本文可以观察到哪些滤波器性能最好, 哪些因素影响滤波器性能。为了实现这个目的, 采用与文献[6]相似方法生成直方图, 然后从直方图提取一种频域特征向量, 特征向量很好地描述了滤波器选择模式。最终利用训练样本和特征向量训练支持向量机 (SVM) 分类器。另外本文设计了一种频域特征向量, 该向量能明显区分不同特点滤波器。

1 滤波器选择与特征提取

本文假定彩色和深度图像是一致的。当分别使用彩色和深度传感器时, 传统解决方案将深度图像像素坐标系转换到彩色图像像素坐标系[6]。因此超分辨率深度图像的问题转换为寻找彩色像素坐标系的深度值。

1.1 候选滤波器

设C和DL分别表示HR彩色图像和与其对应的LR深度图像。映射DL到彩色图像坐标系, 获取部分填充深度像素的HR深度图像, 表示为D。超分辨率深度图像的目标是对D应用空间不同滤波器, 使得D中所有像素有精确的深度值。

许多传统深度上采样算法[6, 11]通过下式寻找D中像素p的深度值d

式中:N (p) 表示有深度值的p的邻居像素集的权重值。GS, GC, GD分别表示空间、彩色和深度高斯函数, 该高斯函数均值为0, 标准差分别为σS, σC, σD。特别地, 使用像素坐标系的欧氏距离衡量空间距离, 均值绝对值差衡量2个RGB颜色向量距离。计算所有可能d值的权重分布H (p, d) , 然后归一化使得

在传统的联合双边均值滤波 (JBAF) 中[12], 使用下式获取深度值

式中:通过设置σD=0将深度高斯函数变为σ函数。因为JBAF的滤波器系数由像素间的色差决定, 因此D的深度边缘可以很好地结合C的彩色边缘。然而, 由于在式 (1) 的和中, 小权重细微的影响, D中会出现不必要的模糊。

为了解决JBAF的问题, 本文提出了权重滤波器 (WMF) [6], 定义如下

即WMF选择最大化权重分布的深度值, 因为滤波器中选择非线性操作, 可以减少不必要的模糊。然而, WMF获取的深度边缘往往不能准确地与彩色图像边缘对齐。文献[6]发现JBAF和WMF分别在L2范式和L1范式下能有效最小化。

同时, 中值滤波器也使用在彩色和深度图像超分辨率中[13]。对不为整数的权重值, 通过下式获取中值滤波器

因为在深度图像滤波器中使用色差, 所以本文称这种滤波器为联合双边中值滤波器 (JBMF) 。

滤波器的选择依赖于权重分布的特点, 本文采用基于学习的方法, 使用大量数据库训练分类器。将JBAF、WMF和JBMF作为候选滤波器, 因为它们存在比较明显的特征。基于学习的框架必要时还包括任何额外滤波器。此外, 等式 (1) 的相同权重用作3个滤波器的权重分布。因为深度高斯函数考虑了深度信号的可用性[6], 因此本文实验中JBAF也使用深度高斯函数, 其中σD≠0。本文更关心新权重分布的设计。

1.2 特征提取

特征提取在基于学习的算法中扮演很重要的角色。提取的特征要能很容易区分不同特点滤波器。在上小节中, 观察到权重分布的变化与滤波器选择有关。为了实现这个目的, 从权重分布提取特征向量需要考虑2个方面内容:首先, 权重分布的绝对位置不能决定滤波器的选择。例如, 从163~177的非0位置, 在这种情况下, JBAF为最佳滤波器, 因为无论位置范围向左偏移还是向右偏移, JBAF都没有变化;第二, 在权重分布中存在多种分离模式影响滤波器的选择, 因此, 隔非零值位置对滤波器选择很重要。

考虑上面的2个方面, 2种向量vω和vs定义如下

为简单起见, 从H (p, d) 式中忽略像素坐标系p。向量vω和vs分别由对应权重分布的非0值位置的权重值和2个连续非零位置的间隔组成。设N和N-1分别为vω和vs的长度。根据定义的向量vω和vs, 每个像素的N种变化依赖于权重分布的稀疏性。因此本文定义固定长度L且更改向量为下式

式中:操作如下

且R (vω (i) ) 计算vω中所有vω (i) 的递减序列排名, 例如当vω (i) 为最大值时, R (vω (i) ) =1。更具体地说, 如果N<L, 最终值vω (N) 将不断重复, 使的长度等于L。否则, 如果N>L, 从vω提取最大值L。长为L的以相同方法定义。因为深度信号很少变化, 权重分布中仅仅很少的块不可以忽略, 因此本文经验地设L为16。

频域特性有效地表示了变化的信号[14]。为了使特征向量能更好区分滤波器分类器, 本文采用频域特征提取方法。本文不直接使用分别应用离散余弦变换 (DCT) , 得到

在基于学习的超分辨率深度图像中使用特征向量V。图1显示了本文频域特征的有效性。红圈、绿叉和蓝点分别表示JBAF、WMF和JBMF的特征向量 (原图为彩图) 。随机从每个训练集选择100个特征向量, 通过LDA获取x轴和y轴组件。根据线性判别分析 (LDA) [15], 从图中可以看出频域特征与空域特征相比有较好的性能。分类准确性根据SVM训练样本的10折交叉验证衡量。空域和频域特征向量的分类准确率分别为72.4%和80%。

2 本文整体构架

本文基于学习的算法由训练阶段和测试阶段组成。图2显示了获取滤波器分类器的训练阶段。给定的HR彩色图像和深度图像对作为训练集, 通过HR深度图像下采样获取LR深度图像, 然后对HR彩色图像和LR深度图像的所有像素应用JBAF、WMF和JBMF进行插值。因为本文在训练阶段存在真实HR深度图像, 所以对每个像素, 本文可以检测到哪个滤波器获取的像素深度值与真实值相同。为了联合特征向量, 首先生成JBAF、WMF和JBMF的3个空集。如果对于一个像素, 一种滤波器的性能超过其他滤波器, 将它的特征向量V包含在相应的集合中。

图3显示了获取HR深度图像的测试阶段。当LR深度图像和HR彩色图像作为输入时, LR深度图像首先映射到彩色像素坐标系中。对每个将要插值的像素, 从等式 (1) 获取权重分布。然后从权重分布获取特征向量, 如1.2节所示。滤波器分类器最后决定像素需要那种分类器。对所有没有深度值的像素应用以上过程, 可以构建HR深度图像。

3 实验结果

本文首先在Middlebury 2001和2003数据库上测量本文算法性能。然后本文将该算法应用于实际环境且定性评价其性能。等式 (1) 的标准偏差GS, GC, GD分别选择7, 6和2.9。文献[6]详细描述了这些参数。

本文算法与其他5种算法做了比较。前三种算法分别为WMF, JBAF和JBMF。第四种算法为基于WMF, JBAF和JBMF中最佳滤波器的方法。更具体地说, 最佳滤波器获取的深度值最接近真实HR深度值。本文算法的上限通过这种方法衡量, 称之为第四种算法为理想方法。最后, 传统超分辨率深度图像的性能, 称为广义总变化各向异性 (ATGV) 算法[16]。该算法也与上面算法相比较, 使用作者提供的软件获取实验结果。

图4所示为4个广泛使用的测试图像, 这些图像没有包含在训练图像中, 且被用来评价本文算法性能。图4c和图4d所示为真实深度图像中一些丢失的像素。这些丢失的像素没有包括在定量评价中[10]。然后对HR深度图像分别使用采样因子为4和8的下采样。此外, 噪声LR深度图像也作为输入图像。为了考虑现实环境, 本文模拟ToF深度摄像机的噪声模型, 该摄像机模型的LR问题比基于结构化光源的深度摄像机更严重。众所周知, ToF深度噪声的标准偏差与图像像素值返回传感器的强度成反比 (通常, 红外线发射, 然后返回) 。通过考虑返回光的色度饱和度强度 (HIS) 颜色空间的彩色图像的强度组件, 将噪声强度依赖添加到无噪声深度图像。更具体地说, 对位置为 (x, y) 的每个像素加入标准偏差为σN (x, y) 的高斯噪声, 其中σN (x, y) 定义如下

式中:CI (x, y) 表示彩色图像中位置为 (x, y) 的像素在HIS空间的强度值。为了仿真ToF深度摄像机的噪声, 给定的差异值首先转换为深度值且将噪声添加到深度空间。然后噪声深度值返回到噪声差异值。微调等式 (11) 的常数k, 使得无噪声和噪声差异图像间的RMSE值近似于5 (容忍度为0.01) 。

表1和表2给出了算法性能的评价结果。统计没有正确匹配的像素数所占的百分比, 绝对误差大于一个像素。分别将深度值连续区域和不连续区域的像素作为评价依据。文献[10]介绍了定量评价的细节。实验结果显示本文算法性能优于ATGV和分别使用WMF、JBAF和JBMF算法。特别地, 当使用噪声深度图像时, 该算法的性能仍然优于这些算法, 表明本文滤波器分类器对深度噪声不敏感。然而, 仍然存在本文算法和理想算法之间不可忽略的性能差距。本文凭经验发现实验中使用的三种滤波器不能完全可分。特别地, JBAF和JBMF输出的均值和中值常常相似, 如图2所示, 因此在训练阶段很难将两者完全分开。

%

%

图5显示了根据无噪声的LR深度图像重建的HR深度图像。为了可视化, 只放大深度不连续区域。从图中可以看出本文算法重构的HR深度图像精度较高。JBAF产生了不必要的模糊, 而WMF常常导致边缘附近产生伪影, 因为它常常选择最大化权重分布的深度值。通过JBMF获取深度图像的边缘锐化程度位于WMF和ATGV之间。ATGV算法在深度边缘附近也表现出了不可忽视的伪影。图6显示了根据有噪声的LR深度图像重建的HR深度图像。与有噪声区域相比较, 所有算法都明显提高了图像深度质量。特别地, ATGV算法表现Venus数据库图像平面更好, 但是在Tsukuba和Teddy数据库图像上出现不精确的深度边缘。在总体上, 本文算法与其他算法相比产生了比较少的伪影。

4 总结与展望

本文提出了一种基于学习的深度图像超分辨率滤波器选择方法。训练分类器使得算法能有效选择每个像素的最佳滤波器。另外本文设计新的频域特征, 该特征提高了算法区分不同滤波器方法的能力。使用合成数据库、真彩色和深度图像论证本文算法的有效性, 以及对噪声图像的鲁棒性。

由于本文考虑的是超分辨率深度图像而不是超分辨率深度视频。在视频中, 超分辨率深度图像的时间一致性需要考虑。因此, 提高本文算法的时间一致性来处理超分辨率深度视频将是下一步研究的重点。

摘要:针对深度图像传感器与彩色图像传感器的空间分辨率较差的问题, 提出一种提高深度图像分辨率的算法, 不同于传统方法。该算法是基于机器学习的超分辨率选择机制, 选择均值型、最大值型和中值型三种滤波器方法作为候选方法。首先运用高分辨率深度图像下采样和高分辨率彩色图像选择最优的滤波器, 同时经过特征提取获得特征集;然后, 高分辨率深度图像直接通过最优滤波器获得特征集;最后, 这些特征集经过支持向量机 (SVM) 训练获得滤波器分类器。此外, 还提出了一种频域特征向量, 用于提高算法识别性能。无噪声和有噪声的深度图像实验验证了算法的有效性和鲁棒性, 在真彩色和飞行时间深度图像的实验结果表明, 提出算法的性能优于传统算法。

图像深度 篇7

机器学习已经逐渐渗透到现代生活的方方面面,从网页搜索到社交网络内容过滤,再到电商推荐,在相机、智能手机等电子产品中的应用也越来越多。自20世纪80年代以来,机器学习在算法、理论和应用等方面都获得了巨大成功。从2006年起,国外开始了深度学习方面的深入研究,并取得了一定的阶段性成果。深度学习(Deep Learning,DL)[1]的概念来源于人工神经网络,所谓“深度”是含多隐层的感知器。深度学习可以将低层次特征有效组合起来,逐步进行学习与特征提取,形成能够表示属性类别的抽象高层次特征。

传统的岩石薄片图像鉴定以肉眼观察和描述为主,存在一系列问题,如实验周期偏长、定量困难、效率较低、受主观影响较大等,在低孔隙度、低渗透率岩心条件下存在问题很多,因此已不能满足现场测井资料解释评价的需要。针对目前岩石分析工作中存在的实际问题,应用现代图像处理以及人工智能技术领域的深度学习算法对岩石薄片图像进行矿物识别、信息提取、岩石分类、岩心重构、特征标注等处理极具理论和现实意义。人工神经网络因其多隐层结构而具有良好的特征学习能力,能将数据本质更好地表现出来,对数据的可视化和模式分类十分有利。这对于测井解释中的岩石物理研究是非常必要的。同时,深度学习模型的层次、参数多,容量大,满足了岩石图像分析中海量数据的处理需要。

1 深度学习(Deep Learning)

根据加拿大多伦多大学教授Geoffrey Hinton 2006年在《Science》上发表的文章[2],以及Yoshua Bengio、Yann Lecun等人的相关工作,深度学习逐渐被人们关注。“深度学习”指多层的人工神经网络和训练方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取得权重,再产生另一个数据集合作为输出。其类似生物神经大脑的工作机理,通过合适的矩阵数量,将多层组织链接在一起,形成神经网络“大脑”来进行精准复杂的处理,并通过“逐层初始化”(layer-wise pre-training)克服深度神经网络在训练上的难度[3]。用较少的参数表示复杂函数是多层优势的体现。深度学习将具有多隐层的机器学习模型和海量的训练数据构建起来,用“深度模型”的手段达到“特征学习”的目的,最终提升分类或预测的准确性[4]。

在对岩石图像的特征信息提取、岩石分类、岩心重构、特征标注、孔隙识别等处理中运用了大量图像处理与人工智能技术,经过大量反复实验表明,图像处理技术在测井实际应用中已经有了良好基础[5,6,7]。将深度学习运用到岩石图像的处理分析中,具有重要的研究意义与较大的发展空间。

深度学习模型有多种,如深度信念网络、卷积神经网络、自动编码器等,通过与其它方法的结合改进,又出现了一些新方法。深度学习的各类算法模型有着各自的特点与优势,在语音、图像、自然语言、在线广告等领域的应用取得显著进展[8]。Volvo采用NVIDIA车载深度学习电脑来提供更安全的驾驶服务;中国科学院计算机技术研究所发布了全球首个能“深度学习”的神经网络处理器芯片,名为“寒武纪”;不久前,谷歌DeepMind开发的人工智能围棋程序AlphaGo战胜世界冠军李世石,在深度学习领域取得了重大突破。但在岩石图像处理中采用深度学习方法仍不多见,人们大多还是采用传统方法,如滤波算法、边缘检测、决策树、支持向量机等。通过阅读学习大量有关深度学习的资料,结合岩石图像的实际特征,分析各类算法在岩石图像处理中的可行性是本文的主要目的。

2 深度信念网络及其在岩石图像处理中的应用

2.1 深度信念网络简介

深度信念网络(DBNs-Deep Belief Networks)是无监督的概率生成模型,2006年由Hinton等人提出。从结构上看,DBNs是由多个无监督的受限玻尔兹曼机(RBM-Restricted Boltzmann Machines)堆叠而成,最后还有一层有监督的反向传播BP网络。对于图像而言,可视层与像素层对应,隐层与特征描述因子对应。

DBNs需要经过预训练(per-training)和微调(finetuning)两个阶段:在预训练阶段采用无监督方式训练第一层的RBM,固定其权值和偏置值,将该层的输出作为第二层RBM的输入,再训练第二个RBM,然后将其堆叠在第一个RBM的上方,重复堆叠多次,构建DBN网络的初步模型。在微调阶段使用Contrastive Wake-Sleep(对比唤醒-休眠)算法修改权重,使每一层的RBM特征向量映射达到最优。

图3中的y1部分是在最顶层RBM中参与训练的标签。微调过程是一个判别模型。

2.2 DBN在岩石孔隙识别中的可行性分析

DBN模型是一种逐层贪婪预训练的深层神经网络模型,它克服了传统神经网络在训练上的难度,挖掘隐藏在图像像素特征之中的高维抽象特征。它是深度神经网络模型的典型代表,受到了学者们的广泛关注[9,10]。在现有研究成果中,已有将模糊C均值聚类和BP神经网络结合起来处理铸体薄片图像的方法[11],达到了良好的孔隙度识别效果;还有学者提出岩石图像分类的自动模式识别方法[12],通过神经网络建立特征空间与岩石图像之间的映射关系,能够快速准确地识别岩石图像类型。由此可见,利用神经网络进行岩石图像的处理已有不少具体应用,而深度信念网络是在传统神经网络基础上加以优化改进,例如:根据人脸特征提出基于Gabor小波与深度信念网络的人脸识别方法[13],取得了较高的学习效率和很好的识别效果;将深度信念网络应用于轴承的故障识别[14];运用DBN模型,将环境和气象数据编码,对特定区域进行PM2.5的检测等[15]。因此,基于现有的岩石图像处理和深度信念网络的研究成果,针对岩石图像的孔隙提取问题,结合传统的图像处理技术,尝试采用DBN模型进行特征提取。该方法不仅在理论层面上具有可行性,在具体应用中也具有现实意义。拟定技术路线如图4所示。

分析应用步骤如下:(1)将岩石薄片图像转换为CIE lab彩色空间;(2)采用图像分割技术将预处理后的图像分割为目标和背景两类;(3)在目标和背景中各选取10组特征向量,提取特征;(4)随机选取部分特征向量送入DBN模型中进行训练;(5)选取500组256×256的图像,将分割后的图像整幅送入训练好的神经网络中,运用训练好的网络进行岩石孔隙的识别。

3 卷积神经网络及其在岩石图像处理中的应用

卷积神经网络(CNN-Convolutional Neural Networks)[16,17]是第一个真正成功实现多层网络结构的学习算法。它提高普通前向BP算法训练性能的方式是利用空间关系减少需要学习的参数数目。其权值共享网络结构与生物神经网络类似,网络模型的复杂度在一定程度上得到了降低,并且权值数量也有所减少。该优势集中体现在网络的输入是多维图像时,能够直接将图像作为网络输入,避免了传统识别算法中复杂的特征提取和数据重建过程。

在卷积神经网络中,输入图像特征图的产生是由输入图像本身与卷积滤波器进行卷积得到的,再提取图像中的局部特征。图6中的C1层(采样层)即为经过滤波和加偏置操作后得到的特征映射图,之后再进行像素求和、加权等操作产生S2层(亚采样层)的特征映射图。依次进行操作,最后将得到的多个特征映射转化成特征向量,以完全连接的方式输出。CNN的训练算法与传统的BP算法类似,主要有向前传播和向后传播两个阶段:第一阶段主要是从样本集中选取样本输入网络中,并计算实际的输出结果:第二阶段相当于调整阶段,用极小化误差法反向传播来调整矩阵权值,目的是缩小实际输出与理想输出的差。

卷积神经网络的主要优势为:(1)输入图像和网络的拓扑结构有较高吻合度;(2)特征提取和模式分类能够同时进行并在训练中产生;(3)权重共享减少了网络的训练参数,使神经网络结构具有更强的适应性。鉴于卷积神经网络的特点,已有基于CNN的各类具体应用:有学者提出了一种基于卷积神经网络的视频图像失真检测及分类方法[18],在目前的大数据背景下,采用卷积神经网络对高分辨率遥感影像进行分类[19],提高了分类精度;还有将卷积神经网络应用到植物叶片、商品图像、奶牛个体等分类中[20,21,22]。岩石图像数据集较大,内部结构复杂,借鉴现有的研究成果,采用卷积神经网络根据岩石之间的不同属性对岩石图像进行分类。

基于CNN的岩石薄片图像分类方法如下:(1)输入层。当原始图像不是灰度图像时,首先进行灰度化;(2)C1层。C1层是一个特征提取层,获得二维特征图,卷积得到的结果先经过激活函数(一般采用Sigmoid函数)y=Sigmoid(wx+b)进行计算,再将计算所得作为特征值赋予C1层的某个神经元。运算中x为图像子块,w为卷积核,b为偏置项,y为输出;(3)S1层。S1层是子采样层,子采样的计算过程为y=Sigmoid[w·suxmi∈x(xi)+b];(4)C2层。C2也是一个特征提取层,感受进一步扩大,其将S1中的特征图进行组合输入再作卷积得到,相当于将原始图像翻倍;(5)剩余卷积层与子采样层。所提取的特征随着深度的增加更加抽象;(6)输出层。输出层与S3是全连接,每个神经元都与输出的一个神经元相连。S3到输出层的映射相当于使用该向量进行分类。

4 结语

本文在当下热门的深度学习的环境背景下,重点介绍了深度学习的基本模型。从岩石图像处理的角度出发,针对传统岩石图像处理存在的问题,将深度学习中的特征和分类器结合在一起,根据数据学习特征,提出了基于DBN的岩石孔隙识别方法和基于CNN的岩石图像分类方法。分别介绍了两种模型的基本结构,拟定了岩石图像处理的技术路线及框架。在参考了诸多应用实例后,通过分析,证明了本文提出的方法在具体应用中的可行性和可操作性。深度学习能够更好地表示数据特征,并在大规模训练数据上取得更好的效果,减少了手工设计特征的巨大工作量,使用起来也非常方便。

摘要:近年来,机器学习领域中的“深度学习”开始受到国内外学者的广泛关注。借助深度学习,具有多处理层结构的计算机模型可通过多层抽象来学习数据表征。这些方法推动了语音识别、视觉识别、目标检测以及许多其它领域的技术发展。深度学习被应用到计算机视觉、语音识别、自然语言处理、在线广告等领域,并取得了良好效果。将计算机技术与地质勘探相结合,在岩石处理方面已取得了不少成果,不断有新的或者改进方法用于提高处理效率和改善效果,以更好地投入到实际生产中去。针对目前传统的岩石薄片图像处理方法,试图将深度学习中典型的两类算法模型:深度信念网络(Deep Belief Networks,DBNs)、卷积神经网络(Convolutional Neural Networks,CNNs)引入到岩石图像的处理中,分析算法在操作中的可行性及优势。

上一篇:工作体系设计下一篇:质量保障路径