头部姿态估计(通用3篇)
头部姿态估计 篇1
摘要:我们提出一种监督Laplacian LLE算法, 并结合正则化的最小二乘方法来有效地解决头部姿态估计问题, 比传统的流形学习算法能更有效的保持数据的局部几何结构, 并且能获得显式的直接映射来处理样本外扩展问题。在FacePix数据集的头部姿态估计实验结果表明, 我们的算法是有效的, 对于训练数据和测试数据, 我们提出的算法的性能明显高于其他对比算法的性能。
关键词:流形学习,拉普拉斯特征映射,局部线性嵌入,头部姿态估计
人脸识别一直以来都是计算机视觉和模式识别研究中的热点问题, 作为生物特征识别的关键技术之一, 其特定条件下的人脸识别取得了很大的进展, 但头部姿态变化是其中的瓶颈。为了实现对不同头部转动姿态的人脸识别, 估计人脸头部姿态因而具有重要的研究意义和实用价值。流形学习自从2000被提出以来, 到现在已经有众多的方法用来解决人脸识别, 姿态估计还有维数约简等方面的实际问题。流形学习理论假设数据是采样于一个高维欧氏空间中的低维流形上, 并从高维观测数据中发现并找到潜在的低维流形结构, 并构造高维空间到低维空间嵌入的非线性映射或者线性映射, 以实现维数约简或数据可视化。目前提出的流行学习方法中比较有影响力的, 包括等距特征映射算法 (ISOMAP) 、局部线性嵌入算法 (LLE) 、拉普拉斯特征映射算法 (LE) 等。而具有头部转动姿态的人脸图像很自然地看成一个具有特定低维流形结构的高维空间, 因此采用流形学习进行人脸头像的头部姿态估计获得了比较大的关注, 比如Balasubramanian等人将流形嵌入扩展到监督学习领域并进行头部姿态估计;BenAbdelkader等人提出了监督流形学习框架用于头部姿态估计的方法。
本论文融合LE和LLE算法, 提出监督Laplacian LLE流形学习算法, 针对传统流形学习算法无法获得直接的显式映射的问题, 提出用正则化最小二乘来学习直接的显式映射。而且实验验证了我们算法比对比的算法能更加有效地的提高头部姿态估计的准确率。
一、基于监督的Laplacian LLE流形学习算法
如果存在一组具有嵌入头部姿态流形的数据集, 观测空间中的每个样本点被假定是其邻域内的近邻数据点的加权组合, 同时针对数据集的局部近邻关系, 数据集的头部姿态样本近邻需要得到保持, 因此融合LLE和LE的算法思想, 提出Laplacian LLE算法, 如下:
Step 1:给定数据集其中为样本总数, 是的类别标记, 搜索数据集中每个的个最近邻;
Step 2:定义, 考虑约束, 按照最小方差准则求解用于LLE项的权矩阵。
Step 3:定义局部近邻的高斯核权值用于LE项:- (47) xi-xj (47) 2
Step 4:定义Laplacian LLE的目标函数:
其中Ù*=a r g mÙi nφ () 。考虑约束。式 (2) 可重写为求解Y (M+λL) YT, 的最小化问题。Y*的最优解是求矩阵 (M+λL) 的一组最小本征向量。由约束可知, 本征值为零时, 需要去除, 此时数据集会坍缩至一个点。因此获得的低维方法是计算矩阵 (M+λL) 的最小 (l+1) 个本征向量, 并舍弃 (l+1) 中的最小本征值对应的本征向量。
上述提出的Laplacian LLE算法能够探索和保持数据集本身具有的特定的局部几何结构, 对于监督学习来说, 要加入监督的类别标签信息来进一步提高头部姿态估计准确率。根据SML框架的原理, 加入, 用于监督学习问题中, 其中,
因此监督Laplacian LLE算法描述如下:
上式可推导为:YT MY+λYT LY+αYT LΛY, 其中, 。此外, 针对欧式空间的距离度量仅仅定义为样本之间的欧式距离, 由于噪声和冗余信息等因素会造成欧式距离近邻的点并非真正的同类别近邻, 我们加入一个偏差系数来引导欧式距离近邻项同类别近邻靠近, 根据BME[5]的思想, 我们对确定局部K近邻的欧式距离加入一个系数, , 其中, 表示样本之间的类别标记距离, β都为控制参数。这样局部K近邻Nk的距离定义为, 其中D (i, j) 为欧式空间度量。
监督Laplacian LLE嵌入能生成一个仅仅定义在训练数据样本上的低维嵌入, 但是监督分类来说则需要个一个显式的映射f能很好的处理样本外扩展 (outof-sample extension) 。考虑一个线性映射, 我们通过线性变换y=aT x来获得映射f, 这是线性流形学习采用的方法, 如LPP等。实际上, 这个线性映射可能并不存在。因此我们把我们的算法分为两步, 第一步使用监督Laplacian LLE求得低维嵌入, 第二步则可以采用Tikhonov正则化来拟合从高维输入数据到低维嵌入数据:
特别注i意此处的是样本的低维嵌入而不是样本类别标记。 (5) 式可以推导为一个闭式解=, a (XXT+γI) -1Xy, 那么线性映射矩阵A则由d个解向量1a, a2, ..., ad构成。很自然地, 通过 (5) 式获得的直接的显式线性映射f能够充分处理样本外扩展, 同时考虑到训练数据的映射到的低维子空间和测试数据的低维映射子空间的一致性, 我们把训练数据和测试数据使用线性映射都投影至同一低维子空间, 然后再低维子空间的K近邻分类算法则能充分有效的进行头部姿态估计。
二、实验
实验部分主要采用FacePix数据集, 示例如Fig.1。FacePix数据集包含30个主题, 每个主题包含181幅图像, 姿态转动角度为[-90, +90]。我们实验使用15个主题, 并且使用留一法 (leave-out-one) 进行验证, 即最后一个主题作为测试其余作为训练。
Table 1显示了我们的算法与LE+RLS、LLE+RLS的在不同的头部姿态采样率下的头部姿态估计MAE比较, 显示我们的算法更稳定并且其MAE (Mean Absolute Error用来评价估计的头部姿态与真实姿态的绝对偏差) 值更低更加有效。Fig.2显示了我们的算法与LE+RLS和LLE+RLS算法在不同的嵌入维数下的MAE的比较, 结果同样显示在不同的嵌入维数下我们的算法更加鲁棒有效。因此我们提出的S-Laplacian LLE算法有效的提高了头部姿态估计的准确率。
三、结论
我们提出了一种两步 (two-step) 的监督Laplacian LLE流形学习方法, 用于头部姿态估计问题, 采用监督Laplacian LLE流形嵌入和正则化最小二乘方法结合来有效的处理地维嵌入和样本外扩展问题, 实验结果显示我们的算法有效地提高的头部姿态的准确率。
参考文献
[1]M.E and Trivedi, M.M, Head pose estimation in computer vision:A survey, in:PAMI, 31, 2009, pp.607-626.
[2]J.Tenenbaum, V.Silva, and J.Langford, A global geometric framework for nonlinear dimensionality reduction, in:Science, 290, 2000, pp.2319-2323.
[3]K.S.Lawrence and T.R.Sam, Think globally, fit locally:unsupervised learning of low dimensional manifolds, in:Journal of Machine Learning Research, 4, 2003, pp.119-155.
[4]M.Belkin and P.Niyogi, Laplacian eigenmaps for dimensionality reduction and data representation, in:Journal of Neural Computation, 15, 2003, 1373-1396.
[5]V.N.Balasubramanian, J.Ye, and S.Panchanathan, Biased manifold embedding:a framework for person-independent head pose estimation, in:CVPR, 2007.
[6]C.BenAbdelkader, Robust Head Pose Estimation Using Supervised Manifold Learning, in:ECCV, 2010, Part VI, LNCS6316, 518-531.
[7]X.Heand P.Niyogi, Locality preserving projections, in:NIPS, 16, 2004, 100-200.
头部姿态估计 篇2
基于地磁场测量估计卫星姿态的UKF算法
提出了利用UKF(Unscented Kalman Filter)处理地磁场测量数据进行低轨道(LEO)卫星自主定姿的算法.通过使用估计姿态、轨道参数和国际地磁场参考(IGRF)计算得到的地磁矢量与三轴磁强计(TAM)的测量矢量之差作为更新信息,可以实现实时的姿态角和角速度估计.针对卫星稳态定姿、大角度快速机动的定姿以及姿态失控状态下的.定姿等三种任务,分别用UKF和传统的EKF(Extended Kalman Filter)进行了数值仿真.仿真结果显示出本文提出的定姿算法的优越性.
作 者:朱建丰 徐世杰 ZHU Jian-feng XU Shi-jie 作者单位:北京航空航天大学,宇航学院504教研室,北京,100083刊 名:宇航学报 ISTIC PKU英文刊名:JOURNAL OF ASTRONAUTICS年,卷(期):27(6)分类号:V412.4关键词:姿态确定 UKF 磁强计
基于核主元分析的头部姿势估计 篇3
人机交互是计算机科学研究的一个重要领域。作为一种新的计算机输入方式,人眼视线方向跟踪已引起众多研究人员的关注。估计头部姿势是检测视线方向的前提,因此成为国内外研究的热点。另外还可以根据头部姿势预测驾驶员的注意力集中情况,所以头部姿势估计还可以作为驾驶辅助系统的一部分。
现有头部姿势估计方法可以分为两类[1]:
1)基于形状的几何分析法:给定一个参考图像,然后根据人脸相对运动时,图像尺寸缩放、平移、旋转来复原3D头部姿势[2,3]。通常根据5个特征点的相对位置来计算姿势角度,5个特征点分别是4个眼角点与鼻尖。另外Braathen[4]提出利用多粒子过滤器来跟踪这5个特征点,再利用它们间的几何关系来估计头部姿势。也有根据图像差分与人脸大体呈椭圆形的特点来估计头部姿势[4]。此类方法的特点是需要定位人脸的特征点,人脸特征点的定位精度对估计结果影响很大,然而在不同姿势的人脸图像中定位特征点本身就是个很困难的问题,并且人脸表情发生变化时会影响人脸特征点的相对位置也会影响估计精度。
2)基于外观的方法:认为姿势估计是个模式分类问题,把不同姿势的人脸图像看作不同的模式。主要应用统计学习的方法进行分类。如PCA、支持向量分类法(SVC)[5]、多视角特征空间[6]。最佳Gabor过滤器特征空间[7]。此类方法的缺点是对图像排列要求较高,并且对背景与图像尺寸比较敏感。也有人提出应用小波神经网络的方法来估计头部姿势[8]。这种方法的缺陷是需要所有用到的人脸特征点必须可视,因此不能估计较大范围内的头部姿势变化。
根据最新研究,不同姿势的高维人脸图像,存在一低维流形结构[9,10]。应用非线性降维的方法可以把这种潜在的流形结构嵌入到低维空间,实现高维数据的可视化。KPCA(核主元分析)是PCA(主元分析)的改进算法,是一种非线性降维的方法。据此提出应用KPCA把高维空间中不同姿势人脸图像的流形结构嵌入到低维空间,然后应用插值方法估计新图像姿势角度的方法。
2 KPCA基本理论
核主元分析(KPCA)的思想就是通过引入一个非线性变换Φ,把每一个样本向量Xk由输入空间Rn映射到一个高维空间Rf,使在输入空间无法线性分类的数据变换到线性可分的高维空间Rf。然后在高维空间Rf中利用PCA进行特征提取[11]。
2.1 PCA
给定一组样本数据Xk,k=,1,M,Xk∈Rn且满足∑Mk=1Xk=0。
则样本数据的协方差矩阵、特征值为
其中:λ≥0为特征值,v∈Rn为相应的特征向量。
又因为jkjkXv),(),(Xv XXT=,其中(Xk,v)表示两个向量的内积,所以:
可见,所有对应特征值λ≠0的特征向量,都位于由样本向量x1,x2,…,xM所张成的空间spn{x1,x2,…xM}。所以式(2)等价于:
2.2 KPCA
核主元分析中引入一个非线性变换Φ将输入空间Rn的每个样本向量Xk投影到一个高维特征空间Rf中[12],即:
空间Rf的维数f高于n,甚至可以是无限维。在特征空间Rf中,假定:
则协方差矩阵、特征值为
同样,在特征空间F中,对于任一特征值λ≠0所对应的特征向量v都位于由Φ(X1)Φ(XM)张成的空间,因此存在系数αi(i=1,…,M),有:
同理:λ(Φ(Xk)⋅W)=(Φ(Xk)⋅CW),k=1,,M(11)
综合式(10)、式(11)得:
定义一个M×M矩阵K,其元素为
则式(12)变为
其中α代表列向量α=[α1…αM]T。
令表示矩阵K的特征值,其相应的特征向量可表示为α1,,αM,αi=[αi1,αi M]T,i=,1,M,并记为第一个非零特征值。下面对αp,,αM进行标准化处理使之满足式(15):
将式(10)代入,上式转化为
所以αp,,αM,只要满足式(16)就可得到协方差知阵C的一组正交归一化的特征向量集。为了提取主元,只需在特征空间Rf中,计算向量在特征向量Wk(k=p,…,M)上的投影。假定X为一输入样本,则在特征空间中的映射为Φ(X),其在特征向量w上的投影为
由上式可知通过引入核函数的方法,在高维空间实际上只需进行内积运算,而这种内积运算是可以用原空间中的函数实现的,从而避免了在Rf中进行非线性变换的不便。
3 基于KPCA头部姿势估计
根据流形学习理论,不同姿势的高维人脸图像,具有一个潜在的低维流形结构[9,10]。应用KPCA的方法可以把这种潜在流形结构嵌入到低维空间,实现高维数据的可视化。
3.1 建立姿势曲线
由于人们不能直接感知高于三维的数据集,在此把高维人脸图像嵌入到三维空间。假设有M个训练样本,每个样本对应的角度已知。通过映射Φ把这些样本映射到高维特征空间F,其中3个最大特征值为A1、A2、A3,它们对应的特征向量分别为X、Y、Z。选择核函数,利用核主元分析的方法计算每个样本分别在X、Y、Z上的投影值x、y、z。并把(x,y,z)看作三维空间的点,依次连接这M个点即得姿势曲线。
3.2 姿势估计
对于一幅新图像T,同样计算其在三分量上的投影值,得到新坐标点(x′,y′,z′)。然后根据最近点估计该点对应的角度或根据几个临近点用三维插值的方法估计该点对应的角度。
4 实验
由于头部旋转角度不易精确测量,而摄像机旋转角度容易直接标定,因此根据相对运动的原理,采取人不动而旋转摄像机的方法来制定样本。如图所示,在以测试人员为圆心的半圆周上旋转摄像机,每隔5°摄取一幅图像,共得到37幅人脸图像,其中0°时摄取的图像为正面人脸图像,如图1。
裁剪所获得图像,并归一化为80×80的头部图像。选择多项式核函数:k(xi,xj)=[a(xi,xj)+b]d其中:(xi,xj)表示内积,并选择常数a=1,b=1,d=2。随机选择其中的30(20)幅进行训练,建立姿势估计曲线如图2。对其余7(17)幅图像进行投影获得坐标值,根据临近点进行插值求其对应的角度。
用相同方法估计其他4个测试人员头部姿势。角度估计平均偏差值(误差绝对值)如表1。
从表1可以看出角度估计偏差大体在5°左右,随着训练样本数目的增加估计偏差值有一定的缩小。为提高估计精度可以适当增加训练样本数目,为得到更多样本在采取样本时可以每隔1°摄取一副人脸图像。
5 结论
通过引入KPCA非线性降维算法,把不同姿势人脸图像潜在的流形结构嵌入到3维空间实现高维数据的可视化。训练姿势估计曲线,利用相同算法把新图像投影到三维空间,根据新投影点的临近点进行插值计算姿势角度。由于未利用具体人脸特征点的位置关系,因此本方法对人脸表情的变化有一定的鲁棒性。估计偏差在5°左右,可以满足一定的实际需要,并给出一种提高估计精度的途径。
参考文献
[1]Zhu Youding,Fujimura Kikuo.Head Pose Estimation for Driver Monitoring[C]//IEEE Intelligent Vehicle Symposium.Parma:IEEE,2004:501-506.
[2]王珂,尹宝才,王雁来.人脸特征跟踪和头部姿势估计[J].北京工业大学学报,2005,31(2):220-224.WANG Ke,YIN Bao-cai,WANG Yan-lai.Face Feature Tracking and the Head Pose Estimating[J].Journal of Beijing University of Technology,2005,31(2):220-224.
[3]毋立芳,张斯聪,赵晓晴,等.一种人脸姿势估计新方法[J].信号处理,2006,22(1):61-64.WU Li-fang,ZHANG Si-cong,ZHAO Xiao-qing,et al.A new method for face pose estimation[J].Signal Processing,2006,22(1):61-64.
[4]Wu Junwen,Trivedi Mohan M.A two-stage head pose estimation framework and evaluation[J].Pattern Recognition,2008,41(3):1138-1158.
[5]Li Y,Gong S,Liddell H.Support vector regression and classification based multi-view face detection and recognition[C]//IEEE International Conference on Automatic Face and Gesture Recognition.New Jersey:IEEE,2000:300-305.
[6]Srinivasan S,Boyer K L.Head pose estimation using view based eigenspaces[C]//Proceedings of the16th International Conference on Pattern Recognition.Quebec City:IEEE,2002:302-305.
[7]Wei Y,Fradet L,Tan T.Head pose estimation using gabor eigenspace modeling[C]//the IEEE International Conference on Image Processing.New Jersey:IEEE,2002:281-284.
[8]Kruger V,Sommer G.Efficient head pose estimation with gabor wavelet networks[C]//the11th British Machine Vision Conference.Bristol:Elsevier,2000:1-10.
[9]Yun Fu,Thomas S.Huang Graph.Embedded Analysis for Head Pose Estimation[C]//the7th International Conference on Automatic Face and Gesture Recognition.Southampton:Elsevier,2006:3-8.
[10]Hu Nan,Huang Weimin,Ranganath Surendra.Head Pose Estimation by Non-linear Embedding and Mapping[C]//IEEE International Conference on Image Processing.New Jersey:IEEE,2005:342-345.
[11]黄国宏,邵惠鹤.核主元分析及其在人脸识别中的应用[J].计算机工程,2004,30(13):13-14.HUANG Guo-hong,SHAO Hui-he.Kernel Principal Component Analysis and Application in Face Recognition[J].Computer Engineering,2004,30(13):13-14.