融合识别

2024-10-04

融合识别（共8篇）

融合识别篇1

随着科技的发展, 社会的进步, 身份验证的要求也日益迫切, 包括指纹识别、人脸识别、虹膜识别等。人脸识别已经取得了可喜的研究成果, 但在实际应用中存在很多的困难:人脸是非刚体, 存在表情变化会对人脸识别造成影响。

人耳特征与其他的生物特征一样是每个人与生俱来的, 为人的内在属性, 具有较高的稳定性及个体差异性。而人耳特征与其他生物特征不同的是, 他具有普遍性、可采集性和不可伪造性等特点。人耳有着可靠、稳定和丰富的生理特征, 并且人耳作为一种生物特征, 具有独特的优点:人耳不受表情、化妆的影响;不易受伤, 不受耳环、眼镜架等的影响;比人脸具有更一致的颜色分布;人耳表面更小, 信息存储和处理量更少[1,2]。人耳识别作为一种新的人体特征识别技术正引起人们的关注。Zernike矩方法提取具有旋转不变性的人耳几何特征, 具有稳定性强, 有利于分类识别, 但是当人耳图像受到其他因素如光照的影响时, 这种识别率就会降低。改进的非负矩阵分解是将线性判别融入到传统的非负矩阵分解方法中, 通过最大化样本类间差异, 最小化样本类内差异, 提取具有判别能力的低维人耳特征。在此将这两种具有互补性的特征串行融合, 得到一个分类能力更强的特征。

1 Zernike矩方法特征提取

Zernike矩是一种正交复数矩, 它利用的正交集是一个在单位圆内的正交集

设二维离散图像函数用f (x, y) 表示, n+m阶Zernike不变矩表示为:

$A_{n m} = \frac{n + 1}{π} \iint_{x^{2} + y^{2} \leq 1} f (x, y) [V_{n m} (x, y)] d x d y (1)$

实质上, 它是一种映射, 将图像函数变换到一组正交基函数上。图像f (x, y) 的Zernike矩是该图像在一组正交多项式Vnm (x, y) 上的投影。所谓的正交是指Vnm (x, y) 在单位圆内x2+y2≤1满足下列条件:

$\begin{array}{l} \iint_{x^{2} + y^{2} \leq 1} [V_{n m} (x, y)] V_{p q} (x, y) d x d y = \\ {\begin{cases} π / (n + 1), n = p, m = q \\ 0, n \neq p, m \neq q \end{cases} \end{array}$

式中:Vnm (x, y) =Rnm (x, y) ejmθ, n是正整数或零, m是正或负整数, 且满足 $n - | m |$ 为偶数;Rnm (x, y) 是径向多项式:

$\begin{array}{l} R_{n m} (x, y) = \\ \sum_{s = 0}^{(n - | m |) / 2} \frac{(- 1)^{s} (n - s)! (x^{2} + y^{2})^{(\frac{n}{2} - s)}}{s! [(n + | m |) / 2 - s]! [(n + | m |) / 2 - s]!} (2) \end{array}$

假设f (r, θ) 是图像目标在极坐标下的函数表示, 相应的傅氏级数形式为:

$f (r, θ) = \sum_{n = - \infty}^{\infty} f_{n} (r) e^{j n θ} = \sum_{n = - \infty}^{\infty} f_{n} (r, θ) (3)$

式中:

$\begin{array}{l} f_{n} (r) = \frac{1}{2 π} \int_{0}^{2 π} f (r, θ) e^{- j n θ} d θ \\ f_{n} (r, θ) = f_{n} (r) e^{j n θ} \end{array} (4)$

这样Zernike矩变为:

$A_{n m} = \frac{n + 1}{n} \int_{0}^{2 π} \int_{0}^{1} f (r, θ) V_{n m}^{*} (r, θ) d r d θ (5)$

离散形式为:

$A_{n m} = \frac{n + 1}{π} \sum_{x} \sum_{y} f (x, y) V_{n m}^{*} (r, θ)$

式中:V*nm是Vnm的共轭;x2+y2≤1, Vnm (r, θ) =Rnm (r) ejmθ。由于Zermike矩的定义中引入了完全正交基的基函数集, 取代了原点矩定义中的非正交基函数集, 因此在理论上Zermike矩比原点矩具有更好的数学性质[3,4]。

对人耳图像进行大小调整后, 求取Zermike矩的幅值作为特征, 具有稳定性强, 有利于分类识别。但是当人耳图像受到其他因素, 如光照的影响时, 这种识别能力就会大大降低。对Carreira-Perpinan建立的人耳图像库进行人耳Zernike矩特征提取:

(1) 读入人耳图像, 将图像坐标原点移至图像中心;

(2) 将图像像素的坐标映射到单位圆内, 落于单位圆外的像素不予考虑;

(3) 调用zernlpol函数, 计算Zernike矩值;

(4) 根据步骤 (3) 提取人耳特征。

其中, n的变化计算出图像不同阶的Zernike矩, 在n确定的情况下, m的变化计算出m阶的各个Zernike矩值。本实验中取n=6, 不考虑m<0的情况。这些矩值可以看成是具体图像的Zernike矩特征, 把计算出的Zernike矩的各阶矩值按n递增的次序并且在n确定的情况下按m递增的次序排列:Z= (z1, z2, …, zi, …) 。求取Zernike矩幅值作为特征, 得到一个15维的人耳矩特征向量。

2 改进的NMF特征提取

2.1 改进的NMF方法

利用传统的NMF[8,9]方法可以得到好的识别效果, 但是当图像受外在因素的影响时, NMF的识别率会降低。线性判别分析是一种常用的子空间分析方法, 通过最大化样本类间差异, 最小化样本类内差异, 提取最具有判别能力的低维特征, 对光照等都不太敏感。本文介绍了一种改进的NNF算法:将线性判别分析的思想融入到NMF算法中, 对NMF进行改进。根据NMF算法计算基图像;将原始的人耳图像向NMF基图像做投影, 在投影子空间上进行线性判别分析[5]。

设矩阵V是由n幅人耳图像V1, V1, …, Vn构成的训练集, 对其进行NMF分解, 得到由r个基图像构成的子空间W=[W1, W2, …, Wr]。为了提高分类精度, 从r个基图像中选择主要反映类间差异的基图像来构造新的子空间:

$J = \max [V a r_{i n t e r} (W_{i}) / V a r_{i n t r a} (W_{i})] (6)$

令c为所有样本可分的类数;ck为属于第k类的样本数;μk为第k类样本的平均向量;μ为所有样本的平均向量; $\tilde{S}$ W为第i个基图像的一维投影子空间所对应的类内散布矩阵; $\tilde{S}$ B为第i个基图像的一维投影子空间所对应的类间散布矩阵。式 (6) 中的Varinter (Wi) 为第i个基图像Wi所代表的类间差异:

$\begin{array}{l} V a r_{i n t e r} (W_{i}) = \det (\tilde{S}_{B}) = \det [\sum_{k = 1}^{c} (\tilde{μ}_{k} - μ) (\tilde{μ}_{k} - μ)^{Τ}] ‚ \\ \tilde{μ}_{k} = W_{i}^{Τ} μ_{k} ‚ \tilde{μ}_{k} = W_{i}^{Τ} μ (7) \\ V a r_{i n t r a} (W_{i}) = \det (\tilde{S}_{W}) = \\ \det \sum_{i = 1}^{c} \sum_{t \in c_{k}} [(\tilde{V}_{t} - \tilde{μ}_{k}) (\tilde{V}_{t} - \tilde{μ}_{k})^{Τ}] (8) \\ \tilde{V}_{t} = W_{i}^{Τ} V_{t} ‚ \tilde{μ}_{k} = W_{i}^{Τ} μ_{k} \end{array}$

根据式 (8) 进行基图像选择时, 保留了主要反映类间差异的基图像来构造子空间, 从而能够压制图像之间的与识别信息无关的差异, 能够得到具有判别力的局部特征。

改进的NMF特征提取的算法如下:

(1) 对矩阵V进行NMF分解, 得到r个基图像。

(2) 根据式 (7) 和式 (8) 计算Varinter (Wi) 和Varintra (Wi) ;

(3) 根据式 (6) 从r个基图像中选取p个主要反映类间差异的基图像来构造子空间W;

(4) 将测试图像向子空间W投影进行特征提取。

2.2 改进的NMF方法进行人耳特征提取

改进的NMF算法对人耳进行特征提取:

(1) 随机初始化非负矩阵矩阵W, H;

(2) 更新W和H直到收敛:

$\begin{array}{l} W_{i a} \leftarrow W_{i a} \sum_{μ} (V_{i μ} / (W Η)_{i μ}) Η_{a μ} \\ W_{i a} \leftarrow W_{i a} / \sum_{j} W_{j a} \\ Η_{a μ} \leftarrow Η_{a μ} \sum_{i} W_{i a} V_{i μ} / (W Η)_{i μ} \end{array}$

(3) 计算人耳子空间r个基向量:

$h_{i} = W^{- 1} (x_{i} - \bar{x})$

(4) 根据式 (7) 和式 (8) 计算Varintra (Wi) 和Varinter (Wi) ;

(5) 根据式 (6) 从计算r个基图像选取p个主要反应类间差异的基图像来构造子空间W;

(6) 将测试图像向子空间W做投影, 计算人耳特征。

训练图像和训练子集如图1, 图2所示。从表1可以看出, 当训练和测试人耳图像的角度差别不大时 (子集2) , 这两种方法均取得了较高的识别率, 都达到80%以上;当训练图像和测试图像的角度差别较大时 (子集1) , 识别率最高的是改进的NMF算法, 虽然这两种方法的识别率都有降低, 可是改进的NMF算法降低4.8%, 传统NMF降低30%。改进的NMF对角度的改变有较好的鲁棒性。

将人耳图像在子空间的16维投影系数作为人耳的特征。经改进的NMF变换后的提取的特征耳如图3所示。

3 实验结果

实验采用了Carreira-Perpinan建立的人耳图像库 (如图3所示的部分人耳图像) , 该图像包括17人, 每人6幅, 共102幅人耳图像, 由于该人耳图像库中的所有图像已经经过剪裁和旋转, 长宽比例为1∶6 (这是由人耳的结构特点决定的, 人耳长宽比例均值大致在1∶6附近) , 并进行了亮化处理, 因此图像较理想, 在此不在进行图像的预处理。该实验在Matlab 7.1环境下进行。

将Zernike矩提取具有旋转不变性的人耳几何特征和改进的非负矩阵分解提取具有判别能力的低维人耳特征串性融合, 得到一个分类能力更强的特征。采用BP神经网络分类器进行分类, 结果如表2所示。实验结果表明利用融合特征方法可以提高人耳识别率。

4 结语

本文介绍了一种融合特征方法用于人耳识别, 该方法结合Zernike矩和NMF的优缺点, 得到一个分类能力更强的人耳特征, 提高了分类识别率。

摘要：分析Zernike矩人耳特征提取和非负矩阵分解 (NMF) 人耳特征提取的利弊。将线性判别分析的思想融入到NMF算法中, 对传统的NMF方法进行改进。介绍一种融合特征人耳识别方法:将Zernike矩和传统非负矩阵分解融合提取人耳特征, 得到一个分类能力更强的人耳特征矩阵, 并采用BP神经网络进行分类识别, 实验结果表明, 应用融合特征方法提取人耳图像特征, 可以提高识别效果。

关键词：人耳识别,特征融合,Zernike矩,BP神经网络,非负矩阵分解

参考文献

[1]Hanna-Kaisa Lammi.Ear Biometrics[EB/OL].http://www.it.lut.fi/kurssit/03-04/010970000/seminars/Lammi.pdf.

[2]Burge M J, Burger W.Using Ear Biometrics for PassiveIdentification[A].Proceedings of 14th, International Informa-tion Security Conference[C].Vienna, Austria:Kluwer Academ-ic, 1998:139-148.

[3]Khotanzad A, Yaw HH.Invariant Image by Zernike Mo-ments[J].IEEE Trans.on PAMI, 1990, 12 (5) :489-497.

[4]刘茂福, 胡慧君, 何炎祥.主成分分析在图像Zernike矩特征降维中的应用[J].计算机应用, 2007, 27 (3) :696-700.

[5]张志伟, 夏克文, 杨帆, 等.一种改进NMF算法及其在人脸识别中的应用[J].光电工程, 2007, 34 (8) :121-126.

[6]魏海坤.神经网络结构设计的理论与方法[M].北京:国防工业出版社, 2005.

[7]曾黄麟.智能计算[M].重庆:重庆大学出版社, 2004.

[8]Paatero P, Tapper U.Positive Matrix Factorization:A Non-neg-ative Factor Model with Optimal Utilization of Error Estimatesof Data Values[J].Environmetrics, 1994 (5) :111-126.

[9]Lee D D, Seung H S.Learning the Parts of Objects by Non-negative Matrix Factorization[J].Nature, 1999, 401 (6 755) :788-791.

[10]张兆礼, 赵春晖, 梅晓丹.现代图像处理技术及Matlab实现[M].北京:人民邮电出版社, 2001.

[11]张伟伟, 夏利民.基于多特征融合和Bagging神经网络的人耳识别[J].计算机应用, 207, 26 (8) :1 870-1 872.

融合识别篇2

决策模板法在决策层融合目标识别中的应用和改进

决策模板法是一种简单直观的决策层融合识别算法,但是经典的决策模板法没有充分利用各传感器对于不同类目标鉴别能力的`先验信息.本文提出利用传感器平均度量熵对决策模板法进行修正,合理度量各个传感器对不同类目标的分类鉴别能力,仿真结果表明改进的决策模板法能提高目标正确识别率.

作者：张翼朱玉鹏付耀文王宏强黎湘 ZHANG Yi ZHU Yu-peng FU Yao-wen WANG Hong-qiang LI Xiang 作者单位：国防科技大学电子科学与工程学院ATR重点实验室,湖南,长沙,410073刊名：电光与控制 ISTIC PKU英文刊名：ELECTRONICS OPTICS & CONTROL年，卷(期)：12(6)分类号：V274.1 TP212关键词：决策层融合目标识别决策模板熵

基于多特征融合的人体行为识别篇3

人体行为识别在智能视频监控、人机交互、视频检索、运动分析、医疗诊断和监护等领域具有广阔的应用前景，已经成为计算机视觉领域备受关注的前沿研究课题。目前，基于视觉的人体行为特征的描述方法主要包括[1]:基于模板匹配的方法，该方法通过对视频序列中检测到的人体形状建立起一组与特定运动相对应的人体形状序列，而后采用模板匹配的方法对行为进行识别。该方法实时性好，能够识别简单行为，但要求提取出的人体前景较为精确[2];基于光流的方法，该方法仅仅依靠连续帧的相对运动，不受复杂背景的影响，但计算量大，而且不够鲁棒;Fathi等[3]提出了结合底层整体光流特征和中层局部光流特征对视频中的运动区域进行整体描述，该方法在相对单一的背景下取得较高的识别率，但是仅仅依靠光流信息仍不足以对运动特征进行描述;基于兴趣点的方法，该方法通过提取兴趣点，并对兴趣点周围局部区域进行描述。兴趣点是对显著区域的稀疏采样，其计算和存储代价较小。该方法的缺点是未能解决动态背景干扰问题。Yuan等[4]利用三维Harris检测器对动作视频中兴趣点进行提取，在此基础上对动作进行时空表征，进而实现动作识别。Zhang和Liu[5]用量化的局部SIFT特征实现人体行为的描述;基于语义描述的方法，它将场景中人的活动情况用填空的形式填入语法格式中，产生对人体行为的理解的自然语言描述[6]，该方法能够识别子事件并行发生的行为，但容易受低级子事件所带来的错误的影响。

多特征融合是获得鲁棒性更强的特征描述有效方法。融合的多特征既可更准确地表征运动，也可减少信息冗余，在精度和效率上有较大优势。本文通过选取人体行为区分度较高的运动方向特征、形状特征和光流变化特征进行描述，提出了一种基于MOH特征、2D-Sift特征和HOOF特征相结合的人体行为识别方法。多个特征之间采用基于特征层面的融合方法进行多特征融合。

1 人体行为识别框架

视频序列中的人体行为是不断变化的，对于不同行为可能出现某两帧极其相像(如走路和跑步)，因此，视频序列中的人体行为识别需要将视频序列分割成若干卷，对每一卷进行判别。人体行为识别框架如图1所示。通过构造运动历史图MHI提取出基于MHI图运动方向直方图MOH的全局特征，并对人体运动区域提取基于光流方向直方图HOOF的局部特征和2D-SIFT局部特征。对一个时空卷中所提取的HOOF特征和2D-SIFT局部特征分别使用视觉词袋模型BOW进行降维。最终联合MOH全局特征通过支持向量机(SVM)进行识别。

1.1 目标分割

提取出完整前景目标是实现特征提取和特征描述的关键，是识别的基础。帧差法效率高且对复杂环境和光照具有较强的鲁棒性，但提取出的目标轮廓不完整易出现空洞，如图2(c)所示。而高斯背景建模方法对全身运动的行为(如:走路，跑步，跳跃)提取得较为完整，而对人体的局部动作(如:挥手，拳击)则很难提取前景，如图2(b)所示。为了克服二者的缺点，本文通过对帧差法与高斯背景建模的方法提取出的前景取并集，提取出较为完整的前景目标，如图2(d)所示。

图中，(a)是Weizmann数据库中jump,wave2的一帧，(b)是高斯背景建模法前景目标提取，(c)是帧差法前景目标提取，(d)是两种方法相结合的目标提取。

1.2 运动区域提取

像素变化比率图PCRM(Pixel Change Ratio Map)[7]能够大致估计视频片段中的运动信息，运动越剧烈而且持续的时间越长，在像素变化比率图中就会越亮，也就是值越大。本文利用2.1节中得到的前景图像Di构造像素变化比率图。首先根据式(1)求得当前帧与前后两帧的像素变化分布。然后根据式(2)获得PCRM图像。

其中L为视频帧数。最后根据PCRM图像，将图像分别在水平方向和垂直方向进行投影，根据投影的波谷的位置，估计出运动位置，如图3所示。图中，第1行分别为动作Walk,Jack,Slide,Skip的PCRM图，第2行分别为估计出的运动位置。

2 特征提取

2.1 MOH特征提取

运动历史图(MHI)是一张静态图像，能提供一些运动属性，比如运动方向等，构造方法如式(3)所示:

其中τ为时间窗的大小，在时间窗之外的帧将被忽略，D(x,y,t)表示第t帧时的前景图像，x,y是像素坐标，构造的MHI图如图4(a)所示。

在获得MHI图像后，对MHI图像上的每个点(x,y)，根据式(4)求得运动方向θ(x,y)。

将θ(x,y)量化为K个bins(本文取K=18)，根据式(4)分别统计出落入每个bin中的梯度方向个数，形成运动方向直方图F。然而当θ选0°～360°的有符号梯度方向空间时，运动方向相反的同一个行为(如向左跑和向右跑)如图4(a)、(b)，可能映射到的直方图相差K/2，如图4(c)、(d)所示。为了解决该问题，传统的方法是将相反方向的梯度映射到直方图的同一个方向，即转换到0°～180°的无符号梯度方向空间，但该方法容易导致两个不同的动作可能拥有相同的特征表示，因此无法区分一些不同的动作。受文献[8]提出的Ex Ho G特征的启发，本文根据式(6)至式(8)对运动梯度方向直方图F作出了改进。

式中，根据将F(k)分为正梯度空间和负梯度空间两部分，为正梯度空间和负梯度空间对应bin的值相加的绝对值，Fdiff(k)为正梯度空间和负梯度空间对应bin的值相减的绝对值，最后将和Fdiff串联起来构成MOH特征FMOH。

图4中，(a)、(b)分别为向左跑和向右跑得MHI图，(c)、(d)为未改进前的运动方向直方图，(e)、(f)为改进后的运动方向直方图。

由图4(e)、(f)可见，改进的运动方向直方图在有符号梯度方向空间下，能有效地解决了相反方向运动时，同一动作类内聚类度较差的问题。为此，将改进的运动方向直方图(共计K=18维)作为最终的MOH特征FMOH。

2.2 2D-SIFT特征提取

SIFT特征不仅对图像的尺度、旋转具有不变性，而且对亮度和3D相机视角的改变也保持一定的稳定性;在时域和频域内都能较好的定位，减少因遮挡、杂乱或噪声引起的分裂概率，可以有效地用于匹配不同图像的场景和目标。

使用可变尺度高斯函数G(x,y，σ)和输入图像I(x,y)相卷积构建高斯金字塔，如式(9)所示:

其中，*表示卷积运算;σ是尺度因子，k为尺度因子的比例系数，并且有:

再根据式(11)构造Do G金字塔。

通过判断在Do G尺度空间金字塔中是否检测到最大值来确定兴趣点的位置。为了减少计算量和不同背景、光照对识别结果的影响，本文仅对人体运动区域提取SIFT兴趣点，并剔除掉不在前景目标上的兴趣点。提取的部分兴趣点如图5所示。

在提取出兴趣点后，需要对兴趣点进行描述，本文采用2D-SIFT描述子进行描述，即以兴趣点为中心选取16×16窗口，每一个小格代表兴趣点领域所在尺度空间的一个像素点，箭头方向代表该像素点的梯度方向，长度代表梯度幅值;将窗口划分为4×4个种子点，每个种子点由4×4个小块构成，在每个小块上计算8个方向的梯度方向直方图，可产生4×4×8=128个数据作为2D-SIFT描述子。

2.3 HOOF特征提取

光流是图像中像素点瞬间移动所产生的速度场，它体现了视频中运动物体的运动趋势，可以用来确定运动目标的运动情况。定义I(x,y,t)为视频中t时刻图像上(x,y)点的亮度，u和v分别为该点光流矢量沿x、y轴的两个分量。设t+dt时刻该点位置为(x+dx,y+dy)，其灰度为I(x+dx,y+dy,t+dt)，因此该点的光流约束方程为:

令dt→0，利用Taylor式展开得:

其中Ix、Iy、It分别为该像素点亮度值沿x、y、t三个方向的偏导数。式(13)限定了Ix、Iy、It与光流矢量u、v的关系，但仅由一个方程是无法计算出两个光流矢量的，因此专家们提出了许多计算光流的方法，目前主要的方法有:LK稀疏光流，HS稠密光流，高精度光流，大位移光流。其中LK稀疏光流虽然精度相对后两种方法较差，但计算速度快，适合实时运算。本文采用LK稀疏光流方法，首先对人体运动区域进行稀疏采样，并求得采样点稀疏光流，光流分布如图6所示。

设G(x,y)为采样点(x,y)的光流幅值，θ(x,y)为该点光流的方向，由于人体动作主要集中在手部和腿部，本文将人体运动区域等分为上中下3个区域，加上整体区域共计4个区域(part(i),0≤i≤3)。将θ(x,y)量化为K(本文取K=8)个bins，对每个区域根据式(14)至式(15)构造光流方向直方图。

其中，1≤k≤K表示第k个bin,0≤i≤3表示第i个区域，ε是为了防止分母为0而引入的一个很小的正数。另外，为了更好地描述区域内光流梯度的分布疏密信息，本文根据文[9]构造了三种光流梯度描述子，如式(16)至式(19)所示:

其中ai为所求光流梯度的区域面积，mk是该区域内光流方向属于第k个bin的方向角个数，ε是为了防止分母为0而引入的一个很小的正数。最后将每一个区域所提取的光流梯度直方图串联起来，构成最终的HOOF特征，如式(20)所示:

3 特征融合与判别

在特征提取中，MOH特征，2D-SIFT特征，HOOF特征分别代表了全局运动方向信息，形状信息，光流变化信息，为了得到更好的表示运动模型和更高的运动识别率，需要对这些信息进行有效的融合。

对每一个时空卷的所有兴趣点提取128维的2D-SIFT特征，并采用视觉词袋模型[10]将得到的所有2D-SIFT描述子映射到一个具有300个词汇的字典中，得到一个300维的统计直方图作为最终描述子F2D-Sift。同样的，对一个时空卷的每一帧提取100维的HOOF特征，使用视觉词袋模型将得到的所有HOOF描述子映射到一个具有50个词汇的字典中，得到一个50维的统计直方图作为最终描述子FHOOF。

有效的特征融合的先决条件是每一个单独的特征向量具有相同的物理意义，F2D-Sift和FHOOF均由视觉词袋模型方法得到，确保了这一条件。对于由M种方法在视觉词袋模型下得到的特征向量{Fl|Fl={fjl}(1≤j≤Kl)}，其中1≤l≤M,K为字典中词汇个数。融合后的特征向量为FBOW={f11,f21，…，f1K1，…，f1M,f2M，…，fMKM}，即F2D-Sift和FHOOF融合后的特征向量为FBOW={f2D-Sift1,f2D-Sift2，…，f2D-Sift300,fHOOF1,fHOOF2，…，fHOOF50}。

另外，对每一个时空卷提取一个18维MOH特征FMOH，归一化后与FBOW合并，合并后的特征向量如式(21)所示，最终将FFUSION输入支持向量机(SVM)进行判别。

4 实验结果与分析

本文利用Weizmann数据库[11]和KTH数据库进行实验评估。实验在Core i5 3.10 GHz的CPU,VS2010的编程环境上进行。

Weizmann行为数据库包含了10种动作，分别是弯腰，开合跳，上跳，双脚跳走，跑，侧身走，单脚跳走，走，单手挥动，双手挥动。每种动作由9个人执行，共有93个分辨率为180×144的视频文件。该数据库背景是静止的，数据库较为简单。实验采用交叉验证的方法。依次把每个人的所有动作作为一个测试集，其余人的动作作为训练集，如此进行了9轮验证。另外，分别从每一种动作集中随机选取一个视频组成一个测试集，剩余的作为训练集，如此进行了60轮验证。图7为本文方法在Weizmann数据库的识别结果，平均识别率达97.83%。

KTH行为数据集包含了6种动作，分别为拳击，拍手，挥手，慢跑，快跑，走。每种动作由25个人在4个不同的场景下完成，4中场景分别为室内，室外，室外放大，室外且穿不同颜色的衣服。共有600个分辨率为160×120的视频文件。该数据库动作类型较少，但数据量大，视频中背景噪声较大。由于数量集较大，测试采用分割法。随机从25个人中选取16个人的视频作为训练集，其余的9个人的视频作为测试集，如此进行40轮验证。图8为本文方法在KTH数据库的识别结果，平均识别率达91.38%。

表1列出了MOH特征，2D-SIFT特征和HOOF特征分别对Weizmann数据库与KTH数据库的识别率。

如表1所示，基于不同的数据库处理效果，MOH与2D-SIFT的特征识别效果差异显著。MOH特征对背景静止、相对简单的Weizmann数据库能够取得较高的识别率，而对于背景噪声较大的KTH数据库则取得较低的识别率。反观2D-SIFT，其对于KTH数据库的识别率明显高于对Weizmann数据库的识别率。因此，仅采用单一特征的识别方法其适应性相对较差。表2列出了MOH特征，2D-SIFT特征和HOOF特征相互融合的识别率。

如表2所示，采用相同的验证方法，不同特征相互融合后的识别率均有所提升。其中，融合了MOH特征，2D-SIFT特征和HOOF特征的方法对Weizmann数据库和KTH数据库的识别率相对于采用单个特征的最大识别率(如表1所示)分别提升了10.7%和4.83%，证明了本文提出的结合全局运动方向信息，形状信息和光流变化信息的多特征融合方法的有效性。

表3列出了本文方法与目前的其他方法对Weizmann数据库与KTH数据库识别率的比较。与其他方法相比，本文方法在Weizmann数据库与KTH数据库上均取得较高识别率。

5 结语

融合识别篇4

在低压配电系统中装设漏电保护器 (剩余电流动作保护器) , 是防止电击事故的有效措施之一, 也是防止漏电引起电气火灾和电气设备损坏事故的技术措施。尽管GB 13955-92要求在TT/TN系统中安装漏电保护器, 但实际应用的现状是, 各类漏电保护装置, 都因为人们无法容忍的误动作而被旁路、废弃。造成这一现象的主要原因是漏电模式的多样性。最常见的漏电原因有:火警相关的漏电;人员触电;动物触电;树木和雨水引起接地;线路绝缘老化;接线端子绝缘不良;接线端子爬电距离不够大;雷电等。各种剩余电流检测装置产生误动作的原因, 就是不能对上述漏电现象进行有效的区分。

针对上述出现的问题, 本文提出了一种融合先验知识的火警漏电模式识别方法, 该方法基于二变量的模式识别理论, 可以识别区分火警漏电、人员触电、设备故障漏电和其它漏电模式。由于该方法能对漏电模式进行正确的识别, 因此将大大地减少相关产品的误动作。

2 火警模式识别方法

常规火灾报警器的判定算法是:如果剩余电流大于设定的阈值, 则动作报警。由于漏电的原因很多, 所以这样的报警算法就过于简单, 应用中经常出现误动作。对于一些较为典型的漏电方式研究的结论是:不同形式的漏电, 不仅剩余电流的大小不同, 而且剩余电流的时间导数 (变化量) 也显著地不同。因此, 当选择二维变量 (剩余电流, 剩余电流导数) 来对漏电模式进行判别时, 判断的正确性将大大的提高。

在如图1所示的i和di/dt平面上, 火灾前的漏电, 火焰引起的漏电模式, 与其它漏电模式, 将没有重合的完全分列。这就是说, 在先验的设定了模式类中心的前提下, 模式判别值需要度量即时状态与类中心的距离就能够做出正确的判定:

式 (1) 中i是剩余电流的瞬时检测值, d是先验设定模式类广义半径。

上述算法的有效性和正确性显然与以下的三个因素相关:模式类中心的设定的合理性、正确性;完成式 (1) 运算的快速性;这些问题的解决, 都依赖于脱扣控制器的硬件条件。在当代技术条件下, 嵌入式数字计算机的引用已经能够满足大部分的工业现场要求, 但是仍然存在运算速度和可靠性之间的权衡。

由于火灾是非常事件, 因此, 火警漏电模式的中心 (i, di/dt) 值只能通过先验知识来获得。文献中提到“IEC通过证明, 300ma的漏电流就有可能引起电气火灾, 国内专家通过实验表明:大于300ma的漏电电流会电弧接地反复”。类中心的先验设定应参照大量的研究成果和标准, 并通过模拟试验进行校验。此外, 模式类大小的阈值d的设定, 应权衡虚惊概率和误报警概率, 该参数设置得大, 则虚惊概率大;该参数设置得小, 则虚惊概率小, 但有可能漏报。

在不考虑硬件条件时, 模式判别可以完全按照式 (1) 执行, 甚至还可以设置一些更高级的功能, 例如模式类中心的自学和跟踪功能。在考虑到嵌入的计算机性能有限的情况下, 则需要寻求式 (1) 的快速算法。如果把式 (1) 中di/dt的获取, 指定有模拟微分器来完成, 将节约大量的运算时间。一个较为简易的实现途径是, 把漏电模式的判别功能全部交由硬件来实现。

3 模式判别模拟算法

在当代技术条件下, 嵌入式数字计算机的引用已经能够满足大部分的工业现场要求, 但是仍然存在运算速度和可靠性之间的权衡。受总的分断时间的限制, 扣除脱扣器的固有延时, 实际上留给嵌入式计算机的运算周期是很短的, 如果再扣除刷新屏幕的理性事务的处理, 时间裕度的减小, 使得设计无法兼顾可靠性的要求。

一种基于纯模拟电子计算技术的模式判别算法, 如图2所示。剩余电流i测量值经过滤波器、精密整流和增益调整之后, 进入比较器1, 比较器1的阈值设定也由硬件实现。剩余电流的时间导数di/dt, 是剩余电流经过模拟微分器之后的结果, di/dt经过精密整流之后进入比较器2, 比较器2的阈值设定也由硬件实现。比较器1和比较器2, 分别输出0/1数字信号, 此2位数字信号经由2/4译码器, 得到4个逻辑判定结果, 经过布尔运算, 指令脱扣器的动作。比较器1和比较器2的阈值设定, 由先验的试验结果设定。如图3所示, 上述完全硬件的实现方案, 把i和di/dt平面分割成为A、B、C、D等4个区域。在应用过程中, 通过调整漏电保护器的设置开关, 就能够选择预先设定的模式类, 例如, 人工设定应用模式为:建筑物内部;农业户外;建筑工地;工业厂房等。

4 结论

(1) 以本文的研究为理论基础, 一种模拟和数字混合的火警漏电模式判别应用于某型电气火灾报警器上取得了成功, 产品已进入现场试验, 各项性能均优于传统电气火灾报警器, 尤其表现优秀的是出现误动作的概率极小。在上述应用中, 嵌入式计算机采用了抗干扰性能优秀的PIC16系列单片机;di/dt的运算采用了外置的模拟微分器。

(2) 理论分析和应用实例证明本文的火警漏电模式识别算法的有效性、正确性和性能的优越性。

(3) 火警漏电模式识别算法, 还可以应用到需要对漏电模式进行识别的其它领域, 例如剩余电流保护装置, 绝缘监测等。

摘要：全面分析剩余电流与火警的关系, 确定电气火灾前和火灾后的漏电只是漏电模式中的一种;提出了一种融合先验知识的火警漏电模式识别方法;研究了算法实现过程中的相关问题;给出了一种利用模拟电子技术的快速模式识别算法, 最后预测了算法应用中可能面临的问题和研究结论。

关键词：先验知识,火警,漏电模式,识别

参考文献

[1]赵连明, 李元贵, 王雪娟.漏电电流引发火灾的效应分析[J].电气安全, 2012, (01) .

[2]徐鹤生, 周广连.消防系统工程[M].北京:高等教育工业出版社, 2004.

融合识别篇5

针对上述问题,本文提出一种简单有效的动静态特征融合算法。首先利用背景减除法获取人体轮廓特征,分别提取下肢肢体角度特征作和长度特征来表征步态的动静态特征;另外引入一种动静态兼顾的可变区域面积特征,三者融合串联得到联合特征矢量;最后用最近邻模糊分类器其进行分类。特征融合算法一方面克服了单一特征识别率低的缺陷,另一方面相对于目前大多步态识别算法而言,在特征提取方面,无需进行复杂的建模和跟踪计算,特征提取简单易行;与传统特征融合算法相比,在特征融合层面上,无需复杂的融合策略,直接将三种特征进行串联构成特征向量;并针对这种简单串联特征矢量引入一种最近邻模糊分类器;该分类器对不同特征类型和衡量尺寸没有一致性要求,不需对提取的步态特征进行任何的预处理操作,故该算法大大降低了计算的复杂度低,收敛速度快,时间代价上小,能够满足监控的实时性需求。实验结果表明,该融合算法在降低计算复杂度的同时,也兼顾了识别率。

1 步态特征提取

1. 1 运动目标检测

提取人体轮廓普遍使用的方法有光流法,背景减除法,帧间差分法等。采用背景减除法,首先采用中值法进行背景建模,用b(x,y) 来表示背景图像,则有

式(1)中,median表示对每帧图像上的像素点求中值,It(x,y) 表示第t帧图像在点(x,y) 处的像素值。然后用背景减除法消除背景图像提取人体轮廓,亮度的变化通常使用当前图像和背景图像进行差分得到[10],如何选取二值化的阈值进行差分操作是相当困难的,因此采用式(2)来间接执行差分操作。

式(2)中,

式中,a(x,y),b(x,y)分别表示当前图像和背景图像在点(x,y)处的像素值。经过上述步骤得到的二值化图像会含有噪声和小孔,因此可以使用形态学中腐蚀和膨胀滤波算子除去一些小的孤立噪声点,然后对图像进行连通性分析填充小的孔洞,最后提取二值化图像的边界线。运动目标检测过程如图1所示。

1. 2 步态周期检测

由于步态具有一定的周期性,为了减少计算量和时间的开销,对给定的某个步态序列,我们只需要提取该序列的其中一个周期,然后对该周期图像进行特征提取。从人体侧面轮廓序列可以看出,人体侧面的下肢轮廓宽度会有一个从最大值到最小值再到最大值的周期性变化过程,本文根据两条腿的轮廓宽度变化来估计步态周期,两腿的轮廓宽度随着帧序号的变化如图2 所示,定义连续出现两个波谷或者波峰之间的时间段为一个步态周期。

1. 3 特征提取

特征提取是步态识别的关键,提取的特征质量好坏直接影响最后分类的结果。基于人体下肢集中了步态识别的绝大部分信息,因此本文提取了下肢特征来进行步态识别。其中,下肢角度特征包含大量的步态运动学信息,能够准确地表征不同的身份,角度的大小随着步态的变化而不断变化,能够体现步态的动态特征;正常情况下,不同个体之间盆骨到膝关节的距离以及膝关节到踝关节的距离都是不同的,这是由生理结构所决定的,因此选择它作为静态特征具有很强的说服力;人体侧影面积的大小和变化幅度会随着下肢的摆动不断变化,不同个体之间是不同的,兼顾了步态的动静态信息。另外前两个特征反映了步态的细节特征,可变区域面积特征则反映了步态的整体轮廓信息,兼顾了步态的整体和细节信息。三种特征的相关性低,优势互补,因此,相对于单个特征而言,三种特征融合能够更加充分,准确地表征步态信息。

1. 3. 1 动态特征提取

由人体解剖学中肢体比例关系,可以得到盆骨,膝,踝三个关节点的纵坐标: Yp= 0. 53H,Yx=0. 285H,Yh= 0. 039H( H表示身高,如图3 所示) 。然后确定各关节点的横坐标,步骤如下。

(1) 盆骨关节点:对轮廓图像中Yp所在的行进行水平扫描,位于盆骨点左右两侧的轮廓线上扫描得到像素值为1 的两点,记录两点的坐标为(Xpl,Yp),(Xpr,Yp),则盆骨关节点的横坐标为

(2) 膝关节点:以盆骨关节点的横坐标和膝关节点纵坐标确定点(Xp,Yx),然后以此点为起始点分别对Yx所在的行两侧水平扫描轮廓图象。最后按照步骤(1) 中的方法分别得到左右膝关节的坐标为(Xkl,Yk),(Xkr,Yk)。

(3) 踝关节点;方法和步骤(2)相同,得到左右踝关节的坐标分别为(Xhl,Yh),(Xhr,Yh)。所得关节点位置如图3 所示,将相邻的两个关节点用直线连接起来表示人体的下肢,如图4 所示,本文用下肢肢体与竖直直线的夹角来表示肢体角度,用 α,β,γ,θ 分别表示左右大腿以及左右小腿与竖直直线的夹角,令(X1,Y1),(X2,Y2) 分别表示肢体两端关节点的坐标,则肢体角度的计算公式如下[11]。

四个角度值构成一个四维的特征矢量 φ = [α,β,γ,θ]用来表示步态动态特征。

1. 3. 2 静态特征提取

用L1,L2分别表示盆骨关节到左右膝关节点的长度;L3,L4分别表示左右膝关节分别到左右踝关节的长度。由1. 3. 1 节中获得的盆骨,膝,踝关节坐标可以直接利用下式计算得到下肢各肢体的长度值。

四个长度值同样构成一个四维的特征矢量L =[L1,L2,L3,L4],用来表示步态的静态特征。

1. 3. 3 可变区域面积特征提取

为了避免图像因尺度等问题对训练和识别产生影响,在提取下肢可变区域面积特征之前必需对二值化图像进行模板化操作,所得模板图像(104 ×104) 如图5 所示,本文提取盆骨纵坐标所在的水平线以下的可变区域的面积( 图5 中横线以下的区域),计算公式如下。

式(6)中,

f( x,y) 表示点( x,y) 处的像素值,Rtarget表示第k个区域的目标部分,Rback表示第k个区域的背景部分。

最后将三种步态特征融合构成一个联合特征矢量M = [φ,L,S],直接输入最近邻模糊分类器进行分类识别。

2 分类识别

针对串联组合特征步态识别问题,引入一种适合的最近邻模糊分类器,该分类器对不同特征类型和衡量尺寸没有一致性要求,也无需对联合特征矢量进行任何的预处理操作。

2. 1 最近邻模糊分类器

首先该分类器将待识别目标组合特征中的每维特征分别与训练模板中各个样本相应维上特征一一进行比较,得到一个特征差矩阵,然后在同类特征差之间用模糊分布函数进行处理,生成一个隶属度矩阵,最后用求算术平均值法对隶属度矩阵进行处理,并用最大隶属度准则来进行分类判决[12]。

2. 1. 1 特征差矩阵

组合特征构成的训练模板用矩阵F表示如式(8)。

式(8)中,M表示组合特征的维数,Q表示模板样本总数,假设总共有C类目标,第c(c = 1,2,…,C) 类目标的样本为Lc,则

设{fi,i = 1,2,…,M} 表示待识别目标的组合特征,因此可以由待识别目标的组合特征和训练模板矩阵得到一个M × Q阶的特征差矩阵Df。

式(10)中,dfiq表示待识别目标特征组合中的第i维特征与训练模板中第q个样本的第i维特征的差的绝对值,即

由模糊分布函数公式计算得到待识别样本第i个特征归属于第q个样本的隶属度。

式(11)中,

计算待识别样本所有特征对应的隶属度,得到隶属度矩阵如下。

2. 2 分类判决

待识别样本与第q个模板样本的相似性度量是由 μiq按第q个模本样板的各维特征的隶属度的算术平均求得。

使得 μq最大时为最终的判决准则,即有

则有待识别样本判决为第q0个模板样本所属的的目标类。

3 实验

3. 1 实验数据

为了验证本文算法的识别性能,在中国科学院自动化研究所提供的CASIA步态数据库的B数据集上进行大量的实验,该库是一个大规模,多视角的步态数据库,包含124 个人的数据,每个人有11 个视角(0°,18°,36°,…,180°),在普通,穿大衣,携带包裹三种条件下采集。本文随机选择库中的60 人并在90°视角(侧面视角,视频设备拍摄方向与人行走方向成90°)以及普通条件下进行实验,该条件下每个人总共有6 个图像序列,每个序列有2 ~ 3 个步态周期。

3. 2 实验过程及结果分析

首先对给定的每个步态序列进行周期性分析并分别提取每个序列中的一个周期图像,然后按照本文的方法分别提取该周期图像的肢体角度,肢体长度和可变区域面积作为步态特征,为了比较基于特征融合算法与基于单个特征算法的识别性能,分别对基于肢体角度步态识别算法,基于肢体长度的步态识别算法,基于可变区域面积步态识别算法和基于特征融合算法进行了实验。同时,为了验证引入的最近邻模糊分类器对步态识别率的影响,还利用普通最近邻分类器和最近邻模糊分类器分别对融合特征进行分类识别,其他实验均采用最近邻模糊分类器进行分类。实验采用留一校验法获取识别率的无偏估计,对给定的图像序列,每次抽取一个用来测试,剩下的作为样本进行训练。表1 给出了本文算法的实验结果以及与文献[8,9]等传统特征融合算法的识别率对比。

从表1 的实验对比数据可以看出,本文提出的基于特征融合算法的识别率达到了97. 14% ,要远远高于任意一种基于单一特征步态识别算法的识别率,原因在于任何基于单一特征的识别系统均存在一定的缺陷,在步态识别系统中,单一特征不能充分表征每个人的步态信息;因此对最终的识别率有一定的影响,不能取得令人满意的识别效果。而本文特征融合算法的三种特征优势互补,能够充分反应人体步态信息;因此,识别率相对于单个特征有了很大的提高。另外,从表中数据还可以看出,本文提出的特征融合算法在提升单一特征识别率的同时,相对于文献[8,9]等传统的特征融合算法的识别率也有了进一步的提升,并没有因为采用简单的串联组合特征的融合策略而最终降低步态识别率。原因在于,一,在特征提取方面,本文特征融合算法既兼顾了步态的动态和静态特征又兼顾了步态的局部细节和整体特征,三个特征之间相关性低,优势互补,相对于其他传统方法提取的步态特征而言,更能充分,准确地表征步态信息;二,针对串联组合特征引入一种适合的最近邻模糊分类器,从表中的融合特征分别采用最近邻分类器和最近邻模糊分类器的两组对比数据可以看出,最近邻分类器识别率为90. 27% ,低于文献[8]和文献[9]等特征融合算法,而使用最近邻模糊分类器的识别率为97. 14% ,明显高于文献[8]和文献[9]的识别率,弥补了因为简单特征融合策略对识别率的影响,进一步提升了传统特征融合算法的识别率。

4 结束语

本文提出了一种融合肢体角度特征,肢体长度特征和可变区域面积特征的步态识别新算法,创新点:1将信息融合理论运用到步态识别领域来克服单一特征识别率低的缺陷,三种特征提取简单,有效,同时兼顾了步态的动态和静态特征又兼顾了步态的局部细节和整体特征,三种特征之间相关性低,优势互补,相对于其他传统方法提取的步态特征而言,更能充分,准确地表征步态信息;2采用一种简单有效的方法对步态特征进行串联融合,并针对该串联组合特征引入一种最近邻模糊分类器进行分类;3算法在提升传统特征融合算法识别率的同时,大大降低了特征融合算法复杂度,减少了在时间方面的花销,满足了监控实时性需求。下一步的工作将集中在选取更有效的步态特征以及如何自适应选取融合策略。

摘要：针对目前步态识别研究中基于单一特征算法识别率低,多特征融合算法又过于复杂的问题,提出一种简单有效的步态识别算法。提取下肢肢体角度为动态特征,肢体长度为静态特征,另外引入动静态兼顾的可变区域面积特征,最后融合得到联合特征向量并引入一种最近邻模糊分类器进行分类。在CASIA步态数据库上进行大量的实验。实验结果表明,在降低融合算法计算复杂度的同时,识别率相对于单个特征有了很大提高。

关键词：步态识别,肢体长度,肢体角度,可变区域面积,特征融合,最近邻模糊分类器

参考文献

[1] Mu T T,Pataky T C,Findlow A H,et al.Automated nonlinear feature generation and classification of foot pressure lesions.IEEE Trans on Information Technology in Biomedicine,2010;14(2):418-424

[2] Yoo J H,Nixon M S,Automated markerless analysis of human gai motion for recognition and classification.ETRI Journal,2011;32(2):259-266

[3]吴育锋,徐向艺,赵泽茂.基于傅里叶描述符优化形变轮廓插值的步态识别研究.科学技术与工程,2014;14(18):237-242Wu Y F,Xu X Y,Zhao Z M.Rresrarch of gait recognition on interpolated deformable contours optimized by fourier descriptor.Science Technology and Engineering,2014;14(18):237-242

[4] Wei S Y,Ning C,Gao Y X.Biomimetic gait recognition based on motion contours wavelets analysis and mutual information.2010 3rd International Congress on Image and Signal Processing.Piscataway:IEEE,2010;1:404-408

[5] Ioannidis D,Tzovaras D,Damousis I G,et al.Gait recognition using compact feature extraction transforms and depth information.IEEETrans On Information Forensics and Security,2007;2(3):623-630

[6] Chen C,Liang J,Zhao H,et al.Factorial HMM and parallel HMMfor gait recognition.IEEE Trans On Systems,Man and Cybernetics,Part C,2009;39(1):114-123

[7]刘志勇,冯国灿,邹小林.一种基于静态和动态特征的步态识别新方法.计算机科学,2012;39(4):261-264Liu Z Y,Feng G C,Zou X L.New gait recognition method based on static and dynamic features.Computer Science,2012;39(4):261-264

[8]任胜兵,李兴超,陆赤彰,等.基于人体动静态特征融合的步态识别算法研究.计算机应用与软件,2012;29(12):123-126Ren S B,Li X H,Lu C Z,et al.Gait recognition algorithm based on fusing dynamic and static features of body.Computer Applications and Software,2012;29(12):123-126

[9]杨路明,曾莹,曾庆冬,等.基于特征融合的步态识别算法研究.计算机应用研究,2008;25(7):2216-2218Yang L M,Zeng Y,Zeng Q D,et al.Study of algorithm for gait recognition based on feature fusion.Application Research of Computers,2008;25(7):2216-2218

[10]张前进,齐美彬,蒋建国,等.基于人体静态和动态特征融合的步态识别.系统仿真学报,2009;21(5):1320-1323,1328Zhang Q J,Qi M B,Jiang J G,et al.Gait recognition based on static and dynamic features fusion of body biometrics.Journal of System Simulation,2009;21(5):1320-1323,1328

[11]柴艳妹,夏天,韩文英,等.多特征融合的步态识别算法.小型微型计算机系统,2014;35(3):636-641Chai Y M,Xia T,Han W Y,et al.Gait recognition algorithm based on multi-featured fusing.Journal of Chinese Computer Systems,2014;35(3):636-641

融合识别篇6

关键词：目标识别,SVM,SIFT,金字塔匹配核

1 概述

从海湾战争、科索沃战争到伊拉克战争已经表明,现代战争是高科技战争,防空、防海、防陆战争中,敌我目标的识别是战争成功与否的关键。在对战情的分析中,首先要对所发现的目标进行分析,以便分清"敌方目标","不明目标"和"我方目标",在此基础上才能有效的提高我军高科技战斗力.

针对我军战时获取的图像,通过图像分割,将图像分割成不同的区域.针对各个区域提取目标的特征,通过模式分类方法确定各个区域的类型。在此基础上,形成图像的语义。这将是战时判断敌我目标的一个有效方法。

本文提出了一种基于HSV颜色直方图、一二三阶颜色矩、Gabor小波和SIFT特征描述子的多特征融合方法,以解决敌方目标识别问题.为了验证本文提出的方法,我们主要在国际著名的Caltech 101数据库图像数据库上进行效果测试。

本文其余章节组织如下:第二部分综述采用的方法;第三部分给出了SVM分类所需的图像特征:RGB颜色直方图和颜色矩、Gabor小波、SIFT特征,同时给出了SIFT的金字塔核方法。第四部分在的Caltech 101数据库图像数据库进行实验,并给出了实验结果。

2 方法综述

本文的目地是为了实现一个简单而实用的敌对目标识别方法.因此,使用HSV颜色直方图、一、二、三阶颜色矩、Gabor小波和SIFT组成SVM特征空间以实现分类,通过多特征融合的方法实现了敌对目标识别.敌对目标识别方法流程如下:

2.1 图像特征的获取

对每个训练图像集合中的每一个图像,首先生成HSI颜色直方图、一、二、三阶颜色矩和Gabor小波构造第一个SVM特征子空间。然后针对SIFT构造第二个SVM特征子空间。针对这两个SVM特征子空间,分别使用LibSVM进行训练,获取SVM模型信息,使用训练好的SVM模型,多核多特征融合方式分类识别。图1是获取特征空间的过程,图2是针对特征空间,多特征多核识别。

2.2 负载均衡考虑

在图像推介过程中,需要针对训练图像和待分类图像获取RGB颜色直方图、一、二、三阶颜色矩和Gabor小波、SIFT特征,然后进行SVM训练.在推介过程中,需要模糊化0上下文信息,使用上下文敏感SVM和CF协同工作方式进行推介.因此推介系统需要极高的运算性能和运算内存,在实际处理中通常采取分布使处理,以实现负载均衡。本文采取多个服务器分担两个SVM训练、多核判断处理、协同推介。这些服务器之间通过TCP自定义协议方式进行通讯。分布式处理的过程如图3所示。

3 图像特征获取

利用图像的HSV颜色直方图、颜色矩、Gabor小波和SIFT特征进行目标分类,以此为基础训练三个SVM分类器,形成多判别分类器进行目标识别。

3.1 HSV颜色直方图和颜色矩

提取图像的HSV颜色直方图和图像的颜色矩。HSI颜色空间是直方图最常用的颜色空间,它的三个分量分别代表色彩(Hue)、饱和度(Saturation)和强度(Intensity).HSI模型是Munseu提出的,这个模型的建立基于两个重要的事实:(1)I分量与图像的彩色信息无关;(2)H和S分量与人感受颜色的方式是紧密相联的。这些特点使得HSI模型非常适合借助人的视觉系统来感知彩色特性。公式1为HIS与RGB转换公式。

颜色矩是一种简单而有效的颜色特征,是由Stricker和Oreng提出的,这种方法的数学基础是图像中的任何的颜色分布均可以用它的矩来表示。此外,由于颜色分布信息主要集中在低阶矩中,因此,仅采用颜色的一阶矩(mean)、二阶矩(Variance)和三阶矩(Skewness)就可以表达图像的颜色分布。公式2为一、二、三阶颜色矩计算公式。图4原始图像,图5HSI颜色直方图(16 bin),图6颜色矩。

3.2 Gabor小波

图像I(Z)=I(x,y)表示图像的灰度分布,则图像I和Gabor小波gμ,ν的卷积为:

符号茚表示卷积。二维Gabor小波的核函数gμ,ν[11]定义为:

其中ωμ,kν分别定义了波向量的方向和尺度,z=(x,y),‖‖定义了向量范式.在本文中取尺度为4,方向为6。

3.3 SIFT特征和同维方法

SIFT是由Lowe提出的图像局部特征描述子,在物体识别方面有很好的应用,SIFT算法具有如下特点:

1)SIFT对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性。

2)独特性好,信息量丰富,适用于在海量特征数据库中进行快速、准确的匹配。

3)多量性,即使少数的几个物体也可以产生大量SIFT特征向量。

4)高速性,经优化的SIFT匹配算法甚至可以达到实时的要求。

5)可扩展性,可以很方便的与其他形式的特征向量进行联合。

SIFT实质是一个基于极值点位置和图像方向直方图统计的特征描述子。其实现步骤分为三步:1、极值点位置获取;2、关键点方向分配;3、特征点描述子生成。

3.3.1 极值点获取步骤

首先对原图形进行高斯卷积生成尺度空间,获取空间极值点坐标,最后通过曲率精确定位极值点。

(1)使用不同尺度的高斯核,生成图像金子塔。L(x,y,σ)=G(x,y,σ)⊗I(x,y)这里(x,y)是空间坐标,σ是尺度坐标,σ决定图像被平滑程度。其中G(x,y,σ)是尺度可变高斯函数:

(2)满足在图像二维平面空间和DOG[19](Difference of Gauss)尺度空间中同时具有局部极值的点作为SIFT关键点。DOG算子定义为两个不同尺度的高斯核的差分。D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))茚I(x,y)-=L(x,y,kσ)-L(x,y,σ)。

为了寻找尺度空间的极值点,每一个采样点要和它所有的相邻点比较,看其是否比它的图像域和尺度域的相邻点大或者小。一般采样点要和它处于同一尺度的8个相邻点和上下相邻尺度对应的9×2个点共26个点比较,以确保在尺度空间和二维图像空间都检测到极值点。

(3)上面通过拟和三维二次函数确定了关键点的位置和尺度(达到亚像素精度)。然而因为DOG算子会产生较强的边缘响应,所以SIFT算法需要舍弃低对比度的关键点和不稳定的边缘响应点以增强匹配稳定性和提高抗噪声能力。舍弃关键点的依据是:一个定义不好的DOG的极值在横跨边缘的地方有较大的主曲率,而在垂直边缘的方向有较小的主曲率.主曲率通过一个2x2的Hessian矩阵H求出:,DOG的主曲率和H的特征值成正比,令α为最大特征值,β为最小的特征值,则Tr(H)=Dxx+Dyy=α+β,Det(H)=DxxDyy-(Dxy)2。令α=λβ,则的值在两个特征值相等的时候最小,随着r的增大而增大,因此,为了检测主曲率是否在某域值r下,只需检测。一般取λ=10。

3.3.2 关键点方向分配

首先针对图像I(x,y),利用关键点邻域像素进行梯度方向计算Ix和Ty。则(x,y)点的模值定义为:M(x,y)=√Ix(x,y)2+Ix(x,y)2,其方向定义为:θ(x,y)=tan-1(Iy(x,y)/Ix(x,y))。其中L所用的尺度为每个关键点各自所在的尺度。

针对图像I(x,y)中的所有点(x,y),获取γ邻域,并统计γ邻域的梯度直方图。梯度直方图的范围是0~360度,将其分割为β个柱。直方图的峰值则代表了该关键点处邻域梯度的主方向,即作为该关键点的方向。梯度方向直方图中,当存在另一个相当于主峰值80%能量的峰值时,则将这个方向认为是该关键点的辅方向。一个关键点可能会被指定具有多个方向(一个主方向,一个以上辅方向),这可以增强匹配的鲁棒性。一般取γ=16,β=8。通过以上几步,可检测出图像的SIFT关键点,每个关键点有三个信息:位置、所处尺度和方向,由此可以确定一个SIFT特征区域。

3.3.3 特征点描述子生成

SIFT描述子是对一个SIFT特征区域的描述,其生成步骤如下:

(1)首先将坐标轴旋转为SIFT特征区域的方向,以确保旋转不变性。

(2)接下来以关键点为中心取8×8的窗口。图7左部分的中央黑点为当前关键点的位置,每个小格代表关键点邻域所在尺度空间的一个像素,箭头方向代表该像素的梯度方向,箭头长度代表梯度模值,图中蓝色的圈代表高斯加权的范围(越靠近关键点的像素梯度方向信息贡献越大)。然后在每4×4的小块上计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值,即可形成一个种子点,如图7右部分所示。此图中一个关键点由2×2共4个种子点组成,每个种子点有8个方向向量信息。这种邻域方向性信息联合的思想增强了算法抗噪声的能力,同时对于含有定位误差的特征匹配也提供了较好的容错性。

实际计算过程中,为了增强匹配的稳健性,Lowe建议对每个关键点使用4×4共16个种子点来描述,这样对于一个关键点就可以产生128个数据,即最终形成128维的SIFT特征向量。此时SIFT特征向量已经去除了尺度变化、旋转等几何变形因素的影响,再继续将特征向量的长度归一化,则可以进一步去除光照变化的影响。

3.3.4 SIFT的金字塔方法

SIFT形成的特征描述子特征点个数不同、无序、而且位置互异。而SVM分类器需要向量同维,因此无法直接使用SVM针对SIFT特征进行分类。

针对该问题,国外进行了很多研究。2007年Kristen提出的金字塔核匹配方法,运算简单而且准确度较高,因此本文采取该方法解决SIFT分类问题。

该方法将特征子数据投影到不同的尺度空间,求同一尺度空间的重叠值。然后再求相邻尺度空间重叠值的交叉值。其采用的核函数如下:。其核函数具体计算方法如图9。

4 实验结果

本文采用Caltech 101数据库作为实验对象,该数据库一共用101种类数据以供识别。本文采用Libsvm作为分类器,其中训练测试样本共3600张图片。图片类型共36种,每种100张。本文采取训练样本和测试样本各占50%进行测试,部分Caltech101数据库图片如图10。

部分测试结果如表1:

参考文献

[1]刘忠伟,章毓晋.综合利用颜色和纹理特征的图像检索[J].通信学报,1999(5).

[2]王文惠,王展,周良柱,万建伟.基于内容的彩色图像颜色特征的提取方法[J].计算机辅助设计与图形学学报,2001(6).

[3]陈兵旗,孙明.Visual C++实用图像处理专业教程[M].北京:清华大学出版社,2004(03):132-138.

[4]张学工.关于统计学习理论和支持向量机[J].自动化学报,2000(06):32-42.

[5]李国正,王猛,曾华军.支持向量机导论[M].北京:电子工业出版社,2004.

融合识别篇7

关键词：生物特征识别,手背静脉,虹膜,指纹,匹配分数归一化,融合

0 引言

在高度复杂和信息交互的现代社会,对于信息安全的要求已经渗透到日常生活的各个方面,如金融、司法、国家安全、电子商务等应用领域,显示出前所未有的重要性。而身份鉴定是保证系统安全的必要前提,如何准确鉴定一个人的身份、保护信息安全,已成为一个必须解决的关键社会问题。与传统身份认证方式相比,生物特征识别最大的特点就是对用户自身的特征进行认证,具有防伪性好、便于携带、不易丢失或遗忘的优点,具有更好的安全性、可靠性和有效性[1,2]。由于单生物特征在识别准确率、用户接受程度、受环境影响程度等方面都有不同的特点,适应于不同的场合,单生物特征识别也存在其固有的局限性[3,4,5]。在对身份识别系统的准确性及安全性要求日益提高的今天,仅靠单一生物特征常常无法满足实际需要。1995年Brunelli[6]提出了利用多个生物特征融合实现身份识别的策略,将人脸和声音两种生物特征在匹配层上实现了融合识别,取得了较好的识别效果。1998年,Li Hong[7]从理论上定量地证明了相对于单生物特征识别,多生物特征融合识别系统在实现效率上有明显的提高,为多生物特征识别技术的研究提供了理论依据。之后,多生物特征识别技术的研究逐渐升温,多生物特征识别技术成为生物特征识别的发展趋势和研究热点。

手背静脉识别是一种新兴的生物特征识别技术。手背静脉血管的结构不会随着年龄变化,具有长期稳定性[8],且手背静脉分布匿藏于人体内部,只有活体才有效,具有很好的隐蔽性和高安全性等优势;虹膜和指纹识别技术是目前应用比较成熟,市场份额比较大的两种生物特征识别技术[9]。本文融合手背静脉、虹膜和指纹这三种生物特征实现身份识别。对手背静脉、虹膜和指纹特征分别采取独立的特征提取与匹配处理,输出各自的匹配分数,对三种生物特征的匹配分数进行归一化处理后,在匹配层实现三种生物特征的融合识别。通过对融合识别算法的测试实验,验证了融合识别算法的有效性,该算法达到了很高的识别准确性,为多生物特征识别研究提供了很好的途径。

1 融合识别原理

基于手背静脉、虹膜和指纹特征融合的身份识别原理如图1所示。首先分别对手背静脉图像、虹膜图像和指纹图像进行预处理,提取能够代表三种生物特征模式的特征向量,进行独立的特征匹配,得到各自的匹配分数。将匹配分数进行归一化处理之后,采用加权求和规则实现匹配分数在匹配层的融合,最后采用最小距离分类器实现身份判决。

2 融合识别算法实现

2.1 手背静脉特征匹配

手背静脉原始图像存在大量背景信息和噪声,首先要对手背静脉图像进行必要的预处理。利用阈值法去除大部分背景,并从原图像中获取手背图像,再利用阈值T得到手背模板,与手背图像结合得到感兴趣区域(ROI)。对手背静脉ROI图像进行中值滤波和高斯滤波,用于降低图像白噪声和椒盐噪声。

与基于区域的图像匹配方法相比,基于特征点的图像匹配方法具有更强的稳定性[10],而基于特征点的匹配方法的关键问题是如何选取待匹配图像中对应的特征。本文对预处理后的手背静脉图像进行3阶尺度展开,提取手背静脉图像的SURF特征,利用欧式距离作为两幅图像中特征点的相似性判据,实现特征点匹配。取注册样本图像中的某个特征点,在待识别样本图像中寻找与该特征点的欧式距离最近的两个特征点,计算最近距离与次近距离的比值,当比值小于设定阈值时,则表示注册图像中的这一特征点与待识别图像中距离最近的特征点匹配,利用匹配距离最小原则剔除错误的匹配对。特征匹配结果如图2所示。

定义特征匹配率(式(1))作为手背静脉的匹配分数,衡量手背静脉图像之间的SURF特征匹配结果,反映手背静脉图像的相似度,匹配率越高,相似度越高。

式中:n为待识别样本It和注册样本Ir的特征匹配对个数,Nr和Nt分别为注册样本Ir和待识别样本It在其ROI内的特征点个数。

对TJU手背静脉图像数据库中的108个不同手背的静脉图像样本进行特征提取与匹配测试,取每个手背中的3幅图像作为注册样本,其余4幅图像作为测试样本。手背静脉图像SURF特征匹配的类间匹配分数分布和类内匹配分数分布如图3所示。

2.2 虹膜特征匹配

由于采集的虹膜图像为人眼图像,实现虹膜匹配前,首先需要对图像进行预处理从人眼图像中提取出虹膜区域图像。包括虹膜边缘定位、眼皮定位、图像归一化和图像增强。首先,在抽样图像中确定虹膜的内外边缘[11],根据粗略定位信息得到原分辨率虹膜图像中的精确边缘信息。对于眼皮定位,首先对图像进行高斯滤波,然后利用水平平滑滤波器对图像滤波,以增强图像的水平边缘。再利用水平分割算子对图像滤波得到梯度图像,并利用阈值法对梯度图像进行二值化。最后采用基于最大连通路径的方法[12]对眼皮进行抛物线拟合,以完成眼皮定位。将虹膜从环形映射到64×512大小的矩形图像[13],最后利用直方图均衡化实现图像增强。虹膜图像预处理结果如图4所示。

对预处理后的虹膜图像进行三级Haar小波分解,利用第二级和第三级Haar小波分解得到的六幅细节图像,提取局部快速变化区域作为虹膜细节特征,令局部快速变化区域为“1”,其它区域为“0”,实现特征编码。采用加权汉明距作为测试样本特征和注册样本之间的相似度测度,实现虹膜特征匹配。距离越小,说明两个虹膜样本相似度越高。

对CASIA虹膜数据库中108只不同眼睛的虹膜图像样本进行特征提取与匹配测试,取每只眼睛中的3幅图像作为注册样本,其余4幅图像作为测试样本。虹膜图像小波特征匹配的类间匹配分数分布和类内匹配分数分布如图5所示。

2.3 指纹特征匹配

由于采集的原始指纹图像可能存在噪声,首先对指纹图像进行灰度归一化,直方图均衡化和中值滤波去除斑点噪声。将指纹图像分成8×8大小的互不重叠的子块,利用Sobel算子计算每个子块的梯度值∂x和∂y,利用式(4)计算中心点在(i,j)子块的块方向场:

其中:w为子块边长,θ(i,j)为子块的方向,并将各子块方向量化为8个方向,与原始指纹图像叠加的块方向场如图6(a)所示。根据计算的块方向场,利用方向变化最大熵原理确定指纹图像感兴趣区域的中心点,如果存在几个局部最大熵,则将最大熵点附近的局部区域定为感兴趣区域中心点,提取的中心点如图6(b)。以中心点为中心截取120×120大小的指纹区域作为指纹匹配的有效区域。截取的指纹图像有效区域如图6(c)所示。

将指纹图像有效区域进行3级Harr小波分解,分别计算水平、垂直、对角线方向的9幅细节图像的归一化Eulid范数,并联接形成特征向量。采用K-L距离作为注册样本和测试样本之间的相似度测度,实现指纹匹配。距离越小,说明相似度越高。选取CASIA指纹数据库中UPEK子库中的108个不同手指的7幅不同样本组成指纹测试数据库。对指纹测试数据库进行特征提取与匹配测试,取每个手指中的3幅图像作为注册样本,其余4幅图像作为测试样本。指纹特征匹配的类间匹配分数分布和类内匹配分数分布如图7所示。

2.4 匹配分数归一化处理

由于三种生物特征匹配分数的物理意义和值域范围各不相同,为了避免直接融合可能产生三种生物特征对识别结果影响权重不同,影响识别准确性。在将匹配分数进行融合前,需要对各匹配分数进行归一化处理。本文利用三种典型的归一化方法对三种生物特征的匹配分数进行归一化处理。

1)Min-Max方法:将匹配分数的值域统一到[0,1]分布,归一化公式为

其中:s′为归一化匹配分数,s为归一化处理前的匹配分数,max(S)为匹配分数最大值,min(S)为匹配分数最小值。匹配分数最大值和最小值可以通过对较大规模样本进行测试,对得到的已知匹配分数样本进行统计计算获取。

2)Z-score方法:将匹配分数归一化到均值为0,标准差为1的标准正态分布。归一化公式如下:

其中:s′为归一化匹配分数,s为归一化处理前的匹配分数,mean(S)和std(S)分别为归一化前匹配分数的均值和标准差。均值和方差可以通过对较大规模样本进行测试,对得到的已知匹配分数样本进行统计计算获取。

3)Tanh方法:将匹配分数值域归一化到(0,1)分布,归一化公式如下:

式中各物理量含义同式(6)。

分别利用三种归一化方法对手背静脉、虹膜和指纹特征的匹配分数进行归一化处理,得到归一化后的类间类内匹配分数分布如图8所示。

利用区分度指标D衡量类内匹配和类间匹配分布的区分性,其定义如下:

式中:µa,σa为类内匹配分数的均值和方差,µe,σe为类间匹配分数的均值和方差。D越大表明类内匹配和类间匹配分布的距离越大,不同类别之间就越容易区分[14]。

由式(8)计算得到手背静脉、虹膜和指纹匹配分数归一化后类间类内匹配的区分度指标如图9所示,从图中可以看出,利用Tanh归一化方法进行匹配分数归一化后,三种生物特征类间匹配和类内匹配具有了更好的区分性。

2.5 匹配层融合身份识别

利用加权求和规则将三种生物特征的匹配分数在匹配层实现融合,匹配分数融合公式如下:

式中:S′为三种生物特征的融合匹配分数,ωH,sH分别为手背静脉对应的权值和手背静脉匹配分数,ωI,sI分别为虹膜对应的权值和虹膜匹配分数,ωF,sF分别为指纹对应的权值和指纹匹配分数。由于手背静脉类间类内匹配分布具有更好的区分性,说明手背静脉匹配识别具有更高的准确性,因此本文取手背静脉对应的权值系数ωH为0.5,虹膜权值系数ωI和指纹权值系数ωF各为0.25,最后采用最小距离分类器实现身份识别。

3 融合识别算法性能分析

由于目前尚无来自同一个体的手背静脉图像、虹膜图像和指纹图像的三模态数据库,考虑到三种生物特征之间的相互独立性,因此,将TJU手背静脉图像数据库、CASIA虹膜图像数据库和CASIA指纹数据库中提取的指纹测试数据库以一一指配的方式进行融合身份识别实验。我们将108个类别的手背静脉图像和108个类别的虹膜图像以及108个类别的指纹图像一一指配为来自同一类别的三种生物特征,组成实验数据库。实验中,取每类手背静脉、虹膜和指纹图像中的3幅图像作为注册样本,其余4幅图像作为测试样本,对算法性能进行测试。将测试样本和3幅注册样本分别进行匹配,取相似度最高的匹配分数作为测试样本与数据库中该类别的匹配分数,将匹配分数利用Tanh方法进行归一化处理,利用本文融合方法实现三种生物特征匹配分数的融合。在认证模式下,得到不同阈值对应的FRR和FAR曲线如图10所示,当匹配阈值取0.492时,得到等错率仅为0.009%;当错误接受率接近0时,错误拒绝率为0.2%。

4 结论

融合识别篇8

2009年,Wright等人将稀疏表示引入人脸识别问题中[7],提出了稀疏表示分类器(Sparse Representation based Classification,SRC),该方法的基本思想是首先将测试样本表示为所有训练样本的一个稀疏的线性组合,这里“稀疏”的意思指:在将测试样本表示为所有训练样本的一个线性组合时,一些训练样本所对应的系数的值为零或接近于零;然后SRC利用范数最小化技巧来获得最稀疏的解;最后,根据每一类训练样本对测试样本的重建误差做出分类决策。实验证明SRC可以获得令人满意的结果,且SRC对光照、噪声、遮挡具有较强的鲁棒性。随后,人们对基于稀疏的人脸识别方法进行了大量研究。尽管SRC可以在人脸识别中取得非常好的分类结果,但人们依然不清楚它的潜在理论基础,因此,相关研究提出基于SRC的人脸识别中协同性比稀疏性更重要,例如,Shi等人提出基于范数的算法可以媲美于基于范数的算法[8];Zhang等人提出了一种协同表示分类器(Collaborative representation based classification,CRC)[9],CRC采用了正则化范数最小化技巧,实验证明CRC与SRC可以获得相当的分类结果,但CRC具有更高的运算效率。

目前,大多数人脸识别算法非常依赖于训练样本,这些算法进行分类识别的前提之一就是假设有足够多的训练样本。如果没有足够多的训练样本,那么这些算法的性能会受到严重影响,甚至无法进行识别。然而,在实际的人脸识别系统中,由于有限的存储容量和捕获图片的时间,往往只能获得少量的训练样本,即实际中的人脸识别更有可能是一个小样本问题[10]。为了获得更好的人脸识别结果,研究人员提出了合成虚拟样本来扩充训练样本集,如Thian等人利用简单的几何变换来构造虚拟样本[11];Tang等人通过在原始训练样本上增加噪声来构造虚拟样本[12];Xu等人利用人脸的对称性来构造虚拟样本[13],这也是第一次在人脸识别中提出对称脸的概念。

为了有效地解决小样本情况下的人脸识别分类问题,本文提出一种融合原始样本和虚拟样本的人脸识别方法(Fusion of Original Sample and Virtual Sample Method,FOSVSM)。该方法先利用人脸的对称性来构造虚拟样本;然后利用协同表示方法分别对原始训练样本和虚拟训练样本进行分析,并且分别得到每一类训练样本的重建误差;最后,将原始训练样本和虚拟训练样本的同一类重建误差进行加权融合并得到最终的分类结果。人脸具有对称结构,不仅面部结构是对称的,而且面部表情也是对称的,因此,根据人脸的对称性所构造的虚拟样本能够反映某些情况下的可能的人脸变化,这也就是说,本文所提的方法能够有效地解决小样本问题。

1 融合原始样本和虚拟样本的方法(FOSVSM)

假设存在L个不同的模式类别,且每一类包含n个训练样本,x1,x2,…,xN代表所有的N个训练样本(N=n×L),若某个训练样本来自第i类,则它的类标签是i。FOSVSM主要包含三个阶段。FOSVSM的第一阶段是构造原始训练样本的左、右对称脸并产生虚拟训练样本集;FOSVSM的第二阶段是利用协同表示方法分别对原始训练样本和虚拟训练样本进行分析,并且分别得到每一类训练样本的重建误差;FOSVSM的第三阶段是将原始训练样本和虚拟训练样本的同一类重建误差进行加权融合并得到最终的分类结果。

1.1 构造虚拟训练样本

FOSVSM的第一阶段如下:利用原始训练样本构造其左、右对称脸。对于任意一幅图像矩阵,令分别代表它的左、右对称脸,左、右对称脸可以分别由式(1)、(2)来产生,即

其中,分别代表相应图像的第i行、第j列的像素。

现将上述的图像矩阵按列展开成一个列向量,令x1,x2,…,xN,z11,z21,…,zN1和z12,z22,…,zN2分别代表原始训练样本集、左对称脸训练样本集和右对称脸训练样本集,并将所有的左、右对称脸样本组成一个虚拟训练样本集,即Z=[z11,z12,…,zN1,zN2],从而得到两个训练样本集,即原始训练样本集X=[x1,x2,…,xN]和虚拟训练样本集Z。

1.2 协同表示分类器(CRC)

FOSVSM的第二阶段是利用协同表示方法分别对原始训练样本和虚拟训练样本进行分析,并且分别得到每一类训练样本的重建误差。FOSVSM需要利用协同表示方法分别对原始训练样本集和虚拟训练样本集进行分析,但为了方便介绍,这里只描述CRC在原始训练样本集上的分析过程。

根据1.1节内容,训练样本集为X,现在给定某个测试样本y,CRC首先假设存在下面的等式

然后,CRC利用正则化最小二乘方法对式(3)进行求解,可以得到式(3)的解为α=(XTX+λI)-1XTy。其中,λ是一个很小的正数;I是一个单位矩阵。

在获得系数解α之后,即可求得第i类训练样本对测试样本y的重建误差

其中,Xi=[x(i-1)×n+1,…,xi×n]表示第i类原始训练样本;αi表示第i类原始训练样本对应的解向量。

同样地,可以按上述过程对虚拟训练样本集进行分析,则将虚拟训练样本集的第i类训练样本对测试样本的重建误差表示如

其中,βi为第i类虚拟训练样本的解向量;Zi=[Z1(i-1)×n+1,Z2(i-1)×n+1,…,Z1i×n,Z2i×n]表示第i类虚拟训练样本。

1.3 加权融合

FOSVSM的第三阶段是将原始训练样本和虚拟训练样本的同一类重建误差进行加权融合并得到最终的分类结果。根据第1.2节的内容可知,原始训练样本和虚拟训练样本的第i类训练样本的重建误差分别为ri和vi,将它们进行加权融合并作为第i类训练样本对测试样本的最终的重建误差,表示为freci,则有

其中,w1和w2表示进行加权融合时的权值,且有w1+w2=1。

最后,根据每一类训练样本对测试样本的最终的重建误差,将测试样本分类给具有最小重建误差的那类,即若frecl=min freci,则测试样本被分类识别为第l类。

总的来说,FOSVSM方法的主要算法步骤可表示如下:

1)由式(1)和(2)构造原始训练样本的左、右对称脸并组成一个虚拟的训练样本集;

2)根据式(4)和(5)分别计算原始训练样本集和虚拟训练样本集对测试样本的第i类重建误差;

3)将原始训练样本和虚拟训练样本的同一类重建误差进行加权融合,即根据式(6)计算第i类训练样本对测试样本的最终的重建误差;

4)根据每一类训练样本对测试样本的最终的重建误差,将测试样本分类给具有最小重建误差的那类,即若frecl=min freci,则测试样本被分类识别为第l类。

2 实验结果及分析

为了测试本文算法的性能,利用ORL和AR人脸数据库进行人脸识别实验。ORL数据库总共有400幅人脸图像,分别来自40个人,即每一个人包含10幅图像。这些人脸图像分别是在不同的时期、不同表情(如笑与不笑)和不同细节(如戴眼镜和不戴眼镜)等条件下获取的,图1表示来自于ORL数据库的一些人脸图像及其对应的左、右对称脸。AR数据库包含126个人共4 000多幅彩色图像,其中有70名男性和56名女性。这些人脸图像是分两个批次采集完成的,包含不同的表情、不同的光照和遮挡物。本文选取AR数据库的一部分图像进行实验,包括120个人,每人26幅图像,共3 120幅图像,且所有的图像在实验前均被转化成灰度图像,图2表示来自于AR数据库的一些人脸图像及其对应的左、右对称脸。

2.1 ORL数据库实验

对于ORL数据库,本文分别选取每人的前1,2,3幅图像作为训练样本,剩余的图像作为测试样本,因此,训练样本总数分别为40,80,120,相应的测试样本总数分别为360,320,280。在实验前利用下采样方法[14]将所有的图像裁剪为56×46大小。为了验证FOSVSM算法的有效性,本文将FOSVSM算法的实验结果分别与CRC_OR,CRC_VI,SRC等方法的实验结果进行对比,其中,CRC_OR表示协同表示方法在原始训练样本集上进行实验分析;CRC_VI表示协同表示方法在虚拟训练样本集上进行实验分析。对比结果如表1所示。

从表1可以看出,FOSVSM算法总能获得更高的识别率。例如,当每一类的训练样本数为2时,FOSVSM(w1=0.7)的识别率比CRC_OR,CRC_VI和SRC分别高了0.62%,7.81%和6.25%。比较CRC_OR和SRC的结果可知,CRC_OR能够获得与SRC相当的识别率,甚至更高的识别率,但CRC算法的运算效率更高,这证明FOSVSM算法中利用CRC方法进行实验分析能在一定程度上提高运算效率。从表1可以得知:当每一类的训练样本数由1到3变化时,FOSVSM算法的识别率总是高于CRC_OR的识别率,这说明增加训练样本数确实能够提高分类识别率;同样地,在不同的权值条件下,FOSVSM算法的识别率总是高于CRC_OR和CRC_VI的识别率,这说明FOSVSM算法将原始训练样本和虚拟训练样本的同一类重建误差进行加权融合确实能够提高识别率。

2.2 AR数据库实验

对于AR数据库,本文分别选取每人的前13,14,15幅图像作为训练样本,剩余的图像作为测试样本,因此,训练样本总数分别为1 560,1 680,1 800,相应的测试样本总数分别为1 560,1 440,1 320。同样地,在实验前利用下采样方法[14]将所有的图像裁剪为50×40大小。实验结果如表2所示。

从表2可以看出,FOSVSM算法往往能获得更高的识别率。例如,当每一类的训练样本数为13时,FOS-VSM(w1=0.7)的识别率比CRC_OR、CRC_VI和SRC分别高了0.64%,7.50%和4.40%。从表2可知,CRC_OR的识别率总是高于SRC的识别率,这再次证明了FOSVSM算法中利用CRC方法进行实验分析能在一定程度上提高运算效率。同样地,表2中的结果也再次证明了增加训练样本数且对原始训练样本和虚拟训练样本的同一类重建误差进行加权融合确实能提高人脸识别率。

3 结束语

【融合识别】推荐阅读：

文字识别：在线OCR识别更轻松！05-14

车牌识别07-16

语音识别10-15

识别性能10-17

轮廓识别05-08

识别标志05-11

面孔识别05-11

物种识别05-11

种属识别05-15

动机识别05-20