稀疏表示分类

2024-09-11

稀疏表示分类(共7篇)

稀疏表示分类 篇1

摘要:针对基于单一字典训练稀疏表示的图像融合算法忽略图像局部特征的问题, 提出了基于块分类稀疏表示的图像融合算法。算法是根据图像局部特征的差异将图像块分为平滑、边缘和纹理三种结构类型, 对边缘和纹理结构分别训练出各自的冗余字典。平滑结构利用算术平均法进行融合, 边缘和纹理结构由对应字典利用稀疏表示算法进行融合, 并对边缘结构稀疏表示中的残余量进行小波变换融合。实验结果证明, 该算法相对于单一字典稀疏表示算法, 在融合图像的主观评价和客观评价指标上都有显著改进, 并且算法速度也有提高。

关键词:块分类,稀疏表示,图像融合

图像融合是将同一场景来源不同的多幅源图像的互补信息综合起来, 以获得该场景更加准确、全面和细致描述的一种图像处理技术。它在计算机视觉、医学以及航空航天等领域中都有广泛的应用。图像融合算法主要有基于空域的 (加权平均、主元分析等) 和基于变换域的 (小波变换、Contourlet变换[1]等) 。这些融合算法的优点是速度快, 但是容易丢失图像的边缘等细节信息, 从而影响融合图像的清晰度。

稀疏表示 (Sparse representation, SR) 算法作为一种有效的表示模型, 克服了以上问题得到较理想的融合效果, 成为近年来的研究热门。Yang B[2]提出一种基于过完备字典稀疏表示的图像融合算法, 利用DCT字典建立稀疏分解模型, 但DCT字典的适应性不强, 运算复杂度高;陈垚佳[3]提出从待融合图像中随机抽取训练样本集, 采用K-SVD法对样本集训练得到过完备字典, 相比DCT字典能够更接近待融合图像特征, 但是待融合图像本身存在信息缺失的问题, 容易导致字典出现信息缺损;余南南[4]利用K-SVD法对图像库构成的样本集进行训练得到K-SVD字典, 能更好表示图像特征, 适应性强, 并根据稀疏系数非零性分离相似特征和相异特征分别进行融合, 以提高融合图像中相异特征的清晰度。虽然这些算法在字典训练上都有所改进, 但是单一字典容易忽略图像的局部特征, 不能有效表示图像块结构特性的差异。

针对这一问题, 提出了一种基于块分类稀疏表示的图像融合算法。它将图像的子块划分为平滑、边缘和纹理3种结构。对于具有明显边缘和纹理的图像块, 分别训练各自的字典进行稀疏表示, 以获取更加精确的稀疏系数。平滑块直接利用算术平均法进行融合, 减少了运算复杂度;边缘和纹理结构通过分类稀疏表示的方法进行融合, 并对边缘结构稀疏表示中的残余量进一步采用小波变换进行融合, 保证了信息的完整性。实验结果证明, 本文算法在融合图像的主观评价和客观评价指标上均有显著改进, 并且算法速度也有提高。

1 基于稀疏表示的图像融合算法

稀疏表示的理论描述如下, 假设D=[d1, d2, …, dN]∈RK×N为一个过完备集, 对于给定的观测信号x, 可通过字典中原子的线性组合来表示, 即对任意的x∈Γ, 存在s∈RN, 使得x=Ds。稀疏表示的一般描述为求解式 (1)

式中:ε为误差值。基于稀疏表示的图像融合算法, 其本质为待融合图像基于过完备字典对每一个像素域进行稀疏表示再融合、重构的方法[5,6,7]。其框架如图1所示, 方法步骤如下:

1) 将严格配准的待融合图像归一化, 再进行滑动 (sliding) 分块处理, 并把每个图像子块像素拉直成一维列向量v, 得到列向量矩阵V。

2) 将每个子块列向量v在冗余字典D上利用OMP进行稀疏编码, 获得稀疏系数a。

3) 把对应的稀疏系数a按照一定规则融合得到重构系数A, 再结合系数A与冗余字典D重构出融合结果图像。

基于稀疏表示的图像融合相比传统算法融合效果好, 但单一字典的稀疏表示往往忽略了图像的局部特征。针对这一问题, 提出了一种基于块分类稀疏表示的图像融合算法, 它将图像的子块划分为平滑、边缘和纹理结构三类, 对边缘和纹理结构分别训练相应字典进行稀疏表示。

2 基于块分类稀疏表示的图像融合算法

2.1 块分类

根据待融合图像的局部结构特性, 对分块得到的图像子块进行分类。图像f可分为平滑结构fs、边缘结构fe和纹理结构ft。分类方式如下:

1) 平滑结构。根据图像块之间包含的图像信息量不同, 图像子块可分为平滑结构和细节模型。检测图像的信息量高低, 常用的测量函数有方差 (Variance) 、梯度 (Gradient) 、空间频率 (SF) 以及改进拉普拉斯能量和等。文献[8]指出, 在同等条件下, 方差计算速度快且有较好效果, 够有效区分平滑结构和细节结构。方差d计算公式为

式中:xi为像素值;为图像块所有像素值的平均值;M为像素点数。方差越大, 代表图像块的边缘和纹理信息越丰富。根据方差公式计算每个子块的方差d, 设定阈值μ1。若待融合图像对应位置子块的方差值都小于等于μ1, 属于平滑结构fs;否则子块属于细节结构fd。如式 (3) 所示

式中:dA和dB分别为待融合图像A和B对应位置子块的方差值。

2) 边缘结构和纹理结构。经过以上划分, 图像块分为平滑结构和细节结构。本文利用图像子块梯度场的指向性将细节结构分为边缘结构和纹理结构。通过对图像块梯度场奇异值分解 (SVD) , 估计图像块的局部方向性, 其中指向一致性强的作为边缘结构, 指向性弱的作为纹理结构。

设图像块f中像素点xi的梯度为gi=[gih, giv]T, 其梯度矩阵为G=[g1, g2, …, gM]T。根据文献[9]在f中所有像素点梯度gi的平均值与图像块的轴向正交, 轴向估计问题可由求解向量v表示为

图像块梯度场主方向v是G最小奇异值所对应的奇异分量。对G奇异值分解

式中:V是2×2的正交矩阵, 第一列v1代表图像块梯度场的主方向;矩阵Δ大小为M×2。可得G的奇异值为s1和s2, s1代表梯度场主方向上的能量, s2代表与梯度场主方向正交方向上的能量。

设定参数c判定边缘, 则c为

根据上式计算细节结构中每个图像块的c, 设定阈值, μ2若待融合图像对应位置子块的c值都小于等于μ2, 则为纹理结构ft;否则子块为边缘结构fe。

式中:cA和cB分别为待融合图像A和B对应位置子块的c值。

2.2 基于块分类的字典训练

基于块分类稀疏表示的图像融合选择K-SVD法训练字典, 训练可离线操作。字典训练过程为先将待训练样本进行分类, 然后对边缘结构和纹理结构块分别进行训练。

首先, 从标准图像库中随机选取N个n×n大小的待训练图像块, 根据图像块的方差d和选取的阈值μ1区分出平滑结构块和细节结构块。

其次, 利用式 (4) ~ (7) 将细节结构块区分为边缘结构和纹理结构。其边缘结构块构成训练样本集Xe, 纹理结构块构成训练样本集Xt。

最后, 利用K-SVD算法对样本集Xe和Xt分别训练出边缘结构fe和纹理结构ft对应的冗余字典。设定稀疏度为T, 冗余字典中原子数为R, 稀疏系数为θ={θi}, 通过迭代解决如下优化问题

对DCT字典通过以上方法训练, 可得到自适应边缘、纹理冗余字典。相对于单一字典该方法改进了原字典的结构, 能够获得更有效反映图像局部结构特性的冗余字典。

2.3 图像融合

平滑结构fs包含的信息量少, 像素值变化平缓, 用算术加权平均法进行融合就能有较好的效果, 且算法简单, 可减少运算复杂度。权系数选取ω1=ω2=0.5。

边缘结构fe和纹理结构ft利用各自训练的冗余字典进行稀疏表示的图像融合。结构块利用OMP算法获得相对应的系数αA和αB。融合规则为选取稀疏度较低的系数a, 当稀疏度一致时, 则用l1范数进行系数选取。如式 (9) 所示

在稀疏编码中, OMP求解式 (1) 是一种循环逼近的算法, 残余量衰减到一定程度就会很难搜索到与残余量相匹配的原子, 因此衰减后的残余量会引起部分源图像信息的丢失, 从而影响融合效果。本文算法对边缘结构稀疏表示的OMP残余量进行了小波变换融合, 再将融合的残余量加到融合图像中。残余量r为

可得到残余矩阵RA和RB。先对残余矩阵进行小波分解, 再采取高频系数绝对值取大和低频系数算术平均的融合规则, 最后通过逆小波变换得到融合的残余量R。

基于块分类稀疏表示的图像融合算法步骤流程如图2所示。

步骤1, 分块。对源图像A, B进行n×n大小的滑动分块, 分别得到 (N+n-1) × (M+n-1) 个图像子块。

步骤2, 块分类。利用对应子块的方差d区分平滑结构块和细节结构块, d都小于等于阈值μ1的子块属于平滑结构, 否则为细节结构;计算出各细节结构块的c值, 若都小于等于阈值μ2, 属于纹理结构, 反之属于边缘结构。

步骤3, 融合。平滑结构采用算术加权融合算法;边缘结构和纹理结构分别训练出各自的K-SVD字典, 采用稀疏表示算法进行融合, 融合规则为系数稀疏度和l1范数组合取大的原则, 并且将边缘结构稀疏表示的残余量进行小波变换融合后, 再加到边缘融合图像中。

步骤4, 重构。3种模型的融合图像相结合, 再除以每个位置像素值叠加的次数, 最终获得融合结果图像F。

3 实验结果及分析

本文实验采用的4组图像如图3所示, 分别取大小为256×256的多聚焦图像、医学图像和红外图像。待融合图像图3a、图3e和图3b、图3f表示左清晰和右清晰的多聚焦图像;图3c、图3g表示可见光图像和红外图像;图3d、图3h表示不同模态的CT和MRI医学图像。实验将本文算法分别与小波变换法 (DWT) 、Contourlet变换法、稀疏表示法 (SR) 进行对比。实验用MATLAB R2012a编程, 在2 Gbyte内存的Windows7系统上实现。

本文算法需对源图像进行块分类。文献[4]指出随着图像分块的增大, 融合图像的全局误差会减少, 因此4×4和6×6分块会影响图像全局信息使得融合指标降低。而16×16分块过大不仅字典维数变大运算复杂量变大, 且不利于子块局部特征的分割, 融合效果不佳。8×8分块相对保存更多的图像信息, 融合效果更好。综上所述, 本文算法选择8×8分块。

在实验中, 本文算法取μ1=13, μ2=0.75。SR采取8×8分块, 选择K-SVD字典, 融合规则为系数稀疏度和l1范数组合取大原则。Contourlet变换法采用5层分解, 融合规则为低频系数采用算术平均, 高频系数采用绝对值取大。DWT的融合规则为低频系数选用加权平均, 高频系数选用绝对值取大进行融合。实验结果如图4所示。

从主观上评价融合结果图像, 图4a和图4b中明显其字母和数字都比较模糊, 说明DWT的多聚焦融合图像会缺失图像信息;图4c对比度低, 很难分辨红外图像中有效信息;图4d的医学融合图像也出现了对比度低和不清晰的现象。图4e和图4f在字母和闹钟的边缘出现了严重的虚影现象, 这些虚影是Contourlet变换法在分解图像中进行下采样引起的;SR和本文方法的融合图像在清晰度和对比度上都明显优于前两种方法。为了更好评价两者, 对SR和本文方法的融合图像中矩形框的内容进行放大, 如图5所示。

从局部放大图可以看出图5e和图5f中字母和数字比图5a和图5b更加清晰。在图5c中左上角的轮胎明显没有图5g清晰, 并且在融合图4k中图像下部分有出现“雾气”现象, 融合效果不佳。图5h相对5d有更良好的内脏纹理信息。由此说明本文方法相对SR保存了更多图像信息, 融合效果更好。

实验结果分析采用主观评价和客观评价, 客观评价包括了相关系数 (MI) 、空间频率 (SF) 、平均梯度 (AG) [10]的指标。其中MI越大, 说明结果图与源图像相关性越大, 而SF和AG指标值越高, 说明图像越清晰, 包含的图像信息越多。

表1给出了4组融合结果图像的客观指标。从表1的Pepsi实验数据中, SR和本文算法的指标均明显超越了DWT和CT, 融合的质量有改善, 本文算法比SR的性能指标又有显著提高。在Clock实验数据中, 可以看出CT的融合效果最差, DWT和SR的性能指标稍好, 本文算法的性能相比于传统方法有明显改进。而Gun和Med的实验数据中, SR和本文方法的指标具有压倒性的优势, 本文算法相对SR性能指标有所提高。由此可见, 本文算法的融合效果很理想。

表2给出了传统稀疏算法和本文算法在同样实验环境下分别对图2中4组图像进行融合的执行时间比较。实验中本文算法和SR都采取8×8的滑动分块方式, 选择K-SVD字典和OMP进行稀疏编码, 并选用相同的融合规则。Pepsi实验中, 稀疏算法运行时间为1 260 s, 本文算法运行时间为928 s。在2个多聚焦图像实验中, 本文算法相对传统稀疏算法均缩短了近1/4的时间;Clock实验中, 稀疏算法耗费了1 288 s, 本文算法耗费985 s。在红外图像Gun实验中, 稀疏算法运行1 041 s, 本文算法的时间缩短了近3/5。在医学图像Med实验中, 稀疏算法耗费716 s, 本文算法缩短了近1/4的时间。由此可见, 本文算法确实有效地加快了融合速度。

s

4 结束语

本文提出了一种基于块分类稀疏表示的图像融合算法, 根据图像局部特性将其分为平滑结构和细节结构, 并将细节再划分为方向一致性强的边缘结构和方向不规则的纹理结构。其平滑结构采用算术平均融合算法, 边缘和纹理结构采用多字典的稀疏表示融合算法, 并对边缘结构稀疏表示中的残余量采用小波变换融合算法。实验结果表明, 该算法的融合效果有显著改善, 并且算法速度也有提高, 使得图像融合技术能够在军事、工业、交通等领域中得到更好的实际应用。

参考文献

[1]WANG W, CHANG F, JI T.Fusion of multi-focus images based on the 2-generation curvelet transform[J].International Journal of Digital Content Technology and Its Applications, 2011, 5 (1) :33-42.

[2]BIN Yang, LI Shutao.Multifocus image fusion and restoration with sparse representation[J].IEEE Trans.Instrumentation and Measurement, 2010, 59 (4) :884-892.

[3]陈垚佳, 张永平, 田建艳.基于分块过完备稀疏表示的多聚焦图像融合[J].电视技术, 2012, 36 (13) :48-51.

[4]余南南, 邱天爽.稀疏表示的自适应遥感图像融合算法[J].信号处理, 2013, 29 (6) :663-667.

[5]BIN Yang, LI Shutao.Pixel-level image fusion with simulta-neous orthogonal matching pursuit[J].Information Fusion, 2012, 13 (1) :10-19.

[6]LI Shutao, YIN Haitao, FANG Leyuan.Remote sensing image fusion via sparse representations over learned dictionaries[J].IEEE Trans.Geoscience and Remote Sensing, 2013, 51 (9) :4779-4789.

[7]JIANG C, ZHANG H, SHEN H, et al.Two-step sparse coding for the pan-sharpening of remote sensing images[J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7 (5) :1792-1805.

[8]练秋生, 张伟.基于图像块分类稀疏表示的超分辨率重构算法[J].电子学报, 2012, 40 (5) :920-925.

[9]翟雪含, 朱卫平, 康彬.结合KSVD和分类稀疏表示的图像压缩感知[J].计算机工程与应用, 2015 (6) :193-198.

[10]QU G, ZHANG D, YAN P.Information measure for performance of image fusion[J].Electronics Letters, 2002, 38 (7) :313-315.

基于异质局部特征的图像稀疏表示 篇2

关键词:异质局部特征,稀疏学习,视觉词典,基于内容的图像检索

图像特征被广泛应用于图像处理与分析中作为图像的有效表达方式, 其典型应用之一就是基于内容的图像检索 (Content-Based Image Retrieval, CBIR) 。给定查询图像, CBIR直接从图像库中查找与之视觉特征相似的图像, 这种“图找图”式的依据视觉特征相似度给出图像检索结果的方法克服了传统的基于关键字的图像检索技术“字找图”式的不足, 成为当前智能信息检索领域的研究热点[1]。

近年来, 图像局部特征因其良好的可重复性、可分辨性和鲁棒性得了广泛重视和飞速发展, 很多图像局部特征被相继提出 (如SIFT[2], HOG[3]等) , 并用于CBIR等视觉任务中, 弥补了图像全局统计特征 (如颜色、形状、纹理等) 的不足。然而, 图像上所提取的局部特征因其数量较多、维数较高也给大规模图像检索任务带来了新挑战。这种“高维局部特征集”表示图像的方式, 由于进行相似性度量的时间和空间复杂度高而难以适应大规模数据库环境下的图像检索任务, 而图像的全局表示形式 (Holistic Representation) 用一个向量表示一幅图像, 在这方面则有其天然优势, 因为任何两幅图像的相似性直接可用向量之间的距离函数来度量。

为了使图像的表示形式既能像局部特征一样有描述图像细节信息的能力, 又能像全局特征一样简洁明了, 本文提出利用“稀疏学习”的思想, 从训练图像的特征数据中建立超完备视觉词典, 采用局部稀疏编码 (Local Sparse Coding) 和最大值合并 (Max Pooling) 将图像“高维局部特征集”转化为更高维的稀疏特征向量[4], 然后通过直接计算向量相似性得到图像相似性, 并应用于CBIR系统中。另外, 本文不是使用单一局部特征, 而是选取了信息互补的不同局部特征构成异质局部特征, 从而能从多角度描述图像的内容, 在CBIR系统中能得到比单一局部特征更好地检索结果。

1 相关工作

如何从原始“像素级”表示的图像中提取有更强表示能力的图像特征一直是图像分析任务首先要解决的问题, 也一直是计算机视觉和模式识别领域的研究热点。

为了适应大规模图像数据库环境下的应用, 可借助学习机制将提取的图像底层局部特征的集合通过“多对一”映射 (编码) 成为一种全局表达方式, 即用一个向量来表示一幅图像, 以便在图像检索任务中使用通用的相似性度量方法来比较图像的相似性, 迅速返回检索结果。不同于通常所说的颜色、形状、纹理等全局统计特征, 这是一种构造在局部特征基础上的全局特征, 它仍能保留接近于图像底层的细节信息, 可看作是较高一层的特征表示, 这就向着“语义层”特征表示又前进了一步。目前这类特征中比较典型的例子是Bo VW (Bag of Visual Words) [5], S.Lazebnik等人则使用SPM (Spatial Pyramids Matching) [6]方法对其进行了改进, 在一定程度上加入了局部特征的空间分布信息。

另外, 压缩传感和稀疏表达理论近年来在信号处理、模式识别和计算机视觉领域中掀起新一轮热潮, 在人脸识别、场景分类等诸多应用中都取得了较好效果。其中一个核心的概念就是稀疏编码, 最早源自Barlow等人对生物视觉系统研究而提出的有效编码假设[7]。Olshausen和Field则进一步提出了著名的稀疏编码模型[8], 该模型通过基向量 (或基函数) 线性相加表示输入图像, 在最小均方差意义下使重构图像尽可能地与原图像相似, 同时要求表示系数尽量稀疏化。在此基础上, 很多研究者在稀疏编码模型的理论和应用方面做了大量的工作, 取得了丰硕成果, 也提出了许多改进的稀疏编码模型。

对于图像数据, 这些稀疏编码模型大多是从自然图像中“随机”选取若干图像块 (按像素灰度值排列成多维向量) 构成一个训练集合, 加以训练学习后得到基向量和对应图像的稀疏表示 (编码) 。随机采样的子图像块作为样本会给学习过程带来不稳定性 (比如引入背景或非目标区域噪声、对图像尺度、方向、视觉、亮度变化敏感等) , 从而学习到的基向量不一定具有代表性, 并可能存在大量噪声信息冗余。针对以上这些问题, 考虑到目前流行的图像局部特征 (如SIFT等) 本身就是对图像中感兴趣区域 (图像块) 的一种优于“像素级”的多维向量表示形式, 因此, 直接以图像局部特征作为训练样本, 并采用稀疏编码模型学习基向量和图像的稀疏表示, 是特征学习方法研究的新趋势。研究者们最近几年来在这方面做了一些尝试, 并在图像重构、图像分类等应用中取得了较好效果[9,10,11]。

但其训练数据 (局部特征) 大多是在图像上密集采样的结果, 一般都只使用单一的视觉特征。密集采样得到的特征数比基于兴趣点检测得到的特征数要多得多, 而且极易引入背景和非目标区域噪声, 另外单一视觉局部特征一般是精心设计的, 是对图像块某一属性的描述, 如果还能联合其他信息互补的局部特征, 如基于兴趣点检测的特征加上基于局部纹理或形状描述的特征, 则描述能力会更强。

本文正是以此为突破点, 运用稀疏学习的思想, 将SIFT (Scale Invariant Feature Transform) [2]、LBP (Local Binary Patterns) [12]和HOG (Histograms of Oriented Gradients) [3]等3种信息互补的图像局部特征视为异质局部特征进行融合, 最终以一个高维稀疏向量的全局表示形式描述图像多角度的视觉内容, 并将其应用于CBIR任务中。

2 图像异质局部特征的稀疏学习

2.1 局部特征的稀疏学习

图像的局部特征可以看作是对图像某一采样区域特性的向量描述。例如, SIFT特征是基于“团点”检测的, 对图像缩放、旋转、光照变化甚至遮挡和裁剪等均保持着较好的不变性;LBP特征反映了图像上像素点与其近邻像素点灰度值的大小关系, 描述了图像的局部纹理特性;HOG特征则描述了图像内容的局部形状或边缘特性。

图像局部特征稀疏学习的目的, 是利用学习机制将图像底层局部特征的集合通过“多对一”映射 (编码) 成为图像的全局稀疏表示形式, 以便在图像检索任务中使用通用的相似性度量方法来比较图像的相似性。图像局部特征的稀疏学习过程如图1所示。

一方面, 选取图像库中的部分图像作为训练图像, 提取底层局部特征, 通过聚类方法得到初始的超完备视觉词典, 然后利用初始化的视觉词典和训练图像的局部特征, 交替使用词典学习方法和稀疏分解算法, 通过不断的训练学习得到优化的超完备视觉词典和图像库中图像的稀疏特征 (即全局稀疏表示) ;另一方面, 应用系统的输入图像 (如CBIR系统的查询图像) 的局部特征被提取, 并利用训练好的词典对其进行稀疏学习, 得到输入图像的稀疏特征。随后, 这些稀疏特征可被用于各种具体计算机视觉应用中。

记X=[x1, x2, …, xn] (x1∈Ra×1) 为输入矩阵 (每列是一个输入向量) , 表示在d维空间中的一组包含n个局部特征向量的集合, B=[b1, b2, …, bk] (b1∈Ra×1) 为基矩阵 (每列是一个基向量) , 表示由K个基向量构成的视觉词典, S=[s1, s2, …, sn] (s1∈RK×1) 为系数矩阵 (每列是一个系数向量) , 表示利用视觉词典进行稀疏分解 (局部稀疏编码) 得到输入矩阵X的稀疏编码矩阵, 则以上稀疏学习的过程可以表示成下面的优化问题

式中:‖x1-Bsi‖2表示重构误差;si是稀疏性的惩罚函数;λ为规则化参数, 用于权衡重构误差和稀疏约束。该优化问题在S保持不变时是关于B的凸优化问题, 在B保持不变时是关于S的凸优化问题。一般通过交替固定B和S之一的同时优化另一个的方法来优化上述目标函数。

对于学习基矩阵B (即学习视觉词典) , 此时固定S, 该优化问题等价于平方约束最小二乘问题

对于学习系数矩阵S (即局部稀疏编码, 学习局部特征的稀疏编码矩阵) , 此时固定B, 该优化问题等价于L1规则化最小二乘问题

为了将图像用一个向量表示, 对学习到的局部特征的稀疏编码矩阵, 还要进行一个合并操作, 一般采用最大值合并 (Max Pooling) 方法[9]

式中:scj是sc (最终的高维稀疏向量) 的第j行元素;Sj是S的第j行第i列的矩阵元素;n是局部特征向量的数目。最大值合并相当于在对应基向量位置的最强响应, 许多图像分类任务已证实该方法行之有效[4], 故本文也采用最大值合并方法来合并各个稀疏编码, 从而得到整幅图像的稀疏表示。

2.2 异质局部特征的稀疏学习

不同的局部特征, 其设计思路不同, 对图像底层细节信息描述的角度也就不同。这种信息互补的特征组合可视为异质局部特征 (Heterogeneous Local Features) 。本文从众多的图像局部特征中, 选择了如前所述的SIFT (128维) 、LBP (采用P=8, R=1统一模式LBP, 58维) 和HOG (36维) 来构成异质局部特征加以研究。

为了融合图像的异质局部特征, 采用如图2所示的稀疏学习方法。

从图像数据库中选择一部分图像作为训练图像, 分别提取SIFT, LBP, HOG特征组成3个训练特征集, 分别得到3个超完备视觉词典B_sift, B_lbp, B_hog。对于训练好的每一个视觉词典, 利用其对图像的局部特征矩阵进行局部稀疏编码和最大值合并, 分别得到稀疏特征sc_sift, sc_lbp, sc_hog, 最后按照一定的权重进行首尾相连并进行归一化就能得到一个信息融合后的稀疏特征———单位向量sc_slh, 即为该图像的最终全局稀疏表示形式。

这样, 每幅图像仅用一个包含图像多角度局部信息的高维稀疏向量描述。图像相似性可直接用向量相似性来衡量。用这个稀疏特征向量来描述图像的特征, 相比单一特征对图像进行了更全面的描述, 又具备全局特征的形式, 因而这样的特征既具备了较强的图像局部信息描述能力, 又能够适应大规模数据库检索的需求。

3 应用实例:CBIR

将按以上稀疏学习方法得到的图像稀疏表示应用于基于内容的图像检索 (CBIR) 任务中。

3.1 图像库

采用标准图像库Zu Bud[13]。该库包含201栋建筑物的1 005幅图像, 每个建筑物各有5幅图像, 原始分辨率为640×480 (本文实验中将其缩小到320×240以减少数据量) , 是在不同季节和天气条件下从不同视角由两个不同相机拍摄的, 还特别拍摄一些被树木遮挡的图像。采用该库来做图像检索实验能够方便地评估图像特征的性能, 如尺度不变性、方向 (旋转) 不变性、视角不变性、光照不变性以及抗干扰能力等。

3.2 视觉词典学习

为减少计算量, 对每建筑物各取1幅图作为训练图像集, 对这201幅图像提取SIFT, LBP, HOG特征分别组成训练特征集, 通过K-Means聚类得初始化视觉词典, 并按式 (2) 进行词典学习, 分别得到3个具有K (K=1 000) 个基向量的超完备视觉词典。

3.3 图像的稀疏表示

对于学习好的每个视觉词典, 利用其对全部1 005幅图像的局部特征矩阵按式 (3) 和式 (4) 进行局部稀疏编码和最大值合并, 先将每幅图像用一个K维的稀疏向量进行表示;然后, 通过加权联接的方式融合3个稀疏向量, 并进行归一化, 从而形成图像的最终全局稀疏表示, 即3K维的稀疏单位向量。

3.4 图像检索过程和性能评价

为了便于统计结果和评价检索性能, 本文取每幅库图像作为查询图像, 这样图像检索过程简化为, 用两个稀疏单位向量的内积 (夹角余弦) 的来衡量两幅图像的相似度 (内积越大越相似) , 并按相似度从大到小返回指定数量的图像作为检索结果。根据Zu Bud库特点, 指定返回结果图像数T=5, 即等于实际相关图像数, 故本文实验中单次检索的查准率与查全率相同。这里采用平均查准率 (Average Precision, AP) 作为性能评价标准, 即

式中:ni是第幅查询图像检索出的相关图像数目, N=1 005。

3.5 实验结果及分析

表1为按6种不同的加权系数进行稀疏特征融合时图像检索实验的平均查准率。

图3和图4分别是实验中某幅查询图像利用单一SIFT稀疏特征及按0.5∶0.3∶0.2的权值进行异质特征融合后的5-近邻 (5-NN) 检索结果。

由此可见, 在本文设定的实验条件下, 相比单一局部特征, 综合利用异质局部特征进行图像检索, 能够得到更高的查准率, 异质局部特征对图像局部信息具有更全面的描述与区分能力。另外, 每幅图像均由一个高维的稀疏向量来表示, 因而只需要存储该向量中非零系数的值和索引, 且图像间的相似性直接用稀疏向量的距离函数来度量, 明显降低了直接用“局部特征集”表示图像时度量图像相似性的时空复杂度。

4 结论

本文提出了一种将图像的异质局部特征通过稀疏学习映射为图像全局稀疏表示形式的方法, 并将之应用于基于内容的图像检索任务中。文中选取了SIFT, LBP, HOG这3种典型的图像局部特征形成图像异质局部特征, 它们分别描述了图像的兴趣点特性、局部纹理特性和局部形状特性, 加权融合后对图像视觉内容形成了多角度、更全面的描述。

稀疏表示保持的鉴别特征选择算法 篇3

特征选择[1]用于从高维特征空间中选择特征子集,并保持特征子集的原始物理特性,根据使用类别标签与否,特征选择算法可分为非监督和监督两种,本文主要研究监督特征选择算法。经典的监督特征选择算法包括Relief F[2],Fisher Score[3]以及多簇 特征选择(Multi-Cluster Feature Selection,MCFS)[4]等,它们通过特征和类别标签之间的相关性来度量特征的重要性,但是大多数传统特征选择算法对每个特征的度量是独立进行的[3,5],并且将特征逐个添加至所选特征子空间,这种选择方式的局限性在于特征之间的相关性被忽略[4]。最近,l2,1范数正则化优化已经应用到特征选择算法,此类算法通过对特征选择矩阵进行l2,1范数最小化约束来选择特征[6,7]。

与此同时,稀疏表示作为一种基于部分数据的表示,已经吸引了越来越多的关注,并已广泛应用于模式识别和机器学习领域[8]。稀疏表示方法假设一个超完备字典中样本的稀疏线性组合可以重构一个给定的样本,例如Wright等提出的 基于稀疏 表示的分 类方法[9](Sparse Representation-based Classification,SRC),该方法的优化问题惩罚线性组合系数的l1范数,SRC尝试使用所有训练样本的稀疏线性组合来表示一个给定的测试样本,并且认为稀疏非零表示系数集中在测试样本的同类训练样本上。受到SRC的启发,很多基于稀疏表示的特征抽取算法出现,例如文献[10-11]提出的稀疏表示分类器引导的监督特征抽取算法,该算法旨在减少类内重构残差,并与此同时增加类间重构残差,但二者在目标函数的形式上有所不同,文献[10]采用比值方式文献[11]采用差值方式。与特征选择算法不同,特征抽取将原始特征进行转换从而实现数据降维,特征的原始物理特性发生变化。回顾经典的监督特征选择算法,却不存在与SRC直接关联的,本文提出了一种稀疏表示保持的鉴别特征选择(SRPFS)算法,旨在寻找一种线性映射使得在所选特征子空间中,样本的稀疏类内重构残差足够小并且稀疏类间重构残差足够大,并用于优化提出的l2,1范数最小化的目标函数。

1 基于稀疏表示的分类方法

假设样本集为X = [x1,x2,⋯,xn]∈ Rm × n,类别数为c ,类别标签向量z = [l1,l2,⋯,ln]T,其中ln表示X中第n个样本即xn的所属类,给定一个测试样本y ∈ Rm,然后使

用以训练样本为基础向量的超完备字典表示y ,如下:

假设式(1)的系统是欠定的( m< n ),通过求解如下的优化问题可以得到最稀疏解:

然而,公式(2)中的L0优化问题是NP难题而且非常耗时,最近的研究理论[12,13]表明式(2)也可以通过寻找以下优化问题的解决办法进行求解:

该优化问题可以在多项式时间内通过标准线性规

划算法来解决[14],或者使用一种更高效的算法[15],然后利用式(3)中求解的稀疏表示系数向量 δ 对y进行分类,令 φk:RM→ RM(k = 1,2,⋯,c) 表示一种能够从 δ 中选择出与第k类有关的稀疏表示系数的函数[9],即 φk(δ) ,然

后计算y及其第k类原型之间的残差:

如果rl′(y) = minkrk(y) ,SRC将y分到第l′ 类。

2 稀疏表示保持的鉴别特征选择

2.1问题描述

X中除第i个样本xi后,xi所属类为li剩余n - 1个样

本记为Xi= [x1,⋯,xi - 1,xi + 1,⋯,xn]∈ Rm × {n - 1},通过解决L1

优化问题 得到xi的关于Xi的稀疏表 示系数向 量

δiw定义为xi的稀疏类内表示系数向量,该向量的非零元素与li类训练样本相关;δib定义为xi的稀疏平均类间表示系数向量,该向量的非零元素与c类中除li类的剩余c - 1类训练样本相关,即c - 1类的稀疏平均类间表示系数向量;因此,xi的稀疏类内和类间重构分别表示为:

这里的目标是寻找一种特征选择矩阵U ∈ Rm × m进而选择出m′( m′ < m )个特征,U满足的条件为:元素只有‘0’或‘1’;每行或每列中‘1’的数目不超过1;只有m′ 行或列的元素为‘1’。

通过使用U可以使用特征选择后的类内以及类间训练样本对xi进行重构,即稀疏类内重构UTXiδiw以及稀疏类间重构UTXiδib,稀疏类内类间重构残差采用F-范数进行度量,表示如下:

基于SRC决策规则,希望在所选特征子空间中样本xi尽可能接近其稀疏类内重构并同时尽可能远离其稀疏类间重构,考虑所有样本,SRPFS的目标函数定义如下:

式中:β 是一个权衡参数;1m∈ Rm是一个元素为1的向量,然而式(10)是NP难题,因此将关于U的二元约束放松到l2,1范数最小化约束[6,7],此时目标函数可以重写为:

式中:α 是一个权衡参数;.2,1表示l2,1范数,l2,1正则化

项控制U的大小并同时保证U的行稀疏性(行元素接近于0),使SRPFS为数据表示选择出最具鉴别性的特征。

2.2优化

式(11)的向量形式表示如下:

式中 : Sw= [δ1w′,δ2w′,⋯,δnw′]∈ Rn × n, Sb= [δ1b′,δb2′,⋯,δbn′]∈Rn*n,δiw′以及 δib′分别定义为:

令:

对L(U) 关于U求导,可以得到下式:

t = t + 1 ;

∂L(U)

直到收敛准则满足;输出:U 。

= 2αPU - 2XSw(XT- STwXTU) + 2βXSb(XT- SbTXTU)

∂U

(16)

2.3 L(U) 的凹性研究

式中P是一个对角矩阵,第r (r = 1,2,⋯,m) 个轴元素为Prr= 1 (2U(r,:)2)。为了求解式(12)中的U ,对L(U)关于U求导,然而很难用理论证明L(U) 是凹函数,将∂L(U) ∂U置为0,得到关于U的更新规则:

∂L(U)

对式(16)中的

关于U求导,得到下式:

∂U

∂2L(U)

= 2αP + 2XSwSTwXT- 2βXSbSbTXT

(18)

∂U2

根据凹函数的性质,式(15)中的L(U) 是凹的,当且

U ← (αP + XSwSTwXT- βXSbSbTXT)-1(XSwXT- βXSbXT)

∂2L(U)

仅当式(18)中的

是正定的,令:

∂U2

(17)

G = 2XSwSTwXT- 2βXSbSbTXT

为了得到最优U ,重复上述过程直到收敛标准满足,即|L(Ut)- L(Ut + 1)|< ε ,算法1给出了优化的详细过程描述。

(19)

因此式(18)可以重写为:

∂2L(U)

= 2αP + G

(20)

∂U2

算法1:SRPFS算法

2αP是正定的因为它是一个轴元素为正数的对角矩阵,根据正定矩阵的定义,如果G是正定的很容易证明2αP + G是正定的,然而很难直接证明G的正定性,事实上通过在实验中对参数 β 进行控制来保证G的正定性,β 的取值在实验部分给出。在假设2αP + G是正定的前提下,通过下面的定理证明目标函数在算法1中的迭代过程中的收敛性:

输入:训练数据集X = [x1,x2,⋯,xn]∈ Rm × n,类别标

签向量z = [l1,l2,⋯,ln]T

,权衡参数 α ,β ;

将特征选 择矩阵U初始化为 单位矩阵 即

U0∈{0,1}m*m,迭代次数:t = 1 ;

|

n

通过式(5)计算稀疏表示系数向量 δi|

;

|

i = 1

通过式(13)和式(14)计算Sw以及Sb;重复:更新对角矩阵Pt,即:

定理1:式(12)中的目标函数值在算法1中的迭代过程中单调减小。

1

é

ùúúúú

ê2Ut - 1(1,:)2

证明:很容易证明式(12)就是解决以下的问题:

êêêêë

Pt=

+ αTr[UTPU]

mUin X - UTXSw2

- β X - UTXSb2

1

F

F

2Ut - 1(m,:)2ûú

(21)

通过式(17)更新Ut;

相应地,在第t次迭代中有:

2

2

- βX

- (Ut + 1)TXSb

+ αTr[UTPU] ⇒X

- (Ut + 1)TXSw

Ut + 1= mUin X - UTXSw2F

- β X - UTXSb2

+

F

F

F2

2

αTréë(Ut + 1)TPtUt + 1ùûX

- (Ut)TXSw

- βX- (Ut)TXSb

+ αTré(Ut)TPtUtù

F

F

ë

û

即:

utr+ 122

utr222utr2

2

2

2

2

X

- (Ut + 1)TXSw

- βX

- (Ut + 1)TXSb

- βX- (Ut)TXSb

X- (Ut)TXSw

+ α∑

+ α∑

F

F

F

æ

F

2utr2

r

r

utr+ 122

ö÷÷ø

2

2

+ α∑utr+ 12- αçç∑utr+ 12-∑r r r

X

- (Ut + 1)TXSw

- (Ut + 1)TXSb

- βX

F

F

2utr2

è

utr222utr2

æ

ö÷÷ø

2

2

- βX- (Ut)TXSb

+ α∑utr2- αçç∑utr2-∑r r r

X

- (Ut)TXSw

F

F

è

根据[7]中的引理,对于任意非零向量u ,ut∈ Rm,下面的不等式成立:

因此,有以下不等式成立:

即:

utr22

+ α∑utr+ 12X

+ αUt + 12,1X- (Ut)TXSw

它表明式(12)中的目标函数值在算法1中的迭代过程中单调减小。

3 实验

在本节中,通过实验验证算法SRPFS的性能,首先将SRPFS与经典的监督特征选择算法进行比较,然后分析SRPFS的收敛性。

3.1实验设置

4个公共数据集:Wine[16],Breast Cancer Wisconsin(Diagnostic)[16],Connectionist Bench (Sonar,Mines vs.Rocks)[16]以及COIL20[17],Wine,Breast Cancer Wisconsin和Connectionist Bench来自标准UCI库;来自哥伦比亚图像数据库的COIL20包含20个对象,数据集的描述在表1中给出。

将SRPFS与All Features,Fisher Score,MCFS,以及Relief F进行比较,实验中为保证式(20)中G的正定性,β 在4个数据集上分别设置为10-3,10-5,10-3,10-2,使用快速 迭代收缩 阈值算法(Fast Iterative Shrinkage and Thresholding Algorithm ,FISTA)[16]求解式(5),FISTA中的规范 化参数设 置为1,α 的调整范 围为{1,10-1,10-2},对于MCFS以及Relief F邻居样本数设置为5,由于Connectionist Bench和COIL20的特征数大于50,相应的所 选特征数 分别设为 {1,2,⋯,30} ,{1,2,⋯,512} ,即最大值取数据集维度的50%。

3.2分类识别率比较

对于每个数据集,随机选择每类样本集的5种方法在4个数据集上的平均最高识别率(±std)的比较,如表2所示。选择的样本中80%做训练集,剩余样本做测试集,为了证明不同算法的可靠性,将训练集以及测试集的选择过 程重复10次 ,All Features,Fisher Score,MCFS,Relief F以及SRPFS在4个数据集上的平均最高识别率及标准差在表2中给出,可以看出所有的特征选择算法优于All Features,因此,特征选择算法有助于提高识别率,由于SRPFS中保持了样本之间的稀疏相关性,SRPFS从识别率和稳定性两方面的性能明显优于其他方法。

3.3收敛性

在本节中,通过实验证明所提出的迭代算法单调减小目标函数值,直到收敛,图1展示了式(12)中的目标函数值在4个数据集上的收敛曲线图,可以看出目标函数在数次迭代后收敛。

4 结语

在本文中,提出了一种新的监督特征选择算法,称为稀疏表示保持的鉴别特征选择(SRPFS),其目的是选择鉴别性特征子集,使得在所选特征空间中,样本的稀疏类内重构残差和稀疏类间重构残差的差值最小化。通过实验验证SRPFS的性能并与其他4种方法即All Features,Fisher Score,MCFS,以及Relief F在4个公共数据集上进行比较,实验表明SRPFS在识别率以及稳定性方面明显优于其他方法。在未来,考虑将SRPFS的思想应用到非监督特征选择算法研究中,由于不使用样本的类别标签这将是一个更大的挑战。

摘要:稀疏表示作为一种基于部分数据的表示,已经吸引了越来越多的关注,并广泛应用于模式识别和机器学习领域。提出一种新的算法,称为稀疏表示保持的鉴别特征选择(SRPFS),其目的是选择鉴别性特征子集,使得在所选特征子空间中,样本的稀疏类内重构残差和稀疏类间重构残差的差值最小化。与传统算法选择特征的独立性方式不同,该算法以批处理方式选择最具鉴别性的特征,并用于优化提出的l2,1范数最小化的目标函数。在标准UCI数据集和哥伦比亚图像数据库的实验结果表明,该算法在识别性能和稳定性方面优于其他经典特征选择算法。

稀疏表示分类 篇4

差分图像在许多领域得到了广泛的应用,比如:视频压缩,生物医学诊断,天文学,遥感等[1,2,3,4]。本文提出一种新的采用压缩测量值得到差分图像的新方法。差分图像是由目标场景在相邻时间点的图像相减得到的,从而能够得到目标场景随时间的变换。与传统方法需要对目标场景进行成像不同,该方法通过采样矩阵得到压缩测量值,然后利用图像时空互相关性或者差分图像的稀疏性,采用线性或者是非线性的优化方法得到差分图像的估计值。压缩测量值的获取过程是将高维的目标场景数据投影到一个低维空间的过程,实现了数据的实时压缩,从而降低了设备的成本。采用该方法的另外一个优点就是能够降低系统的噪声敏感性,在信噪比较低的时候能够得到较好的差分图像估计结果。

该方法主要包含两方面的内容:首先设计最优的采样矩阵以得到压缩测量数据[5,6,7];采用闭环的迭代方法得到差分图像的估计值,包括基于l2和l1的方法。基于l2范数的方法能够由压缩测量值直接估计出差分图像而不需要首先重建目标场景。这种方法主要利用了目标场景子在连续时间点空间和时间上的相关性。采用基于l1范数的方法主要是能够利用差分图像的稀疏性,从而可以将问题转化为带有不同约束条件的线性逆问题进行求解。

1 信号模型

差分图像就是目标场景在连续时间点图像相减所构成的图像,如图1所示。图1(a)和(b)分别为包含运动目标的场景在连续时间点的图像,(c)即为差分图像。

假设xk和xk+1分别为目标场景在时间点tk和tk+1时的图像,则可以定义第k幅差分图像为:

广义的差分图像定义为目标场景在时间点tk和tk+L所成图像的差别:

与传统方法相比,压缩测量能够降低采样数据的维数,但是压缩测量方法是一种离散数据处理方法:将成像场景离散化为分辨率为δr的单元,然后将离散数据构成一个N×1的向量。压缩测量值的获得需要采用一个M×N的随机投影矩阵将高位数据投影到低维数据空间上,使得压缩测量值包含了恢复原图像所需要的全部信息。

假设x1和x2为两个连续时间点t1和t2的目标场景。在两个时间点目标场景均被离散化为N×1的向量。假设Φ1和Φ2为相应的M×N(M<N)的随机采样矩阵。则压缩测量数据可以表示为:

其中,n1和n2表示方差为δ2的0均值高斯噪声。

2 l2范数优化方法

采用基于l2范数优化方法就是由得到的压缩测量值y1和y2采用优化的方法得到差分图像Δx1,使得Δx1与真实差分图像差值的l2范数最小。

差分图像的求解可以直接由压缩测量值y1和y2得到。采用这种方法不仅能够利用像素间的空间相关性,而且能够利用不同时间点的时间相关性,因而能够得到更加准确的差分图像。假设所估计的差分图像为:

其中,W1和W2为联合最优化估计函数。我们称这种方法为直接差分图像估计方法(DDIE)。

在DDIE方法中我们假设场景在最初采样的时刻是确知的,因此在时间点t1我们可以假设采样矩阵Φ1为单位矩阵,而从t2及以后的时刻采用压缩的方法得到测量值。则式(3)和(4)可以表示为:

采用贝叶斯的估计方法,则目标函数为:

求解式(8)相对于W1和W2的微分,并令其等于0,则可以得到:

矩阵Rβ反映了由于噪声的存在所造成的相关信息的丢失。如果噪声为0,则Rβ为0。然而实际应用中不可避免的存在噪声,从而会造成相关信息的丢失,而Rβ正好反映了相关信息丢失的程度。在存在噪声的情况下,寻找最优的采样矩阵是不切实际的,因此通常采用一些次优的采样矩阵,如由主分量构成的采样矩阵(PC)、由差分图像的主分量构成的采样矩阵(DPC)以及加权的主分量构成的采样矩阵(WPC,WDPC)等[8,9,10]。

3 l1范数优化方法

采用基于l2范数的估计方法的优点在于其能够提供一种闭环的线性估计方法使得目标场景的MSE最小化,然而基于l2范数的估计方法并没有利用差分图像的稀疏性特点。除此之外在l2范数的估计方法中采用的时空相关矩阵虽然能够得到较好的估计结果,但是假设图像静止,这是不切实际的。为此可以采用l1范数的估计方法。采用基于l1范数的估计方法能够充分利用差分图像的稀疏性特点。除此之外,还能有效地采用基于l1范数的全变差方法有效地估计出差分图像的边缘特征。

基于11范数的差分图像估计方法可以看做式(11)所示的线性逆问题:

其中,D为线性变换。线性逆问题的目标就是由含噪测量值y估计出s。式(11)是典型的基于l1范数的信号重建问题,然而式(3)和式(4)所示的差分图像重建问题与式(11)不同。为了采用基于l1范数的方法,可以将式(3)和式(4)改写为:

其中:

假设x在稀疏矩阵Ψ上可以稀疏表示:

则式(12)可以表示为:

式(15)可以通过式(16)求解:

其中,R(s)为正则化分量。

为了充分利用差分图像的稀疏性,可以定义式(16)所示的正则化分量:

如果采用基于全变差的方法求解式(16),则正则化分量可以定义为:

其中,Riso和Rniso分别为各向同性分量和异性分量。和为水平方向和垂直方向的一阶差分算子。

差分图像的估计同样可以采用基于过完备字典的稀疏表示方法。假设稀疏表示字典为Ψ,且Ψ为对称双正交小波变换矩阵,正则化分量为。该方法可以通过基追踪方法(BPDN)求解[11]。

本文给出部分代码如下:

4 仿真分析

本节通过仿真来验证本文所提出的基于l2范数和l1的差分图像估计方法。将郊区的一幅视频图像作为仿真器的输入图像,如图1所示。然后采用PanasonicPV-GS500摄像机对目标场景成像。我们采用传统方法所成图像作为原始图像,然后通过仿真的方式得到压缩采样的光学成像系统的原因是在增加采用不同采样矩阵的灵活性。这种灵活性有利于评估本文所采用方法的性能。同时,我们需要考虑到计算的难易程度。为了降低计算量,不是直接对源图像进行处理,而是将原图像分解为:小块图像进行处理。仿真中所采用的压采样矩阵为PCs,DPCs,WPCs,WDPCs,高斯随机采样矩阵(GPR),以及由计算得到的最优采样矩阵。

图2所示为采用l2范数的差分图像估计方法。原图像大小为N=480×720,分块图像大小为8×8,压缩采样的数据维数为M=5,信噪比为10dB。比较了采样矩阵分别为WDPC和最优采样矩阵时的差分图像估计结果。从图2中可以看出当采样矩阵为最优采样矩阵时估计得到的差分图像与真实的差分图像更接近。采用WPDC作为采样矩阵依然能够得到很好的估计结果。同时需要主要到,WPDC矩阵构造简单,计算效率高;而最优采样矩阵计算非常困难。图中采用RMSE作为衡量图像估计效果的标准。

图3比较了采用l2范数方法时,压缩测量值对各种不同的采样矩阵的估计方法的结果。从图中可以看到,压缩测量数据维数的增加能够显著提高估计的结果。然而从图4中可以看出,并不是采样数据维数的增加就会使得估计结果无限提高。从图4中可以看出,采样数据维数的增加起初会使得估计结果提高;然而当采样数据维数增加到一定程度时反而会使得估计结果变差。这种现象是强调光子数量限制的结果。当M较小时,采样数据维数的增加能够提供更多的信息。然而优于光子的总数量是一定的,随着采样数据维数的增加,每一采样样本所包含的额外信息量减少,从而使得当采样数据维数增加时,估计结果反而降低。当采样矩阵为PC,DPC,WPC时都会出现这样的情况,然而当采样矩阵为WPDC和最优采样矩阵时,估计结果并不会变差。这是因为对于给定的SNR,WPDC和最优采样矩阵是最优的。只有当测量样本所提供的信息能够提高估计效果时才会被考虑,否则就会被忽略掉。对比图4(a)和(b)可以看出,当M相同的时候,分块越大,所得结果的质量越高。当分块大小为16×16时,M=1所能达到的性能和分块大小为8×8时M=5所能达到的性能接近。

从图3中能够看出不同的采样矩阵的有效性。从图中可以看出,采用根据噪声的统计特性对采样矩阵进行加权确实能够有效的提高估计的结果。这种提高在图3(b)中表现得更加明显。采用最优采样矩阵能够进一步提高估计的效果。

采用l2范数方法的优点在于其能够提供一种线性估计方法,使得能够快算简单的估计出差分图像。其缺点在于没有充分利用差分图像的稀疏特性。接下来验证一下采用l1范数方法的差分图像估计结果。所采用的采样矩阵与l2范数方法一致。

图5所示为采用不同的基于l1范数方法的差分图像估计结果。所采用的分块图像大小为8×8。从图中可以看出,三种方法都能够有效地估计出差分图像,其中TV方法的估计效果最优。采用各向同性和各向异性的正则化参数所得到的估计结果相似。

图6所示为采用TV方法时,采样数据维数不同对重建结果的比较。分块大小为8×8,采样数据维数分别为M=1,5,10,20。当M=1,5时,所有的采样矩阵的得到的估计结果相似。事实上,当SNR较低时,所有的采样矩阵都能得到比传统成像方法更好的成像结果。当M=10,20时,不同的采样矩阵会得到不同的估计结果。采样矩阵为PC和DPC时,估计结果类似。这是因为基于l1范数的方法不是直接估计差分图像,而是联合估计出两个时间点的图像。同样,采样加权的方法能够提高估计的效果,但是采样矩阵为WPC和WPDC时。

图7所示为采样矩阵为WPDC时,基于l1范数方法的估计结果比较。从图中可以看出,基于TV的方法能够得到最好的估计结果。但是,所得到的估计结果的提高有限。通过使差分图像的梯度最小化,基于TV的方法能够捕捉到差分图像间的强度变化。然而,差分图像本身是稀疏的,因此利用稀疏性限制同样能够得到较好的估计结果。和其它两种方法相比,BPDN方法的估计结果最差。这主要是因为BPDN方法没有直接利用差分图像的稀疏特性,而是计算两个不同时间点时场景的联合稀疏表示。

5 结语

文中提出了一种基于l1范数和l2范数的利用压缩测量样本的差分图像估计方法,并且对两种方法进行了质化和量化的分析。两种方法都有各自的优点。基于l2范数的方法能够提供一种闭环的线性估计方法,使得计算简单、方便。基于l1范数的方法充分利用了差分图像的稀疏性特点。在l1范数方法中,分析了三种不同方法的重建结果,其中基于TV方法的估计结果最优。对于不同的采样矩阵,估计结果会不同。其中最优采样矩阵的估计结果最优,但是计算量大,不易于构造。采用根据噪声的统计特性进行采样矩阵的加权能够有效地提高估计的结果。

摘要:差分图像能够显示目标场景随时间的变化。采用一种基于图像特征的方法,由目标场景的一组压缩测量数据得到差分图像。该方法主要包含两方面的内容:首先设计最优的采样矩阵以得到压缩测量数据;采用闭环的迭代方法得到差分图像的估计值,包括基于l2和l1的方法。采用基于l2范数的方法能够由压缩测量值直接估计出差分图像而不需要首先重建目标场景。这种方法主要利用了目标场景在连续时间点空间和时间上的相关性。基于l1范数的方法主要采用一种改进的全变差方法和基追踪降噪方法。仿真表明了该方法的有效性。

关键词:压缩感知,差分图像,全变差,基追踪

参考文献

[1]Xue D W,Lu Z M.Difference image watermarking based reversible image authentication with tampering localization capability[J].Int.J. Comput.Sci.Eng.Syst.,2008,2(3):213-218.

[2]Lee S K,Suh Y H,Ho Y S.Reversible image authentication based on watermarking[C]// Proc.IEEE Int.Conf.Multimedia Expo.,2006, 1321 -1324.

[3]Hahn D,Daum V,Hornegger J,Bautz W,et al,Difference imaging of inter- and intra-ictal spect images for the localization of seizure onset in epilepsy[C]//Proc.IEEE Nucl.Sci.Symp.Conf.Rec.,2007, 4331 -4335.

[4]Neifeld M A,Shankar P.Feature-specific imaging[J].Appl.Opt., 2003,42(17):3379 -3389.

[5]Candes E J,Wakin M B.An introduction to compressive sampling[J]. IEEE Transactions on Signal Processing,2008,25(2):21 -30.

[6]Babacan S D,Morula R.Bayesian compressive sensing using Laplace priors [J].IEEE Transactions on Image Processing,2010,19(1);53 -63.

[7]Mishali M,Eldar Y C.Xampling:Compressed Sensing of Analog Signals [M]."Compressed Sensing:Theory and Applications",Cambridge University Press,2011:78.

[8]Carvajalino J M D.Sapiro G.Learning to sense sparse signals:Simultaneous sensing matrix and sparsifying dictionary optimization[J].IEEE Trans.Image Process.,2009,18(7):1395 - 1408.

[9]Elad M.Yavneh I.A weighted average of sparse representations is better than the sparsest one alone[J].IEEE Trans.Inf.Theory,2009,18 (7):1395-1408.

[10]Hyder M M.Mahata K.An improved smoothed approximation algorithm for sparse representation[J].IEEE Trans.Signal Process.,2010,58 (4):2194-2205.

稀疏表示分类 篇5

关键词:稀疏表示,过完备字典,手写数字识别,L1/2正则化

0 引言

手写数字识别是光学字符识别技术 ( OpticalCharacter Recognition,OCR) 的一个分支,它研究的对象是: 如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字。在大规模的数据统计( 如: 行业年检、人口普查等) 中,需要输入大量的数据,以前完全要手工输入,则需要耗费大量的人力和物力。近年来在这类工作中采用手写数字识别技术已成为一种趋势。但是应用系统的性能的关键与瓶颈仍然在于手写数字识别核心算法性能上,最终目标是研究零误识率和低误识率的高速识别算法。

相似性技术是用来分类单个数字的主要技术。该方法对小的词汇库取得了较好的结果,但对大的词库系统显得不足。对于大型的单词识别系统任务,可行的方法是识别单个字符,通过字典将这些字符映射到完备的单词库。但这会产生一个问题: 对于无约束的数字难于分割。分割与识别是相互依赖的一个两难问题。解决这个两难问题的一个办法是在识别前忽略它而直接进行分割,另一个办法是将数字分割成几笔,而不是整个数字。在离线识别中所采用的一种方法是使用纵向直方图来估计初始字符的边界,然后采用各种各样启发式算法来提高分割质量[1]。

一个更具有吸引力的方法是识别和分割同时进行。隐马尔科夫模型( HMM) 是一种在无约束手写识别中识别和分割同时进行的一种流行的方法。但是HMM有明显的缺陷: 一是假设每一个观察的概率只依赖于当前状态; 二它是一种生成式模型,而决策式模型一般在标号和分类任务中给出了更好的性能。

递归神经网络( RNN) 虽然没有上述限制,但只局限于单个数字字符识别。一种更成功的方法是将神经网络与HMM相结合构 成一种混 合型方法[2,3]。虽然混合建模减轻了HMM模型所带来的困难,但并不能完全地实现RNN的序列图像实现。

稀疏表示[4]由于其低采样率、稳定的重构性能使得它的应用迅速发展到众多的应用领域。传统图像处理与识别问题一般需要先提取图像特征或结构,如主成分分析PCA[5],再设计合适的分类器进行分类,如最近邻算法NNA[6],支持向量机SVM[7]等。而稀疏表示有着惊人的优势,图像特征不再是关键因素,且对噪声和遮挡有着较好的鲁棒性。然而在已有的基于稀疏表示方法的应用中[8,9,10],常用基于L1范数正则化进行算法求解。但是L1范数正则化的局限性,在某些情况下[11,12],会导致额外的估计偏差,并不能完全地恢复信号。本文提出了一种改进的稀疏表示的手写数字识别方法。实验证明,该方法是一种稳健的新的离线数字快速识别方法。

1 手写数字稀疏表示识别

1. 1 预处理

在识别分类之前,为了达到好的识别效果,进行一些的预处理是必要的。这些预处理步骤包括配准,阈值化,字符分割等。配准是将所有的图片都放到同一个坐标框架下来比较。配准方法又分为刚性配准和弹性配准。刚性配准主要是指对图像进行旋转和平移操作,而刚性配准的主要操作包括伸缩和裁减等放射变化。本文实验选择的数字图片库是已配准过的。阈值化主要是将灰度图像转换为黑白二值图像。本文中数字分割为手动分割。

1. 2 数字字符表示

假设训练库中共有N个样本,k类手写数字字符,每类数字有Ni( i∈[1,k]) 个训练样本,则有N =N1 + N2 + … + Ni。每个数字字符图像分辨率大小为w×h,将其按列排列成一个M维列向量V,其中M = w×h。对于第i类的训练样本,将其所有的训练数字字符Vi,1Vi,2,…,Vi,Ni,按列存放在矩阵Ai中,即Ai= [Vi,1,Vi,2,…,Vi,Ni]∈RM×Ni。Ai构成了第i类的一个样本线性空间。假设第i类的测试字符为y,y可表示成该类训练样本的线性组合,即:

将所有类的训练样本按列排列,组成一个全局的字典矩阵A( A∈RM×N) ,构成需要的完备字典A,所有列称为字典A的原子:

在没有引入误差的基础上,理论上第i类测试数字字符在矩阵A下的表示形式为:

其中,x0= [0,…0,ai,1,ai,2…ai,Ni,0,…0]T∈RN×1,只有与第i类对应的系数不全为零,其他系数都为零。

1. 3 L2、L1、L0 和 L1 /2 正则化比较

在线性代数中,式( 3) 是一个欠定方程( M <N) ,其解并不唯一。常用解法为最小二乘法,即选择最小化的L2范数正则化来求解。

其中,

然而基于L2范数的正则化并不能得到最稀疏解,可以引入极小化L0范数来求解:

其中,‖x‖0= #{ x1,x2,…,xN≠0} ,即x中非0元素个数。由于对上式求解为NP问题,使得该方法的应用受到了很大的局限。随着压缩传感理论[13,14,15]的发展及RIP等距原理[16]的发现,可以放宽极小化L0范数的正则化,极小化L0范数的问题可以转化为求解等价的L1范数:

其中,

由于实际应用中往往都带有一定密度的噪声z,z∈RM,能量为‖Z‖2< ε。式( 6) 可以改写如下:

式( 7) 的正则化表示形式为:

该正则化模型与Lasso[17]和Basic Pursuit[18]很相似,本文基于L1正则化的稀疏表示实验是通过Lasso模型来求解。

由于L0范数与L1范数的等价条件( 满足RIP等距性) 的苛刻性,本文提出用L1 /2来代替L1范数,但是L1 /2是非凸的,它的解不是全局最优,而是局部最优,但在稀疏表示的实际应用中,局部最优就已经满足不错的近似解。其正则化形式为:

其中,

文献[14]给出了该问题快速求解的解析解。

给定某个测试样本y,一般地可以通过式( 8)或式( 9) 可求得其稀疏表示系数。由于实际噪声或建模误差,可能使得不只一个类的系数非零,从而引入与某个类( 例如为第i类) 特征相关的指标函数δi: RN→RN。对任一x∈RN,δi( x) 为一个新的N维向量,该向量仅保留中与第i类相关的分量,其他分量为零,从而可以计算出y相对于第i类样本的残差:

式( 10) 中Aδi( x1) 为测试图像y的重构图像,根据和原图像的残差来进行分类。

2 实验结果及分析

本文改进的稀疏表示数字字符识别步骤如下:

1输入: K类目标的图像字典A,测试图像y。

2归一化y和A的列使其长度单位化。

3求解凸最优化问题,式( 9) 。

4计算第i类的残差ri( y) 。

5输出识别结果ID( y) = arg min ri( y) 。

2. 1 改进的 L1 /2 正则化实验

采用标准的 数字数据 库MNIST,它包括了60000个训练样本和10000个测试样本点,每个样本点的输入含有28×28个像素,在训练样本集为每个类选取120作为样本,0 ~ 9类总共1200个样本,并训练成过完备字典,从测试集中选取500幅测试样本。以上识别步骤,1 ~ 3步骤是求解稀疏系数解,4 ~ 5步骤根据求得的系数解进行分类。在步骤3分别采用以下2种方法( 基于L1范数式( 8 ) 正则化和基于L1 /2式( 9) 正则化) ,并从识别时间和识别率进行对比。所选用的机器配置为,CPU IntelPentium DualC ore 1. 86GHz,1G内存。

如表1所示,基于L1 /2正则化所耗时间只比L1范数多一点,但在实验中,500个测试样本只错1个,识别率最高。L1 /2正则化能够比L1正则化更好的恢复原始信号。

在实验中,比如识别“0”字符时,由于“8”最近“0”字符,往往在“8”字符类中某几个样本对应的具有较大系数,这些其他类的大系数会给识别产生干扰。L1范数方法是无法避免这种误差的,而L1 /2满足局部最优,能够弱化这种干扰,识别效果最好。所以在下面的实验都是基于L1 /2分类。

2. 2 带噪声手写数字字符识别

从表1可以看出本方法对无噪声的数字块能够准确识别,识别率接近100% 。对带噪声、不同程度光照下的数字进行识别。采用和2. 1节实验一样的字典,进行手写数字识别。图1中,a,b,c三行分别为三组实验,e列为待识别数字,分别受到噪声和光照干扰,f列为二值化结果,g列为稀疏系数图,h列为残差图,残差最小的为识别结果。通过本实验看出,即使数字图像受到强烈的噪声,也能很好的得到正确的识别结果。体现本方法具有较好的噪声鲁棒性。

2. 3 识别算法对比分析

在相同实验条件下,比较不同算法对手数字识别效果。本文利用数字数据库MNIST,在训练集里为每个类选取120个样本,从测试集中每类选取500幅测试样本。手写数字通常是随意的,每个数字都有区别,并且带有少量噪声。如表2所示,稀疏表示算法的识别性能较其他方法超出很多,识别效果最好。而且SVM、HMM、RNN这些分类方法需要基于有效的特征提取方法,才能获得较好的识别结果。

3 结束语

稀疏表示分类 篇6

金属的性能取决于它的成分和微观组织,其中微观组织对金属性能的影响最为直接,因此我们可以通过对金属微观组织的观察和分析(即金相分析技术)来预测和判断金属的性能,并分析其失效破坏的原因。金相分析技术是根据有关的标准和规定来评定金属材料内在质

量的一种常规检验方法,并可用来判断零件生产工艺是否完善,有助于寻求零件产生缺陷的原因,因此它是涉及金属材料生产、使用和科研中一种必不可少的手段,而金相图正是研究金属微观组织最直观的图像。但是由于其种类繁多,若人工对其进行辨别往往需要借助与手册中标准金相图的对比,往往效率低下,因此我们考虑应用计算机自动识别金相图。近年来,稀疏表示理论在计算机视觉领域的应用受到人们的广泛关注。Wright等人就曾提出利用稀疏表示来进行金相识别的思想(SRC),并且相对于前人的方法,取得了更好的识别率。

但SRC也有其局限性,其中很明显的一个缺点就是由于SRC是基于对应像素点之间距离来判定测试图像所属分类的,因此它对于位置的变化非常敏感。在用SRC算法进行人脸识别的实验中,我们很容易发现即便用来测试的人脸图像样本有着很小的位置偏差或是姿态变化,其识别正确的概率就会大大降低。而不同于人脸图像的是,金相图这样一类特殊的图像,其中的信息主要由其纹理所反映,即便同属一类的金相图,特定像素点上的信息也有很强的不确定性。这就导致同类图像对应点之间的距离仍然很大,因此如果不加处理,直接依照标准金相图建立字典并对测试金相图进行稀疏表示并分类,则无法发挥出稀疏表示的优越性,导致识别率不高。

为了提高算法对位置变化的鲁棒性,我们考虑对训练样本和测试样本先进行Gabor滤波。Gabor特征提取后的信号对位置的变化具有更强的鲁棒性,因此适合纹理信息的提取。我们分别利用8个不同方向的Gabor核函数对各类标准金相图进行特征提取,即二维滤波。对于某个特定的测试样本,同样先对其滤波,之后在这8个方向上独立地进行稀疏表示。最后,根据不同方向分类能力的不同,采用不同的权值,将各类表示结果进行加权融合,最终根据SRC得出分类结果。

这篇论文的结构如下:第二部分中,我们阐述了利用稀疏表示识别的基本思想;在第三部分中,我们介绍了基于Gabor滤波的特征提取和不同方向所对应权值的选定。第四部分说明基于最小残差的分类方法。在第五部分中,我们通过实验验证了所提出的方案的表现。

二、稀疏表示识别金相图的基本思想

对象识别中的一个基本问题是利用在k个不同的对象类中的标记训练样本来正确的判决出新的测试样本属于哪个类。对于从第i个类中给定的ni个训练样本进行排列作为矩阵的列。对于金相图识别来说,先将金相图所对应的矩阵转换成向量即生成出w*h维灰度图像;之后Ai的列向量就成了第i个对象的训练金相图像。给出了第i个对象类中足够的训练样本后,来自同一类的任何新的(测试)样本都会近似地与训练样本线性相关:

由于测试样本的成员i最初是不知道的,我们定义一个新的矩阵A,来进行对于k个对象类的n个训练样本的整个训练集的级联。

然后y的线性表示就可以被重新写成依据所有训练样本的形式:

其中是一个系数向量,除了与第i类相关的部分,其余全为0。

正因为所有的向量x0对测试样本y的特性进行了编码,想要得到它,其实就是要解决一个线性等式y=Ax.显然,如果m>n,等式系统y=Ax有无穷多解且正确的x0是其中的一个特解。根据惯例,这个问题可以归结于选择最小l2-norm问题,

然而最优化问题很容易解决(通过A的伪逆阵),解对于识别测试样本y并无特别的益处。一般是密集的,其中包含大量非零项,也就是说和许多不同类的训练样本相关。为了解决这一问题,我们进行了以下简单的观测:一个有效的测试样本y可以只用同一类的训练样本充分的表示出来。如果对象类的个数k足够大,这个表示自然是稀疏的。例如,如果k=20,设计的x0中仅有5%的项非零。恢复出的x0越稀疏,就越容易精确地判断出测试样本y的特征。这让我们寻找y=Ax最稀疏的解,解决下面最优化问题:

其中‖•‖0表示0范数,也就是向量中非零项的个数。事实上,如果A的列向量在一般的位置上,无论何时y=Ax对于某些x有少于m/2个非零元素,x就是最稀疏的特解:。然而,找到待定线性方程系统的最稀疏解是NP-hard,甚至很难接近:也就是说,在一般的例子中,没有已知的步骤来找到最稀疏解在很大程度上比用尽x中项的所有子集更有效。

根据近年来稀疏表示和压缩感知这一新兴理论的发展成果,如果找到的解x0足够稀疏,ι0-最小化的问题等价于如下最小化问题:

这个问题可以用标准线性程序法转化成多项式的倍数。当其解非常稀疏时,更高效的方法就可以利用了。比如,同伦算法恢复解中有t个非零元素次,在训练集的范围内是线性的。在本文中,我们使用OMP来计算稀疏解。效的测试样本y可以只用同一类的训出来。如果对象类的个数k足够大,的。例如,如果k=20,设计的x0中恢复出的x0越稀疏,就越容易精确地特征。这让我们寻找y=Ax最稀疏的问题:0范数,也就是向量中非零项的个的列向量在一般的位置上,无论何少于m/2个非零元素,x就是最稀疏而,找到待定线性方程系统的最稀至很难接近:也就是说,在一般的步骤来找到最稀疏解在很大程度上子集更有效。表示和压缩感知这一新兴理论的发解x0足够稀疏,l0-最小化的问题等化问题:用标准线性程序法转化成多项式的稀疏时,更高效的方法就可以利用恢复解中有t个非零元素内是线性的。在本文中,我们使用abor滤波的特征提取及权值的金相图主要由其纹理的不同来反料的金相图,其某个像素点或某块区强的不确定性,因此如果我们不进行进行各方向上的典。对于测试样上的滤波结果,b)不同方过,不同方向的同的。那么如何线性判别分析优与类间方差的大方差与内的相似性较高是有利的,即此该赋予这些方向对所有的比因此各个方最后,我方向的稀疏解四、基给定一个新

三、基于Gabor滤波的特征提取及权值选择

由于不同类型的金相图主要由其纹理的不同来反映,而即便是同种材料的金相图,其某个像素点或某块区域的具体信息也有很强的不确定性,因此如果我们不进行特征提取,直接使用标准金相图构建字典并且求稀疏解的话,求出的稀疏解会很密集,因此很难进行正确的分类。而Gabor滤波可以提取出图像中的纹理信息,从而弱化图像间的位置变化,特别适合对金相图进行处理。

a)Gabor特征提取。本文中使用的Gabor滤波器如下式

v表示G a b o r滤波器的方向。本文采用8个方向的Gabor滤波器对金相图想进行滤波处理。考虑到不同方向上的滤波结果对识别往往有着不同的贡献,我们对于这8个方向上的滤波结果独立处理。首先用各类的标准金相图构建初始字典矩阵,再对其进行各方向上的Gabor滤波处理,构建8个Gabor特征字典。对于测试样本y,类似地,也先求出其在这8个方向上的滤波结果,然后依次求出各个方向上的稀疏解,

b)不同方向对应权值的计算。上文中我们已经提到过,不同方向的滤波结果对识别结果的贡献和影响是不同的。那么如何确定它们所对应的权值呢?我们从Fisher线性判别分析优化思想中受到启发,想到通过内内方差与类间方差的大小关系来确定权值。各个方向上的类间方差与类内方差的比值越大,说明类内的相似性较高,且与其他类的区别较大,这对于分类是有利的,即此方向Gabor特征的判断能力越强,因此应该赋予这些方向更大的权值。定义类间类内方差比为

对所有的比值进行平均,得到类间内方差比的均值

因此各个方向的权值系数为

最后,我们利用上述权值对之前求出的各个方向的稀疏解进行加权求和,得到最终的稀疏解,

四、基于稀疏解的分类

给定一个新的来自训练集某个类测试样本y,我们计算出它的稀疏表示值。理想情况下,估计值中的非零项只与A中单一类i对应的列向量有关,我们很容易将y分配到那个类。然而,噪声和建模误差可能导致少部分的非零项与众多对象类相关。基于全局稀疏表示,我们可以设计出很多可行的分类器来解决这个问题。例如,可以把y分配给在中最大系数所对应的对象类。然而,在金相图识别中,上述探索没有利用与图像有关的子空间结构。为了更好地利用这些线性结构,作此修改:依据系数和的所有训练样本的相关程度大小(每个对象和y的相似程度)来给y分类。

对于每个类i,令为特征函数,用来选择与第i个类相关的系数。在x∈Rn的条件下,

的非零项是x中与第i类相关的非零项。仅用与

第i类相关的系数,我们可以近似的把给定的测试样本y表示成然后基于分配到某对象类使y和

的残差最小的近似法来给y分类:

五、实验验证

在这一部分中,我们选择了几类常见的金相图进行识别实验,一方面验证此分类算法的功效,另一方面证实前几部分的论述。

我们分别选择含碳粒铁素体、珠光体、铁素体加珠光体、球铁、T12钢、无铅BGA焊球、纯铁的同一倍数下的标准金相图建立初始字典,每一类10个训练样本。之后,我们对每类相同倍数下的金相图进行测试,测试部分结果如图一所示:

图一(a)为测试样本,测试样本与训练样本中的金相图倍数相同,同为一相机拍照结果。(b)为经过加权后的稀疏表示结果。(c)为残差图,红色部分为最小残差,其所对应的类即系统判别的结果。(d)为最终判别结果。

从图一中我们可以看出,虽然在求解稀疏解之前我们采用不同方向的Gabor滤波进行特征提取,并且最终的稀疏解是根据不同方向对解的贡献而加权求和而得的,但是求解出的稀疏解仍然不够稀疏,对于某些测试样本,稀疏解仍然非常“密集”,这无疑使得判定正确的难度很大。但基于残差最小的分类方法仍然改善了稀疏解相对密集的问题。图一中的前两行的测试样本,其稀疏解的最大项所属类别都与测试样本的类别不同,依据残差最小,系统最终得到了正确的类别。这应该得益于此种分类方法更加充分地利用了稀疏解的全局信息,判别结果不仅仅决定于某个稀疏系数。

我们建立了一个30张金相图的测试库。对于此测试库,系统的识别率为73.3%。

六、总结和讨论

在此论文中,我们应用稀疏表示进行金相图的识别。本文主要讨论了三个问题:一是稀疏表示解决识别问题的基本思路;二是针对金相图这类特殊的图像,进行多方向上的Gabor滤波,并在各个方向上独立求解稀疏系数,最后计算权数,对各个稀疏系数进行加权平均;三是讨论了基于稀疏解的分类方法。

今后工作之一是进一步改善特征提取的结果。可以看出,本算法中求解出的稀疏解还不够稀疏,这间接地说明我们提取的特征值还不够鲜明。同时,本算法也可以应用于其它纹理的识别,我们相信稀疏表示在纹理检测识别领域的巨大潜力还没有被挖掘出来。H

摘要:本文中,我们研究了自动识金相图的问题。首先,我们将金相图自动识别问题看成是纹理识别的一个分支,故通过Gabor滤波对其进行纹理特征提取。随后,我们利用对各类金相图在不同方向上的特征值构造多个字典。最后,为了增强对位置变化的鲁棒性,根据不同方向滤波的贡献加权求得稀疏解,并且使用基于稀疏表示的分类方法(SRC)判定测试图片的最终分类。

关键词:金相图识别,特征提取,Gabor滤波,稀疏表示,压缩感知,l1-最小化

参考文献

[1]Wright J,Yang A and Ganesh A,et al..Robust face recognitionvia sparse representation[J].IEEE Transactions on Pattern Analysis andMachine Intelligence,2009,31(2):210-227.

[2]Su Y,Shan S G,and Chen X L,et al..Hierarchical ensemble ofglobal and local classifiers for face recognition[J].IEEE Transactions onImage Processing,2009,18(8):1885-1896.

[3]Sehn L L and Bai L.A review on Gabor wavelets for facerecognition[J].Pattern Analysis and Application,2006,9(2):273-292.

[4]Amin M A and Yan H.An empirical study on the characteristicsof Gabor representations for face recognition[J].International Journal ofPattern Recognition and Artificial Intelligence,2009,23(3):401-431.

[5]Wang L,Li Y P,and Wang C B,et al..2D Gaborface representationmethod for face recognition with ensemble and multichannel model[J].Image and vision Computing,2008,26(6):820-828.

[6]Huang R,Liu Q,and Tao T.Robust uncertainty principles:exactreconstruction from highly incomplete frequency information[J].IEEETrnsactions on Information Theory,2006,52(2):489-509.

稀疏表示分类 篇7

子空间聚类是根据信号子空间跨度将信号聚类的无监督学习问题。子空间聚类算法可以分为4种:统计、代数、迭代和基于谱聚类。文献[1]对当前最先进方法作了综述,如稀疏子空间聚类(SSC)[2],低秩表示(LRR)[3],LRR的封闭式方法(LRR-CFS)[4],这些方法都是基于谱聚类,在人脸聚类和视频运动分割方面都有出色的性能表现。但是这些方法的复杂性实际上限制了数据集的大小。为了解决应用子空间聚类高达数以百万计信号的数据集合问题,定义子空间聚类问题如下。

问题定义:取Y∈RN×L为L个信号的集合,且该L个信号来自K>1的线性子空间。子空间的基为,维度是。子空间聚类的任务是根据信号的子空间,将其聚类。子空间数目K在聚类过程中是假设已知的或估计的。问题的困难度取决于以下几个因素:子空间分离,信号质量,模型精度。

LRR和SSC是两个相似的算法,它们都是通过寻找一个自表达的表示矩阵W∈RL×L来揭示信号之间的关系,在通过W引入的图中应用谱聚类得到子空间聚类。SSC算法通过最小化其l1使得W为稀疏矩阵,LRR通过最小化其原子规范使得W有低秩。SSC与RANSAC[5]和凝聚有损压缩[6]相比有更大的优越性,LRR与本地子空间亲和[7]与Generalized-PCA[8]相比有更大的优越性。LRR和SSC由于其在亲和力计算阶段和谱聚类阶段的多项式复杂度(O(L3))而仅适用于中等规模的数据集。LRR-CFS针对噪声数据提供了封闭式的解决方法,与LRR相比显著降低的计算负载,但是谱聚类阶段的复杂度仍为O(L3)。文献[4]详细描述了与SSC和LRR相比,LRR-CFS的性能表现。

本文提出了一种基于稀疏表示的概率子空间聚类方法,有利于揭示信号之间的关系,从而可以得到一个更有效的子空间聚类方法。所提方法的优越性体现在以下2个方面:1)L规模信号集合的线性复杂度:每个信号由带有M个原子的字典表示,这里M≤L,并通过OMP算法[9]计算表示。计算所有信号表示的复杂度为O(qNML),这里q为稀疏表示的平均基数且q≤M。子空间聚类可以通过原子和信号的共生矩阵的NNMF得到,这一阶段的复杂度取决于L中的线性相关度;2)对噪声免疫:所提方法采用了K-SVD字典学习算法[6],该算法可将学习原子去噪。因此提高了噪声信号集合中的聚类精度(值得指出的是,在LRR和SSC的噪声信号中采取了类似的字典学习)[10]。

2 信号的稀疏表示模式

稀疏表示为低维子空间的信号提供了一个自然模式。该模式假设信号y∈RN可以描述为yDc,这里D为字典矩阵,且D∈RN×M,c为一个稀疏算子,且c∈RM。因此y可以通过D的数列(原子)的线性组合表示。c的还原计算可以转化为优化问题

式中:ε表示近似误差阈值,利用l0的规范‖c‖0计算c的非零部分,这是一个NP问题。因此,求解式(1)的一个直接解是不可行的。采用OMP算法可以得到一个近似解,该近似解无限接近于稀疏解。c的还原计算也可以转化为另一种限制c基数的优化问题

式中:T0是最大基数,根据文献[11],字典D可以是提前定义的或者从给定信号集学习得到。例如,K-SVD算法通过解决以下问题学习得到字典D:。这里Y∈RN×L是信号矩阵,yi表示该信号矩阵的第i列。一旦学习得到字典,每一个信号{yi}iL=1可以用数个原子的线性组合表示。原子的每种组合都定义了一个低维子空间,因此,本文利用了这样一个事实,即由相同的子空间跨越的信号由相似原子组表示。

3 本文提出的方法

本文在概率框架内提出C的稀疏表示集系数:在本文的问题中利用方面模型[12],将表示信号y∈{y1,y2,…,yL}的原子a∈{a1,a2,…,aM}的发生事件与表示子空间的隐式变量s∈{s1,s2,…,sK}结合在一起。进一步将观察对(a,y)解释如下:首先选择一个概率P(s)的子空间,然后选择一个概率为P(a|s)的原子,最后选择一个概率为P(y|s)的信号。联合概率P(ai,yi,sk)定义如下

该式基于给定s的情况下,a和y条件独立,即P(a,y|s)=P(a|s)P(y|s)的假设。该假设对于独立子空间、理想字典、理想稀疏编码和在子空间的常规信号采样(例如每个信号由其子空间的所有基元素表示且该信号不在其子空间内的一个低维子空间)是合理的。在这样的情况下,原子表示一个信号只取决于跨越信号的子空间。从式(3)通过边缘化可得到

混合模式(4)也可以转换为矩阵形式

式中:V'∈RM×L,W'∈RM×K,H'∈RK×L都是非负的,所以有V'ij=P(ai,yj),W'ik=P(sk)P(ai|sk),以及H'kj=P(yi|sk)。下面将讨论如何从稀疏表示系数中得到P(yi|sk)的近似值,并利用其进行子空间聚类。

NNMF将一个非负矩阵V分解成V≈WH形式的两个非负矩阵。文献[13]证明了如果V是由模式(4)得到的联合概率矩阵,那么NNMF的一个解最小化的KL-分歧与模式(4)的最大期望估计是相等的。因此本文根据模式(4)提出一个原子和信号的共生矩阵,应用其NNMF并从H计算条件概率。通过选择最大化ML准则的子空间进行子空间聚类

式中:H-等于H缩放后的行单位和。本文所提算法如下,其复杂度取决于L的线性相关度。该复杂度给定为O(qJNML)+O(qNML)+O(TMLK)+O(KL),该式的第一部分表示K-SVD的复杂度(J次迭代,且假设L≥1),第二部分为OMP复杂度,第三部分为NNMF复杂度(T次迭代),最后一部分表示ML阶段复杂度。算法1详见表1。

4 实验

实验所用计算机的CPU为Intel四核i7,主频2.2 GHz,RAM为8 Gbyte。

4.1 合成数据

实验将本文所提方法的计算时间和聚类精度与LRR[3]、SSC[2]及LRR-CFS[4](采用引理1的算法)相比。

实验1:图1展示了MATLAB计算时间与子空间R128的信号聚类L的比较,表明了本文所提方法的L中的线性复杂度与当前最高水平方法的多项式复杂度的比较。如果L≤216(从集合中随机抽取),那么实验周期还要包括字典D∈R128×128的学习阶段。

实验2:在信号到噪声(SNR)的5~20 dB范围内,通过零均值高斯白噪声对污染信号的聚类精确性进行评估。每个实验在10个子空间的i128中产生一个L=1 000的集合,每个子空间的信号数量相同。每个子空间的基随机地作为一个128×256过完整离散余弦变换矩阵的随机组合列[14]。每个信号的系数通过零均值和单位方差的高斯分布随机采样。由图2展示了噪声平均为10时的聚类精度,结果给出了本文所提方法(M=128个学习原子)与当前先进方法的性能比较。

实验3:图3展示了通过加大数据集合规模(字典训练集同样加大),聚类性能得到提高,最佳结果是L/M>100。最后,图4描绘了NNMF的到的条件概率矩阵P(yi|sk)的一个示例,展示了在相同群集信号的相同子空间的峰值概率(根据联合子空间,矩阵Y的信号通过w.l.o.g.排序)。

4.2 人脸聚类分析

人脸聚类是根据人类特征聚类面部图像集合的问题。从相同的视角并在不同的光照条件下拍摄的人脸图像可以通过维数小于10的子空间分割。

本文所提方案、K-子空间[15]及当前先进方法的人类聚类精度采用扩展YaleB数据库[7]进行了评估,该数据库中包含了28张人脸在9个视角、64个光照条件下的16128张图像。在实验中,给每个人脸分配10个原子(假设子空间维数<10),这样每个人脸至少需要100张人脸图片才能进行有效的字典训练。因此,本文采用完整集合的一个有1 280张图像的子集,该子集包含10个人脸,每个人脸128张图像,由于第4视角和第5视角相似,将两者合并,如图5所示。

在K=2,3,…,8时,通过超过40个不同子集的人脸的平均聚类结果评估聚类精度,对于每一个K值,从人脸集中选择40种不同的人脸,组合出10类。表2给出了聚类结果,显示了本文所提方法与LRR[3]、LRR-CFS[4]及K-子空间方法[15]的精度比较结果。表3总结了每种方法的最佳优化结果的参数(对于K-子空间来讲,d表示每个子空间的维数)。此外,针对本文所提方法,应用OMP求式(2)的近似解并设T0为9。

从表2可以看出,随着K值的增加,各方法的识别率呈下降的趋势,但无论K取何值,所提方法的识别率均为最高,当K为2时,取得最优识别率92.19%,分别比LRR、LRR-CFS、K-子空间方法高0.44%,9.02%,24.59%。

从表3可以看出,随着K值的变化,所提方法中最佳的M值也线性增加,为K值的10倍,LRR中最佳λ值由0.25增加到了0.35,LRR-CFS中的最佳τ值由0.35增加至1,而K-子空间中的最佳d值没有任何变化,始终为8,表明了参数d在K-子空间方法中并不随外界的变化而变化。

5 结束语

本文提出了基于稀疏表示的概率子空间聚类方法,采用结合了稀疏表示的混合模式,并将合成数据和人脸图像的精度与当前先进方法的精度进行比较,所提方法的计算时间仅取决于数据集规模的线性相关度。在YaleB上的实验验证了所提方法的有效性,实验结果表明,与其他几种先进的方法(LRR、LRR-CFS、K-子空间方法)相比,所提方法取得了更好的聚类精度。

上一篇:肖斯塔科维奇下一篇:高职语文教学探析