稀疏自编码(通用7篇)
稀疏自编码 篇1
0 引言
齿轮箱作为一种具有结构紧凑、传动转矩大、传动效率高等诸多优点的动力传动装置,被广泛应用于交通运输、能源化工、起重机械等领域。然而,由于齿轮箱结构复杂、承受负载大、工作环境恶劣等原因,使得齿轮箱易于发生磨损、剥落、点蚀、裂纹等故障。但由于齿轮箱复杂的振动传递路径、强背景噪声以及多振动源激励的影响,使得振动信号信噪比小,故障特征被噪声淹没,增加了特征提取难度。因此,实现强背景噪声中齿轮振动特征的有效提取是齿轮故障检测的关键。
齿轮运行过程中,当损伤轮齿与正常轮齿啮合接触时,会使得轮齿滑动接触表面间的润滑油膜破裂,从而产生冲击,而在齿轮旋转运动下,冲击会按一定的时间间隔规律重复性出现,所以,振动信号中周期性或准周期性冲击成分的出现是齿轮局部损伤的一个关键征兆[1]。因此,选取适当方法将周期性瞬态冲击成分从被强噪声污染的齿轮振动信号中提取出来,对实现齿轮故障诊断具有重要意义。文献[2]针对齿轮局部故障产生的动态响应特点,将信号共振稀疏分解和包络解调相结合,实现了振动信号中瞬态冲击分量的有效识别;文献[3]将双树复小波和局部投影算法相结合,提取齿轮振动信号中的周期冲击分量,实现齿轮故障诊断。此外,局部均值分解[4]、最大相关峭度解卷[5]、局部特征尺度分解[6]等多种现代信号处理方法也被应用于齿轮故障诊断中,并取得了较好的效果。
随机共振是Benzi等[7]在解释地球古气象“冰川期”和“暖气候期”周期性变化规律时提出的。随机共振作为一种利用噪声增强微弱信号特征的处理方法,通过构建评价随机共振效果的测度函数,控制调整噪声或系统参数实现信号、噪声与系统三者间的最佳匹配,从而将噪声能量转移给目标信号,实现目标信号特征的增强提取,为微弱信号检测与特征提取提供了有效的解决途径[8,9,10,11]。虽然随机共振可以在一定程度上实现信号中冲击特征的有效提取[12,13],但对于信号中周期性冲击分量的检测效果不佳,其原因主要是:缺乏有效的随机共振测度函数对其检测效果进行有效合理的评价;峭度指标作为一种量纲一指标,可定量表征信号中的冲击成分,但对初期损伤敏感,对不同冲击幅值、多冲击分量特征的整体定量刻画效果不理想;互相关系数可定量地表征两个信号的相似性,但容易受到噪声的影响;此外随机共振系统参数的合理选取也缺乏有效的理论依据。因此,本文针对随机共振在周期性冲击分量检测中存在的问题,提出了基于自适应随机共振和稀疏编码收缩算法的齿轮故障诊断方法,利用相关峭度对信号中周期性冲击分量的良好评价能力,将其作为随机共振提取周期性冲击特征的测度函数,并借助遗传算法[14]实现系统参数的自适应优化选取,同时,为使得检测结果中的冲击特征更加突出,借助稀疏编码收缩算法的稀疏降噪能力,对随机共振检测结果作进一步消噪处理,从而提高故障识别精度。仿真和工程应用验证了本方法的有效性和实用性。
1 理论基础
1.1 随机共振
随机共振是随着非线性动力学和统计物理理论飞速发展而出现的一种利用噪声来增强微弱信号特征的信号处理方法,强调的是非线性系统、周期信号和噪声间的积极协同效应,它为微弱信号检测提供了有效的解决途径。
过阻尼双稳系统随机共振模型用非线性朗之万方程描述如下:
式中,x(t)为系统输出;s(t)为输入信号;n(t)为均值为0、方差为D的高斯白噪声;U(x)为双稳态势函数;a和b为双稳态势函数的系统参数,均为正实数。
令,可得到一个非稳态解x=0和两个稳态解。势垒高度为ΔU=U(0)-U(x±)=a2/(4b),势间距为
由式(1)可以看出,随机共振的系统输出实际上是布朗粒子在双稳势函数中的运动轨迹。当布朗粒子仅在周期信号作用下时,没有足够的能量跃迁势垒,只能在单势阱内移动;但在适量噪声协助下,布朗粒子可以逐渐积累能量,从而按照周期信号的振荡频率在两势阱间实现周期跃迁,达到“共振”状态,进而将布朗粒子在单势阱内的小范围移动放大为两势阱间的大范围跃迁,达到凸显周期信号特征的效果。因此,随机共振检测微弱信号的过程就是调整系统参数或噪声强度实现信号、噪声与非线性系统三者间最佳匹配的过程。
1.2 相关峭度
相关峭度是Geoff等在峭度指标的基础上,综合考虑冲击成分的周期性而提出的用于定量描述信号中周期冲击成分的评价指标[15]。该指标综合体现了相关系数和峭度指标的双重思想,既考虑了各周期内冲击成分间的相关性,又继承了峭度指标对冲击成分的敏感性。在利用随机共振提取信号中的周期性冲击特征时,既要考虑检测结果的整体效果,即周期冲击特征全部有效提取,又要凸显检测结果的个性特征,即各周期内冲击特征实现最大化提取。而相关峭度没有考虑各周期内信号峭度对整体检测结果的影响。所以,本文在相关峭度的基础上,引入了各周期内的信号峭度指标,并将完善后的相关峭度作为随机共振检测冲击信号的测度函数,依据测度函数最大化选取最优的系统参数,实现周期冲击特征的最佳提取。
设y(n)为均值为零、含有周期冲击成分的原始信号序列,引入各周期内信号峭度指标影响的相关峭度计算公式为
式中,T为冲击周期,单位为数据点数;N为原始信号长度;M为周期偏移数。
对于旋转机械中齿轮、轴承等关键部件的振动监测,由其局部损伤导致的冲击响应周期一般与相应轴的转频成倍数关系,因此,冲击周期T可由分析对象的转频信息和采样频率计算得到。此外,选取的冲击周期T与原始数据长度N不一定满足整数倍关系,因此,当原始数据长度N与选取的冲击周期T不满足整数倍关系时,则采用重采样技术对原始信号进行重采样处理,使得重采样后的数据长度与冲击周期T满足整数倍关系。对于周期偏移数M的确定,为了充分利用各周期内的冲击信息,本文选取
1.3 稀疏编码收缩
稀疏编码收缩算法是Hyvarinen[16]基于稀疏编码理论提出的一种利用数据统计特性从背景噪声中预估非高斯成分的消噪方法。该算法利用非高斯成分的稀疏概率密度函数,借助最大似然估计理论得到阈值收缩函数,从而对观测信号进行稀疏阈值降噪处理,凸显信号中的非高斯分量。在本文中,齿轮故障信号中的冲击分量是典型的非高斯成分,因此,采用该算法对随机共振检测结果做进一步处理,使得冲击特征更加明显,提高故障识别精度。
Hyvarinen[16]提出的非高斯成分的稀疏概率密度函数如下:
式中,x为原始信号,其统计特性表现出非高斯性质;d为原始信号x的标准差;α为控制概率密度函数稀疏性的参数,α取值越大,概率密度函数越稀疏,本文α取值在0.1~0.5之间[17]。
基于上述稀疏概率密度函数模型,利用最大似然估计方法给出稀疏阈值收缩函数,从而可以从观测信号y中估算得到原始信号x的估计值
式1中N,σ为观测信号中的噪声标准差,由公式估计得到;为观测信号y的平均值;d由公式估算得到;σy为观测信号y的标准差[18]。
当式(4)中的平方根为虚数时,取值为零。
2 算法流程
由随机共振原理可知,随机共振检测微弱信号的过程就是通过调整系统参数,使得随机共振测度指标实现最大化的过程。因此,随机共振系统参数调整规则和随机共振现象发生与否的判断标准是利用随机共振实现微弱特征提取的两大关键问题。而目前,随机共振控制参数的合理选取缺乏有效的理论依据,经验法或试验法选取具有一定的人为主观盲目性,因此本文利用遗传算法的多参数同步优化能力实现系统最优参数的自适应选取;同时,利用相关峭度可以定量评价信号中周期冲击成分的优良特性,将其作为随机共振检测冲击信号的测度指标,构造遗传算法的适应度函数,实现齿轮故障信号中冲击特征的自适应提取。同时,由于齿轮故障冲击成分通常具有非高斯性质,而噪声成分则呈现出高斯分布特性,稀疏编码收缩算法可实现高斯信号和非高斯信号的有效分离,因此利用该算法对随机共振的检测结果做进一步消噪处理,凸显信号中的冲击特征。综上所述,本文提出的基于自适应随机共振和稀疏编码收缩算法的齿轮故障诊断方法可以有效实现齿轮冲击故障特征的增强提取,提高诊断精度。该算法的流程如图1所示,具体实现如下:
(1)相关峭度参数设置和数据预处理。根据被测对象的转频等信息选取相关峭度计算公式中冲击周期T和周期偏移数M的初始值,若原始数据长度与冲击周期T不满足整数倍关系,则需对原始信号按照T的整数倍关系进行重采样处理。
(2)遗传算法参数初始化。设置初始种群数量、随机共振系统参数a和b的搜索范围、最大迭代次数、迭代精度等,并利用相关峭度构造遗传算法适应度函数,基于适应度函数的最大化实现系统参数的优化选取。
(3)变尺度随机共振处理。根据信号特征设置变尺度压缩率,将原始信号输入到变尺度随机共振系统[13],利用遗传算法实现系统参数的最优选取,并利用得到的最优参数重构共振系统,从而进一步得到随机共振的最佳检测结果。
(4)稀疏编码收缩处理。利用稀疏编码收缩算法对随机共振的检测结果作进一步的降噪处理,凸显信号中的冲击特征。
(5)故障诊断。依据齿轮故障信号的最终处理结果实现齿轮故障的有效识别和诊断。
3 应用实例
3.1 试验台齿轮裂纹故障检测
齿轮箱作为旋转机械的常用传动装置,长期在低速、重载等恶劣环境中运行,难以避免发生各种损伤或故障。齿轮裂纹作为齿轮箱常见的早期故障之一,具有危害大、隐蔽性强、检测识别难等特点。而且,随着裂纹的逐渐扩展,若未能及时发现,则会导致后续一系列从属故障的发生,成为很多重大事故的潜在诱因。因此,利用齿轮裂纹故障的信号响应特征,实现齿轮裂纹故障的有效检测具有重要意义。
利用齿轮箱故障模拟试验台进行齿轮裂纹故障试验,齿轮箱采用一级传动,其中主动轮齿数为55,从动轮齿数为75。在从动轮齿轮齿根处用线切割加工裂纹,宽度为0.1mm,深度为2mm,如图2所示。用安装在齿轮箱顶盖上的振动加速度传感器采集振动信号,采样频率为12 800Hz,输入转速为780r/min,计算得到从动轮转速为572r/min,数据长度为6144点。
图3a给出了原始信号的时域波形,可以看出波形较为杂乱,没有明显的与齿轮故障特征相符的特征信息;而在图3b所示的频谱图中,频率成分复杂,也没有出现相应的有价值的频率特征信息。对该信号采用本文所提方法进行处理,选取相关峭度的计算参数:周期T由从动齿轮转频和采样频率计算得到,即T=1343;原始数据长度6144与冲击周期1343不满足整数倍关系,重采样处理后数据长度为5372点,采样频率变为11191.67Hz,从而周期偏移数M=3;遗传算法初始参数中的初始种群数量为50,系统参数a和b的搜索范围为[0.1,30],最大迭代次数为25,迭代精度为10-8等;变尺度压缩率R=700;得到的最终处理结果如图3c所示。从图3c中可以清晰地看到一组以近似0.106s为周期的冲击序列,冲击间隔与从动轮/故障齿轮的转频9.533Hz相符。诊断结果验证了所提方法的有效性。
此外,还给出了两组对比分析结果,图4a所示为随机共振方法以峭度指标作为评价函数得到的最优检测结果,图4b所示为以加权峭度指标[12]作为评价函数得到的随机共振处理结果,其中算法参数除随机共振测度函数不同外,其余参数设置与前文相同。由图4a、图4b可以看出,二者均未能有效提取出原始信号中的周期冲击特征。可见,本文所提方法借助随机共振的噪声利用特性和稀疏编码收缩算法可以实现齿轮故障冲击特征的增强提取。
3.2 机车走行部齿轮箱故障诊断
铁路运输作为国民经济的大动脉,正朝着高速方向发展,从而对机车的安全性、可靠性等提出了越来越高的要求。而电力机车作为一种重要的铁路运输工具,其安全可靠性运行是铁路运输的重要保障。齿轮箱作为电力机车的重要动力传递装置,工作环境恶劣,容易发生齿轮的胶合、磨损、裂纹甚至断齿等损伤,严重影响机车的正常运行。为保证机车的行车安全,缩短故障维修时间,实现齿轮早期故障的识别与诊断具有重要意义和实用价值。同时,由于机车运行环境复杂,所采集到的振动信号的信噪比往往很小,大量随机噪声掩盖了齿轮故障特征信息。因此,引入本文所提出的方法分析电力机车走行部齿轮箱振动信号,实现齿轮故障的有效诊断。
某型号机车走行部齿轮箱为一级斜齿轮减速传动,齿轮齿数分别为20和87,机车运行速度为63km/h,车轮直径为1.25m,计算得到大齿轮的转频为4.47Hz,小齿轮的转频为19.44Hz,齿轮啮合频率为388.9Hz。采样频率为12 800Hz,数据点数为13 500点。图5a所示为齿轮箱振动信号时域波形,可以看出,原始信号中含有不太明显的冲击成分,但由于背景噪声的影响,故障征兆不明显。而在其频谱图(图5b)中,频率成分较为复杂,有用信息也被噪声淹没,未能发现与齿轮故障相关的频率特征信息。采用本文所提方法对该信号进行处理,选取相关峭度的计算参数如下:周期T=2864,重采样后数据长度为14 320点,采样频率变为13 577Hz,周期偏移数M=4;遗传算法初始参数与前文相同,变尺度压缩率R=400,处理结果如图5c所示。从图5c中可以发现,信号中出现了明显的一组等间隔冲击序列,冲击周期近似为0.22s,与大齿轮的旋转频率4.47Hz相符,说明在大齿轮的某个齿上存在局部损伤。
图6所示为随机共振方法结合峭度指标和加权峭度指标得到的检测结果。由图6a和图6b可以看出,除了较为明显的前两个强冲击特征被提取出来,其余的弱冲击特征依然被噪声淹没,未能有效识别。因此,依据图6的处理结果难以给出明确的诊断结论。在之后的检修中发现机车走行部齿轮箱大齿轮某一齿的齿根存在裂纹损伤,与本文所提方法分析结果相符,验证了本文方法的有效性和优越性。大齿轮齿根裂纹故障图片见图7。
4 结语
本文针对随机共振在周期性冲击分量检测中存在的问题和不足,提出了基于自适应随机共振和稀疏编码收缩算法的齿轮箱故障诊断方法。该方法选用相关峭度作为随机共振检测周期性冲击分量的测度函数,并采用遗传算法优选随机共振系统参数,实现齿轮故障冲击特征的自适应随机共振检测;在此基础上,利用稀疏编码收缩算法对信号中非高斯分量的稀疏降噪能力,对随机共振检测结果做进一步降噪处理,凸显冲击特征,提高齿轮故障诊断精度。试验和工程实例结果表明,该方法对齿轮故障振动信号中的周期性冲击成分具有良好的提取效果,从而为齿轮故障诊断提供了一种有效解决途径。
摘要:针对强背景噪声下齿轮故障冲击特征提取问题,提出了一种基于自适应随机共振和稀疏编码收缩算法的齿轮故障诊断方法。该方法选用相关峭度作为随机共振检测周期性冲击分量的测度函数,借助遗传算法实现信号中周期性冲击特征的自适应提取;在此基础上,利用稀疏编码收缩算法对随机共振检测结果做进一步降噪处理,从而凸显冲击特征,提高故障识别精度。试验和工程实例分析结果表明,该方法可实现齿轮故障冲击特征的增强提取,为齿轮故障诊断提供依据。
关键词:随机共振,相关峭度,稀疏编码收缩,冲击特征提取
基于稀疏编码的体数据压缩 篇2
关键词:稀疏编码,体数据压缩
0 引言
体可视化技术是可视化研究中的关键技术之一, 在计算流体力学、地球、空间、医疗科学等各个领域中得到广泛应用。体数据由于是高维数据, 数据量较大, 特别是近年来随着数据获取设备性能的提高和科学模拟精度的增加, 体数据的数据量急剧增长, 达到了几十GB甚至TB级别。
如此巨大的数据量对计算性能、存储空间和网络传输速度等都提出了很大的挑战, 如当前的显存空间难以一次性读入整个体数据进行绘制, 因而体数据的压缩技术研究是当前可视化领域的一个重要研究问题。常见的体数据压缩方法有三维小波变换[1,2,3,4]、PCA降维[5]及张量分解法[6]等。这些方法从体数据中提取一组统一的基矢量, 将体数据投影到这组基上以获得压缩效果。这组基矢量的选取标准是使体数据压缩后的全局平均误差较小。然而体数据中局部区域的数据并不是与所有的这些基矢量都相关, 对各个局部体数据而言, 选取的基矢量集合中只有少量基矢量与它高度相关, 其他基矢量对此数据块的重建效果作用不明显, 因此对各个局部数据块用各自相关性较高的基矢量重建能获得较好的效果, 而且能节省压缩后的存储空间。
本文将稀疏编码方法引入体数据压缩中, 提出了一种新的体数据压缩方法。稀疏编码依赖于数据的统计特性[7,8], 通过定义稀疏性约束来优化学习基矢量, 并且对每个局部数据块用基矢量集合中的少量最具代表性的基矢量重建。在各类用基矢量重建压缩的方法中, 数据块在基矢量上的投影系数都占据绝大部分的存储量, 相对于PCA等方法, 稀疏编码方法虽然使用了较大的基矢量集合, 但每个数据块只需用更少的基矢量重建, 从而只需存储更少的投影系数, 因而能获得更大的压缩率。稀疏编码方法目前在特征提取、模式识别等方面取得了许多成果, 具有重要的实用价值[5]。体数据中具有很多空区域 (体数据值为0) 和统计相似区域, 这些区域用少量的基函数就能获得较好的重建结果, 因而很适合用稀疏编码方法进行压缩。本文将稀疏编码方法引入体数据压缩中, 取得了比PCA等方法较好的压缩效果。
1 相关工作
首先, 假设自然数据具有稀疏结构, 即任意给定的一个体数据可以用一个很大的数据集合中的少数几个非零元素来描述, 因此, 根据Barlow的冗余减少理论[9], 可以找到一个特别的低熵编码的形式。稀疏编码压缩体数据时, 首先对体数据进行了分块, 分割成大小相等的数据块, 这些数据块以矢量形式存储, 组成数据集。压缩过程分为两步, 首先从这个数据集中提取基矢量集合 (又称数据字典) 。压缩时对每个数据矢量找到最相关的少量基矢量, 并将此数据矢量投影到这些基矢量上获得压缩后的投影系数, 然后根据获得的投影系数来更新这个基矢量集合。递归进行前面的两个步骤, 直到找到一个较为稳定的字典和稀疏系数。该算法的整个流程如图1所示。
1.1 分块预处理及初始基选取
当稀疏编码模型用于体数据特征提取实验时, 我们并不是直接将每个体数据作为输入数据, 而是采用子块的形式对体数据进行分块压缩。若输入的体数据大小为L×L×L, 分块大小为τ×τ×τ (τ一般选取8或16) , 这样整个体数据被分成了块, 记为n, 组成一个n维的矢量, 然后将整个矢量作为训练数据进行特征提取。
初始基函数为一个随机数组, 需要进行归一化。
1.2 投影
首先, 将体数据中以x为中心的记为patch, 则整个体数据可以描述为N个patch的集合{P0, P1, …, Pn-1}, m个n维矢量数据组成字典D={dk}m-1k=0, 则patch集合中的元素Pi可以通过字典来描述:
其中, ω (k) 是系数矢量, 且数据字典中的特征矢量之间的差异应该能体现出patch集合中矢量数据之间的差异, 同时为了满足压缩的要求, 数据字典中矢量的数据量须小于patch集合中矢量的数据量。
所以, 给定patch集合和字典D, patch的稀疏分解为求系数矢量:
即patch中不为零的系数的个数不超过s个, 这个问题可以近似转化为下列优化问题:
其中, λ控制c的稀疏度, 它衡量了编码描述体数据的压缩程度。
1.3 字典更新
稀疏编码中最核心的关键就是字典更新, 选择较佳的数据字典能相应的提高压缩效率, 其中常用的方法是快速SVD[10], 其步骤如下:
步骤1首先, 初始化字典D为随机数组, 并归一化每一列。
步骤2逐个更新字典中的每一个dk (k=0…m-1) 。
令Ik={i|ωi (k) ≠0}, 它是使用了dk的那些Pi的序号集合表示除了dk外重建Pj后的余量, 则dk和ω (k) 的更新为;
它相当于对的一个SVD基近似用SVD的方法来求解。
步骤3对所有的dk进行归一化。
步骤4重复步骤2, 直到收敛, 结束迭代过程。
通过对数据字典和系数矢量的多次迭代学习, 我们就可以训练得到一个比较好的稀疏编码模型, 这个目标模型具有位置选择性、方向选择性以及频率选择特性。
为了便于体数据在绘制的时候能够随机访问体素, 实现边解压边绘制的目的, 需要首先找到体素在体数据中所在的块号i, 然后确定体素在块中的位置j, 由数据块的序号可以找到k个重建基矢量d1d2…dk和在这些基矢量上的投影系数ω1ω2…ωk, 最后重建该体素的值C:
并且该体素值与其在原文件中的存储顺序相对应, 相对于传统的方法重建该体素只需要较少的基矢量, 因此可以在需要绘制体数据的时候进行直接绘制, 大大加快了随机访问的速度。
2 实验结果与分析
本文的实验平台是Intel Core Duo CPU E8400 3.00GHz 2G RAM, 表1给出了各种方法的对比数据, 图2是Engine体数据压缩后的绘制效果, 图2 (a) 是无压缩的原图效果, 图2 (b) 是PCA压缩的效果, 图2 (c) 是小波压缩的效果, 图2 (d) 是本文方法压缩的效果。由表1数据和图中效果可以看出, PCA压缩后会丢失部分边缘信息 (如图中红框所示) , 压缩效果较差, 小波压缩后绘制效果较为理想, 但在相当的压缩误差下压缩比比本文方法低。
图3是Lobster体数据压缩后的绘制效果, 在图3 (a) 是无压缩的效果, 图3 (b) 是PCA压缩的效果, 图3 (c) 是小波压缩的效果, 图3 (d) 是本文方法压缩的效果。在相当的压缩比下, 小波压缩和PCA压缩后误差较大, 绘制图中产生了较多的噪声, 而本文压缩误差较小, 绘制结果较光滑。
另外, 数据字典每次学习只是更新一个基矢量, 因此用传统的压缩方法会大大地影响编码效率。本文中使用了快速SVD分解方法, 每次求解一个特征向量来进行更新数据字典的一个基矢量, 虽然需要多次学习来达到一个稳定的字典, 但是算法复杂的增加总体上对压缩编码的效率没有太大的影响, 对体数据的压缩质量有一定的改善, 具有一定的应用前景。
3结语
由于体数据中的数据值变化较大, 高频分量较多, 用统一的基矢量难以达到较好的压缩效果, 但与此同时体数据中各部分均存在较多的相似区域, 各部分的数据均能通过较少的基矢量重建。这种特性使得稀疏编码非常适合体数据的压缩。本文提出了一个基于多次迭代学习数据字典和系数矢量来构造一个较为完备的稀疏模型, 通过实验结果对比证明了稀疏编码可以有效地压缩体数据, 利用体数据固有的统计结构特性进行数据压缩或独立基向量分析已经成为了可能。与传统的体数据压缩方法相比, 压缩效果有较大的改进, 且体数据的信息保持程度也得到了显著的提高, 在同样压缩比的情况下, 稀疏编码模型更好地保持了原数据块的结构信息。随着体可视化技术的日益发展, 体数据压缩的应用将会越来越受到重视。
参考文献
[1]Guthe S, Wand M, Gonser J, et al.Interactive rendering of large volume data sets[C]//Proceedings of the IEEE Visualization, 2002:53-60.
[2]Gregorio Bernabe, Jose M Garcia, Jose Gonzalez.A lossy 3D wavelet transform for high-quality compression of medical video[J].Journal of system and software, 2009, 82 (3) :526-534.
[3]Jiebo Luo, Xiaohui Wang, Chang Wen Chen, et al.Volumetric medical image compression with three-dimensional wavelet transform and octave zerotree coding[C]//Proc.SPIE 2727, Visual Communications and Image Processing’96.1996:579-590.
[4]Pujita Pinnamaneni, Joerg Meyer.3-D Haar Wavelet Transformation in Java, 2008:234-243.
[5]Mǚller W, Nocke T, Schumann H.Enhancing the Visualization Process with Principal Component Analysis to Support the Exploration of Trends[C]//Proceedings of APVIS, 2006:121-130.
[6]Wu Q, Xia T, Chen C, et al.Hierarchical Tensor Approximation of Multidimensional Visual Data[J].IEEE Transactions on Visualization and Computer Graphics, 2008, 14 (1) :186-199.
[7]Candes E J, Wakin M B.An introduction to compressive sampling[J].IEEE Signal Processing Magazine, 2008, 25 (2) :21-30.
[8]Candes E J, Romberg J, Tao T.Robust uncertainty principles:exact signal reconstruction from highly incomplete frequency information[J].IEEE Transactions on Information Theory, 2006, 52 (2) :489-509.
[9]Barlow H B.Single units and sensation:A neuron doctrine for perceptual psychology[J].Perception, 1972, 1:371-394.
稀疏自编码 篇3
图像理解(image understanding,IU)就是对图像的语义理解,通常称为图像解释和场景分析,是在对图像的视觉信息的处理分析基础上解释图像的内容[1]。最近,基于语义关系的图像理解已成为计算机视觉研究的热点之一。
当前学者提出了大量的图像理解算法,其中通过Label Transfer的无参数图像理解[2,3]的第一步就是图像检索,找到跟查询图像(query image)相关的一组图像。文献[2]提出结合K-NN算法和ε-NN算法来进行图像检索,提取图像的GIST特征信息,利用空间金字塔匹配核(SPM)对图像进行编码,再计算欧氏距离。经过图像检索、SIFT flow和Label Transfer等步骤完成图像理解。而在文献[4,5]中图像检索使用了四个全局的特征,包括Spatial pyramid、GIST、tiny image和color histogram,基于每个特征按照欧氏距离检索相关图像并进行排序。再提取查询图像的superpixels,并结合MRF能量函数解决图像标注(Image labeling)问题。
对查询图像的相关图像有效的图像检索是图像理解过程的第一步,对图像理解结果相当重要,因此本文将基于非负稀疏编码的图像特征提取和表示算法运用到图像检索中。
1 图像特征提取相关工作
一方面,学者提出了很多图像的特征提取和表示算法,如Shape Context[6]、Color Descriptor[7]、GIST[8]、SIFT[9,10]。在LDA[11](Latent Dirichlet Allocation,LDA)模型基础上,Li Fei-Fei等[12]提出了“视觉词袋”(Bag of words,BOW)的概念。Csurka等[13]提出了基于特征袋(Bag of Feature,BOF)的图像分类方法。Grauman等[14]提出了金字塔匹配核(Pyramid Match Kernel,PM)方法。Hadjidemetriou等[15]提出了多分辨率直方图(Multiresolution Histogram,MH)匹配方法。而Lazebnik等[16]改进了Grauman的模型,用空间金字塔匹配核 (Spatial Pyramid Matching,SPM)对自然图像进行分类。Jianchao Yang等[17]将稀疏编码的思想引入到SPM算法中提出了ScSPM,取代SPM中的矢量量化方法(Vector Quantization,VQ),有效地降低了算法复杂度。
另一方面,稀疏编码理论及其应用逐渐完善。Olshausen等[18]正式提出标准的稀疏算法(Sparse Codes,SC),通过定义稀疏性约束来优化学习重构误差最小,迭代学习得到特征基向量。非负矩阵分解[19]方法(Nonnegative Matrix Factorization, NMF)被广泛用于高维数据的降维,如学习图像的基于部分的表示[20]。Hoyer[21]在非负矩阵分解的基础上提出NNSC(Non-Negative Sparse Coding,NNSC)模型,这种方法已经成功地模拟V1区感受野的响应。
本文将非负稀疏编码引入到ScSPM算法中进行图像的特征提取和表示,并用于图像检索。
2 图像特征提取方法
2.1 图像特征提取和表示
文献[12]中首先对所有的特征点进行聚类,每一类代表一个“视觉单词”,然后学习“视觉词典”的分布情况,最后分类。
首先定义A表示图像的特征基向量,特征基向量的个数都为K,特征点集合为{Xi}undefined,M是所有图像特征点的总个数,Xi代表一个128×1维的特征点向量。
根据传统的矢量量化(Vector quantization,VQ)方法,使用k-means聚类算法可以找到K个聚类中心:
undefined
引入非负稀疏编码的思想,定义一个非负稀疏系数矩阵s=[s1,…,sM]T,将式(1)进行变形,得到:
undefined
约束条件为A≥0、S≥0,∀i,Card(S)=1
Card(S)=1表示s中只有一个元素是非零的,其他都是零。再加入一个惩罚函数,放宽约束条件:
undefined
约束条件:A≥0、S≥0,λ≥0
将S的约束条件放宽至很多个元素等于或者趋于零,式(3)即转换成非负稀疏编码问题,成为一个目标函数的最小化问题:
undefined
约束条件:A≥0、S≥0,λ≥0,∀k,‖Ak‖=1
根据非负稀疏编码算法,利用梯度下降法可得到A、S,迭代步骤如下:
①初始化A、S,t=0。
②At+1=At-μ(AtSt-Xt)·(St)T。
③令更新后的A中所有的负值为零。
④st+1=st*((At)TX)/(At+1)TAt+1St+λ)。
当A、S收敛时,得到所有图像的一组特征基向量。这时将每个特征点用A进行非负稀疏编码,则将每幅图像表征为一个K维向量。
假设一幅图像有P个特征点,A的维数为128×K,金字塔层数为3,则所有特征点经过非负稀疏编码后的稀疏矩阵为{Si,j}undefined。采用最大化聚合策略:
Zj=i,…,K=max{Si,j}undefined (5)
则图像Ii经过群非负稀疏编码表示为zi,zi的维数为(1+4+16)K,以编码后图像之间欧氏距离作为标准来检索相关的一组图像。
2.2 图像检索
给定一张查询图像Ii,从N张图像(Zj)undefined中检索出D张最相关的图像。
首先计算查询图像Ii与N张图像之间的欧氏距离:
undefined
接着对图像之间的欧氏距离进行排序:
∑undefinedIk=∑undefinedsort(∑undefineddistj) (7)
这个过程是对图像之间的相似度进行比较和排序,虽然是对N张图像的一个“全循环”,但速度较快。
2.3 应用
可将基于非负稀疏编码的图像检索方法应用到图像理解中,结合文献[2,3,4,5],对查询图像进行图像分析,达到对查询图像的分割和识别。
3 实验结果
3.1 数据集
从图像数据集LabelMe[22]中选取37个分类,包括indoor、street、office等,总共包含565张已标注的图像。
3.2 图像检索结果
图1查询图像是来自paris_static_street类。使用LabelMe工具[22],对查询图像进行人工标注,如图2所示。标注结果主要包括car、sky、building、sidewalk等内容。
图3是使用GIST特征,通过分析图像空间包络属性检索出的一组30张图像。图像空间包络属性是基于图像整体语义属性的中间层表示,认为自然图像的语义跟自然图像的整体结构布局有关,采用GIST特征,提取GIST特征的计算量比较小、运算速度比较快,但是识别精度较低。
图4是用基于非负稀疏编码的图像检索方法检索出的一组30张图像。结合非负稀疏编码和SPM的NNScSPM算法主体思想是基于图像局部语义的中间层表示形式,采用SIFT特征[9,10],分类正确率很高[1,16,17]且SIFT特征对平移、旋转、尺度缩放、亮度变化、遮挡和噪声等具有良好的不变性,对视觉变化、仿射变换也保持一定程度的稳定性。
通过比较,可见图4检索出的图像与查询图像的相关性要优于图3检索出的图像与查询图像的相关性,这将对图像理解[2,3,4,5]结果有很大的提高。
3.3 应用
本文将基于非负稀疏编码的图像检索方法运用到文献[4,5]的图像理解算法中。图5是只基于非负稀疏编码的图像检索方法得到的图像理解结果。
文献[4]中提出综合使用四个全局特征检索出来的图像可能具有更好的相关性。因此可将NNScSPM替代SPM,与GIST、tiny image和color histogram一起检索相关图像。
4 结束语
稀疏自编码 篇4
稀疏编码已经在信号处理和图像识别等计算机领域有广泛的应用, 特别是稀疏编码理论蕴藏着与其它技术所不具有的广泛的应用方向, 比如信号重建[1], 图像降噪[2], 小波分解[3]。在计算机视觉领域, 研究图像本质上是对图像特征的研究或图像矩阵的分析, 稀疏编码继而成为一种高效的特征提取和图像重建技术方法, 此外, 它还应用在了相似度测量、图像分类、图像识别、图像分割等领域。对于给定的编码字典和一些可用于编码的特征, 稀疏编码用于一组基线性表示这些特征同时最小化特征与重构特征之间的重构误差。基础池具有超完备性, 即基础池中的基数大于特征的维数。计算机视觉的研究中, 基础池[4]可能不是超完备的。然而, 如果存在对于这些基本的先验信息用于重建编码信号, 那么用于线性表示信号的基是有限的, 图像识别的稀疏编码方法即是此种情况。在小样本情况下[5], 样本数目稀少, 在进行特征提取过程当中, 特征的维数接近于编码字典的基数, 识别过程中便利用这些基线性重建新的样本。此种情况的编码字典具备足够的能力来编码样本。稀疏编码字典的超完备性和稀疏性在编码过程中影响着编码的性能和质量[6]。
除了编码的稀疏性之外, 编码字典的超完备性会导致局部编码特征的丢失, 因为相似性特征在超完备字典中的编码会出现不同的形式, 从而使得稀疏编码方法具有某种程度上的不稳定性。一种不稳定的算法在计算机视觉中的直接影响便是这种方法不具备健壮性和鲁棒性。以前的研究成果没有对稀疏编码这种方法进行扩展[7,8]。面对这一问题, 本文提出了一种基于拉普拉斯矩阵方法的稀疏编码方法[9,10], 建立一个超图稀疏编码框架以及保持邻接样本之间的关系, 从而该方法能够有效提取出图像特征以及保护样本邻接关系。
1 稀疏编码
在稀疏编码方法中, 最典型的编码方法是相似的特征经过字典编码过后具有相似的对应编码[8]。其他的方法包括一一对应地进行编码, 所有的特征在编码字典中进行同步的编码, 即组稀疏编码。该方法在稀疏编码计算过程中使用L1/L2标准来取代L1标准。这种衡量标准把字典矩阵强加一个顺时针非零项分布约束, 从而组内保护了相似特征之间的邻接关系。针对此种方法的改进便是稀疏编码和组稀疏编码二者的结合。非重叠lasso正则化方法仅仅能处理每个实例仅属于一组[6]。为了处理实例属于多组的情况, 一种超图的稀疏编码框架并结合lasso正则化方法来表示出所有特征的重建系数, 所有系数集组建成一棵树, 非叶子节点是重建系数组, 每个叶子节点表示一个单独的特征。利用L2标准惩罚因子最小化目标有向树准则函数[6], 调节不同节点的权重, 有向树准则函数退化为稀疏编码和组稀疏编码。
假设信号或样本x (x∈Rd) 以及用于对信号进行编码字典U=[u1, u2, …, uk], (U∈Rd×k) , 稀疏编码是对该信号利用编码字典中给定的基进行稀疏重建:x=v1u1+v2u2+…+vkuk=Uv, 并且重建系数是稀疏的, 即向量v中只包含少量的非零项。利用L0标准来计算稀疏编码, 则可表示为下式:
然而, L0标准最小化问题是NP难问题, 对于欠定系统线性不等式, L1标准近似解可以近似求出稀疏解, 从而稀疏编码最小化的求解利用L1标准来近似求解。为了最小化重构信号的最小化误差, 稀疏编码的目标函数可以表示如下:
其中, 第一项是信号重建之后的重构误差, 第二项是控制稀疏编码稀疏度v, λ是平衡重构误差和稀疏度的调控因子。
稀疏编码独立地对每个特征进行编码, 由于编码字典的超完备性, 相似的特征经过编码字典之后可能会出现完全不同的编码, 因而导致局部邻接信息的丢失。针对此类问题, 许多方法都对此类问题做了深入的研究。假设所有特征编码的向量为X=[x1, x2, …, xn]以及和这些特征相对应的相似度矩阵W, 其中Wij表示特征点对之间的相似度 (xi, xj) , 同时定义一个度数对角矩阵D, 每一项表示特征相似度之和, 即Dii=∑nj=1Wij。为了保护编码特征在编码之后的邻接关系, 相似的特征在编码之后尽可能具有相似的编码, 即编码之后相似的特征的相似度应该尽量具有相同的相似度, 特征对之间的距离尽可能小。通过引入相似度对进入稀疏编码计算过程, 对不同的距离加上一个相对应的权重, 距离越小, 权重越大, 距离越大, 权重越小。因而计算过程可以表示为:
其中, 拉普拉斯矩阵定义为L=D-W, 从而式 (3) 可以进一步表示成:
其中, V=[v1, v2, …, vn]。
2 超图拉普拉斯稀疏编码 (HLSc)
本文融合L1正则化稀疏编码方法的思想、最小二乘法以及图论思想从而寻找最优解, 这种方法是与最近邻样本进行比较计算样本之间的距离关系, 可以保持特征邻接关系, 详细介绍如下。
假设A, E分别表示样本点集和超图边集, 对于给定的超图G (A, E) , 每条超图边实际上是点集A的一个子集, 每条超图边的权重为w (e) , 每个点的度数为d (a) =∑{e∈E|a∈e}w (e) , 关联矩阵H表示每个特征之间的对应关系, 矩阵每项表示成为这种关系h (a, e) =1 if a∈e, 否则h (a, e) =0。边的度数定义为, 如上定义从而产生如下关系:
由于L1与L0标准的等价性, 正则化稀疏编码可以重写为:
其中, 式 (6) 表明正则化稀疏编码问题对稀疏编码问题加上一个调控参数来解决。融合最小二乘法思想从而稀疏编码计算可以用二次规划问题解决, 即:
因为XTX是半正定矩阵, 因而二次规划问题是凸优化问题, 根据卡罗需-库恩-塔克最优化条件, 从而二次规划问题可表示为:
如果矩阵X是满秩的, 则式 (8) 的解是唯一的。
根据式 (5) 定义图中每个节点的度数矩阵Da, 矩阵中每个元素表示节点的度数。De表示超图中每条边的度数矩阵, We表示边权重的对角矩阵, 权重矩阵We有如下定义, 与传统的方法不同:
从而标准化矩阵定义为:
式 (9) 部分定义了一种超图拉普拉斯框架, 给特征空间中不同的距离对赋予一个权重值, 在这种框架下稀疏编码可进一步表示为:
式 (10) 计算过程中对不同距离间的特征赋予一定的权重从而样本在投影后相似的特征可以保持更近的距离, 相似度低的特征保持远的距离。稀疏度参数λ是一个惩罚项, 加强分类算法的稳定性。对式 (10) 的求解即可得出样本的稀疏编码。计算过程中对具有相邻边的样本 (We矩阵中对应项大于零) 在编码过程中的近邻关系被保持。计算过程可以用类似式 (4) 来表示:
在计算稀疏编码矩阵的过程中, 即矩阵V, 不是全局优化字典矩阵而是采用迭代优化的思想逐个向量vi的进行优化, 进而得出整个字典V。从而得出优化标准:
其中, J (vi) =‖xi-Uvi‖+λ (viT (VLi) Tvi-viTLiivi) 。Li, Lii分别为矩阵L的列和元素值, 为了加快算法收敛的速度, 在实验过程中对初始向量进行初始化vi, 初始化规则即为普通稀疏编码的稀疏系数, 在逐步计算过程中不断地更新V。
3 实验
3.1 数据库
本文中的实验用了两个数据库, 场景数据库 (Scene) 和计算机视觉分类数据库 (Caltech) 。
场景数据库包含了15个场景数据集的4 485张图像, 每种类别包含200至400张, 包括了不同光照条件 (灯光往左照射、往右照射、往中间照射) , 不同的环境场景 (卧室内的, 厨房内的, 建筑屋内和村庄) 。如图1所示。
加州理工学院计算机视觉分类数据库共有256个数据集共29 780张图片, 还包括一个背景图片库, 其中有些图像是拍摄于不同时期的, 图片类内部方差变化比较大, 因而图片内像素值稳定性不高, 异常像素较多, 因而适合本文提出的鲁棒性方法。如图2所示。
3.2 实验结果及其分析
实验中稀疏编码方法需要调控参数, 不同的参数对实验结果的影响不一样, 稀疏度参数λ, 此参数是调控距离阈值的重要指标, 通过计算每张图像到所属类别图像均值的欧氏距离, 把每类集合组成一个类, 画出每类的直方图, 然后最大化直方图一个百分比记得到参数值, 实验结果如图3所示。
从图3中可以看出, 在参数值的各种情况下, 识别率是不同的。λ值的增大在合理范围内可以增加算法的稳定性和鲁棒性, 进而对异常的处理能力显著增强。但是, λ值超过合理范围内, 在算法中所占的比例过大, 从而降低了不同样本之间的类别权重, 降低了算法的分类效果。
分别取场景数据库部分图像作为训练图像, 剩下的作为测试图像, 取不同的编码字典规模进行实验, 将本文方法与几个参考文献中的方法进行了比较, 比较结果如表1、表2所示。
从表1、表2可以看出, 本文方法在不同编码字典较大规模中的识别率稍微有点高, 和LSC方法相比, 本文方法要高出近十个百分点, 这是因为LSC方法仅仅能保持编码特征间的相似性而忽略了全局特征空间的特征分布。和Sc SPM方法相比, 差距要稍微小些, 编码字典的规模同样影响识别率。
为了更好地比较该方法的性能, 分别选取计算机视觉分类库中的若干图像进行更细化比较, 即提取出视觉库中六个子项的识别率进行比较, 如表3所示。
综上所述, 较LSC, Sc SPM, SPM方法, 所提方法虽然在时间复杂度方面没有很大的改善, 但是在识别率方面有了很大的提高, 这也正是所提方法解决的最重要的问题。
4 结语
模式识别中, 人们广泛使用特征提取技术来降维及其完成识别工作, 本文提出了一种新的拉普拉斯特征抽取框架用来特征提取与识别, 在场景数据库上的实验表明了所提方法的高识别率及高效率, 今后将会在其他的数据集上进行实验, 并对拉普拉斯参数进行进一步优化, 同时, 因为特征提取对识别的效果影响很大, 所以特征的选取准则也是以后的研究方向之一。此外, 正则化准则函数的变换以及核扩展版本都是今后的研究方向。
摘要:稀疏编码已经成为一种有效的降维方法。由于编码字典的超完备性、特征之间的局部邻接信息和相似度在编码过程中丢失而降低了稀疏编码的识别率。为了保护特征之间的距离关系和相似信息, 提出一种超图稀疏编码框架。这种结构融合相似度权重进入稀疏编码计算过程中, 同时结合超图理论, 对稀疏编码方法进行改进, 增强了稀疏编码的鲁棒性。最后, 在Caltech及Scene两大场景数据库上的实验验证了所提方法的有效性。
关键词:图像识别,特征抽取,拉普拉斯,稀疏编码,超图理论
参考文献
[1]Mariel J, Bach F, Ponce J, et al.Non-local sparse models for image restoration[C]//IEEE 12th International Conference on Computer Vision, 2009:2272-2279.
[2]Wright J, Yang A Y, Ganesh A, et al.Robust face recognition via sparse representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31 (2) :210-227.
[3]Gao S, Tsang I W H, Chia L T, et al.Local features are not lonelyLaplacian sparse coding for image classification[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR) , 2010:3555-3561.
[4]Gao S, Tsang I W H, Chia L T, et al.Local features are not lonelyLaplacian sparse coding for image classification[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR) , 2010:3555-3561.
[5]Xie Z, Liu G, Fang Z.Face Recognition Based on Combination of Human Perception and Local Binary Pattern[J].Lecture Notes in Computer Science, 2012, 72 (2) :365-373.
[6]Lu Jiwen, Tan Yappang, Wang Gang.Discriminative Multi-Manifold Analysis for Face Recognition from A Single Training Sample per Person[C]//Barcelona, Nov 6-13.In Proceedings of International Conference on Computer Vision, 2011:1943-1950.
[7]Connolly J F, Granger E, Sabering R.An adaptive classification system for video-based face recognition[J].Information Sciences, 2012, 192:50-70.
[8]Chen X, Lin Q H, Kim S, et al.An efficient proximal-gradient method for single and multi-task regression with structured scarcity[J].Journals of statistic source, 2010, 1050:26.
[9]Yang J, Yu K, Gong Y, et al.Linear spatial pyramid matching using sparse coding for image classification[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2009:1794-1801.
稀疏自编码 篇5
深度学习理论是由Hinton等人2006年提出来的, 其核心思想是通过构建一种包含多隐层的深层神经网络结构, 提取图像、语音等信号的高层抽象信息, 得到目标近似准确的表示[6]。2007年, Bengio等人提出了一种通过堆叠编码器、解码器实现深度学习的算法———深层自动编码器[7]。由于其在目标特征提取方面具有高效、鲁棒等特点, 一些学者已成功将其用于光学图像的识别[8]、去噪[9]、降维[10]等方面, 且均取得了较好的效果。二维小波变换通过尺度伸缩和旋转生成一组滤波器, 可以提取图像在不同的频率尺度和纹理方向的信息, 而其中的低频子带图像包含了SAR目标的大部分能量信息, 可以用于实现SAR图像降维。
基于以上分析, 本文提出了一种基于小波变换和深层稀疏编码的SAR目标识别算法。首先, 通过对SAR图像进行不同倍数灰度值、尺度的等比例缩放增加样本数目, 更加准确地表达目标的深层特征, 再利用小波变换抽取SAR图像的低通子带图像作为SAR目标数据[12], 最后运用深层稀疏编码 (Deep Sparse Auto-encoders, DSA) 学习目标的特征用于SAR目标的自动识别。本文使用该方法对MSTAR数据库中的3类SAR目标进行识别, 并与其他识别方法进行了对比实验。
1 深层稀疏编码模型
2006年, Geoffrey Hinton等人提出了一个基于深置信度网络 (DBN) 的非监督贪婪逐层训练的深度学习算法。深度学习本质上是神经网络的延续与发展, 神经网络基本结构如图1, 其核心思想就是通过构建一种具有多隐层的机器学习模型, 再利用用于训练的大量数据来学习更有用的特征, 得到一个稳定可靠的系统结构。深度学习最简单的一种算法就是利用ANN的结构特点, 用半监督的学习方法学习特征[8]。
自动编码的结构图如图2所示。
首先对给定的无标签输入数据X= (x1, x2, …, xN) T∈RN进行编码, 神经网络的参量θ (W, b) , 输出为Y=fdec (fenc) , 则
式中:l (x) =1/ (1+exp (-q·x) )
通过调整网络中层与层之间的变量 (权值W及偏置b) 使得重构误差最小, 从而得到“最好”的编码。即最小化损失函数
式中:nl, sl为相邻两层神经元的个数;Wji为两层神经元i, j之间的权值向量。
假定X, Y∈[0, 1], 则可采用交叉熵作为损失函数
深层自动编码就是堆叠这种结构, 从而得到一个多隐层的非线性网络, 用于表征数据的概率分布, 获取高层抽象的特征。当用无监督学习完成对整个网络的训练后, 再用BP算法对网络参量进行有监督的微调, 这种半监督的学习方法可大大提高网络特征学习的准确性。
深层稀疏编码就是通过约束求取原始数据的近似表示, 这种近似可以通过约束隐层神经元间的稀疏性, 如式 (4) 、式 (5) 。这种稀疏约束使得大部分隐层神经元的状态为0, 即对输入没有响应, 从而学习“最感兴趣”的目标特征, 这种结构正是人脑工作的方式。
式中:ρ为稀疏惩罚系数;由网络参量θ (W, b) 确定。
2 二维离散小波变换概述
二维离散小波变换具有多分辨分析的标准, 具有稀疏性、减相关等特点[11], 二维离散小波分解可分别用低通滤波器和高通滤波器沿图像行方向、列方向进行一维小波分解实现[11]。图像经过一级二维离散小波变换, 原图像被分解成4个子带图像。令φj, m, n (x, y) 表示二维离散小波尺度, φ (H) (x, y) , φ (V) (x, y) , φ (D) (x, y) 分别表示水平、垂直和对角线方向的二维离散小波, 则
则尺寸为M×N的图像I (x, y) 的二维离散小波分解为
式中:i={H, V, D};Wφ表示低通近似系数, 也称为尺度系数;Wφ (H) , Wφ (V) , Wφ (D) 分别表示水平、垂直和对角方向的高通细节系数, 也称为小波系数;j表示分辨尺度。
小波分解的结果是将图像划分成子带图像的集合。经过一级小波分解生成4种不同系数, 从而得到4个子带图像, 且各子带图像的维数应是分解前原始图像维数的1/4。在第2级小波分解时, 1级分解得到的低频子图像被继续分解划分成了1个低频子图像和3个较高频子图像的集合。小波分解使得图像数据量减少, 但同时也造成图像分辨率的下降。小波变换具有很好的能量集中性, 低频子图像包含了目标图像大部分的能量, 而高频子图像仅包含少量的目标能量。针对SAR图像, 目标的低频分量包含了大部分的目标判别信息表现了其“概貌”, 高频部分表现了其细节及大量噪声。
3 SAR图像目标识别方法
本文提出的SAR图像自动识别算法由4个部分组成 (见图3) :1) 图像灰度值和尺度缩放。2) 二维离散小波分解降维。3) 特征抽取。本文采用DSA模型有效地提取目标的区分性特征, 以实现更好的识别分类。4) 识别分类。由于本文实验中要完成多类SAR目标的识别任务, 故采用Softmax回归实现对DSA学习特征的多目标分类。
各部分具体的处理过程如下:
采用整体灰度值、尺度的缩放增加MSTAR数据库的SAR图像数量, 从而获取大量的无标签SAR目标用于无监督学习, 可以学得输入图像的本质信息, 这比随机初始化网络参量要更加接近真实情况。通过对不同灰度、尺度SAR目标的训练可以突出结构特征信息, 大大增加了算法的鲁棒性, 重复学习从而更准确地学习目标的深层信息。
一般情况下SAR图像维数较大, 过高的输入数据维度会大大增加DSA提取特征的时间, 降低运行效率, 因此需要在特征提取前进行图像降维。利用离散小波分解可有效实现图像降维, 小波分解能够提取得到SAR图像的低通近似系数和高通细节系数。由于低通近似系数携带了目标的大部分能量, 因此以它作为DSA模型的输入可以基本保持原始目标的特征信息, 而携带了图像细节和噪声的高通细节系数则不适于作为输入数据。
另一方面, 小波母函数的选取也是SAR目标低频子图像获取的关键环节。选取不同的小波母函数会得到差异很大的低频图像, 对目标信息的保持也有较大差异, 从而极大地影响DSA对目标的特征提取。文献[12]采用了基于类内—类间标准差的方法对大量常用的小波母函数提取的低频信息进行评价。如果用M、N分别为目标小波低频特征数和类别数, 其中类内标准差表征了同类目标的平均差异, 定义为
式中:σij为第j个特征在第i类中类内标准差。而类间平均标准差表征了不同类别目标间的差异, 定义为
式中, σμj为第j个特征平均类间标准差。
因此, 在选择小波母函数时要在这两个评价指标之间取折中。研究发现, 小波母函数“haar”具有较优的可分性指标和计算简便性[13]。因此, 本文选用该母函数的2级小波变换对SAR图像进行简单、有效的图像降维, 在保持图像大部分有效信息的同时可大大减少计算量, 提高目标特征提取的效率。
本文采用深层稀疏编码提取SAR图像的本质特征。首先将每一幅输入SAR图像看成是一个列向量xi, 每次输入n幅SAR目标图像构成输入矩阵X= (x1, x2, …, xn) T, 作为DSA模型的输入数据, 通过第一层编码器获得第一隐层的状态为
对于一个由l个隐层组成的深层网络, 采用贪婪算法逐层初始化, 则第i隐层的状态为
利用Softmax回归进行分类识别。在第l层上添加一个输出层, 构成一个Softmax分类器, Softmax回归模型是logistic回归模型在多类问题上的扩展[14], 对训练集{ (x (1) , y (1) ) , …, (x (m) , y (m) ) }, y (i) ∈{1, 2, …, k}, 在Softmax回归中将输入x归类为类别j的概率为
文中用Softmax实现SAR目标的识别分类, 输出为
其中
4 仿真实验及结果分析
本文仿真实验中采用的数据是由美国国防高级研究规划局 (DARPA) MSTAR工作组公开的MSTAR图像库, 它由实测的SAR地面静止军用目标数据组成。实验中选用其中的3类SAR目标:BMP2 (装甲车) 、BMP70 (装甲车) 、T72 (主战坦克) 进行实验, 图像成像分辨率是0.3 m×0.3 m, 方位角覆盖范围是0°~360°, 图像大小为128×128。实验中不考虑姿态角预测, 实验过程中通过对MSTAR数据库中的SAR图像的灰度、尺度缩放得到大量新的无标签数据, 共计103 150幅SAR目标图像, 训练和测试样本分别是从目标在俯视角分别为17°和15°时的成像数据中随机挑选, 分别为20 000幅和10 000幅, 每次随机取100幅输入图像组成一个数据集, 最后通过BP算法调整得到全局最优的权值向量。实验中通过2级小波分解, 每幅样本图像的像素均为32×32。
首先对原始SAR图像做灰度、尺度缩放处理, 其中灰度值等比例缩放需要将灰度值限制在0~255之间, 尺度缩放后应以图像中心取128×128个像素点作为原始SAR目标图像, 三类训练目标的处理结果如图4所示, 其中图4a、图4b、图4c分别是BMP2、T72、BTR70做灰度等比例缩放的结果, 图4d是T72做尺度缩放后的结果。从图中可以看出, 灰度值和尺度缩放增加了输入数据的信息量, 不仅扩大了SAR目标数据库的无标签目标数量, 还使得输入数据更接近真实情况, 从而对识别算法的鲁棒性要求更高。
图5表示对图4中的输入SAR图像进行2级二维离散小波分解后得到相应的低频子带图像 (小波母函数选取“haar”) , SAR目标的小波低频系数构成模型输入矢量。从图5中可以看出, 本文选取的小波分解在完成图像降维的同时虽降低了分辨率, 但仍较好地保持了3类SAR图像目标的基本有用信息, 它较好地反映了目标在大尺度下的几何特征。
其次, 本文利用上述得到的小波低频近似系数作为输入数据学习DSA网络 (实验中所用的模型为堆叠了5个稀疏自动编码器的深层结构) , 无监督学习得到包含输入图像信息的初始化数据, 有效解决了随机初始化的局限性。
最后, 将学习得到的这些深层抽象信息用于SAR目标识别, 实验中学习得到的神经元间的权值分布如图6所示 (本文只给出了前四层神经元间的权值, 其他层间权值与所列结果一致, 不再赘述) 。图中w1、w2、w3分别表示输入层神经元与第一隐层神经元间、第一隐层神经元与第二隐层神经元间、第二隐层神经元与第三隐层神经元间的权值, 图6横轴代表所有权值常数, 纵轴代表为某一特定权值的个数。从图中可直观看出, 层与层间的神经元的权值绝大多数处于0附近, 即下一层神经元对上一层输入没有响应, 这与真实的人类视觉机制是完全一致的。最终得到对测试数据集的分类结果如表1所示。
%
本文实验中采用的平台是Pentium Dual-Core CPU E6700 3.2 GHz, 内存为2 Gbyte, 操作系统为Windows XP, 仿真软件为MATLAB R2010a。由表1可以看出, 相比于其他几种方法, 本文提出的算法对3类SAR军事目标的识别均有了一定的提高, 这充分表明DSA网络较好地提取了不同目标的关键和区分性特征。由图6可知, DSA深层神经网络的权值参量经过本文算法的学习, 已经调整得很好, 大部分神经元对期望输出有贡献, 其输出值等于或近似等于1, 其余分类均接近于0。
由以上实验可知, 当输入SAR图像训练样本数量足够大, DSA网络深度足够时, 本文算法能够有效提取SAR目标的本质特征, 较好地完成SAR图像的多目标识别任务, 具有很好的识别率和鲁棒性。
5 结语
稀疏自编码 篇6
混合音频信号处理中,除了大量已知的信号外,尚有一小部分未知的信号交叠于待检测信号中,因此,如何有效检测出这部分信号,成为了混合音频信号处理中的难点问题。
此类问题的根本所在就是如何对给定混合信号源进行分解,使其能够实现单个信号的线性复现。
传统的信号表示方法用如正弦函数或小波函数等完备基来表示信号,这些基函数均有较强的物理意义,并且对于某些特定类型的信号取得了较好的表示效果。但这类表示方法都试图使用性质相同的一类基函数来表达任意的信号,一旦基函数确定以后,对于一个信号只能有唯一的一种分解方法,从而对于一般的信号不能总得到信号的稀疏表示。更好的信号分解方式应该根据信号的特点,自适应地选择合适的基来分解信号,这对于含有分布较广的时域和频域局部化信息分量的信号来说尤其显得重要[1]
稀疏分解具有较强的数字压缩能力,具有更稳健的建模假设,还具有去噪,特征提取和数字压缩等潜在的能力[2]。以贪婪算法为核心的匹配追踪(Marching Pursuit)信号稀疏分解方法,是目前信号稀疏分解最常的用方法[3]。但研究发现MP信号稀疏分解易出现过匹配现象,而且随着迭代次数的增加MP误差衰减的速度变得很慢,而基追踪方法在这方面却表现出较好的特性。
基追踪方法是信号稀疏表示领域的一种新方法。基追踪方法采用表示系数的范数作为信号表示稀疏性的度量,通过最小化1一范数将信号稀疏表示问题定义为一类有约束的极值问题,进而转化为线性规划问题进行求解。目前,基追踪方法在一维信号处理领域有很好的应用[4]。
因此,提出一种新的混合音频信号处理方法,利用基追踪(Basis Pursuit,简称BP)算法和自回归模型,实现信号稀疏的分解。
1 模型
1.1 基追踪
基追踪是目前非常流行的一种信号分解方法,可将信号分解为字典元素(亦称原子Atom)的优化叠加信号。若定义信号为,原子为那么,BP算法旨在计算出稀疏线性相关系数(标量)使得下式成立:
假设字典是过完备的,即:原子数目K超过了信号的维数[5]。
对于满足式(1)的分解结果,利用稀疏分解,可最大限度地简化βi
从式(2)可以得出:式(2)的优化可以最大限度地减低受式(1)约束的线性相关系数的L1范数。这是因为优化是凸优化,没有局部最小点。
B P可以对待检测信号建立基于幅度变化的原子模型,但是此类模型适合基于傅立叶变换或者是小波变换的数据压缩,却不适合用来分析由自然声源组成的混合音频信号,因为此类声源信号不仅在幅度上有巨大变化,在时间、相位和音色等方面存在着很大变化,所以,利用原子及字典大小再现这些变化需要更为先进的模型。
1.2 BP自回归模型
为了更好地再现混合音频信号在幅度、时间、相位、音色等方面的变化,将BP与自回归模型结合在一起,提出了新的模型—-BP自回归模型(BP autoregressive model,简称BP-AR)。
BP自回归模型可参数化单个信号源的变化,即:假设第i个信号源波形近似满足m阶线性递推关系
严格地讲,若第i个信号源波形只定义为t>0,那么,式(3)只适合于t>m,且第i个信号源波形的特殊处理取决于m阶线性递推关系的初始条件。
定义初始条件为,那么,式(3)可以扩展为
假设(1)每个字典条目模型均可以表示为信号的m阶矩阵;(2)初始条件可以表示信号幅度、相位、时间、音色的变化;(3)每个信号源的自回归模型的m阶线性相关系数是先验的,储存于K个字典条目中的其中一个。其中,时间T可以简单表示为依据式(3)的不同时间步数的递推演变[6]。
那么,信号源的稀疏分解可以用一些有效信号(k<<K来代替,如下式所示
式(5)表明优化条件涵盖所有的K个信号源波形和初始条件式(5)中,min是用来检测每个信号源自回归模型的保真度,其约束条件如式(4)所示。式(5)条件表示每个信号源的初始条件的范数条件:
式(6)解释了周期性混合信号稀疏分解的前期工作,即:许多信号有零激励,认为是无效的。上述两个公式之间关于模型误差与稀疏性的平衡由规划因子γ>0来调节[7]。
1.3 优化
式(5)显示BP自回归模型的优化复杂度远远高于BP模型(式(2))。特别地,BP模型仅仅计算每个信号源的幅度变化βi,而BP自回归模型计算的是初始条件向量和拓展信号源这种方法不再是通过固定基向量代表示信号源,而是通过明确建模表示每个信号源的明显变化。
虽然此方法较BP更为复杂,但是,此优化过程可以简化如下:
(1)对于表达式(5),消除代表信号源波形的变量为此,引入拉格朗日算子λ强化约束条件,获得关于的非约束的、持续变化的周期性最小化方程。从而依据信号源初始条件通过求解优化解来消除这些变量,其最终结果是一个执行了所有初始条件的无约束优化解。价值函数如下式所示。
其中,变量u是变量uit与信号源及滞后的级联,Y与Z是关于待检测信号xt与字典相关系数αit的矩阵表示;
(2)简化L(u)。从选择一组初始条件uj,假定u中其他变量维持在当前值,重复执行包含所有初始条件的计算过程,直到L(u)最小。在此过程中,若满足式(8),则将uj置零。
当uj=0时,Zj是从矩阵Z中得到的T×m阶子矩阵。
若上述条件无法满足,可将uj设置为一个非零值,使其稳态最小化:
虽然式(9)是非线性的,但是,使用诸如牛顿法等方法,经过简单的代数计算,便可产生一个有关‖uj‖2量纲的一维非线性方程。最后,根据给定的‖uj‖2,式(9)可以演变为关于uj的线性方程组。
2 仿真分析
在仿真试验中,设定混合音频信号中包含周期与非周期信号,时间窗函数为100 ms,采样频率为22 050 Hz,且为了更好的用信噪比SNR (signal-tonoise ratio)衡量此方法的优势,选择在混合信号中加入各种水平的高斯噪声信号。高信噪比可视为期望结果的上限值。
每一次试验,使用式(5)和式(7)进行优化获得非零的初始条件{uiτ}(对应信号源有效);调整规划因子γ获得最佳的平均性能,即精度与记忆之间的平衡误差。
若试验信号为具有确切信号的单个信号源,此方法还可获得具有最低拟合误差的自回归模型,一次评判其分类性能。
2.1 信号选择
假设如下:1)构建一个K=60的字典库,每个信号源具有32阶的自回归模型;2)根据式(3),从具有零均值和单位方差的正态分布中随机采样相关系数{αiτ},相关系数{αiτ}会被重新调整,从而使得对于模型稳定,且其期望值不会随着时间而推移;3)利用随机采样的自回归模型的初始条件得到单个信号源。
那么,通过不断演化的递推关系即可获得计算波形。
在试验中,采取长度为256、取值为[-128,128]的实际数字信号。实际计算中,对原子库做了一定调整,去除了伸缩尺度很大和很小的原子,库的大小为53520×256。除此外,考虑到BP-AR的可行性,实验中针对原子库加入了随机噪声。
2.2 仿真结果
为了更好地体现BP自回归模型在信号处理中的优点,将BP自回归模型与GBP算法、MP模型对信号处理的结果做了比较,其仿真结果如图1所示。
GBP算法是实现BP思想的一种新颖的算法,其核心思想可以等同于寻找信号向量同原子库凸集的交叉点,它较一般的线性规划方法,在运行时间及计算复杂度上有着显著的提高。
图1—图3分别显示了GBP,MP,BP自回归模型在256个原子上重建的256点一维信号的情况。
由图4可见,起初MP模型的近似误差衰减速度比较快,后来随着重建精度的提高开始减慢,而BP自回归模型却随着重建原子数的增加呈现出近似指数的衰减,而且计算速度有所提高。另外,即使时间窗函数为100 ms,BP自回归模型的稀疏分解方法依然能够有效区分非周期信号,且对噪声信号具有良好的鲁棒性。
由图4可见,BP-AR算法在实现信号稀疏分解时具有着较小的重建系数1——范数。
3 小结
在基追踪的基础上,将自回归模型与其结合,形成了一种新的混合信号处理方法。该方法旨在表征不同来源的特性,诸如变化度等。通过试验,验证了此方法分析的可行性,与以往信号分解的先验方法相比较,此方法对多种可能信号的组合也是行之有效的。
但是,目前BP思想的实现方法不是很多,而且都面临着计算量大的问题。因此,目前的基追踪方法仅在一维信号去噪和超分辨处理方面有很好的结果。未来,将着重研究来源于采样音频的稳定自回归模型的学习算法,以及在多个分析框架下的有效源的集合。此外,将持续关注规划因子γ的设置与调整,因为它对信息检索的规模问题有着重要影响。
摘要:针对混合信号中少量未知的交叠信号无法检测与精确描述的问题,提出了一种新的检测方法。该方法基于BP自回归模型,将待检测信号通过稀疏分解理论分解为一系列信号源的线性描述。仿真结果表明,该方法具有较高的精确度和有效性。
关键词:基追踪,自回归模型,稀疏分解,混合信号
参考文献
[1]邵君.基于MP的信号稀疏分解算法研究.成都:西南交通大学硕士研究生学位论文,2006
[2]王潇.MP和BP稀疏分解在盲源分离中的应用.成都:西南交通大学,2009年
[3]高瑞,徐华楠,胡钢.基于GA和过完备原子库划分的MP信号稀疏分解算法.科学技术与工程,2008;8(4):914-916
[4]汪雄良,王正明.基于快速基追踪算法的图像去噪.计算机应用, 2005;25(10):144-146
[5]方耀.基于稀疏分解的非合作猝发信号解调技术研究.杭州:杭州电子科技大学,2010
[6]张延良;楼顺天;张伟涛.非正交联合对角化盲分离算法的可辨识性研究.电子与信息学报,2010;32(5):1066-1070
稀疏自编码 篇7
车牌身份识别是智能交通应用中最基础的一个功能,在日益发展的交通事业中起着重要作用。我国交通的特点是车流量大、密度集中、各种不遵守交通规则的事件时有发生、事故发生率高、事故发生后逃逸事件也多有发生。作为车流分布统计和事故追责的一个基本依据,我国的交通监控系统已基本覆盖了全国。在如此庞大的监控网络中,数据的采集和传输技术也必然面临着巨大挑战。
本研究正是基于这样的应用背景应运而生的。即:为了解决图像数据传输量过大而影响实时性的问题,在监控所在地利用监控相机对车辆图像进行拍照,并在该区域子网层进行图像初步分割得到车牌图像。之后压缩车牌图像传输至上层终端,并在终端进行重构复原出车牌图像。最后进行识别等后续处理。
上述整个采集和传输过程,对于高速路这种车流速度较快以及繁华地段车辆流量大、数据传输量大的场合尤其适用。而作为整个采集传输过程中的关键,便是车牌图像的压缩和重构了。
压缩感知(compressive sensing(CS))作为一种新型的压缩方法,自2006年由陶哲轩、Emmanuel Candes[1]和Donoho[2]提出来,又由Richard Baraniuk[3]进行完善,之后便迅速风靡于图像界了。
然而压缩感知用于图像处理时其稀疏度并不知道,传统的做法只能是事先估计。直到2008年由Do T T[4]等人提出了一种稀疏度近似自适应的获取方法,关于稀疏度的获取方式才真正被陆续研究[5,6,7,8]。然而无论是Do T T[4]本人提出的方法还是后续的研究[5,6,7,8],其应用于图像处理时,图像的长和高均必须相等(即应为正方形图像),且均应为2的阶数。这一限制直接制约了其在一般图像稀疏度获取中的应用。
此外,上述已有的算法往往是以重构过程中的观测信号残差作为稀疏度准确性标准的,这在图像处理的应用中并不能直观反应重构图像效果。因此,为了避免因选择了不合适的稀疏度而影响到图像的重构效果,本文提出一种车牌图像稀疏度自适应重构的算法。该算法利用图像的峰值信噪比(PSNR)值作为重构图像的效果测度,可直接自动获得重构效果较好的车牌图像稀疏度。另外,该算法逻辑简单,且可应用于一般大小的图像,并不局限于方图像,大大增加了算法的一般性。
2、压缩感知的基本模型
压缩感知的基本思想是假定信号在某一表达域内是稀疏的,那么只要通过对该信号进行稀疏变换就能大大降低采样次数而不至于影响到信号恢复的效果。基于这一思想的压缩感知理论大致分为这样三步:稀疏表示、观测采样和信号重构
2.1稀疏表示
很多信号在自然域往往并不具有稀疏特性,要利用其在其它域内的稀疏性才能进行后续压缩重构。稀疏表示正是这样一种变换,即将原始信号映射到变换域内,得到其在变换域内对应的稀疏信号,即大部分元素为零或接近为零的信号。这个过程可表达为式(1)
其中x是原始N维信号,即x=[x1,x2,…,xN]T,Ψ为信号的稀疏基,也称稀疏字典,大小为N×N维。s是变换后的K稀疏信号,其维数仍为N。
2.2观测采样
对可稀疏化的信号进行观测采样的过程可表达为测量模型。如式(2)所示。其中x是上述可稀疏化的N维原信号,Φ为用于采样的观测矩阵,y为观测得到的信号
因信号经稀疏表示后大部分元素已接近为零,只有剩下的少量元素(K-稀疏信号含K个)携带了信号的绝大部分主要信息。因此采样次数可大大降低。可设对信号x只需做M次观测就可获知其主要信息,则Φ为M×N维矩阵,所得测量量y的维度为M×1。易知M<=N。
上述稀疏表示和采样测量过程也可表达成统一的模型为式字:
其中T为M×N传感矩阵。
2.3信号恢复
信号恢复即由测量值y重构出原始信号x的过程。这一过程可描述为式(4):
即要求出0范数最小的信号s,而这一问题常因0范数难以求解而转化为求解使得其1范数最小的信号s。当信号s被求出后就可根据s求出原有的信号x了。
3、车牌图像稀疏度的自适应获取与重构算法介绍
本算法分为两部分,首先利用车牌图像的PSNR测度值作为控制标准获取能够直接反应重构效果的稀疏度,然后可利用获得的稀疏度进行车牌图像的重构。需要说明的是,第二部分的算法流程也可同样作为第一部分试取稀疏度时的子程序进行每一次“单次车牌图像的压缩与重构”的迭代。
3.1稀疏度自适应获取算法
稀疏度自适应获取算法本质是一种“试重构”的方法。即在稀疏度取值的合理范围内选取一系列不同值进行各单次车牌的压缩与重构处理。然后以各单次车牌图像重构的效果为依据,采用重构车牌图像的PSNR作为控制指标控制循环次数,直到获取满足PSNR条件的K值,算法结束。其整体过程可见算法流程图(图1)。
该算法中所使用的PSNR指标反映了重构图像相对于原图像的相似度,即PSNR值越大,重构出的图像越接近于原图,重构的效果越好。这一指标的数学描述为式
其中MSE是原车牌图像和重构后图像之间的均方差。n是灰阶数,此处取n=8,即本文所使用车牌图像的最大灰度值为2n-1=255。
此外,从流程图中可看出,本算法除可自适应获取稀疏度外,也可自适应获得采样率。处理办法与稀疏度的获取类同,可采用运行时间作为控制量。
3.2单次车牌图像的压缩与重构
单次车牌图像的压缩与重构属于上述稀疏度自适应获取算法中最为关键的一个子算法。本文利用压缩感知理论对该子算法进行了构建,过程与第2节描述的相似。即主要使用离散傅里叶变换进行稀疏表示,高斯随机矩阵为观测矩阵,利用正交匹配追踪法(Orthogonal Matching Pursuit,简称OMP)进行车牌的恢复重构。
具体步骤如下所述:
输入:原车牌图像(由其可得到测量信号y),稀疏度K,采样率c
输出:运行时间,PSNR值,重构出的车牌图像
对每一组K,c值,计算下述步骤1)至步骤7):
步骤1):读CPU时间,读入a×b大小的车牌图像XX,并将图像XX重排成长度为N的一维向量x,x=[x1,x2,…,xN]T,N=a×b;
步骤2):对N×N大小的单位阵I进行离散傅里叶变换,得傅里叶正变换矩阵Psi。显然该矩阵满足Psi′=Psi-1,即为满足要求的正交阵;
步骤3):取M×N(其中M=c*N,c为采样率)大小的高斯随机矩阵,令其为Phi。可得到测量信号y,y=Phi*x;
步骤4):由高斯观测矩阵Phi和稀疏表示矩阵Psi可计算得到传感矩阵T,T=Phi*Psi′;
步骤5):输入稀疏度K、传感矩阵T以及测量信号y,利用OMP算法可得到稀疏化的频域向量s的重构近似信号s∧;
步骤6):利用傅里叶反变换得到原时域信号x的重构信号x∧,x∧=Psi′*s∧;并将该重构信号x∧进行重排,变为a×b大小的二维车牌图像重构信号XX1;
步骤7):再次读入CPU时间,与步骤1)中时间相减,得到整个单次车牌图像压缩与重构过程的运行时间;并计算重构车牌图像的PSNR值。
上述步骤中用于稀疏表示的离散傅里叶变换模型如式(6)。需要说明的是,因为车牌图像边长不是2的整数阶,所以无法直接使用小波变换,而使用最简单实用的离散傅里叶变换进行稀疏表示。
算法中观测矩阵Phi为M×N阶,Phi∈RM×N。该矩阵中各元素满足高斯分布,记作N(μ,δ2)。在本文中取μ=0,δ2=1,即标准正态分布。因观测矩阵是随机的,因此能够满足与稀疏表达矩阵不相关的观测条件。
上述步骤6)使用了OMP重构法来进行图像的重构,该方法是重构效果较好、使用较为广泛的一种方法。此处也可换成其它重构法进行实验,但因本文更关注稀疏度的自适应获取,故关于重构法的问题此处不再赘述。
4、实验结果及分析
本文选择了24×104大小的车牌图像进行了实验。采样率分别取为整幅图像大小的0.5、0.6和0.7倍,稀疏度K分别在图像总像素数N的1/16到1/4之间,以每隔N/32的间隔取值迭代。实验在WINDOWS7.0(32位)系统下基于MATLAB 2015a平台进行,设定阈值Threshold1=70s和Threshold2=22,其结果输出为:
重构出的图像示于图2
该重构效果虽不是最理想的,但却是PSNR值和运行时间折中的结果。可以满足实际应用的要求。
为进行对比,当采样率c=0.6固定时,在七种不同稀疏度下的重构效果示于图3。可以发现,当K<=312(即4N/32)时,重构效果会随着值增大而明显变好;但当K>312后,重构效果几乎没有太大波动。
这一现象也可从从图4中看出。图4展示了车牌图像在不同稀疏度下其峰值信噪比PSNR和运行时间随着采样率变化而变化的情况。其中a图显示,在采样率c=0.6处,稀疏度为4N/32时其PSNR在同样采样率的各种稀疏度下已非常接近最高值。结合图b中所显示的当稀疏度K=312(即4N/32)时明显降低的运行时间。充分显示本实验自适应获取的稀疏度综合效果较理想。
总之,从上述实验结果分析可得,采样率越高,运行时间越长,但恢复效果越好,即峰值信噪比越大,失真率越小。但同时,影响运行时间的关键原因主要还是稀疏度,且稀疏度的大小和运行时间几乎成正比。并且,稀疏度越大,重构效果却未必最好。这再一次说明,自适应获取合适稀疏度的算法是非常必要的。
5.结论
本文提出一种基于压缩感知的车牌图像稀疏度自适应重构方法,该方法比同类方法更具有一般性,可以适应图像大小不局限于边长为2的n阶的普通图像。同时,该算法也可自适应获取相应稀疏度下合适的采样率。这在实际应用中,既兼顾了车牌图像的重构效果又考虑了图像压缩恢复的运行时间,可满足实际应用需求。
但为了力求算法的简单适用,本文对稀疏度的循环迭代采用了等步长的方法,这一方法在某种程度上对稀疏度获取的精确性有一定影响。这一缺点将在后续研究中进行改进,以获取更为精确的稀疏度。
参考文献
[1]Candes E J,Romberg J,Tao T.Robust uncertainty principles:exact signal reconstruction from highly incomplete frequency information[J].IEEE Transactions on Information Theory,2006,52(2):489-509.
[2]Donoho D.Compressed sensing[J].IEEE Trans.Information Theory,2006,52(4):1 289—1 306.
[3]Baraniuk,R.G.Compressive Sensing[Lecture Notes][J].Signal Processing Magazine IEEE,2007,24(4):118-121.
[4]Do T T,Gan L,Nguyen N,et al.Sparsity adaptive matching pursuit algorithm for practical compressed sensing[J].Circuits Systems&Computers.conference Record.asilomar Conference on,2008:581-587.
[5]Sun G,Zhou Y,Wang Z,et al.Sparsity adaptive compressive sampling matching pursuit algorithm based on compressive sensing[J].Journal of Computational Information Systems,2012,8(7):2883-2890.
[6]林云,王凯.一种稀疏度自适应正交多匹配追踪重构算法[J].科学技术与工程,2014,14(2):37-40.
[7]张凤珍,赵瑞珍,岑翼刚,等.基于差分的稀疏度自适应重构算法[J].计算机辅助设计与图形学学报,2015(6):1047-1052.