图像感知能力

2024-09-18

图像感知能力（精选9篇）

图像感知能力篇1

随着计算机信息技术的发展,计算机视觉已经成为研究热点之一,运动目标跟踪更是计算机视觉领域的热门课题。如今运动目标跟踪技术已经广泛用于监控、交通、军事、医疗的等领域。视频是一帧一帧连续播放的图像序列,目标跟踪是指从视频的某一帧开始,通过目标检测方法找到到运动目标或者人工指定跟踪目标,在之后的连续图像序列中持续对目标进行识别和跟踪。

目标跟踪方法通常分为判别方法和生成方法两种。判别方法把跟踪看成一个二分类的问题:以目标物体作为正样本,背景作为负样本,通过训练分类器可以把目标从背景中分离出来,从而实现对目标的跟踪。目前很多判别方法提出,其中STRUCK是判别方法中最杰出的[2],但是此方法需要大量的计算,速度较慢,并不能满足实时跟踪的需求。生成方法首先学习外观模型来表示目标,然后在搜索区域的候选模型中选择出与目标模型误差最小的一个作为跟踪结果。生成方法最早可以追溯到Lucas和Kanade提出的基于原始图像的整体模板法,即LK方法。仅仅使用原始图像作为模板,不能很好地提取目标外观特征,适应目标外观变化,且需要的计算量较大。Hager和Belhumeur等人改进了LK方法,对原始图像进行降维,使用对光照不敏感的低维特征作为目标外观的表示。在此基础上,Black和Jepson又提出了使用一定的学习策略进行模型更新,从而更好的处理目标外观的变化。此时生成跟踪方法的框架已经形成。随后很多模型的不同特征被用于跟踪。如Coman⁃iciu人等结合颜色直方图和数学上的均值偏移方法,提出了meanshift方法。Collins拓展了可自适应尺度变换的改进方法camshift。为了更好的处理遮挡和提升实时性能,局部稀疏表示(PCA、稀疏编码等)和多种特征的联合表示也被用于目标跟踪。[1][2]

跟踪的过程中会出现众多的干扰因素影响跟踪的性能,如尺度变换,光照变化,偏移,遮挡等问题。处理这些因素的关键在于构造有效且鲁棒的外观表示模型。文献[1]证明了模型表示的选择对于跟踪性能的影响最大。于是近些年来,跟踪问题更多的焦点集中在寻找有效的表示模型上。本文提出了一个有效的生成方法,使用图像感知哈希作为模型表示进行跟踪,

具有尺度不变性和运算速度快的优点,并且引入了模型更新策略,从而解决了目标跟踪中出现的偏移、遮挡问题。

1 图像感知哈希

感知哈希是指将具有相同感知内容的多媒体信息映射为一段数字摘要,用来对媒体信息进行比对。图像感知哈希则是对数字图像的感知信息进行摘要。传统的哈希技术仅仅简单地把图片看作一个二进制文件进行处理,而没有考虑到图像上的感知信息。随着网络上有损压缩格式的使用,传统的哈希算法如MD5、SHA1等方式不再适用于图片的匹配,于是提出了图像感知哈希技术,利用的图片的感知特征作为摘要信息来进行图像的识别和认证[4]。

在MD5、SHA1这样的加密哈希方法中,得到的哈希值仅仅是一段固定长度的二进制数字,和其本身的内容没有关系。单向性和抗碰撞性要求它对输入的二进制数据的比特变化敏感,也就是说,即使输入数据一位的比特变化,也会导致输出哈希值的明显的随机变化。

对于数字图像而言,图像数据格式的变化,普通的图像润饰或者加工操作,图像通信的信道噪声等在剧烈改变图像二进制数据的同时,一般都只会影响图像呈现信息的质量,而不会改变其内容。因此大部分感知哈希算法都具有共同的基本特性:图像可以放大缩小,可以有不同的方向、角度,甚至可以有细微的颜色差别,其哈希值都应该保持不变或者在一个指定的阈值内变化。而以上的特性也正好适用于目标跟踪中用来匹配目标。

2 提出的算法

近些年来,已经有很多不同的图像感知哈希算法提出[5]。其中包含很多复杂的甚至可以加密的方法,但是经测试,即使将很简单的感知哈希算法作为特征使用到跟踪中,也能起到很好的效果。

2.1 模型表示

本文中采取的感知哈希作为跟踪目标的模型表示,计算方法如下:

1)将原图像转化为灰度图,灰度图就可以很好的保存图像轮廓和细节,减少计算量,提高速度。

2)缩小图像尺寸,把原大小转化为8*8的方形图像。缩小尺寸可以大幅度减少图像的高频信息,保留低频信息。低频信息反映了图像的整体框架,具有对放大、缩小、平移、模糊的不变性,这也是图像哈希可以作为目标跟踪匹配特征的关键原因。

3)计算所有像素灰度的平均值,用于和每个像素比较。

4)将所有的像素值与平均值进行对比,大于等于平均值记为1,小于平均值记为0。

5)把这64个2进制位由在原图像从左到右从上到下的顺序排列,形成哈希值。

以Lena图为例,计算图像感知哈希的步骤如图1所示:

2.2 运动模型和观察模型

跟踪算法使用图像感知哈希作为模型特征,以两个哈希值之间的汉明距离作为评判相似度的标准(观察模型)。汉明距离表示哈希值中对应位置二进制位不同的个数,汉明距离越大,说明图像越不相似,反之则越相似。

汉明距离的计算:d(x,y)=∑x[i]⊕y[i],如下所示。

由[1]我们得知,在选取合适特征情况下,即便是用很简单的跟踪框架也能够实现很好的跟踪效果。本系统在第一帧使用人工标注的方法圈定要跟踪的目标,之后的每一帧使用滑动窗口作为运动模型搜寻目标:在当前目标2*2的范围内寻找目标,使用汉明距离作为观察模型来从候选的模型中选取最接近目标的一个。如图2。

2.3 偏移问题

在模型更新的过程中,由于误差积累,会导致跟踪结果偏移。对于此问题,本算法采取使用第一帧和上一帧的权重共同跟踪的方法,第t帧的模型M(t)=αM(0)+(1-α)M(t-1),其中α表示第一帧中目标模型所占的权重。随着时间变化,第一帧的权重应逐渐减小。本方法中取α=1/(1+t)。

2.4 遮挡问题

当模型被遮挡时,如果继续更新,会导致更新到覆盖物更新到了错误的模型。所以本方法中的模型更新针对遮挡也提出了解决方法。d(h)表示汉明距离,当0<d(h)<5时,令更新状态参数c=0,此时是正常的更新状态,使用2.3中的方法进行模型更新。当5<d(h)<10时,更新状态c=1,此时暂停模型更新,如果下一帧0<d(h)<5时恢复模型更新,当汉明距离大于10时,认为此时发生了遮挡或者目标丢失,更新状态c=2,停止模型更新,且搜索范围从原来窗口的2*2的范围增加到3*3。此后的一帧d(h)<10时,转换到状态c=1。此方法根据汉明距离的大小推断是否发生遮挡,从而实施不同的模型更新策略和搜索策略,减少遮挡对于目标外观模型变化的干扰。

2.5 算法流程

1)在视频的某一帧使用鼠标拖拽圈定要跟踪的目标,作为模型T,大小为p*q,左上角像素的位置为(m,n)。

2)计算选中窗口区域的感知哈希值H(T)。

3)下一帧F中使用在当前位置的2*2大小的窗口中滑动,计算每个大小为p*q的子窗口Fi,j的哈希值H(Fi,j)。i,j为子窗口Fi,j左上角的像素在F图中的坐标,称为参考点。i,j的取值范围:m-p/2<i<m+3p/2+1,n-q/2<j<n+3q/2+1。

4)比较搜索窗口和模型窗口的哈希值的汉明距离D(H(T),H(Fi,j)),选取所有子窗口中汉明距离最小的子窗口作为跟踪结果。

5)根据提出的模型更新机制决定是否将跟踪结果Fi,j作为下一帧的跟踪模型T,重复步骤2到步骤5。

3 基于Opencv的系统实现及仿真实验

Opencv是一个开源的数字图像处理和计算机视觉的函数库,实现了图形图像处理和计算机视觉方面的很多通用算法,方便开发人员将注意力集中于算法的实现而不需要自己写一些底层操作代码,避免造成时间和精力上的浪费。

Opencv提供了数组、序列、矩阵、树等基本结构,也包含了差分方程求解、傅里叶分析、积分运算、特殊函数等众多高级数学计算函数,以及各种图像处理操作和目标跟踪、摄像机校准、三维重建等高级视觉函数。本设计中的基本功能如读取视频,鼠标选取操作,缩放图像,彩色图像转化为灰度图像等基本功能都由opencv提供的函数实现。

本设计基于windows10+visual studio 2013+opencv2.4.11环境,实现了在固定的背景的情况下进行稳健的目标跟踪,具有尺度不变性和光照不变性,达到不需要预先训练的每秒30帧以上的实时跟踪效果。图3为程序在第82、269、550、736帧跟踪到的结果。

图3

4 结论

实验结果表明,在目标跟踪中引入图像匹配中的感知哈希方法作为跟踪特征,有较快的运行速度、准确度和鲁棒性,可以作为一种良好的特征用于目标跟踪。虽然与Object Tracking Benchmark[2]中排名靠前的算法相比,本设计仍然有差距,但是提出了一种将图像感知哈希引入跟踪的概念。近些年来还不断有新的感知哈希算法提出,不乏兼具尺度不变性,旋转不变性等良好特性的感知哈希算法,试想将这些方法用于运动目标跟踪,会具有更好的跟踪效果,可作为目标跟踪发展的下一步研究方向。

摘要：运动目标跟踪目前已经成为计算机视觉领域的重要研究课题之一。目标跟踪的性能受到众多因素的影响,有研究表明,选取合适的目标表示模型作为特征进行跟踪可以大幅度提升跟踪效果。现有的很多特征或计算复杂,或者需要大量的数据进行训练,或缺乏对目标外观变化的鲁棒性,并不能取得很好的效果。针对这一问题,文章提出了一种使用图像感知哈希作为匹配特征的生成方法进行目标跟踪。图像感知哈希原本是用于寻找相似图片的图片匹配的方法,具有对尺度变化、光照变化不敏感,计算容易等优点。将感知哈希用于目标跟踪,可以减少计算量,并在检测到目标后,结合有效的运动模型更新策略,解决目标跟踪中出现的偏移、遮挡等问题,达到快速、准确的跟踪效果。

关键词：运动目标跟踪,生成方法,图像感知哈希,OPENCV

参考文献

[1]N Wang,J Shi,DY Yeung,J Jia.Understanding and Diagnos-ing Visual Tracking Systems[C].International Journal of Com-puter Vision,2015.

[2]Wu Y,Lim J,Yang M H.Object Tracking Benchmark[J].Pat-tern Analysis&Machine Intelligence IEEE Transactions on,2015.

[3]徐光柱,雷帮军.实用性目标检测与跟踪算法原理及应用[M].北京,国防工业出版社,2015.

[4]Schneider M,Shih-Fu Chang.A Robust Content based DigitalDignature for Image Authentication[C].Proc of IEEE Interna-tional Conference on Image Processing,Lausanne,1996.

[5]张慧.图像感知哈希测评基准及算法研究[D].哈尔滨工业大学,2009.

[6]Adrian Kaehler,Dr.Gary Rost Bradski.Learning Open CV[M].New York:oreilly,2008.

压缩感知的人脸图像去噪篇2

摘要：为解决人脸识别领域的噪声图像恢复问题，提出一种压缩感知的人脸图像去噪算法，协同稀疏性度量（collaborative sparse measure，CSM）. CSM算法利用图像的先验知识，用一个域将图像稀疏表示，将图像的二维稀疏表示和三维稀疏表示同时进行自适应混合空间域转换，利用增广拉格朗日技术求解.实验结果表明，CSM算法的信噪比明显高于传统算法的信噪比，具有高效性.

关键词：压缩感知；协同稀疏性度量；图像去噪；空间域

DOI：10.15938/j.jhust，2015.05.018

中图分类号：TP391.4

文献标志码：A

文章编号：1007-2683（2015）05-0091-06

0 引言

压缩感知的基本思路是对数据进行变换后，完成从较少的数据中提取较多的信息，压缩感知理论为传统的信息处理打开了新的篇章.目前，在对图像噪声滤除方面，常用的算法有树结构小波（tree-structured wavelet，TSW），树形结构的离散余弦变换（tree-structured wavelet discrete cosine transform，TSWDCT），总度差（total variation，TV）等，它们能不同程度地滤除图像噪声，恢复图像本身.针对高斯噪声干扰人脸图像这一问题，本文提出协同稀疏性度量（CSM）来对噪声图像进行恢复，该算法利用图像的先验知识，寻求一个基，并利用图像的局部平滑特性和非局部自相似性质，其中二维稀疏表示利用到图像的垂直梯度和水平梯度对图像滤波，三维稀疏表示首先将赝本划分成n个大小相等的块，寻找最佳匹配块进行三维转换，最后用增广拉格朗日技术求解，提高滤除图像噪声的能力，恢复图像本身.

1 压缩感知理论和增广拉格朗日方法

1.1 压缩感知理论

一个长度为Ⅳ的信号U在基ψ下是稀疏的，如果它的变换系数是零或接近于零，则稀疏的量化是通过系数向量里重要元素的个数来决定，具体地，给定M个线性测量，b个信号U的压缩感知恢复问题是如式（1）约束的优化问题.

A表示随机投影.P通常被设置成1或0，特征向量的稀疏性为是l₁范数，当是l₀范数时给向量加上绝对值，并且计算向量的非零元素.压缩感知理论是能够从b个样本M中恢复出稀疏信号U，前提是随机样本的数量M≥aK.所需要的样本采样率为M/K，为了完全恢复样本，比例应该为K/N.

1.2 增广拉格朗日方法

式（2）为线性约束问题.增广拉格朗日函数的定义为式（3）.

2 基于压缩感知的噪声图像恢复算法

2.1 算法的提出

该方法采用人脸图像的两种先验知识，即自然图像的局部平滑和非局部自相似性，而图像的稀疏性能和自然图像的两个性能一致.

一个通用的稀疏性度量类型可被描述成通过压缩感知恢复的高保真图像，称作协同稀疏性度量.建立一个自适应数据混合空间变换域，这个域合并另外两个互补的稀疏的局部二维域和非局部三维稀疏域 .

P和Q通常被设置在[0，1]之间，a是一个正规化参数，ψ_L2D对应于上述的先验知识局部平滑，保持图像的局部一致性，有效地抑制噪声，ψ_N3D对应于上述的先验知识局部自相似性，保持图像非局部一致性，同时保持锐利且边缘有效.

2.2 特征设计

2.2.1 空间域的局部二维特征

对于自然图像，首选响应尽可能小的一组滤波器，因为滤波后的图像和高通滤波器的一些卷积是稀疏的，大多数像素强度接近零，这种类型的稀疏性为空间域的局部二维稀疏.

实践中广泛使用的滤波器是水平和垂直的差分算子，用D_v和D_h表示，这分别对应于垂直梯度和水平梯度的图片，不失一般性，梯度图像是由广义高斯分布模拟.令，另p在式（4）中实现空间域ψ_L2D的局部二维稀疏，如式（5）.

对于各项异性的总变化，ψ_L2D。具有相同的表达式.在本文中，ψ_L2D经常被用来描述自然图像的局部平滑，ψ_L2D也可以取代二阶导数或更复杂的学习过滤器，p被设置成1/2或1/3的超拉普拉斯先验知识.

2.2.2 非局部的三维稀疏变换域

非局部的自相似性体现一些稀疏度量的属性，借助于系数的稀疏性和整合来重塑自相似性，取得通过堆叠相似图像的斑点转化产生的3D组，这种稀疏性为非局部的三维稀疏变换域，

如图1所示，对于每个块，找到在一个搜索窗口相抵的块，那些块被堆积在一个3D的数组内.为获得系数，在一个3D数组内进行3D转换，用非零系数的数目来衡量这个斑点的非局部3D稀疏性，通过整合所有块来取得整幅图像的非局部3D稀疏性，

逆算子A_N3D的定义为：在获取Φ_X以后，将它分割为n组3D变换系数，然后再逆序产生每一块的估计值，用每一块的估计值返回到它们的原始的位置，最终的图像估计值为所有块的平均值估计，其中，X的估计值为 .

2.3 协同的稀疏测量

非局部的三维稀疏利用自然图像的自相似性，借助于稀疏系数来表示自然图像的自相似性特征，并由转化3D组产生的堆叠相似图像块获得.稀疏性不仅能够保留自相似块中的纹理特征，也能在一定程度上保持不同块中的不同特征.因此，提出用协同稀疏性度量来解决噪声图像的恢复问题.

考虑到整体的局部平滑性和非局部自相似性，CSM在空间域局部2D稀疏性和变换域非局部3D稀疏性的表示如式（7）.利用稀疏的高度性，将自然图像映射到高维自适应混合空间变换域，限制了CSM的解空间.

3 实验结果与分析

实验采用的人脸图像为两张灰度图像和一幅自然图像，用matlab2010进行测试.每个块的大小B_S设置为8x8，待测窗口搜索块的大小设置为41×41，经验值为1，μ=28，0=2，，本文中β=32或卢= 64，τ=8或τ=12.

3.1 滤除图像噪声实验

用树结构小波算法，树形结构的离散余弦变换算法和总度差与本文方法作比较，用图像的信噪比（signal-to-noise ratio，SNR）表现结果，信噪比的单位用dB表示.

将图3中受高斯噪声干扰的人脸图像用4种方法进行恢复，其中，图3中的3幅人脸图像受到了同样的高斯噪声干扰.图4、图5、图6分别为TSW算法、TSWDCT算法、TV算法和本文算法对图像去噪后的效果，从左到右显示序号分别为算法1、2、3和4，可看到本文算法的恢复效果最好.

表1展示了4种方法在不同情况下的信噪比，由表1可以看出，本文方法的平均信噪比比TSW算法平均高8.49dB，比TSWDCT算法平均高5.23dB，比TV算法平均高的3.49dB，所以本文方法有很好的滤除图像噪声来恢复图像的能力，

每种算法对不同样本取得的平均信噪比结果如图7所示，看到本文算法的最高信噪比可达到接近34dB，比TV算法的接近31dB高出3dB，跟TSW和TSDCT两种算法比较高出的更多，足以说明本文方法的高效性.

表2和3显示了3幅图片的高斯噪声在20%和30%的情况下，并且标准差σ从50到200不等的情况下的信噪比结果，由于TV算法和本文算法对高斯噪声都是稳定的，所以对这两种算法做比较，从表2和表3可看出，本文算法对图像噪声的滤除能力明显高于TV算法，

表4显示了两种算法在上述情况下的执行时间，本文算法的执行时间是TV算法的执行时间的两倍左右，这是因为本文算法的复杂度高造成的.

图8描绘了不同比率下测量图像的信噪比与迭代次数的关系.迭代次数增加，图像重建的信噪比快速增加并趋于稳定.从图8曲线看出图像不光滑，迭代过程中有尖点，导致这种情况原因有二，一是原函数具有凸性，另一原因是本文算法避免收敛于局部最优解而试图实现全局最优解

4 结语

率失真优化的压缩感知图像编码篇3

率失真性能是衡量图像编码系统性能的重要准则。率失真技术可以不受编码结构和技术的限制,通过配置最优的编码参数提高编码性能,是实际编码系统中常用的优化方法。量化是传统的有损编码系统中的主要失真来源,量化器性能很大程度上决定了编码效率,因而可以选择合适的量化参数使得给定编码码率下失真最小。然而在基于压缩感知的图像编码系统中除了量化,采样过程也会引起失真和码率的变化,也就是说给定码率条件下最优的编码性能由量化参数和采样参数共同决定。因而分析量化参数、采样参数和编码码率、失真之间的关系对确定最优的参数配置至关重要。

目前在基于压缩感知的图像编码系统的编码参数和码率失真之间关系的研究方面已有一些成果。文献[5]中针对传统的视频编码系统提出了延迟-能量-率失真模型。文献[6,7]针对压缩感知编码视频流提出了码率-能量-失真模型。该模型可以用于估计接收端接收到的受信道噪声污染的视频流的质量。但在基于压缩感知的图像编码系统中最优的编码参数选择方面研究成果较少。文献[8]中针对分布式视频压缩感知编码框架提出了压缩感知采样率的分配方法,该方法基于图像区域的稀疏程度进行采样率的分配,稀疏度高的区域分配较低的采样率,稀疏度低的区域分配较高的采样率。但是该方法并没有考虑量化对编码码率和失真的影响。而且算法还需要额外传输附加信息到接收端。文献[9]提出了率失真优化的码率分配方案,然而算法的效率很大程度上取决于失真模型的正确性。

本文首先分析了基于压缩感知的图像编码系统的编码参数与码率和失真之间的关系,然后分别提出了码率和失真模型,最后将上述模型用于压缩感知编码算法的优化,提出了基于率失真优化的压缩感知编码算法,选择最优的采样率和量化参数,使得编码器性能最佳。

1 压缩感知

压缩感知(Compressive Sensing)是通过线性投影将高维信号编码为低维信号的采样方法。压缩感知包括3个主要问题:稀疏表示、信号测量和信号重构。压缩感知理论实现的基础是信号的稀疏性。稀疏度定义为离散时间信号中非零元素的个数。如果在某个正交基下信号是稀疏的,并且稀疏度K远小于信号的维数N,那么该信号被称为稀疏的或可压缩的,可以通过压缩感知对信号压缩。自然图像在诸如离散余弦变换和小波变换这类变换下都是稀疏的,因此将图像看作矢量u∈RN,那么图像在正交基ΨN×N下的映射信号x是

假设存在测量矩阵Φ,维数是L×N,L≤N,则通过非相关测量将信号x投影到测量矩阵Φ上,即

可以得到测量值y,此时信号维数从N降到了L,降低了数据量。压缩感知理论证明只要采样矩阵满足限制等距特性(Restricted Isometry Property,RIP),那么从测量值y中可以高精度地重构出原信号x[10,11]。当满足RIP条件时,原信号可以通过求解下式所示的最小l0范数问题来重构,得到重构信号

由于L≤N,式(3)的求解是一个病态问题,有无穷多组解,计算复杂度很高。因此Donoho and Candes提出当满足RIP条件时,可以用l1范式代替l0范式,将式(3)转换为一个凸优化问题进行求解

通常采样个数L≥αKlog N时,可以精确重构出x。其中α是一个很小的常数。在实际环境中通常存在各种各样的噪声,对测量数据造成干扰,比如图像压缩系统中编码端就会引入量化误差。在噪声环境下信号的重构可以进一步写为

其中:参数ε表示噪声。在重构过程中,重构信号质量与测量矩阵、正交基都有关系。精确重构原信号所需的样本个数也由正交基和测量矩阵的相关性决定[12]。正交基和测量矩阵的相关性越低,精确重建稀疏信号所需要的采样个数就越少。

2 码率-失真模型

传统的视频编码系统中,量化是产生失真的主要原因,量化参数(量化步长)越大,失真越大,编码码率越小;而在压缩感知编码系统中,失真由量化和线性测量共同产生。量化参数和测量数目的设置直接影响系统的性能。比如减小量化步长会提高码率,减小失真;而增大量化步长会降低码率,增加失真。增加采样个数会增加码率,同时减小失真;而减小测量数目会降低码率,增加失真。由于无法保证码率和失真同时达到最小,因此需要在码率和失真这两个参数中获取最优的Pareto均衡。

采样个数和量化参数互不相关,因此可以分别分析他们对码率和失真的影响。当测量值的数目固定时,码率和失真随量化参数的变化如图1和图2所示。图中,Rcs表示采样个数占总数的百分比,失真是源图像和重构图像之间的均方误差。可以看出采样个数不变时,码率随着量化参数的增大而下降,失真随量化参数的增大而增加。从图1a和图2a中可以看出,码率和量化参数QP之间近似服从幂函数的分布,而图1b和图2b中失真和量化参数也近似服从幂函数分布,码率和失真与量化阶之间的关系可表示为

式中:α1,α2,α3和α4是模型参数,取值与原信号有关;R1表示码率;D1表示失真。当量化参数固定时,码率和失真随采样个数变化如图3和图4所示。可以看出码率R2随采样个数呈线性变化,失真D2随采样个数呈指数分布

式中:β1,β2,β3是模型参数,因此可以建立码率R和采样个数NCS、量化参数QP之间的数学模型

式中:αR,βR和γR是模型参数,取值与原信号有关。总失真由测量模块产生的失真和量化模块产生的失真构成,D=D1+D2。测量模块产生的失真随采样个数呈指数分布,量化产生的失真服从幂函数分布,因此失真模型可以定义为

式中:αD,βD和γD是模型参数,取值与原信号有关。

3 率失真优化的压缩感知编码

理想情况下期望最优的编码器以最小的码率获得失真最小的图像,也就是在给定码率Rb的条件下失真最小的编码器

式中:U是源图像;S是编码器配置参数矢量;D(U,S),R(U,S)分别是失真和码率。式(12)的最优值就是码率受限条件下最优的视频编码器性能。从式(12)中可以看出,编码器的失真受码率的约束,无法同时使得码率和失真最小。当给定编码码率一定时,如果分配较多比特用于采样,那么用于表示每个样值的比特数较少,导致失真增大;反之,如果用于量化的比特数较多,那么用于采样的比特就会较少,同样导致失真增大。因此根据上节提出的码率-失真模型,分析码率、失真和编码参数(量化参数和采样个数)之间的关系,提出了基于率失真优化的压缩感知编码算法,求解最优的编码参数配置,得到给定码率条件下的失真最小的编码器。

压缩感知编码框架中影响性能的因素有2个,即采样个数和量化参数,因此最优的编码参数配置实际上就是求解能够使编码效率最高的采样个数和量化参数。式(12)可以改写为

式中:D(U,NCS,QP)和R(U,NCS,QP)分别是在编码参数NCS,QP下得到的失真和码率。通过式(10)的码率模型可以计算出每组NCS,QP的取值下对应的编码码率,通过式(11)可以得到在该码率下产生的失真。式(13)可以使用拉格朗日法或是动态规划法求解。由于动态规划的复杂度随着编码单元的增加呈指数上升,导致计算量巨大,因此通常采用拉格朗日法求解。当满足KKT条件时,式(13)表示的受限优化问题可以转换成不受限优化问题,可以由下式解出

式中:λ≥0称为拉格朗日因子,也是率失真曲线的斜率。λ用来衡量码率和失真的相对重要性。λ越小失真越重要,λ越大码率越重要。拉格朗日代价值J(U,NCS,QP,λ)用于衡量编码性能的优劣,代价值越小编码性能越好。能够使得代价值最小的参数配置S*={N*CS,Q*P}就被称为最优的参数配置,对应的λ*是最优的率失真斜率,失真D*是在该码率Rb下的最小失真。诸如牛顿法或二分法这类快速搜索算法通常用于求解λ*,然而算法复杂度都较高,相当耗时。本文中通过求解KKT条件计算最优的拉格朗日因子。既然最优的参数配置S*使得J(U,NCS,QP,λ)达到最小值,那么J(U,NCS,QP,λ)的梯度在S*的值为0,也就是

式中:表示梯度运算。因此对于上面的凸优化问题,KKT条件如下

因此如果存在λ*满足KKT条件,对应的S*也就是J(U,NCS,QP)的最小值。求解满足KKT条件的λ*就可以得到式(14)的最优解,也就是最优的压缩感知编码器。

4 实验结果

本文所提算法基于Matlab编码平台进行了实验。在发送端待测图片先进行小波变换,得到稀疏信号,然后由测量矩阵进行采样,采样后的数据再经过均匀量化和算术编码生成编码码字。在接收端编码码字先算术解码和反量化,然后根据得到的采样数据进行重构。目前有多种重构算法,算法的性能与图片在小波域的稀疏性有关。本实验中采用OMP(Orthogonal Matching Pursuit)算法重构信号[13]。重构后的信号再经过小波反变换就恢复出了原图片。

实验测试了文中所提的码率和失真模型的正确性。图5显示了根据码率模型估算的码率和实际测试码率的比较。从图中可以看出,由采样数目和量化参数估算的码率和实际编码码率相符。依据码率-失真模型计算出的率失真曲线和实际测试曲线的对比如图6所示。其中图6a是在固定量化参数条件下得到的率失真曲线,图6b是在固定测量数目的条件下得到的率失真曲线,并且图中的曲线代表实际测试得到的率失真关系,菱形和星型代表模型计算结果。从图中可以看出模型产生的率失真曲线和实际曲线相符。实验还对率失真优化的压缩感知编码系统的性能进行了测试。测试结果如图7所示。可以看出根据本文提出的码率-失真模型对编码系统进行率失真优化后,系统的编码性能有了明显提高,和未优化时相比增益约有2 d B。

5 结论

本文通过分析压缩感知编码系统中编码参数和码率以及失真的关系,提出了基于压缩感知的图像编码系统的码率-失真模型。并且根据所提模型设计了率失真优化的压缩感知图像编码算法。通过优化测量数目和量化参数,得到给定码率下失真最小的编码器。实验结果表明该码率-失真模型能够很好地拟合实际率失真曲线,以此为基础提出的率失真优化算法能够有效提高压缩感知图像编码系统的性能。

摘要：针对基于压缩感知的图像编码系统,分析了系统中编码参数和码率以及失真的关系,在此基础上提出了基于压缩感知的图像编码系统的码率-失真模型。根据所提模型设计了率失真优化的压缩感知图像编码算法。在给定码率的条件下,优化编码参数,使得编码器失真最小。算法在Matlab的编码平台上进行了仿真和实验,结果证明提出的码率-失真模型能够很好地拟合实际率失真曲线,并且基于该模型的率失真优化算法有效的提高了压缩感知图像编码系统的性能。

婴儿的数字感知能力篇4

主持这项实验的是哈佛大学的伊泽德教授，实验的被试者是36名3个月的婴儿。实验前，婴儿戴上了专门为他们研制的电极帽，通过它可以记录婴儿实验时的脑电波活动。实验时，婴儿坐在他们父母的膝盖上，观看一台计算机屏幕上出现的一组图片，这些图片中绝大多数显示的是同样数量的同一种物体，例如3只卡通猫。然后，在这些猫图片中偶尔显示另一种物体，例如卡通狗，或者猫的数字发生改变。当发生这些改变时，这些婴儿大脑的电波活动就会出现与以前不一样的反应。将婴儿实验中的脑电波记录下来，研究人员利用一种计算机模型来分析这些信号，了解婴儿大脑中哪个部分发生了变化。他们发现当物体的图形和数量发生变化时，婴儿大脑不同部位的脑电波就会做出相应反应。

伊泽德分析了实验结果，认为婴儿到了3个月大的时候，已经出现了可以区分他们看到的物体数目以及辨别物体特性的独特神经通路。这些通路与在成人身上发现的一对神经系统网络相符。这对神经系统网络一个是“什么和如何”网络，主要是处理它所监测物体的位置、大小和潜在的用途；另一个是“什么”网络，它的功能是识别物体。在观察物体种类变化时，婴儿与成人和儿童一样，会将这个信息传递到脑中的“什么”网络，在左颞叶顶部的脑电波出现强烈的反应。当他们看到物体的数字改变时，也会像成人和儿童一样将信息传递到“什么和如何”网络，引起它的活动，不同的是婴儿的这种活动集中在右脑区域，而不是在左脑。

在孩子的成长过程中，很多家长注意对婴幼儿语言和记忆能力的培养，让孩子学英语、背唐诗，而忽视了对孩子数字潜能的开发，他们认为等到4岁才开始灌输数字的概念也不迟。这种错误观点造成一些3、4岁的孩子在语言上能说会道，但在数字上却是个“数盲”，连从1到10都数不下来。

从上文的介绍中也可以看出3个月的婴儿已经对数字有感知。专家告诉我们，婴幼儿期是人类数学能力开始发展的重要时期，在宝宝O～3岁的年龄段，就应该引导和启发他们接近数学、喜欢数学、学习数学了，因为儿童思维能力的发展正是从这样一些基本的“细胞”开始的。但是，要注意，对于3岁前的婴儿应该进行的是数字概念的教育，而不是算术教育。也许你可以硬性地灌输给一个两岁的宝宝加减法的算式，他能非常熟练地回答出十以内、甚至二十以内加减法的答案，这时你会很得意自己的教育“成果”。但是，事实上宝宝并不真正理解这些算术的内容和答案，对他而言这与背诵一首唐诗并没有什么区别。而这并不是我们需要达到的目的。所以，对婴儿的正确教育也是一门学问。如果作父母的都能在孩子3岁前的数学潜能期对宝宝进行正确的“数字”教育，对今后孩子数学能力和智力的开发将有很大的好处，也将为社会培养出更多高智力的儿童和数学天才。

基于压缩感知的遥感图像融合方法篇5

关键词：压缩感知,图像融合,小波分解,图像重构

随着传感器系统的快速发展,如何从传感器数据提取科学信息成为重点。在许多情况下,一个传感器所提供的信息无法反映现实情况,因此,在过去的几年里多传感器融合引起了业内关注。图像融合是多传感器融合的一个分支,是指由两个或两个以上的图像结合成一个拥有超过输入图像的任何一幅的信息的融合图像的过程。随着图像的数量增加以及传感器的发展,对于过程中图像的获取和硬件的要求越来越高。近几年来提出的压缩感知理论(Compressed Sensing,CS)[1,2]标志着图像处理领域一个崭新时代的来临。在CS理论中,图像的采样和压缩同时进行,可以用远低于奈奎斯特采样定理要求的速率对图像采样,而不会丢失图像的任何有用信息,达到完全重构原始图像的目的。该方法可以减少信号采样率、存储量、功耗、图像处理及相关研究领域的计算复杂性,有效地降低了对传感器硬件的要求。

基于CS图像融合的自然方法就是在图像融合后采用CS方法处理。但为减少计算复杂度和节省存储空间,更好的方法是将融合规则应用于经过压缩后产生的测量值。Tao Wang等[3]提出了对测量值小波变换后进行一种简单取大融合的规则,Xiaoyan Luo等[4]提出了对测量值基于熵的加权平均的融合规则,Juanjuan Han等[5]对文献[3]中的方法进行了改进,并与文献[4]中的方法进行比较,得到了更为优越的结果。

文中在提出了一种基于压缩感知理论的图像融合框架,在对测量值的融合中,引入了梯度的方法,融合规则采用小波分解低频取全色系数,高频取梯度大的系数,有效提高了图像融合的效果,并与已有算法进行了比较。实验结果表明,文中算法有着较好的优越性。

1 压缩感知理论

1.1 压缩传感

压缩传感的核心是线性测量过程,设x(n)为传统采样得到的稀疏信号,长度为N,通过压缩传感得到y(m),长度为M,M<N,它们的关系为y=Φx,其中Φ称为测量矩阵,大小为M×N。如果x(n)不是稀疏信号,可在正交稀疏变换下通过系数s(k)表示,记为y=Θs,其中Θ=ΦΨ为M×N矩阵。

显然,无法直接从y(m)恢复出x(n),因为上述方程组中未知数个数N超过方程个数M,但可通过求解下列优化问题得到x(n)在Ψ变换域内的稀疏形式可压缩传感的关键是通过构造合理的测量矩阵,采用非适应的重建算法对信号进行恢复。从以上可以看出,M值越小,数据压缩也就越大,但M越小,数据就越难恢复,所以他们之间有个平衡量,如果要得到99%以上的正确恢复率,三者之间应满足M≥4K(ln N+4.6)。同样,对于测量矩阵,如果Φ满足RIP特性,即(1-δK)x22≤Φx22≤(1+δK)x22,0<δK<1,就可以恢复出原始信号。

1.2 重构算法

文中采用OMP重构算法[6,7,8],其本质思想是:以贪婪迭代的方式选择Φ的列,使得在每次迭代中所选择的列与当前的冗余向量最大程度地相关,从测量向量中减去相关部分并反复迭代,直到迭代次数达到稀疏度m,强制迭代停止。具体算法步骤如下:

(1)初始化冗余向量r0=y,索引集合Λ0=Ø,迭代计数t=1。

(3)令Λt=Λt-1∪{λt}。

(4)计算{φλ∶Λt}张成空间的正交投影Pt。

(5)计算新的近似at和冗余rt∶at=Pty,rt=y-at。

(6)t=t+1,如果t<m,返回步骤(2)。

(7)获得的估计sλ^在索引Λm位置的元非零,且在该位置的值就是对应的分解系数:。

2 基于压缩感知理论的遥感图像融合

2.1 基于CS的遥感图像融合方法

文中基于CS理论的图像融合框架主要思想[9]是,首先分别对输入的源图像进行压缩采样,并在感知域上进行图像融合,然后将融合观测传输给接收端,接收端通过OMP算法进行重构,得到输入源图像的融合图像。该框架融合过程如图1所示。

上述融合方法的主要包括信号调制、融合和图像重构3大步骤:

步骤1信号调制。将输入的两幅图像x1和x2分别利用同一欠采样观测矩阵进行观测,得到观测图像y1和y2,也就是将图像低维投影到CS感知域上。

步骤2融合。在CS感知域上,将步骤1中获得的观测图像y1和y2依据一定的融合规则进行融合,得到融合观测图像y。

步骤3图像重构。利用步骤2得到的融合观测图像y,基于CS理论进行图像重构,得到最终融合图像x^。

2.2 基于CS的遥感图像融合算法

在图像处理中,多尺度小波分解对于信号表示有着显著优势[10,11]。小波分解的基本思想是将任意函数f表示为小波的迭加,这种函数f的小波迭加表示将f分解为不同尺度级,在每个尺度级,f又在这一尺度级对应的分辨下被分解,尺度级对应着频率,频率越高,对应的分辨率越高,换而言之,将函数f分解成不同频率通道成分,并将每一频率通道成分又按相位进行了分解——频率越高者,相位划分越细,反之则越疏。

文中采用二维小波分解算法[12],其定义:令Vj2(j∈Z)为L2(R2)的可分离多分辨逼近空间,φ(x,y)=φ(x)(y)为对应的二维尺度函数,ψ(x)为与尺度函数φ(x)对应的一维标准正交小波。

设待分析图像f=f(x,y)∈Vj2,则二维逼近图像Ajf(x,y)可分解为

用Hr和Hc分别表示对阵列{Ck,l},(k,l)∈Z2的行和列作用的算子H,用Gr和Gc分别表示算子G作用于该阵列的行和列上,二维Mallat重构算法为

文中采用二维小波分解得到逼近系数CA,细节水平系数CH,细节垂直系数CV,细节对角系数CD。文中的融合算法为:逼近系数取全色图像,细节系数分别在不同方向求其梯度,最后分别取梯度最大值为其细节系数。通过二维小波逆变换得到融合后的观测向量,再通过OPM重构算法得到融合结果,并将融合结果逆稀疏化后得到融合图像。

3 基于压缩感知的遥感图像融合实验

实验由信息熵、平均梯度、光谱扭曲度及光谱相关系数来反映实验结果。融合图像信息熵的大小反映了融合图像空间细节信息量的多少。定义为

平均梯度反映了图像中微小细节反差表达的能力和纹理特征的变化。定义为

光谱扭曲度是融合图像灰度与源多光谱图像灰度差值图像的平均值。定义为

光谱相关系数表示融合图像与源图像光谱特征的相关程度。定义为

4 实验结果

源图像为256×256的全色图像和多光谱图像,采用小波稀疏化,观测矩阵为哈达玛矩阵,重构采用OMP算法,由于文献[5]中已经与文献[3～4]方法进行了比较,结果表明文献[5]方法性能更好。文献[5]采用一维小波分解的方法,文中方法采取二维小波分解,实验中与文献[5]中的1d方法进行了比较。实验结果如图4所示。

从图4中可以看出,文中融合方法有着良好的融合结果,而且从客观数据中也能看出其优越性。

从表1可以看出,在信息熵、平均梯度、光谱扭曲度、光谱相关系数等方面,文中方法都优于文献[5]的融合结果。可见文中提出的方法在提高空间信息和保留多光谱信息之间找到了最佳平衡点,即以最小的空间信息量下降为代价,换取了更多的多光谱信息保留。

5 结束语

基于图像感知哈希的行人跟踪算法篇6

1 感知哈希算法

2001年,Ton Kalker首次在一篇关于数字水印的综述文章中提出了感知哈希算法[7],他通过“感知”这个词汇来强调感知哈希算法关注的是感知的相似性。感知哈希算法是哈希算法的一个分支,其是一种基于认知心理学的信息加工理论[8],由多媒体数据集到多媒体感知摘要集的一类单向映射,通过将具有相同感知内容和信息的多媒体数据压缩成唯一的一段数字摘要,并满足感知安全性要求。

根据感知哈希的特性,其可将数据量较大的对象映射成为长度较小的一系列比特位,且感知相近的对象会被映射成相近的哈希值。利用感知哈希的这些特性,可将其利用到相似图像匹配和目标跟踪上。并感知哈希函数拥有感知鲁棒性,感知内容相近或相似的媒体对象应该得到相同或相近的感知哈希值[9]。

如式(1)所示,记感知哈希函数为PH。由对象I生成的函数值h称为感知哈希值

对于哈希值的比较,两个对象的感知距离pd可使用各种距离计算方法PM得到

其中,hi和hj分别表示两个对象的图像感知哈希值。感知距离可采用传统的计算距离的方式得到,比如计算汉明距离或欧式距离。

2 行人跟踪算法

提出的基于感知哈希算法的人体目标跟踪算法利用图像感知哈希技术,采用菱形搜索算法和距离匹配算法,获取目标信息。本文算法流程如图1所示。

图像进行感知哈希算法的计算流程,步骤如下:

步骤1选择需要跟踪的行人目标;

步骤2按照行人的特征,将人分成几个部分,如图2所示。

矩形方框中的数字代表该矩形哈希值的权重

其中,h代表该矩形模版总的哈希值;Wi为第i块小矩形的权重。

步骤3对每个小矩形分别进行感知哈希计算。

感知哈希计算过程:(1)缩小尺寸。将每个小矩形区域缩小到32×32。这样做的目的是简化了DCT的计算,减少不同尺寸图片带来的差异;(2)简化色彩。将彩色RGB图像转化成单色调的灰度图像,再次简化计算量;(3)计算DCT。计算灰度图像的DCT变换,得到32×32的DCT矩阵;(4)缩小DCT。DCT的结果是32×32大小的矩阵,但只需左上角的8×8的矩阵;(5)计算平均值。计算所有64个值的平均值AVG;(6)计算哈希值。根据8×8的DCT矩阵,依次进行计算,将≥AVG的部分记为”1”,<AVG的部分记为“0”。这样就得到64位长度的二进制编码。

将最后得到的二进制组合在一起,就构成了一个64位的哈希值。图3展示了图像感知哈希算法的计算过程。

步骤4将6个小矩形的哈希值都计算出来后,带入式(3),便可得到该矩形框的感知哈希值;

步骤5采用菱形区域搜索算法,对符合条件的区域计算感知哈希值,并计算与目标区域的汉明距离;

菱形搜索算法[10]使用了两种搜索模板,分别是大菱形搜索模板(Large Diamond Search Pattern,LDSP)和小菱形搜索模板(Small Diamond Search Pattern,SD-SP)。首先使用固定尺寸的LDSP进行迭代搜索,即使某一步的搜索误导了搜索方向,LDSP的迭代过程仍有可能找回正确方向;最后,采用与LDSP搜索位互补的SDSP精确搜索位置,使菱形搜索算法算法趋近于全局最优。另外,LDSP有较强的相关性,在迭代时仅需计算3或5个新的搜索位,减少了不小的计算量。

步骤6选择最小的汉明距离,与阈值进行比较,小于阈值则更新目标区域。根据实际测试结果,阈值设置为20时,效果较好。

3 实验结果

使用提出的算法,设计了视频行人跟踪系统,采用VS2013作为系统开发工具,Opencv开源库作为辅助图像处理工具,在Intel(R)Xeon(R)3.2 GHz CPU,4GB RAM的PC上完成目标跟踪。文中选择了2个视频,视频1是单人,背景有汽车作为干扰物;视频2是多人,有行人遮挡和花草干扰。实验结果如图4和图5所示,视频左上角红色字代表当前图像所在帧数,跟踪目标被红色矩形圈住。由实验结果可知,当有其他物体干扰时,针对行人的改进的图像感知哈希算法,在目标跟踪中效果更好。在图4中,第21帧时,由于汽车的影响,Mean Shift算法发生目标丢失,而本文算法仍能正常跟踪到目标。在图5中,第200和第250帧中,Mean Shift算法跟踪效果不理想,跟踪目标发生偏移、丢失现象,而图像感知哈希算法仍能正常跟踪到目标。

4 结束语

针对行人跟踪过程中出现的问题,本文提出了一种基于感知哈希算法的改进行人跟踪算法,该算法通过提取带跟踪的行人区域的感知哈希值,结合菱形区域搜索算法,设定一定的阈值,对行人目标进行跟踪。实验结果表明,该算法实现简单,跟踪准确,在发生遮挡和干扰物时,效果明显优于传统的Mean Shift算法。

摘要：针对传统目标跟踪算法计算复杂度高,在发生遮挡、形状改变时,运动目标丢失的问题,提出了将图像感知哈希算法应用于目标跟踪问题上,并针对行人这一特定目标进行了改进。按照行人的特征,将其分成若干区域,给不同区域分配不同权重,计算跟踪目标的感知哈希值,计算待测区域的哈希值,选择合适的待测区域作为目标区域。该算法与MeanShift算法相比,能更好地处理目标遮挡,不易产生目标丢失,且具有较低的复杂度。

关键词：感知哈希算法,目标跟踪,遮挡,目标丢失,MeanShift

参考文献

[1]蔡荣太,吴元昊,王明佳,等.视频目标跟踪算法综述[J].电视技术,2010,34(12):135-138,142.

[2]王宇.基于Mean Shift的序列图像手势跟踪算法[J].电视技术,2010,34(6):97-99.

[3]Comaniciu D,Ramesh V,Meer P.Real-time tracking of nonrigid objects using meanshift[C].Los Alamitos,CA:Proceeding of IEEE Conf on Computer Vision and Pattern Recognition,IEEE Computer Society,2000.

[4]Battiato S,Gallo G,Puglisi G,et al.SIFT features tracking for video stabilization[C].Modena,Italy:Proceedings of the14th International Conference on Image Analysis and Processing,IEEE,2007.

[5]曾波波,王贵锦,林行刚.基于颜色自相似度特征的实时行人检测[J].清华大学学报:自然科学版,2012(4):571-574.

[6]Viola P,Jones M.Robust real-time face detection[J].International Journal of Computer Vision,2004,57(2):137-154.

[7]张慧.图像感知哈希测评基准及算法研究[D].哈尔滨:哈尔滨工业大学,2009.

[8]安坤.基于感知哈希算法的商标图像的检索[D].杭州:浙江理工大学,2014.

[9]牛夏牧,焦玉华.感知哈希综述[J].电子学报,2008,36(7):1405-1411.

图像感知能力篇7

关键词：压缩感知,图像重构,正交匹配追踪 (St OMP)

奈奎斯特 (Nyqusit) 采样定理[1]要求在带限数据采样过程中, 采样率必须大于最高频率的两倍。在该理论指导下, 数据信息的获取、存储、处理和传输等技术的实现即成为当今科学技术领域进一步向前迈步的重要技术瓶颈之一。具体来说, 主要表现在如下两个方面: (1) 高采样率的数据采集导致了较高成本。 (2) 在某些应用中[2,3], 奈奎斯特采样定理支配的高采样率导致了采样样本过多。显而易见, 这种基于奈奎斯特 (Nyqusit) 采样定理为基础的技术造成了大量资源的浪费。

2006年, 由美国科学院院士D.Donoho、E.Candes同华裔科学家T.Tao等研究学者提出了一种全新的数据采样理论——“压缩感知” (Compressive Sensing, 简写为“CS”) 。该理论表明, 当信号数据是可压缩的, 可以通过采取极少数量的信号投影值加以实现信号的近似重构, 可以极大程度的降低了数据采集的成本。

1 测量矩阵的设定

在“CS”理论中, 测量矩阵Ф的设定十分重要。Ф的合理性直接决定数据重构的质量, 当测量数目达到临界时, 合理的测量矩阵就可以确保数据的准确恢复。

高斯测量矩阵的缺点是矩阵内元素所需存储空间大, 但优点在于它几乎与任何稀疏信号都不相关, 因而需要的测量次数最少。

2 压缩感知算法的优化

本文对分段正交匹配追踪 (St OMP) 算法进行二次优化, 改善了原算法的部分缺陷, 使其在计算时间上略有改进。

优化后的St OMP算法如下:

步骤1:初始化最大迭代步长maxstep, 求解的最大迭代误差e, s=1, 然后求得迭代误差的第一位非零数字记作n;

步骤2:对小波稀疏矩阵y进行随机测量, 得:

步骤5:结合一个最近子集, 合并最新的两次坐标索引, 并对Is集合进行一致化处理, 得Is:

步骤6:求解线性方程组:求得:

步骤7:计算残差:

3 仿真实验结果

仿真实验采用Symmlet5为正交小波基做小波变换, 采用国际标准测试图像Lena.bmp作为测试图像, 对不同高频子带采用不同的采样率, 利用分段正交匹配追踪 (St OMP) 算法对采样后的图像数据进行重构。分别求得峰值信噪比PSNR、图像熵、灰度平均值, 观察实验数据, 比对算法的性能, 得到仿真实验结论。

在采样率f1分别为0.1、0.05、0.01时, 对Lena512x512图像重构效果如下图所示。

Lena512重构后图像PSNR、图像熵、灰度平均值的数据比对如下表所示。

4 结论

选用不同的采样率, 经优化后的St OMP算法重构后的图像均保持较好, 有着较好的视觉效果, 随着采样率f的下降, PSNR值和图像熵值逐渐减少, 灰度平均值保持在一个数值上下, 这表明我们可以用较少的采样数据重构质量较好的图像。

参考文献

[1]李晓陆.带通采样定理在降低功耗问题中的实际应用[J].桂林电子工业学院学报, 2004, 24 (05) :36-38.

[2]崔庆林, 蒋和全.高速A/D转换器动态参数的计算机辅助测试[J].微电子学, 2004, 34 (05) :505-509.

图像感知能力篇8

数字图像取证技术可以分为主动取证和盲取证两大类。数字水印技术[1,2,3]是主动取证中的主要标志性技术,但这是一种主动取证方法,需要对图像进行预先处理,大大限制了其应用范围。数字图像盲取证技术[4,5]因为其更广泛的应用范围而受到越来越多的重视,盲取证技术不需要预先向图像中加入标识版权的先验信息,而是直接对取自各种来源的数码图像进行真实性和原始性的鉴别。

细缝裁剪( Seam-carving) 方法[6]是由Avidan, Shai提出的一种基于内容的图像缩放技术。这种技术通过计算各个像素的能量值来有目的的选择“细缝”(Seam),通过复制或移除细缝来达到放大或缩小图像的目的。细缝的选择标准决定了复制或移除细缝对图像重要细节的影响最小,从而达到视觉上的失真最小。细缝裁剪技术因其独有的优势而迅速被承认并且大面积使用,比如,该项技术已经加入到Adobe Photoshop CS4中使得一般操作者也能更容易的使用。细缝裁剪技术还可以通过删除经过指定区域的细缝来实现对图像中某个物体的移除而达到篡改的效果。但是迄今为止针对采用细缝裁剪技术进行图像篡改的相应的检测技术还没有被更多的重视和开发。在仅有的文献中,Min Wu提出了一种基于哈希的预测判别方法[7],这是一种主动取证方法, 应用受到一定限制;Fillion C提出了一种融合特征后用于SVM ( Support Vector Machine) 训练的方法[8],但是识别的准确率和成功率不高。

本文采用提取正常图像和经过细缝裁剪篡改后的图像的马尔科夫特征,并用SVM进行训练,来达到区分正常图像和细缝裁剪篡改图像的目的,实验结果表明本文所提方法取得了良好的的检测效果。

1细缝裁剪方法

细缝裁剪就是通过复制或者移除“细缝”来实现图像缩放的目的,所谓“细缝”是根据能量值来选定的一条竖直方向或水平方向的一条线,以垂直细缝为例,这条线是从上至下的一条曲线,该曲线在图像每一行都有且仅有一个像素,曲线上相邻2个像素之间是八连通的,这保证了是一条连续的曲线。关于细缝需要说明以下两点:1细缝的选择是基于像素能量的大小来选取,这里选用式(1) 计算所得出的能量值来进行比较选取;2之所以要细缝上相邻像素八连通从而实现整条细缝是一条连续的曲线,而不是直接选取每一行(以垂直细缝为例)的能量值最低的像素直接复制(放大时)或者删除掉(缩小时),是因为每列能量值最小的像素一般分散分布,直接复制或删除这些像素将会产生比较严重的不连续视觉效果,造成很明显的人为失真痕迹。

对于大小为N1× N2大小的图像,用式(2) 定义一条垂直细缝:

式中,某条竖直细缝包含的像素集由s表示。该竖直细缝含有N1个像素,{ai,bi}iN=11表示N1个像素的坐标集((a,b)代表图像中第a行第b列)。

根据式(2),可以用Is= {I(si)}iN=11= {I(i,x( i)}iN=11来表示细缝的所有像素,那么在若干条细缝中,通过式(3)求得在缩放过程中起关键作用的最优细缝, 也就是总能量值最小的细缝:

细缝的查找过程采用动态编程技术实现,从第2行开始对每个像素( i,j) 计算其M( i,j) 的值:

通过式(4)可以看出,首先逐一检查上一行与当前像素八连通的3个相邻像素的能量值,找到值最小的像素,将当前元素能量值与该像素能量值相加作为当前像素的最终能量值,依次按照以上策略进行计算并记录路径,这样当计算到最后一行的时候,该行每个像素的能量值就是某条细缝的能量累加值,通过对最后一行像素的能量值的遍历可以找到总能量值最低的细缝在最后一行像素的位置,通过此像素进行回溯,就可以找到整条细缝,这种能量值最低的细缝将在图像缩放过程中发挥最大的作用。

当图像需要放大时,通过复制最优细缝来实现。如果细缝中的某个像素是a2,它的复制决定于它附近的2个像素,比如{a1,a2,a3},复制细缝后为{a1b1,b2,a3},b1 、b2通过式(5)求得:

如果a2恰好处在图像的边缘,比如{a1,a2},则复制细缝后为{a1,b,a2},b的值由式(6)求得:

图像通过插值和细缝剪缩放后的效果对比如图1所示。

通过图1可以看出细缝裁剪技术在图像缩放方面体现出的优越性。用插值方法得到的缩放图像对使得图像的细节发生了变形和失真,而使用细缝裁剪方法得到的缩放效果在最大程度上保证了图像细节不发生变化,因此视觉效果最好。

2基于马尔科夫特征的细缝裁剪篡改检测

2. 1特征提取

一般来讲,通过数码设备获取的数字图像,相邻像素之间存在一定的关联关系。细缝裁剪通过细缝的插入和删除来实现图像的缩放,这个过程必然会明显的影响插入或删除细缝相应区域的相邻像素的相关性。

马尔科夫过程可以很好的描述像素间的相关性以及空间上的连续性变化。通过计算图像频域(比如DCT域)的马尔科夫转移概率矩阵,提取相应特征,加以训练,使其能够用以区分正常图像和经过细缝裁剪篡改后图像,具体步骤如下:

1对源图像进行8 × 8块离散余弦变换从而得到DCT系数矩阵。

2 DCT系数矩阵取整,然后取绝对值( 得到矩阵F)。

3计算F的差矩阵( 水平、竖直、对角线、反对角线4个方向):

4设置阈值T(正整数),对Fh、Fv、Fd、Fm中的所有元素值验证,> T或者 < - T,则改为T或者 - T。

5对Fh、Fv、Fd、Fm分别求各自对应方向的转移概率矩阵:

式中,i,j∈{-T,-T +1,-T +2,…0,…,T -2,T -1,T};su, sv表示图像的原始行数和列数,当括号内条件成立时 δ ( ·) = 1,否则 δ( ·) = 0。

6将式(8)所求得的转移概率矩阵的所有元素作为特征。维数为(2T +1) × (2T +1) ×4 =324(T =4)。

2. 2分类训练

由于支持向量机(SVM)[9]在小样本高维数据的分类表现出很好的性能。本文采用使用RBF核的LIBSVM[10,11]。分类过程将所有未经篡改的正常图像标为“- 1”,所有经过细缝裁剪篡改的图像标为“1”,从而将问题转化为一个二值分类问题。使用LIBSVM首先对混合图像集进行训练,该训练集包含原始图像和篡改图像。将训练的结果用于含正常图像和按各种比例缩放的篡改图像的测试集进行分类测试。

3实验结果分析

实验对灰度图像和彩色图像两大类进行分别测试。针对灰度图像的实验采用在数字图像取证领域最广泛使用的哥伦比亚大学图像库,该图像库由933张正常图片和912张拼接图片组成。由于图像库涵盖了11大类各种纹理情况的图像,因而在此图像库上的实验结果具有很好的可信性。11类图像的具体纹理特征如表1所示。

实验采用11大类共933张正常图片作为正常图像库并针对每一类正常图像使用细缝裁剪技术产生篡改图像库。其中,分别对正常图像进行0. 5、0. 8比例的缩小和1. 2、1. 5比例的放大。共得到包含4 × 933 = 3 732张篡改图像的篡改图像集。包含933张的正常图像集和3 732张的篡改图像集将为SVM的训练和分类测试提供所有需要的图像。图片实例如图2所示。

彩色图像采用CASIA 2. 0,该库包含7 491张正常图像和5 123张篡改图像。图像大小从240 × 160到900 × 600不等,并且包含未压缩图像和不同压缩比例因子的JPEG压缩图像。7 491张正常图像都是自然图像,包含场景、动物和建筑等9大类。图片实例如图3所示。

软件平台采用Matlab R2009a,硬件平台采用Intel E7500 2. 93 GHz,2 G内存的台式机。大量实验表明,差矩阵和转移概率矩阵求取时取T = 4可以达到最好的效果。

针对灰度图像库,对含有正常图像和篡改图像各300幅(随机挑选)的训练集进行训练,然后对11大类图像逐一选取正常和篡改后各100幅图像(随机挑选)分别检测正确率,结果如表2所示。

TPR( True Positive Rate) 代表在所有待检测篡改图像中正确检出的比率; TNR ( True Negative Rate) 代表在所有待检测正常图像中正确检出的比率。Accuracy代表所有待检测正常和篡改图像总的正确检出比率。Total代表所有11 × 100 × 2 = 2 200幅测试图像总的检测正确率。

针对彩色图像库,在9大类共7 491张正常图片中,每类随机选取200张图片,共200 × 9 = 1 800张;每类中随机选取50张并用细缝裁剪进行比例为50% 、80% 、120% 和150% 的缩放,共得到50 × 9 × 4 = 1 800张缩放篡改图片; 每类随机选取50张并使用细缝裁剪移除部分图片细节,得到50 × 9 = 450张篡改图片:训练集即由1 800张正常图片和1 800 + 450 = 2 250张篡改图片组成。测试集由所有7 491张正常图片和2部分篡改图片组成:一部分是每类中随机选取200张并按50% 、80% 、120% 和150% 比例缩放后的200 × 9 × 4 = 7 200张;一部分是每类中随机选取50张并用细缝裁剪方法去除部分图像细节的共50 × 9 = 450张。测试结果如表3所示。

从表2和表3可以看出,基于马尔科夫特征的检测方法检测经过细缝裁剪篡改过的图像具有很高的准确率。从表2可以看出,算法针对纹理较强的图像表现出更高的识别准确率,针对平滑图像表现略差,原因是纹理丰富的图像像素间的变化更显著, 体现在相关性上就更强,在转移概率矩阵中也就具有更明显的特征。考虑到篡改图像基本都是纹理较为复杂的图像,所以本算法在实际应用中应该具有很强的分辨识别能力。从表3可以看出,算法在彩色图像库的检测结果比灰度图像库略差,这应该归因于彩色图像库的图像大小变化和不同压缩比例的JPEG图像的影响。

ROC( Receiver Operating Characteristic Curve) 曲线能够直观地反映出算法分类的效果,采用TPR作为纵轴,FPR(被错认为篡改图像正常图像的数目占测试集中所有正常图像的比例)作为横轴。曲线的AUC( Area Under the Curve) 值越高表明分类的效果越好,分类测试所得ROC曲线如图4所示。通过图4可以看出,基于马尔科夫特征的算法ROC曲线有很好的AUC值,在实际分类中会取得很好的效果。

4结束语

发展感知能力培养写作兴趣篇9

一、提供不同命题，培养感知兴趣

作文的命题不能过于死板，应该源于学生的生活，通过“命题”诱发学生的生活积累，激发写作的兴趣，在教师的积极引导下，培养学生对生活感知的能力，如学习了《海伦·凯勒》一文后，让学生以“理想”为中心写作。教师了解学生的思想之后，可以拟出一组题目，供学生选择：我心目中的海伦·凯勒；我的美好理想；我向往的未来；海伦·凯勒是残疾人吗；读《海伦·凯勒》有感，等等。同时告诉学生，围绕“理想”这一中心议题，自己可以另拟题目作文。又如，一些学生部分学科学习不理想，结合实际情况可以提供题目，如：学习得失谈；我学习《语文》的方法；学好《英语》好办法等。作文命题要像教师在同学生亲切交谈一样，很随意地引起话题，结合学生生活，多方面提供作文题目，通过了解学生的情绪和思想动态，把题目命在学生的心坎上，通过作文来洞悉学生心理，发现他们对生活的感知程度，让学生对感兴趣的题目展开想象的翅膀。

二、丰富写作素材，引导感知生活

《小学语文教学大纲》指出：“小学生作文就是练习把自己看到的，听到的，想到的内容或亲身经历的事情，用恰当的语言文字表达出来。”生活是作文植根的沃土，培养学生对生活良好的自我感知，就要和学生交朋友，和他们一起参加活动，探索生活的真谛，引导他们热爱生活，学会从生活的各个方面不断吸取丰富的精神养料，既做生活的主人，又做习作的能手，把生活同作文紧密结合起来。

叶圣陶先生也曾经说过：“通过写作关，必须在认识方面下功夫，只有真正认识生活，切实体验生活，才能写出有真情实感的文章。”生活引导可以由近及远地进行。新学期，可以组织学生参观学校，去发现学校的新变化，让学生写作《学校的变化》，写《我爱校园的玉兰花》等；可以带领学生走出校园，向他们介绍家乡常州的名胜古迹：中华恐龙园、天宁寺、淹城、太湖湾等，提倡学生翻阅书籍，上网搜索，寻找资料，丰富写作素材，这样再来写《游中华恐龙园》、《我爱家乡的太湖湾》等就得心应手了；还可以写《太湖春茶美》、《太湖香梨黄》、《玉露含情，太湖蜜桃》、《清香飘溢的乌米饭》等习作，通过作文介绍常州的风俗、特产，通过自我了解感悟生活的真实，写好作文。

大自然蕴藏着取之不尽，用之不竭的写作源泉，让学生投入大自然的怀抱，的确是扩大视野、开辟写作之路的有效途径。如一位学生参观了常州中华恐龙园后，写出：“走进恐龙园，只见绿草如茵，鲜花盛开，各种栩栩如生的恐龙雕塑向我们奔来，欢迎我们的到来。”如果不是切身去感知，如此生动的语句不可能跃然纸上。

三、训练思维能力，提升感知水平

俗话说：“读书贵有新得，作文贵有新味。”训练学生思维能力，首先要让学生在学习生活中去感悟触发，结合学习课文加深认识。如《宋庆龄故居的樟树》中作者把樟树的美丽、拒虫作为触发点，将樟树的美好形象同宋庆龄美好的品质巧妙地联系在一起，由此，学生进一步懂得感悟是展开联想的翅膀。另外要启发学生细心观察，把事物想细、想深、想远，例如，参观南京大屠杀纪念馆时，一名学生看到纪念馆墙上有一句话：“后事不忘，前事之师。”根据所见所闻，写了《参观南京大屠杀纪念馆》一文，缅怀死难同胞，牢记历史，不忘国耻，小作者运用触发思维，将悲惨的历史同落后就要挨打联系起来，进而明确全国人民要团结起来，把祖国建设成为现代化强国，不让历史重演。这种联想的产生，正是学生联系生活实际，自我感知产生的创造性思维。

四、交流评讲发表，催化感知能力

小学生进入中年级，就有了评价作文優劣的初步能力。为了及时反馈作文的信息，进一步诱发学生作文的欲望，教师要指导学生对作文大胆展开交流评讲。作文评讲是师生相互交流对生活认识的过程，应当看到，每个学生都有正确认识生活的潜力，当他们的这种认识用作文表达出来之后，教师最先发现了解，教师对作文评价如何，不仅关系到对学生劳动成果的态度，而且影响到对学生生活认识的指导。有人把教师批阅评讲作文比作在开掘人生的金矿，确实不无道理，因此，作文评讲要立足于发现学生作文中对生活的真知灼见，哪怕是一点闪光的东西，都应给予肯定、鼓励，同时还要帮助学生找出作文成功的原因，指出努力的方向。诚挚的感情交流、中肯的评价分析、热忱的鼓励提高，是作文评讲的主旋律，那种在评语中指责、在评讲中点名的做法是不足取的。

要把写作文评语看作与学生不见面的谈话，诚于内才能行于外。认可和鼓励，是激发学生写作积极性的催化剂，对于学生来说，一个佳句或一个好的过渡照应，教师都应给予肯定，评讲要以情动人，发现优点，多一些掌声，教师对学生作文的公正评价和热情鼓励，才能唤起全班学生写作的欲望。

此外，教师应创造条件给学生的作文提供交流发表的机会，这更是学生写好作文的强大动力，对催化学生自我感知能力效果十分显著，有时还可以采取现身说法的方式，让作文写得好的学生登台诵读自己的习作，介绍构思经过和写作体会，以激励更多的人写好作文。班级的板报、学校的橱窗、各类报刊杂志，都是发表交流的好阵地，最好的方法当属学校的校刊校报，在这里学生的作文发表机会多，激励效果明显。我们学校创办有校刊《钟灵新苑》和校报《星星队报》，为学生发表交流提供了舞台。“好文章是改出来的，”学生的作文经过修改、发表、评奖，甚至写作能力较弱的学生的作文经过修改也能登上板报校刊，激发了学生强烈的自豪感，这种方法促进了学生的学习自主性，培养了写作兴趣，发展了感知能力。

【图像感知能力】推荐阅读：

感知能力05-19

对音乐各基本要素感知能力的培养战略论文07-16

感知中国06-16

感知体验07-22

情景感知07-26

学生感知08-07

感知特征08-14

观察感知08-15

运动感知08-16

感知现状08-21

>> 查看更多相关文档