人眼视觉特性

2024-07-28

人眼视觉特性（共5篇）

人眼视觉特性篇1

0 引言

地球表面的任何物体,在反射、散射以及发射电磁波的过程中,都会产生与地物自身性质密切相关的偏振特征。偏振成像探测能够提供关于地物的表面粗糙度、纹理、材料的理化特性等信息,从而为实现地物空间结构的反演奠定了基础[1],因而在地质勘探、材料分类[2]、机器视觉[3]等许多领域得到了广泛的应用。

偏振作为光波的一种基本特征,并不能被人眼直接观察到,因此需要将偏振信息以某种形式显示出来,以便为人眼所感知或方便计算机处理[4]。传统的偏振信息解析方法主要通过计算偏振参量图像来反映地物及其背景的偏振特征,这样容易丢失细节信息。利用偏振参量图像之间的信息冗余和互补性,人们提出了一些基于图像融合的偏振信息解析方法,例如,Zhao等人[5]提出了基于平移不变小波分解的Stokes参数图像求取方法;方晶晶[6]提出了基于边缘信息的偏振图像融合算法。然而,上述方法均未考虑人眼视觉感知的特点。针对这一问题,本文结合人眼视觉的若干特性,提出了一种新的偏振图像融合增强方法。

1 偏振信息的定量描述

在偏振探测中,常采用Stokes矢量(I,Q,U,V)T来描述地物反射辐射的光波的偏振态:

其中:Ex、Ey表示光矢量在所选坐标系中沿x轴、y轴上的振幅分量,δ为两个振动分量的相位差,I表示光的总强度,Q表示0°与90°线偏振光分量之差,U表示45°与135°线偏振光分量之差,V代表右旋与左旋圆偏振光分量之差,一般工程探测和计算中认为其为0。

在确定0°参考方向之后,任意一个偏振方向α上的透过光强为

根据式(2),只要测出K个不同偏振片透过轴方位角的线偏振光的光强I(αi)(i=1,2,…,K),就可以联立K个方程求出Stokes矢量的I、Q、U,由此可以根据下式计算出线偏振度P和偏振角θ:

本文把Stokes矢量的I、Q、U和线偏振度P、偏振角θ对应的图像统称为偏振参量图像。

2 融合算法

从偏振信息的定量描述中不难看出,偏振参量图像之间具有很强的互补性和冗余性。因此,可以将图像融合技术应用到偏振信息的解析过程中,以提高偏振图像的性能。

2.1 偏振参量图像融合

由地物反射的光波的偏振特征可以用Stokes参量图像I、Q、U以及线偏振度图像Do LP和偏振角图像ψ来完整刻画。其中,I表示反射光的总强度,不同的光强表示不同的地物具有的不同反射率;线偏振度P表示反射光中线偏振成分的多少;偏振角θ表示反射光两分量之间的相位差,两者都反映了地物表面的粗糙度、纹理等特性,并且均包含了Stokes参量Q和U。因此,偏振参量图像之间存在一定的信息冗余性和互补性。为此,提出了如下偏振参量图像融合算法:

1)首先对线偏振度图像Do LP和偏振角图像ψ进行融合,得到偏振特征图像PI。

由于线偏振度图像Do LP和偏振角图像ψ的取值范围不同,因此首先将参与融合的线偏振度图像Do LP和偏振角图像ψ分别进行归一化处理:

在此基础上,考虑到线偏振度图像Do LP和偏振角图像ψ均反映了地物表面的粗糙度、纹理等特性,两者包含的信息是冗余和互补的,因此对线偏振度图像Do LP和偏振角图像ψ进行基于能量特征的融合:

其中:M、N分别是对应图像的宽度和高度。

2)然后,对偏振特征图像PI和合成强度图像I进行融合,得到融合图像FI。

研究表明,自然界许多景物的图像信息多集中在二维频谱的所谓“钻石形”的区域内,采用五株采样栅格能够较好地提取该区域内的信息[7],且不会降低视觉效果,符合人的视觉特性。鉴于合成强度图像I包含了场景丰富的细节信息,为了保留I中的细节信息,并加快融合的速度,这里采用基于五株采样提升小波的融合方法,融合步骤如下:

第一步,对待融合的偏振特征图像PI和合成强度图像I分别进行N层五株采样提升小波分解,最终分别得到每个源图像在各层对应的细节子图像和最后一个分解层的近似子图像构成的子图像系列。

第二步,分别对分解得到的低频和高频子图像采用相应的融合规则进行融合处理,得到对应于融合图像FI的低频和高频子图像。

第三步,对融合后的低频和高频子图像进行提升小波逆变换,重构得到融合图像FI。

选择适当的预测和更新算子可以有效保持形态和去相关。考虑到人类视觉对相位失真比较敏感,本文采用Neville滤波器进行线性预测和更新,其预测与更新算子如下式所示[8]:

其中:P()为预测算子,U()为更新算子,Nd为五株采样提升小波的分解层数,Nc为五株采样提升小波重构层数。

3)融合规则

对合成强度图I和偏振特征图像PI进行五株采样提升小波分解后,分别得到低频系数IL(x,y)和PIL(x,y),以及高频系数IH(x,y)和PIH(x,y)。由于偏振特征图像PI和合成强度图像I所包含的能量和细节信息不同,因此融合后的图像应该保留合成强度图像I所表现的低频特性,又突出偏振特征图像FI所体现的目标的高频特征,从而达到改善融合图像质量的目的。对于低频图像,这里采用基于主成分分析的融合策略:

其中:c1和c2分别是合成强度图像I和偏振特征图像PI的主特征向量。

为了保留待融合图像的细节信息,这里采用基于区域能量作为特征量的高频子图像融合策略。首先分别计算偏振特征图像PI和合成强度图像I在相应分解层l上对应局部区域的能量El,PI和El,I:

式中:El(x,y)表示五株采样提升小波变换第l层以(x,y)为中心的局部区域能量;FIl和Il分别表示PI和I五株采样提升小波分解后的第l层图像;M、N表示局部区域大小;G(i,j)为高斯核函数。

然后,计算偏振特征图像PI和合成强度图像I对应局部区域的匹配测度Ml:

融合后的第l层图像FIl为

从式(10)可以看出,当PI和I在分解层l上对应局部区域之间的匹配测度小于阈值T时,说明两图像在该区域上的能量差别较大,此时选择能量大的区域中心像素作为融合后图像在该区域上的中心像素;反之,说明两幅图像在该区域上的能量相近,此时采用加权融合算子确定融合后图像的灰度值。

2.2 融合图像对比度增强

由人眼视觉特性可知,人眼对于局部对比度更为敏感。另外,偏振度是进行偏振探测的重要指标,具有不同表面特性的地物在偏振度上存在巨大的差异。为此,可以利用线偏振度图像上当前像素点的灰度值与其邻域平均灰度值的关系来增强融合图像的局部对比度,以便进一步提高图像的质量。当前点的灰度值高于邻域平均灰度值时应增强该点亮度,反之则降低该点的亮度。局部对比度增强采用如下所示的方法:

其中Do LPE(x,y)为偏振度图像中当前点邻域的加权平均灰度值,计算式如下:

其中:GR和GV分别是空间邻近高斯核函数和数值相似性的高斯核函数[9]。

3 实验与分析

为验证算法的有效性,利用涂漆的金属板和网眼布进行了测试,背景分别为高密度草丛和平坦的草地。首先通过偏振成像系统采集三幅不同偏振方向的原始图像I(0°)、I(60°)、I(120°),然后根据式(2)和(3)计算出合成强度图像I、线偏振度图像Do LP和偏振角图像ψ,分别如图1(a)~(c)和图2(a)~(c)所示。接着,根据提出的融合方法进行融合处理,最后得到融合后的图像FI,分别如图1(d)和图2(d)所示。从实验结果可以看出,经过融合处理后的图像的视觉效果得到了明显改善,图像的对比度和清晰度得到了提高,融合图像显著压缩了自然背景噪声,有利于区分不同材质的目标,从而使复杂背景中的人造目标更加显著突出。

为定量评价融合图像的质量,选取信息熵、标准差、平均梯度以及目标与背景对比度这四项指标为客观评价指标,其中目标与背景对比度的定义为

式中:WT(x,y)、WB(x,y)分别为目标和背景图像灰度值,R为选择区域,E为数学期望。

计算结果如表1所示。可以看出,融合后图像的标准差和平均梯度均有一定提高。标准差越大表明图像灰度分布越大,图像的对比度越大。平均梯度可敏感地反映图像对微小细节反差表达的能力,平均梯度越大表明图像层次越多,表示图像越清晰。融合后的图像信息熵有所减小,表明图像的信息量减小,融合后的图像有效地压缩了背景噪声,因此信息熵有所减小。然而,目标与背景的对比度均有很大的提高,目标的特征明显异于自然背景,可识别程度得到了很大的改善,因此增强了目标的可探测性。

4 结论

本文根据偏振信息解析得到的线偏振度、偏振角和合成强度图像之间存在的信息互补性和冗余性,提出了基于人眼视觉特性的融合增强算法。实验结果表明,通过对线偏振度、偏振角和合成强度图像进行融合可以有效地提高图像质量,使得复杂背景下的人造目标更加显著突出,从而改善了偏振成像探测的性能。

摘要：根据偏振参量图像之间存在的信息冗余性和互补性,提出了一种基于人眼视觉特性的偏振图像融合方法。该方法首先对线偏振度图像和偏振角图像进行基于能量特征的融合,得到偏振特征图像;然后,利用五株采样提升小波变换实现偏振特征图像和合成强度图像的融合;最后,根据人眼对局部对比度敏感的特点,采用偏振度图像对融合结果进行对比度增强处理。实验结果表明,融合后的图像不仅突出了场景的偏振信息,而且包含了丰富的强度信息,目标与背景的对比度也得到了显著增强。

关键词：偏振成像,图像融合,人眼视觉特性

参考文献

[1]TYO J S,GOLDSTEIN D L,CHENAULT D B,et al.Review of Passive Imaging Polarimetry for Remote Sensing Applications[J].Applied Optics(S0003-6935),2006,45(22):5453-5469.

[2]TOMINAGA S,KIMACHI A.Polarization Imaging for Material Classification[J].Optical Engineering(S0091-3286),2008,47(12):1-14.

[3]MIYAZAKI D,IKEUCHI K.Shape Estimation of Transparent Objects by Using Inverse Polarization Ray Tracing[J].IEEE Trans.on Pattern Analysis and Machine Intelligence(S0162-8828),2007,29(11):2018-2029.

[4]YEMELYANOV K M,LO M A,PUGH E N,et al.Display of Polarization Information by Coherently Moving Dots[J].Optics Express(S1094-4087),2003,11(13):1577-1584.

[5]ZHAO Y Q,PAN Q,ZHANG H C.New Polarization Imaging Method Based on Spatially Adaptive Wavelet Image Fusion[J].Optical Engineering(S0091-3286),2006,45(12):1-7.

[6]张晶晶,方勇华.基于边缘信息的偏振图像融合算法及评价[J].光电工程,2007,34(11):78-81.ZHANG Jing-jing,FANG Yong-hua.Algorithm and Evaluation for Polarization Image Fusion Based on Edge Information[J].Opto-Electronic Engineering,2007,34(11):78-81.

[7]CHEN Y,MICHAEL D A,LU W S.Design of Optimal Quincunx Filter Banks for Image Coding[J].EURASIP Journal on Applied Signal Processing(S1110-8657),2007,1(1):1-18.

[8]KovaeviJ,SWELDENS W.Wavelet Families of Increasing Order in Arbitrary Dimensions[J].IEEE Trans.on Image Processing(S1057-7149),2000,9(3):480-496.

[9]王守觉,丁兴号,廖英豪,等.一种新的仿生彩色图像增强方法[J].电子学报,2008,36(10):1970-1973.WANG Shou-jue,DING Xing-hao,LIAO Ying-hao,et al.A Novel Bio-inspired Algorithm for Color Image Enhancement[J].ACTA ELECTRONICA SINICA,2008,36(10):1970-1973.

人眼视觉特性篇2

人眼是一个十分复杂的智能光学系统,人类接受自然界信息的70%来自于眼睛。现代光学与光电成像技术的研究中,为了研究与人眼视觉系统特性相匹配的光学仪器和图像技术,以得到好的观察效果,国内外对人眼视觉特性做了大量的研究[1,2,3,4,5,6,7,8]。

人眼的视觉特性包括许多方面,如非线性、对比度敏感、多通道结构、掩盖效应等,其中人眼对比度敏感视觉特性因其广泛的应用已成为近些年研究的热点[4,5,6]。人眼对比度敏感视觉特性一般用对比度敏感函数(Contrast Sensitivity Function,CSF)来进行描述,CSF是通过拟合测量不同空间频率的人眼对比度敏感阈值数据获得的反映二者之间函数关系的数学表达式;而人眼对比度敏感阈值到目前为止无法用仪器直接测量,一般根据人眼的生理与心理学特征用人眼光学调制度传递阈值即目标刚能为人眼觉察时所需要的最低调制度的倒数来定量表示[1,2,8,9],人眼光学调制度传递阈值在眼视觉光学中又称作人眼对比度觉察阈值,其数据的测量是一个生理和心理物理实验过程,测量的精确程度受到实验环境、显示仪器、观察者等许多外在条件的影响。自20世纪30年代,国外对其做了大量的研究,得出了一些CSF数学模型,但是其数据和模型只适合欧洲人的人眼特性,根本没有符合亚洲人或中国人的人眼视觉特性的数据和数学模型,而且在基于人眼视觉特性的图像处理技术中,常用的人眼视觉特性数学模型一般采用国外的拟合结果。在我国,1984年中国科学院心理研究所的邓述移等人用自制的三变仪显示目标光栅测量了8位青年的人眼亮度对比度觉察阈值,研究了人眼亮度的传递特性[8]。近些年,浙江大学的徐海松教授和北京理工大学的廖宁放教授等人做了一些研究,给出了相关的报告[10,11,12,13]。但是,以上的测量实验系统比较复杂且光栅的亮度不易控制,并且实验结果是在相同观察距离下的人眼视觉特性。随着多媒体和数字技术的发展,信息主要依赖于显示器来呈现,基于显示器的图像技术有着更广泛的应用,且在实验中用显示器显示的光栅的亮度和对比度较易控制,所以,显示器亮度范围和色度特性下的人眼CSF有重要的应用价值[10,11,12,13,14,15]。本文根据阴极射线管(CRT)显示器的显示亮度和色度的稳定性,通过CRT显示器显示不同空间频率的目标光栅,研究了观察者在不同距离观察时的人眼视觉特性。

1 实验设计与实施

1.1 实验装置及条件

实验采用21 in Sony-G520型阴极射线管显示器来显示光栅,显示器配备10 bit的Matrox Millennium P650型数字彩色图像采集卡,亮度可调节范围为0(176.8 cd/m2);色度计采用美国X-Rite公司生产的Color Monitor optimizer屏幕色度计;亮度计采用北京师范大学光电仪器厂生产的ST-86LA型亮度计,可测量范围为0.01～19 990 cd/m2。

显示器显示的光栅是明暗相间的矩形竖条纹光栅,光栅图片大小为8.5 cm×8.5 cm,光栅条纹的平均亮度为60 cd/m2;观察距离取值为0.5 m,1 m,2 m,4 m,依据观测距离的取值,条纹的空间频率取值为2.2 c/d(周/度),5.5 c/d,11.1 c/d;显示器显示条纹的背景为灰背景,其色品坐标接近于D65,即x=0.313 3,y=0.330 1,Y=27.6 cd/m2。实验室环境里,墙壁是标准灰的暗室, 只有显示器屏幕产生的亮度。测试者是4名男性和4名女性在校学生,年龄在20～30之间,视力正常或经过校正后均在1.2以上。

1.2 对比度定义

在光学中,明暗光栅的对比度一般采用Michelson提出的对比度定义,若取 $\bar{L} = (L_{\max} + L_{\min}) / 2$ 为光栅的平均亮度, $L_{\max} = \bar{L} + \frac{Δ L}{2}$ 和 $L_{\min} = \bar{L} - \frac{Δ L}{2}$ 分别为光栅明暗条纹的亮度,则明暗光栅的对比度[1,2,3,4]定义如下

$C_{L} = \frac{L_{\max} - L_{\min}}{\bar{L}} (1)$

1.3 光栅制作方法

用CRT显示器显示目标光栅来测量人眼CSF最大的困难是如何精确控制和实现光栅的对比度,为了解决这个问题,首先通过大量的实验获得显示器的亮度和色度的稳定性,稳定性结果如表1所示。数据表明:1) 显示器每次开机大约2 h后基本稳定,亮度变化非常小,变化的平均最大离均偏差为0.17 cd/m2,相对于稳定后的亮度百分误差只有0.17%,这样小的误差对于对比度的影响非常小,可以忽略;2) 显示器在不同的时间(不同天)开机,只要显示器设置一样,开机稳定后,在短期内,亮度在不同时间的大小变化非常小,平均最大离均偏差为0.48 cd/m2,而且,在不同时间开机,整个光栅的明暗条纹的亮度变化是同步的,则明暗条纹的亮度差值基本不变。若亮度差值基本不变,且平均亮度变化非常小,则对光栅的对比度影响就非常小。

基于显示器显示亮度的稳定性特征,光栅制作的方法如下:1) 首先确定需要的光栅的平均亮度 $\bar{L}$ ,用亮度计和色度计找出其平均亮度所对应的显示器RGB值,取以此RGB值为中心、前后间隔为1的RGB值,通过这些RGB值,制作同光栅大小的图片,利用亮度计测量其亮度值;2) 由于普通的显示器是8 bit的显卡,亮度显示级只能达到256级,实验要求的亮度对比度要非常小,256级的亮度远远不够,则本实验采用10 bit的显卡,则亮度显示级可以达到1 024级,即在每个8 bit的RGB间隔为1的值中间再间隔3个值,即0.25,0.50,0.75,表示显示器的亮度可以更加精细地显示。但是亮度计对于中间间隔的RGB值所对应的亮度无法精确显示,这时只能根据CRT显示器亮度的显示特性,即显示器显示的亮度在较大时表现为线性变化,无法用亮度计测量间隔的RGB值所对应的图片的亮度,可采用线性插值来求得。综合以上观点,可以获得以平均亮度所对应的显示器RGB值为中心值,前后依次间隔0.25的RGB值所对应的亮度值。以平均亮度60 cd/m2为例,可获得间隔0.25个RGB值时亮度变化为0.135 5 cd/m2,则根据对比度的定义,此时的亮度光栅的亮度对比度最小可以达到0.002 258。而正常视力的人眼(校正视力1.5以上)在1 m时能分辨的光栅最小对比度为0.003[8],则完全可以实现用显示器测量普通人的人眼对比度敏感特性的要求,可利用实验中对比度值所需要的RGB值制作大量不同对比度值的光栅。对于光栅的频率,可以通过改变光栅条纹的像素个数来实现不同的频率。

由于不同的观察距离,光栅的频率、观察视角和光栅明暗条纹像素的个数w不相同,根据上面的方法,则观测距离L、空间频率f和光栅明暗条纹像素个数w之间的关系如表2所示。

1.4 阈值确定

在实验中,主要是采取以观察者的觉察为主,其确定阈值的方法和过程为:显示屏上每次显示的光栅包括4幅对比度依次减小的图片,每次显示光栅时人眼可对比觉察,找出其中最难分辨的图片,如果4幅图片均能较好地分辨,则再显示对比度均小一级的光栅,再让人眼觉察分辨,再找出其中最难分辨的图片,依次进行,直到人眼刚好能分辨而又分辨不清楚时,则这时人眼觉察的图片的对比度即为人眼对比度觉察阈值,则人眼对比度觉察阈值的倒数即为人眼对比度敏感阈值。实验中由于观察者的主观因素非常大,为了尽量降低主观因素的影响,实验每次针对同一观察者重复测量3次和在不同的日期重复测量3次,最后求得的平均值作为人眼对比度觉察阈值。

2 实验结果

通过对8位校正视力1.2以上、年龄在20～30岁的在校学生的实验测量,实验结果如图1所示。图1表明:1) 对于每个空间频率,随着观察距离的增加,人眼敏感程度的趋势是先增加后减小,而且增加的变化趋势比较快,表明人眼肯定有一个最佳观察距离,而且对不同空间频率的事物,最佳观察距离不同。采用最小二乘法对数据进行拟合,拟合结果如图2所示,可得3种空间频率的最佳观察距离分别为51.5 cm,103 cm,209 cm,表明最佳观察距离随着空间频率的增加而增加;2) 对于每一个空间频率,不同的观察者在最佳观察距离时的觉察结果波动较大,在最佳观察距离前后,随着距离最佳距离越远,波动幅度逐渐减小,表明在最佳观察距离时人眼视觉最敏感;3) 在0.5 m处观察时,人眼对不同频率的事物敏感程度明显不同,相差较大,随着距离的增加,人眼对不同频率的敏感程度趋近。表明人眼在观察较近的事物时,人眼对不同大小的事物敏感程度明显不同,适应性较差。在观察距离较远时,人眼对事物的分辨能力趋近相同;4) 在中频区域和观察距离为1 m和2 m时,人眼的敏感阈值非常趋近。

3 讨论

人眼是一个十分复杂的光学系统,为了在现代光学仪器和图像技术中结合人眼视觉特性,国内外做了大量的研究,其中研究不同距离的人眼视觉特性的到目前为止只有Peli在2001年为了研究图像识别时对实验结果作了部分的说明,结果如图3所示[1]。Peli的研究结果表明:1) CSF敏感曲线是由不同观察距离觉察阈值共同组合而成的,在频率较低时,观察者的观察距离为0.5 m;在中间频率,观察距离为1 m和2 m;在高频区域,观察距离为4 m和8 m;2) Peli认为生活中观察物体时一般2 m是最佳观察距离,所以对其觉察敏感数据进行了插值和拟合,如图3中的虚线所示;3) 在中频和观察距离为1 m和2 m时,人眼的敏感阈值几乎相等。

对比分析本实验结果和Peli的实验结果可得:1) 两实验的结果和人眼对比度敏感阈值都非常相似:Peli采取CSF是由不同观察距离觉察阈值共同组合形成,其本身说明人眼对不同频率的观察目标,最佳观察效果所对应的观察距离不同。观察距离为1 m和2 m时对于中频的观察目标,无论是人眼的敏感阈值还是变化规律都基本相同。2) 在眼视觉信息处理中,由于人眼生理物理特征数据无法直接测量,均是采用心理物理学来确定阈值,则实验者越多,数据越具有代表性。Peli的实验只对两个观察者进行实验,认为其结果能反映一部分规律,但其代表性不够。本实验是对8位在校学生进行的实验结果,其实验结果有一定的代表性。3) 实验环境、显示仪器、观察者等均对人眼视觉的生理物理实验测量结果有很大影响,由于Peli是为了研究图像识别,所以在其报道中没有给出任何研究人眼视觉特性的外在条件;本实验结果是用CRT显示器显示目标光栅,在暗环境条件下测量的结果,充分考虑了测量人眼视觉特性的外在条件的影响。

4 结论

根据10 bit的CRT显示器的显色特性及色度和亮度的稳定性特征,提出了一种精确控制CRT显示器显示光栅图片亮度和色度的方法,利用该方法制作了大量的不同空间频率和对比度值的亮度光栅,通过CRT显示器显示目标光栅,对站在0.5 cm,1 m,2 m,4 m观测距离的8名观察者进行实验,实验结果表明:随着观察距离的增加,人眼对比度敏感感知能力先增加后减小;不同空间频率的观察目标,人眼最佳观测距离各不相同,并且人眼在最佳观测距离处觉察时,不同的人眼对比度敏感程度有较大不同。实验结果与Peli的研究成果进行了对比,两者的结果基本相似,但由于Peli的实验的研究对象只有2名,本实验是对8名观察者进行了实验,本实验的数据更具有代表性。

人眼视觉特性的研究是近些年研究的热点,但由于其存在生理和心理视觉等多方面的因素,其研究是非常复杂的,到目前为止,相关内容的报道均只存在于生理视觉特性上,心理视觉方面的研究还没有完整的、详细的相关报道。但是随着工业技术的发展,其研究必将具有重大的理论和应用价值。

人眼视觉特性篇3

信息隐藏是一个崭新的研究领域,它横跨了数字图像处理、语音处理、模式识别、数字通信、多媒体技术、密码学等多个学科[1]。传统的图像信息隐藏算法如LSB和MSB等都是基于载体图像的空间域,都存在着一些缺陷,如安全性有待于提高,鲁棒性差以及隐藏信息容量小等问题[2,3]。近几年,小波变换成了新的研究热点,它可以将载体图像分解为各个分量与层次,便于在不同分量或层次中进行多幅图像的隐藏。需要注意的是当多幅图像隐藏在同一分量中,就会存在图像之间的相互干扰问题[4]。

到目前为止,研究最成熟的信息隐藏载体是数字图像。人眼是数字图像的最终感受者,由于人类视觉的不敏感性,眼睛感受到的两幅质量非常相同的数字图像,其像素值可能存在很大的差别。人的视觉系统的这一特性,给数字图像的信息隐藏提供了很大的研究空间。本文提出一种基于人眼视觉特性的DCT域彩色图像信息隐藏技术,能够很好地解决隐蔽性和鲁棒性这对矛盾,同时可以有效地提高图像的抗干扰能力。

1 基于DCT域的信息隐藏算法

离散变换DCT有两个主要特征:

(1) 如果计算机的精度足够,图像信息经过正变换后,再进行逆变换时,其图像信息内容不会发生任何改变;

(2) 在频域其信号分布具有一定的规律性。

在DCT域中进行信息隐藏,可以有效地抵抗JPEG有损压缩。DCT变换首先需要把图像分为8×8的像素块,然后进行二维DCT变换,得到8×8的DCT系数,这些DCT系数从低频到高频按照Zig-Zig次序排序,第一个值(左上角)为直流系数,其余为交流系数。DCT系数中,左上角部分为直流和低频系数,右下角部分为高频系数,中间区域为中频系数。低频代表图像像素之间慢变化,高频代表像素之间的快变化。因此,高频部分代表图像中的噪声部分,这些部分容易通过有损压缩或者滤波等处理被去掉。而中低频部分包含了图像的大部分能量,是对人的视觉最重要的部分信息。而低频部分的改变有可能引起图像较大的变动,因此,为了将隐藏的信息与载体图像的视觉重要部分绑定,一般都将隐藏信息嵌入载体的中频部分,达到既不引起视觉变化,又不会被轻易破坏的目的。

本文采用的信息隐藏算法如下:

(1) 将待隐藏图像进行二维DCT[6]变换,得到8×8的DCT系数,变换公式为:

$f (u, v) = \frac{2}{\sqrt{m n}} k (u) k (v) \sum_{x = 0}^{m - 1} \sum_{y = 0}^{n - 1} f (u, v)$

$c o s [\frac{(2 x + 1) u π}{2 m}] c o s [\frac{(2 y + 1) v π}{2 n}]$

u=0,1,2,…,M-1

v=0,1,2,…,N-1 (1)

(2) 将隐藏信息转换为ASCII码形式的数据流,并对其进行加密,得到要嵌入的信息;

(3) 将待嵌入的信息(假设其信息量为N)进行一维序列排序;

(4) 选取DCT系数的中频部分,并从中选出最大的N个DCT系数;

(5) 按照公式W’=W(1+a*x) 将信息嵌入到待隐藏图像中,其中W’为隐藏后图像的DCT系数,W为待隐藏图像的DCT系数,a为嵌入参数,x则为隐藏信息;

(6) 将得到的DCT系数进行逆DCT变换,进行图像的还原,得到隐藏信息后的图像,即完成信息隐藏。逆DCT变换公式为:

$f (x, y) = \frac{2}{\sqrt{m n}} \sum_{u = 0}^{m - 1} \sum_{v = 0}^{n - 1} k (u) k (v) f (u, v)$

$c o s [\frac{(2 x + 1) u π}{2 m}] c o s [\frac{(2 y + 1) v π}{2 n}]$

x=0,1,2,…,M-1 y=0,1,2,…,N-1 (2)

在信息隐藏技术中,峰值信噪比、均方根误差、图像特征相对误差是最重要的几个性能指标。下面对它们分别展开讨论:

(1) 峰值信噪比PSNR[7]常用来衡量嵌入隐藏信息后图像的质量,PSNR越高,表明信息嵌入后对原待嵌入信息的图像带来的噪声越小,也就是隐藏的效果越好。

PSNR定义如下:

PSNR=10log(255*255*M*N/

$\sum_{i = 0}^{Μ} \sum_{j = 0}^{Ν} (f (i, j)^{'}) - f (i, j))^{2}) (3)$

其中f(i,j)是原来的待嵌入隐藏信息图像,f(i,j)′是嵌入信息后的图像,M,N是图像的尺寸。

(2) 均方根误差RMSE[8]可以较好地反映嵌入隐藏信息前后两图像的误差。RMSE越小,表明两幅图像越相似。

RMSE定义如下:

$R Μ S E = [\frac{1}{Μ \times Ν} \sum_{i = 0}^{Μ - 1} \sum_{j = 0}^{Ν - 1} (c (i, j) - s (i, j))^{2}]^{\frac{1}{2}} (4)$

实验中以不同的图像作为待嵌入隐藏信息图像,实验结果如表1所示。

(3) 图像特征相对误差。众所周知,像素灰度是图像各离散点量测幅度的样本值,是最原始、最基本的特征数据。均值表示图像包含的平均能量,标准差表示像素灰度分布的分散程度,该值越小说明像素灰度分布越集中,越大说明像素灰度越分散。实验结果如表2所示。

2 算法实验与仿真结果分析

基于上述算法,本文选用实验测试平台为AMD64位处理器,512MB内存,在MATLAB 7.0环境下进行了实验,分别对8幅不同大小、不同类别的JPEG图像进行文本和图像的隐藏。

2.1 对文本信息的隐藏

本文以内容为“南京信息工程大学”的文本文件为例,把它嵌入到不同大小的JPEG图像中,包括动物、植物、风景和人等各种类别的图像。图1是实验的效果,从图1中很难发现有隐藏信息。

图像嵌入隐藏信息后的PSNR值在35以上一般就可以认为图像没有明显的失真,图像的质量是可以接受的。从表1可以看出,表中的PSNR值都在35以上,平均值达到了76.56;而且得到的RMSE值也较小,均值为0.079,说明本文的方法对文本信息的嵌入隐藏效果是很好的。

表2中,F(ΔV)表示图像隐藏前后所占字节数容量的改变很小,但是图像的行数和列数并没有改变,F(ΔRGB)则是图像隐藏前后RGB颜色分量的相对误差,数据显示变化并不大,F(ΔI)是图像隐藏前后亮度的改变量,变化也甚小。由此可见,该算法较好地达到了信息隐藏的效果,人的主观视觉是难以分辨的。

2.2 对图像信息的隐藏

本文以图2为例,将它嵌入到不同大小的JPEG图像中,包括动物、植物、风景和人等各种类别的图像。如图3就是实验的效果。从图3中可以看出,隐藏前、后的图像从视觉效果看很难感觉到差异,表明了利用此算法进行信息隐藏的有效性。表4给出了图像信息隐藏前、后图像特征相对误差。

实验中运用同样的方法,把图2的图像嵌入到不同的图像(所用的图像和表1相同)中,分别得到的PSNR值和RMSE值如表3所示。

本表3抽样8幅图像,从表3可以看出,表中的PSNR值都在35db以上,平均值达到了75.69,主观感觉不易找到两者之间的差异,且RMSE的均值也只有0.098,说明本文的隐藏算法具有良好的隐秘性。

表4为图像信息隐藏前、后图像特征相对误差。从表4可以看出,该隐藏算法对图像的视觉效果的改变是可以忽略的,这就更好的佐证了该算法的有效性。

3 结论

本文在MATLAB环境下实现了基于人眼视觉特性的DCT域彩色图像的信息隐藏。经过对DCT变换的特征分析,选用了载体图像的特定区域,即DCT系数中频部分N个最大的DCT系数作为待隐藏图像的DCT系数,减少了对原图像视觉的影响。实验表明,嵌入隐藏信息后的两幅图像在视觉上人眼无法分辨,算法具有良好的隐秘性和较强的鲁棒性,可以有效地抵抗随机噪声、位置变换、变形、剪切等操作。当然,在增加隐藏容量上尚需作进一步的研究。

摘要：在MATLAB环境下实现了基于人眼视觉特性的DCT域彩色图像的信息隐藏。经过对DCT变换的特征分析,选用载体图像DCT系数的中频部分作为待隐藏图像的DCT系数。实验结果表明,嵌入隐藏信息后的两幅图像在视觉上人眼无法分辨,算法具有良好的隐秘性和较强的鲁棒性。

关键词：信息隐藏,DCT,PSNR,RMSE

参考文献

[1]姜吉涛,周雪芹,刘晓红.一种基于LSB的数字图像隐藏的改进算法[J].山东理工大学学报:自然科学版,2006,20(3).

[2]Chang C C,Lin MH,Hu YC.AFast and Secure Image Hiding Scheme Based on LSB Substitution[J].International Journal of Pattern Recog-nition and Artificial Intelligence,2002,16(4):339-416.

[3]任智斌,隋永心,杨英慧,等.以图像为载体的最大意义位(MSB)信息隐藏技术的研究[J].光学精密工程,2002,10(2):182-187.

[4]刘年生,郭东辉.基于混沌加密的一种图像信息隐藏传送方法[J].计算机工程,2006,32(7).

[5]Weeks M,Bayoumi M.Discrete WaveletTransform:Architecture,Design and Performance Issues[J].The Journal of VLSI Signal Processing,2003,35(2):155-178.

[6]SmithJ,ComiskeyB.Modulation and Information Hidingin Images[EB/OL].Http://citeseer.nf.nec.com/smith97/modulation.html,2005-06-10.

[7]施博学,王志良,刘冀伟.基于RTP实时远程图像传输研究与实现[J].微计算机信息,2005,2:178-180.

人眼视觉特性篇4

图像质量评价是图像处理领域的研究热点,图像质量是比较各种图像处理算法性能优劣以及优化系统参数的重要指标,因此在图像采集、编码压缩、网络传输等领域建立有效的图像质量评价机制具有重大的意义。近些年来,随着图像处理技术的发展,该领域的研究已吸引了研究人员的广泛关注,图像质量评价算法不断涌现,典型的模型有基于人类视觉系统(Human Visual System,HVS)的图像质量评价模型[1]。随着多媒体技术和互联网技术的大力发展,立体视频技术正迅速发展起来。与传统媒体相比,立体视频在能够为大众创造更加直观真实的场景感受的同时,需要处理的数据至少多一倍。但在提高编码压缩效率的同时,还要保证立体图像的主观感知。立体视频系统中的图像质量评价是与立体视频系统相关的所有技术的基础。对立体图像质量评价的理解和深入程度,直接影响到立体视频系统的发展速度。因此,如何建立一个符合人类感知结果的立体图像质量客观评价模型就显得尤为重要。

目前,相比平面图像质量评价,国内外对立体图像质量评价的研究相对较少。Horita等人提出的用于评价彩色立体图像质量的模型[2]适合左右图像同样质量的情况,而对于左右图像质量不相同时结果不理想,同时易受图像内容影响,该模型并没有考虑深度感知对立体图像质量产生的影响,评价结果不能完全符合人眼的主观感受。Boev等人提出了一个用于评价立体视频质量的评价模型[3],该模型主要是将立体图像的质量分成立体深度感评价和左右视点合成图像(Cyclopean Image,CI)质量评价两个方面。该方法模拟HVS处理立体图像时的生理过程的思路值得借鉴,但如何合成Cyclopean Image以及该合成方法是否合理仍值得商榷。Benoit等人结合深度信息的评价,建立了一个立体图像客观评价模型的框架[4],但获得的深度图存在准确性问题,模型输出值与主观感知的一致性仍有待提高。清华大学和天津大学都在立体图像质量客观评价方法上进行了研究[5,6,7],Yang Jiachen等人提出的对图像质量以及立体视觉感知评价的客观模型[5],直接将PSNR从平面迁移到立体图像中,而且没有对图像质量和立体感知评价结合后与主观质量的相关性进行分析。Shao Hang等人结合深度信息,利用图像色彩、强边缘信息评价图像质量[6],但同样存在深度图像的准确性问题。现有的立体图像质量客观评价模型没有充分结合人眼视觉特性,或是只是评价图像质量,而没有评价立体感知,最终评价结果跟主观感知的相关性较差。本文提出一种基于人眼视觉特性的立体图像质量客观评价方法,结合人眼视觉特性,同时研究立体图像中立体感知对最终立体图像质量的影响,提高客观评价模型与主观感知的相关性。

1 基于人眼视觉特性的立体图像质量客观评价模型

人类视觉系统是由大量形态、功能各异的神经细胞组成的信息处理系统。长期以来,通过对人眼的某些视觉现象的观察并结合视觉生理心理学方面的研究成果,人们发现人类视觉系统有很多特点,如人眼视觉敏感度、多通道特性、掩蔽效应以及立体感知等,在图像质量评价中引入这些视觉感知特性可提高评价模型与主观评分的相关性。因此,本文所提出的立体图像质量客观评价模型不但结合人眼视觉特性,合理地建立数学模型模拟人眼视觉系统,而且评价立体图像中的人眼立体感知质量。然后挖掘立体左右图像质量、立体感知质量与最终立体图像质量的关系,同时分析客观评价模型结合立体感知质量的必要性。

图1为本文提出的立体图像质量客观评价模型总体框图,包括对左右图像质量的评价以及立体感知质量的评价。首先,结合人眼视觉特性评价左右图像质量,左右原始和测试图像进行小波变换子带分解,提取各子带的特征值,对原始和测试图像的特征值作相似度度量,各子带的权重系数由对比度敏感函数决定。然后,通过评价原始和测试绝对差值图像相似度来完成对立体感知质量的评价。最后,通过分析左右图像质量和立体感知质量评价结果与立体图像最终质量的关系,得出其与主观评分的分布规律,将左右图像质量和立体感知质量的评价结果拟合成回归方程,作为对立体图像质量的最终评价结果。

1.1 左右图像质量评价

HVS模型的主要特性包括视觉非线性、多通道、视觉灵敏度带通、掩盖效应、多通道间不同激励的相互作用以及视觉心理等特征。这些特性直接或间接地与图像信息的处理有关,因此,在图像质量评价方法中引入人眼的各种视觉特性,可以使客观评价的结果更加符合人们的主观判断。本文在立体图像左右图像质量的评价中引入HVS特性中的视觉对比灵敏度带通和多通道特性,对HVS部分特性进行建模。首先,左右图像分别经过5级小波变换,分成11个频带,然后,提取各通道特征值后,按对比度敏感函数(Contrast Sensitivity Function,CSF)值进行加权,最后,利用Canberra距离来度量左右图像的质量。

视觉皮层的细胞对不同的视觉信息或激励存在不同的敏感性。在图像质量评价方法中建立人类视觉系统的频率选择性通道,其目的是近似模拟人眼视觉感知的多分辨率特性。在多通道分解算法方面,有的评价体系会采用较为复杂的分解算法,例如Daly、Lubin所采用的多通道分解模型。但大部分评价方法都会采用一些简单的分解算法,比如小波变换和离散余弦变换来降低评价算法的计算复杂度,相比离散余弦变换,本文选择小波变换多级分解,更能模拟人眼视觉系统的多通道特性。

均值、标准差等统计特性反映了重要的纹理特征。将原始图像和测试图像分别进行5级二维小波变换,分解为水平方向、垂直方向以及对角方向,并分别提取各子带系数的均值、标准差作为纹理特征,用于度量参考图像与测试图像间的相似程度。图2所示为Art立体图像子带系数标准差变化示意图,其中,左图像未经失真处理,而右图像分别经过不同程度的高斯模糊和白噪声失真处理。图中横坐标为主观质量评分值,纵坐标为经小波变换后的图像各子带水平方向上系数标准差,ch1到ch5分别表示第一级到第五级水平方向上子带系数的标准差。由图2可知,随着主观质量的变化,图像经小波变换后各子带的标准差呈递减(增)趋势,因此,选取各小波子带系数的特征值作为质量度量是可行的。大量研究表明,人眼在不同通道信息的敏感性是不同的,通常用对比度敏感函数CSF来描述人眼视觉系统与频率信息之间的关系。CSF函数是频率的函数,并且具有带通滤波器的特性。对比度敏感函数的近似曲线如图3所示,其中横坐标为图像的空间频率f,纵坐标为CSF函数值,表明视觉响应的相对幅度。如图3所示,虚线Ahv(f)表示水平和垂直方向上的CSF曲线,实线Ad(f)表示对角方向上的CSF曲线。

本文根据CSF函数,对小波分解后不同空间频带不同方向的小波系数选择不同权值进行加权,权值为在相应频带内CSF曲线的平均值。由于图像的绝大多数能量集中在低频部分,并且最低频还包含图像的直流分量,所以特别地将小波变换最低频子带即直流低频子带系数的权值设为1。对于5级小波分解,水平垂直方向和对角方向各5个频带,再加上直流低频子带,整个频带共划分为11个,根据CSF特性曲线对应取11个权值,其中水平垂直和对角方向每个小波子带的权值如表1所示,其中whv,wd分别表示水平垂直方向和对角方向上的权值。

最后质量度量采用Canberra距离[8],能够有效地区分差异较小的测试图像之间的质量,在计算质量过程中,本模型结合视觉多通道特性,利用对比度敏感函数确定小波域每级水平垂直对角三个方向的小波系数的权值。以水平方向为例,如下式所示

其中:wm,h表示第m级水平方向系数的权值,M为水平方向的子带总数。σmor,hg、σmpr,ho表示第m级水平方向原始图像和测试图像的子带系数标准差,同理可得垂直和对角方向以及直流低频子带的度量结果QV、Qd和QDC,并通过QC=QhC+QvC+QdC+QCDC(C=Lor R)计算得到左、右图像质量QL、QR。最终立体图像的左右图像质量评价结果为Q1,Q1=(QL+QR)/2,其值越大,表明立体图像质量越差。

1.2 立体感知评价

立体感是指人眼感受到深度的能力,这是一种辨别明显发生位移的物体间的相对距离的能力,立体感的好坏会影响到立体图像质量。研究表明原始左右图像的绝对差值图与测试左右图像的绝对差值图相似度可以评价立体图像的立体感知,绝对差值图越相似,立体图像立体感越强[5]。

令Lorg、Rorg、Ldis、Rdis分别为原始图像和测试图像的左右图像,则原始和测试左右图像的绝对差值图像Xorg和Xdis分别为Xorg=|Rorg-Lorg|和Xdis=|Rdis-Ldis|。采用经典算法Wang的结构相似度来评价绝对差值图像的质量[9],如下式所示

其中:块的大小为8×8,μx,μy表示原始和测试左右图像绝对差值图像块的均值,σx2、σy2和σxy分别为原始和测试左右图像绝对差值图像块的方差和协方差,C1和C2是常数。立体感知评价结果Q2为全部8×8图像块SSIM值的均值。同样以Art图像的绝对差值图为例,SSIM_MAP如图4所示。图像中的像素点越黑说明SSIM值越小,左右视点绝对差值图越不相似。显然图4(a)的质量优于图4(b)好,这与主观评价的结果一致。

1.3 客观模型的回归分析过程

为获取左右图像质量、立体感知质量与主观评价值之间的函数关系,本文采用了Wang等的立体图像库的主观实验结果[10],该立体图像库原始图像均来自在立体图像处理领域具有权威地位的Middle Burry网站[11],立体图像集包括10组高清(分辨率均大于1 200×1 100)测试图像,涵盖了如人物、静态、丰富纹理等不同的图像特征,立体图像库中的10对立体图像包括Art、Bowling1、Computer、Dolls、Drumsticks、Dwarves、Laundry、Mobius、Reindeer、Rocks1。失真处理类型包括JPEG压缩、JPEG 2000压缩、白噪声失真、高斯模糊失真,图像库还给出了平均主观评分差值(Difference Mean Opinion Scores,DMOS)。DMOS是主观评分均值(MOS)和满分(100)的差值(DMOS=100-MOS),因此,DMOS值越大表示图像质量越差,且DMOS的取值范围为[0,100]。本文选用了立体图像库中三组测试图像Art、Bowling1、Computer在不同程度的JPEG压缩、JPEG 2000压缩、白噪声失真下的81对立体图像,包括21幅JPEG压缩失真图像,30幅JPEG2000压缩失真图像以及30幅白噪声失真图像。对每一对立体图像分别根据前述方法计算出左右图像质量Q1以及立体感知评价结果Q2,并考察两个评价结果与主观评价值DMOS之间的关系。

将立体图像的左右图像质量评价结果、立体感知评价结果分别与主观评价值DMOS进行非线性最小二乘拟合,两者与主观评价值DMOS的非线性拟合响应函数分别为g和h,如式(3)、(4)所示,左右图像质量和立体感知的分布情况如图5所示,图中横坐标表示左右图像质量评价模型和立体感知评价模型归一化到[0,1]的值,纵坐标表示主观评分DMOS值,散点代表所选的81对立体图像,曲线是非线性拟合响应函数g和h。

从图5可以看出,左右图像质量评价结果和立体感知评价结果的分布都具有规律性,分布在非线性拟合出的响应函数g和h曲线的附近,分析可得出立体图像最终主观质量与立体图像中左右图像质量和立体感知质量都相关。然后采用线性回归的方式将响应函数g和h进行拟合,得到如下式所示的立体图像质量评价客观模型:

上式中,Q表示立体图像质量的最终评价结果,g和h前的系数在一定程度上反映了左右图像质量评价结果和立体感知评价结果在立体图像质量评价中的重要性,可看出左右图像质量和立体感知都与立体图像的感知质量有关。在立体图像感知质量评价过程中,图像质量感知以及立体感知都是人眼对立体图像总体感知质量的刺激源,因此在立体图像质量客观评价模型中,除了对图像质量的评价,还要评价立体感知质量。

2 实验结果与分析

本文所用的立体图像库中共有立体图像380对,其中原始图像10对,待评价的立体测试图像为370对。剔除1.3节中为获取左右图像质量和立体感知质量与主观评价值之间函数关系所采用的81对立体图像,采用剩下的289对立体图像来分析如式(5)所示的模型的最终评价结果与主观评分之间的相关性。本文利用评估图像质量评价方法的2个常用客观参量作为评价指标[12],即:非线性回归条件下的Pearson相关系数(Correlation Coefficient,CC)和Spearman相关系数(Rank-Order Correlation Coefficient,ROCC),前者反映客观模型的准确性,后者反映其单调性。将模型的输出值Q做四参数Logistic函数非线性拟合,CC和ROCC值越高说明客观评价方法与DMOS相关性越好。

模型评价结果与主观评分的散点图如图6所示。横坐标为本文提出的立体图像质量评价客观模型输出值,纵坐标表示平均主观评分差值。图中每个散点代表数据库中所选的立体图像对,曲线代表四参数Logistic函数非线性拟合结果,散点越集中,说明客观模型与主观感知的一致性越好。曲线表达式如式所示,a、b、c、d分别为DMOS最大值、最小值、客观模型输出结果的平均值以及1,CC和ROCC系数计算式如式(6)、(7)所示。

其中:N表示被测试的失真图像的数目。分别表示待测样本组X与Y的均值,这里X与Y分别表示DMOSp与DMOS。SNXi与SNiY分别表示Xi与Yi在各自样本组里面的排列序号,指将样本组X与Y里面的元素按照从大到小的顺序排列起来之后的序号。CC和ROCC系数取值范围均为区间[-1,1],其绝对值越接近1,表明样本组之间的相关性越好。反映准确性和单调性的CC和ROCC系数如表2所示。

从图6可得,本文提出的基于人眼视觉特性的立体图像质量客观评价模型在不同失真类型下,散点均比较集中,与主观评价数据之间的吻合度较高,能够准确地反映立体图像的主观感知质量。同时,从两个角度考察DMOSp与DMOS的一致性,分别为Pearson相关系数(CC)和Spearman相关系数(ROCC),从表2数据可以看出,本文提出的客观模型各项性能指标都较高,与主观评价结果比较一致。

3 小结与展望

本文充分利用视觉灵敏度带通、多通道效应以及立体感知等人眼视觉特性,提出一种立体图像质量客观评价模型。通过回归分析方法,挖掘左右图像质量、立体感知质量评价结果与立体图像主观感知质量的关系与响应函数,分析两者在立体图像质量评价中的重要性。在评价左右图像质量中利用小波变换模拟人眼视觉特性中的多通道效应,不同空间频带的小波系数按对比度敏感函数进行加权,左右图像质量度量采用Canberra距离。采用原始左右图像的绝对差值图与测试左右图像的绝对差值图相似度来评价立体感知,并通过回归分析将左右图像质量和立体感知函数拟合成为所需的立体图像质量客观评价模型。最后,分析了模型的预测值与主观质量评分之间的相关性,实验结果表明该模型与主观评价结果基本一致,能够较为准确地反映立体图像质量。在本文的基础上,进一步地结合人眼立体视觉中的双目掩蔽特性来改善评价效果,是未来工作的研究方向。

参考文献

[1]Yu Z,Wu H R,Winkler S,et al.Vision-model-based impairment metric to evaluate blocking artifact in digital video[J].Proceeding of The IEEE(S0018-9219),2002,90(1):154-169.

[2]Horita Y,Kawai Y,Minami Y.Quality evaluation model of coded stereoscopic color image[J].Proceedings of SPIE(S0277-786X),Perth,May30,2000,4067:389-398.

[3]Boev A,Gotchev A,Egiazarian K.Towards compound stereo-video quality metric:a specific encoder-based framework[C]//IEEE Southwest Symposium on Image Analysis and Interpretation,Denver,2006:218-222.

[4]Campisi P,Benoit A,Cousseau R.Quality assessment of stereoscopic images[J].Eurasip Journal on Image and Video Processing(S16875176),2008,629024:1-13.

[5]Yang J C,Hou C P,Zhou Y,et al.Objective quality assessment method of stereo images[C]//3DTV Conference,Potsdam,Germany,May4-6,2009,5069615:1-4.

[6]Shao H,Cao X,Er G H.Objective quality assessment of depth image based rendering in3DTV system[C]//3DTV Conference,Potsdam,Germany,May4-6,2009,5069619:1-4.

[7]Lu F,Wang H Q,Ji X Y,et al.Quality assessment of3D asymmetric view coding using spatial frequency domain model[C]//3DTV Conference,Potsdam,Germany,May4-6,2009:5069630:1-4.

[8]Kokare M,Biswas P K,Chatterji B N.Texture image retrieval using rotated wavelet filters[J].Pattern Recognition Letters(S0167-8655),2007,28(10):1240-1249.

[9]Wang Z,Bovik A C,Sheikh H R,et al.Image quality assessment:from error visibility to structural similarity[J].IEEE Transactions on Image Processing(S1057-7149),2004,13(4):600-612.

[10]Wang X,Yu M,Yang Y,et al.Research on subjective stereoscopic image quality assessment[C]//Proceedings of SPIE-IS&T Electronic Imaging(S0277-786X),San Jose,California,USA,Jan18-22,2009,7255:1-10.

[11]Scharstein D,Szeliski R.Middlebury Stereo Datasets[EB/OL].http://vision.middlebury.edu/stereo/data,2006.

人眼视觉特性篇5

数字水印技术是一种将标识信息直接嵌入到数字载体中但不影响原载体的使用价值和也不容易被人的知觉系统(如视觉或听觉系统)觉察或注意到的信息隐藏技术。通过这些隐藏在载体中的信息,可以达到数字媒体的版权保护、产品防伪和使用控制等目的。与传统的加密技术相比较,数字水印技术具有较好的透明性、鲁棒性和安全性等,以致近些年引起了世界各国的高度重视,并逐步成为信息工程研究领域的一个前沿热门分支。而人眼视觉系统(Human vision system:HVS)特性是图像信息技术的理论支撑,特别是在图像编码、压缩、水印、质量评价等处理领域中得到了广泛应用,则基于人眼视觉特性的数字水印是信息隐藏技术中一个非常具有潜力的研究方向[1,2,3,4,5]。

利用人眼视觉特性进行图像处理的关键是如何获得人眼对图像感知的最小可觉察误差(Just noticeable difference:JND阈值),又称门限,即表示的是人眼不能觉察的最大图像失真。但是到目前为止,国外提出了一些门限(JND)模型,国内也有一部分人开始研究人眼视觉特性在图像处理中的应用,但具体研究人眼对比度敏感视觉特性及其应用的很少[6,7,8,9,10,11,12]。对比度敏感是描述人眼视觉系统空间特性的主要指标,对比度敏感函数(Contrast sensitivity functions: CSF)是反映不同条件下的人眼对比度敏感与空间频率之间的关系。而且大量的研究发现,视觉系统从视网膜上分析图像近似为“傅里叶”方法,即不同的视觉细胞能够将图像分为不同的空间频率,并对不同频率和不同方向的正弦条纹做出反应[4,5]。基于此,本文根据人眼对比度感知特性的测量过程和结合Barten提出的CSF模型及图像特征,提出一种基于HVS的JND阈值计算方法,通过JND阈值设计嵌入和提取水印方案,并进行实验验证和水印攻击测试。结果表明,经过不同质量因子QF的JPEG压缩,峰值信噪比PSNR在QF大于40%时均大于30 dB,相似度NC在QF=20%时仍达到0.923 9,表明水印信息具有较好的抗压缩攻击性,同时也说明在嵌入过程中,由于引入了JND阈值使得嵌入的位置具有随机性和嵌入量达到了最大,从而有力地保证了水印的安全性。且因为引入了人眼对比度感知特性,使得载入水印的图像具有较好的透明性。实验结果说明该JND阈值计算方法在图像处理中是一种行之有效的反映人眼对图像的感知程度的表示方法,该水印方案是可行的、有效的。

1 傅里叶变换

大量的研究表明,人眼作为一个智能光学系统,在处理图像信号时本身就表现为一个较好的“傅里叶变换”功能,其将图像滤波成若干的子带信号,他们占据不同的频率范围,即图像在HVS中被认为是由不同频率范围的信息组成,其特征为:人眼对反映局部结构的边缘和轮廓的高频信息不敏感,对低频信号表现出较高的灵敏度。为了较好的结合人眼视觉特性研究水印技术,水印方案首先必须把源图像变换成频谱图。在现今的数字图像技术研究中,已有较好的把源图像变换成频谱图的方法,即离散傅里叶变换。对于一幅M×N的二维离散图像f(x,y),傅里叶正变换和逆变换公式分别为:

$\begin{array}{l} F (u, v) = \frac{1}{Μ Ν} \sum_{x = 0}^{Μ - 1} \sum_{y = 0}^{Ν - 1} f (x, y) \\ \exp [- j 2 π (\frac{u x}{Μ} + \frac{v y}{Ν})] (1) \\ f (x, y) = \sum_{u = 0}^{Μ - 1} \sum_{v = 0}^{Ν - 1} F (u, v) \\ \exp [- j 2 π (\frac{u x}{Μ} + \frac{v y}{Ν})] (2) \end{array}$

其中,u和x取0,1,2,3,…,M-1,v和y取0,1,2,3,…,N-1。

2 人眼对比度敏感视觉特性和JND模型

对于一幅图像,从物理意义上讲,图像中灰度变化比较缓慢的区域可以用较低频的正弦信号近似,而灰度变化比较大的边缘地带则用高频正弦信号近似,一般图像中大部分都是灰度变化比较缓慢的区域,只有一小部分是边缘,因此,源图像变换的图像,能量主要集中在低频区域,对应的幅值比较大,只有一小部分能量集中在高频部分,对应的幅值比较低。人类视觉系统特性表明,纹理越复杂,背景的亮度越亮,人类视觉对其轻微变化就越不敏感,而人眼观察图像本身就是一个“傅里叶”过程。基于这两点,利用人眼视觉特性的图像水印技术在频域中研究的基本原理是:对源图像进行傅里叶变换,再在变换域图中结合人眼视觉特性筛选出人眼不敏感的频率,最大限度地修改频谱图系数矩阵,最后经傅里叶反变换回到空间域中,则对应的在空间域中表现为图像的亮度和色度发生了偏差,但是如果在不影响视觉观察效果的前提下,能最大强度地嵌入水印,且能保证较高的峰值信噪比和相似度,则此种水印技术是一种较好的图像处理技术。因此,这就要求结合人眼视觉特性计算出源图像变换域图像中每一频率的可容忍的误差水平,则从观察效果上来说即是表示人眼不能觉察的最大图像失真,即是JND阈值。因此,要提出好的水印方案,关键技术是如何利用人眼视觉特性。

2.1 人眼对比度敏感视觉特性

描述人眼视觉系统空间特性的主要指标是人眼对比度敏感程度,一般用对比度觉察阈值(即目标刚能为人眼觉察时所需要的最低调制度)的倒数来表示,CSF是反映不同条件下的对比度敏感值与空间频率之间的函数关系。从20世纪50年代开始,国内外对人眼视觉特性的研究做了大量的工作,但是由于色彩的难以控制和种类繁多,人眼彩色传递特性的研究和应用到目前为止才刚刚起步,而人眼亮度传递特性获得了较好的结果,提供了较为完整的测量方法和数据,并且拟合出了CSF数学模型,其测量的主要过程描述如下:被测试者暗适应30 min后,在D处、一定的视角θ下观察显示器显示的目标光栅,目标光栅的对比度和空间频率分别通过预先做好的图片来进行自行调节,实验时,选取目标光栅的空间频率,被试者自行调节目标光栅的对比度以觉察目标,一次逐渐增大对比度到刚好能看见条纹,一次逐渐降低至条纹刚好看不见,取其平均为一次对比度觉察阈值[4,5]。实验作以下说明。

2.1.1 对比度的定义

光栅对比度采用Michole提出的亮度对比度(c)定义,如公式(3)。

$\begin{array}{l} C = \frac{Δ L}{\bar{L}} \bar{L} = \frac{L_{2} + L_{1}}{2} \\ L_{2} = \bar{L} + Δ L / 2 L_{1} = \bar{L} - Δ L / 2 (3) \end{array}$

2.1.2 空间频率和观察视角

在物理学中,空间频率是指每毫米所具有的光栅数,单位为l/mm。应用在视觉研究领域中,它是指每度视角内刺激的亮暗正弦光栅周期数,单位是cpd(cycle per degree)。图1是亮度光栅的一个演示,图2是视角θ计算方法的示意图。则空间频率的计算方法为:因为在实验中观察距离不变和光栅图片的大小不变,则观察视角不变(视角θ的计算如公式(4),其中,W是图像的宽度,D为观察者距离显示器的距离),但是可以改变栅条纹的像素个数来改变其宽度,不同的栅条纹宽度则对应不同的明暗条纹周期数,则人眼每度视角内刺激的亮暗光栅的周期数不同,达到实现不同的空间频率。具体的推导如下:

$\begin{array}{l} θ = 2 \cdot \arctan \frac{W}{2 D} \cdot \frac{180}{π} \approx \\ 2 \cdot \frac{W}{2 D} \cdot \frac{180}{π} = \frac{W}{D} \cdot \frac{180}{π} (4) \end{array}$

实验中,所有的光栅均用计算机控制的CRT显示器来显示,当计算机设置完成后,图像的分辨率K为一恒定值,则每个像素所占的空间大小Δl就不变,其可用式(5)来描述。因为用显示器显示光栅,光栅图片的大小不易准确测量,则可根据像素所占的空间大小Δl得出图像的宽度W,可表示为式公(5)。式中W单位取cm,Wi为图像宽度的像素数。

$Δ l = \frac{2.54}{Κ} W = \frac{W_{i}}{Κ} \cdot 2.54 (5)$

则在用显示器显示光栅研究人眼视觉特性的研究领域中,空间频率可用公式(6)来计算,其中n为一个栅条纹周期内像素的个数(n≧2)。

$\begin{array}{l} f = \frac{W / 2}{n Δ l / 2} \frac{1}{θ} = \frac{W_{i}}{n} \frac{1}{θ} = \frac{W_{i}}{n} \frac{100 D π}{180 W} = \\ \frac{W_{i}}{n} \frac{100 D π}{180 W_{i} \cdot Δ l} = \frac{100 D π}{180 n \cdot Δ l} (6) \end{array}$

2.1.3 CSF数学模型

通过前人大量的测量和对数据的分析、拟合,得出了许多人眼对比度敏感视觉特性的数学模型,其中最典型的有以下几个模型。

(1)Movshon模型

Movshon模型是由Movshon和Kiorpes共同提出的一种最简单的三参数人眼亮度对比度敏感函数模型[13],如公式(7):

$C S F_{l u m} (f) = a \cdot f^{c} \cdot e^{- b \cdot f} (7)$

其中a=75,b=0.2,c=0.8,f为空间频率,单位为cpd。但是,观测环境(如亮度等)对CSF有着很大的影响,而此CSF对不同的观测环境仍采用同一模型,因此需要一个更复杂更完善的模型。但是在近些年的图像技术中几乎都采用这种模型,如Waston,Christine.I.P等人。可能的原因是在于这种模型简单,计算量小,容易与图像结合。图3是该模型的图形表示。

(2)Barten模型

Barten模型是Barten等人对Van Meeteren测量的数据进行拟合的参数模型,是一个比Movshon CSF模型复杂的模型,其能够灵活地反应出随着亮度变化的情况,具体函数如公式(8);其中,f为视觉空间频率,单位为cpd,L为观察目标光栅的平均亮度,w为每度显示的大小。

式中

$\begin{array}{l} a = \frac{540 \cdot (1 + \frac{0.7}{L})^{- 0.2}}{1 + \frac{12}{w \cdot (1 + \frac{f}{3})^{2}}}, \\ b = 0.3 \cdot (1 + \frac{100}{L})^{0.15}, c = 0.06 \end{array}$

公式(8)表明人眼CSF模型受到平均亮度的影响,不同的平均亮度,CSF的曲线也会不同,图4中的(a)和(b)图分别是该模型对应的二维图像和三维图像的示意图。从图4表明:曲线整体表现为人眼对中频区域较为敏感,对低频和高频区域,人眼对比度敏感程度急剧下降。

(3)Daly模型

Daly在Visible difference predictor(VDP)中提出了另外一种更为复杂的CSF模型[15]。该模型是一个含有多参数的函数,包括光线的空间频率、方向性、亮度、图像大小、图像离心率、观测距离等。

$\begin{array}{l} C S F (f, l, i^{2}) = {[3.23 \cdot (f^{2} \cdot i^{2})^{- 0.3}]^{5} + 1}^{- 0.2} \\ A_{1} ε f \cdot \exp (- B_{1} ε f) \cdot \sqrt{1 + 0.06 \cdot \exp (B_{1} ε f)} (9) \end{array}$

其中,

$\begin{array}{l} A_{1} = 0.801 \cdot (1 + \frac{0.7}{l})^{- 0.2}, \\ B_{1} = 0.3 \cdot (1 + \frac{100}{l})^{0.15} \end{array}$

f为空间频率,单位为cpd,i2为图像的大小(假设图像为正方形),ε为频率缩放常量(对于亮度CSF,等于0.9),l是亮度适应,单位为cd/m2。

如果考虑到人眼的适应性调节,离心率,方向选择,上述函数可以进行扩展,f修正为(10)式。

$f (d, e, θ) = \frac{f}{r_{a} r_{e} r_{θ}} (10)$

式中, $r_{a} = 0.856 \cdot d^{0.14}, r_{b} = \frac{1}{1 + 0.24 e}, r_{θ} = \frac{1 - 0.78}{2} \cos (4 θ) + \frac{1 + 0.78}{2}$ 。其中,d为观测距离,单位为m,e是图像成像在人眼视网膜中位置偏离中央凹的离心率,θ是方向角。当亮度为100 cd/m2,观测距离为0.5 m时,CSF模型如图5所示。

结合图形技术的需要,对比分析这几种模型可得:Movshon模型基本没有考虑任何参数的影响,不能较好地反映人眼对比度感知特性;而Daly模型虽然是一种到目前为止最适合描述人眼视觉特性的模型,但在图像技术中,计算量太大;综合考虑CSF模型能否较好地反映人眼视觉特性及其在图像水印技术中的实用性,Barten模型是比较理想的模型。本文即是采用此种模型建立JND模型。

2.2 JND模型

要将反映人眼视觉特性的Barten模型与数字图像水印技术有效的结合起来,要满足以下两个条件。(1)光栅的亮度对比度Michole定义如何应用到图像中。(2)如何将Barten模型中的频率与频谱图F(u,v)中的u,v建立联系。解决这两个问题的具体说明如下。

图像经过傅里叶变换为频谱图F(u,v),u,v分别表示离散系列的位置,通过实验发现,频谱图上的任意连续两点间经傅里叶反变换均呈现一个正弦周期条纹,任意n点间则呈现n个正弦周期条纹,如下图6,(a)是Lena图像(大小为256×256),(b)是其在傅里叶变换域中保留坐标为(129,125)和(129,129)的点的示意图,(c)是这两点反傅里叶变换得到的正弦条纹图像。表明傅里叶变换频谱图反变换成原图是以正弦周期条纹组合而成为原图的。即是说在频谱图上任意两点间隔多少,则反变换回原图便呈现多少个周期条纹。而F(u,v)显示的频谱图以|F(u,v)|作为亮度显示进行显示。基于此,可以认为频谱图上间隔为n的任意两点,中间就有n个基频。

因为图像任何一点的频率都不一样,根据人眼视觉特性,不同的空间频率有不同的人眼觉察阈值,也即是说人眼在观测图像时,图像上的每一点空间频率不同,人眼觉察阈值也不同。则要求给出图像每一像素点的亮度对比度和空间频率。结合Michole亮度对比度定义,可以把图像的平均亮度认为是公式中平均亮度 $\bar{L}$ ,并且代表光栅中的明或暗条纹的亮度,则任意一点的亮度对比度可等效为亮度为 $\bar{L}$ 和该点亮度形成的光栅对比度的两倍,并且等效的光栅空间周期为该点到中心点的间隔的两倍(图7是上述理论的演示图),从而知道一个周期内含有多少个像素点,代入公式(6)便可计算频谱图上不同位置点的空间频率。在傅里叶变换时,习惯把图像的直流分量移到显示的中心,刚好满足上面的理论假设。则频谱图上任意一点的空间频率可根据下面的方法进行计算。

设频谱图上中心点位置为K0(M/2,N/2),则任意一点K(i,j)的频率计算方法为,(1)水平方向Kx(M/2,j)与中心点形成的光栅频率为 $f_{x}, f_{x} = 100 D π / [180 \cdot Δ l \cdot 2 (j - \frac{Ν}{2})], (2)$ 同理,竖直方向Ky(i,N/2)与中心点形成的光栅频率为 $f_{y}, f_{y} = 100 D π / [180 \cdot Δ l \cdot 2 (i - \frac{Μ}{2})], (3)$ 任意一点K(i,j)与中心点形成的光栅频率为 $f_{Κ} = \sqrt{f_{x}^{2} + f_{y}^{2}}$ 。从而可以完全把频谱图上任意点的空间频率计算出来,形成一个大小为M×N的一个矩阵。再把每个空间频率代入到Barten模型中便可直接获得频谱图上每一点的最大可改变量,即JND阈值,同样便组成了一个M×N大小的JND矩阵。再利用这个矩阵便可以确定图像对应像素的改变量,实现图像处理的编码和算法设计。

3 实验

3.1 水印嵌入和提取方案

图像水印的实质是在源图像信息里叠加上一个水印信息,本实验方案是在频域中进行的,则首先对原始图像作傅里叶变换和对水印信息作Arnold置乱处理,再与计算的JND阈值作比较,筛选找出图像傅里叶变换系数能够被改变最大的位置并嵌入水印信息,设计的水印嵌入和提取方案如下图8和图9。具体步骤如下:(1)对原始图像作快速傅里叶变换,获得变换域系数矩阵。(2)对水印信息作Arnold置乱预处理。Arnold置乱算法利用数字图像具有数字阵列的特点,搅乱图像中像素的位置,使之变成一幅杂乱无章的图像,达到无法辨认出源水印的目的,若将置乱的水印图像信息作为防伪标记再进行隐藏,可以大大提高原始图像信息的鲁棒性;(3)利用JND阈值,结合原始图像的频谱图和水印信息,筛选找出能够被改变最大的变换域系数的位置进行嵌入水印信息。由于筛选具有很大的随机性,筛选获得的系数位置也就具有很大的随机性,且同一个水印信息点可能会嵌入到多个系数位置,以致水印具有不可预测性。另外由于每一个系数的嵌入量能够达到最大,具有较好的鲁棒性;(4)根据反傅里叶变换恢复图像获得含水印图。(5)对含水印图进行傅里叶变换,根据上面的嵌入算法的逆运算提取水印,作反Arnold置乱处理恢复水印信息。

3.2 实验结果

运用MATLAB7.0对100×100的Lena图像进行仿真实验,以大小为40×40的QQ图标作为水印信息进行嵌入和提取,其实验结果见图10。

3.3 检测分析

在水印技术研究中,源图像由于叠加了水印信息就不可能与原始图像一样,为了客观描述两者间的偏差,一般采用峰值信噪比(PSNR)来评价,PSNR是目前最普遍、最广泛的用于评鉴图像的客观量测法,PSNR越大,表明水印的隐蔽性越好。峰值信噪比PSNR的计算式描述如公式(11),其中I代表原始图像,I′代表含水印图像。为了客观地评价提取的水印和原始水印的相似程度,一般采用相似度(NC)来定量描述,NC值越大,表明提取的水印与源水印越相似,水印质量就越好。水印相似度NC的计算式描述如式公(12),其中W代表源水印图像,W′代表提取出的水印图像[8]。

$\begin{array}{l} Ρ_{S Ν R} = 10 \times \log_{10} \frac{Μ \times Ν \times 255 \times 255}{\sum_{i = 1}^{i = Μ} \sum_{j = 1}^{j = Ν} [Ι (i, j) - Ι^{'} (i, j)]^{2}} (11) \\ Ν C = \frac{\sum_{i = 1}^{i = Μ} \sum_{j = 1}^{j = Ν} W (i, j) W^{'} (i, j)}{\sum_{i = 1}^{i = Μ} \sum_{j = 1}^{j = Ν} W (i, j)^{2}} (12) \end{array}$

计算仿真实验获得的含水印图和原始图的峰值信噪比PSNR及提取水印和原始水印的相似度NC分别为47.862 4 dB和1。对含水印图进行不同质量因子(QF)的JPEG压缩处理和提取水印(提取的水印信息图如图11),并计算与原始图和原始水印间的峰值信噪比PSNR和相似度NC的值,计算结果见表1。

4 结论

从实验结果和检测分析结果说明,PSNR在压缩质量因子大于40%时均大于30 dB,NC在压缩质量因子为20%时仍达到0.923 9,表明水印信息具有较好的抗压缩攻击性,同时也说明由于引入了JND阈值,使得在嵌入过程中嵌入的位置具有随机性和嵌入量达到了最大,从而对提高抗压缩攻击性起到了很好的作用。且因为引入了人眼视觉特性,使得含水印图具有较好的透明性。从水印实验的结果表明文中提出的基于人眼视觉特性的JND阈值计算方法是可行的、有效的,希望能在图像编码、压缩和水印等图像技术中得到较好的应用。

【人眼视觉特性】推荐阅读：

人眼定位08-05

视觉感知特性11-06

伦敦人眼中的伦敦07-29

乱花渐欲迷人眼作文07-04

美国人眼中的朝鲜战争06-17

沪教版《各人眼中的20》教学反思07-18

视觉方案10-16

视觉环境10-16

视觉选择05-08

视觉语境05-13

>> 查看更多相关文档