视觉感知特性(共8篇)
视觉感知特性 篇1
摘要:近年来, 随着计算机网络技术和通信技术的飞速发展, 移动通信取得了商业运营的巨大成功, 无线多媒体通信已经成为未来移动通信的发展趋势。现有视频编码技术并没有很好解决容错性能和编码效率之间的矛盾。因此, 为了满足有质量保证的视频业务在移动通信网络上传输的需求, 必须突破传统视频编码思路的局限, 引入新的编码思路和技术。本文对视觉理论编码中的感知视频编码技术、感知码率控制方法、感知视频容错编码技术以及解码端错误隐藏技术等相关领域研究工作进行综述分析。
关键词:人眼视觉特性,视觉显著度,无线视频通信,容错编码
1 无线视频通信发展回顾与展望
无线移动通信发展的最终目标是实现任何人 (Whoever) 可以在任何地点 (Wherever) 、任何时间 (Whenever) 与其他任何人 (Whomever) 进行任何方式 (Whatever) 的通信 (即W5的个人通信) 。无线移动通信的发展经历了5个阶段, 正在向第四代无线移动通信系统技术快速迈进。
数字视频监控是数字视频压缩技术的典型应用领域, 伴随着中国城市化的进程, 社会迫切需要整合社会视频监控与报警资源, 以提高社会治安综合防控能力和突发事件的应急处置能力, 监控系统需要从传统的局部监控系统过渡到大规模的联网监控系统。采用基于视觉感知的无线视频容错编码技术可以将有限的码率资源优先配置给重点监控区域, 保证关注度区域的监控质量, 是无线移动视频监控研究的关键技术之一。
2 基于视觉显著度模型的码率分配算法研究
假设一帧图像由Nmbpic个MB组成, 一个基本单元定义为一组连续的个数为Nmbunit的MB。一帧中的基本单元数Nunit, 计算如下:
基本单元可以指一个宏块、一段连续的宏块、一场或者一帧。一般, 选择的基本单元越大, 获得的PSNR越大, 但是比特输出的波动也会变大。反之, 选择的基本单元越小, 比特输出相对平稳。但是获得的PSNR将会变小。基本单元层码率控制的三个主要步骤为预测MAD、分配目标比特以及二次R-Q模型计算量化参数。JM12.2中采用线性模型预测出基本单元的MAD通过前一帧相同位置基本单元的MAD预测出当前帧中同一位置基本单元的MAD。采用如公式所示的线性预测模型:
本文提出了基于视觉显著度模型的帧级、宏块级两级码率分配策略。在码率受限的情况下有效保证视频场景中显著度区域的主观质量, 根据视频图像自身特性和人眼视觉相关特性建立基于视觉显著度模型来指导视频编码码率控制分配, 提高码率受限情况下显著度区域的主观图像质量。在帧级码率分配中, 由于一个GOP中每一帧视频图像的显著度区域都有可能不一致, 其在视频场景中所占的面积大小也可能不一致, 因此, 充分考虑GOP中每帧视频图像显著度区域面积的大小来进行帧级的码率分配。
3 基于视觉显著度模型的时空域容错算法研究
假设宏块的所有编码模式的集合为O, 对于第n帧图像中的第m个宏块, 它的最佳编码模式o*就是使得如下Lagrange (拉格朗日) 代价函数取最小值的编码模式:
其中, 和分别为当前宏块在特定编码模式下所对应的失真和相应的码率, 是Lagrange乘子。因此, 无错的情况下的Lagrange乘子可以用表示。
根据宏块是否处在人眼的关注度区域, 对量化参数必须做出相应的调整, 由于G012rl的码率控制策略本身在Picture层Buffer控制中预留了一定的空间, 所以在宏块层的比特分配中可以适当地调整各宏块比特数, 因此第n帧第m个宏块的比特数T (n, m) 根据下式计算:
其中T (n) 是分配给第n帧所有宏块的目标比特数, 是第n帧中所有宏块的MAD值之和, FRW是宏块所在区域的区域权重因子。
时域错误隐藏是根据视频图像在时域上变化平稳的性质, 利用相邻宏块预测运动矢量恢复当前受损块预测运动矢量来恢复或直接拷贝前一帧对应位置的宏块。本文默认使用AVS-S SM0.4中采用的时域错误隐藏算法, 直接拷贝丢失宏块前一帧对应位置的宏块进行替补;同时, 针对视频图像中运动较剧烈的宏块, 本文选择利用冗余运动矢量的时域错误隐藏方法进行恢复, 即对帧间编码宏块 (主要是P帧和B帧) 的运动矢量绝对值进行判断, 如果小于我们设定的阈值T (本文实验中采用的阈值是7) , 那么就认为该宏块运动平滑, 将采用系统缺省的错误隐藏方法进行处理;否则, 就认为该宏块运动较为剧烈 (即容易出现差错的宏块) , 那么在编码同时还将该宏块的运动矢量作为冗余信息写入码流中, 以供该宏块解码出错时利用其冗余信息对该区域宏块内容进行恢复。
4 结语
无线视频应急通信是未来移动通信应用的一个重要研究领域, 基于人眼视觉感知特性的无线视频容错编码技术是保证无线视频传输质量的关键手段, 它更好地符合了人眼视觉特性的要求, 是突破传统基于统计压缩性能局限的一种有效途径, 在图像处理和压缩领域获得广泛的应用。
参考文献
[1]章坚武.移动通信 (第二版) [M].西安:西安电子科技大学出版社, 2007
[2]冯秀波, 谢剑英.无线视频传输容错算法研究新进展[J].通信学报, 2003, 24 (12) :124-132
[3]蔡涛等译.无线通信原理与应用[M].北京:电子工业出版社, 1999
[4]丁绪星, 朱日宏, 李建欣.一种基于人眼视觉特性的图像质量评价[J].中国图象图形学报, 2004, 9 (2) :190-194
视觉感知特性 篇2
关键词:儿童公园;视觉感知
儿童公园的设计最重要的是满足儿童身心健康需求。视觉是认知事物的首要途径,随着年龄的增长,儿童的视觉需求不断增加,要求外界事物不同视角、视距、色彩、形状的视觉刺激。视觉景观的舒适度影响儿童的视觉感知与心理活动,因此,儿童公园在视觉设计上要注意带给儿童和谐舒适的视觉环境。
一、儿童视觉感知需求
(一)色彩感知需求
儿童对色彩的感知是建立在其色彩辨识度上的,选择种类随着年龄的增长而增多,在色彩设计上应注意对低龄儿童的引导。2~5岁的儿童只能辨认出红、黄、蓝、绿等纯度较高的原色,6~10岁的儿童选择色彩的种类增多,对混合色开始增加好感,尤以红紫色为最。11~14岁儿童偏爱蓝色、紫色、黑色等明度较低的色彩。同时,不同性别的儿童对于色彩的选择具有明显的差异。女孩喜好的颜色种类相对于男孩较分散、丰富,而男孩喜好的颜色体现出相对集中性。色相选择上,女孩更倾向于红、黄、紫红系暖色调,男孩集中于蓝色系冷色调和绿色系中间色调。
(二)图形感知需求
图形包括图案和形状,儿童对图形的喜好与图形辨识能力和熟悉度相关。儿童对图形的喜好差异主要表现在年龄因素上,趋势基本相同。形状上,多偏好于圆形,形状种类的选择随着年龄的增长而增多。图案上,不同年龄、性别儿童选择结果趋势相同,喜好顺序为:卡通人物>动物>植物>其他。值得注意的是,儿童对植物的喜好随着年龄的增长而降低。更加应该引起设计者的重视,从幼龄儿童开始培养与大自然的感情。
二、基于儿童视觉感知需求的儿童公园设计
(一)儿童公园色彩设计
色彩的选择和搭配是影响儿童视觉需求的两大主要因素。儿童公园色彩设计可将儿童色彩喜好与色彩心理学相结合。
1.儿童公园色彩选择
幼龄儿童活动区(1~3岁)。幼龄儿童对色彩的辨别度不高,此活动区的色彩选择应以纯度高的色彩为主,辅以其他混合色彩,强调对幼龄儿童色彩感知的培养。从问卷调查的结果来看,他们对纯度较高的红色、蓝色、绿色以辨别度较高,所以这三种颜色是首选颜色。另外,橙色能够促进儿童食欲,粉红色能够培养儿童的同情心,所以在混合色中选择橙色和粉红色作为辅助色。
学龄前儿童活动区(4~6岁)。学龄前儿童随着年龄的增长,对颜色的辨别能力增强,选择色彩的种类增多,特别是对混合色的偏好明显。色彩喜好程度为:红紫>蓝>黄>红>紫>黄绿>蓝绿>绿>黄橙。此年龄段正是儿童对色彩注意力极高的时期,色彩选择上应丰富多样,注重混合色的使用,使儿童接触不同纯度、明度的色彩。但是,色彩对于这个年龄段的儿童视觉刺激强烈,容易影响他们的情绪,因此在色彩的选择上要减少会引起消极情绪的色彩使用,诸如红色、紫色。
学龄儿童活动区(7~12岁)。学龄儿童多喜好冷色调色彩,虽然冷色调有消除紧张情绪、使人心理平静的作用,但也是容易导致抑郁情绪产生的色彩,色彩的选择在适当满足儿童喜好的基础上,配以互补的色彩进行中和。根据学龄儿童偏好益智类活动的特征,选择对智力发展起积极作用的颜色。如黄色能够使人集中注意力,激发心理活动与创造力;红紫色能够给人以温暖的鼓励,促进自信心的增长。
2.儿童公园色彩搭配
色彩的搭配要与整个环境的主题色调相和谐,给人以舒适的感觉。儿童公园色彩搭配以植物色彩为基调,和谐的融入建筑小品、地面铺装的缤纷色彩。植物多以绿色为主,通过纯度和明度的过度形成有规律的基调色彩。建筑小品、地面铺装的色彩应丰富多彩,但要注意与整体环境的和谐统一,过于花哨的环境会使儿童对环境产生“脏、乱、差”的印象。
搭配手法上,采用多种色彩搭配方式调和。对比色、互补色搭配吸引儿童注意力,活跃空间氛围;类似色搭配缓和视觉冲击,避免视觉疲劳;韵律色搭配让儿童感受色彩的韵律美,促进儿童智力发育。
(二)儿童公园图形设计
儿童公园的图形设计要给与儿童一个健康的审美引导,根据儿童图形识别能力与图形的偏好,选择简单的几何形状(圆形、方形、三角形)配以儿童喜欢的图案,通过不同构形手法的应用,为儿童设计出一个具有和谐美的视觉效果。
针对不同年龄儿童活动区给与不同的图形设计。在构形手法上由简到繁,达到不同的目的。幼龄儿童活动区以圆形为主,应用重复式构形手法将大小不一的圆连续、反复、有规律的排列,突出重点。这种构形手法在幼龄儿童活动区的应用能够使儿童对反复出现的形状元素产生深刻的记忆,对儿童图形识别能力有所帮助。学龄前儿童活动区在图形元素上增加种类,将不同的图形经过切割、透迭等方式重新组合,应用发射式构形手法,吸引儿童注意,增强视觉效果。学龄儿童活动区可选择多边形,应用渐变构形、发射式构形、重复式构形等多种构形手法进行设计,提高儿童审美能力。
另外,可将图形与图案结合,选择多数儿童喜好的图案加入到图形元素中,引起儿童的注意。还可根据光色的变化带给儿童不同的视觉体验。
三种用于视觉感知系统的算法比较 篇3
关键词:视觉,感知系统,算法,模式识别
本文针对研制的视觉感知系统中所应用到的三种算法进行了详细阐述, Canny算子、高斯梯度金字塔和IIR滤波。描述了三种算法的基本原理, 给出了以各自对图像的处理结果。
1 Canny算子
Canny算子是图像的边缘检测算法中的默认算子。鲁棒性是Canny算子的特性, 它能够在边缘检测和连接过程得到很好的体现。这种特性即使是在含有噪声的图像中也能够很好的显现出来。Canny算子是由Canny在1986年提出的一种边缘检测的方法和手段, 这种算子以之前的边缘检测算子为基础, 用泛函的约束优化问题替代了寻找最优滤波器的问题。
Canny发现高斯函数的一阶导数可以去逼近泛函的约束优化问题的解。也就是说如果是二维的情况下, 滤波器函数可以用二维高斯函数的层数来实现[1]。同时满足对图像噪声的抑制和边缘的精准定位在图像的边缘检测中是无法实现的, 但是应用Canny算子可以在噪声抑制和边缘定位之间找到一个最佳的方案。
1.1 高斯图像平滑
1.2 计算梯度幅值与方向
通过一个一阶差分卷积模板:
1.3 非极大值抑制
为了得到确实的边缘, 需要把矩阵中的局部梯度最大的点保留, 抑制非极大值。
将方向离散为四个方向:水平、垂直、斜45°角。将这个点M (x, y) 和沿着梯度线的两个点 (同方向的两个点) 作比较, 如果点M (x, y) 的梯度值不比这两个点的梯度值更大, 则将M (x, y) 设置为0, 否则为1。
1.4 滞后阈值算法
把滞后阈值操作作用于非极大值抑制后的图像上。需要注意的是这里包括了高和低两个阈值, 它们分别与连接和检测相对应。第一个阈值可以弥补第二个对边缘点信息的丢失。第二个则是为了保证边缘信息的准确无误, 甚至可以牺牲某些边缘点。[2]待处理的原图像和上述各个步骤处理后的图像, 如图1~图5所示。
2 高斯梯度金字塔
高斯金字塔是一种数据结构, 它的第0级包含了原始图像, 第1级包含了2×2下采样后的图像, 第2级包含了进一步2×2下采样后的图像, 依此类推。它经常被用在检测及追踪应用中, 以减少冗余数据。
用于图像分解与重构的是拉普拉斯塔, 高斯金字塔分解只是拉普拉斯塔分解中的一步。对一幅图像进行高斯、水平梯度、垂直梯度金字塔分解的结果如图。
3 IIR滤波
IIR滤波器必须采用递归结构, 极点位置必须在单位圆内, 否则系统将不稳定。IIR滤波器一般被认为比FIR滤波器具有更高的运算效率。因此, 递归IIR滤波器在一系列图像处理操作中有广泛的应用, 如图像平滑, 梯度及边缘计算中。实现一阶水平方向和一阶垂直方向的递归IIR滤波后的处理结果。
4 结论
通过三种算法对图像的处理结果, 可知它们各有不同。需要根据不同的特定场合和应用系统来选取适合的算法。当然, 在一结特定场合还会出现多种算法共同作用的情况。
参考文献
[1]王兰, 吴谨.一种改进的Canny边缘检测算法[J].微计算机信息, 2010.
视觉感知特性 篇4
为了研发该技术, 富士施乐针对图像亮度频率及暗部区域进行了深入的独立分析, 以实现基于人们对图像物体的视觉感知的自然再现 (图1) 。
利用全新的图像编辑技术, 用户只需在平板电脑或触摸屏上用手指选定图像的任意区域, 该全新的图像编辑技术即可自动判断指定图像区域的边界。然后, 用户可随意改变所选区域的颜色或纹理, 或者将剪切后的图像与其他图像拼接 (图2) 。
值得一提的是这项技术还可复制模板图像的特征。通过将模板图像整体复制到其他图像或部分复制到某个特定区域上, 这样原始图像或所选区域将会由此呈现出与原图像相同的效果 (图3和图4) 。
未来, 富士施乐将在位于日本横滨研发中心的客户共创实验室, 与客户一同探索如何应用该项新技术以及如何将其商业化。
例如, 利用这项新技术能改变图像中多个区域的特点, 汽车代理商可以在平板电脑上为客户展示不同的汽车车身颜色和内饰设计的多种组合。
富士施乐认为人类大脑对视觉成像包括图像的清晰度、亮度频率和颜色等特征的认知 , 是图像纹理复制研究中的一个重要领域。富士施乐将在这一领域进行持续、深入的研究。
视觉感知特性 篇5
图像是人类感知和机器模式识别的重要信息源, 其质量对所获取信息的准确性起着决定性的作用。随着信息化社会的到来以及信息高速公路的实施, 各行各业对图像的使用越来越广泛, 人们对图像质量的需求也越来越高。经过压缩的图像虽然为图像的存储和传输带来了极大的方便, 但图像质量有时却不尽如人意, 对于彩色图像而言, 压缩后图像的颜色损伤是普遍存在的, 但人眼对不同颜色的灵敏度不同, 因此不同颜色的损伤对图像质量的影响也各不相同。
颜色损伤对视觉感知图像质量的影响研究对数字电视、多媒体数据库、电子图书馆、卫星遥感图像等方面提供了有力的支持。目前针对图像质量评价的算法, 国内外的一些知名高校和科研机构, 如复旦大学、中国空间技术研究院、VQEG (国际电信联盟的视频质量专家小组) 、美国Sarnoff公司等, 都对其进行了长期深入的研究。
图像质量评价的主体是人, 因此人眼视觉特性 (HSV) 对评价算法的研究具有重要意义。但是, 对人眼视觉特性的研究涉及生理、心理等方面, 特别是对视觉的心理特性业界迄今仍难以找出定量的描述方法, 所以目前还没有一套全面的、统一的图像质量评价体系。
图像质量评价的方法有两种:①主观评价方法:设计实验, 由观测者对图像质量进行评价;②客观评价方法:采用算法对图像质量进行评价。其中主观评价方法天然地和人的主观感受相符, 但它费时、复杂, 还会受到观测者专业背景、心理和动机等主观因素的影响, 并且不能结合到其他算法中使用;客观评价方法方便、快捷, 容易实现并能结合到应用系统中, 但它和人的主观感受有出入。通常提到的图像质量评价算法是指客观评价算法, 其目标是获得与主观评价结果相一致的客观评价值。
2人眼视觉特性
由于压缩后的图像最终是供大众欣赏和使用的, 所以在设定图像压缩的有关参数时都需根据人眼的视觉特性来选择, 以使得压缩后的图像质量能满足人眼的要求。人眼视觉特性大致包括视敏特性、亮度感觉特性、视觉分辨力特性和彩色感觉特性等[1]。
2.1视敏特性
人眼所能感觉的光 (可见光) 是波长范围为380~780mm的电磁波。实验证明, 对于不同颜色的光, 人眼不仅有不同的颜色感觉, 而且有不同的灵敏度, 即对于辐射功率相同而波长不同的光有不同的光亮感觉, 人眼的这一特性称为视敏特性。研究表明:在明亮环境中, 人眼对波长为555nm的黄绿光有最大的敏感度;在黑暗环境中, 人眼对波长为507nm的青绿光有最大的敏感度。
2.2亮度感觉特性
人眼的亮度感觉是一个主观量, 它不仅取决于景物给出的亮度值, 而且还与周围环境的平均亮度, 即人眼的适应性有关。在平均亮度适中时, 人眼能同时感觉的亮度上、下限之比最大可接近1000:1, 而平均亮度过高或过低时只有10:1。
2.3人眼的分辨力
人眼分辨图像细节的能力称为人眼的分辨力或视觉锐度。分辨力除因人而异外, 还与景物的照度、景物的对比度等因素有关。当照度太低时, 分辨力就大为降低, 且分辨不出颜色。相反, 当照度太高时, 分辨力也不会再增加, 甚至由于“眩目”现象而降低。景物细节的对比度低, 分辨力也要降低。除此之外, 分辨力还与景物的运动速度有关, 运动速度快, 分辨力将降低。
2.4人眼的颜色感觉特性
为确切表示某一颜色光, 必须有三个独立的参量:亮度 (亦称明度) 、色调和饱和度 (亦称纯度) , 它们称为彩色的三要素。
2.4.1亮度
亮度表征色光对人眼刺激程度的强弱, 即引起明亮感觉的程度, 它与进入人眼色光的光能有关。对于发光物体 (光源) , 发光强度越高, 人眼感到越亮;而对于非发光物体, 其亮度取决于反射 (或透射) 的光能大小, 照射光源的光能越大, 物体表面对光的反射率越高, 物体的亮度就越高。
2.4.2色调
色调表征彩色之间的差异性, 反映颜色的类别。理论上讲, 在可见光谱中不同波长的光有不同的色调, 即应有无数种色调与波长相对应。但实际上对波长很接近的谱色光, 人眼并不能区别开它们的色调。从总体上看, 在可见光的波长范围内, 人眼大体能分辨出200来种不同的色调。当颜色太淡或亮度太大及太小时, 人眼对色调的分辨力也会下降。
2.4.3饱和度
饱和度是指彩色光所呈现彩色的深浅程度 (或浓度) , 即某色调的浓淡、深浅程度或掺白程度, 以百分比 (%) 表示。对于同一色调的彩色光, 饱和度越高, 说明它的颜色越深;饱和度越低, 说明它呈现的颜色越浅。
3主观评价
主观评价是直接利用观察者对被测系统质量的主观反映, 来确定系统性能的一种方法。国外的一篇论文[2]在这一方面进行了首次探索, 呈现了一个颜色损伤对视觉感知高分辨率静止图像质量影响的主观研究。本次主观评价实验严格按照主观实验评价标准进行, 请若干名实验员在主观评价实验室中进行实验, 分别进行彩色图像和黑白图像的主观评价, 为原始图像和不同压缩倍数的压缩图像进行打分。将实验所得数据进行分析整理, 得出相关结论。
3.1主观评价设计方案
3.1.1测试依据
GY/T 134-1998[4]数字电视图像质量主观评价方法
3.1.2评价用测试图像序列 (见表1)
3.1.3评价方法
测试分为彩色和黑白两个部分, 每个部分有七组图像, 每组有6张, 为同一内容的2张原始图像和4张压缩图像, 每组的第1张为已知的原始图像, 其余5张是随机排列的压缩图像和原始图像, 测试人员为这5张图像打分, 主观评价经JPEG压缩后的图像质量相对于原图像的质量损伤情况。满分为100分。评分规则为:
与原图无可察觉的差别, 定为100—80分;
与原图有刚可察觉的差别, 不讨厌, 定为80—60分;
与原图有差别, 稍有讨厌, 定为60—40分;
与原图有明显差别, 讨厌, 定为40—20分;
与原图有明显差别, 非常讨厌, 定为20—0分。
3.1.4观看条件
主观评价在中国传媒大学主观评价实验室中进行, 其评价观看条件基本符合行业标准GY/T 134-1998中的规定。具体观看条件为:测试人员观看距离约为30cm;室内环境光照明强度低;测试人员的座位在图像水平方向中垂线±30°内。
3.1.5评价人员
本次测试邀请非专业评价人员14人, 均来自中国传媒大学。评价人员年龄在22~27岁之间, 其中男性3人, 女性8人。
3.1.6评价用仪器设备
PC机一台, 高清监视器 (1920*1080) 一台
3.2主观评价实验数据
根据ITU-R BT.500-11和GY/T 134-1998对原始数据进行了筛选, 在11人数据中保留了11人, 原始图像默认为100分, 各个图像的得分情况详见下表, 其中置信区间为95%置信度的区间。
3.2.1彩色图像评价部分 (见表2)
3.2.2黑白图像评价部分 (见表3)
需要说明的是, 在以上的实验数据中, 由于原始图像夹杂在压缩图像中, 人眼有时难以分辨出来, 因此会与理论上的100分存在一些偏差。但随着图像压缩倍数的增加, 人眼可以明显分辨出图像质量的下降。总体上不难看出, 受压缩倍数损伤影响较小的是“黄叶和绿地”, 受压缩倍数损伤影响较大的是“绿叶”。
3.2.3主观评价实验结论
各压缩倍数下测试图像的主观评价平均分如图1、图2所示。
每幅测试图像的质量下降总平均分如图3所示。
分析测试得到的数据显示, 对于彩色图片来说, 人眼对绿色的损伤最敏感, 因为随着压缩倍数的增加, 绿色的色调会发生显著变化, 图像的纹理越细、细节越多, 人眼越难发觉图像的变化;对于黑白图像来说, 人眼对图像损伤的灵敏度只和图像细节相关, 细节越少越灵敏。
4结论
颜色损伤对视觉感知图像质量的影响研究是一个非常有前途的研究方向, 它综合了多种学科, 将图像处理、图像理解、人眼视觉等多个领域的研究成果结合起来, 具有优质广泛的应用前景。如版权保护、公安系统、数字图书馆、医学等领域。从兴起到现在虽然只有短短的几年时间, 但也有了长足的进步, 不过由于图像特征描述和人眼视觉特性的复杂性, 其技术仍不成熟, 理论上还有很多问题有待解决。本文在前人的基础上主要做了如下工作:
本文在前人的基础上研究了基于人眼视觉特性的图像质量评价方法。主观评价方案参照国外的研究方法, 并在此基础上针对本课题的研究方向进行了改进。测试图像经过多次筛选, 原始图像和压缩图像之间的差异很小, 并且原始图像和压缩图像随机排列, 每组顺序各不相同, 极大地利用了测试者的整体主观感受能力。此外, 主观评价数据的整理和分析参照了ITU-R BT.500-11标准, 从而提高了主观评价实验结论整体的准确性。
鉴于有限的时间和作者自身的程度, 研究方法也存在一些不足。对本课题的研究还处在刚刚兴起的阶段, 随着压缩算法的不断创新和完善, 基于人眼视觉特性的图像质量评价还有很大的研究空间, 许多方法仍值得深入研究。
摘要:随着多媒体技术和互联网的迅速发展, 人们接触到越来越多的图像信息, 为了方便图像的存储和传输, 各类图像压缩技术应运而生, 而由此带来的图像损伤也是不容忽视的。如何评价图像的损伤, 是一个重要的研究课题。本次实验选择了不同纹理、不同颜色的测试图像, 利用JPEG程序对原始图像进行了压缩倍数为3、5、10、15不同程度的压缩, 分别进行亮度图像和彩色图像的主观评价实验, 并做出了主观评价实验报告。
关键词:人眼视觉特性,JPEG,主观评价
参考文献
[1]姜秀华.现代电视原理[M].北京:高等教育出版社, 2008.
[2]Francesca De Simonea, Frederic Dufauxa, Touradj Ebrahimia, Cristina Delogub, Vittorio Baroncinib A Subjective Study Of The Influence Of Color Information On Visual Quality Assessment Of High Resolution Pictures a Ecole Polytechnique Fédérale de Lausanne (EPFL) , CH-1015 Lausanne, Switzerland b Fondazione Ugo Bordoni (FUB) , Via Baldassarre Castiglione 59, 00142 Rome, Italy.
[3]ITU-R BT.500-11 METHODOLOGY FOR THE SUBJECTIVE ASSESSMENT OF THE QUALITY OF TELEVISION PICTURES.
视觉感知特性 篇6
广场起源于古希腊城邦共和时代, 一片简单的空场, 汇集来四面八方的人, 供人们集会、交易、说笑……城市广场作为城市居民的客厅, 在现代城市生活中扮演着举足轻重的角色。它是城市公共生活主要载体之一, 很大程度上影响着城市居民的物质生活质量和精神生活质量。
在西方的城市中, 著名的广场往往拥有很高的知名度。但在中国城市的传统空间类型中并没有西方意义的广场, 只是在近20多年随着我国经济的发展, 城市化进程的高速发展, 才开始快速、大规模地新建了很多城市广场, 以此提升城市的生活质量。但长期以来由于重视功能分区、经济效益与形式主义等的设计方法, 忽略了使用者的视觉感受、行为和心理的需要, 造成了城市广场空间与使用者不能产生共鸣, 进而不能满足城市的需要和市民的认同感。本文正是基于此问题, 从使用者的视觉感知、行为心理出发浅析城市空间, 从而促使城市的空间设计更好的满足使用者的视觉、心理感受, 并对城市广场的空间品质, 对整个城市的生活质量起积极促进作用。
一、视觉感知
据统计, 人认识外部世界的信息中大约有80%是通过视觉提供的。这说明了视觉是各种感觉中最为重要的因素。美国的心理学家吉伯森 (James Jerome Gibson) 说过:“在视觉世界中所看到的空间具有方向稳定性、深度、远近, 并且没有边界, 可以称为360度的广阔空间。”通过吉伯森的描述, 我们可以清楚的通过对城市广场空间的形状、尺度、比例等构成因素的视觉感知来直观的体验广场空间。同时, 笔者认为, 在视觉感知广场本身空间的同时, 也要强调对广场周边建筑视觉感知的重要性。在此, 还得明确一点:德国著名格式塔心理学家考夫卡 (K.Koffka) 曾指出“视觉作用出现时, 心理作用也同时出现”。故, 在视觉感知城市广场空间及其周边建筑物时, 视觉作用、心理作用同时出现。
1. 对城市广场空间的视觉感知
(1) 形状
罗伯特·克里尔 (Robert Krier) 在关于城市广场空间的分析中指出任何的复杂的广场形态都是由最基本的三种几何原型——方形、圆形、三角形通过插入、分解、附加、贯穿、重合、变形得到的。
纵观自然界, 凡是圆形的物体, 都有好动和不稳定的特点, 就像圆圆的日月一般;凡是方形的物体, 都有静止和稳定的特点, 就象静静的大地一样;凡是三角形的物体, 都是极不稳定, 有强烈冲破空间的感觉, 就像锋利的尖刀一样。总览国内外的广场形状, 基本都是以这三种几何原型为主, 而具有复杂形态的广场也基本是这三种几何原型简单的组合。在我国, 传统的“天圆地方”学说更是深入炎黄子孙的内心。因此, 在我国, 方形与圆形的广场更能与使用者产生共鸣, 因而应用的最多;而三角形, 因为尖锐的角, 应用的少之又少。
(2) 尺度
一个广场的空间品质很大程度上是由广场的尺度决定的。过大的广场尺度会给人以空旷、疏远的感觉, 过小的广场尺度会使人感到压抑。而在广场的设计中有三个基本的空间尺度:1) 20~25 m见方的空间, 人们感觉比较亲切, 可以比较自由的交往, 这是创造空间的尺度;2) 距离超过110 m之后, 能产生广阔的感觉, 这是形成场所感的尺度, 也是广场尺寸;3) 最后是390 m左右, 超过这一距离就能创造出深远、宏伟的感觉, 这是形成领域感的尺度。笔者认为, 对于广场的使用者来说, 最重要的尺度莫过于以人为尺度, 在这方面欧洲的一些城市广场很是注重的, 但在我国, 对人的排斥, 忽略以人为主的尺度的情况屡见不鲜。
(3) 比例
此处的比例指的是广场平面的宽度和进深的比例。据对视知觉研究的资料表明, 人类对于空间开阔或者压抑感觉主要由视域决定, 而人类清晰的视域 (视角) 范围为20°~42°, 到了60°开始变得模糊, 在60°~90°逐渐消失。在《阅读广场》一书中以矩形广场为例, 例举了广场平面的宽度和进深比列的四种典型情况来说明其和视域, 进而和空间感知的关系:1) 宽度:进深=1:3, 在此情况, 观察者的视角为20°, 视野内的景物非常集中, 观察范围非常狭窄, 小于这个视角的空间会失去广场的特征, 无法完成作为广场的使用要求;2) 宽度:进深=2:3, 视角为40°, 观察者拥有非常清晰的视域, 但空间略显局促, 空间封闭感较强;3) 宽度:进深=6:5, 视角为60°, 视野内的两个边沿区域开始模糊, 但观察者还是能把握广场的边界, 广场空间宽松大度, 但仍然有限定;4) 宽度:进深=2:1, 视角为90°, 视野已经无法掌握广场边界, 广场的空间变得异常开放。
据此可以表明, 作为城市公共空间的广场, 其平面宽度和进深的比例应为2:3~2:1, 观察者的视角为40°~90°。
此外广场空间的视觉感知还与广场周边建筑物有关。
2. 对广场周边建筑物的视觉感知
对于广场周边的建筑物, 可以称之为“广场立面”, 它位于广场周边, 是限定广场范围的最主要因素, 圣马可广场就是一个典型的例子。圣马可广场的开口被隐藏在柱廊后面, 广场周围一圈的建筑物, 围合感强烈。当然, “广场立面”不仅仅是建筑物, 还包括树木、墙体、柱等。但笔者认为, 对于广场空间的影响最大的“广场立面”是建筑物, 同时作为“广场立面”的建筑物的高度、外立面的装饰、色彩、质感等中对广场空间影响最大的是建筑物的高度。而“广场立面”与广场平面的宽度的比例也是决定广场空间感知的重点。
1877年, 梅尔藤斯 (H.Maertens) 就将前人的研究做了总结, 并从视觉心理学的角度提出了观察细部和整体的三种距离关系: (1) 高度:宽度=1:1, 垂直视角为45°, 广场空间的独立性较弱, “广场立面”对空间支配性强, 广场更像是“广场立面”的前导空间; (2) 高度:宽度=1:2, 垂直视角27°, “广场立面”充实视域, 空间显得非常封闭; (3) 高度:宽度=1:3, 垂直视角为18°, 除了“广场立面”, 观察者视野中还有一部分天空, 空间感受适中, 既不封闭, 又有围合感。当垂直视角小于18°时, “广场立面”逐渐在视野中消失, 广场空间的围合感也逐渐丧失。
据此表明, 对于广场周边建筑的视觉感知对广场空间的设计有一定的作用, 尤其是在一些具有特点功能的广场中, 能起到关键的作用。从而影响广场的空间品质。
二、行为心理需求
城市空间广场的形状、尺度、比例、周围建筑都会影响到使用者的视觉感知, 从而进一步影响使用者个体的行为方式和其对广场空间的使用方法。而个体的行为心理需求对个体的行为方式也起着不可替代的作用, 满足个体行为的心理需求可有效的提升广场空间的品质, 提高居民的生活质量。
据卡米诺 (Kamino) 在铁路车站进行长期观察发现, 人们喜欢站在柱子附近而又离开人们行走路线的地方。笔者夜晚去操场散步时同样发现, 除了在操场上跑步的人, 那些闲聊、休息的人基本都待在暗处, 而在灯光下休憩的人寥寥无几。由此可以得出结论, 人们总是喜欢待在不被别人注视而自己可以注视别人的位置。同样在学校食堂、教室中也可以观察到类似情况:学生总是尽可能选择靠近墙壁的桌子, 避免成为视觉的焦点。故, 在空间环境中, 人们总是在保证自己拥有安全感的前提下, 尽可能的融入到环境中。
综上所述, 人在空间环境中的分布总是保持着一定的距离。豪尔 (E.T.Hall) 认为按亲密及疏远程度, 可以分为四个距离: (1) 密切距离, 为爱抚、保护或者格斗的距离, 约在30 cm以内, 能感受到对方的体温体味。 (2) 个体距离, 与好友的安静交谈及和对方握手的距离, 约在35~120 cm。 (3) 社交距离, 是不能轻易接触到对方的距离, 如隔一张桌子的距离, 亦即进行社会性、非个人的相互联系的距离, 约在120 cm到3 m。 (4) 公共距离, 如陌生人之间的距离、演员面对观众的距离等, 亦即一般公众社会活动的距离, 约在3~9 m。
同样, 根据著名的心理学家亚伯拉罕·马斯洛关于人的需求层次的解释, 有学者把人对广场的需求也同样归纳为四个层次:一是生理需求, 要求广场舒适、方便, 给人以亲切感;二是安全需求, 要求广场保护“个体领域”, 使个人在广场内的行动自由;三是交往需求, 要求广场提供与他人交往的场所和空间;四是实现自我价值的需求, 人们在公共场合希望能引起他人的重视和尊重。所以, 广场空间应尽可能满足上述不同层次的心理需求, 划分出公共、半公共、半私密、私密空间, 形成不同层次的活动领域, 以满足人的多样化活动。
三、结语
城市广场作为城市中最重要的外部公共空间之一受到广泛的重视和关注。而城市广场的建设需要深入了解市民的各种需求, 尤以视觉、行为习惯、心理更为重要。使用者的视觉感知和行为心理需求为城市广场空间的设计提供了方向, 基于使用者的视觉感知和行为心理需求的广场空间设计可以更好的提升城市广场空间的品质, 提高城市居民的生活质量。
摘要:本文论述了城市广场使用者对城市广场本身的形状、尺度、比例、其周边建筑物的视觉感知, 以及他们自身的求, 以期城市广场空间的设计可以更好地满足使用者的视觉享受和内心需求。
关键词:广场,视觉感知,行为心理
参考文献
[1]刘先觉主编.现代建筑理论[M].北京:中国建筑工业出版社, 2003.
[2]何葳, 虞大鹏.阅读广场[M].北京:中国建筑工业出版社, 2011.
[3]詹和平.空间[M].南京:东南大学出版社, 2011.
[4]蔡永洁.城市广场[M].南京:东南大学出版社, 2006.
[5] (日) 相马一郎, 佐古顺彦著.环境心理学[M].周畅、李曼曼译.中国建筑工业出版社, 1986.
视觉感知特性 篇7
因此, 试图结合人类视觉感知特性和等周理论[3], 提出一种有效的数码迷彩纹理提取方法, 利用人眼对亮度差的敏感度对图像的灰度级进行分割与合并[4], 从而提高数码迷彩纹理的提取质量。与现有的几种经典阈值分割方法的比较实验表明, 该方法提取的数码迷彩纹理具有良好的混色效果和较为完整的图像细节, 更易于与目标背景相融合。分割质量评定指标的定量评价也证实了本文方法的有效性[5]。
1 人类视觉模型
人类的眼睛有两大类视觉细胞分别是视杆体 ( rods) 和视锥体 ( cones) 。视杆体 ( rods) 细胞的的光灵敏度很强, 可以提供暗视; 而视锥体 ( cones) 细胞在亮光下灵敏度很强, 可以提供明视。实验表明, 人眼对亮度的感觉与进入眼睛的光的强度成对数关系。由于人眼的视觉亮度感知阈值并不完全取决于物体本身的亮度, 物体周围的背景亮度影响了人眼对物体本身亮度的感知[6]。文献[6]表明: 人眼对亮度差的敏感程度与背景亮度呈非线性变化。假设周围背景亮度值为I, 背景中的目标亮度值为I +ΔI, 根据人眼视觉感知特性, 设定某个阈值T, 只有当 ΔI > T时, 人眼才能够感知到目标亮度与周围背景亮度的差异, 才能把目标从背景中分离出来。由于周围背景的亮度会影响该阈值T的值, 于是定义ΔI /I为阈值亮度比函数, 如图3 所示。当周围背景亮度小于某个值时, 阈值亮度比函数近似为常函数;当周围背景亮度大于某个值时, 阈值亮度比函数曲线近似为一条垂直线, 即由于周围背景亮度的影响导致很难将目标分离出来; 而当周围背景亮度处于低亮度和高亮度之间是, 阈值亮度比函数 ΔI/I的值近似于常数, 即满足韦伯定律。
根据文献[7]提出的方法, ΔI为
式 ( 1) 中 α , β 和C为参数, α 为韦伯常数, α ∈[0. 01, 0. 3], a ∈[45, 81], β ∈[180, 210], 本文取 α = 0. 06, a = 55, p = 210; 确定 α 、a和p的值之后, 根据函数的连续性求C和 β 的值。
2 等周理论
2. 1 等周率
给定一副有N个像素的自然纹理灰度图像, 将每个像素点作为图的一个节点, 然后根据某种规则连接相邻的节点, 生成节点的连接边, 这样就可以将自然纹理图像映射为一个具有一定拓扑结构的带权无向图G = ( V, E) 。其中, 为连接边的集合, V = { vi, i - 1, …, N} 表示带权无向图G中节点的集合。赋予图G中每条连接边一个边权值, 连接边eij ( 连接相邻节点vi和vj) 的权值可定义为wij。图中节点vi的度数记为
图G的等周率hG[8]定义如下:
式 ( 2) 中, S为图G中任意的有限结点集, Volv表示集合G的体积, SV; Vols≤ VolV/2 , ︱∂S︱为集合S的边界所包含的面积。对于一个由有限个节点构成的图而言, 下确界 ( inf) 等价于最小值 ( min) 。给定图G的节点子集S, 定义表示S的补集。
公式 ( 2) 中体积Vols的定义[9]如下:
此定义倾向于分割出具有相似灰度的区域。
结合等式 ( 2) ~ 式 ( 4) , 可将等周率hG重写为:
在公式 ( 5) 中, 分子cut ( S, ) 表示图的两个划分部分 ( S和) 之间边的权值之和, 它反映了集合S中的节点与中节点的相似程度。其意义在于寻找图G的划分 ( S和) ,能够使得S和S-之间的相似性最小的划分为最优划分, 这也符合图像分割的目的。
2. 2 等周率计算的推导
任意给定一幅具有256 个灰度级的图像, 每个灰度级对应等周率的具体计算过程如下
1) 令V = { ( x, y) : x = 0, …nh- 1; y = 0, …, nw- 1} 表示像素点的集合, 其中, nh和nw分别为图像的高度和宽度。假定0≤f ( x, y) ≤255 为图像在像素点 ( x, y) 处的灰度级。V满足如下条件
2) 定义边权值函数。赋予图G中每条连接边一个边权值, 连接边euv ( 连接相邻节点u和v) 的权值wuv反映了两个节点是否属于同一个分割区域的可能性。边权值函数wuv可定义为
式 ( 8) 中, γ 用于控制两节点间的边权对灰度差异的敏感程度, f ( u) 和f ( v) 表示两节点u和v的灰度级。
3) 对任意一个灰度级t ( 0≤t≤255) , 够得到图像对应的图G = ( V, E) 的一个二划分V = { S, } , 其中S和分别为
则公式 ( 2) 的分子可转换为
式 ( 10) 中,
为Vi中所有节点与Vj中所有节点间边权的总和。则有
因此, 公式 ( 2) 的等周率推导为
4) 根据边权值函数, 构建基于灰度级的权值矩M。M为256 × 256 的对称矩阵, Mij= Mji= cut ( Vi, Vj) 。根据构建的权值矩阵M, 计算出每个灰度级t ( 0 ≤ t ≤ 255 ) 对应的cut ( S, S-) 、assoc ( S, S) 和assoc ( , ) ,由此, 可快速地计算出t对应的等周率。
3 基于视觉感知和等周理论的纹理提取方法
3. 1 基于视觉感知的权重函数改进
3. 1. 1 权重函数分析
给定一幅具有N个像素的图像, 将图像中像素点看作图的节点, 然后根据某种规则产生节点间的连接边, 这样就可将此图像映射为一个具有一定拓扑结构的带权无向图G = ( V, E) 。其中, V = { Vi, i =1, 2, …, N} 表示图中节点的集合, E = { euv} ∈V × V为边的集合。
设图像中相邻两个像素的灰度值分别为f ( u) 和f ( v) , euv表示结点u与结点v之间的边, 那么它们的相似度即边权值可以定义如公式 ( 8) 所示。wuv用于表示两节点间灰度的差异。但用于提取数码迷彩纹理方法中, 该权重函数存在一些不足, 在实际情况中, 人眼对亮度的敏感程度并不完全由物体本身的亮度决定, 物体的背景亮度和复杂度影响人眼对物体亮度的感觉, 因此需要根据人眼视觉感知特性构建权重函数。
3. 1. 2 权重函数改进
根据视觉感知亮度特性, ΔI如公式 ( 1) 所示, 对边权值计算的改进如下式
式 ( 17) 中 ΔI为每一个灰度级I ( I = 1, 2, …, 255) 的刚可分辨亮度差。图中边的权值wuv反映对应端节点的相似性, 边权越大, 两个端节点越相似, 属于同一分割区域的可能性也越大。此定义倾向于分割出视觉可感知的具有相似灰度的区域。本文中取 γ= 165。
3. 2 基于等周理论的多级阈值分割
基于等周理论的二级阈值分割方法只能将图像分成目标和背景两个部分, 而在数码迷彩的实际应用中, 待分割的自然纹理包含多个具有不同灰度级的目标, 且需要将不同的灰度级的区域分割开来。因此, 需要将基于等周图割的二级阈值方法扩展到多级阈值分割中, 通过有效的迭代策略依次选择多个阈值将图像分割成几个部分。
3. 2. 1 多级阈值的选择
基于等周理论的多级阈值分割算法流程如图2所示。假设D为最终的阈值分割个数, 根据D个分割阈值将原纹理图像的灰度级分成D + 1 个子区间, 同时将灰度区间[0, 255]分成D + 1 个子区间。基于等周理论的多级阈值分割算法如图2 所示:
具体的流程如下:
( 1) 计算每个灰度级t ( 0≤t≤255) 所对应的等周率;
( 2) 选择当前计算出的最小等周率, 将其对应的灰度级t作为候选阈值;
( 3) 根据计算出的候选阈值t将候选阈值区间扩展为[t - k × hw, t + k × hw], 重设区间内所有灰度级的等周率值为无穷大。其中k为整数, hw为最佳的直方图最佳区间宽度[9]
在公式 ( 18) 中, σ 为图像的标注偏差, N为图像的像素总数。
3. 2. 2 阈值个数的自动确定
为了能够自动确定纹理图像的阈值个数, 采用节点聚类数准则Q[10]来确定阈值个数。对于一副具有N个节点的图G = ( V, E) , 假定W为图邻接矩阵, 节点聚类准则Q如下
式 ( 19) 中, PK是图G的一个K划分, A ( Vc, Vc) 为第c类所有节点的边权值之和, A ( Vc, V) 为与第c类中节点有关连的所有的边的权值之和。在图中任意挑选一条边, A ( Vc, Vc) /A ( V, V) 为该边的两个段节点至少有一个在第c类的经验概率pc。Q可以理解为一种表示pc . c与pc2之间偏离程度的测度。
给定一副图G, A ( V, V) 是一个常数, 准则Q可简化为:
针对上述K划分PK, 定义一个的赋值矩阵X =[x1, …, xK], 维数为N × K。当vi∈ Vc时, xic= 1 , 否则xic= 0 , 1 ≤ c ≤ K 。由于图中的节点只能属于某一个类, 因此有XlK= lN, 其中, lK= lN分别为由K和N个l构成的列向量。这样, 根据矩阵X将Q重新改写为
式 ( 21) 中, volG代表A ( V, V) , d ∈ Rn ×1是节点度向量。
采用简化后的准则函数Q来确定图像的阈值个数, 假定候选阈值的个数为C, 确定阈值个数的流程图如图3 所示:
4 实验结果及分析
为了验证融合视觉感知和等周理论的多级阈值分割方法在数码迷彩纹理提取效果中的有效性, 在一系列图像上进行了实验, 并与几种经典的阈值分割方法, 包括Otsu[11], STA[12]做对比实验, 如图4 ~图6 所示。本文方法采用的图拓扑结构为4 连接, 所有实验均在2. 5 GHz英特尔酷睿双核CPU、4 G内存的notebook PC机上执行, 程序采用Matlab7. 0编写。所有测试图像的分辨率大小均为512 × 512。
为了量化各种方法分割质量的差异, 本文采用了两种分割质量评价准则: 平均结构相似性MSSIM ( mean structural similarity) [13]以及均匀性U ( uni-formity) [14,15], 如表1 所示。
图4 ~ 图6 分别给出了3 种多级阈值方法分割3 幅不同自然纹理图像的结果, 由于数码迷彩纹理多由4 色构成, 因此选择分类数为4, 实验数据如表1 所示。从纹理分割效果可以看出, 本文的方法分割效果最好, 也最能满足数码迷彩对纹理分割的要求, 分割后图像质量的评价数据也证实了本文方法的有效性。如表1 所示, 本文方法所得的MSSIM值最高, 说明本文的分割结果与原纹理图像最相似, 分割质量更佳。此外, 该方法所得的U值较高, 略低于Otsu, 说明每个分割类的均匀性比较好。值得注意的是, 表1 中OTSU对应的U值最高, 其原因在于均匀性 ( u) 准则与OTSU的准则函数相似[16,17]。在用于比较的3 种方法中, STA的分割法获得的迷彩纹理通常最糟糕, 迷彩纹理细节损失较大; OTSU的分割法得到的迷彩纹理细节最为丰富, 但是过于破碎的纹理图案不利于最终数码迷彩的生成; 本文分割方法获得的迷彩纹理细节较为丰富, 斑块大小适中, 同时具有较清晰的斑块边界, 最适合生成数码迷彩的马赛克图案。
5 结束语
视觉感知特性 篇8
听感知可以给人们提供环境感知的能力, 是人们了解世界的关键性途径。由于人们听觉的系统较为脆弱, 听觉舒适度在80d B以内, 而日常的生活中, 很多噪声都超过了人们的舒适听阈, 在某种程度上会危害到人们的听觉系统。因此。需要改良与隔离噪声源, 提高噪声的防护性。
2 听感知的滤波器组与特性
2.1 听感知的滤波器组关键形式
听感知的组成实现方式主要包含三种, 并且都可以有效模拟人耳时频分解的功能: (1) 圆形指数的形式, 其顶端比较平滑, 并且左右不够对称。因为其没有简单的形式冲击响应的函数, 导致实现过程较为复杂, 由于它没有简单形式的冲击响应函数, 实现比较复杂, 所以主要在听觉掩蔽的试验中应用圆形指数的形式。 (2) Gammatone形式的滤波器组时域波形主要为振动频率, 并且振动频率与中心频率一样, 振动的包络主要是Gamma的函数曲线波形。时域的方程比较简单, 比较容易实现, 所以普遍应用在声信号分析中。 (3) 滤波器串联形式, 主要包含零极点的滤波器与全极点滤波器两种, 精度相对较差, 并且延时比较大, 一般用在人工的耳蜗中[1]。
2.2 建立时域听感知的滤波器组
Gammatone的滤波器主要用来模拟感知的特性, 属于带通的滤波器, 脉冲响应的函数是:
在公式中式中:a代表增益的常数, n代表滤波器阶数, 可以对滤波器的包络形状进行控制, 伴随n增加, 会使得包络陡度变得缓慢, 通常取值为4。C代表滤波器组通道号, fc代表滤波器的通道c相对应中心的频率, 对于载波率有着决定性的作用。b (fc) 代表这个中心频率条件下的滤波器宽带, b (fc) 等于0.11fc+25.17, 可以对脉冲的响应函数持续时间进行控制, 是初始的相位, 可以控制载波的相位。按照滤波器脉冲响应的函数, 构建适合嵌入系统32通道的听感知中Gammatone的滤波器组, 分析频率的范围在80~5000Hz之间, 中心的频率需要按照等矩形的带宽来确定[2]。
2.3 滤波器组在语音质量方面产生的影响
由于简化Gammatone的滤波器组在声音信号处理过程中, 容易出现失真情况, 把纯净语言的信号当做处理的对象, 使用语音的音质PESQ来评估滤波器组在语音音质方面的损伤。而测试所用数据, 主要是国际标准的语音测试的TIMIT中语音, 其编号是SX198、SA2、SI1392、2男声与1女声, 代表了各种性别说话者典型的特征[3]。测试的结果显示, 听感知的滤波器组中通道数量在20以内时, 每一个通道的频率范围相对较大, 与中心频率相距比较远的信号将会因为衰减而致使音质受损。如果通道的数量超过10, 经处理以后PESQ数值都超过了3, 品质都比较高, 在实际的噪声防护中能够被接受。通道的数量如果超过三十, 经处理以后, 语音PESQ数值都超过4, 不会损伤到语音音质, 所以比较适合应用在精度要求比较高的噪声防护中。
3 分析噪声听感知的特性与防护对策
使用听感知的滤波器组对噪声环境进行分析, 能够获得和主观感受比较一致的结果, 以便针对噪声实际情况进行防护。按照听感知的滤波器组特点分析, 可以提高部分低频信号分辨率, 能够详细对机械振动的噪声特性进行分析, 继而加强防护的效果。
3.1 分析噪声的耳谱图
通过Gammatone的滤波器组中多子带进行滤波以后, 相关数据能够生成相关耳谱图, 主要用来直观反映出噪声能量的分布。噪声测试主要选取Noise92式标准的噪声库, 选用machinegun、babble与m109噪声, 通常代表脉冲噪声、随机噪声以及机车器械的噪声三类典型噪声的环境, 从而生成相关的耳谱图。其中, Babble的噪声能量主要分布于80~3000Hz之间整个语音的频段, 其能量比较分散[4];而m109的噪声是机械的噪声, 其能量主要集中于1000Hz之下低频段, 在频段上的能量分布相对集中, 与噪声发生振动部位特征频率相互对应。Machinegun的噪声能量最为集中, 呈现出短时分布的情况, 时间间隔也存在差异。
3.2 噪声时域的特性
使用通道的能量比例情况, 能够对各种子带能量的在总能量中占比情况进行统计, 从而量化反映出噪声能量的集中频率段, 其计算公式如下:
在公式中c代表滤波器组通道号, n代表通道内部信号的采样点具体编号, x代表采样点的数值。
通常情况下, babble的噪声能量相对均匀, 主要分布于1~20通道间, 这也是人类主要发声的频段, 所以要想实施语音消除与增强的难度比较大。m109的噪声一般分布于1~6通道之间, 在此段内有着明显峰值, 在某种程度上证明噪声的能量集中于这量频段上。其中1通道也就是50Hz额中心频率在通道中所占比例为30%, 表明这个低频区域属于噪声能量相对集中的区域。需要高度重视的是, 在machinegun脉冲噪声中, 需要对短时能量的具体特性进行深入分析, 每隔100ms就要统计一次能量, 防止因为短时的高能量产生噪声的危害。此外, 在不同时间段中, 噪声的信号相关系数能够对各个时间段中信号线性相关的程度进行量化, 充分展示出噪声平稳性, 尤其通过Gammatone的滤波器还可以生成子带的信号, 进而对各个频率段的通道稳定性进行量化。
4 结语
总而言之, 语音端点的检测准确性, 对语音系统性能存在着严重影响。而应用语HHT的方法, 可以对相关语音信号实施EMD的分解, 然后出现有限个的IMF, 同时选取其中一个IMF提取出特征的参数, 再实施端点的检测。经过实验仿真分析与比较类这种方式检测结果, 得出在较强背景的噪声下, 应用HHT端点的检测算法有较高的可行性, 并且检测效率比较高。
参考文献
[1]聂新强, 陈佩贞.某造船企业噪声作业工人对噪声危害和防护认知情况的调查[J].中华劳动卫生职业病杂志, 2015, 33 (08) :586~588.
[2]李太福, 侯杰, 姚立忠.Gamma Test噪声估计的Kalman神经网络在动态工业过程建模中的应用[J].机械工程学报, 2014 (18) :29~35.
[3]杨绍普, 任彬, 马新娜.基于噪声辅助多元经验模态分解和多尺度形态学的滚动轴承故障诊断方法[J].振动与冲击, 2016, 35 (04) :127~133.