视觉显著

2024-09-17

视觉显著(精选6篇)

视觉显著 篇1

摘要:人类视觉系统通过选择性视觉注意机制来对场景中位于重要位置的视觉内容进行动态的序列采样, 进而获取必要的视觉信息。本文系统地总结了计算化注意模型和显著度计算领域的研究现状。通过在YORK-120和MIT-1003这两个国际标准数据库上进行的人眼视点预测实验, 本文对20种计算模型的实际性能进行了详细的评估和对比。结果表明, 基于统计的模型要比其它的方法更容易获取较好的预测结果。

关键词:视觉注意,显著度,生物启发式方法,人眼注视点预测

0 引言

人类的视觉系统在感知外界环境的过程中存在着极强的动态选择性, 这同时体现在其视神经系统的生理结构及作用机理上。以眼睛的生理结构为例, 在视网膜盘颞侧约3.5mm处, 有一个黄色小区, 称黄斑 (macula lutea) , 其中央的凹陷叫做中央凹, 此处的视神经细胞分布最为密集, 感知到的视觉信息最精确。中央凹虽然只占整个视觉面的0.01%, 但是视神经里10%的信息是由连接在这里的轴突传递到大脑。当人们观察一个场景的时候, 并不是一次性地感知场景中的所有信息, 而是基于注意转移机制通过一系列的视点移动来对场景进行逐步采样。观察者能够利用视网膜中央凹的高分辨率感知机构, 主动地探索环境中的重要视觉信息。得益于这种动态选择性行为, 人类以及大多数的灵长类动物, 能够在有限的时间内高效灵动地处理复杂环境中的信息。在过去的25年中, 神经计算领域的科研工作者们通过理论推理和计算模型构建等手段, 试图揭示指导眼动行为的基本原则和作用机理, 取得的相关成果不但能够帮助人们更好地理解人类的动态认知行为, 同时也为视觉相关的应用领域, 如视频压缩[1]、照片质量评价[2]、场景理解[3]、目标检测[4]及识别[5]、图像重构图[6]等, 提供了强大的信息分析和处理工具。

本文将系统介绍视觉注意建模及信号显著性计算领域的国际相关工作, 并以研究思路为线索对领域发展的现状进行梳理和分析, 同时基于人眼注视点分类实验来对多种模型的实际性能进行量化的比较。

1 视觉注意与显著度计算研究概述

注意是一个心理学概念, 属于认知过程的一部分, 具体来说, 指的是选择性地将处理资源集中到环境中的某个部分而将其余部分忽略的过程。注意能够将知觉选择性地集中, 并导致局部刺激的意识水平的提高。例如, 侧耳倾听某人的说话, 而忽略房间内其他人的交谈。注意并不是一种独立的心理过程, 而是心理过程的一种共同特征。人在同一时间内不能感知很多对象, 只能感知环境中的少数对象。而要获得对事物的清晰、深刻和完整的反映, 就需要使心理活动有选择地指向有关的对象。人在清醒的时候, 每一瞬间总是注意着某种事物。通常所谓“没有注意”, 只不过是对当前所应当指向的事物没有注意, 而注意了其他无关的事物。注意有两个基本特征:指向性和集中性。指向性表现为对出现在同一时间的许多刺激的选择;集中性表现为对干扰刺激的抑制, 其产生和范围以及持续时间取决于外部刺激的特点和人的主观因素。学界普遍认为眼动行为是由自底向上 (BottomUp) 和自顶向下 (Top-Down) 的两种注意因素所驱动[7,8,9,10,11]。自顶向下的注意因受到具体任务和人的主观意识的影响, 其研究结果往往呈现出较大的差异性[12,13,14,15,16,17,18,19];相比较而言, 自底向下的研究工作探索的是人类视觉系统中不受特定任务和特定人物个性约束的共性机理, 具有更可控的研究环境和更广泛的应用场景, 因此, 本章着重从自底向上的角度对注意建模相关工作展开分析和讨论。表1按照模型对注意和显著性的不同度量标准, 包括对近年来提出的有代表性的注意和显著度计算模型进行了梳理及呈现。

1.1 生物启发式建模方法

视觉注意建模的理论研究工作始于20世纪80年代。1980年, 美国普林斯顿大学的Treisman和Gelade提出了注意的特征集成理论 (Feature Integration Theory) [20], 该理论给出了视觉注意计算的重要视觉特征, 同时也解释了这些特征是如何在视觉搜索任务中被集成起来并进一步指引人类注意的分配。1985年, 加州理工大学的Koch和Ullman[21]提出了“显著图” (Saliency Map) 的概念, 即一张与输入信号相同大小的二维图像, 其中每个像素的值代表了图像源中对应位置视觉信息的显著性。基于显著图的概念, Koch和Ullman随之构建了首个有可信生理依据的计算化视觉注意模型 (后文简称KU模型) 。KU模型主要包括四个功能模块: (1) 底层视觉特征提取; (2) 基于中央-外围差分的特征图 (Feature Map) 计算; (3) 多通道、多尺度特征图融合; (4) 注意选择 (Attentional selection) 和返回抑制 (Inhibition of Return) 。KU模型的建立为视觉注意建模研究的发展奠定了稳固且良好的基础。1998年, Itti和Koch[7]通过可运行的计算机程序对KU模型进行仿真模拟和验证, 并在显著图计算的基础上, 利用WTA (Winner-Takes-All) 和IOR (Inhibition of Return) 来扫描视觉信号, 生成仿真的动态注视点序列, 同时就人类和该程序对视觉场景, 心理模式图像等视觉刺激的响应进行了分析比较, 这种创新的做法使得本项工作成为KU模型提出后的另一个里程碑, 目前该文献被他人引用次数已达到5 062次 (2014年3月) 。

1.2 数学及信息论建模方法

从神经计算科学的角度来看, KU模型只描述了视觉注意的初级阶段, 模拟的神经元仅局限于视网膜, 侧膝体和视觉初级皮层的简单细胞。由于KU模型本身具有的局限性, 以及稀疏编码[22]等新理论的提出, 推动了视觉注意研究的新发展。此时研究者们已经不再关注于对人类视觉系统的相关神经处理过程作一一对应的模拟, 而是从数学上入手, 尝试建立符合注意问题实质并且具有生理上可信性的理论模型或方法。期间则诞生了很多有代表性的工作。

加拿大约克大学的Bruce等认为人们倾向于注意那些场景中具有较高不可预测性的区域, 而这种不可预测性恰恰可以用该区域相对于场景整体的自信息 (Self-Information) 来度量, 即显著度正比于自信息, 由此而提出了注意的信息最大化模型[23,24];与Bruce的工作不同, 加州大学圣迭亚哥分校的Zhang等[25]认为信号的显著度可以由其自身的不可预测性 (自底向上) 和其对目标的预测能力 (自顶向下) 来共同衡量, 并可以由贝叶斯推理计算得出。根据Zhang的理论, 自底向上的注意可以用输入信号片相对于一个较大的信号片集合的自信息来度量, 而自顶向下的注意则可以用该信号片与目标信号片集合的互信息 (互信息) 来度量。从稀疏编码理论出发, 上海交通大学的Hou等, 认为视觉信息的显著性是以一种动态的方式计算得出的, 而且又提出了一种增量编码长度 (Incremental Coding Length[26]) 的显著性度量准则。同样基于稀疏编码, 北京大学的Wang等借鉴了人脑认知机理和神经元活动的相关生理事实, 提出了点熵率 (Site Entropy Rate[27]) 的显著性度量, 并在之后的工作中, 将SER成功应用于眼动行为模拟[28]。

除传统的信息论角度, 近期的一些工作还从分类判别力 (Discriminability[29,30]) 、频域签名 (Signature[31]) 、空间不相似性 (Spacial Dissimilarity[32]) 、稀缺性 (Rareness[33]) 、惊讶度 (Surprise[34,35,36,37,38,39]) 等信号的频率及空间属性方面展开探索。加州大学圣迭亚哥分校的Gao等[29,30]认为显著度的计算问题可以转换为对像素进行“显著—不显著”的二分类问题。较强区分能力的特征更适合于参与显著—不显著分类。由此可以将自顶向下的注意建模成一个以目标为训练集的二分类器, 该分类器通过训练集选取有判别力的特征进行分类, 而自底向上的注意则可建模成一个以周边区域为训练集的二分类器。基于以上想法, Gao提出了有判别力的中央-外围差分算子 (Discriminative Center-Surround Difference) 来对视觉信号的显著性进行度量。基于频率域相位分析, 加州理工大学的Hou等提出了谱残差 (Spectral Residual) [40]和图像签名 (Image Signature) [31]方法, 利用傅里叶变换估计出图像中的前景, 即引人注意的显著区域。卡尔斯鲁厄理工学院的Schauerte等[41]进一步提出了四元傅里叶变换, 对Hou的工作进行了的理论扩展。不同于以往工作的复杂理论背景, 法国蒙斯大学的Riche[28]和美国南加州大学的Borji等[42]直接采用底层特征的稀缺性作为自底向上的显著性度量, 并在注视点预测实验中取得了极好的效果。Itti等在1998年的针对KU模型的工作以后, 重新考察了生理心理学中的各种有价值的概念, 发现注意的起源很可能是“惊讶” (Surprise) [35]。Itti的新理论认为, 信息量大 (熵值较大) 的视觉输入不一定就是容易引起注意的区域, 相比而言, 人们更倾向于关注那些能使其惊讶的地方。进一步地, Itti提出用先验知识与后验预测之间的KL散度来计算“惊讶”, 并预测人类在观看视频过程中的注视点。

与上述方法基于启发式的思路不同, 本文通过直接对人眼注视点的分布进行统计分析, 归纳得到了显著度的超高斯先验, 并结合投影追踪技术, 发展且提出了能够同时进行眼动行为模拟和信号显著度估计的统计注意模型[43]。

2 模型评估及对比分析

目前国际主流的评测策略是考察探求模型在预测人眼真实注视点时的ROC响应曲线, 并通过ROC线下区域的大小来对模型的性能进行量化评估。这一评测方法主要考察的是待测模型生成的显著图与真实的人眼注视点之间的一致性。

2.1 测试数据集合与评估指标

本节用于实验的数据集包括:两个图像数据集, 分别是加拿大约克大学的YORK-120[24]和美国麻省理工大学的MIT-1003[44]。由Bruce和Tsotsos[24]提供的注视点数据库 (YORK-120) 包含了采集自20个志愿者在观察120张室内外自然图像的过程中 (4秒一张) 产生的11 999个注视点。为了减少志愿者个性差异所造成的影响, 本文在实验中还通过滤除空间分布上孤立的注视点创建了两个子数据库:YORK-120-SUB-1和YORK-120-SUB-2。具体地, 首先将数据库中附有的视点分布密度图正则化至[0, 1]区间来量化描述注视点的空间聚集度, 而后通过阈值化操作来构建具有不同聚集度的子数据库。YORK-120-SUB-1包含了8 190个密度值大于0.2的注视点, 而YORK-120-SUB-2则包含了4 339个密度值大于0.5的注视点。由Judd提供的MIT-1003[44]数据库包含了采集自Label Me的1 003张风景和人物图像。为了和有监督的方法进行公正的比较, 本节使用从MIT-1003随机抽取的子集作为测试数据库, 每个子集包含了不重叠的100张图像。与对YORK-120的处理类似, 本测试仅使用MIT-1003中每个志愿者在各张图像上的前6个注视点, 以保证视点在空间分布上的一致性。

本实验采用ROC线下区域 (Area Under ROC Curve, 简称AUC) 和KL散度 (Kullback–Leibler divergence, 简称KL[24,25,35]作为模型的量化性能度量。正如以往的工作所指出的那样[7,23,25,26,27,40,44,45], 不同的人在观察同一场景的过程中可能会产生完全不同的注视点序列, 而同一个人在不同的上下文环境下观察同一场景时产生的序列也可能会有不同, 这种序列模式在人与人之间、不同上下文之间的差异性使得直接对眼动序列进行对比评测变得极其困难。因此, 为了保证评测的通用性和公正性, 本文采用了被学界广泛接受和使用的AUC和KL评价体系对提出的模型以及基线方法进行评估。原始的AUC和KL评测策略依据注视点的位置在显著图上采集正例样本, 同时在随机位置上采集负例样本, 进而计算得到AUC和KL指标。传统的评测策略在很大程度上受到“边缘效应”的影响, 因为在人工拍摄的大多数自然图像中, 显著的目标往往安置在画面的中心区域 (即所谓的中心偏置, Center Bias) , 这就导致评测规则偏好于中心显著性强而边缘显著性弱的显著图。加州大学圣迭亚哥分校的Zhang等人指出, 一个简单的置于图像中心的高斯团块, 可以在传统的AUC评测中得到0.80的高分 (基于YORK-120数据库) 。虽然这种“显著图”完全不是根据图像内容所计算得出, 但却可以在传统AUC评价体系中击败领域中提出的大多数模型。为了消除由“边缘效应”所带来的干扰, 本节采用了Zhang[25]设计的一种改进的基于随机排列的评测策略来计算AUC和KL指标, 该评价策略使用非同一场景的注视点作为抽样集来构建负例样本集合, 可以从根本上消除中心偏置的影响。具体地, 随机排列的迭代次数设为100, 用于KL散度计算的概率密度分布函数则采选16个Bin的直方图来表示。

2.2 性能对比分析

图1和图2展示了本文作者发表在文献[46]中的基于YORK-120和MIT-1003上的大规模对比实验结果。

图1以从高到低的顺序直观展示了表1中所有测试模型的SL-AUC和SL-KL指标。其中本文作者提出的SGP模型分为单尺度 (Ours-SS) 和多尺度 (Ours-MS) 两种方案。图2展示一些视觉对比结果, 包括测试数据库的示例图像以及各个模型所生成的显著图。可以看出SGP[43]和RARE[33]这两种基于统计的模型在测试数据库上均能取得非常好的效果。

3 结束语

视觉“显著性”是人类视觉智能中一个十分重要的认知属性。本文通过人眼视点分类实验对20种国际主流模型进行了量化的综合对比。结果表明, 相对于传统方法, 基于统计的模型在性能表现上有着精度高、稳定性强等明确的优越性。

视觉显著性检测研究取得新突破 篇2

近年来, 研究者们提出了大量的基于内容的图像和视频缩放技术, 这些技术的目标是通过改变图像或视频的宽高比率和分辨率, 使得图像或视频适应于在目标设备上显示, 并且尽量多的保存图像和视频中的重要内容而不引入人眼可见的瑕疵。这些基于内容的图像和视频缩放技术中, 如何快速检测出高质量的视觉显著性区域, 仍然是一个亟待解决的具有挑战性的问题。研究者根据人眼观察场景的特点, 提出了一种随机的可并行执行于图形处理单元的视觉显著性区域检测技术, 为实现实时检测图像的显著性图提供了有效的解决方案。

由武汉大学计算机学院何发智教授担任通讯作者撰写的《一种随机的视觉显著性检测算法》一文初步解决了这一问题, 该文即将发表在《中国科学信息科学》。他们根据人眼观察场景的特征, 提出了一种可并行执行于图形处理单元的视觉显著性区域的技术, 为实现实时检测图像的视觉显著性图提供了有效可行方案。

对比实验表明, 采用该文方法计算一幅尺寸为800×600的图像的视觉显著性图所需的处理时间只要前人方法处理时间的20分之1左右 (40ms左右) , 耗用的内存量也只有前人方法的3分之1左右 (11MB左右) ;并且该文方法得到的结果显著性图应用于基于内容的图像缩放实例中, 得到了比使用其它方法得到的显著性图更好的处理结果。该文方法实现了实时的视频显著性检测, 检测视频的帧率达到了每秒25帧以上, 应用于基于内容的视频处理中, 也有效提高了视频处理的执行效率。

基于视觉显著图的车牌定位算法 篇3

随着现代交通管理智能化的快速发展,车牌识别系统(Vehicle License Plate Recognition,VLPR)在电子收费、出入控制、车流监控等众多场合扮演重要角色。车牌定位是车牌识别系统中至关重要的一步,其定位结果的好坏直接影响系统后续工作的进行。现国内外学者已提出了许多定位算法,如边缘检测[1],形态学操作[2,3,4],连通区域分析[5],区域分割[6],基于神经网络[7,8],基于HSI模型进行颜色信息分割[9]等。这些算法的主要特点是:结合车牌的本身特征,利用形态学等数学方法获取车牌定位。这些算法在简单环境下,即摄像头拍摄图片时与车身的距离和拍摄角度是固定的,而且图片中仅仅包含车身,往往能取得比较理想的效果。然而当处于复杂环境下时,这些算法难以排除伪车牌,导致定位率严重下降。值得注意的是,车牌区域与其周围环境的颜色往往是不连续的,而且车牌字符与车牌底色也存在较大的灰度值跳跃,这就使得车牌区域常常成为引起观察者注意的区域。目前将视觉注意应用到车牌定位方面的文献很少,张国敏等在文献[10]中提出以车牌图片水平方向上的边缘密度作为显著特征,结合自顶向下的视觉注意机制进行车牌定位,不过仍然存在背景简单、适应性不强的缺点,因为对于复杂场景,仅考虑边缘这单一特征会产生很多与车牌区域类似的显著区域,导致定位率下降。

本文结合Itti提出的视觉注意模型[11],将自底向上的视觉注意机制引入到车牌定位,提出了一种新的车牌定位算法。该算法先利用视觉注意模型获取输入图片的强度、车牌颜色和车牌边框方向3个方面的特征图,接着将特征图组合成一张视觉显著图,从而检测出包括车牌区域在内的显著区域;接着在对视觉显著图二值化之后,利用显著区域的位置关系、车牌的长宽比例以及车牌字符的亮度跳变次数等信息,排除不符合条件的候选区域,准确定位车牌位置。实验证明,该方法具有较高的定位率和抗噪能力。

1 基于视觉显著图的车牌定位

Lauren Itti,Christof和Ernst Niebur等人1998年在文献[11]中提出了基于自底向上控制策略的视觉注意模型。该模型在相关研究的基础上,从生物学的角度,通过“特征融合理论”来解析人类的视觉搜索策略。基于Itti的视觉注意模型,结合车牌的自身特征,本文提出了一种新的视觉注意车牌定位算法,其主要过程分为两个部分:第一部分检测包括车牌在内的显著区域:修改Itti的视觉注意模型的底层特征输入,以车牌的颜色对抗色、强度和车牌边框方向作为输入图片的视觉特征,分别在不同的尺度上产生高斯金字塔。通过对高斯金字塔进行“中心—周围”差分(Center-surround difference)和归一化,获取各个特征的多张特征图(Feature map),对特征图进行跨尺度融合及归一化后,便形成了对应于车牌颜色、强度和边框方向的特征显著图(Conspicuity map),最后将这三张特征显著图组合成视觉显著图;第二部分为车牌区域的抽取:一方面利用Sobel算子对原图的灰度图进行水平方向上的边缘检测并二值化,另一方面对视觉显著图进行二值化,先根据标准车牌的长宽比例去掉一些候选区域,最后结合车牌区域亮度跳变频繁的特征得到真正的车牌。整个算法流程如图1所示。

1.1 获取视觉显著图

设r,g,b分别为输入图像(如图2(a))的红色、绿色和蓝色通道,I为强度图片,有I=(r+g+b)/3。定义“Θ”为中心-周围差分操作。用I创建高斯金字塔I(σ),本文实验中取σ∈{2...}7。为了减去色调的影响,用I对r,g,b三个通道进行归一化,建立两个广义上的颜色通道:蓝色B=b-(r+g)/2以及黄色Y=(r+g)/2-|r-g|/2-b(负值赋为0),然后分别为这两个颜色通道创建高斯金字塔B(σ),Y(σ),同样σ∈{2...}7。构造视觉显著图主要分为早期特征的提取和视觉显著图的合成两个步骤:

1.1.1 提取早期特征

1)获取强度特征图

强度特征代表了白色与黑色信息,有利于增强白底黑字或黑底白字的车牌区域的显著性。特征图由下面式子求得,一共4张:

其中:c∈{2,3},s=c+δ,δ∈{3,4}。

2)获取颜色特征图

在Itti的模型中,颜色特征图由对抗色(Color double-opponent)来描述,因为人类感受野中心的神经元由一种颜色引起兴奋(如红色),又被另一种颜色所抑制(如绿色),而感受野的周围恰好相反。通常情况下最能够引起人的视觉系统的注意的对抗色有红色/绿色(RG)和蓝色/黄色(BY)这两种,而中国的车牌恰好以蓝底白字和黄底黑字的最多,所以本文仅选取蓝色/黄色作为颜色特征。颜色特征图由如下式子求得,一共4张:

其中:c∈{2,3},s=c+δ,δ∈{3,4}。

3)获取方向特征图

先对强度图I进行Gabor滤波,生成一系列的Gabor金字塔O(σ,θ),其中σ∈{2...}7,θ为角度信息。考虑到车牌边框也是车牌的重要特征,正常情况下在0°和90°方向信息最明显,所以θ∈{0°,90°}(Itti在其模型中选择θ∈{0°,45°,90°,135°});然后再获取方向特征图O(c,s,θ),一共8张:

1.1.2 合成视觉显著图

由式(1)、式(2)和式(3)我们已经获取了车牌颜色、强度和车牌边框方向三个方面一系列的特征图,现在将各系列的特征图组合成特征显著图,分别用来表示。Itti在模型中定义了归一化算子N(⋅),来对每组特征图进行归一化:先将特征图的值统一到固定范围[0,M],然后计算出除全局最大值之外的各个局部最大值的均值m,最后整张图都乘以(M-m)2。N(⋅)算子的意义在于:若特征图中存在的显著区域比较少,则此图会得到增强,若特征图中存在大量显著区域,则此图的显著性会被削弱。本文的分别由如下公式求得:

然后将三个特征显著图线性组合成视觉显著图(如图2(b)),以S表示。实验显示三者在凸显车牌区域的显著性时,各自的力度是不同的,车牌颜色与周围颜色的不连续性使得颜色特征最为重要,而车牌基本上都有边框,边框方向特征居次位,最后才是强度特征,通过实验的权重分别取0.5、0.35、0.15时效果最佳。S为

实验证明,相对于Itti的原始模型,修改后的视觉注意模型由于减少了特征计算,能在保留车牌显著区域的前提下,有效地减少显著区域的个数,加快运行速度,更加适用于车牌定位这种情况。

1.2 提取车牌区域

采用经典的Otsu[12]算法对视觉显著图进行二值化。此时视觉显著图中每一个白色的连通区域即为车牌的候选区域,一般只有2~4个左右(如图2.0(c))。获取每一个白色候选区域所在的最小矩形位置及边长信息。若候选区域位于图片从上到下的1/4部分内,一般不可能是车牌,先把这些候选区域直接去掉;另外,去除像素高度若小于10的区域,因为若车牌高度小于10,人眼都难以看清楚;进一步通过车牌的长宽比例来排除候选区域。中国标准车牌的长宽比例是44:14,经实验本文取阈值为2.2,若最小矩形的长宽比例小于此阈值,则认为此区域不是车牌;若此时候选区域的数量还大于1,则需要结合车牌区域字符本身的特征信息来进一步判断,方法如下:

找到剩下的候选区域对应于输入图片的相应区域,将此区域灰度化并用Sobel算子进行水平方向边缘检测后,同样使用Otsu算法对此区域进行二值化。车牌区域水平排列的字符经过边缘检测及二值化后,水平方向进行扫描时亮度会呈现一定规律的跳变。我国通用的车牌字符个数为7个,亮度跳变次数一般在15左右,经实验本文取阈值为12。对候选区域的1/4到3/4部分进行水平扫描,记录亮度跳变次数,若都满足阈值要求,则认为此区域为车牌区域(图2(d))。

2 实验与讨论

为验证本文算法的有效性,实验采用两个图库进行牌照定位测试:其中图库1为某加油站由传感器和固定的摄像头自动采集的,共685张,其中白天的340张,晚上的345张;图库2是手动采集的,特别增加了其背景的复杂度,共380张。为了进行对比性实验,我们实现了文献[10]和文献[13]的车牌定位算法。文献[13]采用水平方向的边缘检测与形态学操作相结合,是目前应用最广泛的方法,文献[10]将自顶向下的视觉注意机制引入到车牌定位,把水平方向上的边缘密度作为输入图片的显著特征来产生显著区域,达到定位的目的。本实验的机器配置为英特尔2.6 GHz处理器,512M内存,编程工具为Matlab 7.0,表1展示了不同算法在定位率和平均定位时间方面的对比实验结果。

由实验结果可以看出,对于图库1,即在拍摄距离固定、背景简单的条件下,文献[10]、文献[13]和本文算都取得了不错的定位结果,分别达到了95.18%、98.39%和96.06%,其中文献[13]定位率最高,这是因为在简单的背景下,除了车身以外,周围环境几乎不带来干扰的边缘信息,而拍摄距离固定又使得车牌尺寸大小比较固定,形态学所采用的膨胀腐蚀结构单元也能够固定。而对于具有复杂背景且拍摄距离不固定的图库2,文献[13]的算法由于车牌尺寸的变化以及环境的干扰,带来了大量的伪车牌信息难以排除,而将路面、障碍物等当成了车牌,导致定位率急剧下降(88.42%)。文献[10]中的算法由于复杂环境中存在一些相似的边缘密度特征难以区分从而导致定位率下降(86.84%);而本文的算法受到的影响很小,依然达到了94.74%的定位率。另外,在两个图库的测试上本文算法定位率都比文献[10]要高,说明我们算法中的视觉显著区域检测比文献[10]更具有鲁棒性。最后必须指出,由于大量的特征计算,本文算法在两个图库上的平均定位时间都超过了400 ms,相对于文献[10]和文献[13]中的算法所花的时间都要长,这是本文算法的不足之处。

图3展示了图库2中部分文献[10]和文献[13]定位错误的图片,而利用本文的算法依然能够正确定位。图3的最左边是不同复杂场景下的输入彩色图片,中间是利用本文算法产生的视觉显著图,最右边是定位结果。其中图3(a)中的地面上在水平和竖直方向都存在大量的边缘信息;图3(b)不但存在很多边缘信息,车牌字符也缺少一个;图3(c)中我们人为地在车牌上方的玻璃上添加了几个字符串,用来做干扰信息;图3(d)中则添加了300个左右7×7大小的白噪声。从视觉显著图中我们可以看出,本文算法对车牌这个显著区域的检测,几乎不受周围复杂环境的影响,从而保证了算法在图库2上依然有很高的定位率。

3 结论

本文提出了一种新的车牌定位算法。该算法结合自底向上的视觉注意模型,考虑车牌的自身特征,选择车牌颜色、强度和车牌边框方向作为输入图片的三个重要视觉特征,获得包括车牌区域在内的视觉显著图,然后对显著区域二值化,利用车牌的长宽比例、亮度跳变次数等特征提取出车牌。实验证明该方法很大程度上消除了环境带来的干扰,具有较高的定位率。不过大量的特征运算导致定位速度较慢,所以如何提升定位速度将是下一步的研究方向。

摘要:本文基于视觉显著图提出了一种新的车牌定位算法。首先利用自底向上的视觉注意模型对输入的彩色图片分别提取出强度、车牌颜色、车牌边框方向三类特征图;然后将特征图整合成视觉显著图,并对视觉显著图进行二值化,得到车牌的候选区域;最后结合输入图片水平方向上的边缘信息,以及车牌的长宽比例、跳变次数等特征,准确提取车牌区域。实验证明,此算法能大量地减少背景环境对定位所带来的伪车牌个数,有很强的环境适应性和抗噪能力,具有较高的定位率。

视觉显著 篇4

1 视觉显著模型

通过对人类视觉系统( HVS) 的研究发现,在一个复杂的场景中,人类视觉系统能够迅速将注意力专注于少数显著的视觉对象上,该过程称为视觉注意。Itti和Koch等人在文献[7]中提出一种自底向上的视觉注意模型,本文将该模型进行改进,生成灰度图像显著图,并将该模型与小波分析方法结合进行图像融合。生成灰度图像显著图的过程如下: 以强度和方向作为输入图像的视觉特征,分别在不同的尺度上产生高斯金字塔,对高斯金字塔进行“中心—周围差分”( Center-surround Difference) 及归一化,分别获得强度、方向上的特征图 ( FeatureMap) ; 然后对特征图进行跨尺度融合 ( Across -scale Combinations) 及归一化; 最后生成对应于图像强度和方向的特征显著图( Conspicuity Map) 。该过程如图1所示。

1. 1 获取早期特征

用灰度图像的像素值表示图像强度I,将I创建高斯金字塔I( σ) ,σ∈{ 0,…,8} ,中心尺度c和周围尺度s间进行中心—周围差分“Θ”,由细尺度差值运算与逐点提取操作获得[7],从而得到特征图

式中: c∈ { 2,3,4} ; s = c + δ ; δ∈{ 3,4} 。

局部方向信息通过Gabor金字塔O( σ,θ)[6],其中σ∈{ 0,…,8} 代表尺度; θ∈{ 0°,45°,90°,135°} 代表方向。经过中心周围差分,获得方向特征图

式中: c∈{ 2,3,4} ; s = c + δ; δ∈{ 3,4} 。

总共获得30幅特征图: 6张强度特征图和24张方向特征图。

1. 2 合成视觉显著图

获得视觉显著图的目的是为了表示图像的空间显著性分布,将强度和方向特征图合成特征显著图,通过Itti模型中的归一化算子N( ·) ,将强度和方向特征图进行归一化,该归一化算子分成如下3步:

1) 将特征图值统一到固定范围[0,M]。

2) 计算除全局最大值[0,M]。外的各局部最大值的平均值m。

3) 将整张图乘以( M - m)2。

当不同区域较大,则突出显著性区域; 当不同区域较小,则该图的显著性被削弱。两组特征图被合称为特征显著图,其中表示强度特征显著图,表示方向特征显著图。将和分别进行跨尺度差分“⊕”,该操作将每幅特征图还原到4尺度,然后逐点相加得到特征显著图为

然后将两个特征显著图线性合成视觉显著图,用S表示

式中: α与β为加权系数,图像强度与方向分量权重不同,也会产生不同的融合效果,且满足α + β = 1,本文实验中α =0. 667,β = 0. 333。

视觉显著图在某处值越大,图像在该位置越显著,将该图用于小波分析的图像融合中,对图像的细节信息有很好的增强效果。图2a为两组源图像,图2b是由上述显著模型生成的视觉显著图。

2 结合视觉显著特性与小波变换的图像融合

设A、B两幅源图像,本文提出的融合算法如图3所示。

具体步骤如下:

1) 分别对图像A、B进行N层小波分解,得到低频分量和高频分量。

2) 对低频分量采用本文提出的“显著性融合”的融合规则,设SA( i,j) 与SB( i,j) 分别表示源图像在位置( i,j) 处的显著性值,融合图像低频系数选择源图像显著性值S较大对应位置的低频系数。

3) 高频系数融合: 因为源图像经过小波分解后的高频系数便是图像的边缘细节,因此高频系数采用绝对值取大的方法进行融合。

4) 将融合后的低频系数与高频系数进行小波反变换,从而得到最终的融合图像。

3 实验与讨论

为证明本文所提出算法的有效性,对两幅多聚焦图像、CT与MRI图像分别进行仿真实验,并且与传统方法及一些改进算法进行了比较。本文所用方法是对已有多尺度图像融合算法的低频融合规则的改进,所以将其与传统A’trous小波、NSCT[2]和改进算法MUDW[8]这3种多尺度变换进行比较,如图4所示。

通过客观评价指标评价,本文选取常用的性能指标: 互信息 ( MI )[3]、边缘保持 度 ( QAB / F)[4]、平均结构 相似度( ASIM)[9]、信息熵( entropy)[3],一般这些指标越大,融合图像的质量越高,表1是以上几种算法得到的客观评价指标值。

从图4看出,由图4e与图4f指针处有明显的伪迹,图4g与图4h虽然裸眼看不出有明显不清晰的地方,但是由表1可看出本文方法在客观评价指标QAB / F、ASIM、信息熵上优于MUDW方法。由此说明本文算法在视觉效果上与客观评价指标上优于传统算法及改进算法,融合图像更清晰; MRI与CT图的融合与多聚焦图像融合类似,不再赘述。

4 结论

本文将视觉显著图应用到小波变换中,提出一种对低频系数显著性的融合方法,高频分量采用系数绝对值取大的方法,取得了较理想的融合效果。该方法本文还应用于医学图像MRI与CT图的融合,也取得了比较好的效果,由此证明了本文算法的广泛实用性。

摘要:基于视觉显著特征提出一种新的图像融合算法。首先对源图像进行小波分解,得到低频系数和高频系数;然后针对低频系数提出一种基于视觉显著性的融合规则,对高频系数采用绝对值取大的融合规则;最后对融合后的低频系数和高频系数进行小波逆变换得到最终融合图像。该方法能完好地将源图像的细节融合在一起。仿真实验表明,该算法在视觉效果上比传统及改进方法更好,同时互信息、平均结构相似性、信息熵等传统客观评价指标有所提高。

视觉显著 篇5

舌诊在中医中占据着重要的地位, 是一种通过观察舌体的色泽、形态的变化来辅助诊断及鉴别的简单有效的医学方法。但是长期以来, 主观性的舌诊拥有不够客观、环境因素影响大等缺点, 使得中医舌诊稳定性不高。因此, 医学图像处理及信息化处理提供出自动化舌诊方案。人们通过光影设备获取初始的舌部区域图像, 再通过图像分割去掉不感兴趣的区域, 获取舌象信息, 再通过图像分析得出舌体的生理变化。而其中舌象分割是关键的步骤。由于舌部区域与嘴唇区域界线不明显, 加大了舌象分割的难度。准确地分割出舌象成为数字化舌诊中重要的一步。

为了实现舌诊客观化, 近些年来许多国内外学者运用图像处理以及模式识别的方式对舌体的纹理、色泽和形态等进行研究。并开发一些了客观化舌诊的软件及平台。然而, 对舌象的分割仍然没有取得非常满意的效果。由于舌象比较复杂 (包括嘴唇、脸、牙齿) , 传统的分割方法很难得到理想的效果。本文使用HSV通道结合边缘检测算子来大致确定舌体区域并用径向边缘检测这一新方法来对舌体边界进行初步分割, 最后使用snake模型进行初始轮廓获取修正。

2. 分割方法及实现

2.1 基于视觉机制的舌象分割思考

由于提取图像中的信息是中医舌诊图像的关键, 然而图像分割在图像领域中至今仍是一个难题。人的舌体形状不固定, 且与肤色接近, 加大了舌体分割的难度。文献[1]中已经证明仅仅靠图像本身包含的信息对图像进行精确的分割是非常困难, 甚至是不可能的。因此在舌象分割这样的应用领域, 为了获得更为精准的分割, 我们通常要提取舌体的特征, 包括舌体本身及其周围。

文献[2]中提及舌体区域粗定位时可以利用舌体与上嘴唇之间的空隙获得, 而舌体与上嘴唇的边界通常就是舌体的上边缘。且舌体下边缘底部与其他区域区别较为明显, 由此提起这两个特征可以更快地获取舌体的初始轮廓, 便于后续舌象的精准提取。文献[3]中提到要得到初始轮廓线, 就要先消除嘴唇的影响。可以利用S通道来去除嘴唇对舌体轮廓的影响。

RGB色彩模式是工业界的一种颜色标准, 是通过对红 (R) 、绿 (G) 、蓝 (B) 三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的, 可以计算机上很好地表示, 却不能很直观在视觉上表示图像。HSV是基于人的眼睛对色彩的识别, 是一种从视觉的角度定义的颜色模式。是将色彩分解为色调, 饱和度及亮度。通过调整色调, 饱和度及亮度得到颜色和变化。

人的舌体在色调和亮度方面比较敏感, 尤其在舌尖部分。而舌体顶部在饱和度上较为敏感。故而在提取舌体下部轮廓时采用H通道与V通道结合获取舌体下部轮廓, 而在舌体顶部采用S通道获取舌体上部轮廓。

Kass等提出的snake模型由一组控制点组成, 这些点首尾用直线连接形成轮廓线V (s) =[x (s) , y (s) ]s∈[0, 1]

以snake模型方法运算得出结果只有一个轮廓, 它较适合作为舌像分割的方法。但实验表明仅靠snake方法并不能直接获取到较为理想的舌体轮廓, 获取的舌象中舌体形状各异, 舌体颜色丰富。因此先用HSV获取初始舌体轮廓, 再使用snake方法精确定位并获取边缘。

2.2

舌体初始轮廓主要步骤

2.3 HV通道获取与修复

将获取的RGB图像转换成HSV图像, 提取H通道与V通道, 进行点乘操作获得包括唇部与舌体区域的大致图形。

2a为输入图像。2b为H分量图像, 可以看到H分量虽然在舌体部位较为敏感, 但是脸部外对其影响较大。2c为V分量图像, 可以看出V分量在舌体及脸部都较为敏感, 对脸部外不敏感。2d为HV分量图像, 保持了对舌体敏感也去除了对脸部及脸部外敏感区, 可以进行大致提取轮廓。2e为对2d进行二值化后的图像, 进一步消除了舌体外部的影响。2f为中值化后的图像, 进一步消除噪声。

2.3 S通道获取与修复

S通道虽然对舌体不敏感, 但是却对舌体顶部边界较为敏感, 由此可获取舌体顶部轮廓。

3 a为S通道图像。3b为3a经过二值化处理后利用prewitt算子检测的图像。Prewitt算子是一种一阶微分算子的边缘检测, 利用像素点上下、左右邻点的灰度差, 在边缘处达到极值检测边缘, 去掉部分伪边缘, 对噪声具有平滑作用。其原理是在图像空间利用两个方向模板与图像进行邻域卷积来完成的, 这两个方向模板一个检测水平边缘, 一个检测垂直边缘。对于舌象, 其噪声点可能较多, prewitt算子能起到较好的作用。3c为对3b进行舌体上部区域边界的获取, 在获取HV分量图像后可以大致定位此区域。

2.4获取初始轮廓

对HSV三个通道获取的信息进行综合形成初始轮廓图。

4 a为对图2f取2/3的下部轮廓线及图3c舌体上部轮廓线, 即能保持舌体下部轮廓线形状, 又不会受到舌体上部不确定轮廓的影响。4b为拟合部分说明图, 即分别对A区和B区进行曲线拟合。4c为最终的拟合结果图。

3.结论

本文从舌体的颜色、形状、位置等先验信息出发, 考虑到人的脸部和脸部外背景对舌体的影响, 这些差异可以用适合人的肉眼感知模型HSV颜色模型来表示。首先对H和V分量处理得到舌体下部的初始轮廓线, 并去除脸部及脸部外背景的影响, 然后根据S分量获取舌体上部轮廓线得到的了始轮廓线, 综合并曲线拟合后得到初始轮廓线。

参考文献

[1]闫煜, 金峰, 鲁华祥.一种新的二维图像特征提取算法[J]微计算机信息, 2006, 22 (5-1) :189-192

[2]XiuqinZhong, Hongguang Fu, Junhua Yang, WeimingWang.Automatic Segmentation in Tongue Image by Mouth Location and ActiveAppearance Model[R]2009 Eighth IEEE International Conference on Dependable, Autonomic and Secure Computing, 2009:413-417

视觉显著 篇6

基于Dirk Walther提出的显著区域选择方法和Linderberg提出的尺度空间主结构的方法, 本文提出了一种新的视觉关注区域提取方法, 该方法结合了基于显著度的区域选择和尺度空间主结构方法的优点, 实现了关注区域和关注目标所在最优尺度的自动选择。提取关注区域和最优尺度方法可以分为三步, 首先通过基于显著度的区域选择方法估计目标的大致范围。目标空间范围是由对当前显著点显著性贡献最大的单一特征来确定的, 缺乏对图像的结构特性和目标形状等因素的考虑。然后, 在已经确定的空间范围内, 使用尺度空间主结构的方法来提取图像中重要的结构图斑, 确定目标的最优观察尺度, 获得兴趣区域的量化和最优尺度的直接表示。最后, 模型将这两步中得到的区域结果合并起来作为视觉关注区域, 同尺度信息一起移交给识别模块。本文提出的视觉关注区域提取方法框架请见图1。

1.1 基于显著度的区域选择

基于显著度的区域选择方法的框架如图2所示。输入一幅彩色图像, 用r, g, 和b表示红、绿、蓝通道的数值, 则亮度图为:

undefined

使用MI构建高斯金字塔MI (σ) 。将输入MI和高斯滤波器进行卷积, 获得滤波结果并以2为步长进行减抽样, 尺度级别为σ=1, 2, …, 9。

为了突出不同颜色通道产生的反差效果, 在图像金字塔的每一层上, 模型计算对应红绿对比通道以及蓝黄对比通道的颜色图:

undefined

使用Gabor 滤波器对亮度金字塔MI (σ) 进行滤波, 得到局部方向图Mθ (σ) , 滤波器设定设定4个主要方向, θ∈{0°, 45°, 90°, 135°}。

对颜色、亮度和方向多维特征, 在其图像金字塔上, 应用中央周边差 (Center Surround Difference) 操作, 将中央尺度 (c) 的图像和周边尺度 (s) 的图像做跨尺度减Θ操作, 进而得到特征图:

undefined

这里, c=3, 4, 5, 表示中央尺度;s=c+δ, s表示周边尺度, δ∈{3, 4};LI={I}, I表示亮度特征通道;LC={RG, BY}, RG表示红绿颜色对比通道, BY表示蓝黄颜色对比通道;LO={0°, 45°, 90°, 135°}, 0°, 45°, 90°, 135°表示使用Gabor滤波器对亮度金字塔进行四个方向滤波后产生的对应的特征通道。N (·) 是一个迭代、非线性的归一化算子。

对特征图进行跨尺度加⊕操作, 然后再次进行归一化操作:

undefined

对颜色和方向特征, 计算其各自子特征所对应的突出图CM (conspicuity maps) , 并进行归一化操作, 而亮度突出图则等同于undefined:

undefined

将所有突出图进行线性叠加获得显著图:

undefined

已知显著图中获胜点的坐标 (xω, yω) , 在突出图中, 确定对当前显著图中显著点的贡献最高的突出图序号:

undefined

在突出图对应的特征图中, 确定对当前显著点的贡献最高特征图序号:

undefined

式中, ∀l∈{LI, LC, LO}, LI=I表示亮度特征通道;LC={RG, BY}, RG表示红绿颜色对比通道, BY表示蓝黄颜色对比通道;LO={0°, 45°, 90°, 135°}, 表示使用Gabor滤波器对亮度金字塔进行4个方向滤波后产生的对应0°, 45°, 90°, 135° 4个特征通道。

得到获胜的特征图Flω, cω, sω 后, 在显著点坐标 (xω, yω) 周围做图像分割。根据当前显著点所在特征图上的数值, 在其数值衰减到1/10处做阈值分割, 从而得到包含显著点区域的二值图:

undefined

在获得的二值图上, 标记包含种子点 (xω, yω) 的区域, 获得到只包含显著区域的二值图:

undefined

这里, label (·) 表示标记并返回包含给定坐标的连通区域的操作。

最后对二值图B进行H (·) 操作, 获得包含显著区域的最小凸多边形点集合:

undefined

式中, H (·) 表示求输入二值图中所包含区域的最小凸多边形点集的操作。

1.2 尺度空间主结构

本文关注以图斑为表现形式的尺度空间主结构。基于尺度空间主结构的思想, 能够确定图像中图斑的大致位置、空间范围以及分析处理图斑区域内信息的合适空间尺度。

给定二维连续信号, 例如输入图像f:R2→R, 其高斯线性尺度空间表达L:R2×R+→R, 其中:

undefined

这里t∈R+表示尺度, g (x, y;undefined为高斯核函数, *代表卷积操作。

然后, 使用尺度归一化拉普拉斯算子 (Scale-normalized Laplacian Operator) , 检测存在于尺度空间中的极值:

undefined

式中, |·|为取绝对值操作。拉普拉斯滤波在尺度为t的较暗图斑处引起正值响应, 而在相同尺度的较亮图斑处引起负值响应。对拉普拉斯滤波结果求绝对值并乘以尺度t, 能够捕捉到不同尺度上的图斑。

进而确定滤波结果中的极值点。在响应结果中, 如果一个点比它周围4邻域或者8邻域的值都大, 确定这个点是一个局部极值点。

接着, 根据极值点确定相应的图斑区域。在所得的极值点中, 寻找最大值点所处的坐标和尺度, 确定输入图像中最重要图斑的观测坐标和尺度:

undefined

使用Otsu算法, 计算尺度空间中尺度为undefined的图像的基准灰度级:

undefined

式中, otsu (·) 表示使用Otsu算法对输入灰度图像计算全局分割阈值的操作。

使用基准灰度级对尺度为undefined的图像进行二值化分割:

undefined

在二值图BW上, 标记包含种子点undefined的区域, 获得只包含图斑区域的二值图:

undefined

式中, label (·) 表示标记并返回包含给定坐标的连通区域的操作。

最后对二值图Bb进行H (·) 操作, 获得图斑区域的最小凸多边形点集合:

undefined

式中, H (·) 表示求输入二值图中所包含区域的最小凸多边形点集的操作。

同理, 给定图像区域, 使用公式 (3-6) ~ (3-12) 可确定给定区域内最大响应极值点坐标和尺度, 进而提取出包含目标的图斑区域。

1.3 关注区域的提取

通过基于显著度的区域选择方法, 获得包含显著区域的最小凸多边形点集合cs, 在cs对应空间区域内寻找相应的最大局部极值点坐标和相应尺度, 利用上节中的方法可以确定包含图斑区域的最小凸多边形点集合cb。为了获得目标的完整覆盖效果, 将图斑区域向外膨胀κ倍 (本文中取经验值κ=1.5) , 确定扩大后区域的最小凸多边形点集合c′b:

undefined

这里, expand (·) 表示将图斑区域扩张的操作。具体过程为, 首先计算图斑的质心, 得到图斑质心到轮廓凸多边形点的原始距离, 由图斑质心和轮廓点确定直线方程;然后将原始距离乘以给定的系数得到放大距离, 根据直线方程确定从图斑质心经过放大距离后的新的轮廓点坐标;最后将集合内所有点扩张后, 生成新的凸多边形点集合。

将凸多边形和包含显著区域的最小凸多变形cs合并起来, 获得最后的关注区域r:

undefined

C (cs, c′b) 表示将区域cs和区域c′b合并的操作, 通过包含两个区域轮廓的凸多边形来实现。

通过基于显著度的区域选择, 模型考虑到对当前显著点显著性贡献最大的特征, 进而确定对应于显著坐标处目标近似大小的空间区域范围。结合尺度空间主结构的方法, 模型可确定图像出现在不同尺度的重要结构图斑, 提取图斑区域范围和合适尺度。通过合并图斑区域和显著区域, 获得最后的关注区域r, 连同合适尺度undefined, 可更好的为识别模块服务。

2 实验

2.1 实验环境

本章模型在Matlab7.0开发环境中实现, 运行环境为Pentium (R) D CPU 2.80GHz处理器, 1GB内存, Windows XP操作系统。

2.2 运行结果

图3显示了本章视觉关注区域提取方法的一个运行实例。

模型测试户外自然场景彩色图像, 如图3 (a) 所示, 输入图片大小256×256象素。图中包含很多气球, 实验的目的是提取图像中最显著的气球区域。首先利用基于显著度的区域选择方法提取出显著区域, 判断颜色特征对显著点的贡献最大, 将相应区域分割结果用白色轮廓线表示, 如图3 (b) 所示, 可以看出轮廓线没有完整包含显著气球的目标区域。然后将彩图变成灰度图, 使用尺度空间主结构方法提取图像中的重要图斑和所在尺度。模型选择的尺度为t= 1.5, 2.2, 3.3, 5, 7, 10, 13, 16, 20, 25, 32, 64, 128, 512 和 1024。对每个尺度图进行尺度归一化拉普拉斯滤波后, 计算局部极值点。在之前基于显著度的区域选择方法得到的显著区域中, 寻找最大响应极值点坐标和尺度。模型确定显著区域内, 尺度t=20上存在最强响应局部极值点。然后使用Otsu算法求得尺度t=20的灰度图像的基准灰度级, 进而确定局部极值点处图斑的空间区域, 以黑色线将图斑轮廓在图3 (c) 中画出。为了获得目标的完整覆盖效果, 我们将图斑轮廓线向外膨胀1.5倍, 其扩展后的轮廓线如图3 (d) 中白色轮廓线段所示。最后模型将两步计算得到的区域合并, 画出新的轮廓, 如图3 (e) 中白色轮廓线所示。通过图3 (b) 和图3 (e) 可见, 本章提出的关注区域提取方法获得的结果比Walther的基于显著度的区域选择方法获得的结果, 更好、更完整地覆盖目标。

3 结束语

本文的关注区域提取算法所获得的结果是粗糙的, 不是严格的目标边界。但是这种分割方法得到的结果是比较安全的, 因此可以作为视觉关注区域, 而且在很大程度上减少数据冗余量。这种方法考虑了对当前图像显著性贡献最高的特征, 同时也可以自动确定观测目标的最优尺度, 为下一步的目标识别、分析和如何指导注意力的转移打下了良好的基础。同时, 人类视觉注意力是在自底向上和自顶向下信息的综合作用下转移的。在当前关注区域的提取过程中, 虽然利用了自底向上的信息, 但是缺乏先验信息的引导, 这种简单的关注区域提取方法无法满足面对复杂目标时的任务要求。因此, 在进一步的研究工作中, 我们将对如何利用图斑及先验知识提取关注区域及指导注意力转移进行更深入的研究。

摘要:基于显著区域选择和尺度空间主结构, 提出了一种新颖的关注区域提取方法。模型中, 关注区域提取方法分为三步:首先使用基于显著区域选择方法, 利用对目标显著度贡献最大的特征估计图像中目标的大概位置;然后利用尺度空间主结构方法获得当前位置图像的重要结构区域范围以及合适的观测尺度;最后, 将前两步中获得的区域范围合并起来作为最后的关注区域。实验结果和比较证明本文提出的模型能够获得较好的目标区域提取结果, 更好地为识别模块服务。

关键词:显著区域选择,尺度空间主结构,关注区域,图斑

参考文献

[1]TREISMAN, A.Perceptual grouping and attention in visual searchfor features and for objects[J].Journal of Experimental Psychol-ogy:Human Perception and Performance, 1982 (2) .

[2] ITTI, L.Models of bottom-up and top-down visual attention[D].California Institute of Technology, 2000.

[3] WALTHER, D., RUTISHAUSER, U., KOCH, C.et al.Selective visual attention enables learning and recognition of multiple objects in cluttered scenes[J].Computer Vision and Image Understanding.2005 (1-2) .

[4] LINDEBERG, T.Feature detection with automatic scale selection[J].International Journal of Computer Vision, 1998 (2) .

上一篇:思考实践研究下一篇:香港购物中心