图像显著区域(共7篇)
图像显著区域 篇1
摘要:针对基于内容的图像检索中遇到的效率低下和语义鸿沟问题,设计并实现了一个交互式的图像检索系统。系统首先结合人类视觉注意机制提取图像显著区域,再对不同的区域进行不同特征或不同权重的描述。最后,在初次检索后应用支持向量机(Support Vector Machine,SVM)和粒子群优化(Particle Swarm Optimization,PSO)算法进行相关反馈(Rele vance Feedback,RF),使检索结果更符合用户目的。实验表明,用SVM进行反馈检索效率有大幅度提高,而PSO在小样本指导下,表现出高效的学习和快速的收敛优势。
关键词:基于内容的图像检索,语义鸿沟,视觉注意机制,显著区域,支持向量机,粒子群优化,相关反馈
图像检索是图像处理和计算机视觉领域研究的热点之一。基于内容的图像检索技术从图像自身内容特征出发,自动化地检索出满足用户需要的图像。但是由于图像的底层特征和高层语义之间存在语义鸿沟[1],目前没有任何一种方法和特征可以在所有类型的图像上都取得较好的检索效果。另一方面,人们对图像的理解存在主观性,系统通常难以用图像的底层物理特征准确地刻画用户提交的检索需求,即系统从用户提交的样本中提取的特征往往不能很好的体现用户此次检索的目的。因此,通过引入相关反馈技术[2]进行人机交互,形成图像低层特征与用户高层语义间的映射关系,是目前改进图像检索效果的重要途径。
1 相关反馈技术研究
相关反馈技术源于文本信息检索,是一种人机交互的检索技术。1997年,由美国Illinois大学Yong Rui等率先将相关反馈技术引入图像检索领域,并在MARS系统中实验成功[3]。经典的RF过程为:首先系统根据预定的相似性度量准则返回初次检索结果,然后用户根据自身的检索需求对检索结果进行评价,指出哪些检索结果是与检索目的相关的(正样本)/或不相关的(负样本),进而相关反馈算法根据用户的反馈样本进行相似性度量准则的调整,重新返回检索结果,持续进行直到用户满意为止。
随着反馈技术的深入研究和不断发展,许多学者开始将成熟的统计学习理论和机器学习理论引入到RF技术中。典型的机器学习算法如支持向量机、人工神经网络[4](Artificial Neural Network,ANN)、Boosting[5]等。目前较流行的方法是SVM和PSO。
2 显著区域和SVM反馈相结合
人们发现,无论图像采用颜色作为特征向量,或者纹理作为特征向量,SVM方法的分类效果都要优于其他分类方法[6]。另一方面,图像的多样性使得一幅图像通常含有很多冗余信息,但用户总是搜索包含感兴趣目标的图像[7]。因此,提高CBIR性能的关键在于对一幅图像中目标图像的提取。该文将图像分割获取的用户感兴趣区域的特征与SVM相关反馈方法相结合,提出了一种新的检索方法。
2.1 显著区域提取
在图像处理中,人们往往只对图像的某个区域或某个对象感兴趣,这些部分常称为前景或者显著区域。传统方法利用显著点进行区域生长获取显著区域,生长尺度单一,容易产生空洞或生长不足。为了从图像中准确提取观察者感兴趣的区域,采用文献[8]中提出的基于改进区域生长的图像显著区域的提取方法,能有效地提高图像感兴趣区域提取的准确性。
2.2 特征向量的提取
2.2.1 不同权重的颜色特征描述
通过提取图像的显著区域,将图像的前景和背景特征分开表示,构成一个新的特征向量。初次检索时,将前景和背景赋予不同的权重,即:IMGi=wfFroi+wbBaci。
其中IMGi是图像i的颜色特征向量,wf是前景的权重,wb是背景的权重,Froi是图像i的前景颜色特征向量,Baci是图像i的背景颜色特征向量。实验中,选取HSV颜色空间的36维非均匀量化颜色直方图,最后将各区域特征进行综合就得到整幅图像的特征向量。
2.2.2 综合特征描述
形状常与用户感兴趣区域或目标联系在一起,具备一定的语义,通过对图像前景进行形状描述,对背景进行颜色描述,获得图像的综合特征。设图像i用M维形状特征N维颜色特征来表示,则综合特征为:
其中,Shapefj表示第i幅图像的第j维前景形状特征,Colorbj表示第i幅图像的第j维背景颜色特征。实验中,图像显著区域的形状特征采用HU提取的几何不变矩[9],背景采用HSV空间的36维颜色直方图。
2.3 算法描述
图像检索的相关反馈过程可以看作模式识别中的二分类问题。在反馈的过程中,由用户根据检索结果来标记正样本和负样本,通过对这些已标记的正负样本进行SVM学习,可以得到一个代表用户检索目标的SVM分类器。算法的具体流程如图1:
1)用户给出示例图像,按照文献[8]中的算法提取示例图像及图像库中图像的显著区域;
2)用本文3.2.1节提出的特征向量的描述方法对查询样例进行初次检索,按相似度从大到小排列;
3)对返回的前N幅结果图像标记相关图像集Subset+和非相关图像集Subset-,组成SVM训练集(xi,yi),其中,xi为第i幅训练图像的特征向量,yi为第i幅图像所属类别,即;
4)选择合适的核函数K(xi,x)和惩罚参数C,用SVM对训练样本进行学习并求解如下最优化问题:
5)根据α,求得b,得到最优分类面,并计算判别函数的值:,对图像库中各图像的f(x)值从大到小进行排序,f(x)越大表明该样本越接近示例图像,得到新的检索结果。
2.4 实验结果与分析
2.4.1 测试用数据库
图像库一是从Corel图像数据库中抽取的1000幅图像,包括非洲土著居民、海滩、建筑、公共汽车、恐龙、大象、马、花、雪山以及食物共10类,每类100幅图像。图像库二是本研究组收集的图像集,选出其中的7类用来作反馈测试,各类图像的数目不一,但大部分图像都有明显的注意区域。
2.4.2 实验结果
为了客观的评价上述算法,该文分别统计了两个图像库在一次反馈之后与传统算法的查准率对比,以及反馈4次的各类图像的查准率对比。实验中一次反馈后我们采用前30幅图像的查准率来衡量检索反馈效果,由于库一中恐龙的初次检索效率较高,所以实验未对恐龙类进行相关反馈测试。
表2是图像库一利用不同的特征描述法进行检索和反馈的平均查准率。其中第二列是本文基于显著区域颜色特征表示法的初次检索结果;第三列是传统的全局颜色直方图的SVM一次反馈结果,实验中采用的是HSV36维颜色直方图;第四列是本文基于显著区域颜色特征的SVM一次反馈结果;第五列是基于显著区域形状特征的初次检索结果,第七列是基于本文综合特征表示法的一次反馈结果。表3是在图像库二中上的实验结果。
从表2和表3可以看出,采用本文颜色特征表示法一次反馈后,平均查准率有明显的提高。库一中“人物”“公车”“马”和库二的“蝴蝶”和“飞机”采用传统全局颜色特征一次反馈后查准率下降,这是因为这些类图像的背景颜色较复杂或所占比重较大,影响了全局的特征向量,故而在SVM训练中出现了分类错误。但将这类图像前景和背景的颜色特征分开表示再进行SVM训练,就能避免背景对整幅图像的干扰,查准率就有了明显提高。
大多数图像类采用本文综合特征比传统HU不变矩特征的检索效率有较明显的提高。少数图像如“大象”和“山水”查准率的下降是由于这两类图像没有明显的显著区域,前景和背景用不同的特征表示没有优势。此外,个别类图像(如“公车”和“蝴蝶”)出现了一次反馈之后查准率下降,这是因为本文的综合特征对某些图像的初次检索效率就超过90%,使得SVM的训练样本严重不平衡,负例样本太少,导致一次反馈后查准率较低,影响了此类图像的平均查准率。
以上是不同检索方法在一次反馈后的性能比较,图2和3显示了不同反馈次数的检索效果。SVM算法的可靠性是建立在足够样本的基础上,为使SVM的训练样本尽可能多并且均匀,我们在下一轮反馈中保留上一轮的反馈结果,对样本数进行累加,除去重复选定的样本,使得训练样本集不断扩充,SVM分类在多次反馈中不断优化。实验中多次反馈中我们统计前50张图像的查准率。
3 基于粒子群优化(PSO)的相关反馈算法
实际上,图像检索相关反馈过程可以看作是函数优化问题。PSO[10]对反馈样本的对称性和数量没有要求,仅由正例样本对群体进行指导,搜索空间是全局向量空间,不易陷入局部极小值,且收敛速度快。因此,将PSO算法引入相关反馈领域,提出基于图像全局和局部特征的PSO相关反馈算法,展示了PSO的优越性[11]。
3.1 问题分析
PSO应用于图像检索领域需在粒子位置、进化准则等关键技术找到契合点:
1)确定搜索空间。对图像库进行特征提取,将“图像库”转变为特征的“搜索空间”,图像库中的每个图像可视为特征空间中的一个点,通过全局特征竞争提取出最相似特征。
2)定义进化准则。将用户反馈的正例图像特征的平均位置作为全局“最优位置”来指导粒子进化。其中,算法适应度函数为:fitness=Dis tan ce(Xi,g Besti),全局最优位置为:,Npositive是用户反馈的正例图像的个数,f是正例图像特征的特征维数。
3)提取特征空间。分别提取图像的颜色、纹理、形状和边缘特征,构成四个特征空间。颜色特征选用HSV空间72维颜色直方图,纹理特征选用金字塔小波变换低频子带,形状特征采用HU不变矩,边缘特征用边界直径、曲率和矩描述。
4)计算最相似的全局特征。每轮反馈后对正样本图像分别计算其全局特征上的平均差值和最大差值的比值,将比值最小的当作最相似的全局特征,并用其平均值作为粒子下一轮进化的最优位置,以指导粒子的进化方向和速度。表4是Corel图像库中建筑1的一轮反馈后的四个特征的比值情况,系统将选取边缘方向直方图作为下一轮粒子进化的指导。
5)返回检索结果。粒子的进化空间一般要求是连续的,而图像的特征空间是离散的,所以在粒子进化满足终止条件后,需将最终的进化结果映射到离其最近的图像特征上,最后在检索结果中返回此图像。
3.2 实验结果及分析
为客观评价PSO在小样本下的检索优势,将初次检索效果比较差的各类图像(查准率低于30%)在PSO一次反馈与SVM一次反馈后的平均检索准确率进行对比。另外,对PSO前4次反馈的情况P(30)进行了统计,粒子规模设为N=30,每轮反馈正样本数量最多取9幅,即小于样本总数的1/3。
可以看出SVM只对类别较明显的图像类能进行较好的分类,对于不容易分类的图像PSO则能表现出较好的反馈效果,如“大象”、“食物”、“雪山”、“人物”等。随着反馈次数的增加,PSO的检索效率在一定的范围内上下波动。这是因为,算法的“最优位置”是由正样本图像的平均位置决定的,每轮反馈图像的差异性,使得反馈的最优位置在每轮都会出现偏离。这正是PSO在确定最优位置时需要改进的地方。
4 结束语
为了弥补图像检索的语义鸿沟问题,该文深入研究了相关反馈技术,实现了有效的反馈算法。但反馈算法对样本集要求较高,在正负样本比例不平衡时,SVM的训练结果也不如人意,此外,该文使用的训练特征仍然是以底层的物理特征为主,虽然通过图像分割对图像的不同区域采用不同的特征描述具有一定的语义效果,但本文的图像分割方法也没有与任务相关,缺乏高层语义的指导,因此在后续的研究中,可针对具体任务进行训练和学习,建立与其对应的图像分割模型和特征表达方式。
参考文献
[1]张菁,沈兰荪,David Dagan Feng.基于视觉感知的图像检索的研究[J].电子学报,2008,36(3):494-499.
[2]吴洪,卢汉青,马颂德.基于内容图像检索中相关反馈技术的回顾[J].计算机学报,2005,28(12):1969-1979.
[3]Rui Y,Huang T S,Mehrotra S.Content-based image retrieval with relevance feedback in MARS[C].In:Proceedings of IEEE Internation al Conference on Image Processing,Santa Barbara,CA,USA:IEEE Computer Society,1997:815-818.
[4]张磊,林福宗,张钱.基于前向神经网络的图像检索相关反馈算法设计[J].计算机学报,2002,25(7):673-680.
[5]Tieu K,Viola P.Boosting image retrieval[C].Proceedings.IEEE Conference on Computer Vision and Pattern Recognition,Hilton Head Is land,SC,Jun 13-15,vol.1,228-235,2000.
[6]Zhou X S,Huang T S.Relevance feedback in image retrieval:a comprehensive review[J].ACM Multimedia Systems Journal,2003,8(6):536-544.
[7]Xiao Xiao et al.,Content-Based Image Retrieval through Region Uniformly Partition[J].Key Engineering Materials,Vol.500,2012:471-474.
[8]王晓晓,刘丹华.基于改进区域生长的图像显著区域的提取算法[J].现代计算机,2012(3).
[9]MING-KUEI HU.Visual Pattern Recognition by Moment Invariants[J].IRE Transactions on Information Theory,Vol.8,Issue 2,1962:179-187.
[10]Eberhart R,Kennedy J.A New Optimizer Using Particle Swarm Theory[C],Proc.6 Int.Symposium on Micro Machine and Human Sci ence,1995.39-43.
[11]许相莉.基于智能计算的图像检索算法研究[D].吉林大学,2011.
图像显著区域 篇2
有关视觉感知的研究结果表明: 影响低级视觉显著性最关键的因素是对比度[14,15]。现有方法中人们对于对比度的定义往往是基于不同图像特征的整合,包括颜色、边缘、梯度、空间频率、直方图、多尺度描述子,等等。然而,每种特征对显著性检测的重要性通常不够明了,即使相似的特征组合也可能导致不同的检测结果。另外,在缺少关于显著目标先验知识的情况下,基于对比度的检测方法,无论是逐点计算还是逐区域计算都会无可避免地带来人工误差,以至于无法得到高精度的显著性图。我们希望能够建立一种显著性检测模型,能够尽量减少缺乏先验知识带来的负面影响,以生成高精度的检测结果。将显著性检测任务归纳为一种由粗定位到精提取的处理过程。粗定位阶段,在暂不考虑检测精度的情况下我们通过粗粒度的对比度运算定位出显著目标的潜在区域; 精提取阶段,参照粗定位结果,对图像进行细粒度的显著度精炼,前景区域的显著度得到加强而背景区域的显著度受到抑制。最终,我们得到一幅像素精度的、全分辨率的显著性图。
1显著区域粗定位
对于一幅图像,希望通过一种简单高效的处理手段大致定位出显著区域,这个显著区是粗糙的,它不需要均匀完整地突出整个显著目标,也不需要有准确细致的轮廓,称这种处理为显著区域的粗定位。
1. 1图像过分割与超像素聚类
人类视觉系统对图像信息的处理是分区域进行的,而非逐点式的。与此一致,在显著区域粗定位阶段,为了提高运算效率,希望通过一定的预处理放大运算粒度,将像素层级的运算转变为区域层级的运算。这里,采用SLIC( simple linear iterative cluster)算法[16]将输入图像过分割为200个超像素。
尽管图像被过分割为超像素,单个超像素还是无法宏观地体现物体的完整结构信息,且超像素间的结构关系也不够明确。尤其对于前景物体,其结构特征对于后续的工作有着重要意义,希望通过超像素的合理组合得到更具结构信息性的图像区域, 并在需要时获得其结构的有效描述。
直观地,通过进一步聚类可以使拥有近似属性的超像素集合在一起,构成更大的图像区域,而这些图像区域显然要比超像素更能体现物体的结构信息。如果只是单纯地减少超像素个数以增大单个超像素的面积,过分割结果的精确性将无法得到保证。 尽管聚类操作会带来一定的时间消耗,但却进一步减少了参与后续对比度计算的区域的数目,加速了计算过程,在一定程度上弥补了这部分时间代价。 采用AP算法[17]对过分割图像得到的超像素进行聚类。
由于AP聚类需要利用超像素间的相似度,而相似度与对比度表达的内容实质上是一致的,所以我们首先需要度量超像素间的对比度。这里,我们从颜色特征、分形特征、空间位置分布三个角度对超像素间的对比度进行考察,主要基于以下三方面考虑:
( 1) 颜色特征在图像显著区域检测任务中有着最为广泛的应用。事实上,作为最基本的图像属性之一,颜色特征在视觉选择性注意机制中扮演着极为重要的角色,与周围环境具有较大颜色差异的图像区域往往能够对视觉系统产生强烈的刺激,从而引起人们的注意。
( 2) 通常情况下,作为前景部分的显著区域与背景部分在纹理粗糙度上存在一定的差异,而分形特征正是对纹理粗糙程度的数学评价。当颜色对比度不够明显时,如果能从分形的角度考虑前景背景之间的差异,将有助于显著区域的检测。
( 3) 图像信息的分布往往具有一定的结构性, 如果相距较近的两个超像素具有近似的属性信息, 则它们属于同一物体的可能性是较大的,也更希望经过聚类处理能够将它们归为同一类,相反,并不希望两个属性相近却相隔很远的超像素被归为同一类。所以,融合了空间位置信息的对比度才更加具有说服力。
首先,定义超像素的颜色对比度。由于LAB颜色空间更符合人类的视觉感受,通常用于衡量颜色间的差异,所以对超像素颜色差异性的考察都是在LAB空间中进行的。对于一个超像素i,令其颜色ci为其内部所有像素颜色的平均,则任意两个超像素i、j之间的颜色对比度dijc可表示为:
接下来,定义超像素的分形对比度。设超像素i的分形维数记为fi,其值可由快速地毯覆盖法[18]求得,则任意两个超像素i、j之间的分形对比度dijf可表示为:
最后,对于超像素i,其空间位置用pi表示,则任意两个超像素i、j之间的空间距离可表示为:
则融合了颜色对比度、分形对比度与空间位置关系的超像素对比度dij可定义为:
式(4)中,参数kcs、kfs、kps分别用来控制颜色对比度、分形对比度、空间位置关系在超像素对比度计算中的权重;dcij、dfij、dpij皆归一化至区间[0,1]。由于对比度越大相似度越小,所以我们需要将求得的每个dij取反。
图1展示了部分图像的聚类结果,其中,(a)为输入图像,(b)为过分割图像,(c)为聚类图像。这里,取kcs=kfs=4,kps=2。
一般情况下,上述聚类操作会产生10到20个类,这样,每幅过分割图像的200个超像素将根据其颜色属性、纹理属性及空间位置被分配至少数几个图像块。可以看出,与超像素相比,聚类后的图像区域更加贴近物体的真实形状,相当于对图像进行一定水平的分割处理。在显著区域粗定位阶段,剩下的工作将围绕如何评价每一类的显著度进行。
1. 2类的显著度计算
与其他类相比,那些属于显著区域的类除了颜色突出以外往往还具有结构上的紧凑性,即组成这些类的超像素在空间分布上一般是比较紧凑的,不会是分散在整个图像空间的,因此我们将一个类的颜色对比度与结构紧凑度作为其显著性的评价标准。另外,有一种先验知识认为,位于图像中心部位的区域往往更能吸引人的注意力。据此提出评价一类显著性的另一标准———类的偏离中心度。综上, 对于经过AP聚类处理过的图像,我们将类的颜色对比度,结构紧凑度与偏离中心度作为其显著度计算的三个指标,下面我们将分别就这三个指标的计算方法进行介绍。
1. 2. 1颜色对比度
在计算基于类的颜色对比度之前,需要先描述每一类的颜色特征,考虑过两种方式: 一是统计每一类所包含的像素颜色并建立量化的颜色直方图; 二是单纯地将每一类的颜色设置为其内所有像素颜色的平均。从实验效果上看,采用哪种方式对之后粗定位的结果影响不大,为了减小时间开销,我们采用第二种颜色特征的描述方式。对于任意一类i,设其颜色特征为Ci,则它与其余所有类的颜色对比度Di可由下式建立:
式( 5) 中,N为类别数目,所有的颜色描述均在LAB空间中进行。
相比距离较远的类,与距离较近的类的高对比度更容易引起视觉注意,所以引入类的空间位置信息作为Di的加权。设类i与类j的形心位置分别为Pi、Pj,则二者的空间距离可表示为 ‖ Pi- Pj‖ 。 改写式( 5) 如式( 6) 。
式( 6) 中,参数kcp为指数函数的尺度因子,用来控制空间位置关系在对比度计算中的权重。
1. 2. 2结构紧凑度
通过衡量每类所含超像素与该类形心之间空间距离的大小来评价该类的结构紧凑度。设类i形心为Pi,包含ni个超像素,其中,任意一个超像素j的空间位置为pj,定义类i的结构紧凑度Ti为:
由式( 7) 可以看出,类i所含的超像素分布越集中, 其结构紧凑度越高,求得的Ti值越小。
1. 2. 3偏离中心度
设输入图像的中心位置为Pm,则类i的偏离中心度Bi可由所含超像素与图像中心的空间距离来度量:
以上内容分别定义了类的颜色对比度、结构紧凑度与偏离中心度。联合这三个评价指标,式( 9) 给出类i显著度Si的计算方法:
在三个评价指标中,认为颜色对比度Di是决定显著度的主要因素,结构紧凑度Ti是次要因素,而偏离中心度Bi是最次要因素。因此,将颜色对比度Di、结构紧凑度Ti用指数函数进行强调,尺度因子 α、β 分别控制二者对显著度Si贡献的大小,且需保证 α 大于 β,参数 θ 一般取大于1的正数即可。Di、Ti、 Bi皆归一化至区间[0,1]。
由此便完成了显著区域的粗定位。图2为显著区域粗定位的实验效果图,其中,( a) 为输入图像, ( b) 为粗检结果。这里,取 θ = 2,α = 8,β = 3。
可以看出,经过显著区域的粗定位,可以得到一幅粗糙的显著性图。虽然检测结果已经能够一定程度的突出显著区域,但由于粗定位阶段对图像的操作粒度不够精细,生成的显著性图将属于同一类的超像素块赋予一样的显著度,且一般无法均匀、完整地高亮整个显著区域,也未达到像素精度的水平。 因此,需要对这幅粗糙的显著性图进行进一步处理, 以达到精确突出整个显著区域的目的。
2显著区域精提取
在完成显著区域的粗定位之后,希望通过一定的手段对粗检结果进行精炼,以得到具有更好视觉效果的、精细完整的显著性图。
对于一个像素,它的特征属性与周围像素存在很大程度上的相似性,显然其显著度将受周围像素显著度的影响,如果近邻像素具有较高的显著度,那么这个像素很可能也具有较高的显著度。希望粗检出的显著区域能够指导单个像素显著度的计算,最直观的想法是,参考每个像素与粗检区域的联系性以更新该像素的显著度。因此,建立了一种基于高斯模型的像素级显著度计算方法用以完成显著区域的精提取。
经过显著区域粗定位,每一类都被赋予一个显著度,将其看做一个具有一定影响力的显著中心,每个像素的显著度都会受到这个显著中心的影响,这样,就单个像素而言,其显著度将会同时受到N个显著中心的影响( N为聚类数目) 。然而,每个显著中心所具有的影响力是不同的,每个像素受不同显著中心影响的水平也是不同的。设显著中心i包含Mi个超像素,其中,超像素k的颜色为cki,空间位置为pki, 同时将该显著中心的显著度Si看做其所具有的影响力。对于像素j,设其颜色特征为cjp,空间位置为pjp,它受i的影响程度可由二者之间的颜色差异与空间距离来度量。于是我们定义像素j的显著度Sj如下:
式( 10) 中,尺度因子 λ1、λ2分别控制颜色差异与空间距离在j计算中所占的权重。由式( 10) 容易看出,高斯函数的计算形式将与显著中心距离较近、颜色类似的像素赋予较高的显著度。
然而,若将每个像素与所有的类都进行比较,相当于所有的超像素块都要参与单个像素的显著度计算,由此带来的时间开销是难以接受的。观察粗糙的显著性图可以看出,并非所有的类都具有较高的显著度,也就是说只有少数的类具有较高的影响力。 事实上,对于多数图像,经过显著区域粗定位一般只会高亮显示3个甚至3个以下的类,所以在更新像素显著度时一般只取显著度最高的3个类作为显著中心,这样的简化将大大提高精提取过程的处理效率。
图3为显著区域精提取的实验效果图,其中, ( a) 为输入图像,( b) 为精提取后的显著性图。这里,取 λ1= 10,λ2= 6。
可以看出,经过显著区域精提取,得到了像素精度的、全分辨率的显著性图,其中,显著目标亮度均匀、轮廓清晰且形状完整,同时背景区域得到有效抑制,整体看来,精炼后的检测结果具有上佳的视觉效果
3实验比较
利用Achanta等人[19]提供的公开数据集对本文算法进行了测试。为了更加客观地评价本文算法的检测效果,选取七种具有代表性的显著区域检测算法进行对比。这七种算法分别是生物视觉启发的IT算法[5],基于局部对比分析的MZ算法[6],基于频谱特性的SR算法[7],基于图论的GB算法[8],着眼图像语义信息的CA算法[9],基于全局对比分析的RC算法[10],以及由高斯滤波角度建模的SF算法[11]。
3. 1定性比较
引用Achanta等人[19]对显著性图提出的四点基本要求作为评价各算法检测结果好坏的标准: 1强调最大的显著目标; 2均匀高亮整个显著区域; 3具有清晰可辨的目标边缘; 4忽略纹理、噪声以及块效应带来的高频成分; 5具有与输入图像一致的分辨率。
图4为八种算法检测结果的实验对比图,每列从上到下依次为输入图像、人工标定图、IT、MZ、SR、 GB、CA、RC、SF及本文算法的显著性图。
参照图4并结合上述五点评价标准可以发现, 参与比较的八种算法里只有CA算法、RC算法、SF算法以及本文提出的算法能够输出全分辨率的显著性图( 为了方便但对比,图4中各算法的检测结果均在相同的分辨率下进行显示) ,但CA算法的检测结果过于强调目标边缘而未能突出整个显著区域, RC算法生成的显著性图不够精细,人工痕迹过于明显,SF算法的检测结果中亮度分配不够均匀。通过定性比较可以发现,本文算法在参与比较的八种算法中检测效果是最为突出的。
3. 2定量分析
Achanta等人提供的数据集中,每幅测试图像都有人工标定的Ground Truth与之对应。算法输出的检测结果与Ground Truth越接近,则认为算法的精确性越高,检测效果也越好。由于Ground Truth是二值图像,为了方便比较,我们需要先对算法生成的显著性图进行二值分割。最简单的方法就是固定阈值分割,将阈值从0取到255,对于某个阈值T,当像素的显著度大于T时,该像素被置为1,认为其属于显著区域,小于T时被置为0,认为其属于背景区域。这样,每个阈值T都会对应一幅二值图像,将这些二值图像分别与Ground Truth进行对比便可评判算法检测结果的精确性。为了全面地对本文算法的检测效果进行评估,我们采用两种不同的客观比较方法进行了实验。
第一种方法通过绘制正确率-召回率曲线来评价算法检测结果的精确度。设S为阈值T对应的二值化的显著性图,在S与Ground Truth中同属显著区域的图像区域为TP,在S中属于显著区域而在Ground Truth中属于背景区域的图像区域为FP,在S与Ground Truth中同属背景区域的图像区域为TN,在S中属于背景区域而在Ground Truth中属于显著区域的图像区域为FN。则阈值T对应的正确率Precision与召回率Recall分别为:
这样,一个阈值T便对应一组正确率Precision和召回率Recall,在以Precision为纵轴、Recall为横轴的坐标系中则对应了一个点,将不同的T对应的Precision和Recall绘制于同一个坐标系中即可得到算法的正确率-召回率曲线。图5展示了参与比较的八种算法的正确率-召回率曲线。
对于图像显著区域检测任务来说,正确率较高意味着算法检测到的显著区域基本都位于图像真实的显著区域中,但是不能保证图像真实的显著区域都被算法检测到的显著区域覆盖。一个极端的例子就是,算法生成的显著性图只包含少量像素点,且这些像素点都位于图像真实的显著区域中,此时的正确率为100% ,但并不能说明算法具有较好的检测效果。较高的召回率意味着算法检测到的显著区域能够较多地覆盖图像真实的显著区域,但却不能保证检测到的显著区域都是真正显著的。一个极端的例子就是,当阈值T = 0时,计算出的召回率必定是100% 。所以说较高的召回率也不能说明算法具有较好的检测效果。正确率与召回率之间并没有必然联系,但在大规模的数据统计中,这两个指标却表现出相互制约性[20]。一般来说,正确率—召回率曲线越靠外( 右上) ,则算法的检测结果的准确度越高。 由图5可以看出,本文算法在参与比较的八种算法中表现最为突出。
第二种方法为F-measure法,即综合正确率与召回率两方面对算法的检测效果进行评估。该方法需要计算评估指标Fβ,其定义如下:
式( 13) 中,参数 β 用来调节正确率与召回率的比重。这里和Achanta等人一样取 β2= 0. 3,将正确率赋予较高的权重,这是因为在图像显著区域检测任务中,正确率比召回率更为重要,我们只需要将所有像素都标记成显著点即可达到100% 的召回率。 图6为参与比较的八种算法的F-measure柱状图。
一般来说,Fβ越大,算法的检测效果越优。由图6可以看出,我们的算法拥有明显高于其他算法的Fβ值,因而具有优于其他算法的检测效果。
4总结
提出一种由粗定位到精提取的图像显著区域检测算法。在粗定位阶段,我们首先将图像过分割为超像素,并利用超像素间的颜色差异、分形差异及空间位置关系对这些超像素进行聚类,以生成同质性更强的图像区域。然后通过度量这些区域的颜色奇异性、结构紧凑性并结合先验知识大致定位出显著目标所在的位置。在精提取阶段,通过比较像素与粗检结果的颜色相似性与空间位置关系,更新每个像素的显著度并最终得到像素精度的、全分辨的显著性图。将本文算法与七种经典的显著区域检测算法放在一起进行了实验比较,从定性比较与定量分析两方面来看,本文算法都有最为出色的表现。
尽管本文算法已经能够取得比较令人满意的检测效果,但仍有一定的提升空间,具体表现在以下两个方面:
( 1) 本文算法涉及较多的参数,一种固定的参数组合很难适用于所有类型的图像。进一步探寻参数设置对检测效果的影响,并通过模型的改进与优化提升算法的鲁棒性是未来研究工作的重点内容之一。
显著区域检测算法综述 篇3
人类可以快速准确地识别视觉场中的显著区域。在机器上模拟人类的这种能力对于使机器能够像人类一样处理视觉内容是至关重要的。在过去的几十年内,已有大量的显著性检测方法进入了公开发表。这些方法中的大部分[1-4]都趋向于预测人眼视觉注视点。然而这些人眼视觉注视点只是一些空间中的离散点,并不能准确地标识整个显著区域[5-6]。
近些年来,一些科研单位和研究人员已经开始密切关注于显著区域检测方法的构建工作,如洛桑联邦理工学院的Sabine Süsstrunk研究员,以色列理工学院的Ayellet Tal教授, 微软亚洲研究院的研究人员,清华大学的胡世民教授等。显著区域检测方法对以下领域发挥着重大的助益作用: 图像分割[7]、物体检测[8]、内容保持的图像缩放[9]等。本文将对显著区域检测算法的研究现状进行介绍,同时对典型的显著区域检测算法进行分析。
文章内容组织结构为: 第2节对现有的显著区域检测算法进行了分类和分析; 第3节对典型的显著区域检测算法进行了评测; 最后在第4节给出了总结,并展望了下一步的研究工作。
1显著区域检测算法分类及分析
感知方面的研究成果表明[10]: 在低层视觉显著性中,对比度是最重要的影响因素。现有的显著区域检测算法通过计算每个图像子区域同其一定范围内的相邻区域的对比度来度量该图像子区域的显著性。而依据用于计算对比度的相邻区域空间范围的不同,现有的显著区域检测算法可分为两类: 基于局部对比的算法[6,11 -12]和基于全局对比的算法[13 -18]。下面分别对其探讨如下。
1. 1基于局部对比的显著区域检测算法
基于局部对比的显著区域检测算法通过计算每个图像子区域或像素同其周围一个小的局部领域的对比度来度量该图像子区域或像素的显著性。Ma等人[11]提出了一种基于局部对比和模糊生长的显著区域检测算法。该方法首先对输入图像进行均值滤波和降采样。然后,该方法对新产生的低分辨率图像中的每个像素计算其与周围N个像素的LUV颜色向量的欧几里得距离之和,并将此值作为该像素的显著值。为了从产生的显著图中提取显著区域,Ma等人[11]运用模糊生长( fuzzy growing) 的方法提取显著区域。 Liu等人[6]为了更加准确地检测显著区域,提出了一系列新的局部区域和全局特征用于计算显著性。这些特征包括: 多尺度对比,中心- 周围直方图和颜色空间分布。该方法通过学习一个条件随机场来高效地结合上述这些特征用于检测显著区域。由上可知,因为只是通过局部对比来检测显著区域,所以基于局部对比的方法趋向于关注边缘周围的区域, 而不会突出整个显著区域( 在生成的显著图中即表现为边缘周围的区域具有高的显著值,而显著区域内部的显著值则较低) 。这个问题可以称其为“不一致突出显著区域”问题。
1. 2基于全局对比的显著区域检测算法
基于全局对比的显著区域检测算法将整幅图像作为对比区域来计算每个图像子区域或像素的显著值。Achanta等人[13]从频率域角度出发,首次提出了一种基于全局对比的显著区域检测的方法。该方法将经过高斯低通滤波图像中的每个像素值和整幅图像的平均像素值之间的欧几里得距离作为该点的显著值。该方法非常简单,时间消耗非常低, 且实验结果在查准率- 差全率方面的效果也堪称优良。该方法使得显著区域检测向实用化的方向更前进了一步。然而Achanta等人提出的方法[13]在以下两种情况下会失效:
( 1) 显著区域的颜色占图像中的大部分,通过方法[11]计算后,背景会具有更高的显著值;
( 2) 背景中含有少量突出的颜色,这样背景中的这部分颜色的显著值也会非常高。
针对以上缺陷,作者又在文章[18]中将此方法完成了进一步的改进。作者发现检测显著区域边缘和检测显著区域中心所需要的图像频段是不同的,由此而依据像素点越在图像中心越可能接近区域中心这样一个假设,来调整均值滤波的带宽,使得位于显著区域不同位置的像素点则有不同的均值滤波带宽。而且,即将经过滤波后的图像中每个像素值和该像素所在的对称子窗口内的像素平均值的欧几里得空间距离作为该点的显著值。经过这样的调整,算法的时间复杂度有所提高,但是实验结果性能却有较大提升。
Cheng等人在文章[15]中提出了两种简单快速且更为准确的显著区域检测方法。第一种方法只采用颜色的全局对比,作者将每个像素点和图像中其它所有像素的Lab颜色向量的欧几里得距离之和的1 / N( N为该图的像素点个数) 作为该点的显著值。为了更快速地开展计算,作者对图像中的颜色进行了量化,以颜色为单位计算每种颜色和图像中其它所有颜色的欧几里得距离。第一种方法中只考虑了颜色的全局对比,并未考虑空间位置关系,使得和显著区域颜色接近的背景区域的显著值也较高。作者在加入空间位置关系后又一次提出了方法二: 首先对图像进行分割,获得一定数量的子区域。基于子区域,将子区域之间的空间位置关系作为权值计算该子区域与图像其它所有子区域之间的相似度之和。方法2比方法1的时间复杂度略高( 主要是由于引入了图像分割操作,该操作比较耗时) ,但是实验结果得到了较大提高。通过仿真验证,Cheng等人[15]提出的方法简单高效。
He等人[17]在Cheng的研究基础上,提出了结合全局对比和颜色空间分布的显著区域检测方法。作者指出颜色的空间分布越紧凑,该类颜色就应具有更高的显著性,反之亦然。该方法将每类颜色所属像素空间位置的方差作为衡量颜色空间分布的指标,生成颜色空间显著图。其后将颜色空间显著图和直方图对比度显著图或区域对比度显著图进行叠加得到最终的显著图。Perazzi等人[16]也提出了一个基于对比度和空间分布的显著区域检测方法。
上述这些基于全局对比的显著区域检测方法可以在一定程度上消减“不一致突出显著区域”问题。但是当显著区域非常大或者图像背景非常复杂时,这些基于全局对比的方法就趋向于突出背景区域而不是显著区域了。因而该问题可以称之为“突出图像背景”问题。
2显著区域检测算法测试
本节使用Achanta等人[13]提出的公开可用的测试图像库来评价现有典型的显著区域检测算法的性能。该测试图像库包含了1 000幅自然图像以及与其相对应标识显著区域的二值基准图像,并将查准率- 查全率曲线作为衡量显著区域检测算法性能的评价指标。
图1显示了近期6个性能最先进的显著区域检测方法( MZ[11]、LC[14]、FT[13]、HC[15]、RC[15]、SF[16]) 在Achanta数据集上的评测结果。这些方法中,对于FT、HC、RC和SF, 本节使用作者的原始的实现程序来生成对应的显著图。而对于MZ和LC方法,本节直接使用Ma等人[11]和Cheng等人[15]所提供的显著图。由图1可以看出SF在Achanta等人[13]提供的测试集上取得了最好的检测性能。
3结论与展望
图像显著区域 篇4
随着信息技术的发展以及数字设备的普及,图像和视频等视觉信息作为主要信息载体,其数据规模呈现几何级增长,使得数据的存储、传输、分析、应用遇到巨大困难。因此,如何减少错误或者冗余数据,实现低数据处理量和高分析准确性成为海量视觉信息处理中的重要问题。对于图像而言,以视觉注意机制为代表的显著性检测技术
显著性图获取的基本步骤为:特征提取、特征显著性计算和特征显著性图合成。文献
到目前为止,由于制约因素过于复杂,所以自上向下类的方法的研究不是很多。虽然图像的显著性检测得到了广泛研究,但其应用还不能令人满意,主要体现在显著性图自身质量不佳、计算复杂度高、应用方式不成熟等,因此需要设计更好的方法。本文的主要工作是通过图像的像素点聚类之后,结合显著性先验理论,通过分析类之间和类内部的颜色特征、空间距离特征和图像纹理特征的对比度和差异性得到不同的特征图,再通过特征图融合获得最终的显著图。
本文首先是设计一种新的聚类方法,为显著性检测方法的设计提供良好的前提条件;第二是利用算法充分分析图像的多重特征并做适当处理,使其应用具有强鲁棒性;第三是体现了自上向下和自下向上两种方法的融合。
1 算法设计
本文算法首先对图像的像素聚类;然后分别根据不同特征信息以一定的方式计算色差之和SCD特征图、局部差之和SLD特征图、颜色方差CV特征图、区域大小RS特征图、每个像素到图像中心位置距离的均值MDI特征图、每个像素到其所属类的中心位置的距离均值MDC特征图、每个像素到其所属类的中心位置的距离方差VDC特征图、中频能量EMF特征图;最后将8种特征图融合并得出最终显著图。聚类及特征图等都是依据一定的原理并基于多重特征计算得出的。
1.1 算法主要依据的原理
(1)对比度原理:对比度是引起视觉关注的最大因素
(2)Gestalt原理
(3)高频抑制原理:视觉系统对于频繁出现事件不敏感,而最先发现小范围的不寻常部分。使用频域信息时可以滤掉无用的高频,重点计算图像中的中低频信息。
(4)关键区域聚焦原理:当存在多个显著区域时,某一区域的某一对象最容易被关注。此对象叫做关键对象,其所在区域叫做关键区域,包含图像中的重要信息。
(5)中心圆周原理:此原理可以检测出中心区域和局部周围区域中相对比较突出的位置和信息
1.2 图像特征选取
颜色、空间距离等是图像的底层特征,自下向上的方法主要是基于这些特征。边界信息、频域信息和显著性先验知识等则属于中层特征,中层特征结合底层特征预测显著目标的可能位置能够提高显著性检测模型的鲁棒性。本文基于多重特征的显著性检测方法主要是依据图像的底层特征并结合频域信息以及被验证的显著性理论建立显著性计算模型。其中,关于频域信息的使用,有以下几点:
(1)考虑原图的低频信号以点亮整个显著性区域;
(2)低频信号使用要有助于得到一致性的显著图;
(3)为了获取很好的边界,需要考虑高频信号;
(4)由于高频信号往往会带来图像的纹理、噪声和块效应,所以超高频信息需要被忽略。
2 算法的实现
2.1 图像聚类
聚类选用k-means方法,但与传统的随机选取种子的方式不同,本文使用正六边形排列的方式,最大程度上克服结果的不确定性以此实现强鲁棒性。另外,种子数量太少会使得图像聚类效果出现很大误差,太多则计算量激增且效果没有显著提高,此处种子数选为20。
本文将同时使用颜色和空间距离特征做显著性聚类,一个像素点的值是一个{l,a,b,x,y}向量。其中l、a、b表示CIE Lab颜色空间中的三个分量,x、y表示的是像素点的坐标。图像的左上角为坐标原点,对每个像素点求得种子的距离是:
其中pi表示第i个像素点,δ是一个可以自由设定取值的距离因子,其大小和图像的横坐标像素点的个数n有关。由式(1)可以看出,δ的值越大,空间距离在聚类中作用越大,像素更容易被匹配到相近的类中,而不是被划分到颜色更相近的类中,本文的取值是10/n。聚类之后将得到向量{c1,c2,…,ck},其中k表示类数。图1(b)展示的是2个例图的聚类结果。
图1 聚类示例
2.2 计算特征图
根据选取的图像特征计算所有特征图,并以上面两个例图展示各个特征图的效果。
(1)SCD特征图
根据颜色全局对比计算每一个类的显著值:
其中ci为聚类后的颜色特征向量,最后将该值赋给聚类之后的编号相同的像素点得到SCD特征图。
(2)SLD特征图
根据空间距离全局对比,计算每个聚类的中心坐标与其他聚类的距离总和:
其中p代表了每一个聚类之后的中心坐标。
(3)RS特征图
RS表征图像中某类在整个图像中所占的比例。基于聚类结果,使用局部对比方法根据颜色均值的差异进行优化处理,如果差值较小便认为是连通的,使背景区域有效融合。最后对像素点个数所占比例归一化处理。
(4)CV特征图
使用全局方法计算颜色方差得到CV特征图:
其中CVk表示类k的方差值,Ci是原图像素的颜色分量。CMk是类k的颜色欧式距离的均值:
(5)MDI特征图
利用空间信息计算一个类中所有像素到图像中心位置距离的均值:
其中Ic是图像的中心点位置,pi是某类中像素的坐标。
(6)MDC特征图
同样利用空间信息,MDC的计算如下:
其中pi是像素点i的坐标,pk是类k的中心坐标。
(7)VDC特征图
利用MDC的结果,计算VDC特征图:
(8)EMF特征图
图像中的大部分高频信号是背景信号,高频信息一般都不是目标显著区域,所以忽略高频信息和低频信息。计算中频信息,得到EMF特征图:
图2表示的是两个例图相应的8种特征图。
图2 两个例图的8种特征图
2.3 计算显著性图
将所有特征值归一化到[0,1]区间,最后通过将8个特征值叠加得到初始显著图:
其中,,即取反。最后进行融合之后将得到初始显著性图。经过规范化操作使得值的区间在[0,255]内。接下来对初始显著性图进行二值处理,设定阈值为128,得到最终的显著性图。图3展示了上面两个例图的初始显著性图和最终显著性图。
图3 显著性图示例
3 实验与分析
选用具有代表性的Achanta提供的1000幅图像库来检验本文的方法。从主观和客观两方面对于算法性能进行评估。主观上指用户的视觉体验效果,一般采用可视化对比的方式。而客观标准则采用一定指标衡量。
3.1 主观评估
选用IT
图4本文方法与典型方法的主观可视化对比
3.2 客观评估
客观标准采用PR曲线和F-measure进行评估。以图像库的图像均值为参数,精度P(Precision)为纵轴,召回率R(Recall)为横轴绘制PR曲线。F-measure是关于精度和召回率的一个调和平均数,通过一个实数参数α指定精度和召回率的相对重要性。
图5为PR曲线,由于MZ方法主观效果不佳,所以在此忽略。可以看出,IT、RC及SF方法明显比本文所提方法差。在召回率小于0.6时本文方法的精度高于所有方法,在0.6~0.8之间时本文方法只略低于MR,当精度大于0.8时RC、SF、MR、HS和本文算法都趋向一致。因此,本文方法达到预期的效果,能够得到较好的PR曲线。由于本文方法中多特征叠加使得一些目标像素点被隐藏,使其在高召回率的情况下精度比MR模型的精度低。
图5 PR曲线
F-measure可以公式化为:
在实验中取α=0.3,图6表示的是F-measure曲线图。
图6 F-measure图
由于MZ在主观评价中效果不佳,所以在此也被忽略。图6表明,本文方法的阈值是128,所以阈值范围在110到150之间,该值和MR和HS值都接近0.9,表明具有很好的实验结果。
在主观评估方面,本文方法效果最好;在客观评估方面,本文方法与MR方法相当,优于其他方法。综合主观、客观整体评价,本文方法达到了预期效果。
4 结语
图像显著区域 篇5
近年来,立体图像处理技术在娱乐行业和科学领域的应用越来越广泛,与平面图像带给人的视觉感受不同,立体图像为人们提供更加真实的身临其境的感受。但是立体图像在采集、压缩、储存、传输和显示等过程中会产生各种失真,进而影响人们的立体视觉感受。因此,建立一种评价立体图像失真程度的立体图像质量评价方法是目前立体成像技术领域急需解决的关键问题之一。立体图像质量评价方法主要有主观评价和客观评价。虽然立体图像质量主观评价方法的准确性较高,但是具有费时费力且成本较高的缺陷,因此建立一个能够准确有效模拟人眼主观评价结果的立体图像质量客观评价算法具有重要的意义。
经过多年的研究,国内外研究者已提出了许多立体图像质量客观评价算法。最初,一些立体图像质量客观评价算法将均方误差(Mean Squared Error,MSE)、峰值信噪比(Peak Signal Noise R-Atio,PSNR)、结构相似度(Structural Similarity,SSIM)[1]等一些经典的平面图像质量评价算法直接应用于立体图像的左右视点,通过加权左右视点质量值得到立体图像质量客观评价值[2]。文献[3,4,5]考虑深度感知对立体图像质量评价的影响,将2D评价方法与立体图像的差异信息或深度信息融合进行立体图像质量评价。近年来各研究领域学者对人类视觉系统的研究表明,人眼在观看图像时会不自觉的关注某些区域,并优先处理该区域的信息[6],该区域称为显著性区域,此特性叫做视觉显著性。此外,文献[7]指出观看图像时人眼倾向于关注图像中央区域。这些因素均会影响立体图像质量的主观评价结果。因此,考虑视觉显著性和中央偏移的影响,建立与主观评价结果具有较高一致性的立体图像质量评价算法具有重要意义。
本文分别考虑了视觉显著性和中央偏移对立体图像质量评价的影响,提出了基于视觉显著性的立体图像质量客观评价算法(简称VS-SSIM);另外考虑中央偏移特性,提出了基于中央偏移的立体图像质量评价算法(简称CB-SSIM)。实验结果表明,两种算法的客观评价结果均能准确有效反映与主观评价结果,对比CB-SSIM算法,VS-SSIM更能反映人眼的主观感受。
1 本文算法
1.1 本文的显著模型
视觉显著性模型通过对人眼视觉感知过程中的显著性特征进行建模,以得到人眼的感兴趣区域,即图像的显著性区域。通常用显著值大小表示人眼对图像不同区域的关注程度。视觉显著性模型分为自底向上(bottom-up attention)的视觉显著性模型和自顶向下(top-down attention)的视觉显著性模型两类。本文采用自底向上型的GBVS模型和中央偏移因子确定单视点的显著图(以左视点为例)。
1.1.1 GBVS模型
本文采用的是基于图论的视觉显著(Graph Based Visual Saliency,GBVS)性算法[8],其在特征提取的过程中采用类似Itti算法[9]模拟视觉原理,在显著图的生成过程中引入了图论的知识把图像转换为有向完全图,并用马尔科夫链生成显著图。该算法提取的显著区域比Itti算法[9]更加准确。采用Itti的前四层高斯金字塔分解方法[9]提取单视点图像的颜色、亮度和方向特征,用GBVS算法提取失真立体图像对单视点的显著图的步骤如下(以失真左视点为例):
①M(i,j)与M(p,q)分别代表特征M在节点(i,j)与(p,q)的灰度值,M(i,j)与M(p,q)之间的差异定义如下:
②将图M中的所有像素点两两相连得到有向完全图G,按照式(2)定义点(i,j)到(p,q)方向的边的权重,进而得到图G的邻接矩阵。
其中,σ是一个自由参数且定义σ=1/10W,W为图像水平像素的数目。
③将步骤②构造出的权重归一化到区间[0,1],求图G的而平衡分布得到特征图。
④按照步骤①②③依次求颜色、亮度和方向特征的特征图,接着对特征图归一化、求和获取最终的显著图SM1。
1.1.2 中央偏移因子
中央偏移(Center Bias,CB)特性是指人眼在观看图像时总是倾向于从图像的中心开始寻找视觉注视点,然后其注意力由中央向四周递减[7]。也就是说,当像素的坐标位置越处于图像的中间位置,该像素越容易受到关注。本文采用图像中心点的各向异性高斯核函数[10]模拟中央偏移(CB)因子:
其中,CB(x,y)表示像素点(x,y)对中心点(x0,y0)的偏移信息。(x0,y0)表示图像的中心点坐标,(x,y)为像素点坐标,σh和σv分别表示图像水平方向和垂直方向的标准差,本文取σh=1/3W,σv=1/3H,其中W和H表示图像的水平像素和垂直像素个数。
考虑到显著图SM1中央偏移因子CB的重要性不同,本文采用公式(5)的方式对显著图SM1进行优化。
其中,α为控制参数,根据实验本文取α=0.7。SM1(x,y)表示显著图SM1在像素点(x,y)的显著值。
1.2 立体图像质量评价
人眼对图像的显著区域和非显著区域的敏感度不同。相比非显著性区域,人眼对图像显著性区域出现的失真比较敏感,其严重影响了人眼对图像质量的主观评价结果。为使客观评价与主观评价具有更好的一致性,本模型采用SSIM算法计算失真立体图像左视点的质量图QL(x,y),用左视点的显著图SML(x,y)来反映失真立体图像对左视点各区域的视觉重要性。采用公式(6)计算失真左视点的质量客观评价值QL。
采用上述方法得到失真右视点的质量客观评价值QR。则立体图像质量客观评价值为:
另外,本文探究了中央偏移因子对立体图像质量客观评价的影响。利用公式(4)得到中央偏移CB(x,y),CB(x,y)越大表明像素(x,y)距离图像中心点越近。采用公式(8)计算失真左视点质量的客观评价值,采用同样方法得到失真右视点质量的客观评价值。最后,采用公式(7)得到立体图像质量客观评价值。
2 实验结果与分析
本文主观实验使用的6幅标准立体图像对来自天津大学电子信息工程学院立体视觉实验室的立体图像库,分别为“Girl”、“River”、“Tree1”、“Ox”、“Tju”、“Woman”。如图1所示。
为了评价不同失真类型和失真强度的立体图像质量,对6幅标准立体图像对进行JPEG压缩失真和高斯加噪失真处理,共得到180幅失真立体图像对。在立体成像设备“3DWINDOWS-19A0”上对所有失真立体图像对进行主观测试,根据所有测试者的测试分数得到平均意见值(Mean Opinion Score,MOS)。本文使用Min-Max归一化方法分别对客观评价值与MOS值进行归一化处理,并扩展到范围为[0,5]的值。
采用4个常用的指标Spearman相关系数(SROCC)、Kendall相关系数(KROCC)、和均方根误差(Root Mean Square Error,RMSE)分析本文算法的性能。SROCC和KROCC的绝对值越接近1,RMSE的值越接近0,说明主观评价与客观评价的相关性越好;反之,则越差,具体如表1所示。
由表1的数据可以看出,VS-SSIM算法的SROCC值均在0.95以上,RMSE值均在0.45以下。与SSIM算法相比,引入中央偏移因子的CB-SSIM算法的各项性能指标均有不同程度的提高,说明中央偏移因子能够提高立体图像质量客观评价的性能;VS-SSIM算法的各项性能指标均优于CB-SSIM算法,说明考虑中央偏移的视觉显著性能够提高立体图像质量客观评价的性能,并且验证了视觉显著性对立体图像质量客观评价具有积极的影响。总体来说,针对不同的失真类型,VS-SSIM算法的SROCC、KROCC和RMSE指标均优于其余二种算法,VS-SSIM算法的客观评价值与主观评价结果具有更好的一致性。
3 结束语
本文将视觉显著性和中央偏移引入到立体图像质量客观评价算法中,提出了VS-SSIM和CB-SSIM两种算法。VS-SSIM算法利用GBVS模型和中央偏移特性提取视觉显著图,以模拟人类视觉系统提取显著区域的视觉过程。用视觉显著图来反映不同的区域对立体图像质量客观评价的影响,将视觉显著性与图像质量结合进行立体图像质量客观评价。同时考虑了中央偏移因子对立体图像质量评价的影响。实验结果表明,中央偏移因子能够提高立体图像质量客观评价的性能;相比CB-SSIM算法,考虑中央偏移的视觉显著性的立体图像质量客观评价算法更能准确反映主观评价结果。
参考文献
[1]Wang Z,Bovik A C,Sheikh A H r,et al.Image Quality Assessment:From Error Visibility to Structural Similarity[J].IEEE Transactions on Image Processing,2004,13(4):600-612.
[2]Patrizio Campisi,Patrick Le Callet,Enrico Marini.STEREOSCOPIC IMAGES QUALITY ASSESSMENT[C].15th European Signal Processing Conference(EUSIPCO 2007),Poznan,Poland,Sept.3-7,2007:2110-2114.
[3]De Miranda Cardoso J V,Danilo Miranda Regis C,Sampaio de Alencar M.On the performance of disparity-based weighting technique applied to 3D image quality assessment[C].Broadband Multimedia Systems and Broadcasting(BMSB),2014 IEEE international Symposium on,Beijing,25-27 Jun.2014,1-4.
[4]Wang Shan-shan,Shao Feng,Li Fu-cui,et al.A Simple Quality Assessment Index for Stereoscopic Images Based on 3D Gradient Magnitude[J].The Scientific World Journal,Volume 2014,Article ID 890562,1-11.
[5]Alexandre Benoit,Patrick Le Callet,Patrizio Campisi,et al.Using disparity for quality assessment of stereoscopic images[C].15th IEEE International Conference on Image Processing(ICIP).San Diego,CA,2008:389-392.
[6]Tsotsos J K,Culhane S M,Wai W Y K,et al.Modelling Visual Attention via Selective Tuning.Artificial Intelligence,Oct.1995,78(1):507-545.
[7]Tseng P,Carmi R,Camerson I G M,et al.Quantifying center bias of observers in free viewing of dynamic natural scenes[J].Journal of Vision,2009,9(7):1-16.
[8]Harel J,Koch C,Perona P.Graph-based Visual Saliency[C].Proceedings of Advances in Neural Information Processing Systems.Washington D.C.,USA:IEEE Press,2006:545-552.
[9]Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapic scene analysis[J].IEEE Transactions on pattern Analysis and Machine Intelligence.1998,20(11):1254-1259.
图像显著区域 篇6
随着计算机图形技术的发展,计算机通过图像或视频快速、正确理解周围环境的应用成为计算机视觉领域的一个难点。图像显著性信息能够有效反映图像中不同区 域对人视 觉系统的 刺激程度。因此,高效的显著性区域检测技术能快速模拟人类视觉系统,淡化和消除底层属性与图像感知之间的差异性,从而为图像识别、物体追踪和图像检索等应用提供可靠和完备的技术服务。
图像显著性检测方法分类较多,较为常见的检测模型有空间域、频率域、颜色域以及对比度检测等。这类区域显著性算法较以前的仿真生物显著性检测方法在实时性和复杂度上要高得多。虽然图像内容千差万别,但都满足频率特性,可用图像的梯度校验,因此图像内容变化的剧烈程度可用图像频率来表示。
1傅里叶频域谱残余图像显著性分析
在基于频域的图像显著性检测方法中,由Hou和Zhang提出的频域残余谱方 法(Spectralresidual,SR)是其中最具代表性的方法[1]。SR方法是指通过处理图像梯度谱得到谱残余信号,再利用傅里叶逆变换得 到频率空 域显著图。 在2010年后,Chen等人对谱残余方法进行了改进,提出了调幅傅里叶变换的算法框架,较好地解决了SR算法的噪声敏感性问题[1]。文章通过分析图像傅里叶频谱与图像显著性的关系以及采用SR算法分析的不足,提出一种基于谱残余的调幅相位的图像显著性检测方法。
图像信号频率是表征图像中灰度变化剧烈程度的指标,是灰度在平面空间上的梯度。图像数据信息经傅里叶变换后,显著性信息和非显著信息都存在于傅里叶频谱数据统计中。因此,从纯粹的数学意义上看,傅里叶变换是将一个函数转换为一系列周期函数来处理的。从物理效果看,傅里叶变换是将图像从空间域转换到频率域,其逆变换是将图像从频率域转换到空间域的过程。图像二维傅里叶变换可表示为
式(1)中,F(u,v)是f(x,y)的频谱。若变换矩阵Fn原点设在中心,其频谱能量则集中分布在变换系数矩阵的中心附近。若所用的二维傅里叶变换矩阵Fn的原点设在左上角,那么图像信号能量将集中在系数矩阵的4个角上。二维傅里叶频谱在实质上就是表示图像灰度分布按正弦(余弦)函数分布的光滑性,也可以说是图像高频幅值越大(不光滑程度越大,高频幅值越大),图像按正弦(余弦)分布越不光滑。将图形中显著性信息和非显著性信息统计成由一定振幅、相位和频率的基本正弦(余弦)信号,从而便于找出主要振动频率特点。图像频谱表示为
式(2)中,F(u,v)为傅里叶变换,A(u,v)为幅度谱,P(u,v)为相位谱。对式(2)两边取ln对数则可得到
由式(3)可以看出,图像的傅里叶频谱可以表示为幅度谱和相位谱二者和的形式。此时设输入图像为I(x,y),则SR算法可以表示为
式(4)中,S(x,y)是恢复得到的图像,F-1是傅里叶逆变换算子,h(u,v)是局部均值滤波模板。
SR算法模型的研究思路简单、快速、高效,但检测质量不高。由于其 算法采用 了采样图 像处理技术,在压制非显著性信息的同时也压制了显著性信息,因此得不到全分辨率的显著性图像,只能大体上标注显著对象的位置。
2调幅相位谱残余图像显著性算法分析
调幅傅里叶变换[2](Amplitudemodulationfouriertransform,AMFT)是指对图 像经过傅 里叶变换得到的幅 度谱进行 一定的调 整后,再进行傅 里叶逆变换,以获取图 像显著性 映射的方 法。相位谱显著性计算法可得出图像的 纹理结构 等重要特征信 息,而幅度谱 则可包含 图像的明 暗对比信息[3]。因此,二者的加 权结合应 用才能更 好地反应图像的显著性。
2.1AMFT算法原理
在对图像进行傅里叶变换时,图像中的物体影像被分解成一系列复数基波的加权和,幅度谱反映了这些基波在图像信息中所占的比重。一维信号经AMFT处理的过程如图1所示。
设定I(x)为图像一维信号方波,经过傅里叶变换后得出幅度谱A(u),然后利用SR算法得出处理后的幅度谱。此时可以看出原先的高频特征部分被压制程度较重,而低频特征部分则被压制的较轻,甚至可能被增强。
AMFT算法从本质上讲就是一个 复频域滤 波器,该滤波器根据 输入信号 的幅度谱 进行自适 应调整。因此可以说,AMFT算法是能 够根据图 像的全局信号分布,自适应选 择性地增 强稀有局 部特征的。
2.2相位谱显著性检测方法
相位谱显著性检测方法全称是傅里叶相位谱变换方法,简称PFT。2008年Guo等提出了 基于相位谱计算图像显著性检测的方法。PFT算法和SR算法在作用上相似,都是对图像的幅度谱进行调整,但PFT算法比SR更简单,具体表示为
式(5)中,S(x,y)为图像显著性,g(x,y)是二维高斯滤波器,它的作用是为了平滑优化得到的显著图。相位谱信号示意如图2所示。
图2是3组一维信号,第1组和第2组示意图都是脉冲信号,直接使用相位谱傅里叶变换后,可以发现在脉冲的交接处波动最为剧烈。第3组图是周期信号,在仅仅使用相位谱恢复后发现没有太过强烈的信号波动。
图像的相位谱展示了信号经傅里叶变换之后每个正弦分量的位置,根据相位信号恢复的图像对应着图像中边缘变化剧烈及无规律纹理区,这些区域也是人的视觉系统敏感的兴趣点[4]。因此用相位谱的方法能够得到模拟人眼视觉显著图。因此在进行显著图重构时,应完整保留图像相位谱来进行显著图重构,改变相位谱会改变原图像的位置和结构信息。
3技术应用
基于谱残余调幅相位的图像显著性检测技术有着巨大的应用前景,尤其在对目标物体的分割和内容感知的图像编辑等方面。
3.1图像分割技术
图像分割是图像处理和计算机视觉最为基础的研究问题[5]。利用显著性技术进行图像分割有两种方式:
(1)直接根据显著性信息将图像分成显著的部分和不显著的部分,阈值分割就是1种非常简单的实现。
(2)将显著性信息作为启发信息,代替人为交互,利用现有的有监督分割算法实现无监督分割。
研究实验中,在采用InterXEON5620四核处理器、4G内存的硬 件环境下 进行,开发环境 是WindowsXP下利用该图像检测技术对图像分割技术应用进行测试,图像分割技术应用如图3所示。
当需要分割的物 体恰好是 最先吸引 人的物体时,可以利用谱残余调幅相位图像显著性检测技术来快速决定感兴趣的物体,并将其分割出来。
评价基于显著性检测的分割方法分割效果的好坏一般基于2个标准:分割准确率和分割完全率。一般使用F度量来同时评价二者:
式(6)中,β控制着分割完全率和准确率在评价时的权重。从实验中所采用的图像案例来看,利用该技术进行图像分割能达到较好的效果,对目标物体的区域分割边界清晰、区域明显。
3.2图像内容感知技术
内容感知技术在图像高级编辑中应用广泛,比如基于内容感知的图像背景模糊技术,基于内容感知的图像缩放技术等。
在摄影中,经常需要拍摄景深小的背景虚化照片。对于高端单反相机和专业的图片软件进行处理都可以实现,但费时费力且成本高。而利用显著图技术,可以快速解决这个问题。其基本的思路是,根据像素的显著性的高低对图像不同区域进行不同程度的模糊,显著性高的区域不模糊或者尽量少模糊,而显著性低的区域进行大范围的模糊,这样就能实现背景模糊效果。
在图像缩放处理中,图像感知技术也非常有效。比如将一幅图像在各种设备上满屏显示时,由于每种设备的显示区域可能都有自己的长宽比,因此,图像需要按照不同的比例放缩,图像中的内容将出现严重的变形。利用显著图可以确认图像中主要物体所在的区域,通过对主要物体进行特殊对待,在缩放图像后,图像中的主要物体的形状和细节及其基本周围环境信息就能够较好的保持。基于内容感知的图像缩放技术如图4所示。
第1排3幅图为1组图像,右侧是采用频率谱残余调幅相位算法对原始图像进行缩放后的效果,可以看出最终图像显著性区域无明显变异扭曲,人物的细节和道路形状都能较好的保存下来。第2排图像采用了经典的缩放裁剪(Seamcarving)梯度方法。从实验中可以清晰看出经过2种技术方法处理后图像的差异。
4结束语
图像显著区域 篇7
基于Dirk Walther提出的显著区域选择方法和Linderberg提出的尺度空间主结构的方法, 本文提出了一种新的视觉关注区域提取方法, 该方法结合了基于显著度的区域选择和尺度空间主结构方法的优点, 实现了关注区域和关注目标所在最优尺度的自动选择。提取关注区域和最优尺度方法可以分为三步, 首先通过基于显著度的区域选择方法估计目标的大致范围。目标空间范围是由对当前显著点显著性贡献最大的单一特征来确定的, 缺乏对图像的结构特性和目标形状等因素的考虑。然后, 在已经确定的空间范围内, 使用尺度空间主结构的方法来提取图像中重要的结构图斑, 确定目标的最优观察尺度, 获得兴趣区域的量化和最优尺度的直接表示。最后, 模型将这两步中得到的区域结果合并起来作为视觉关注区域, 同尺度信息一起移交给识别模块。本文提出的视觉关注区域提取方法框架请见图1。
1.1 基于显著度的区域选择
基于显著度的区域选择方法的框架如图2所示。输入一幅彩色图像, 用r, g, 和b表示红、绿、蓝通道的数值, 则亮度图为:
undefined
使用MI构建高斯金字塔MI (σ) 。将输入MI和高斯滤波器进行卷积, 获得滤波结果并以2为步长进行减抽样, 尺度级别为σ=1, 2, …, 9。
为了突出不同颜色通道产生的反差效果, 在图像金字塔的每一层上, 模型计算对应红绿对比通道以及蓝黄对比通道的颜色图:
undefined
使用Gabor 滤波器对亮度金字塔MI (σ) 进行滤波, 得到局部方向图Mθ (σ) , 滤波器设定设定4个主要方向, θ∈{0°, 45°, 90°, 135°}。
对颜色、亮度和方向多维特征, 在其图像金字塔上, 应用中央周边差 (Center Surround Difference) 操作, 将中央尺度 (c) 的图像和周边尺度 (s) 的图像做跨尺度减Θ操作, 进而得到特征图:
undefined
这里, c=3, 4, 5, 表示中央尺度;s=c+δ, s表示周边尺度, δ∈{3, 4};LI={I}, I表示亮度特征通道;LC={RG, BY}, RG表示红绿颜色对比通道, BY表示蓝黄颜色对比通道;LO={0°, 45°, 90°, 135°}, 0°, 45°, 90°, 135°表示使用Gabor滤波器对亮度金字塔进行四个方向滤波后产生的对应的特征通道。N (·) 是一个迭代、非线性的归一化算子。
对特征图进行跨尺度加⊕操作, 然后再次进行归一化操作:
undefined
对颜色和方向特征, 计算其各自子特征所对应的突出图CM (conspicuity maps) , 并进行归一化操作, 而亮度突出图则等同于undefined:
undefined
将所有突出图进行线性叠加获得显著图:
undefined
已知显著图中获胜点的坐标 (xω, yω) , 在突出图中, 确定对当前显著图中显著点的贡献最高的突出图序号:
undefined
在突出图对应的特征图中, 确定对当前显著点的贡献最高特征图序号:
undefined
式中, ∀l∈{LI, LC, LO}, LI=I表示亮度特征通道;LC={RG, BY}, RG表示红绿颜色对比通道, BY表示蓝黄颜色对比通道;LO={0°, 45°, 90°, 135°}, 表示使用Gabor滤波器对亮度金字塔进行4个方向滤波后产生的对应0°, 45°, 90°, 135° 4个特征通道。
得到获胜的特征图Flω, cω, sω 后, 在显著点坐标 (xω, yω) 周围做图像分割。根据当前显著点所在特征图上的数值, 在其数值衰减到1/10处做阈值分割, 从而得到包含显著点区域的二值图:
undefined
在获得的二值图上, 标记包含种子点 (xω, yω) 的区域, 获得到只包含显著区域的二值图:
undefined
这里, label (·) 表示标记并返回包含给定坐标的连通区域的操作。
最后对二值图B进行H (·) 操作, 获得包含显著区域的最小凸多边形点集合:
undefined
式中, H (·) 表示求输入二值图中所包含区域的最小凸多边形点集的操作。
1.2 尺度空间主结构
本文关注以图斑为表现形式的尺度空间主结构。基于尺度空间主结构的思想, 能够确定图像中图斑的大致位置、空间范围以及分析处理图斑区域内信息的合适空间尺度。
给定二维连续信号, 例如输入图像f:R2→R, 其高斯线性尺度空间表达L:R2×R+→R, 其中:
undefined
这里t∈R+表示尺度, g (x, y;undefined为高斯核函数, *代表卷积操作。
然后, 使用尺度归一化拉普拉斯算子 (Scale-normalized Laplacian Operator) , 检测存在于尺度空间中的极值:
undefined
式中, |·|为取绝对值操作。拉普拉斯滤波在尺度为t的较暗图斑处引起正值响应, 而在相同尺度的较亮图斑处引起负值响应。对拉普拉斯滤波结果求绝对值并乘以尺度t, 能够捕捉到不同尺度上的图斑。
进而确定滤波结果中的极值点。在响应结果中, 如果一个点比它周围4邻域或者8邻域的值都大, 确定这个点是一个局部极值点。
接着, 根据极值点确定相应的图斑区域。在所得的极值点中, 寻找最大值点所处的坐标和尺度, 确定输入图像中最重要图斑的观测坐标和尺度:
undefined
使用Otsu算法, 计算尺度空间中尺度为undefined的图像的基准灰度级:
undefined
式中, otsu (·) 表示使用Otsu算法对输入灰度图像计算全局分割阈值的操作。
使用基准灰度级对尺度为undefined的图像进行二值化分割:
undefined
在二值图BW上, 标记包含种子点undefined的区域, 获得只包含图斑区域的二值图:
undefined
式中, label (·) 表示标记并返回包含给定坐标的连通区域的操作。
最后对二值图Bb进行H (·) 操作, 获得图斑区域的最小凸多边形点集合:
undefined
式中, H (·) 表示求输入二值图中所包含区域的最小凸多边形点集的操作。
同理, 给定图像区域, 使用公式 (3-6) ~ (3-12) 可确定给定区域内最大响应极值点坐标和尺度, 进而提取出包含目标的图斑区域。
1.3 关注区域的提取
通过基于显著度的区域选择方法, 获得包含显著区域的最小凸多边形点集合cs, 在cs对应空间区域内寻找相应的最大局部极值点坐标和相应尺度, 利用上节中的方法可以确定包含图斑区域的最小凸多边形点集合cb。为了获得目标的完整覆盖效果, 将图斑区域向外膨胀κ倍 (本文中取经验值κ=1.5) , 确定扩大后区域的最小凸多边形点集合c′b:
undefined
这里, expand (·) 表示将图斑区域扩张的操作。具体过程为, 首先计算图斑的质心, 得到图斑质心到轮廓凸多边形点的原始距离, 由图斑质心和轮廓点确定直线方程;然后将原始距离乘以给定的系数得到放大距离, 根据直线方程确定从图斑质心经过放大距离后的新的轮廓点坐标;最后将集合内所有点扩张后, 生成新的凸多边形点集合。
将凸多边形和包含显著区域的最小凸多变形cs合并起来, 获得最后的关注区域r:
undefined
C (cs, c′b) 表示将区域cs和区域c′b合并的操作, 通过包含两个区域轮廓的凸多边形来实现。
通过基于显著度的区域选择, 模型考虑到对当前显著点显著性贡献最大的特征, 进而确定对应于显著坐标处目标近似大小的空间区域范围。结合尺度空间主结构的方法, 模型可确定图像出现在不同尺度的重要结构图斑, 提取图斑区域范围和合适尺度。通过合并图斑区域和显著区域, 获得最后的关注区域r, 连同合适尺度undefined, 可更好的为识别模块服务。
2 实验
2.1 实验环境
本章模型在Matlab7.0开发环境中实现, 运行环境为Pentium (R) D CPU 2.80GHz处理器, 1GB内存, Windows XP操作系统。
2.2 运行结果
图3显示了本章视觉关注区域提取方法的一个运行实例。
模型测试户外自然场景彩色图像, 如图3 (a) 所示, 输入图片大小256×256象素。图中包含很多气球, 实验的目的是提取图像中最显著的气球区域。首先利用基于显著度的区域选择方法提取出显著区域, 判断颜色特征对显著点的贡献最大, 将相应区域分割结果用白色轮廓线表示, 如图3 (b) 所示, 可以看出轮廓线没有完整包含显著气球的目标区域。然后将彩图变成灰度图, 使用尺度空间主结构方法提取图像中的重要图斑和所在尺度。模型选择的尺度为t= 1.5, 2.2, 3.3, 5, 7, 10, 13, 16, 20, 25, 32, 64, 128, 512 和 1024。对每个尺度图进行尺度归一化拉普拉斯滤波后, 计算局部极值点。在之前基于显著度的区域选择方法得到的显著区域中, 寻找最大响应极值点坐标和尺度。模型确定显著区域内, 尺度t=20上存在最强响应局部极值点。然后使用Otsu算法求得尺度t=20的灰度图像的基准灰度级, 进而确定局部极值点处图斑的空间区域, 以黑色线将图斑轮廓在图3 (c) 中画出。为了获得目标的完整覆盖效果, 我们将图斑轮廓线向外膨胀1.5倍, 其扩展后的轮廓线如图3 (d) 中白色轮廓线段所示。最后模型将两步计算得到的区域合并, 画出新的轮廓, 如图3 (e) 中白色轮廓线所示。通过图3 (b) 和图3 (e) 可见, 本章提出的关注区域提取方法获得的结果比Walther的基于显著度的区域选择方法获得的结果, 更好、更完整地覆盖目标。
3 结束语
本文的关注区域提取算法所获得的结果是粗糙的, 不是严格的目标边界。但是这种分割方法得到的结果是比较安全的, 因此可以作为视觉关注区域, 而且在很大程度上减少数据冗余量。这种方法考虑了对当前图像显著性贡献最高的特征, 同时也可以自动确定观测目标的最优尺度, 为下一步的目标识别、分析和如何指导注意力的转移打下了良好的基础。同时, 人类视觉注意力是在自底向上和自顶向下信息的综合作用下转移的。在当前关注区域的提取过程中, 虽然利用了自底向上的信息, 但是缺乏先验信息的引导, 这种简单的关注区域提取方法无法满足面对复杂目标时的任务要求。因此, 在进一步的研究工作中, 我们将对如何利用图斑及先验知识提取关注区域及指导注意力转移进行更深入的研究。
摘要:基于显著区域选择和尺度空间主结构, 提出了一种新颖的关注区域提取方法。模型中, 关注区域提取方法分为三步:首先使用基于显著区域选择方法, 利用对目标显著度贡献最大的特征估计图像中目标的大概位置;然后利用尺度空间主结构方法获得当前位置图像的重要结构区域范围以及合适的观测尺度;最后, 将前两步中获得的区域范围合并起来作为最后的关注区域。实验结果和比较证明本文提出的模型能够获得较好的目标区域提取结果, 更好地为识别模块服务。
关键词:显著区域选择,尺度空间主结构,关注区域,图斑
参考文献
[1]TREISMAN, A.Perceptual grouping and attention in visual searchfor features and for objects[J].Journal of Experimental Psychol-ogy:Human Perception and Performance, 1982 (2) .
[2] ITTI, L.Models of bottom-up and top-down visual attention[D].California Institute of Technology, 2000.
[3] WALTHER, D., RUTISHAUSER, U., KOCH, C.et al.Selective visual attention enables learning and recognition of multiple objects in cluttered scenes[J].Computer Vision and Image Understanding.2005 (1-2) .
[4] LINDEBERG, T.Feature detection with automatic scale selection[J].International Journal of Computer Vision, 1998 (2) .