感兴趣区域编码

2024-08-01

感兴趣区域编码(通用7篇)

感兴趣区域编码 篇1

当前,航拍视频监控是一种有效的收集信息的方法,可以应用在军事行为、灾害管理以及商业等领域中。随着数字图像处理技术的发展,航拍视频数据量激增。为了解决日益增长的应用需求和有限的网络带宽之间的矛盾,大量的航拍视频开始通过计算机进行自动处理。

与其他视频监控技术不同,航拍视频可以覆盖较大范围的空间区域,尤其适合监控快速移动的目标。而在实际应用中,为了保证实时性,并不需要清晰地传输每一帧图像中的全部内容。航拍视频 中的感兴 趣区域 ( Region - of - Interest,ROI) 通常是人工目标,如道路、建筑、房屋等,以及运动物体。在相同的带宽下,对人们关注的区域进行高质量的编码传输,而对背景区域进行低质量编码传输,得到的效果要好于对整帧画面统一编码传输的方法。

传统的视频编码核心技术大多是通过去除视频中的时间、空间和统计等冗余信息来实现数据压缩,这样并没有很好地利用人眼的主观感知特性。因此,为了更有效地存储和传输海量的视频数据,出现了基于人眼感知机制的压缩方法。

感知视频编码利用人眼的感知性质,在没有感到明显的质量下降的情况下,去除视频中的感知冗余。根据感知理论,人们通常将注意力集中在画面中感兴趣的区域,而不是整幅画面。根据这一特性,可以从视频中提取感兴趣的目标或区域,在编码时对其分配较多的比特数并优先传输,将其他区域视为背景,分配较少的比特数。这样,在带宽有限的情况下,可以保证重点区域优先编码和传输,并且在解码端可以对感兴趣区域优先解码。即使在码流被截断时,背景的解码受到影响,但感兴趣区域仍可以清晰呈现。对感兴趣区域和背景区域分别处理,既避免了计算资源浪费,又降低了分析难度。

1 视觉注意机制

在观察整个视觉场景时,人眼的注意力一次只集中在一个或者为数很少的几个区域上,这个过程被称为视觉注意( Visual Attention) ,注意力集中的区域被称为感兴趣区域。图1是典型的视觉注意机制示例,由于形状、颜色与周围形成鲜明反差,观察者会迅速地将注意力集中在图中深色的圆盘上。

视觉注意是人类视觉系统( Human Visual System,HVS)中一项重要心理调节机制,能够影响人们对各种不同刺激进行辨认和识记,并引导人们有选择地获取所关注目标的特征,从而降低信息处理量。认知心理学研究表明,人类处理视觉信息分为视感觉处理和视知觉处理两个阶段[1]。其中,视感觉以并行的方式接受外界的视觉刺激,视知觉以串行的方式解释视感觉信息的意义。由于外界存在各种不同视觉刺激,视感觉提供的信息量远远大于视知觉阶段的处理能力。同时这些视觉信息中仅有一部分对人类认知活动起重要意义,没有必要对所有信息进行处理。因此,HVS需要利用视觉注意机制对大量视觉信息进行筛选,降低信息处理量,才能实现视感觉和视知觉这两个阶段的匹配,使人类可以快速地处理视觉信息,并及时作出反应。

视觉注意的一般表现形式是眼动( Eye Movement) ,根据是否伴随眼动,可以将视觉注意分为显式选择性注意( OvertAttention) 和隐式选择性注意( Covert Attention) 。由于人眼具有中央凹特性,即视网膜中心部分的分辨率远高于周围部分[2],人类注意力转移的时候通常带有明显的人眼注视焦点的转移,这便是显式选择性注意。而隐式选择性注意则是指不伴随注视焦点转移的注意力转移,例如人在正视前方的时候仍然可以注意到两侧运动的物体。目前针对这两种注意形式的注意力转移都有相关的研究工作[3],其中通过捕捉人眼运动来提取显式注意感兴趣区域的方法最为直观、快速、准确。另有研究[4]表明,虽然选择性注意分为显性和隐性两种,但人眼注视点移动到新的位置必然会使注意焦点也随之移动,因此基于眼动捕捉的方法总能反映人眼的视觉注意焦点。

根据在视觉活动中所处的阶段,视觉注意通常分为自下而上( bottom-up) 和自上而下( top-down) 两种基本类型[3]。自下而上的视觉注意由数据驱动,发生在视觉活动的初期阶段,基于输入视觉刺激信号的初级特征( 如颜色、方向、亮度)建立,不受特定认知任务对视觉注意的影响。图1体现的正是自下而上的视觉注意,在没有任务指导的情况下,由于形状、颜色特征与周围区域有显著不用,人眼将注意力集中在两张图中深色的圆盘上。自上而下的视觉注意与人的主观意识、记忆以及当前任务等有关,发生在视觉活动的后期,如在自然状态下,画面中人脸区域通常是感兴趣区域,在监控视频中,与任务相关区域是感兴趣区域。

航拍视频中,由于一般是远景画面,画面中数据量巨大,同时有大量树木、建筑等结构复杂的纹理图案,单纯数据驱动的方法不能起到很好的效果。同时,航拍视频中人们感兴趣的区域往往是一些特定目标,如运动物体、机场、跑道、桥梁等,利用这些先验知识,采用任务驱动的注意模型,根据目标特征的检测提取感兴趣区域更适合于航拍应用。

2 感兴趣区域提取方法

基于ROI的视频编码将视频场景分成感兴趣区域和非感兴趣区域分别进行处理,利用HVS更合理地分配比特资源和计算资源,可以有效去除感知冗余,提高编码效率。

如何提取出符合HVS感知结果的感兴趣区域是ROI视频编码技术的一个关键问题。现在应用较广的感兴趣区域提取方法可以分为手动设置、数据驱动提取、任务驱动提取。手动设置的方法适用于对准确度要求高的场景,但高度依赖于人工。数据驱动和任务驱动的方法分别利用了第1节介绍的自下而上和自上而下的2种视觉注意机制,通过建立视觉模型,自动提取感兴趣区域。这3种方法的原理、特点和适用场景各有不同,本章将结合应用对它们分别进行介绍。

2. 1 手动设置

手动设置,即用户通过鼠标、触屏或眼动仪( Eye movement tracker)[5]等输入设备人工地从视频中提取感兴趣区域。图2是手动设置的示意图,图中矩形区域为用户手动选取的ROI。这种方法直接根据用户的需要设置ROI,因为少了ROI自动提取的处理,而具有提取速度快的优点。此外,在一些对准确度要求高的场景中,自动的方法往往不能满足要求,需要用户进行手动ROI设置。如医疗系统中,ROI自动提取若出现错误可能会导致关键部位的影像不清晰,严重影响诊治结果,而利用手动方法,可以避免这种风险。文献[6]提出了一种基于Wi MAX无线网络的医疗视频传送系统,在传输过程中系统对用户手动设置的感兴趣区域采用高级别的安全机制,以保证对关键部位影像能够正确传输。在带宽受限的实时应用中,利用手动设置方法提取ROI还可以提高系统的交互性。如在实时航拍视频中,接收端用户随时可以根据需要手动选择ROI,编码端则根据新的ROI划分,重新分配资源,使用户可以看到所选目标的细节信息,实现与用户的交互。

目前,手动设置的方法还存在一定不足。首先,手动提取ROI依靠人工,进行操作的用户一般需要有相关的知识技能,才能完成任务。此外,手动方法对硬件设备要求较高,不仅需要有输入设备及相关设备来处理用户的输入操作,还需要占用一定带宽传送控制指令。另一方面,ROI的设置与编码器重新编码之间总存在着传输时延和处理时延[7],而由于带宽和编码器性能的限制,这些延时难以忽略,如果感兴趣区域变化过快,用户将无法接收到符合要求的视频画面。为了减小时延,编码器可以对用户设置的ROI进行预测,使编码器可以根据预测结果提前进行编码。

由于依靠人工,且对设备要求高,手动方法难以大规模应用,但在航拍视频场景中,凭借准确度高、交互性好的优点,仍有广阔前景。

2. 2 数据驱动提取 ROI

数据驱动模型基于自下而上的视觉注意机制建立,主要研究画面中的初级特征( 如颜色、方向、亮度) 对人眼视觉注意的影响,与认知任务无关。在现有的视觉注意模型中,Itti等[8]提出的基于显著图的模型( 以下简称“Itti模型”) 最具有代表性。如图3所示,显著图描述了画面各部分的显著程度,显著程度高的区域设定为ROI。显著图是一张灰度图,亮度越高,显著度越高。圆圈是以显著度最高点为中心的圆,将它所在的区域设定为感兴趣区域。

根据HVS对视觉信号的处理机制,Itti模型利用高斯滤波器、Gabor滤波器得到图像在多个尺度上颜色、亮度和方向的显著图,然后通过中央-周边算子( center-surround) 以及线性相加的方式,将不同尺度不同特征的特征图合为一张显著图。得到显著图后,Itti模型采用WTA( Winner-Take-All) 神经网络与返回抑制机制从显著图中获得注意焦点( Focus ofAttention,FOA) ,最后将以FOA为中心、半径固定的圆所在的区域设定为感兴趣区域。大量实验[9]表明没有上层任务指导,完全根据图像中各区域的显著程度进行视觉焦点转移的情况下,Itti模型基本可以搜索出各个注意区域。

在不同应用场景中,视频画面特性可能有非常大的差别,如何根据实际应用更有效地得到显著图,并提取ROI是目前的研究热点。一种应用于红外图像的ROI提取方法[10]针对红外图像分辨率、信噪比和对比度较低,且为灰度图的特点,对Itti模型进行了改进,使用小波变换替代高斯滤波生成多尺度图像,利用交替式有效子窗口搜索A-ESS替代WTA神经网络来获得FOA。Zhai等人[11]将视频场景时域上的运动特征引入,在快速运动场景和慢速运动场景下均提取出了正确的感兴趣区域。

现有的数据驱动模型对于内容比较简单的自然图像可以很好地提取出ROI,但是对于航拍视频却难以获得理想的检测结果。这是因为航拍视频内容复杂、信息量大、纹理信息丰富,而数据驱动模型在计算显著程度时通常依靠局部信息,没有充分考虑全局信息[12]; 除此之外,航拍图像的应用背景通常比较特殊,所以数据驱动、独立于任务的ROI检测算法在应用于航拍图像时存在一定的局限性。

2. 3 任务驱动提取 ROI

任务驱动模型基于自上而下的视觉注意机制建立,与观察者已有的经验、心理模型以及所处的任务等因素有关。由于涉及记忆、控制等模块的分工协作,甚至包含解释感觉信息等十分复杂的过程,人们难以得到通用的任务驱动模型,但在实际应用中,针对某一任务,利用其先验知识,可以有效地提取ROI。例如,在人物视频中,由于人脸区域通常是感兴趣区域,使用人脸检测算法引入人脸对视觉注意的影响可以大幅提高ROI提取的准确程度。

如前所述,航拍视频具有内容复杂、信息量大、纹理信息丰富等特点,因此单纯的基于数据驱动的建模方法难以得到理想的ROI,但由于航拍视频应用背景特殊,具有充足的先验知识,因此很适合利用任务驱动模型提取ROI。下面针对航拍视频中不同检测目标介绍目前常用的算法。

建筑物是城市区域的重要标志,检测结果可用于城市规划、智能驾驶等民用领域,以及军事目标识别、打击等军事领域。在高分辨率图像上,建筑物目标一般结构复杂、形状多样,且所处环境复杂、干扰较大。一类方法是边缘驱动或区域驱动算法[13],关注像素或区域的部分特征,具有简单高效的优点。此类方法对建筑物边缘进行折线逼近和感知编组,对于平顶直角建筑物的提取准确率高、鲁棒性好; 采用预定义形状和大小的滑动窗模型提取建筑物等。另一类方法是基于对象分析图像进行信息提取[14],如通过Boosting算法训练分类器,根据选取的样本特征学习提取目标; 采用对手惩罚竞争学习方法分割图像,并选择基于空间包络模式的支持向量机进行分类,最后通过结构特征确定建筑目标。

机场跑道的识别对于飞机起降等过程十分重要。由于机场跑道具有一些普遍特征,即自身灰度比较平稳,且呈长方形,所以此类检测问题可以转化为检测直线。最为经典的直线检测算法即为霍夫变换,它对噪声不敏感,但是计算复杂度高,实时性差。针对霍夫变换的改进方法有基于图像空间多尺度划分的霍夫变换方法[15],可以检测出边缘较短的线段,再通过线段连接,得到完整的跑道边缘。另一种常用的方法为链码跟踪法[16],其计算量小,但对噪声敏感。将改进的链码跟踪与分层霍夫变换相结合,既可以精确地检测出目标,又可以大大提高运算速度,该方法可以进行实时高精度检测,并且对于遮挡干扰、模糊干扰都具有良好的抵抗性。

城市道路的识别对于地图、导航等十分必要,由于城市道路通常处于密集建筑物群和其他地物中,背景复杂。因此自动提取的方法,如基于边缘、基于平行线对、基于二值化和知识提取的方法,得到的信 息过多,不适合实 际应用。文献[17]提出了基于统计-几何模型的方法,根据道路的形状和灰度特征建立几何模型,并根据概率分配得到检测结果,该方法具有较高的稳定性。文献[18]提出的基于动态规划的提取方法,先从低分辨率图像中建立道路的特征模型,再通过改进代价函数在较高分辨率图像中提取道路区域。结合LiDAR点云数据,可以降低算法对单一数据源的依赖性。

桥梁对于运输、军事打击等具有重要意义。根据桥梁是架设在水面上,以及桥梁和水域各自的灰度特征和几何性质存在很大差异的特点,可以建立典型场景模型进行匹配。模型驱动的方法计算量小、实时性好,但是建立模型需要大量的图像以取得先验知识,使得其应用具有局限性。由于不同场景的桥梁类型不同,具体特征也存在较大差异。有很多方法选择了检测河流区域,然后通过河流和桥梁的位置关系计算得出桥梁所在区域[19]。根据桥梁的灰度范围和灰度梯度与河流存在明显反差,首先建立河流特征模型,并通过形态学等方法处理提取河流,然后即可通过河流走向及水域间距离搜索得到图像中的桥梁位置。考虑到一些图像中桥梁和水面、陆地的灰度并不十分明显,文献[20]还提出了通过水面纹理特征分割水域的方法,该方法能够有效识别近景、远景和低对比度航拍图像中的桥梁区域,定位精度较高。

现有的检测运动目标的方法,大多数都是针对静止背景,或背景变化较小的场景,通常可以采用简单的帧差法进行运动目标的提取。但是在航拍图像中,随着拍摄的进行,镜头在不断运动,背景也存在着不规则的运动。随着背景运动补偿技术的发展,运动背景下的目标定位成为了可能。现有的方法通常为,先得到背景的仿射模型参数,以进行运动背景补偿,再使用基于运动向量聚类的方法定位运动目标。为得到背景的模型参数,可以利用稀疏采样块的方法,具体如局部补偿误差函数泰勒展开算法或Huber函数估计方法,以及利用图像特征点的方法,如最小亮度变化算法、圆形模板和多格算法等[21]。

3 基于感兴趣区域的编码技术

基于ROI的编码技术,通常采用分级压缩/解压缩的图像编码方式,对非感兴趣区域采用较高的压缩比,而对感兴趣的目标区域采用较低的压缩比,从而大幅减少了数据的实时传输量,同时对目标识别有很好的效果。图4对比了航拍视频中,采用相同比特率,普通编码与ROI编码的同一帧图像。基于ROI的编码技术( 图4b) 将桥梁设为感兴趣区域,给该区域( 方框内) 分配更多的比特资源,使其失真变小; 非感兴趣区域( 如圆圈内) 的比特资源变少,其失真较普通编码更大。由于在实际应用中,感兴趣区域的失真程度往往决定着视频编码的质量,因而基于ROI的编码有着更高的应用价值。

目前常用的基于ROI的编码方法有编码预处理、可变比特率编码、恒定比特率编码和分层编码。编码预处理在编码前即对视频进行处理,可以用于不同类型的编码器。可变比特率编码和恒定比特率编码分别控制视频的输出质量和比特率在较小范围内波动。分层编码则是考虑到信道的特性,根据给定的比特率,得到最优质量的视频编码。

3. 1 编码预处理

编码预处理是指在编码前对视频序列进行预处理,减少非感兴趣区域的细节信息,同时保留感兴趣区域信息。由于非ROI的细节信息变少,编码器可以用更少的比特对这部分进行编码,而编码后ROI的质量与原画质相近,利用HVS的视觉注意机制,实现了基于感兴趣区域的编码。

编码预处理通常利用空间模糊来减少细节信息。对画面中某一区域进行模糊处理的强度与该区域的感兴趣程度相反,感兴趣程度越高,模糊强度越低。一种最简单的预处理方法就是将视频画面分为前景和背景,只对背景区域进行模糊处理,但这样会使前景和背景之间产生明显的边界现象。为了解决边界问题,Itti[2]采用了变化连续的模糊处理,与感兴趣区域距离越远,模糊强度越高。除了空间模糊,编码预处理还可以通过时域处理实现[22]。编码器在编码时会利用视频的时域冗余度进行压缩,即将画面中的点用同一位置的不同帧像素的残差表示。对视频序列进行时域的“模糊”,可以减小残差,使编码器用更少的比特对视频进行编码。

由于是在编码前对视频进行处理,编码预处理不需要改变编码器结构,就能与任何编码器结合进行基于感兴趣区域的编码,十分易于实现。同时,由于很多编码器都是以“块”为单位进行编码,通过修改编码器实现的ROI编码方法容易引起明显的块效应,利用编码预处理技术可以有效避免这一问题。

编码预处理将质量控制与编码分离,虽然便于与不同编码器结合,但也导致其在与具体编码器结合时,无法充分发挥编码器性能,存在效率低下的问题。

3. 2 可变比特率编码

可变比特率编码是指输出码率可变的编码,其输出码率可以根据输入信号的复杂度进行自适应调整。基于ROI的可变比特率编码根据人眼对画面中不同区域的感兴趣程度,以不同的编码参数进行编码,使得输出视频的感知质量相对平稳。由于可变比特率编码的目的是保持输出质量不变,不同帧的编码比特数可能有很大差异。

现有的一些编码器支持对不同区域使用不同参数进行编码,因此可以直接实现可变比特率编码。FMO( Flexible Macroblock Ordering) 是H. 264编码标准提供的一种技术。不同于通常的图像扫描顺序,FMO允许宏块以一定的逻辑规则映射到相应的片( slice group) 里,突破了传统意义上片的划分。利用FMO灵活分片的特性,根据视觉感兴趣程度将宏块划分到不同片,再分别以不同的参数( QP、目标比特数等) 进行编码,是目前基于H. 264的感兴趣区域编码的一类常用方法[23]。

可变比特率编码允许码率根据场景的复杂度在一定范围内变化,因而能够获得近似恒定的视频服务质量,它能较好地平衡视频图像质量和输出码率波动之间的关系。由于用较多的比特对感兴趣程度高的区域编码,用较少的比特对感兴趣程度低的区域编码,可变比特率编码更适合于存储,而不适合流式传输。

3. 3 恒定比特率编码

恒定比特率编码( Constant Bit Rate,CBR) 方法将编码视频的比特率控制为基本恒定,只在目标比特率附近有较小的波动,因此编码输出的质量随着内容复杂度的变化而变化。为保持比特率恒定,通常的做法是改变编码参数。考虑到人眼的视觉特性,赋予感兴趣区域较多的比特数,而减少对背景编码分配的比特数,可以在不同视频场景下,保持每帧编码的比特率不变,而编码后的视频质量存在一定的差异。

为了在ROI和非ROI之间合理地分配比特数,从而在使用相同的比特数进行编码的条件下,达到更好的视频感知质量。可以在编码时分配给ROI较多的比特数,提高整体的视频质量。同时,为了降低编解码的计算复杂度,需要调整编码参数,如运动估计的模式、运动估计子像素的精度、运动估计搜索范围以及运动估计多参考帧等。这样,由于减少了ROI以外区域的计 算复杂度,整体的编 码时间大 大缩短。文献[24]建立了运动外推编码复杂度传播模型,该模型决定了帧内ROI和非ROI之间的比特分配,而视频的帧间比特分配由比例积分微分( PID) 决定,由此取得了一致感知质量和平滑缓冲区波动之间的平衡。

文献[25]根据人眼注意机制,将宏块按照其在帧内的位置分成了5种类型。该方法选用平方率量化模型表示码率、量化步长和均方差( MAD) 之间的关系。针对场景变化较小、运动缓慢的视频,采取线性MAD预测模型,使得运算复杂度降低; 通过MAD确定帧的复杂度,进一步决定比特分配。再通过宏块的类型确定QP值,并限定了QP的变化范围以保证画面的平滑。

根据HVS对高频信号失真不敏感的特点,文献[26]结合了视觉感知图对ROI进行编码。在H. 264编码过程的整数变换后、量化前,使用频率系数矩阵将高频分量按照视觉重要程度进行截断。从而给视觉重要的区域分配了更多的比特数,提高了这些区域的质量。

文献[27]在MPEG-4平台下,提出了一个区域权重率失真模型。基本层在编码ROI区域时的QP值取决于该模型计算出的各区域的编码权重。在增强层,通过位平面平移的方法来改变ROI的重要程度。例如,当码流被截断时,被放在比特流的前端包含ROI的宏块,就可以得到保留,与其他部分相比,被提升的宏块具有更好的视频质量。文献[28]针对MPEG-4的视频编码,提出了一种基于凸优化的对象级码率控制算法。该方法利用率失真( R-D) 模型,计算出当整体的失真程度最小时,一帧内多个VOP之间的比特最优分配。为实现对象级的ROI编码,在MPEG-4中,可以给不同的对象( Visual Object ,VO) 分配不同的权重。然而,如何准确分割对象是基于对象的编码方法的难点。

在流式传输中使用恒定比特率CBR编码最为有效。使用CBR编码时,比特率在流的进行过程中基本保持恒定,并且始终处于由缓冲区大小确定的时间窗内。CBR编码的缺点在于编码内容的质量不稳定,所以CBR流的某些部分质量会比其他部分差,相邻流的质量也会出现差异。

3. 4 分层编码

由于网络的异构性特点,以及网络流量随着时间的变化而变化,网络信道容量不再是固定的参数。一方面,编码器难以确定在不同比特率下如何使得编码视频的质量最优,另一方面,解码端可能无法及时解码所有接收到的比特以重建视频信号。因此要求比特流在一定的范围内波动时,对于任意的比特率进行部分解码,并在该比特率下得到重建的最优质量视频信号。

MPEG-2标准中提出了信噪比可扩展、空间可扩展和时间可扩展的方法,根据信道容量的不同,只解码部分比特流,使得比特率可以根据接收到的比特数进行自适应调整。层间可扩展性编码通常的特性为: 增强层的数据或者全部被接收解码,或者全部没有解码,完全没有起到增强的作用。而在MPEG-4中,精细可分 级编码 ( Fine Granularity Scalability,FGS) 增强层的比特流在编码完成后,每幅图像可以被截成任意比特数的流,解码器可以从基本层和截断的增强层比特流中重建出一个具有增强效果的视频。增强层的视频质量与解码器分配给每幅图像解码的比特数成正比。

多向位平面解码过程( MWBDP)[29]在解码时增加了一个延迟单元。在与寻找开始标志和多VLD分量结合后,可以重建一个快速位平面解码器。在FGS的增强层中,所有的解码过程共享一个帧缓冲区,该方法可以实现一个近似实时的解码器。宏块同步解码方案中,FGS增强层宏块可以在与之对应的( 即具有相同地址的) 基本层宏块重建后立刻开始解码,而不需要基本层的帧全部重建后再开始解码。该方案在基本层和增强层中,减少了内存读取的次数,并且更好地利用了高速缓冲存储器。

H. 264中的FMO技术在基于ROI的可伸缩视频编码上也有不少应用。在分层编码的架构中使用FMO结构,一方面有效地提高了解码的容错性,另一方面实现了基于ROI的选择性增强编码和优先传输,从而有效地克服了网络带宽的抖动带来的影响。文献[30]利用运动矢量估计和分隔编码模式分别对基本层和增强层的ROI进行定位选择,并结合FMO特性,对ROI和背景区域做不同的片划分,使ROI片的优先级最高。对运动矢量较大和分割尺寸较小的ROI宏块进行位平面提升,从而在码流被截断时,这些宏块被保留的几率增大,优化了增强层的解码质量。同时对增强层ROI采取了基于FMO特性的编码方法,提高了解码的容错能力。

4 总结与展望

本文总结并分析了现有的几种基于感兴趣区域的编码技术。利用人眼的感知特性,在视频中提取感兴趣区域,可以在人感觉无明显质量损伤的条件下,去除更多的数据冗余。从而在有限的带宽环境下,传输更多的数据,得到符合标准质量的视频。航拍图像中,感兴趣区域集中在运动目标以及桥梁、机场、道路、建筑等人工目标。针对每一类具体目标,分别介绍了几种代表性的自动或半自动ROI提取方法,并对其优缺点作了简要介绍。对此类算法的评价,传统的客观质量评价指标,诸如均方误差( MSE) 、峰值信噪比( PSNR) 等存在一定的缺陷,近年来也有很多人提出了与ROI技术相适应的评价指标。基于感兴趣区域的编码技术,基本思想是提高分配给感兴趣区域的比特数,并赋予其较高的优先级进行编码传输。

值得注意的是,有很多因素影响到感兴趣区域的提取和压缩,如何减少环境以及观测者差异对感兴趣区域的影响,仍然是一个有待研究的问题。随着对人眼的视觉感知机制理解的加深,将出现更多更有效的感兴趣区域压缩方法,用于解决持续增长的高分辨率视频存储和传输问题。

感兴趣区域编码 篇2

对于一幅图像,其中可能有某些部分对观察者来说是特别需要注意的地方,或者说某些部分有特别重要的意义,对此在编码时需要给予特别对待,我们将这些需要特别关注的区域称为图像的感兴趣区域。对于这部分的编码的处理,一般分为两种情况:一种情况是这部分区域在时间上被优先进行编码并放在码流的前面,这样在窄带传输的场合,可以优先保证这部分内容的传输和重建;另外一种情况是,在总码率一定的情况下,对这部分内容分配比其他部分更好的编码参数,这样在重建时可以保证这部分内容有更好的重建质量[1]。

JPEG2000是国际化标准组织和国际电子技术联盟(IEC)联合推出的新一代静止图像压缩标准[2],自1997年开始起草到2000年12月国际标准正式发布。它提供了许多新的特征,其中包括:低码率下的超级压缩特性;连续和二值图像压缩;支持无损和有损压缩;渐进性传输;感兴趣区域编码;码流的随机访问和处理;良好的容错性,将在医疗图像、电子图书馆、彩色传真、数字摄影、遥感等方面广泛应用。

JPEG2000中两种经典ROI压缩方法[3],最大位移法和一般移位法,实现原理是通过提升小波变换后ROI区域小波参数(移位处理)的相对重要性,从而对ROI区域实现优先编码,本文提出一种新的ROI压缩方法,其出发点则是利用JPEG2000中“质量层”的特点[4],对于压缩后的比特流优化截断组成的包所构成的质量层,ROI区域保留质量层中相对多的包,而对于背景区域则保留质量层中相对少的包,从另一个角度实现ROI区域的压缩,该方法的优点是无需对小波变化后的数据进行移位,减少编码量,提高压缩效率,加快编码的速度,但也有缺点,就是没有提高ROI区域在码流上的相对重要性。

1JPEG2000中经典的ROI编码思想及实现原理

JPEG2000中经典的ROI编码方法是通过移动小波变换后的系数在位平面中的位置,使得ROI区域的位平面重要性大于背景区域,来实现ROI区域优先编码和不同编码率的。JPEG2000标准中定义了两种系数位移法:最大位移法和一般位移法。其中,最大位移法被JPEG2000的PART1[5]所采纳,一般位移法被JPEG2000的PART2[6]所采纳,图1是两种方法的图示。

一般移位法(Generic scaling based method)是选择一个适当的位移因子s,使位于ROI区域之外的背景系数都右移s位,这样ROI区域的一些最有效的位平面就高于背景系数的位平面,如图1(c)。在嵌入式编码/解码的过程中,有些ROI区域的位平面会先于背景区域的位平面一起编码、传输和解码(仍有一些ROI区域的位平面会与背景区域的位平面一起编码、传输和解码,这取决于位移因子s)。如果码流被截断或编码/解码过程没有全部完成,ROI区域的重建图像质量会优于背景区域的图像质量[7]。

最大位移法(Max-shift method)中,位移因子s不是预先选定的。在编码端,所有量化的小波系数被逐一扫描,位移因子s的选择必须使ROI区域的最小系数大于背景区域的最大系数,如图1(b)。在解码端,接收到的比s小的系数都是背景区域的系数,反之是ROI区域的系数。

无论是一般位移法和最大位移法都是通过移动ROI区域的位平面来提高ROI区域的位平面重要性,两种方法相比较而言一般位移法更加灵活,可以设定ROI区域相对于背景区域的重要性系数比,也就是说可以灵活设定ROI区域位平面移动的位数,这样就可以调节ROI区域和背景区域的质量比,而最大位移法ROI位平面移动的位数是固定的,灵活性不如一般位移法。

2本文提出的新ROI压缩方法

2.1JPEG2000标准中嵌入式位流和质量层的定义

由于本文方法用到JPEG2000中嵌入式位流和质量层的知识,这里首先介绍一下这两个知识点的实现原理。JPEG2000中使用的位流规则是嵌入式位流[7],其吸引力在于,希望的压缩等级可以在信源已经压缩之后确定,只是把位流截断到希望的长度,就可以实现码率控制。码率控制是由质量层实现的,通过持续增加质量层单元,可以相应的增加压缩表示的质量,用ϑ0到ϑΛ-1表示这些质量层。第一个质量层ϑ0包括优化码块贡献,它们具有长度Li(zi0),在长度约束iLi(zi0)Lmax0下,使失真D0=iDi(zi0)最小。后续质量层ϑl包括每个码块的额外贡献,码块长度为Li(zil)-Li(zil-1)它们在长度约束iLi(zij)Lmaxl下,使失真Dl=iDi(zil)最小。

尽管从概念上说每个质量层包括每个码块的贡献,但是要强调的是,事实是某些甚至全部贡献可能是空的。通过包含足够的信息以识别每个码块对每个质量层所作的贡献,可以构造失真可伸缩组合流[4]。图2表明的是质量层渐进结构。

2.2本文提出的新ROI压缩方法

经过上一小节对JPEG2000中两种经典的ROI压缩方法的分析,容易看出因为其引入了对小波系数的移位过程,所以不可避免地加大了编码量。例如,小波变换后原小波系数为m位,对ROI区域进行压缩,经典方法移动n位,则要对(m+n)位数据位进行编码,而原来仅对m位数据位编码,加大了n/m的编码量和压缩所需要的时间,增加了压缩后的比特流,编码示意图如图1所示。

为了避免JPEG2000中经典ROI压缩方法的重编码现象,本文提出了一个利用JPEG2000“失真可伸缩性”,在质量层的角度实现对ROI区域和背景区域采用不同质量重要性,根据不同的质量重要性来处理比特流被优化截断所形成的包,以避免移位带来的编码量加大的现象。

在本方法中,通过丢弃质量层中包的方法,从另一个角度实现了对ROI区域的压缩存储,本方法和JPEG2000中经典ROI压缩方法出发点不同,经典方法是对ROI区域的小波系数进行升位处理,使得ROI区域的小波系数和背景区域的小波系数拥有不同位平面重要性,从而实现对ROI区域的优先编码和优先传输,而本文则是对压缩以后形成的包进行相应优化处理,在质量层的基础上,通过将质量层上某些背景区域和ROI区域的包设置为空包,来控制ROI区域和背景区域包的相对重要性,从而实现ROI编码,这里的空包是表示只有包头信息而缺少包体信息,即在包的范围中没有编码块贡献的编码字节,通过设置该空标头位为0表示该包为空包,包体长度为0,此时该包仅需要占用一个字节的包头长度。JPEG2000中包的结构[4]如图3所示。

编程过程中,具体的操作是取两个目标质量参数p,q,分别表示ROI和背景区域的目标质量。如果压缩后比特流截断成的总质量层数为S,则表示ROI区域要保留p×S的质量层中的包,背景区域要保留q×S的质量层中的包,丢弃包的规则是从最高质量层开始,即从上向下丢弃。一般来说要求ROI区域的压缩后质量高于背景区域的质量,所以说一般有p>q,如果q取0,表示背景区域的包将全部丢弃,质量层的贡献仅由ROI区域给出。

算法的处理过程如图4所示,假设图4中图(a)表示一张包含ROI区域的图片,在质量层最优化截取后得到图4中(b),表示没有丢弃包前完整的质量层组成结构,对该图像采用p=0.75,q=0.50的目标质量后,采用本文算法对包进行丢弃处理后的结果如图4(c)所示,质量层在ROI区域保留了75%的包,质量层在背景区域则只保留了50%的包,其余的包均被丢弃,这样也就达到了ROI压缩的目的。

本文算法避免了移位处理,与经典ROI处理方法相比减少了需编码字节的位数,但同时也有其缺点,经典ROI压缩方法通过对ROI区域移位处理,可以使ROI区域优先编码和传输,当网络不稳定时,能确保ROI区域的优先传输,本文方法没有该优点。

3实验结果和性能分析

根据本文提出的方法,对彩色图像Lenna进行了ROI区域的编码,ROI区域为Lenna的脸部,通过分别取得合适的参数p,q,在相同的比特率,背景区域PSNR相近的条件下(本实验条件只能取得背景区域PSNR相近,很难完全相等),与一般移位法进行了比较。图5中(a)-(f)分别显示了本文压缩比特率在0.1,0.3,0.5,0.7,1.0,1.5 时的效果。(实验环境为vc 6.0.CPU P4 2.8.内存512M)

表1和表2是本文中方法和一般位移法在PSNR和处理时间上的一些数据。

从实验结果上看,在比特率相同,背景区域基本相同的条件下,比较表1和表2,可以看出本文中算法比较一般移位法,ROI区域的PSNR略高于一般移位法ROI区域的PSNR值,从处理时间上,可以看出本文方法比一般移位法运算速度快,因为本文方法的压缩运算量要少,这在图像较大时体现的差别更大。

4结论

本文提出了一种新的ROI压缩方法,该方法利用JEPG2000压缩标准的质量层的特点,对于给定的ROI区域和背景区域的目标质量,采用丢弃包的方法实现对感兴趣区域的压缩,因为本方法避免了JPEG2000经典压缩方法中对ROI区域的移位处理,减少了压缩量,实验效果略好于经典的压缩方法,缺点是由于没有对ROI系数的移位操作,所以ROI区域不能够优先编码和传输。

参考文献

[1]房睿君.基于JPEG2000的感兴趣区域算法研究.硕士学位论文,西北工业大学,2006.

[2]Michael D Adams.The JPEG2000Still Image Compression Standard.IS0/IEC J TC1/SC29/WG1N2412,SEP.2001.

[3]AndrewP Bradley,Fred WMStentiford.JPEG2000and region of Inter-est Coding.DICTA2002:Digital Image computing Techniques and Ap-plications,January2002:21-22.

[4]David S Taubman,Michael WMarcellin.JPEG2000图像压缩基础、标准和实践.魏立江等译,电子工业出版社,2001.

[5]ISO/ISC JTC1/SC29/WG1(ITU-T SG8)JPEG2000PartⅠFinal Committee Draft Version1.0,Mar,2000.

[6]ISO/ISC JTC1/SC29/WG1(ITU-T SG8)JPEG2000PartⅡFinal Committee Draft Version1.0,Mar,2000.

证件照片感兴趣区域的提取 篇3

随着现代科学技术的发展,证件照片已经在各个行业得到了广泛应用。人们往往只关注证件照片的某些特定的区域。图片中最能够引起大家兴趣、最能表现图片有效内容的区域被定义为感兴趣区域。

由于证件照片的背景简单、主体突出,其应用给人们的生活带来了极大的方便,但证件照片的存储、 传输、检索困难重重,究其原因: 证件照片图像的信息量偏大,存储10000张照片则大约需要2.3G的存储空间。证件照片的关键部分是包括五官在内的面部区域,用这部分区域来描述整个证件照,减少冗余信息,因此提取出证件照片的感兴趣区域,将会大大提高证件照片的分析效率和传输效率,对证件照片的特征提取、压缩存储及识别匹配均有重要的应用价值,被广泛的用于人脸识别领域。

1设计方案

近年来,肤色和面部特征相结合进行人脸检测的方法得到了越来越多的关注。

证件照片的头像位于图片正中央、左右对称,且肤色特征较稳定,因此对证件照片进行识别时,脸部特征有助于对证件照片的区域提取。证件照的关键区域包括人脸、眉毛、眼睛、鼻子、嘴巴和下巴轮廓, 此外,人脸宽度约占照片宽度的一半,人脸的长宽比约为1.1~1.4。

由于肤色是一种比较稳定的特征,即使在不同的脸部表情和角度下,肤色的信息仍然比较稳定,此外肤色在色彩空间的聚类性也较好,且易与其它色彩区分,因此,彩色照片中的肤色是人脸最明显的特征之一。从图像中分离出肤色区域,再利用其脸部器官特征来进行识别,最终确定人脸位置。

1.1证件照片特点

根据国家规定,证件照片有如下特点[1]:

1证件照片的颜色模式采用24位RGB真彩色。

2照片中的人像要求正面脸部并且免冠。

3背景颜色为单一色,一般为蓝色、红色或白色。

4人像在照片矩形框中水平居中,眼睛直视前方。

5人像清晰、层次丰富、神态自然、无明显畸变。

6人头部约占相片长度的三分之二。

1.2色彩空间的选择

YCbCr色彩模型是一种彩色传输模型[2,3,4],主要用于彩色电视信号传输标准方面,其中,Y代表亮度分量,Cb代表蓝色色度分量,Cr代表红色色度分量。 本文选取YCbCr色彩空间基于如下几点: 肤色在色彩空间中具有良好的聚类特性; 肤色在色彩空间中能充分表达脸部肤色,又能在很大程度上消除亮度影响; 肤色模型能够把“肤色”与“非肤色”区域充分离开, 减小了“肤色”与“非肤色”之间的重叠的区域。

在RGB色彩空间中,肤色点需满足以下条件: R > 95,G > 40,B > 20,R - G > 15,R > B, RGBmax- RGBmin> 15; 将满足条件的肤色点转换到YCbCr彩色空间中,可知道肤色在YCbCr色彩空间的聚类特性明显好于肤色在RGB色彩空间的聚类特性。

1.3方案设计

人们通常将照片中的人脸作为考察重点,而人脸区域外的部分却没有太多的需求,因此对证件照片感兴趣区域的提取至关重要。证件照片的感兴趣区域提取主要包括几个方面: 肤色域提取、图像质心提取、感兴趣区域提取。

肤色域提取是对证件照片进行相应的处理,得到照片的肤色区域的二值图像。首先将照片转换到彩色空间即YCbCr空间,在YCbCr色彩空间得到肤色相似度计算图像,再通过自适应阈值得到证件照片肤色域的二值图像。

图像质心提取是对二值图像求取质心的操作。对二维坐标系分别求取质心,可得到图像的质心坐标。

感兴趣区域提取是利用二值图像的质心划分出一个矩形框。将感兴趣区域包含到矩形框内,并保存矩形框中对应的彩色图像。

2感兴趣区域提取及实现

2.1色彩空间的变换

肤色点由RGB色彩空间转换到YCbCr色彩空间后,虽然在YCbCr色彩空间具有较好的聚类特性, 但其红、蓝色色度分量与亮度分量之间存在一定的非线性关系,在亮度分量两端的区域,肤色聚类效果较差。如果取Cb- Cr子空间来求肤色聚类区域,将会增加冗余。因此,本文对YCbCr色彩空间进行非线性的变换,必须考虑到Y的影响

建立肤色模型首先需要一个适当的色彩空间, 该模型在YCbCr色彩空间下,非线性变换到Y'Cb'Cr' 色彩空间的。

将肤色区域的中轴线用来表示,肤色区域的宽度用来表示,在Y < K1,Y > Kh分别得到如下公式:

式中,K1、Kh、Ymin、Ymax、Wc、WLc、WHc为常数, 其中K1和Kh是非线性分段色彩变换的分段域值, Ymin和Ymax是在YCbCr色彩空间模型中定义亮度的最小值和最大值。

根据上面的公式,转换到Y'Cb'Cr' 色彩空间,如式( 3) -( 4) 所示:

由YCbCr变换Y'Cb'Cr' 的过程中,Y分量不变, Cb和Cr经过公式的变换,得到变化后的矫正的色彩空间。

根据肤色空间的高斯分布,理论上椭圆拟合法符合肤色检测的要求,但实际上提取肤色的效果并不十分理想,会漏掉很多肤色点。因为约束条件比较苛刻,放大约束条件会导致很多非肤色的像素点被选中。为了更好的解决这一情况,根据Y'Cb'Cr' 空间对肤色的聚类性,将椭圆拟合方法和阈值法综合使用,可更好的得到肤色像素点。在Y'Cb'Cr' 色彩空间中,计算各个象素的可能性大小,即肤色的相似度大小,取值范围为[0,1]。

在计算肤色相似度时,首先建立肤色的相似度模型。本文采用的是二维正态分布,如式( 5) :

式中,M是肤色样本均值,C是样本协方差矩阵, Cr' 和Cb' 分别为样本像素点在YCbCr空间中的色度信息,x = (C'rC'b)T。

通过上式,可得到图像任意一个点的肤色概率, 可表示为P( Cr,Cb) ,并进行归一化处理,使得各象素的相似度值在[0,1]之间。再通过自适应阈值可以获得二值图像,如式( 6) :

式中,K为自适应阈值,通常在[0.45,0.55]之间。

2.2图像质心提取

二值图像中的每个象素只取0或1,肤色和类肤色区域为1( 白色) ,其他的区域标示为0( 黑色) 。 因此对于一张二维图像,x轴、y轴的质心坐标如式( 7) -( 8) :

2.3感兴趣区域提取

对于证件照片来说,感兴趣区域的提取是包含人脸、五官等在内区域的提取。通过质心位置来确定人脸的位置,人脸的长宽比一般为1.1到1.4。

2.4感兴趣区域的实现

本文中的人脸数据库是作者本人的证件照片, 分别为红底、蓝底和白底,如图1所示; 将照片图像转换到矫正的彩色空间,在色彩空间得到肤色相似度计算图像,如图2所示; 肤色相似度计算图像通过自适应阈值得到证件照片肤色域的二值图像,经过变换,可得到二值图像的质心,如图3所示。

从图1-2可知,经过相似度计算后的图像能够清晰的表示肤色的相似程度,证件照片的肤色区域得到了较好的检测,从而为感兴趣区域的提取奠定了基础。从图3可知,相似度计算后的图像转化为二值图像的过程实际上是肤色自适应阈值分割的过程,所有的肤色区域被检测出来,白色为肤色和类肤色区域,为确定图像质心奠定了的基础。红色点表示二值图像质心,蓝色点表示图像中心,可知准确的得到了二值图像的质心位置。通过上述的实验可知,本文中所采用的肤色模型和色彩空间以及对证件照片的肤色相似度计算和肤色分割算法具有较好的鲁棒性。

利用图像的质心可划分一个矩形框,即感兴趣区域,如图4所示。

由图4可知,提取的感兴趣区域包括了眉毛、眼睛、鼻子、嘴唇、下巴轮廓等面部特征。

3结束语

本文将证件照片从RGB色彩空间变换到校正后的Y'Cb'Cr' 色彩空间,计算其相似度图像、二值化、求质心位置等,文中成功实现了对证件照片的感兴趣区域的提取。提取后的图片存储容量小,比较适合传输和存储,因此,利用肤色域提取算法提取的图片被广泛的应用在很多领域。

但是,利用肤色域提取算法比较适用于证件照片这种背景比较简单的图片,此外也存在一些不足。当证件照片光线太强时,会造成部分肤色不能被检测出来; 当被检测的照片中露出脖子太多时,会导致二值图像质心偏移,以及感兴趣区域也会出现偏移等。

参考文献

[1]《居民身份证》制证用数字相片技术标准.GA461-2004[S].公安部制定.

[2]Jiang Min,He Gui-min,Can Zhao-hui.Extending active shape models with color information for facial features localization[C].VLSI Design and Video Technology,Proceedings of 2005 IEEE International Workshop on 28-30 May 2005:183-186.

[3]邵丹,韩家伟.YCbCr与RGB之间的转换[J].长春大学学报,2004,14(8):51-53.

基于感兴趣区域的弹丸图像压缩 篇4

文中要解决的是高速线阵CCD交汇测试中因图像数据传输率高、数据量大而导致的一系列问题。例如不利于实现前后两级分布式测试系统,以及不利于数据的有效存储和传输。为了解决系统数据量大的问题,数据压缩是一种有效的手段,但测试系统是以弹丸目标信息的准确获取为目的的,所以获得高压缩比的同时还必须保证好的图像恢复质量[1,2],尤其是弹丸区域。因此,文中将弹丸区域作为弹丸图像中的感兴趣区域,设计用边缘检测及区域延扩实现弹丸区域(即感兴趣区域)的原始恢复,从而保证感兴趣区域信息的完整性;对弹丸区域以外的背景区域则采用小波压缩以保证高的压缩比[3]。

1 弹丸图像压缩特性仿真实验分析

表1~表4分别给出了某具体的原始弹丸图像中,弹丸目标区域压缩前和压缩后的部分数据以及弹丸目标区域外的背景区域在压缩前和压缩后的部分数据。

表4中的高频系数普遍很小,而表3中的则很大。由此就可以根据变换压缩编码方法所依据的基本原理,得到弹丸图像很明显的压缩特性:弹丸目标区域更容易产生压缩失真,而背景区域则更可以在保证压缩恢复质量的同时保证高压缩比。

基于弹丸图像上述的压缩仿真结论,文中设计采用基于感兴趣区域的压缩方法对原始弹丸图像进行压缩:小波变换实现对非弹丸目标区域的有效压缩,边缘检测实现对感兴趣区域(弹丸目标区域)的检测从而完成弹丸目标区域的原始恢复。这样,一方面小波变换就可以保证对几乎占满整幅原始弹丸图像的非弹丸目标区域的有效压缩,从而获得高压缩比;另一方面边缘检测可以获得弹丸目标区域的具体定位,实现弹丸目标区域的原始恢复,从而解决弹丸目标区域容易产生压缩变形的问题,保证弹丸图像的压缩恢复质量。

2 弹丸图像中非弹丸目标区域小波压缩

双正交小波降低了一部分正交性要求,但保证了滤波器的线性相位,在无须相位补偿的情况下就能精确重建图像[4]。由此,在综合了上述影响因素之后,文中对弹丸图像的小波处理选取了CDF9/7。

不同的弹丸图像所包含的图像信息是不同的,尤其是弹丸目标区域的信息量,如采集到的弹丸图像中可能包含2个、1个,甚至根本没有弹丸目标。对于没有弹丸目标的弹丸图像和毫无图像信息的全黑或全亮弹丸图像,如果也按照同其他弹丸图像一样的方法进行压缩处理,必然会在很大程度上影响到存储和传输的效率,从中获取的有用信息也很少。为了解决这个问题,实现对不同弹丸图像的不同程度地压缩,文中选取了优化截断嵌入式块编码算法完成对弹丸图像的压缩编码[5]。

3 弹丸图像中弹丸目标区域的原始恢复

考虑到小波方法计算复杂度较高,系统耗时较长,所以弹丸边缘检测应采用算法简单、执行速度快的方法。但是,此类算法的检测效果往往不是很理想,这对准确度要求较高的弹丸目标参数的获取非常不利。为此,文中设计采用将简单的边缘检测算法与检测目标区域实际结果的有效延扩以及原始恢复相结合的方法,以实现对弹丸目标区域的处理。

在现有的边缘检测算法中,对比于传统边缘检测算法,其他算法都有相对高的复杂度且不易于实现,有的甚至是难以解决的问题,如神经网络边缘检测算法中的获得先验知识问题。传统边缘检测算法最大的优点就是简单易行、执行速度快,最明显的缺点就是检测结果往往不够准确[4],但弹丸目标区域的完整性可以通过对实际边缘检测结果的延扩来保证。同时,由于弹丸目标区域本身很小(行、列像素个数分别不超过20和5)且一副弹丸图像中的弹丸区域个数也很少,所以对实际弹丸区域的上、下、左、右4个方向分别延扩5、5、20、20个像素并不会降低弹丸图像的整体压缩比。解决了这个问题,对于弹丸图像中弹丸目标区域的检测就可以采用简单易行、执行速度快的传统边缘检测算法。

4 实验结果分析

弹丸目标区域采用的是基于边缘检测的原始恢复,所以弹丸目标区域的压缩恢复结果与原始弹丸图像中的弹丸目标区域数据相比没有变化。背景区域采用的是CDF9/7方法实现了弹丸图像的渐进式压缩,可以满足对不同类型弹丸图像的不同程度压缩。表5和表6给出了其中一类弹丸图像采用傅里叶方法和本文设计方法的压缩结果。

5 结束语

对比表5和表6的结果,文中设计的基于感兴趣区域的方法相比傅里叶直接整体压缩方法,不但将压缩比再提高2倍而且可以始终保证弹丸目标区域的完整性。

摘要:设计将弹丸区域作为感兴趣区域,实现了对弹丸图像的有效压缩。解决了高速线阵CCD交汇测试中,图像数据量大而不利于实现前后两级分布式测试系统,以及不便存储和传输等问题。

关键词:感兴趣区域,弹丸图像,高速线阵CCD交汇测试

参考文献

[1]雷志勇,姜寿山.线阵CCD技术及其在靶场测试中的应用[J].西安工业大学学报,2002,3(22):119-224.

[2]雷志勇,刘群华.线阵CCD图像处理算法研究[J].光学技术,2002,5(12):91-93.

[3]彭玉华.小波变换与工程应用[M].北京:科学出版社,2000.

[4]李建平.小波分析与信号处理—理论、应用及软件实现[M].重庆:重庆出版社,2001.

感兴趣区域编码 篇5

关键词:图像检索,感兴趣区域,特征融合

近年来随着多媒体技术和网络技术的飞速发展, 基于内容的图像检索 (content-based image retri-eval, CBIR) 已成为一个非常活跃的研究领域, 它利用图像自身包含的丰富视觉信息来进行检索, 主要是直接从图像中获得的客观的视觉内容特征, 如颜色、纹理、形状等来判断图像之间的相似性, 这种方法成了现有图像检索技术研究的主流。其主旨在从数据库中根据视觉内容检索相关图像, 当用户提交一个查询图像, 检索系统将根据相似度自动显示检索结果。基于内容的图像检索主要是利用图像本身包含的客观视觉特征, 且图像的相似性不需要人来解释, 因此在需要自动化的场合取得了大量的应用, 现已有不少的研究者提出了很多涉及图像内容的方法及算法实现。如闫庆红等研究了一种新的基于视觉特征的数字图书馆图像检索算法等[1,2]。但是国内的研究以理论研究和算法改进为主, 而国外除了理论研究外, 已开始有一些实用的和初步商业化的图像检索系统出现[3]。

然而现有的大部分综合特征的图像检索算法都是侧重于图像的全局信息, 其优点是计算简单、对平移和旋转不敏感, 不足之处是不能充分反映出图像内容的空间分布信息, 不能够在空间布局层次比较图像的相似性, 检索效果不是很理想。为了提高检索效率和检索精度, 本文提出了一种改进方法, 提取图像感兴趣区域的综合特征, 解决了图像内容的空间分布信息问题, 提高了检索效率和检索速度。

1 感兴趣区域

兴趣点是图像中灰度值在X方向和Y方向都有很大变化的一类特征点, 感兴趣区域是图像中最能引起用户兴趣、最能表现图像内容的区域, 它通常蕴含丰富的颜色、纹理、空间位置关系等细节信息。感兴趣点的提取方法有基于小波分析的方法[4]、利用彩色Harris角点检测算法[5]、尺度不变特征变换法[6]等。

2 感兴趣区域特征融合的检索

2.1 特征提取

2.1.1 颜色特征的提取

颜色特征是图像最基本的和直观的特征。提取及表示方法有:颜色直方图、直方图相交方法、颜色矩方法、基于参考颜色表 (RCT) 的方法、颜色对表示方法等。常用的颜色模型有RGB、CMYK[7]、HSV[8]、CIE Lab[9]颜色模型。

为了使算法对于颜色距离的定义符合人的视觉特征, 本文的颜色模型采用HSV模型, 其中分量H, S, V分别代表彩色信号的色调、饱和度、亮度。在检索图像时, 为了提高检索效率, 需对HSV空间进行量化[10], 具体算法如下:

将HSV模型定义为C= (h, s, v) , h∈[0, 360°], s, v∈[0, 1], 用L表示颜色量化:

其中,

g (h, s, v) 均匀划分其余的HSV空间。将h以非等量间隔分为8份, s, v以等量间隔分为3份, 这样, 颜色的维数为166 (18×3×3+4 (灰度) ) 维。为了降低颜色直方图的维数, 将颜色的3个分量压缩成一维矢量, 得L=HQs Qv+SQV+V, Qs, Qv分别为S, V的量化级数, 取Qv=Qs=3, 得L=9H+3S+V, L∈[0, 1, …, 72], 根据量化后的HSV, 计算图像的颜色直方图, 这样提取的直方图维数就大大降低了。

2.1.2 纹理特征的提取

纹理的本质是刻画像素的领域灰度空间分布规律, 具有旋转不变性, 且有较强的抗噪声能力。纹理特征的提取方法主要有统计法、频谱法、结构法、模型法。吴飞等对Brodatz纹理库的实验表明[11]:在共生矩阵等多种纹理特征中, Gabor基小波变换的检索性能最佳。其原因可以归结为以下两点:①Gabor变换是由傅立叶变换来完成, 是一种连续的方法, 而小波变换是由离散的方法完成。②从心理学的角度, 人类辨别同类纹理是同时依赖于空间属性和频域属性的, 这就要求同时对空间和频域进行有效描述。然而被证明对两者最佳描述的是Gabor基小波变换。其算法步骤如下:

(1) 二维Gabor函数f (x, y) = (1/2πσxσy) exp[-0.5 (x2/σx2+y2/σy2) +2πj Wx], W是高斯函数的复调制频率, 其傅立叶变换公式为G (u, v) =exp{-0.5[ (u-W) 2/σx2+v2/σy2]}, 其中σx=1/2πσx, σy=1/2πσy。

(2) 以f (x, y) 为母小波, 对f (x, y) 进行适当尺度变换和选择变换, 得到Gabor小波fmn (x, y) =a-mf (x2, y2) a>1, m, n∈Z, 其中x’=a-m (xcosθ+ysinθ) , y’=a-m (-xsinθ+ycosθ) , θ=nπ/k, k表示总的方向数目 (n∈[0, K]) , 通过改变m和n值, 可得到一组方向和尺度都不同的滤波器。

(3) 计算滤波器参数。由于Gabor小波的非正交性意味着滤波后的图像有冗余信息, 为了减少冗余, 设Ph、Pl分别代表高频率、低频率的中心频率, s代表尺度。Gabor小波参数的计算如下:

(4) 给定一幅图像Q (x, y) , 它的Gabor小波变换定义为:

(5) 假设局部纹理区域具有空间一致性, 则变换系数的均值μmn和方差σmn可代表该区域用作分类及检索的目的。

用μmn和σmn作为分量, 可以构成纹理特征向量, 即:

2.1.3 形状特征的提取

形状特征是人类视觉系统进行物体识别的关键信息之一, 它不随图像颜色的变化而变化, 是物体稳定的特征。基于形状特征的图像检索方法有Hu矩、傅立叶变换等, 利用Hu矩提取图像的形状特征, 能够得到一种既表现了图像的边界特性又不失图像的整个区域性的检索方法。具体算法如下:

对于一幅大小为M×N的二维图像{f (i, j) |i=0, 1, …, M;j=0, 1, …, N}, 其 (m+n) 阶矩阵为:

其中, f (i, j) 为Canny算子提取的边缘图各像素点的值, 取值为0或1。其零阶矩阵的为:

根据零阶矩阵和一阶矩阵可得图像的质心计算式: (i0, j0) = (M10/M00, M01/M00) 。则该图像的 (m+n) 阶中心矩阵为:

然后对中心矩阵进行区域面积归一化, 并计算图像的7个面积归一化中心矩{m11, m02, m20, m21, m12, m03, m30}, 则Hu不变矩为关于这7个矩的函数, 且满足形状对旋转、平移和尺度的不变性, 计算式如下:

2.2 特征匹配

在采用基于内容的图像检索相似匹配技术时, 由于不同特征向量的物理意义不同, 在利用综合特征检索图像时, 图像间相似距离的可比性很差, 这就需要对不同特征距离进行归一化。归一化的方法主要有极值归一化、标准归一化和高斯归一化等, 这些方法各有其特点[12], 本文研究采用高斯归一化结合外部归一化方法对特征向量进行归一化。

特征向量的外部归一化特征向量的外部归一化实际上是对图像库内所有图像对的相似距离进行归一化, 算法如下:

算法1:特征向量的外部归一化算法

①计算图像库中每两个图像M, N所对应用特征向量FM, FN间的相似距离:

②通过计算相似距离得到的I (I-1) /2个距离值的均值aD和标准差σD;

③对查询图像P, 计算其与图像库中每个图像的相似距离, 记为D1P, D2P, …, DIP;

④对D1 P, D 2 P, …, DI P进行高斯归一化, 并作变换DMP (N) = ( (DMP-IP) / (3-P) +1) /2, 则DMP (N) 的值有99%落在[0, 1]区间。

颜色、形状及纹理特征经过上述归一化处理后, 保证在检索时各个特征在相似距离计算中地位相同。然后利用欧式距离公式

计算出图像间的相似距离, 其中xk、yk表示待计算的两幅图像。

2.3 感兴趣区域特征融合检索算法的设计

Step1:结合文献[13]中的算法, 利用Gabor滤波器选出一定数目的兴趣点 (POIs) 。

Step2:根据每个POI选定围绕它的感兴趣区域 (ROIs) 。

Step3:分别提取每个ROI的颜色、纹理、形状特征信息。

Step4:利用算法1将上述三个特征向量进行归一化。

Step5:根据归一化后的结果进行相似性匹配并提供检索结果。

3 实验结果分析

衡量检索性能好坏的重要指标是检索结果中符合用户查询期望的图像的比例, 可用Tan Kina-lee提出的标准查准率P和查全率R[14]进行评价。其定义如下:

其中N为检索系统返回的数据库子图数目, L是检索结果中与查询图像相关的图像数目, ri是第i幅图像的排序。

本文采用Core图像库中的一部分图像构成图像检索数据库, 包括汽车、树木、山川、海滩、食物、建筑、鱼类、骏马等多种类型, 每种类型取100幅图像, 合计共800幅图像, 计算每次查询得到相应的查准率和查全率。首先测试单个特征对各种图像的检索能力, 各特征检索能力如下表:

图1、图2为采用不同特征查询800幅图像的查准率和查全率的比较

通过上述实验结果表明基于感兴趣区域综合特征的查准率和查全率均高于基于单一特征的。

4 结论

感兴趣区域编码 篇6

关键词:感兴趣区域,图像聚类,特征匹配,图像检索

1、引言

图像检索就是利用图像的物理属性或者描述性的关键词在图像数据库中寻找与所查询图像相关或相似的图像。1992年, Kato首先提出了基于内容的图像检索 (CBIR) 方法[1]。后来, Jia[2]提出了一种新的基于颜色和空间特征的相似性获取方法。该方法设计了无序矩阵来描述图像空间位置的相对关系, 使在彩色图像相似度检索时具有较高的检索精度。Manjunath等人[3]提出了利用图像纹理特征检索图像的方法, 其性能较好, 但其复杂度较高、处理时间也较长。后来, Mahmoudi F等人[4]提出了一种边缘方向相关图描述物体形状的检索方法, 该方法比较有效, 但是处理时间很长。

为了实现系统快速检索, 可以采用聚类方法构造索引。查询图像的检索过程也在类中进行, 这样大大地缩小了图像的搜索范围, 从而能快速、准确地检索图像。聚类算法多种多样, 比较常用的有:K-均值算法[5]是一种最简单且应用最广泛的聚类算法, 其优点是能有效地处理大数据集, 迭代速度快;缺点是聚类的类别数预先设定, 聚类效果受初始聚类和事件顺序的影响。模糊C-均值 (FCM) 算法[6]利用伪随机数产生初始类中心, 造成聚类效果不稳定, 特别是当聚类数比较多时, 往往得不到满意的聚类结果。

基于上述理论, 本文首先利用Itti等人提出了视觉关注模型提取查询图像中的感兴趣区域, 并通过颜色、纹理和位置三种特征数学描述感兴趣区域内容。再对模糊C-均值聚类算法进行改进, 有效地解决了初始值的选取问题, 同时对图像库进行分类, 并建立索引, 最后, 通过数据库特征的聚类中心与感兴趣区域特征的匹配实现图像检索, 检索时间不会随图像数据库中的图像数量的增加而线性增加, 极大地提高了检索的效率。

2、基于视觉关注模型的感兴趣区域

2.1 视觉关注模型

视觉关注模型模拟了人类视觉注意的转换过程[7], 视觉关注的区域往往是视觉目标的区域 (感兴趣区域) 。Itti的视觉关注模型 (如图1所示) 是一种受环境影响的从下而上的视觉感兴趣区域算法, 也是当前计算机视觉中的一个主要研究方向, 其最具有代表性。该算法在多种类型、多种尺度的视觉空间中将图像通过"中心-周边"算子得到多幅特征图, 并将多幅特征图线性归一成为一幅感兴趣区域图像, 再利用人工智能中的动态神经网络方法从感兴趣区域图像中提取感兴趣区域[8]。

2.2 感兴趣区域特征的数学描述

感兴趣区域S经过视觉关注模型确定后, 利用颜色、纹理和位置特征对感兴趣区域内容进行数学描述。

(1) 颜色特征描述

感兴趣区域的颜色特征用该区域的颜色均值和均方差表示。设感兴趣区域S大小为m×n, 则其颜色均值和颜色均方差可通过公式 (1) 和 (2) 分别获得:

其中, Ii(x, y)为感兴趣区域S内像素点 (x, y) 的第i个颜色分量。选用能够较好符合人眼视觉感知特性的HSV颜色空间, 于是得到感兴趣区域的颜色特征C=

(2) 纹理特征描述

纹理是描述感兴趣区域内容的另一种特征, 也是图像检索的一种非常有效的手段。为了减少计算复杂度, 选取亮度各子带图像的下列能量特征 (局部能量的对数值) 作为感兴趣区域的纹理特征。能量特征提取方法如下:

(1) 从感兴趣区域中提取出其亮度分量I, 并对亮度分量进行2级小波变换。

(2) 在小波变换域内, 计算出感兴趣区域亮度分量的小波系数局部能量。设坐标位置为x, ≤y≤的小波系数≤drθ, , sl≤的局部能量为Elθx, ≤y≤ (其中, l∈1, ≤2≤表示小波变换层数, θ∈≤LL, LH, HL, HH≤表示小波域内的子带图像方向, r, s表示移动因子) , 则:

这里, K x, ≤y≤选取为Gaussian内核函数。

(3) 计算出亮度分量各个子带图像的能量, 第l变换层、θ方向的子带图像能量为:

因此, 纹理特征

(3) 位置特征描述

感兴趣区域的位置特征O用其重心的归一化坐标表示, 即

其中, x, y表示重心坐标。

因此, 图像感兴趣区域的特征用向量表示为F=≤C, T, O≤, 为下一步图像库中的图像进行FCM聚类提供特征依据。、

3、基于感兴趣区域的模糊C-均值聚类

基于感兴趣区域的FCM是将颜色、纹理和位置特征对图像库中的图像进行聚类, 并建立索引, 这样相似的图像聚集于同一类中, 图像检索过程可以只在类中进行, 大大缩小了查询范围, 加快了检索效率。

3.1 初始聚类中心的确定

聚类的性能很大程度上取决于初始类中心的选取, 因此合理选取初始类中心是聚类算法中最重要的一步。本文采用了一种自适应的初始聚类中心选取方法。

假设从特征库中选择距离最远的特征向量X1, X2, ···, Xc作为初始类中心, 并确定第c个初始类中心Cc, 则第c+1个初始类中心Cc+1是图像特征库中其余N-c个特征向量与前c个类中心距离累加和最大的特征向量, 如此得到c个初始类中心, 并根据公式 (6) 计算初始类个

其中, N为图像库中的图像总数, m为特征维数。C值越大, 图像库内的图像分类越精确, 类内的图像越相似。

3.2 基于感兴趣区域的FCM算法

图像库中图像的初始类个数为C, 即图像库中的图像由于其感兴趣区域特征相似被分成C类, 然后将图像库内的图像与每个类中心求距离dji≤≤, 并将图像库内的图像分配给距离最小的类中心, 再通过更新聚类中心v完成图像分类, 而且每个图像类都有一个聚类中心 (代表样本) , 这些聚类中心被用来建立图像索引。

假设X=≤x1, x2, ···, xn≤奂Rs, 其中, xi=奂x1i, x2i, ···, xsi奂奂Rs是数据集, n是数据集中元素的个数, c是聚类中心数 (1<c<n) , dij=||xj-vi||是样本xj和聚类中心vi的欧氏距离, vj∈Rs1≤≤j≤c≤。uij是第j个样本到第i个聚类中心的隶属度, U=奂uij≤c×n, V=vij≤≤s×c。

问题FCL:

其中, m是权重因子 (m>1) , 如下算法可以被用解上述的数学规划问题。

(1) 给出迭代标准ε>0, 初始分类矩阵V, k=0;≤≤k

(2) 用下述公式计算U:

如果存在j, r, 使得dijk≤=≤0, 则令:uijk≤=≤1且对i≠r, uijk≤=≤0。

(3) 用下述公式计算Vk+≤1≤:

(4) 比较Vk+≤1≤与Vk≤≤, 若V≤k+1≤%-V≤k%≤≤ε则停止迭代;否则置k=k+1, 转向 (2) 。

算法将n个待聚类数据分为c个类, 并求每类的聚类中心, 使得非相似性指标的目标函数值达到最小。FCM算法利用公式 (14) 和公式 (15) 使目标函数迭代优化从而获取对数据集的模糊分类。

3.3 图像相似性匹配

利用高斯函数计算查询图像感兴趣区域Si和图像库中各类代表图像的感兴趣区域Sj之间各特征的相似程度, 并通过调整各特征的方差σi将其归一化为具有不同量纲的特征变量, 使得相似度s总在0, !1"之间。当s=1时, 两个感兴趣区域相似;当s=0时, 两个感兴趣区域不相似。相似度的计算公式如下:

(1) 颜色相似度

(2) 纹理相似度

(3) 位置相似度

于是, 图像中任意两个感兴趣区域Si, Sj之间的相似度是各特征相似度的加权平均, 即

假设查询图像I1, 数据库中的代表图像I2, 则图像I1相对于I2的相似度为:

其中, PI2#S$表示图像I1的感兴趣区域与图像I2中感兴趣区域之间的映射关系, 即返回在图像I2中与图像I1的最为相似的感兴趣区域。

4、基于感兴趣区域和FCM的图像检索算法

本文图像检索算法的具体步骤如下:

(1) 图像预处理, 将彩色图像转化为灰度图像。

(2) 查询图像和图像库中的图像分别通过Gabor滤波器和高斯金字塔获得图像颜色、亮度和位置三种视觉特征。

(3) 视觉特征提取之后分别获得颜色特征图像、亮度特征图和位置特征图像, 并将多幅特征图像再经过线性归一化处理得到感兴趣区域图像。

(4) 利用人工智能中的动态神经网络方法从感兴趣区域图中提取感兴趣区域。

(5) 感兴趣区域确定后, 利用颜色、纹理和位置特征对感兴趣区域内容进行数学描述。

(6) 利用基于感兴趣区域的模糊C均值聚类算法对图像库中的图像进行分类, 确定聚类中心, 并根据聚类中心建立图像索引。

(7) 利用匹配算法对查询图像的感兴趣区域特征和图像库中的聚类中心进行匹配, 并通过图像索引, 找到相同或最为相似的一类, 然后将查询图像归为该类, 同时进行类内查询。

(8) 图像检索经过一次循环之后, 根据公式 (18) 更新该类的聚类中心。

(9) 如果查询结束, 则输出与查询图像相同或相似的图像;若还有待匹配的图像, 则返回第 (7) 步。

5、实验

为了验证本文算法的有效性和可行性, 分别进行两组实验, 并采用一个贮存各种图像标本的图像数据库。图2 (a) 和 (b) 两幅图像作为输入图像。图3 (a) 和 (b) 两幅图像是利用基于颜色直方图的图像检索算法获得实验结果图, 虽然能够完成图像检索, 但检索后的实验结果图明显存在与查询图像不属同一种类的图像, 如图4 (a) 和 (b) 两幅图像是利用本文中的算法实现的检索结果图, 与原始图像和基于颜色的图像检索算法获得的检索结果图像对照之后, 本文算法检索后的图像不存在与查询图像属异种类结果图, 检索质量高。可见, 通过本文算法与传统方法对比之后, 本文算法不仅能够实现图像检索, 还很好的解决了传统方法在检索图像后留下异种类问题, 提高了检索质量。

实验结果表明本算法不仅能够实现图像检索, 还能很好的解决了传统方法遗留下的异种类问题, 并实现查询图像自动归类, 有利于提高图像检索的效率, 而且通过感兴趣区域特征的匹配, 提高了图像检索的质量。

6、结论

图像检索至今已有上千种类型的算法, 而且这方面的研究还在积极进行中, 也尽管人们在基于颜色的图像检索方面做了许多研究工作, 但是现已提出的检索算法大都是针对具体问题的。出的图像检索算法也是针对图像中感兴趣区域的检索, 旨在提高检索质量和检索效率。但是本文算法也无法通用于各种图像检索, 目前图像检索算法也无统一的检索理论, 对众多的图像检索方法没有进行很好的归纳整理, 还有大量的工作迫切需要完成。

参考文献

[1]T.Kato.Database architecture for content-based image retrieval[J].SPIE, 1992, 16 (62) :112-123.

[2]K.B.Jia, F.Sheng, L.S.Shen.Color Image Retrieval Based onthe Color and Spatial Features[J].Acta Electronica Sinica, 2003, 31 (6) :895-898.

[3]B.S.Manjunath, W.Y.Ma.Texture features for browsing andretrieval of image data[J].IEEE T-PAMI, 1996, 18 (8) :837-842.

[4]F.Mahmoudi, J.Shanbehzadeh, et al.Image ret rieval based onshape similarityby edge orientation autocorrelograrn[J].PatternRecognition, 2003, 3 (6) :1725-1736.

[5]L.Kaufan, P.J.Rousseeuw.Finding Groups in Data:An In-troduction to Cluster Analysis[M].New York:John Wiley&Sons, 1990.

[6]N.S.Lyer, A.Kandel, M.Schneider.Feature-Based fuzzy clas-sification for interpretation of mammograms[J].Fuzzy Sets System, 2000, 14 (12) :271-280.

[7]L.Itti, C.Koch.A saliency-based search mechanism for overtand covert shifts of visual attention[J].Vision Research, 2000, 40 (5) :1489-l506.

感兴趣区域编码 篇7

针对飞行过程中的一些特殊情况,需根据接收的GPS信息(飞行高度、速度等)实时调整CCD帧频[1]。要实现可变帧率的CCD数据处理,对整个CCD数据实时处理能力提出了更高的要求。同时,随着CCD像元数的激增,每帧CCD图像的像素分辨率超大,如何实现基于高分辨率CCD图像感兴趣区域的智能实时观测是目前航测领域的研究重点。针对可变帧率和智能观测需求,提出了一种基于感兴趣区域的可变频CCD实时处理系统。

系统根据可变频要求,一方面通过在FPGA内部设计UART控制器,触发CCD相机外同步触发信号,实时计算出随GPS信息不断变化的CCD帧频信息;另一方面,提出了一种数据提取算法,该算法通过对乒乓缓存的CCD图像数据进行可变窗口定位,实现了感兴趣区域的智能观察和存储;最后,通过视频编码实现感兴趣区域的高清晰视频实时显示。整个系统已在FPGA内实现并通过验证,可广泛适用于任何分辨率大小CCD的智能实时处理。

1 系统设计方案

该可变频CCD智能实时处理系统由CCD控制模块、数据实时处理模块和实时显示模块组成。CCD控制模块:在相机外同步工作模式下,通过在FPGA内设计UART控制器,接收外部发来的GPS信息,实现CCD相机帧频的实时调整。针对数据实时处理模块,提出了一种数据提取算法:首先提取出原始CCD图像数据的感兴趣区域,该区域符合SMPTE(1080i)有效的高清晰视频数据分辨率大小,并通过可变窗口定位实现区域的智能实时调整;然后通过乒乓缓存结构的设计,实现感兴趣区域的实时存储;最后由实时显示模块,将缓存的感兴趣区域数据打包为高清晰视频格式,通过视频编码实现感兴趣区域的高清晰视频实时显示。图1给出了整个系统的实现方案。

2 CCD控制模块的设计

2.1 可变频帧率的设计与实现

在飞行过程中,首先需接收GPS导航信息[3](主要包括飞行器经纬度位置、时间(时/分/秒)以及海拔高度、地速等飞行参数,数据刷新率为10 Hz/s),根据信息计算得到当前相机帧频。由于数据刷新率较高,接收数据的准确性是保证后续工作精度稳定的前提条件。

传统的处理方式是[4]:通过串口配合相关电路,接收GPS信息,并计算得到随飞行高度和速度实时改变的相机帧频。UART(Universal Asynchronous Receiver Transmitter)作为计算机或外围设备的串行通信接口,通常在单片机中使用。本设计中改用FPGA完成所有数据处理,并设计了基于PFGA的UART控制器。

UART控制器包含以下组件:时钟发生器、输入和输出移位寄存器、发送/接收控制单元和FIFO缓冲存储器。时钟发生器通常是比特率允许在一个位周期中采样的倍数。输入和输出移位寄存器是串行和并行之间形式转换的基本方法。发送或接收控制单元完成数据的传输和接收器下控制读或写控制逻辑。FIFO缓冲存储器实现对发送/接收数据的高速缓存。图2给出了基于FPGA的UART控制器设计,可见,整个UART设计充分利用FPGA的内部存储和时序逻辑资源,减小了系统的面积,改变了传统通过单片机处理器的控制,大大降低了系统功耗,提高了设计的稳定性。

通过基于FPGA的UART控制器设计,GPS信息可从UART正确接收,根据GPS相应的飞行参数,可计算得到可变帧率,并输入至FPGA。本系统每帧CCD的拍摄时间间隔表达式如下:

式中,v是飞行速度(km/h),H是飞行高度,a是拍摄视角,qx是相邻的图片重叠比例。可见,通过接收GPS的飞行速度和飞行高度信息和实际拍摄要求,即可计算出拍摄时间间隔。根据时间和频率之间的关系,得到CCD当前帧速率。

FPGA在内部时钟的控制下,针对可变帧频率,通过FPGA的时序逻辑控制,产生外同步控制脉冲信号。这样,在外同步脉冲的触发下,相机开始积分,积分完毕后,在行、场、消隐同步信号的控制下,读出CCD相机数据。

2.2 基于高速Cameralink接口的CCD数据传输

为提高海量CCD连续数据流的传输速率,采用基于Cameralink接口技术实现高速CCD数据传输。Cameralink接口技术是基于Channel Link技术发展而来的。Channel Link是基于LVDS技术发展而来的,它是一种用来传输视频数据的新技术。Channel Link使用一个并转串驱动器和一个串转并接收器传输数据,其最高速率可达2.38 GHz/s,非常适合高分辨率CCD数据实时处理以及其他高速控制信号的传输[5]。

高分辨率CCD数字相机通过Camera Link接口的连接,实现多位高速并行的数据线转换为串行数据线输出。同时,通过接收芯片DS90CR288A实现对CCD相机输出的串行数据还原为原始的并行数据输出,并提供了相应的CCD相机通信信号和有效控制信号。对DS90CR288A解码输出的CCD相机数据输入至FPGA,实现实时处理。

3 实时数据处理模块

3.1 感兴趣区域提取算法

实时处理模块主要对输入至FPGA的CCD图像数据进行处理。CCD相机数据的时钟输出速率为2 MHz×40 MHz,以两路并行格式输出,两路数据像元分辨率大小为2 048×1 024,数据分辨率为10 bit。为有利于数据进一步处理,在FPGA内构造FIFO实现对两路并行数据的实时合成。合成后的数据分辨率为10 bit,频率为80 MHz,像元分辨率大小为2 048×2 048。

在实际观测中,需要实时提取感兴趣区域。设原始图像分辨率大小为M×N,感兴趣区域分辨率大小为m×n。由于CCD原始数据分辨率远大于感兴趣区域数据分辨率,提出了一种感兴趣区域提取算法。算法设计思路如下:

(1)通过UART接收当前波门位置信息(Rstart,Rwidth,Cstart,Cwidth),同时波门位置信息实时写入FPGA。其中,Rstart、Rwidth分别表示在像素时钟的作用下,原始图像对应的行起始地址和行宽;Cstart、Cwidth分别表示在像素时钟的作用下,列起始地址和列宽。

(2)在FPGA中构造4个专用寄存器分别用来动态存储上述波门位置信息(Rstart,Rwidth,Cstart,Cwidth)。

(3)在像素时钟的控制下,在FPGA内构造两个计数器分别对每行、每列像素个数进行计数。Pi、Qj分别表示当前行、列计数值。

(4)构造波门判别函数模型,如判别函数为真,即当前计数值在波门信息范围内时,对于图像数据予以保留,否则予以舍弃。判别函数如式(2)所示。

当一帧图像数据接收完毕时,即完成了对当前帧图像的感兴趣区域数据提取。当下一帧数据输入且波门位置改变时,则返回(1),重复上述过程即可。

3.2 高速缓存的设计

在实时抽取后,保留下的数据分辨率大小与高清晰模拟视频有效数据分辨率相同。但两者在速率和帧频上都不相等(相机数据速率为80 MHz,帧频为变量,高清晰视频数据格式选择速率为74.25 MHz,帧频为30帧/s,每帧分为奇场和偶场的格式),因此需要为变频的CCD图像感兴趣区域和恒速的视频编码之间构造一个适应通道———高速缓存结构。常用的缓存结构主要有以下三种形式[6]:

(1)FIFO结构:能够达到很高的传输速度和效率,且由于省去了地址线而有利于PCB板布线。缺点是只能顺序读写数据,因而显得比较呆板。

(2)双口RAM结构:具有两套独立的数据、地址和控制总线,能达到很高的传输速度,并且具有随机存取的优点。缺点是大容量的高速双口RAM硬件复杂度高,价格昂贵。

(3)SRAM乒乓缓存结构:可随机存取,同时较大容量的高速SRAM容易得到且价格适中。缺点是切换控制电路比较复杂。

综合考虑以上三种高速缓存方案,在本设计单元中,选用SRAM乒乓缓存方案。具体设计流程如下:在第一个缓冲周期,将输入数据流缓存到第一片SRAM中;在第二个缓冲周期,通过控制信号的切换,将输入的数据流缓存到第二片SRAM中,并将第一片SRAM缓存的第一个周期的数据通过控制送入下一处理单元(视频编码单元);在第三个缓冲周期,通过控制权的再次切换,将输入的数据流缓存到第一片SRAM,并将第二片SRAM缓存的第二个周期的数据通过控制权的切换,送到下一处理单元。如此循环,周而复始,很好地完成对数据流的无缝缓冲和处理。

4 实时显示模块

4.1 基于FPGA的高清晰视频数据打包

由于从数据实时处理单元SRAM读出的是纯粹图像数据,因此首先要将读出数据打包为符合SMPTE274标准的1080i高清晰视频格式,最终实现高清晰的模拟视频显示。

首先简单介绍符合SMPTE274标准的1080i高清晰模拟视频格式[7]。图3给出了高清晰视频数据包格式。其中,每个EAV和SAV定时基准信号由4个字的序列组成,格式如下:FF、00、FF、XY(数值以16进制表示,FF、00留供定时基准信号用)。头三个是固定前缀,第四个字包含定义第二场标识、场消隐状态和行消隐状态的信息。每行有效数据像素为1 920个像素,行消隐期为272个像素。

对数据进行打包实际就是用FPGA产生包头信息、消隐期的填充数据以及Y分量的数据和Cb、Cr分量的数据复合,再进一步将视频数据和包头信息、填充数据合并,最终产生符合上述定义格式标准的数据包。在具体实现过程中,FPGA要设计两个计数器,一个用来进行行计数,另一个用来对每行的像素进行计数。根据两个计数器的值,在相应的地方写上包头信息,在消隐期填上填充数据,而在有效行的有效像素期,FPGA的输出来自SRAM输出的原始相机数据。这样,在FPGA里的视频数据复合成模块,用74.25 MHz的时钟将Y分量和Cb、Cr分量按格式要求的4:2:2格式复合成高清晰视频数据流,如图3所示。

4.2 基于FPGA的视频编码芯片控制和实现

在完成对数据的打包后,需要对视频芯片内部寄存器进行配置并最终转换为模拟视频显示。ADV7300A支持I2C总线通信协议。传统的工作方式通常使用单片机实现对I2C总线接口的控制。然而,为减少设计资源并提高FPGA的使用效率,设计了基于FPGA的I2C总线控制器。

I2C总线控制器主要包括以下几个单元:数据缓存单元、移位寄存器单元、I2C总线传输控制单元和分频单元。其中,数据缓存单元实现对如初始化ADV7300的数据进行缓存,这里缓存单元即通过FPGA内部的RAM存储即可。

移位寄存器单元实现数据的并-串转换。由于FPGA内部的缓存单元的数据位宽为8 bit,而I2C总线上传输的位宽为1 bit,所以要进行并串转换,且需满足数据高位在前,低位在后。通过构造移位寄存器,可在时序控制逻辑模块的控制下根据读写使能信号对数据进行正确处理。

I2C总线传输控制单元是设计的核心,根据I2C总线传输协议,整个传输过程可以分为空闲、开始、发送数据、接收数据、停止5个状态。当I2C总线处于空闲状态且驱动信号为高电平时开始运作I2C模块,并根据读/写判断进入下一状态,即进行传输数据或接收数据。当数据传输完毕,跳入停止状态。因此,在FPGA内设计有限状态机的结构实现对I2C总线的传输时序控制,其状态转移如图4所示。

分频单元则根据I2C总线传输速率,通过对FPGA的全局时钟进行分频,以满足I2C总线的传输速率要求。

通过在FPGA内实现基于I2C总线控制器的设计,很好地完成了FPGA对视频编码芯片ADV7300内部寄存器的配置和读写,最终实现高清晰模拟视频显示。目前,该设计已通过验证,并成功应用于某航空摄影测量工程,具有很高的工程应用价值。

摘要:为满足航空摄影测量需求,设计了基于感兴趣区域的可变频CCD实时处理系统。该系统主要由CCD控制模块、数据实时处理模块和显示模块组成。系统充分利用FPGA内部资源,改变了传统FPGA配合微处理器的实现方式,相关算法和时序逻辑控制均在一片FPGA内实现并通过验证,可广泛适用于任何分辨率CCD的智能实时处理。

关键词:高分辨率,可变帧频,智能观测,实时显示,FPGA

参考文献

[1]陈苏婷,吴钦章,杨世洪.航空摄影测量用高清晰视频编码显示系统设计[J].半导体光电,2007,28(4):596-600.

[2]陈苏婷,杨世洪.基于IB-IWT实时图像压缩的FPGA设计与实现[J].信息与控制,2009,38(1):145-149.

[3]高文武,贺赛先.基于GPS的CCD相机同步控制器[J].武汉大学学报,2004,29(8):744-746.

[4]宋杰,何友,唐小明.雷达视频回波信号的实时采集、显示与存储系统[J].数据采集与处理,2006,21(1):90294.

[5]王明富,杨世洪,吴钦章.大面阵CCD图像实时显示系统的设计[J].光学精密工程,2010,18(9):2053-2059.

[6]李武森,迟泽英,陈文建.高速DSP图像处理系统中的乒乓缓存结构研究[J].光电子技术与信息,2005,18(3):76279.

[7]Analog Devices,Inc.ADV7300A datasheet[EB/OL].http//www.analog.com.2005.

上一篇:文体的传承与流变下一篇:管理模式应用