视频图像论文

2024-10-17

视频图像论文(共12篇)

视频图像论文 篇1

0 引言

机载航空摄影主要特点是:几何分辨率更高, 视场角较大。因此, 位于扫描航片边缘的图像变形较大;另外, 航空平台的姿态远不如航天平台稳定。

但是, 航片获取的时效性很高, 图像分辨率相对于卫星遥感数据也比较高, 在很多对时间反应要求较高的应用领域, 航空摄影图像发挥着越来越大的作用。因此对于航片的处理有很高的实用价值。

系统几何校正是航空视频图像处理中的重要环节, 通常在遥感图像处理的前端。针对视频处理所采集的单帧视频图像, 并利用该图像对应的遥测数据, 建立几何校正模型, 对图像进行系统几何校正计算, 完成图像的系统级的初步定位, 校正因为传感器倾斜拍摄导致的图像像素的局部变形;系统几何校正处理关系到航拍图像的定位精度, 对于以后的地理精校正、情报应用处理等处理打下基础。

1 系统几何校正模型

本文利用坐标变换方法建立原始图像和输出图像的几何关系, 即几何校正模型, 其步骤如下:

① 建立从当地地理坐标系到相机的空间坐标系群;

② 完成各个坐标系之间的相互转换关系;

③ 把原始图像剖分成适当大小的矩形网格;

④ 根据坐标系转换关系建立几何校正模型;

⑤ 利用几何校正模型, 计算网格点 (i, j) 在WGS-84坐标系下的大地坐标 (LWGS-84, BWGS-84) ;

⑥ 利用 (LWGS-84, BWGS-84) 进行地图投影变换, 得到投影坐标 (Xi j, Yi j) ;

⑦ 再把 (i, j) 、 (Xi j, Yi j) 作为控制点, 利用多项式拟和方法, 对原始图像进行校正, 以下简称为“图像重构”。

1.1 系统概述

本文仅概述图像信息中与几何校正建模有关部分。图像信息获取由机载侦察设备 (光电平台) 完成。对于光电平台, 可以装载CCD光电摄像机 (简称CCD相机) 、前视红外热像仪 (简称红外相机) 。

飞机采用GPS和惯性导航系统进行组合定位、测量姿态;平台采用四框架两轴稳定。

1.2 坐标系

在几何校正模型中采用以下坐标系:

① 地球坐标系 (e系) , 采用WGS-84坐标系;

② 当地地理坐标系 (t系) ;

③ 机体坐标系 (b系) ;

④ 光电平台坐标系, 简称平台坐标系 (p系) ;

⑤ CCD相机坐标系 (c系) ;

设图像共Ic行、Jc列, 中心坐标是 (Ic/2, Jc/2) , 像元cp在图像中的行、列数分别为IcpJcp, 像元大小为lc×lc, 相机焦距为fc, 则其相应扫描角αc, 偏角βc, 根据画幅式相机摄像原理有:

(6) 红外相机坐标系 (h系)

设图像共Ih行、Jh列, 中心像元坐标是 (Ih/2, Jh/2) , 像元hp在图像中的行、列数分别为Ihp、Jhp, 像元为方像元lh×lh, 因为图像为正像, 则:其相应的扫描角αh和偏角βh, 则根据全景摄像原理有:

αh= (Jhp+16× (1+ (-1) Ι2) -Jh2) ×lhfhβh=-tg-1 ( (Ιhp-Ιh2) ×lhfh)

1.3 坐标转换

系统校正的目的是利用目标图像和飞机位置、姿态, 以及平台的参数计算该目标在WGS-84坐标系中的大地坐标, 算法核心是对以上坐标系中进行准确的坐标变换。本文用到的坐标系变换有:

① 由地球坐标系到当地地理坐标系的坐标变换。其变换矩阵R1为:

式 (1) 和以下各式中的Rx (θ) , Ry (θ) , Rz (θ) , 分别表示绕X轴、Y轴和Z轴旋转θ角的坐标旋转矩阵。B0表示飞机当前纬度;L0表示飞机经度。

② 由当地地理坐标系到机体坐标系的坐标变换。其变换矩阵R2为:

式中, Ψ为航向角;θ为俯仰角;γ为横滚角。

③ 由当机体坐标系到平台坐标系的坐标变换。其变换矩阵R3为:

式中, η为方位角;ζ为平台滚动角。

④ 由平台坐标系到CCD相机坐标系的坐标变换。其变换矩阵R4为:

⑤ 由平台坐标系到红外相机坐标系的坐标变换。其变换矩阵R5为:

从CCD相机坐标系到地球坐标系的转换, 利用上述变换矩阵得:

从红外相机坐标系到地球坐标系的转换, 利用上述变换矩阵得:

1.4 激光测距的应用

如果在计算过程中, 光电平台上加载激光测距仪, 能够输出成像时刻的激光测距值, 校正计算的精度将大大提高, 尤其在较高海拔地区。

在原模型中未加入激光测距数据, 因此计算过程中, 默认拍摄地区海拔为0;当平台高低角不为0时 (平台相机光轴指向不是垂直向下) , 计算结果与实际地理坐标有很大出入, 如果海拔较高, 该误差将非常明显, 这样的图像定位结果将无法实际使用。如果加入激光测距, 可以有效计算拍摄图像地区的海拔高度, 降低原模型误差。

1.5 图像输出

建立系统校正模型后, 输入划分的图像网格点坐标, 输出投影坐标。这些点的图像坐标和投影坐标形成一组控制点集, 使用该控制点集, 对原始图像数据进行多项式校正计算, 重采样生成输出图像数据, 根据当前拍摄区域中心点位置, 设置图像投影条带, 指定图像投影信息, 最后输出为图像文件。

2 实验结果以及误差分析初步

根据上述模型, 输入图像文件, 并同时获取与图像生成时所对应的遥测数据, 从中分离出建立模型所需的飞行器位置、飞行器三姿、平台姿态、相机参数、激光测距值等数据。利用这些遥测数据建立系统校正模型, 对输入的图像进行校正计算, 生成图像数据, 写入输出图像文件中。因工程应用需要, 还要在图像中加入地理坐标数据, 图像投影信息等。为后续的图像处理以及情报应用处理提供支持。

在进行图像校正定位过程中, 由于多方面因素, 会导致产生光轴指向误差。造成该误差的因素包括:系统安装误差、飞机位置误差、飞机姿态误差、平台姿态误差、结构安装误差、相机内方位元素误差等。

对于飞机姿态误差、平台姿态误差、相机内方位误差, 通过各个设备出厂调试, 以及在系统联试过程中进行设备调校。

飞机位置, 是由机载GPS定位系统提供, 在实验中, 使用差分GPS以及组合惯导, 通过插值运算得到精度更高的飞机空间坐标, 理论上可以达到10 m以内的误差。

对于结构安装误差, 这也是一个系统误差, 通过地面检测, 可以测出部分误差结果;然后在模型中加入误差修正量, 弥补误差因素对校正计算精度影响。在实验过程中比较常见到, 并且对校正输出结果影响较大的是平台的安装误差, 该误差有时达到十多度, 这意味着, 在飞行器据地几千米的空中, 该误差量直接导致最终图像校正结果将有上百米, 甚至于几百米的定位误差。为了降低该误差, 首先在系统安装时, 进行系统误差校准。另外, 还需要在实验前, 对已安装的平台进行地面测量, 测定该误差值。并将该值加入到校正模型中的误差消除模块, 降低这种系统误差对校正精度的影响。

3 结束语

本文利用坐标变换方法给出了机载CCD电视摄像机和前视红外热像仪遥感图像的几何校正模型, 实施视频单帧图像的几何校正计算, 完成该图像的定位。同时结合实验, 通过对激光测距数据的引入校正模型, 对平台安装误差进行分析和计算, 提高校正精度。在实际应用中, 该方法取得良好的图像定位效果, 但同时也存在不足, 图像定位经度目前还不算太高, 在今后的工作中, 需要继续研究, 以达到更好的结果。

参考文献

[1]张永生.遥感图像信息系统[M].北京:科学出版社, 2000.

[2]朱述龙, 张占睦.遥感图像获取与分析[M].北京:科学出版社, 2000.

[3]黄世德.航空摄影测量学[M].北京:测绘出版社, 1992.

[4]陈述鹏, 童庆喜, 郭华东.遥感信息机理研究[M].北京:科学出版社, 2000.

视频图像论文 篇2

摘要:我们从事于研究可视化数据中的不规则检测,例如检测视频中的可疑行为或者是识别图像中的跳跃性模式。“不规则”这个术语依靠于被定义的“规则的”或是“合法的”的上下文。然而,期待可以在一个给出的上下文显定义所有合法的结构是不现实的。我们把决定可视化数据合法性的问题当作构造迷题的过程:我们努力去用大块的数据(“一块块的迷题”)组成一个新的已经观察到的图像区域或是一个新的视频片断(“查询请求”),这些大块的数据是从先前的可视化样本(“数据库”)中抽取出来的。这些在被用数据库中的大块接近的数据组成的被观察的数据中的区域被认为是非常相像的,但是这些不可以从数据库(或者仅仅是可以用小片断数据组成)组成的被观察的数据中的区域是被认为是很不相像或是可疑的。这个问题被作为一个处理盖然论图像模型中的推论提出来。我们展示一些利用这些方法的应用程序来识别图像和视频中的显著,目的是用它来探测可疑行为和高质量保证的自动化图像检测。

关键字:探测可疑行为,显著,不规则探测,新奇事物探测,自动探测,动作识别,自动图像检查

1. 介绍

图像和视频中不规则图像模型的探测在各种各样的任务中都是很有用的。对于监视和监测来说探测可疑行为或是异常目标是重要的。对于质量控制和自动检查来说,在图像中识别空间显著是有用的。在视频中的行为显著对于吸引观看者的注意力是有用的。先前识别可疑行为或活动的方法可以广泛的被分成两类:基于规则的方法(例如,Ivanov and Bobick(1999))和没有预定义规则的统计方法(例如,Stauffer and Grimson(2000)和Zhong et al.(2004))。统计方法更加有吸引力,这是由于它们不用为所有合法结构假想出一系列预定义的规则集,而是,他们尝试着自动的从数据中学习规则中的概念,并且就这样推断出各种可疑行为。然而,在先前方法中已经被应用的代表方法要么是很有限制性(例如,trajectories of moving objects(Stauffer and Grimson, 2000))要么是太过全球性了(例如,a single small descriptor vector for an entire frame(Zhong等人, 2004))本论文中,我们用公式化的形式把探测规则和不规则的问题表示成为用从先前视频样本(数据库)中提取出来的时空块组成(解释)已经观察到的图像数据(一个图像或是一个视频,在下面提到时用“查询”表示)或是视频的问题。这些可以用从样本数据库中抽取的巨大接近的数据块组成的查询中的区域被认为是相似的,这些区域越大,相似性就越强。在不能用样本数据库组成的查询中的区域被认为是不相似的或是可疑的。我们的方法因此可以从仅仅少量的几个样本就能推断或是归纳更大上下文的图像模式和行为,甚至这些从来都没有见过的特别结构的图像模式和行为的合法性,本地描述符是从小图像或

是视频块(被组成在一起来形成大的块)中抽取出来的,因此它可以快速和高效的推断出行为改变中的细微但重要的改变(例如,一个人在走和一个人拿着一支枪在走的不同)。而且,我们的方法可以同时识别出一个合法的行为在一个视窗区域部分,并且可疑行为在另一个视窗区域中部分,因此在这一帧仅仅是标明探测到的可疑区域,而不是整一帧都标明出来。在第6节将给出这样的例子。从图像碎片中得出的推断在先前已经被应用到基于分类的目标识别(例如,Bart and Ullman(2004), Felzenszwalb和 Huttenlocher(2005)and Fergus等人)中的任务上去了。少数的情报帧已经被人学习和预选择用来作为少数的目标的预定义分类。然而,基于分类的表述不可以捕获组成一幅场景中未知目标或行为的所有一切的可能的情况,因此它不适合于探测不规则性任务。我们的方法也可以应用在探测图像和视频中的显著。例如,给出一幅没有先前信息的简单的图像,我们可以测量出每一幅图像区域(查询)相对于同样图像(被用作特殊查询的“数据库”)的剩下部分的“合法”性。类似的,给出一段简单的视频(没有关于什么是正常行为先前知识),我们可以探测“显著行为”,这些行为不能被任何其它在视频里同时发生的动态现象所支持。用来探测图像显著(例如,Itti等人(1998))的先前的方法被提议用来测量本地图像和它的瞬间周围区域的相异程度。因此,例如,显示出巨大改变的图像区域被探测为显著图像区域。他们的“视觉注意”的定义是来源于同样的推理。然而,我们相信显著的概念没有必

要由瞬间周围图像所决定。例如,一个在黑色纸上简单的黄点可以是显著。然而,假如在黑纸上有很多黄色的点,那么一个简单的黄点再也无法引起我们的注意,即使它相对于周围附近来说仍然有巨大的改变。因此我们的方法建议一种新对于术语“显著”更加直觉的解释,它来于整个图像的内部统计。我们处理空间图像显著的方法更接近于Honda和Nayar(2001).的方法。然而,(Honda 和Nayar, 2001)在重复性结构的图像模型是局限性的并且它高度依赖于本地周围图像属性,然而我们的方法却不是这样。用我们的方法探测图像空间显著和视频行为显著的例子将在第6节给出。我们的论文因此提供了四方面主要贡献:

1. 我们提议一个可以从仅有的几个样本中就可以推断和归纳的方法,这个方法是关于一个更大的上下文图像模式和行为的合法性的,甚至是这些从来都没有见过的特殊结构的合法性。2. 我们提出一个基于图表的贝叶斯定理的推论运算法则,它可以在成倍增加的时空范围里高效的探测巨大碎片块整体(例如,好几百块的碎片块)。它可以同时增强这些在整体以及单个的描述符上的碎片里的相关几何方面的排列上的约束。

3. 我们提议对图像和视频里术语中的“显著”和“视觉上的注意”给出一个新的解释。

4. 我们给出单个统一的框架来处理几个计算机视觉里的问题,这些问题在过去已经被单独的处理过。这些问题包括:图像的注意,视频的注意,可疑行为的识别,异常物体的识别,自动视频检查(例如,用来质量的保证)等等。

本论文的短文版在ICCV 2005(Boiman and Irani, 2005)提供。

2. 由组成得出的推论

当给出了几个样例后,我们(人类)对于什么是规则/合法,什么是不规则/可疑,甚至是见到以前我们从来没有见过的新结构的东西,都会有一个概念。我们从来不需要显定义给定上下文的合法结构的所有可能。“规则”/“合法”这些概念可以从简单的几个合法模型(视频中的行为或是图像的外观)的样例中学习和归纳得来,并且所有其它结构可以自动的从这些当中推断得到。图表1(Figure 1)说明了潜在于本论文的基本概念。假设一幅新图像(一个查询—Fig.1(a)),我们检查是否每个图像区域都可以从数据库里找到一张足够大的接近的区域来解释(见 Figs.1(b)和(c))。尽管我们从来没有见过一个人两臂举起来那样坐着,但是我们可以从这Fig.1(c)里的三个数据库图像里推断出这个动作的合法性。这样,能用数据库里巨大的数据块来解释的新观察到数据/查询(一个图像或是视频)里的区域被认为是很相像的,相反,不能用数据库里的足够大的数据块来解释的查询里的区域被认为是不相像或是可疑的。当一个视觉的查询是一个图像,那么这些数据块仅有空间的范围。当一个 视频查询是一个视频,那么这些数据块就既有空间又有时间范围了。

Detecting Irregularities in Images and in Video 19 Figure 1.The basic concept—Inference by Composition.A region in the query image is considered likely if it has a large enough contiguous region of support in the database.New valid image configurations can thus be inferred from the database, even though they have never been Seen before.Figure 2.Detecting a matching ensemble of patches.3. 碎片的组合

人类的行为或自然的空间结构从来都没有相同的重复着。例如,没有两个人是走路是相同的。一个人比另一个人的手臂抬高一点,或是仅仅走得快一点。我们因此想允许它在我们的“迷题的块”(数据块)里有一个小小的非严格变形(在空间和时间上)。这对于巨大的数据块来说尤其的正确。为了计算本地的非严格变形,巨大的块利用它们相对的几何位置在多维度上被分解成很多小块的组合。这在Fig.1(d)中有说明。在推论处理过程,我们寻找具有相似属性(行为或是外表)的块的相似的几何结构,同时允许在相对几何排列上有微小的本地未对准。这个概念在Fig.2中说明。当视觉查询是一个图像,碎片的组合被组成空间碎片(见Fig.3(a))。当视觉的查询是一个视频,那么碎片的组合被组成时空碎片(见Fig.3(b)),这允许我们捕捉动态的行为信息。在我们当前的实现来说,一个简单的典型的组合都同时从多维度(图像碎片案例中的多空间维度,和时空碎片案例中的多时空维度)具有好几百个碎片。当从样本碎片中组合新数据这个想法被先前证明对于大量的任务都是有用时,(e.g., Efros and Leung(1999), Freeman et al.(2000)and Wexler et al.(2004)),这些方法没有在用于构建的样本碎片上强加任何的几何约束,也就是说,它们的相对位置和距离在数据库里没有强加任何的几何约束。对于他们的目的来说一点必要都没有。然而对于检测不规则来说是至关重要的。经常,在相似和不相似现象之间区别的唯一真实的信息提示是数据库支持的碎片

程度。例如,一个举着一支枪的人伸直一条手臂和一个人走路时瞬间伸直手臂是相似的,但是在时间上它的区域的支持度是非常有限的。获取碎片的几何相关性被认为对于基于分类的目标识别(Bart and Ullman, 2004;Felzenszwalb and Huttenlocher, 2005;Fergus et al.,;Leibe et al.)任务来说是重要的。这些方法不适合我们的目标,因为两个原因:(i)他们的几何结构受限制于相关的小数量的碎片,这样就不能捕捉那些用来探测不规则性的敏感的区别。(ii)这些结构是为小数量预定义的目标类来预学习的,然而我们的框架是可以应用于任何类型的视觉数据。当Leibe等人的几何约束更加的灵活,这样就允许从仅仅少数几个样本就能识别新的目标结构,对于一堆有预定义目标中心的预定义的目标类,他们的方法仍然是有局限的。这就不适合于探测不规则性,它也没有目标类的概念。“Video Google‖(Sivic and Zisserman, 2003)强化了在巨大的非基于分类的描述符的几何约束,并且搜索他们都非常的高效。然而,这些描述符在自然界中有空间性的并且这搜索受限于单个的图像帧,这样就不能允许去捕捉行为。为了在合理的时间里推断处理完成,小块的信息和它们之间的相关排列必须被高效的存储在数据库里并且能从数据库里高效的抽取出来。对于每个从样本抽取出来的小块,一个描述符向量连同绝对相关碎片(空间的或是时空的相关性)被计算和存储(见下面)。这样,在图像和视频数据库里的所有碎片的相对排列都是隐式有效的。后来,我们的推论运算法则采取从视觉查询中的碎片组合并且查找数据

库来寻找相似的结构碎片(既有描述符又有他们的相对几何排列)。为了能快速的查找和检索,这些碎片被存储成多维的数据结构。用一个或然论的图形模式(第4节),我们为寻找问题的组合提出了一个高效的推论运算法则。

3.1 碎片描述符

碎片描述符是为每一个查询碎片和每一个数据库碎片而产生的。描述符捕捉关于外表和行为的本地信息。我们当前的实现用的是非常简单的描述符,这些描述符很容易就被那些更加世故圆滑的描述符所替代: 小空间碎片的空间图像描述符是由以下构成:为碎片里的每一个像素计算它的空间倾斜度的大小,这些值然后被一个向量所保存,这个向量规格化成一个单位长度。如此的描述符被密密麻麻的解压到图像里的每一个像素。这个描述符解压处理过程被几个图像的空间高斯金字塔的空间范围所替换。这样,一个从粗糙范围解压出来的7 X 7的碎片就比它的输入图像(也就是说精度)具有更高的空间支持度。在一些应用里,一个RGB/基于亮度的描述可能比一个基于倾斜度的描述符更适合。一般来说,我们的整体的框架没有局限SIFT(Lowe, 2004)于这些特殊的描述符。这些很容易就被比它更世故圆滑的空间描述符例如SIFT(Lowe, 2004)等所替代。一个小(也就是7×7×4)的时空视频碎片的时空视频描述符由碎片的所有像素的时间派生的绝对值所构成。这些值构成一个向量并且规格化成一个单位长度。这个描述符解压处理过程被几个时空视频金

字塔的空间时间维度所替代。这样,一个从粗糙维度解压出来的7 × 7 × 4的碎片比它的输入序列具有一个更大的空间和更大的时间支持度。注意到一点是,由于时间派生物在任何的静态的背景下总是为零的,所以这个描述符几乎是一个静态背景不等式。所以,利用这时空

描述符,我们可以在新的查询序列中探测不规则,而完全不用理会它的背景。然而,这简单的描述符依赖于空间织品的质量,比如当一个人穿着一件织地非常粗糙的衣服时它可能引起一个问题。我们的方法,然而就不会这样局限于这些简单描述符特殊的选择。这些描述符可以很容易的就被那些世故圆滑的时空描述符(这些描述符对动作敏感并且更加的外表不变)所替代,例如Shechtman 和 Irani(2005)或Laptev 和 Lindeberg(2003)。Boiman and Irani

Figure 3.Ensembles of patches in images and video.4. 基本的运算法则

给定一个新的视觉查询(一个图像或是一个视频),我们很愿意去估计它的每个点的可能性。这可以通过检查一个巨大的周围的每一个像素的区域(也就是说,50 × 50的图像区域和50 × 50 × 50视频区域)的合法性来实现。这巨大的周围区域被多维度(空间或是时空的)的分离成大量(好几百个)的小的碎片,并且被表述为一个单一的与特殊图像/视频点相关的碎片的组合。令q1, q2,..., qn表示组合中的碎片(见Fig.3(a))。每一个碎片qi都与两种类型的属性相关:(i)它的描述向量di和(ii)它的绝对坐标的位置li。我们选择任意的参考点C(也就是这组合的中心(见Fig.3(a)),C点作为本地坐标系统(这样就可以定义组合内碎片的相对位置)的“原点” 4.1.统计公式

令一个观察到的查询范围内的碎片组合用y来表示。我们想去计算连接的可能性P(x,y),其中观察到的查询中的组合y与在数据库(既在碎片的描述符值相似也在相对位置上相似)中的隐藏的组合x是相似的。我们可以连接可能性变成:P(x, y)= P(y | x)P(x)。我们的模型P(y | x)类似于Felzenszwalb and Huttenlocher(2005)的“星图”或然论模型。然而,在Felzenszwalb and Huttenlocher(2005)基于分类的设置表示为P(y;θ),其中θ是一个给定的基于分类的碎片群参数的预学习集。在我们的案例中,然而,对目标是没有概念的,也就是说,没

有数据库组合x的前验参数模型。这样,θ是未定义的,并且P(x)必须直接从样本数据库中非参数的评估。令diy表示观察到的碎片y中的第i个描述符向量,liy表示它的位置(在绝对坐标里)。类似的,dix表示在碎片x中的第i个隐藏(数据库)的描述符向量,lix表示它的位置。令cy和 cx表示被观察到的和隐藏的组合的“原始”点。任何这样一对组合y和x的相似性被以下的可能性公式捕获:

P(x, y)= P(cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y,...)(1)

为了让计算Eq.(1)的可能性易于操作,我们做了一些简化的统计假设。给定一个隐藏数据库碎片和它的描述符dix,这相应的观察到的描述符diy被假设成与其它碎片描述符无关。(这是标准的马尔可夫链的假设,也就是说,Freeman等人(2000),这个在重叠碎片上明显是不合法的,但它是一个有用近似值)。我们用一个高斯分布在描述符间建立相似性模型:

P(diy|dix)=α1exp(−1/2(diy− dix)T S D−1(diy− dix))(2)这里,α1是一个常量,SD个常量协方差矩阵,它决定描述符值的可允许的偏差。其它的分布可以根据其它描述符的相似性函数插入到模型中。给定一个隐藏数据库碎片的相对位置(lix− cx),观察到的相应碎片(liy− cy)的相对位置被假设成不依赖于所有其它碎片位置。这个假设使得有足够灵活性去适应在视线角度、范围、位置和行为上的微小变化进行比较两个碎片组合的几何排列,这样:

P(liy | lix, cx , cy)= α2 exp(− 1/2((liy− cy)−(lix− cx))T× S−1L((liy− cy)−(lix− cx))))(3)这里α2是一个常量,SL是一个常量协方差矩阵,它捕获了相对碎片位置中的所被允许的偏差。(本案例中,相对位置的依赖是用高斯来建模,然而这模型并没有受限它)。到目前为止我们已经建立了组合(描述符:diy, dix相应位置:liy− cy , lix− cx)间属性的关系模型,我们仍然需要建立隐藏组合内的关系(也就是一个碎片描述符dix和它的位置间lix.的关系)模型。在一般的案例中,这关系是非常的不可分析,因此不能被参数化(与基于分类方法形成对照,也就是说Felzenszwalb 和 Huttenlocher(2005)和 Fergus 等人(2003))的建模。因此,我们利用数据库中的样本进行非参数化的为它建模:(dx, lx)∈ Database

P(dx| lx)=

0 otherwise

(4)

这里 dx 和 lx是任意描述符和位置。我们为cx和cy(本地原始点)假设一个相同的先验分布,也就是,没有预先优先选择哪一个本地数据库或是查询的组合。所有上面提到的变量之间的关系在Fig.4中的贝叶斯网络所描述。

Boiman and Irani

Figure 4 或然论图形模型

这贝叶斯依赖通过变量间的箭头表示出来。这依赖关系仅仅为组合中的一个碎片(第i个碎片)而表示出来。观察到的变量用“橙色”表示出来;隐藏变量用“蓝色”表示出来。cx 和 cy分别是隐藏的和观察到的组合的“原点”,Lix and li y是隐藏的和观察到的组合的第i个

碎片的位置(绝对坐标);dix 和 diy是每一个组合的第i个碎片的描述符向量。

这样,对于一个观察到的组合 y 和一个隐藏数据库组合 x,我

们可以通过利用Eqs.(2)–(4)来得出Eq.(1)的共同可能性P(x, y)如下: P(cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y)

= αiP(liy| lix, cx , cy)P(diy| dix)P(dix| lix)(5)∏

我们可以得出连接可能性的协方差矩阵,每一个都与模型中的一个不同部分所关联着。当识别的任务受限于几个已知预定义的类型时,也就是每一个都有它的预定义部分和参数时,这是一个好方法。这,然而,不是我们案例中的设置,那里没有预定义我们要寻找什么的概念,然而,我们想能够探测相对于样本细小的不规则。我们的模型因此是 非参数的并且它的归纳能力不依赖于参数的调整,但是更依赖于数据库中样本的差异性。这在个意义上来说,我们的非参数模型具有了Leibe等人的非参数处理方法的共同之处。在我们的实现中,我们已经设置协方差矩阵SD和SL成为一个简单的凭经验决定的标量方差。这个简单的设置给我们的实验一个满意的答案。注意到在这个设置里,这两个参数的单一的目的就是适当的承担了几何变形和外表/描述符变形的代价。而且,注意到这些是模型中的仅有的参数,因此需要非常少的参数调整。4.2 信任传播推论

给定一个观察到的组合,我们寻找一个隐藏的数据库组合,这个组合最大化它的MAP(最大归纳的可能性)分配。这被通过上面统计模型来完成,这个模型具有一个简单并且确切的信任传播运算法则(Yedidia 等人,2003)。根据Eq.(5),MAP分配可以被写成: max1111P(c , d ,..., l ,..., c , d ,..., lxxxyyy)X maxP(li| li, c , c)maxP(di| di)P(di| li)(7)= α∏y xxyy xx xilixdix这个表达式可以被表达成一个在Fig.4里传递运算法则的消息。首先我们为每一个碎片计算从结点dix到结点lix关于它在位置lix的信任消息midl :

maxmdl(lx)= dixP(diy | dix)P(di x | lix)(8)ii也就是,对于每一个观察到的碎片,用高描述符相似性计算每一个候选数据库位置lix。下一步,对这些候选数据库的每一个位置,我们都传递一个包含在数据库中可能原始位置cx:

milc(cx)= maxlixP(liy | lix,cx,cy)mdl(lix)(9)在这一点,我们有一个被每一个碎片暗示的候选原始列表。为了计算一个整体组合任务的可能性,我们从组合里的所有个体碎片中乘这信任:

mi(c)(10)mc(cx)=∏ ilcx通过这个运算法则处理的推论运算量一个MAP推论。因此,在样本数据库中只发生一次的东西相等于那些发生很多次的东西。这个公式在很多应用中都很有用,然而,那可能有这样的应用,在那里我们愿意发生在数据库中的频率去影响一个组合的可能性。上面运算法则的

一个简单的修改允许去计算可能性而不是MAP,这是通过转换推论运算法则从一个最大乘积转换成一个和乘积。4.3 估计查询点的可能性

对查询中每一个点,我们尝试去在它周围组合一个巨大的区域。这可以通过检查一个围绕着每一个点的巨大区域的合法性,检查时用上面的推论处理过程(通过计算一个查询区域相似性)。这一点参与在很多查询区域中。我们定义一个查询点的相似性为包含那个点的最大区域可能性。因此,假如存在一个包含它的巨大区域,有相应的相似性数据库区域的话,在查询中的一个点将有一个高可能性。这个方法,我们可以利用部份的目标闭塞组合成查询,因为靠近边界的点被包含在目标里的一个巨大的区域中。然而,部分闭塞可能生成小的邻接的目标区域,这些区域不能被用高可能性利用我们当前推论运算法则去组合而已的。我们希望我们围绕每一个点组合的区域尽可能的大,因为这区域越大,这一点是不规则的这个证据就越大。然而,那有这样的案例,在这些案例里,一个“规则”的观察到的组合不能被完全的由一个简单的数据库组合而组成(例如,由于部分闭塞)。这那些案例中(不是很高频率的那些),我们减小观察区域的尺寸(例如,减小25%)并且重复着推论的过程,完全没有包括被丢弃的碎片。我们处罚总体组合可能性的分数为每一个我们丢弃的碎片。根据Eq.(6)我们增加一个常量代价处罚为每一个我们丢弃的碎片。处罚期限的大小,反映了我们归因于组合区域大小的重要程度。

处理不同大小的组合:为了探测在一个整体观察里的不规则区域,我们仅仅开始了在Eq.(6)里的组合代价。然而,那可能有一些观察到的组合大小可能不同的案例(例如,因为非情报性区域,排除分析的区域,数据边界,等等)。为了比较不同大小的组合合成代价,需要一个标准化的东西。我们利用一个标准化,它是基于统计组合代价显著水平的标准化。我们定义一个零假设H0,这样每一个观察到的组合都通过上面定义的统计模型来产生。因此,组成代价C0的统计显著水平可以通过P值 Pr(C > C0 | H0)来测量到。假定这零假设,并且给定一个隐藏的组合,每一期限在Eq(6)里的组成代价都是按照χ2分布的,并且总体代价的分布也是按χ2分布。这些分布可以被用到计算这样的P值,它为不同大小的组合“规格化”它们的组成代价。

5. 一个高效的推论运算法则

在第4.2节中信息传递运算法则的一个本地的实现是很不高效的,由于独立描符查询是为每一个观察到的组合中的碎片而处理的,完全不用回答先前被其它碎片处理的查询。这导致了一个O(Nk)的复杂度,N是数据库中碎片的数量(例如100,000个碎片为一个一分钟的视频数据库)并且K是组合中碎片的数量(例如256)。而且,我们将会扫描整个的查询(一个新图像或是一个新视频),这个查询导致一个总共O(Nkq)的复杂度,这里Q是查询中碎片的数量。这复杂性对于真实的应用来说是禁止的,因为每一个词语(N, k 和q)都是不可以忽

略的。在本章节中我们给出了怎么样可以做到不用牺牲精确度而显著的减少复杂度。5.1. 改进的排除过程

观察到的组合中的碎片与某一几何排列有关。我们可以用这知识通过改进的消除数据库里的查询空间来进行一个高效的查询:我们为一个少数量的碎片(例如1个)来计算消息midl。可能的候选原点的结果列表包含了为下一个碎片的非常有限的查询空间。下一个碎片,依次,从已经候选的短列表中消除附加的原点,等等。这个处理过程在Fig.5.中图表说明。为了加速这进步的消除的过程,我们在 Eqs.(2)和(3)用削去顶端的高斯分布(4σ之后的削去)。因此,根据几何学或是外观/描述符,这些分布将一个零的可能性给高碎片变形。第一个碎片查询的代价是O(N)。我们仅仅从被第一碎片(在我们的实现里,c=50)提议列表中保存了最好的C候选原点。第二碎片现在受限于C位置的近邻。第二碎片将受限于一个更加小数量的近邻。这样,在最糟糕的案例想定,我们的复杂是O(N + kc)≈ O(N)。相反,在Felzenszwalb and Huttenlocher(2005)and Leibe 等人的推论处理的复杂度是O(Nk),而这“群星模型”(Fergus 等人)复杂度在碎片数量上是指数型的。上面被提议的在复杂度方面的减少对于使能拥有几百个的碎片的组合的视频推论是极度重要的。值得注意的是极限缩小候选原点的数量直到C候选可能会是有问题的:例如,假如我们选择的第一个碎片是非情报的(也就是单边),那么选择最优C候选是武断的并且我们可能抛弃了全局最优组

合。在实践中,我们推论算法(多维度策略,预搜查,和扫描观察)的其它组件消除了这风险。注意到的是,假如我们采取削峰高斯分布(或其它有限支持分布),并且假如搜查第一个最新碎片范围少于C候选位置,那么这改进的消除处理保证一个确切的解决方法,因为我们仅仅抛弃有零相似性的候选。注意到这使得在这样的条件下,我们可以提供一个确凿推论,这个推论等价于含有简化复杂度的信任传播。而且,我们知道在推论过程中,这结果是确凿的(最优化)或是它仅仅是一个近似值。

5.2. 多维查找

为了进一步加速这消除过程,我们用一个由粗糙到精细的策略(既有时间又有空间)。我们从粗糙的维度选择第一个查找碎片,因为两个原因:(i)在数据库里有一个更小数量的粗糙碎片比精细的碎片(这样减少了有效的N在第一个最强烈的步骤中),并且(ii)粗糙的碎片更加有判别力的因为他们从巨大的区域中捕获了信息。这消除数据库组合的候选区域是非常快速的。我们进行下去直到我们处理完所有的在观察到的粗糙维度的碎片。于是我们投出候选原始点到下一个精密标度并且继续去处理在精密维度(既是空间上也是时间上的)里的碎片。我们用多维度的方法去处理所有在观察到组合里的碎片。这个多维度查找的复杂度是O(N0 + kc),这里N0是时空金字塔里最粗糙维度的碎片数量。

5.3.高效的数据库存储和检索

一个简单的数据库实现可以是用一个碎片描述符的排列和线性的查找。然而,时间和空间复杂度可以显著的分别的提升数据库的存储和检索。存储空间可以通过保持描述符向量近似值的方法得到显著的减少。例如,所有描述符向量通过利用标准技术例如PCA和ICA的技术可以被到映射成一个低维线性空间。另外,向量量子化技术(例如K均值,或是Jurie and Triggs(2005))可以被应用到描述符的聚类组中。映射和量子化的结果是出现更少存储的描述符,并且每一个描述符都更短了。另一个好处是数据库检索时间被缩短了。注意到映射和量子化在描述符向量里引进了错误。假如每一个“被压缩”的描述符向量包含一个连接原始描述符的话,我们就可以消除错误了。本案例中,存储空间没有被缩小,但是检索的时候将会被缩小。一个接近的相关的缩短数据库检索时间的相关方法是使用更好的数据结构去存储描述符向量,例如KD树和hash表去查找大约最近邻。这些数据结构使最快范围查询(在一个给定的元素的某一范围里发现所有在数据库里的元素)。这个时间复杂度的结果是O(Range(N0)+ kc),这里(N0)《 N0表示在有N0元素(碎片)的数据库数据结构的范围查询的代价。

5.4 利用预查询的方法

到目前为止我们假定上面描述的组合算法是被应用到所有观察的点,这些点完全不彼此不相关的。这常常是徒劳无功的,因为邻近的被观察到的组合在数据库里倾向于拥有近邻隐藏的组合。我们利用这个事实通过测试隐藏组合变量在空间和时间上的值去加速合成的过程。通过所有的先前组成的组合,凭借着从观察到的重叠碎片里获得的知识,我们预测隐藏组合中心的位置和数据库里的隐藏碎片的身份。我们用最简单的预测:给定一个近邻的观察到的组合(˜y和它的相应被探测的数据库组合~ X),我们预测一些在隐藏组合X里的隐藏变量,相对应的是一个新观察到的组合Y。我们预测用以下公式预测隐藏组合中心Cx:

cx = c˜x + cy − c˜y

(11)而且,对每一个观察到出现在预测组合(liy, diy)=(l˜jy ,d˜jy)的碎片(liy,diy),我们预测相应的隐藏变量(lix, dix)=(l˜jx ,d˜jx)。没有预测的剩下的隐藏变量,可以用改进的消除过程非常快的被推断出来。注意到的是对于近邻组合,大多数的观察到的碎片是重叠在一起的,因此组成一个新组合的复杂度是非常低的。万一预测错误并且因此导致一个低质量的组合(也就是说,被观察到的区域有较低的可能性),我们就抛弃这预测结果并且在整个的数据库里都用通用的推论。这样,这个预测查询就不会在数据库的别处阻止探测。然而,在大多数的情况下,这预测查询是很精确的并且它减少相当多的推论时间。假定有一个长度为r的合法性预测“链条”,在链条中预测一个组合的代价是O(k)。因此,这样一个链条的总的复杂度是O(Range(N0)+ kc + kr)而不是没有预测时的O(Range(N0)r +

krc)。除些之外,还非常的明显的缩短推论时间,预测确实提升了推论的准确性。这是因为组合精准的这些区域繁殖信息到了精确性不高的那些区域(例如,一个站立的人的一条腿比身体的上部有更少的确定性)。

6. 应用

在本论文提出的方法引起了各种各样包括探测图像和视频不规则方面的应用:

6.1.探测与异常图像结构

给定一个样本图像数据库,我们可以要新观察到的图像中探测一些异常的东西(例如从来都没有见过的物体,新的图像模式,等等)在Fig.6里给出一个例子。三个不同姿势的图像作为一个数据库被提供(Fig.6(a))。其它姿势的图像作为查询被提供(Fig.6(b))。新的合法的姿势被自动的从数据库里推断出来,尽管它们是从来都没有见过的。不能从三个数据库图像被推断出来的新姿势部分被用红色标示成“不熟悉的”(Fig.6(c))。Figure 6(d)真实的标出了这些能够为大多数查询图像中的每一个像素提供证据的数据库图像(也就是说,这告诉我们哪一个数据库图像包含了最大可能支持那像素的区域。注意,然而,这些并不是支持它们自己的区域)。默认具有相同碎片的和从推论过程中被抛弃(为了加快速度)的相同的碎片(具有可以忽略的图像倾斜度)被假定为合法的。

Figure 6.Detection of irregular image configurations.New valid poses are automatically inferred from the database(e.g., a man sitting on the chair with both arms up, a man sitting on a chair with one arm up), even though they have never been seen before.New pose parts which cannot be inferred from the three database images are highlighted in red as being ―unfamiliar‖.6.2 单一图像的空间显著

给定一幅单一的图像(也就是说没有数据库),显著图像区域可以被探测到,例如,那些凸出的不同于剩余部分的图像的区域。这可以通过测量每个相对于同一幅图像中剩余点的图像区域(即“查询”)的可能性来实现(这数据库用作推论这特殊的区域)。这个处理过程为每一个图像区域重复着。(当进行着从一个图像区域的分析到下一个图像区域的分析时,这个处理过程可以通过自适应增加或是减少数据库中的大约描述符的方法而很高效的实现)。这样的一个例子在Fig.7.中表示出来。这个方法可以被应用到自动视觉检测的问题中(计算机芯片、货物等的检测)。

Figure 7.Identifying salient regions in a single image(no database;no prior information).The Jack card was detected as salient.Note that even though the diamond cards are different from each other, none of them is identified as salient.6.3 探测可疑行为

给定显示几个合法行为例子的一个小数据系列,我们可以一个新的长

视频中探测到可疑和为。这是完全不管我们以前从来都没有看过这些行为的组合,而且是没有关于哪一类的可疑行为可能发生在视频里的先验知识的。这些是自动的组合与从数据库中的时空区域里推断出来的。Fig.8有一个这样的例子,它从一个2分钟长的视频短片里显示出几个用来探测可疑行为的例子。要看完整的视频请登录binations are automatically inferred from the database(e.g., two men walking together, a different person running, etc.), even though they have never been seen before.behaviors which cannot be inferred from the database clips are highlighted in red as being ―suspicious‖.For full videos see www.wisdom.weizmann.ac.il/∼vision/Irregularities.html

6.4 视频中的时空显著

利用我们的方法我们可以从一个简单的视频流里就能识别出显著行为,完全不用任何的数据库或是先验信息。例如,一个人在欢呼的人群中奔跑。这个人的行为很明显是显著的。在这个案例中,显著性是通过相对于同一时间观察到的其它行为的比较而测量出来的。每一个

时空视频片断(查询)的合法性是相对于所有其它视频片断而测量出来的。这个处理过程为每一个视频片断重复进行着。这样的例子在Fig.9里有给出。要获取全部视频,登录到www.wisdom.weizmann.ac.il/∼vision/Irregularities.html。视频显著性也可以通过相对于其它的时间窗口来测量到。例如,当显著性是通过相对于整个视频而测量的,那么那些只出现过一次的行为将显得突出。作为选择的,当显著性的测量是相对于过去(所有之前的帧)而测量的,那么新的之前没有发生过的行为就会被认出。这提升了应用的多样性,包括视频大纲。

Figure 9.Detecting salient behaviors in a video sequence(no database and no prior information).Saliency is measured relative to all the other behaviors observed at the same time.In this example, all the people wave their arms, and one person behaves differently.For full videos see www.wisdom.weizmann.ac.il/∼vision/Irregularities.html

6.5 自动视频检查(质量保证)

我们的方法可以被应用到自动视觉查检。自动视觉检查可以广泛的应

用在质量保证和货物的制造方面,电子印板,晶片等。自动检查的一个主要的问题是怎么描述所有可能正确的模式。在这些案例中,自动检测减少成一个具有转变探测的简单问题模型匹配。然而,有很多重要复杂案例,它是毫无意义或不可能提供比较参考,(例如,由于“好”案例的空间的组合复杂度)。我们用我们的方法从事这样的案例从而来探测不规则性。通过提供一些期待/正常模型的样例(对于货物,印刷板,晶片,光掩膜,平板显示,磁砖,织物,水果等)我们努力去从这些样例通归纳和组成新的从来都没有见过的现象。具有较低组成可能性的将为认为是错误的。在Fig.10给出这样的一个水果检查的样例。经常,被检查的产品呈现出重复的模型(例如,晶片,织物,平板显示)。在这些案例中,我们可以用我们的显著方法去探测错误根本不需要先验样例。这在Fig.11中图表说明晶片检查和Fig.12里的织物检查。对于给出的样例中,我们已经利用到基于RGB或是灰度等级的碎片描述符。我们已经利用到一个高斯分布来对描述符相似性建模。我们的方法,然而,没有局限于特定的描述符。

Figure 10.Detection of defects in grapefruit images.Using the single image(a)as a ―database‖ of high quality grapefruits, we can detect defects in different grapefruits at different arrangements in images(b),(c).In both image pairs the input image is to the left and the output image is to the right.Detected defects are highlighted in ―red‖.Figure 11.Detection of defects in wafer images(No database and no prior information).Wafers tend to exhibit repeating structures.This can be utilized using our saliency approach to detect defects without any database.In each example, the left image is the input, the right image is

the output.Detected defects are highlighted in ―red‖.Figure 12.Detection of defects in fabric images(No database and no prior information).Fabric tend to exhibit nearly repeating textures and patterns with small non-rigid deformations.This can be utilized using our saliency approach to detect defects without any database.Detected defects are highlighted in ―red‖.7. 结论

我们研究的问题是探测视觉数据(图像或视频)里的不规则现象。“不规则”这个术语是依赖于被定义“规则”或“合法”的上下文。然而,对于给定的上下文,期待显定义所有可能合法结构是不现实的。我们把决定视觉数据合法性的问题当作构造一个迷题的过程:我们尽力利用从先前视觉样例(数据库)中解压出来的数据块去组合一个新观察到的图像区域或是一个新视频片断(查询)。能够用数据库里的巨大邻接数据块去组成的观察到的数据区域被认为是相似的,相反那些不

政府视频图像资源如何整合共享 篇3

展视频图像资源的建设。例如,公安部门建设了社会治安动态监控系统、交警卡口系统等,城管、交通、环保、水利等部门也分别建设了满足各自需求的视频图像资源系统。如何将这些视频图像资源进行整合,实现纵向、横向共享和统一调度是目前必须面对和需要迫切解决的问题。

整合共享的现状

在实际情况中各部门建成的视频图像系统存在着互联难、共享少、重复建设等问题,下文以宁波市政府相关部门为例,介绍视频图像资源整合共享现状。

视频建设的现状

宁波市视频图像资源的主要来源为各部门建设的前端视频摄像机的实时拍摄视频。截至2012年7月,被调研单位已经建成的前端视频摄像机共计6917个,其中公安局在海曙、江东、江北、鄞州的市区范围已安装摄像机6000多个(不含道路卡口和电子警察的摄像机),交通委安装100多个,城管局安装300个,水利局安装27个,气象局安装15个,海洋渔业局安装30个,环保局安装400多个,林业局安装6个,人防办安装39个。

各单位的建设模式各不相同,主要包括自主建设、租赁电信全球眼以及自主建设兼租赁电信全球眼等三种模式。

各单位视频信号分为数字模式、模拟模式,以及数字兼模拟等三种模式。视频图像质量分为黑白标清、彩色标清和彩色高清三种级别。

资源共享的现状

在各部门的内部,视频图像资源的整合和共享已能够较好地实现。如公安局建成数字视频共享平台,能够实现对全市所有视频图像前端采集图像的实时查看和存储的视频资源的点播调取功能,各分局之间的视频图像资源也实现共享;水利局实现了从省、市、县水力部门的视频图像资源共享。

但在各部门之间,视频图像资源的共享和整合只有个别的案例。如宁波市江东区的城管局和公安局在“智慧城市”建设的推动下实现了部分视频监控的共享;宁波市应急办的指挥中心接入了公安局、水利局、气象局、环保局和交通委的视频图像资源,但只是单向的接入还没有实现接入部门间的资源共享。总的来说,目前宁波市视频图像资源只实现了局部的、小范围的共享和整合。

影响共享的关键问题

从现状中可以看到资源整合共享分为纵向和横向两类。部门内部纵向属于同一行政体系,视频图像资源的整合和共享实现较好,如公安和水利都实现了省、市、县三级的整合共享。而横向方面部门之间的共享却很少,有视频图像资源系统异构及标准不一致的原因,但根本溯源还是在部门间利益的问题。各个部门都先希望获取其它部门的资源,但希望少共享自己部门的资源。要想实现政府视频图像资源的纵向和横向整合共享,首先应该突破部门利益壁垒这个关键问题。

另一个关键问题是:分布的视频图像资源系统异构,缺乏统一的标准,无法进行有效地交换。各部门在建设中各自遵循上级部门或行业的标准规范,造成视频图像资源建设缺乏统一标准,建成的系统在视频格式、传输协议、管理平台等方面各不相同。虽然浙江省公安厅于2004年颁布过地方标准《社会治安动态视频监控系统技术规范》(DB33/T502-2004),但其主要针对公安社会治安动态视频监控系统,在其他部门和其他应用中不一定适用。各系统相互独立,形成视频图像信息孤岛,从而不能有效实现视频图像资源共享。因此,那些在资源整合方面制定了统一的标准规范的部门,在内部纵向上容易成功取得视频图像资源的整合共享。如浙江省公安厅制定出台的《跨区域视频监控联网共享技术规范》(DB33/T 629-2011),使公安系统的视频图像资源能够较好地实现共享整合。

整合共享平台的架构

针对宁波市各部门视频图像资源建设的现状,宁波市提出了建立视频图像资源整合共享平台。视频图像资源整合共享平台主要是将各政府部门已有的视频图像平台进行整合,建立视频图像资源数据库,在政府内部实现以“目录共享、授权访问、自主调度”为工作机制的视频图像资源共享,同时推进相关技术标准和法律法规的制定,对以后建设的视频图像平台进行指导和规范。

统一的协调管理机构

视频图像资源整合共享平台能否建好并能长期运行下去,关键在于需要一个能够突破各部门利益屏障的综合协调管理机构。这个机构主要负责建设和运维该平台,目前看来各级政府应急管理办公室是最佳选择。我国应急管理的最高行政管理机构是国务院应急管理办公室,它负责指挥和协调省市区的应急办以及各部委局的应急管理部门。在此框架之下,地市应急办又可指挥属下各县市区的应急办,并协调该区域局委办的应急部门。这样的体制架构保证了政府应急平台除了与纵向的国家、省、地市、区县应急办信息数据互通外,还与横向的厅、委、局、办专业应急管理部门数据共享。视频图像资源整合共享平台可作为子平台纳入到政府应急平台的整体建设运维中。

技术架构

在这里提出一种视频图像资源整合共享平台的基础技术架构。该平台分为网络基础层、资源整合层、资源数据层和应用服务层。网络基础层是视频图像资源传输和共享的基础;资源整合层主要是对异构平台视频图像资源进行整合;资源数据层是对视频图像资源数据的整合,主要内容是建设、维护视频图像资源数据库和数据交换与共享系统;应用数据层上搭建统一门户系统,实现用户的统一登陆、统一认证、统一授权。同时以安全保障体系、运维支持体系、技术标准规范和法律法规为保障(见下页图)。

安全保障体系

平台涉及国家秘密的,按照BMB17-2006《涉及国家秘密的信息系统分级保护技术要求》的要求进行定级和防护,不涉及国家秘密的,按照《信息系统安全等级保护基本要求》第三级或以上等级的要求进行防护。

平台应采用电子政务内网或外网统一的CA认证系统进行证书发放,实现应用系统身份认证、授权访问控制、责任认定。

对平台系统中安全设备的安全策略进行统一的规划。涉及不同安全域之间的数据交换按照国家保密管理有关要求实现。

建立本地备份系统,确保系统安全稳定运行。有条件的可进行异地容灾备份。

运维支持体系

运维支持体系的质量好坏直接关系到平台的运行效果,乃至生命周期。运维支持体系建设包括日常维护工作、搭建和维护技术支撑平台、制定统一的运行维护流程、建立整个运行维护支持体系的管理制度、运行维护支持队伍的建设等几个内容。

为保障平台长期有效运行,应明确平台建设单位、接入部门和使用部门的分工和职责,并建立考核机制,同时纳入到政府工作考核项目中。

统一的技术标准和规范

虽然前面提出资源整合层对多源异构视频图像资源进行了整合,但从长远看,统一的技术规范和标准协议应该是未来的发展方向。然而目前尚没有统一的视频图像资源建设的技术标准规范。政府管理机构应综合考虑视频图像资源的需求,结合各部门行业应用情况,研究制定相应的视频图像资源建设的技术标准和规范。同时要加快制定视频图像资源整合的技术标准规范。为实现平台深度整合,必须解决视频图像资源整合涉及的视频图像格式、编解码、接口、传输协议等技术。统一的视频图像资源整合的技术标准规范将对技术攻关起到积极的推进作用。可参考浙江省公安厅出台的《跨区域视频监控联网共享技术规范》(DB33/T629-2011),结合各部门的建设现状和今后规划,研究制定视频图像资源整合的技术标准规范,作为平台深度整合技术攻关的基础。

配套的法律法规

尽快出台配套的法律法规,以解决目前视频图像资源建设中存在相关问题,规范视频图像资源的建设、整合、使用和维护,以更好地保证资源的安全合理利用。一要规范视频图像资源的建设范围,同时明确各视频信息采集主管部门的责任。二要规范视频图像资源的保密管理。视频图像资源的内容可能涉及国家安全或个人隐私,对视频图像资源的保密管理至关重要。应以法律法规的形式加以约束,严格管理视频图像信息。三是要明确视频图像资源管理的责任追究。对于违反规定的进行处罚,对行政机关工作人员履行职责中滥用职权、徇私舞弊、玩忽职守的,依法给予行政处分;构成犯罪的,依法追究刑事责任。

视频图像资源整合共享平台能将各政府部门的视频图像平台进行整合,实现视频图像资源的共享。平时该平台能为城市公共安全管控和管理提供帮助;在面对突发事件时,平台能对事件现场状况的分析和应急指挥决策提供服务。因此,建设开放、可行和安全的视频图像资源整合共享平台将是政府应急平台建设的重点之一。

视频会议图像质量劣化分析 篇4

1 故障情况

2010年12月, 在召开省公司年度安全生产总结电视电话会议前的视频会议系统联调中, 视频会议专责发现县公司、生产基地的画面都不同程度出现马赛克, 甚至有停顿现象。

2 故障分析

南京供电公司视频会议系统是两套会议电视标准混合的集成系统。原市辖的五个区县公司视频终端设备通过市县传输网以H.320标准协议接入位于市公司老大楼视频会议核心设备MCU (多点控制单元) E1板;城北、雨花等生产基地, 以及市公司新老大楼各会场视频终端设备则是通过城区接入层传输网络以H.323标准协议接入位于市公司老大楼视频会议交换机, 并由此连接至核心设备MCU (多点控制单元) 。从下面的视频会议系统图我们可以逐段分析故障产生的原因 (如图1) 。

2.1 视频终端设备原因

视频会议系统设备主要为分布在各个会场的视频终端设备, 它是用来接收远端会议信号至会场并发送本端会议音视频信号至远端会场。由于这次故障在各会场都不同程度的出现, 我们以画面质量劣化程度最高的城北会议室进行测试。我们用备用终端替代原来的终端接入系统, 劣化程度并没有改善。由此说明该故障不是因外部站点设备问题引起的。同样的方法, 我们更换了位于公司主会场的视频会议终端。因为该终端是用来接收外部站点音视频信号至主会场的, 同样也是用来发送主会场音视频信号至下级站点。将其更换后, 图像质量也没有改善。

2.2 MC U (多点控制单元) 设备原因

MCU是视频会议系统的核心部分, 为用户提供群组会议、多组会议的连接服务。我们检查了该设备相关告警指示灯, 一切运行正常。至此, 我们排除了由系统硬件设备造成图像质量劣化的可能。

2.3 传输线路原因

主会场与各分会场是通过公司电力通信传输网络相连的, 我们通过资料查找了视频会议系统所用通道, 在传输设备侧并没有相关告警, 说明视频会议系统的传输层通道不存在问题。

2.4 接入层网络原因

由于接入会议电视系统的站点数量不断增加, MCU的接入板卡接口数量已不能满足要求。我们通过一台24口的数据交换机将各站点信号接入并与MCU的NET8板互联。我们看到在会议进行时, 与部分会场连接的交换机端口时常出现黄灯闪烁现象, 这说明端口有错误数据包。进一步观察, 我们发现黄灯闪烁的端口也就是图像劣化的站点。至此, 我们确定此次故障源为交换机这一侧的网络问题。

3 故障处理

在会议电视系统建设初期, 只有市公司中心节点以及5个县公司。我们将各点信号接入MCU的E1板, 通过H.320协议进行视频的传输 (H.320作为一个传统的电视会议标准, 过去几年中已被广泛地用在窄带ISDN网以及专线上的窄带可视电视终端及系统中) 。公司专业化、扁平化的发展, 城北、雨花基地、老大楼602和607会议室相继接入公司视频会议系统。省公司根据工作需要, 也将线路器材厂等三个直属单位接入南京的视频会议系统, 加上近期新大楼电视电话会议室、大会议室、202晨会室的接入, 该系统逐渐庞大。

随着新技术的出现以及通信网络结构的演变。H.320系统已经越来越表现它固有的局限性。它仅仅是窄带可视电视终端的定义, 主要应用于电视交换的网络上, 和传输网络本身有着密切的关系, 传输网不同, 每一台H.320终端 (包括MCU) 需要更换网络接口卡, 而且有时需要在第二层协议上做相应的修改, 造成软硬件的更换, 升级成本增加。因此, 在后来的会议电视系统扩容中, 我们均采用了更为先进的H.323 (基于包的多媒体通信系统) 协议进行信号传输。我们将采用该协议的站点信号全部接入一台数据交换机上, 并将该交换机与MCU的net8板 (采用H.323协议) 相连, 从而保证采用不同协议站点、不同速率站点之间信号的有效传输。

端口数据丢包的现象, 根据工作经验判断应该是端口设置的问题。我们通过命令查看交换机端口当前的双工模式为百兆半双工。在这种情况下网络就会出丢包等问题, 导致画面出现马赛克, 甚至画面停顿现象。我们随即通过软件查看了交换机和终端的网络端口设置, 交换机端口为自动协商, 视频终端为百兆全双工。

查阅了相关资料我们了解到交换机为了维护链路的正常可用, 接口要定期发送脉冲, 如果在规定时间内, 接口没有收到脉冲, 就进入down状态, 如果两次收到脉冲, 就转为up状态, 这种脉冲就是normal link pulse, 简称nlp.其发送脉冲的间隔是16 ms。百兆接口发送flp时, 如果在规定时间内收到了响应, 那接口可以进入百兆模式, 如果超时没有收到flp, 只收到nlp, 转而向下兼容, 发送nlp, 转为10兆模式, 而双工问题是在flp中进行的, 在一对接口中, 相互发送flp, 在flp中有个“速率双工能力”字段, 2个接口就是靠这个字段来协商双工问题的而要能保证两者进行协商, 前提是任何一方都不能手工指定双工, 否则这个“速率双工能力”将被忽略, 可能造成无法协商正确的双工结果。

该故障 (100兆半双工) 中, 100兆是因为双方都发送flp, 而半双工的原因是手工指定全双工的一端将flp中“速率双工能力”字段滞空, 另外自动协商一端无法就双工能力进行协商, 转为半双工。找到了故障原因, 我们随即将交换机端口也设为百兆全双工, 与终端匹配, 很快解决了问题。

4 故障总结

此次视频会议图像劣化的故障十分典型, 从故障原因来看, 是由于交换机端口配置不正确造成的。但究其本质, 我认为是通信专业人员把学习的重点放在物理层, 对上层设备的理论知识和实践能力相对欠缺。随着公司电网智能化的有序推进, 通信设备种类也会有不断增加, 只有掌握广泛的通信知识才能适应公司发展需要。

参考文献

[1]通信设备接口技术及其应用[M].人民邮电出版社.

[2]视频通信系统使用指南[M].电子工业出版社.

视频图像论文 篇5

通常在监控系统工程施工中,工程商们会碰到监视器画面上出现各种干扰:雪花干扰、网纹干扰、斜纹干扰、横纹干扰、上下滚动条干扰、扭曲变型干扰和上下抖动干扰等情况,虽然分析干扰源的来例较为复杂,但是我们可以通过简便的方法查清干扰段,从而使用不同的抗干扰器。

干扰来源的三大部位是:前端-摄像机系统引入的干扰、中间-同轴电缆(75-5线)传输引入的干扰、后端-设备引入的干扰。

前端-摄像机系统引入的干扰属于设备干扰,应从设备本身来解决(摄像机质量、电压不稳、绝缘性),不能用抗干扰器来解决。

中间-同轴电缆(75-5线)传输部分的干扰属于常见的“环境电磁干扰”,电磁干扰是指视频线周边环境有:变频电机干扰;电磁辐射干扰;高频、低频设备干扰;电视塔、变电站干扰;电机等大功率电器引起的强脉冲干扰等,可以用视频抗干扰器(K1000)来解决。

后端-设备(指监控室的设备)引入的干扰,多数是设备之间接地电位差引起干扰,产生斜纹、横条上下滚动(滚动条),可以用光电隔离器(有单路光电隔离抗干扰器K2000、多路光电隔离分配器F1600G)来解决。检查步骤:

一、用监视器放在前端与摄像机连接,看图像是否有干扰,如有干扰则从摄像

机本身来解决,如无干扰则进入下一步检查。

二、在监控室里将同轴电缆(75-5线)传输线与视频分配器或硬盘录像机断开

单独连接监视器上看图像是否有干扰,如有干扰则用抗干扰器。这种干扰叫“环境电磁干扰”,多数碰到的干扰都属于这种情况。如无干扰则说明同轴电缆(75-5线)传输线没有受到干扰。但与硬盘录像机一连接就有干扰出现,这是系统设备之间接地电位差引起干扰,在视频线与硬盘录像机之间加上光电隔离器就能解决。

联系人:王建共电话:***

视频图像论文 篇6

随着计算机技术的发展和图像压缩技术的应用,医学图像除了可以大量存储同时用于远程图像传输,在传输过程中为保证诊断的正确性,必须得到高质量的图像和完整、全面的相关医学信息[1];针对这个问题的解决采用基于小波变换的视频图像压缩技术,利用小波变换对视频图像序列进行压缩编码,较好地改善了当图像场景中的物体进行快速运动时,使得时间域的小波系数突然变大而使得压缩率变低的不足,在远程医疗系统中可以快速、高效地压缩图像。

远程医疗利用现代通信网络,结合计算机多媒体技术,传输多媒体医疗信息来实现远距离的医疗活动;主要着重于多媒体交互式服务。利用远程医疗可以减少边远地区患者求医的费用和求医诊治花费时间,节省医生往返各地的费用和时间,也可以提供分散医院之间的远程交流和协作。小波变换的视频编码的实现能够在压缩性能、诊断性能、传输性能上适应于远程医疗系统的压缩;本文利用小波变换结合运动补偿量化编码算法,能较好地对医学图像进行压缩及处理。

小波变换用于图像压缩的基本思想

所谓图像压缩就是去掉各种冗余,保留重要的信息。图像压缩的过程常称为编码,而图像的恢复则成为解码。虽然图像的数据是非常巨大,但是可以采用适当的坐标变换祛除相关,从而达到压缩数据的目的。小波变换通过多分辨分析过程将一幅图像分成近似和细节两部分,细节对应的是小尺度的瞬变,它在本尺度内很稳定。因此将细节存储起来,对近似部分在下一个尺度上进行分解,重复该过程即可,近似与细节在正交镜像滤波器算法中分别对应于高通和低通滤波,这种变换通过尺度去掉相关性,在视频压缩中被证明是有效的[2]。

运动补偿

运动补偿是通过先前的局部图像来预测、补偿当前的局部图像,它是减少帧序列冗余信息的有效方法。远程医疗系统不仅仅是信息资源共享,提供实时可见的视频图像资料以供医学专家参考。所以,大量、高质量的视频图像数据的处理、传输就成为远程会诊系统的关键环节,另外医生在查看图像时只对图像中很小一部分感兴趣,这部分区域有可能是病灶区域分,除病灶区外对于其他图像如背景部分等一些局部图像成为医生乎略的内容,所以,可以充分利用医学图像的这一重要特征在进行设计图像压缩编码算法时对乎略的内容进行高比例压缩。

图像压缩技术在远程医疗系统中的研究方案

视频图像的压缩编码实际上是在静态图像编码的基础上,增加帧间图像的内插和运动补偿技术,由此来消除图像之间的时间相关性,从而实现高倍率的压缩目的。再对已消除时间相关性之后的每帧图像进行静态图像的压缩编码。

首先将要编码的图像分成16×16的宏块,对于每一个宏块,依照某指定的准则,在其参考图像中搜索与其最匹配(最相近)的块。如果搜索到的块满足条件,则作为当前编码宏块的运动补偿块。将它们相减,得到的结果称为帧间编码块,并将其放在残差图像的相应位置。如最终没有找到相近的块,则认为当前块属于帧内编码块,将其直接放置在残差图像的相应位置。然后对残差图像进行小波变换及压缩编码。显然,解码时,将解码的残差图像加上其对应的运动补偿图像,即可得到复原的图像。

对于小尺寸图像块宜用DCT方法进行编码,先对残差图像中的帧内编码宏块用DCT方法进行变换、量化、编码,其结果作为总数据的一部分输出到比特流中。对编码后的图像块进行恢复得到其重构块,再用原快减去重构块得到残差块,即帧间编码块。由残差块代替残差图像中相应的帧内编码块。如此一来,残差图像就全部由帧间编码块组成了,从而在整体上趋近于零。以上分块的不足之处存在于,运动补偿的块越小,得到的残差图像的能量越小。然而,分块越小,块越多,算法复杂度越高,矢量数目越多。传输矢量所需要的数量可能大于图像残差能量减小所节省的数据量,这样一来就会造成得不偿失的情况。比较好的解决方法就是使用自适应的分块大小,对细节较少的部分采用大的分块,对细节较多的地方采用较小的分块。另外,也可以采用像素插值的方法,利用插值后的像素位置进行预测将提高运动补偿的精度,但事实上,随着插值变得精细,其对于运动补偿的改善作用也在逐渐下降。

小波和运动补偿相结合能更好地进行图像压缩,基于小波变换的静止图像压缩算法EZW、SPIHT和一种改进的EZW算法,这些算法是视频压缩编码算法中的关键部分。这有待于在软件平台上进行算法验证、分析和对比,实践证明应用改进的EZW算法对图象进行压缩,重构图像的PSNR值较高。

视频图像不仅在其每一帧内存在空间相关性,而且在帧间即时间方向也存在着很强的相关性,通过有效的方法消除这些冗余信息可以大大地提高视频的压缩比。

本文分析了对图像的背景及非病灶区域进行传输编码技术,并把它有褪用到远程医疗系统会诊子系统的视频流处理模块,取得了较好的效果。此方案可以减少传输时间,解决其数据量大、耗时长的瓶颈问题,并增加了通信双方的交互性。遠程医疗在我国还是一个方兴未艾的新鲜事物,一个新的课题。现有远程医疗对我国医学来讲不是一个完美的系统,其中要解决的技术问题还有很多有待于我们不断的更新和完善。

参考文献

1 李咏沙.远程医疗系统中的图像压缩算法研究[D].山东大学,2005.

基于视频图像的火焰识别算法 篇7

火灾严重危害人类生命财产安全,火灾发生的突发性和随机性,加大了火灾的预警与监测难度。传统的火灾报警平台主要是以烟雾传感器、温度传感器等判断烟雾浓度、温度高低,其缺点是并看不到火焰本身,会将没有烟雾的火灾忽略掉,误判率高并且识别时间是在火灾发生很久之后,不能起到很好的预报作用。

针对传统火灾报警平台的以上缺点,近几年来,以视频图像为研究基础的火焰识别技术得到广泛关注与研究,国内外很多学者在该领域内做出了杰出的贡献,提出了很多有指导意义的研究方法。吴龙标等人提出了通过尖角判据识别火焰的方法[1],Yamagishi等人使用HSV颜色空间模型,依据火焰颜色的色度和饱和度的变化来提取火焰区域,通过边缘算子来提取火焰轮廓,并且利用极坐标变换将提取出的火焰轮廓转换为极坐标形式,然后利用傅里叶变换提取轮廓的频域特征[2],冯春环等人提出了一种基于离散余弦变

换的红外目标特征描述方法[3],袁非牛等人提出了一种基于规格化傅里叶描述子的轮廓波动距离模型来度量火焰轮廓的时间变化特征[4]。本文在总结前人研究成果的基础上,通过分析红外图像的亮度特征,面积增长特性,利用基于离散余弦变换的火焰轮廓跳动特性以及基于彩色图像的RGB空间颜色模型的色彩分析等为判断依据,提出了一种基于视频图像的火焰识别算法。

1 疑似火焰区域提取

1.1 基于红外图像的温度阈值分割

红外线辐射是自然界存在的一种最为广泛的电磁波辐射,它是基于任何物体在常规环境下都会产生自身的分子和原子无规则的运动,并不停地辐射出热红外能量,分子和原子的运动愈剧烈,辐射的能量愈大,反之,辐射的能量愈小。温度在绝对零度以上的物体,都会因自身的分子运动而辐射出红外线。红外热像仪就是利用红外探测器和光学成像物镜接受被测目标的红外辐射能量分布,将其反映到红外探测器的光敏元件上,从而获得红外热像图,这种热像图与物体表面的热分布场相对应。通俗地讲红外热像仪就是利用热像仪固有的颜色查找表将物体发出的不可见红外能量转变为可见的热图像,热图像的上面的不同颜色代表被测物体的不同温度。本文采用的是非制冷长波红外热像探测器,利用的是白热模式的颜色查找表,热像仪显示的图像是灰度图像,即温度越高的物体对应的热图像亮度越大。

火焰发生的过程伴随着发光、发热的现象,火焰发生区域的温度要明显高于周围环境的温度。鉴于其热相图的亮度分布是与温度高低成正比的,可以通过对采集得到的红外图像进行亮度阈值分割,从而初步提取出高温物体区域,即高温疑似火焰区域。假设采集得到的热相图灰度级别为0~255,设亮度阈值为TD,则可用如下公式1提取高温疑似火焰区域,即温度阈值分割的输出图像:

红外热像仪采集得到的原始图像及温度阈值分割后得到的二值化图像如图1所示。

1.2 彩色空间色彩分析

由于火焰的颜色与温度具有相关关系,随着火焰由焰心到火焰外表面温度的升高,其颜色依次为暗红色、红色、橙色、黄色、蓝白色和白色[5],也就是说火焰具有一定的颜色特征,因此在图像处理中,可以通过图像像素颜色来判断是否出现实际火灾火焰[6]。并且由于颜色特征具有与图像中所包含的物体或场景强相关,而对图像本身的尺寸、方向、视角的依赖性小等特点而被广泛采用。假设采集得到的彩色图像大小为Weight×Height,摄像头输出的原始图像数据格式为YUYV[4∶2∶2],则可以通过一定的转换关系得到RGB空间的图像数据。进而利用计算机三维重建技术对红外热像仪和彩色摄像机进行双目摄像机标定,从而由红外图像上高温疑似火焰区域匹配到彩色图像上对应的高温疑似火焰区域。与此同时将彩色图像的图像数据格式转换到RGB空间,分析彩色图像上的高温疑似火焰区域对应的RGB空间的图像数据关系,用于排除干扰得到疑似火焰区域,并且RGB空间图像数据模型可以直观的在显示器上显示。YUYV[4∶2∶2]格式为每个像素保留Y分量,而UV分量在水平方向上每两个像素采样一次。一个宏像素为4 B,实际表示2个像素(4∶2∶2的意思即在图像数据存储形式上,每4个Y分量、对应2个U分量和2个V分量)。图像数据中Y,U,V分量排列顺序如下:Y0U0Y1V0Y2U2Y3V2…,则YUYV[4∶2∶2]可用如下转换公式得到RGB空间数据,以后像素点的RGB值以此类推:

第一个像素点的RGB数据:

R=1.164 f(Y0-16)+1.159 f(V0-128),

G=1.164 f(Y0-16)-0.38 f(U0-128)-0.813 f(V0-128),

B=1.164 f(Y0-16)+2.018 f(U0-128);

第二个像素点的RGB数据:

R=1.164 f(Y1-16)+1.159 f(V0-128),

G=1.164 f(Y1-16)-0.38 f(U0-128)-0.813 f(V0-128),

B=1.164 f(Y1-16)+2.018 f(U0-128);

火焰的色彩学特征主要有以下两条:

(1)颜色各分量的关系[7]:R≥G≥B。

(2)颜色各分量取值范围[6]:255≥R≥117255≥G≥88,255≥B≥44。

由于火焰中心偏白的缘故,以上第一条对火焰中心可能并不适用。满足以上两个条件的疑似火焰区域,可能是真实的火焰区域,但也有可能是偏红色或者橘色的高温物体点,所以要确认其火灾的真实性,仍需通过下一步继续判定。

经过以上2个步骤的分析与提取后,实验结果如图2所示。

2 火焰动态特征分析

2.1 基于红外图像的区域变化特性

火焰在燃烧初期,具有很明显的增长膨胀趋势,因此可以在通过温度阈值分割、颜色分析提取出疑似火焰区域之后,通过计算疑似火焰区域的面积的变化情况来进一步考察是否有真实火灾火焰发生。因为红外热像仪的采样频率最大为9 Hz,即1 s最多拍摄9帧图像,故本文采用比较间隔为5帧的2幅图像的疑似火焰区域的面积变化情况,来判断火灾发生的可能性。如果前后两幅图像的疑似火焰区域的面积一直相等,则说明该疑似火焰区域可能是一些高温物体,如电烙铁、高压线、白炽灯等,并不是真实的火焰,不具有灾难性的损害。若面积一直在增长,则需要通过进一步分析来判断,其是否是火焰在燃烧。因为面积增长的原因,可能是由于高温物体如电烙铁相对热像仪由远及近的运动,导致成像区域面积一直在增加。

2.2 闪动特性

随着火焰燃烧过程的持续,空气气流的流动导致火焰呈现一定程度的无序闪动,它是一种持续高频的随机变化,被叫做火焰的闪动特性。它不同于一般的刚体运动,火焰的闪动具有随机性、时频性,并且具有与材料和燃器无关的动态频率范围(10 Hz左右)[8]。程鑫等人根据香农定理和PAL-D标准电视制式,同一像素点每秒采样25次,可以准确的分辨出小于12 Hz的像素亮度变化周期的原理,提出了利用逻辑0-1比较法技术的方法进行火焰亮度变化周期的计算,即得到火焰闪烁频率的周期[5]。由于本文采用的红外热像仪的采样频率最大为9 Hz,故该计算火焰闪烁频率的方法并不适用。B.Uur Treyin等人在提取运动的火焰颜色区域的基础上,利用小波变换来分析该区域运动的时频特性,并由此估计火苗闪动的存在[9]。冯春环等人提出了一种基于离散余弦变换的红外目标特征描述方法,并且其验证了和傅里叶描述子相比,在保证识别率不变的情况下,采用余弦变换描述法可以减少数据计算量和运算时间[3]。又由于同傅立叶描述子一样,离散余弦变换描述子对目标具有平移、旋转和比例不变性,因此本文采用基于离散余弦变换描述法来描述火焰的时频特性。

对于给定的序列x(n),n=0,1,2,…,N-1,其离散余弦变换(DCT)定义[3]为:

式中:k=1,2,…,N-1。

显然,其变换的核函数Ck,n是实数,Ck,n可表示为:

这样若x(n)是实数,那么它的DCT也是实数。对离散傅里叶变换(DFT),若x(n)是实数,其傅里叶变换X(k)一般为复数,由此可见,DCT避免了复数运算。

提取疑似火焰区域轮廓,设Zm表示轮廓上第m个坐标点(xm,ym),且定义Zm为复数,即Zm=xm+jym,对其做离散余弦变换得:

由于常规离散余弦变换不具备仿射变换不变性,而这种不变性对于识别具有重要意义。因此,需要对离散余弦变换系数进行规格化,使其具有平移、旋转和尺度不变性。由于|F(0)|是直流分量,仅表示图像所处的平移位置,应舍弃,C(1)≡1故舍弃,C(k≥2)即为离散余弦变换描述子[3]。由于其低频部分反映了图像的整体轮廓,高频部分仅刻画了外形的细节,因此这里取前10个系数用于描述图像整体轮廓,并由此得到具有平移、旋转和尺度不变性的离散余弦变换描述子DC,其表示为DC=(C(2),C(3),…,C(9)),它是一个8维的向量,可近似表征轮廓特征。

假设DCt与DCt-1分别表示第t帧和第t-1帧图像的离散余弦变换描述子,则相邻2帧中同一目标的轮廓变化程度可以用如下距离模型来表示:

图3给出了蜡烛火焰、烙铁图像及提取出的目标轮廓,表1给出了图3中目标轮廓的8维离散余弦变换描述子DC。

采用阈值分割法,假设给定阈值为DD,则利用式(10)提取真实火焰:

相邻两帧图像目标轮廓变化的距离大于阈值DD的,视为其轮廓变化明显,闪动频率较高,具有真实火焰的闪动特性。

3 识别算法

本火焰识别算法的基本步骤如下:首先进行基于红外图像的温度阈值分割得到高温疑似火焰区域,然后分析对应彩色区域的RGB数值关系,排除干扰,得到疑似火焰区域。紧接着计算疑似火焰区域的面积增长情况,提取疑似火焰区域轮廓,对其进行离散余弦变换,提取其离散余弦变换描述子,计算前后2帧图像目标轮廓对应的离散余弦变换描述子的变化情况。整个流程如图4所示。

4 实验结果与分析

实验平台为PC104单板计算机,采用Celeron-M600 MHz CPU,512 MB DDR内存,典型功耗12 W,带有一个CF卡接口,外接一个8 GB容量大小的CF卡。算法实现采用(Open Source Computer Vision,OpenCV)与C语言编程实现。为减少计算量,视频图像序列分辨率为320×240,以蜡烛火焰与烙铁作为测试对象在室内环境下做相应实验。

首先对红外热像仪采集得到的红外图像进行温度阈值分割处理,因为蜡烛火焰和烙铁的温度相对背景环境高出很多,同时由于室内地板反射到烙铁的亮度的原因,因此得到的图像如图1所示,阈值分割出蜡烛火焰、烙铁及其地面的反光。与此同时,彩色摄像机采集图像并进行格式转换工作,将其格式转换到RGB空间,接着利用三维重建技术匹配蜡烛火焰、烙铁及其反光区域到彩色图像中,对其进行RGB空间色彩分析,得到图2(b)中用红色圆圈标记的蜡烛火焰区域。然后使用面积判定方法,但由于室内蜡烛火焰是较稳定的火焰,所以其面积增长特性并不明显。

紧接提取相邻两帧图像的目标轮廓,对其进行离散余弦变换,可以得到蜡烛火焰的轮廓变化距离要远大于烙铁,这说明即使是稳定的蜡烛火焰,也呈现出一定程度上的闪动特性,并且利用轮廓的离散余弦变换具有非常敏感的计算精度。

5 结语

视频图像论文 篇8

随着平安城市的不断扩大,应用的不断深入,视频监控“大联网”的需求日益强烈,各级公安机关对远程图像资源共享的需求不断提升,全国在这方面都做出了积极的探索,成为视频监控“大联网”的先行者和探路者[1]。

随着视频监控系统建设规模的迅速扩大,视频图像信息资源存在的主要问题是系统资源共享程度低、视频图像信息的技术标准不统一、各系统相互独立运行,视频监控图像资源难以在各级各地公安机关内联网共享。因此,基于统一的技术规范整合公安视频图像资源具有十分重要的战略意义,能够有效解决信息“孤岛”问题,大大提升视频监控图像资源的综合利用率,从而提高公安机关协同作战能力,有效打击犯罪。

二、视频图像资源整合接入设计

近年来,全国各地公安机关通过自建视频监控系统、接入社会单位监控系统等多种形式,建成了初具规模并局部实现视频监控图像系统整合,视频监控图像系统已经在各类重大活动安保、突发事件处置工作中发挥了重要作用。

公安视频图像资源整合接入分为两种:一种公安机关已建设视频监控系统平台的接入,另一种各类社会面图像资源接入。

2.1公安机关已建设视频监控系统平台的接入设计

国内大部分公安机关都已经建设了基于视频专网的视频监控平台,网络已实现互通。根据各城市实际情况进行选择,现将后期需要接入视频进行整合,思路如下:

(1)新增监控资源的接入

对于公安机关新增的监控资源,由各级新建监控平台通过新增摄影机、编码设备、存储设备进行接入。

(2)已有视频监控系统平台的接入

已有的视频监控系统平台整合接入分为以下两种方式:

第一种方式:各级公安视频监控平台满足国标GB/T28181-2011[2]。

平台可以直接互连,实现各级公安视频监控平台无缝对接,无需增加任何设备。

第二种方式:公安视频监控平台不符合国标标准的,可以通过增加平台网关或通过升级平台软件实现其接入。

各级平台之间的互通采用平台网关方式进行互通,后期新建的监控系统满足规范协议兼容要求即可接入该系统中。平台网关主要将不符合国标标准的平台转换成符合国标的标准信令及码流接入符合国标平台。

各级平台之间的互通还可对原有系统进行开发,通过接口方式进行互通。对于已有系统无法进行修改开发适应规范,但自身具有SDK开发包的情况,可采用SDK接入方式。由新建监控平台按照这些开放接口对下级监控平台进行兼容适配。

2.2各类社会面图像资源详细接入方案

国内大部分公安机关视频都在视频专网上,而各类社会面图像资源都在局域网上,使得视频图像资源共享必须使得网络互连互通,可通过安全接入网关实现互连。

根据各城市实际情况进行选择,现将后期需要各类社会面图像资源接入公安,思路如下:

(1)符合新国标GB/T 28181图像资源接入方案

第一种:网络录像机(NVR)对接接入方案。

IP网络摄像机+网络录像机架构,广泛应用在一些中小型单位。均可通过国标标准直接接入新建的社会面图像整合平台,无需增加任何设备。社会面图像资源整合平台主要是双网卡的服务器,主要实现各类社会面图像资源的接入,并通过安全接入网关无缝接入到公安机关建设的平安城市平台中,任公安调用。

第二种:视频监控平台对接接入方案。

IP网络摄像机+视频监控平台架构,广泛应用在一些大中型单位。均可通过国标标准直接接入社会面图像整合平台,无需增加任何设备。

(2)非新国标GB/T 28181图像资源接入方案

目前,社会资源监控系统前端为模拟摄像机和IP网络摄像机。

第一种:模拟摄像机+工控机(PC式)架构或模拟摄像机+嵌入式DVR架构。

广泛应用在一些中小型单位。具体实现如下:

第二种:模拟摄像机+编码器+数字监控平台架构。

广泛应用在一些中大型单位。当数字监控平台为主流品牌,无需开发,通过数字平台标准化网关转换标准协议及码流接入社会面图像资源整合平台。

当数字监控平台为非主流品牌时,考虑通过配置现有平台同品牌的解码器,按照实际需要接入路数,配置解码路数,并通过新增编码器接入社会面整合平台。

第三种:IP网络摄像机+视频监控平台

广泛应用在一些中大型单位。具体对接方式同公安机关已建设视频监控系统平台的接入设计中已有视频监控系统平台的接入。

三、结束语

公安视频监控平台通过安全隔离设备与社会资源网互联互通,实现对辖区内所有社会资源网内图像资源的集中管理,最大限度实现社会监控资源的共享,同时全面整合公安机关内部视频资源,最终将各类视频资源统一接入,发挥规模效应,达到充分利用视频资源的目标。

摘要:随着平安城市建设逐步推进,公安机关及社会面资源建设的视频图像资源平台的开发厂家不同、数据格式不同,导致难以实现海量视频资源的共享。本文提出了对各级各地公安机关以及社会资源建设的视频图像资源进行整合设计,实现视频图像资源的互联互通和深度应用,提升视频图像信息服务在公安实战的能力显得十分必要和迫切。

关键词:视频图像资源共享,公安视频监控平台,社会面图像资源

参考文献

[1]罗万杰,曾昭龙.基于公安业务的视频图像信息共享平台研究[J],中国人民公安大学学报(自然科学版)2012,1:83-87

视频图像中运动目标检测算法研究 篇9

关键词:视频图像,运动目标检测,混合高斯模型

0 引言

随着计算机技术、人工智能、图像工程等高科技的发展, 视频智能监控已经成为计算机视觉研究领域的一个热点课题。提取运动目标在视频监控中是一个非常重要的环节, 它是后期的处理, 如目标分类、目标识别、目标跟踪等的基础, 也是视频监控技术自动化和实时应用的关键[1,2,3]。目前, 常见的运动目标检测算法主要有帧间差分法[4]、背景差分法[5]和光流法[6]。其中, 帧间差分法实时性强, 能够适应各种动态环境, 但是不能提取目标的完整区域;背景差分法能够提取完整的目标信息, 但是不能精确地检测到场景中的运动目标;光流法能够在摄像机运动的情况下检测出独立的运动目标, 但是其计算复杂, 需要特殊的硬件设备支持, 实时性能差, 本文不予考虑。

本文结合传统的运动目标检测算法的优点, 提出一种基于混合高斯模型背景法的运动目标检测算法, 期望获得较好的效果。

1 运动目标检测

1.1 自适应混合高斯背景模型

采用背景差分法虽然可以从图像中提取完整的目标, 但是实际应用中, 外界的微小干扰都会引起背景图像的变化, 这些场景下固定位置的像素在不断地改变, 呈多模特性。所以问题的关键之处在于随着时间改变, 可以自适应地更新背景模型。

而混合高斯模型[7]针对这一点, 采用多个高斯分布去拟合背景, 对于复杂的背景具有良好的效果。本文研究的是静态背景下的目标检测, 主要包括背景建模、背景更新和背景提取。

1) 背景建模。将图像序列中的某一像素点 (i, j) , 设Xt为在时刻t的观察值, 对于给定点 (i, j) 的一系列观察值{X1, X2, …, Xt}, 可以看做是与其它点独立的随机统计过程, 用K个高斯分布的混合模型去模拟, 则当前t时刻 (i, j) 的概率分布为:

2) 背景更新。当读取完视频图像的像素后, 将当前帧像素xt与K个高斯分布进行匹配, 匹配数据为:

如果像素值xi与其中某个高斯分布的均值μi, t-1之差满足式 (3) , 则该像素与这个高斯分布匹配, 否则不匹配。如果匹配, 对高斯模型进行更新:

式中:α为模型学习速率, β为参数学习率。在混合高斯模型中为了适应环境的变化, 还要考虑权值的更新。如果匹配则该模型可以较好地描述背景其权值增加, 不匹配则权值减小。

对视频图像进行背景建模与更新的流程图如图1所示。

3) 背景提取

完成上述过程后, 得到新的一帧图像, 根据背景更新公式把模型的相应参数进行更新, 计算其优先级并按照高低排列, 实际情况中可以选取前几个优先级较大的, 取前b个值相加, 当和大于阈值T时, 可以根据式 (6) 得到其背景模型:

式中:T为选取的阈值, 其大小根据不同的场景决定, 场景较复杂时, 阈值相应地选取较大;场景简单时就选择较小的。

1.2 背景差分

当混合高斯背景模型完成时, 就可以采用背景差分提取出运动目标的轮廓。设当前帧图像为fk (x, y) , 背景帧为fbk (x, y) , 则差分图像为:

按照式 (8) 对得到的差分图像进行二值化处理, 当差分图像中某点像素大于阈值时, 则认为该像素点为前景, 反之, 则为背景。

1.3 形态学处理

由于图像中噪声的存在, 在通过以上操作后所检测到的运动目标会有空洞产生, 因此可以采用形态学滤波的方法填补目标区域的孔洞。数学形态学[8]包括基本的开运算和闭运算。开运算可以消除细小目标, 平滑图像的轮廓, 而闭运算可以去掉小洞, 填补目标内的细小的缝隙。

2 检测算法的实现

本文检测算法具体流程如图2所示。

1) 对背景图像进行初始化;2) 利用本文的算法提取视频序列图像中变化的部分, 并作二值化处理;3) 对以上处理后的图像进行形态学处理, 去除小的噪声点, 同时填补运动目标内部的孔洞和连接断点, 这样就得到完整的运动区域, 将运动目标提取出来。

3 实验结果分析

本实验是在2.0GHz的CPU, 2GB内存的PC机上, 采用MATLAB软件进行的检测。实验所用的视频为普通摄像机拍摄的, 视频分辨率为320×240像素。

实验结果如图3所示。

使用传统帧间差分的检测结果如图3 (c) 所示, 获取的运动目标轮廓不完整, 而且其内部容易产生一些空洞现象, 部分区域出现漏检。采用本文方法检测运动目标的最终结果如图3 (d) 所示, 目标与背景得到了正确分割, 其中运动目标的轮廓十分完整, 为后期的运动目标跟踪、识别奠定了基础。

4 结语

本文针对视频图像, 提出一种基于混合高斯模型的背景差分法来检测运动目标。实验结果表明, 此方法不仅能够精确地检测到运动目标, 而且运动目标的检测效果得到了提高, 具有较好的鲁棒性, 为后续工作提供了有力的支持。

参考文献

[1]Tsai D M, Lai S.Independent component analysis-based background subtraction for indoor surveillance[J].IEEE Trans on Image Processing, 2009, 18 (1) :158-167.

[2]Avidan S.Ensemble tracking[J].IEEE Trans Pattern Analysis and Machine Intelligence, 2007, 29 (2) :261-271.

[3]Wang Yang.Real-time moving vehicle detection with cast shadow removal in video based on conditional random field[J].IEEE Trans on Circuits and Systems for Video Technology, 2009, 19 (3) :437-441.

[4]Ha J E.Foreground objects detection using multiple difference images[J].Optical Engineering, 2010, 49 (4) :1-5.

[5]魏晓慧, 李良福, 钱钧.基于混合高斯模型的运动目标检测方法研究[J].应用化学, 2010, 31 (4) :574-578.

[6]Dessause M P, Dua S.Optical flow object detection, motion estimation, and tracking on moving vehicles using wavelet decompositions[J].SPIE, 2010, 7694:1-10.

[7]何信龙, 赵龙.基于改进高斯混合模型的实时运动目标检测[J].计算机应用研究, 2010, 27 (12) :476-477.

视频检测对象的图像预处理研究 篇10

RGB彩色模型是从硬件的角度提出的, HIS彩色模型是根据人眼对颜色的感知特性而形成的, 它的三个分量为:色调、饱和度和亮度。YIQ色彩系统被NTSC系统所采用, 这里的Y指颜色的明视度, 即亮度, 实际上就是图像的灰度值[1]。I和Q指色度, 即描述图像色彩及饱和度的属性。图像处理中经常使用的是灰度图像, 只含亮度信息, 不含色彩信息, 本文中YIQ与RGB之间的转换关系, 即Y分量:

对每个像素进行处理, 值保存到相应得数组空间上, 便得到了需要的灰度图像。

2. 图像灰度修正

图像灰度修正就是以数字图像的二维像素阵列中的单个像素为对象进行增强处理。下面介绍两种常用的图像灰度修正的方法:灰度变换和直方图修正。

2.1 灰度变换

灰度变换是一种最简单、有效的对比度增强的方法, 它是将原图像的灰度动态范围加大, 图像对比度得到扩展, 图像清晰, 特征更加明显, 是图像增强的重要手段。在这里有一种特殊情况, 如果图像中大部分像素的灰度在某个范围内, 少部分像素分布在小于和大于的区间内, 此时可以采用一种被称为截取式线性变换的变换方法, 其变换式如下

利用该算法将图像处理如图2-1所示

从上面的实验结果可以看出, 图2-1 (b) 看起来要比图2-1 (a) 更加清晰, 给人的视觉感觉较好。

2.2 直方图修正

数字图像的直方图是一个离散函数, 它表示数字图像中每一灰度与其出现的概率之间的统计关系, 反映图像灰度分布的统计特征。因而需要把原图像的直方图两端加以扩展, 而中间峰值区域加以压缩, 使得输出图像的概率密度函数所构成的整个直方图呈现均衡分布[2][3]。直方图均衡化是它的一种常用方法, 基本算法过程如下: (1) 统计原始图像各灰度级的概率密度; (2) 计算累积分布函数; (3) 计算最后的输出灰度级; (4) 修改原图像的灰度级, 获得输出图像。按照以上算法, 将图2-1 (a) 处理的实验结果如图2-2所示。

可以得出结论, 对于所要研究的视频图像, 当对其进行图像灰度修正时, 采用灰度变换的方法得到的实验结果在视觉效果上较优于直方图修正的方法。

3. 图像平滑

图像平滑的目的是为了减少和消除图像中的噪声, 以改善图像质量, 有利于抽取对象特征进行分析[4]。

3.1 均值滤波

均值滤波法是一种简单直观、易于实现的空间域局部处理算法, 它一般采用奇数正方形N×N窗口 (N=3, 5, 7, …) , 用窗口的平均值代替中心点的值。实验结果如图3-1所示。

可见, 均值滤波去掉了与周围像素不相符的点, 抑制噪声效果也较明显, 但随着邻域的增大, 抑制噪声效果和边缘模糊效应同时增加。

3.2 中值滤波

中值滤波主要适用在有很强的胡椒粉式或脉冲式的干扰的情况下, 但对于一些细节多, 如点、线、尖顶细节多的图像不宜采用中值滤波[5][6]。其基本原理就是选择一个有奇数点的滑动窗口, 使它在图像的各点上移动, 用窗口像素灰度值的中值代替窗口该点处的像素灰度值。如前面分析一样, 同样对Vehicle图像进行中值滤波处理得到如图3-2所示的实验结果

无论是均值滤波还是中值滤波, 如果模板大, 去噪声效果更加明显, 但是计算复杂, 所涉及的像素多而容易把细节抹去, 造成图像模糊。在实际应用中, 不同的图像内容和不同的应用要求, 应该采用不同的窗口形状和尺寸。

4、图像锐化

在图像摄取、传输和处理的过程中有许多因素会使得图像变得模糊, 图像模糊是常见的图像降质问题。消减图像模糊的图像增强方法称为图像锐化, 其主要目的是加强图像中的目标边界和图像细节, 使边缘和轮廓线模糊的图像变得清晰。值得注意的是锐化处理在增强图像边缘的同时增加了图像的噪声, 故必须小心处理。一般都是先进行图像平滑, 去除或减轻图像中的干扰噪声, 然后才能进行锐化处理, 这里就不多叙述了。

结论

图像增强是数字图像处理的一种重要手段, 为进一步分析处理图像做好了准备。由于图像增强技术的工具大多数都是基于数学和统计学的概念, 根据不同的用途, 它和要面向的问题是紧密联系的。

摘要:在运动目标检测过程中图像预处理尤为重要, 它关系到图像的下一步质量。本文主要针对视频检测对象的图像预处理常用技术, 包括图像灰度化、图像灰度修正、图像滤波、图像锐化, 并对各种图像处理技术的常用方法进行了介绍, 给出了实验结果并进行分析。

关键词:图像预处理,灰度直方图,图像平滑

参考文献

[1]. (美) Yao Wang, J?rn Ostermann, Ya-Qin Zhang著, 侯正信, 杨喜, 王文全等译.视频处理与通信.北京:电子工业出版社, 2003.

[2].李弼程, 彭天强, 彭波等编著.智能图像处理技术.北京:电子工业出版社, 2004.

[3].姚敏等编著.数字图像处理.北京:机械工业出版社, 2006.

[4].四维科技, 胡小锋, 赵辉.Visual C++/MATLAB图像处理与识别实用案例精选.北京:人民邮电出版社, 2004.

[5].Brownrigg D R K.The weighted median filter.Communication of theAssociation for Computing machinery, 1998, 27 (8) :807-818.

视频图像论文 篇11

摘要: 主要研究基于表面等离子共振(SPR)技术的纳米级金属膜厚在线测量系统中的视频信号处理问题。由于CCD在动态连续采集图像的过程中会受到环境以及工作台旋转的影响,从而会随机地产生高斯白噪声和图像的扭曲现象,造成视频图像的模糊或者扭曲失效。通过对视频图像进行滑动平均滤波、小波分析以及动态补偿时域滤波的处理,消除了高斯白噪声和避免图像扭曲的发生,确保了CCD获取视频图像的有效性与清晰度,从而提高了从图像中获取的共振角度变化量的准确性,并进一步提高了金属薄膜厚度的测量精确度与可靠性。

关键词: SPR; 纳米级; 膜厚; 在线测量; 滑动平均滤波; 小波分析; 时域滤波

中图分类号: TH 744文献标识码: Adoi: 10.3969/j.issn.1005

引言纳米级金属膜厚的在线精确测量主要是基于等离子体共振技术实现。当入射光以一定角度入射时,因金属对光具有吸收特性,而产生消逝波,使得发生反射现象时反射系数不为1,从而引发全内反射现象[1]。入射光与金属薄膜的表面的自由电子相互作用,在沿着金属介质界面上产生表面等离子振荡,又当入射光的波长与入射角度在一定范围内时,使得消逝波与金属介质表面所产生表面等离子震荡的频率与波矢相同,产生表面等离子体波共振[24]。根据共振角的变化可以得出10 nm以内的金属薄膜厚度,以达到精确测量的目的。本文所提出的在线测量系统主要利用表面等离子体共振(surface plasmon resonance,SPR)技术结合CCD进行动态的视频图像信息采集,以获得SPR共振角度的变化,反演计算金属薄膜厚度。由于整个系统是处于一个动态的工作环境,CCD在进行视频图像采集时容易因为测量环境以及工作台的转动而产生噪声以及图像的扭曲失真,使得获取的SPR共振角度变化信息不够精确而对膜厚测量结果造成干扰。本文提出利用滑动平均滤波与小波分析法对视频图像进行滤噪处理,增强图像的清晰度,以动态补偿时域滤波对视频图像进行动态补偿,以确保图像不会出现细节上的模糊扭曲造成失真,增强视频图像采集的可靠性,达到精确获取SPR共振角的变化量,精确测量纳米级金属膜厚的目的。

1.1Kretschmann结构模型及原理1970年德国物理学者Kretschmann E提出了Kretschmann结构模型[5]。该模型的工作原理是在特定棱镜的底部直接镀上一定厚度的某种金属薄膜,待测定的介质则在金属薄膜下方,倏逝波透过金属薄膜,与其在待测介质表面发生等离子体波共振。依据Kretschman型结构的等离子体波振荡原理,根据SPR的反射光强角度分布,可精确获得纳米级金属薄膜的厚度。Kretschman模型结构图如图1所示[5]。在图1中ε1、ε2、ε3分别为棱镜、金属薄膜以及真空的介电常数;kx1、kx3为激发表面等离子体振荡的光波在X轴方向的波矢分量;kz1、kz2、kz3为入射光在对应介质中垂直于分界面的波矢分量;λ为入射光的波长;d为金属薄膜的厚度;SPW表面等离子体波的波矢为kspr,

等:基于SPR原理的纳米级金属膜厚在线测量系统中的视频图像处理

1.2在线测量系统本文的SPR纳米级金属膜厚在线测量系统主要是利用棱镜适配临界角的典型Kretschman结构,当金属薄膜被大于临界角的光束照射时,在金属膜与真空的界面上将产生表面等离子体震荡,根据SPR反射曲线随着膜厚的变化而变化的原理,利用曲线匹配的方案最终实现金属薄膜厚度的实时在线测量。图2所示为整个系统在线测量的原理图。在图2所示的测量系统中,半导体激光器经过准直扩束之后的输出光,通过柱面透镜转化后,变为有效覆盖角度约为40~57°的较为理想的柱面光,该柱面光经过偏振片后得到P偏振光,P偏振光进入棱镜后,在金属薄膜表面激发等离子体波,形成衰减全反射。实验时以中低速旋转工作平台,可以获得产生等离子共振现象时的共振角。由前面的基本原理可知,当产生SPR现象时,反射光光强最小,该反射光经过成像透镜与CCD接收到的反射光强信号在纵轴方向的分量进行叠加,以消除散斑的影响。该系统中短天线目的是为了CCD接收到的信号与计算机之间的通信,利用短天线通信不仅免除了多线干扰,而且提高了系统的稳定性。在利用短天线进行通信时,考虑到外界其他信号对通信模拟信号的干扰,利用钟罩来避免。整个系统采用二维标准视频CCD,该CCD获取帧率为每秒25帧,在CCD采集到图像之后将其转换成数字信号通过短天线传输到计算机内进行分析和处理。计算机根据所采集的由系统角度自定位所标记的角度与光强数据建立一个供曲线匹配专用的数据库,可反演出CCD所采集的每一帧之间金属薄膜增量,从而达到精确控制膜厚的要求。

由于CCD在采集图像的过程中容易受到环境等因素的影响而随机产生高斯白噪声使得获取到的视频图像不清晰,而在动态采集图像过程中又由于工作台的中低速转动极易造成视频图像扭曲和拖尾,对获取共振角度的准确值造成影响,从而影响反演出的金属薄膜厚度的精确数值,因此需要对获取到的视频图像进行处理。

2视频图像处理在本文中所设计的在线测量纳米级膜厚精密测量系统中,在CCD采集到图像之后,通过短天线进行通信,并将其转换成数字信号传输到计算机内进行分析和处理这一过程中,在系统自定位角度进行标记与曲线进行匹配时,发现所采集到的视频信号会到噪声的影响而上下浮动。经过分析发现该噪声属于高频白噪声,因此需要对视频信号先进行滤波处理。鉴于本系统的特性,结合滑动平均滤波方法的特点,考虑采用该方法对视频信号先进行粗略的滤波处理,再利用小波分析得到平滑的信号。由于系统是一个动态测量过程为了避免由于运动“拖尾”造成影响,提出基于运动补偿的时域滤波方法,更好的保护视频细节。

2.3时域滤波由于本系统的数据采集是一个以中低速转动获取数据的动态过程,而视频信号所带的噪声是随机产生的,因而在某些特定时刻会发生运动图像的扭曲及失真现象造成“拖尾”。为了解决在视频信号采集过程中对静止部分的去噪有效性,以及尽量消除运动图像的失真和扭曲产生的“拖尾”所带来的影响,采用基于运动补偿的时域滤波方法。该方法主要利用运动补偿技术,在时域上跟踪并提取视频信号中的噪声,并沿着物体的运动运动轨迹进行滤波,W表示滤波器的滤波强度,其流程图见图6[9]:

nlc202309011252

运动补偿时域滤波通过空间的相关性和图像序列在时间维上的相关性,不会引入各帧图像在细节上的模糊,并克服了由于运动所引起的时域非平稳方式,利用运动估计与运动补偿技术保证整个滤波过程始终沿着像素运动轨迹进行。

图7中,为某一时刻所采集的视频图像经过滑动平均滤波与小波分析进行除噪处理之后,发现该图像由于运动采集的影响,出现了细节上的模糊。利用运动补偿时域滤波进行图像恢复,实验证明,该方法能够克服由于图像动态采集所引起的图像失真,并能保证视频图像的清晰性与完整性。

所采集的视频图像信息传输至计算机进行图像滤波处理之后,将视频图像信号利用AD转换成离散数据点,通过归一化处理以及Y方向上的数据叠加,进行反射光强峰值点(最高点a)和谐振吸收峰值点(最低点b)的标记,并与计算机内的原始数据库进行数据比对和曲线匹配,从而反演出金属膜层厚度。图8反映的是在三组不同厚度(1 nm、5 nm、10 nm)情况下,入射角度与反射率关系曲线图。随着入射角度的逐步增大,反射光强亦随之增大,当反射光强增至峰值点时,继续增大入射角,反射光强反而降低,增至一定角度时,反射光强最弱,此时所对应的入射角即为SPR共振角。在理论上,所得的关系曲线是平滑的,但在实测中发现,由于CCD的非线性光电响应引起光强误差、金属薄膜在蒸镀上的粗糙、角度定位以及标记点所引起的角度误差导致实测数据曲线会在理论曲线上下浮动。由于金属薄膜较为粗糙,使得所获精度是通过与理论曲线进行对比而得的平均精度,平均误差不超过0.5 nm。在未进行滤波处理前,所对应的实测曲线相对理论曲线浮动较大。滤波之后,可以明显看出实测曲线相对滤波前更为接近理论曲线,同时测量精度有所提升,平均误差不超过0.3 nm。3结论本文研究了基于Kretschmann结构模型的测量10 nm以内的金属膜厚的在线精密测量系统,通过CCD进行动态连续性图像采集,以获取在每一帧之间共振角度的变化量,从而反演出金属薄膜的厚度。但在这个视频图像数据采集过程中,会因工件架转动而随机造成图像扭曲失真现象,以及由于环境等因素而随机产生高斯白噪声造成的图像不清晰的现象,均会造成测量上获取数据的不准确。文章研究了利用滑动平均滤波与小波分析2种方式相结合对所采集的视频图像进行滤波处理,以获得清晰图像,同时,利用运动补偿时域滤波有效地避免了在视频图像采集过程中的图像扭曲,保证图像的有效性。利用三种方式进行视频图像的滤波处理之后,增强了获取共振角变化量的准确性,提高了厚度测量的精确度。

参考文献:

[1]李湘宁.工程光学[M]北京::科学出版社,2005.

[2]吴英才,顾铮先.表面等离子共振谱半波全宽的算法讨论[J].光子学报,2010,39(1):53-56.

[3]吴英才,顾铮先.激励表面等离子共振的金属薄膜最佳厚度分析[J].物理学报,2008,57(4):2295-2299.

[4]牟海维,王宏瑾,王强,等.表面等离子体共振理论与仿真研究[J].光学仪器,2011,33(2):1-6.

[5]李艳敏,李孟超,刘芳芳,等.基于SPR的类铬型金属膜厚在线纳米测量研究[J].光学技术,2012,38(1):9-13.

[6]朱彩莲.光纤SPR检测及数据处理[D].南京:东南大学,2005:35-37.

[7]沈兰荪,卓力.小波编码与网络视频传输[M].北京:科学出版社,2005:62-63.

[8]飞思科技产品研发中心.MATLAB6.5辅助小波分析与应用[M].北京:电子工业出版社,2003:42-45.

[9]谢剑斌,徐晖.数字视频处理与显示[M].北京:电子工业出版社,2010:119-120.

图像视频处理中的修复应用分析 篇12

关键词:图像,视频,修复技术

图像的修复技术具有源远流长的历史, 它最早出现在文艺复兴时期, 艺术家们为了恢复被破坏的物作品, 依据人们的想象力对受损部分进行修复。随着科学技术水平的提升人们将艺术作品的修复观念应用在现代图像与视频处理技术上, 得以广泛应用并取得良好的修复效果。

1 修复的概念

图像视频的处理包括很多方面, 其中数字及视频的修复技术就是图像视频处理的重要组成部分。图像视频修复技术是运用科学计算的方法, 通过对图像视频中的受损信息进行补充, 以达到恢复图像或视频的原来面貌的目的。

为了使观察者察觉不到图像或视频的修复, 需要做好以下两方面的工作, 一是确定修复区域。采用人工统计的方法进行确定, 对视频或图像需要修补的部分进行明确标注, 以确定需要修补的范围。二是对确定的区域进行重点修复, 对图像或视频已经标注的修复的范围, 采用可用、有效的信息, 进行重点恢复与重建。

2 修复技术的发展

图像与视频的修复技术的运用, 源于文艺复兴时期艺术家对艺术作品的修复。它与艺术作品的修复技术不同, 不仅能去除图像的干扰与模糊影像, 改善图像的质量, 还能对图像的受损甚至空白区域进行填补与修复。

最早将修复的概念引入图像与视频的处理技术中的是M.Bertalmio, 他通过偏微分方程的使用, 建立了图像修复算法模型, 将图像的信息与构造按一定的方法传递到需要修复的区域。这种算法虽然能对视频内的噪声干扰进行有效去除, 但由于它使用的范围较小, 对大面积的纹理或复杂的区域修复效果不理想, 甚至出现模糊影像的现象。

随后, 经过多个科学家对视频修复技术的完善, 已逐渐形成较为完善的修复概念。由于视频修复是图像修复在时间上的扩充与完善, 因此, 在整个运动修复的过程中, 视频修复是最优的选择, 它不仅可以将图像进行动态背景与静态背景区分, 还可以增强修复过程中的连续性, 在实践过程中具有很好的修复效果。

3 修复技术在图像视频处理的应用

图像的修复步包括以下几方面的内容。一是静态图像修复。静态修复是指对照片或胶片丢失的信息恢复、无线传输信息的修复、图像压缩及马赛克部分的图像处理技术等。二是动态图像修复。动态修复也叫视频修复, 是指对序列中指定标记的去除、划痕污染区的修复处理及视角空白区域的填充等。

3.1 对现存修复算法的改进

随着科学技术的发展, 现存的修复算法技术被广泛应用到各个行业。虽然在应用过程中, 取得了较好的修复效果, 但其自身的缺陷也被逐渐暴露出来。这些缺陷主要分为以下几个方面。一是现存的修复算法修复只能对较小或构造较为简单的一些区域进行修复, 对于面积较大或结构纹理较复杂的区域修复效果不理想。二是空域或时域的承接连续性不强, 尤其在不同的区域进行匹配衔接操作时, 在连续播放过程中会出现模糊甚至闪烁不停的现象, 对视觉效果造成严重的影响。三是复杂性不高。在实际视频修复过程中, 对复杂性较高的序列不能有很好的处理效果。

因此, 针对这种情况, 可以对以下几个方面进行改进。一是在使用微偏分的基础上, 通过引入有效的微偏分方程及约束方程, 对构造特征区域的细节信息进行特殊处理, 使线性结构具有较强的连续性。二是采用纹理合成的方法, 对尺寸及模板进行匹配择优选择。三是在视频修复过程中, 通过对运动轨迹的概念进行引入, 选择更快速的修复算法进行修复处理。

3.2 运用修复算法对视频进行压缩

由于视频的编码端采用的编码方式不同, 一部分编码端在压缩前通常对某些结构和特征信息进行去除处理, 而这些区域通常采用直流分量的方式, 进行MPEG2进行编码。这种方法虽然可以将视频进行压缩, 但效果不佳。因此为了更好的提升恢复效果, 需要对视频丢弃的区域进行重点选择, 从而使视频的压缩效率与压缩质量达到平衡状态。

3.3 对DTV视觉修复度的修复

修复技术对DTV视觉修复度的修复, 主要是指对视频中影响人们观感的标识及字幕进行移除处理。一般情况下, 视频中呈现的字幕或标识只出现在屏幕的特定位置, 通常采用修复方法对需要移除的区域进行重建和保存, 使移除的信息既不会丢失, 也不会受到影响, 更不会产生模糊的影像, 对提高人们的视觉观感效果有很大的帮助作用。

3.4 在三维视频重建的应用修复

近年来, 随着三维电视的出现, 极大的改善了人们观看电视的视觉效果。三维视频的应用是指通过对二维主视觉视频与相应的深度图像进行结合处理, 从而产生三维视频或是其他新视角视频。在二维视频生成三维视频或其他新视角视频过程中, 主要依据深度信息与二维图像映射, 对产生的重复覆盖区域和空白填充区域进行修复处理。修复技术对视频空白区域进行填充, 是一项具有广阔发展前景的应用技术。

4 结束语

随着科学技术的发展与人们生活水平的提高, 图像与视频在生活中随处可见, 但随之也出现了类似于视频的播放不流畅, 图像画面不清晰问题的问题, 严重影响了人们的视觉观感。其他国家相比, 我国的图像视频处理技术还不够发达, 因此, 利用修复技术对视频及图像损坏部分或空白部分进行填充与修复, 对提升图像视频的处理水平具有十分重要的意义。

参考文献

[1]张欢欢.修复在图像视频处理中的应用[D].上海交通大学, 2010, 01 (11) :20-25.

[2]赵明.数字图像及视频修复方法研究[D].湖南大学, 2011, 10 (10) :11-13.

上一篇:消费情境下一篇:视轴测量