修正不变矩

2024-05-08

修正不变矩(精选7篇)

修正不变矩 篇1

0 引言

车牌识别系统是智能交通系统(ITS)的核心组成部分,它是一种面向特定对象的专门的计算机视觉系统,该系统的作用就是从拍摄的车辆图像中全自动化的定位车牌图像,分割车牌字符,并把车牌上的汉字、字母、数字识别出来给出结果,使得车辆的电脑化监控和管理成为现实[1]。随着城市交通的快速发展,如何对车辆实行有效的管理日益成为焦点问题,近年来,很多研究人员一直致力于开发一种自适应的车牌识别方法,以期将其应用车辆和道路管理中。目前常用的车牌识别方法主要包括神经网络[2,3]、形态学分析[4,5]、阈值分割[6,7]、模板匹配等以及相应的改进算法。文献[2]将Fisher准则应用于概率神经网络中进行车牌汉字识别,这一方法耗时太大,不适合应用实际检测中。文献[4]、[5]利用形态学技术简单的区分车牌区域与车体,无法实现自适应。文献[6]利用小波投影定位车牌区域,实现正角度、即水平位置下的车牌定位,文献[7]对车牌汉字、数字和字母进行分组,然后逐个进行识别,这些方法的应用场合都过于理想化,对实际环境适应力不强。文献[8]提出一种利用投影方法分割逐个字符的方法识别车牌,但该方法只针对水平情况下的车牌投影,无法应用于实际中。为了解决实际应用中的快速、可靠问题,本文提出一种基于不变矩和Radon投影分析的车牌识别算法。该方法从车牌边框角度入手,首先解决Radon投影的最佳角度问题,并通过求矩区域修正来消除比例因子和旋转角度对不变矩识别车牌字符的影响。

1 车牌识别概述

车牌识别技术主要实现对车牌牌照进行自动识别,从而使车牌识别系统完成自动收费、停车管理、路口交通管制以及违章车辆追踪等功能,以此来节约人力物力并提高交通管理效率。随着车牌识别系统性能的提高,其应用己逐渐深入到我们生活的方方面面。但如今市场上有很多车牌识别系统,它们都是应用于特定的条件和环境下,例如高速公路收费站、停车场出入口等,受硬件及外界因素影响较大。当外界环境发生明显变化,比如雾天、雨天和昼夜交替等拍摄图像质量较差的时候,这些系统就会出现识别率迅速下降等问题,通用性比较差,这也是当前车牌系统应用范围较窄的主要原因。因此,寻找一个适合大多数情况和大部分环境的、更加通用的车牌识别方法显得十分必要。

本文提出的车牌识别方法主要是根据车牌边框具有固定几何形状和字符的相互独立性加以识别的。众所周知无论被采集得到的图像是理想的水平位置或是倾斜,车牌的字符与车牌边框始终保持固定位置,因而,利用边框辅助投影技术完全可以确定车牌字符的位置和区域。如图1(a)所示,车牌呈现一定程度的倾斜,直接投影会使得车牌字符的求取区域无法确定,从而无法得到独立的字符,因此必须对投影角度进行修正。同时,为了消除比例因子和旋转角度对不变矩识别车牌字符的影响,还必须对求矩区域进行修正,这里明确表明,求矩区域为如图(b)所示的、包含独立字符的、最小的矩形区域为不变矩求取区域。

2 车牌识别算法

本文设计一种精确高效的车牌识别方法,如图2所示,首先通过模板确定车牌区域,接着利用最小特征根法拟合车牌的外边框。将车牌左右两侧外边框作为Radon投影的最佳角度进行投影,得到车牌号码求矩区域修正后的左右边框,同时取平行于车牌上下边框、包含车牌数字的,最小的直线作为车牌号码求矩区域修正后的上下边框。最后通过求矩并与词库比对得到车牌号码。

算法流程设计:

步骤1:对拍摄得到的,包含车牌的原始图像F(x,y)采用模板近似匹配[9~12]的方法大致定位车牌区域R(x,y)。

步骤2:采用Canny边缘检测[10]方法提取R(x,y)的边缘,并细化至单像素[13~15]。

步骤3:对R(x,y)轮廓上的每一点Ri(xi,yi),在其邻域求m=15的范围内按照式(1)和(2)求协方差矩阵H和与其对应的最小特征根rs。

步骤4:计算rs,若rs小于判决阈值Trs=0.0777成立则保留该像素点Ri(xi,yi)并转入步骤5,否则转入删除Ri(xi,yi)并转入步骤1。

步骤5:遍历R(x,y),得到只包含直线的新图像R′(x,y)。

步骤6:去噪、合并联通直线,得到闭合的包含车牌信息的矩形。

步骤7:以矩形左右两边为Radon投影方向θ进行投影,即将函数R′(x,y)沿直线积分t-x cosθ-y sinθ=0。

步骤8:建立以投影区域为左右边界,平行于R′(x,y)上下两边且正好包含车牌信息的7个求矩修正区域Ji,i=0,1,…,5,6。

步骤9:按照式(3)~(7)依次对Ji求不变矩[15~18]。

其中

定义归一化中心矩为

由式(3)至(7)可以构造以下七个Hu氏不变矩:

步骤10:以权值=[0.25,0.25,0.15,0.15,0.1,0.05,0.05]匹配数字和汉字,得到车牌号码。

3 实验及结果分析

为了表述清楚实验过程,图3先给出摄像头采集车牌的成像角度问题。从图中描述可知,摄像机采集车牌的成像角度可以转化为车牌分别绕上边缘旋转一个角度θS和左边缘旋转一个角度θH。

图4给出几个具有代表性的车牌,θS、θH的值注明在图中。本文下面要进行的实验都是依据这一原理进行的。

实验一:验证本文方法构造的修正不变矩比传统矩有更高的相似度。

以图4(a)、(e)、(h)的车牌为为例做实验,表1给出通过修正不变矩求取区域得到的不变矩和传统不变矩得到各阶矩与标准车牌(θS=θH=0°,且经过求取区域修正)的各阶矩的差异。从表中可以看出通过修正不变矩求取区域得到的不变矩的各阶矩波动较未修正前要更为平稳。其中,还可以看出,后面的3个高阶矩与标准车牌的矩的差异要比经修正不变矩求取区域的各阶矩要大,说明这3个矩不稳定,这就是本文对前面4个矩赋予较大权值,而赋予后面3个矩较小权值的缘故。通过这一实验,说明用本文提出的方法构造的不变矩具有更接近真实性的的识别效果。

实验二:针对实际应用环境,进行大规模车牌检测。

车牌数据库为自建的包含完整车牌的2200幅车辆图片,图5对这些车辆分别按照本文方法和传统求矩方法提取出车牌并进行车牌识别并输出车牌号码,经过人工核对后统计正确率。从图中可以看出,本文方法比传统方法具有更好的正确率,同时,用本文方法检测得到的出错数目比样本数量的增加数目要少,因而使得正确率在后段呈现上升趋势,而传统方法的出错数目比样本数的增加量要多,因而正确率一直呈现下降趋势,这就进一步说明方法更为有效。

4结论

在利用Radon投影和不变矩对车牌进行提取和识别时,投影角度和求矩区域的确定直接影响算法的正确率。本文在确定修正车牌号码求矩区域的思路下,首先通过模板确定车牌区域,并利用最小特征根法拟合车牌的外边框。接着,以车牌左右两侧外边框作为Radon投影的最佳角度进行投影,从而得到车牌号码求矩区域修正后的左右边框,并以平行于车牌上下边框、包含车牌数字的,最小的直线作为车牌号码求矩区域修正后的上下边框。最后,在修正区域内求取不变矩得到车牌号码。通过实验表明,该方法能有效地提高车牌识别的可靠程度。

修正不变矩 篇2

随着汉画像发现和发掘数量的不断增多, 在进行汉画像研究时, 图像对比和检索工作量也与日俱增。因此, 建立一种准确、有效的汉画像图像检索系统已经成为迫在眉睫的重要课题。本文在研究了当前计算机图像检索技术的基础上, 结合汉画像图像的实际特点, 给出了一种利用形状不变矩检索汉画像的新方法。

计算机图像检索系统通常都是通过直接对图像的内容进行分析来抽取其特征, 并按一定规则进行量化, 在此基础上, 再根据这些量化了的内容特征, 通过建立索引来进行检索。

1 基于形状特征的图像检索

基于形状特征的图像检索是检测出目标的轮廓线或分割出目标的轮廓, 并针对其进行形状特征提取或直接针对图像寻找适当的矢量特征。形状特征是图像的核心特征之一, 图像的形状信息不随图像颜色的变化而变化, 是物体的稳定特征。形状特征区别物体非常直观, 形状是人们区分图像的经常运用的主要特征之一。因此, 利用形状特征检索图像可以有效提高检索的准确性和检索效率。只是应该注意, 形状描述应该在尽可能好地区别不同目标的基础上对目标的平移、旋转和尺度变化具有相对最好的不敏感。基于形状特征的图像检索多被用于二值图像的检索, 因为对于二值图像来说, 纹理和颜色信息通常无法满足检索需要, 从而必须从图像的形状着手。

1.1 基于形状特征的图像检索系统结构

基于形状特征的图像检索技术主要是利用图像中目标的形状特征对图像进行检索, 检索过程如图1所示。图像库中的图像经过“形状特征提取与描述”模块分析之后, 得到每幅图像的特征向量, 这些特征向量经过索引组织之后生成一个特征库。用户提交的查询也经过“形状特征提取与描述”模块分析, 得到查询的特征向量Vq。Vq与特征库中的特征向量Vi进行相似性计算, 计算的结果往往是一个反映Vq与Vi之间距离的数值, 这个数值的大小反映了待查询图像与被检索图像之间的相似程度, 最终输出检索结果。

1.2 基于形状特征的图像检索技术研究现状和发展趋势

基于形状特征的图像检索通过提取形状特征来描述图像, 目前大致分为两类:基于图像对象区域的局部 (Local) 形状特征检索和基于全局 (Global) 形状特征的检索。前者首先需要把图像进行分割, 目的是把图像拆分成一个或多个可以进行识别匹配的对象, 然后针对对象进行特征提取与匹配, 最后根据对象或对象集的匹配情况给出整幅图像的检索结果。可见, 基于局部特征的形状检索是针对图像中的对象进行分析。因此该方法对图像分割算法有很大的依赖性, 图像分割效果的好坏直接影响到检索结果。而后者则无须进行图像分割, 直接利用能反映图像形状的全局特征量来进行图像检索。

基于形状特征的图像检索都要对目标的形状进行分析和描述, 分析方法有两类:基于边界的方法和基于区域的方法。前者只利用形状的外部边缘, 而后者利用形状的全部区域。基于边界的方法在提取边缘的基础上, 定义边缘的特征描述, 常见的有Fourier描述子、几何常量、多边形顶点数、曲率等。基于区域的特征提取关键在于图像分割的研究, 通常使用7个 (或更多) 不变矩作为目标区域的特征量进行图像匹配。形状描述方法, 主要包括边界特征法、傅里叶形状描述符法 (Fourier shape descriptors) 、几何参数法、形状不变矩法、小波描述子等。边界特征法通过对边界特征的描述来获取图像的形状参数, 代表方法有Hough变换检测平行直线方法和边界方向直方图方法。傅里叶形状描述符法用物体边界的傅里叶变换作为形状描述, 利用区域边界的封闭性和周期性, 将二维问题一维化。几何参数法利用几何图形的特征或性质来描述形状, 主要有代数矩、参数曲线距离、参数曲线和一阶导数距离、参数曲线和二阶导数距离、转角、曲率符号等。形状不变矩法是常用的形状描述方法, 它利用目标所占区域的矩作为形状描述参数。

图像检索对目标的形状分析和描述后, 都要对图像进行相似度匹配, 即:形状匹配。形状的方法有:欧氏距离、街区距离、马氏距离等。近年来, Chamfer匹配方法吸引了不少研究者的兴趣。Barrow等人首先提出了Chamfer比较法, 该方法能够以线性的时间复杂度比较两个图像的形状块集合。为加快匹配的速度, Borgerfos提出了分层Chamfer匹配算法。这种匹配算法可以在不同的精确层次上进行, 从粗糙到精确。尽管计算上述的形状特征并不复杂, 但发明一种符合人们主观判断的形状相似度量算法还是一个有待解决的难题, 应用中可以根据实际情况选取适中的形状相似度量算法。

图像检索系统必定是以提高系统的图像查准率、查全率和查询速度为最终目标, 检索系统的核心技术理应紧扣这一中心目标, 即图像检索技术的研究应以提高整个检索系统的查准率、查全率和查询速度为目标。未来对于基于形状特征的图像检索技术的研究主要有如下几个方面: (1) 继续寻找更好的形状特征描述与提取算法。这项工作主要是寻找与人的视觉特性一致的关于形状的确切数学描述; (2) 如何有效建立图像的底层特征 (颜色或纹理等) 与高层特征 (如目标、对象等) 有机联系; (3) 针对某一特定应用领域的自动图像分割、形状特征提取与匹配的研究; (4) 如何将图像形状特征与图像高层语义较好地关联起来, 以实现计算机自动提取图像的语义。

2 基于形状特征的汉画像石图像检索过程

由于大多数汉画像图像是黑白图像且由边界比较明确的几何形状构成, 检索中采用Canny算法提取边缘, 计算边缘图像的不变矩, 另考虑到汉画像中包含有人物、车马、飞鸟等图案, 为了提高检索效果, 通过不变矩计算出图像的离心率, 把不变矩和离心率作为图像的形状特征对图像进行检索, 实验结果表明该算法是有效并可行的。

2.1 图像预处理

由于汉画像石图像的格式和尺寸存在差别, 不利于检索参数的提取与匹配, 所以在提取特征之前先对图像进行预处理, 包括把图像统一转换成规定的尺寸和二值化处理。图像尺寸采用128×128的图像, 尺寸改变处理中, 通过邻域像素合并或复制, 保证同比例改变水平和垂直方向的尺寸, 使其符合128×128。如果水平方向不等于垂直方向, 改变后的图像不是一个正方形, 使用0值像素填充到128×128。

2.2 图像边缘检测

目前, 主要采用的图像边缘检测方法有Robert算子、Sobel算子、Prewitt算子等, 而Canny算子是目前最好最常用的图像边缘检测算子, 它是Canny在1986年提出的。Canny算子是高斯函数的一阶导数, 是对信噪比与定位之乘积的最优化逼近算子, 用两个不同的阈门值来检测强边界和弱边界, 当一个弱边界和一个强边界连通时, 在输出强边界的同时输出弱边界, 否则弱边界不会被输出, 这样做能去除噪声对于边界检测的干扰, 同时又不会丢失弱边界信息。Canny算子的实现是一个多阶段的处理过程, 首先对于图像进行Gaussian平滑, 然后对于平滑后的图像进行一个Robert算子运算。

用I[x, y]表示图像, 使用可分离滤波方法求图像与高斯平滑滤波器卷积, 得到一个平滑数据阵列:

其中σ (σ=1) 是高斯函数的散步参数, 控制平滑程度, G[x, y, σ]为高斯平滑滤波器, S[x, y]为平滑后的数据阵列。

平滑后的数据阵列S[i, j]经过Roberts算子得到x, y上的分量:

变换后的图像为:

其中D[x, y]为变换后的图像。这样就得到了Canny方法运算以后得到的边缘图像。

2.3 图像边界的特征提取

在图像的边界轮廓提取出来之后, 接下来的问题就是用适当的特征描述来表示图像形状, 在这里我们采用Hu不变矩表示, 其在图像像素数目一定的情况下, 具有对图像的旋转 (Rotate) 、平移 (Shift) 和尺度变化 (Scale) 的不变性。

定义函数图像某区域的p+q阶矩为:

零阶矩m00是区域的灰度总和, 将一阶矩m10及m01用m00归一化, 即得区域的重心坐标为:

以区域重心为坐标原点的矩称为中心矩, 即:

该单元图像的规格化中心矩, 记作:

利用图像的第2阶和第3阶规格化中心矩 (η02, η20, η11, η03, η30, η12, η21) , 根据下列公式可以导出该图像的7个不变矩 (h1, h2, h3, h4, h5, h6, h7) :

为了提高图像的检索准确率, 我们引入了图像离心率e。可以从Hu不变矩定义图像的离心率 (Eccentricity) 特征量e, 根据 (3) 式计算。

离心率特征e表示了图像的最大轴向与图像的最小轴向的比率, 同样也满足物体平移、旋转和尺度不变性。将Hu不变矩特征量u1~u7和离心率e合并, 就形成了图像的全局形状特征向量S。该特征代表的是一种全局的形状特征。

2.4 相似度匹配

计算图像数据库中各图像形状特征与示例图像形状特征之间的相似性距离dist, 如式 (4) 所示:

其中, wi为各个特征分量所具有的权重。由于高阶矩跟形状的关联较小, 在进行基于形状的图像检索时, 重点使用低阶矩, 其权重也较大。另外, 考虑到汉画像中包含有人物、车马、飞鸟等图案, 为了提高检索效果, 离心率e权重也相对较大。此外, 为了保证式 (4) 所计算出的相似性距离的有效性, 该距离须使用示例图像的形状特征值进行归一化。若距离小于指定阈值, 即dist≤ρ, 则将对应图像加入图像检索结果集中。最后, 将图像检索结果集图像排序输出。

3 结束语

使用本文提出的方法对200幅JPEG格式的大小不等、内容不尽相同的图像进行检索。检索的结果如图2 (其中左上的一幅图像为输入图像) :

实验结果表明, 本文利用形状不变矩特征进行汉画像图像检索是有效可行的, 检索效果较好且计算量小, 该检索算法对于图像的扭曲形变具有不变性, 并对图像的基本形状特性具有鲁棒性, 在具有一定形变干扰的情况下, 仍能得出较好的图像检索结果。

参考文献

[1]沈颂今.汉画像石研究概述[J].中国史研究动态, 1993 (1) .

[2]SUBRAMANYA SA.Adistributedalgorithmfoe the classification of im-ageonanetworkofworkstations[A].InACMMultimedia'99Proceedings[C].Orlando, Florida, USA, 1999.

[3]RUI YONG, HUANG T S, CHANG SHIH-FU.Image retrieval current techniques, promising directions and open Issues[J].Journal of Visual Communication and Image Representation, 1999 (3) .

[4]GUDIVADA V N, RAGHAVAN V V.Content-based image retrieval system[J].IEEE Computer, 1995, 9:18-22.

[5]章毓晋.基于内容的视觉信息检索[M].北京:科学出版社, 2003.

[6]HU M K.Visual pattern recognition by moment in variants[J].IRE Trans on Information Theory, 1962 (8) .

[7]SIM L C, SCHRODER H.Fast line detection using major line removal morphological hough transform[J].Neural Information Processing, 2002 (4) .

[8]ZHOU XIANG SEAN, HUANG THOMAS S.CBIR:From Low-level Features to High-level Semantics[C].Proc:SPIE Imageand Video Com-munication and Processing.[s.l.]:[s.n.], 2000.

[9]BARROWHG.Parametric correspondence and chamfer matching[C].in Proc.5th Int.Joint Conf.Artificial Intelligence.Cambridge, MA:[s.n.], 1997.

修正不变矩 篇3

随着三维扫描设备的发展,研究人员尝试用三维人脸数据进行表情识别。与二维人脸图像相比,三维人脸数据有明确的几何结构信息,并且能够克服光照、姿态和化妆造成的影响。然而,基于三维人脸数据的表情识别研究仍有一些问题需要解决。首先,原始的三维人脸数据不存在全局的对应关系。在不同的三维人脸数据之间建立起对应关系是一个非常复杂的问题;其次,表情变化通常因人而异,寻找到一个有效的、能够揭示表情变化的特征也是一个非常复杂的问题。研究表明很多三维人脸的特征同时蕴含了人脸表情特征和人脸个性特征,并且难以拆分两者。一个通用的三维人脸表情识别框架通常包含以下三个部分:原始三维人脸数据预处理、人脸表情特征表示和表情识别。人脸表情特征是表情识别的关键部分,一个好的表情特征应当具备如下两个要求:对三维人脸的表情变化敏感;最大程度地区分不同的表情。表情识别部分,常用的表情分类方法包括神经网络,支持向量机,朴素贝叶斯,隐马尔科夫模型和动态贝叶斯网络等等[1]。先进智能的识别技术被不断研究,搭建各种智能的识别系统,以满足各领域的应用需求。

2 基于三维不变矩的人脸智能识别系统框架

本文在深入研究当前国内外三维人脸识别算法的基础上,在对三维人脸表情模型进行预处理及归一化的基础上提出建立具有平移比例和旋转不变性的三维人脸表情模型的矩不变量特征表示,并基于支持向量机的智能学习技术研究实现利用多维度3D-Zernike描述子特征的分析识别系统的建模,采样基于动态人工蜂群(Dynamic Artificial Bee Colony,D-ABC)算法[2]的分析识别模型优化,提高模型可靠性和系统的鲁棒性,进而利用该系统进行三维人脸表情数据的匹配识别。

系统主要包括三个方面:人脸数据预预处理和三维不变矩特征分析及提取、基于支持向量机的分析识别建模技术以及基于D-A B C蜂群算法的分析识别模型优化。

3 三维特征分析及提取

以往对人脸二维特征的提取分析较多,提取三维特征进行分析研究的较少。针对三维人脸数据的特点,本文的三维不变矩特征采用的是3D-Zernike描述子,该特征由N.Canterakis提出用于三维目标识别,R.D.Millán等人发现该描述子的优良性质将其用于医学图像中血管瘤的辨别,也有研究人员将其用于基于D E M的地形匹配。3D-Zernike描述子可以充分反映目标的三维空间结构特性,越高阶次的描述子越能描述目标的三维空间形状的细节。该三维特征不但能够保持较好的平移,尺度,旋转不变性,而且具有信息表达的冗余性小,信息表达的高效性,鲁棒性的特点[2,3,4]。本文提出的三维人脸表情的3D-Zernike描述子特征分析框图如图2。实验所用人脸表情数据来自于文献[5]的工具包,包含7类表情,1类中性表情数据和6类情感数据,分别是愤怒,厌恶,恐惧,喜悦,,悲哀和惊讶,如图3所示三表情维数据对应的图像示例。实验中,我们使用了100个人6种带强表情的三维人脸数据。实验中3DZD取10阶,1×36的向量,图4为图3数据对应的3D-Zernike描述子特征分析。

4 分析识别优化系统

三维人脸的识别问题属于典型的多类样本分类问题,样本的类别数(即需要识别的个体数)远远大于每个个体所包含的样本个数。比较现有的有监督机器学习方法,本文采用支持向量机对分析识别系统建模。支持向量机S V M是有Vapnik及其研究小组提出的一种机器学习方法,其根据统计学习理论构建,能够体现结构风险最小化的思想,具有完备的理论基础和较好的学习性能,能够很好解决非线性,小样本,高维数以及局部最小值等关键难题。

把数据进过预处理和特征提取之后得到表情特征数据库,取出部分特征向量及其对应人脸类别作为先验信息,将这些先验信息作为训练数据交给S V M进行训练,根据S V M的学习能力建立起特征向量与表情类别之间的关系模型,将待分析的三维人脸表情数据输入到模型中,就得到了其分类或匹配识别结果。鉴于人脸表情多维特征信息的特性,选用善于处理这类问题的SVM进行识别,而为提高目标识别的精度,主要可以通过特征选择技术和S V M参数寻优来实现。这里特征主要讨论的是3D-Zernike描述子的特性,而针对SVM参数选择不同会对识别结果影响很大的问题,通过参数寻优的过程解决。参数寻优是指针对S V M惩罚变量参数和核函数参数进行最优化的过程,是S V M训练的重要步骤,目前基于群智能优化方法的参数寻优较多,如基于遗传算法、粒子群算法和蜂群算法的参数寻优方法等。人工蜂群算法是一种相对新型的群智能算法,具有全局和局部寻优的特点。为解决维度较大的解向量优化问题,获得“多类”目标识别时更好SVM参数优化,本文采用动态人工蜂群(Dynamic Artificial Bee Colony,D-ABC)算法。我们针对本文问题采用P S O算法,A B C算法,M R-A B C算法[6]与D-A B C算法对S V M参数优化性能进行了比较,如图5所示。

上述结果分析了在待优化向量维度不高时,各类优化算法的表现,能得到以下结论,对类别数不高的数据进行S V M优化时,D-A B C算法有一定的优势,D-A B C算法更快速的找到了较理想的解,而同样P S O算法尽管收敛快,但是结果不理想。然而A B C算法和M R-A B C算法尽管收敛速度较慢,但也能获得较理想的解向量。P S O算法尽管收敛速度快,却陷入局部最优解,难以跳出。

最后,基于被训练好的理想参数下的模型对三维特征进行分类完成表情信息的识别分类,同时,将三维特征及其分类识别结果信息入库管理,为后续研究做储备。

5 结束语

本文在研究当前三维人脸表情识别算法的基础上,提出了基于三维不变矩的人脸表情识别系统研究框架。对三维人脸表情模型建立具有平移比例和旋转不变性的三维人脸表情模型的矩不变量特征表示,并基于支持向量机的智能学习技术研究实现利用多维度3 D-Zernike描述子特征的人脸表情分类识别系统的建模,采样基于D-A B C算法的分析识别模型优化,提高模型可靠性和系统的鲁棒性,进而利用该系统进行三维人脸表情数据的分类识别。

摘要:本文提出了基于三维不变矩的人脸表情识别系统研究框架。在对三维人脸表情模型进行预处理及归一化的基础上建立具有平移比例和旋转不变性的三维人脸表情模型的矩不变量特征表示。针对人脸表情分类应用背景采用基于支持向量机的智能学习技术研究实现利用多维度3D-Zernike描述子特征的人脸分析识别系统的建模,基于D-ABC算法的分析识别模型优化,提高模型可靠性和系统的鲁棒性,进而利用该系统进行三维人脸表情数据的分类识别。

关键词:三维不变矩,人脸识别技术,优化算法

参考文献

[1]韩松.三维人脸表情:建模、合成与识别[D].浙江大学博士论文.2011.

[2]闫奕名;张晔.基于多面化分解模型的目标信息获取优化技术[J].华南理工大学学报(自然科学版).2012.40(3):100-105.

[3]A.M.BRONSTEIN,M.M.BRONSTEIN,R.KIMMEL.Expression-invariant 3D face recognition[C].Proceedings of International Conference on Audio-and VideoBased Biometric Person Authentication,New York,2003:62-70.

[4]M.KAZHDAN,T.FUNKHOUSER,and S.RUSINKIEWICZ.Rotation invariant spherical harmonic representation of 3d shape descriptors[C].In SGP?03:Eurographics/ACM SIGGRAPH symposium on Geometry processing,2003.pp:156-164.

[5]LYONS M J.The Japanese Female Facial Expression(JAFFE)Database[DB],http://www.mis.atr.co.jp/~mlyons/jaffe.html,1998.

[6]KARABOGA D,AKAY B.A modified Artificial Bee Colony(ABC)algorithm for constrained optimization problems[J].Applied soft computing,2011,11(3):3021-3031.

[7]刘燕子,曾晓勤.基于SOFM的人脸图像聚类方法比较[J].信息技术2013(4):162-165.

修正不变矩 篇4

随着汽车工业的飞速发展、劳动生产率大幅度提高,各种检测系统的要求也越来越高,而国内整体发展不均衡,现有的一些检测设备自动化水平比较低,需要众多操作工人检验判别,大量的人工检测不仅影响生产效率,而且带来不安全因素。针对进口设备价格昂贵,设计不一定符合我国实际特性的情况,研究开发新的价格合理、准确、省时的检测系统就成了技术发展的必然。

本文针对实际生产中某条汽车零部件装配生产线上混合装配几种产品塑料支承件,在支承件件形状极其相似、依靠传统手段很难区分的情况下,利用图像识别技术,有效提取工业现场噪声条件下的图像,并结合去噪、特征提取及目标识别等图像处理技术快速准确识别该支承种类,防止错装,较好地解决了工业现场劳动强度大、效率低下的不足,同时彻底消除了工业现场中可能存在的威胁和危害操作人员人身安全的因素,有着较大的经济效益和社会效益。

1 图像的获取

获取良好的工件图像信息是进行种类判别的前提,也是决定能否达到理想效果的保证,而图像质量的好坏直接与获取图像的设备有着密切的关系。本文使用的图像采集系统是基于工控机IPC平台,由光源、CCD摄像机、图像采集卡等部分组成(如图1所示)。

1.1 工业数字摄像机

研究中根据实际需求、性价比等因素,选用大恒图像的通用性IEEE1394数字摄像DH-HV-FM1300,该相机采用逐行曝光CMOS图像传感器,曝光时间可通过编程设置,采用符合DCAM(IIDC)规范的IEEE1394总线从而在向主机传输数据时几乎不占用CPU资源,可轻松实现同一台计算机上连接多台摄像机(本文的设备为两台)进行多路图像的同步采集和实时处理;该摄像机可输出闪光灯控制信号从而实现摄像机曝光和闪光灯补光的精确同步,使成像效果更理想;同时紧凑坚固的全金属外壳更能适应工业现场较恶劣的环境。

1.2 光源与光照

光源是直接影响图像系统输入的重要因素,鉴于复杂的工业制造环境,为减少不必要的阴影及镜面反射拟选用低角度环形光源照射,该光源是侧面均匀照射的漫射光源,可以在不产生LED反光的情况下,添加红色滤光片滤除其它色光影响,从而使字符和缺陷被均匀照明,以达到工件成像的最佳状态。图2为不同光照获得的效果图。

2 图像预处理

摄像机获得的工件图像,难免受到工业现场光照、位置等复杂的环境因素影响,使得到的图像往往存在环境噪声、字迹模糊等不理想情况,因此需要在处理识别工件之前进行预处理[1],亦即对原图像数据进行整理加工、去伪存真的过程,以此改善图像质量,提高判别速度和成功率。

2.1 图像灰度化

由数字摄像机得到的工件图片信息由RGB三分量组成,分别对RGB三种分量进行处理将十分复杂且是不必要的,实际上RGB并不能反映图像的形态特征,只是从光学的原理上进行颜色的调配,根据重要性及其它指标,将三个分量以不同的权值进行加权平均能得到较合理的灰度图像(处理效果见图3),同时为接下来的二值化做好准备。其灰度化公式[2]为:

2.2 图像滤波和对比度调整

实际上从现场图像采集设备获得的图像不可避免的存在噪音,这些噪音对后续处理的往往影响很大,因此需要先尽可能减弱甚至消除噪音的影响。选用非线性中值滤波器[3],它能在一定条件下克服线性滤波器如最小均方滤波,均值滤波等所带来的图像细节模糊问题,而且对图像扫描噪声非常有效。同时针对工件照片图像的获取受到环境的影响、灰度差异较大,对比度和亮度通常较低等情况,将对其进行对比度调整,经调整后图像的对比度加大,便于后续二值化处理,如图4所示。

2.3 图像二值化

实际上工件的字符是在灰色背景上印制的黑色字体,可以看成是由背景和字符形成“二值图像”,虽然获得的该字符图像是由成像系统造成多值输入,但经过之前灰度变换已恢复原来的黑白图像本色。本后续处理中将其变为二值图像,使图像自身的信息量大大减小,在生产线实时性要求较高的场合,能加快运算处理速度,降低系统开销。

选择合适的分割灰度值(下简称阈值)将目标和背景分开是图像二值化处理关键步骤,通常阈值选取方法分为全局阈值算法和局部阈值算法两大类。其中全局阈值算法是根据整幅图像选取一个固定的阈值将图像二值化,本文结合得到灰度图像像素结果综合比分析,采用基于整幅图像统计特性的类间方差最大的自动确定阈值Otsu法[4,5],该方法基本思想是用某一假定的分割阈值将图像的灰度分成两类(背景和前景目标图像),当两类的类间方差最大时,此灰度值就是图像二值化的最佳阈值,具体表述为:

假设原灰度图像的灰度范围为[0,L-1],第i灰度级的像素数为,则总像素数为第i灰度级像素概率为

将图像像素按灰度值用阈值K分成两类C0和C1,C0由灰度值在[0,K]之间的像素组成,C1由灰度值在[K+1,L-1]之间的像素组成,则整副图像的灰度均值为:。

C0和C1类的各自的灰度均值为:

综合上式,图像总均值可变为:

K从[0,L-1]变化使得类间方差σ2最大的k值即为最佳分割阈值。本文采用该方法得到的二值图像如图5所示。

二值化处理后的图像突出了感兴趣目标字体的区域,衰减了背景干扰,同时信息量大大减少,便于识别处理,提高匹配成功率和算法效率。

3 不变矩特征匹配识别

图像匹配实质是根据已知图像模式(模板)从目标待检测图像中寻找相同图像模式的过程,是在像场中检测目标的最基本方法之一。在图像匹配识别过程中,针对现场工件放置不可能完全是在理想位置,或多或少有位置偏移和角度倾斜等实际情况,本文采用了一些不变量,这些量只与物体形状有关,而与它们的位置、方位、尺度无关,称为旋转、平移、尺度不变量,简称RST不变量。Ming-Kuei Hu于1962年给出了连续函数矩的定义和关于矩的基本性质[6],并且证明了有关矩的平移不变性,比例不变性和旋转不变性,具体具有平RST不变性的七个不变矩的定义。若把二值图或灰度图看作是二维密度分布函数,就可把矩技术应用于图像分析中,描述物体特征,进行判别分析。

3.1 矩基本理论[6,7]

设f(x,y)是封闭区域R上的连续函数,在区域R外,则f(x,y)的p+q阶矩与中心矩定义如下:

中心矩对函数平移保持不变,归一化后的中心矩对函数尺度伸缩保持不变,其表达式为:

3.2 二维数字图像的不变矩

对于二维数字图像,f(x,y)表示像素(x,y)处的值,是以离散的形式来描述图像的,相应矩和中心矩变为:

利用归一化中心矩,提取的特征不仅具有平移不变性,而且还具有比例不变性。Hu证明了利用二阶和三阶归一化中心矩构成的矩组,对于平移、旋转和大小尺度变化均为不变,称为Hu不变矩[6]。其公式为:

3.3 工件种类判别过程

识别过程的基本思路是:搜索所有可能为目标的区域,计算目标区域的不变矩特征,根据特征的相似程度判定是否为搜索目标。该过程比较费时间,为此结合实际先对原二值图像边缘切割,缩小匹配范围。

原图像经一系列处理后得到的二值图像,字符特征已经突出,为了便于识别、减小在无效点做无用匹配,结合二值化图像的实际特点,采用向纵横坐标投影法减小有效信息范围。具体描述如下:如图6所示,得到的二值化图像沿纵向投影,横坐标为对应纵坐标上字符点及噪音为点的个数,纵向扫描总像素信息,结合工件字符的已有高度信息可以提取出有效字符的纵向范围。

经切割后的工件图像信息范围大大减小,然后在目标图像上以一定步长搜索模板覆盖区域,计算待匹配图像区域的七个不变矩,判断是否存在搜索目标,完成判别,其中相似度判别通常采用欧式距离。模板与待识别目标之间的欧式距离定义为:

若模板与待识别目标于同一类区域里,距离R较小的,反之则欧式距离R是比较大的。可通过模板反复试验取定一个阈值V以确定两者的相似程度。

4 实验与结果分析

利用七个不变矩公式分别计算模板图像和待匹配图像中各区域的七个不变矩,组成各自的特征向量。实验结果表明,七个不变矩数值的变化范围很大,为了便于比较,本文采用取对数的方法对数据进行压缩,实际上采用了如下不变矩公式,表1为部分匹配结果。

本研究应用软件采用VC++6.0开发[2],基于工控机平台。先建立待匹配工件字符标准模板,再实时采集现场工件图像,一对一识别处理。实验发现针于一个确定的模板匹配工件效果比较理想,但是在众多模板中进行选择,逐个识别,总时间不很理想,需要进一步探索。图7为工件识别结果。

5 结束语

本文将数字图像处理理论应用于工业生产线上工件种类简单判别,采用不变矩理论能在一定程度上克服实际工件放置中出现的偏差,比如位置移动,小角度倾斜等工况。实际中对光照要求较高,需要对光路有较好的固定,需要附加设施尽量避免外界光线干扰。本文方法效率不算高,适用于实时性要求一般的场合,而高效的判别方法不仅需要改进算法而且可以从硬件角度考虑进行改进,需要继续探索。

参考文献

[1]叶晨洲,杨杰,宣国荣.车辆牌照字符识别[J].上海交通大学学报,2000,34(5).

[2]钟志光,卢军,刘伟荣.Visual C++.NET数字图像处理实例与解析[M].北京:清华大学出版社,2003.

[3]李弼程,彭天强,彭波,等.智能图像处理技术[M].北京:电子工业出版社,2004.

[4]姚敏,等.数字图像处理[M].北京:机械工业出版社,2006.

[5]高潮,常永鑫,郭永彩.机械工件数字识别的二值化算法研究[J].光电工程,2010,37(6).

[6]HU M K.Visual Pattern Recognition by Moment Invariants.IEEE Transactions On Information Theory.1962,8:179-187.

修正不变矩 篇5

随着网络技术的飞速发展、多媒体的广泛应用, 图像信息越来越多, 管理和查询图像就成为一个非常重要和迫切的问题。在实际应用中, 图像数据库及其检索的研究对多媒体数字图书馆、生物医学和卫星遥感图像的管理查询以及计算机辅助设计和制造、地理、商标版权等信息系统提供了有力的支持。20世纪90年代出现了基于内容的图像检索 (CBIR, Content-based Image Retrieval) 技术[1,2], 它是从图像本身所包含的信息中抽取其特征或属性, 主要包括图像的底层特征如颜色、形状、纹理及对象之间的空间关系等, 再根据一定的相似度进行匹配以找到真正需要的图像。其中基于颜色的图像检索技术研究得较为充分, 而基于形状的检索相对来说则比较困难。矩特征作为刻画物体形状的重要特征之一, 主要表征了图像区域的几何特征。目前已经提出了多种类型的矩函数, 如几何矩 (Hu矩) 、Zernike矩、Legendre矩和Tchebichef矩等, 它们可构成不变量用于图像的特征提取, 并且已经在图像检索中有了很多应用[3], 其中主要有几何矩与边缘检测[4,5,6]、离心率[7]、或图像熵[8,9]相结合的方法, 以及复数矩及对其改进的Zernike矩[10,11,12,13,14]的检索方法。但上述提出的几类矩函数有一个共同的问题:由于它们的连续性, 在计算过程中会引入一定的误差, 且随着矩的阶数的增高误差会积累, 降低了计算的精确性。而2003年Yap提出的Krawtchouk矩是一种新型正交矩[15], 在不论有无噪声干扰的情况下, Krawtchouk矩的性能都要优于Zernike矩、Legendre矩和Tchebichef矩等其它正交矩。它不但克服了Zernike矩、Legendre矩随着矩阶数的增加, 量化误差逐渐增加和需要进行坐标变换的缺点, 且和Tchebichef矩相比, 又具有可以从任何感兴趣的图像区域中提取局部特征的优点。利用图像的Krawtchouk矩可以很好地恢复出原始图像。作为一种性能更为优良的正交矩, 由其构成的Krawtchouk矩不变量具有良好的旋转、平移和尺度不变性, 作为图像特征向量完全满足图像特征提取的要求, 且比几何矩不变量更具有广泛性。

鉴于上述原因, 本文提出了一种利用Krawtchouk矩不变量实现基于形状的图像检索的方法。该方法首先对图像进行灰度变换, 然后提取图像的低阶矩, 取16个低阶矩不变量作为图像的特征向量, 并按照相似性度量输出相似图像从而实现基于形状的图像检索。文中通过实验验证了Krawtchouk矩不变量良好的旋转、平移和尺度不变性, 进行了具体的图像检索实验, 提供了检索实例及其检索结果, 并与基于几何矩不变量和基于Zernike矩不变量的图像检索方法进行了比较。

1 Krawtchouk矩与Krawtchouk矩不变量

1.1 Krawtchouk矩

Krawtchouk矩是基于经典的离散Krawtchouk多项式构造的一组新的正交矩, 其核函数是由一系列的Krawtchouk多项式组成的。n阶离散Krawtchouk多项式定义为

式中:x, n=0, 1, …, N, N>0, p∈ (0, 1) , 超几何函数定义为 , 式中 (a) k为Pochhammer算子: (a) k=a (a+1) … (a+k+) 1, (N+1) 个Krawtchouk多项式{Kn (x;p, N) }构成一个离散的加权基函数闭集。加权函数为 , 并满足正交性:

通常情况下, 为了避免计算过程中产生误差, 要对多项式{Kn (x;p, N) }进行归一化处理, 归一化Krawtchouk多项式定义为 。

正交条件则转化为

1.2 Krawtchouk矩不变量

图像 (n+m) 阶Krawtchouk矩表示为

式中:mij为N×M大小图像的 (i+j) 阶几何矩。Krawtchouk矩依赖于同阶的几何矩, 图像的几何矩定义为

为了构造仿射不变性Krawtchouk矩, 使其满足平移、旋转、尺度不变性, 需要对mij进行变形。根据矩定义, 零阶矩m00表示整幅图像的质量, 一阶矩m01和m10分别表示图像x轴和y轴的质量矩, 则矩心为, 其中。 。

平移不变量由矩心决定, 这是因为图像矩心伴随着图像的平移而移动, 则几何矩变为中心矩:

为了消除尺度变换的影响, 相应的中心矩变形为

旋转不变量由旋转角度θ决定, 坐标旋转变换为

则mij转化为

则Qnm变为 :

图像f (x, y) 可以由矩重建:

Krawtchouk矩具有提取局部感兴趣区域的能力, 通过调节参数p1, p2选取不同区域, 对于有些时候只需要检索图像中感兴趣部分十分有效。

2 相似性度量及算法步骤

2.1 相似性度量

在基于内容的图像检索中, 通过比较图像的特征向量之间是否相似来判断图像之间的相似性。而特征向量之间相似性度量的方法有多种, 例如常见的Euclidean距离、Chebychev距离、Mahalanobis距离等。Euclidean距离因简单高效, 普遍应用于各种图像识别算法中, 同时又因为本文检索方法选用低阶矩不变量作为实现图像检索的特征, 它们表示的是图像的主要形状信息, 物理意义相似, 并且取值范围变化不是很大, 据此, 本文采用了Euclidean距离作为相似性度量, 其数学描述为

式中:fQ和fI分别为待检索图像和图像库中任一图像的特征向量, fiQ和fIi分别为特征向量fQ和fI的第i个分量, K为特征向量分量个数。D (fQ, fI) 越小则图像视为越相似。输出的相似图像数目根据需要设定。

2.2 算法步骤

现在将算法步骤总结如下:

1) 对图像库中的每幅彩色图像先进行灰度变换, 然后提取特征向量并存储;

2) 用户选择待检索图像, 提出检索请求;

3) 计算待检索图像与图像库中每幅图像的特征向量之间的相似度;

4) 设定检索输出的图像数目, 按相似度大小将图像输出;

5) 算法结束。

3 实验结果与分析

为测试本文方法的性能以及Krawtchouk矩不变量良好的平移、旋转、尺度不变性, 进行了一系列的实验。由于实验中关注的是图像的形状特征, 无须使用彩色图像, 同时为了测试简便与快速, 因此首先把图像都预先处理为灰度图像;然后经实验选取由 等16个低阶Krawtchouk矩不变量构成特征向量, 以此作为图像的索引特征。低阶Krawtchouk矩表示图像的主要形状信息, 由此16个低阶Krawtchouk矩不变量即可很好地重建原始图像。

3.1 旋转、平移、尺度不变性的测试

图1 (a) 为测试图像, 图像尺寸为100×100。图1 (b) 、 (c) 、 (d) 分别为原始图像在经过旋转、平移、尺度变化后特征向量的变化趋势图, 横坐标分别代表图像旋转、平移和尺度变化的不同值, 纵坐标代表图像的各阶矩值。表1列出部分原始图像在经过旋转、平移、尺度变化后的特征向量数据 (表中的数值是原值除以~Q00后并取对数的结果) 。由变化趋势图可见, 图像在经过旋转后特征向量保持不变, 平移后有微小变化, 而尺度变化后则改变相对稍大一些, 但是随着尺度变化幅度的增大, 变化量反而有所减小。

3.2 图像检索实验

为了检验本文所提出方法的性能, 进行了大量的具体图像检索实验, 实验环境为Microsoft Windows XP Professional, AMD Athlon (tm) 64 X2 Processor 4000+2.11 GHz, 960 MB, Visual Studio 2005, 采用的图像来自华盛顿大学的groundtruth CBIR图像库。本文设定的图像库主要由足球场、樱花、鲜花和灌木等组成, 共203幅图像, 尺寸为256×171。现给出一个具体检索实例。如图2所示, 设待检索图像A和B, 将本文方法分别与基于几何矩不变量和基于Zernike矩不变量的图像检索方法进行比较, 针对待检索图像A和B的实验结果分别如图3和图4所示。设定检索输出图像为20幅, 检索输出图像从左到右, 从上到下按与输入待检索图像相似程度由大到小的顺序排列。

由实验结果的主观视觉分析来看, 本文方法检索效果明显好于基于几何矩不变量的检索方法, 也优于基于Zernike矩不变量的检索方法, 干扰图像较少。而在基于内容的图像检索中, 对检索效果的客观定量评价主要采用的是查准率P (Precision) 和查全率R (Recall) 两个指标[16,17]:

式中:No表示被检索出的图像总数, N1表示检索出的相关图像数, N2表示未检索出的相关图像数。查全率和查准率越高, 说明该检索方法的效果越好。对图像库中的主要五类图像分别任意选出10幅图像作为待检索图像, 形成50次检索结果。从检索结果来看, 示例图像能够被正确检测出, 并且能够按照设定的相似度范围检索出相似图像, 但排列的顺序与人的主观感觉不尽相同。为了将本文方法与基于几何矩不变量和基于Zernike矩不变量的图像检索方法的性能作进一步的比较, 对三种方法的特征提取及相似匹配的综合时间进行了测试, 通过大量实验得出:基于几何矩不变量、Zernike矩不变量以及Krawtchouk矩不变量三种方法的平均检索时间分别约为1 085ms、1 634 ms和1 379 ms。由实验结果来看, 本文方法相对于基于几何矩不变量方法的检索时间稍长, 但查全率、查准率有了较大的提高;与基于Zernike矩不变量方法相比, 不仅查全率和查准率都高, 而且时间较短。表2列出了三种方法的平均查全率、查准率和平均检索时长。由表2可见, 本文方法具有更好的检索性能, 和上述两种方法相比, 查全率分别提高了21.52%和7.6%, 查准率则分别提高了16.25%和6.25%, 相对于Zernike矩方法时间则缩短了约255 ms。综合两个指标来比较, 本文方法的总体性能更好。

4 结论

本文针对目前基于形状的图像检索存在的问题, 并考虑到Krawtchouk矩是一种更为精确的离散正交矩, 提出了一种利用Krawtchouk矩不变量实现基于形状的图像检索方法。大量实验结果表明:Krawtchouk矩不变量具有良好的平移、旋转和尺度不变性;与基于几何矩不变量和基于Zernike矩不变量的图像检索方法相比, 本文提出的方法具有更好的检索性能, 能获得更高的查全率和查准率。本文讨论了仅利用Krawtchouk矩不变量特征来实现图像检索, 若能将Krawtchouk矩不变量和其它特征相结合应用于图像检索, 可望得到更好的效果, 这是我们正在进行的研究工作。

摘要:图像在经过平移、旋转和尺度变化后是否仍具有很好的检索效果是基于形状的图像检索研究的一个难点。本文提出了一种利用Krawtchouk矩不变量实现基于形状的图像检索方法。该方法首先对图像进行灰度变换, 然后提取图像的低阶矩, 取16个低阶矩不变量作为图像的特征向量, 并按照相似性度量输出相似图像从而实现基于形状的图像检索。文中给出了实验结果, 并与基于几何矩不变量和基于Zernike矩不变量的图像检索方法进行了比较。结果表明本文的方法具有更好的检索性能, 和上述两种方法相比, 查全率分别提高了21.52%和7.6%, 查准率则分别提高了16.25%和6.25%。

修正不变矩 篇6

1 基于直方图不变矩的图像匹配

1.1 不变矩匹配的实时性差

直方图不变矩虽然变二维计算为一维计算,但由于其计算公式复杂,匹配耗时长,实时性差。取不同比例同一个场景,在各个图像选择一个20*20 Pixel的模板,利用直方图不变矩进行匹配,在不牺牲匹配精度的情况下,匹配结果如图3,时间测试结果表2。

基于直方图不变矩的图像匹配,精度较高,但匹配时间远大于标准视频相邻帧的间隔时间40ms,不能满足目标识别的实时性要求。

2 基于目标区域的图像匹配

2.1 主目标区域的提取

既然1幅图像的面积是有限的,并且在最坏的情况下也是分段连续的,那么所有阶的规则矩都存在,所求得的矩集可唯一地描述该幅图像所包含的信息.要将1幅图中的信息全部表征出来需要无限多的矩值,由于其计算公式复杂,匹配耗时长,实时性差,所以在本算法提出只需选取矩值的1个子集,只要该子集对于某个目标区域应用包含表征该图像足够的有用信息即可。

一般来说,人的眼睛只对最显著的、最大目标区域感兴趣。所以,下一步的工作是将图像中的目标区域提取出来,作为不变矩的一个子集。针对每一个子区域统计L,首先提出提取图像分块主颜色算法,作为定义图像中颜色连通区域的基础。用户可以根据所需要的检索精度来指定划分的图像子块个数及分布,其范围为M X N(M,N均为整数)个图像子块。

假设彩色图像T=f(x,y)的大小为x×y,图像被分为M×N个大小相同的图像子块Tμ为

对每个图像块Tμ(0≤i≤N-1,0≤j≤N-1),选择一种HSV颜色空间中的量化颜色作为相应的图像颜色特征索引,该颜色块称为Tμ的主颜色。HSV颜色量化采用的是8×3×3的量化算法。图像的分块主颜色提取算法如下:

第一步将图像块Ty的HSV颜色空间进行量化,求取72维的HSV量化颜色直方图特征:Hμ=[h1,h2,…,h72]。

第二步按如下步骤求出主颜色区间(区间长度为3)的起始颜色位置Index:

第三步计算出颜色区间的Index值后,再从[Index,Index2]主颜色区间中找出像素点频数最大的颜色值,作为该图像块的颜色。

上述算法中,主颜色的查找并不是简单地从一维直方图特征中直接找出频数最大的颜色值作为子分块主颜色,而是考虑一个邻域区间,最后再在区间内找出主颜色。这是因为对于有轻微变化的颜色,例如蓝色和浅蓝色的背景,其HSV量化颜色可能为两个相邻的值,因此要先求出对应的主颜色区间后在计算该区间内频数最大的颜色值,这样也增加了该算法的鲁棒性。

通过上述方式获取出每个子图像的主颜色,考虑每个小块与周围8个小块的颜色距离,距离越大,说明相邻小块的差别越明显。于是,可以认为这两个小块分别属于目标少背景,反之则属于同一目标或背景。这样,目标的空间特征就表现出来了。现在已经有了目标区域的各个组成部分,即包含有目标信息的子图像块,因此下一步要根据区域连通性准则将包含目标信息的子图像块划分到各自所属的区域中。选取颜色连通区域面积最大的一个连通域,并以它的外接矩形作为图像最终的目标区域。由连通域的性质可知,找出的目标区域是唯一的,图2便是一些提取目标区域的示例。

2.2 基于主目标区域直方图不变矩的匹配方法

设基准图的目标区域尺寸为M×N,在待匹配图中选取相应的主目标区域为(J×K)区域,在区域内以(M×M)窗口移动,如图3所示,计算窗内的不变矩特征。

当窗口移动到匹配点位置,基准图与子窗口的相似程度最大。因此定义如下的匹配函数:

其中:

式中k=l,…,s,为图像移动的次数,fj为基准图的直方图不变矩特征,fik为待匹配图像第k个子窗口的不变矩特征。

3 实验结果分析

程序运行编译运行环境:WindowsXP Sp2,MicrosoftVisual Studio.NET 2003 VC++。图像库中包括简单的一组不同的花朵、人体等120幅图像,其中花朵形状图像12幅.图2是花朵图像匹配的实验结果.第1幅图是被检索图像,后面的图像为检索结果。从图2可以看出,该算法对于图像的扭曲形变具有不变性,并对图像的基本形状特性具有鲁棒性,根据表2可知在具有较好的图像检索结果的同时,且匹配时间远小于基于不变矩匹配方法。

4 结论

基于不变矩的匹配算法是度量两幅图像间的相似性用得最普遍的方法之一,但算法的计算复杂度却限制了它在工业实时检测中的应用。本文提出了一种基于主目标区域形状不变矩的图像匹配算法,通过相邻像素的比较运算得到图像主目标区域后,得到所需比较子集,根据子集相关性显示出结果图像。实验证明提出的算法能快速准确地检测出与之匹配图像。

参考文献

[1]白玉林.实用数字图像处理[M].3版.北京:科学出版社,2002.

[2]严柏军.基于不变矩特征匹配的快速目标检测算法[J].红外技术,2001,23(6):243-246.

[3]冯桂.图像直方图不变特征在影像匹配定位中的应用[J].计算机辅助设计与图形学学报,2002,12(2):146-148.

[4]张坤华.基于扩展目标的不变矩跟踪算法[J].强激光与粒子束,2004,14(1):6-10

修正不变矩 篇7

基于内容的视频检索系统,一般都是先进行镜头分割,即在时域上将视频序列按照一定的标准分割为镜头。完成对镜头的分割处理后,为了建立视频索引,提取视频摘要,往往需要选取镜头的关键帧。只有对分割后的图像序列的关键帧进行准确的定位,才能为最终的检索奠定良好的基础。由于视频的数据量巨大,而关键帧是代表视频镜头主要内容的图像,所以通过选取关键帧可大大减少视频索引的数据量。在存储容量有限的情况下,通常仅存储镜头关键帧,用来达到数据压缩的效果。同时,用关键帧来代表镜头,使其作为镜头的视频摘要,可以为检索视频提供一个组织框架。这样,通过观看有限的关键帧就能达到快速浏览整段视频的目的。因此,关键帧的选取技术在基于内容的视频检索研究中占据着核心地位。

1 典型的关键帧提取技术

鉴于关键帧提取在视频检索中的核心地位,一直以来它都受到国内外学者的广泛关注。其中典型的关键帧的提取算法有以下几类:

算法1 基于镜头边界提取关键帧

该方法将每个镜头的首帧、中间帧或者尾帧作为镜头的关键帧。这种方法设计简单,运算量小,适合内容简单或固定场景的镜头。但对于较为复杂的场景,这样提取的镜头代表帧往往并非真正的关键帧,不能精确地代表镜头的信息。如果前期的镜头分割工作没有作好,则此方法选择的关键帧就更加杂乱。

算法2 基于运动分析提取关键帧

运动分析一般都是基于光流运算的,Wolf[1]通过光流分析来计算镜头中的运动量,在运动量取局部最小值处选取关键帧。Wolf这种基于运动分析的方法可以根据镜头的结构选择相应数目的关键帧。如果先把图像中的运动目标从背景中取出,再计算目标所在位置的光流,可以取得更好的效果。但是,这种方法计算量较大,实时性较差,而且基于光流算法的局部最小值也不一定准确。

算法3 基于图像信息提取关键帧

该方法基于每一帧的颜色、纹理等视觉信息的改变来提取关键帧,当这些信息有显著变化时,当前帧即可作为关键帧。Zhang[2]等人依据帧间的显著变化来选择关键帧,首先把镜头的第一帧作为关键帧,然后计算前一个关键帧与剩余帧之差,如果差值大于某一阈值,则再选取一个关键帧。此方法可以根据镜头内容的变化程度选择相应数目的关键帧,但是选取的帧不一定具有代表意义,而且当物体快速运动时,容易选取过多的关键帧。

算法4 基于聚类的方法

以上的传统算法由于只是在镜头内部选取关键帧,没有充分利用不同镜头可能具有相同场景这个性质,所以得到的整个视频序列的关键帧集合仍然存在比较大的冗余,并非一个非常精练的表示。考虑到这个因素,人们又提出了一些新的算法,综合考虑镜头内和镜头间的相关性,这就是基于聚类的算法。通过聚类那些在时间、内容上相关性很高的帧图像将视频序列划分为不同的聚类,然后选取其中最不相关的几帧作为镜头关键帧。

本文的方法正是建立在基于聚类的思想上现实的。首先以视频序列中运动目标区域的不变矩作为聚类特征,然后运用Mean Shift思想对基于不变矩的数据集合进行聚类,接着借助时间轴属性对原有的聚类进行细分,进而在每类中选取有代表性的视频帧作为关键帧。

2 典型的关键帧提取技术

视频运动目标的不变矩特征指的是运动目标在视频序列中具有平移、旋转和比例不变性的数学特征。因而可以通过不变矩特征对运动目标进行识别及相似性检测。Hu首先于1962年提出了用于区域形状识别的不变矩理论[5]。对于数字图像而言,图像函数f(x,y)的(p+q)阶普通矩和中心矩的公式如下:

mpq=x=1Wy=1Ηxpyqf(x,y)(1)

upq=x=1Wy=1Η(x-x¯)p(y-y¯)qf(x,y)(2)

mpq具体含义为函数f(x,y)在单项式上的投影。其中:x¯,y¯是图像的重心坐标;W,H是图像的宽和高。

归一化的中心矩,由ηpq表示,定义为:

ηpq=upq/uγ00γ=(p+q)/2 (3)

Hu用归一化的二阶和三阶矩构造了7个不变矩:

I1=η20+η02 (4)

I2=(η20-η02)2+4η112 (5)

I3=(η30-3η12)2+(3η21-η03)2 (6)

I4=(η30+η12)2+(η21+η03)2 (7)

I5=(η30-3η12)(η30+η12) [(η30+η12)2-

3(η21+η03)2]+(3η21-η03)(η21+

η03)[3(η30+η12)2-(η21+η03)2] (8)

I6=(η20-η02)[(η30+η12)2-(η21+η03)2]+

4η11(η30+η12)(η21+η03) (9)

I7=(3η21-η03)(η30+η12)[(η30+η12)2-

3(η21+η03)2]+(3η21-η03)(η21+η03)[3(η30+

η12)2-(η21+η03)2] (10)

图1给出了实验一视频序列中的三帧图片,表1给出了每帧图片对应的Hu的七个不变矩向量的值。从中可以看出,运动目标的区域形状越相近,所得到的七个不变矩的值也就相差越小,反之越大。所以可以通过计算运动目标区域的七个不变矩的值M=(I1,I2,...,I7)来测定目标的相似性。

3 Mean Shift算法

Mean Shift算法本质上是一个自适应的梯度上升搜索峰值的方法,它使每一个点“漂移”到密度函数的局部极大值点。近年来,Mean Shift算法已广泛应用于计算机视觉领域。

3.1 基本的Mean Shift定义

给定d维空间Rd中的n个样本点xi,i=1,...,n,在x点的Mean Shift向量的基本形式定义为:

Μh(x)1kxSh(xi-x)(11)

其中,Sh是一个半径为h的高维球区域,满足以下关系的y点的集合。k表示在这n个样本点xi中,有k个点落入Sh区域中。

Sh(x)≡{y:(y-x)T(y-x)≤h2} (12)

3.2 扩展的Mean Shift定义

对于扩展的Mean Shift,是在基本形式定义上做了下面三个方面的推广:(1)可以是核函数;(2)数据点可以加权;(3)在数据集合Sh不变的同时,移动可以在任何Rd的子集上进行。

如此就可以把基本的Mean Shift形式扩展为:

Μ(x)i=1nGΗ(xi-x)w(xi)(xi-x)i=1nGΗ(xi-x)w(xi)(13)

其中:GΗ(xi-x)=|Η|-1/2G(Η-1/2(xi-x));

G(x)是一个单位核函数;

H是一个正定的对称d×d带宽矩阵;

w(xi)≥0是一个赋给采样点xi的权重。

在实际应用的过程中,带宽矩阵H一般被限定为一个对角矩阵H=diag[h12,...,hd2],甚至更简单的被取为正比于单位矩阵,即H=h2I。由于后一形式只需要确定一个带宽系数h,在Mean Shift中常常被采用,在本文的后面部分也采用这种形式,因此公式(13)又可以被写为:

Μh(x)i=1nG(xi-xh)w(xi)(xi-x)i=1nG(xi-xh)w(xi)(14)

3.3 Mean Shift迭代计算步骤

Mean Shift算法是一个迭代的逐步收敛到局部密度极大值的过程。把公式(14)变形,可以得到:

Μh(x)i=1nG(xi-xh)w(xi)xii=1nG(xi-xh)w(xi)-x(15)

把上式右边的第一项记为mh(x),即:

mh(x)i=1nG(xi-xh)w(xi)xii=1nG(xi-xh)w(xi)(16)

给定一个初始点x,核函数G(X),容许误差ε,Mean Shift算法循环执行下面三步,直至结束条件满足。

步骤1 计算mh(x);

步骤2 把mh(x)赋给x;

步骤3 如果mh(x)-x<ε,结束;否则执行步骤1。

3.4 Mean Shift的聚类应用

由以上Mean Shift的论述可知,Mean Shift向量指向样本分布最多的区域,也就是概率密度梯度方向。如图2所示,数据集{xi,i=1,...n}服从概率密度函数f(x),给定一初始点x,经过Mean Shift算法就会逐步移动到一个概率密度的峰值点。这个峰值点就对应着聚类应用中的某类的聚类中心。所以Mean Shift算法可以用来聚类:对于数据集{xi,i=1,...n}中的所有数据点都做如下相同的处理,首先设任一点为初始聚类中心,对该点执行3.3节的Mean Shift算法(其中的第三个步骤的结束条件‖mh(x)-x‖<ε在本文的实际操作中会使用另一种归一化的向量间的相似性度量原则)。最后对于那些收敛到同一个点的数据集即可算作一类。

4 Mean Shift聚类的关键帧提取算法

聚类所需数据源:首先提取视频序列中的运动目标区域,然后根据第2节中讲述的不变矩概念,计算每一帧图像中运动目标区域的不变矩向量,从而得到一组属性为七维的数据集合作为待分类的数据源。

在介绍Mean Shift聚类步骤之前,先介绍一下本文算法中所用到的向量间相似性度量原则。

4.1 相似性度量原则

目前有许多的方法度量两个向量的相似程度,其中最为常用的是欧式距离和马氏距离。但从表1可以看出,不变矩向量的七个特征属性值有很大的不同,有些属性值甚至都不在一个数量级上(如I1 与I5),因此欧式距离和马氏距离在这里都不太合适。这里使用另外一种度量相似性的方法来避免上面的问题。用Iki表示第i帧图像的第k个不变矩,Sk表示的是第i帧图像与第j帧图像第k个不变矩的归一化的相似度,Sk用下式计算:

Sk(Μi,Μj)=min(Ιki,Ιkj)max(Ιki,Ιkj)k=1,2,...,7(17)

两个特征向量(Mi,Mj)的相似度能用S计算:

S(Μi,Μj)=k=17ωk*Sk(Μi,Μj)(18)

其中ωk是每个特征属性的权重系数,且满足k=17ωk=1

根据式(17)和(18)可知,两个向量越相似,S的值越大。我们引入另一个变量D来表示两个向量之间(Mi,Mj)的距离,计算公式如下:

D(Mi,Mj)=1-S(Mi,Mj) (19)

在后面的章节中,将用D来作为本文聚类算法的相似性度量工具。

4.2 Mean Shift视频序列聚类的步骤步骤1 初始化一个聚类中心;

步骤2 对这个聚类中心,根据3.3节介绍的Mean Shift迭代过程更新类中心,直到满足收敛条件:D(mh(x),x)<ε。其中D(mh(x),x)根据4.1节的公式(19)计算;

步骤3 将与聚类中心同在一个多维带宽空间的数据归为一类;

步骤4 重复前面3个步骤,直到所有的数据点都已经被归到各自的类中;

步骤5 去除那些类成员数目较少的类,避免由于噪声或前期的运动目标提取问题带来的干扰数据点。

从图3中可以分析出,由于第1帧的图像和第330帧的图像特征相似,因此会聚合到一个类别中。但这两个数据成员在时间上并不是连续的,他们中间还有像类似第70帧图像的其他事件发生。

表2是本文实验中的一段视频序列经过Mean Shift聚类后的数据成员分布情况。可以看到经过上面的5个步骤,能将那些具有相似不变矩的数据都归为一类,但是同类数据成员在时间域上并不一定是连续的。如表2的类1和类2中数据成员在时间域上就存在着较大间隔。

大家知道在时间上临近的视频帧,在视频内容的表现上一般也具有相似性。但是很多的视频内容都是间断性的重复内容,比如两个人对话的情景。在聚类中的数据表现为:同一类中出现时间序列上间隔的视频段。所以考虑时间轴特性,对原有的聚类做进一步的细分是很有必要的。

4.3 时间轴上的聚类细分

可以看到原有类中成员段的长短不定(如表2所示:类1中的两段数据分别有56帧和90帧,类2的两段分别有66帧和92帧)。这主要是由视频场景的内容来决定的。我们很难通过一个阈值就硬性的对所有的类统一细分,而且有些类本身就是一段连续的整体(如表2中的类3),不需要细分。所以本文考虑用每一类中邻近成员间的帧号距离作为参考标准进行细分。原则是如果临近的成员在帧号上的差值大于某个阈值,就认为应该断开原有类,最后所有的类按时间轴排序。这样的重新划分也正好体现了场景的间隔变化,符合实际的内容表现。而且这个阈值也能根据经验和常识选取,一般认为如果同类中的数据间隔了半秒(大约15帧),就认定场景间隔中有异变需要断开原有聚类。经过细分后的分类结果如表3所示。

最后,可以从每一个聚类中选取有代表性的一帧作为关键帧。在后面的实验中,为了简单高效,也为了以后的视频索引工作的方便,选取每一类的中间帧作为关键帧,并规定了视频段的起始帧和尾帧为关键帧。

5 实验结果及分析

为了测试本文方法的可行性,剪辑出了实时监控环境下的室外和走廊上的两段视频序列。并人为地设置了场景情节并对关键事件做了标定,以便于更好地体现本文算法的可行性。

实验数据选自于学校安检摄像头实时采集的监控数据,我们在实验室电脑(CPU为奔腾2.8GHZ, 内存为512M)的VC环境下处理400帧数据大约需要的时间是25S,其中很大的时间花销在于目标区域提取上。

第一个实验场景是在室外环境下,视频序列的内容描述的是:一个人从镜头的右端走入场景,在场景的中间附近停下来,下蹲做系鞋带状,然后起身从左端离开场景。预先标定的关键事件为:1进入场景;2系鞋带;3离开场景。提取的关键帧结果如图4所示。

第二个实验场景是在走廊环境下,视频序列的内容描述的是:一个人拎着一个红色的水桶,从镜头的近端走入场景并向着远端走去,在场景的中间附近停下来,放下手中的水桶,然后起身向场景的更远端走去。预先标定的关键事件为:1入场;2放下水桶;3远离镜头。提取的关键帧结果如图5所示。

实验过程中唯一要设置的阈值参数就是Mean Shift算法中多维空间的带宽系数。带宽值越大,所得聚类数越少,带宽值越小,所得聚类数越多。由于本文采用的相似性度量方法的两个向量的相似性总介于0和1之间,所以在两个实验中选用的带宽都是0.35。实验结果的分析见表4。

表4说明本文的算法有一个较低的关键帧提取率,能通过提取较少的关键帧反映整个视频段的内容。同时该算法还能有效地检测出所标记的关键事件,这些关键事件反映了目标的行为变化。从以上两个实验可以看出,本文的聚类原理都是基于运动目标区域的形变。其实运动目标在场景中的形变,在很大程度上能反应运动目标的变化及场景内容的变化。所以此种方法对基于内容的视频检索也提供了支持。

6 结 论

本文提出了一种基于运动目标不变矩和Mean Shift聚类的视频关键帧提取算法。用运动目标的不变矩作为聚类特征能更好的反应场景内容的变化,Mean Shift的聚类方法也非常适合多维向量的聚类。从理论和实验结果都证明了本文方法的可行性及高效性。唯一的缺陷就是该方法比较依赖于前期对视频序列中运动目标区域的提取好坏。

参考文献

[1]Wolf W.Key frame selection by motion analysis[A].Proc.of IEEEInt.Conf.Acoust.,Speech,and Signal Proo.,1996.

[2]Zhang H,Wu J,Zhong D,et al.An Integrated System for content-basedvideo retrieval and browsing[J].Pattern Recognition,1997,30(4):643 -658.

[3]Zhuang Y,Rui Y,Thomas S.Hang and Sharad Mehrotra.Adaptive KeyFrame Extraction Using Unsupervised Clustering[A].Proc.of IEEE IntConf.on Image Processing,Oct 1998:866 -870.

[4]Nagasaka A,Tanaka Y.Automatic video indexing and full-video searchfor object appearances[A].Proc.IFIP WG 2.6 2nd Working Confer-ence on Visual Database Systems,1991:119 -133.

上一篇:企业网络强度下一篇:注射类抗菌药物