安全带图像特征

2024-08-16

安全带图像特征(共7篇)

安全带图像特征 篇1

0 引言

在汽车行驶过程中,正确佩戴安全带是保护驾乘人员生命安全最有效的安全措施,也是驾驶员必须遵守的交通法规。随着图像处理和机器视觉技术的不断发展,将安全带佩戴视觉检测[1]技术引入交通电子探头系统逐渐成为备受瞩目的热点,基于支持向量机(SVM)[2]的安全带佩戴视觉检测系统则是该领域的一个重要研究方向。该系统结合SVM分类算法与机器视觉技术,将汽车图像中的安全带图像特征作为特征向量输入SVM进行分类识别,通过分类结果判断驾驶员是否佩戴安全带。为了得到较好的SVM分类效果,快速准确地提取安全带图像特征至关重要。首先定位原始图像中的驾驶员位置以缩小安全带检测范围,然后提取主驾位置图像的边缘信息并确定方向盘位置和可能的安全带边缘,再通过方向盘与安全带之间的位置关系构造特征向量,是一种有效的安全带图像特征提取方法[3]。本文结合基于链码的圆弧拟合、安全带边缘特征约束下的快速Hough变换以及基于方向盘与安全带边缘平面几何关系的特征向量构造方法,对现有安全带图像特征提取方法提出了一些改进。

1 主驾位置图像的边缘检测

对电子探头拍摄的汽车图像进行车窗定位[4],可以得到前挡风玻璃部分的图像,截取其中主驾驶位置所在部分,即为图1所示的主驾位置图像。

原始图像拍摄于公路、街道或其他允许机动车通行的交通道路,作为采集对象的汽车通常处于行驶状态,加上光照的变化、道路能见度的高低等不确定因素,最终获取的主驾位置图像十分模糊,很难通过颜色或灰度信息定位方向盘的位置。但是方向盘和安全带外形特征明显并且位置相对固定,在主驾位置图像中与周围的物体背景存在明显的边界。对图1进行Canny边缘检测[5],边缘图像如图2所示。

2 方向盘位置的定位

由于仪表台的遮挡,在图2中可以看到方向盘的图像并不是一个完整的圆,其边缘图像下部中间位置的圆弧状连续边缘即为方向盘边缘。所以,方向盘位置的定位就等效为方向盘边缘圆弧的识别。

基于Hough变换的圆检测是很好的圆识别方法,但较长的计算时间和较大的内存要求都制约了此种方法的实际应用。有学者提出了改进的随机Hough变换[6],很大程度上优化了Hough变换的计算速度和内存使用,能够实现快速圆识别,但此方法受局部变形的影响较大。基于Freeman链码的圆识别方法[7]在保证准确率的同时具较高的识别效率,但主要是针对比较完整的圆形进行识别。针对以上方法在圆弧检测中的局限性和实际应用的要求,本文结合Freeman链码和基于最小二乘法的圆弧拟合完成对方向盘边缘圆弧的识别。

根据文献[8]提供的圆弧逼近方法,设一组数据点{(xi,yi),i=1,…,k}的最佳拟合圆弧所在圆的方程为:

则这组数据点中任一点(xi,yi)到圆心的距离为di:

由最小二乘法可知,最佳拟合圆弧应使di2与R2的偏差尽可能的小,令方向盘边缘与其最佳拟合圆弧的残差:

求取最佳拟合圆弧几何参数的问题转化为求x0、y0和R,使f达到极小值。将f分别对x0、y0和R求偏导,令得到的三个偏导函数等于0,求解方程组可得:

其中,

公式(4)给出的x0、y0和R即为使f达到极小值fmin时的临界点公式,带入数据可得所求最佳拟合圆弧的几何参数。

本文通过Freeman链码跟踪一段像素长度有限的连续边缘[9],将该段边缘的所有像素点坐标带入公式(4),即得到这些像素点最佳拟合圆弧的圆心(x0,y0)和半径R,并依照限定条件判断x0、y0和R是否可接受;将所有可接受的圆弧聚类,并对聚类后的数据再次拟合,即得到方向盘边缘圆弧。

通过图2(b)可以看出,方向盘边缘圆弧的中点与安全带边缘相距较近且位置关系密切,相比圆心更适合作为方向盘边缘圆弧的位置特征。所以,最后选取方向盘边缘圆弧中点作为方向盘的位置特征,完成方向盘位置的最终定位。

定位方向盘位置的具体方法如下:

(1)选取阈值Lmax和Lmin表示可被接受的方向盘边缘圆弧上像素总个数的上限和下限,能够避免将长度与方向盘边缘弧长明显不符的连续边缘误检为方向盘边缘圆弧,同时也可以防止漏检断开的方向盘边缘圆弧;选取阈值Rmax和Rmin表示可以被接受的方向盘边缘圆弧半径的上限与下限,能够排除所有可能的方向盘边缘圆弧中半径远超出实际可接受范围的部分圆弧;选取参数α,使公式(4)给出的方向盘边缘与其最佳拟合圆弧残差的极小值fmin满足公式(5),可以排除最佳拟合曲线并不是圆弧却被误检的“伪”方向盘边缘。

(2)按照从上至下、先行后列的顺序扫描边缘图像,当遇到一个边缘点时,使用8方向Freeman链码检查该点是否有连通链路:若没有连通链路,将此点反色后继续搜索下一个边缘点;若有连通链路,记录该边缘点的像素坐标及其链路方向编号,链码长度l加1,并继续对该方向的邻接点进行8方向链码检查。

链码中断时,若链码长度l满足:

则表明该段边缘为一段可能的方向盘边缘圆弧,将记录的所有边缘点像素坐标带入公式(4)所得到的圆心(x0,y0)和半径R即为该段圆弧的几何参数。否则,表明该段边缘不符合条件,进行反色处理后继续搜索其他边缘。

(3)将可能的方向盘边缘圆弧的圆心(x0,y0)和半径R带入公式(4),所得fmin满足公式(5)且半径R满足:

则表明该段可能的方向盘边缘圆弧可被接受。否则,表明该段边缘圆弧不符合条件,应被排除。

(4)根据圆心(x0,y0)和半径R对所有可被接受的方向盘边缘圆弧进行聚类,每个聚类中圆弧的圆心和半径都是相似的,认为这些圆弧是同一段可能的方向盘边缘圆弧的断开部分,将每个聚类中所有的边缘点像素坐标再次带入公式(4),所确定的圆弧为备选的方向盘边缘圆弧。

(5)选取备选的方向盘边缘圆弧上像素行坐标在中间位置的边缘点,其像素坐标为(xmed,ymed),若该圆弧圆心的列坐标y0满足:

则表明该段圆弧开口向下,认为该圆弧就是方向盘边缘圆弧。否则,表明该段圆弧开口向上,不可能为方向盘边缘圆弧。如果确定的方向盘边缘圆弧多余一个,则只选取半径最大的一个在图像中标记。

(6)做方向盘边缘圆弧的垂直中线,与方向盘边缘圆弧的相交于M(xm,ym),该点即为方向盘边缘圆弧中点。选取M(xm,ym)作为方向盘的位置特征,完成方向盘位置定位,效果如图3所示。

3 备选安全带边缘直线段的确定

通过图3中驾驶员位置边缘图像可以看出,安全带边缘是一条或多条长度与倾斜角度都在一定范围内的直线段,且均处于方向盘边缘圆弧中点的右侧。根据这些特征,能够确定备选安全带边缘直线段,约束条件为:

(1)倾斜角度β∈(10°,80°)。

(2)线段长度l∈(10,∞)。

(3)设直线段上像素行坐标最小点的像素坐标为(xmin,ymin),方向盘位置定位所得的方向盘边缘圆弧中点为M(xm,ym),则xmin满足:

通过快速Hough变换检测边缘图像中所有的直线段[10],选取满足以上约束条件的直线段作为备选安全带边缘直线段,效果图如图4所示。

4 特征向量的构造

表1显示了使用上述方法定位方向盘位置与确定备选安全带边缘直线段的检测效果,可以清晰看出安全带与方向盘的位置关系:安全带边缘直线段与方向盘边缘圆弧中点的距离在一定范围内,与方向盘边缘圆弧中点相距太远或者太近的直线段都不可能是安全带边缘。如表1编组5的检测效果所示,有一条备选安全带边缘直线段是驾驶员衣领的边缘,明显比其他两条安全带边缘直线段更靠近方向盘边缘圆弧中点。

通过表1也可以看出,如果两条安全带边缘直线段都被检测到,那它们一定是平行的,如编组4、编组5和编组6所示。其中,编组6中有一条备选安全带边缘直线段是驾驶员衣领的边缘,不仅较为靠近方向盘边缘圆弧中点,而且明显与其他直线段不平行。

因此,本文构造特征向量时选取的安全带图像特征为:

备选安全带边缘直线段与方向盘边缘圆弧中点的相对位置关系。

各条备选安全带边缘直线段间的平行关系。

将获得的原始主驾位置图像调整到统一大小,表示位置关系时涉及的度量单位均为像素个数,特征向量具体构造方法如下:

(1)检测到备选安全带边缘直线段时,选取备选安全带边缘直线段中点与方向盘边缘圆弧中点的像素坐标之差、方向盘边缘圆弧中点到直线段所在直线的距离以及各直线段间的平行关系作为特征向量。

假设最多可以检测到3条备选安全带边缘直线段,则特征向量为:

三条直线段的中点P1(x1,y1)、P2(x2,y2)、P3(x3,y3)与方向盘边缘圆弧中点M(xm,ym)的像素坐标之差的绝对值(|Δx1|,|Δy1|)、(|Δx2|,|Δy2|)、(|Δx3|,|Δy3|)。

方向盘边缘圆弧中点到三条备选安全带边缘直线段所在直线的距离d1、d2、d3。

三条备选安全带边缘直线段的两两平行关系g12、g13、g23。

其中,gij表示第i条和第j条直线段的平行关系,若平行记为1,不平行记为0。两条直线段是否平行通过两者的倾斜角度来判断,若两个角度的偏差小于1°,则认为这两条直线段平行,否则不平行。

如果检测到的备选安全带边缘直线段少于3条,则只记录与存在的直线段相关的特征。为保证特征向量维数相同,涉及其他直线段的特征记为0。

(2)未检测到备选安全带边缘直线段时,即检测到0条备选安全带边缘直线段,上述所有特征均记为0。

针对不同情况,本文构造的特征向量具体形式为:

检测到0条备选安全带边缘直线段时,特征向量为:

0,0,0,0,0,0,0,0,0,0、0、0;

检测到1条备选安全带边缘直线段时,特征向量为:

检测到2条备选安全带边缘直线段时,特征向量为:

检测到3条备选安全带边缘直线段时,特征向量为:

根据上述构造特征向量的方法,可以得到表1中6组主驾位置图像的特征向量,即完成安全带图像特征的最终提取,如表2所示。

通过表2能够看出,各组数据都直观地体现了表1中相应的安全带图像特征,适合作为特征向量用于后续的SVM分类工作。比如表2编组5和编组6两组数据都与前文关于表1编组5和编组6安全带图像特征的描述相一致:表2编组5中第3条备选安全带边缘直线段的|Δx3|明显大于|Δx1|和|Δx2|,d3明显小于d1和d2,该直线段即为表1编组5中被检测为备选安全带边缘直线段的驾驶员衣领边缘;表2编组6中第1条备选安全带边缘直线段的|Δx1|、|Δy1|和d1都明显小于其他两条直线段的相应特征,且g12和g13都为0表明该直线段与其他两条均不平行,该直线段即为表1编组6中被检测为备选安全带边缘直线段的驾驶员衣领边缘。

5 结束语

一种改进的安全带图像特征提取方法,通过基于Freeman链码的最小二乘圆弧拟合法识别方向盘边缘圆弧,能够准确地定位方向盘位置;根据安全带边缘与方向盘边缘圆弧中点的关系,为快速Hough变换直线段检测设置约束条件,从而快速地确定备选安全带边缘直线段;选取备选安全带边缘直线段与方向盘边缘圆弧中点的位置关系以及备选安全带边缘直线段之间的平行关系作为安全带图像特征,可以准确判别驾驶员是否正确佩戴安全带,所获得的特征向量十分适用于支持向量机SVM的安全带佩戴视觉检测系统。因此,这种方法在模式识别与智能交通领域有这广阔的应用前景。但是,最终提取的安全带图像特征数量有限,特征标志性上也有很大的提升空间。所以,下一步的研究内容是获取更加准确的图像信息,同时优化安全带边缘识别方法,以寻找种类更为丰富的安全带图像特征。

摘要:针对基于支持向量机(SVM)的安全带佩戴视觉检测系统,提出一种改进的安全带图像特征提取方法。通过基于Freeman链码的最小二乘圆弧拟合法识别方向盘边缘圆弧,在安全带边缘特征约束条件下使用快速Hough变换确定备选安全带边缘直线段,进而深入分析方向盘边缘圆弧中点与备选安全带边缘直线段的平面几何关系,并以此为基础构造特征向量,完成对安全带图像特征的提取。实验数据表明,最终获取的特征向量能准确地表征原始图像中的安全带图像特征,适合作为SVM分类器的输入参数。

关键词:安全带图像特征,最小二乘圆弧拟合,方向盘边缘圆弧,安全带边缘直线段,特征向量

参考文献

[1]葛如海,金桥,胡满江,等.安全带佩戴视觉检测系统仿真研究[J].车辆与动力技术,2013(10):17-21.

[2]Cortes C,Vapnik V.Support-Vector Networks[J].Machine Learning,1995(20):273-297.

[3]骆玉荣.安全带识别系统的研究与实现[D].北京:北京工业大学,2008:6-7.

[4]侯殿福.车窗检测技术研究[D].北京:北京交通大学,2011:19-29.

[5]张震,马驷良,张忠波,等.一种改进的基于Canny算子的图像边缘提取算法[J].吉林大学学报:理学版,2006,45(2):244-248.

[6]Chen T C,Chung K L.An Efficient Randomized Algorithm for Detecting Circles[J].Computer Vision and Image Understanding,2001,83(2):172-191.

[7]张显全,王继军,蒋联源.基于Freeman链码的圆识别方法[J].计算机工程,2007,33(15):196-198.

[8]武仲科,焦海星,戴国忠.一种线段和圆弧的逼近方法及其在工程图纸矢量化中的应用[J].计算机辅助设计与图形学学报,1998,10(4):328-332.

[9]Gonzalez R C,Woods R E.Digital Image Processing[M].3rd ed.Beijing:Publishing House of Electronics Industry,2010:820-823.

[10]段汝桥,赵伟,黄松岭,等.一种基于改进Hough变换的直线快速检测算法[J].仪器仪表学报,2010,31(10):2774-2780.

安全带图像特征 篇2

1 图像的属性表征

图像的属性表征结构如图1所示:

其中,图像大小、图像主色调、图像分类、图像的内容描述、图像类型是图像的基本属性:

图像大小由宽度和高度表示。图像主色调采用HSI ( H是色调,S是饱和度,I是亮度)颜色模型。图像类型是按图像的生成方式分类,如照片、绘画、图表、电脑合成图像等。图像的内容描述指图像表示的主题内容,进一步表征为图像背景和图像主题。

2 目标图像与数据库图像各属性的相似度计算

假设D是检索目标图像,X是资源图像。Vi是属性ai的属性值集合。为了计算检索目标图像和图像数据库中资源图像的相似性,需要比较两者每个属性的相似性。

首先比较ai(D)和ai(X)的差别。通常用两者的距离表示其差别。即:di = Dis[ai (D), ai(X)]

Dis[ai(D), ai(X)]根据不同属性的性质做不同的定义,当检索目标图像或资源图像有多个图像分类、图像主色调或图像主体时,两者的这些属性可能是一对多或多对多,这时以它们的最小距离作为两者的属性距离。

在计算出ai(D)和ai(X)的距离di之后,要将其距离di转换成相似度si。规定所有属性的相似度的取值范围均为[0,1],将检索目标图像与数据库中资源图像的属性的最大距离di max映射为相似度为0,最小距离di min(通常是0)映射为相似度为1,而且相似度si是距离di的严格递减函数。对于图像的不同属性,其距离转换成相似度的公式是不同的。

2.1 图像的内容描述相似度

内容描述指一幅图像所表示的主题内容。因为内容描述是用词语来表示的,所以内容描述相似度也就是词语相似度。词语相似度是一个主观性很强的概念。从某一角度看相似的词语,从另一角度看可能差异会很大。在具体的应用中,词语相似度的含义可能就比较明确了。例如,在基于实例的机器翻译中,词语相似度主要用于衡量文本中词语的可替换程度;而在信息检索中,相似度更多的要反映文本或者用户查询在意义上的符合程度。

本文将两幅图像内容描述属性的相似度定义为该属性中相同单词的个数占总单词数的比值。

设用户查询语句中有n个关键词(X(x1,x2,x3……xn )),数据库记录中有m个关键词(Y(y1,y2,y3……yn )),内容属性的相似度为s,则有:

undefined

2.2 图像主色调的相似度

设颜色空间中有两点P1 (H1,S1,W1),P2(H2,S2,W2)。其中,H代表颜色的色调,S代表颜色的饱和度,W代表颜色的亮度。这两点的颜色差用欧几里德距离表示:

欧几里德距离公式是常见的衡量两个对象相似与否的公式,其得到的是一个距离值。距离值越大,两种颜色的差异就越大;距离值越小,两种颜色就越相似。

一幅图像的主色调可能有多个。假设检索目标图像(Q)的主色调为Cq1=(hq1,sq1,wq1),i=1, 2,……Nq(Nq是目标图像的颜色数)。图像数据库中资源图像(X)的颜色主色调为Cxj=(hxj,sxj,wxj),j= 1, 2,……Nx(Nx是数据库中资源图像的颜色数)。根据式(2)分别计算每个目标图像的主色调与每个资源图像的主色调的颜色距离dij,然后根据下面的式子将两种颜色的距离转换为相似度:

undefined

d0的取值范围为0~1。经大量实验表明,当d0取0.3时,两种颜色的相似度值更加符合人们的视觉感受。

目标图像和数据库中图像总的颜色相似度可用下式计算:

式(4)中si=max{sij|j=1,2,……Nx},sj=max{sij|i=1,2,……Nq},ui是颜色Cqi的重要性,uj是颜色Cxj的重要性。ui和uj 可以人为设置。分三种情况讨论:

(1)如果仅考虑目标图像Q的主色调时,令,则

(2)如果再考虑资源图像X的主色调时,令,则

(3)当考虑资源图像X的主色调的相对频率时,对目标图像Q的主色调赋予最近的X的主色调的相对频率的相对值作为其相对频率,即:

undefined

其中,p*i=fi|dij=min{dij|j=1,2,……Nx}。p*i即i不变时,j方向的最大相似度所对应的颜色的频率。这样,综合考虑两图像的主色调的相对频率。

undefined

其中,q*j=fi|dij=min{dij|i=1,2,……Nq}。q*j即j不变时,i方向的最大相似度所对应的颜色的频率。

由于相对频率通常差别很大,为减小它们的相对差值,对每个相对频率增加一个常数δ,然后求相对值作为图像主色调的重要度,即:

undefined

当δ=0时,undefined则

undefined

当δ=∞时,undefined,则

undefined

当δ在两者之间时,则

undefined

经过大量实验发现,当取δ=1时,实验结果更加符合人们的视觉感受。

2.3 图像主体位置的相似度

主体位置是指主体在图像中的位置。主体位置的相似度指主体中心点位置的相似度。首先计算两个主体中心点位置的距离。主体位置的描述词有左上、左中、左下、中上、中、中下、右上、右中、右下九个位置。

设(w,h)是数据库中资源图像的宽和高。定义“左上”为坐标(0.25w, 0.75h);“左中”为坐标(0.25w,0.5h);“左下”为坐标(0.25w,0.25h);“中上”坐标为(0.5w,0.75h);“中”的坐标为(0.5w,0.5h );“中下”的坐标(O.5w,0.25h);“右上”的坐标为(0.75w,0.75h);“右中”的坐标为(0.75w,0.5h);“右下”的坐标为(0.75w,0.25h)。

两个主体中心点的距离用下面的公式计算:

undefined

将此距离归一化,即

undefined

例如:数据库中资源图像的宽和高为(400,400),主体的中心所在的位置为(250,100),目标图像的主体位置为“右上”,将其转换为坐标即为(300,300)。那么目标图像主体位置与资源图像主体位置的实际差别为:

undefined

分别计算如果目标图像主体位置为“左上”、“左中”、“左下”、“中上”、“中”、“中下”、“右中”、“右下”时,目标图像主体位置与资源图像主体位置的差别。可以知道,当目标图像主体位置为“左上”时,目标图像主体位置与资源图像主体位置的差别最大,即Dmax=250。这也是目标图像主体位置与资源图像主体位置可能的最大差别。

将距离归一化,得到:d=D/Dmax=0.824;

图像主体位置的相似度用下面的公式来计算:

undefined

设d0为0.5,得到主体位置的相似度为0.264449。

2.4 图像主体方向的相似度

图像主体方向的描述词有:水平,垂直,倾斜。“水平”所对应的角度为0;“垂直”所对应的角度是π/2;“倾斜”所对应的角度为π/4或者π3/4。两个主体方向的差值D为它们所对应的角度的差的绝对值。目标图像主体方向与资源图像主体方向可能的最大差别是π/2。然后将此方向差进行归一化得到d,如下:undefined;

图像主体方向的相似度用公式(15)计算,公式中的d0取0.5。

例如,数据库中图像主体的方向为1.374,即undefined,所需图像的主体方向为“垂直”,那么根据上面的分析,计算得到两者相似度为0.9898979。证明两者是相似的,符合人们的视觉感受。

2.5 主体大小的相似度

主体大小是指主体面积相对于整个图像面积的比例。主体的大小用数值表示是

其中,s是指图像中主体的面积,s0是指图像的面积,即图像的长与宽的乘积。

主体大小的描述词有大、中、小。分下面三种情况求主体大小相似度(其中,d是数据库中图像的主体大小):

(1)当用户需要的主体大小属性为“小”时,用式(15)求主体大小相似度,其中d0=0.3;

(2)当用户需要的主体大小属性为“大”时,用下式求主体大小相似度,其中d0=0.7;

undefined

(3)当用户需要的主体大小属性为“中”时,设dm=0.5。

如果d<=dm,则d’=d/dm,然后用公式(15),用d′代替式(15)中的d。上面三种情况如图3所示:

上图中,横轴代表数据库中图像的主体大小,即数据库中图像的主体面积与图像面积之比然后开方得到的值。纵轴代表两幅图像中主体大小的相似度。

图(a)表示当需要的主体大小属性为“小”时,主体大小与相似度之间的关系。从图中可以看到,当数据库中的图像主体大小在0~0.3范围时,相似度在0.5~1.0范围,具有较高的相似度。

图(b)表示当需要的主体大小属性为“大”时,主体大小与相似度之间的关系。可以看到,当数据库中的图像主体大小在0.7~1.0范围时,相似度在0.5~1.0范围,具有较高的相似度。

图(c)表示当需要的主体大小属性为“中”时,主体大小与相似度之间的关系。当数据库中的图像主体大小在0.3~0.5之间时,相似度在0.5~1.0之间,具有较高的相似度。

2.6 图像主体的相似度

主体的属性包括:主体名称name,颜色color,形状为form,纹理texture,姿态pose,位置position,方向direction,大小size。

如果主体名称不同,则两个主体的相似度为0;如果主体名称相同,然后比较两主体的各属性。对于形状、纹理、姿态属性,比较对应属性的相同词的个数。对于颜色属性,如果双方颜色属性均不为空,则先将颜色都转换为HSI格式,然后根据颜色相似度来计算。对于位置、方向、大小属性,分别按照各自的相似度函数来计算。如果对应属性中有一方主体的该属性值为空或者两方主体的属性值均为空,则该属性的相似度值为0.5。

3 整体相似度计算

根据上面的分析计算,得到了一个与检索目标图像D的属性表征具有相同结构的检索目标图像和资源图像的相似度的属性表征,它的每个属性对应检索目标图像的属性。

在计算总相似度之前,先要采用下面的式子计算单个属性对总相似度的贡献。

undefined

上式中,Si是单个属性ai的相似度对总相似度的贡献,S’i是单个属性的相似度,计算出来的Si将被用到下面总相似度计算的公式中。

根据图像内容的层次化属性表征形式和每种属性的相似性度量方法,检索目标图像D和数据库中图像X的总相似度也采用层次化计算方法,将不同性质的各类属性的相似性融合起来,采用下面的公式:

上面的式子是一个层次性结构的式子。其中ui是属性ai的重要度,Si是目标图像D与资源图像X的对应属性ai的相似度,S(ai(D,X))是属性ai的子属性的总相似度,与S(D,X)具有相同的形式。当D与X的某项属性ai完全相同时,Si=1;完全不同时,Si=0;当D或X的此项属性为空时,Si=0.5;其余的情况Si=0~1。利用式(19)考虑每个属性的重要度,计算总的相似度。

4 图像信息测度

为了衡量图像描述的复杂程度,需要一种测度方法,作为对图像表征的信息测度。根据这种信息表征的层次化结构形式,采用一种归一化综合属性测度的递归信息测度方法,用公式表示如下: H(A)=undefinedmi[I(ai)+H(ai)] (20)

其中,mi=undefined当∑(ui*|ai|)>0时

mi=0 当∑(ui*|ai|)=0时

|ai|为属性ai的测度,它是文本型属性值中关键词的个数或数值型属性值中数值点的个数(数值点指三维颜色空间、二维位置平面或一维数值中的点)。(ui*|ai|)为属性ai的综合测度。mi为属性ai的归一化综合属性测度,mi的取值范围为mi>=0且mi<=1。 I(ai)表示属性ai的信息测度,H(ai)表示属性ai的子属性的信息测度,与H(A)具有相同的形式。如何计算属性ai的信息测度I(ai),是一个值得探讨的问题。如果采用Shannon的信息测度方法,即:

在ui=1,|ai|为概率空间的概率时,H(A)即为Shannon的概率墒。这是最常用的概率信息测度方法。但是,利用Shannon的信息测度方法存在一个问题,即属性ai的平均信息测度miI(ai)不是mi的单调函数,如下图4。

这样,在仅有一个属性时,其信息测度为0,不符合人们的心理。为此,我们对Shannon公式修正为:

undefined

改进的属性ai的平均信息测度miI(ai)是mi的单调函数,更加符合人们的心理,如上图5。

根据公式(20)及公式(21)计算检索目标图像D和资源图像X的信息测度。计算信息测度时,根据“图像属性的表征方法”图,从第3层开始计算,逐步向高层推进。根据信息测度H(D),H(X),按照下面的公式排列检索结果。其中,S(D,X)是目标图像与资源图像的相似度。

参考文献

[1]章毓晋.基于内容的视觉信息检索[M].北京:科学出版社,2003:5-6.

[2]徐谷.视频运动分析和语义信息提取方法研究[D].北京,清华大学硕士学位论文.2003:7-10.

[3]唐波,刘雨,孙茂印.基于数据库的视频检索实现[J].电视技术,2005(2):20-21.

锅炉火焰图像特征分析 篇3

燃煤发电的安全、经济运行与清洁燃烧对于国家经济的发展、人民生活水平的提高和生活环境的改善,都有着十分重要的意义。目前,国内锅炉燃烧管理水平仍比较落后,燃煤机组煤质较差,煤种特性经常发生变动,导致参数整定较为困难。除此之外,锅炉设备质量也还存在着不少问题,亟需有效克服,并获得全面解决。

炼钢厂中,锅炉燃烧的基本要求就在于建立和保持稳定的燃烧火焰,而目前锅炉中的吹氧时间、废钢铁水比重、吹氧量等因素共同决定着炼钢的质量。

如果废钢多,吹氧时间就需要更长一些,碳可以降低一点,但是温度则要提高。各因素之间的关系需要实际经验来进行现场指导,如果说,前炉和这一炉的废钢铁水比一样,而这一炉炼钢的终端温度要求较高,那么吹氧量就要增加,而加料量却要相应降低。

人工看火判断碳含量,判断结果只能得到一个范围,并无法精确得到含碳量。同时由于火焰变化本身是不定的,测量结果经常与人工判断差距较大。所以为获得高碳钢,就要结合经验公式来进行判断,并且还要考虑到各方面的因素,单一只从光强或图像得到定量结果则无法实现。于是以火焰图像为研究对象,对图像纹理的各种特征(如图像平均亮度、平均对比度、平滑度、第3阶矩、一致性、熵等)进行实验,可精确地判别软、硬图像。

1 火焰图像的分类和预处理

如图1,图2所示,火焰图像从视觉上看到的软硬性质的判别主要依据两点:

(1)看细节。火焰中间出现不断翻滚的“云”,并从火焰内部向外翻滚。翻滚的频率越快,视觉感受越是杂乱无章,就说明火焰为硬,反之则说明火焰为软。

(2)看整体火焰的飘动。火焰向上爬升,就好像飞机的喷气发动机后面的火,向上蹿动有力,闪动速度快说明火焰为硬,反之则说明火焰为软。

另外,软硬度不能只从单一的图片来看,而是要看动态的变化,毕竟,火焰的力度无法用图片来表示。一幅图像可能受到各种噪声源的干扰,通常这些噪声表现为孤立像素的离散变换,因而不是空间相关的。对比领域平均法和中值滤波法,本文选用中值滤波法对火焰图像进行预处理。

应用多图像平均法,可以有效消除来自噪声的重大影响。对于图像G(x,y),应该是初始图像F(x,y)与噪声图像m(x,y)的线性组合,其计算公式为:

不考虑各像素之间的噪声,而且假定其均值为0,将M幅不同的噪声图像进行平均,而后得到一幅图像Gp(x,y),表达式为:

由其可得:

式中,E{Gp(x,y)}为Gp(x,y)的期望值。

假若多幅图像的像素噪声方差是σ2,可得M幅图像做平均后,方差降为σ2/M;分析可得,当做平均处理时,随着图像数目递增,Gp(x,y)就会与真实的初始图像F(x,y)越相似。实验结果如图3所示。

1971年,Jukey首先提出中值滤波器,并在一维的信号处理(即时间序列分析)中得到充分应用,其后又在二维图像信号处理技术方面多有引用,其性质是一种非线性的滤波器。中值滤波可以在特定条件下消除各种噪声,如减少线性滤波器中的最小均方差滤波、均值滤波等引起的原始图像细节模糊,并且中值滤波器对减小各种类似脉冲干扰,或者扫描图像时产生的噪声等都非常有效。然而在实际操作过程中,通常对分析图像的统计特征并不显著,所以也相应存在一定缺陷,引发了诸多不便[3]。

中值滤波通过从图像中的某个采样窗口提取奇数个数据进行排序,并用排序后的中值取代要处理的数据即可。

以3*3窗口为例,用fmedian表示平滑后f(2,2)的像素值为:

实验结果如图4所示。

当中值滤波在对领域的像素值进行排序的时候,会引起算法的运行速度减慢。为解决这一问题,通常会采用快速中值滤波算法加以改进。快速中值滤波是直接计算像素的中序值,并且不进行排序。对比传统的中值滤波算法,在同窗口的计算时间上进行比较可知,快速算法略好于一般的滤波算法。图5给出了快速中值滤波的实验结果。

上述实验表明,采用传统的均值滤波算法,跟采用中值滤波相比,中值滤波相对较好;由图3和图4对比,火焰图像的边缘磨损偏大;而采用快速中值滤波,与传统的均值滤波和中值滤波相比,在边缘处理等各个方面,更加符合火焰图像对于减少噪声影响的要求。

2 火焰图像边缘检测

在图像分割中,点和线检测都非常重要,但是对于灰度级间断检测来说,边缘检测则是最普遍的检测方法。火焰图像中波动最剧烈的就是火焰边缘区域,但在直观视觉上,这个区域也具有相对稳定的区域面积和波动空间。另外,火焰边缘的形状和分布也反映了火焰燃烧时是否稳定。本文对比图像处理中的边缘检测canny算子,采用sobel边缘检测方法,得到火焰图像边缘特征图。该特征图是从多尺度的视角出发,再利用设定较大的阈值得到图像非火焰图像的边缘,通过差运算将该部分除去。实验结果如图6、图7所示。

由以上图形可见,硬图翻滚频率较快,向上蹿动有力,而软图则较为平均,整体上蹿的趋势并不明显。

3 火焰图像纹理特征

火焰纹理就是由明与暗对比中得出的。为了显示更清楚效果,由原始图像可提取出图像中有亮暗对比的边缘,而后照亮边缘。在图像处理中,用于描述纹理的3种方法是统计方法、结构化方法和频谱方法。统计方法可用于进行诸如平滑、粗糙、粒状等纹理的特征描述。结构化技术处理图像元的排列,诸如基于均匀空间分布的平行线纹理描述。频谱技术基于傅里叶频谱特性,主要通过频谱中的高能量波峰识别,用于寻求图像中的整体周期性。纹理走势也是判断软硬的一个因素,火焰图像纹理的走势变化由“云”到“流水”,方向感逐渐增强。本文应用统计方法,即灰度共生矩阵法,来计算火焰图像纹理特征。

描述纹理最简单的方法之一是使用一幅图像或区域灰度级直方图的统计矩。

灰度直方图的本质,是针对图像中某一像素的具体灰度并借助直方图描绘出来的统计结果,其中不包含像素与像素之间的相对位置信息,而对于火焰图像来说,其像素与像素之间的相对位置信息,通常都是具有重要表征作用的[4]。灰度共生矩阵是在将图像中两个像素保持某一特定距离时,对其灰度状况分别施以统计而得到的。该矩阵不仅反映了图像的灰度值大小,而且还可表示灰度值在方向以及相邻间隔等方面的特征。

根据实际需要,计算6个图像纹理特征量,即平均亮度、平均对比度、平滑度、第3阶矩、一致性、熵,各特征量分别记为:m,σ,R,μ3,U,e,对其分析如下。

(1)平均灰度值(平均亮度)。早期火焰检测时,一般以平均灰度值来表示火焰燃烧时重要特征,其计算公式为:

式中,P(zi)表示灰度值为zi时发生的概率,i=0...L-1则表示火焰图像可能的灰度值范围,即灰度级大小。由此,m即可表示火焰图像的平均灰度值大小。

平均灰度值会随着煤质以及施工人员操作的不同而改变,因为煤质和操作规范不同,将改变火焰的特性,进而影响其灰度值。还需要指出的是,着火时火焰图像的平均灰度值要小于锅炉背景的灰度值,而这是平均灰度值的明显不足所在[5]。

(2)平均对比度(方差)。平均对比度越小,就越稳定,反之,就越剧烈。该值表示了图像平均灰度值的波动大小,其计算公式为:

式中:P(zi)表示灰度值为zi时发生的概率,i=0...L-1表示火焰图像可能的灰度值范围,即灰度级大小,而m表示平均灰度值大小,根据方差公式,σ就表示火焰图像的平均对比度大小,亦即方差大小。

(3)图像平滑度。计算公式为:

(4)第三阶矩。计算公式为:

(5)一致性。计算公式为:

(6)熵。计算公式为:

式中,熵表示图像灰度级的随机分布特征。在信息论中,熵表示信息量,也就是说不确定性和不均匀程度。当图像灰度值均匀分布的时候,熵值达到最大,因为图像均匀分布时,限定越小,不确定性随之变大,直至熵取得较大值;反之,图像的熵值取得较小值。实验结果如表1所示。

4 结束语

本文采用快速中值滤波对火焰图像进行预处理分析,由实验结果可知,均值滤波与中值滤波的效果相比,后者要好很多,但对火焰图像边缘损失却较大;而相比中值滤波的明显不足,快速中值滤波则可满足火焰图像噪声消除的要求。其后,相比canny算子,使用sobel边缘检测方法则能得到更精确的边缘信息。同时,由于灰度直方图并不具备像素之间相对位置的信息,基于灰度共生矩阵来计算火焰图像纹理特征不仅可以反映图像灰度值大小,还能够实现灰度值关于方向和相邻间隔信息的综合呈现。最后,根据实际需要,计算了平均亮度、平均对比度、平滑度、第3阶矩、一致性与熵这6个图像纹理特征量,因而较好地区分硬软图像。

参考文献

[1]张红亮,邹忠,陈湘涛,等.基于内容的回转窑火焰图像检索[J].计算机应用,2007,27(S2):2-47.

[2]佘星星,黄福珍.锅炉火焰图像特征及燃烧状态智能监测综述[J].上海电力学院学报,2010(4):4-9.

[3]范华忠,张伯虎,冯艳.图像处理技术在火焰目标提取中的应用[J].电光与控制,2006(1):1-5.

[4]张琴.炉内火焰温度分析系统的研究[D].合肥:安徽大学,20-10.

广告图像的叙事特征 篇4

关键词:广告,图像叙事,视觉

从原始社会开始人类就具有一种对图像的天然理解能力。这种能力在婴幼儿的身上体现得最为明显。当孩子处于婴幼儿期时还没有认识文字之前, 他们往往就会被电视等媒介的图像所深深吸引, 目不转睛地看这些图像。这一点与原始人类所创造的壁画、岩画等图像具有一致性, 所不同的只是内容上有所区别。

视觉直观性

文字叙事属于线性叙事, 具有明显的历时性。因为在表述中很难将同时发生的事件一起讲述, 所以必须按照事件发生的时间逻辑来讲述。图像叙事是空间性叙事, 空间性事物可以在共时性呈现出来。空间性存在的事物要具有叙事的能力就必须具有内在的时间性张力。当文学叙事作品解读发生时, 读者必须随着文字的叙事在头脑中建构一个与文字相对等的形象来理解作品。这一过程使文字叙事的过程变成一种参与度极高的思维活动过程, 因此被认为是理性的。而图像叙事是“客观图像”或者“虚拟图像”等在叙事媒介上的直接展示, 观众不需要在头脑中建构一个形象来理解, 只需要按照人类最初就具有的视觉认识能力来理解, 因而使得图像叙事具有直观性、形象性的特征。段钢认为:“人对图像的认知包括理性和非理性的认知。人是理性的动物。但是人又具有非理性的一面。特别是在图像面前, 人的非理性的一面表现得十分明显, 即表现为一种直观的认知特点。人的这种非理性的认知表现在对图像的把握上, 更多地是靠一种直觉和想象。”①广告图像叙事就很好地利用了消费者的这种非理性认知的特征, 通过广告图像叙事, 挑起了消费者的消费欲望, 使消费者生活在“为消费而消费”的模式中, 并促成消费主义价值观的确立。“在消费主义价值观建立的过程中, 大众传媒特别是广告发挥了重要作用。1830年以来, 大众化报刊、广播、电视的出现打破了人们传统、保守的生活观念, 传媒上刊登的广告不厌其烦地帮助人们建立一种以消费主义价值观为核心的新的生活方式。”②近年来中国随着改革开放的深化和全球化进程的加快, 消费主义已经变得相当盛行, 这与广告图像叙事的直观性是分不开的。

技术虚拟性

现代意义上的广告是与媒介技术的发展分不开的。早期的报纸广告、其后的电视广告以及当前的网络广告、手机广告等, 每一次技术的革新都促使广告图像制作的水平得到更大的促进与提高, 但不可忽视的是广告图像表现的虚拟性趋势愈加强烈。广告图像叙事回避了现实中真实的存在, 美化现实和粉饰美好成为其呈现的内容。这其实就是让·波德里亚所说的类象:“他认为影像符号的历史发展经历了四个阶段:第一个阶段是形象, 即现实的反映;第二个阶段是形象掩盖和偏离了基本现实;第三个阶段是形象掩盖了基本现实的缺失;最后一个阶段, 形象则与任何现实都无关, 它只是自身纯粹的模拟物, 即类象。”③这样就导致了广告图像与现实的分离, 广告图像叙事所营造的类象代替了现实成为人们所认为的“现实”。广告图像叙事的现实混淆了现实与虚拟之间的界限。这种构建出来的“现实”可以比客观现实事物更逼真、更生动, 消费者可以将此认作现实。这种由技术所造成的虚拟事物的能力导致了真实客观事物的退场与虚拟事物的上场, 并为消费者提供了逃避现实, 消费欲望满足的指涉物。

同时, 广告图像叙事所展示的虚拟性往往成为广告虚假性的前提。图像在广告中并不作为真实证据呈现, 而是以一种需要的展示在场。客观性与真实性已经变得无足轻重, 实事求是传播信息的立场已经发生改变。商品所不具有的功能也可以通过图像来作为“伪证”达到使消费者相信的目的。因为“视觉结构的特殊播放力往往会规定读者难以读到图像背后的含义, 而只能看到图像的表面陈述力”④。广告作为告知型的信息传播形态已经向“创造型”信息传播形态转变。

图文互文性

广告图像叙事的特征与一般的绘画艺术作品以及文字叙事的最大区别在于:图像叙事与文字的互文性。换言之, 广告图像叙事是以图像为主文字为辅的叙事形态。图像符号作为一种符号形态, 具有表现概念的能力。我们可以从图像中认识某些事物是因为图像与现实中的事物具有一定的同一性。“认识并不是对一种相似性的逐条确认, 而是找到视觉上的‘不变之处’, 对于大多数受众来讲, 这些不变之处已经形成了结构, 它就像某些非常重要的形式类型一样, 成为一种极具象征性的社会符码。”⑤这是许多广告图像叙事进行创意的一种手法。作为观众, 可以从自身已有的知识和经验中, 寻找到一种相似性, 沿着相似性的路径去理解广告作品。一个经典的造型移植到广告图像中, 就会使事物由原有的“状态”转变为另一种状态。悬念的产生、困惑的出现都是这种特征所致。这种时间性不强的广告作品潜伏着情节的变化和事件的发生。观众高度参与构建了这一类广告图像的叙事机制。熟悉而又陌生, 认识而又不一样的图像是广告图像叙事成功的关键。但主要问题在于, 图像的存在是以图像与背景的分离为起点的, 加之图像结构本身具有不稳定性, 往往会造成表意的模糊性。广告图像叙事的呈现是将其图像的语境消除掉, 对来自不同环境的图像或者脑海中的图像运用PS等技术进行加工的结果。广告图像的这种处理方式可能会导致广告图像内部的“噪音”大量存在。因此, “文字给视觉一个思维指向, 并进一步开掘思维空间, 二者互文, 形成了极富意蕴的‘暗含话语’”⑥。广告图像中的文字将观众诸多的困惑与不解、矛盾与冲突指明一个确定的理解的方向。

功利暗含性

在广告图像的叙事中, 商品形象或者符号总是在场的。那么商品形象在广告图像叙事中承担着什么样的角色与功能?这就像传统的小说叙事情节的发展, 每一次情节的演进都要求合乎逻辑性。这种内在逻辑性必须使得事情的发展处在人们可意料的界限范围之内。人们对叙事的解读所依赖的就是逻辑性。在“从一种状态向另一种状态的转变”过程中, 小说式叙事的结构的严谨性是肯定存在的。然而视觉结构通常具有不确定性和松散性。对于图像内在构成或者图像与图像之间连接的逻辑性要求并不是很严格, 因此可以比较容易地将互不相干的两种或多种事物组成“完整”的一体。库里肖夫的实验就证明了这一点。列夫·库里肖夫为了弄清楚蒙太奇的并列作用, 给俄国著名演员莫兹尤辛拍了一张没有表情的脸部特写镜头, 然后将此镜头分别与一碗汤、游戏的孩子和老妇的尸体组接在一起。观众在观看过程中不由自主地将两个图像进行组合理解, 认为他们分别表现人的饥饿、愉悦及因有人逝去而悲伤的情绪。库里肖夫效应可以说是一种心理效应。比如脸部镜头后面跟着出现的是一个悲伤内容的画面, 观众就会认为特写中的脸是悲伤的。图像并不存在客观性, 不同的观众会根据提供的内容进行阐释。格式塔心理学派认为, 人们在观看时眼脑共同作用, 并不是在开始就区分图像的各个细节部分, 而是将各部分有机组合, 使之按照更易于理解的统一体存在于观众的视觉体验中。

广告图像叙事就很好地利用了人的这种能力, 很好地把握了视觉结构认知的这种特性。广告情节的发展常常将具体的历史背景和文化语境淡化, 直接将商品与简约化的情节或者事物进行串接。观众在进行认知的时候就会自然地将其视为是一体。然后广告就重点凸显叙事的核心表达要素。商品的介入并不会消弱本身的叙事性, 反而扩张了广告图像叙事内在的张力, 使叙事呈现出更强大的戏剧性与幽默感。在广告图像叙事中问题的最终解决都是以商品 (以形象符号代替) 取代了传统叙事的人物角色或外在环境因素突发状况。这是广告图像叙事与一般图像叙事的区别。一般的图像叙事主要是表达一种思想或者观点, 或者传递某一方面信息, 而广告图像叙事如同一个放大镜, 将所有的关注都聚焦于商品上。虚构性较强的广告图像叙事往往暗含着功利性的痕迹。

注释

1 段钢:《图像认知的哲学意识》, 《社会科学研究》, 2006 (4) 。

2 (3) 张殿元:《广告视觉文化批判》, 复旦大学出版社, 2007年版, 第104页、44页。

数字图像轮廓特征提取过程研究 篇5

数字图像处理泛指从图像获取到图像信息输出的全过程, 包括对已有图像信息的处理, 它具有精度高、成本低、速度快及灵活性好等特点, 使得其在诸多领域得到了广泛的应用。作为数字图像处理的常用技术, 图像增强、图像分割、边缘检测等已经发展的较为成熟【1】, 并经常被结合起来用以处理图像。

轮廓特征提取作为数字图像处理中的一个重要方面, 更是许多有关图像研究的重要中间环节, 目前已有很多相关工作完成【2】。提取出图像中物体的大致轮廓等特征可以用来模式识别【3】、物体判断、数学特征值 (如分形维数【4】) 等的计算。

本文对图像轮廓提取过程及应用到的关键技术进行了研究, 给出照片中河流轮廓提取实例。

2 图像轮廓特征提取的流程分析

对于给定的原始图像, 为了提取出轮廓特征, 需要消除图像中的无用噪声, 同时考虑增强消噪后可能变模糊的图像中对提取有利的特定信息, 在此基础上把图像分割成有意义的区域, 再使用特定算子勾勒出图像的轮廓。下图为图像轮廓特征提取的流程示意:

本文对已有的数字图像, 采用目前常用的空间域和频率域的平滑算法 (如理想低通滤波器) 滤波去噪增强, 然后选择适当的阈值分割法 (如OTSU算法) 分割得到二值化黑白图, 再采用适当的边缘检测算子 (如log算子) 提取图像的轮廓特征, 并对所用技术进行描述。

2.1 图像增强

图像经过增强处理后效果会得到改善, 它的某些特定信息将得到增强。在增强过程中, 不分析图像降质的原因, 处理后的图像不一定逼近原始图像, 即可以是一个失真的过程, 且不能增加原图像得信息。其目的是要增强视觉效果, 针对给定图像的应用场合, 有目的地强调图像的整体或局部特性, 扩大图像中不同物体特征之间的差别, 强调某些感兴趣的特征, 抑制不感兴趣的特征, 满足某些特殊分析的需要。将原来不清晰的图像变得清晰或改善图像质量、丰富信息量, 加强图像判读和识别效果。

根据图像增强处理过程所在的空间不同, 可分成基于频率域的方法和基于空间域的方法。前者是一种间接增强的算法, 把图像看成一种二维信号, 经傅里叶变换将图像从空间域变换到频率域, 然后在频率域对频谱进行操作和处理, 再将其反变换到空间域, 从而得到增强后的图像;后者直接在图像所在的二维空间进行处理, 即直接对每一个像素的灰度值进行处理。基于空域的算法分为点运算算法和邻域去噪算法:点运算算法即灰度级校正、灰度变换和直方图修正等, 目的或使图像成像均匀, 或扩大图像动态范围, 扩展对比度;邻域增强算法分为图像平滑和锐化两种:平滑一般用于消除图像噪声, 但是也容易引起边缘的模糊, 常用算法有均值滤波、中值滤波。锐化的目的在于突出物体的边缘轮廓, 便于目标识别, 常用算法有梯度法、算子、高通滤波、掩模匹配法、统计差值法等。

2.1.1 理想低通滤波增强

一般图像的能量主要集中在其低频部分, 噪声和系统中所要提取的边缘信息主要集中在其高频部分, 图像增强的目的是去掉高频干扰又同时保持边缘信息。可以采用低通滤波的方法去除高频干扰来平滑图像。低通滤波是频域滤波增强的一种, 是在变换域空间对图像进行滤波。如上所述, 一般通过某种变换 (如傅里叶变换、小波变换) 将图像从空间域变换到频率域, 然后在频率域对频谱进行操作处理, 再将其反变换到空间域, 从而得到增强后的图像。图像从空间域变换到频率域后, 其低频分量对应了图像中灰度值变化比较缓慢的区域。

以傅里叶变换为例, 频域滤波的主要步骤为:

(1) 对原始图像f (x, y) 进行傅里叶变换得到F (u, v) :假设图想以undefined存储, 则离散傅里叶变换undefined可由如下公式得到

undefinedundefined

(2) 将F (u, v) 与传递函数H (u, v) 进行卷积运算得到G (u, v) :

undefined

(3) 将G (u, v) 进行傅里叶逆变换得到增强图像g (x, y) :

undefinedundefined

故频域滤波的核心在于如何确定传递函数H (u, v) , 一个二维的理想低通滤波器的传递函数如下:

undefined

式中, D0是一个非负整数;D是从点 (u, v) 到频率平面原点的距离, 即:

undefined

理想低通滤波器的含义是指小于D0的频率, 即以D0为半径的圆内所有频率分量可以完全无损地通过, 而圆外的频率, 即大于D0的频率分量则完全被除掉。

2.1.2 Roberts算子锐化

图像滤波平滑往往使图像中的边界、轮廓变的模糊, 为了减少这类不利效果的影响, 这就需要利用图像鋭化技术, 使滤波增强后图像的边缘、轮廓线以及图像的细节变的清晰。经过平滑的图像变得模糊的根本原因是因为图像受到了平均或积分运算, 因此可以对其进行逆运算 (如微分运算) 就可以使图像变的清晰。

Roberts算子又称为梯度交叉算子, 是一种利用局部差分算子寻找边缘的算子。梯度幅值计算近似方法如图2:

(i, j) 为当前像素的位置, f (i, j) 为该点的灰度值, 由如下锐化公式得到表示增强后的图像 (i, j) 位置处灰度值g (i, j) :

undefined

2.2 图像分割与OTSU法

图像分割的目的是把图像空间分成一些有意义的区域, 可以逐个像素为基础去研究图像分割, 也可以利用在规定邻域中的某些图像信息去分割。图像分割比较正式的定义如下:

令集合R代表整个图像区域, 对R的图像分割可以看作是将R分成N个满足以下条件的非空子集R1, R2, …, RN:

(1) undefined;

(2) 对i=1, 2, …, N, P (Ri) =TRUE;

(3) 对∀i, j, i≠j, 有Ri∩Rj=φ;

(4) 对∀i, j, i≠j, P (Ri∪Rj) =FALSE;

(5) 对i=1, 2, …, N, Ri是连通的区域。

对于此定义需要补充的是, 实际的图像处理和分析都是面向某种特定应用的, 所以条件中的各种关系也是需要和实际要求结合而设定的。图像分隔的依据可以建立在图像像素间的“相似性”和“非连续性”两个基本概念之上。像素的“相似性”是指图像中在某个区域内像素具有某种相似的特性, 如像素灰度相等或相近, 像素排列所形成的纹理相同或相近。“不连续性”是指像素灰度的不连续, 形成调变的阶跃, 或是指像素排列形成的纹理结构的突变。故相似性分割就是将具有同一灰度级或相同组织结构的像素聚集在一起, 形成图像的不同区域;非连续性分割就是首先检测局部不连续性, 然后将它们连接在一起形成边界, 这些边界将图像分成不同的区域。图像分割方法又可以分为结构分割方法和非结构分割方法两大类。结构分割方法是根据图像的局部区域像素的特征来实现图像分割, 如阈值分割、区域生长、边缘检测、纹理分析等, 这些方法是假定事先知道这些区域的特性, 或者在处理过程中能够求得这些特性, 从而能够寻找各种形态或研究各像素群。非结构分割法包括统计模式识别、神经网格方法或其他利用景物的先验知识实现的方法等。

图像的黑白二值图像转化是指通过设定某个临界阈值, 大于该临界值时为白, 存储时用1表示, 小于该临界值时为黑, 存储时用0表示, 这样就可以将任意的彩色或者灰度图像转换成黑白二值图像。根据峰值个数以及处理过程的不同, 可以用不同的方法完成灰度图像转换为黑白二值图像的过程, 对于灰度峰值的多少, 可以设定多个不同的临界值。

常用的黑白二值化处理方法有:

1) 单阈值法。对于具有单灰度峰值的图像, 将灰度最大峰值作为临界值F, 并将图像点阵点上的颜色值小于等于某临界值F的像素undefined转换为黑色;大于F的像素值转换为白色。

2) 双阈值法。对于具有两个灰度峰值的图像, 将这两个最大峰值设定为两个不同的临界值F1和F2。当某个像素undefined的像素值介于F1和F2之间时设为白色, 其他情况设为黑色。

大津法 (又称OTSU法或最大类间方差法) 于1979年提出, 它是在灰度直方图基础上用最小二乘法原理推导出来的, 具有统计意义上的最佳分割阈值。Otsu法算法简单, 对光线等具有很强的自适应能力, 在灰度图像目标和背景的自动分割上具有广泛的应用。具体算法如下:

对图像A, 记t为前景与背景的分割阈值, 前景点数占图像比例为w0, 平均灰度为u0;背景点数占图像比例为w1, 平均灰度为u1。

图像的总平均灰度为:

u=w0×u0+w1×u1

从最小灰度值到最大灰度值遍历t, 当t使得值

g=w0× (u0-u) 2+w1× (u1-u) 2

最大时t即为分割的最佳阈值。

对大津法可作如下理解:g实际上就是类间方差值, 阈值t分割出的前景和背景两部分构成了整幅图像, 而前景取值u0, 概率为 w0, 背景取值u1, 概率为w1, 总均值为u, 根据方差的定义即得该式。因方差是灰度分布均匀性的一种度量, 方差值越大, 说明构成图像的两部分差别越大, 当部分目标错分为背景或部分背景错分为目标都会导致两部分差别变小, 因此使类间方差最大的分割意味着错分概率最小。

2.3 边缘检测

图像的边缘是图像的最基本特征, 集中了图像大部分的信息, 图像边缘的确定与提取对于整个图像场景的识别与理解是非常重要的。物体的边缘是以图像局部特征不连续的形式出现的, 也就是指图像局部亮度变化最显著的部分, 例如灰度值的突变、颜色的突变、纹理结构的突变等, 同时物体的边缘也是不同区域的分界处。图像边缘有方向和幅度两个特征, 通常沿边缘的走向灰度变化平缓, 垂直于边缘走向的像素灰度变化剧烈。根据灰度变化的特点, 常见的边缘可分维阶跃型、房顶型和凸缘型。

当使用一阶倒数的边缘检测算子时, 如果所求的一阶导数高于某一阈值, 则确定该点为边缘点, 这样做会导致检测的边缘点太多。一种更好的方法就是求梯度局部最大值对应的点, 并认定它们是边缘点。通过去除一阶导数中的非局部最大值, 可以检测出更精确的边缘。一阶导数的局部最大值对应着二阶导数的零交叉点, 通过找图像强度的二阶导数的零交叉点就能确定精确的边缘点。通常将Gaussian滤波器和Laplacian边缘检测结合在一起, 形成LOG算法。即先用高斯函数对图像进行平滑, 然后再用拉普拉斯算子进行运算, 得到Laplacian-Gauss算法, 它使用一个墨西哥草帽函数形式:

undefined

这种方法在边缘检测时仅考虑那些具有局部梯度最大值的点为边缘点, 这一点可以用拉普拉斯算子将边缘点转换成零交叉点, 然后通过零交叉点的检测来实现边缘检测。所谓的零交叉点就是:如果一个像素出的值小于一θ0, 而此像素连通的各个像素都是大于θ0 (θ0为一个正数) , 那么这个像素就是零交叉点。

与其他边缘检测算子一样, LOG算子也是先对边缘做出假设, 然后再这个假设下寻找边缘像素。但Log算子对边缘的假设条件最少, 因此它的应用范围更广。另外, 其他边缘检测算子检测得到的边缘时不连续的, 不规则的, 还需要连接这些边缘, 而LOG算子的结果没有这个缺点, 对于Log 算子边缘检测的结果可以通过高斯函数标准偏差σ来进行调整。

3 基于MATLAB环境的实验分析

在MATLAB环境下定义函数并编写代码, 对一副照片上的河流轮廓进行提取, 过程如图:

图二是原始彩色照片灰度转化后的图像, 经过低通滤波去噪后得到图三所示图像, 去除了图像的高频噪声, 但略显模糊。对其进行Robert算子锐化调整后可以得到图四所示的增强图像, 图像特征明显变得清晰。大津法 (OTSU) 阈值分割后得到的图五可以看出特征区域和非关注区域的明显对比, 然后由log算子边缘检测提取河流的轮廓, 由图二和图六比较可见提取的效果较为理想。

4 结束语

本文首先介绍了数字图像轮廓特征提取的一般过程, 给出了流程图, 然后详细讨论了数字图像处理的中间环节技术, 并给出了这些技术的部分具体算法, 最后在MATLAB环境下编写代码, 从一副照片中提取出了河流的轮廓, 实验分析结果较为理想。数字图像处理技术应用于图像轮廓的提取, 能够简化一些实验研究工作, 缩短时间提高效率, 如提取的河流可以用于识别和地图绘制, 提取岩石断面轮廓可以用于分形维数计算等等。为了满足不同的需求, 研究者可以对提取过程中用到的技术加以改进或提出新的算法, 如采用不同的边缘检测模型和技术[5], 以达到自己研究所需要的特征和精度。

参考文献

[1]龚声蓉, 刘纯平, 王强等.数字图像处理与分析.北京:清华大学出版社, 2006, 1-84, 168-234

[2]邹柏贤, 林京壤.图像轮廓提取方法研究.北京:计算机工程与应用, 2008, 161-165

[3]魏冬冬, 聂铁铸等.人脸特征提取与识别技术研究.计算机与现代化, 2007, 3:69-76

[4]彭瑞东, 谢和平, 鞠杨.二位数字图像分形维数的计算方法.中国矿业大学学报.2004, 33 (1) :19-24

地理图像的视角特征与训练 篇6

关键词:地理图像的视角,特征,训练

地理图像的视角其特征为:1.个体的差异性:对于同一信息源 (图像) 每个学生所获得的信息各不相同, 有的学生只能看到图像中那些“表现明显”的部分。而有的学生则善于从不同的视觉角度观察图像的组成要素, 和它们之间的相互关系, 获得更多的有价值的图像信息。2.观察的有序性:学生在观察图像时, 视角的注意点从一部分向其他部分转移时是有一定规律的, 通常是根据不同要求:由主到次、由点到面或按时间、方位、关系有序的观察, 这种不重复、不遗漏的视图方法使获取的信息更完整。3.读图的选择性:通过各种符号、注记表示地理事物的图像, 所涵盖的内容丰富、涉及面广。有时学生对图像经过反复观察也不得要领, 其症结是不善于把看到的东西进行筛选, 排除与主题不相关的非本质内容。只有抓住图像的关健点, 才能使获得的信息更具有针对性。4.视图的还原性:将抽象的图像符号还原成真实的地理事物过程。要善于依据“色彩缤纷”的符号, 将平面的等高线地形图转化成“大脑”中的立体形态, 实现等高线地形图与实际地形的逆向结合。5.内涵的隐藏性:通过对图像的观察和分析, 能容易地读出它所表达的城市、村庄、道路、山地、高原等地理事物, 判读这些“外在”的内容, 只能视作理解图像的第一步。只有进一步揭示其内在的本质属性, 才能看到一切不在图像上的“东西”, 才能培养学生“由表及里”的析图方法, 也才能形成独特的图像视角。

依据图像视觉的特征来判读图像, 并形成个体独特的图像视角, 其实质是图像思维的训练过程。下面按照学生的思维认知程序, 探究图像视角的训练过程:

一、读图训练

养成学生正确的读图程序, 并根据读图要求, 排除不相关的图像因素, 把目标从图像的背景中分离出来, 获取有用的信息。为此, 一要搞清图像的基本构成要素, 如地图上的各种注记、图例、颜色、比例尺、经纬网、等值线等, 这是学习地图的前提, 学生掌握这些图像语言的地理意义, 才能为进一步学习打下基础。其次根据图像所表述的地理事物及读图要求, 对图像中的各种符号加以分析, 使之具体化、形象化。题例1:以“中国行政区简图”为例 (图略) :从地图名称入手, 了解地图各种图例的含义及比例尺的大小, 突出地图的主题 (行政区) 。其次, 引导学生有序地读图, 如按方位 (西南地区主要包括哪几个省级行政区?...) 、按面积 (我国面积最大的省级行政区?最小的呢?...) 、还可按人口、按地形等观察顺序。同时注意分析与行政区相关的其它内容:如我国人口集中分布的地区;陆上邻国按顺时针分别有哪些;我国领土最南端在哪里等。还要根据读图要求, 选取重点, 使学生读图有主、查图有法。

二、成像训练

图像能把抽象的文字变成直观的有一定空间位置的图形, 通过对图像表象的理解、扩大、迁移、深化达到想像和再造想像, 使图像信息在头脑中保留和再现, 实现学生没有看到图像, 也可以凭借这种“心理地图”形成图像, 分析和解决相关的地理问题。题例2:“世界主要煤田的分布“ (图略) , 阅读煤田空间分布状况, 获取地理表象知识。然后根据表象提供的“充足原料”, 经过抽象的思维加工, 简化繁杂的煤田分布状况, 化难为易, 变具体为抽象, 在头脑中构建世界两大主要煤带:北半球的亚欧大陆煤带和北美洲中部煤带, 把形象思维和抽象思维巧妙结合“成像”。由于图像的信息化比文字的信息化更易记忆和展现, 因而使理论知识的透明度提高, 难度降低。通过有意识的引导学生读图、记图, 将一幅幅图像不断的输入, 逐渐形成大脑的图像系统。

以图成像, 培养了学生的抽象思维能力。成像训练使学生能够透视隐藏在图像内部的性质和规律, 让学生看的更深入, 获得的信息更丰富。成像训练的目的不在于记住某一幅图, 而重要的是提高他们的思维品质。

三、释图训练

图像视角的培养, 不仅是读图、“成像”, 更重要做到图-文、图-图的转换, 如将课本文字转化为图像, 用直观的图像方式来表达教材中的文字内容, 或者能够用一幅地图来阐述表达另一幅地图, 或者对某一幅图像进行变式处理等等。题例3:在教学“季风对我国夏季降水产生影响”的内容时, 可采用以图释文的训练方式:运用我国5、6、7-8、9月四幅东部地区主要雨带图 (图略) , 形象反映我国季风的范围、时间、强度, 既降低了知识的难度, 又便于学生深刻的理解我国东部夏季降水形成的原因、类型及降水量的区域差异, 同时也揭示诸如梅雨、旱涝灾害的成因。

基于图像内容特征的检索技术 篇7

从20世纪70年代起人们便开始了对图像检索领域的研究, 图像的检索经历了两个阶段:第一阶段是以关键字为基础的检索, 第二阶段是以图像自身的内容为基础的检索。

1 基于文本方式的检索方法

传统图像检索方式检是以文件系统进行的, 当用户查询一幅图像时, 要逐一打开文件进行浏览才能找到其目标图像。该方式始于20世纪70年代, 其一般处理方式就是对图像文件进行关键词或文本标题描述, 必要时再附加一些附加信息, 然后将图像的存贮路径和图像关键词或文本标题建立相应联系。

这种采用对图像建立关键词等文本描述信息的方式已越来越不适应网络信息检索的要求, 主要存在如下局限性: (1) 难以表达图像的空间关系; (2) 有一些图像很难用文字来确切地进行描述; (3) 当图像中包含多个物体时难以用简短的描述全面体现其意义; (4) 文本描述信息是非常主观的, 不同的人对同一幅图像数据可能有不同的理解, 因此当用户在查询时输入关键词和数据库中的关键词不一致或这些关键词根本就不存在时, 将导致查询的失败; (5) 由于媒体信息是发布在Internet网络环境中, 不同国家、不同民族很难用同一种语言对图像进行加注, 而且对图像语义理解的差异很大; (6) 对图像加注文本信息仍由人工完成, 随着图像数据来源日益广泛, 这种方法存在着工作量大, 费时费力, 而且检索界面不够灵活等问题; (7) 对大型图像数据库来说, 全部手工提供文本注释费用是相当昂贵的。

2 基于图像的内容检索方法

从80年代起, 经历90年代的发展, 多媒体技术取得了长足的进步, 尤其是以Internet为代表的分布式的信息发布方式, 使传统的文本方式受到了严重的挑战。为了突破文本检索方式的诸多弊端, 人们又转向研究图像中所包含的内客信息作为图像的索引, 对这方面的研究要归功于模式识别研究者, 其主要的方法是根据图像的颜色、纹理、图像对象的形状以及它们的空间关系等内容特征作为图像的索引, 计算查询图像和目标图像的相似距离。按相似度匹配进行检索, 其目的是试图解决图像数据库系统中手工建立文本标注信息的缺点。作为传统数据库检索的拓展, 基于内容的图像检索系统主要是根据图像的内容进行检索。

2.1 检索的内容特征主要包括:

颜色 (图像颜色的分布, 相互关系、组成等) 、纹理 (图像的纹理结构、方向、组合及对称关系等) 、形状 (图像的轮廓组成、形状、大小等) 、对象 (图像中子图像的关系、数量、属性、旋转等) 。

(1) 颜色检索。颜色具有一定的稳定性, 是基于内容相似性检索的首先特征。基于颜色特征的图像检索主要解决三个问题:颜色的表示、颜色特征的提取和基于颜色的相似度量。计算每一幅图像的颜色直方图, 即每一种颜色在图像像素点中的比例。作为图像的特征矢量加以保存。在查询时, 使用者只需要定义各种颜色之间的比例, 如 (75%) 的橄榄绿和 (25%) 的橘红色, 或者查询者给出一幅模板图像, 从中计算出该图像的颜色直方图。任何一种方式, 匹配过程都是返回直方图与模板颜色直方图最为接近的图像。基于颜色特征的检索方法主要有互补颜色空间直方图、直方图交叉法、直方图距离比较法、二次型距离算法等。颜色的检索一般应用于色彩较为丰富的自然图景的检索中。 (2) 纹理检索。纹理是图像中局部不规则而整体有规律的特性, 基于纹理的检索在区分有相似颜色的区域时是非常有用的 (比如天空和海洋, 树叶和草地) 。各种各样的技术已经被用来计算纹理的相似性, 使用最多的是基于图像的二阶统计量。通过选择点对的相对亮度, 计算出表征图像纹理的测度, 如对比度、粒度、方向性和规则性或者周期性、自由度。分析纹理的常用方法有基于传统数学模型的共生矩阵法、K-L变换、纹理谱分析等方法和近几年出现的基于视觉模型的多分辨率分析、小波方法等。由于难以描述, 对纹理的检索一般采用示例查询方法QBE (query by example) 方式, 也就是从样本集 (即一套预先存储的纹理图像) 中选择所要查询的纹理。使用纹理作为检索的特征, 一般是图像的内容较为丰富, 物体和背景不易分割的情况。 (3) 形状检索。形状是图像的一个显著特征, 而且由形状的特征来区别物体是非常直观的。对形状特征分析的基础是图像边缘的提取。基于形状的检索既包括传统意义上的基于二维形状的检索, 也包括在三维图像中的基于三维形状的检索。常用的形状检索方法主要有两种:针对图像边缘轮廓线进行的检索和针对图形矢量特征进行的检索。目前, 基于内容的图像检索系统较有影响力的有:IBM公司开发的第一个商品化的QBIC检索系统, EXCALIBUR技术公司开发的retrieval ware系统, virage公司开发的virage检索系统等。形状查询的方式包括使用模板图像或由查询者提供模板草图。

2.2 作为传统数据库检索的拓展, 基于内容的图像检索系统主要是根据图像的内容进行检索。

与传统的关系数据库图像系统相比, 主要具有以下一些特点: (1) 图像信息的描述和检索部不精确进行。传统的数据库中, 符号数据可以用基本数据类型精确地表示, 检索匹配是精确匹配。而图像数据是一段二进制数据流, 对图像进行像素和像素的精确匹配不科学。事实上人对两个图像的相似和不相似的判断是根据图像中所包含的内容, 很难将其精确描述, 因此内容的表达是近似的。这种判断与检索的不确定性正是当前信息检索的主要特征, 使信息检索由传统的刚性检索向柔性检索发展。 (2) 图像信息的描述不是唯一的。同一幅图像由于其应用领域和检索用户的差异, 其描述结果可能是完全不同的, 即图像信息内容依赖于其领域知识库。因而在图像描述中不仅要考虑到本领域的需求, 还应该考虑该描述可能的其它需求。随着识别技术的发展还可能采用更新或更好的表达方法。 (3) 检索结果的查准率较低。由于对内容描述的不精确, 因此检索得到的结果可能包含一些不相关的图像。这种情况对基于内容的检索是允许的, 但重要的一点是在检索中不要将相关的图像漏掉, 因而对较低的查准率是可以容忍的。 (4) 应具有很强的交互性。符号数据本身就具有语义信息, 在符号数据命名的过程中就赋予了特定的信息。图像中的内容本身不包含语义信息, 对图像的匹配主要是对图像中的内容特征进行相似匹配。即用户能够参与检索过程以获得用户所希望获取的图像, 用户查询时系统根据用户提供的待查询图像, 抽取必要的特征或者用户直接提供待查询图像的特征, 如指定一种色调或纹理、基本形状, 然后系统按照一定的原则, 在图像特征数据库中进行匹配搜索, 通常查询的结果是一系列图像, 按照相似的程度依次排列。由于语义特征难以提取, 因此基于语义特征的检索有待进一步进行研究。

3 基于内容的图像检索研究的发展趋势

20世纪90年代初, 人们的研究主要集中在图像的颜色、纹理特征和一些简单的形状特征的提取技术上。近年来, 研究图像检索的重点和难点仍然集中在如何使得抽取的低层特征和图像内容所表示的语义特征之间建立良好的联系。由于所拥有的特征并不能很好体现图像真正的语义信息, 以至于检索的结果往往不能令人满意。

图像检索技术的日益成熟不仅将创造出巨大的社会价值, 而且将改变人们的生活方式。因为它与传统数据库技术相结合, 可以方便地实现海量多媒体数据的存储和管理;与传统web搜索引擎技术相结合, 它可以用来检索HTML网页中丰富的多媒体信息。另外, 引入了用户的相关反馈技术来改善用户的查询质量, 使得查询的结果更加贴近用户的需求;近几年, 本领域的研究则逐渐走向更接近人类心理学和人类视觉特点的研究技术, 提出了基于区域、目标物体的分析方法。

在可预见的将来, 图像检索将会在以下领域中得到广泛应用:多媒体数据库、知识产权保护、数字图书馆、网络多媒体搜索引擎、交互电视、远程教育、远程医疗、远程购物、多媒体编辑、遥感和地球资源管理、天气预报以及军事指挥系统、建筑学中的工程图纸识别、商业领域中的注册商标等等方面。

摘要:介绍了基于文本方式的检索方法及其基于图像内容的检索方法。指出了其不足之处, 并对图像检索技术的前景进行了展望。

关键词:文本方式,图像检索,内容检索

参考文献

[1]刘伟成, 孙吉红.基于内容的图像信息检索综述[J].情报科学, 2002 (4) .

[2]王文惠, 周民柱, 万建伟.基于内容的图像检索技术的研究和发展[J].计算机工程与应用, 2001 (5) .

[3]毛力, 张晓林.基于颜色内容的图像检索原理与方法[J].情报科学, 2000 (6) .

上一篇:概念模式下一篇:中药保鲜技术应用研究