相似度量

2024-08-20

相似度量(共7篇)

相似度量 篇1

0 引言

由于Contor提出的集合论无法处理不确定性信息和数据,于是在1965年L.A.Zadeh创立了Fuzzy集理论[1]。在以后的几十年里,Fuzzy集理论得到了不断发展和完善,并在许多领域得到了成功运用。但是,模糊集的隶属度函数值是一个单一的数值,该值既包含了支持的证据,也包含了反对的证据,它不可能表示其中的一个,更不可能同时表示支持和反对的证据。为此,Gau和Buehrer在1993年提出了Vague集理论[2]。在Vague集A中,用一个真隶属度函数tA(x)和一个假隶属度函数fA(x)来描述隶属度的界,其中tA(x)≤μA(x)≤1-fA(x),这两个界构成了区间[0,1]的一个子区间[tA(x),1-fA(x)]。例如:设V是一个Vague集,[tV(x),1–fV(x)]=[0.4,0.8],即tV(x)=0.4 fV(x)=0.2。在投票模型中,可以解释为10人中,有4人赞成,2人反对,4人弃权。目前,Vague集已应用于近似推理、模式识别和模糊决策等方面。

为了度量两个Vague值x和y的相似程度,先后有许多学者给出了许多度量方法[3,4,5,6,7,8,9]。表1给出了几种相似度量方法的比较。

对Mc而言,当tx-fx=ty-fy时,就可以得到Mc=1,即只要两个Vague值的真假隶属度差值相等,它们就完全相似,这其中就隐含着x=y的情况,也蕴含着真假隶属度差值相同的情况,如表1中的第1、3、5和6组数据所示。所以Mc这种方法对tx-fx=ty-fy类的数据处理过于粗糙,甚至出现明显违背类直觉的反例,如表中的第5组数据。

而MH侧重于两个Vague值之间的真隶属差值和假隶属度差值。它认为对于任意两个Vague值,只要它们的真隶属度差值和假隶属度差值分别相同时,那么它们的相似程度也相同,但不能区分Vague值对真隶属度间的、假隶属度间的正向差别和反向差别,也没有考虑弃权的差别。如表1中的第1、2、3和6组数据,它们的相似程度相同,但第4和5组数据就不能区分,因此,该方法具有一定的局限性。

虽然ML继承了Mc和MH的优点,它不仅关注了Vague值的真、假隶属度,而且还加强了对隶属度间的正向差距和反向差距的区分,与MH相比,虽然加强了对表1中的第1和2组数据和第4和5组数据的区分能力,但还没有避免Mc和MH的局限性,它认为Vague值[0.4,0.8]与[0.5,0.7]、[0.5,0.8]的相似程度是一样的,显然,这样不够直观。

MO体现了对两个Vague值间真隶属度差距和假隶属度差距的重视,同时也隐含着对Vague值支持度的重视。MO避免了Mc的局限性,同MH一样,它也不能区分类似于表1中的1、2和3组的数据。

因此,在计算Vague值相似度时,不仅要考虑支持度和反对度,还要考虑中立的情况。对投票模型来说,不仅要考虑Vague值之间的赞成与反对票的作用,还要考虑弃权的作用。事实上,一旦第一次投票结果给予公布,弃权票的人将会根据上次投票中赞成票与反对票的比例重新对自己的第二次投票作出选择。这也就是说,弃权票的信息包含着赞成和反对的倾向。所以,在定义Vague集间的相似度量,除了考虑两个Vague集之间赞成和反对的因素之外,还要考虑弃权票的影响。为此,本文在对已有相似度研究的基础上,提出了一种新的相似度量方法。

1 Vague集基础知识

定义1论域U={x1,x2,…,xn}上的一个Vague集A是U上的一对隶属函数tA和fA。即:

tA:U→[0,1]fA:U→[0,1]

满足0≤tA(xi)+fA(xi)≤1。其中,tA(xi)称为Vague集A的真隶属函数,表示支持x∈A的证据的隶属度下界;fA(xi)称为Vague集A的假隶属度函数,表示反对x∈A的证据的隶属度下界。当论域U是连续域时,有:

当论域U是离散域时,有:

定义2设U是一论域,V是U上所有的Vague集组成的集合,A∈V,B∈V。如果M'(A,B)满足下列性质(1)~(4),则称M'(A,B)为Vague集A,B之间的相似度:

(1)0≤M'(A,B)≤1;

(2)M'(A,B)=M'(B,A);

(3)M'(A,B)=1当且仅当A=B;

(4)如果A,B,C∈V,A≤B≤C,则有M'(A,C)≤M'(A,B),M'(A,C)≤M'(B,C)。

2 Vague上的相似度

2.1 Vague值上的相似度

定义3设A是论域U上的一个Vague集,x=[tx,1-fx],y=[ty,1-fy]是A上的两个Vague值,tx∈[0,1],fx∈[0,1],ty∈[0,1],fy∈[0,1],tx+fx≤1,ty+fy≤1,则:

(1)Sx=1-tx-fx被称为是A中元素x的不确定度;

(2)αx=tx+tx×Sx被称为是A中元素x的支持程度;

(3)βx=fx+fx×Sx被称为是A中元素x的反对程度。

αx和βx可以用投票模型来解释。一个Vague值[0.3,0.7]可以解释为:“在投票结果中,支持票占30%,反对票占30%,弃权票占40%。”那么αx=0.3+0.3×0.4=0.42,可以解释为:“根据投票的结果,除了支持票30%外,受第一轮投票结果的影响,在40%的弃权票中,可能还会有0.3×0.4=0.12的人在第二轮投票中投支持票。”

类似地,βx=0.3+0.3×0.4=0.42,可解释为:“根据投票的结果,除了反对票30%之外,受第一轮投票的影响,在40%的弃权票中,可能还会有0.3×0.4=12%的人在第二轮投票中投反对票。”

定义4设A是论域U上的Vague集,Sx、αx和βx如上述定义。则A中两个Vague值x=[tx,1-fx]和y=[ty,1-fy]之间的相似度函数M(x,y)为:

命题1 M(x,y)具有以下性质:

(1)0≤M(x,y)≤1;

(2)M(x,y)=M(y,x);

(3)M(x,y)=1当且仅当x=y;

(4)M(x,y)=0当且仅当x=[0,0],y=[1,1];或x=[1,1],y=[0,0];

(5)若有三个Vague值x,y,z,且x≤y≤z,则有M(x,z)≤M(x,y),M(x,z)≤M(y,z)。

证明

(1)由于αx=tx+tx(1-fx-tx)≤tx+(1-fx-tx)=1-fx≤1,并且αx≥0,同理0≤αy≤1,所以,0≤(αx-αy)2≤1;又因为βx=fx+fx(1-fx-tx)≤fx+(1-fx-tx)=1-tx≤1,并且βx≥0,同理0≤βy≤1,所以0≤(βx-βy)2≤1;于是可得:

并且:

因此,性质(1)成立。

(2)因为:

因此,性质(2)成立。

(3)如果x=y,那么tx=ty,fx=fy,于是可得αx=αy,βx=βy,则:

反过来,若M(x,y)=1,则αx=αy,βx=βy,即:

所以:

同理可得:

于是,可得(1-Sx)(1+Sx)=(1-Sy)(1+Sy),从而Sx=Sy,又因为αx+βx=(tx+fx)(1+Sx)=αy+βy=(ty+fy)(1+Sy),所以,可得等式1:tx+fx=ty+fy;

又因为:

于是,可得等式2:tx-fx=ty-fy,由等式(1)和(2)可得,tx=ty,fx=fy。因此,性质(3)成立。

(4)如果M(x,y)=0,则(αx-αy)2=1,且(βx-βy)2=1;由于0≤αx≤1,0≤αy≤1,所以,αx=0,αy=1或者αx=1,αy=0;类似地,βx=0,βy=1或者βx=1,βy=0。

当αy=1时,有1=αy=ty+ty(1-fy-ty)≤ty+(1-fyty)=1-fy,所以fy=0;假设ty≠1,令tx=1-a(0<a<1),则1=αy=ty+ty(1-fy-ty)=1-a+(1-a)a=1-a2,于是,a=0,这是一个矛盾,所以ty=1。当αx=0时,由tx和Sx的非负性,可得tx=0。于是,当αx=0,αy=1时,有ty=1,fy=tx=0,所以,βy=fy+fy(1-fy-ty)=0。

类似地,当αx=1,αy=0时,则有tx=1,ty=fx=βx=0。

利用同样的讨论,当βx=0,βy=1时,有fy=1;当βx=1,βy=0时,有fx=1。

于是由(αx-αy)2=1且(βx-βy)2=1可得到x=[0,0],y=[1,1]或x=[1,1],y=[0,0]。反过来,当x=[0,0],y=[1,1]或x=[1,1],y=[0,0]时,可得M(x,y)=0。因此,性质(4)成立。

(5)因为x≤y≤z,所以tx≤ty≤tz,fx≥fy≥fz。令tx=tym,fx=fy+n,在这里,m≥0,n≥0,从而:

同理,αz-αx≥0,αz-αy≥0。又因为αz-αx=(αz-αy)+(αy-αx)≥0,所以,αz-αx≥αz-αy,αz-αx≥αy-αx,从而(αz-αx)2≥(αz-αy)2,(αz-αx)2≥(αy-αx)2,又因为:

同理βz-βx≤0,βz-βy≤0;又因为βz-βx=(βz-βy)+(βy-βx)≤0,所以βz-βx≤βz-βy,βz-βx≤βy-βx;从而(βz-βx)2≥(βz-βy)2,(βz-βx)2≥(βy-βx)2;于是可得,M(x,z)≤M(x,y),M(x,z)≤M(y,z)。因此,性质(5)成立。

2.2 Vague集之间的相似度

定义5设X和Y是论域U={u1,u2,…,un}上的Vague集,倘若VX(u)=[tX(u),1-fX(u)]是u在X中的Vague值,VY(u)=[tY(u),1-fY(u)]是u在Y中的Vague值,则Vague集X和Y的相似度为:

在这里:

显然,M(X,Y)值越大,Vague集X和Y越相似。

命题2 M(X,Y)具有以下性质:

(1)0≤M(X,Y)≤1;

(2)M(X,Y)=M(Y,X);

(3)M(X,Y)=1当且仅当X=Y;

(5)如果三个Vague集X,Y,Z,X≤Y≤W,则M(X,Y)≥M(X,W),M(Y,W)≥M(X,W)。

3 Vague集间的相似度量在模式识别中应用

3.1 模式识别中的识别方法

设在论域U={u1,u2,…,un}上有n个Vague集形式的标准模型X1,X2,…,Xn和待识别的Vague形式的样本Y。

应用Vague集间的相似度方法进行模式识别。

计算Vague集间的相似度Mz(XI,Y)(i=1,2,…,n)。假设存在k∈{1,2,…,n},使得:Mz(Xk,Y)=max{Mz(X1,Y),Mz(X2,Y),…,Mz(Xn,Y)},那么,根据择近原则可知:样本Y应归属于Xk。

3.2 实例分析

例1在论域U={u1,u2,…,un}上有两个Vague集X和Y,即:

X={[0.3,0.7],[0.3,0.6],[0.3,0.8],[1,1],[0.5,0.5],[0.4,0.8],[0.4,0.8],[0.4,1]}

Y={[0.4,0.6],[0.4,0.7],[0.4,0.7],[0,1],[0,1],[0.5,0.7],[0.5,0.8],[0.1,1]}

计算两个Vague集中的每个Vague值的相似度。

解:根据式(1)来求解相似度,则M(x1,y1)=0.94,M(x2,y2)=0.87,M(x3,y3)=0.8860,M(x4,y4)=0.2929,M(x5,y5)=0.5,M(x6,y6)=0.9368,M(x7,y7)=0.9348,M(x8,y8)=0.6818。与前几种相似度量方法的分析比较如表2所示。

由表2中的数据所示,新方法不仅能够区分第4和5组的数据,也能区分其它几组中的数据,弥补了MC、MH、ML和MO方法的缺陷,并且还继承了它们的优点。因此,新方法在解决Vague集方面还是比较适用的。

例2在论域U={u1,u2,…,un}上有三个已知的Vague集形式的标准型X1,X2和X3与待识别样本Y如下:

解:按式(2)计算相似度,则X1和Y之间的相似度M(X1,Y)=0.7261,X2和Y之间的相似度M(X2,Y)=0.8532,X3和Y之间的相似度M(X3,Y)=0.5832,根据择近原则,样本Y应属于标准型X2。

由此可见,应用本文构造的Vague集间的相似度公式进行模式识别,得到的结果皆是有效的,这至少说明了Vague集相似度量公式在模式识别中也是比较适用的。

综上所述,新方法在解决Vague值之间的相似度和Vague集之间的相似度是比较适用的,克服了前几种方法的缺陷,因此,该方法在解决Vague集这类问题时,不失为一种好方法。

4 结语

Vague集之间的相似度量是模式识别中的关键技术之一,它还可用于聚类分析等领域。因此,寻求一个合理且有效的相似度量方式是我们不断研究的课题之一。本文在以往的基础上,又提出了一种新的度量方法,并还给出了一些性质,这些方法和性质为模式识别、决策分析等提供了新的方法和工具。

摘要:针对以往的Vague集相似度量方法的不足之处,提出了一种新的Vague值相似度的定义,并重新给出了新的Vague集相似度量的定义和性质。最后,又提出了在Vague环境下用Vague集间的相似度和相似度量进行模式识别的方法。通过一些应用实例计算,结果表明,该Vague集的相似度量具有一定的优越性,并提高了Vague集相似度量的精确度。

关键词:Fuzzy集,Vague集,相似度量

参考文献

[1]Zadeh L A.Fuzzy sets[J].Information and Control,1965,8(3):338-353.

[2]Gau W L,Buechrer D J.Vague Sets[J].IEEE Transaction on Sys-tem s,Man,and Cybem etics,1993,23(2):610-614.

[3]Chen S M.M easures of sim ilarity between vague sets[J].Fuzzy Setsand System s,1995,74(2):217-223.

[4]李凡,徐章艳.Vague集之间的相似度量[J].软件学报,2001,12(6):922-926.

[5]李艳红,迟忠先,阎德勤.Vague相似度量与Vague熵[J].计算机科学,2002,29(12).

[6]石玉强.Vague(值)集间的相似度量及其应用[J].计算机工程与应用,2008,44(11):57-60.

[7]范九伦.Vague值与Vague集上的贴近度[J].系统工程理论与实践,2006(8):95-100.

[8]黄国顺,刘云生.一类新Vague集相似度量[J].计算机应用与软件,2005,22(7):24-26.

[9]梁家荣,彭芳艳,伍华健.Vague集之间的相似度量新方法[J].计算机应用研究,2010,27(1):83-85.

多尺度地图相似性度量方法浅析 篇2

1 相似度度量的一般步骤

1) 提出影响相似性的特征类型。Frank Richard将相似度分为3 个类型, 形状相似、位置相似、语义相似[1]。闫浩文、刘涛从图形特征和属性特征的角度将多尺度地图相似性类型分为拓扑相似、方向相似、距离相似、几何相似及属性相似[2,3]。这些分类方法还不够全面, 而且没有考虑多尺度地图的特点。

2) 对各类型相似度分别进行计算。进而综合各类型相似度的计算结果, 得到总体相似度。

2 多尺度地图相似性度量的常用模型

2.1 概念邻域模型

概念邻域模型用于描述要素地图两两之间的拓扑距离, 由于点要素拓扑关系比较单一, 该模型适用于线要素和面要素的交集模型。一般通过概念邻域图得到概念邻差异矩阵, 矩阵中的值对应于两两之间的拓扑距离。

2.2 Voronoi图

Voronoi图, 又叫泰森多边形或Dirichlet图, 它是由一组连接两邻点直线的垂直平分线组成的连续多边形。 由于Voronoi图的每个点与它的最近邻区域相关联, 可以用它代替点要素进行分析。同时, 也有基于线和面要素的Voronoi图构建方法。

2.3 投影模型

投影模型是将要素投影到指定坐标系, 利用其在坐标系中的方向、长度以及夹角等特征来衡量相似度。最典型的方法是将坐标分为8 个方位, 即可得到每一个要素对应的方位, 从而计算方向关系的相似度。

3 多尺度地图相似性度量的研究现状

相似性度量的方法按照研究对象的数据类型不同分为矢量数据相似性度量和图像数据相似性度量。笔者主要研究矢量数据的相似性度量方法。矢量数据根据要素类型的不同, 又可分为点、线、面3 种。下面针对于这3 种不同的要素地图, 对现有度量方法进行分析。

3.1 点状要素地图相似性度量

梅耀元运用栅格数据思想和多元统计方法, 将对点群的研究转化为对面状目标的研究[4]。对同一个点群化简前后的密度、面积以及空间方向的相似进行研究。其中, 将点群凸包所占栅格的面积比上点群中点的个数作为点群密度。使用点群构建的Delaunay (三角刨分算法) 三角网面积作为点群面积。使用点群最小外接矩形的长轴与水平轴的夹角作为点群方向角。这里的面积相似实际上就是几何相似的一种, 密度相似也可以认为是距离相似。缺点是对于点群的方向特征, 使用点群的主方向会更加直观有效一些。

杨伟芳基于Voronoi图对点群进行研究[5]。分别考虑点群目标拓扑关系相似, 距离关系相似和属性特征相似。在构建Voronoi图之后, 以每个点的一阶邻域点的数目作为其拓扑指数, 比较两组点群总的拓扑指数即可得到拓扑相似度。以每个点的相对局部密度作为距离关系度量指标。以点的重要系数作为属性特征。该方法认为点化简前后点的位置并没有发生变化, 即没有方向关系的变化。但是, 对于整个点群而言, 其方向特征还是发生了改变, 所以该方法缺乏对方向关系的考虑, 最终难以得到满意的结果。

综上所述, 对于点群目标, 由于地理空间中的单个点目标是没有形状大小的空间图形, 一般将点群目标的相似性研究转化为对面状目标的研究。

3.2 线状要素地图相似性度量

闫浩文考虑到拓扑关系相似、距离关系相似以及属性特征相似, 针对这3 种不同线要素的特点得到不同度量模型。对于等高线地图, 使用每条等高线的相邻等高线数目作为拓扑指标, 使用等高线密度作为距离指标, 使用等高线间距作为属性指标[6]。刘涛顾及拓扑关系相似度、方向关系相似度、距离关系相似度以及几何特征相似度提出了度量线要素相似度的综合模型[7]。利用线要素拓扑关系概念邻域图定义线群之间的拓扑关系相似度, 利用方向均值定义线群之间的方向关系相似度以及 “环形方差”定义线群目标之间的距离相似度, 同时考虑线要素的平均长度、曲折度等几何特征得到其几何特征的相似度。缺点是范围太广导致方法笼统。各类线要素地图的特点各不相同, 应该针对特定类型线要素进行具体分析。

3.3 面状要素地图相似性度量

Frank Richard分别考虑了面要素地图的形状相似、位置相似以及信息内容相似[1]。对于形状方面, 先对综合前后面要素地图进行匹配分析, 继而求得差异度。对于位置相似, 使用面要素的Voronoi图得到面要素距离, 以该距离作为位置指标。对于信息内容相似, 实际上就是属性特征相似, 采用经典的信息熵模型得到各自的信息熵, 以该信息熵作为属性信息相似度指标。该方法通过度量两幅地图的差异性得到其相似性, 是一个很好的策略, 缺点是缺少从全局角度对地图进行整体描述[8,9]。

闫浩文研究了面要素的拓扑关系、方向关系、距离关系[6]。使用面要素Voronoi图得到要素拓扑关系, 将整幅地图中各种拓扑关系的数目作为指标, 使用交集指数作为方向关系指标, 使用平均面要素密度作为距离关系指标。该方法缺点在于, 拓扑关系相似度计算以总的拓扑关系数量作为指标, 与面要素数目的关系太大。

4 结束语

4.1 需要进一步解决的问题

归纳上述方法, 得出目前多尺度地图相似性度量主要存在以下问题:

1) 在实际应用当中, 使用最多的是全要素地图。现有研究方法对于数据要求较高, 大多只能解决单一类型要素地图。

2) 现有研究对相似性类型的考虑还不够周全, 且大多是从数据特征的角度分析相似性类型, 笔者认为应该从多尺度地图的特点出发。针对多尺度地图, 其最大特点在于地图综合前后需要对空间数据做一些改变, 以适应特定比例尺下的制图要求。这种变化即对应两者的差异性, 得到差异性类型即可得到对应的相似性类型。另外, 地图信息论研究的是地图传递给使用者的信息, 这种地图信息的类型也可作为相似性的类型。

3) 对于不同类型的相似性, 选取合适的度量模型依旧是一个值得深入探讨的问题。

4) 相似度计算中权重的确定还需要进一步研究。采用人为主观赋权法不够科学, 可以考虑使用熵权法, 根据各指标的变异程度, 利用信息熵计算出各指标的熵权, 再通过熵权对各指标的权值进行修正, 从而得到较为客观的权重值。

5) 对相似度计算结果的评价目前比较缺乏。

4.2 展望

地图相似性度量对于空间信息的查询检索、空间分析、空间数据挖掘以及地图综合具有重要意义。多尺度地图相似性度量依旧存在适用性不强, 相似性类型不够全面, 模型选取不是很合适, 总的相似度计算结果不够客观, 对计算结果缺乏有效评价等问题, 这些问题有待进一步研究。

摘要:随着地理信息科学的快速发展, 对空间数据相似性的研究也逐渐得到学者们的重视。本文在归纳多尺度地图相似性度量的一般步骤基础之上, 介绍了常用模型。重点对多尺度地图的相似性度量方法进行了归类与分析, 得出了现有研究方法存在的问题并指明了需要进一步研究的方向。

关键词:多尺度,地图,相似性

参考文献

[1]Frank R, Ester M.A Quantitative Similarity Measure for Maps[J].Progress in Spatial Data Handling, 2006:435-450.

[2]Yan H.Fundamental theories of spatial similarity relations in multi-scale map spaces[J].Chinese Geographical Science, 2010, 20 (1) :18-22.

[3]刘涛, 杜清运, 毛海辰.空间线群目标相似度计算模型研究[J].武汉大学学报 (信息科学版) , 2012, 37 (8) :992-995.

[4]梅耀元, 闫浩文, 李强.多尺度地理空间点状要素相似关系研究[J].测绘与空间地理信息, 2010 (2) :18-20.

[5]Yang Weifang, Yan Haowen, Li Jonathan.Formula for calculating spatial similarity degrees between point clouds on multi-scale maps taking map scale change as the only dependent variable[J].大地测量与地球动力学 (英文版) , 2015 (2) :1-13.

[6]Yan H, Li J.Applications of Spatial Similarity Relations in Map Generalization[M].Spatial Similarity Relations in Multi-scale Map Spaces.Springer International Publishing, 2015:157-181.

[7]刘涛.空间群组目标相似关系及计算模型研究[M].北京:电子工业出版社, 2013:629-629.

[8]闫浩文, 褚衍东.多尺度地图空间相似关系基本问题研究[J].地理与地理信息科学, 2009 (4) :42-44, 48.

图像检索中的相似性度量方法 篇3

在基于内容的图像检索中,我们提取出的图像特征即包括视觉上的,也包括语义上的。与之对应的是在心理学里,相似性也可分为概念相似性(conceptual similarity)和感知相似性(perceptual similarity)[1]。概念相似性主要指两个对象在抽象的概念或语义特征上的类似程度,又称为语义相似性。感知相似性是指两个对象视觉特征间的类似程度,也称为视觉相似性。这两者之间并不是孤立和对立的,感知相似性是概念相似性的基础,而概念相似性对感知相似性有重要的指导作用。如何协调这两者之间的相互关系是图像相似性度量的一个重要问题。

对于两幅图像的相似性的判别是人类视觉系统,认知和情感等多方面因素共同作用的结果。在心理学研究领域为研究人类如何进行相似性判定提出了四种模型: (1) 几何相似性:该模型将对象表示成为维度空间中的点,它们之间的相似性用距离空间中点和点之间的距离来表示。 (2) 特征相似性:该模型将对象的特征用集合表示,每一个特征表示成二值形式。相似性取决于两个对象的相同特征集合以及相异特征集合,是一种相似的定性分析模型。 (3) 匹配相似性:该模型将图像中的元素按是否可用于相似性判别分成可匹配的和不可匹配的,其中可匹配的元素在相似性方面的作用大于不可匹配的元素,用匹配性元素之间的差异和非匹配性元素之间的差异来衡量两个对象间的相似性。 (4) 转换相似性:该种观点将相似性解释为将一个对象转换成另一个对象的难易程度。转换越容易则它们之间越相似,反之亦然。

对于CBIR系统来说,其检索应找出符合用户需求的图像,并根据相似的程度进行排序,因此我们需要对图像的相似性进行定量的分析。对以上的四种模型,几何相似性模型是一种定量分析方式,因此最适合做图像相似性判定,目前出现的相似性判别方式绝大部分均是针对这种模型的。特征相似性模型本身是一种定性分析方式,但是利用模糊逻辑,也可以对图像相似性进行定量分析。至于匹配相似性和转换相似性,由于创建对象之间的相似性需要人的参与,因此很少使用到图像的检索中。

在几何相似性模型中,图像的特征可以是图像的颜色、纹理、形状等特征,只要能表示成向量的形式,均可以使用此模型。该模型将向量看成特征空间中的点,用两点之间的距离代表它们之间的相似程度,距离越小表示图像越相似。对该模型中使用的距离度量函数应满足自相似性、对称性和三角不等性等距离公理。设两个n维向量为X, Y, xi和yi分别为其第i维的分量,则常用的距离度量函数d (X, Y) 有:

(1) Minkowsky距离:, r最常用的取值有3种:r=1时称为街区距离;r=2时称为欧式距离,这是最常用的距离度量函数,实际使用中常常为每个分量加权构成加权欧式距离;当r→∞时称为切比雪夫距离:。

对图像特征来说,其表示形式为高维向量,采用以上方式进行相似性度量是低维空间中距离计算的一个扩展。Aggarwal等人研究[2]指出,对一个固定维数的向量空间,在利用Minkowsky距离衡量相似性时,应优先选取较小的r值,也就是说,街区距离最适合用于高维空间,其次是欧式距离,r值越大,其对高维空间数据的判别能力下降。按此推断,r取小于1的分数时,其对于向量近邻的分辨更为有效。这种距离的缺点在于,根据Bayer等人的研究,随着特征向量维数的增加,查询点和最近邻的期望距离将接近查询点与最远邻的期望距离,此时,点的稀疏性使得距离计算在一定程度上失去了原有的意义[3]

(2)余弦距离

这种距离计算的是空间中两个点对应的向量的夹角的余弦值,作为距离度量。

(3)直方图相交距离:

(4)直方图二次距离:d (X, Y) = (X-Y) TA (X-Y) ,其中X, Y为颜色直方图,A为n*n的一个矩阵,元素Aij表示X的第i个元素Xi和Y中第j个元素Yj的相似程度,

直方图相交距离只考虑了两幅图像相对应维的比较,而二次距离还将不同维之间的差异也考虑在内,使用一对多的方法来比较不同的直方图。在IBM的QBIC系统中使用了此方法度量直方图的相似性,比较效果优于前几种。

对于基于几何模型提出的相似性计算方式,还有很多,例如马氏距离、χ2统计距离、K-L距离、Jeffrey距离、Pearson积矩、EMD(推土机距离)等,这里不再列举。由于图像是否相似最终靠用户判断,因此对不同相似度计算方法的选用要尽量与用户需求相吻合,并满足一定的计算速度要求,为此出现了各种各样的降维技术以降低计算的复杂性。此外,目前有心理学研究表明,人类对于相似性的判别并不一定满足距离公理,但该模型仍然是使用的最多的。

对于特征相似性模型,在Tversky提出的特征对比模型[4](FCM)中,对象A、B均采用一组二元特征描述,在满足匹配性、单调性和独立性的前提下,相似度可以用相同特征(A∩B)和不同特征(A-B及B-A)函数的线性组合来描述:FCM (a, b) =θf (A∩B-αf (A-B) -β (B-A) ,其中θ,α和β均是非负常量,特征函数f (x) 取集合x的势。由于特征只有存在和不存在两种情况,只能进行定性分析,为了实现图像相似性的定量分析,Santini和Jain提出了模糊特征对比模型型[1] (Fuzzy Feature Contrast Model, FFCM) ,将原有的特征函数f (x) 修改为模糊集的隶属度函数,应用到图像检索中。

在CBIR研究的初期人们主要研究的是用图像的视觉特征表示图像的含义,检索的依据是图像之间像的视觉特征相似性。随着研究的进展,越来越多的人意识到用视觉特征表示图像含义的局限性,研究的重点转向研究图像和高层语义之间的映射关系,建立图像的语义标注,实现基于语义的图像检索。在这种情况下,对图像的相似性来说,其相似比较还要考虑到图像语义的相似性。

对图像语义的表示,通常使用若干个关键字表示图像的内容,这其实是借鉴了文本检索中的方式。通过字符串形式的关键字的比较,判断图像之间的相似性,相同的关键字越多,相似程度越大,图像也就越相似。如果图像语义采用语义向量形式表示,则也可以采用余弦距离来衡量。

以上的方式具有其自身的缺点:(1)文字本身具有同义、近义等现象,对相同的语义可以用不同的方式表示。(2)图像的内容具有模糊性,不同的人对图像语义的理解不尽相同。因此,用关键字的准确匹配和图像检索的模糊匹配之间存在着矛盾。因此,对标注词的相似性比较必须也采用模糊匹配的方式,可以采用两种方式:一种是根据本体(Ontology)或分类学(Taxonomy)来计算;一种利用大规模的语料库进行统计。

根据本体或分类学计算词语语义距离的方法,一般是利用一部语义词典,将所有的词组织在一棵或几棵树状的层次结构中,利用两个词语在树中的路径及其它因素来计算相似性。例如陈世亮等人将图像的两幅关键字的关键字标注相同关键词、同义关键词和其它三种情况,分别赋予不同的权重。对于其它情况采用关键词在WordNet中所属概念之间采用Leacock-Chodorow方法衡量相似性[6]:假设要比较关键词KWi和KWj,则它们之间的相似性Sim (KWi, KWj) =,其中Ci和Cj分别对应KWi和KWj在语法树中的概念,len (Ci, Cj) 代表Ci和Cj在WordNet中的最短路径长度,D表示语义树的深度。两幅图像相似性等于其标注词三种情况的加权和。

另一种词语相似度的计算方法是用大规模的语料来统计。事先选择一组特征词,然后计算这一组特征词与图像标注词的相关性(一般用这组特征词在实际的大规模语料中在该词的上下文中出现的频率来度量),对于每一个标注词都可以得到一个相关性的特征词向量,然后利用这些向量之间的相似度(一般用向量的夹角余弦来计算)作为这两个词的相似度。这种做法的假设是,凡是语义相近的词,他们的上下文也应该相似。

这两种方法各有特点。基于本体的方法简单有效、直观、无需训练、易于理解,但计算结果受人的主观意识影响较大,有时并不能准确反映客观事实。基于语料库的方法比较客观,综合反映了词语在句法、语义、语用等方面的相似性和差异。但是,这种方法比较依赖于训练所用的语料库,计算量大,计算方法复杂,受资料稀疏和资料噪声的干扰较大。在图像检索中主要使用的是第一种方法。

在CBIR系统中还可以将视觉和语义特征结合起来,在这种系统中,图像的特征既有视觉特征又有语义特征,相似性度量也采用了混合方式,通常的计算方法是计算两者的加权和。假设根据视觉特征及语义特征计算出的相似度分别为Sv和Ss,则总的相似度S=αSv+βSs,公式中α和β的取值决定着视觉和语义特征在相似度比较中占有的比重,通常的取值方法是先给定初始值,在检索过程中根据用户的反馈动态调整,直到符合用户的意图。

以上我们讨论了在CBIR系统中常见的图像相似性度量方式,图像的特征包含视觉和语义上的特征,相似性度量包括视觉上和语义上的相似度量,两者密切相关,且语义上的相似性越来越重要。在不同的CBIR系统中可以采用不同的度量方式衡量图像之间的相似程度,目的是符合语义及用户的需求,鉴于CBIR技术的不断发展,将来还会出现更多的相似性度量方式,并值得做进一步的研究。

摘要:相似性度量方法是基于内容的图像检索 (CBIR) 系统研究的一个重要方面, 本文对心理学中相似性的分类以及人类相似性判别的基本模型进行了说明, 对图像在视觉特征以及语义特征上的相似性度量方式及研究的现状做了较为详尽的综述, 并进行了比较说明。

关键词:基于内容的图像检索,相似性度量,性能评价

参考文献

[1]唐宏.图像相似性模型、算法与应用研究[D].上海:上海交通大学, 2006.

[2]Aggarwal C C, Hinneburg A, Keim D A.On the surprising behavior ofdistance metrics in high dimensional space[C].In ICDT, 2001:420-434.

[3]于林森, 张田文, 张开越.图像检索中的相似性判别及索引方法综述.小型微型计算机系统, 2007, 28 (2) :356-360.

[4]Tversky A.Features of similarity[J], Psychological Review, 1977, 84 (4) :327-352.

[5]Santini S, Jain R.Similarity measures[J], IEEE Transactions On PAMI, 1999, 2l (9) :871-883.

相似度量 篇4

随着遥感影像的爆炸式增长,信息提取的能力与效率已成为限制遥感应用发展的瓶颈问题。由于遥感影像数据库的海量特征,遥感影像数据挖掘已成为空间数据挖掘的主流。传统的遥感影像处理侧重于目标信息的增强和解译,而遥感影像数据挖掘侧重于从遥感影像中发现图像目标之间潜在的、隐藏的有用的模式和规则。遥感影像数据挖掘需要借助遥感影像处理的方法,但其目的是对遥感影像目标更高层面的归纳和总结,在图像索引和检索、图像分类、图像聚类、空间关联规则挖掘和图像变化检测等方面有广泛的应用前景。将数据挖掘技术应用于遥感影像库,能够挖掘隐藏在遥感影像中丰富的时间、空间和光谱知识等规则,为智能信息处理服务[1]。

在遥感影像挖掘中,不可避免的一个问题是如何定义图像之间相似性度量。图像距离函数是衡量图像相似性的一种方法,但对其定义却没有统一的函数形式。Di Gesu[2]在分析对比了多种图像距离函数后,提出了4种函数形式:Hausdorff图像距离、局部图像距离、整体图像距离和对称图像距离。虽然这4种距离都在不同程度上结合了图像的局部和整体特征,但从其定义式来看,对局部和整体结构特性的描述还不充分,算法开销较大。

1图像空间划分的策略

随着成像传感器技术的不断发展,图像的分辨率也越来越高。如果在原始的图像空间来计算图像的相似性度量,会带来2个方面的问题:① 计算量随着分辨率的提高急剧增长,导致图像的聚类、检索等应用的效率十分低下;② 过于关注图像的细节而忽略了图像的局部特性,降低了相似性度量的准确性。因此,非常有必要采取适当策略对原始的图像空间进行划分,本文采用了一种简单、实用的策略:将原始图像空间均匀地划分为2n(n为尺度因子,n=0,1,2,…)个网格,来计算网格之间的相似性度量。网格划分的大小可结合具体的应用和图像的分辨率来确定。例如,针对图像检索的应用,此时考察的是整个图像的相似性,尺度因子n=0,将图像空间划分为一个网格。

2视觉特征提取

选择合适的图像内容特征描述是建立相似性度量的核心问题,特征描述的好坏直接影响相似性度量的准确性。一个好的特征描述应该满足以下几点要求:易于计算,便于比较,所需计算开销小;表述能力强,视觉不相似的图像所对应的特征描述之间应该有显著的差异;与人的感知相接近,特征表述接近的图像在视觉感知上也应该彼此接近;具有较强的抗噪性,并具有一定的几何和光照不变特性。

针对上述要求,本文利用颜色、纹理和形状等低层视觉特征来描述图像内容。

2.1颜色特征

常用的颜色空间有RGB、HSI和YUV空间。RGB 颜色由红、绿和蓝表示,是最常用的颜色空间。直方图是描述颜色空间最常用的形式,要建立颜色特征的直方图表达,首先需要量化颜色空间。颜色空间被量化为m种颜色,统计图像中每种颜色的出现频度得到颜色的直方图H=(hi)i=1…m,归一化后的直方图记为H′=(h′i)i=1…m,其中undefined具有旋转和尺度不变性。

颜色直方图的相似性度量可以采用L1测度、L2测度、直方图交、统计假设检验和Kullback-leiber散度等方法,定义如下:

L1测度:undefined;

L2测度:undefined;

直方图交:undefined;

χ2距离:undefined;

K-L散度:undefined。

2.2纹理特征

纹理是图像中一种重要而又难以描述的特性,至今还没有公认的定义。习惯上把图像中局部不规则、而宏观有规律的特性称之为纹理,以纹理特性为主导的图像称之为纹理图像。人们提出了多种纹理描述方法,比较有代表性的有:共现阵方法[3]、Tamura特征[4]和基于Gabor小波的纹理分析方法[5]等。共现阵方法是一种传统的纹理描述方法,其构造方法众所周知,在此不在赘述,下面仅罗列几个由共现阵导出的特征:

能量:undefined;

熵:undefined

惯性矩:undefined

局部平稳:undefined。

2.3形状特征

形状是现实世界物体的本质特征之一。一般要求形状描述具有平移、旋转和尺度不变性,形状描述有多种分类方法,如内标量和外标量、数值和非数值、信息保持和非信息保持[6]等等。因矩描述方法具有平移、旋转和放缩不变特性,对该方法进行简要介绍。

图像平面上的二维笛卡尔矩定义为:

undefined。

式中,f(x,y)为二值函数或是灰度值。图像的一、二阶矩有其明确的物理意义:一阶矩可表示“重心”,二阶矩可表示“惯性矩”。

对于数字图像,(p+q)阶原点矩和中心矩分别定义为:

undefined

undefined。

式中,undefined;undefined。

规格化的中心矩为:

undefined。

利用上面的关系,可以导出下面的7个不变矩式:

Φ1=η20+η02;

Φ2=(η20-η02)2+4ηundefined;

Φ3=(η30-3η12)2+(3η21-η03)2;

Φ4=(η30+η12)2+(η21+η03)2;

Φ5=(η30-3η12)(η30+μ12)[(η30+η12)2-

3(η21+η03)2]+(3η21-η03)(η21+η03)·

[3(η30+η12)2-(η21+η03)2];

Φ6=(η20-η02)[(η30+η12)2-(η21+η03)2]+

4η11(η30+η12)(η21+η03);

Φ7=(3η21-η03)(η03+η12)[(η30+η12)2-

3(η21+η03)2]-(η30-3η12)(η21+η03)·

[3(η30+η12)2-(η21+η03)2]。

3基于特征网格划分的相似性度量

为了全面描述图像的颜色、纹理和形状等视觉特征,本文列举了十几种特征向量,在实际应用中还要引入其他特征向量,这些特征向量往往是数十维甚至数百维的。如果仍然用适用于低维数据的相似性度量方式来处理这些高维的特征数据,将得不到理想的结果,这就是所谓的维度灾难[7]。更好地克服维度灾难的影响,本文采用了一个新的思路来度量高维特征数据之间的相似性,即先将高维特征空间按一定规则进行划分,以形成特征空间的网格结构,从而在度量2个数据之间的相似性时,只考虑它们落入相同的网格中的维度信息。

划分策略可简单描述如下:对于d维的数据空间,首先为其每维指定一个划分位数bi,于是该维就被划分为2bi个单元。设undefined,那么整个数据空间被划分为2b个单元。

设数据集中任意2点为X=(x1,x2,…,xd)、Q=(q1,q2,…,qd),C[X,Q]为X与Q的各属性值落入同一区间的那些维的集合,那么X与Q之间的距离undefined。该度量方式与欧氏度量的一个重要差别在于,在该函数中占主导地位的是那些X与Q之间差别较小的维,而且,它们接近的维数越多,其之间的相似性也越高。这显然是符合人们判定数据点之间相似性的习惯。

对于图像空间的2个网格N1和N2,定义其颜色特征距离为undefined,采用特征空间网格划分方法得到的纹理和形状特征距离分别为D2和DS,则定义图像网格N1和N2的相似性为:

undefined。

式中,wi为经验权值。

4实验结果

为了验证本文提出的图像相似性度量方法的有效性,对遥感影像数据挖掘中最常见的聚类应用进行实验。采用了一副人工合成的纹理灰度图像,如图1所示。基于本文定义的相似性度量,采用经典的特征空间聚类算法[8]进行图像分割。因本文的重点在于描述图像的相似性度量,对实现分割的具体方法不在此阐述,分割的结果如图2所示。

5结束语

本文提出了一种遥感影像挖掘的相似性度量方法,采用颜色、纹理和形状等直观的视觉特征来描述图像,具有一定的几何和光照不变特性;在计算特征的过程中采用了图像空间和特征空间网格划分的思想来降低数据维数,便于引入更多的特征向量来提高相似性度量的准确性。

参考文献

[1]李德仁,王树良,史文中,等.论空间数据挖掘与知识发现[J].武汉大学学报(信息科学版),2001,26(6):491-499.

[2]GESUD V,STAROVOITOVV.Distance-based Functions for Image Comparison[J].Pattern Recognition Letters,1999(20):207-214.

[3]王润生.图像理解[M].长沙:国防科技大学出版社,1995.

[4]TAMURA H,MORI S,YAMAWAKI T.Texture Features Correspondingto Visual Perception[J].IEEE Trans on SMC,1978,8(6):460-473.

[5]JAINAK,FARROKNIAF.Unsupervised Texture Segmentation Using Gabor Filters[J].Pattern Recognition,1991,24(12):1167-1186.

[6]LIENHART R.Comparison of Automatic Shot Boundary Detection Algorithm[C].USA:In Proc.of SPIE Storage and Retrieval for Image and Video Databases VII,1999:291-301.

[7]贺玲,吴玲达.多媒体数据挖掘中数据间的相似性度量研究[J].国防科技大学学报,2006,28(1):77-80.

相似度量 篇5

关键词:梯度特征,相似性度量,目标跟踪,自适应窗口

1 引言

空中目标跟踪问题是一类比较特殊的跟踪问题。因为目标在跟踪过程中一般都存在明显的姿态变化,而姿态变化又带来成像光照角变化,从而引起自身灰度的剧烈变化。在跟踪算法中,目标的特征表达和度量是目标跟踪的基础[1,2]。人们总是希望利用具有对光照和形变不敏感的特征来改进算法在目标产生快速形变时的性能[3,4,7]。当前在处理由目标姿态和灰度变化产生的跟踪问题时,存在着两种做法——基于不变性特征的跟踪方法和基于观测变化建模的跟踪方法。第一种利用对姿态或灰度变化不敏感的特征进行匹配跟踪[8]。第二种对目标表面模型的变化进行建模[9,10],利用变化模型生成刷新模板,最后利用刷新模板进行匹配跟踪。然而,对具有高速强机动特点的战斗机进行跟踪,不能简单的沿袭上述两种思路。因为飞机在做侧翻和机动躲避等动作时会产生快速形变,而快速形变带来了目标自身局部灰度分布的剧烈变化。这使得基于表面变化建模的模型很难适应目标快速形变带来的综合变化。在对战斗机目标的稳定跟踪问题中,选择具有光照不变性的特征,构造对该特征具有鲁棒性的相似度量算法是解决问题的关键所在。

本文选择对光照不敏感的梯度特征对目标进行跟踪,并提出一种新的梯度特征相似性度量的方法。第一部分给出梯度特征相似性度量的方法,第二部分利用梯度特征和相应的度量方法对目标进行跟踪,第三部分利用目标梯度特征的空间分布特点自适应的估计目标尺寸,第四部分给出实验结果和分析。

2 图像梯度特征相似性度量

梯度特征不同于灰度特征和边缘特征。灰度图像可以使用经典的MAD方法进行相似性度量,边缘特征可以使用Hausdorff距离进行相似性度量。梯度图像并不是二值图像,它不能使用Hausdorff距离进行点集之间的相似性度量。而梯度图像的能量分布主要集中在灰度突变的区域,这些区域反映了物体的结构信息,其在整个图像中所占有的能量比例非常有限,因而也不能直接使用MAD的方法进行相似性度量。

2.1 梯度特征相似性度量定义

梯度特征的相似性度量算法步骤如下:

首先,给出MAD相似性度量公式:

其中:M和S为两幅梯度特征图像,xsize和ysize分别为图像的长和宽,其中M为模板图像。

Step 1:对两幅梯度特征图像分别进行尺度为δ的形态学膨胀处理,记为

Step 2:对模板图像进行变换,得到匹配权值模板,记为P=f(M)。

对给定的M,我们按照如下的方式定义f(M):

其中:t(M,α)表示对M做尺度为α的形态学膨胀,G(·,β)表示对图像做尺度为β的高斯平滑。

Step 3:梯度特征相似度量公式如下:

其中:膨胀尺度δ和α和限制了度量所能适应的形变范围。

2.2 与MAD的相似性度量的比较

我们用式(4)与MAD对图1的测试图像和相应的梯度特征图像,进行相似性度量的对比。这里使用相对归一化方式评价度量结果的好坏。

MAD的归一化相关系数:

梯度特征相似性近似度量的归一化相关系数:

从表1可以看出,由于a和c原始图像之间存在较大的光照变化,尽管在空间结构上两者更相像,但由于受到光照变化的影响,MAD的度量结果产生错误。在对其梯度图像相似性进行度量时,两种方法都得到了正确的结果,但式(4)的度量结果明显比MAD度量更能反映两幅图像之间相似程度和差异程度。

3 基于梯度特征匹配的跟踪算法

战斗机目标具有高速强机动的特点,尤其在其做侧翻、俯冲、拉升的机动动作时,将在短时间内产生较大形变,并且快速形变也带来了目标自身灰度的剧烈变化。本文采用基于梯度特征匹配的跟踪算法对空中目标进行跟踪。算法框图如下:

仿真过程中使用的模板刷新策略如下:

1)目标模板的刷新:

根据估计出来的目标尺寸,在匹配位置切割相应大小的图像作为下一帧匹配的目标模板。

2)匹配权值模板的刷新:

其中Mn-1为第n-1帧的目标模板,0<γ<1。

David Vignon[3]在实现快速的Hausdorff距离匹配时,使用了近似计算方法,其原理是使用模板图像中物体边缘一定范围内的点参与两个图像之间的相似性度量。这里使用的度量方式与此类似,加权模板P加大了模板边缘附近区域梯度的影响,减轻了梯度相对较小的平坦区域在匹配定位过程中的影响。图像序列中,当物体形变在一定范围内时,这种方法可以有效的度量前后两帧之间物体的相似性。在实际环境中,由于高帧速图像采样,物体在前后两帧中形变不会太大,因而这种近似度量可以满足实际应用的要求。而且,基于梯度特征的度量结果受光照变化影响很小,能够适应由高速形变带来的灰度上的变化。同时,与Hausdorff距离度量相比,这种度量不需要对图像进行复杂的边缘提取。

4 目标尺寸的自适应估计方法

图像序列中,战斗机在短时间内会因其机动动作产生较大变化,这种变化非常明显的体现在目标成像大小的变化上。如果一味的使用固定尺寸模板进行匹配跟踪,当目标面积减小时,跟踪点将逐渐漂移到目标以外,造成跟踪失败。因此,在跟踪过程中自适应的调整目标模板尺寸是增强跟踪稳定性的关键因素之一。与地面复杂背景相比,空中目标所处的背景即使在有云情况下,也要简单的多,因此,本文利用目标梯度特征在局部空间占优的特点对目标尺寸进行自适应估计。

Step 1:对梯度特征图像进行块求和运算:

式中:BSM(i,j)为块求和特征图像,G(u,v)为梯度特征图像,M和N分别为求和块的长宽。序列图像中,求和块的长宽分别取前一帧目标模板尺寸的2/3~3/4。

Step 2:将BSM(i,j)在以目标为中心的局部范围内分别沿X和Y方向向两侧求和投影,得到两个投影分布矢量Vector_y和Vector_x。

式中:(m,n)为投影处理区域的起点,X和Y为投影区域的长和高。投影区域的长和高一般取前一帧目标模板尺寸的3倍大小,如图4所示。

Step 3:根据两个投影矢量估计目标大小。下面以Vector_x为例。

第一步:找到Vector_x的最大值和最小值,并记录最大值所处的位置p_max。

第二步:构造分布投影曲线的分割门限。

第三步:从p_max的位置开始向两侧搜索,找到分布投影曲线与门限T相交的地方p_left和p_right。目标尺寸的估计值为|p_right-p_left|,如图5所示。

在跟踪过程中,我们不直接使用估计尺寸作为下一帧匹配定位的模板尺寸,而是按照一定的策略调整模板尺寸:对第K帧图像,如果有尺寸估计值大于(或小于)前一帧使用的模板尺寸size(k-1),那么当前目标模板尺寸size(k)=size(k-1)+1(或size(k)=size(k-1)-1)。

5 实验结果

实验使用了两组可见光的飞机视频进行算法测试跟踪。仿真过程中,梯度图像匹配时的参数为δ=,1α=,1β=,5γ=0.618,自适应模板尺寸估计的参数θ=0 5.。两组测试序列中,序列1共315帧,序列2共130帧。图6是高空拍摄飞机略过地面的视频,其中目标在姿态、灰度和大小上都产生了快速变化。图7是有云背景下飞机由大变小的视频,在跟踪的最后一段,目标仅有5×5左右大小。

从实验结果看,算法能有效的适应目标产生的剧烈形变和由形变带来的灰度变化。在目标由大变小的过程中,由于采用了自适应模板尺寸调整的策略,因而使跟踪算法能够适应小目标的情况,提高了跟踪的稳定性。在跟踪过程中,匹配权值模板在匹配时加强了目标区域的影响。因此,图6中当目标在模板中的面积比例迅速减小时,匹配权值模板能够在一定程度上抑制模板刷新过程中背景因素的干扰,从而抑制了逐帧刷新带来的模板漂移。

实验在标准PC上(P4 2.0GHz、512M)用Watcom C编程实现。两组测试序列中,序列1的模板尺寸变化范围最大,模板尺寸最小为20×24,最大为64×64。匹配跟踪窗口大小为(2xsize(k))×(2ysize(k)),其中,xsize(k)和ysize(k)为第k帧目标模板的长和高。若在跟踪窗口内采用逐点匹配搜索最优点,则计算时间不能满足实时系统的要求,但由于跟踪时的匹配搜索算法是在局部窗口内寻找最优点,因此,可以采用遗传算法对匹配搜索进行优化[11]。从本文匹配算法的公式运算形式看,完全可以使用基于遗传算法的快速匹配策略进行优化,使跟踪算法满足实时运行的要求。

6 结论

本文提出了一种新的梯度特征图像相似性度量的方法,并结合自适应目标尺寸估计的方法对具有高速形变的空中目标进行了匹配跟踪。空中目标大小变化迅速,然而背景相对简单,利用图像的纹理信息和目标梯度空间分布的特点对空中目标大小进行估计,自适应的调整目标模板尺寸能够有效的增强跟踪稳定性。与传统的Hausdorff边缘匹配算法相比,该方法避免了复杂的边缘提取过程,而且匹配算法仅涉及加减乘运算,有利于工程实现。

参考文献

[1]Lei Yun,Ding Xiaoqing,Wang Shengjin.Adaptive Sparse Vector Tracking Via Online Bayesian Learning[C]//The International Workshop on Intelligent Computing in Pattern Analysis.Heidelberg,Berlin:Springer-verlag,2006:35-45.

[2]Shi Jianbo,Tomasi Carlo.Good Features To Track[C]//Proc.IEEE Computer Society Conf.Computer Vision and Pattern Recognition.Seattle,WA,USA:IEEE,1994:593-600.

[3]Vignon David,Lovell Brian C,Andrews Robert J.General Purpose Real-Time Object Tracking Using Hausdorff Transforms[C]//Proceedings of Special Session on Intelligent Systems for Video Processing.Annency,France:IPMU,2002:1-6.

[4]芮挺,王金岩,沈春林,等.Hausdorff距离下的景像特征快速匹配[J].光电工程,2005,32(6):20-23.RUI Ting,WANG Jin-yan,SEHN Chun-lin,et al.Fast scene matching of image feature using Hausdorff distance[J].Opto-Electronic Engineering,2005,32(6):20-23.

[5]Olson Clark F.A Probabilistic Formulation for Hausdorff Matching[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Santa Barbara,CA,USA:IEEE,1998:150-156.

[6]Collins R,Liu Y,Leordeanu M.Online selection of discriminative tracking features[J].Pattern Analysis and Machine Intelligence,2005,27(10):1631-1643.

[7]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proc.IEEE Computer Society Conf.Computer Vision and Pattern Recognition.San Diego,USA:IEEE,2005,1:886-893.

[8]Comaniciu D,Ramesh V,Meer P.Real-time tracking of non-rigid objects using mean shift[C]//IEEE Conference on Computer Vision and Pattern Recognition.Hilton Head Island,South Carolina,USA:IEEE,2000,2:142-149.

[9]Cootes T F,Wheeler G V,Walker K N,et al.View-based active appearance models[C]//Proceedings of the Fourth IEEE International Conference on Automatic Face and Gesture Recognition.Washington,DC,USA:IEEE,2002:227-238.

[10]Vacchetti L,Lepetit V,Fua P.Fusing online and offline information for stable3D tracking in real-time[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Monona Terrace Convention Center Madison,Wisconsin,USA:IEEE,2003,2:241-248.

相似度量 篇6

关键词:XML文档,DOM解析,路径特征,结构相似性,评价指标

0 引言

可扩展标记语言XML作为互联网上一种信息表示和交换的标准,蕴含了大量的信息,对XML文档进行数据挖掘在许多数据应用领域(如信息检索、数据集成、文档分类和查询处理[1]等)起着重要作用并已成为研究热点。相似度计算是XML文档挖掘的关键,其精确程度将直接影响到最终的处理结果。由于XML文档的逻辑结构(元素、边的从属和嵌套关系等)能够在很大程度上体现该文档所蕴含的信息,因此可通过XML文档的结构特征来进行相似度的计算。但在计算过程中如何充分利用这些结构信息,以提高相似度计算的有效性,仍是目前面临的一个主要问题。所以,寻求一种基于结构特征的更加合理有效的相似度计算方法显得十分必要。

现有基于结构的XML文档相似性度量方法主要从元素、边集及路径等来进行考虑。利用XML文档中的最小构件元素进行相似度的计算,是以两个文档中公共元素占所有元素的比值大小[2]来决定相似性的,该方法较少反映XML文档的结构信息,过于简单,因此精确度不高。Lian W[3]等通过结构图来表示XML文档,并以边匹配方式(两个文档中相同边数占其中较大边数的比值)来确定的相似性,该方法同样丢失了较多结构信息,准确度也不高。Zhang K[4]等在Tai K C[5]的基础上通过指定插入删除等部分编辑操作的代价,提高了执行效率,但其编辑操作代价的确定对不同的数据集合缺乏普适性。Joshi S[6]等提出的树路径模型与树编辑距离相比更为简单,利用树路径计算相似度,时间复杂度有了明显降低,但该方法是以完全匹配方式来对路径序列进行匹配,不能在非完全匹配时更精确的描述路径间的相似性。Leung H[7]和杨厚群[8]等通过找出XML文档的频繁路径来对其进行聚类,但其最小支持度大小通常需要通过多次实验得出,难以设定。朴勇[9]等提出了一种带有位置权重的基于树路径的XML文档结构相似度计算方法,对属于不同DTD的XML文档取得了较好的聚类效果,但其没有考虑路径位置和频率对相似度的影响。廖浩伟[10]等提出了一种基于树路径匹配的网页结构相似度算法,该算法对结构差异性较小的文档能够较好地进行区分,但其相似度计算过程未考虑节点位置和路径频率对相似度的影响,同样忽略了部分结构信息。

本文针对上述相似度计算方法的不足,基于扩展的树路径模型,充分利用提取的路径特征,对文献[10]中提到的树路径序列和位置相似度进行了改进,并将路径频率作为路径相似度的一部分,以三者的加权和作为整个路径的相似度,提出了一种更符合实际的基于路径特征的XML文档结构相似性度量方法SSPF。通过K-means算法进行聚类,并与文献[10]及传统路径相似度计算方法进行比较,实验结果验证了该方法的有效性。

1 XML文档预处理

1.1 XML文档解析

XML文档解析是指通过对XML文档按从头到尾的顺序进行分析,以提取其中的结构信息的操作[11]。本文对XML文档的解析采用的是文档对象模型DOM方式,它是将整篇XML文档以树状结构一次性解析并读入内存,保存为一个对象供用户访问,较为灵活。

例如对于图1(a)所示的XML文档,经过DOM解析,在计算机内存中将生成该文档的DOM解析树,如图1(b)所示。

1.2 路径特征提取

本文提出的相似度计算方法涉及到路径的序列、位置和频率信息,因此需要首先根据树路径模型对路径特征进行提取。

定义1(树路径模型)DTPath Model=(f,v1v2…vn,t1t2…tf)。其中(v1,v2,…,vn)为DOM树中某一路径从根节点到叶子节点所经历的所有标签节点的序列,f为该路径在整个DOM树中出现的次数,(t1,t2,…,tf)表示这f次出现的相对位置,也就是将叶子节点从左到右依次进行排序,该序号即为树路径在DOM树中的位置。

基于该树路径模型的路径特征提取可将每个XML文档重新表示为一个树路径的集合。该模型去除了重复路径,在不丢失结构信息的情况下,能够有效减小路径集合的规模。

2 基于路径特征的相似性度量方法SSPF

基于路径特征的XML文档结构相似性度量本质上是路径相似度的计算。为了能更充分地反映文档结构特征,本文提出的SSPF相似度计算方法的路径相似度分为序列相似度、位置相似度和频率相似度三部分。传统路径相似度计算方法中的路径相似性及文献[10]中的序列相似性都仅仅是以最长公共子序列长度与路径间最长路径长度的比值来计算的,而本文序列相似度考虑了节点位置权重对序列相似度的影响,并对计算公式进行了重新定义。而在计算位置相似度时,文献[10]是将位置和频率合在一起考虑,这样不利于真正位置相似度的计算,因此本文将其分离,然后重新定义了新的位置相似度的计算公式,并提出了路径频率相似度,而路径相似度则为三者的加权和。

定义2(序列相似度)设树路径Pi=(fi,vi1vi2…vim,ti1ti2…tifi),Pj=(fj,vj1vj2…vjn,tj1tj2…tjfj),Pi、Pj的最长公共子序列LCS=(v1,v2,…,vk),LCS中各节点对应于树路径Pi、Pj中的下标序列分别为(l1,l2,…,lk)和(h1,h2,…,hk),则树路径Pi、Pj的序列相似度计算公式为:

式中,k为最长公共子序列的长度,max(m,n)表示取Pi、Pj中路径较长者,wi表示路径序列中相应节点的位置权重,其详细说明参见定义3。

定义3(节点位置权重)设i表示树路径中节点在DOM树中所处的层次位置,则节点位置权重函数定义如下:

从中可以看出,wi随i值的增大而减小,且具有如下性质:

在计算路径序列相似度时,之所以引入节点位置权重,而不是简单的通过最长公共子序列的长度与最长路径长度的比值来计算,是因为处于不同层次的节点对DOM树结构的重要程度不同,高层节点较低层节点对XML文档结构相似性的影响更大。例如,对路径序列P1=(a,b,c,d)、P2=(a,b,x)和P3=(a,y,b),虽然P2、P3同P1的最长公共子序列均为(a,b),但实际P2与P1的相似度较P3与P1的相似度要更高。

定义4(位置相似度)设树路径Pi=(fi,vi1vi2…vim,ti1ti2…tifi),Pj=(fj,vj1vj2…vjn,tj1tj2…tjfj),则Pi、Pj的位置相似度计算公式如下:

式中,d(tik)表示路径Pi在tik位置处同路径Pj间的最近距离,d(tjk)同理,其用公式表示[10]为:

设dni、dnj表示路径Pi、Pj所属DOM树中各自总的叶节点个数,即树路径位置编号的最大值,则dn、dni的计算公式为:

定义5(频率相似度)若树路径Pi和Pj在各自DOM树中的频率(出现次数)分别为fi和fj,则路径Pi和Pj的频率相似度计算公式定义为:

路径频率作为路径特征的一部分,理应对树路径相似度有所贡献。对于属于不同类型的文档,若二者的频率(出现次数)相近,其频率之比反而较大,这种偶然因素有可能违背本文提出频率相似度的初衷。因此式(7)对频率相似度的定义不是单纯的频率之比,而是通过引入文档路径总数dni来尽可能地使频率相似度更加准确,对最终路径相似度的计算有所帮助。而上述定义是基于本文认为属于同一类别文档的路径数目差别不大(相近的可能性更大),而不同类型间文档的路径条数出现较大差异的可能性越大;同时频率相似度能够在一定程度上反映出树路径在DOM树中出现的频次是否一致。频率相似度大(出现次数较接近),说明两条路径更可能属于同一类DOM树;反之,频率相似度小(出现次数差别较大),则说明两条路径归于同一类DOM树的可能性越小。

定义6(路径相似度)基于上述定义,若树路径P1与P2的序列、位置和频率相似度分别为ss、sp和sf,则P1、P2的路径相似度表示为:

其中,系数u、v以及(1-u-v)分别为路径序列、位置和频率相似度的权重,通过动态调节u、v的值,可以改变这三部分在整个路径相似性中的重要程度,系数u、v满足0≤u、v≤1,0≤u+v≤1。

在树路径相似度的基础上,XML文档结构相似度可通过最大路径相似度来计算。

定义7(文档相似度)给定两个XML文档doc1、doc2,其树路径集合XMLDTPS1=(P1,P2,…,Pm)、XMLDTPS2=(P1,P2,…,Pn),且n≤m。将XMLDTPS1和XMLDTPS2中的每条路径两两匹配进行路径相似度的计算,从而得到一个最大路径相似度的集合Smax=(S1,S2,…,Sn),则文档doc1和doc2的结构相似度[9]可表示为:

定义8(相似度矩阵)在对XML文档集进行聚类挖掘时,相似度矩阵将作为度量类间距离的依据。若有n个XML文档需要进行相似度的计算,根据前面定义的相似度计算方法,计算所有XML文档间的相似度,其结果可保存为一个n×n的矩阵,该矩阵即被称为相似度矩阵,表示如下:

其中,aij=simdoc(doci,docj),表示文档i与文档j的相似度值,且aij∈[0,1]。该矩阵是一个对称矩阵,即aij=aji,且主对角线元素均为1。

3 SSPF方法流程及描述

3.1 方法流程

XML文档结构相似度计算的算法流程如图2所示。

3.2 过程描述

输入:XML文档集{doc1,doc2,…,docn}

输出:相似度矩阵similarity matrixn×n

(1)对输入的XML文档集中的元素进行预处理(包括单词大小写统一,根据Word Net同义词集进行语义消岐等),并通过XML文档解析模块将其解析为DOM树模型;

(2)根据DOM树提取XML文档的路径序列、位置和频率特征,构造树路径集合XMLDTPS。//通过DOM树的叶子节点进行提取

(3)根据提取的路径特征求XML文档间的相似度:

4 实验结果与分析

为了验证本文所提SSPF相似度计算方法的有效性,采用C++语言进行了编程实现。实验用的PC机配置为CPU2.1 GHz,2 GB内存,160 GB硬盘,Windows XP操作系统,仿真平台为Visual Studio 2008和matlab 7.11。

实验数据来自两个不同的数据集,其中一个为现实生活中真实的数据集Texas[12],包括automobile、movie、reference和software 4个类别,共有20个不同网站的101个XML文档。其中automobile、movie和software各20个,reference有41个。另外一个数据集为美国威斯康星大学用于XML检索研究的NIAGA-RA[13]数据集,本实验从中选取xml-movies类别的25个XML文档,作为第一个实验数据集的补充。

4.1 相似度比较

好的相似度计算方法应该使属于同一类别文档之间的相似度尽可能大,但同时也能在一定程度上反映出同类型文档间的细微差别。为了验证本文所提相似度计算方法SSPF(u=v=1/3)在改善XML文档相似度计算上的效果,与传统树路径方法和本文所改进的文献[10]中的方法进行比较,相似度计算结果如表1所列。表中C1至C5分别对应实验数据集中的automobile、movie、reference、software和xml-movies这5个类别。其中,每个类别下的相似度为该类别中所有文档间相似度的平均值。

从表1可以看出,对于C1-C4这几个类别,传统树路径方法所得的相似度计算结果均不是很高,而文献[10]中的方法和本文改进的SSPF方法对这4类各自的相似度计算结果均有所提高,其中SSPF方法更甚,这说明本文提出的SSPF方法能在一定程度上使原本属于同一类别文档之间的相似度尽可能的大。同时可以看到,对于C5类别,传统树路径方法的相似度计算结果较大,这与其对C1-C4的计算结果形成了较大的反差。通过对C5类别中XML文档的分析发现,该类别中文档的结构差异性非常之小(路径序列基本一致),其文档间的差异性主要体现在路径位置和频率上,因此采用仅基于路径序列来计算相似度地传统树路径方法,计算出的相似度值自然很高,但却不能很好地体现文档间在路径位置和频率上的差异。正是由于以上原因,文献[10]加入了位置相似度,而本文改进的SSPF方法在优化序列和位置相似度的基础上,又加入了频率相似度的计算,使得相似度计算结果能更加真实地反映XML文档间的实际相似性。

4.2 聚类分析

在相似度计算的基础上,本文采用K-means聚类算法进行聚类,然后以信息检索中常用的准确率、召回率和F1测度来对实验结果进行评价,评价指标的计算公式如下:

其中,A为正确聚类的文档数,B为属于不同类但被聚到一起的文档数,C为属于同一类但未被聚到一起的文档数。

由式(8)可知,当u、v取不同的值时,SSPF方法得到的相似度结果会有所不同,值越大,其所对应的子相似度对整个路径相似度的影响就越大。为了测试每个子相似度在整个路径相似度中所起的作用,下面分别对u、v赋予不同的值,每一种取值都对应一种新的SSPF方法。当u=0.8,v=0.1时,记为方法SSPF-1;当u=v=0.5时,记为方法SSPF-2;当u=v=1/3时,记为方法SPFS-3;当u=0.1,v=0.8时,记为方法SPFS-4;当u=v=0.1时,记为方法SPFS-5。上述方法与文献[10]中的方法在聚类的准确率、召回率和F1测度的比较分别如图3至图5所示。

上述实验结果是通过多次随机选取初始聚类中心,找出效果最好的3次,对这3次聚类的准确率、召回率和F1测度分别求平均值得到的。从中可以看出,方法SSPF-1(u=0.8,v=0.1)和方法SSPF-2(u=v=0.5)在聚类的召回率、准确率和F1测度上均优于文献[10]中的方法。即当为序列相似度、位置相似度和频率相似度赋予合适的权重时,SSPF方法具有较好的聚类效果。这也正验证了SSPF方法与文献[10]的方法相比,因为考虑了节点位置权重,优化了序列、位置相似度的定义,并引入了频率相似度,从而更能反映XML文档的结构特征,使得相似度计算方法更为合理。而方法SSPF-3(u=v=1/3)、方法SSPF-4(u=0.1,v=0.8)和方法SSPF-5(u=v=0.1)的聚类效果较文献[10]中的方法有了明显的降低。分析发现,随着u取值的减小,其对应方法的聚类效果也越来越差。这是因为本文基于路径特征的XML文档结构相似度计算是建立在路径序列基础之上的,路径的位置和频率相似度则是作为路径序列相似度的补充,从而保证相似度的计算结果更为精确合理。因此在相似度计算过程中,必须保证以序列相似度作为整个路径相似度的主体,否则计算出的相似度值将产生较大失真,从而影响聚类效果。另外,从图5中可以看出,在不同方法下某些类别的召回率相对较低(如C4),这是因为同一类XML文档可能来自不同的DTD,对于同一事物的表示可能有多种方法。例如,在C4所代表的software类别中,software和component都用来表示“软件”,但在Word Net中这二者不属于同义词,而本文在对XML文档进行预处理时,是以Word Net所提供的同义词集为基础的,从而导致某些在语义上相似的标签序列无法匹配,使召回率降低。而C5类由于结构形式较统一,因此召回率相对较高。

5 结语

相似度量 篇7

矿井通风机作为矿井通风系统的核心设备, 其运行状态直接关系着井下作业人员、设备和矿山的安全以及采矿作业的效率。因此, 当通风机出现机械故障时, 及时发现并确定其故障类型, 对通风机的正常运行与维护有着重要的作用。通常情况下, 对通风机这类旋转机械的故障诊断多采用振动分析法, 就诊断手段而言, 可分为基于知识的诊断、基于解析模型的诊断和基于信号处理的诊断[1,2,3]。

由于煤矿井下环境恶劣、复杂, 因此, 矿井通风机故障及其故障表现之间关系复杂, 且很多信息具有不确定性, 是一典型的模糊系统。模糊环境下的事物常被表示成模糊集, 传统的模糊集仅涉及元素对模糊概念的肯定隶属情况, 但现实中往往出现元素对模糊概念的肯定与否定2个方面, 且其中体现出介于肯定与否定之间的踌躇性。Gau和Buechrer在1993年提出的Vague集[4]是模糊集的一种推广形式。在Vague集中, 论域内的元素和论域上的集合之间的关系是“在一定范围内属于”的关系, 是一个区间的表示, 该区间既给出支持证据的程度, 也给出反对证据的程度。与传统模糊集相比, Vague集具有更强的信息表达能力和灵活性。因此, 本文提出了一种基于Vague集相似度量的矿井通风机故障诊断方法, 通过计算故障知识Vague集与采样得到的故障样本Vague集之间的相似度量并进行比较, 从而得到故障诊断结果。

1 Vague集理论

1.1 Vague集

定义1[5] 设X是一个对象空间, 即论域, 其中的任意一个元素用x表示, X上的一个Vague集V用1个真隶属函数tV和1个假隶属函数fV表示。tV (x) 是从支持x的证据所导出的x的肯定隶属度下界;fV (x) 是从反对x的证据所导出的x的否定隶属度下界, tV (x) 和fV (x) 将区间[0, 1]中的每一个实数和X中的每一点联系起来, 即tV (x) :X→[0, 1], fV (x) :X→[0, 1], x关于V的隶属度V (x) 表示为[tV (x) , 1-fV (x) ], 其中:tV (x) +fV (x) ≤1。

当论域X连续时, V可表示为

undefined

当论域X离散时, V可表示为

undefined

下文中讨论的论域, 如无特别说明都是离散的。

1.2 Vague集相似度量

定义2[6] 设X是一个非空集合, V是X上所有的Vague集组成的集合, A∈X, B∈X, M:V×V→[0, 1], 若M (A, B) 满足条件: (1) 0≤M (A, B) ≤1; (2) M (A, B) =1, 当且仅当A=B时成立; (3) M (A, B) =M (B, A) , 则称M (A, B) 为Vague集A和B的相似度量。

参考文献[6]定义的Vague集相似度量条件过于宽松, 参考文献[7]对其进行了改进, 在Vague相似度量的定义中增加了2个条件: (1) M (A, B) =0⇔VA (xi) =[0, 0], VB (xi) =[1]或VA (xi) =[1], VB (xi) =[0, 0]; (2) 若A⊆B⊆C, 则M (A, C) ≤min (M (A, B) , M (B, C) ) 。增加的第一个条件强调有且仅有非模糊集间的相似度量才会达到最小值0。该约束是合理的, 也是必要的。

为合理度量2个Vague集之间的相似程度, 参考文献[8]提出了基于加权因子的Vague集相似度量的改进方法, 该方法不仅满足Vague集相似度量定义中上述增加的2个条件, 且使其更加完备、客观、合理。

设x=[tx, 1-fx]、y=[ty, 1-fy]为论域X上的2个Vague值, 参考文献[8]给出的2个Vague值的相似度量为

Mz (x, y) =1-λ1|tx-ty- (fx-fy) |-

λ2|tx-ty+fx-fy|-

λ3 (|tx-ty|+|fx-fy|) (3)

式中:λi≥0 (i=1, 2, 3) 为加权因子, 且满足undefined、undefined, 或undefined、undefined。

设A和B为论域X={x1, x2, …, xn}上的2个Vague集, 其中:undefined, 则Vague集A和B由算术平均值导出的相似度量为

undefined

式中:VA (xi) =[tA (xi) , 1-fA (xi) ]为Vague集A中xi的隶属度;VB (xi) =[tB (xi) , 1-fB (xi) ]为Vague集B中xi的隶属度;i=1, 2, …, n。

2 基于Vague集相似度量的故障诊断算法

通常, 故障诊断首先由传感器检测故障信号, 然后分析故障特征向量, 最后确定故障类型。假设某故障类型诊断由n个故障特征值构成的特征向量来确定, 将这n个特征值表示为一论域X={x1, x2, …, xn}, 故障类型为Fi, i=1, 2, …, m, 则该故障特征向量对故障类型Fi的刻划程度可用Vague集表示为

Fi={[ti1, 1-fi1]/x1, [ti2, 1-fi2]/x2, …,

[tin, 1-fin]/xn} (i=1, 2, …, m) (5)

由传感器检测到的故障样本可用Vague集表示为

S={[t1, 1-f1]/x1, [t2, 1-f2]/x2, …,

[tn, 1-fn]/xn} (6)

则基于Vague集相似度量的故障诊断算法步骤如下:

(1) 根据权威或专家的故障特征规律确定故障类型Fi的Vague集表示;

(2) 将传感器检测到的故障样本S表示成Vague集形式;

(3) 根据式 (4) 依次计算Vague集Fi和S的相似度量M (Fi, S) ;

(4) 找出所计算出的最大相似度量, 其所对应的Fi即为最可能出现的故障。

3 矿井通风机故障诊断实例

矿井通风机的机械振动特性分析是进行振动监测和故障诊断的前提, 是提取故障特征的关键。参考文献[9]给出了矿井通风机常见故障的故障类型及其特征之间的关系, 即故障知识。现将其故障特征值用Vague值表示, 如表1所示。其中, f1为平衡故障引起的振动频率;f2为叶片故障引起的振动频率;f0为外圈特征频率;fi为内圈特征频率;fb为滚动体特征频率;ff为保持架特征频率。可通过分析振动信号中是否含有这些频率成分来识别故障发生的部位。

下面举例说明Vague集相似度量在矿井通风机故障诊断中的应用。根据前文的故障诊断算法步骤, 首先确定故障类型Fi的Vague集表示。由表1可知, 矿井通风机常见的故障类型有8种, 依次表示为F1, F2, …, F8, 8个故障特征构成论域X={x1, x2, …, x8}, 则X上8个通风机故障知识由以下Vague集表示:

F1=[1]/x1+4[0.18, 0.22]/x2+[0.39, 0.41]/

x3+[0.09, 0.11]/x4+[0, 0]/x5+[0, 0]/x6+[0, 0]/x7+[0, 0]/x8 (7)

F2=[0.18, 0.22]/x1+[1]/x2+[0.39, 0.41]/

x3+[0.68, 0.72]/x4+[0, 0]/x5+[0, 0]/x6+[0, 0]/x7+[0, 0]/x8 (8)

︙F8=[0.18, 0.22]/x1+[0.18, 0.22]/x2+

[0.39, 0.41]/x3+[0.09, 0.11]/x4+[0, 0]/

x5+[0, 0]/x6+[0, 0]/x7+[1]/x8 (9)

假设矿井通风机出现转子不平衡故障。当矿井通风机的转速为3 000 r/min、采样频率为1 kHz时, 检测到的振动信号经预处理后如图1所示, 其对应的幅值谱如图2所示。

对检测到的振动信号进行故障特征提取, 然后用Vague集表示, 可得检测的故障样本为

S=[0.89, 0.93]/x1+[0.15, 0.25]/x2+[0.33, 0.45]/x3+[0.1, 0.12]/x4+[0, 0]/x5+

[0, 0]/x6+[0, 0]/x7+[0, 0]/x8 (10)

然后, 用式 (4) 计算每个故障知识Vague集与故障样本Vague集之间的相似度量。分别取undefined、undefined和undefined、undefined、undefined这2组加权因子, 得到的计算结果如表2所示。

由表2可知, 采用2种不同加权因子计算得到的结果一致, 且Vague集相似度量M (F1, S) 最大, 分别为0.976 6和0.976 9, 诊断结果为矿井通风机的不平衡故障。

4 结语

从以上实例可看出, 本文提出的基于Vague集相似度量的故障诊断方法对矿井通风机故障诊断结果与实际情况相符, 说明该方法具有合理性。根据Vague集之间的相似度量大小可推断出可能发生的故障顺序, 为多故障诊断问题提供了科学、合理的诊断依据。

参考文献

[1]荆双喜, 冷军发, 李臻.基于小波-神经网络的矿用通风机故障诊断研究[J].煤炭学报, 2004, 29 (6) :736~739.

[2]吴桂峰, 翟玉庆, 陈虹, 等.基于小波-神经网络的电机振动故障诊断[J].控制工程, 2004, 11 (2) :152~154, 176.

[3]戈志华, 牛玉广, 李如翔, 等.汽轮电机组振动故障诊断系统自学习的研究[J].中国电机工程学报, 2000, 20 (5) :76~79.

[4]GAU WL, BUECHRER DJ.Vague Sets[J].Systems, Man, and Cybernetics, 1993, 23 (2) :610~614.

[5]刘华文.模糊模式识别的基础———相似度量[J].模式识别与人工智能, 2004, 17 (2) :141~145.

[6]CHEN S M.Si milarity Measures between Vague Setsand Between Elements[J].Systems, Man, andCybernetics, 1997, 27 (1) :153~158.

[7]黄国顺, 刘云生.Vague集相似度量及其在模式识别中的应用[J].复旦大学学报:自然科学版, 2004, 43 (5) :869~873.

[8]黄国顺.基于加权因子的Vague (值) 集相似度量[J].计算机工程与应用, 2007, 43 (14) :177~179, 229.

【相似度量】推荐阅读:

相似性度量08-30

度量方法07-15

测试度量07-18

度量学习10-20

度量技术05-13

度量模型07-02

度量问题07-24

质量度量08-17

度量研究10-29

角的度量10-24

上一篇:精准化营销下一篇:多元唱法