相似性度量

2024-08-30

相似性度量（共7篇）

相似性度量篇1

随着地理信息科学的快速发展, 空间数据的相似性研究近年来逐渐得到学者们的更多重视。研究空间相似关系, 不仅可以在理论上补充完善有关空间关系的内容, 而且可以促进空间信息在各方面的应用。

1 相似度度量的一般步骤

1) 提出影响相似性的特征类型。Frank Richard将相似度分为3 个类型, 形状相似、位置相似、语义相似[1]。闫浩文、刘涛从图形特征和属性特征的角度将多尺度地图相似性类型分为拓扑相似、方向相似、距离相似、几何相似及属性相似[2,3]。这些分类方法还不够全面, 而且没有考虑多尺度地图的特点。

2) 对各类型相似度分别进行计算。进而综合各类型相似度的计算结果, 得到总体相似度。

2 多尺度地图相似性度量的常用模型

2.1 概念邻域模型

概念邻域模型用于描述要素地图两两之间的拓扑距离, 由于点要素拓扑关系比较单一, 该模型适用于线要素和面要素的交集模型。一般通过概念邻域图得到概念邻差异矩阵, 矩阵中的值对应于两两之间的拓扑距离。

2.2 Voronoi图

Voronoi图, 又叫泰森多边形或Dirichlet图, 它是由一组连接两邻点直线的垂直平分线组成的连续多边形。由于Voronoi图的每个点与它的最近邻区域相关联, 可以用它代替点要素进行分析。同时, 也有基于线和面要素的Voronoi图构建方法。

2.3 投影模型

投影模型是将要素投影到指定坐标系, 利用其在坐标系中的方向、长度以及夹角等特征来衡量相似度。最典型的方法是将坐标分为8 个方位, 即可得到每一个要素对应的方位, 从而计算方向关系的相似度。

3 多尺度地图相似性度量的研究现状

相似性度量的方法按照研究对象的数据类型不同分为矢量数据相似性度量和图像数据相似性度量。笔者主要研究矢量数据的相似性度量方法。矢量数据根据要素类型的不同, 又可分为点、线、面3 种。下面针对于这3 种不同的要素地图, 对现有度量方法进行分析。

3.1 点状要素地图相似性度量

梅耀元运用栅格数据思想和多元统计方法, 将对点群的研究转化为对面状目标的研究[4]。对同一个点群化简前后的密度、面积以及空间方向的相似进行研究。其中, 将点群凸包所占栅格的面积比上点群中点的个数作为点群密度。使用点群构建的Delaunay (三角刨分算法) 三角网面积作为点群面积。使用点群最小外接矩形的长轴与水平轴的夹角作为点群方向角。这里的面积相似实际上就是几何相似的一种, 密度相似也可以认为是距离相似。缺点是对于点群的方向特征, 使用点群的主方向会更加直观有效一些。

杨伟芳基于Voronoi图对点群进行研究[5]。分别考虑点群目标拓扑关系相似, 距离关系相似和属性特征相似。在构建Voronoi图之后, 以每个点的一阶邻域点的数目作为其拓扑指数, 比较两组点群总的拓扑指数即可得到拓扑相似度。以每个点的相对局部密度作为距离关系度量指标。以点的重要系数作为属性特征。该方法认为点化简前后点的位置并没有发生变化, 即没有方向关系的变化。但是, 对于整个点群而言, 其方向特征还是发生了改变, 所以该方法缺乏对方向关系的考虑, 最终难以得到满意的结果。

综上所述, 对于点群目标, 由于地理空间中的单个点目标是没有形状大小的空间图形, 一般将点群目标的相似性研究转化为对面状目标的研究。

3.2 线状要素地图相似性度量

闫浩文考虑到拓扑关系相似、距离关系相似以及属性特征相似, 针对这3 种不同线要素的特点得到不同度量模型。对于等高线地图, 使用每条等高线的相邻等高线数目作为拓扑指标, 使用等高线密度作为距离指标, 使用等高线间距作为属性指标[6]。刘涛顾及拓扑关系相似度、方向关系相似度、距离关系相似度以及几何特征相似度提出了度量线要素相似度的综合模型[7]。利用线要素拓扑关系概念邻域图定义线群之间的拓扑关系相似度, 利用方向均值定义线群之间的方向关系相似度以及 “环形方差”定义线群目标之间的距离相似度, 同时考虑线要素的平均长度、曲折度等几何特征得到其几何特征的相似度。缺点是范围太广导致方法笼统。各类线要素地图的特点各不相同, 应该针对特定类型线要素进行具体分析。

3.3 面状要素地图相似性度量

Frank Richard分别考虑了面要素地图的形状相似、位置相似以及信息内容相似[1]。对于形状方面, 先对综合前后面要素地图进行匹配分析, 继而求得差异度。对于位置相似, 使用面要素的Voronoi图得到面要素距离, 以该距离作为位置指标。对于信息内容相似, 实际上就是属性特征相似, 采用经典的信息熵模型得到各自的信息熵, 以该信息熵作为属性信息相似度指标。该方法通过度量两幅地图的差异性得到其相似性, 是一个很好的策略, 缺点是缺少从全局角度对地图进行整体描述[8,9]。

闫浩文研究了面要素的拓扑关系、方向关系、距离关系[6]。使用面要素Voronoi图得到要素拓扑关系, 将整幅地图中各种拓扑关系的数目作为指标, 使用交集指数作为方向关系指标, 使用平均面要素密度作为距离关系指标。该方法缺点在于, 拓扑关系相似度计算以总的拓扑关系数量作为指标, 与面要素数目的关系太大。

4 结束语

4.1 需要进一步解决的问题

归纳上述方法, 得出目前多尺度地图相似性度量主要存在以下问题:

1) 在实际应用当中, 使用最多的是全要素地图。现有研究方法对于数据要求较高, 大多只能解决单一类型要素地图。

2) 现有研究对相似性类型的考虑还不够周全, 且大多是从数据特征的角度分析相似性类型, 笔者认为应该从多尺度地图的特点出发。针对多尺度地图, 其最大特点在于地图综合前后需要对空间数据做一些改变, 以适应特定比例尺下的制图要求。这种变化即对应两者的差异性, 得到差异性类型即可得到对应的相似性类型。另外, 地图信息论研究的是地图传递给使用者的信息, 这种地图信息的类型也可作为相似性的类型。

3) 对于不同类型的相似性, 选取合适的度量模型依旧是一个值得深入探讨的问题。

4) 相似度计算中权重的确定还需要进一步研究。采用人为主观赋权法不够科学, 可以考虑使用熵权法, 根据各指标的变异程度, 利用信息熵计算出各指标的熵权, 再通过熵权对各指标的权值进行修正, 从而得到较为客观的权重值。

5) 对相似度计算结果的评价目前比较缺乏。

4.2 展望

地图相似性度量对于空间信息的查询检索、空间分析、空间数据挖掘以及地图综合具有重要意义。多尺度地图相似性度量依旧存在适用性不强, 相似性类型不够全面, 模型选取不是很合适, 总的相似度计算结果不够客观, 对计算结果缺乏有效评价等问题, 这些问题有待进一步研究。

摘要：随着地理信息科学的快速发展, 对空间数据相似性的研究也逐渐得到学者们的重视。本文在归纳多尺度地图相似性度量的一般步骤基础之上, 介绍了常用模型。重点对多尺度地图的相似性度量方法进行了归类与分析, 得出了现有研究方法存在的问题并指明了需要进一步研究的方向。

关键词：多尺度,地图,相似性

参考文献

[1]Frank R, Ester M.A Quantitative Similarity Measure for Maps[J].Progress in Spatial Data Handling, 2006:435-450.

[2]Yan H.Fundamental theories of spatial similarity relations in multi-scale map spaces[J].Chinese Geographical Science, 2010, 20 (1) :18-22.

[3]刘涛, 杜清运, 毛海辰.空间线群目标相似度计算模型研究[J].武汉大学学报 (信息科学版) , 2012, 37 (8) :992-995.

[4]梅耀元, 闫浩文, 李强.多尺度地理空间点状要素相似关系研究[J].测绘与空间地理信息, 2010 (2) :18-20.

[5]Yang Weifang, Yan Haowen, Li Jonathan.Formula for calculating spatial similarity degrees between point clouds on multi-scale maps taking map scale change as the only dependent variable[J].大地测量与地球动力学 (英文版) , 2015 (2) :1-13.

[6]Yan H, Li J.Applications of Spatial Similarity Relations in Map Generalization[M].Spatial Similarity Relations in Multi-scale Map Spaces.Springer International Publishing, 2015:157-181.

[7]刘涛.空间群组目标相似关系及计算模型研究[M].北京:电子工业出版社, 2013:629-629.

[8]闫浩文, 褚衍东.多尺度地图空间相似关系基本问题研究[J].地理与地理信息科学, 2009 (4) :42-44, 48.

[9]吴静, 尹涛.多尺度空间关系相似性研究[J].测绘科学, 2011 (4) :69-71.

相似性度量篇2

在计算机视觉领域, 图像匹配仍然是当前研究的热点问题。基于特征的匹配方法[1], 因为根据图像中趋于稳定的少量特征进行匹配, 使得运算速度快、匹配效果好, 所以成为目前研究最多、应用最广泛的一种方法。但是, 这种方法需要在图像间进行遍历性的匹配运算, 存在计算量大, 且精度不高的问题。

1999年, Lowe提出了SIFT (Scale Invariant Feature Transform) 算法[2], 该算法利用高斯差分在图像的多尺度空间中快速求解高斯拉普拉斯空间中的极值点, 加快了特征提取的速度, 提取的SIFT特征对于图像平移、缩放、旋转具有不变性, 并且对于仿射变换、视觉变化、光照变化有较强的稳定性和很好的匹配鲁棒性, 所以被广泛应用于计算机视觉的图像匹配、图像检索和模式识别等方面[3,5]。虽然SIFT算法具有上述的优点, 但该算法首先要将彩色图像灰度化, 仅利用图像的灰度信息和特征点的局部邻域信息, 忽略了图像的颜色信息, 导致不能识别图像内具有相似结构的特征点。

文章提出基于SIFT的多特征相似性度量算法, 首先对彩色壁画图像提取SIFT特征点与特征向量, 然后对每个特征点提取HSI彩色特征, 最后按定义的相似性度量公式计算两个特征点之间的距离, 确定二者是否匹配。

1 特征提取

1.1 SIFT特征提取

尺度空间极值点的检测采用DOG方法, 将一个像素点与它相邻的26个点相比较, 如果是最大值或最小值, 就作为图像中的一个特征点。以特征点为中心, 在16×16的邻域内, 将采样点与特征点的相对方向通过高斯加权后, 分别归入8个方向的梯度方向直方图, 最后获得4×4×8的128维特征向量来描述一个SIFT特征点。

SIFT算法的两个关键步骤是关键点检测和关键点描述。在关键点检测阶段, 大多是利用两种不同的方法, 即尺度不变检测和致密采样。文章采用致密采样进行特征检测, 理由如下。一方面, 尺度不变检测器在描绘均匀信息时是低效的, 而壁画图像中包含着这样的信息。另一方面, 在特征匹配时, 通过致密采样得到的关键点优于随机抽样和尺度不变的探测器[6]。

SIFT算法首先将彩色图像灰度化, 提取的特征关注图像的梯度信息, 忽视了图像的彩色信息。文章对彩色图像提取特征, 实验发现图像的误匹配点中, 存在着彩色信息不一致的问题。因此, 文章对图像既提取SIFT特征, 又提取颜色特征, 对多特征融合设计相似性度量方案, 可以减少误匹配率, 提高匹配效果。

1.2 颜色特征提取

为了解决误匹配中存在的SIFT梯度信息一致, 彩色信息不一致的问题, 我们在对特征点提取SIFT特征后, 再次提取其颜色特征。由于RGB颜色模型只考虑图像的亮度信息, 而HSI颜色模型全面考虑图像的亮度和颜色信息, 因而在开发基于彩色描述的图像处理算法中, HSI模型更为有用[7], 文章提取HSI彩色特征。

HSI颜色模型中, H表示色调, 指的是人的感官对不同颜色的感受, 描述纯色的属性;S表示饱和度, 描述的是颜色的纯度;I表示强度, 描述的是颜色的明亮程度。

从RGB颜色模型通过转换可得到图像的H、S和I的值, 设RGB颜色空间的任一点分量值为R、G和B, 通过以下的计算公式, 我们可以得到每个SIFT特征点k的H、S和I的值, 并记为H (k) 、S (k) 和I (k) 。

设:

则:

2 相似性度量

对于图像中的SIFT特征, 首先进行归一化处理, 然后采用欧式距离计算相似性。设特征点i的SIFT特征向量为f_s (i) , 其归一化后的特征向量为, 归一化过程如公式 (5) 所示。

其中|f_s (i) |为向量f_s (i) 的模。

则特征点i, j的SIFT相似性度量采用欧式距离计算公式为

对于图像中的HSI特征, 先归一化处理, 再采用卡方距离计算相似性。设特征点i的HSI特征向量为f_h (i) , 其归一化后的特征向量为, 归一化过程如公式 (7) 所示。

其中|f_h (i) |为向量f_h (i) 的模。

则特征点i, j的HSI相似性度量采用卡方距离计算公式为

将公式 (6) 和 (7) 组合起来, 可定义特征点i, j的多特征相似性度量计算公式为

式中, α和β为权重, 并且满足α+β=1。

对于两幅图像, 一幅我们称为基准图像, 另一幅为待匹配图像, 当提取出各个图像的特征点并生成描述符后, 通过相似性度量判断特征点是否匹配。相似性度量实际上求解特征描述向量之间的相似距离。良好的度量方法必须尽可能取得正确的匹配对。

常用的最近邻方法原理是, 对于基准图像中的每个特征点, 在待匹配图像中寻找距离最近的特征点, 然后形成一组匹配对。因为最近邻获得的匹配对中存在大量的误匹配, 所以Lowe在论文[8]中对于基准图像中的每个特征点, 在待匹配图像中寻找距离最近和次近的两个特征点, 当这两个距离的比值小于预设的阈值时, 才认为找到了一组正确的匹配对, 这样消除了大量的误匹配, 取得了不错的匹配效果。文章设阈值为thr, 且0<thr≤1。

3 实验结果及分析

为了观察算法性能, 我们从互联网上寻找了两张有重叠部分的壁画图片进行了实验。图像如图1所示。采用Matlab7.7.0编程, 运行在AMD A6-3400M CPU 1.4GHZ和4G内存的PC机上, Windows7.0操作系统。

实验首先寻找图像的SIFT特征点, 然后提取特征点的SIFT特征和HSI特征, 再对图1a和图1b按公式 (9) 进行相似性度量, 再分别用欧式距离和卡方距离作为相似性度量, 并且thr分别选用0.5, 0.6, 0.7, 0.8进行特征对提纯。结果表明, 匹配过程在使用同样的阈值时, 三种相似性度量方法中, 所得到的匹配正确率相同, 而匹配时间不同, 按公式 (9) 计算的距离稍快一些。随着thr值的增大, 所得匹配对数减少, 当thr取值为0.6时, 具有较好的匹配结果。图2为thr取值为0.6时的匹配结果。

另外, 实验同时表明, 对于图像分别提取SIFT特征和HSI特征, 如果仅按SIFT特征或HSI特征计算相似性, 所得到的匹配正确率都低于两个特征按公式 (9) 计算相似性的情况。

因此, 对图像提取SIFT特征和HSI特征, 按我们定义的相似性度量计算方法, 确实提高了图像匹配的效率。

4 结束语

文章采用的算法对彩色壁画图像同时提取SIFT特征和HIS彩色特征, 有效地去除了梯度信息一致而彩色信息不一致产生的误匹配。通过定义的相似性度量公式, 在计算两个特征点之间是否匹配时, 速度更快一些。由于SIFT算法计算量大, 算法复杂, 提高图像匹配的实时性, 将是下一步的研究工作。

摘要：针对彩色壁画图像匹配时, SIFT算法忽略颜色信息导致误匹配的问题, 提出一种基于SIFT和HSI的图像匹配算法。首先对彩色壁画图像提取SIFT特征点与特征向量, 然后对每个特征点提取HSI彩色特征, 最后按定义的相似性度量公式计算两个特征点之间的距离, 确定二者是否匹配。实验结果表明:文章采用的算法比仅提取单一特征, 更能有效降低误匹配率, 定义的形似性度量公式比单纯的欧式距离计算法稍快一些。

关键词：SIFT,相似性度量,图像匹配

参考文献

[1]ZHU Q, WU B, XU Z.Seed point selection method for triangle constrained image matching propagation[J].IEEE Geoscience and Remote Sensing Letters, 2006, 3 (2) :207-211.

[2]LOWE D G.Object recognition from local scale-invariant feature[C]//Proc.the Seventh IEEE International Conference on Computer Vision.Corfu, Greece:IEEE Press, 1999:1150-1157.

[3]张书真, 宋海龙, 向晓燕, 等.采用快速SIFT算法实现目标识别[J].计算机系统应用, 2010, 19 (6) :82-85.

[4]王瑞瑞, 马建文, 陈雪.多传感器影像配准中基于虚拟匹配窗口的SIFT算法[J].武汉大学学报 (信息科学版) , 2011, 36 (2) :163-166.

[5]钟金琴, 檀结庆, 李莹莹, 等.基于二阶矩的SIFT特征匹配算法[J].计算机应用, 2011, 31 (1) :29-32.

[6]K.Mikolajczyk, C.Schmid.A performance evaluation of local descriptors[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27 (10) :1615-1630.

[7]何川.高压输电线路视频监控技术研究[D].北京:北京交通大学, 2012.

相似性度量篇3

随着遥感影像的爆炸式增长,信息提取的能力与效率已成为限制遥感应用发展的瓶颈问题。由于遥感影像数据库的海量特征,遥感影像数据挖掘已成为空间数据挖掘的主流。传统的遥感影像处理侧重于目标信息的增强和解译,而遥感影像数据挖掘侧重于从遥感影像中发现图像目标之间潜在的、隐藏的有用的模式和规则。遥感影像数据挖掘需要借助遥感影像处理的方法,但其目的是对遥感影像目标更高层面的归纳和总结,在图像索引和检索、图像分类、图像聚类、空间关联规则挖掘和图像变化检测等方面有广泛的应用前景。将数据挖掘技术应用于遥感影像库,能够挖掘隐藏在遥感影像中丰富的时间、空间和光谱知识等规则,为智能信息处理服务[1]。

在遥感影像挖掘中,不可避免的一个问题是如何定义图像之间相似性度量。图像距离函数是衡量图像相似性的一种方法,但对其定义却没有统一的函数形式。Di Gesu[2]在分析对比了多种图像距离函数后,提出了4种函数形式:Hausdorff图像距离、局部图像距离、整体图像距离和对称图像距离。虽然这4种距离都在不同程度上结合了图像的局部和整体特征,但从其定义式来看,对局部和整体结构特性的描述还不充分,算法开销较大。

1图像空间划分的策略

随着成像传感器技术的不断发展,图像的分辨率也越来越高。如果在原始的图像空间来计算图像的相似性度量,会带来2个方面的问题:① 计算量随着分辨率的提高急剧增长,导致图像的聚类、检索等应用的效率十分低下;② 过于关注图像的细节而忽略了图像的局部特性,降低了相似性度量的准确性。因此,非常有必要采取适当策略对原始的图像空间进行划分,本文采用了一种简单、实用的策略:将原始图像空间均匀地划分为2n(n为尺度因子,n=0,1,2,…)个网格,来计算网格之间的相似性度量。网格划分的大小可结合具体的应用和图像的分辨率来确定。例如,针对图像检索的应用,此时考察的是整个图像的相似性,尺度因子n=0,将图像空间划分为一个网格。

2视觉特征提取

选择合适的图像内容特征描述是建立相似性度量的核心问题,特征描述的好坏直接影响相似性度量的准确性。一个好的特征描述应该满足以下几点要求:易于计算,便于比较,所需计算开销小;表述能力强,视觉不相似的图像所对应的特征描述之间应该有显著的差异;与人的感知相接近,特征表述接近的图像在视觉感知上也应该彼此接近;具有较强的抗噪性,并具有一定的几何和光照不变特性。

针对上述要求,本文利用颜色、纹理和形状等低层视觉特征来描述图像内容。

2.1颜色特征

常用的颜色空间有RGB、HSI和YUV空间。RGB 颜色由红、绿和蓝表示,是最常用的颜色空间。直方图是描述颜色空间最常用的形式,要建立颜色特征的直方图表达,首先需要量化颜色空间。颜色空间被量化为m种颜色,统计图像中每种颜色的出现频度得到颜色的直方图H=(hi)i=1…m,归一化后的直方图记为H′=(h′i)i=1…m,其中undefined具有旋转和尺度不变性。

颜色直方图的相似性度量可以采用L1测度、L2测度、直方图交、统计假设检验和Kullback-leiber散度等方法,定义如下:

L1测度:undefined;

L2测度:undefined;

直方图交:undefined;

χ2距离:undefined;

K-L散度:undefined。

2.2纹理特征

纹理是图像中一种重要而又难以描述的特性,至今还没有公认的定义。习惯上把图像中局部不规则、而宏观有规律的特性称之为纹理,以纹理特性为主导的图像称之为纹理图像。人们提出了多种纹理描述方法,比较有代表性的有:共现阵方法[3]、Tamura特征[4]和基于Gabor小波的纹理分析方法[5]等。共现阵方法是一种传统的纹理描述方法,其构造方法众所周知,在此不在赘述,下面仅罗列几个由共现阵导出的特征:

能量:undefined;

熵:undefined

惯性矩:undefined

局部平稳:undefined。

2.3形状特征

形状是现实世界物体的本质特征之一。一般要求形状描述具有平移、旋转和尺度不变性,形状描述有多种分类方法,如内标量和外标量、数值和非数值、信息保持和非信息保持[6]等等。因矩描述方法具有平移、旋转和放缩不变特性,对该方法进行简要介绍。

图像平面上的二维笛卡尔矩定义为:

undefined。

式中,f(x,y)为二值函数或是灰度值。图像的一、二阶矩有其明确的物理意义:一阶矩可表示“重心”,二阶矩可表示“惯性矩”。

对于数字图像,(p+q)阶原点矩和中心矩分别定义为:

undefined

undefined。

式中,undefined;undefined。

规格化的中心矩为:

undefined。

利用上面的关系,可以导出下面的7个不变矩式:

Φ1=η20+η02;

Φ2=(η20-η02)2+4ηundefined;

Φ3=(η30-3η12)2+(3η21-η03)2;

Φ4=(η30+η12)2+(η21+η03)2;

Φ5=(η30-3η12)(η30+μ12)[(η30+η12)2-

3(η21+η03)2]+(3η21-η03)(η21+η03)·

[3(η30+η12)2-(η21+η03)2];

Φ6=(η20-η02)[(η30+η12)2-(η21+η03)2]+

4η11(η30+η12)(η21+η03);

Φ7=(3η21-η03)(η03+η12)[(η30+η12)2-

3(η21+η03)2]-(η30-3η12)(η21+η03)·

[3(η30+η12)2-(η21+η03)2]。

3基于特征网格划分的相似性度量

为了全面描述图像的颜色、纹理和形状等视觉特征,本文列举了十几种特征向量,在实际应用中还要引入其他特征向量,这些特征向量往往是数十维甚至数百维的。如果仍然用适用于低维数据的相似性度量方式来处理这些高维的特征数据,将得不到理想的结果,这就是所谓的维度灾难[7]。更好地克服维度灾难的影响,本文采用了一个新的思路来度量高维特征数据之间的相似性,即先将高维特征空间按一定规则进行划分,以形成特征空间的网格结构,从而在度量2个数据之间的相似性时,只考虑它们落入相同的网格中的维度信息。

划分策略可简单描述如下:对于d维的数据空间,首先为其每维指定一个划分位数bi,于是该维就被划分为2bi个单元。设undefined,那么整个数据空间被划分为2b个单元。

设数据集中任意2点为X=(x1,x2,…,xd)、Q=(q1,q2,…,qd),C[X,Q]为X与Q的各属性值落入同一区间的那些维的集合,那么X与Q之间的距离undefined。该度量方式与欧氏度量的一个重要差别在于,在该函数中占主导地位的是那些X与Q之间差别较小的维,而且,它们接近的维数越多,其之间的相似性也越高。这显然是符合人们判定数据点之间相似性的习惯。

对于图像空间的2个网格N1和N2,定义其颜色特征距离为undefined,采用特征空间网格划分方法得到的纹理和形状特征距离分别为D2和DS,则定义图像网格N1和N2的相似性为:

undefined。

式中,wi为经验权值。

4实验结果

为了验证本文提出的图像相似性度量方法的有效性,对遥感影像数据挖掘中最常见的聚类应用进行实验。采用了一副人工合成的纹理灰度图像,如图1所示。基于本文定义的相似性度量,采用经典的特征空间聚类算法[8]进行图像分割。因本文的重点在于描述图像的相似性度量,对实现分割的具体方法不在此阐述,分割的结果如图2所示。

5结束语

本文提出了一种遥感影像挖掘的相似性度量方法,采用颜色、纹理和形状等直观的视觉特征来描述图像,具有一定的几何和光照不变特性;在计算特征的过程中采用了图像空间和特征空间网格划分的思想来降低数据维数,便于引入更多的特征向量来提高相似性度量的准确性。

参考文献

[1]李德仁,王树良,史文中,等.论空间数据挖掘与知识发现[J].武汉大学学报(信息科学版),2001,26(6):491-499.

[2]GESUD V,STAROVOITOVV.Distance-based Functions for Image Comparison[J].Pattern Recognition Letters,1999(20):207-214.

[3]王润生.图像理解[M].长沙:国防科技大学出版社,1995.

[4]TAMURA H,MORI S,YAMAWAKI T.Texture Features Correspondingto Visual Perception[J].IEEE Trans on SMC,1978,8(6):460-473.

[5]JAINAK,FARROKNIAF.Unsupervised Texture Segmentation Using Gabor Filters[J].Pattern Recognition,1991,24(12):1167-1186.

[6]LIENHART R.Comparison of Automatic Shot Boundary Detection Algorithm[C].USA:In Proc.of SPIE Storage and Retrieval for Image and Video Databases VII,1999:291-301.

[7]贺玲,吴玲达.多媒体数据挖掘中数据间的相似性度量研究[J].国防科技大学学报,2006,28(1):77-80.

相似性度量篇4

关键词：XML文档,DOM解析,路径特征,结构相似性,评价指标

0 引言

可扩展标记语言XML作为互联网上一种信息表示和交换的标准，蕴含了大量的信息，对XML文档进行数据挖掘在许多数据应用领域(如信息检索、数据集成、文档分类和查询处理[1]等)起着重要作用并已成为研究热点。相似度计算是XML文档挖掘的关键，其精确程度将直接影响到最终的处理结果。由于XML文档的逻辑结构(元素、边的从属和嵌套关系等)能够在很大程度上体现该文档所蕴含的信息，因此可通过XML文档的结构特征来进行相似度的计算。但在计算过程中如何充分利用这些结构信息，以提高相似度计算的有效性，仍是目前面临的一个主要问题。所以，寻求一种基于结构特征的更加合理有效的相似度计算方法显得十分必要。

现有基于结构的XML文档相似性度量方法主要从元素、边集及路径等来进行考虑。利用XML文档中的最小构件元素进行相似度的计算，是以两个文档中公共元素占所有元素的比值大小[2]来决定相似性的，该方法较少反映XML文档的结构信息，过于简单，因此精确度不高。Lian W[3]等通过结构图来表示XML文档，并以边匹配方式(两个文档中相同边数占其中较大边数的比值)来确定的相似性，该方法同样丢失了较多结构信息，准确度也不高。Zhang K[4]等在Tai K C[5]的基础上通过指定插入删除等部分编辑操作的代价，提高了执行效率，但其编辑操作代价的确定对不同的数据集合缺乏普适性。Joshi S[6]等提出的树路径模型与树编辑距离相比更为简单，利用树路径计算相似度，时间复杂度有了明显降低，但该方法是以完全匹配方式来对路径序列进行匹配，不能在非完全匹配时更精确的描述路径间的相似性。Leung H[7]和杨厚群[8]等通过找出XML文档的频繁路径来对其进行聚类，但其最小支持度大小通常需要通过多次实验得出，难以设定。朴勇[9]等提出了一种带有位置权重的基于树路径的XML文档结构相似度计算方法，对属于不同DTD的XML文档取得了较好的聚类效果，但其没有考虑路径位置和频率对相似度的影响。廖浩伟[10]等提出了一种基于树路径匹配的网页结构相似度算法，该算法对结构差异性较小的文档能够较好地进行区分，但其相似度计算过程未考虑节点位置和路径频率对相似度的影响，同样忽略了部分结构信息。

本文针对上述相似度计算方法的不足，基于扩展的树路径模型，充分利用提取的路径特征，对文献[10]中提到的树路径序列和位置相似度进行了改进，并将路径频率作为路径相似度的一部分，以三者的加权和作为整个路径的相似度，提出了一种更符合实际的基于路径特征的XML文档结构相似性度量方法SSPF。通过K-means算法进行聚类，并与文献[10]及传统路径相似度计算方法进行比较，实验结果验证了该方法的有效性。

1 XML文档预处理

1.1 XML文档解析

XML文档解析是指通过对XML文档按从头到尾的顺序进行分析，以提取其中的结构信息的操作[11]。本文对XML文档的解析采用的是文档对象模型DOM方式，它是将整篇XML文档以树状结构一次性解析并读入内存，保存为一个对象供用户访问，较为灵活。

例如对于图1(a)所示的XML文档，经过DOM解析，在计算机内存中将生成该文档的DOM解析树，如图1(b)所示。

1.2 路径特征提取

本文提出的相似度计算方法涉及到路径的序列、位置和频率信息，因此需要首先根据树路径模型对路径特征进行提取。

定义1(树路径模型)DTPath Model=(f,v1v2…vn,t1t2…tf)。其中(v1,v2，…，vn)为DOM树中某一路径从根节点到叶子节点所经历的所有标签节点的序列，f为该路径在整个DOM树中出现的次数，(t1,t2，…，tf)表示这f次出现的相对位置，也就是将叶子节点从左到右依次进行排序，该序号即为树路径在DOM树中的位置。

基于该树路径模型的路径特征提取可将每个XML文档重新表示为一个树路径的集合。该模型去除了重复路径，在不丢失结构信息的情况下，能够有效减小路径集合的规模。

2 基于路径特征的相似性度量方法SSPF

基于路径特征的XML文档结构相似性度量本质上是路径相似度的计算。为了能更充分地反映文档结构特征，本文提出的SSPF相似度计算方法的路径相似度分为序列相似度、位置相似度和频率相似度三部分。传统路径相似度计算方法中的路径相似性及文献[10]中的序列相似性都仅仅是以最长公共子序列长度与路径间最长路径长度的比值来计算的，而本文序列相似度考虑了节点位置权重对序列相似度的影响，并对计算公式进行了重新定义。而在计算位置相似度时，文献[10]是将位置和频率合在一起考虑，这样不利于真正位置相似度的计算，因此本文将其分离，然后重新定义了新的位置相似度的计算公式，并提出了路径频率相似度，而路径相似度则为三者的加权和。

定义2(序列相似度)设树路径Pi=(fi,vi1vi2…vim,ti1ti2…tifi),Pj=(fj,vj1vj2…vjn,tj1tj2…tjfj),Pi、Pj的最长公共子序列LCS=(v1,v2，…，vk),LCS中各节点对应于树路径Pi、Pj中的下标序列分别为(l1,l2，…，lk)和(h1,h2，…，hk)，则树路径Pi、Pj的序列相似度计算公式为:

式中，k为最长公共子序列的长度，max(m,n)表示取Pi、Pj中路径较长者，wi表示路径序列中相应节点的位置权重，其详细说明参见定义3。

定义3(节点位置权重)设i表示树路径中节点在DOM树中所处的层次位置，则节点位置权重函数定义如下:

从中可以看出，wi随i值的增大而减小，且具有如下性质:

在计算路径序列相似度时，之所以引入节点位置权重，而不是简单的通过最长公共子序列的长度与最长路径长度的比值来计算，是因为处于不同层次的节点对DOM树结构的重要程度不同，高层节点较低层节点对XML文档结构相似性的影响更大。例如，对路径序列P1=(a,b,c,d)、P2=(a,b,x)和P3=(a,y,b)，虽然P2、P3同P1的最长公共子序列均为(a,b)，但实际P2与P1的相似度较P3与P1的相似度要更高。

定义4(位置相似度)设树路径Pi=(fi,vi1vi2…vim,ti1ti2…tifi),Pj=(fj,vj1vj2…vjn,tj1tj2…tjfj)，则Pi、Pj的位置相似度计算公式如下:

式中，d(tik)表示路径Pi在tik位置处同路径Pj间的最近距离，d(tjk)同理，其用公式表示[10]为:

设dni、dnj表示路径Pi、Pj所属DOM树中各自总的叶节点个数，即树路径位置编号的最大值，则dn、dni的计算公式为:

定义5(频率相似度)若树路径Pi和Pj在各自DOM树中的频率(出现次数)分别为fi和fj，则路径Pi和Pj的频率相似度计算公式定义为:

路径频率作为路径特征的一部分，理应对树路径相似度有所贡献。对于属于不同类型的文档，若二者的频率(出现次数)相近，其频率之比反而较大，这种偶然因素有可能违背本文提出频率相似度的初衷。因此式(7)对频率相似度的定义不是单纯的频率之比，而是通过引入文档路径总数dni来尽可能地使频率相似度更加准确，对最终路径相似度的计算有所帮助。而上述定义是基于本文认为属于同一类别文档的路径数目差别不大(相近的可能性更大)，而不同类型间文档的路径条数出现较大差异的可能性越大;同时频率相似度能够在一定程度上反映出树路径在DOM树中出现的频次是否一致。频率相似度大(出现次数较接近)，说明两条路径更可能属于同一类DOM树;反之，频率相似度小(出现次数差别较大)，则说明两条路径归于同一类DOM树的可能性越小。

定义6(路径相似度)基于上述定义，若树路径P1与P2的序列、位置和频率相似度分别为ss、sp和sf，则P1、P2的路径相似度表示为:

其中，系数u、v以及(1-u-v)分别为路径序列、位置和频率相似度的权重，通过动态调节u、v的值，可以改变这三部分在整个路径相似性中的重要程度，系数u、v满足0≤u、v≤1,0≤u+v≤1。

在树路径相似度的基础上，XML文档结构相似度可通过最大路径相似度来计算。

定义7(文档相似度)给定两个XML文档doc1、doc2，其树路径集合XMLDTPS1=(P1,P2，…，Pm)、XMLDTPS2=(P1,P2，…，Pn)，且n≤m。将XMLDTPS1和XMLDTPS2中的每条路径两两匹配进行路径相似度的计算，从而得到一个最大路径相似度的集合Smax=(S1,S2，…，Sn)，则文档doc1和doc2的结构相似度[9]可表示为:

定义8(相似度矩阵)在对XML文档集进行聚类挖掘时，相似度矩阵将作为度量类间距离的依据。若有n个XML文档需要进行相似度的计算，根据前面定义的相似度计算方法，计算所有XML文档间的相似度，其结果可保存为一个n×n的矩阵，该矩阵即被称为相似度矩阵，表示如下:

其中，aij=simdoc(doci,docj)，表示文档i与文档j的相似度值，且aij∈[0,1]。该矩阵是一个对称矩阵，即aij=aji，且主对角线元素均为1。

3 SSPF方法流程及描述

3.1 方法流程

XML文档结构相似度计算的算法流程如图2所示。

3.2 过程描述

输入:XML文档集{doc1,doc2，…，docn}

输出:相似度矩阵similarity matrixn×n

(1)对输入的XML文档集中的元素进行预处理(包括单词大小写统一，根据Word Net同义词集进行语义消岐等)，并通过XML文档解析模块将其解析为DOM树模型;

(2)根据DOM树提取XML文档的路径序列、位置和频率特征，构造树路径集合XMLDTPS。//通过DOM树的叶子节点进行提取

(3)根据提取的路径特征求XML文档间的相似度:

4 实验结果与分析

为了验证本文所提SSPF相似度计算方法的有效性，采用C++语言进行了编程实现。实验用的PC机配置为CPU2.1 GHz,2 GB内存，160 GB硬盘，Windows XP操作系统，仿真平台为Visual Studio 2008和matlab 7.11。

实验数据来自两个不同的数据集，其中一个为现实生活中真实的数据集Texas[12]，包括automobile、movie、reference和software 4个类别，共有20个不同网站的101个XML文档。其中automobile、movie和software各20个，reference有41个。另外一个数据集为美国威斯康星大学用于XML检索研究的NIAGA-RA[13]数据集，本实验从中选取xml-movies类别的25个XML文档，作为第一个实验数据集的补充。

4.1 相似度比较

好的相似度计算方法应该使属于同一类别文档之间的相似度尽可能大，但同时也能在一定程度上反映出同类型文档间的细微差别。为了验证本文所提相似度计算方法SSPF(u=v=1/3)在改善XML文档相似度计算上的效果，与传统树路径方法和本文所改进的文献[10]中的方法进行比较，相似度计算结果如表1所列。表中C1至C5分别对应实验数据集中的automobile、movie、reference、software和xml-movies这5个类别。其中，每个类别下的相似度为该类别中所有文档间相似度的平均值。

从表1可以看出，对于C1-C4这几个类别，传统树路径方法所得的相似度计算结果均不是很高，而文献[10]中的方法和本文改进的SSPF方法对这4类各自的相似度计算结果均有所提高，其中SSPF方法更甚，这说明本文提出的SSPF方法能在一定程度上使原本属于同一类别文档之间的相似度尽可能的大。同时可以看到，对于C5类别，传统树路径方法的相似度计算结果较大，这与其对C1-C4的计算结果形成了较大的反差。通过对C5类别中XML文档的分析发现，该类别中文档的结构差异性非常之小(路径序列基本一致)，其文档间的差异性主要体现在路径位置和频率上，因此采用仅基于路径序列来计算相似度地传统树路径方法，计算出的相似度值自然很高，但却不能很好地体现文档间在路径位置和频率上的差异。正是由于以上原因，文献[10]加入了位置相似度，而本文改进的SSPF方法在优化序列和位置相似度的基础上，又加入了频率相似度的计算，使得相似度计算结果能更加真实地反映XML文档间的实际相似性。

4.2 聚类分析

在相似度计算的基础上，本文采用K-means聚类算法进行聚类，然后以信息检索中常用的准确率、召回率和F1测度来对实验结果进行评价，评价指标的计算公式如下:

其中，A为正确聚类的文档数，B为属于不同类但被聚到一起的文档数，C为属于同一类但未被聚到一起的文档数。

由式(8)可知，当u、v取不同的值时，SSPF方法得到的相似度结果会有所不同，值越大，其所对应的子相似度对整个路径相似度的影响就越大。为了测试每个子相似度在整个路径相似度中所起的作用，下面分别对u、v赋予不同的值，每一种取值都对应一种新的SSPF方法。当u=0.8,v=0.1时，记为方法SSPF-1;当u=v=0.5时，记为方法SSPF-2;当u=v=1/3时，记为方法SPFS-3;当u=0.1,v=0.8时，记为方法SPFS-4;当u=v=0.1时，记为方法SPFS-5。上述方法与文献[10]中的方法在聚类的准确率、召回率和F1测度的比较分别如图3至图5所示。

上述实验结果是通过多次随机选取初始聚类中心，找出效果最好的3次，对这3次聚类的准确率、召回率和F1测度分别求平均值得到的。从中可以看出，方法SSPF-1(u=0.8,v=0.1)和方法SSPF-2(u=v=0.5)在聚类的召回率、准确率和F1测度上均优于文献[10]中的方法。即当为序列相似度、位置相似度和频率相似度赋予合适的权重时，SSPF方法具有较好的聚类效果。这也正验证了SSPF方法与文献[10]的方法相比，因为考虑了节点位置权重，优化了序列、位置相似度的定义，并引入了频率相似度，从而更能反映XML文档的结构特征，使得相似度计算方法更为合理。而方法SSPF-3(u=v=1/3)、方法SSPF-4(u=0.1,v=0.8)和方法SSPF-5(u=v=0.1)的聚类效果较文献[10]中的方法有了明显的降低。分析发现，随着u取值的减小，其对应方法的聚类效果也越来越差。这是因为本文基于路径特征的XML文档结构相似度计算是建立在路径序列基础之上的，路径的位置和频率相似度则是作为路径序列相似度的补充，从而保证相似度的计算结果更为精确合理。因此在相似度计算过程中，必须保证以序列相似度作为整个路径相似度的主体，否则计算出的相似度值将产生较大失真，从而影响聚类效果。另外，从图5中可以看出，在不同方法下某些类别的召回率相对较低(如C4)，这是因为同一类XML文档可能来自不同的DTD，对于同一事物的表示可能有多种方法。例如，在C4所代表的software类别中，software和component都用来表示“软件”，但在Word Net中这二者不属于同义词，而本文在对XML文档进行预处理时，是以Word Net所提供的同义词集为基础的，从而导致某些在语义上相似的标签序列无法匹配，使召回率降低。而C5类由于结构形式较统一，因此召回率相对较高。

5 结语

相似性度量篇5

1986年保加利亚学者Atanassov提出了直觉模糊集[1]的概念, 它是对Zadeh模糊集理论最有影响的一种扩充和发展, 较模糊集有更强的表达不确定性的能力。在分析处理不精确、不完备等粗糙信息时, 直觉模糊集理论是一种很有效的数学工具。波兰数学家Z.Pawlak提出的粗糙集理论[2]也是一种新的处理模糊和不确定性知识的数学工具, 它无需提供问题所需处理的数据集合之外的任何先验信息。由于该理论未能包含处理不精确或不确定原始数据的机制, 所以与其他处理不确定性问题的理论有很强的互补性。

在直觉模糊集理论与粗糙集理论中, 相似度量一直是研究的热点问题之一[3,4,5,6], 它是模糊聚类、模式识别、近似推理等的基础。国内外一些学者已经提出了很多相似度量的方法, 但他们的范围仅限于模糊粗糙集和直觉模糊集的范畴。本文将直觉模糊集理论与粗糙集理论相结合, 提出了一种基于海明距离的直觉模糊粗糙集相似度量方法, 揭示了其具有区间性、完全相似性、完全非相似性、对称性、互等性、单调性等性质。由于这种相似度量具有较好的性质, 它为检测直觉模糊粗糙集之间的相似程度提供了一种有效的方法。

1 直觉模糊粗糙集

定义1 设S为模糊粗糙集之集合, ∀X∈S中的上、下近似为XL、XU, 则X中的一个直觉模糊粗糙集A为:

$A = {< x, μ_{A_{L}} (x), μ_{A_{U}} (x), γ_{A_{L}} (x), γ_{A_{U}} (x) > | \forall x \in X}$

其中, μAL:AL→[0, 1], μAU:AU→[0, 1], γAL:AL→[0, 1]和γAU:AU→[0, 1]分别代表A的下近似隶属函数μAL, 上近似隶属函数μAU, 下近似非隶属函数γAL和上近似非隶属函数γAU, 其中, μA (x) +γA (x) ≤1, μAL (x) +γAL (x) ≤1, μAU (x) +γAU (x) ≤1, μAL (x) ≤μAU (x) , γAL (x) ≥γAU (x) , ∀x∈X。

对于直觉模糊粗糙集A, 称πA (x) =1-μA (x) -γA (x) 为A中x的直觉指数, 它是x对A的犹豫程度的一种测度。显然, 对于每一个x∈X, 0≤πA (x) ≤1。简单起见, 本文中πA (x) 取常数0, 此时, 下近似直觉指数πAL (x) 和上近似直觉指数πAU (x) 均为0。但在实际情况中, 直觉指数πA (x) 的值通常是随机的、不确定的。

定义2 直觉模糊粗糙集A= (AL, AU) 的补集AC= (A $_{L}^{C}$ , A $_{U}^{C}$ ) , 其中, μACL (x) =γAL (x) , γACL (x) =μAL (x) , ∀x∈AL;μACU (x) =γAU (x) , γACU (x) =μAU (x) , ∀x∈AU。

2 两个直觉模糊粗糙值之间的相似度量

定义3 设<μAL (x) , μAU (x) , γAL (x) , γAU (x) >为x在X中的直觉模糊粗糙值, 仍记为x。

定义4 设x=<μAL (x) , μAU (x) , γAL (x) , γAU (x) >, y=<μAL (y) , μAU (y) , γAL (y) , γAU (y) >, z=<μAL (z) , μAU (z) , γAL (z) , γAU (z) >是直觉模糊粗糙集A中的直觉模糊粗糙值, 则直觉模糊粗糙值之间的序关系:

x≤y⇔μAL (x) ≤μAL (y) μAU (x) ≤μAU (y)

γAL (x) ≥γAL (y) γAU (x) ≥γAU (y) (1)

定义5 设A是X上的一个直觉模糊粗糙集, x=<μAL (x) , μAU (x) , γAL (x) , γAU (x) >, y=<μAL (y) , μAU (y) , γAL (y) , γAU (y) >是直觉模糊粗糙集A中的直觉模糊粗糙值, 则A中两个直觉模糊粗糙值之间的相似度可由函数M计算:

$\begin{array}{l} Μ (x, y) = 1 - \frac{1}{4} (| μ_{A_{L}} (x) - μ_{A_{L}} (y) | + | μ_{A_{U}} (x) - μ_{A_{U}} (y) | + \\ | γ_{A_{L}} (x) - γ_{A_{L}} (y) | + | γ_{A_{U}} (x) - γ_{A_{U}} (y) |) (2) \end{array}$

其中, $d_{Η} = \frac{1}{4} (| μ_{A_{L}} (x) - μ_{A_{L}} (y) | + | μ_{A_{U}} (x) - μ_{A_{U}} (y) | + | γ_{A_{L}} (x) - γ_{A_{L}} (y) | + | γ_{A_{U}} (x) - γ_{A_{U}} (y) |)$ 。

式中, dH实质上是一种海明距离, 故这是一种基于海明距离的相似度量方法。可以证明M (x, y) 具有如下性质:

性质1 (区间性) 0≤M (x, y) ≤1。

证明:由 $0 \leq | μ_{A_{L}} (x) - μ_{A_{L}} (y) | + | μ_{A_{U}} (x) - μ_{A_{U}} (y) | + | γ_{A_{L}} (x) - γ_{A_{L}} (y) | + | γ_{A_{U}} (x) - γ_{A_{U}} (y) | \leq 4$ 即得。证毕。

性质2 (完全相似性) M (x, y) =1, 当且仅当μAL (x) =μAL (y) , μAU (x) =μAU (y) , γAL (x) =γAL (y) 且γAU (x) =γAU (y) 。

$\begin{array}{l} 证明 ∶ Μ (x, y) = 1 \Leftrightarrow | μ_{A_{L}} (x) - μ_{A_{L}} (y) | + | μ_{A_{U}} (x) - μ_{A_{U}} (y) | + | γ_{A_{L}} (x) - γ_{A_{L}} (y) | + | γ_{A_{U}} (x) - γ_{A_{U}} (y) | = 0 \\ \Leftrightarrow μ_{A_{L}} (x) = μ_{A_{L}} (y) ‚ μ_{A_{U}} (x) = μ_{A_{U}} (y), γ_{A_{L}} (x) = λ_{A_{L}} (y) 且 γ_{A_{U}} (x) = λ_{A_{U}} (y) 。 \end{array}$

性质3 (完全非相似性) M (x, y) =0, 当且仅当x=<1, 1, 0, 0>, y=<0, 0, 1, 1>;或x=<0, 0, 1, 1>, y=<1, 1, 0, 0>。

$\begin{array}{l} 证明 ∶ Μ (x, y) = 0 \Leftrightarrow | μ_{A_{L}} (x) - μ_{A_{L}} (y) | + | μ_{A_{U}} (x) - μ_{A_{U}} (y) | + | γ_{A_{L}} (x) - γ_{A_{L}} (y) | + | γ_{A_{U}} (x) - γ_{A_{U}} (y) | = 4 \\ \Leftrightarrow | μ_{A_{L}} (x) - μ_{A_{L}} (y) | = | μ_{A_{U}} (x) - μ_{A_{U}} (y) | = | γ_{A_{L}} (x) - γ_{A_{L}} (y) | = | γ_{A_{U}} (x) - γ_{A_{U}} (y) | = 1 。 \end{array}$

由于, 0≤μAL (x) , μAL (y) ≤1, 0≤μAU (x) , μAU (y) ≤1, 0≤γAL (x) , γAL (y) ≤1, 0≤γAU (x) , γAU (y) ≤1且μAL (x) ≤μAU (x) , γAL (x) ≥γAU (x) , 故有:

$μ_{A_{L}} (x) = 1 μ_{A_{L}} (y) = 0$ 或者 $μ_{A_{L}} (x) = 0 μ_{A_{L}} (y) = 1$

$μ_{A_{U}} (x) = 1 μ_{A_{U}} (y) = 0$ 或者 $μ_{A_{U}} (x) = 0 μ_{A_{U}} (y) = 1$

$γ_{A_{L}} (x) = 1 γ_{A_{L}} (y) = 0$ 或者 $γ_{A_{U}} (x) = 0 γ_{A_{U}} (y) = 1$

$γ_{A_{U}} (x) = 1 γ_{A_{U}} (y) = 0$ 或者 $γ_{A_{U}} (x) = 0 γ_{A_{U}} (y) = 1$

即:x=<1, 1, 0, 0>, y=<0, 0, 1, 1>;或x=<0, 0, 1, 1>, y=<1, 1, 0, 0>。

性质4 (对称性) M (x, y) =M (y, x) 。

证明:

$\begin{array}{l} Μ (x, y) = 1 - \frac{1}{4} (| μ_{A_{L}} (x) - μ_{A_{L}} (y) | + | μ_{A_{U}} (x) - \\ μ_{A_{U}} (y) | + | γ_{A_{L}} (x) - γ_{A_{L}} (y) | + | γ_{A_{U}} (x) - γ_{A_{U}} (y) |) \\ = 1 - \frac{1}{4} (| μ_{A_{L}} (y) - μ_{A_{L}} (x) | + | μ_{A_{U}} (y) - μ_{A_{U}} (x) | + \\ | γ_{A_{L}} (y) - γ_{A_{L}} (x) | + | γ_{A_{U}} (y) - γ_{A_{U}} (x) |) \\ = Μ (y, x) 。 \end{array}$

性质5 (互等性) M (x, y) =M (xC, yC) 。

证明:由μACL (x) =γAL (x) , γACL (x) =μAL (x) , ∀x∈AL;μACU (x) =γAU (x) , γACU (x) =μAU (x) , ∀x∈AU即得。证毕。

性质6 (单调性) 若x≤y≤z, 则M (x, z) ≤min{M (x, y) , M (y, z) }。

证明:

$由 | μ_{A_{L}} (x) - μ_{A_{L}} (z) | \geq \max {| μ_{A_{L}} (x) - μ_{A_{L}} (y) |, | μ_{A_{L}} (y) - μ_{A_{L}} (z) |}$

及 $| μ_{A_{U}} (x) - μ_{A_{U}} (z) | \geq \max {| μ_{A_{U}} (x) - μ_{A_{U}} (y) |, | μ_{A_{U}} (y) - μ_{A_{U}} (z) |}$

及 $| γ_{A_{L}} (x) - γ_{A_{L}} (z) | \geq \max {| γ_{A_{L}} (x) - γ_{A_{L}} (y) |, | γ_{A_{L}} (y) - γ_{A_{L}} (z) |}$

及 $| γ_{A_{U}} (x) - γ_{A_{U}} (z) | \geq \max {| γ_{A_{U}} (x) - γ_{A_{U}} (y) |, | γ_{A_{U}} (y) - γ_{A_{U}} (z) |}$

即得。证毕。

3 两个直觉模糊粗糙集之间的相似度量

定义6 设A, B是X={x1, x2, …, xn}上的两个直觉模糊粗糙集, 如果RSA (x) =<μAL (x) , μAU (x) , γAL (x) , γAU (x) >是x在A中的直觉模糊粗糙值, RSB (x) =<μBL (x) , μBU (x) , γBL (x) , γBU (x) >是x在B中的直觉模糊粗糙值, 则直觉模糊粗糙集A和B的相似度可以由下式计算:

$S (A, B) = \frac{1}{n}$ $\sum_{i = 1}^{n} Μ (R S_{A} (x_{i}), R S_{B} (x_{i}))$

$= \frac{1}{n}$ $\sum_{i = 1}^{n}$

$\begin{array}{l} (1 - \frac{| μ_{A_{L}} (x_{i}) - μ_{B_{L}} (x_{i}) |}{4} - \frac{| μ_{A_{U}} (x_{i}) - μ_{B_{U}} (x_{i}) |}{4} \\ - \frac{| γ_{A_{L}} (x_{i}) - γ_{B_{L}} (x_{i}) |}{4} - \frac{| γ_{A_{U}} (x_{i}) - γ_{B_{U}} (x_{i}) |}{4}) (3) \end{array}$

S (A, B) 显然具有如下性质:

性质7 (区间性) S (A, B) ∈[0, 1]。

性质8 (完全相似性) S (A, B) =1⇔μAL (xi) =μBL (xi) , μAU (xi) =μBU (xi) , γAL (xi) =γBL (xi) 且γAU (xi) =γBU (xi) , ∀xi∈X。

性质9 (完全非相似性) S (A, B) =0⇔A= $\sum_{i = 1}^{n}$ <1, 1, 0, 0>/xi, $B = \sum_{i = 1}^{n}$ <0, 0, 1, 1>/xi;或者 $A = \sum_{i = 1}^{n} < 0, 0, 1, 1 > / x_{i}$ , $B = \sum_{i = 1}^{n} < 1, 1, 0, 0 > / x_{i}$ 。

性质10 (对称性) S (A, B) =S (B, A) 。

性质11 (互等性) S (A, B) =S (AC, BC) 。

可以定义直觉模糊粗糙集之间的序关系:

A⊆B⇔μAL (x) ≤μBL (x) μAU (x) ≤μBU (x)

γAL (x) ≥γBL (x) γAU (x) ≥γBU (x) ∀x∈X (4)

性质12 (单调性) 如果A⊆B⊆C⇒S (A, C) ≤min{S (A, B) , S (B, C) }。

例:设K= (U, R) 是一个知识库, U={x1, x2, x3, x4, x5, x6, x7}, U/R={{x1, x5}, {x2}, {x3, x4, x6}, {x7}}, A、B、C是论域U上的三个直觉模糊粗糙集, 其中:

A=<0.4, 0.6>/x1+<0.3, 0.7>/x2+<0.5, 0.5>/x3+<0.7, 0.3>/x4+<0.2, 0.8>/x5+<0.9, 0.1>/x6+<0.6, 0.4>/x7

B=<0.5, 0.5>/x1+<0.3, 0.7>/x2+<0.5, 0.5>/x3+<0.7, 0.3>/x4<0.3, 0.7>/x5+<0.9, 0.1>/x6+<0.6, 0.4>/x7

C=<0.9, 0.1>/x1+<1.0, 0>/x2+<0.2, 0.8>/x3+<0.1, 0.9>/x4<0.9, 0.1>/x5+<0.2, 0.8>/x6+<0, 1.0>/x7

直觉模糊粗糙集A的下近似隶属函数为:

μAL={x1/0.2, x2/0.3, x3/0.5, x4/0.5, x5/0.2, x6/0.5, x7/0.6}

上近似隶属函数为:

μAU={x1/0.4, x2/0.3, x3/0.9, x4/0.9, x5/0.4, x6/0.9, x7/0.6}

下近似非隶属函数为:

γAL={x1/0.8, x2/0.7, x3/0.5, x4/0.5, x5/0.8, x6/0.5, x7/0.4}

上近似非隶属函数为:

γAU={x1/0.6, x2/0.7, x3/0.1, x4/0.1, x5/0.6, x6/0.1, x7/0.4}

直觉模糊粗糙集B的下近似隶属函数为:

μBL={x1/0.3, x2/0.3, x3/0.5, x4/0.5, x5/0.3, x6/0.5, x7/0.6}

上近似隶属函数为:

μBU={x1/0.5, x2/0.3, x3/0.9, x4/0.9, x5/0.5, x6/0.9, x7/0.6}

下近似非隶属函数为:

γBL={x1/0.7, x2/0.7, x3/0.5, x4/0.5, x5/0.7, x6/0.5, x7/0.4}

上近似非隶属函数为:

γBU={x1/0.5, x2/0.7, x3/0.1, x4/0.1, x5/0.5, x6/0.1, x7/0.4}

直觉模糊粗糙集C的下近似隶属函数为:

μCL={x1/0.9, x2/1.0, x3/0.1, x4/0.1, x5/0.9, x6/0.1, x7/0}

上近似隶属函数为:

μCU={x1/0.9, x2/1.0, x3/0.2, x4/0.2, x5/0.9, x6/0.2, x7/0}

下近似非隶属函数为:

γCL={x1/0.1, x2/0, x3/0.9, x4/0.9, x5/0.1, x6/0.9, x7/1.0}

上近似非隶属函数为:

γCU={x1/0.1, x2/0, x3/0.8, x4/0.8, x5/0.1, x6/0.8, x7/1.0}

由式 (3) 可得到A和B之间的相似度为:

$S (A, B) = \frac{1}{7} \sum_{i = 1}^{7} Μ (R S_{A} (x_{i}), R S_{B} (x_{i})) = 0.971$

由式 (3) 可得到A和C之间的相似度为:

$S (A, C) = \frac{1}{7} \sum_{i = 1}^{7} Μ (R S_{A} (x_{i}), R S_{C} (x_{i})) = 0.407$

直观上看, 例子中直觉模糊粗糙集A和B很相似, A和C相差较大。根据本文提出的直觉模糊粗糙集相似度量方法, 由式 (3) 计算, 得到A和B之间的相似度为0.971, A和C之间的相似度为0.407, 表明了由这种方法计算所得的结果与客观的相似性相符, 从而验证了它的有效性。

4 结语

本文在直觉模糊粗糙集领域对相似度量问题进行了深入研究, 主要贡献是针对直觉模糊粗糙值和直觉模糊粗糙集分别提出了一种基于海明距离的相似度量方法, 讨论了它们的区间性、完全相似性等一系列重要性质, 并用数值算例验证了这些方法的合理有效性。下一步工作的重点是, 针对直觉指数是随机的、不确定的情况, 对直觉模糊粗糙集的相似度量问题进行研究。其次, 由于在相似度量方面欧氏距离比海明距离精确度更高, 更加符合直观, 便于进行数学分析, 因而研究方法的思路还可以扩展到欧氏距离、明可夫斯基距离等。

摘要：针对直觉模糊粗糙集的相似度量问题, 提出了一种基于海明距离的直觉模糊粗糙集相似度量方法。首先给出了两个直觉模糊粗糙值间的相似度量方法, 并揭示了它的若干重要性质。然后, 在此基础上, 又提出了一种基于海明距离的直觉模糊粗糙集相似度量方法, 并证明它也具有同样的性质。最后用数值算例验证了这种方法的有效性。

关键词：直觉模糊粗糙集,直觉模糊粗糙值,相似度量

参考文献

[1]Atanassov K.Intuitionistic fuzzy sets[J].Fuzzy Sets and Systems, 1986, 20 (1) :87-96.

[2]Pawlak Z.Rough sets[J].Inter J of Computer and Information Sci-ences, 1982, 11 (2) :341-356.

[3]张诚一, 卢昌荆.关于模糊粗糙集的相似性度量[J].计算机工程与应用, 2004, 40 (9) :58-59, 68.

[4]朱六兵, 王迪焕, 杨斌.粗糙Vague集及其相似性度量[J].模糊系统与数学, 2006, 20 (3) :130-134.

[5]雷英杰, 赵晔, 王涛, 等.直觉模糊语义匹配的相似性度量[J].空军工程大学学报:自然科学版, 2005, 6 (2) :83-86, 91.

[6]黄国顺, 刘云生.基于包含度的Vague集相似性度量[J].小型微型计算机系统, 2006, 27 (5) :873-877.

相似性度量篇6

关键词：梯度特征,相似性度量,目标跟踪,自适应窗口

1 引言

空中目标跟踪问题是一类比较特殊的跟踪问题。因为目标在跟踪过程中一般都存在明显的姿态变化,而姿态变化又带来成像光照角变化,从而引起自身灰度的剧烈变化。在跟踪算法中,目标的特征表达和度量是目标跟踪的基础[1,2]。人们总是希望利用具有对光照和形变不敏感的特征来改进算法在目标产生快速形变时的性能[3,4,7]。当前在处理由目标姿态和灰度变化产生的跟踪问题时,存在着两种做法——基于不变性特征的跟踪方法和基于观测变化建模的跟踪方法。第一种利用对姿态或灰度变化不敏感的特征进行匹配跟踪[8]。第二种对目标表面模型的变化进行建模[9,10],利用变化模型生成刷新模板,最后利用刷新模板进行匹配跟踪。然而,对具有高速强机动特点的战斗机进行跟踪,不能简单的沿袭上述两种思路。因为飞机在做侧翻和机动躲避等动作时会产生快速形变,而快速形变带来了目标自身局部灰度分布的剧烈变化。这使得基于表面变化建模的模型很难适应目标快速形变带来的综合变化。在对战斗机目标的稳定跟踪问题中,选择具有光照不变性的特征,构造对该特征具有鲁棒性的相似度量算法是解决问题的关键所在。

本文选择对光照不敏感的梯度特征对目标进行跟踪,并提出一种新的梯度特征相似性度量的方法。第一部分给出梯度特征相似性度量的方法,第二部分利用梯度特征和相应的度量方法对目标进行跟踪,第三部分利用目标梯度特征的空间分布特点自适应的估计目标尺寸,第四部分给出实验结果和分析。

2 图像梯度特征相似性度量

梯度特征不同于灰度特征和边缘特征。灰度图像可以使用经典的MAD方法进行相似性度量,边缘特征可以使用Hausdorff距离进行相似性度量。梯度图像并不是二值图像,它不能使用Hausdorff距离进行点集之间的相似性度量。而梯度图像的能量分布主要集中在灰度突变的区域,这些区域反映了物体的结构信息,其在整个图像中所占有的能量比例非常有限,因而也不能直接使用MAD的方法进行相似性度量。

2.1 梯度特征相似性度量定义

梯度特征的相似性度量算法步骤如下:

首先,给出MAD相似性度量公式:

其中:M和S为两幅梯度特征图像,xsize和ysize分别为图像的长和宽,其中M为模板图像。

Step 1:对两幅梯度特征图像分别进行尺度为δ的形态学膨胀处理,记为

Step 2:对模板图像进行变换,得到匹配权值模板,记为P=f(M)。

对给定的M,我们按照如下的方式定义f(M):

其中:t(M,α)表示对M做尺度为α的形态学膨胀,G(·,β)表示对图像做尺度为β的高斯平滑。

Step 3:梯度特征相似度量公式如下:

其中:膨胀尺度δ和α和限制了度量所能适应的形变范围。

2.2 与MAD的相似性度量的比较

我们用式(4)与MAD对图1的测试图像和相应的梯度特征图像,进行相似性度量的对比。这里使用相对归一化方式评价度量结果的好坏。

MAD的归一化相关系数:

梯度特征相似性近似度量的归一化相关系数:

从表1可以看出,由于a和c原始图像之间存在较大的光照变化,尽管在空间结构上两者更相像,但由于受到光照变化的影响,MAD的度量结果产生错误。在对其梯度图像相似性进行度量时,两种方法都得到了正确的结果,但式(4)的度量结果明显比MAD度量更能反映两幅图像之间相似程度和差异程度。

3 基于梯度特征匹配的跟踪算法

战斗机目标具有高速强机动的特点,尤其在其做侧翻、俯冲、拉升的机动动作时,将在短时间内产生较大形变,并且快速形变也带来了目标自身灰度的剧烈变化。本文采用基于梯度特征匹配的跟踪算法对空中目标进行跟踪。算法框图如下:

仿真过程中使用的模板刷新策略如下:

1)目标模板的刷新:

根据估计出来的目标尺寸,在匹配位置切割相应大小的图像作为下一帧匹配的目标模板。

2)匹配权值模板的刷新:

其中Mn-1为第n-1帧的目标模板,0<γ<1。

David Vignon[3]在实现快速的Hausdorff距离匹配时,使用了近似计算方法,其原理是使用模板图像中物体边缘一定范围内的点参与两个图像之间的相似性度量。这里使用的度量方式与此类似,加权模板P加大了模板边缘附近区域梯度的影响,减轻了梯度相对较小的平坦区域在匹配定位过程中的影响。图像序列中,当物体形变在一定范围内时,这种方法可以有效的度量前后两帧之间物体的相似性。在实际环境中,由于高帧速图像采样,物体在前后两帧中形变不会太大,因而这种近似度量可以满足实际应用的要求。而且,基于梯度特征的度量结果受光照变化影响很小,能够适应由高速形变带来的灰度上的变化。同时,与Hausdorff距离度量相比,这种度量不需要对图像进行复杂的边缘提取。

4 目标尺寸的自适应估计方法

图像序列中,战斗机在短时间内会因其机动动作产生较大变化,这种变化非常明显的体现在目标成像大小的变化上。如果一味的使用固定尺寸模板进行匹配跟踪,当目标面积减小时,跟踪点将逐渐漂移到目标以外,造成跟踪失败。因此,在跟踪过程中自适应的调整目标模板尺寸是增强跟踪稳定性的关键因素之一。与地面复杂背景相比,空中目标所处的背景即使在有云情况下,也要简单的多,因此,本文利用目标梯度特征在局部空间占优的特点对目标尺寸进行自适应估计。

Step 1:对梯度特征图像进行块求和运算:

式中:BSM(i,j)为块求和特征图像,G(u,v)为梯度特征图像,M和N分别为求和块的长宽。序列图像中,求和块的长宽分别取前一帧目标模板尺寸的2/3～3/4。

Step 2:将BSM(i,j)在以目标为中心的局部范围内分别沿X和Y方向向两侧求和投影,得到两个投影分布矢量Vector_y和Vector_x。

式中:(m,n)为投影处理区域的起点,X和Y为投影区域的长和高。投影区域的长和高一般取前一帧目标模板尺寸的3倍大小,如图4所示。

Step 3:根据两个投影矢量估计目标大小。下面以Vector_x为例。

第一步:找到Vector_x的最大值和最小值,并记录最大值所处的位置p_max。

第二步:构造分布投影曲线的分割门限。

第三步:从p_max的位置开始向两侧搜索,找到分布投影曲线与门限T相交的地方p_left和p_right。目标尺寸的估计值为|p_right-p_left|,如图5所示。

在跟踪过程中,我们不直接使用估计尺寸作为下一帧匹配定位的模板尺寸,而是按照一定的策略调整模板尺寸:对第K帧图像,如果有尺寸估计值大于(或小于)前一帧使用的模板尺寸size(k-1),那么当前目标模板尺寸size(k)=size(k-1)+1(或size(k)=size(k-1)-1)。

5 实验结果

实验使用了两组可见光的飞机视频进行算法测试跟踪。仿真过程中,梯度图像匹配时的参数为δ=,1α=,1β=,5γ=0.618,自适应模板尺寸估计的参数θ=0 5.。两组测试序列中,序列1共315帧,序列2共130帧。图6是高空拍摄飞机略过地面的视频,其中目标在姿态、灰度和大小上都产生了快速变化。图7是有云背景下飞机由大变小的视频,在跟踪的最后一段,目标仅有5×5左右大小。

从实验结果看,算法能有效的适应目标产生的剧烈形变和由形变带来的灰度变化。在目标由大变小的过程中,由于采用了自适应模板尺寸调整的策略,因而使跟踪算法能够适应小目标的情况,提高了跟踪的稳定性。在跟踪过程中,匹配权值模板在匹配时加强了目标区域的影响。因此,图6中当目标在模板中的面积比例迅速减小时,匹配权值模板能够在一定程度上抑制模板刷新过程中背景因素的干扰,从而抑制了逐帧刷新带来的模板漂移。

实验在标准PC上(P4 2.0GHz、512M)用Watcom C编程实现。两组测试序列中,序列1的模板尺寸变化范围最大,模板尺寸最小为20×24,最大为64×64。匹配跟踪窗口大小为(2xsize(k))×(2ysize(k)),其中,xsize(k)和ysize(k)为第k帧目标模板的长和高。若在跟踪窗口内采用逐点匹配搜索最优点,则计算时间不能满足实时系统的要求,但由于跟踪时的匹配搜索算法是在局部窗口内寻找最优点,因此,可以采用遗传算法对匹配搜索进行优化[11]。从本文匹配算法的公式运算形式看,完全可以使用基于遗传算法的快速匹配策略进行优化,使跟踪算法满足实时运行的要求。

6 结论

本文提出了一种新的梯度特征图像相似性度量的方法,并结合自适应目标尺寸估计的方法对具有高速形变的空中目标进行了匹配跟踪。空中目标大小变化迅速,然而背景相对简单,利用图像的纹理信息和目标梯度空间分布的特点对空中目标大小进行估计,自适应的调整目标模板尺寸能够有效的增强跟踪稳定性。与传统的Hausdorff边缘匹配算法相比,该方法避免了复杂的边缘提取过程,而且匹配算法仅涉及加减乘运算,有利于工程实现。

参考文献

[1]Lei Yun,Ding Xiaoqing,Wang Shengjin.Adaptive Sparse Vector Tracking Via Online Bayesian Learning[C]//The International Workshop on Intelligent Computing in Pattern Analysis.Heidelberg,Berlin:Springer-verlag,2006:35-45.

[2]Shi Jianbo,Tomasi Carlo.Good Features To Track[C]//Proc.IEEE Computer Society Conf.Computer Vision and Pattern Recognition.Seattle,WA,USA:IEEE,1994:593-600.

[3]Vignon David,Lovell Brian C,Andrews Robert J.General Purpose Real-Time Object Tracking Using Hausdorff Transforms[C]//Proceedings of Special Session on Intelligent Systems for Video Processing.Annency,France:IPMU,2002:1-6.

[4]芮挺,王金岩,沈春林,等.Hausdorff距离下的景像特征快速匹配[J].光电工程,2005,32(6):20-23.RUI Ting,WANG Jin-yan,SEHN Chun-lin,et al.Fast scene matching of image feature using Hausdorff distance[J].Opto-Electronic Engineering,2005,32(6):20-23.

[5]Olson Clark F.A Probabilistic Formulation for Hausdorff Matching[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Santa Barbara,CA,USA:IEEE,1998:150-156.

[6]Collins R,Liu Y,Leordeanu M.Online selection of discriminative tracking features[J].Pattern Analysis and Machine Intelligence,2005,27(10):1631-1643.

[7]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proc.IEEE Computer Society Conf.Computer Vision and Pattern Recognition.San Diego,USA:IEEE,2005,1:886-893.

[8]Comaniciu D,Ramesh V,Meer P.Real-time tracking of non-rigid objects using mean shift[C]//IEEE Conference on Computer Vision and Pattern Recognition.Hilton Head Island,South Carolina,USA:IEEE,2000,2:142-149.

[9]Cootes T F,Wheeler G V,Walker K N,et al.View-based active appearance models[C]//Proceedings of the Fourth IEEE International Conference on Automatic Face and Gesture Recognition.Washington,DC,USA:IEEE,2002:227-238.

[10]Vacchetti L,Lepetit V,Fua P.Fusing online and offline information for stable3D tracking in real-time[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Monona Terrace Convention Center Madison,Wisconsin,USA:IEEE,2003,2:241-248.

相似性度量篇7

矿井通风机作为矿井通风系统的核心设备, 其运行状态直接关系着井下作业人员、设备和矿山的安全以及采矿作业的效率。因此, 当通风机出现机械故障时, 及时发现并确定其故障类型, 对通风机的正常运行与维护有着重要的作用。通常情况下, 对通风机这类旋转机械的故障诊断多采用振动分析法, 就诊断手段而言, 可分为基于知识的诊断、基于解析模型的诊断和基于信号处理的诊断[1,2,3]。

由于煤矿井下环境恶劣、复杂, 因此, 矿井通风机故障及其故障表现之间关系复杂, 且很多信息具有不确定性, 是一典型的模糊系统。模糊环境下的事物常被表示成模糊集, 传统的模糊集仅涉及元素对模糊概念的肯定隶属情况, 但现实中往往出现元素对模糊概念的肯定与否定2个方面, 且其中体现出介于肯定与否定之间的踌躇性。Gau和Buechrer在1993年提出的Vague集[4]是模糊集的一种推广形式。在Vague集中, 论域内的元素和论域上的集合之间的关系是“在一定范围内属于”的关系, 是一个区间的表示, 该区间既给出支持证据的程度, 也给出反对证据的程度。与传统模糊集相比, Vague集具有更强的信息表达能力和灵活性。因此, 本文提出了一种基于Vague集相似度量的矿井通风机故障诊断方法, 通过计算故障知识Vague集与采样得到的故障样本Vague集之间的相似度量并进行比较, 从而得到故障诊断结果。

1 Vague集理论

1.1 Vague集

定义1[5] 设X是一个对象空间, 即论域, 其中的任意一个元素用x表示, X上的一个Vague集V用1个真隶属函数tV和1个假隶属函数fV表示。tV (x) 是从支持x的证据所导出的x的肯定隶属度下界;fV (x) 是从反对x的证据所导出的x的否定隶属度下界, tV (x) 和fV (x) 将区间[0, 1]中的每一个实数和X中的每一点联系起来, 即tV (x) :X→[0, 1], fV (x) :X→[0, 1], x关于V的隶属度V (x) 表示为[tV (x) , 1-fV (x) ], 其中:tV (x) +fV (x) ≤1。

当论域X连续时, V可表示为

undefined

当论域X离散时, V可表示为

undefined

下文中讨论的论域, 如无特别说明都是离散的。

1.2 Vague集相似度量

定义2[6] 设X是一个非空集合, V是X上所有的Vague集组成的集合, A∈X, B∈X, M:V×V→[0, 1], 若M (A, B) 满足条件: (1) 0≤M (A, B) ≤1; (2) M (A, B) =1, 当且仅当A=B时成立; (3) M (A, B) =M (B, A) , 则称M (A, B) 为Vague集A和B的相似度量。

参考文献[6]定义的Vague集相似度量条件过于宽松, 参考文献[7]对其进行了改进, 在Vague相似度量的定义中增加了2个条件: (1) M (A, B) =0⇔VA (xi) =[0, 0], VB (xi) =[1]或VA (xi) =[1], VB (xi) =[0, 0]; (2) 若A⊆B⊆C, 则M (A, C) ≤min (M (A, B) , M (B, C) ) 。增加的第一个条件强调有且仅有非模糊集间的相似度量才会达到最小值0。该约束是合理的, 也是必要的。

为合理度量2个Vague集之间的相似程度, 参考文献[8]提出了基于加权因子的Vague集相似度量的改进方法, 该方法不仅满足Vague集相似度量定义中上述增加的2个条件, 且使其更加完备、客观、合理。

设x=[tx, 1-fx]、y=[ty, 1-fy]为论域X上的2个Vague值, 参考文献[8]给出的2个Vague值的相似度量为

Mz (x, y) =1-λ1|tx-ty- (fx-fy) |-

λ2|tx-ty+fx-fy|-

λ3 (|tx-ty|+|fx-fy|) (3)

式中:λi≥0 (i=1, 2, 3) 为加权因子, 且满足undefined、undefined, 或undefined、undefined。

设A和B为论域X={x1, x2, …, xn}上的2个Vague集, 其中:undefined, 则Vague集A和B由算术平均值导出的相似度量为

undefined

式中:VA (xi) =[tA (xi) , 1-fA (xi) ]为Vague集A中xi的隶属度;VB (xi) =[tB (xi) , 1-fB (xi) ]为Vague集B中xi的隶属度;i=1, 2, …, n。

2 基于Vague集相似度量的故障诊断算法

通常, 故障诊断首先由传感器检测故障信号, 然后分析故障特征向量, 最后确定故障类型。假设某故障类型诊断由n个故障特征值构成的特征向量来确定, 将这n个特征值表示为一论域X={x1, x2, …, xn}, 故障类型为Fi, i=1, 2, …, m, 则该故障特征向量对故障类型Fi的刻划程度可用Vague集表示为

Fi={[ti1, 1-fi1]/x1, [ti2, 1-fi2]/x2, …,

[tin, 1-fin]/xn} (i=1, 2, …, m) (5)

由传感器检测到的故障样本可用Vague集表示为

S={[t1, 1-f1]/x1, [t2, 1-f2]/x2, …,

[tn, 1-fn]/xn} (6)

则基于Vague集相似度量的故障诊断算法步骤如下:

(1) 根据权威或专家的故障特征规律确定故障类型Fi的Vague集表示;

(2) 将传感器检测到的故障样本S表示成Vague集形式;

(3) 根据式 (4) 依次计算Vague集Fi和S的相似度量M (Fi, S) ;

(4) 找出所计算出的最大相似度量, 其所对应的Fi即为最可能出现的故障。

3 矿井通风机故障诊断实例

矿井通风机的机械振动特性分析是进行振动监测和故障诊断的前提, 是提取故障特征的关键。参考文献[9]给出了矿井通风机常见故障的故障类型及其特征之间的关系, 即故障知识。现将其故障特征值用Vague值表示, 如表1所示。其中, f1为平衡故障引起的振动频率;f2为叶片故障引起的振动频率;f0为外圈特征频率;fi为内圈特征频率;fb为滚动体特征频率;ff为保持架特征频率。可通过分析振动信号中是否含有这些频率成分来识别故障发生的部位。

下面举例说明Vague集相似度量在矿井通风机故障诊断中的应用。根据前文的故障诊断算法步骤, 首先确定故障类型Fi的Vague集表示。由表1可知, 矿井通风机常见的故障类型有8种, 依次表示为F1, F2, …, F8, 8个故障特征构成论域X={x1, x2, …, x8}, 则X上8个通风机故障知识由以下Vague集表示:

F1=[1]/x1+4[0.18, 0.22]/x2+[0.39, 0.41]/

x3+[0.09, 0.11]/x4+[0, 0]/x5+[0, 0]/x6+[0, 0]/x7+[0, 0]/x8 (7)

F2=[0.18, 0.22]/x1+[1]/x2+[0.39, 0.41]/

x3+[0.68, 0.72]/x4+[0, 0]/x5+[0, 0]/x6+[0, 0]/x7+[0, 0]/x8 (8)

︙F8=[0.18, 0.22]/x1+[0.18, 0.22]/x2+

[0.39, 0.41]/x3+[0.09, 0.11]/x4+[0, 0]/

x5+[0, 0]/x6+[0, 0]/x7+[1]/x8 (9)

假设矿井通风机出现转子不平衡故障。当矿井通风机的转速为3 000 r/min、采样频率为1 kHz时, 检测到的振动信号经预处理后如图1所示, 其对应的幅值谱如图2所示。

对检测到的振动信号进行故障特征提取, 然后用Vague集表示, 可得检测的故障样本为

S=[0.89, 0.93]/x1+[0.15, 0.25]/x2+[0.33, 0.45]/x3+[0.1, 0.12]/x4+[0, 0]/x5+

[0, 0]/x6+[0, 0]/x7+[0, 0]/x8 (10)

然后, 用式 (4) 计算每个故障知识Vague集与故障样本Vague集之间的相似度量。分别取undefined、undefined和undefined、undefined、undefined这2组加权因子, 得到的计算结果如表2所示。