模糊互信息(精选7篇)
模糊互信息 篇1
0引言
准确高效的图像分割对于SAR图像信息的解读具有重要意义。仿生学计算, 由于其操作简单灵活并具高效性而被广泛应用于图像分割中。它可以被分为2类:进化算法 (Evolutionary Algorithms, EA) 和集群智能算法 (Swarm Intelligence, SI) 。进化算法, 比如遗传算法 (Genetic Algorithm, GA) , 受自然选择和优胜劣汰的启发而被提出;集群智能算法, 比如人工鱼群算法 (AFS) 和粒子群优化算法 (PSO) , 则借鉴了动物觅食行为。
ABC算法是一种以蜜蜂觅食作为基础研究出来的新集群智能算法。文献[1]中证明了它在方程优化方面比PSO、GA、EA、DE和PS-EA (Particle Swarm Inspired Evolutionary Algorithm) 算法效率高、速度快。作为一个有力的优化工具, 该算法还鲜少被应用于图像分割领域。因而, 若将分割后图像和原图像的最大模糊信息量用作ABC算法的适应度函数 (Fitness Function) , 则此种算法可被用来估计大幅SAR图像分割的全局阈值, 能够改善大计算量的效率。
1人工蜂群算法
1.1人工蜂群算法的基本原理
在ABC算法[1]中, 蜂群智能系统由蜂群、食物源和蜂巢 (因为蜜蜂在蜂巢中跳舞来交换信息, 也称为舞蹈区) 组成。蜂群成员包括3类:雇主蜂 (Employed Bees) 、侦察蜂 (Scouts) 和雇佣蜂 (Onlookers) 。雇主蜂和特定食物源具有一对一关系, 负责引导雇佣蜂开采花蜜或者独自开采花蜜, 它总是记住本次采集花蜜时所处最佳食物源位置, 并在它周围一定范围内贪婪地探寻更佳食物源, 如果发现新食物源更佳, 就会废弃旧食物源;雇佣蜂在蜂巢, 它和雇主蜂交流完信息后, 负责根据食物源的收益率选择是否选定某食物源为局部最佳食物源, 食物源的收益率与花蜜的丰富度、离蜂巢的距离和获得花蜜的困难程度都有关;侦察蜂负责随机地寻找其他食物源, 它的数目为整个蜂群的5%~20%[2]。在采蜜全过程中, 蜂群行为主要包括寻找食物源和废弃食物源, 寻找到最佳食物源位置的过程就是寻找某个问题的最佳优化解过程。
1.2人工蜂群算法的实现
初始化蜂群大小并计算每一个雇主蜂的适应度函数以及记录下当前最大蜂蜜值和对应雇主蜂位置;每个雇主蜂在它所在蜂蜜附近寻找新蜂源位置, 计算其适应度函数, 并根据贪婪原则更新新蜂源位置;根据每个新蜂源的适应度计算整个雇主蜂部队的收益, 设蜂群位置为xi, 它的适应度函数为fi, 那么收益Pi可以表示为:
每个雇佣蜂根据收益来选择蜂源位置并寻找新的蜂源位置, 计算适应度函数;记录整个蜂群 (包括雇主蜂和雇佣蜂) 的最大蜂蜜值及其蜂源位置, 同时检查是否满足丢弃条件, 如果满足则在目标函数的范围内随机产生新的解来替代该值。
2模糊互信息
2.1互信息
互信息量[3]的概念源于信息论, 它是2个随机变量统计相关性的一种测度, 设A, B是2幅图像, 那么2幅图像的互信息可以用熵表示为:
MI (A, B) =H (A) +H (B) -H (A, B) 。
式中, H (A) 和H (B) 为图像A, B的熵;H (A, B) 代表A, B的联合熵。根据信息熵的定义, 互信息可以写成:
式中, pA (a) 、pB (b) 为A, B灰度的概率密度分布;pAB (a, b) 为A, B灰度的联合概率密度分布。
2.2模糊互信息
参数定义同互信息部分, 图像A, B的模糊互信息 (Fuzzy Mutual Information, FMI) 可以定义为:
式中, μ (ai, bi) 为图像A中灰度ai和图像B中灰度bi之间的相关系数, 满足0≤μ (ai, bi) ≤1, 针对不同应用场景会有不同确定方法;参数α是大于0的可调因子;FMIm (A, B) 为参数型模糊互信息量。
3基于FMI和ABC算法的图像分割
本文算法将图像分割简化为分割成目标区域和背景区域2部分, 以最大模糊互信息量为分割判据, 以ABC算法作为优化方法, 其算法流程如下:
① 图像预处理。针对SAR图像的相干斑噪声, 对原图像A进行Lee Sigma滤波[4];然后利用模糊域映射, 选用S型曲线, 对滤波后图像灰度值再次进行处理, 最终得到模糊增强[5]的图像。
② 计算原图像A和分割图像B之间的模糊互信息量。设图像灰度变化范围为0~L-1, 应用模糊互信息量进行图像分割时, 首先要定义原图像A中任意灰度级与二值化图像B中的目标 (背景) 区域的平均灰度级之间的隶属度;然后才能计算原图像A和二值化图像B之间的模糊互信息量。其中模糊隶属度定义为:
式中, mO (t) 和mB (t) 分别为分割图像B中目标和背景的平均灰度。
最终得到分割阈值t为:
式中, 参数α>0。
根据文献[6], 当α→0时, 上述分割准则退化为传统互信息量分割准则。
③ 利用ABC算法, 设定蜂群大小、丢弃次数以及最大迭代次数等参数, 将最大模糊互信息作为适应度函数以分割图像, 最终得到最优分割阈值t, 其流程图如图1所示。
4实验结果和讨论
为了验证算法的准确性和高效性, 实验从3个方面进行了设计:① 传统互信息方法和本算法的分割准确性的比较;② 遗传算法和本算法分割速度的比较;③ 遗传速度和本算法收敛性的比较。
实验数据是日本星载ALOS的L波段单通道大幅数据, 大小为481×2 161, 显示区域为日本成田机场。采用Intel公司Xeon系列E5405型号CPU, matlab版本为R2008b。参考文献[7], 本算法将蜂群大小设为10, 最大迭代次数设为30, 丢弃次数设为10, 蜂蜜位置的上下边界分别为0和255。而遗传算法中, 群体规模设为50, 最大迭代次数为80, 交叉率为0.5, 变异率为0.02。传统互信息分割结果如图2 (c) 所示, 发现通过ABC方法求得的阈值为210, 分割后有较多的噪声和纹理, 而本算法α设为1, 求得阈值为238, 得到的结果如图2 (d) 所示, 是比较完整的机场轮廓。从计算速度方面来看, 遗传算法得到阈值为235所用的时间为635.034 s, 而本算法计算时间为198.487 s。
此外, 在比较遗传算法和本算法的区别时还发现, 本算法在第7次迭代开始得到稳定的最终fitness函数最优解, 而遗传算法则经历折线寻优的过程, 最终从第25次迭代开始得到波动不大的最终fitness函数最优解, 从中也可以看出本算法具有较好的收敛性。
5结束语
实验证明人工蜂群算法具有以下优点:① 正反馈。正反馈机制能够扩大局部最优解的数量, 增加迭代次数和雇主蜂的数目有利于找到全局最优解。② 分布式计算和并行性。分布式计算要求个体要独立地搜索最优解, 雇主蜂互相独立可以防止过早收敛。每个雇主蜂更新最优食物源时是互相独立的, 便于编写并行程序, 提高代码的效率。③ 鲁棒性。该算法稍加修改可以应用在很多实际工程问题中, 并且得到的解具有收敛性[9]。
在此基础上, 探索了一种大幅SAR图像目标分割的方法, 以最大模糊互信息为判据, 以ABC算法优化求解阈值, 检测出原图像中尽可能多的目标信息, 并以人工蜂群算法作为阈值选取的工具, 自动检测出复杂环境下的SAR图像中的目标, 检测有效, 算法简单。
参考文献
[1]KARABOGA D, BASTURK B.A Powerful and EfficientAlgorithm for Numerical Function Optimization:ArtificialBee colony (ABC) Algorithm[J].Journal of GlobalOptimization, 2007, 39 (3) :459-471.
[2]李峰磊.蜂群算法研究与应用[D].南京:河海大学硕士论文, 2008:16-17.
[3]刘立新.多阈值模糊互信息图像分割方法[J].计算机工程与应用, 2009, 45 (25) :166-168.
[4]潘诚, 戴晓燕.基于CV模型的SAR图像机场感兴趣区域检测[J].无线电工程, 2012, 42 (7) :10-12.
[5]LIU B, CHENG H D, HUANG J H, et al.AutomatedSegmentation of Ultrasonic Breast Lesions Using StatisticalTexture Classification and Active Contour Based onProbability Distance[J].Ultrasound in Medicine andBiology, 2009, 35 (8) :1 309-1 324.
[6]CHEN G, ZUO H F.2-D Maximum Entropy Method ofImage Segmentation Based on Genetic Algorithm[J].Journal of Computer-Aided Design&Computer Graphics, 2002, 14 (6) :530-534.
[7]MA Miao, LIANG Jian-hui, GUO Min, et al.SAR ImageSegmentation Based on Artificial Bee Colony Algorithm[J].Applied Soft Computing, 2011, 11 (8) :5 205-5 214.
一种改进的互信息特征选择方法 篇2
本文针对互信息(MI)特征选择方法分类效果较差的现状,提出了一种改进的互信息特征选择方法CMI。该方法考虑了特征项在当前文本中出现的频率以及互信息值为负数情况下的特征选取,从而能更有效地过滤低频词。在文本自动分类器KNN上的实验表明该方法极大地提高了分类精度。
1 互信息特征选择方法
文本集中的单词、短语往往多达数万甚至数十万个,如果直接用来构成文本特征向量,必将带来所谓的“维数灾难”和计算复杂性太高,不能满足实际的性能需求等问题。因此,很有必要对特征向量进行降维处理。特征选择的依据是特征对分类作用的大小,通常用一个统计量或者评价函数来度量,把度量值小于阈值T的那些特征过滤掉,剩下的即认为是有效特征。选择没有改变原始特征空间的性质,只是从原始特征空间中选择了一部分重要的特征,组成一个新的低维空间[3]。
互信息(Mutual Information:MI)在统计语言学领域被广泛使用[4],它体现了特征与类型之间的相关程度。特征项t和类别之间的互信息定义[5]:
其中:P(t,c)为C中出现特征t的文本数除以训练集的大小;P(t)为训练集中出现t的文本数除以训练集的大小;P(c)为训练集中属于类型C的文本所占的比例。
如果有m个类型,于是对每个特征项t都有m个值,通常取它们的平均,即平均互信息。平均值大的特征被选择的可能性大。平均互信息如公式(2)所示:
2 改进的互信息方法
互信息体现着特征与类型之间的相关程度,当特征的出现只依赖于某一类型时,特征与该类型的互信息很大,当特征与类型相互独立时,互信息为0;在进行特征选择时,分别计算出各个特征项的MI值,从原始特征空间中删除低于既定阈值的特征项,将高于该阈值的特征项构成文本向量的特征子集。互信息评估函数没有考虑特征项在当前文本中出现的频率,在公式(2)中,不同特征项在训练集中出现的概率和在类ci中出现的概率相同时,低频词比高频词的MI值更高,即此种情况下低频词易被选入特征子集中,从而影响了分类的效果。在计算MI值时加上特征项频率的条件限制,能有效地过滤低频词。
从公式(2)可以得出,P(t,ci)/P(ci)描述的是特征出现在类ci中的概率,P(t)描述的是特征在训练集中出现的概率。P(t)值越小,且P(t,ci/P(ci)值越大,则计算出的互信息值就越大,该特征项就越有可能被选取;反之,P(t)值越大,且P(t,ci)/P(ci)值越小,则计算出的互信息值就越小,甚至为负数,该特征项被选取的可能性也就越小。但是互信息值是负数说明该特征项很少或不出现在当前类别中,而是出现在其他类别中,即负相关。进行特征选择时,通常会把负值大的特征项过滤掉,而实际上,这些特征项对正确分类也具有重要的意义。
综合以上两个因素,我们对公式(2)进行如下变换来改进互信息方法,即带限制条件的互信息方法(Constrained Mutual Information:CMI):
其中f(t)为特征项在当前文本中出现的频率,其它同公式(2)。对于低频词,按公式(3)计算的CMI值将小于其MI值,从而有利于过滤掉低频词;对于负相关的特征词,按公式(3)计算的CMI值为正数值,从而很可能选为特征子集。
3 实验及其分析
3.1 语料集
实验采用的训练集和测试集来源于中科院计算所谭博士整理的中文文本分类语料库-Tan Corp V1.0(下载地址为:http//www searchforum.org.cn/tansongbo/corpus.htm),我们把其中的数据平均分成两半分别组成训练集Tan Corp Train和测试集Tan Corp Test。
3.2 评价标准
文本分类中普遍使用的性能评估指标有查全率R(Recall)、查准率P(Precision)、F1测试指标、宏平均F1和微平均F1等。查全率=被正确分类的文本数/被测试文本总数;查准率=正确分类的文本数/被分类器识别为该类的文本数;对于一次测试,准确率和查全率一般是成反比的。提高准确率,查全率会下降;提高查全率,准确率会下降。F1指标综合了P和R两个指标,可以对分类器进行整体评价,如公式(4)所示:
宏平均F1和微平均F1是以两种不同的平均方式求得的全局F1指标。
3.3 分类器及实验
K最近邻居算法(KNN)是文本分类中比较著名的经典分类算法,我们应用KNN分类器进行了实验,其中概率估算方法采用基于词频统计,特征选择方式采用全局选取;
实验比较结果如表1以及图1、图2所示。
从表1以及图1、图2的实验数据可以看出,在相同的训练集和测试集条件下,改进的互信息方法所取得的分类效果远高于未经改进的互信息方法。这说明了在计算MI值时加上特征项频率的条件限制,能有效地过滤低频词,并且计算所得的那些互信息负值大的特征项,对文本分类同样具有重要意义。
4 结束语
互信息是常用的一种特征评估函数,但在实际的中文文本分类中其分类精度一直较低。该文分析了其影响分类精确度的两个因素,提出了一种改进的特征选择方法,该方法考虑了特征项在当前文本中出现的频率以及互信息值为负数情况下的特征选取,从而能更有效地过滤低频词,在文本自动分类器KNN上的实验表明该方法极大地提高了分类精度。
摘要:特征选择是中文文本自动分类领域中极其重要的研究内容,其目的是为了解决特征空间高维性和文档表示向量稀疏性之间的矛盾。针对互信息(MI)特征选择方法分类效果较差的现状,提出了一种改进的互信息特征选择方法IMI。该方法考虑了特征项在当前文本中出现的频率以及互信息值为负数情况下的特征选取,从而能更有效地过滤低频词。通过在自动分类器KNN上的实验表明,改进后的方法极大地提高了分类精度。
关键词:中文文本自动分类,特征选择,互信息
参考文献
[1]Lewis D D.An evaluation of phrasal and clustered representations on a text categorization task[C].Proceedings of15th ACM International Conference on Research and Development in Information Retrieval(SIGIR-92),1992:37-50.
[2]Kohavi R,John G H.Wrappers for feature subset selection[J].Artifi-cial Intelligence Journal,1997,97(1-2):273-324.
[3]Aha D W,Bankert R L.A comparative evaluation of sequential fea-ture selection algorithms[C].Proceedings of the5th International Workshop on Artificial Intelligence and Statistics,1995:1-7.
[4]Church L W.Hanks P K.Word association norms,mutual information and lexicography[C].Vancouver,Canada:Proceedings of A-CL27,1989:76-83.
模糊互信息 篇3
随着多媒体、机器学习、模式识别技术的快速发展和应用,其已经在图像处理领域得到了广泛的普及,能够提高图像搜索、图像增强的成效。图像处理过程中,图像分割是图像处理的关键技术之一,其可以能够预处理图像和提取关键特征,降低图像噪声,为图像增强和分析提供预处理结果,降低图像处理时的信息量,又能够保持图像内部结构特征。随着图像分割技术的研究,已经取得了显著的成效,陈圣国等人基于随机游走算法和SSFCM算法提出了一种半监督图像分割算法,能够实现图像特征准确提取[1]。姜平等人提出基于特异度和自适应分类策略的图像分割算法[2]。刘光辉等人分析多尺度马尔科夫随机场在图像分割中产生的块效应,提出一种基于多尺度置信度传播图像分割算法[3]。杨勇等人提出了一种基于多尺度结构张量的图像分割算法,采用无监督方法对彩色纹理图像进行分割[4]。范朝冬等人提出一种基于小概率的Otsu图像分割算法[5]。皮志明等人融合深度和颜色信息提出一种图像分割算法[6]。李积英等人融合量子克隆进化与二维Tsallis熵等技术提出一种图像分割算法[7]。
图像分割虽然已经大幅度提升准确度,但是对于具有复杂背景和多目标的图像,图像分割不准确,不能够保留图像内部结构特征。为了解决上述问题,本文提出了一种基于互信息的图像分割算法-ISMI,能够有效地提高图像分割的精准度,同时能够将一幅图像中的多个不同目标分割出来。
2 基于互信息的图像分割算法设计
图像分割过程中,互信息可以度量任两个像素点的概率包含程度,也就是能够独立像素点的重合情况[8]。互信息的定义如下描述:
定义1:给定一个离散随机变量(X,Y)~p(x,y),p(x)=∑Yp(x,y) ,p(y)=∑Xp(x,y) ,则随机变量X和Y之间互相包含的互信息为:
如果两个像素点的概率是逻辑独立的,互信息取值为零,达到最小值I(X; Y)= 0 。互信息满足对称性,I(X; Y)= I(Y; X) 。
互信息应用于图像分割中其目标是尽可能地保留相邻片区之间的互信息,压缩相关的信息到瓶颈变量中,反映图像内部结构特征。具体的,使用矩阵M(X,Y)存储一个二值化图像的信息,其中变量X和变量Y分别表示二值化的图像的行和列,则ISMI算法采用行列双向划分的思想执行图像分割操作,具体的图像分割过程如下所述:
(1)ISMI算法对图像的行X进行划分,使用Y(Ŷ)作为度量划分过程中各个分片之间的互信息。在这个过程中,要尽可能地保留Y(Ŷ)的信息量,以便能够使得图像的行结构相似的区域分割到一个片内。
(2)ISMI算法对图像的列Y进行划分,使用X( X̂)作为度量划分过程中图像的各个区域之间的互信息。在这个过程中,要尽可能地保留X(X̂)的信息量,以便能够使得图像的列结构相似的区域分割到一个片内。
(3)设定某一个阈值,将其作为(1)和(2)交替执行的一个阈值,以便二者能够交叉进行,同时实现图像分割。
通过对ISMI算法进行分析,可以得知在图像分割过程中,可以使用互信息表示I(X; Y) 表示一幅图像包含的互信息量,I(TX; X) 表示图像的行分割后拥有的互信息,I(TY; Y) 表示图像的列分割后拥有的互信息,I(TX; Y) 表示图像初始执行行分割时要尽可能保留的互信息,I(TY; X) 表示图像初始执行列分割时要尽可能保留的互信息,I(TX; TY) 表示图像进行行、列分割中期需要保留的信息。因此,ISMI算法的目标函数可以使用公式(2)描述:
由公式(2)可知,ISMI算法在执行图像分割的过程中,需要最小化I(TY; X) 和I(TY; Y) ,同时尽可能地保留I(TX; TY) 、I(TX; Y) 和I(TY; X) 。因此,在图像分割过程中,假设图像分割产生的互信息损失可以使用公式(4)表示:
ISMI算法具体描述如下:
输入:原始图像包含的互信息I(X; Y) ,图像的行X,图像的列Y,协作参数α和平衡参数β。
输出:图像行分割结果(Tx,Ty)。
算法步骤:
1) 初始化图像的行X,图像的列Y,β=∞,a =1;
2) 将图像分割为c和Ty,使用公式(3)计算图像分割产生的互信息损失量cost(tm,tn) ,1≤i≤j≤|X|,1≤m≤n≤|Y|;
3) 选择Min(Min(cost(ti,tj)),a Min(cost(tm,tn))) 的图像进行分割;
4) 使用公式(3)更新下一次执行图像分割时的互信息损失量cost(ti + 1,tj + 1) ,cost(tm + 1,tn + 1) ;
5) 直到图像产生分割完成,算法结束;否则,回到第3步;
3 实验及结果分析
为了能够验证本文ISMI算法的有效性,在MATLAB9.0 环境中实现图像分割算法,并且与基于多尺度局部区域置信度传播算法的图像分割和结合SSFCM与随机游走的半监督图像分割算法进行比较,图像数据集分别是CT图像(图1(a))、海岛图像(图2(a))和动物图像(图3(a))。
CT图像分割中,ISMI算法可以实现精确分割,准确的划分出CT图像的轮廓,并且能够将内脏器官划分出来,准确度非常高,如图1(b)所示。基于多尺度局部区域置信度传播算法对CT图像分割之后,可以获取CT图像的轮廓,但是无法将身体内器官划分清楚,准确度较低;结合SSFCM与随机游走的半监督图像分割算法可以需要人工进行设置和划分,但是需要通常设置划分人的经验不足,难以获取准确的CT图像轮廓,内部器官也非常模糊,图像分割效果非常弱,CT图像处理已经在医学图像处理中得到了广泛的普及和应用,具有较高的潜在应用价值。
海洋中的岛屿的分割效果过程中,ISMI算法可以准确地将岛屿中的图像分割出来,准确度较高,分割效果比较准确。基于多尺度局部区域置信度传播算法和结合SSFCM与随机游走的半监督图像分割算法图像分割结果较为模糊,置信度传播算法可以划分一个模糊的岛屿轮廓,随机游走算法的无法准确盘底岛屿在图像中的位置,效果不太理想。
一幅图像通常包括多个同种类型的目标,因此图像分割算法需要识别出来多个目标的清晰轮廓,比如在斑马群图像、高速公路汽车等,都需要迅速的获取目标图像,需要处理更多的应用。单目标和多目标图像分割过程中,ISMI算法可以精确地识别出单个目标,并且分割结果较为准确。在多个目标图像分割过程中,基于多尺度局部区域置信度传播算法如果背景简单并且毫无遮挡,可以识别出来目标,如图3(c)所示。基于SSFCM与随机游走的半监督图像分割算法对于多个目标进行分割时,其无法识别多个同类目标的轮廓,分割效果非常差,如图3(d)所示。ISMI算法可以精确的识别每一个目标对象的轮廓,如图3(b)所示。
4 结束语
基于互信息的图像分割算法可以从行、列两个方向对图像进行分割,分割中尽可能的保存图像内部结构特征,实验结果显示本文算法可以提高图像分割精确度,同时可以将一幅图像中的多个目标分割出来。
参考文献
[1]陈圣国,孙正兴,周杰,等.结合SSFCM与随机游走的半监督图像分割算法[J].计算机辅助设计与图形学学报,2013,(7):1074-1082.
[2]姜平,窦全胜.基于点特异度和自适应分类策略的眼底图像分割方法[J].通信学报,2015,8(8):161-170.
[3]刘光辉,任庆昌,孟月波.基于多尺度局部区域置信度传播算法的图像分割[J].北京工业大学学报,2014,7(7):124-128.
[4]杨勇,郭玲,王天江.基于多尺度结构张量的多类无监督彩色纹理图像分割方法[J].计算机辅助设计与图形学学报,2014,26(05):812-825.
[5]范朝冬,欧阳红林,张英杰.基于小概率策略的Otsu图像分割方法[J].电子与信息学报,2013,(9):111-113.
[6]皮志明,汪增福.融合深度和颜色信息的图像物体分割算法[J].模式识别与人工智能,2013,(2):24-26.
[7]李积英,党建武,王阳萍.融合量子克隆进化与二维Tsallis熵的医学图像分割算法[J].计算机辅助设计与图形学学报,2014,(3):35-37.
模糊互信息 篇4
弹头与弹壳痕迹比对检验学在公安实践中可以判断发射枪支以证实犯罪[1]。目前的弹头与弹壳痕迹比对已经由二维信息转到三维信息,三维信息中包含了非常重要的深度信息,深度信息在枪弹痕迹检验学比对中是非常重要的[2,3,4,5]。基于此,我们研发了弹痕三维纹理获取系统,该系统能够实现微观的高精度测量。该系统获取的三维信息平面的分辨率能够达到2.75μm,深度信息的精度能够达到0.5μm,如此高的精度为后续的弹痕比对奠定了坚实的基础。在传统的枪弹痕迹比对学中,弹痕比对一直是判断两颗子弹是否发自同一支枪的重要依据。但若在案发现场找到的子弹弹痕受到了破坏时,将不能用于弹痕比对。近几年来,弹壳尾部撞针痕迹的比对受到了越来越多的重视,将弹壳比对和弹痕比对的结果进行综合分析能够得出更准确的结论。
传统的弹壳比对都是基于二维灰度信息进行特征点的提取、配准,对基于弹壳三维信息比对来说,其获取的是弹壳的深度信息,传统的比对方法将不再适用。在三维信息的配准计算领域,主要有两种方法:一是基于几何特征的配准计算,二是基于体素特征的配准计算。基于几何特征的配准算法需要提取出物体的几何特征,然后再进行匹配;而基于体素特征的配准算法则是直接利用弹痕图像的灰度值进行相似度计算[6]。由于基于几何特征的配准算法需要物体具有明显的几何特征,这对于弹壳处的撞针压痕来说并不适用,因此本系统采用了基于体素特征的配准计算。
基于体素特征的相似度计算主要有绝对互信息测度法[6]、归一化互相关系数法[7]、图像灰度差分法[8]等。绝对图像灰度差分法原理简单,计算速度快,但不太稳定,有时不能正确找到匹配的位置,而互相关算法则能较好的完成任务,它是通过计算两图像间互相关函数的极大值来实现的。
1 弹壳三维信息及预处理
本系统获取的弹壳三维图像如图1,2所示。
图1为三维信息中的深度信息映射到灰度值。由映射后的灰度图我们可以看到,弹壳的尾部主要包含两个主要的信息,一是外围的圆形信息,二是撞针形成的中间黑色的近似圆形的孔洞。对于外部的圆形信息对于同一型号的子弹来说都是相同的,不具有唯一的特征信息,因此不用对其做任何的分析。对于中间的孔洞信息,则是撞针与弹壳的撞击形成的,包含着撞针的形状和纹理信息,具有唯一的特征信息,因此,通过分析此信息可以进行子弹与枪支的比对工作。
1.1 圆心的计算
首先对弹壳尾部图像进行二值化,如图3所示。
经过二值化的图像分为两部分,一是外部的圆,一是内部的撞针轮廓图。对外部的圆计算其圆心利用最小二乘法进行圆的拟合,进而计算出其圆心坐标,记为(x0,y0)。
1.2 撞针质心的计算
由于撞针的形状不规则,对其质心的计算不能进行圆或椭圆的拟合,根据质心计算公式进行计算,如下式:
1.3 距离的计算
距离的计算公式为
通过距离值可以定量计算撞针对弹壳的撞击位置,进而初步判定两个弹壳是否发自同一支枪。
2 体素特征的互信息测度配准
基于体素的配准方法主要分为三个步骤:空间变换、配准测度的计算以及配准参数优化[6]。
2.1 空间变换
它表示两个弹壳撞针数据的三维空间对应关系,建立此对应关系是图像配准的基础。通过对数据的三维空间变换来使得两组数据的配准测度最大,达到空间位置一致的目的。
由于弹壳为一圆柱体,同时又为刚体,因此对于两组弹壳数据来说,将圆心坐标作为弹壳三维数据的原点,直接将弹壳2以Z轴为旋转轴进行旋转,此时就完成了两个弹壳的空间变换,旋转公式如下[2]:
2.2 配准测度计算
配准测度是图像配准成功与否的基础,也是判定图像空间位置配准的依据,合适的配准测度需要满足两个条件[1]:一是配准测度的函数局部的极值点较少,二是配准测度函数对图像配准的位置描述准确。在配准测度的计算中,互信息方法是一种非常有效的方法,它直接基于图像的像素进行配准,不需要进行特征提取、分析,自动化程度很高。对于两幅数字图像A,B,其灰度值的分布即为概率分布,则其互信息表达式为
其中:边缘概率分布pA(i)、pB(i)与联合概率分布pAB(i,j)为两幅图像重叠部分的归一化联合直方图,即
式中:i为重叠部分图像A中的灰度值,j为重叠部分图像B中的灰度值,h(i,j)为重叠部分两幅图像灰度值为(i,j)的像素对总数,为重叠部分的像素对总数。对于图像A,B的熵及其联合熵,有如下关系:
对于互信息与联合熵来说,它们对图像的大小与重叠区域非常敏感,为了解决此问题,Maes等提出了熵的互相关系数的概念,简写为CECC:
后来又有人提出了归一化的熵的互信息Y(A,B):
2.3 配准参数的优化
基于最大互信息的三维图像的配准过程,实际上是一个通过对多参数进行迭代的最优化过程,所以优化策略的选择直接关系到配准的速度以及配准结果的精度。很多学者对于优化策略也进行了相关的研究,比如模拟退火法、多层次搜索等,但此类算法太复杂,计算量大,有时对复杂的图像配准结果不稳定,对于弹痕比对系统来说,稳定的结果是最关键的,因此需要对算法进行改进。
3 本系统配准方案
对于本系统的数据来说,其灰度值是由基于三维的深度信息转换得到的。同时由于在获取弹壳数据的过程中,弹壳的摆放位置不可能完全一致,因此深度信息的高度为0的基准也不可能做到完全一致,弹壳摆放也可能存在倾斜的情况,综合考虑以上的诸多因素,提出了以下的改进算法,流程图如图5所示。
在上述流程中,高斯滤波主要完成在采集弹壳数据时0高度的基准不完全一致产生的偏差,对弹壳的数据只选取中间平坦的部分进行高斯滤波,这样有两点好处:
1)中间平坦的部分高度均匀,数据获取的精度也高,滤波效果好,滤波结果能够代表弹壳的空间位置,这样两个弹壳在减去滤波平面后能够处于同一高度坐标系。
2)撞针部分的数据与其它地方高度差别大,高频信息丰富,参与滤波计算会对滤波平面产生较大的影响,同时不参与滤波计算还能够保留最原始的撞针信息。
在互信息测度的计算过程中,由于在采集过程中弹壳会有一定的倾斜,两个弹壳的倾斜情况不可能完全一致,因此提出了基于迭代的互信息测度的计算。
弹壳本身可以看做一个刚体,所以对于倾斜的情况下,两组数据的高度信息只要乘以一个系数就能进行倾斜的校正,系数的选择采用迭代的方法进行计算,从中找出互相关测度最大的一个系数。
由于弹壳的数据为基于深度信息的三维数据,此时对于撞针的不同区域来说,在相同的倾斜角度差的情况下,偏离的距离是不同的,如图6所示。
对于三维空间内的两点C1与C2,做出其在xoy平面的投影,则其在z轴方向上的高度为h1与h2,很明显h1
式中:i,j分别为以圆心为坐标原点的相对坐标值,i=0,1,...,W;j=,1,...,H;n(28)0,1,...,NKi,j表示在任一像素点处的最终修正系数,k n为迭代的系数,N为迭代总次数,W为待配准数据转换为图像的宽度,H为待配准数据转换为图像的高度。为了减小计算量,特选择撞针处的数据进行互相关测度的计算。
4 实验结果与分析
对于迭代系数kn的取值范围,根据系统的实际情况,选择0到0.01之间的21个数,步长为0.000 5进行迭代计算,对同一枪支的弹壳,其最大互相关测度值为0.68,此时kn=0.0055;不同枪支的弹壳互相关测度值不够稳定,结果如图7,图8。
由图7,图8可以得出以下结论:
1)对于不同枪支的弹壳,其互相关测度小于0.5,对不同的修正系数,其变化剧烈,反映敏感;
2)对于同一枪支的弹壳,其互相关测度大于0.6,对于不同的修正系数,变化平缓;
3)当kn=0时,此时的情况就是不做任何修正,两种情况下的互相关测度值都不高,利用修正系数对同一支枪的弹壳进行修正效果非常明显;对不同枪支来说,其没有相关性,因此修正对判定结果没有影响。
通过分别对12组不同枪支和同种枪支弹壳的撞针信息进行互相关测度计算,修正前和修正后的结果如图9和图10所示。
由表1可以得出,对于所比对的不同枪支与同种枪支的各12组弹壳结果来看,自适应变系数方法对不同枪支的弹壳影响不大,最大提升7.535 2%,平均提升2.137 9%;对于相同枪支弹壳的提升非常明显,最大提升30.075 7%,平均提升12.724 9%。
5 结论
本文根据现代公安系统在枪支案件侦破时所利用的枪弹痕迹比对学的要求,提出了基于三维信息的弹壳撞针相似度比对。研究了比对过程中影响比对结果的因素,对传统的比对方法进行了改进,给出了比对方案的具体工作流程。通过使用自适应变系数互相关测度的迭代法找出最优的比对结果。实验结果表明:新方法对不同的枪支弹壳比对的结果影响不大,平均提升2.137 9%,对于相同枪支弹壳的提升非常明显,最大提升30.075 7%,平均提升12.724 9%。这对于提升弹痕比对结果的成功率具有重要意义。
参考文献
[1]王放明.枪案物证检验技术现状与发展[J].刑事技术,2003(2):29-31.WANG Fang-ming.The Summary of the New Adanced Technology About Evidence Examination in Gun Case[J].Forensic Science and Technology,2003(2):29-31.
[2]Vorburger T V,Yen J H,Bachrach B,et al.Surface Topography Analysis for a Feasibility Assessment of a National Ballistics Imaging Database[M].U.S.A:Technology Administration,U.S.Department of Commerce,2007.
[3]A Superior Solution:What Makes Forensic Technology’s IBIS TRAX-3D the Most Advanced Ballistic Imaging Solution in the World Today?[R/OL].http://www.forensictechnology.com,2009.
[4]Toni B,Brinck M Sc.Comparing the Performance of IBIS and BulletTRAX-3D Technology Using Bullets Fired Through10Consecutively Rifled Barrels[J].Journal of Forensic Sciences(S0022-1198),2008,53(3):677-682.
[5]Computer Assisted3D Analysis Tools for Forensic Applications[R].Intelligent Automation,Inc.2008.
[6]刘小平.三维超声心动图最佳切面自动检测方法的研究[D].上海:上海交通大学,2010.LIU Xiao-ping.Auto-Detection of the Optimal Cross Sections in3D Echocardiographic Images[D].Shanghai:Shanghai Jiao Tong University,2010.
[7]罗曼.针对弹壳图像的配准与融合方法研究[D].长春:东北师范大学,2010.LUO Man.Research on Cartridge Case Image Registration and Fusion[D].Changchun:Northeast Normal University,2010.
[8]马丙辰,谌海新,马桂珍.基于标记点的刚体图像配准方法研究[J].计算机工程与应用,2005,41(6):68-71.MA Bing-chen,CHEN Hai-xin,MA Gui-zhen.Rigid-Body Image Registration Based on Landmarks[J].Computer Engineering and Applications,2005,41(6):68-71.
[9]王淑珍,谢铁邦,常素萍.一种新型弹头痕迹测量仪[J].兵工自动化,2009,28(7):31-34.WANG Shu-zhen,XIE Tie-bang,CHANG Su-ping.A New Warhead Marks Measuring Instrument[J].Ordnance Industry Automation,2009,28(7):31-34.
模糊互信息 篇5
粗糙集理论是1982年由波兰科学家Z.Pawlak创立的一种数据分析理论。粗糙集理论具有很强的定性分析能力,即不需要预先给定某些特征或属性的数量描述,而是直接从给定问题的描述集合出发,通过不可分辨关系和不可分类确定给定问题的近似域,从而找出该问题的内在规律。
通常情况下,近似空间中的属性并不是同等重要的,特别是当近似空间中的数据是随机采集时,冗余属性更为普遍。冗余属性的存在,一方面是资源的浪费,同时也影响产生的决策规则的正确性和简洁性。目前国内外出现的一些属性约简算法都是利用属性重要性作为启发式信息,从信息系统或决策系统中找出最优约简,因此也可称为启发式算法。在算法思想上主要有两种思路:第一种是从条件属性的核出发,根据属性的重要性不同逐次将重要性最高的属性加入到核中,直到满足某种条件。第二种是从整个条件属性空间出发,根据属性的重要性不同,逐次删除重要性最小的属性,直到满足某种条件。本文对常见的属性约简算法如差别矩阵方法、MIBARK算法等进行了分析对比,在此基础上提出了基于属性重要性和互信息的MIBARK改进算法。
2 基本概念
定义1设U是非空有限集合,对于任何子集称为U中的一个概念,U中的任何概念簇,称为U的抽象知识。粗糙集理论中以等价关系代替分类。当用R表示论域U中对象之间的等价关系时,则U/R表示U中的对象根据关系R构成的所有等价类族。若且∩P(P中全部等价关系的交集),就是P上的不可分辨关系,记为IND(P)。
定义2设R为一等价关系簇,并且r∈R,若IND(R)=IND(R-{r}),称r为R中可省略的,否则r为R中不可省略的。
(1)当对如果r不可省略,则簇R为独立的。当R是独立的,如果存在属性子集则P也是独立的。
(2)对于属性子集使得IND(Q)=IND(P),且Q为最小子集,则Q称为P的约简,表示为Red(P)。
(3)P中所有约简属性集中都包含的不可省略关系的集合,即约简集Red(P)的交集称为P的核。表示为Core(P),即:Core(P)=∩Red(P)
定义3设K=(U,R)为一知识库,为了度量知识的依赖性,定义如下:
k=r P(Q)=Card(Pos P(Q))/Card(U)Card表示集合的元素个数
(1)当k=1时,则称知识Q完全依赖于P,即论域中的全部元素可通过知识P划入U|Q的初等范畴;
(2)当k=0时,则称知识Q完全独立于知识P,即论域中没有元素可通过知识P划入U|Q的初等范畴;
(3)当0
系数r P(Q)可以理解为知识P和知识Q之间的依赖程度。
来衡量,即去掉某一属性子集后计算依赖度SGF的变化,变化越大,则该属性子集越重要。
3 常见的属性约简算法
3.1 一般约简算法
一般约简算法是根据求属性核Core的的思想,考察条件属性集中删除某一属性后正区域是否发生变化,以此来判断该属性是否重要。
输入:决策表T=〈U,C∪D〉,C、D分别为条件属性和决策属性。
输出:决策表的核Core
利用一般约简算法能够得到决策表的一个属性约简结果,但不一定是满意的属性约简结果,而且该算法所需要的时间和空间代价都很高,如果决策表中属性和对象个数较多,将是一个组合爆炸问题。
3.2 差别矩阵方法
差别矩阵是粗糙集中一个重要概念,它将决策表中关于属性分类的信息浓缩到一个矩阵当中,可用于决策表的属性约简。差别矩阵的定义如下:
设信息系统S,论域U={x1,x2,…,xm}是研究对象,条件属性C={c1,c2,…,cm},决策属性D。定义系统的差别矩阵为M(s),其元素为
其中i,j=1,2,3,…,n,这里n=|U|。
利用差别矩阵进行属性约简的实质是利用逻辑运算中的吸收律和其它演算法则来达到数据约简的目的,当面临的是较小规模数据集时,采用基于差别矩阵的属性约简是比较高效的。
输入:决策表T=〈U,C∪D〉,C、D分别为条件属性和决策属性。
输出:T的约简属性集
基于差别矩阵的属性约简算法可以得到决策表的所有可能的属性约简结果,可以根据实际问题需要选取满意的结果,它实际上是将对属性组合情况的搜索演变成为逻辑公式的化简,但随着对象数目的增加,差别矩阵的维数将会大大增加,因此该算法适合于处理较小规模数据集。
3.3 MIBARK算法
在求解决策表属性约简的时候,可以利用决策表条件属性和决策属性之间的互信息。在决策表中增加某个属性所引起的互信息的变化的大小可以作为该属性重要性的度量。MIBARK算法的思想也在于此。
输入:决策表T=〈U,C∪D〉,C、D分别为条件属性和决策属性。
输出:T的一个相对约简
(1)对C-B中的每个属性p,计算互信息I(p,D|B);
(2)选择使互信息I(p,D|B)最大的属性,记为p(若同时存在多个属性达到最大值,则从中选取一个与B的属性值组合数最少的属性作为p);并且B=B∪{p};
(3)若I(B,D)=I(C,D)则终止,否则转(1);
Step4:最后得到的B就是C相对于D的一个相对约简。
MIBARK算法也是一种启发式算法,在多数情况下能够得到决策表的最小属性约简。
4 基于属性重要性和互信息的MIBARK改进算法
本文提出的基于属性重要性和互信息的MIBARK改进算法的主要思想是:直接以属性依赖度为衡量标准,逐步添加属性到候选属性集R中,然后考虑候选属性集中两两属性的互信息,从候选属性集中删除对正确分类贡献不大的属性,这样就能保证在较短的时间内得到简化的属性集。该算法之所以要采用先添后删的方法,是因为前向选择时没有考虑条件属性之间的依赖关系,而事实上后来属性的加入很可能使某个候选属性成为冗余,因此需要判断条件属性之间的互信息,如果互信息很大的话,说明两者之间存在较强的依赖关系,应该在不影响分类质量的前提下将之删除。
4.1 基于属性重要性和互信息的MIBARK改进算法
输入:决策表T=〈U,C∪D〉,C、D分别为条件属性和决策属性,互信息阈值δ。
输出:决策表的一个约简R
根据算法得到集合R为决策表的一个约简。
该算法的思想就是先选择尽可能多的属性进入候选属性集,从而保证了对条件属性的约简不失真,最大限度保留了原决策表中的客观信息,而后将候选属性集中那些对分类效果贡献不大的属性删除,保证了结果的简洁性。由此可见,本算法更加侧重于属性集的简化,同时由于候选属性的个数远远少于原条件属性的个数,因此本算法能够得到较理想的约简结果。
4.2 仿真实验
表1所示决策表是一组原始气象数据经过离散区间划分后得到的数据,应用基于属性重要性和互信息的MIBARK改进算法对决策表进行属性约简。设互信息阈值δ=0.5,经计算得到r C(D)=7/12。经过分别计算R中属性的重要性及两两属性间的互信息,最终无属性满足I(ai,aj)>δ且r R-{aj}(D)=r C(D)的条件,因此,得到最终约简属性集R={a,b,c,d},得到最终决策表(如表2所示)。
经过属性约简和属性值约简后的决策表得到很大程度简化,得到的决策规则在数量和质量上都与专家结论基本一致,有较好的应用效果。
5 结束语
本文在对决策表属性约简的典型算法进行分析比较的基础上,提出了基于属性重要性和互信息的MIBARK改进算法,直接以属性重要性为衡量标准,逐步添加属性到候选属性集中,从而保证了对条件属性的约简不失真;而后通过属性重要性和互信息计算将候选属性集中那些对分类效果贡献不大的属性删除,保证了结果的简洁性,并通过实例对研究成果进行分析论证,得到了较好的应用效果。
参考文献
[1]王国雍..Rough sets理论与知识获取.西安交通大学出版社,2001.5.
[2]顾沈明,吴伟志,高济.不完备信息系统中知识获取算法[J].计算机科学,2005,32(9)149-152.
[3]杨善林,倪志伟.机器学习与智能决策支持系统.北京:科学出版社,2004
[4]Jack Jelonek,Krzysztor of Knawcic,Roman Slajinski.Rough Set Reduction of attributes and their domains for Neural Network.Computational Intelligence,11(2):213-220
[5]Duntsch I,Gediga G.Uncertainty Measures of Rough Set Prediction.J of Artificial Intelligence,1998,106(1):77-107
[6]Yao Y Y.Constructive and Algebraic Methods of The theory of Rough Sets.Journal of Information Sciences,1998(109):21-47
[7]Wang M,Yang J,Xu ZJ,Chou KC:SLLE for[8]predicting membrane protein types.J Theor Biol2005,232(1):7-15.
模糊互信息 篇6
关键词:粒子群算法,CNN,图像配准,边缘提取,互信息
0 引言
对同一个物体,因为拍摄的时间、温度、仪器等多个方面的影响,最终得到的图像将会在旋转程度、比例的缩放和灰度属性等方面产生差距。图像配准[1]正是寻求一种变换,将两幅或两幅以上的图像为消除以上图像间存在的差异进行时域和频域的匹配。医学图像配准是为了让医学诊断图像的信息更加详细的显现出来,使其能在疾病诊断方面更为准确的对疾病进行判断。医学图像配准的基本方法[2]一般包含有两种: 一种是基于图像中主要特征的配准方法,找到图像中比较明显的特征,通过提取图像中找到的特征,估算出图像之间的变换模型,这种算法减少了计算量,但是这些特征必须要有足够多的量,抗噪声,而且具有易检测的特点,事实上这些条件很难满足; 另一种是基于图像之间互信息的配准方法,主要过程是寻找进行配准的图像的灰度信息,不依赖于成像的装置,而且配准精度比较高,但是其存在着对噪声敏感,处理灰度值时需要进行计算的数量很大,同时没有考虑图像之间的空间信息等缺点。为此,孙雅琳等人[3]提出了将图像边缘提取与互信息法相结合的图像配准方法,该方法虽然对于图像处理效果有进步,但是不适于医学图像配准。王苏苏[4]提出了基于细胞神经网络CNN的医学图像处理方法,但其使用的CNN模板参数是估算方法生成的范围区间,在边缘提取方面存在误差。
针对以上不足,本文在CNN互信息图像配准方法的基础上进行了两个方面的改进,分别是: ( 1) 利用粒子群算法对CNN模板参数通过自主学习方法进行改进,得到精确的CNN模板; ( 2)将得到的精确CNN模板应用在医学图像边缘检测中,并与互信息算法相结合,将其用于医学图像中。
1 粒子群优化的CNN模板
1. 1 细胞神经网络介绍
细胞神经网络( CNN) 是由蔡少堂所提出的[5,6],它是由神经元局域连接组成,具有并行运算处理的特点,已经用超大规模集成电路实现。CNN是由多个细胞的组合而构成的,每个网络中的细胞仅与它邻域中的细胞之间进行关联。一个M × N二维阵列的CNN,主要是由M行N列个细胞分布在矩阵网格的每个节点上所构成的,第i行,第j列的细胞用Ci,j表示。
定义1影响细胞球[7]: 在CNN中表示细胞Ci,j的r邻域称为影响细胞球Sr( i,j) :
其中r为一个正整数。
标准CNN状态方程[8]为:
输出方程为:
式中xi,j是CNN中细胞的状态变量,yi,j是整个方程的最后输出,ui,j是CNN的初始输入,zi,j为整个网络中阈值和r称为细胞影响球的半径。一般对于CNN的阈值zi,j为恒定的值,即zi,j= z 。公式中涉及的参数ak,l,bk,l和zi,j分别对应于在CNN的三个模板分别是A模板、B模板和Z模板。使用CNN对图像边缘进行提取的主要步骤是找到适当的模板参数。
1. 2 CNN模板设计及不足
CNN应用在医学图像处理上时,通常选择采用3 × 3 的影响细胞球范围内的CNN模板,其动力学行为由19 个参数决定: 9个反馈参数akl,9 个控制参数bkl和1 个阈值z。由文献[6]可知,一个稳定的CNN模板对参数的选择为:
这里akl= 0( k ≠ l) 且akl> 1 ,bkl为非线性函数bkl( Δu) ,由文献[9]可得:
式中 Δu = fwin[[wl( ui,j L- ui + k,j + l L) + wc( ui,j L- ui + k,j + l L) ]/( wl+wc) ],fwin是求取模板参数时的窗口函数,g为使用窗口函数时的界限值。
使用CNN模板进行图像边缘提取时所用到的局部规则为:
局部规则1
当ui,j邻域内至少有3 个像素点在其相邻的8个像素点中使得| Δu | > g成立时,像素点的值输出为黑色,则yi,j( ∞ ) 为黑色,像素点( i,j) 是边缘点。
局部规则2
当ui,j邻域内最多仅有2 个像素点在其相邻的8 个像素点使得| Δu | > g成立时,像素点的值的输出为白色,则yi,j( ∞ ) 为白色,像素点( i,j) 是非边缘点。
使用CNN对图像边缘进行提取时的动力学曲线图如图1所示。
图1 中的动力学曲线图表明了CNN模板参数的变化趋势:当动力学曲线是在xi,j轴上方时,动力学曲线上的箭头方向总是指向xi,j增大的方向; 当动力学曲线在xi,j轴下方时,动力学曲线上的箭头方向总是指向xi,j减小的方向。
由CNN在设计模板时局部规则和动力线曲线图的前提下,实现图像边缘的提取功能,则模板参数的估算取值范围为:
通过CNN模板分析估算方法设计的模板过程中,通过CNN模板的局部规则和动力学曲线建立的式( 5) ,确定了CNN模板参数的取值范围。由式( 5) 可以得到一个对图像边缘进行检测的CNN模板的估计参数为:
通过上面的模板分析方法可以看到只能得到估计模板参数,这是CNN模板分析设计算法产生的不足。针对上面设计CNN模板的方法时产生的不足,使用粒子群算法对其进行改进,下面进行详细叙述。
1. 3 粒子群优化的CNN模板
粒子群算法[10]是通过种群中个体之间的合作和竞争,以实现在空间解集合中寻找最优解的过程,其具有进化计算和群体智能优化的特点。假设在d维的空间解集合中,一个粒子群包含N个将进行搜索功能的粒子,可以将其属性做如下描述: 粒子的速度Vi( vi1,vi2,…,vid) ,粒子的位置Xi( xi1,xi2,…,xid) ,更新粒子的位置时所经过的最优位置Pbest( pi1,pi2,…,pid) ,更新所有粒子的位置时所经过的最优位置Pg( Pg1,Pg2,…,Pgd) 。根据粒子在空间解集合中的运行路线受自己和其他粒子学习过程的影响,第i个粒子在d维速度和位置更新的方程为:
式中: i为一个粒子群中的全部粒子个数,1 ≤ i ≤ N ,c1 和c2 是学习因子,不同情况下学习因子有所不同。rand( ) 表示0 ~ 1之间的随机数。式( 6) 中的第一项Vid( t) 是粒子的初始速度,使得粒子在搜索空间解集合中能够移动的范围,使得粒子能够遍布整个空间解集合; 第二项是粒子感知自己的能力,表示粒子自己学习知识的过程; 第三项是粒子之间的结合,表示粒子之间相互学习知识的过程。w是进行粒子群算法过程中惯性权值,是粒子用来在空间解集合内进行局部和整体遍历之间转换的系数[11]。
CNN模板的学习方法本质上是一个寻优的过程,粒子群算法对模板参数通过自主学习方法进行优化,得到精确的CNN模板。粒子群算法优化CNN模板参数中,位置对应于每一个细胞在CNN中所在的位置,速度是为了确保每个细胞在每一次移动时产生的距离在一个范围内,保证细胞是在影响细胞球范围内。优化CNN模板算法描述如下:
对CNN模板设计过程通过粒子群算法进行改进,得到了精确的模板参数akl、bkl和z。
经过粒子群优化的CNN模板参数为:
图2为通过未处理和优化生成的两个CNN模板参数进行处理后的结果:
2 粒子群优化的CNN互信息图像配准算法
2. 1 互信息算法
互信息[12]是两个物体之间关联的程度,或是一个物体与另一个物体之间存在相同点的多少,通常采用熵进行互信息量之间的计算。目前,在图像配准的研究中互信息算法已经成为研究的重点。若两幅图像之间进行了图像配准,互信息值的大小是已经成为判断图像配准的重要理论依据。
互信息的计算描述为:
式中,H( A) 和H( B) 分别是图像A和B的熵,H( A,B) 是两幅图像之间的联合熵,H( A | B) 是已经知道图像B时图像A的条件熵而H( B | A) 是已经知道图像A时图像B的条件熵。
式( 8) 中的各种熵分别如下所示:
式中,a ∈ A ,b ∈ B ,pA( a) 和pB( b) 分别表示两幅图像A和B之间处于完全相互独立时的概率密度分布,pAB( a,b) 表示二者之间的联合概率密度分布,PA| B( a | b) 和PB| A( b | a) 分别表示已知图像B时图像A的条件概率密度分布和已知图像A时图像B的条件概率密度分布。
在一定程度上为了在进行图像配准中可以使配准函数更平滑,准确率提高,Studholme等人[13]在基本互信息算法的基础上提出了归一化的互信息计算方法,其数学描述为:
将通过粒子群优化CNN模板参数得到的精确模板参数的过程的方法与归一化的互信息算法进行结合,提出了粒子群优化的CNN互信息图像配准算法。
2. 2 粒子群优化的CNN互信息图像配准算法
通过互信息进行图像配准,原始图像A和参考图像B之间需进行的几何之间的转换关系表示为:
式中,( x'A,x'B) 和( xA,xB) 分别是原始图像A和参考图像B中对应的像素坐标点,m通常取( - 1,1) 之间的数; α 为进行配准图像时图像之间旋转的角度大小; x、y分别为配准图像中像素点分别在水平x位置方向和垂直y位置方向上进行移动时产生的位移。
使用归一化的互信息算法进行图像配准时需要计算图像之间的概率密度分布,因此进行配准的图像A与B的联合概率密度分布为:
式中,N为图像A和B中灰度值不同却在一个邻域内的像素点对的全部个数; nab为灰度值a,b的像素点对的个数。
图像A,B的边缘分布函数为:
通过改进的互信息算法的图像配准方法可以描述为:
式中,a*为图像配准时对带配准图像进行参数优化的过程中所需的目标参数,A表示待配准的图像,B表示参考图像。
进行归一化的互信息算法图像配准,其本质就是找到合适的几何转换参数值,让其在图像配准过程中互信息值最大,因此需要对参数进行优化处理。利用粒子群算法对归一化的互信息算法中的参数进行优化,其过程可描述为:
Step1
在进行归一化的互信息算法的参数优化的过程中,在空间解集合内对粒子进行初始化,进而得到粒子所需要确定的位置和其进行移动搜索时需要的速度。其中位置是在空间解集合内的粒子进行移动时得到的解,速度则是控制粒子在空间解集合的范围内进行移动,此时粒子i表示图像像素。
Step2
对于d维空间解集合中的第i个像素的位置和速度分别为Xi( xi1,xi2,…,xid) 和Vi( vi1,vi2,…,vid) ,将通过像素的目标函数f( x) 作为评价的标准,用来确定在空间解集合中的每个像素所经过的最佳位置Pbest和在整个群体中所发现的最佳位置Pg。
Step3
根据式( 6) 和式( 7) 分别对像素的速度和位置进行更新。
粒子群算法的参数选择的依据是由进行图像配准时选取图像的实际情况和算法的收敛性这两个条件所决定的[14]。算法的收敛性主要由参数中的惯性权值w决定的,w控制着粒子前一次迭代速度对当前迭代速度的影响,如果w取值较大,则影响力较大,整个算法的全局搜索能力较强,有利于跳出局部极值点; 而w取值较小,则前一动量项的影响较小,局部搜索能力较强,有利于算法收敛,因此为了保证算法的收敛性,本文使用的w的取值较小。
使用粒子群算法寻找归一化的互信息算法的最优几何变换参数时,由粒子群算法参数选择依据可以对参数进行如下设定:维数d = 3,像素数目为20,第i个像素Xi( xi1,xi2,xi3) 的初始位置分别在( Δx0- 10,Δx0+ 10) 、( Δy0- 10,Δy0+ 10) 和( Δα0- 10,Δα0+ 10) 范围内任意出现( xi1表示在横坐标的平移量,xi2表示在纵坐标的平移量,xi3表示旋转角) ,初始化的速度Vi( 4,4,4) ,c1 = c2 = 2,目标函数f( x) = α*。
3 算法的流程图
本文提出的粒子群优化的CNN互信息医学图像配准算法,主要包括两个方面: 一方面是使用粒子群算法对CNN模板参数通过自主学习进行优化; 另一方面是将优化得到的CNN模板与互信息算法相结合进行医学图像配准,算法的基本流程图如图3 所示。
通过图3 算法流程图可以得到,使用本文算法可以对医学图像的配准在精度和速度方面进行改进,使得图像配准在医学领域应用更为广泛,下面通过医学图像实验对本文提出的算法进行验证。
4 实验结果和分析
为了验证文中所提出方法的有效性,基于MATLAB2010 和VC + + 平台,在CPU为2. 20 GHz的英特尔i3 处理器、内存为4 GB的PC机上进行实验。综合考虑到医学图像类型和用途等因素,选取2 组医学测试图像分别用小波互信息配准算法、CNN互信息配准算法及本文算法进行实验,实验结果对比分别如图4 - 图7 所示。本文进行实验时首先由粒子群算法参数选择依据对参数进行如下设定: 种群数由实验图像决定,迭代次数为10,w = [0. 4,0. 9],线性递减,初始化搜索空间中最大速度和最小速度由种群数确定,学习因子c1 = 1. 4985,c2 = 1. 27。对于CNN中初始状态xij( 0) = 0 ,初始输入uij( 0) 是输入的原图; 互信息中的m取0. 9623。
图4( a) 是401 × 401 的医学图像中肝脏的CT图像,将其作为原始图像,图4( b) 是医学中同一部位的PET图像,将其作为参考图像,图4( c) 是在进行图像配准前对图4( a) 和图4( b) 进行直接融合得到的实验结果图像。图5 分别是小波互信息配准算法、CNN互信息配准算法和本文算法对CT原始图像进行边缘提取处理后,与图4( a) 进行图像几何融合处理,得到的融合图像与图4( b) 参考图像进行互信息图像配准得到的最终结果图像。比较图4( c) 和图5 可以看到图像配准前与后进行融合的图像效果差距不是很大,但是后者效果明显更好,细节更清楚。比较图5 中三幅的最后结果图,通过肉眼观察3 种方法配准融合后的图像,本文算法配准融合图像的效果细节更好,边缘显示的更明显。为了更清楚比较3 种算法的差异,3 种图像配准方式的实验结果参数对比如图8 和表1 所示。
图6( a) 是255 × 255 的医学图像中脑的CT图像,将其作为原始图像,图6( b) 是医学中同一部位的MR图像,将其作为参考图像,图6( c) 是在图像配准前对图6( a) 和图6( b) 进行直接融合得到的实验结果图像。图7 是通过对肺部进行实验中所采用的三种算法得到的融合图像与图6( b) 进行互信息图像配准后得到的最终结果图像。比较图6( c) 和图7 可以清晰看到图像配准前与后进行融合图像效果差距却很大,后者效果明显更好,细节更清楚。比较图7,通过肉眼观察3 种方法配准融合后的图像,却很难区别三种算法之间的差异,因此为了比较3 种算法对脑部图像进行实验时产生的差异,对3 种图像配准算法的实验结果参数进行相比较如图8 和表1 所示。
在表1 中,时间都取100 次运行的平均结果,其中包含边缘检测时间。
综合图8 的实验数据,可以清晰看到使用三种方法得到几何变换的参数不同,前三组进行比较,横向位移、纵向位移和偏转角度最大的是CNN互信息配准算法的结果,本文算法和小波互信息配准算法的结果基本相同; 对第四组进行比较,本文算法的互信息值最大,明显好于其他两种算法; 由表1 可以看出,在运行时间上,小波耗时最长,CNN互信息配准和本文算法所用时间基本相同。综合以上3 个方面从总体上可以看出本文算法在细节准确度和速度要好于其他两种算法,综合性能更好,并且其参数的选择是误差在允许范围内。
5 结语
模糊互信息 篇7
关键词:医学图像配准,小波变换,特征点互信息,粒子群算法
1 前言
医学图像配准是医学图像处理领域中的一项重要技术, 对临床诊断和治疗起着越来越重要的作用。尽管医学图像配准研究已经开展多年, 但是目前的主要方法仍然存在不足, 需进一步改进, 才能使其更好地应用于临床。
医学图像配准是指对于一幅医学图像寻求一种 (或一系列) 空间变换, 使它与另外一幅医学图像上的对应点达到空间上的一致。目前提出的图像配准算法大多可分为基于灰度的配准方法和基于特征的配准方法, 两类方法各有利弊。基于图像像素 (体素) 相似性的配准具有较高的精度, 但这种方法计算量过大, 配准速度较慢, 而配准时间过长在临床上是不能被接受的。基于图像特征的配准, 通过特征提取, 把待处理的图像数据减少为少量的相似性特征点、线或面, 配准速度快, 缺点主要在于图像特征提取过程复杂, 图像配准精度受图像特征提取精度的影响。
如何有效融合两类方法, 将图像边缘信息结合到互信息量当中, 保证精度并兼顾速度, 成为近年来医学图像配准领域的热点之一。1999年Rangarajan等对待配准的两幅图像提取出形状特征点的集合, 然后利用互信息法来进行配准。在特征点提取中, 文献中采用Canny边缘检测算法得到图像的边缘, 然后作聚类分析得到形状特征点。这一方法的应用存在局限性, 尤其对MRI图像。MRI图像的特点在于能够较好地分辨出头部软组织, 图像内部包含较多细节。经边缘提取得到的边缘线较密集, 因而聚类得到的特征点分布随机性较强。互信息的计算易受这种随机性的干扰, 影响最终配准精度。2002年周永新、罗述谦等对该法进行了一定的简化和修正, 引入人机交互, 缩短了优化过程, 避免了局部极值。
本文在对小波变换进行研究的基础上, 提出了一种基于小波多尺度积特征点互信息的配准新方法。多尺度小波系数由于其相关性在去噪中得到应用, 本文利用小波多尺度积来最大限度的抑制噪声, 得到准确的图像边缘及特征点, 将图像的特征信息与互信息结合起来, 它只需针对提取出来的特征点进行计算, 计算量大大减少。实验证明, 该方法避免了人机交互过程, 能准确地实现多模态医学图像的配准, 并具有较快的配准速度。
2 小波变换多尺度积提取图像特征点
传统的几种边缘检测算子在抗噪性和边缘定位等方面往往不尽如人意, 这主要是边缘和噪声都是高频信号, 很难在噪声和边缘中取舍。而小波变换可以从能量方面来区分边缘和噪声, 使得小波变换在抗噪和边缘定位方面有独特的优势。
1985年, Mallat分析了由Croisier, Esteban和Galand提出的用于数字电话的正交镜像滤波器 (Quadrature Mirror Filter, QMF) , 由Buft和Adelson提出的用于数字图像处理的金字塔算法和由Stormberg及其合作者提出的标准正交基之间的密切关系, 将计算机视觉中的多尺度分析思想引入到小波分析中, 提出了多分辨率分析 (Multi-resolution Analysis, MRA) 的概念。
多尺度边缘检测的基本思想就是沿梯度方向, 分别用几个不同尺度的边缘检测算子在相应点上检测模极大值的变换情况, 并通过对阈值的选取, 再在不同尺度上进行综合得到最终边缘图像, 可以较好的解决噪声和定位精度之间的矛盾。下面介绍这种简单而有效的小波多尺度积边缘检测算法。
设θ (x, y) 是二元平滑函数, 满足
对θ (x, y) 分别沿x、y方向求偏导数
对于任一函数f (x, y) ∈L2 (R2) , f (x, y) 经平滑函数θ (x, y) 在尺度s作用下的二维小波变换有两个分量, 分别为
因此, 小波变换的两个分量分别表征了f (x, y) 经θ (x, y) 平滑后, 沿水平方向及垂直方向的梯度矢量, 则f*θs (x, y) 梯度矢量的模为:
梯度矢量与水平方向的夹角为:
若我们对某一2D图像f (x, y) 实施小波变换, 则小波变换的局部极大值点即为沿着梯度方向Af (s, x, y) 上模Mf (s, x, y) 的局部极大值点, 这些极大值点的位置给出了图像的一个多尺度边缘。而噪声的小波变换模极大值随尺度增大而减小, 选择适当的尺度和阈值, 使得大部分噪声的小波变换模极大值经过衰减后小于阈值而被去除。
为进一步提高降噪能力、提高定位精度, 本文将相邻两尺度小波变换系数积作为尺度相关函数, 这样可以放大信号的小波系数而缩小噪声小波系数, 然后在尺度相关函数值中找出所有模局部极大值, 即为数字图像边缘点。方法如下:
对2D图像f (x, y) 做J级小波变换, 在点 (x, y) 的关于x和y方向上二维多尺度积分别表示为:
对二维多尺度积用前述方法计算模、幅角, 求出所有模局部极大值点, 并设定合适的阈值。至此, 我们已获取相关图像的特征点。
3 特征点互信息的配准方法
假定从两幅图像中分别提取出形状特征点的集合X={Xi, i=1, 2, …, N1}和Y={Yj, j=1, 2, …, N2}, Xi和Yj表示形状特征点在二维平面中的坐标, X和Y代表了图像中对应解剖组织的形状分布信息。在某种空间变换参数T下, 点集X和Y的互信息为
其中, Pij代表特征点Xi和Yj的联合概率, 即Pij=P{I=i, i∈ (1, …, N1) , J=j, j∈ (1, …, N2) }。Pij表示同时从X中选取Xi和从Y中选取Yj的概率, 实际计算时,
其中, α和λ为辅助参数, α、λ取值的讨论见文献[3]。Xi和Yj经空间变换T的欧氏距离为Dij=||Xi-TYj||2。
采用形状特征点互信息作为配准目标函数, 具备如下特有的优点:首先, 互信息反映的是两个系统间的统计相关性, 或者说, 代表了系统X中包含的系统Y的信息。在医学图像配准问题中, 由于待配准的两幅图像基于共同的解剖信息, 因此当两幅图像达到空间位置完全一致时, 其中一幅图像表达的关于另一幅图像的信息, 也就是对应形状特征点的位置互信息应为最大;其次, 对于形状特征点集X (或Y) 中特征点的数目多少以及排列先后次序, 式 (9) 没有严格要求。即X和Y中点的数目可以不相等, 并且点的编号次序是随机的;再者, 式 (9) 反映的是X和Y的统计特性, 因而具备一定的抗噪声能力。
4 基于小波多尺度积特征点互信息的配准流程
在优化算法上, 本文采用了粒子群算法 (PSO) , 该算法具有较好的全局收敛的能力, 有效避免了早熟现象.综上所述, 基于小波多尺度积特征点互信息的配准流程可以概括为:
5 实验结果
5.1 特征点提取实验
本文将小波多尺度积的方法应用于一幅加噪的MR图像。图2中: (a) 是MR原图; (b) 是加了gaussian白噪声 (u=0, σ=0.005) 后的图像; (c) 是用两级小波多尺度积提取出的轮廓特征点; (d) 是用四级小波多尺度积分别提取出的轮廓特征点。
从实验的结果可以看出, 本文提出的方法具有抗噪性强、定位精度高的优点。同时, 在实际使用中也应注意小波变换级数J的取值, J值过大, 小波变换的边缘离位问题会变得很严重, 如图2 (d) 所示。
5.2 图像配准实验
为了检验本文配准方法的正确性, 我们先以两幅MR图像为例, 一幅以另一幅为参考, 有一定的旋转角度和平移量偏差, 如图3所示, (a) 、 (b) 为参考图及小波多尺度积提取的轮廓特征点, (c) 、 (d) 为待配准图像及小波多尺度积提取的轮廓特征点。表1为两幅MR图像仿真实验结果。
由上表易知, 该方法是一种行之有效的配准方法。接下来, 我们再来配准两幅CT和MRT图像, 如图4所示: (a) 为配准前MR图; (b) 为MR边缘图; (c) 为MR特征点图; (d) 为配准前CT图; (e) 为CT边缘图; (f) 为CT特征点图; (g) 为刚体变换后的CT图。表2为两幅MR和CT图像实验结果。
6 结论
通过以上实验, 我们可以看到本文所采用的小波多尺度积方法提取轮廓特征点, 避免了Rangarajan用canny边缘算子及聚类方法求取特征点分布随机性较强, 影响互信息计算的不足。同时, 这种方法无需人机交互, 稳定性好, 是一种操作简单的自动配准方法。
参考文献
[1]罗述谦, 周果宏.医学图像处理与分析[M].北京:科学出版社, 2003, 1-380.
[2]谌安军, 陈炜, 毛士艺.一种基于边缘的图像配准方法[J].电子与信息学报, 2004, Vol.26.No.5:679-684.