自适应均值漂移

2024-07-23

自适应均值漂移（共5篇）

自适应均值漂移篇1

0 引言

随着网络日新月异地迅猛发展, 网络上的各种协议也相继出现, 与此相对应, 流量识别技术则日趋显示了其重要的作用和价值。传统的基于端口的流量识别方法和深层数据包检测 (DPI) 技术已经不能很好地完成识别的任务, 当前基于机器学习的流量识别技术已经成为引领该领域研究的主流和方向[1]。网络流量识别本质上是根据网络数据包的特征将网络数据流分成已知的协议类别, 而这正是一种典型的数据流分类的应用, 那么必然地数据流分类面临的概念漂移检测问题在进行流量识别技术研究时也就需要慎重对待、深入考虑。近年来, 关于数据流分类中概念漂移检测的研究已取得了不少的成果, 但是各类方法在应对某种具体的数据流时却都具有一定的局限性[2]。本文结合实际网络环境中存在类别不平衡的情况, 提出了更适用于网络流量识别的概念漂移检测方法。

1 流量识别与概念漂移

概念漂移是数据流分类中的问题。作为一种具体的数据流, 网络数据流当然也存在概念漂移的相关问题。

1.1 流量识别中的概念漂移

以机器学习的角度来看, 基于机器学习的网络流量识别技术实际上就是学习概念的过程[3]。识别的实现是通过在训练网络数据集内寻找其蕴含的协议分类规则 (概念) , 由此得到网络流量识别器, 进而识别测试网络数据包或者实际工作中到来的网络数据包的类别。

假定网络数据流D={…, di-1, di, di+1, …}, 其网络数据流中的协议类别C={C1, C2, …, Cn}, t时刻, 在训练网络数据集Dt上训练得到识别规则f:Dt→C, 那么在t+1时刻就可以对dt+1网络数据包的协议类别预测为f (dt+1) 。但是, 如果网络数据流的隐藏背景在t时刻和t+1时刻发生了改变, 引发了概念漂移, t+1时刻的实际识别规则已经是g:Dt+1→C, 且g≠f。也就是说, dt+1的真实协议类别是g (dt+1) , 因而利用原来的识别规则f预测的dt+1的协议类别即是不尽合理的。通过上面的论述可以看到, 概念漂移对网络流量识别的影响, 而正确的做法也就相应可得了。假定在t+△t时刻发生了概念漂移, 应该迅速检测出漂移的发生, 然后重新训练识别器, 得到正确的识别规则g, 然后利用g来进行以后的网络数据包协议类别预测。

自适应的流量识别就是能够自主地检测到概念漂移的发生, 而后再对分类器进行重新构建, 以保证其对动态网络数据流的正确识别。

1.2 检测方法分类

由于概念漂移的生成原因极其复杂, 目前的检测方法都不是直接的, 而只是间接的[4]。最为基础的有两个:

(1) 可能导致概念漂移发生的原因;

(2) 概念漂移发生后可能产生的结果。

前者称之为性质法, 后者为性能法[5]。

性质法是指监测最新的网络数据集合的相关统计性质, 如协议种类的分布、各数据包的特征分布等等。Alippi设计了不依赖先验信息而只需要数据分布模型的中心极限定理的概念漂移检测算法[6];Peter等提出了基于熵的概念漂移检测方法[7]。

性能法是指检测识别器最新的性能指标, 如分类精度、召回率等等, 如果分类器的性能指标出现较大波动, 即说明发生了概念漂移。Widmer的FLORA算法依赖分类器的样本覆盖量和准确率决定窗口大小[8];Last等提出的OLIN算法[9]即根据误差率来判断概念漂移产生与否。

2 概念漂移检测

上节阐述的两种概念漂移检测方法中, 最经常使用的是基于性能监测的方法, 但是却不适合类别不平衡的数据流环境。本节将会看到, 网络流量环境中经常出现的类别不平衡现象对概念漂移检测的影响, 同时结合这点, 本文也提出了改进算法, 以适应实际网络环境下的动态流量变化。

2.1 检测算法原理

对于稳定的网络流量, 其各个协议类别是大致服从同一概率函数分布的, 但是, 如果一个存在概念漂移的网络流量中, 网络数据包协议类别的分布概率却会随着概念漂移的发生而相应改变。因此以观察协议类别的概率分布变化来检测网络流量是否发生概念漂移则不失为一个恰当稳妥的办法。根据贝叶斯理论知道, 概率分布P (w/x) =P (x/w) P (w) /P (x) 。当P (x) 改变而P (x/w) 不变时, 也就是说之前不常出现的协议数据包开始大量出现了或者相反, 此时发生的概念漂移就是渐变;当P (x) 不变而P (x/w) 发生改变时, 这种概念漂移就是突变。通常, 在一个网络数据流中多会同时存在这两种类型的概念漂移, 且也很难进行有效区分, 但是从检测概念漂移的目的来说, 检测到概念漂移后即可对分类器进行重新构建, 因此也就没有必要区分概念漂移的具体类型了。

网络数据流量是按照时间相依有序的离散的数据集合, 流量识别实质上就是进行时间序列分析。粗略来看, 如果只是简单的对网络流量进行时序分析, 似乎忽略了数据流变量之间内存因果关系和结构关系的影响。但是实际上时序分析是从总体方面对网络流量进行考察, 综合说明各种作用力的共同影响。当无法轻易获得所关心的各种纷繁因素时, 就可以直接将时间t用作变量来代替各种因素。因此, 概念漂移检测就可以将时间t引入到文中的检测模型内, 从而完成整个算法。

综上, 当将时间t作为变量引入检测模型后, 再加上一定的协议类别变量, 此时如果能够找到两个变量之间的关系问题, 就能够得到概念漂移检测的解决方法。而统计学理论已有很多研究成果就是致力于探讨变量之间的关系, 本文就从统计学理论中寻求概念漂移检测的方法。

2.1.1 统计学理论———卡方检验

卡方检验是一种应用相当广泛的非参数统计理论, 利用该理论, 可以判定实际观察的概率分布是否发生了改变还是仅来自于理论误差。

网络数据包集合, 函数ψ是数据包的某项特征变量Z的概率分布, 而且满足条件 (1) :

变量ni代表监测到的网络流量数据集合中数据包协议类别为ci的数量, 所有ni的和满足条件 (2) :

已经知道, ni是监测值, 再假定mi是理论值, 则根据以上定义可得卡方值, 如式 (3) :

综上可得, 如果卡方值小于其临界值, 函数ψ就是变量Z的最优拟合函数;相反, 如果卡方值大于临界值, 函数ψ就不再是变量Z的最优拟合函数。卡方的临界值取决于已验证得到的χ2统计理论表。

本文中, 利用卡方值来检验连续两个网络流量的数据集合Di和Di+1是否发生了概念漂移。为了进一步阐述检测方法, 先做如下两个假设。

(1) 假定函数ψ已经满足于一个数据包集合的分布, 然后验证其连续的下一个集合是否满足该条件;

(2) 假定这个网络流量中只存在两种协议的数据包, 即Http和Non-http。

根据上述假设, 探讨分析可得如表1所示的连续两个网络流量的数据包集合Di和Di+1的类别分布, 表1中变量c1, c2, c3, c4分别代表Http和Non-http在不同数据集合中的观察个数。根据这四个变量, 就可以得到期望的两个数据包集合中的协议类别数, 具体如公式 (4) 、 (5) 、 (6) 、 (7) 所示。

上述四式中, n=c1+c2+c3+c4, 将以上四式结合公式 (2) 可以推导出卡方值满足如下式 (8) :

计算得到卡方值后, 再和临界值比较就能够判定函数ψ是否满足于Di+1, 以此就可以判定概念漂移是否发生。

2.1.2 类别不平衡与Fisher检验

χ2检验对2维表的各个协议类别的数量是有一定要求的, 要求20%的协议类别数量不小于某个特定值。但是在真实的网络环境下, 经常存在类别不平衡的流量, 因此就无法满足χ2检验的要求, 此时就只能应用Fisher精确检验。

同样, 使用上小节的2*2表进行说明, 先设几个变量:C1=c1+c2, C2=c3+c4, C3=c1+c3, C4=c2+c4, C=C1+C2或C3+C4, 就可以得到p值, 如式 (9) 所示, 根据P{cij}来确定是否发生了概念漂移。

2.1.3 检验步骤

根据概念漂移的检测原理和统计学理论, 就可以利用χ2检验和Fisher检验来共同确定连续的两个数据包集合是否发生了概念漂移。具体步骤如下:

(1) 建立零假说, 即认为没有发生概念漂移;

(2) 确定数据包集合之间的实际差异, 即根据类别是否平衡, 进行χ2检验或者Fisher检验;

(3) 根据χ2检验或者Fisher检验的结果, 和理论值进行比较。如果大于理论值, 则拒绝零假说, 即认为发生了概念漂移。

2.2 概念漂移检测算法

通过上述的分析, 本文接下来将给出一个利用统计学理论来检测概念漂移发生的方法。和已经存在的大部分概念漂移算法相比, 该方法有两个显著的特征:第一, 该方法属于显示探测概念漂移, 因此其中含有单独的检测概念漂移发生的模块;第二, 该方法结合网络流量识别的实际环境———经常存在类别不平衡的特性, 利用集成学习的方法来适应动态的网络数据变化。当一个网络数据包集合到达以后, 概念漂移检测模块就对其进行检测, 检测是否有概念漂移发生, 如果概念漂移发生了, 检测模块就会告知流量识别器更新或者重构识别器, 以保证流量识别器能够继续对其后的网络数据流进行准确识别。

本文将推出两个完整的算法。第一个算法是在本小节讲述的, 即利用卡方检验或者Fisher检验进行概念漂移检测的算法CF_CDD (Chi-square or Fisher Concept Drifting Detection) :第二个将在下节讲述, 即利用集成学习进行网络流量分类的算法TCEL_CF_CDD (Traffic Classification based on Ensemble Learning with CF_CDD) 。

算法CF_CDD旨在检测出动态变化的网络数据流中发生的概念漂移, 一旦网络数据包数量达到合适的窗口大小, 概念漂移模块就检测连续的两个网络数据包集合之间是否有概念漂移发生。CF_CDD (Di, Di-1) 算法如下。

在如上算法中, 第1步、第2步是分类器对数据包Di, Di-1进行分类, 并统计了相应的样本数量, 第3步判断协议类别是否出现了不平衡。若平衡, 就进行χ2检验;不平衡, 就是Fisher检验。最后, 根据检验结果P和CONST的比较, 判定是否发生了概念漂移。其中, CONST是根据自由度和置信度查表得来的界限。

2.3 自适应流量识别

若要完成自适应的网络流量识别, 就要有效地检测出概念漂移, 再对分类器进行调整。本文采用集成学习来构建分类器, 因而构建集成分类器的子分类器的机器学习算法就需要进行重点研究和专门讨论了。

2.3.1 类别不平衡下的机器学习算法

网络数据流量中经常存在协议类别不平衡的情况, 协议类别的分布对基于机器学习的流量识别技术有着不小的影响。因此, 选择合适的机器学习算法以适应网络协议流不平衡环境下的在线流量分类, 即显得尤为重要[10]。

本文在实验与分析中, 将几种典型的机器学习算法———决策树C4.5、NBK、SVM与提出的概念漂移检测算法结合后进行了对比, 选取得到最能适应含有类别不平衡协议流的真实环境的算法, 且算法性能良好。

2.3.2 集成学习

算法TCEL_CF_CDD, 利用权重集成分类器对到达的网络数据包进行分类, 集成分类器的子分类器要根据概念漂移检测模块的结果进行调整、更新。

TCEL_CF_CDD (EC, Num, Max) 算法如下:

在上述算法的第4步中, 基分类器的构建过程中采用的是一种常用的机器学习算法, 本文将通过实验来选择出实验真实环境的算法;第4-6步是集成分类器的构建过程, 当变量Num等于Max时, 标志着集成分类器构造完成;而后在第8-11步中定义基分类器在相应的数据集上的准确性;第12步是对各子分类器权重进行规格化;第13步表明了在本课题中为了充分利用样本信息, 对每组样本均采用了先测试、后训练的策略;第14步是调用CF_CDD算法来检测连续的两个样本网络数据包集合之间是否发生了概念漂移, 如果发生了概念漂移就要在最新的样本数据集中构建最新的基分类器, 并用构建出来的新分类器替换已经存在的基分类器中表现最差的那个;第19步是在调整子分类器后, 对各分类器的权重进行调整。

3 实验与分析

本文利用已经捕获的几个网络数据包集合来模拟网络流量, 将数据包按捕获的时间进行顺序排列, 并用实现的算法对其进行分类识别。本文的算法是在MOA平台上实现的, MOA是一个典型的利用WEKA实现的数据流分析软件。

3.1 机器学习算法的比较

将三种典型的机器学习算法———决策树C4.5、NBK、SVM与本文提出的概念漂移检测算法CF_CDD结合, 分别构造识别器, 利用模拟的网络流量的第一个数据包集合作为训练集, 并且对后续的五个数据包集合进行分类, 以测试不同的机器学习算法对识别精确性的影响, 其结果如表2所示。从表2中可以看到:NBK的精确度明显不高, 而且也有随时间下降的趋势;决策树C4.5和SVM相比NBK则有不错且相对稳定的精确度, 适合提出的概念漂移检测算法。

C4.5和SVM虽然都有不错的精确度, 但是因为知道SVM的建模时间相对C4.5来说耗时更长, 再结合处理概念漂移检测的实际特点———需要经常调整分类器, 因而此处不难得出结论:决策树C4.5与本文提出的对概念漂移检测算法CF_CDD结合进行网络流量识别更能够自适应地处理实际网络环境中的概念漂移问题。

3.2 漂移检测算法的比较

一般的数据流中, 检测概念漂移的算法是基于误差率的, 利用对分类器误差率的监测来判定是否发生了概念漂移。本实验就对基于误差率 (Error_CDD) 和本文提出的基于统计学检验 (CF_CDD) 的两种概念漂移的算法在模拟的网络流量识别的精度进行了对比, 对比结果如图1所示。

从图1中可以看到, 当有类别不平衡的协议类别时, Error_CDD的识别精度大幅度下降, 验证了之前提到的性能法不适合于类别不平衡的网络数据流量识别, 而本文提出的CF_CDD算法却有良好的稳定性, 也说明本文提出的算法能够很好地适应类别不平衡现象。

4 结束语

本文对流量识别中的概念漂移进行了深入研究, 主要分析了漂移检测原理, 并结合真实网络环境中存在的类别不平衡的特点, 提出了基于统计学理论的概念漂移检测算法, 在检测算法的基础上提出了利用集成学习来完成自适应的流量识别, 最后的实验证明了本文提出的算法的可行性和可靠性。当然, 数据流概念漂移的问题还有很多, 建议其后的主要研究方向就是类似本文这样针对某种具体数据流的特点进行详细的分析。

参考文献

[1]王耀南, 张莹.基于可信多数投票的快速概念漂移检测[J].湖南大学学报 (自然科学版) , 2010, 37 (6) :36-40.

[2]GUAN Jinghua, LIU Dayou.Selected ensemble of classifiers for handling concept-drifting data streams[J].Computer Science, 2010, 37 (1) :204-207.

[3]王涛, 李舟军, 颜跃进, 等.数据流挖掘分类技术综述[J].计算机研究与发展, 2007, 44 (11) :1809-1815.

[4]SUN Yue, MAO Guojun, LIU Xu.Mining concept drifts from data streams based on multi-classifiers[J].Acta Automatica Sinica, 2008, 34 (1) :93-97.

[5]文益民.概念漂移数据流分类研究综述[J].智能系统学报, 2012, 7 (6) :1-10.

[6]ALIPPI C, BORACCHI G, ROVERI M.An effective just-in-time adaptive classifier for gradual concept drifts[C]//Proceedings of the2011 International Joint Conference on Neural Networks.San Jose, USA, 2011:1675-1681.

[7]PETER V, ABRANHAM B.Entropy-based concept drift detection[C]//Proceedings of the 6thInternational Conference on Data Mining.Hong Kong, China, 2006:1113-1118.

[8]WIDMER G, KUBAT M.Effective learning in dynamic environments by explicit context tracking[C]//Proceedings of the Sixth European Conference on Machine Learning.Vienna, Austria, 2003:69-101.

[9]LAST M.Online classification of non-stationary data streams[J].Intelligent Data Analysis, 2005, 6 (2) :1-16.

[10]鲁刚.分类不平衡协议流的机器学习算法评估与比较[J].软件学报, 2012, 23 (6) :1500-1516.

自适应均值漂移篇2

电力负荷作为电力系统的重要组成部分,其模型精确性对电力系统的潮流计算、小扰动稳定计算、暂态稳定计算、电压稳定计算的结果都有一定程度的影响[1,2,3,4]。因此建立可靠、实用的负荷模型,既具有理论意义又具有工程实用价值[5]。长期以来,国内外学者在电力负荷建模研究和应用方面取得了大量成果[6,7,8,9,10]。但是由于负荷自身的特殊性,建立精确的电力系统负荷模型非常困难。

负荷建模的最大困难在于负荷的时变性,负荷时变性问题本质上是指由于综合负荷内部基本构成的改变而引起描述其负荷特性方程的参数改变[11]。为了研究负荷构成的时变性,面对电力负荷的大量性、多样性,必须采用分类的方法,从多个侧面来描述负荷的行为,达到模型的准确性和实用性的合理折中。文献[12]的研究表明,尽管负荷组成存在时变性和随机性,但综合负荷特性仍然呈现一定的规律性。因此,对负荷动特性进行分类与综合是负荷模型走向实用化的有效手段。负荷动特性的分类问题属于聚类分析问题,包括特征向量的选择和聚类方法的确定两个方面。

聚类分析是一种数据划分或分组处理的重要手段和方法,但是传统的聚类分析是一种硬划分,它把每个待识别的对象严格地划分到某个类中,因此难以反映负荷运行条件(如季节和负荷水平等)与负荷构成之间错综复杂的关系。相对,模糊聚类由于能够描述样本类属的中介性,己逐渐成为聚类分析的主流。在众多的模糊聚类算法中,模糊C均值聚类算法(FCM)是非监督模式识别中应用最为广泛的算法之一。尽管FCM算法是一种无监督的分类算法,但是,其两个参数在进行聚类分析前必须给出恰当的赋值,即模糊加权指数m和聚类的类别数c,否则将影响其分类效果并将直接影响聚类分析结果的合理解释。

然而面对大量的负荷样本数据时,其聚类数一般是不可能预先知道的。如果选择的分类数目不合适,无论后续步骤采用多么优良的聚类算法和阈值选择方案,企图得到良好的聚类结果肯定是不可能的[13]。针对此问题,本文提出了自适应FCM聚类算法,该算法不依赖于任何的初始条件,并把聚类有效性函数融入到算法中,从而避免了聚类数目在选取上存在的主观性,提高了FCM算法的实用性,实现了聚类全过程无须人工干预的目的。并将其应用于解决综合负荷特性分类问题,通过动模实验数据为例,验证了方法的有效性。

1 模糊C均值算法描述及参数优选

给定数据集X={x1,x2,⋅⋅⋅,xn}为n元数据集合,xj∈Rs,即数据集合X中第j个元素xj是一个s维矢量:即xj={xj1,xj2,⋅⋅⋅,xjs},j=1,2,⋅⋅⋅,n。模糊聚类就是要将X划分为C类(2≤C≤n),其中v={v1,v2,⋅⋅⋅,vn}为C个聚类中心。在模糊划分中,每一个样本点不能严格地被划分到某一类,而是以一定的隶属度属于某一类。令uij表示第j个样本点属于第i类的隶属度,在FCM聚类算法中,隶属度矩阵和聚类中心分别为U={u ij}和V={v i}。且有

模糊C均值聚类的目标函数为:

其中:

为样本xj与聚类中心iv之间的欧式距离;m≥1是模糊加权参数,表示控制分类矩阵U的模糊度,m越大,分类的模糊程度越高。

则FCM算法就是求在满足条件的情况下,得到目标函数J的最小值。FCM算法就是反复修改聚类中心矩阵和隶属度矩阵的分类过程。

在应用FCM算法对给定的数据集进行聚类分析时,需要涉及到两个参数的选取问题:

(1)样本集的聚类数c,即聚类有效性问题;

(2)模糊加权指数m。

1.1 聚类数c的自适应方法

FCM聚类算法要求预先确定聚类数目,但对于不同的数据集很难确定聚类的种类个数,聚类数c的不同,产生的效果就不同。这就需要利用对聚类的有效性分析,从而获得理想的分类。

聚类的目的就是将数据分类并尽量使类间的距离尽可能地大而类内的数据点距离尽可能地小,基于上述思想,下面给出聚类数c的自适应函数。

总体样本的中心向量为

聚类数c的自适应函数:

函数与L(c)的分子表征类与类之间的距离,分母表征类内数据点与该类中心之间的距离,因此L(c)的值越大,说明分类越合理,即对应L(c)值最大的c为最佳聚类值。

1.2 加权指数m的研究

参数m又称为平滑因子,控制着模式在模糊类间的分享程度,因此要实现模糊聚类就必须选定一个合适的m值,然而最佳m的选取目前尚缺乏理论指导。m有如下性质:

(1)如果不考虑隶属函数和聚类原型与参数m的嵌套隐含关系,Jm(U,V)随m的增加而单调递减。这是由于

(2)对于m∈[1,+∞)的FCM算法,存在以下情况:当m→1+时,FCM算法退化为HCM(硬c-均值聚类算法);当m→∞时,FCM算法的聚类结果是最模糊的,即

即m越大,则聚类越模糊。所以,FCM算法中,m值不能太大。

(3)m值越大则抑制噪点的功能越强。

(4)m值还影响到目标函数的凹凸性和算法的收敛性。

Bezdek给出过一个经验范围1.1≤m≤5;后又从物理解释上得出m=2最有意义;Chan等人从汉字识别的应用背景得出m的最佳取值应在1.25~1.75之间;Pal等人则从聚类有效性实验研究中得到m的最佳选取区间为[1.5,2.5],在不作特殊要求的情况下一般取区间中值m=2。

2 自适应FCM算法

本文提出的自适应模糊C均值聚类算法是在模糊聚类算法的基础上,利用正有的有效性函数自动获取聚类数目,继而进行模糊聚类,实现了从确定聚类数目到得到聚类结果一体化。

自适应模糊C均值聚类算法的流程如图1。

算法具体实施步骤如下:

(1)给出迭代标准ε>0,聚类数c=2,聚类数1的自适应函数L(1)=0,初始分类矩阵V(0),k=0。

(2)用公式(6)计算U(k)

如果存在j,r,使得drj(k)=0,则令:uij(k)=1且当i≠r时,uij(k)=0。

(3)用公式(7)计算V(k+1)

(5)计算L(c),在c>2并且cL(c-2)并且L(c-1)>L(c),则聚类过程结束,否则置c=c+1,转向步骤(1)。

下面是用两组人造的数据来检验算法的实现,见图2。通过人造数据实验,可以看到该算法可以自动地给出最佳的聚类数c相应的聚类有效性函数值以及相应的划分隶属矩阵和聚类中心(由于是人造数据故未将划分隶属矩阵写出来)。其中样本1中聚类有效性函数值L(2,3,4)=(50.294 1,118.954 1,111.308 3),样本2中L(2,3,4,5)=(75.084 7,115.835 2,154.901 1,146.829 4)。

3 自适应FCM算法在负荷分类的应用

对于负荷建模来说,分类就是根据特征量来分析确定本质上相同或相似的负荷样本构成的类别。特征量的选取对于分类来说特别重要,特征量应该能够反映对象的本质特征,如此进行分类才能够获得良好的效果。可以考虑的特征量有:(1)时间特征量:包括年度、季节、日类型、时分秒。(2)参数特征量:包括每个样本的模型参数;(3)运行特征量:包括负荷功率,还包括感应电动机所占比例等;(4)动态特征量:包括感应电动机的动态特征值;

在工程实际中可以首先根据时间特征进行初步划分,然后根据参数、运行、动态特征量进行进一步分类。本文采用特征量的第二种方案,即采用模型参数作为负荷动特性分类特征向量。根据文献[14]的研究成果,考虑到模型的每个参数的辨识结果误差有大有小,其灵敏度是不一样的,因而对不同的参数应赋予不同的权值,以表征它对辨识结果的影响程度,来解决参数分散性的问题。

特征向量获取流程如图3所示。

负荷特征向量获取具体操作如下:

(1)如采集到n组负荷扰动数据,用这些数据分别进行辨识,得到各自的辨识结果X=(x1,x2⋅⋅⋅,,xn),其中x1,x2,⋅⋅⋅,xn都是由7个指标组成的向量

(2)对原始数据进行标准化处理。也称归一化处理,包括同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果;数据无量纲化处理主要解决数据的可比性,由于各个变量的单位和数量级不一样,直接使用原始数据进行计算就会突出那些绝对值大的变量而压低了那些绝对值小的变量。所以在进行聚类之前,先将原始数据进行标准化处理。本文中,采用数据极差正规化方法,如式(8)所示:

经过标准化处理,原始数据均转换为无量纲化指标测评值,可以进行综合测评分析。

(3)加权处理。参考前人研究成果,各参数的影响及取值情况如表1所示。如此,待分类的输入样本就可表示成:

其中:Wj表示第j列元素对应的权值。

在获得负荷待分类样本特征向量后,即可根据前述自适应FCM算法对样本进行聚类分析。

4 算例分析

算例数据来自动模实验[15],样本负荷构成、电压扰动情况如表2。

由表2知,样本共可分为三类。样本1和样本2可看为类别Ⅰ,样本3和样本4可看为类别Ⅱ,样本5和样本6可看为类别Ⅲ。

动模数据样本经参数辨识,结果如表3所示。

对样本特征向量数据进行标准化、加权处理后,采用自适应FCM算法对样本进行分类。经计算分析,样本聚类有效性函数值L(2,3,4,5)=(9.872 3,11.398 0,21.830 6,19.378 5),可见最佳聚类数c=4,求得各个样本对各个聚类中心的隶属度和负荷分类情况如表4所示。由表中分类结果可见,样本1和2分为Ⅰ类,样本3,4为Ⅱ类,样本5,6分别为Ⅳ类和Ⅲ类,除样本5外,分类结果均正确。对样本进行分析,样本5和6出现未能分到同一类的情况,这和辨识结果中两者差异过大有关。

采用原始模糊C均值聚类方法对表2中处理后的数据进行分类,预先设定聚类数c=3,聚类结果与自适应FCM分类情况相比较,结果如表5。

由表5可见,采用自适应模糊C均值算法对负荷进行分类,不但可以给出适合的聚类数,而且效果要比采用原始模糊C均值算法聚类的效果好。并且当面对大量、随机负荷样本时,自适应算法更会体现出其优势。

5 结论

本文在原始模糊C均值算法的基础上,将聚类有效性函数融入到算法中,提出一种新的自适应模糊C均值聚类算法,并应用于电力负荷动态特性的聚类分析中,结果表明该算法不依赖于任何的初始条件,可自动获取聚类数目,避免了主观性,实现了聚类全过程无须人工干预的目的,并取得了较好的分类效果,为解决负荷时变性等问题、建立实用化的负荷模型奠定了基础。不过本文算例中的样本较少,为了检验并改进算法,达到更好的负荷分类效果,还需进一步研究。

摘要：针对当前负荷建模中存在的负荷时变性问题,提出了基于自适应模糊C均值聚类的电力负荷动特性分类方法。探讨了聚类分析方法在负荷动特性分类中的应用,包括聚类特征向量的选取和分类方法研究两个方面。对原始模糊C均值聚类算法中的聚类数c进行了研究,在原始算法中融入新的聚类有效性函数,对算法进行了改进,改进算法不需要预先选择类的数目作为先验值。通过动模实验数据的负荷分类实例,表明该方法可自动获取最佳分类数,且分类效果要好于原始算法。

自适应均值漂移篇3

随着信息技术的发展,数字媒体的版权问题越来越突出。数字水印技术的出现为计算机网络上的数字媒体版权保护、来源认证等安全问题提供了一个有效地解决办法。一个良好的数字水印系统(算法)至少应该满足透明性和鲁棒性的要求[1]。

由于小波变换具有多分辨率特性,在小波系数上嵌入水印信息,能够较好地解决透明性与鲁棒性之间的矛盾。本文提出了一种新的图像嵌入水印算法,该算法采用均值量化的方法,具有较强的鲁棒性,解决了盲水印与信息嵌入量的问题。

1 水印嵌入算法

1.1 自适应均值量化系数嵌入原理

设原始图像小波变换低频系数为X={x(i),i=1,…,M},待嵌入的二值水印信息为W={w(i),i=1,…,N}。本节先介绍在xi低M位嵌入水印信息的方法(以低5位为例)[2],然后逐步引出自适应均值量化的概念。低5位量化的基本原理是把二值水印信息“0”和“1”调制到低频系数的模32整数域的两个不同位置上。为了增加“0”和“1”表示信息之间的差别,可以选择用“01000”表示“0”,用“11000”表示“1”,一位信息的嵌入如式(1)。

其中:i∈[1,…,M],j∈[1,…,N];fix为向下取整函数;mod为求余函数。这种嵌入过程不同于文献[3]中的加性模型和乘性模型,通过系数模32操作可以精确地提取出二值的水印信息,因此该水印算法属于全盲水印算法。

设均值参数系数为L,即每L位小波系数上嵌入一位水印信息w(i)。L位小波系数的选取方式有多种,比如:依次选取L位x(i)或每隔L位选取一位x(i)。显然后一种方式能较好地提高水印的鲁棒性。将选取的L位小波系数的下标记为Z,按照低M位均值嵌入的思想,首先求出每组中w(i)嵌入的L位小波系数的低5位均值X,其次按照式(1)修改x(k),k∈Z的小波系数。

根据用户对水印鲁棒性高低的要求,该算法可以通过以下两种方式进行自适应调节。第一修改M的大小,如果M为1,即与LSB嵌入方式类似,M的值越大,鲁棒性越好;第二修改L的大小,如果L为1,水印信息的嵌入量最大,随着L的增大,水印的鲁棒性增强。

1.2 水印的嵌入过程

水印嵌入算法的基本框架如图一所示。

(1)水印图像置乱、降维

为了提高水印算法抗几何攻击的能力,先依据式(2)对水印图像W进行Arnold置乱处理,得到置乱后的图像W`。

其中:x,y∈{0,1,…,N-1},N为图像的宽度和高度。为了方便将置乱后二维的二值图像W`嵌入到选取的小波系数X中,需要对其进行降维操作,将二维图像变为一维伪随机序列W``:

通过降维操作,水印W中的像素w(r1,r2)由序列Y中的元素y(k)表示。

(2)宿主图像小波变换、系数选择

选择小波基对宿主图像进行离散小波变换,得到低频系数组成的矩阵X。根据自适应均值量化系数嵌入原理选择小波系数,得到N×N组长度为L的数组,记为A={a(i)=x(k),i∈[1,…,L],k∈[1,…,N×N]}。

(3)嵌入水印信息

水印信息的嵌入将分组进行,每组的嵌入过程完全相似。对于一组待嵌入水印信息的小波系数A,依次遍历其中每一个a(i),按照类似式(1)的方式,修改每一个a(i)的最后M位信息,循环直到遍历完每一组。

(4)离散小波重构

将因嵌入水印信息修改过的低频子带与高频子带进行小波逆变换,得到图像数据的双精度型矩阵WO。

(5)均值精确嵌入

小波逆变换后得到的图像矩阵为双精度类型,但是图像显示、存储时采用的是无符号整型,因此需要将WO转换成无符号整型。通过实验可以看出,对每个系数逐个取整或者四舍五入将会引起较大的舍入误差。

由于L级小波分解的低频系数取决于空域相应位置的2L×2L个像素的平均值。为了防止转换过程产生嵌入污染,本文将采用如下方法实现精确舍入:首先,将WO分成M个2L×2L大小的块,计算出每一块小数部分的和S,然后将WO的小数部分舍去;其次,对于每一小块判断S是否大于1,如果为真则选择一位数加1,如此循环直到S小于1。该方法充分利用了小波系数的空域局部化特性,极大地减小了整型转换过程中的误差,保证了水印信息的精确嵌入。

1.3 彩色图像中嵌入水印

对于彩色图像,简单的修改R、G、B中某一种颜色的小波系数,将导致整个图像出现偏色。为了避免出现该现象,一般是将图片由RGB转换到YCrCb[4][5],这种方法不利于提高水印算法的鲁棒性。

实验证明,如果对图像进行RGB三色分离后,用相同的方式在其对应的小波系数上嵌入同样的信息将不会出现偏色。因此可以按照1.2节中提出的算法,分别对每一种颜色进行相应的水印嵌入。由于增加了水印信息的载体量,所以可以提高水印算法的鲁棒性。

2 水印检测算法

2.1 灰度图像中水印提取算法

水印的提取检测算法相对简单,提取过程中不需要用到宿主图像和水印图像,基本框架如图二所示。

首先对水印载体图像进行离散小波变换后对低频系数按均值步长L进行分块,然后取分块系数低5位的平均值X,按式(4)提取该块嵌入的水印信息。

接着将一维水印提升为二维矩阵W`,根据Arnold的周期性,对二维图像矩阵W`进行Arnold置乱变换,就可以得到原始的水印图像信息。

2.2 彩色图像中水印提取算法

对于彩色图像,三色分离后得红、绿、蓝相应的矩阵R、G、B。将矩阵R、G、B按照2.1节中的水印载体图像进行处理,分别得到中嵌入的水印WR、WG、WB,按式(5)统计出其中的水印信息。

3 实验结果

算法用Matlab6.5实现,实验宿主图像采用256×256标准图像Woman,水印图像采用32×32的二值图像,如图三(a)所示。算法参数设置:M=5,L=10。

图三为水印宿主图像和嵌入水印后的载体图像。图四为原始水印图像和无水印攻击时提取的水印图像。从图中可以看出,尽管嵌入的水印数据量较大,视觉隐蔽性依然很好。

峰值信噪比(PSNR)是一个衡量噪声对图像影响程度的常用指标,也可以用来衡量水印嵌入对载体图像改变的程度。PSNR定义如下:

其中:M与N分别是载体图像的行与列数;d(m,n)表示在位置(m,n)上水印嵌入引起的差值;2552MN为峰值信号能量。

该算法嵌入水印后PSNR=38.3835dB,由文献[6]知,一般人眼不能有效察觉峰值信噪比38dB以上的影响,显然算法在嵌入信息量较大时,仍能具有较好的透明性。

采用归一化相关系数(NC)定量分析提取的水印与原始水印的相似程度。图五为JPEG压缩因子分别为90、70、50时,提取的水印图像。可以看出,该算法对JPEG压缩具有良好的抵抗能力。

对添加了水印信息的载体图像进行了其他一些常见的攻击实验,实验提取结果见表一。可见本算法对添加噪声、图像裁减等具有良好的鲁棒性。

由以上各个实验可以看出,本文采用的水印嵌入算法,较好地解决了水印的不可见性与嵌入容量之间的矛盾,对各种常见的水印攻击也具有不错的抵抗能力。

4 结束语

本文提出了一种新的图像水印嵌入算法,已经应用于电子印章产品。与现有的同类算法相比,该算法具有以下优点:

(1)采用自适应均值量化的方法,提高了水印图像的抗攻击能力,并且可以根据需要调节水印的鲁棒性;

(2)提出“均值精确嵌入方法”,从源头消除了整型转换产生的噪声,增强了算法的鲁棒性;

(3)该算法不仅适用于灰度图像,而且适用于彩色图像,水印的检测提取只需要水印载体图像,更具有实际应用价值。

摘要：本文以二维离散小波变换为基础,提出了一种新的盲水印算法。该算法采用均值量化的方式,在低频子带中分段嵌入二值水印信息,并且将该方法延伸到处理彩色图像水印的嵌入。除水印载体图像以外,水印的提取不需要任何其他附加信息。实验结果证明,该算法具有透明性好、嵌入信息量大的特点,并且能够较好地抵抗常见的数字水印攻击,如:JPEG压缩、图像剪切、椒盐噪声、高斯噪声等。该算法已经应用于电子印章产品中。

关键词：离散小波变换,盲水印,均值量化

参考文献

[1]Ingemar J.Cox,Matthew L.Miller,Jeffrey A.Bloom.Digital Watermarking[M].Morgan Kaufmann Pub-lishers,2002.

[2]Liu Hongmei;Liu Jiufen;Huang Jiwu.A robust DWT based blind data hiding algorithm[J].Circuits and Systems,2002,3(2):672-675.

[3]袁渊.小波域盲水印检测算法研究[D].国防科学技术大学.2003.

[4]刘伟灵,李智勇等.模糊自适应的彩色图像数字水印算法[J].计算机应用研究,2007,24(10):135-137.

[5]杨辉军,陈立伟.一种简单有效的彩色图像数字水印算法[J].微计算机信息,2007,23(9-3):307-308.

自适应均值漂移篇4

近年来,随着电网需求侧负荷特性日趋多样化及电网自身复杂程度的不断提高,电力负荷特性分类的精确程度对电网规划运行工作的重要性愈加明显。精确化的负荷特性分类能够提炼大量实测负荷的共性特征,最大限度地反映电力系统的真实运行状态,从而对指导电网滚动规划[1,2]、实时调度[3]及运行规划可靠性评估[4]等具有重要的现实意义。

为提高负荷特性分类的准确性和实用性,学者们进行了大量的研究[5,6,7,8]。模糊C均值(FCM)算法因其易于使用且可定量表征个体从属程度,具有其优越性。但在实际应用中,FCM算法存在参数选取及易陷入局部最优点2个主要问题。针对前者,文献[8,9]分别提出参数自适应策略和基于原始数据分布的参数确定方法;针对后者,文献[10,11]分别提出基于粗糙集理论和模糊分区的改进方法。上述研究均取得了一定的效果,但由于本质上仍未改变基于梯度最速下降的搜索策略,使其最终结果在精度上的改善较为有限。因此,尚需进一步工作。

智能算法技术的快速发展为电力负荷特性分类的进一步精细化提供了新的思路[12]。微分进化(DE)算法采取基于个体线性组合的变异方式及贪婪策略的选择原则,具有较遗传算法、粒子群算法等传统智能优化算法更好的鲁棒性及全局寻优能力[13],可弥补FCM算法自身性能的不足,适用于处理电力负荷特性分类中所产生的多局部极值函数的优化问题。

鉴于此,本文提出基于DE算法的改进自适应模糊C均值聚类(DEOFC) 算法,以用于面向电网滚动规划背景下的负荷特性分类。DEOFC算法利用多点随机并行搜索代替梯度最速下降搜索,可有效提高分类精度。采用基于适应度方差及增强算子相结合的自适应调整策略以充分利用现有解对寻优方向的引导作用,从而增强了算法鲁棒性。改进算法有利于准确分析不同类型负荷的本质特征、模式分布、用电习惯等,使电网规划决策更好地匹配电力系统实际运行状况,避免因误差造成的投资效益损失,并对电网企业实施综合资源规划(IRP)起到了积极作用。

1 算法描述及改进策略

1.1 FCM算法

FCM算法主要通过构造拉格朗日函数,迭代求取各样本到聚类中心的全局加权距离平方和最小值以获得最优聚类中心,因此属于一种局部搜索算法。若记样本集为U,聚类中心集为V,则目标函数可表示为:

$\min J (U, V) = \sum_{k = 1}^{n} \sum_{i = 1}^{c} (u_{i k})^{m} (d_{i k})^{2} (1)$

式中:n和c分别为待分类样本数和聚类数目;m为模糊程度系数,负责控制模糊类间的分享程度;uik为样本k对聚群i的隶属度,且有 $0 \leq u_{i k} \leq 1, \sum_{i = 1}^{c} u_{i k} = 1$ ;dik为样本k到聚群i中心的欧氏距离。

1.2 DEOFC算法

DEOFC算法首先随机产生一组初始中心,将非中心点按距离最小原则逐一归入中心点区域,然后利用DE算法对当前划分进行参数自适应调整及变异、交叉、选择操作,从而搜索过程由无监督状态变为动态信息导引优化,并对当前部分非最优的个体执行二次赋值操作以增强算法运行后期的小范围精细搜索能力。具体步骤如下:

步骤1:初始化参数。确定算法所需各类控制参数,并令迭代次数T=0。

步骤2:初始化种群。将聚类中心作为种群个体进行编码操作。首先,随机生成初始聚类中心,个体编码方式如下:

$X_{i} = (x_{1, 1}, x_{1, 2}, \dots, x_{1, s}, x_{2, 1}, x_{2, 2}, \dots, x_{2, s}, \dots, x_{c, s}) (2)$

式中:s为聚类中心的维数。

然后,利用DE算法产生随机初始种群:

$x_{i, j} = x_{i, j m i n} + r (x_{i, j m a x} - x_{i, j m i n}) (3)$

式中:xi,j,xi,jmax,xi,jmin分别为种群个体集Xi的第j个分量及该分量的上界和下界;r为[0,1]范围内的随机数。

步骤3:以式(1)为目标函数及适应性评价函数,因此目标函数值即为种群适应度评价结果。目标函数值越小,则该种群个体的质量越高。计算当前种群的适应度并判断是否达到算法最大迭代次数Tmax或满足式(4)。若满足,则算法终止并输出聚类结果;否则,令T=T+1。

$- ε < \frac{f_{n e w} - f_{o l d}}{f_{o l d}} < ε (4)$

式中:fnew和fold分别为子代种群最优解和父代种群最优解的适应性评价函数值;ε为任意指定的微小量,可取为10-6。

步骤4:自适应调整变异因子F及杂交因子C。群体适应度方差可有效反映当代种群的个体分布情况,有针对性地对控制参数进行动态调整,从而具有良好的效果[14]。群体适应度方差可表示为:

$σ^{2} = \sum_{i = 1}^{Ν} (\frac{f_{i} - f_{a v}}{f_{b}})^{2} (5)$

式中:N为种群规模;fi为第i个个体的适应度;fav为种群的平均适应度;fb为群体最佳适应度。

基于上述计算得到σ2的值,调整参数由固定值变为如下动态形式:

$\begin{array}{l} F_{k} = F_{\min} + (F_{\max} - F_{\min}) (1 - \frac{σ_{k}^{2}}{Ν}) (6) \\ C_{k} = C_{\min} + (C_{\max} - C_{\min}) (1 - \frac{σ_{k}^{2}}{Ν}) (7) \end{array}$

式中:Fmax和Fmin分别为变异因子的上界和下界;Cmax和Cmin分别为杂交因子的上界和下界;σ2k为第k代群体适应度方差。

步骤5:对种群进行变异、交叉操作,生成试探子代种群,重新计算适应度,并采用“贪婪”策略进行选择操作,形成新一代种群。

步骤6:二次赋值操作。从当前种群非最优个体中按照事先指定的概率分布函数随机抽取部分个体进行二次赋值,

$\begin{array}{l} X_{i, r e} = X_{i} (1 - δ_{r a n d}) + Ο δ_{r a n d} (8) \\ Ο = X_{o p t i m a l} + \frac{r (X_{r 1} - X_{r 2})}{λ_{a d} Ι} (9) \end{array}$

式中:Xi为当前种群个体现值;δrand为二元随机决策变量;O为本文定义的局部搜索调整算子;Xoptimal为当代种群中的最优个体;λad为调整因子,用来调整DE算法局部搜索灵敏度,该值越大,算法的局部搜索能力越强;I为迭代次数;Xr1和Xr2为从新种群中随机选取的个体,且满足Xr1≠Xr2。并转到步骤3。

随着迭代次数的增加,算法的寻优范围逐步缩小,最终得到最优聚类划分及中心。

2 DEOFC算法的实用化问题

DEOFC算法应用于电力负荷特性分类首先需处理以下2个问题:特征向量的选取和标准化以及算法参数的确定。对上述问题处理如下。

1)已有研究[5,8]表明:

在工程实践中,使用运行或时间参数作为特征向量较为合理。对采集到的原始负荷样本数据采用以最大值为基的归一化处理,以避免数值差异较大可能导致的归属分类不精确。

2)聚类数目c的确定。

由于该参数具有较强的主观性及未知性,一般可采用有效性计算法[15]进行处理。在电网滚动规划背景下,聚类数目的选择不宜过大。当有效性计算所确定的最佳c值较大时,为使聚类分析结果兼顾有效性及工程可解释性,建议可在上述计算c值的基础上进行适当主观微调,从而使聚类分析结果具备良好的工程指导价值。

3)算法参数优选。

试验表明:模糊程度系数m的最佳选取范围为1.5～2.5,故一般取m=2;调整因子λad及最大迭代次数Tmax会影响搜索精度与效率间的平衡,结合前人经验及工程实际具体考虑,取λad=1,Tmax=100较合理;种群规模N、变异因子F及杂交因子C的确定是DEOFC算法实用化的关键,相图分析及效能统计试验[13]表明,N取值范围为2 S,25 S,F取值范围为[0.2,1.0],C取值范围为[0.1,1.0]是具有普遍意义的合理选择,据此可取N=50,初始值F=0.7,初始值C=0.5。

3 算例分析

本文采用湖南电网48个220 kV变电站综合负荷特性数据[7]为例进行验证。算例中数据来源于湖南省六大用电行业的典型用户和变电站的负荷特性实地调查结果。

标准化后的特征向量信息为各变电站的重工业、轻工业、采掘业、农业、第三产业以及市政生活六大用电行业的负荷容量百分比。限于篇幅,表1给出了部分研究数据。

3.1 聚类综合改善效果分析

分别采用FCM及DEOFC算法,在与文献[7]相同的聚类数即c=7时,计算各样本i距聚类中心距离变化率Hi如下:

$Η_{i} = \frac{L_{i, F C Μ} - L_{i, D E Ο F C}}{L_{i, F C Μ}} (10)$

式中:Li,FCM和Li,DEOFC分别为样本i在FCM及DEOFC算法下距其聚类中心的距离。

H值表征了样本在不同算法下聚类效果的差异情况,该值越大,表明改善程度越明显。由图1可见,绝大多数样本的H值为正,即采用DEOFC算法后样本距各自聚类中心的距离与采用FCM算法的结果相比有不同程度的减小,表明新的聚类中心能更好地代表全体样本的内在特征,提高了整体聚类效果。

采用分离系数SF、分离熵SE及模糊划分有效性评价指标VI[15,16]检验聚类结果的有效性,具体评价结果如表2所示。较好的聚类应使各聚类中心间的距离尽量大,而各样本与其中心距离尽量小[16]。因此,SF接近1,SE接近0或1,而VI越小,则聚类效果越好。表2表明,相同聚类数目下,DEOFC算法的聚类划分更加有效,因此所得结果具有更好的可信性。

3.2 搜索策略的影响对比

为研究改进算法与传统FCM算法在搜索策略上的区别,分别利用2种算法进行48次仿真实验,目标函数值随迭代次数的变化情况如图2所示。

图2表明,FCM算法的目标函数值进化曲线较为平滑,在聚类过程中未出现图2(a)中明显的反复情形,意味着聚类结果有较大可能陷入局部极小值。而DEOFC算法的目标函数在进化过程中由于不是梯度下降,因此不易陷入局部极小值。

为观察初始聚类中心变化对聚类效果的影响,通过改变初始聚类中心,观察2种算法的目标函数终值变化情况。10次仿真实验中,2种算法的目标函数终值情况如表3所示。

表3表明,当初始值变化时,FCM算法的目标函数终值波动明显,变化幅度超过30%,而DEOFC算法仍能较稳定地收敛于相对固定的数值水平,且其变化与FCM算法相比始终位于可接受的范围内,因而具有更好的鲁棒性,有助于提高搜索的一次成功率。

3.3 考虑聚类数目变化的算法性能比较

聚类数目c是影响算法性能及最终聚类结果合理解释的关键参数[15,16]。针对不同c值,2种算法的目标函数优化结果如图3所示。由于FCM算法对初始值敏感,因此单次仿真对比具有较大偶然性。为使分析结果具有更好的普遍意义,本文应用2种算法各进行50次仿真实验,并对比2种算法在50次实验中所得的目标函数最优值。

由图3可知,在相同的c值下,DEOFC算法的目标函数最优值始终优于FCM算法,表明DEOFC算法对划分数目变化的适应能力更强,因此在相同条件下得到的划分结果更加准确。以上算例分析表明,本文提出的DEOFC算法能够有效提高电力负荷特性分类的精度,具有较好的鲁棒性。

4 结语

针对传统的FCM算法易陷入局部最优而影响电力负荷特性分类准确性的问题,本文提出了基于DE算法自适应优化的改进措施。实际算例仿真结果分析表明,改进后的算法可有效利用现有解对寻优方向的动态引导作用,能够提高聚类计算结果的有效性,同时对初始聚类中心变化具有更强的适应能力。此外,针对聚类数目不确定性的测试表明,该方法在不同聚类数目下仍具有性能优势,能够满足电网滚动规划及综合资源规划背景下对负荷特性分类精度的更高要求。

摘要：模糊C均值(FCM)算法是一种用于电力负荷特性分类的有效方法。针对传统FCM算法易陷入局部最优且对初始条件敏感的问题,文中提出了基于微分进化(DE)自适应优化的改进措施。相对于FCM算法的梯度最速下降寻优策略,改进算法利用DE多点随机并行搜索,对控制参数及非最优个体进行自适应调整,具有全局搜索能力强、鲁棒性高的特点。实际算例仿真表明,所述算法降低了负荷特性分类对初始值的依赖度,在不同聚类数目的条件下仍具有良好的性能,适用于实际电网滚动规划等对负荷特性分类精度要求更高的领域。

自适应均值漂移篇5

关键词：电阻层析成像,MNR算法,自适应均值滤波

1 引言

电阻层析成像 (ElectricalResistance Tomography, ERT) 技术是电学层析成像技术的一种, 适用于两相流或多相流中以液相为连续相的可视化测量[1]。它由在被测对象边界上测量到的一组电压, 计算被测对象内部的电阻率分布, 以获得媒质分布图像, 实现无扰动的可视化测量。ERT技术的物理基础是不同的媒质具有不同的电阻率, 判断出敏感场的电阻率分布便可知物场的媒质分布[2]。目前统一采用的工作方式是电流激励和电压测量[3]。 (1)

在多种图像重建算法中, Newton-Raphson类算法是公认的理论上较为完善、实际应用效果较好的一种迭代重建算法。实际上它是著名的解非线性最小二乘 (least-squared) 问题的Gauss-Newton算法及其改进形式, 它是一种具有最优化思想的静态电阻抗图像重建算法, 具体可理解为寻求最优化电阻率分布, 使得误差 (重构模型边界电压与实测边界电压之差的平方和) 最小[4]。但是, 当管道模型的网格结构较复杂时, 使用传统的MNR算法进行图像重建不能理想地收敛到真实的电阻率分布。

本文在传统的牛顿-拉夫森成像算法的基础上, 提出一种自适应均值滤波算法, 该算法的思想是在寻求最优化电阻率的过程中, 当误差不再继续下降或下降幅度较小时, 对电阻率分布进行局部区域的自适应均值滤波, 使其朝着理想的电阻率分布逼近。

2 MNR算法介绍

在各种数学物理反问题处理方法的基础上, ERT工作者开发出了多种图象重建算法[5]。目前常用的主要有三种[6]:定性的基于等位线的反投影算法、基于灵敏度系数的反投影算法、定量的Newton-Raphson[7]类算法。

在多种ERT算法中, MNR类算法是公认的理论上较为完善、实际应用效果较好的一种迭代重建算法, 是一种用正问题方法求解反问题的算法[5,6]。具体步骤如图1所示。

3 使用MNR算法的仿真结果

ERT反问题是一个非线性的不适定问题, 使用MNR算法进行ERT反问题仿真计算, 是通过迭代朝着实际的分布逼近, 是一个寻优的过程。在实验中我们发现, 当两相流管道模型的网格结构为两层时, 成像质量很高, 几乎可以完全恢复出实际的两相流分布。要想得到高质量的仿真图像, 必须有详细的管道内部信息, 这就需要把网格结构划分得复杂些。但是当网格结构变为四层时, 成像质量下降。表1是在把管道模型利用有限元法划分为两层网格结构 (32个单元) 基础上, 利用MNR算法对层状流、核心流、两点流、环状流四种常见流型进行仿真计算的结果。各种参数的设置参考表2。

这里的误差是MNR算法进行迭代终止的判别依据, 它是本次迭代计算得到的边界电压值与实际边界电压测量值的2范数, 公式为‖V (k) -V0‖;相关系数与方差是重建图像质量的评价参数, 相关系数体现了重建图像与设定图像的相似性, 取值范围是[-1, 1], 相关系数的绝对值越大, 相关程度越高, 表示重建图像越接近设定图像, 反之, 越偏离设定图像;方差体现了重建图像相对于设定图像的偏差大小, 方差越大, 说明两图像相差越大, 反之, 两图像相差越小[8]。

从表1可以看出:对于这四种流型, 当管道模型的网格数比较少时, 利用测量得到的电压数据重建出来的图像与设定图像几乎完全相同;这四种流型的相关系数都达到了1, 误差和方差都非常小。从这些方面可以看出, 重建图像质量很高。

表3是把管道结构划分为四层时利用MNR算法仿真得到的结果。迭代中各种参数设置参考表4。

观察表3第三列, 利用原MNR算法, 网格结构为四层时, 四种流型的重建图像质量均不高, 图像方差和误差均比较大, 相关系数均比较小。

观察迭代过程中的各种评价参数的曲线, 当迭代进行到一定程度, 图像的相关系数不再继续上升或上升幅度很小, 误差不再继续下降或下降幅度很小, 重建的图像也不再朝着实际的分布逼近, 成像算法掉入了一个局部最优点。为此, 我们提出使用局部自适应均值滤波的办法给算法的继续寻优加入一个扰动, 期望迭代算法能够跳出局部最优点, 继续朝着实际分布迭代。

4 局部自适应均值滤波MNR算法的原理及仿真结果

控制MNR算法程序终止迭代的机制有两种, 一是达到所设定的迭代次数, 二是迭代误差小于设定的一个足够小的数。本次迭代误差为‖V (k) -V0‖, 上一次迭代误差为‖V (k-1) -V0‖。自适应均值滤波MNR算法判断两次误差之差的大小, 当本次迭代误差大于上一次迭代误差时, 计算下一次电阻率分布时引入一个小于1的学习因子η, 即η·ρ (k) ※ρ (k+1) , 减小本次迭代对下一次迭代的影响。当误差之差小于一个足够小的数ζ时, 采用均值滤波的方法计算下一次电阻率分布。

局部均值滤波方法介绍:ERT反问题仿真成像是利用各个网格电阻率的大小来代表这个网格的灰度值。每个网格灰度值的大小是不相等的, 把这些灰度值按照大小顺序排列得到灰度分布直方图, 把在某个区间内的单元的灰度值用所有这个区间内的灰度值的均值来代替。自适应均值滤波MNR算法的流程图如图2所示。

采用上述算法进行ERT图像重建, 我们得到一组结果, 如表3中第四列所示。由表3中图像和数据可以看出, 相比于使用传统MNR算法进行成像, 使用局部自适应均值滤波MNR算法进行图像重建后, 四种流型重建图像的相关系数均有了提高, 接近或已经达到了1, 同时重建图像方差和误差也都有所降低, 使用上述方法重建的图像更接近设定的图像, 说明该算法能够在不同程度上改善重建图像质量。

5 结论

本文在传统牛顿-拉夫森算法的基础上, 提出一种局部自适应均值滤波MNR算法。该算法有助于使原来的MNR算法跳出局部最优点, 提高了重建图像的质量。实现该算法可以制定多种灵活调节机制, 能最大限度地发挥MNR算法的优越性, 保证成像结果收敛, 这为进一步研究电阻层析成像的图像重建算法开辟了一条新路径。

参考文献

[1]孙强, 石天明.基于RBF神经网络和粒子群算法的ECT传感器结构优化[J].化工自动化及仪表, 2009, 36 (4) :44-48.

[2]华磊, 董峰, 乔旭彤.电阻层析成像技术测量两相流气相流量[J].化工自动化及仪表, 2004, 31 (2) :52-54.

[3]马平, 周晓宁, 田沛.过程层析成像技术的发展及应用[J].化工自动化及仪表, 2009, 36 (1) :1-5.

[4]石天明, 周德全, 张亮, 等.用图像相关系数和图像方差分析电阻层析测量反演算法的性能[J].化工自动化及仪表, 2008, 35 (2) :50-57.

[5]谭超.电阻层析成像系统及两相流测量的研究[D].天津:天津大学, 2006.

[6]魏颖.电阻层析成像技术 (ERT) 及其在两相流测量中的应用研究[D].沈阳:东北大学, 2001.

[7]WANG Mi.Electrical Resistance Tomography Sensing Systemsfor Industrial Applications[M].Industrial Process Tomography-II, 1997.

【自适应均值漂移】推荐阅读：

自适应自适应滤波09-14

自适应提升07-14

自适应框架07-18