Bayes估计(通用3篇)
Bayes估计 篇1
复合Rayleigh分布作为寿命试验、生存分析等领域中的一个重要分布,其应用和统计性质引起了很多学者的关注。文献[1]利用复合瑞利分布研究临床试验中癌症病人的生存时间情况;文献[2]讨论了复合瑞利分布的样本预测问题;文献[3]讨论了逐步递增的I型截尾寿命试验下复合瑞利分布参数的最大似然估计以及Bayes估计问题.关于分布参数的Bayes估计和逆矩估计的研究一直是统计学研究的热点。文献[4]基于逐次定数截尾样本得到了Burr Type II分布参数的最大似然估计和逆矩估计;文献[5]研究了定数截尾样本情形下逆Weibull分布参数的Bayes估计和预测问题;文献[6]在对称熵损失函数下讨论了一类分布族参数的Bayes估计以及估计的可容许性问题;文献[7]讨论了逐步增加的比率危险率分布模型参数分布参数的Bayes估计以及经验Bayes估计问题。本文将在完全样本情形下研究两参数复合Rayleigh分布参数的最大似然估计、Bayes估计以及逆矩估计问题。
设随机变量X服从两参数复合Rayleigh分布,相应的概率密度函数和分布函数分别为:
f(x;θ,λ)=2θλθx(λ+x2)-(θ+1);x>0,θ,λ>0 (1)
和
F(x;θ,λ)=1-λθ(λ+x2)-θ;x>0,θ,λ>0 (2)
其中θ为尺度参数,λ为形状参数。
1最大似然估计
设X1,X2,…,Xn为来自两参数复合Rayleigh分布式(1)的容量为n的一个简单随机样本,(x1,x2,…,xn)为的样本观测值。则给定下参数θ的似然函数为:
相应的对数似然函数为:
从而似然方程为:
于是参数θ的最大似然估计为:
式(6)中
注1:由文献[8],我们有
则有
2Bayes估计
以下均设X1,X2,…,Xn为来自复合Rayleigh分布式(1)的容量为n的一个简单随机样本,
式(9)中
定理2.1设X=(X1,X2,…,Xn)为来自复合Rayleigh 分布式(1)的容量为n的简单随机样本,x=(x1,x2,…,xn) 为相应的样本观测值, t为T的观察值,并设参数θ的先验分布为伽玛分布Γ(α,β),则
(i)在平方误差损失函数下,参数θ的Bayes估计为:
(ii) 在LINEX损失函数下,参数θ的Bayes估计为:
证明 设参数θ的共轭先验分布为伽玛分布
即相应的概率密度函数为:
π(θ;
由式(3)及Bayes 定理,参数θ的后验密度函数为:
h(θ|x)∝l(θ|x)π(θ;α,β)∝
θne-θtθα-1e-βθ∝θn+α-1e-(β+t)θ (11)
从而θ的后验分布为Γ(n+α,β+t)。
则(i)在平方误差损失函数下,参数θ的Bayes估计为其后验均值,从而θ的Bayes估计:
(iii)由式(11)有
于是在LINEX损失函数下,参数θ的Bayes估计为:
3数值模拟例子和结论
利用Monte Carlo数值模拟一组来自参数θ=1.5和λ=2的复合瑞利分布式(1) 容量为n=21的样本(见表1)。
利用公式
从表2以及大量的数值模拟可以得到如下结论:
(i)给定合适的先验参数值,尺度参数θ的Bayes估计会比最大似然估计和最小方差无偏估计的估计结果更加准确;
(ii)随着样本容量的增大,这几种估计值都越来越接近参数真值.
摘要:基于完全样本讨论了复合Rayleigh分布尺度参数的估计问题。在平方误差损失、LINEX损失函数下导出了复合Rayleigh分布尺度参数的Bayes估计。给出了Monte Carlo数值模拟例子,将得到的估计与最大似然估计进行比较。
关键词:最大似然估计,Bayes估计,平方误差损失函数,LINEX损失函数,复合,Rayleigh分布
参考文献
[1] Bekker A,Roux J,Mostert P.A generalization of the compound Ray-leigh distribution:using a Bayesian methods on cancer survival times.Communications in Statistics-Theory and Methods,2000;29(7):1419—1433
[2] Al-Hussaini E K.Predicting observables from a general class of distri-butions.Journal of Statistical Planning and Inference,1999;79(1):79—91
[3] Abushal T A.Estimation of the unknown parameters for the com-pound Rayleigh distribution based on progressive first-failure-censoredsampling.Open Journal of Statistics,2011;1:161—171
[4]王炳兴.Burr Type XII分布的统计推断.数学物理学报,2008;28A(6):1103—1108
[5] Kundu D.,Hatem H.Bayesian inference and prediction of the inverseWeibull distribution for Type-II censored data.Computational Statis-tics and Data Analysis.2010;54:1547—1558
[6]王琪,阳连武.对称熵损失函数下一类分布族参数的Bayes估计.科学技术与工程,2011;11(22):5241—5243
[7]王亮,师义民.逐步增加II型截尾下比率危险率模型的可靠性分析.数理统计与管理,2011;30(2):315—321
[8]任海平.熵损失函数下一类广义分布族参数估计的容许性.西北师范大学学报(自然科学版),2010;46(6):19—22
[9]韦博成.参数统计教程.北京:高等教育出版社,2006
Bayes估计 篇2
标签对象位置的推断方面, 对阅读器固定而标签对象移动的应用场景, 文献[2]提出了一种通过分析监控对象之间的关联度来进行数据填补的模型。在有小组参与的应用场景中, 该模型可以提高数据填补的效果;货物相对固定而阅读器随移动的应用场景, 美国Massachusetts大学则以阅读器移动, 标签对象相对固定为应用场景设计了RFID概率推演系统[3], 旨在将缺失的、带有噪音的原始数据流清洗成带有较精确标签位置的事件流。文献[4]基于采样机制提出一种粒子过滤技术, 从RFID原始数据流中推断出标签对象的位置信息;但该机制讨论的是阅读器及标签均可移动的情况。文献[5]提出基于贝叶斯推理的数据清洗方法MH-C。利用数据冗余对探测对象的位置进行推断, 针对每个探测对象的可能位置, 将探测对象的整体位置分布的所有可能作为采样空间, 采用改进的蒙特-卡洛机制对标签位置进行采样, 经过有限步骤得到探测对象总体的位置分布。但随着部署环境中阅读器及标签对象数量的增多, 采样空间急剧扩增, 很难同时保证算法的准确性和高效性。文献[6]提出随时间变化的图模型来有效地捕获标签对象间的关系 (如小组关系、包含关系) , 继而通过概率推演算法推断出每个标签对象的位置, 该算法考虑了RFID数据的不完整性和不确定性, 但仍基于标签在某一时刻只被单一阅读器读到的前提, 没有考虑数据冗余及具体应用中的约束条件.
基于Bayes原理的统计推断方法能够在考虑不确定性的基础上给出更合理的参数估计, 但往往需要进行大量的采样计算, 随着采样方法的发展, 新型采样算法大大削减了高维采样的计算复杂度, 使Bayes估计得以实现。本文建立利用RFID原始冗余数据反演RFID系统中标签符号位置参数的Baye模型, 对符号位置参数进行了估计, 主要贡献如下:
(1) 详细分析了RFID数据模型, 推导了待估计符号位置参数的条件后验概率分布, 建立利用多阅读器的冗余数据反演目标符号位置参数的Bayes模型。
(2) 融合监测区域中的先验知识和约束条件, 提出了采用MCMC方法中的Metropolis-Hastings抽样估计符号位置参数, 提出并证明了参数估计算法性能的检验模型。
(3) 实测数据与大量仿真, 将本方法与Sequential Importance Sampling (SIS) [6]的性能进行了比较, 证明了所提出方法的效率和效果。
1 Bayes模型的建立
1.1场景描述
本文研究的对象是湖南张家界某风景区基于RFID技术的旅游智能管理系统[7], 通过RFID电子门票的使用, 实现游客流量统计与密度分析、游客游迹跟踪与追溯, 从而规范景区内部管理以规范旅游行业, 保障消费者的权益, 促进旅游市场的良性发展。景区的实验采用远望谷支持EPC Gen2协议与ISO18000—6C标准的XCRF—860密集型阅读器和Inlay嵌体的无源电子标签XC-TF8029-C07作为现场的基础设备现场的实验结果显示, 由于环境湿度和人体的个体差异, 尤其是当游客密集的时候, 阅读器对游客的身份识别卡 (电子标签) 的获取率在50%~60%之间, 这降低了游客识别率。为了提高精度, 在游客集中通过的地方, 增大了阅读器的数量。增加的阅读器识别区域在空间上交叉的, 这些从硬件上报的原始游客游迹数据量是海量的, 但可能只有少部分是对用户有意义的、非重复性的数据。
因此, 抽象后的场景如图1所示。将阅读器的识别范围分为3个部分:主识别区域、次识别区域以及0识别区域, 各个区域分别对应于阅读器所在位置区域、阅读器所在位置的相邻区域以及无法识别区域。其中, 于二者间存在共同的交叉探测区域而构成一组交叉读写器空间组 (被动式读写器的探测区域在平面上是如图1中虚线所示的近似扇形) 。
1.2 RFID识别模型
根据图1场景, 当附着标签的对象进入阅读器的感知范围内时, 就会产生一个RFID标签的读数。将标签对象标记为Oi, i= (1, 2, …, n) ;数据元ri= (r~EPC, o~EPC, t) , 其中, r~EPC和o~EPC分别表示阅读器和电子标签的EPC编码, t表示标签对象被识别的时间戳。由于EPC编码仅仅是一个理论上的标准, 在实际应用中, 一般都采用预先设定的连续编码来标记阅读器和监测对象, 相当于将EPC编码映射成为一个逻辑的id号。因此, So表示o~EPC集合, 通过映射f:So→N, 这样就用Oi表示具有id号i的标签对象;Sr表示r~EPC集合, 通过指定映射g:Sr→N, 每个阅读器指定关联一个逻辑区域, 用变量hi标记该区域, 表示实际应用中的某一指定位置的id号i的逻辑区域, 多个r~EPC映射为hi, i= (1, 2, …, n) 。
将t时刻在整个监控区域内标签对象的集合标记为R (t) , t时刻某个逻辑区域i探测到的标签定义为, 需要说明的是, 阅读器一般都会预先布置在指定的逻辑区域, 位置不会在应用中发生变化;而标签对象Oi将动态地穿梭于各个rm, 因此rm (t) 是动态变化的。
定义1数据元 (data element) 阅读器对进入其识别范围中对象的探测上报的数据, m个区域中的阅读器获取n个监测对象原始数据元矩阵用珗R表示, 该举证元素rij表示位置j中的阅读器读到标签Oi的情况, 其中, rij=0表示位置j中的阅读器没有读到标签Oi, rij=1位置j中的阅读器读到标签Oi。
定义2符号位置集 (symbol location set) 标签符号位置Oi在m个区域中的可能位置集合为, 其中, p (hi|珗R) 表示标签符号对象Oi在区域位置hi的后验概率, 简写pro (hi) 。
定义3先验知识 (prior knowledge) 关于阅读器及部署环境等先验知识 (如阅读器的误读率、部署情况) 先验知识。由先验知识所知, 一旦获得的rij为非0, 可以判定肯定某个阅读器探测到某个标签对象, 则先验知识如公式 (1) 所示。如果pro (h1) >pro (h2) , 说明符号位置在1的位置比2具有更大的可能性。
定义4约束条件 (Constraints) 每个位置区域关联被称为资源描述符的多重变量, 将位置区域i关联的资源定义为一个变量, 记作Capi, 表示位置区域i的空间容量;将位置区域i中的对象数量定义为一个变量, 记作Volj。约束的条件是如果位置资源变量大于或等于容纳对象数量, 否则, 分配的位置无法容纳放置对象的体积, 必须重新采样直到一个新的位置满足所有的约束。约束条件如式 (2) 所示。
RFID阅读器传输和标签传输可能导致碰撞因为阅读器和标签使用共用的无线频道来进行通信。当邻近的阅读器同时与一个标签通信时, 产生阅读器碰撞, 当多个标签在同一时间与一个阅读器进行通信时, 产生标签碰撞。但是, 仲裁协议能够有效地阻止这两种类型的碰撞。因此, 在研究中, 假定不产生碰撞为前提, 得到性质1—性质2。
性质1符号位置集各个元素hi之间相互独立。
性质2之间相互独立。
综合上述, RFID的识别模型将阅读器的所有识别区域划分为几个子区域, 每个子区域对应关联一个具有唯一阅读速率的区域, 跨越邻近的子区域的阅读速率的差异是一个常量。对于一个具体的阅读器来说, 在n-态识别模型下, 各个区域的识别速率依次为x, (n-1-1) x/n-1, …, (n-1-k) x/n-1, …, x/n-1, 0。本文采用3态识别模型, 假设在该模式下的最高阅读速率是x, 第一状态拥有x速率, 第二状态保持x/2速率, 第三状态为0速率, 则信号模型如式 (3) 所示。
2参数估计方法
2.1待估计位置参数后验分布
Bayes原理是根据已知观测数据 (y) 来估计未知数据 (x) 的概率一种统计归纳推理方法。根据Bayes原理, 假设某个时刻M个位置上的阅读器对位置标签i的阅读情况为, 由此推断位置标签i在位置hi的后验概率
由全概率公式得知,
, 代入式 (4) 得到
式 (5) 中p (hi) 为标签i在位置hi的先验概率, 先验概率即为观察数据未知时候标签对象i在所有可能位置的概率分布, 通常认为是均匀分布。由此式 (5) 可以化简为
式中, 称为关联概率, 即已知标签i在位置hi的条件下能够得到的概率。未知符号位置参数变量的先验概率分布根据先验知识给出, 各个观测数据相互独立且服从均匀分布, 式 (7) 显示利用观测到的数据反演位置参数。
2.2 Markov Chain Monte Carlo抽样
Markov Chain Monte Carlo (MCMC) [8]方法通过构造一条非周期不可约的Markov链, 其样本近似为目标概率分布的样本, 可用来估计目标分布。Metropolis-Hastings (MH) 抽样器[9]是应用最广泛的MCMC抽样器之一, 它抽样通过重复考虑随机地对每个分量产生变化来实现, 基于它们如何影响状态的概率或接受或拒绝这种变化。本文采用Metropolis-Hasting抽样算法。
借助辅助的提议函数q (x, y) 构造一个目标分布π (x) 的Markov链。提议函数的形式与目标分布越接近, 则模拟的效果越好, 且满足以下三个条件: (a) 对于固定的x, q (x, ·) 是一个概率密度函数; (b) 对于的值要能够计算出来, 其中S表示状态空间; (c) 对于固定的x, 能够方便地从q (x, y) 中产生随机数。本文构造的提议函数描述为
式 (8) 中, 令Ci表示第i个抽样样本, Pi表示第i个提议样本, S表示均匀提议分布的步长, Rand (-S, S) 表示根据均匀分布产生整数一个随机。具体的步骤描述如下:
(1) 第0次迭代, 从阅读器上报原始数据中选择合格样本, 构建提议函数q (x, y) , 初始化迭代P1。
(2) 迭代次数j, 其中j∈[1, Dobject]。
判断提取的样本是否满足式 (1) 和式 (2) , 如果不满足, 重新抽样;如果满足, 根据式 (8) 计算接受概率
(3) 抽取样本u~U[0, 1], 如果u≤α (x, y) , 则接受该提议样为Markov链的下一个状态, 否则, Markov链保留原状态。
(4) j←j+1, 返回 (2) 。
2.3位置参数估计性能分析
符号位置参数估计后验分布, 消除了系统的无效状态, 利用熵衡量该系统的性能。针对n-态信号识别模型来说, 阅读器成功获取符号位置标签数据可能出现的区域个数为2 (n-2) +1=2n-3, 将先验概率假设为一个均匀分布, 令x是最高的阅读速率, 则位置i的区域中阅读速率为 (n-i) x/n-1, L表示对象i的真实位置, 根据等式 (9) 的右面, L的概率分布如下:
得到如下定理:
定理在满足先验知识和约束条件的前提下, 3态识别模型比其他态模型得到的位置参数的估计能使系统的性能更佳。
证明:
因为n-态模型所有的2n-3个区域概率和为1, 即
由式 (9) 、式 (10) , 可得n-态模式的熵:
令, 则熵函数为
n-态模式的熵函数H (L) 关于n是递增的, 设置x=0.95, 当H (L) |n=2=1.098, H (L) |n=3=0.395。因此, 当且仅当n=3时熵最小, 参数估计的精确性最高。证毕。
3结果分析
3.1实验环境与数据集
RFID冗余数据的符号位置的参数估计具有两个显著特点:一是原始上报数据与位置参数之间的地位非对称性;二是参数估计的实时性。非对称性表现原始上报数据是符号位置参数数量数倍;实时性表现在标签与具体位置的相对运动, 给参数估计带来困难。
实测数据通过湖南张家界某景区的游客管理系统获取, 并与本文的模拟方法进行对比并分析了数据误差的原因;仿真试验对RFID冗余数据中位置参数的Bayes估计方法进行了验证, 仿真实验通过真实的矩阵发生器随机地产生具有真实的分布效果的分布矩阵, 噪声矩阵发生器按照相同格式提供类似RFID原始数据噪声的噪声矩阵, 仿真实验所用的参数如表1所示。
3.2实验结果与分析
3.2.1符号位置参数估计计算效率
本节实验主要验证符号位置参数的Bayes估计的效率, 衡量的指标为算法的抽样时间, 抽样时间越小说明抽样的算法效率越高。与SIS相比, MC-MC的平均采样时间随着合格样本的数量显著地减少, 如图2所示。例如, 对于5 000个合格样本来说, MCMC的采样时间是11.58 s, 而SIS的采样时间是230.78 s。因此, MCMC比SIS花费更少的时间来产生相同数量的合格样本。
3.2.2冗余度的位置参数估计曲线
本节实验验证数据冗余度对符号位置参数Bayes估计精度的影响, 数据冗余度反映数据误报程度, 验证衡量的指标为K-L散度, K-L散度越低说明估计的精确度越高。设置样本数量为5 000, 数据冗余度从0.325变化到0.475, 主要识别区域中的阅读速率相应地从65% (最小可靠的阅读器) 变化到95% (最大可靠阅读器) 。图3显示了这些结果, 随着数据冗余度的增大, MCMC和SIS的K-L散度都随之降低, 说明在约束精确度方面的性能是逐步提高的。重要的是, MCMC比SIS一直维持在一个较低的散度, 这证明本文提出的算法比SIS更为精确。
3.2.3数据量的位置参数估计曲线
本节实验验证数据量对符号位置参数的Bayes估计精度的影响, 衡量的指标依然为K-L散度。首先将合格样本的数量从500增加到9 000来研究MCMC和SIS对重构精确度的性能。图4所示, 随着合格样本数量的增大, 两种方法的SK-L散度值全部保持减小。但是, MCMC总是比SIS性能要好。尤其是, 当我们绘制了500个合格样本时, MCMC的SK-L散度是0.86而SIS的SK-L散度是3.78。因此, MCMC比SIS花费更少的时间来产生相同数量的合格样本。
3.2.4模拟与实测位置参数对比分析
本节实验验证实测数据与本算法效果对比。随机选择了10个旅行团对位置参数算法进行了对比测试, 分别在晴天、雨天、多云、高峰期等条件下进行测试, 测试的方法是通过导游给每个游客一个吊牌式电子标签, 通过关联阅读器的ID号, 验证游客的位置识别率。实验的结果如图5所示, 显示第7组实验团的误差最大, 其主要原因在于当天大雨且人数非常地拥挤, 造成数据上报缺失, 其他组游客位置参数的识别与人工测量值具有良好的一致性。
4结论
利用原始RFID阅读器上报的数据反演符号位置参数的Bayes方法, 以先验知识和约束条件为基础, 利用3-态RFID识别模型, 有效地估计了多阅读器环境下, 符号位置参数的精确估计, 可作为仓储物流的跟踪与追溯、数据统计与查询等系统的基础参数。仿真实验验证了在噪声环境下, 随着RFID数据冗余度的增加, K-L散度则逐步减小, 说明Bayes估计的精确性更高;符号参数呈正态分布。本文建立的Bayes模型可进一步发展, 例如将标签的时间戳观测数据用于参数反演, 以期降低RFID数据的不确定性。
摘要:RFID设备固有的限制和环境噪声的影响, 造成RFID原始数据的不确定性。为了估计RFID冗余数据中位置参数, 提出了利用多阅读器观测到的冗余数据反演目标符号位置参数的Bayes方法。该方法以3-态识别模型为基础建立了Bayes推论模型, 通过融合监测区域中的先验知识和约束条件, 采用Markov Chain Monte Carlo (MCMC) 的方法求解Bayes联合概率分布, 进而得到符号位置参数的后验概率分布。模拟实验结果表明, 符号位置参数的估计方法可以获得较好的效率和准确性。
关键词:RFID,冗余数据,Bayes方法,MCMC方法
参考文献
[1] Hahnel D, Burgard W, Fox D, et al.Mapping and localization with RFID technology.In:International Conference on Robotics and Automation, 2004:1015—1020
[2] Cu Y, Yu G, Chen Y G, et al.Efficient RFID data imputation by analyzing the correlations of monitored objects.In:Database Systems for Advanced Applications, 2009:186—200
[3] Thanh T, Charles S, Richard C, et al.Probabilistic inference over RFID streams in mobile environments.In:International Conference of Data Engineering, 2009:1096—1107
[4] Chen Haiquan, Ku Weishinn, Wang Haixun, et al.Leveraging spatio-temporal redundancy for RFID data cleansing.In:Proc of Special Interest Group on Management of Data, Indiana, USA, 2010:51—62
[5] Cocci R, Tran T, Diao Y L.Efficient data interpretation and compression over RFID stream.In:Proceedings of Internatianal Conference on Data Engineering, ICDE, Cancun, Mexico, 2008:1445—1447
[6] Xie J, Yang J, Chen Y, et al.A sampling-based approach to information recovery.In:ICDE, 2008:476—485
[7] 卢印举, 苏玉, 单国全.基于RFID技术的跟踪与追溯系统研究.煤炭技术, 2012;05 (6) :163—164
[8] 侯云山, 黄建国, 金勇.基于MH抽样的Bayesian方位估计快速算法.系统仿真学报, 2009;10 (19) :6033—6035
Bayes估计 篇3
关键词:电能质量,双小波维纳滤波,小波阈值去噪,维纳滤波器,Bayes估计
0 引言
电力系统故障和非线性负载时常造成各种电能质量问题。对电能质量控制、治理的前提是能正确地检测出电能质量扰动,但是设备或者外界干扰的因素接收到的检测信号总会叠加有噪声,这些对检测结果会有很大的影响,当噪声比较大时检测的过程将会失去它原有的意义。因此,如何减少噪声对电能质量信号分析的影响是一个非常重要的课题[1]。
电能质量信号去噪的目的就是在滤除噪声的同时尽可能地保留重要的信号特征。目前,电能质量信号去噪有多种方法。比如,小波(包)阈值去噪以其简单有效而得到了广泛的应用[2,3,4],阈值的选取是影响小波去噪效果的主要因素,为此文献[5-7]对阈值的选取作了一些改进,小波去噪的性能有了一定的提升。文献[8]提出了利用不同尺度的小波系数之间的相关性进行去噪,缺点是计算复杂。文献[9]利用小波系数其分布具有“簇聚”性质,将小波系数分成若干块进行阈值处理,在全局适应性和空间适应性方面有了提升,但还是涉及到如何正确选择“块”大小和阈值问题。文献[10]提出了通过合理选择多小波基进行去噪的方法,其关键是找到合适的预处理方法。文献[11]结合模糊中值滤波和模糊均值滤波两者的优点,通过加权滤波的方法对信号进行去噪,但滤波因子选择不合适将会影响去噪效果。文献[12]提出了利用数学形态滤波方法进行去噪,其难点是如何选择适合电能质量信号的结构元素。文献[13]提出了利用高斯滤波器进行去噪,其对滤除服从正态分布的噪声是很有效的,对其他类型的噪声去噪性能有待于进一步研究。文献[14]提出了基于似然比判决准则的滤波方法,去噪效果良好能较完整的保留突变点的信息,但局部滑动估计窗的长度选择会影响去噪效果。文献[15]通过均值滤波预处理减小信号非平稳性对维纳滤波参数估计的影响;再对维纳滤波结果进行阈值处理,在去噪和突变点信息保留两方面都有了改善。
采用两个小波基的维纳滤波算法在图像处理领域已经取得很好的效果[16,17]。而且小波变换和维纳滤波具有很好的互补性,即可将小波变换的低熵、多分辨率及去相关优势与维纳滤波的最小均方误差统计特性结合进行滤波。本文在上述算法的基础上,结合小波和维纳滤波两者的去噪优点,提出了基于Bayes估计的双小波维纳滤波电能质量信号去噪算法,首先在第一个小波域进行基于Bayes估计的小波阈值去噪技术估计含噪信号的期望信号,然后在第二个小波域将含噪信号和估计信号分别进行小波变换,用估计信号的小波系数设计维纳滤波器,然后对含噪信号的小波系数进行维纳滤波再反变换,从而实现去噪功能。同其他常用小波阈值去噪算法相比较,本文算法在仿真中得到了较好的去噪效果。
1 双小波维纳滤波器构造及滤波策略
1.1 维纳滤波算法
维纳滤波器以加性噪声且信号和噪声均为平稳随机过程为前提,以最小均方误差(Minimum Mean Squared Error)为准则,在最小均方误差意义上具有最优性能,是经典的去高斯白噪声方法。维纳滤波器的输入-输出关系如图1所示。
叠加有噪声的电能质量信号x(i)可以表示为
其中:i为信号点的位置;N为信号长度;s(i)是电能质量信号,包括基波和扰动;e(i)是噪声信号,独立同分布且服从N(0,σ2),且e(i)与s(i)独立。将式(1)简写为x=s+e。
维纳滤波后求得s的估计值为(如图1所示):
式中:⊗表示卷积运算;h(i)为维纳滤波器的冲击响应,要使最小均方误差最小,维纳滤波器的频域解应满足式(3)。
其中:H(ω)为维纳滤波器的频率响应;Pxs(ω)为x(i)与s(i)的互功率谱;Pxx(ω)为x(i)的自功率谱。
因为s(i)与e(i)独立,且假设s(i)为平稳高斯随机过程,其方差为,则
式中,σe为噪声标准差。通常σs和σe是未知的,如用其估计代替,则s(i)的估计为式(5)。
式中,FFT(⋅)及IFFT(⋅)分别表示快速傅里叶变换及其逆变换。
为了减小信号非平稳性对维纳滤波的影响,常采用空间自适应维纳滤波,其所用参数是由局部数据,即某个邻域上的系数所估计得到的,但是直接对原始信号进行空间自适应维纳滤波,可以使信噪比得到一定的提高,而去噪后的信号仍然保留了较多的噪声,信号的主观质量不高,主要是由于真实信号模型无法事先获得,造成与估计信号模型不匹配,而无法满足最小均方误差条件。
1.2 小波域维纳滤波算法
设Wα(j)=Uα(j)+Vα(j)为式(1)相对应的小波系数,Wα(j)表示信号在尺度α上的第j个小波系数,上式简写成W=U+V。
小波变换对信号具有近似解相关的作用,并将信号能量集中在一个相对较小的子空间上。对很多信号,小波变换可以作为一近似的Karhunen-Love基,对于得到的小波系数,在一定意义上可以认为是相互独立的,所以可在小波域进行维纳滤波[18]。则传统的小波域维纳滤波器为式(6)。
它也要求事先已知原始信号的Uα(j)和噪声方差σn2,其中σn由Donoho的鲁棒性中值估计得到[19,20]。
式中,median(⋅)表示取信号的中间值,但信号Uα(j)无法事先获得,因此在实际应用中都采用经验维纳滤波器。
用真实信号的估计代替Uα(j),经滤波最终得到去噪后的小波系数:
再经小波逆变换得到去噪信号。
1.3 双小波维纳滤波算法
双小波维纳滤波算法[16](简称DWWF):算法流程如图2所示。首先在第一个小波域W1中利用硬阈值方法估计期望信号;然后在第二个小波域W2中,对含噪信号x和估计的期望信号分别进行小波变换,得到W2和利用式(8)设计经验维纳滤波器Hw(j),再利用式(9)得到;最后经反变换得到去噪信号。
双小波维纳滤波算法主要是利用两个小波基,使得在W1域中被硬阈值函数置为0的真实信号的小波系数在W2域中得到部分恢复,从而改善了去噪效果。从信号小波分解的角度看,由于真实信号小波系数的稀疏性,使得一个小波基函数能够比另外一个更好地捕捉到信号的某些特定特征,从而形成信号表示的互补。
2 本文算法的设计
从以上分析可知,对于双小波维纳滤波算法的改进主要有两条途径:1)采用能量集中性质比较好的小波变换,这牵涉到最优小波滤波器的设计问题;2)提高对期望信号的估计精度,采取比硬阈值方式精确的方法来获得信号的估计。本文采用后一种方法对算法进行改进。
文献[21]通过最小化贝叶斯风险函数,得到一个随尺度自适应调整、称为Bayes阈值的估计公式,如式(10)所示。
式中:小波域噪声标准差σn按式(7)计算;σα为信号小波系数在不同尺度α中的方差,按式(11)、(12)估计
式中,nα为尺度α上小波系数的个数。
Bayes阈值收缩算法的去噪步骤为:先对含噪信号进行离散小波变换;再按式(10)~(12)进行参数估计得到不同尺度α上的阈值,采用软阈值规则处理小波系数;最后经小波逆变换得到去噪信号。
基于Bayes估计的小波阈值去噪算法在信噪比、均方误差方面均优于常见的阈值去噪算法,如通用硬阈值算法,通用软阈值算法,交叉验证(Cross Validation,CV)软阈值算法,无偏风险(Stein's unbiased risk estimator,Sure)软阈值算法[22](具体结果见表1)。基于以上考虑,本文算法主要改进在于:在W1域中采用Bayes软阈值去噪算法代替图2中的通用硬阈值去噪算法以得到期望信号的估计。
3 实验结果及讨论
3.1 不同阈值去噪算法的仿真
实验选取从实际电网中采集到的不同电能质量扰动信号进行测试[23],信号长度为6个周期(50Hz),采样频率12.8 k Hz,取标幺值(pu),如图3所示。在信号的去噪处理中,判断去噪效果的好坏主要有信噪比(SNR)及信号的均方误差(MSE)两个标准。一般SNR越大,MSE越小,去噪效果越好。由于实验中噪声是人为加上去的、可假设真实信号s(i)已知,则SNR和MSE的计算式分别为
式中:i为信号点的位置;N为信号长度;s(i)为第i个点真实信号值;为第i个点经过去噪处理后的值。两者的关系为式(15)。
可见,实验中这两种指标只需列出一种即可。小波函数使用消失矩为6的d B6,进行3尺度分解,为了避免一次加噪产生的随机影响,每个噪声水平下重复做5次实验,取5次平均的SNR,不同阈值去噪算法处理结果如表1所示。
表1中,当噪声强度很小时(如σ=0.01和0.03),Bayes软阈值算法对应的去噪信号的信噪比Sure软阈值算法稍小一些;但当噪声强度逐渐增加时,Bayes软阈值算法能够产生最大信噪比,在骤降、谐波、振荡等各类电能质量扰动信号的实验中得到了相同结论。
3.2 本文算法的仿真
实验信号、噪声水平同上,第一个小波W1选为d B6,第二个小波W2为d B4,都进行3尺度分解。参与实验的方法有:基于通用硬阈值的DWWF算法(简称DWWF(Hard))、基于通用软阈值的DWWF算法(简称DWWF(Soft))、基于CV软阈值的DWWF算法(简称DWWF(CV))、基于Sure软阈值的DWWF算法(简称DWWF(Sure))、本文基于Bayes软阈值的DWWF算法(简称DWWF(Bayes))。其中第一个为文献[16]中的方法,同样在每个噪声水平下重复做5次实验,取5次平均值,表2给出了噪声标准差σ分别为0.01、0.03、0.05、0.1、0.2、0.5时上述5种算法的实验对比结果,从中可看出DWWF(Bayes)算法相对于其前面4种算法的优越性,同时也优于前述5种阈值去噪算法。
注:算法1~5分别代表通用硬阈值、通用软阈值、CV软阈值、Sure软阈值、Bayes软阈值这五种去噪算法
注:算法1~5分别代表DWWF(Hard)、DWWF(Soft)、DWWF(CV)、DWWF(Sure)、DWWF(Bayes)这五种去噪算法
现在观察DWWF(Bayes)算法在实际不同的电能质量扰动信号去噪处理中的表现,特选取实际电网中采集到的骤降、谐波、振荡暂态三种典型的扰动信号[23],实验所加噪声标准差σ为0.1,原始波形、信号加噪后的波形及去噪后的波形如图3所示。从滤波效果图3可以看出,本文算法对不同电能质量扰动信号都有很好的去噪效果。
3.3 讨论
信号的小波系数服从广义的高斯分布,并且主要集中在数量较少幅值较大的小波系数上,而噪声分布在数量较多,幅值较小的小波系数上[19],因此从上述实验可以看出:1)硬阈值及软阈值处理方法通常以选定的某个阈值对各尺度空间的小波系数进行截断处理,实质是将小波系数幅值比阈值小的系数视为噪声系数,将其去除这在一定程度上破坏了信号信息的完整性,造成小部分有用信号的丢失。软阈值处理方式是连续的,它将所有非零系数向零收缩,而硬阈值处理方式是不连续的,因此硬阈值方式处理的信号较软阈值方式处理的信号粗糙;2)由于CV软阈值算法是一种以MSE准则确定阈值的统计方法,即使MSE能够达到一个最优值,但也有可能估计信号波形在局部上与实际信号相比存在较大的偏差,其滤波效果仍不理想;3)Sure软阈值算法采用使重构误差极小确定阈值,能获得较为满意的滤波效果,但结果中有时会含有“毛刺”;4)Bayes软阈值算法通过极小化贝叶斯风险得到阈值,而且当噪声强度逐渐增加时,Bayes软阈值算法能够产生最大信噪比,适合去噪。同时结合双小波维纳滤波算法,其滤波效果进一步得到提升。
4 结论