定性贝叶斯网络

2024-09-25

定性贝叶斯网络（共9篇）

定性贝叶斯网络篇1

洪水频率分析主要是利用已有的实测洪水数据构造洪水分布函数,通过分布函数计算一定重现期下的洪水设计值。洪水频率分析中的难点在于极值事件的频率计算,由于极值洪水相对于一般的洪水样本,发生频率较小,而在实际计算的过程中,极值洪水以及可以利用的历史特大洪水观测数据往往较为缺乏,影响分布函数参数的估计和高分位数计算,从而导致洪水频率分析中存在较大的不确定性。如何定量的评估洪水频率计算中线型参数以及推求设计值的不确定性,成为洪水频率分析中的热点问题。

本文选取大渡河流域典型站点洪水资料作为分析对象,选取广义极值分布作为洪水分布的线型,利用贝叶斯原理,通过先验分布和似然函数构造后验分布;利用MCMC模拟方法,根据抽样值构造一定频率下的洪水设计值,并得到其相应的置信区间,以定量描述洪水频率分析的不确定性,并与传统方法的置信区间进行对比,从而对该方法的有效性和优良性进行评估。

1 贝叶斯洪水频率分析的基本原理

贝叶斯估计的理论基础是贝叶斯原理,主要是综合考虑未知总体分布和样本分布中的参数先验信息,根据信息求出样本的后验分布,再根据后验分布推断未知总体分布的参数[1]。贝叶斯估计与传统的极大似然估计法、矩法和权函数法等参数估计方法的主要区别在于:贝叶斯估计将未知参数视为随机变量,在利用样本信息推断总体分布参数之前,需要规定样本参数的先验分布,先验分布的选取通常是利用已有的历史洪水资料或利用决策者的经验进行设定。在洪水频率计算中,能够运用一些有效的信息(历史洪水等),表示成先验分布的形式,通过最大化的利用有效信息,可以获得较其他传统参数估计方法更精确的推断。与传统估计方法相比,贝叶斯估计方法优势在于对模型不确定性的评估,贝叶斯方法利用大量随机样本模拟,概率分布的形式输出模型的参数以及一定重现期下的设计值,概率分布相比与单一估计值包含了额外的信息,可以反映洪水频率分析中的不确定性。近年来,许多学者尝试在水文频率分析研究中采用贝叶斯的估计方法。Wood等[2]最早提出了基于贝叶斯理论的水文模型参数估计方法的技术框架,Kucz-era[3]根据贝叶斯理论同时探索了应用分布参数不确定性问题,主要是利用重要抽样方法分析了皮尔逊III型和对数皮尔逊III型曲线的分布参数。W Femandes等[4]认为PMF的不确定性和先验分布线型有关,针对洪水频率线型多数没有考虑上下界问题,他采用贝叶斯方法和具有上界的分布函数相结合,用以福尔瑟姆水库(美国)为例进行洪水频率分析。后验统计推断中分母积分的计算是应用贝叶斯方法的一个难点。为了简化后验分布中的积分计算,可以通过选择合理的先验分布族的方法来实现,但某些情况下,数值积分的方法无法计算参数较多且结构复杂的后验分布。马尔科夫链蒙特卡罗(MCMC)方法能够解决贝叶斯后验分布高维积分的问题[5]。

假设洪水序列以及分布线型是已知的情况下,利用贝叶斯估计方法进行洪水频率分析的基本框架如图1所示。

(1)先验分布。依据一定的原则确定总体分布参数的先验分布。在先验分布的选择上,目前没有一个统一的规范。但是有一些推荐的原则,例如,在没有历史数据以及经验可以作为参考的情况下,可以根据参数的物理意义,采用取值范围内的均匀分布作为总体分布参数的先验分布。如果认为参数在取值范围内更倾向取较小的值,推荐应用方差较大的正态分布,相反,可以应用方差较小的正态分布。

(2)似然函数。以θ表示总体分布参数向量,可以用 π(θ)表示其先验分布的密度。由于Xi是相互独立的,所以样本x=(X1,X2,…,Xn)的似然函数f(x|θ)可用下式计算:

(3)后验分布。由贝叶斯原理,后验分布可以由先验密度π(θ)以及式(1)确定的似然函数计算得到,如下式:

(4)总体分布的参数估计。根据式(2)求得总体分布参数θ的后验分布,贝叶斯统计推断与传统的参数估计相比,最大的不同是贝叶斯给出的总体分布参数θ的分布函数。基于分布函数可以对θ的进行统计推断,一般情况下,θ的估计值有两种选取方法,第一种方法是将后验分布的50% 分位数作为的估计值,第二种方法是将使得后验密度最大的 θ 值作为其估计值。

(5)洪水频率设计值计算。假设已知洪水观测值x的情况下,θ的后验分布可以用f(θ|x)来表示,设定表示需要计算的一定重现期下的洪水设计值,那么在已知x的条件下,z的密度函数可以表示为:

由式(3)得:

Pr(Z≤z|x)可以理解为,已知洪水资料条件下,某一重现期洪水频率设计值z的分布函数。

如果假设洪水重现期为m年一遇,即Pr(Z≤z|x)=1-1/m,通过求解方程即可求得设计值。由于在输入的时候使用了样本参数的先验分布以及似然函数,因此贝叶斯方法可以将模型参数的不确定性考虑进去,得出的设计值也是概率分布的形式,体现了由于参数不确定性引起的频率设计的不确定性。

在求解方程的过程中,由于后验概率密度较为复杂,需要借助特定的抽样模拟方法估计式(4)后验分布的估计值。

2 MCMC模拟

MCMC方法[6]的基本流程如下。

(1)根据参数的后验分布,通过MCMC方法产生服从式(2)要求的一阶马尔科夫链的模拟序列θ0,θ1,θ2,…,其中θ0为任意初始值,θi+1只依赖于当前的θi,与之前的序列θ0,θ1,…,θi-1无关,即θi+1由条件分布q(·|θi)产生。

(2)设定转移核。为了保证马尔科夫链是时间齐次的,即任意参数经过一步迭代以后的边缘分布与i无关,这里定义转移核为。并使得后验分布f(θ|x)为平稳分布,即要求:

(3)通过MCMC方法产生随机样本。设定任意一个初始的θ0,由(1)和(2)中定义的马尔克夫链进行抽样模拟,根据训练步长产生随机序列θ1,θ2,…,θn。文献[7]指出,由于初始设定θ0的边缘分布并不一定是f(θ|x),需要一定的训练时期使得序列达到平稳,因此在利用MCMC模拟的时候,通常去掉非平稳序列的θ1,θ2,…,θk,用剩下的θk+1,θk+2,…,θn作为后验分布f(θ|x)的抽样即可。

(4)利用(3)中产生的序列进行蒙特卡洛积分,本文选择模拟样本的50%分位数作为后验分布的均值,而后验分布密度由模拟序列的频率直方图生成。

在使用MCMC方法进行模拟的时候,马尔科夫链的稳定性依赖于转移核的选取。目前,常用于转移核构造的方法有两种,分别是Metropolis-Hastings算法[7]和Gibbs抽样[8]。Me-tropolis-Hastings算法(简称M- H算法)是最早提出是在1953 年,经过后人改进成为目前应用较为广泛的MCMC方法。

Metropolis-Hastings算法基本步骤如下。

(1)确定参数的初值θ0以及转移核q(·|θi)。

(2)进行迭代,从q(·|θi)抽取一个推荐值θ*。

(3)计算相应的接受概率αi。

(4)以概率αi接受θ*为下一个θi+1,即:

式中:μ是均匀分布在一定区间内的随机数,其取值范围在0~1之间。

(5)重复(1)~(4)的步骤n次,去除前面k个不稳定序列后,认为θk+1,θk+2,…为满足抽样要求的平稳序列,根据这些平稳序列进行后验分布的各种统计推断(后验均值及各个分位数等)。从极值理论角度来讲,通过式(7)给出的概率进行优选可以使得序列达到平稳状态,并且保证模拟序列具备所求的边缘分布的统计特征。

3 GEV模型分布参数与洪水的估计

作为搭建极值变量的一个重要分布,GEV分布在水文、气象、环境、保险和金融等领域得到广泛的应用[9,10]。对于GEV分布,可以采用极大似然估计法和矩估计等对其参数进行估计,其中极大似然估计方法是目前采用较多的方法[11]。尽管极大似然估计法可以计算极值变量分位数的置信区间,以此表达相应估计值的不确定性,然而,极大似然估计方法要求待估计的样本具有渐近正态性的特征,对于样本长度要求较高,当样本系列较小时,极大似然估计方法不能表达分位数估计的中所带来不确定性。Martins和Stedinger[12]指出,序列长度对极大似然估计有一定的影响,较小的样本会造成极大似然估计方法估计出的形状参数偏小,从而影响对于总体分位数估计的准确性。

GEV分布函数可以表示为:

式中:μ、σ、ξ分别表示GEV分布模型的位置参数(Location pa-rameter)、尺度参数(Scale parameter)和形状参数(Shape pa-rameter),且同时满足条件为μ∈R,σ>0,ξ∈R,1+ξ(x-μ)σ>0。

分别选取6个站点的年最大洪峰流量系列建立GEV分布模型。为方便计算和表达,洪峰流量系列的单位统一为103m3/s,以下类同。令φ=logσ,以保证σ>0。先验密度参数确定如下:选择先验密度函数为π(μ,,ξ)=πμ(μ)π()πξ(ξ)。其中πμ(·)、π(·)和πξ(·)为正态密度函数,其统计特征是均值为零,方差分别为υμ、υφ和υξ,同时保证参数μ、φ和ξ是相互独立的。根据文献[11]的推荐,初步设定υμ=υφ=104,υξ=100,从而帮助密度函数变得更加平滑。

参考上文中M-H算法的步骤[13],利用概率αi对向量(μ,σ,ξ)的每个分量进行筛选,同时定义每个分量在坐标轴上随机移动的步长为:μ*=μ+εμ,φ*=φ+εφ,ξ*=ξ+εξ,其中,εμ、εφ、εξ是均值为0,方差分别为ωμ、ωφ、ωξ的正态变量。ωμ、ωφ、ωξ的数值根据试验确定。

4 大渡河流域典型站点分析

选取大渡河流域6个典型站点年最大洪峰系列进行分析,分别为丹巴、大金、猴子岩、泸定、瀑布沟和双江口,6个站点覆盖流域大部分地区,具有一定代表性,将各个站点年最大洪峰流量系列作为洪水频率计算的样本数据。

4.1 参数估计

设定每个参数的训练次数为20 000次,通过MCMC模拟产生丹巴站GEV分布的3个参数序列如图2所示。其中,位置参数和形状参数为原序列,而尺度参数是经过σi=eφi转化以后得到的模拟序列。由于初始值的边缘分布并不一定满足后验分布要求,因此去掉前面不平稳的序列之后,可以认为将其余比较稳定的模拟值当做符合要求的后验分布的观测值。

由于方差ωμ、ωφ、ωξ的设定具有一定的主观性,为了进一步明晰不同的ωμ、ωφ、ωξ对参数收敛速度的影响,设置了2 组不同的数值进行对比分析如图2所示,在图2(a)的MCMC模拟中,设置ωμ、ωφ、ωξ的取值分别为0.02、0.01、0.1,从图2(a)中可以看出,经过2500 次迭代后序列趋于稳定;而图2(b)的MCMC模拟中,设置ωμ、ωφ、ωξ的取值分别为0.1、0.05、0.5,为图2(a)的5倍,从图2(b)中可以看出,经过1000次迭代后序列趋于稳定。通过对比可以看出,设置较大的方差,可以一定程度上加快MCMC序列的收敛速度,同时,对比两个情景下参数的收敛值可以发现,两个情景下的参数收敛值基本上是一致的,这说明选取ωμ、ωφ、ωξ的大小仅仅对于模型收敛速度产生影响,而并不影响对模型参数的估计。

按照上述的方法,选取 ωμ=0.1、ωφ=0.05、ωξ=0.5 的值得出其余5个站点的MCMC序列如图3所示。

根据20 000组参数,得到每个站点GEV各个参数后验分布统计特征如表1所示。相比传统的参数估计方法,贝叶斯分布不仅给出参数的估计值,同时也给出参数置信区间,通过置信区间表示参数估计的不确定性。

4.2 拟合优度检验

(1)图像分析法。图像分析法一种较为直观的利用图形来描述拟合的优劣程度的方法。主要是通过点绘理论联合概率值和经验联合概率值,如果得到的点距较均匀地分布在45°线附近,则说明建立的概率分布模型是合理的[14]。图4给出了大渡河流域各个站点最大洪峰流量系列GEV模型经验频率与理论频率拟合效果图,从图4可以看出,样本系列基本都落在了经验频率与理论频率所在的45°线上,说明通过MCMC序列估计出来的GEV分布模型与实际样本系列拟合程度较好。

(2)K-S检验及OSL、AIC准则。

离差平方和最小准则(OSL):

OSL值越小,说明GEV模型拟合得越好。

AIC信息准则:

式中:Fi表示经验频率;Ci表示理论频率;n为分布样本的个数;k为模型参数的个数,在GEV模型中k=3。

与OSL相同,AIC值越小,说明GEV模型拟合得越好。

采用OSL和AIC、Kolmogrov-Smirnow(简称K-S)法[15]3种指标,对传统的两种参数估计方法和贝叶斯MCMC方法得到模型拟合效果进行了对比分析,评定结果如表2所示。3种参数估计方法均通过K-S方法的检验(显著水平5%),说明3种方法均适用于估计GEV模型的参数。对比各个参数估计方法的OSL和AIC可以看出,对于丹巴、大金、猴子岩、瀑布沟和泸定站点,由贝叶斯估计参数得出的OSL和AIC的值是最小的,也就是说线型拟合的效果最好,而对于双江口来说,矩估计得出的OSL和AIC值最小,但是矩估计的OSL和AIC值与贝叶斯估计相差较小,可以认为矩估计和贝叶斯估计拟合出效果近似相同,极大似然估计相对比其他两种估计方法,拟合效果相对较差。与传统的参数估计方法相比,贝叶斯估计方法计算的OSL和AIC值总体上更小,这说明GEV模型拟合的效果更好,贝叶斯估计方法具有一定的优越性。

4.3 洪水频率不确定性分析

估计一定重现期下的洪水设计值是水文频率分析的主要目的之一,广义极值分布的p(0<p<1)分位数为:

当(μi,σi,ξi)时,即Gumbel分布的分位数为:

水文频率分析中,称xp是重现期为1/(1-p)的重现水平。如果记yp=-log p,则称{(log yp,^xp):0<p<1}为重现水平图,其中^xp为xp的估计值,传统的Delta方法给出xp的近似置信区间为:

Z1-α/2为标准正态分布的1-α/2 分位数,,是协方差的矩阵,xpT为式(15)在处的值。

贝叶斯方法将向量(μi,σi,ξi)的每个模拟值代入式(16)就得到相应的1/(1-p)年重现期的设计洪峰流量值的后验分布样本及置信区间。

以丹巴站为例,根据式(16)得出丹巴站年最大洪峰流量的重现水平图如图5所示,可以看出随着重现期的增加,设计洪峰流量的置信区间也在增大,洪水频率的不确定性也在增加。图6给出了丹巴站各个典型重现期下的设计洪峰流量的后验密度估计图。根据后验密度估计,计算出流域各站点各典型重现期下的设计洪峰流量值及95%置信度下的置信区间,并与传统Delta进行比较,结果如表3所示。由表3可以看出,根据贝叶斯MCMC方法得到的各个站点各个重现期的设计值总是小于其置信下限和置信上限的平均值,而传统Delta方法得出的各个站点各个重现期的设计值是等于其置信下限和置信上限的平均值的,实际中,由于大的洪水资料比较有限,在估计某个洪水频率设计值上限时往往不确定性要大于下限的不确定性,由此可以看出根据贝叶斯MCMC方法得到的置信区间往往更接近实际的情况。同时,从表3可以看到,重现期越长,重现水平越大,置信区间的宽度越宽,代表不确定性越大,与Delta方法相比,贝叶斯MCMC方法得到的置信区间的宽度相对要小一些,说明该方法在评估洪水频率不确定性时要比Delta方法得到的不确定性要小。综上所述,贝叶斯MCMC方法在评估洪水频率较传统的Delta方法具有一定的优越性。

5 结语

以GEV模型为洪水频率分析线型,应用贝叶斯MCMC算法对大渡河流域洪水频率分析不确定性进行研究,研究结果表明,Metropolis-Hastings抽样的贝叶斯MCMC方法是洪水频率参数估计的一个有效方法,与传统的极大似然估计和矩估计相比,贝叶斯MCMC估计方法的拟合效果略优于另外两种方法。贝叶斯MCMC方法通过利用参数的先验信息得到参数以及设计值的后验密度函数,通过参数和设计值概率分布的形式表达洪水频率中的不确定性信息。同时,将贝叶斯MCMC方法得出的置信区间与传统Delta方法得出的置信区间进行比较,发现贝叶斯MCMC方法得到的置信区间的宽度相对要小一些,置信上限和与估计值之间距离大于置信下限与估计值之间距离,这种不对等性与实际更加接近,更能精准地估计洪水频率的置信区间。

m3/s

对于洪水频率不确定性研究,本文仅仅采用GEV一种线型进行研究,没有考虑线型选择对于洪水频率分析不确定性造成的影响,未来工作需要进一步将国内较为常见的P?Ⅲ、Log normal等线型加入,综合分析洪水频率分析中各个环节的不确定性。

摘要：洪水频率不确定性分析问题一直是水文领域研究的热点。将大渡河流域典型站点洪水资料作为分析对象,选取广义极值分布作为洪水分布的线型,利用贝叶斯原理和基于Metropolis-Hastings抽样模拟MCMC方法构造一定频率下的洪水设计值,并得到其相应的置信区间,以此定量描述洪水频率分析的不确定性。研究结果表明,贝叶斯MCMC方法可以有效地估计洪水频率线型的参数,拟合效果略优于传统参数估计方法。此外,将贝叶斯MCMC方法得出的置信区间与传统Delta方法进行比较,发现贝叶斯MCMC方法得到的置信区间的宽度相对要小一些,置信上限与估计值之间距离大于置信下限与估计值之间距离,这种不对等性与实际更加接近,更能精准地估计洪水频率的置信区间。

关键词：洪水频率分析,不确定性,贝叶斯理论

定性贝叶斯网络篇2

基于贝叶斯网络的一种常规雷达目标识别方法

现役的常规雷达一般不具备径向上和横向上的.高分辨率,雷达所揭示的目标信息非常有限.贝叶斯网络基本原理基于概率论的统计知识,作为一种分类器,它使错误的分类概率最小.文中将它引入雷达目标识别,将这些有限的信息利用起来实现对雷达目标的粗分类,取得了不错的效果.

作者：简育华 JIAN Yu-hua 作者单位：西安电子工程研究所,西安,710100刊名：科学技术与工程 ISTIC英文刊名：SCIENCE TECHNOLOGY AND ENGINEERING年，卷(期)：20077(2)分类号：V249.32关键词：贝叶斯网络目标识别雷达

定性贝叶斯网络篇3

摘要：人力资源管理的众多不确定性因素可能导致企业面临各种各样的风险，有效评估和预警人力资源管理风险有助于提高企业人力资源管理的有效性。基于现有研究成果的局限性，将贝叶斯网络引入到企业人力资源管理风险预警研究之中。首先阐述了贝叶斯网络的相关理论和在风险管理方面的应用研究，然后对人力资源管理风险的内涵和分类进行界定，在此基础上构建了人力资源管理风险预警指标体系。最后以贝叶斯网络为工具，建立了基于贝叶斯网络的人力资源管理风险模型。通过问卷调查获得网络节点参数，在MATLAB平台结合Full-BNT工具箱完成了贝叶斯网络的局部学习，并根据网络推理的结果提出相应的风险管理决策。

关键词：人力资源管理风险;贝叶斯网络;风险预警

中图分类号：F243.2 文献标识码：A文章编号：1672-1101（2016）01-0028-05

随着知识经济和全球化竞争时代的到来，人力资源已成为企业的核心资源，人力资源管理在企业管理中处于战略地位。然而，因为人力资源具有自己的独特属性，企业在进行人力资源管理的过程中不可避免地会遇到各种各样的风险。迄今为止，已有不少国内外学者对其进行过研究[1-2]，并取得一定的成果，这些成果为企业防控人力资源管理风险提供了重要借鉴。但是，总的来说，这些研究成果多数停留在人力资源管理风险的内涵、分类、危害及防控措施等定性方面，只有少数采用了定量的方法，如层次分析法、模糊综合评判法、风险矩阵法等工具来评估企业人力资源管理风险水平[3-4]。虽然这些数学方法计算简便、容易操作，但是由于这些方法涉及的指标大都具有非线性和模糊性，其准确性和客观性难以保证。基于此，本文将贝叶斯网络（Bayesian networks，BN）方法引入到人力资源管理风险预警研究中，探索用于研究人力资源管理风险的新方法，以期对企业人力资源管理有一定的借鉴作用。

一、贝叶斯网络的相关知识

（二）贝叶斯网络的应用综述

国内关于贝叶斯网络的应用研究比较晚，大多数研究都集中在最近几年，并且主要应用在人工智能、故障诊断、模式识别等领域，其中将贝叶斯网络应用于风险评估尤其是企业风险管理评估方面的研究比较少。

如索秀花[6]在利用SCOR模型并结合社会领域的马林诺夫斯基理论对供应链风险因素进行分析识别的基础上，以汽车备件供应链为例，建立了基于贝叶斯网络的局部风险评估模型，应用消息传递算法（Pearl算法）对风险进行动态预测，并诊断出影响风险的主要因素，可以有针对性地提出风险应对策略。李江飞[7]从风险发生的概率、风险的损失、风险发生的可控性三个角度对地铁项目施工风险进行了评价，利用贝斯网络借助Netica软件完成了施工风险发生概率的评估。尹凤阳[8]根据事故致因理论构造了船舶过闸风险评价的贝叶斯网络拓扑结构，并在VS2008系统开发平台上开发了风险评价系统，得出多个风险因素共同作用时，事故发生概率呈多倍增长。王美怡[9]采用贝叶斯网络推理和层次分析法相结合的方法，对不确定风险进行综合评估，以帮助管理者有效地规避风险，对高风险部分进行着重管理。熊涛[10]构造了基于贝叶斯网络的上市公司信用风险预警模型，在MATLAB软件上利用数据训练BN模型，并与Logistic模型进行对比，体现了贝叶斯网络模型用于风险评价的优越性。王爱文等[11]提出了基于因果贝叶斯网络的风险建模与分析方法，该方法被应用于某公司国际采购风险评估中，效果显著。周田[12]以IT企业研发人员为研究对象，在构建贝叶斯网络时加入时间因素，设计了帮助企业进行人力资源绩效考核的小型软件，具有很强的实用性。陆静和王捷[13]将贝叶斯网络拓扑结构用于商业银行全面风险预警，利用Netica软件进行网络推理，完成了各种风险指标对全面风险影响程度的计算，结合预警系统灯号模型，对银行风险水平做出判断，有利于管理者有针对性地进行风险管理。

二、人力资源管理风险预警指标体系的构建

（一）人力资源管理风险的内涵及其分类

何谓人力资源管理风险，虽然学者们的观点不一致，但是比较普遍接受的观点是，人力资源管理风险是指在组织人力资源管理的活动中，因为没有妥善地处理好人力资源管理中各种因素之间的关系，而给组织的经营管理带来意想不到的损失的可能性。人力资源管理中存在着各种风险，十分庞杂，本文在文献研究的基础上[14]，结合企业人力资源管理实例，将人力资源管理风险分为五大类：（1）招聘配置风险：是指组织在对人力资源进行招聘、配置和使用的过程中，因为人为因素或是企业内外部因素不确定性的影响所产生的风险。众所周知，有效的人力资源配置会给企业带来巨大的效益，但是在人力资源招聘与配置过程中，可能会存在人职不匹配、人员配置低效率等问题，导致人力资源的浪费。（2）培训开发风险：培训是企业人力资源管理工作的一项重要职能，企业的培训相当于人力、物力、财力的投资，任何投资都是有风险的，人力资源管理培训也不例外，比如培训收益风险、培训后人员流失风险等。（3）绩效考核风险：绩效考核是人力资源管理的核心环节，有效的绩效考核会对员工起到激励作用，反之，若绩效考核不公正、不全面、员工满意度低，则会挫伤员工的工作积极性，带来用人风险。（4）薪酬福利风险：是指由于薪酬设置不合理、福利待遇差等原因给企业带来的人力资源管理风险。（5）员工管理风险：人力资源管理的核心是人，由于人力资本具有复杂性、流动性、动态性，这就导致企业在进行人力资源管理时不可避免地会遇到员工违纪、人员冲突、劳资纠纷等风险。

（二）指标体系的构建

建立具有科学性、真实性、可行性、全面性的人力资源管理风险预警指标体系，是构建贝叶斯网络进行风险评估的基础。根据人力资源管理风险的分类，结合文献查阅的结果，建立如表1所示的人力资源管理风险预警指标体系。

三、基于贝叶斯网络的人力资源管理风险模型

（一）贝叶斯网络的构建

贝叶斯网络的构建有两种方法：一种是分析节点关系并咨询专家意见来构建，另一种是利用较完整的数据，通过网络学习功能来完成构建。鉴于人力资源管理各种风险的定量数据很难收集，本文采用第一种方法，利用因果关系结合专家经验构建贝叶斯网络。根据原因在前，结果在后的变量顺序，本文将人力资源管理风险作为终端节点，一级风险指标作为次层节点，二级风险指标作为初始端节点，构建了基于贝叶斯网络的人力资源管理风险预警系统的拓朴结构，如图1所示。

（二）网络节点的设置

在确定了贝叶斯网络结构后，需要对节点进行设置并赋值，即获得节点参数，包括先验概率和条件概率分布（CPD）。考虑到企业人力资源管理风险的定量数据很难查阅到，因此通过向人事主管、人力资源管理专家、企业风险管理专家组成的专家组征求意见，获得一个比较主观的结果。本模型实际运用中，企业可以根据自身的实际数据对该模型中的先验概率进行修正。

本文中的人力资源管理风险指标体系由5个一级指标和17个二级指标组成，若将这22个指标通过MATLAB软件，利用Full-BNT工具箱进行参数学习，学习过程复杂且长，限于篇幅，论文选取招聘配置风险及其下的3个二级指标进行贝叶斯网络的局部学习。

本文选取某企业作为调研对象，通过向该企业人事主管、人力资源管理专家、风险管理专家组成的20人专家组进行问卷调查，得到该企业人力资源管理风险中招聘配置风险的数据，以便运用基于贝叶斯网络的人力资源管理风险模型，判断其人力资源管理风险状况。

在进行问卷调查获得参数时，为了克服专家过度自信等认知方面的偏差，论文给出了风险概率等级的分值量化表（如表2所示），拟先采用等级区间判断，专家可以凭自己的经验判断指标的风险等级，再结合等级量化表在相应的问卷调查表中填入概率值。同时，借助风险概率等级量化表，我们可以由参数学习得到的后验概率来判断人力资源管理风险所处的风险水平，为进行相应的风险防范和控制提供依据。

在完成问卷调查之后，通过对收集到的问卷进行分析，得到这次调查问卷的基本信息如表3所示。

由表可知本次问卷的有效回收率达75%，问卷调查的数据是可以使用的。利用SPSS19.0软件对15份有效问卷的数据进行统计分析，求得各节点概率的平均值作为最终的节点参数，如表4、表5、表6所示。

四、结束语

本文

将贝叶斯网络方法应用于人力资源管理风险的预警研究中，通过构建人力资源管理风险的网络拓扑结构，将各类风险因素对于人力资源管理总体风险的影响归入到具有因果关系的网络结构中，并以招聘配置风险为例进行贝叶斯网络的局部学习，通过问卷调查在对各级网络节点进行赋值的基础上，利用Full-BNT工具箱，完成了贝叶斯网络的参数学习，实现了对人力资源管理风险的定量研究。管理者可以结合本企业人力资源管理风险的实际数据，进行贝叶斯网络推理，根据推理结果，有针对性地采取措施来防范控制风险。当然，由于人力资源管理风险因素种类很多，所以防控人力资源管理风险势必是一个复杂的系统工程。因此，在对人力资源管理风险进行全面防范的基础上，还需要企业树立风险管理理念，提高识别风险的能力，完善人力资源管理制度，加强人力资源管理风险预警信息系统的建设等，这样才能有效地落实风险管理。

参考文献：

[1]张兰霞，王俊.基于BP网络的人力资源管理风险预警模型[J].南开管理评论，2007，10（6）：78-85.

[2]Danielle S Beu，M.Ronald Buckley.Using Accountability to Create aMore Ethical Climate[J].Human Resource Management Review，2004（14）：67-83.

[3]王爱莲，李君.基于风险矩阵法的石油销售企业人力资源管理风险评估[J].西安石油大学学报（社会科学版），2014，23（1）：37-42.

[4]陈心德，周晋.基于模糊综合评判法的人力资源管理风险预警模型[J].商业研究，2006（15）：12-16.

[5]黄友平.贝叶斯网络研究[D].北京：中国科学院，2005.

[6]索秀花.供应链风险的识别与评估[D].广州：暨南大学，2011.

[7]李江飞.基于贝叶斯网络的地铁项目施工风险评价研究[D].哈尔滨：哈尔滨工业大学，2013.

[8]尹凤阳.基于贝叶斯网络的船舶过闸风险评价研究[D].武汉：武汉理工大学，2011.

[9]王美怡.贝叶斯网络在不确定性风险决策中的应用[D].北京：首都经贸大学，2012.

[10]熊涛.基于贝叶斯网络的我国上市公司信用风险预警研究[D].金华：浙江师范大学，2013.

[11]王爱文，杨敏，段华蕾.基于因果贝叶斯网络的风险建模与分析[J].系统工程与电子技术，2013，35（5）：1023-1030.

[12]周田.基于贝叶斯网络的人力资源绩效考核模型的研究与应用[D].北京：首都师范大学，2014.

[13]陆静，王捷.基于贝叶斯网络的商业银行全面风险预警系统[J].系统工程理论与实践，2012，32（2）：225-235.

[14]战一欣.企业人力资源管理风险控制研究[D].长春：吉林大学，2011.

[15]张连文，郭海鹏.贝叶斯网引论[M].北京：科学出版社，2006.

贝叶斯网络篇4

贝叶斯网络是一种概率网络, 它是基于概率推理的图形化网络, 以下是贝叶斯网络中涉及的概率知识:

(1) 条件概率[2]:设A, B是两个事件, 且P (A) >0, 称P (B|A) =P (AB) /P (A) 为在事件发生的条件下事件发生的条件概率。

(2) 联合概率[2]:设A, B是两个事件, 且P (A) >0, 它们的联合概率为:P (AB) =P (B|A) /P (A) 。

(3) 全概率公式[2]:设实验的样本空间为S, A为E的事件, B1, B2, …, Bn为E的一组事件, 满足:互不相容; (3) P (Bi) >0, i=1, 2, …, m。则有全概率公式:。

(4) 根据 (1) 、 (2) 和 (3) , 很容易得到贝叶斯公式[26]:。

(5) 先验概率[2]:根据历史的资料或主观判断所确定的各种事件发生的概率, 该概率没能经过实验证实, 属于检验前的概率, 称之为先验概率。

(6) 分隔定理 (d-seperation) [3]:设A, B, C为网络节点中三个不同的子集, 当且仅当A与C间不存在以下情况的路径时, 称B隔离了A和C, 记作:D:

(1) 所有含有聚合弧段的节点或其子节点是B的元素。

(2) 其它节点不是B的元素。

(7) 条件独立性假设[4]:依据分隔定理, 如果B隔离了A和C, 则认为A和C是关于B条件独立的, 即:P (A|C, B) =P (A|B) 。

2贝叶斯网络的结构

贝叶斯网络又称信念网络, 一个典型的贝叶斯网络由两部分组成[5]:第一部分是一个有向无环的图形结构G, 其中每个节点代表一个变量, 节点之间的有向弧段反映了变量间的依赖关系, 指向节点X的所有节点称为X的父节点, 图1为一个贝叶斯网络的拓扑结构;另一部分是与每个节点相关的条件概率表 (CPT, conditional probability table) , 该表列出了此节点相对于其父节点的所有可能的条件概率。

贝叶斯网络规定以节点Xi的父节点为条件, Xi与任意非Xi子节点条件独立, 按此约定有n个节点的贝叶斯网络的联合概率分布为[6]:

其中π (Xi) 是网络中Xi父节点集合∏ (Xi) 中的变量取值后的一个组合。若Xi没有父节点, 则集合∏ (Xi) 为空, 即P (Xi|π (Xi) ) =P (Xi) 。

3贝叶斯网络的推理

贝叶斯网络的推理通常是从先验知识入手, 按贝叶斯规则沿网络弧线层层演进而计算出我们感兴趣的概率。依据贝叶斯学派的观点, 概率推理本质上就是信任度的传播, 按推理方向贝叶斯网络有三种重要的推理模式[7]。

3.1因果推理或自上而下的推理

此模式是从先验概率开始的正向推理过程。之所以称为因果推理, 是因为贝叶斯网络中相连两节点表达了一种直接的因果关系。以图1为例, 求概率:, 因果推理的过程可总结如下:

(1) 将询问节点 (X4) 的其它父节点 (未在条件中出现) 加入到询问节点, 条件不变, 对新节点的所有状态求和。

(2) 利用贝叶斯规则将和式中的每一项展开, 因为伴随询问节点的CPT只提供了形式为P (Xi|π (Xi) ) 的概率。

3.2诊断推理或自下而上的推理

此模式是在已知结论的前提下, 推断出可能引发该结论的原因。以图1为例, 求概率P (X1|X4) 的过程为:, 其中P (X4|X1) 需利用因果推理求得。所以诊断推理的主要一步是将概率转换为因果推理的形式。

3.3解释推理

问题中已经包含了原因和结果, 这时如果要推断其它导致该结果的原因, 就需要运用解释推理。解释推理可概括为:诊断推理中运用因果推理。例如求P (X1|X4, X2) 的过程:, 这就是解释推理, 其中P (X4|X2) 也需要利用因果推理, 本质上解释推理是前两种模式的混合。

4结束语

综上, 贝叶斯网络是一系列变量的联合概率分布的图形表示。实际上这种表示法最早被用来对专家的不确定知识编码, 今天它们在现代专家系统、诊断引擎和决策支持系统中发挥了关键作用。贝叶斯网络的一个被经常提起的优点是它们具有形式的概率语义并且能作为存在于人类头脑中的知识结构的自然映像。这有助于知识在概率分布方面的编码和解释, 使基于概率的推理和最佳决策成为可能。论文主要介绍了贝叶斯网络的概率基础、拓扑结构以及贝叶斯网络的推理。

参考文献

[1]王军, 周伟达.贝叶斯网络的研究与进展[J].电子科技, 1999 (8) :5-7.

[2]盛骤, 谢式千, 潘承毅.概率论与数理统计[M].北京:高等教育出版社, 第2版, 1989:18-25.

[3]Judea Pearl.Causal diagrams for empirical research.Biometrika, 1995, 82 (4) :669-709.

[4]余东峰, 孙兆林.基于贝叶斯网络不确定推理的研究[J].微型电脑应用, 2004, 20 (8) :6-8.

[5]Luis M.de Campos, Juan M.Fernández-Luna, Juan F.Huete.Clustering terms in the Bayesian network retrieval model:a new ap-proach with two term-layers.Applied Soft Computing, 2004, 4:149-158.

[6]Berthier Ribeiro-Neto, Iimério Silva, Richard Muntz.Bayesian network models for IR.Soft Computing in Information Retrieval Tech-niques and Application, 2000:1-32.

贝叶斯网络推理算法研究篇5

现代大型复杂系统的贝叶斯网络结构也是庞大复杂的,对于诊断推理存在困难。因此在进行诊断推理前,应适当地对其网络结构进行简化。本文采用分簇优化联合树算法对贝叶斯网络结构进行简化处理及推理运算,下面介绍分簇优化联合树算法及其用于网络参数学习及诊断推理算法。

1 分簇搜索算法基本思想

用于故障诊断的贝叶斯网络的结构是非常复杂的,并且由于其结构的复杂性致使故障诊断推理也非常复杂,因此,通过贝叶斯网络结构学习,寻找一个与训练数据拟合度高且网络复杂性相对较低的网络结构成为一个非常有意义和研究价值的问题。由式可知,n个变量构成的贝叶斯网络结构的数目是指数级的,要从这些可能存在的网络结构空间中搜索出最优的网络结构也是很难的。当n=10时,需要搜索的模型个数就已经达到约为4.17*1018,可见搜索空间太大,为了缩小搜索空间,有效地找到最优解,一个较好的搜索算法就非常必要。

贝叶斯网络结构的学习实际就是优化搜索的问题。基于分簇的优化搜索方法就是将问题节点划分为团簇结构。团簇结构思想最早用于物理和化学领域中对分子和原子的处理,而在近代,团簇结构在许多领域得到了广泛的应用,包括模式识别,数据分析,图像处理等。许多学者都在这方面做出了研究,旨在发现能够用于更好聚类方法的簇结构,不同的网络拓扑结构对于分簇算法都是不同的。人工智能越来越多地研究这种方法,使之成为一种较为优秀的搜索算法。基于簇的搜索方法被证实较好地用于解决TSP问题。这种方法的主要优势在于不会陷入局部最优,并且搜索时间非常短。

分簇算法的基本思想是把网络结构中的节点划分为若干个簇,簇内依据某种事先约定的值进行连接,在簇与簇之间,也根据这种约定进行点与点之间的连接,这里设定一个阀值,节点间的关联程度大于这个阀值时就连接这两个节点,最终基于簇的这种搜索算法将形成一个团簇树状结构。

基于簇的结构学习算法是由初始的贝叶斯网络结构经过优化搜索构造出用于诊断的树形结构。设用于该算法的阀值为θ,由当前信息得到相关节点的关联程度为θij,表示第i个节点和第j个节点的关联程度,设两个数据结构D 1,D 2分别存放局部网络的起始参数节点表和目标节点表,首先把网络的所有节点都放入D 1表中。具体的步骤如下:

步骤1:随即选取一个起始节点V1,比较与V1相关的各个节点的θ1k值,若θ1k≥0,则将V1和Vk划分到一个簇S1内,把簇S1中的节点都从D1表中移出,放入表D2中。

步骤2:如果D1为空表,则转到步骤4。

步骤3:在D1表中随即选取一个节点Vn,比较与Vn相关的各个节点,分两种情况:

(1)若无关联节点,则将Vn单独划分到簇S2中,并将节点Vn从表D1中移出,放入表D2中,转入步骤2。

(2)若有关联的节点,且关联值为θnm,若θnm≥0,则将Vn和Vm划分到一个簇S2中,把簇S2中的节点从D1表中移出,放入表D2中,转入步骤2。

步骤4:在簇到S1之Sn间,观察是否簇间有相关联的节点,若相关联,且关联值θij≥θ,则将Vi与Vj相连接。

该算法的最终目的是搜索出一个较为简单的网络结构,减少网络推理的复杂度,使学习后的网络结构能够使用精确推理算法来实现推理,得出一个较为准确的结果。

搜索的过程如图1所示。

从图1可以看出,在经过分簇搜索之后,网络结构(d)比网络结构(a)有了一定程度的简化。

有效的贝叶斯网络推理算法是贝叶斯网络的重要内容,也是其应用的前提。大型复杂的故障诊断系统,所建立的贝叶斯网络模型也具有非常复杂的结构,为了降低贝叶斯网络的推理复杂度,使其更容易应用于解决实际问题,一般的推理算法都是在简化网络结构上进行研究的。下面来分析经过分簇结构优化算法后的网络推理。

2 联合树推理

分簇优化联合树算法实现对贝叶斯网络的诊断推理。分簇优化联合树算法是分簇优化算法与联合树算法的结合,其流程图如图2所示。分簇优化已在前文介绍,下面介绍流程图中其余步骤。

2.1 贝叶斯网络转化为联合树

将贝叶斯网络B转化为联合树,分为四步:建立B的Moral图;三角化Moral图;确定所有的团(Cliques);建立联合树。

(1)建立B的Moral图

简历Moral图的过程就是找出每个节点的父节点,并将他们用无相边两两相连,同时将所有有向边改为无向边。

(2)三角化Moral图

在Moral图中添加一些无向边,使图中每个大于或等于4的环中,都存在一条边连接两个非相邻节点。这就完成了对Moral图的三角化。

(3)确定所有的团(Cliques)

对Moral图三角化的目的就是找到构成联合树的所有团。团是Moral图三角化后最大的全连通子图,团中每对不同的节点都有边相连。

(4)建立联合树

利用得到的团,添加一些边和分隔节点就可构造一棵联合树T。联合树T要满足:树中任意两个团C,C′在连接它们的路径上的所有团节点必须包含变量C∩C′。

2.2 初始化

将贝叶斯网络转化为联合树后,就要对联合树的所有节点指定参数,即对联合树进行初始化。下面的算法实现了对满足条件的联合树参数的指定。

若联合树中的团Ci由X1,X2,…,Xr,r个节点组成,每一个节点有Sr个状态,则共有个状态组合。i代表Ci的分布函数,ij代表图Ci第j个状态组合的分布函数。具体步骤是:

for一个随机变量V

找到包含V的家庭的团Ci;

fori=1,…,n(n为团的数目)

orj=1,…,m(m为团C状态组合的个数)

初始化Φij,使Φij=1;

forj=1,…,m

Φij=Φij*P(Vj|Pa(Vj))

2.3 消息传递

对联合树进行初始化后,要在联合树上进行消息传递。通过个团节点之间的消息传递,可以是联合树达到全局一致,即达到稳态。如图3所示是团节点间一次消息传递的过程。

从节点Ci到Cj的一次消息传递过程包括以下几步:

(1)产生消息:

(2)吸收信息,更新团结点的分布函数:

(3)更新分隔节点的分布函数:

2.4 概率计算

当一个联合树通过消息传递满足全局一致性后,即可计算任意随机变量V的概率分布。找到任意一个包含变量V的团节点C,通过可计算出变量V的分布。

2.5 加入证据

若有新的证据加入,重复证据收集和证据扩散的过程,直到得到全局一致的联合树为止。当联合树再次满足全局一致性时,对任意的团C有:C=P(C,e),(e表示加入的证据)。要计算假设的变量V的概率分布,首先找到任意一个包含变量V团结点C,,再根据条件概率公式,求出变量V的概率分布

3 结束语

有效的贝叶斯网络推理算法是贝叶斯网络的重要内容,也是其应用的前提。大型复杂的故障诊断系统,所建立的贝叶斯网络模型也具有非常复杂的结构,为了降低贝叶斯网络的推理复杂度,使其更容易应用于解决实际问题,一般的推理算法都是在简化网络结构上进行研究的。而分簇简化联合树算法在对网络结构简化之后再进行网络推理,一定程度上简化了网络推理的难度。

摘要：大型复杂贝叶斯网络的诊断推理存在困难,在其推理诊断之前对网络结构进行适当的简化,可以有效地加快诊断推理速度。采用分簇联合树算法实现对网络结构的简化与推理。主要介绍了分簇搜索算法的基本思想、实现步骤及联合树推理算法,并将它们结合使用,使贝叶斯网络的简化推理更有效。

关键词：贝叶斯网络,概率推理,分簇理论,联合树

参考文献

[1]Wang Weidong,Zhu Qingxin.A Hierarchical Clustering Algorithmand Cooperation Analysis for Wireless Sensor Networks[J].Journalof Software,2006,17(5):1157-1167.

[2]Stephenson T.A.An Introduction to Bayesian Network Theory andUsage[Z].IDIAP-PR,Feb,2000.

[3]Gregory F Cooper,Edward Herskovits.A Bayesian method for theinduction of probabilistic networks from data[J].Machine Learning(S0885-6125),1992,9(4):309-347.

[4]衡星辰,覃征,邵利平,等.动态贝叶斯网络在复杂系统中建模方法的研究[J].系统仿真学报,2006,18(4):1002-1005.

[5]邢永康.信度网理论及应用研究:[D].重庆:重庆大学,2001.

定性贝叶斯网络篇6

信息化的迅速发展使得网络的规模和复杂度都在迅速的增大,网络管理的智能化成为迫切的需要。SNMP网络管理模型由于简单,易于实现等优点得到了广泛的使用。研究基于SNMP网络管理模型的网络管理具有实际而重要的意义。在网络故障管理方面,基本方法是接受SNMP-Trap的告警信息来确定网络的故障问题。但是由于网络的复杂性,一个故障可能会引起很多的告警,如何对这些告警信息进行处理,提供给网络管理员简单有效的提醒是一个值得研究的问题。

传统的告警产生方式是为MIB变量设置一个阈值,当超过阈值时,即产生报警,但是网络的动态特性使得阈值设置方法无法准确的反应网络的故障情况。国内外有很多工作利用统计方法对网络流量数据采用统计分析方法来判断是否异常,是否要产生告警。CS·Hood[1]通过分段把时间序列近似为段内平稳信号,然后又采用二元自回归模型拟合,对模型参数进行自适应性的GLR测试来判断流量是否异常。孙朝晖[2]等提出了用AAR模型来监测网络流量异常的方法,不需要对时间序列分片和单独拟合,可以直接处理获取的新数据,实现在线故障监测。本文参考该方法判断网络流量是否异常。文献[1]通过贝叶斯网络将监测到的MIB变量告警信息进行融合,最终通过路由器的异常情况给出对网络整体情况的预测。这种预测没有考虑到故障的传播特性等问题,也无法给网管员提供较为具体的故障信息。本文尝试先分别考虑各层协议的故障情况,然后再考虑低层协议对高层协议的影响。在此基础上,分层考虑故障在网络中的传播情况,依照网络的拓扑结构建构相应的贝叶斯网络。最后,对该模型进行了仿真,验证了方法的有效性。

1 网络管理协议SNMP

SNMP网络管理模型是为了管理TCP/IP网络提出来的,它的体系结构一般是非对称的,由管理站、代理、管理信息库(MIB)和通信协议SNMP构成。配置Manager实体的系统为管理站,配置Agent实体的系统被称为代理。管理站可以向代理下达操作命令访问代理所在系统的管理信息。

管理站和代理之间的共享管理信息由代理系统中的管理信息库MIB给出,各个代理系统中的被管对象的集合构成该系统的MIB。系统中所有的被管对象逻辑上被组织为一棵树,即MIB树。最基本和最重要的MIB的实例是MIB-Ⅱ,它分为11个组,除了cmot和dot3是预留外,其余9个组都有了定义,每个组描述系统的一个方面的信息。比如IP组,它包含IP协议中的各种参数信息,例如,有关IP层流量的一些计数器。如果IP协议的在运行中出现了故障,则会体现在相应的MIB变量中。可以根据MIB变量和协议之间的这种关系构建贝叶斯网络监测网络中某层的运行情况。

2 贝叶斯网络

贝叶斯网是一种系统地描述随机变量之间关系的语言。构造贝叶斯网的主要目的是进行概率推理,即计算一些事件发生的概率。要在一些随机变量之间进行推理,理论上只需要一个联合概率分布即可,但是联合概率分布的复杂度相对于变量个数成指数增长,所以当变量众多时不可行。贝叶斯网把概率分布分解成一系列相对简单的模块,大大降低了知识获取的难度和概率推理的复杂度,使得人们可以把概率论应用于大型问题[3]。

在贝叶斯网中,节点代表变量,节点之间的有向边代表两变量之间的条件概率关系。每个节点都附有一个概率分布,对于根节点X所附的是它的边缘分布,而非根节点所附的是条件概率分布P(X|π(X))。其中π(X),表示X的父节点。

贝叶斯网是联合概率分布的分解的一种表示。具体地,假设贝叶斯网络N中的变量为X1……Xn,那么把各变量所附的概率分布相乘就得到联合分布,即

如果把每个概率分布作为一个函数,用F表示N中所有概率分布函数的集合。在此类问题中,已知变量通常称为证据变量;需要计算其后验概率分布的变量称为查询变量。假设观测到了证据E=e,在F的各函数中,将各证据变量设为它们的观测值,得到另一组函数,记之为F′,则将这些函数相乘,即得P(Y,E=e),其中Y=XE,表示除去E之后X集合中剩余的变量。

设Q是所关心的查询变量的集合。从F′中逐个消去所有在Y中但不在Q中的变量,得到另一个函数集合,记之为F″,将F″的各函数相乘,可得P(Q,E=e),按照条件概率的定义,可进一步得到

其中P(E=e)=ΣQP(Q,E=e),这样就通过推理计算出所关心变量的后验概率。

如果构建了一个故障诊断的贝叶斯网络,那么这个问题就是,根据可以观察到的故障现象的取值,去计算关心但是无法直接观测到的部分故障的后验概率。

3 分层故障定位模型

本文以SNMP系统的MIB变量为基础构建了一个4层的故障诊断模型。数据处理部分对MIB数据采用自适应自回归模型处理,根据自回归模型参数的变化来判断是否产生了异常,进行MIB级别的告警。然后将MIB状态输入到协议故障判断部分,通过协议和MIB之间的贝叶斯网判断协议功能是否正常。将协议状态输入到协议间故障定位模块,通过不同协议之间构建的贝叶斯网推理故障的根源协议。在此基础上,确定了节点在某协议上的状态后,根据网络的拓扑结构,推理问题的根源在哪个节点上。模型结构图图1所示。

4 MIB变量特征提取

MIB变量大致可以分为两类,第一类就是在一定时间内不会改变的量,比如ipForwarding,表示是否作为IP网关。另一类是随时间动态改变的,比如IPInAddrErrors,它是一个计数器类型的变量,表示由于IP地址错被丢弃的输入数据报总数。

对于第一类而言,判断其异常与否只需要根据变量的值直接判断即可。比如ifOperStatus表示当前的接口状态(up(1),down(2),testing(3)),直接根据其值即可知道当前其状态是否异常。

对于第二类而言,则需要通过统计分析的方式去提取特征,才能做出判断。本文采用自适应自回归模型(AAR)来分析网络流量数据[2],进行MIB变量级异常检测。

对MIB变量M进行时间间隔为Δt的采样,获得的时间序列SM(N,Δt)是元素xi(i∈[1,N])的时间偏序集,N为序列长度。为任意序列定义p阶AAR模型,即

式中,ei是数学期望为0、方差为σe2的网络流量白噪声;i是当前样本序号。假定当前处在时刻t,那么因此参数aj是时间的函数。根据流量序列可以计算出相应的参数序列,减弱网络噪声的影响,用这个相对稳定的序列可描述流量序列的特性。定义t时刻的样本对应的AAR参数向量为

与式(3)对应,定义MIB变量M的样本构成向量为

采用时间序列SM(N,Δt)的观测样本拟合AAR模型,并通过其参数向量来描述系统特性的变化。时间序列SM(N,Δt)的样本i的噪声估计为

根据kalman过滤,相应的前馈向量为

此处T(i-1)表示样本(i-1)的相关矩阵,是一个p阶方阵,UC是更新系数,样本对应的AAR参数向量的估算值为

样本i的相关矩阵为

用上述几式构成的迭代算法即可拟合AAR模型,迭代过程可以在线完成。

向量A(i)表达了流量数据的状态变化,通过对其求二阶差分来反映其变化趋势,然后为了消除流量白噪声引起的尖峰,再使用时间平均法对差分结果进行平滑,最后可以根据序列值的变化来判断网络是否发生了变化。

5 节点贝叶斯网络建模

SNMP管理系统的管理站通过代理获得网络中各个节点的MIB信息(这里的节点是网络中配备有代理的主机,交换机,路由器等的统称)。在对MIB变量进行特征提取之后,已经可以进行MIB级的异常告警了,但是MIB所描述的信息仍具有很大的局限性,不能说明它所表示的协议层的功能正常情况,更难以说明整个网络的运行情况。贝叶斯网络能够通过概率关系描述各个MIB变量和其上层的协议之间的关系,并能根据已有的网络的先验概率和证据信息推理所关心节点的后验概率,适合于将多个MIB变量因素融合,获得一个协议层级的功能情况描述。

选网络接口层(MIB-II中的IF组)为例,其功能实现会影响相应组的MIB变量,因此可以以MIB树的结构作为贝叶斯网络的结构[1],如图2所示,而各个MIB变量之间的关系可以认为是近似相对独立的,这就符合了朴素贝叶斯网络的结构特点,由于其结构简单,可以使用多项式复杂度的Pearl信念传播算法,使得计算复杂度大大降低。

在通过MIB变量获得各协议的功能情况之后,考虑计算机网络按协议分层的特点,各层之间并不是完全独立的,每一层故障情况不仅依赖于本层功能的实现,还依赖于下一层所提供的服务,图3为计算机网络协议关系图。结合各协议之间的依赖关系,可以构造出节点层级的贝叶斯故障诊断模型[4]。层之间的的故障传播一般是低层影响高层,比如,网络接口层如果某个接口down,则IP层的数据报就无法到达,运输层的功能也就无从实现。考虑IF,IP,UDP三种协议之间的故障传播关系,可以构建出图4所示的贝叶斯网。通过协议之间的贝叶斯网络,可以对故障根源的协议层进行推理。

6 基于网络拓扑的贝叶斯网络

在考虑单个节点的故障定位问题的时候,考虑了故障在不同协议之间的传播关系,并没有考虑到故障在网络各节点间的传播问题。考虑图5所示通过路由器R连接到互连网的常见拓扑结构的网络。网络中的故障传播方向多数是从路由器到交换机,从交换机到主机,主机H1出现故障是由两种原因决定的,第一是其本身出现了故障,其二即上一层故障传播到主机H1。这样,对其构造故障传播图即先将网络拓扑转化为贝叶斯网络,然后再在除路由器R之外的每个节点上加一个表示本身故障的节点并指向该节点,如图6所示。由于路由器是网络层的中继,并没有运输层和应用层,这种依据网络拓扑构建的贝叶斯网络只适合于网络接口层和网际层。

上述建立的贝叶斯网络中,根节点的先验概率和有向边的条件概率可以根据历史数据统计获得,或者根据专家经验估计。在此基础上,还可以根据EM算法学习、更新网络参数。

7 实验仿真

采用MATLAB贝叶斯网络工具箱对本文中构建的几种贝叶斯网络进行了仿真实验。根据MIB树的结构,首先构建了如图2所示的两层的树状贝叶斯网络。根节点设为F,子节点为Mi,网络根节点的先验概率根据经验设为P(F)=[0.9 0.1],当F故障时的条件概率P(Mi=1|F=1)(i=1,2,…,n)在[0.75,1]之间服从均匀分布。先设定F=1,即F出故障,获得M1到Mn的故障概率。对Mi,生成一个[0,1]间服从均匀分布的随机数,如果小于其故障概率,则将Mi的状态设为1,即出现故障。在获得M1到Mn各节点的状态之后,将之作为观测结果,计算F节点的出现故障的概率。如果P(F=1|all M)>0.5,则认为F诊断结果为F出现故障。通过随机产生条件概率产生10种不同的贝叶斯网,对每个贝叶斯网选取不同MIB变量个数,每种情况仿真200次。计算平均故障诊断率如下图7所示。

节点级的贝叶斯网络和网络级贝叶斯网络的拓扑会随着选取协议的变化而不断变化,此处针对图5所示贝叶斯网络进行仿真。根节点故障概率设为0.1,条件概率设置如下表1所示。首先设置故障集R0,由R0产生一组可观察节点的征兆集S0,根据S0通过贝叶斯网络来推理,以表2所示几种故障情况为例,每种情况仿真500次,故障诊断正确率如表2所示。

8 结论

本文以广泛应用的SNMP网络管理模型为基础,首先构建了针对单个网络节点的分层的故障监测模型,然后考虑各层之间的故障传播关系,实现针对节点的故障根源定位,再考虑到故障在网络节点之间的传播模型,提出了依据网络的拓扑结构再对网络故障根源定位的贝叶斯网络模型。由于SNMP网管系统适用于各种异构网络,所以这种贝叶斯网络能适用于各种网络。

本文提出的贝叶斯网络可以应用更多的MIB组,考虑更多的协议进行推理。还可以拓展到更大型的网络,为骨干网络管理提供参考。而且,模型的尺度可以也可以更加精细。比如在构建基于网络拓扑的故障定位模型时,还有很多影响因素可以考虑。另外,文中考虑的网络拓扑比较简单,对于更加复杂的网络拓扑,故障传播情况更为复杂,还需要进一步研究。

摘要：本文以SNMP网络管理模型的管理信息库(MIB)为基础,在不同层次上构建了用于故障判别与定位的贝叶斯网络。对MIB变量采用自适应自回归(AAR)模型建模分析,构建与其相关协议之间的贝叶斯网络,推断协议功能是否发生异常。分析各个协议之间的功能依赖关系,构建协议间的贝叶斯网络,定位协议间的故障根源。考虑网络中故障传播构建了基于网络拓扑的贝叶斯网,定位故障根源节点。最后,对构建的模型进行了实验仿真,并分析了模型的优点和缺点。

关键词：网络故障,故障定位,贝叶斯网络

参考文献

[1]H ood C J.Proactive network fault detection[A].Sixteenth annual Joint Conference of the IEEE Computer and Communications Societies,Kobe,Japan,1997

[2]孙朝晖,张德运,孙钦东.异构网络环境中的自适应在线故障检测[J].西安交通大学学报,2004,38(4):409.

[3]张连文,郭海鹏.贝叶斯网引论[M].北京:科学出版社2006:85.

[4]谭林,胡谷雨,胥光辉,等.基于贝叶斯网络的计算机端到端服务故障诊断[J].海军工程大学学报,2005,17(5):5.

[5]郭军.网络管理[M].北京:北京邮电大学出版社,2007:105

基于贝叶斯网络的信息检索模型篇7

(一) 推理网络模型

推理网络模型采用的是信息检索认识论的观点[4]。该模型中文档节点用dj表示, 术语节点用ki表示, 查询节点用q表示。文档节点、术语节点、查询节点均与用相同符号表示的二进制随机变量相关。U={k 1, k 2, ..., k t}表示t维的向量空间, 变量k1, k 2, ..., kt为U定义了2t种状态, u表示其中一种状态。

根据查询q对文档dj进行排序, 其结果可以用来度量dj的观测值为查询q提供了多少证据支持。在推理网络中, 文献dj的排序可用P (q|d j) 来计算[2], 其计算方法如下:

其中α是一个常数因子, 因为没有对任何文档给出特定的先验概率, 所以一般采用一个统一的先验概率分布, 在有关推理网络的早期著作[1,5]中, 规定观测一篇文档dj的先验概率为, N为系统中的文献总数, 因而:

利用基本条件及贝叶斯定理, 公式 (1) 可变为下式:

具体定义方法参考文献[4]。

(二) 信念网络模型

信念网络模型也是基于概率认识论描述的, 但是这种模型采用的是一个明确定义的样本空间, 因而产生了一种不同于推理网络的网络拓扑, 即将网络中的文档和查询分离开来。

在信念网络中, 术语集合U={k 1, k 2, ..., k t}是一个论域 (discourse) , 同时为信念网络模型定义了样本空间。u⊂U是U的一个子集, 且g i (u) =1⇔ki∈u。每个索引术语被看作是一个基本概念, 因此U被看作是一个概念空间, 概念u是U的子集。文档和用户查询用概念空间U中的概念表示。

定义在样本空间U上的概率分布P如下所示, c是空间U中的一个概念, 表示一篇文档或一个用户查询:

公式 (5) 将p (c) 定义为空间U中c的覆盖度 (degree of coverage) , 公式 (5) 表示概念空间中的所有概念均是等概率发生的。

与给定查询q相关的文档dj的排序被理解为一种概念匹配关系, 它反映了概念q提供给概念dj的覆盖度。因此在信念网络中用p (dj|q) 计算文档dj关于查询q的排序。根据条件概率、公式 (5) 及贝叶斯定理可得:

其中η为规范化因子, 对概率P (d j|u) , P (q|u) 的不同定义可使信念网络检索模型包括由各种经典信息检索模型 (布尔模型、矢量模型、概率模型) 产生的排序策略。具体定义方法参考文献[2]。本文提出的扩展模型就是以基本信念网络模型为框架的。

(三) 简单贝叶斯网络检索模型

简单贝叶斯网络检索模型中的变量由两个不同的集合组成, V=T∪D:集合T={T1, T2, ..., TM}, 集合D={D1, ..., DN}, T和D中的变量均是二值的。变量Dj取值集合为, 其中和dj分别表示在给定查询下文档Dj不相关和相关。变量Ti取值集合为, 其中分别表示术语不相关和相关。

网络拓扑结构的建立基于以下三个假设:

1. 如果术语Ti属于文档Dj, 则术语节点Ti和文档节点Dj之间有弧。这反映了文档和其索引术语之间的依赖关系;

2. 文档节点之间没有弧, 也就是说文档节点之间的关系只是通过索引它们的术语表示出来;

3. 已知文档Dj中索引术语是否相关的情况下, 文档Dj和其它任何文档Dk是条件独立的, 也就是说文档Dj是否相关只受索引它的术语的影响, 而不受其它文档的影响。在网络中表现为弧的指向是由术语节点指向文档节点。

由这三个假设最终确定网络的拓扑结构。网络包括两个子网:术语子网和文档子网, 弧是由第一个子网中的节点指向第二个子网中的节点。该模型与推理网络模型和信念网络模型最大的区别是在网络中没有包含查询节点, 也就是说该模型是查询独立的, 查询只是作为证据在网络中传播。

BNR模型各类节点中存储的条件概率计算如下:

(2) 对于文档节点需要估计条件概率分布p (dj|π (Dj) ) , 其中π (Dj) 是Dj的父节点集Π (D j) 取值后的任意一种组合。因为文档节点可能有大量的父节点, 所以需要估计和存储的条件概率的数目是很巨大的。因此, 简单贝叶斯网络检索模型采用了专门的正则模型来表示条件概率:

其中R (π (Dj) ) 是π (Dj) 中相关术语的集合, 权重wij满足wij≥0且。这样在π (Dj) 中的相关术语越多, Dj的相关概率越大。

简单贝叶斯网络中节点的数目通常比较大, 节点之间的连接也是多路经的, 每个节点也可能包含大量的父节点, 所以考虑到检索的效率问题, 一般的推理算法是不能使用的。因此, 简单贝叶斯网络检索模型设计了特殊的推理过程可以非常有效地计算需要的概率, 并且证明了得到的结果和在整个网络中实施精确推理得到的结果是一样的:

根据术语子网的拓扑结构, 则当Ti∈Q时p (ti|Q) =1, 当Ti∉Q时p (ti|Q) =1/M, 这时公式 (8) 可改写为:

权重wij有多种计算方法, 可参考有关文献。

参考文献

[1]Howard Robert Turtle, W.Bruce Croft.Inference networks for document retrieval.Proceedings of the13th ACM-SIGIR Conference, 1990:1-24.

[2]Berthier Ribeiro-Neto, Richard Muntz.A belief network model for IR.Proceedings of the19th ACM-SIGIR Conference, 1996:253-260.

[3]Ricardo Baeza-Yates, Berthier Ribeiro-Neto.现代信息检索.北京:机械工业出版, 2005:24-42.

[4]Howard Robert Turtle, W.Bruce Croft.Evaluation of an inference network-based retrieval model.ACM Transactions on information systems, 1991, 9 (3) :187-222.

定性贝叶斯网络篇8

机械设备预知维护与故障诊断是提高制造业运营管理水平和生产效率的有效手段[1]。但由于对设备维护诊断机理的认识不充分,往往会产生大量不确定性因素[2],主要表现在:①诊断知识的来源与结构各异,既有实时监测运行数据,也有根据经验得出的设备运行状态主观判断;②故障的划分边界比较模糊,导致故障征兆定义以及诊断行为建模存在一定程度的模糊性与随意性;③复杂动态诊断维护环境本身存在不可预知性,使得由故障征兆推断故障成因的反向推理成为一种不确定性的过程。如何减小上述不确定性因素的影响是机械设备维护与诊断过程中亟需研究解决的重要问题。

基于本体的智能诊断技术可以减小设备维护诊断过程中不确定性因素影响,其重要基础是维护诊断知识的表示。本体已广泛应用于制造领域中的产品生命周期管理[3]、制造过程管理[4]、产品知识集成[5]等方面,而基于本体的制造过程语义模型通过对诊断行为、工况状态和维护决策等进行建模,实现了协同制造环境下的维护诊断知识共享[6]。但这些应用忽略了本体自身逻辑推理的局限性,模型推理能力仅限于本体语义规则推理,很难进一步对故障原因做出恰当的推理解释。

作为一种不确定性建模与推理工具,贝叶斯网络(Bayesian networks,BNs)可以实现设备维护决策与故障机理分析过程中的诊断推理[7,8]。Gilabert等[9]利用BNs来解决预知维护过程中的不确定性,但诊断维护经验以先验概率的形式表示,设备状态与故障征兆之间的映射对先验概率依赖性很强。姜万录等[10]引入贝叶斯参数估计算法进行了多特征信息融合,然后通过最大后验概率估计值的计算进行故障识别,但诊断结构模型定义不清晰,诊断过程知识缺乏合理的表达形式。

本文将基于本体的维护诊断知识表示与BNs概率推理方法相结合,构建了基于本体的故障诊断贝叶斯网络(ontology-based diagnostic Bayesian networks,OntoDBN)。OntoDBN对诊断语义模型进行概率扩展,实现了诊断贝叶斯网络的概率推理。针对故障知识、诊断证据以及维护诊断过程的不确定性,重点研究了设备工况状态识别与故障成因概率推理算法,根据算法产生的可能故障的概率解释,制订出相应的维修方案和决策。

1 OntoDBN的体系结构

基于诊断知识表达、故障成因分析、因果关系推理等方面不确定性因素的分析,结合本体论与贝叶斯网络,本文提出以本体语义为基础的故障诊断贝叶斯网络模型,其体系结构如图1所示。图中本体语义模型包括状态层、征兆层、故障层和决策层,分别对应了从数据到智能的4个知识加工层次,涵盖了工况识别、特征提取、模式分类以及维护决策等基本诊断步骤所涉及的数据信息;BNs推理引擎以概率形式逐步给出各个层次的诊断实体主观信度,构建出完整的故障诊断贝叶斯网络模型。此外,在保持诊断语义模型及其描述逻辑兼容性的前提下,OntoDBN对本体模型中的关键概念及关系进行扩展,以支持后续的故障概率推理。

贝叶斯网络是由一些节点与有向边组成的有向无环图(directed acyclic graph,DAG),其中,节点代表不同的随机变量或事件,有向边表示这些变量之间的直接因果关联或概率相关性[11]。节点及其直接前驱的条件概率分布与前驱节点的先验概率组成了条件概率表(conditional probability table,CPT)。对维护诊断过程进行BNs建模时,利用随机变量表示维护诊断实体、状态或事件,如Fi表示某个机械部件发生故障的事件;再利用有向边来表示状态或事件之间的依赖关系,如P(Fi|Si)表示故障征兆Si出现时故障Fi发生的概率值。在Markovian假设下,故障向量F=(F1, F2, …, Fn)的联合概率分布为 $Ρ (F) = \prod_{i} Ρ (F_{i} | S_{i})$ 。一旦获得了联合概率分布P(F),就可以完成随机变量空间内任意变量的概率推理[11]。OntoDBN推理引擎主要利用贝叶斯分类器与概率推理进行故障分析,其中,异常状态识别区分出工况状态中的异常特征(即故障征兆),而故障模式识别是由故障征兆推理获得故障成因的概率解释。

OntoDBN使用本体作为故障知识的表示形式,通过增加本体语义并添加概率信息,将带有概率信息的故障本体转换为贝叶斯网络,以贝叶斯网络作为底层推理机制,实现对故障诊断知识的不确定性推理研究。将本体语义描述和贝叶斯网络概率推理相结合,既实现了诊断领域知识的形式化描述与共享,又能在一定程度上消除诊断过程中不确定性因素的影响。

2 设备维护与故障诊断本体

设备维护与故障诊断涉及设备制造、投运到最终报废的整个过程,关键维护与诊断要素隐藏于海量的生产环境信息流中。因此,首先要过滤这些异构多源的信息并使信息结构化和形式化,然后从多方面扩展设备维护与故障诊断方法,在有效地获取、使用并存储语义知识的基础上建立一个可靠、完备的维护诊断知识本体模型。

2.1 维护诊断本体建模

本体建模的首要任务是理清应用领域中的核心概念,并针对应用实体与行为构造出可扩展的语义模型(即核心本体)。核心本体是定义维护对象、诊断行为、实体关系及维护方法论的顶层本体,且独立于任何特定设备或应用。OntoDBN核心本体包括设备域本体、过程域本体和诊断域本体,见图2。

(1)设备域本体用于描述维护诊断对象实体的功能、结构和依存关系,依照类别、设备、部件、特征4个层次对设备实体进行信息分解,Component和Characterization为设备域本体的核心类(图2中使用灰色标识的类)。

(2)过程域本体是维护过程的知识表示,包括维护行为、工况状态(Condion)、过程步骤(ProcessStep)及测试方法等。过程域本体一方面要与设备域本体建立联系,另一方面还关联到后续的诊断分析与维护决策。

(3)作为故障诊断和维护决策知识的语义描述,诊断域本体给出了设备动态性能的变化规律和故障征兆的识别方法。设备故障(Fault)及其征兆(Symptom)是诊断域本体的核心概念。故障征兆本质上是设备运行状态的另一种表现形式,可划分为数值型征兆(NumericSym)、语义型征兆(DescriptiveSym)和图形征兆(GraphicSym)三类。

2.2 维护诊断本体的概率扩展

为了实现故障的概率推理,需要对OntoDBN核心本体进行概率扩展,在本体实例中加入概率信息。在OntoDBN核心本体模型基础上,实现本体结构向BNs结构的转换,具体包括:本体概念与BNs节点的转换、本体关系与BNs有向边的转换、属性值的转换以及建立合适的CPT。诊断的本质是故障模式识别,因此可以从设备状态、故障征兆以及故障本身的相互关系出发,全面考虑维护诊断过程中涉及的相关因素,建立围绕状态、征兆、故障三者的BNs概率基本模型,见图3。

故障诊断过程中,先要进行设备异常状态的识别(如图3中的转换②),识别的结果表示为故障征兆;而设备的正常运行状态或数据与故障征兆同样重要,故障推理的过程可能会需要参考设备正常运行时的状态数据(如图3中的有向边①);故障模式识别则涉及故障征兆与故障成因的概率推理(如图3中的③)。因此,OntoDBN诊断推理可以分为两个紧密相连的步骤:其一,使用Bayes决策方法从设备运行状态数据中找出异常状态(即故障征兆);其二,根据设备状态或特征值、故障征兆的概率推理出故障发生的概率。此外,诊断过程中的其他相关信息也需要以恰当的方式在诊断知识模型中表现出来,如维护人员与诊断专家的经验、设备运行历史状态等。以下给出了OntoDBN故障本体及其属性集的定义。

定义1OntoDBN故障本体OF={F, I, PF, finst},其中,F为故障类集合,I为故障实例集合,PF为属性集,finst为故障类实例化函数:F→2I。

定义2 属性集PF={hasCause, hasCondition, hasSym, isObserved, hasPriorPr, hasCondPr}。其中,hasCause表示故障原因,hasCondition表示故障发生时设备的运行状态,hasSym表示故障征兆,isObserved表示故障是否被观察到。先验概率与条件概率是表示BNs节点不确定性程度的重要特征,这里我们利用了本体实例的属性hasPriorPr和hasCondPr来分别表示这两种概率值。例如,S表示故障征兆“润滑油温度超限”,F表示“减速箱齿轮故障”,那么P(S=true)=0.7可表示为

0.7</hasPriorPr>

<hasConditionrdf:datatype="&xsd;boolean">

true</ hasCondition >

</Context>

而条件概率P(F=true|S=true)=0.9可表示为

true</ hasCondition>

</Context>

</hasCondition>

< hasCondition rdf:datatype="&xsd;boolean">

true</ hasCondition>

</Decision>

3 OntoDBN的概率推理

贝叶斯网络概率推理问题分为三类:后验概率、最大后验假设(MAP)和最大可能解释(MPE)[11]。本文选取部分观测变量组成一个征兆集合,利用Bayes分类器进行工况异常状态识别,然后采用MPE方式通过概率推理计算出某种故障发生时相关的概率分布。

3.1 异常工况状态识别

故障诊断通常需要考虑目标设备在异常工况状态和正常工况状态下的运行趋势,因此正确区分工况正常与异常状态十分重要。某些情况下,由设备工况状态可以直接判定故障的发生(如转子出现断裂情形),而大部分工况状态需要利用各种数据采集设备获取运行数据,再进行数据分析来确定该状态是否为故障征兆。在OntoDBN本体模型中,异常工况状态识别实质上是设备工况状态空间到故障特征空间的本体映射。例如,转轴不平衡引起的振动是旋转机械的常见多发故障,一般需要实时监测转轴的振动频率以获取轴振动方向上的频谱特征,当设备出现异常且进行频谱分析时,这些振动特征量就表现为故障征兆。异常工况状态识别主要依靠设备运行状态类(Condition)、监测特征类(Characterization)、故障征兆类(Symptom)、设备部件类(Component)以及这些类之间的相互关联关系来完成。

根据先验知识对工况状态出现的概率(即先验概率)进行估计时,若设备工况状态空间Ωj=(ω1,ω2,…,ωi,…,ωc),其中ωi(i=1,2,…,c)表示状态空间的一个模式点,那么正常和异常工况状态可以分别用P(ω1)和P(ω2)表示,且P(ω1)+P(ω2)=1。再假定x是表示工况状态的离散随机变量,结合工况状态为ωi时x的概率分布函数P(x|ωi)和Bayes公式可以得出:

$Ρ (ω_{i} | x) = \frac{Ρ (x | ω_{i}) Ρ (ω_{i})}{\sum_{i = 1}^{c} Ρ (x | ω_{i}) Ρ (ω_{i})} (1)$

设{α1,α2,…,αk}表示有限的k种可能判定行为集,风险函数λ(αi|ωj)表示工况状态为ωj时判定行为αi的风险,那么条件风险定义为

$R (α_{i} | x) = \sum_{j = 1}^{c} λ (α_{i} | ω_{j}) Ρ (ω_{j} | x) (2)$

根据Bayes决策规则,异常工况状态识别问题就是选取合适的异常状态判定行为αi,使得条件风险最小,即

$α^{*} = \arg \min_{i} R (α_{i} | x) (3)$

设工况状态特征向量x=(x1,x2,…,xd),为简化问题,我们仅考虑工况状态特征相互独立的情形,即针对独立的二值离散特征量进行分类。由于只考虑正常状态ω1和异常状态ω2两类模式,因此可以采用线性二分分类器[12]来判定工况状态,其判别函数为

$g (x) = \ln \frac{Ρ (x | ω_{1})}{Ρ (x | ω_{2})} + \ln \frac{Ρ (ω_{1})}{Ρ (ω_{2})} = \sum_{i = 1}^{d} w_{i} x_{i} + w_{0} (4)$

$w_{i} = \ln \frac{p_{i} (1 - q_{i})}{q_{i} (1 - p_{i})} w_{0} = \sum_{i = 1}^{d} \ln \frac{1 - p_{i}}{1 - q_{i}} + \ln \frac{Ρ (ω_{1})}{Ρ (ω_{2})}$

其中,pi和qi分别是设备处于正常状态ω1与异常状态ω2时(xi=1)的条件概率值。当g(x)>0时,工况状态判为ω1;否则判为ω2。

3.2 故障诊断概率推理算法

判定目标设备的正常与异常状态之后,就可以采用MPE推理方式进行故障概率分析,即根据已有证据找出所有可能的假设中后验概率最大的假设,即

$\underset{Η \subseteq F}{\arg \max} Ρ (Η | C, S) (5)$

其中,P(H|C,S)表示在给定设备运行状态C和故障征兆S的条件下,故障假设子集H中故障发生的概率。3.1节给出了故障征兆的判定方法(即工况异常状态识别),根据贝叶斯定理可知:

P(H|C,S)∝P(C,S|H)P(H) (6)

则式(5)可简化为

$\begin{array}{l} \underset{Η \subseteq F}{\arg \max} Ρ (C, S | Η) Ρ (Η) = \\ \underset{Η \subseteq F}{\arg \max} Ρ (C | Η) Ρ (S | Η) Ρ (Η) (7) \end{array}$

式(6)中P(H)为H中故障发生的概率,P(C|H)和P(S|H)为H中故障出现时的工况状态和故障征兆的条件概率。设某种故障f的先验故障概率为P(f),且f∈{0,1},那么:

$Ρ (Η) = \prod_{f \in Η} Ρ (f)^{f} (1 - Ρ (f)) (1 - f) (8)$

$\begin{array}{l} Ρ (C | Η) = \prod_{c \in C} Ρ (c | Η) = \\ x \prod_{c \in C} (1 - Ρ (c)) + (1 - x) Ρ (c) (9) \end{array}$

$\begin{array}{l} Ρ (S | Η) = \prod_{c \in S} Ρ (c | Η) = \\ x \prod_{c \in S} Ρ (c) + (1 - x) (1 - Ρ (c)) (10) \end{array}$

其中, $x = \prod_{f \in Η} (1 - Ρ (c | f))$ ,表示故障假设H成立时,状态c与H中故障f无关的概率。

尽管OntoDBN对贝叶斯网络结构进行了简化,但上述精确推理过程依然是NP-hard问题[13]。为了降低推理的复杂度,可以在每次推理循环中选择最有可能发生的故障(即故障信度值最大)加入故障假设子集,并删除该故障所对应的征兆。当故障征兆集为空时,就认为所有可能的故障都已加入故障假设子集中,此时退出推理循环并获得最大可能的故障解释。

4 应用实例分析

为了验证本文提出的OntoDBN模型,选取某化工企业凉水塔风机机组为诊断对象(图4),并以减速器振动位移、减速器润滑油温度和电机电流作为状态监测特征量。为了简化研究过程,不考虑风机的启停升降速状态,仅研究设备稳定运行过程中的故障诊断分析。

首先,借助Protégé本体建模工具[14]和本体描述语言OWL(web ontology language)建立OntoDBN诊断本体模型,实现OntoDBN诊断本体的主要类、数据属性、对象属性以及实例成员。本体结构与实例存储于关系数据库中,通过Jena[15]提供的应用编程接口进行访问。最后,采用贝叶斯网络开发环境GeNIe[16]实现故障诊断的概率推理计算。主要的推理过程包括风机故障征兆判定和可能故障的概率计算,分析结果用来指导后续的设备维护决策与实施。

4.1 风机故障征兆的判定

风机的主要部件包括叶片、转轴、减速器和电机,其中转轴故障是风机的多发故障。故障征兆的判定过程是在设备工况状态监测的基础上,根据专家及现场操作人员经验给出各类故障发生的主观信度。我们利用实时监测数据和式(4)所给出的征兆特征判决函数,可以区分出风机运行过程中出现的故障征兆,即某种工况状态属于故障征兆的主观判定。

以风机转轴工频振动为例,基频幅值增速过快一般视为转轴不平衡或热弯曲故障的征兆,那么可将实时监测到的转轴基频振动幅值作为工况特征量,根据预先设定阈值和二值特征线性分类器来判断该工况特征量是否属于故障征兆。例如,某化工企业4号凉水塔风机转轴的径向振动出现不断增长趋势,需要对设备状态进行诊断与评估。图5所示为4号风机基频幅值增速异常征兆的判定结果。根据最近15次监测到的转轴基频幅值变化,计算出工况状态ωi下幅值x的概率分布函数P(x|ωi),再由式(1)得出条件概率P(ωi|x),最后结合设备状况和专家经验划分出风机正常状态ω1和异常状态ω2。由图5可以看出,新观测到的证据A应视为基频幅值增速异常征兆。

4.2 风机故障概率的计算

诊断对象的异常征兆判定之后,正常工况状态和故障征兆以先验概率值的形式与设备故障联系起来,结合诊断对象常见故障的先验概率就可以进行故障概率推理计算。表1给出了风机常见故障与工况状态或征兆之间的部分概率关系。在OntoDBN故障推理过程中,先利用GeNIe建立诊断贝叶斯网络结构并导入表1中的概率值,然后输入实时状态监测数据作为推理证据,根据式(8)～式(10)计算出概率推理结果。除了判断最大可能发生的故障之外,还可以利用OntoDBN模型进行其他诊断或预测推理。例如某故障发生时,会出现哪些故障征兆以及这些征兆出现的可能性定量分析等。

图6给出了4号风机故障概率推理实例,由于篇幅原因,这里只列出了在设定证据前后“转子不平衡”与“转子弯曲”两种故障的推理结果。图6a表示在输入推理证据前各节点的先验概率和条件概率值,图6b则表示某次推理过程中输入证据之后目标节点的概率变化。由图6b可以看出,在诊断BNs中输入状态数据后,“转子不平衡”故障发生的概率较大(99%)。设备停机大修结果证明,设备状况与前述诊断分析结论一致,4号风机转轴由于设备老化及叶片结垢等原因而出现了不平衡量的增大,经过现场动平衡校验后,设备运转恢复正常。

5 结束语

为了减小设备维护与故障诊断过程中不确定性因素的影响,本文设计了一种本体驱动的诊断贝叶斯网络(OntoDBN),用于智能故障诊断应用中的知识表示与故障推理。OntoDBN包括诊断语义知识表示模型和故障诊断概率推理算法,用贝叶斯决策理论和概率精确推理方法对设备工况状态、故障征兆以及故障成因进行了定量分析。OntoDBN中的知识表示模型与概率推理算法相互关联且相对独立,在促进知识共享的同时提高了故障诊断推理效率。故障诊断概率推理过程还集成了专家的主观诊断经验,与设备运行状态证据相结合,共同完成基于概率的严格推理过程。某凉水塔风机的故障诊断实例分析表明,基于本体的故障诊断贝叶斯网络适用性较强,在一定程度上消解了故障诊断过程各种不确定性因素的影响。本文所采用的精确推理算法计算复杂度高,当诊断网络结构复杂且连接稠密时难以满足工程应用要求,因此,采用近似推理算法与本体模型结合的方式展开诊断贝叶斯网络研究是今后需进一步研究的重要问题。

贝叶斯网络在火灾调查中的应用篇9

贝叶斯网络能够通过数学概率算法从不确定因素以及信息不完全的因素中提取确定因素和信息, 将贝叶斯网络应用于火灾调查过程, 可为火灾调查提供科学依据。目前, 贝叶斯网络被广泛应用于生物、电子、计算机、化学等各个领域, 取得了较好的实用效果。如曹凯峰等在传统的数据挖掘和决策分析基础上利用贝叶斯网络的方法对客户数据进行分析研究, 确定影响客户忠实度的各个因素之间的贝叶斯网络结构, 并得出了这些因素之间的相互决定关系, 为提高客户忠实度提供了理论参考依据;许丽佳等针对电子系统中各个组成模块错综复杂、相互影响的关系, 以某电源为研究对象, 提出了系统中基于贝叶斯网络的故障诊断方法, 并根据历史数据完成了贝叶斯网络的学习, 最后得到了事故的诊断结果, 为电子系统的故障诊断提出了一种新思路;李翔等在贝叶斯网络的学习算法基础上, 选取样本的属性变量, 通过K2算法的贝叶斯网络学习以及极大似然的参数学习, 建立了银行信用卡客户的价值预测模型, 预测准确, 说明贝叶斯网络在评价信用卡客户价值上是有效的。

目前, 在国内将贝叶斯网络应用于火灾调查方面的案例还未见文献报道。由于在火灾调查中同样具有涉及到众多的不确定因素的问题, 所以, 可通过贝叶斯网络研究如何协助火灾调查人员在众多不确定的火灾因素中确定关键影响因素。由于火灾调查涉及的领域较多, 笔者将选取火灾调查中的一个领域, 即助燃剂纵火案件研究领域进行研究。

1 网络介绍

贝叶斯网络是一种能够帮助人们将概率统计应用于复杂领域, 进行不确定性推理和数据分析的方法。它能够系统地描述某一事件中各随机变量之间的关系, 进而计算某些事件发生的概率。

Pearl (1986) 提出用下面的方法构造一个有向图来表示事故中各相关变量的相互关系和依赖程度: (1) 将事故中的每一个变量在图中都表示成为一个节点; (2) 对于事故每一个变量对应的节点Xi, 都能够找到一个相关节点集π (Xi) , 从π (Xi) 中的每个节点向Xi画一条有向边, 就得到一个各变量之间的有向图, 即贝叶斯网。其中, 图中的每一个节点即为事故中的各变量, 而有向边则为各变量之间的相互关系。如果再在各变量的周围写上其与其他变量相关的变化值, 就能更直观的显示出事故变量之间的联合分布关系。

假设有n个变量, 记为X1, X2, …, Xn, 包含有n个变量的联合分布为P (X1, X2, …, Xn) , 对此联合分布用链规则进行分解, 见式 (1) :

undefined (1)

假设对任意Xi存在π (Xi) ∈{X1, X2, …, Xi-1}, 且给定π (Xi) 的条件下, Xi与{X1, X2, …, Xi-1}中的其他变量均相互独立, 则式 (1) 可改写为式 (2) :

undefined (2)

设A、B为两个随机变量, A发生的概率为P (A) , (P (A) >0) , B发生的概率为P (B) , (P (B) >0) , 在A发生的条件下B发生的概率为P (B|A) , 则有乘法公式, 见式 (3) :

P (AB) =P (B|A) P (A) (3)

设A1, A2, …, An构成一个整体事件, 且有P (Ai) >0, 则对事件B有全概率公式, 见式 (4) :

undefined (4)

用式 (2) ～ (4) 便可以计算出各事故因素变量间的联合分布概率。

2 火灾发生因素的贝叶斯网络

2.1 贝叶斯网络的建立

火灾发生后, 火灾调查人员要对火灾现场进行完全的重构, 得到火灾发生的全部信息几乎是不可能的。因为火灾的发生过程中涉及到太多的偶然和破坏因素, 很多火灾信息都会被破坏。但即使在破坏很严重的现场, 火灾调查人员还是可以获取一些不确定的信息和火灾发生因素, 就可以根据贝叶斯网络结构图来构造火灾发生过程, 利用数学概率的手段获取有用的信息。由于火灾调查涉及到很多方面, 如电器火灾、助燃剂引燃火灾、纵火等, 笔者将选取助燃剂纵火案件的共性进行贝叶斯网络分析与研究, 阐述如何将贝叶斯网络的结构图应用于实际火灾调查过程中。

在纵火案件中, 犯罪嫌疑人往往会利用助燃剂来纵火。在纵火现场, 火灾调查人员通过火灾现场的物质提取检测是否有助燃剂成分, 即使检测到有助燃剂, 往往仍不能马上下结论断定有嫌疑人纵火, 还需要充分挖掘其中的信息, 完善考虑各个方面。一般的纵火案件中, 往往涉及到共性的火灾发生致使因素。纵火案件中涉及到的原因和结果事件以及对应的发生概率见表1。

在火灾发生案件过程中, 有众多因素环环相扣, 而且也存在较多的干扰因素, 致使火灾调查中会遇到很多的不确定因素。抽取共性的火灾调查因素进行分析如下:嫌疑人是否有纵火意图将会影响嫌疑人是否会使用助燃剂纵火, 即事件A到事件C的发生过程;火灾发生前现场是否有助燃剂的成分存在 (事件F) 可能由三个因素证明或导致, 即目击者证词可信度B, 嫌疑人泼洒助燃剂C以及机动设备的助燃剂成分D。最后, 通过在火灾发生后的现场中是否检测到助燃剂成分的存在H将可反推出点火源种类E, 火灾发生前现场是否有助燃剂成分的存在F以及火灾现场是否有干扰物G。火灾调查助燃剂火灾案例发生的贝叶斯图见图1所示。

2.2 贝叶斯网络的计算

为了更清晰地说明将贝叶斯网络应用于火灾调查中的算法, 笔者选取了由两个互为原因结果的事件形成的简化贝叶斯网络来做分析, 见图2所示。

表2中给出了已知事件A时, 事件C的条件概率。

当已知事件A两种可能性发生的概率, 可由全概率公式得出结果事件C两种可能性发生的概率, 见式 (5) 。

通过以上分析可知, 在得知前一个事件的概率后, 按照全概率公式可以得出结果事件的概率。在火灾现场中, 我们往往通过现场勘探以及搜集得出一些确定的因素, 比如有目击证人证明有人纵火、燃烧残留物中提取出了助燃剂的成分以及经过火灾现场调查确定了火灾点火源等情况, 在贝叶斯网络中就表现为某一火灾因素发生的概率为100%, 即在已知结果事件的情况下推测原因事件, 在这种情况下, 整个贝叶斯网络中的原因结果事件的概率比率值将发生不同的变化, 这就会涉及到使用贝叶斯公式推算原因事件的发生概率。下面就抽取该火灾调查案例中的一组原因结果事件进行分析, 见图3所示。

确定C事件嫌疑人泼洒助燃剂因素, 即P (C1) =1时, 在C条件下原因事件A的发生概率将会发生变化, 可使用贝叶斯公式来计算, 见式 (6) :

在该简化模型的贝叶斯网络计算中, 提取了助燃剂火灾发生的共性因素。在实际案例中, 可以针对具体的对象构建出有针对性的贝叶斯网络结构图。同时, 贝叶斯结构图中涉及到的火灾发生因素的概率值往往有几个来源可以作为依据。一是通过往年对火灾事故案例的统计分析, 得出火灾事故中具体的火灾致因的比率值作为判断依据;二是通过专家评分的方法确定, 特别是针对特殊的火灾调查案例, 综合考虑不同的地点、季节、时间以及火灾发生的背景等各个因素, 再通过主成分分析法等方法进行数据处理以使专家评分的结果更加客观化。

3 结论

选取火灾调查分支中的助燃剂纵火案分析, 利用贝叶斯网络的逻辑, 抽取了助燃剂纵火案件中的原因事件和结果事件, 根据火灾发生过程建立了共性的火灾调查贝叶斯网络模型。分析了各个因素之间的相互影响关系以及各个事件发生的可能性。并通过贝叶斯算法对火灾调查的贝叶斯网络进行了具体案例分析。

介绍了在条件概率确定的情况下, 确定事件各因素的概率的方法。分析了两种数据来源, 一是根据历年来数据的统计分析而确定的统计数据;二是专家打分的方式。并对专家打分的方式提出了优化方法。笔者将贝叶斯网络成功的应用在火灾调查领域中, 在国内比较少见, 但是可以证明其可靠性和有效性, 为火灾调查深度挖掘数据信息以及逻辑严密度化发展奠定基础。

摘要：介绍了贝叶斯网络的基础理论。将贝叶斯网络引用到火灾调查领域, 以助燃剂纵火案的火灾调查分析案例为例, 分析了纵火案件中的原因事件和结果事件以及各个因素之间的相互影响关系, 根据火灾发生过程建立了贝叶斯网络模型。同时通过贝叶斯算法对火灾调查贝叶斯网络的计算方法进行了研究分析。分析了贝叶斯结构图中涉及到的火灾发生因素概率值的数据来源。

关键词：火灾调查,助燃剂,贝叶斯网络

参考文献

[1]范维澄, 王清安, 姜冯辉, 等.火灾学简明教程[M].合肥:中国科学技术大学出版社, 1995.

[2]曹凯峰, 丁洪涛.基于贝叶斯网络方法的客户忠诚研究[J].价值工程, 2009, (3) :105-107.

[3]徐丽佳, 王厚军, 龙兵.贝叶斯网络在电子系统故障诊断中的应用研究[J].计算机工程与应用, 2009, 45 (8) :194-207.

[4]李翔, 朱莉.基于贝叶斯网络的信用卡客户价值预测[J].计算机与数字工程, 2009, 37 (3) :91-93.

【定性贝叶斯网络】推荐阅读：

网络稳定性09-15

确定性网络11-09

定性设计01-15

案件定性05-17

定性信息05-20