贝叶斯技术

2024-09-06

贝叶斯技术（共10篇）

贝叶斯技术篇1

0 引言

图像分割是图像处理的最基本手段,它往住是各种图像分析与处理时的预处理过程。图像预处理其主要目的有两个:一是改善图像的视觉效果,提高图像成分的清晰度;二是使图像变得更有利于计算机处理。目前的分割方法以概率理论作基础,运用灰度点运算来实现图像的变换,从而达到图像增强的目的。这些方法是不以图像保真为原则的,它们是通过增强处理设法有选择地突出某些对人或机器分析感兴趣地信息,抑制一些无用信息,以提高图像地使有价值。在实际应用中,应针对不同的图像应采用不同的处理方法,或同时采用几种适当的算法进行实验,从中选出视觉效果较好的、计算不复杂的、又合乎应用要求的一种算法。因此图像分割技术大多属于试探式和面向问题的[1,2]。因为图像分割的理论来自连续函数,而数字图像的灰度是离散值,所以在图像分割中存在以下问题:(1)量化误差,造成原图某些灰度信息的丢失:这个就是因为分割以连续函数为参考的,但是数字图像的灰度信息是离散的,这就必然会存在一个近似值,也就必然会产生误差,这里丢失的信息一定是数量很少的像素,使用加权直方图均衡算法可以从根本上减小这种现象[3,4]。(2)结果图像中概率密度的不均匀性:直方图均衡化只是改变图像中同意灰度层上的分布,所以,从信息的角度看,原图中的同一灰度层上的像素点代表了相同的信息,不能通过变换使原本带有相同信息的像素点变成带有不同信息的像素点[3,4]。所以,造成直方图均衡在对灰度呈现两端分布,达不到满意的效果。因此针对以上分析,为提高图像分割的精确度,本文首先采用自适应直方图增强的方法对图像的目标信息进行增强。其次具体研究了贝叶斯最小风险模型和阈值分割的关系,该研究对图像分割中阈值的选取提供了重要的参考[5]。

1 基于贝叶斯公式的全局和局部法相结合的二值化算法

图像分割阈值选取算法是根据图像直方图的全局和局部特征自适应选取灰度级作为灰度直方图分割阈值来进行图像灰度直方图分割的[6,7]。根据对直方图观察,直方图具有双峰特征,可以根据图像的双峰特征求得的灰度直方图分割阈值nth,然后将图像直方图分割成为目标和背景两部分。首先进行图像直方图增强,其具体算法如下:首先对图像进行中值滤波,在其灰度直方图上寻找目标与背景的峰值,计算出主峰峰值h(n1)。其次,利用灰度变换分别将背景灰度级[0,nth]和目标灰度级Nf映射到整个灰度域[0,Nf]中,其中:Nf是图像的灰度的峰值,即:

其中:Nf是图像的灰度的峰值,得到背景图像g1和目标图像g2,将两幅图像进行如图1的加权叠加得到增强图像g。

算法增强后的图像,目标信息较灰度变换增强后的目标信息更为明显,而背景信息得到了更好的抑制,为后续图像分割阈值T的选取提供了良好的条件。

2 贝叶斯分类

对于通常的二值假设检验问题,如果P(H0/z)>P(H1/z),则决策规则选择H0;如果P(H0/z)<P(H1/z),则决策规则选择Hl,这个决策规则就是最大后验概率准则,其中,P表示概率,H0和H1表示决策结果,z表示独立同分布的高斯变量。

图像I(m,n)的分割属于假设检验的贝叶斯分类问题,有:

式中:λ是图像的贝叶斯阈值,满足:

假定P(z)是图像I(m,n)的概率密度函数,那么

设G为输入图像的灰度图,则其有L层灰度的直方图H={h0,h1,……,h L-1},灰度概率密度为P(i)=h(i)/N,i=0,1…,L-1,N为G像素总数。G被最优阈值T分为Gb(背景)和Gf。所以有权概率公式得:

式中:Pbi=1-pfi则P(Gb)=1-P(Gf)(7)

采用香农最大熵原理作为判别准则,则熵函数E为

把式(6)代入,则式(7)可改写为

当P(Gf)=0.15时熵函数E取最大。然而在实际应用中,由于直方图离散,P(Gf)很少能完全等于0.5,可以转而求最小误差:

阈值T的选取方法:

选取阈值T将图像分为背景信息和目标信息两类,两分类(设类分别为ω1,ω2)问题中,设先验概率为P(ω1),P(ω2),表征类特征的参数为x,由贝叶斯公式:

得到的条件概率称为后验概率,表示当观测特征值为x时它属于类ωi的概率。最小错误率贝叶斯决策规则分割阈值即可表述为:

即依据阈值T进行图像分割,能够在单一概率分布下取得相对最小的分割错误率[8]。

贝叶斯线性回归检测模型:设P(θ,Z)表示参数向量θ和观测向量Z的联合概率密度函数,则Bayeas准则可以表示为:

这里P(θ)表示参数向量θ的先验概率密度函数,而P(Z/θ)表示观测向量Z基于θ的条件概率密度函数,通常称之为θ的似然函数。在参数突变的线性回归模型中观测集合为y=(y1,y2…yn)、Tx1γ=x11,x12,…x1γ、z=(z1,z2,…zk)。对观测数据按下面方法重新排序:对给定一组(π1,π2,…πk-1)首先对由状态y1产生的观测数据,按出现的时间顺序排列为y1*,y2*,…y*t1同时将x1γ中相对应的值排列为x*11,x*12,…x*1t1对状态2进行相应处理,依次进行下去,直至状态k。我们可以得到:

εkT=(ε*k,ti-1+1,ε*k,ti-2+2…)其中(i=1,2,…,k),εi中元素排序与xk中元素排序相对应。

令π=(π1,π2,…πk-1)是k-1维的变化阈值向量。由于各个时刻观测是相互独立的,因而似然函数:

假设先验概率密度为:P=(0,σ2,π)=P=(0,σ2)·P(π)(14)

再令D=(Y,X,Z)

则后验概率密度:

两边同时对θ,σ2积分,其中θ的最小二乘估计:

其中就是(2)式中第i个状态的模型Yi=Xiθ+εi中参数θi的最小二乘估计。在实际计算中,变化阈值向量π=(π1,π2,…πk)的先验概率密度一般都取作下面形式的含糊先验概率密度:P(π)∝1。

实验结果可以看出,读入的原始灰度级图像,设定目标图像(即非边缘轮廓)为类别ω1,非目标图像(即边缘轮廓)为类别ω2,从直方图中发现它们的灰度级类条件概率密度分布基本满足正态分布并从直方图中估计出目标图像和非目标图像的数学期望,μ1,μ2,方差σ12,σ22同时计算出目标图像和非目标图像在整幅图像中所占比例,即目标图像和非目标图像的先验概率P(ω1)和P(ω2),图2是贝叶斯估计模型对阈值T判断的结果,红圈代表异常阈值,绿色‘+’代表正常阈值,从直方图中估计出,μ1=50,σ1=2.6,μ2=180,σ2=0.22,计算得P(ω1)为0.3669,P(ω2)为0.6331,依据最小风险贝叶斯决策理论进行图像分割。

由于选用不同的初值可能带来最后结果的差异,实验选取了8个不同的初值,将所得结果列表比较表1。

在提取的125组数据中,平均峰值分别是174.9960和67.2340,协方差矩阵为运用最小错误率贝叶斯分类器,有18组像素值被错误判断,总的错误率为14.4%,最小风险贝叶斯决策理论分割图像如图3所示经过最优选取的阈值是T=172.2440,经过对异常阈值的排除,图3是本文提出的算法结果,通过图3与图4的比较,可以看出很好的去除的背景信息,同时目标图像的边缘也保持的较好。

3 结论

3.1 在分析了各种全局阈值法和局部阈值法各自优缺点的基础上,根据直方图的双峰特征提出了一种自适应直方图增强的算法算法增强后的图像,使[100-255]的灰度域显示的更为清晰,目标信息较灰度变换增强后的目标信息更为明显。

3.2 一般的非聚类分割,需要预先的指定分割的区域,对各个区域进行样本统计,本文从数字图像信息入手,利用信息论的方法,建立贝叶斯线性回归模型判断检测的正确性。并对计算的阈值样本进行模拟,结果显示提出的方法利用了所有可能获得样本信息,对提取的125组样本采用本文建立的判断模型,将14.4%的阈值分割点剔除。

摘要：针对图像在动态阈值选取难的问题,通过比较全局阈值和局部阈值优缺点,选用贝叶斯阈值估计和迭代加权的方法对图像进行二值化分割,建立基于贝叶斯线性回归模型对检测到的阈值进行分析,通过图像增强,建立目标与非目标区域,分别计算各个区域的先验概率,使用贝叶斯估计模型求得似然函数的极小值即为后验概率,通过此模型对125组阈值样本进行分类,对异常阈值的判断率为14.4%,选取后的阈值更为精确。本文方法,既能有效的提取目标特征,较好的去除背景,又能够保留目标图像的细节。

关键词：图像分割,贝叶斯模型,全局法,局部法

参考文献

[1]王洪刚.贝叶斯理论在医学图像处理中的研究与应用[D].吉林:吉林大学,2006.

[2]范九伦,雷博.灰度图像最小误差阈值分割法的二维推广[J].自动化学报,2009,35(4):386-393.

[3]张新峰,沈兰荪.图像分割技术研究[J].电路与系统学报,2004,(2):92-99.

[4]杨昕梅,周进,吴钦章.基于灰度分布的概率密度实现实时图像分割[J].辽宁工程技术大学学报,2007,25(2):264-266.

[5]郭平,卢汉清.贝叶斯概率图像自动分割研究[J].光学学报,2002,22,(12):1479-1483.

[6]李小斌,田铮,刘密歌,徐海霞.基于加权割的图像分割[J].电子学报2008,36(1):76-80.

[7]范九伦,赵凤.灰度图像的二维Otsu曲线阈值分割法[J].电子学报,2007,(04):751-755.

[8]高妍方.判别贝叶斯网络的学习算法及其应用研究[D].国防科学技术大学,2008.

贝叶斯网络推理的研究与分析篇2

关键词：贝叶斯网络；贝叶斯网络推理；概率推理

中图分类号：TP18 文献标识码：A文章编号：1009-3044(2007)15-30834-02

Research and Analysis of Bayesian Networks Inference

HUANG Jian-ming1，FANG Jiao-li1，ZHAO Bo2

(1.Computer Center,Kunming University of Science and Technology，Kunming 650093,China；2.Yunnan Nationalities University，Kunming 650031,China)

Abstract：Bayesian networks is a powerful tool to uncertain knowledge representation and reasoning in Artificial Intelligence。This thesis gives a introduction to the concept of Bayesian networks，and gives one example，the method and process is presented to Bayesian networks inference。

Key words：Bayesian ntworks；Bayesian networks inference；Probability inference

1 引言

贝叶斯网络是一种有向无环图（DAG），由Pearl于1988年提出的一种基于概率论和图论的不确定知识表示和推理模型。它具有坚实的理论基础，知识结构的自然表达方式，灵活的推理能力，方便的决策机制。随着研究的逐渐成熟，贝叶斯网络已被广泛应用在医疗诊断、数据挖掘、模式识别、决策支持等领域。目前贝叶斯网络的研究热点主要集中在结构学习、推理和应用三个方面。

2 贝叶斯网络

贝叶斯网是每个结点都带有一张概率表的有向无环图（DAG），在贝叶斯网中，结点表示问题域中的随机变量，弧表示这些变量之间的条件依赖关系。每一个结点都包含一张概率表，把各结点和它的直接父结点关联起来。

定义：贝叶斯网络是一个有向无环图，它可以表示为一个三元组（N,E,P）。N是一组结点的集合，N={x1,x2,…,xn}，每一个结点代表一个变量(属性)。Ｅ是一组有向边的集合，E={|xi≠xj并且xi,xj∈N}。每一条边表示变量xi,xj具有因果关系(xi是xj的因，xj是xi的果)。P是一组条件概率的集合，P={p(xi|πi)|p(xi|πi)}表示xi的父亲们πi对xi的影响，p(xi|πi)表示给定条件πi，xi发生概率}。

定理：一个贝叶斯网络表示的联合概率函数p=(x1,x2,…,xn)定义为：（假设贝叶斯网有n个结点）p=(x1,x2,…,xn)=■p(xi|πi)，其中πi为xi的父亲结点的集合。P=(x1,x2,…,xn)表示事件x1,x2,…,xn同时发生的概率。

图1是一个简单的贝叶斯网，表示下雪、堵车、摔交、迟到、骨折之间的关系。它表示的联合概率函数为：

p(a,b,c,d,e)=p(a)p(b|a)p(c|a)p(d|b,c)p(e|c)

贝叶斯网络中的一个结点，如果它的父结点已知，则它条件独立于它的所有非后代结点。图1中，给定C，则E条件独立于A，B，D。

除了条件独立性外，每个结点还关联一个概率表。

（1）如果结点X没有父结点，则表中只包含先验概率P（X）。

（2）如果结点X只有一个父结点Y，则表中包含条件概率P（X｜Y）。

（3）如果结点X有多个父结点{Y1，Y2，．．．，Yk}，则表中包含条件概率P（X｜Y1，Y2，．．．，Yk）。

图1 一个简单的贝叶斯网络

3 贝叶斯网络的推理

贝叶斯网的推理是在给定的网络结构和已知证据下，计算某一事件发生的概率。贝叶斯网络推理有两种推理模式，即因果推理（由上向下）和诊断推理（自底向上）。因果是给出一些特征，来预测可能发生的情况；而诊断是指己知发生的事件，去探索发生该事件的可能原因。根据不同的推理目标，贝叶斯网推理有四种推理任务: 信度计算与更新(Belief Updating)，最大后验假设(Most Aposterior Hypothesis)，最可能解释(Most Probable Explanation)，期望有利度最大(Maximize the Expected Utility of Problem)。

贝叶斯网的推理方法可分为两类：一类称为精确推理，即精确地计算假设变量的后验概率。另一类称为近似推理，即在不影响推理正确性的前提下，通过适当降低推理精度来达到提高计算效率的目的。精确推理一般用于结构简单的贝叶斯网推理。对于结点数量大、结构复杂的贝叶斯网，精确推理的复杂性会很高，因此常采用近似推理。

精确推理完全按着概率基本公式对查询给以回答，当前的一些精确算法是有效的，能够解决现实中的大部分问题，然而受知识的认知程度所限，精确推理算法中还面临着很多问题需要解决，其中网络的拓扑结构是影响推理复杂性的主要原因。比较典型的精确推理算法有：基于Poly Tree Propagation的算法，基于Clique Tree Propagation的算法，Graph Reduction方法，基于组合优化问题的求解方法（SPI）。

理论上，精确推理能够满足任何推理任务，然而随着网络规模的扩张，精确推理的时间是难以预测的。同时，网络拓扑结构的一个微小变动可能使相对简单的问题变得相当复杂，所以研究近似的推理算法成为一个相当活跃的领域，然而就算法复杂性而言，精确推理和近似推理都是NP问题，但近似推理算法确实可以解决一些精确推理无法解决的问题。近似推理方法在运行时间和推理精度之间采取了一些折中，力求在较短的时间内给出一个满足精度的解。近似推理算法主要有：随机仿真法（Stochastic Sampling），基于搜索的近似算法（Search-based），模型简化方法（Model Simplification）和循环信度传递方法（Loopy Propagation）。

3 一个贝叶斯网络推理的实例

图2是对心脏病或心口痛患者建模的贝叶斯网络。假设图中每个变量都是两个值。心脏病结点（HD）的父结点为影响该疾病的危险因素，有锻炼（E）和饮食（D）等。心脏病结点（HD）的子结点对应该疾病的症状，如胸痛（CP）和高血压（BP）等。而心口痛（h）可能源于不健康的饮食，同时又可能导致胸痛。

图2 发现心脏病和心口痛病人的贝叶斯网络

根据图2，讨论不同情况下，如何诊断一个人是否患有心脏病。

（1）没有先验信息

可通过计算P(HD=Yes)来判断一个人是否患心脏病。设α∈{Yes，No}表示锻炼情况的两个值，β∈{健康，不健康}表示饮食的两个值。

即此人得心脏病的可能性为49%。而P(HD=No)=1-P(HD=Yes)=0.51。

（2）患高血压的情况下

如果一个人有高血压，可计算P(HD=Yes|BP=高)来诊断他是否患心脏病。首先，应先计算P(BP=高)。

P(BP=高)=■P(BP=高|HD=γ)P(HD=γ)=0.85×0.49＋0.2×0.51=0.5185

其中，γ∈{Yes，No}。所以，此人患心脏病的概率为：

因此，当他患有高血压时，患心脏病的概率为80.33%。相应地，P(HD=No|BP=|高) 1－0.8033＝0.1967。

（3）患高血压、饮食健康、经常锻炼身体的情况下

此人患心脏病的概率为：

即在此情况下，他患心脏病的概率为58.62%。

4 结束语

贝叶斯网络是人工智能中不确定知识表示和推理的有力工具，而贝叶斯网络的推理和贝叶斯网络的学习、贝叶斯网络的应用都是贝叶斯网络当前研究的热点。本文给出了贝叶斯网络的定义，并结合实例，介绍了贝叶斯网络推理的方法和过程。

参考文献:

[1]Pear J．Probalilistic reasoning in intelligent systems：Networks of plausible inference．San Mateo：Morgan Kaufmann Publishers，1988．

[2]Nils J.Nilsson(美).人工智能[M].郑扣根,庄越挺,译.北京:机械工业出版社,2005:197-224.

[3]Pang-Ning Tan Michael Steinbach Vipin Kumar(美),范明，范宏建，译.数据挖掘导论[M]．北京：人民邮电出版社，2006:139—150．

[4]刘启元,张聪,沈一栋.信度网推理-方法和问题[J].计算机科学,2001,28(1):74-77.

基于贝叶斯过滤的反垃圾邮件技术篇3

关键词：垃圾邮件,贝叶斯过滤,训练过程,邮件分类

1 垃圾邮件现状

来自Commtouch公司的世界垃圾邮件来源统计如图1.1所示, 美国是全球最大的垃圾邮件发送国, 全球的垃圾邮件约一半来自美国, 而中国已经成为第二大垃圾邮件发送国, 占到全部的12.6%。韩国、德国和法国分别依次排在后面, 各占2-4%左右。

2 垃圾邮件的危害

时至今日, 中国拥有上亿的庞大网络用户, 由于中文用户使用率的增加, 中文的垃圾邮件数量与日俱增, 再加之中国网络用户大都懂中英文两种语言, 中国正成为垃圾邮件的重灾区。最新的反垃圾邮件调查问卷统计显示, 有37%的用户每天都会收到5~20封垃圾邮件, 还有54%的用户每天收到1~5封垃圾邮件。据估计, 全世界的企业每年要花费大约80亿至100亿美元来解决垃圾邮件问题。不仅处理垃圾邮件要花费人们大量时间和金钱, 而且, 这些垃圾邮件往往还是各种网络病毒的载体, 为人们带来的危害更是防不胜防。

垃圾邮件给用户带来了巨大的危害, 主要表现在:降低网络运行效率、占据了太多的邮箱空间、降低生产力、传播病毒、泄漏用户隐私、死循环邮件、占据了太多的网络带宽等方面。

3 反垃圾邮件的常用方法

按照网络层次结构的不同层面, 反垃圾邮件技术可以划分为:基于IP层、基于SMTP协议和基于内容过滤3类方法。

3.1 IP层的反垃圾邮件技术

基于IP层的反垃圾邮件技术中, 常见的技术有:黑名单、白名单、实时黑名单 (RBL) 、实时白名单服务等。

3.2 SMTP层的反垃圾邮件技术

SMTP层的反垃圾邮件技术目前应用得较为广泛, 在RFC2505:《反垃圾邮件建议》中有比较详细的描述。SMTP层的处理集中在对基本的SMTP指令的分析和判断上面, 所以与文本内容分析相比, 计算量很少且处理结果很好。主要的技术有:域名反向解析和SMTP交互行为的检测两大类。

3.3 基于内容过滤技术

基于内容过滤技术是目前反垃圾邮件用到的主要技术。电子邮件通常具有几个重要特征, 标准电子邮件地址 (包括收发件人邮箱名、收发人邮箱服务器IP地址或域名) 、主题、信件内容 (包括正文、关键字、附件) 等相关字段, 这些特征是过滤技术判断、分析、统计和提取的依据。目前的主要过滤技术有邮件来源特征过滤和内容过滤。根据来源特征进行过滤的方式可以在邮件完全提交之前就进行阻断, 通过对信头的分析进行垃圾邮件的判断, 使用这种方法可减少网上传输, 能有效保护网络资源。内容过滤就是对邮件正文进行内容匹配。从原理来看, 提取邮件特征、获得关键词是过滤技术的关键。基于内容的过滤方法主要有基于规则的过滤方法和贝叶斯过滤方法。本文只介绍贝叶斯过滤方法。

4 基于贝叶斯概率模型的过滤

贝叶斯统计源于英国学者贝叶斯 (Bayes) 撰写发表 (1763年) 的一篇具有哲学性的论文:An Essay Towards solving a problem in the doctrine of chances, 后来发展形成了贝叶斯学派。

贝叶斯方法是从传统的概率理论中分离出来, 以概率理论为基础的, 专门用于处理统计学中的不确定性问题的方法。

首先介绍一下全概率公式和贝叶斯定理:

全概率公式:设A1, A2, ..., An是试验E的一个完备事件组, 则对E的任一事件B, 有 (Ai) p (B│Ai) , 其中p (Ai) 是每个Ai事件发生的概率, p (B│Ai) 表示在Ai发生的条件下B发生的概率, 称为条件概率。

贝叶斯公式:设A1, A2, ..., An是试验E的一个完备事件组, B (p (B) >0) 是E的任一事件, 则事件B发生的条件下Ai事件发生的概率为:

i=1, 2, ..., n, 这里, p (Ai) 为先验概率, p (Ai│B) 为后验概率。

先验概率是指根据历史的资料或主观判断所确定的各种事件发生的概率, 该概率没能经过实验证实, 属于检验前的概率, 称之为先验概率。

后验概率一般是指利用贝叶斯公式, 结合调查等方式获取了新的附加信息, 对先验概率进行修正后得到的更符合实际的概率。

贝叶斯决策是指这种由贝叶斯公式计算概率, 再由最大概率做出判断的方法。贝叶斯决策用于文本分类时, 通过计算文本dx属于各个类别cj的概率p (cj│dx) , 将该文本归为概率最大的一类。

代入贝叶斯公式3.1后p (cj│dx) 可以表示为:

其中, p (cj) 是类的先验概率, p (dx│cj) 是类条件概率。对同一篇文本, p (dx) 不变。根据全概率公式,

dx表示为特征集合 (t1, t2, …, tn) , n为特征个数。

所谓Naive Bayes (朴素贝叶斯) 是指假设各特征ti之间相互独立, 则有:

这里的特征一般选取为单词, 而我们中文系统中, 一般选取词语。

将公式 (4) 代入公式 (2) 得到:

其中p (cj) , p (ti│cj) 可以从训练集中估计。

Naive Bayes文本分类存在多种变形模型, 如二元独立模型 (Binary Independence Model) 、多项式模型 (Multinomial Model) 、泊松分布模型 (Poisson Model) 、负二元独立模型 (Negative Binary Model) , 其中多项式模型具有最佳的效果。

在训练集上估计p (ti│cj) 时, 采用词频统计法:

为避免出现0概率, 对其进行简单的平滑处理:

对于垃圾邮件过滤, cj可分为两类:c0表示正常邮件类, ci表示垃圾邮件类。

则计算邮件dx属于正常邮件类c0的概率可表示为:

贝叶斯过滤主要分为两个过程:训练过程和邮件分类过程, 简单流程如图2、图3所示:

5 结束语

贝叶斯过滤器与以前收到的垃圾邮件和合法邮件的中相同词语及短语出现的概率对比来确定垃圾邮件的可能性。贝叶斯过滤法强大, 是阻断垃圾邮件最为精确的技术, 但过滤准确性依赖大量的历史数据。使用贝叶斯过滤法过滤垃圾邮件之前, 需要首先学习垃圾邮件和非垃圾邮件。通过学习垃圾邮件和非垃圾邮件, 收集邮件中的特征词语, 生成垃圾词库和非垃圾词库。判别邮件时, 根据“垃圾词语”和“非垃圾词语”在邮件中出现的频率, 运用一定的算法, 判定邮件是否为垃圾邮件。

参考文献

[1]University of Virginia Grid Computing Group, WSRF.NET Develop-er Tutorial, http://www.cs.virginia.edu/～gsw2c/WSRFdotNet/WS-RF.NET_Developer_Tutorial.pdf.

[2]吴爽, 蒋昌俊.OGSA安全体系及其在GT3中的实现[J].计算机应用研究, 2004 (5) .

[3]王江云, 彭晓源, 王行仁.基于网格技术的先进分布仿真协同环境[J].计算机工程, 2004 (8) .

贝叶斯技术篇4

决策者依据先验概率分布及期望值准则进行最优方案的选择。由于先验概率不能完全反映客观规律，所以就必须要补充新信息，修正先验概率，得到后验概率。后验概率是根据概率论中贝叶斯公式进行计算，这就是我们通常所讲的贝叶斯决策模型。

一、贝叶斯风险决策模型

（一）基本理论

贝叶斯决策模型是决策者在考虑成本或收益等经济指标时经常使用的方法。贝叶斯方法是一种广泛运用于系统工程，金融和保险等各个领域的投资决策方法，是一种现代风险型决策法，是统计决策理论的重要分支，贝叶斯决策的理论基础是贝叶斯概率公式。它被运用在对信息掌握不完备或者存在主观判断下的风险型决策方法，风险型决策方法是根据预测各种事件可能发生的先验概率，通过调查、统计分析等方法获得较为准确的情报信息，以修正先验概率，然后再采用期望值标准或最大可能性标准等来选择最佳决策方案。这样使决策逐渐完善，越来越符合实际情况，可以协助决策者做出正确的决策。由于由贝叶斯定理可以推出通过抽样增加信息量能够使概率更加准确，概率准确则意味着决策风险的降低，所以贝叶斯定理保证了该决策模型的科学性。

（二）决策模型的建立

风险决策贝叶斯模型的建立一般分为三个步骤，具体过程如下：

第一步，风险投资者在进行企业项目决策时，最终的目的都是要获得较高的投资收益，而每一个项目方案的收益都取決于诸多风险变量未来的状态，因而风险资本投资决策是一个风险型多指标决策问题。

第二步，构造判断矩阵。决策者以本层次上的因素为准则，两两比较因素Yi、Yj的相对重要程度，给出标度aij，构造一系列判断矩阵A＝（aij），其中，aij>0，aij＝1/aij，aii＝1。

第三步，建立投资决策模型。

二、风险收益函数的贝叶斯决策

决策者面临着几种可能的状态和相应的后果，依据过去的信息或经验去预测每种状态和后果可能出现的概率，在这种情况下，决策者根据确定的决策函数计算出项目在不同状态下的函数值，然后再结合概率求出相应的期望值，然后依此期望值做出决策行为。贝叶斯决策法是最常见的以期望为标准的分析方法。

贝叶斯决策模型是决策者在考虑收益指标时经常使用的方法，以收益型问题为例，其基本思想是在已知不确定性状态变量的概率密度函数f（）的情况下，按照收益的期望值大小对决策方案排序，则最优方案为使期望收益最大的方案。

接下来看一个具体决策实例。某百货商场过去200天关于商品B的日销售量纪录，商品B的进价为200元/件, 售价为600元/件，如果当天销售不完，余下全部报废，求该商品的最佳日订货量a*，及相应的期望收益金额EMV*和EVPI。该商场商品B的销售状态空间为，这些状态发生的概率也可以推测出来。根据此状态空间，决策者的决策空间为。当商场的销售量为，而进货量为时，商场的条件收益为：而相应的期望收益为。

从经济角度看当日订货量等于日销售量时，商场没有因为多定货或少定货而造成的机会损失，因此获得的收益最大，所以此例理论上的最大利润为EPC=2720元。但在实际工作中这个值很难得到，除非商场能够根据情况随时调整进货量，因此商场的经营者往往追求的是期望收益的最大值，在此例中当订货量为7时期望收益最大，EMV*和EVPI分别为2460元和260元。

EVPI的含义为由于情报不准确而造成的商场的赢利损失。为了追求更多的利润，决策者总是希望获取一些准确信高的信息，只要费用小于预期收入，决策者就可以考虑购买由信息公司提供的情报信息。这些信息主要是通过抽样调查或其他途径得到的概率，与凭借经验预测出来的概率不同它们的可靠性更高，这种概率称为后验概率。一般的用后验概率代替先验概率进行贝叶斯决策, 往往可以得到更准确的方案，这种用后验概率代替先验概率再进行贝叶斯决策，就成为后验分析法。需要指出的是有些情况下并非用后验分析法就一定比先验分析好，如果两者选择的方案相同，则意味着后者在增加成本的情况下收益并没有增加，显然此时先验比后验更加有效率。

三、结论

由于在生活中许多自然现象和生产问题难以完全准确预测，因此决策者在采取相应的决策时总会带一定的风险。贝叶斯决策法是将各因素发生某种变动引起结果变动的概率凭统计资料或凭经验主观地假设，再进一步对期望值进行分析，由于此概率并不能证实其客观性，故往往是主观的和人为的概率，本身带一定的风险性和不肯定性。

风险投资中，各风险因素概率分布的获得往往取决于风险决策者的经验和态度，投资风险的分析需要依据大量的信息，而信息的获取是一个渐进的过程。从决策者的主观概率与调查分析的结果取二者之一都是片面和不准确的。而贝叶斯方法正好能将这二者信息结合起来，在决策者及专家的定性判断基础上，根据新信息，对先验概率进行修正，能得出较为准确的结论。当风险投资决策者对先验阶段的估计把握不大时，决策者就可利用这方法决定是否要再做进一步的调查，并对先验概率进行修正，从而减少决策的风险程度。

参考文献：

[1]朱金玲.贝叶斯决策分析及改进.江苏统计应用研究.2000(6).

[2]肖芸茹.论不确定条件下的风险决策.南开经济研究.2003(1).

贝叶斯技术篇5

关键词：垃圾短信,文本过滤技术,分词,贝叶斯分类

一、目前现状

目前移动电话在我国正以超乎寻常的速度发展着, 根据信息产业部2006年10月24日的统计显示:到2006年9月底, 全国手机用户超过4.43亿户, 平均约每3人拥有l部手机。据统计截止到2006年9月手机短信发送量也达到3104亿条, 同比增长42.1%。手机短信发送量的增长伴随而来的就是日趋泛滥的垃圾短信充斥着我们的眼球。大量广告、诈骗性质的垃圾短信就像“牛皮癣”一样, 到了必须根除的时候了。

近年来, 人们希望通过各种方式杜绝垃圾短信, 垃圾短信过滤研究也就越来越迫切和深入。目前, 垃圾短信过滤主要有以下几种过滤技术:黑名单和白名单技术, 关键词语的匹配法和贝叶斯推理过滤法。

本论文是借鉴了在垃圾邮件过滤技术中经常采用的文本过滤技术, 并结合分词和贝叶斯分类, 实现手机垃圾短信的识别, 进而为垃圾短信的过滤服务。

二、研究内容

1、手机短信中词的匹配

目前的过滤技术大都是用词库对样本中的词进行匹配, 根据匹配程度或进行加权求和, 并利用这个和值进行过滤, 或含有个别敏感词就过滤该短信, 针对不同的反过滤策略, 出现了关键词替换表, 如拼音替换表, 向形字替换表, 同音字替换表, 如果一种匹配策略失效后, 就可以根据这些表进行其它方式的匹配, 可能产生对多个表的扫描, 虽然使词的匹配具有一定的灵活性, 但却是用时间换取了精度, 为了减少匹配时间, 本文提出了基于Hash技术的匹配算法。

2、手机短信词库的智能更新

目前过滤技术大都是以现有的关键词库为依据进行过滤, 关键词库的创建或更新主要是靠人工操作实现的, 手动添加新词或是用新词替换旧词, 所以对不同的反过滤策略的适应能力差, 现在常用的过滤方法是Byase, 它计算速度快、精确性高, 因此可以将单个词本身就看成一个样本, 将Byase的归类思想用于对词库的自动更新, 用分析产生的结果作为词的附加属性, 这个属性一方面用于以后的词库的更新, 一方面用于以后信息样本的分析依据。

3、样本的分析

以往的样本分析都是选择能够提供大量信息利于分类的词作为属性, 这样作可以降低文本向量的维数, 加快分析速度, 但是提供信息少的词可能更具有类区别能力, 因此用信息量大的词进行归类可能产生局部解, 并使分析结果的可信度降低。要提高分析结果的可信度, 可以把降维时产生的中间结果作为词的权值, 将它与词归类的风险值、词本身的匹配程度一起作为词的属性, 这样可以从多角度同时分析样本, 提高分析的可信度。

三、关键问题

1、确定词的风险系数

对词集进行降维, 用提供最多信息的词分析样本的时候, 忽略了提供信息少的词可能更具有类区分能力, 因此在词库的智能更新时, 考虑如何利用Byase过滤思想避免这种风险, 使分析更具全面性。

2、词的匹配

针对不同反过滤策略维护了若干关键词替换表, 处理速度可能因此下降, 因此考虑如何将现有的关键词替换匹配算法与Hash表的查找速度快结合起来, 添加词的匹配信息以减化匹配过程。

四、研究方法

1、用Hash表进行词汇匹配

哈希表是一种高效的数据结构。它的最大优点就是把数据存储和查找所消耗的时间大大降低, 几乎可以看成是常数时间;而代价仅仅是消耗比较多的内存。然而在当前可利用内存越来越多、程序运行时间控制的越来越短的情况下, 用空间换时间的做法还是值得的。另外, 哈希表编码实现起来比较容易也是它的优点之一。用Hash表存储词库, 词的Hash值作为它在表格中的位置信息。词匹配时先计算它的Hash值, 如果不与表中该位置的词完全匹配, 则进行关键词替换后的模糊匹配, 该词用作找到的每个词的模糊匹配信息, 以后通过查看模糊匹配信息来加快匹配速度。

2、用贝叶斯思想更新手机短信词库

贝叶斯分类具有如下特点: (1) 贝叶斯分类并不把一个对象绝对地指派给某一类, 而是通过计算得出属于某一类的概率, 具有最大概率的类便是该对象所属的类。 (2) 一般情况下在贝叶斯分类中所有的属性都潜在的起作用, 即并不是一个或几个属性决定分类, 而是所有的属性都参与分类。 (3) 贝叶斯分类对象的属性可以是离散的, 也可以连续的。

用Byase分类中的概率计算方法, 计算每个词归到不同类的概率, 文献[4]中为解决过滤中误判代价不对等问题提出如下解决方法:只有P (判断为垃圾短信) /P (判断为正常短信) ≥阀值C时, 才判断短信为垃圾短信。样本训练时可以这样理解这个商值, 每个词是等可能地出现在每个类中, 样本中人工分类错误率很小可视为零, 这样可以认为其出现概率即为归类概率, 而将它归属到其它类就会存在一定的风险, 故归属其它类的概率P=样本在该类出现的概率×误判风险, 风险值越小则样本出现在其它类的可能性越小。更新词库时, 可以将词看成上述描述中的样本, 取最小风险值作为词归入到某类的风险, 用它作归类时的权重属性。

五、结论

现在普通使用贝叶斯算法和关键词词库作为过滤依据, 词库的创建与更新主要是手动进行, 不法分子一旦掌握词库便可以采取不同的反过滤手段, 所以过滤系统的适应性差。大多数据过滤系统都用降维方法减少数据量, 选取能够提供最多信息的词作为文本向量的分量, 但是提供信息少的词更具有类区别能力, 为使分析准确率提高, 因此不将词集降维, 而将降维分析的结果用作词的权值。本研究将贝叶斯分类思想与降维方法相合, 提取词的特征属性, 以保证分析结果的可信度。

参考文献

[1]张伟, 王子轩.GSM垃圾短信过滤方案[J].电信快报:网络与通信, 2009 (3) :26-28.

[2]胡日勒, 蔡洁, 钟义信.短信过滤系统设计分析[J].计算机应用研究, 2009, 25 (3) :2557-2560.

贝叶斯技术篇6

关键词：贝叶斯压缩感知(BCS),相关向量机(RVM),粒子群优化,局部最优困境,向量选取方案

0 引言

奈奎斯特采样定律规定了采样频率不得低于被采信号带宽的两倍,否则就会引起信息的丢失。但是,在某些特殊的条件下,采样频率可以远远低于被采信号带宽的两倍,比如当被采信号在某个域上足够稀疏[1,2]。例如,当一个N维的信号x能被表示为x=Bω,其中B是一个N×N的基矩阵,ω为稀疏的N维向量(N维中只有M维为非0值,且M<

传统的压缩感知重构算法运用的是基追踪技术[3,4],重构出的信号误差较大。而BCS使用RVM算法,对所有的基向量进行逐个筛选,误差较小。但是,对于一些信号,传统BCS有可能重构出完全错误的信号,原因是BCS在优化上容易陷入局部最优。文中在BCS的基础上,提出了PSBCS算法。该算法运用粒子群算法,在重构的初始阶段尽量地多选取正确的基向量,从而使得最终的重构结果命中率极大地提高。同时,为了提高计算效率,本文运用了一种改进型的粒子群算法,能在更少的尝试次数内得到合适的结果。

最后,用随机信号和图片二维信号对现阶段的几种主流的压缩感知重构方法做了比较,结果表明本文提出的PSBCS技术性能最好。

1 传统BCS的弱点

在文献[5]中,其提出的传统BCS能成功重构某一个信号(N=512,M=20,K=100,白噪声σm=0.005)。但是,如果而维持其他所有参数不变而仅仅随机地重新放置M个非零信号的位置,传统BCS有可能重构出完全错误的信号。经过大量的实验,对于这一类的随机信号,传统BCS的重构正确率仅为55%。

在跟踪传统BCS的目标函数值的变化后发现,对于那些重构错误的信号,该函数值都陷入了局部最优。而且一旦陷入局部最优,其再无法自动跳出。造成这种错误的原因在于RVM选取基向量的机制:先选取所有基向量中最优的向量,然后更新RVM,再选取剩余基向量中最优的向量,如此往后。但是,这样的选取方法并不能保证所选的所有基向量组成的向量组总体最优。因为某个状态下的最优基向量取决于之前被包含进向量组的向量,所以他们并不相互独立,因此每一步的最优基向量组合起来并不一定最优。为了防止不断地往向量组中加入新的基向量,RVM还包括了另外两种基向量的操作,“删除”和“更新”。以下的3个条件是判断对某个向量执行“加入”、“删除”还是“更新”的依据(具体细节可以参考文献[6]):

(1)如果qundefined-si>0且ai=∞,则加入ϕi并且更新αi。

(2)如果qundefined-si>0且ai<∞,则保持向量组内向量不变并且更新ai。

(3)如果qundefined-si≤0且ai<∞,则向量组内删除ϕi并且令其αi=∞。

不难发现,如果所有在向量组里的基向量都满足qundefined-si>0,而且所有在向量组外的基向量都满足qundefined-si≤0,RVM将找不到任何可“加入”或者可“删除”的基向量。这时,RVM将不断地进行“更新”操作,无法删除向量组内错误的向量。这就是陷入局部最优的原因。

2 提升BCS正确率的方法

最近,许多学者都对如何改进传统BCS从而提高其正确率展开了一系列的研究[7,8,9],这些改进一般都集中于目标函数或者先验概率函数的形式上,缺乏对RVM本身的向量选择机制进行讨论改进。从结果上看,这些改进有一定效果,但仍没有把正确率提高到一个很高的层次。研究发现,提高正确率的关键在于如何尽力避免陷入局部最优。一般来说,有两种方法来避免:(1)当陷入局部最优时,强制算法跳出局部最优;(2)当预测到将会发生局部最优时,抛弃当前的向量选择机制,重新尝试新的选择机制。

为了讨论上述两种方法,需要研究RVM本身的向量选择机制。在RVM中,每一次迭代,只有一个向量被选中操作,选择的标准是该向量能让目标函数值的增量达到最大。当向量组内被加入了过多的错误向量后,RVM无法准确将其剔除,因此会陷入局部最优。换句话而言,当陷入局部最优时,强制算法跳出局部最优的难点在于,无法事先知道向量组内哪些向量是错误的并将其删除,因而方法(1)难以实现。对于方法(2)原理十分简单,但是要获得很高的效率,需要有效的预测手段。首先,如果发现当前的向量选择机制会陷入局部最优,此机制就会被抛弃,所有花在此机制上的计算时间都会被浪费。所以,从这个意义上来说,越早地预测到局部最优,会让浪费的代价越小,称其为预测代价。另一方面,当摒弃了当前选择机制并开始尝试一个新的选择机制时,下一个尝试者也有可能陷入局部最优,这将需要继续尝试再下一个。所以,希望在尝试尽可能少的向量选择机制下找到不会陷入局部最优的机制,称其为搜索代价。要获得较高的效率,就必须设法同时降低这两个代价。

文中的维度为500,稀疏度为1∶25的随机信号来讨论如何降低这两个代价。显然,如果RVM的向量选择机制最终没有陷入局部最优,最终的向量组内,只存在500/25=20个向量。RVM刚开始时,向量组内向量数为0,算法开始执行“加入”操作,每一步向里面加入一个向量。当向量数增加到一定程度时,RVM将执行“更新”操作,保持向量个数不变,更新之间的比重。最后,会执行“删除”操作,删除多余的向量。文中对1000个随机信号做了统计发现,如果从一开始“加入”操作到首次执行的“更新”操作之间,向量组内被加入的向量个数为28或者以下,最后将有很高的概率(98%)避免陷入局部最优。这样的特性为降低预测代价提供了很好的思路:并不需要对其一直操作直到陷入局部最优。相反,只需一直操作到首次“更新”操作执行的那一刻,如果这一刻发生在28步之类,则向量组中的向量个数必然小于28,则该选择机制有很高的概率(98%)避免陷入局部最优,可以被采纳。否则,将其摒弃。

对于减小搜索代价,本文引用一种新型的粒子群算法来帮助完成。对于传统的RVM算法,每一步都选择当前最佳的向量,有时候反而容易陷入局部最优。因此,放宽此限制:对于前10步,每一步不再选取最佳的向量,而是选取最佳的10个向量中的一个。用i=1,…,10表示前10步,用xi=1,…,10表示每一步选取最佳的10个向量中的哪一个(1为最佳,10为最差)。用y=f(x2,…,x10)来表示该种选取机制下,首次“更新”操作发生时向量组中向量的个数。根据之前的分析,希望y小于28,并且越小越好。以上这个优化模型,可以看作是一个多维优化问题,而粒子群算法对于这种多维优化问题显得尤为有效。引入粒子群算法后的改进RVM向量选择机制步骤如下:

(1)随机初始化粒子位置x1,…,x10于1到10之间,其落于整数n的概率为undefined。

(2)根据x1,…,x10,执行对应的向量选择机制直至首次“更新”操作发生,记录此时向量组内向量的个数,以此作为目标函数值y。

(3)如果某个粒子函数值优于自身最优值,更新自身最优值;如果优于全局最优值,更新全局最优值。

(4)粒子之间按照一定的规律相互学习,具体参考文献[10]。

(5)重复以上步骤直至收敛。

3 试验结果

本文先选用一般的随机信号来测试PSBCS的性能。本文设定待重构的信号长度为N=512,当中非零信号点的个数为M=20,且每个非零信号的值为0.5sgn(t)+0.5t。在这类信号上,加以标准差为σm =0.005倍信号最大值的噪声,并且尝试用K=100个观测值来恢复原信号。在PSBCS中的粒子群算法,设定粒子数为10,迭代次数为20。用100个这样的信号来测试一般的BCS算法和本文的PSBCS算法,测试的标准为计算算法重构信号至误差小于0.1所用的时间,平台为Matlab,CPU:i5 2.4G,内存4G。结果如图1所示。

从该试验结果可以发现,传统BCS对于其中的26个信号,完全不能重构至误差小于0.1(图中表示为需要无限的时间);而PSBCS则能重构所有的信号。就成功率而言,PSBCS也以极高地成功率完全超过了其他的一些改进型BCS算法。

文中以实际的图片重构来测试PSBCS与其他几种算法的性能。实验对象是图像处理界有名的两幅图像:“Lenna”和“Camera Man”,本文首先提取他们的1∶20的DCT稀疏矩阵,大小为256×256,将其裁剪成64快,每块为1024个信号值。然后分别用BP,OMP,Lasso,BCS和PSBCS对他们进行重构。观测值的个数K分别由140取到240,不难想象,越小的观测值,将越难恢复原图像。恢复图像的成功率与观测值的曲线如图2所示。

不难看出,如果要求达到95%的成功率,PSBCS只需要约170个观测值。而BCS需要至少210个观测值,其余算法要求更多。

4 结束语

主要讨论了传统BCS的机制,以及如何提高BCS的成功率。研究发现,提高成功率的关键,在于如何有效地避免收敛到局部最优。对此,文中提出了PSBCS算法,在其中运用粒子群算法指导基向量的选择,在成功率上有了很大的提高。同时,在实际运用中,PSBCS能够大大减少观测值的个数,这无疑减少了测量系统所需的观测成本,是很有借鉴意义的。

参考文献

[1] Baraniuk R.Compressive Sensing[J]. Lecture Notes in IEEE Signal Processing Magazine, July 2007,24.

[2] Donoho D L.Compressed Sensing[J] .IEEE Trans. on Information Theory, April 2006,52(4):1289-1306.

[3] Chen S S, Donoho D L, Saunders M A.Atomic Decomposition by Basis Pursuit[J]. SIAM Review.

[4] Huggins P S, Zucker S W. Greedy Basis Pursuit[J]. IEEE Trans. on Signal Processing, July 2007,55(7):3760-3772.

[5] Ji S, Xue Y, Carin L.Bayesian Compressive Sensing[J]. IEEE Trans. on Signal Processing, 2008,56(6):2346-2356.

[6] Tipping M E, Faul A C.Fast Marginal Likelihood Maximisation for Sparse Bayesian Models[C]. Proc. the Ninth Intl. Workshop on Artificial Intelligence and Statistics, Key West, FL, Jan 3-6.

[7]Baron D,Sarvotham S,Baraniuk R G.Bayesian Compressive Sens-ing via Belief Propagation[J].IEEE Trans.on Signal Processing,January 2010,58(1):269-280.

[8]Babacan S D,Molina R,Katsaggelos A K.Bayesian CompressiveSensing Using Laplace Priors[J].IEEE Trans.on Image Process-ing,January 2010,19(1):53-63.

[9]Sainath T N,Carmi A,Kanevsky D.Bayesian Compressive Sensingfor Phonetic Classification[C].Proc.IEEE Intl.Conf.on Acous-tics Speech and Signal Processing,2010.

贝叶斯技术篇7

垃圾邮件目前己经成为世界各国共同面临的棘手问题。安全厂商Sophos发布了一份报告,列出了2006年的12个垃圾邮件大国。美国是垃圾邮件第一大国,是全球22%的垃圾邮件的发源地。中国的垃圾邮件问题同样不容乐观。根据中国互联网协会反垃圾邮件中心2006年第二次反垃圾邮件调查报告的统计,中国互联网用户平均每周收到垃圾邮件数量为17.43封,占了用户接收邮件的61.99%。

1 贝叶斯基本理论

贝叶斯统计源于英国学者贝叶斯撰写发表(1763年)的一篇具有哲学性的论文:An Essay Towards solving a problem in the doctrine of chances,后来发展形成了贝叶斯学派。Stanford大学的Sahami(1998)最早把Bayes方法用于垃圾邮件过滤,取得了较好的效果。

1.1 向量空间模型(Vector Space Model)

邮件是一个无结构的文本,需要把它表示成一个向量才能进行计算。一般采用向量空间模型来实现邮件向量化。

定义长度为l的词汇表V={w1,…,wj,…,wl),对于长度为m,由单词(称为一个Token)ωk顺序组成的邮件d{w1,…,wn)定义一个向量λ(x1,…,xi,…,xj),其中xi∈{0,1},当wi∈d时,xi=1,否则xi=0。即λ中的分量表示词汇表V的对应位置的单词是否在d中出现。

1.2 Naive Bayes公式

Naive Bayes邮件过滤算法是基于内容的垃圾邮件过滤方法中的一种简单有效的方法。它的原理是把一封邮件dx当作一份文本文件,来进行文本分类。

邮件dx属于邮件类别集合cj中的一种,这里C={Cspam,Clegit}

贝叶斯用于垃圾邮件过滤时,通过计算邮件dx属于某个类别cj的概率P(cj│dx),对该邮件进行分类。计算公式如下:

其中,P(cj)是类的先验概率,P(dx│cj)是类条件概率。对同一封邮件,P(dx)不变。根据全概率公式有:

朴素贝叶斯中假设dx表示为特征集合(t1,t2,…,tn),n为特征个数,各特征之间相互独立。则有:

式(1)重新表示为:

Naive Bayes文本分类存在多种变形模型,如二元独立模型(Binary Independence Model)、多项式模型(Multinomial Model)、泊松分布模型(Poisson Model)、负二元独立模型(Negative Binary Model),其中多项式模型具有最佳的效果。

在训练集上估计P(ti│cj)时,取训练样本中特征项ti的最大似然估计作为给定类别下的条件概率P(ti│cj),即:

其中,ncj是类别cj的样本中的特征项总出现次数,ntj_cj是类别cj的样本中特征项ti出现次数。为避免出现0概率,对其进行简单的平滑处理,其中m是训练样本中不重复的特征向量的总数,公式(5)可重新表示为:

贝叶斯分类方法的优势有:在效率上优于其他算法;占用的存储空间少;易于收集最新的垃圾邮件特征;适合于作为个性化的过滤器等。

2 隐马尔可夫模型及其改进

2.1 隐马尔可夫模型

一个隐马尔可夫模型是一组有限的状态,其中的某一个状态可以以一定的概率转移到另外的状态(终止状态除外),而且在转移时产生输出,能产生的输出是有限的,输出也是以一定的概率产生的。它的形式化描述是HMM=。应用在分词问题中的隐马尔可夫模型可以定义为:(1)S表示模型中的状态,N是其中的状态数。在分词中,状态就是统计得到的所有字,N为统计所得的总字数。所有独立的字都属于集合S,S={S1,S2,…,Sn}。(2)对于任何的句子都可以用集合S中的N个状态来表示,并定义qt为一个句子中第t个字,它可能是N个字中的任一个。对于具体的算法来说,要确切计算如下的概率,需要统计(q1=Si1,q2=Si2,…,qt=Sit),t词的最大长度。这在实际的应用中是不可行的,所以对条件概率的计算被缩短为只看当前的状态和其前一个状态(见公式7)。(3)状态转移概率矩阵A={aij}。此矩阵中的各元素在分词中表示为某一字向其它字转移的概率,即当字A出现时,其他的字出现在A之后的概率见公式8。(4)初始状态分布矢量∏={∏i},在分词中表示在t=1时刻字为状态Si的概率,即词的第一个字为Si的概率(见公式9)。(5)在给定的模型下,根据已经确定的需要结合的字来确定后一个相邻的字要不要结合到此新词中(见公式10)。公式如下:

2.2 改进的隐马尔可夫模型

由于在隐马尔可夫模型中,后一个字要不要与前面的字串组合成词,此条件概率最终转化为只与每个字的前一个字相关,在本文中把此链改进为与前两个字相关,这样准确性比HMM要高,但代价是在用n-gram算法的统计过程中,从原来的n=1,2变为n=1,2,3。后面将通过实验来确定用哪种方法更合理。

改进HMM中的公式(7)为:

改进公式(8),(9)为:

改进公式(10)为:

3 结束语

由于贝叶斯技术在英文邮件分类中已经取得了良好的效果,所以本文把研究的重点放在了贝叶斯技术应用研究上,目前还没有公开的、公认的最有效的反垃圾方法,因此在本文中研究比较了基于隐马尔可夫模型并进行了改进。

参考文献

[1]雷杰,王明哲,孙德宝.基于贝叶斯网络的特征分类器[J].情报指挥控制系统与仿真技术,2001,(9).

[2]余东峰,孙兆林.基于贝叶斯网络不确定推理的研究[J].微型电脑应用,2004,(8).

[3]甘宏,潘丹.广域网环境下的空间模式库管理[J].广州大学学报,2008,(5).

[4]潘丹,甘宏.Floyd算法分析与演示系统设计[J].科技广场,2008,(7).

贝叶斯技术篇8

现阶段我国高校图书馆网站信息检索技术一般采用布尔表达式或向量空间模型来反映文档的相似度, 并把查询结果提供给用户, 这一信息检索技术的弊端在于只能反映出所要检索信息的一个方面, 而难以保证语义概念上的匹配。自上世纪50年代贝叶斯学派形成以来, 关于贝叶斯网络模型检索技术的研究也逐步得到众多研究者的热衷, 对于该项技术在高校数字图书馆信息服务中的应用研究依然是很有前景的引人入胜的课题。

一、贝叶斯网络模型检索技术形成的历史背景

现代计算机网络信息技术经过几十年的发展, 在数据处理、互联技术方面取得了巨大进展, 实现了信息在短时间内向世界各地的有效传播, 在这一形势之下, 我们也开始期待一种更加科学有效的信息检索技术来不断满足用户更加方便、快捷地查询所需求的信息内容。但是, 现有的网络信息检索技术只能反映检索内容的一个方面, 因为一词多义造成查询结果与检索者的意图不一致, 检索质量还不够好, 并且有大量的重复信息等等。另外, 如果用户所查询的信息内容与查询结果高度相关, 而缺少查询词, 譬如:该信息使用的是查询词的近义或同义词, 这样传统的信息检索技术就难以把所需要的信息检索出来。因此, 人们开始尝试和探索一种基于概率模型的信息检索技术来解决这一问题, 根据概率公式来预测查询信息与文档间的相似度。贝叶斯网络模型信息检索技术就是概率信息检索模型的扩展, 它能很好地处理信息检索中的不确定性, 为更精确的信息检索提供了保障。近几年来, 人们开始尝试和探索一种新的贝叶斯网络信息技术, 可以直接从数据中学习并生成贝叶斯网络的方法, 从而帮助人们更加有效地对繁杂、无序的信息进行准确的归类、存储、分析和检索, 以帮助电脑建立起分析模型。

二、贝叶斯网络模型检索技术简介

贝叶斯网络又称信度网络, 是在1988年由Pearl提出的, 是Bayes技术方法的扩展, 也是一种基于概率推理的数学模型, 带有概率注释的有形无环图, 由此形成图形化网络, 图中的各点代表着所要解决问题的各个变量, 利用贝叶斯公式、定理来推算变量之间的概率分布和相互关系, 可以对文档间的相似度进行预测, 通过一种强有力的不确定性推理方法, 来实现语义概念查询, 对于有效解决复杂设备不确定性和关联性引起的故障有着一定的优势。

本文所探讨采用的贝叶斯网络模型有两个节点, 分别代表术语和文档, 取值范围为[0, 1], 通过计算各个节点的条件概率来提高检索效率。这种由文档节点组成的文档子集代表术语的权重, 并形成术语子集。由于该模型为有向图, 所以, 它可以建立术语节点到文档节点, 文档节点到术语节点的线性连接。比如:术语A在文档B中的权重大于0, 则就可以建立二者之间的连线, 并作出对不确定信息的推理。

三、贝叶斯网络模型信息检索技术的计算

1. 计算术语间的条件概率。

一个文档中的术语具有某种上下位关系的时候, 我们可以把其称之为相关术语, 标题就是对文档内容的概括。这样, 我们可以利用贝叶斯网络模型技术进行概念语义的查询。我们运用关联方法来挖掘术语之间的概念语义关系, 建立“术语———项目———文档标题”之间的耦合联系, 根据存储的所有频繁项目集及其文件频度来计算连线值和节点权重。在计算的过程中我们可以根据第一层节点的数目, 建立第一层节点与第二层节点之间的联合条件概率, 通常情况下第一层节点数目不会超过6个。但是, 根据多项式的阶数这种方法计算结果, 显然会导致节点数目太大, 这样我们就需要运用另外的方法来计算术语之间的联合条件概率。首先, 通过两个术语之间的关联规则方法来计算联合条件概率, 术语之间的连线值为这个规则的置信度, 取值范围为[0, 1], 根据用户查询项是贝叶斯网络信息检索模型技术的第一层节点、置信度和文件频度, 求出术语权重, 计算公式有三种方法:方法一, 可以通过查询项计算出权重的最大值;方法二, 可以计算出与查询项有关的且大于这些权重中的最大值;方法三, 通过查询项计算出所有权重中的平均值。三种方法的计算结果可以看出, 方法二权重最大, 方法一次之, 方法三最小。其次, 通过所有频繁项目集计算术语间的联合条件概率, 然后, 根据文件频度和查询的术语数, 求出最大项目集, 再计算出条件概率。在具体实施的过程中, 如果存储量过大, 也可以通过约束项目数目的方法来减少存储量。

2. 通过同义词典计算术语的权重。

相近术语既然可以表达用户的查询意图, 那么, 就需要通过同义词典来挖掘术语间的相互关系。另外, 我们还要清楚相同的术语对于用户查询的权重应当一致, 其值为所有同义词语权重的最大值。通过计算术语间的条件概率确认了术语权重以后, 再通过同义词典的方法进行术语权重更新, 通过反复计算, 直至所有权重术语均被标识为已通过同义词典的方法计算其权重为止。

3. 计算用户查询与文档间的相似度。

通过计算术语间的条件概率, 以及同义词典计算术语的权重的方法, 进行了贝叶斯 (Bayes) 网络信息模型扩展, 这样可以求出所有术语权重, 进而把用户查询用扩展后的术语特征向量来加以描述, 如:术语在文档中的重要程度计算出权重Wi, i=1, ……, n, 这样就可以表述出特征向量 (W1, W2, ……, Wn) , 即:特征向量值为术语在文档中的权重, 然后, 就可以利用两个向量的余弦值来表示文档与用户查询之间的相似度。

四、贝叶斯网络模型检索技术在数字图书馆信息服务中的应用

高校数字图书馆作为高校重要的基础信息资源, 其建设的目标在于实现对图书、期刊文献信息资源的最大限度地开发和利用, 为广大师生提供信息资源库的快速查询与检索, 并提供个性化的信息服务。其中用户兴趣联合推送是高校图书馆网站个性化信息服务的一项重要内容。本文所探讨的基于贝叶斯网络模型检索技术在高校数字图书馆信息服务中的应用是通过建立用户联合推送系统来加以实现, 具体的推送方法是采用多个特征向量组成用户兴趣模型, 其中不同的向量代表不同用户的兴趣度, 以智能化地适应不同用户兴趣的变化。基于贝叶斯网络模型的用户兴趣联合推送系统通过采用多个特征向量组成用户兴趣模型, 把不同用户的兴趣进行分类, 根据用户的兴趣模型间的相似度智能化适应用户兴趣变化, 以推送用户感兴趣的高质量信息。这样, 师生就可以更加容易地从数字图书馆中寻找和发现所需的信息内容, 为用户推送感兴趣的文档。贝叶斯网络模型检索技术采用多个特征向量组成用户兴趣模型, 具有基于语义概念的相似度计算功能, 为用户提供了一个直观、快捷、方便的智能化人机交互界面, 为高校师生、高校图书馆管理人员和高校数字图书馆三个层面上提供了交互的机会, 智能化适应用户兴趣的变化, 以满足教师和学生高效地享受信息服务内容, 能够为用户推送感兴趣的高质量信息, 因而, 对于高校数字图书馆的建设具有重要意义。

为了更好地验证贝叶斯网络模型检索技术在高校数字图书馆信息服务中的应用效果, 本文从高校数字图书馆CNKI数据库提取了645篇文章资料信息, 其中文章标题所包括的术语1473个, 另外, 随机选择了十位教师进行了实验, 其中衡量用户联合推送系统性能的标准为教师所推送的文档数量和文档被推送时的排列位置之和。从实验结果来看, 基于贝叶斯网络模型的用户兴趣联合推送系统与基于概率模型的信息检索、分布式信息检索、语义检索的用户兴趣联合推送系统的实验效果稍好, 但差别不大。实验结果为:基于贝叶斯网络模型的用户兴趣联合推送系统教师访问推送的文档个数为4.7, 排列位置之和为29.6;而概率模型的信息检索、分布式信息检索、语义检索的用户兴趣联合推送系统的文档个数平均值为4.3, 排列位置之和为29.8。由此可以看出, 贝叶斯网络模型的用户兴趣联合推送系统中教师推送文档的数目较多, 有着较好的实验效果。

信息检索是高校数字图书馆网站建设的一个重要发展领域, 本文所探讨的基于贝叶斯网络模型检索技术对原有的检索方法进行了改进, 但是, 如何从全文中挖掘相关术语, 如何确定术语和文档之间相关度值, 如何更加精确地选择搜索引擎依然值得进一步地改进和研究。本文所抽取的术语间的关系为在文档中出现的频数较高或者是同义词, 这并不能完全代表术语间的全部关系, 如何借助计算机来抽取术语和概念间的关系也是一个很有前途的研究课题。

参考文献

[1]高文.数字图书馆——原理与技术实现 (第一版) [M].清华大学出版社, 1999.

[2]林士敏.贝叶斯学习、贝叶斯网络与数据采掘[J].计算机科学, 2000, 27 (10) .

[3]欧洁.数字图书馆的数字对象体系结构[J].中国科学院研究生院学报, 200017 (1) .

贝叶斯技术篇9

摘要：采用聚类分析法将多专家的动态综合评价转换为静态综合评价；引入横向拉开档次法对各指标客观赋权，结合指标主观权重，运用数学规划法得到指标的集成权重；采用贝叶斯网络模型对24项科技成果进行分类评价，对每一项成果获得某一等级奖项的可能性给出测度，并对每一类内的项目排序。实证分析表明：我国科研成果大部分具有研究价值，且成果丰硕，但突破性、创造性的研究成果较少。

关键词：贝叶斯网络；集成权重；拉开档次法；聚类分析法

中图分类号：G311 文献标识码：A

与2013年、2012年相比，2014年度国家科学技术奖授奖项目明显减少。对此，国家科技部奖励办表示，优化奖励结构、减少奖励数量，是为了突出鼓励自主创新成果和重大的发明创造科技成果。科技成果的评价作为科技奖励的前期工作，对科技奖励的最终决策有着举足轻重的作用，也是保证真正的重大创新项目获得应有奖励、鼓励科研人员进一步有所突破的关键。

目前，学者们对科技奖励综合评价体系的研究做了大量工作，部分研究成果已经投入实际应用。张立军等构建了基于路径系数权重体系的科技奖励评价模型。王瑛等提出了基于模糊多属性投影法的科技奖励模型和E-BP神经网络的科技奖励评价模型。黄卫春等提出了一种基于云模型的科技奖励评审模型，利用云模型描述项目评分在各属性下的分布情况，通过计算云模型参数来确定云模型数字特征图或云滴分布情况，并以此确定评价等级。王瑛、蒋晓东等提出了改进CRITIC法和云模型的科技奖励评价模型，既考虑评价过程中专家评分的模糊性和随机性，又考虑了定性语言与定量语言之问的转换。王瑛、王娜等提出了基于随机森林赋权和改进的ELECTRE-Ⅲ方法的科技奖励评价方法，既提高了权重估计的精确度和可信度，又解决了难以给定门槛值和不能完全排序的问题。朱紫巍等针对国内外科技评价方法，进行比较分析，提出了改革我国科技评价方法的建议。

针对科技奖励评价涉及多专家、多项目、多指标的特点，此前，学界的研究主要集中在评价指标的客观赋权法与主观赋权法的单方面研究，没有将这两方面有机结合起来；在评价方法上主要集中在数理统计和人工智能等方面，但对于评价结果的可靠性没有给出科学的测度。对此，本文提出一种集成权重的方法对科技奖励的评价指标进行综合赋权；应用概率论中的贝叶斯网络模型进行科技奖励综合评价，该方法不仅可实现对科技成果的分类评价，而且可对每一项科技成果获得某一等级奖项的可能性给出概率测度，并在分类评价的基础上，对每一类内的项目进行排序。

1集成权重的理论

评价指标权重的确定可分为主观赋权法和客观赋权法，两者各有千秋。本文采用一種主、客观权重集成的方法，计算各评价指标的综合权重，该方法既能满足决策者的主观偏好，又能实现决策的客观性、真实性。

1.1基于聚类分析的专家权重理论

聚类分析方法是一种作为模式识别的分类方法，它常常被用来判断样品质量的好坏。把评审专家的个体排序向量看作是待识别的样品，对其进行聚类分析并判别其客观可信性，再根据聚类结果给专家赋权。

动态专家赋权坚持的是简单多数的基本原则，即一个评审结果体现的是整个专家群体的综合意见。因此，一个专家的个人评审意见和大多数专家的评审结果的吻合程度决定了该专家在整个综合评价中所占的分量。如果他的评价结果与大多数专家的结论基本一致，就可以给这一类专家赋以较大的权重；反之，其意见就值得怀疑，可以给这一类专家赋以较小的权重。

通过聚类分析，可以将个体排序向量划分成不同的类别，即将k个评审专家分成s类（s≤k），假设第l类（l≤s）内包含φ_l个个体排序向量，那么，第k位专家的权重η_k应该和他所在的类别中包含的专家人数φ_k成正比，其具体计算公式为：

（1）对η_k进行归一化处理，即可得到基于聚类分析的动态专家权重：

（2）

1.2拉开档次法的指标赋权理论

拉开档次法就是在使得各被评价对象之问的整体差异尽量拉大的条件下确定评价指标权重的方法。

对于静态综合评价问题，一般解决办法是取线性综合评价函数：

（3）式中：ω_i为评价指标权重。

（4）式中：

当指标权重矩阵W为对称矩阵H的最大特征值对应的特征向量时，σ²取最大值。此时权重系数W最大可能地体现了各评价对象问的差异。

1.3基于数学规划法的集成权重理论

本文应用数学规划法在非线性约束条件下，求解线性目标函数的极值问题。该方法在科技奖励综合评价中的具体应用如下。

（5）

解得：

（6）

（7）（8）

（9）

（10）

由式（10）即可求得评价指标的集成权重。

2贝叶斯网络模型的理论

（11）式中：P（A|B_i）为条件概率；P（B_i）为事件B_i的概率。

结合科技奖励评价的特点，B_i为科技奖励的等级集，元素y_ji表示第j个指标在第i等级时的标准值；A表示科技奖励的指标集，元素x_jk表示第k项科技成果的第j个指标的实际值；i为标准级别，i=1，2，…，s；j为指标，j=1，2，…，m；k为科技成果编号，k=1，2，…，n。据此式（11）可改写为：

（12）

算法步骤如下：

1）计算P（y_ji）。在没有任何信息的条件下，某项科技成果究竟属于哪一等级，这在许多应用中难以确定。结合科技奖励的特点，在没有获取科技成果相关信息的情况下，人们最能接受的是获得某等级奖励的概率相等，即取：P（y_j1）P=（y_j2）=…=P（y_js）=1/s。

2）计算P（x_jk|y_ji）。现有研究成果表明，P（x_jk|y_ji）的估计是贝叶斯网络模型的核心。本文从抽样误差角度估计P（x_jk|y_ji）。根据统计理论，当科技成果属于i类时，由于抽样缘故获得的样本指标值和总体指标值总是存在一定的抽样误差，其分布可用正态分布表示。基于以上考虑，将抽样误差正态分布原理用于估计P（x_jk|y_ji）。以科技成果评价指标j各等级标准值作为正态分布的均值a_j，基于a_j和标准差σ_j获得某一等级某一指标完整的正态分布。

（13）

（14）

（15）式中：a_j，σ_j和C_j分别为指标j各等级的均值、标准差和变异系数。

由式（13）～（15）计算变异系数C_j，C_j表示指标j在各类之间相对变化情况。而某类指标j抽样值的相对变化亦与之类似，因此采用C_ji=C_j，即以各类等级变异系数估计某一类指标抽样值的变异系数。

基于抽样误差正态分布原理估计P（x_jk|y_ji）的计算步骤归纳如下：

①由式（13）～（15）估计C_ji，并采用C_ji=C_j；

②将第i类指标j的标准值y_jk作为该类指标均值；

③计算第i类的标准差σ_ji=C_jiy_ji；

④将抽样值（检测值）x_jk标准化，

（16）

⑤以标准化正态分布计算

（17）

用标准正态分布函数求取，|t_jk|为t_jk坤的绝对值。

3）由式（12）计算P（y_ji|x_jk）。

4）多指标下（ω_j为指标权重）科技成果评价后验概率P_i的计算。

（18）

5）以最大概率原则决策最终的级别P_h。

（19）

6）以分类结果为基础，在每一类内根据概率大小进行排序。

3实证分析

以国家科学技术进步奖（技术开放项目）评选中25位专家对24项科技成果的评分数据（资料来源：科技部国家科技奖励办公室，原始数据略）为例，该奖项的5个评价指标是：技术创新程度、技术经济指标的先进程度、技术创新对提高市场竞争能力的作用、已获经济效益、推动科技进步的作用。国家科技奖励办赋予5个评价指标的权重为：ω'=（0.2，0.2，0.2，0.25，0.15），将该权重作为评价指标的主观权重。具体步骤如下。

步骤1基于聚类分析法的专家权重的计算。

运用SPSS19.0对原始数据进行聚类分析，将25位专家分为5类，即：

第一类包含10，16号2位专家；

第二类包含1，2，4，12，15号5位专家；

第三类包含3，6，8，9，14，25号6位专家；

第四类包含5，7，11，13，18，19，20，21，22，23，24号11位专家；

第五类：含17号1位专家。由式（1）（2）计算专家权重，结果见表1。

由表1求得的专家动态权重，采用简单线性加权法，计算25位专家对每个项目的5个评价指标评分的加权平均值，计算结果见表2。

表2的数据组成的矩阵，即为式（4）中的矩阵X，应用Matlab7.0计算X^TX的最大特征值及归一化的特征向量（即权重系数）分别为：

步骤3科技成果评价标准体系的构建。

根据国家科技奖励办公布的国家科技进步奖（技术开发项目）评价指标体系和奖励办法，建立国家科技进步奖（技术开发项目）评价标准。按照“从严把关，严肃评审，宁缺毋滥”的原则，在分类上设置5个等级，在各等级标准设定中采取5分制原则，采用随机生成数的办法，得到5个指标各等级的评价标准，见表3。

步骤4

基于贝叶斯网络模型的科技奖励评价。

3）由式（12）可知，求P（y_ji|x_jk）的过程就相当于P（x_ik|y_ji）的归一化过程，计算结果略。

4）由式（18）计算该项目分属各等级的概率。

同理，计算24个项目分属各等级的概率，结果见表5。

5）由式（19）确定项目1所属类别，属于三等，抽样误差标准正态分布以0.366的概率保证其获得三等奖。

6）同理，可以得到所有项目的所属类别，并根据同一类内概率的大小，进行排序，结果见表6。

从分类评价结果看，大部分科技成果都属于二等和三等，一等和四等的项目较少，五等的项目完全没有；从评价结果的可靠性看，获得一等奖的项目分别以0.408，0.426，0.469的概率给予保障，获得二等、三等项目的可靠性测度维持在0.382，获得四等奖的可靠性则以0.320的概率给予保障；每一个等级内的排序可以為决策部门在授奖指标一定的情况下提供参考。通过实证分析可以得出：高等级获奖项目较少，大部分属于二等和三等，低等级获奖项目极少，这表明我国科研成果绝大部分具有研究价值且成果丰硕，但突破性、创造性的研究成果较少。

4结论

采用集成权重和贝叶斯模型相结合的方法进行科技成果综合评价，方法的特点表现在：

1）聚类分析将多专家的动态评价转化为静态评价。从一般线性函数的评价结果出发，用拉开档次法对评价指标客观赋权，该赋权过程科学、客观、透明，可操作性强。

2）数学规划法将主、客观权重相结合，构成评价指标的集成权重，使科技奖励综合评价结果同时反映了主、客观因素，弥补了单纯采用主观赋权法或客观赋权法的不足。

贝叶斯网络篇10

贝叶斯网络是一种概率网络, 它是基于概率推理的图形化网络, 以下是贝叶斯网络中涉及的概率知识:

(1) 条件概率[2]:设A, B是两个事件, 且P (A) >0, 称P (B|A) =P (AB) /P (A) 为在事件发生的条件下事件发生的条件概率。

(2) 联合概率[2]:设A, B是两个事件, 且P (A) >0, 它们的联合概率为:P (AB) =P (B|A) /P (A) 。

(3) 全概率公式[2]:设实验的样本空间为S, A为E的事件, B1, B2, …, Bn为E的一组事件, 满足:互不相容; (3) P (Bi) >0, i=1, 2, …, m。则有全概率公式:。

(4) 根据 (1) 、 (2) 和 (3) , 很容易得到贝叶斯公式[26]:。

(5) 先验概率[2]:根据历史的资料或主观判断所确定的各种事件发生的概率, 该概率没能经过实验证实, 属于检验前的概率, 称之为先验概率。

(6) 分隔定理 (d-seperation) [3]:设A, B, C为网络节点中三个不同的子集, 当且仅当A与C间不存在以下情况的路径时, 称B隔离了A和C, 记作:D:

(1) 所有含有聚合弧段的节点或其子节点是B的元素。

(2) 其它节点不是B的元素。

(7) 条件独立性假设[4]:依据分隔定理, 如果B隔离了A和C, 则认为A和C是关于B条件独立的, 即:P (A|C, B) =P (A|B) 。

2贝叶斯网络的结构

贝叶斯网络又称信念网络, 一个典型的贝叶斯网络由两部分组成[5]:第一部分是一个有向无环的图形结构G, 其中每个节点代表一个变量, 节点之间的有向弧段反映了变量间的依赖关系, 指向节点X的所有节点称为X的父节点, 图1为一个贝叶斯网络的拓扑结构;另一部分是与每个节点相关的条件概率表 (CPT, conditional probability table) , 该表列出了此节点相对于其父节点的所有可能的条件概率。

贝叶斯网络规定以节点Xi的父节点为条件, Xi与任意非Xi子节点条件独立, 按此约定有n个节点的贝叶斯网络的联合概率分布为[6]:

其中π (Xi) 是网络中Xi父节点集合∏ (Xi) 中的变量取值后的一个组合。若Xi没有父节点, 则集合∏ (Xi) 为空, 即P (Xi|π (Xi) ) =P (Xi) 。

3贝叶斯网络的推理

贝叶斯网络的推理通常是从先验知识入手, 按贝叶斯规则沿网络弧线层层演进而计算出我们感兴趣的概率。依据贝叶斯学派的观点, 概率推理本质上就是信任度的传播, 按推理方向贝叶斯网络有三种重要的推理模式[7]。

3.1因果推理或自上而下的推理

此模式是从先验概率开始的正向推理过程。之所以称为因果推理, 是因为贝叶斯网络中相连两节点表达了一种直接的因果关系。以图1为例, 求概率:, 因果推理的过程可总结如下:

(1) 将询问节点 (X4) 的其它父节点 (未在条件中出现) 加入到询问节点, 条件不变, 对新节点的所有状态求和。

(2) 利用贝叶斯规则将和式中的每一项展开, 因为伴随询问节点的CPT只提供了形式为P (Xi|π (Xi) ) 的概率。

3.2诊断推理或自下而上的推理

此模式是在已知结论的前提下, 推断出可能引发该结论的原因。以图1为例, 求概率P (X1|X4) 的过程为:, 其中P (X4|X1) 需利用因果推理求得。所以诊断推理的主要一步是将概率转换为因果推理的形式。

3.3解释推理

问题中已经包含了原因和结果, 这时如果要推断其它导致该结果的原因, 就需要运用解释推理。解释推理可概括为:诊断推理中运用因果推理。例如求P (X1|X4, X2) 的过程:, 这就是解释推理, 其中P (X4|X2) 也需要利用因果推理, 本质上解释推理是前两种模式的混合。

4结束语

综上, 贝叶斯网络是一系列变量的联合概率分布的图形表示。实际上这种表示法最早被用来对专家的不确定知识编码, 今天它们在现代专家系统、诊断引擎和决策支持系统中发挥了关键作用。贝叶斯网络的一个被经常提起的优点是它们具有形式的概率语义并且能作为存在于人类头脑中的知识结构的自然映像。这有助于知识在概率分布方面的编码和解释, 使基于概率的推理和最佳决策成为可能。论文主要介绍了贝叶斯网络的概率基础、拓扑结构以及贝叶斯网络的推理。

参考文献

[1]王军, 周伟达.贝叶斯网络的研究与进展[J].电子科技, 1999 (8) :5-7.

[2]盛骤, 谢式千, 潘承毅.概率论与数理统计[M].北京:高等教育出版社, 第2版, 1989:18-25.

[3]Judea Pearl.Causal diagrams for empirical research.Biometrika, 1995, 82 (4) :669-709.

[4]余东峰, 孙兆林.基于贝叶斯网络不确定推理的研究[J].微型电脑应用, 2004, 20 (8) :6-8.

[5]Luis M.de Campos, Juan M.Fernández-Luna, Juan F.Huete.Clustering terms in the Bayesian network retrieval model:a new ap-proach with two term-layers.Applied Soft Computing, 2004, 4:149-158.

[6]Berthier Ribeiro-Neto, Iimério Silva, Richard Muntz.Bayesian network models for IR.Soft Computing in Information Retrieval Tech-niques and Application, 2000:1-32.

【贝叶斯技术】推荐阅读：