贝叶斯规则

2024-09-25

贝叶斯规则（精选7篇）

贝叶斯规则篇1

引言

关联规则 (association rule) 挖掘是数据挖掘的一个重要分支, 最早于1993年由Agrawal等人提出[1], 它用来在一个大的事务集中发现各个项间的隐含关系。他还提出了经典的Apriori算法。此后诸多研究人员对关联规则挖掘的算法进行了广泛研究, 使得挖掘算法不断的完善。一个关联规则就是形如A圯B的蕴含式, 这里A和B为项目集, 且A∩B=覫。关联规则的形式很简单, 应用起来很方便, 但是由于关联规则不能表达不同规则之间的联系, 所以在某些比较复杂的应用领域中, 当需要综合考虑多种因素对结果的影响时, 关联规则的应用就比较困难。

贝叶斯网络又称为信度网、概念网, 是一种图型化的模型, 能够图形化地表示一组变量间的联合概率分布。一个贝叶斯网络包括了一个结构模型和与之相关的一组条件概率分布函数。结构模型是一个有向无环图, 其中的节点表示了随机变量, 是对于过程、事件、状态等实体的某特性的描述, 边则表示变量间的概率依赖关系。图中的每个节点都有一个给定其父节点情况下该节点的条件概率分布函数。这样, 一个贝叶斯网络就用图形化的形式表示了如何将与一系列节点相关的条件概率函数组合成为一个整体的联合概率分布函数。

贝叶斯网络将有向无环图与概率理论有机结合, 不但具有了正式的概率理论基础, 同时也具有更加直观的知识表示形式。一方面, 它可以将人类所拥有的因果知识直接用有向图自然直观地表示出来, 另一方面, 也可以将统计数据以条件概率的形式融入模型。这样贝叶斯网络就能将人类的先验知识和后验的数据无缝地结合, 克服框架、语义网络等模型仅能表达处理定量信息的弱点和神经网络等方法不够直观的缺点。同时由于贝叶斯网是变量的联合概率的表示, 所以在对节点状态进行推理的过程中, 能够综合考虑各个因素 (父节点) 的影响。鉴于贝叶斯网上述优点, 我们想到用贝叶斯网的形式来表示关联规则。同时由于关联规则和贝叶斯网络都是以概率论为理论基础的, 所以使我们的想法具有了可行性。

在第二部分提出了一种用贝叶斯网的形式表示关联规则的方法, 第三部分采用随机仿真的方法对文中的方法进行了验证, 第四部分是总结和下一阶段工作展望。

1 算法设计

贝叶斯网包括图形结构和条件概率表两个部分, 要用贝叶斯网来表示关联规则, 首先要根据关联规则构造出相应的贝叶斯网, 构造的过程包括结构学习和概率表学习两个步骤, 本节内容也分成了相应的两个部分。

贝叶斯网采用了一种简化的网络模型即noisy-OR模型[2], 使用该模型首先要求做出以下三条假设:

假设一:假设所有原因对结果的影响都是独立的。

假设二:假设已经列尽了所有的原因。

假设三:假设没有出现的原因对结果没有影响。

具体该模型的应用将会结合下面的网络生成步骤进一步说明。

1.1 结构学习

贝叶斯网的结构是一个有向无环图。图中的每一个结点唯一地对应一个随机变量, 结点的状态对应于随机变量的值。图中的有向边表示变量 (结点) 之间的条件 (因果) 依赖关系。关联规则的前件和后件间也蕴含着一种依赖关系, 我们的思路的就是将关联规则中的这种依赖关系用贝叶斯网的结构表示出来。

首先调用Apriori算法利用迭代得到频繁集集合, 由于只需要二项关联规则, 所以这里修改了Apriori算法, 只生成了二项频繁集。

为了对生成的关联规则进行有效的筛选, 算法中利用了兴趣度, 在介绍Generate Rules方法前, 首先介绍兴趣度的概念:

根据Piatetsky-Shapiro的主张[3], 如果supp (A∪B) ≈supp (A) *supp (B) , 那么规则A圯B是没有兴趣的, 只有满足条件supp (A∪B) -supp (A) *supp (B) >mininterest的规则才是有兴趣的, 人们习惯上将这一条件称为P-S兴趣度, 其中最小兴趣度mininterest由用户或专家给出。

将P-S兴趣度稍加变形得到

因为所以将interest (A, B) 稍加变形, 可以得到另外两种形式即

interest (A, B) 有三种可能的情况:

(1) 如果interest (A, B) >0, 那么A和B正相关, 事件A (B) 的出现, 将会增大事件B (A) 出现的概率;

(2) 如果interest (A, B) =0, 那么A和B相互独立, 事件A的出现与事件B无关;

(3) 如果interest (A, B) <0, 那么A和B负相关, 事件A (B) 的出现, 将会减少事件B (A) 出现的概率。

通过分析interest (A, B) 的取值情况, 可以发现interest (A, B) 的值离0越近, 表示A、B之间联系越少, 反之离0越远, 则联系越强。由于贝叶斯网研究的是两点之间的联系, 既包括互相促进也包括互相抑制, 所以我们在生成关联规则的Generate Rules算法中使用了|interest (A, B) |。这一方法如果从关联规则的角度来理解的话, 就是考虑到了两项之间的负相关, 即负关联规则对两点间联系的贡献。由于负关联规则不是讨论重点, 在此不加详述。

在执行完Generate Rules方法后将R中得到的关联规则按照兴趣度从大到小的顺序倒排, 至此关联规则的准备工作就完成了, 下面就是具体的由关联规则生成贝叶斯网的过程。

(1) 构造图G (V, E) , V={}, E={};

(2) 对于L中每一个频繁集K, 如果|K|=1, xi∈K, 那么V=V∪{vi};

(3) 构造指针p指向R中的第一条规则;

(4) 取出p指向的规则A圯B, xm∈A, xn∈B如果vmvn间不存在有向路径的话, E=E∪{vmvn};

(5) 如果p还没到L尽头的话, p指向下一条规则, 回到4;

(6) 删除V中没有边相连的点。

在第2步执行完后, 得到了一个有点无边的图, 其中的点就是频繁集L中所有1-项集中的项对应的点。在这里需要特别指出的是算法中所提的关联规则中的项和贝叶斯网络中的点是有所区别的, 贝叶斯网络中的点表示的是一个变量, 而关联规则中的项表示的是这个变量的一个状态。比如关联规则中的项xi表示买了面包这个状况, 那么对应的贝叶斯网中的点vi就表示是否买了面包这样含义的一个二值变量。由于noisy-OR模型中, 只考虑出现的原因对结果的影响, 所以我们就可以用关联规则xm圯xn的兴趣度来表示vm点对vn点的影响。第3、4、5步是按照|interest|从大到小的顺序在保证不会出现有向环的前提下将每一条关联规则对应的边加到图中。

1.2 概率表学习

确定了贝叶斯网的结构后, 就要为每一个节点计算条件概率表。通常情况下, 条件概率表的计算是非常复杂的, 计算一个有k个父亲的节点的条件概率表需要2k个参数, 但是在经过简化的noisy-OR模型中计算一个有k个父亲的节点的条件概率表只需要k个参数, 下面是引用文献[4]中的例子, 对noisy-OR模型的条件概率表计算进行解释:

根据noisy-OR模型可以将条件概率表的计算简化为以下形式:

设Q为贝叶斯网中的一个节点, Parent (Q) 为Q的父亲节点的集合, 那么

将步骤一中求得的关联规则置信度代如上式得

根据上式, 可以在不需要额外计算而仅利用前步数据的条件下构造条件概率表, 大大的降低了计算的复杂度。完成了条件概率表的学习后, 整个由关联规则到贝叶斯网的转换过程也就完成了。

得到了贝叶斯网后, 就可以利用贝叶斯网的各种推理算法来帮助人们更好地对原始数据进行分析, 如前面的例中, 假设图1中的贝叶斯网是由以下三条规则得到的

利用这三条关联规则我们可以很容易知道一个人得了流感后发烧的概率有多大, 但是不能知道一个人既得了流感又得了疟疾时发烧的概率多大, 而利用图1中的贝叶斯网我们不仅能很容易实现这一功能, 而且还能知道在满足怎样的条件下发烧的概率最大。关联规则越多, 贝叶斯网越复杂时, 这一优势越明显, 所以说利用贝叶斯网能够很好的扩展关联规则的功能, 进而指导生活、生产。

2 实验

按照第二部分所述的操作我们就从关联规则得到了一个贝叶斯网, 但是具体这个网络和原来的关联规则有多大联系, 它是否能够有效的表示原来关联规则, 采用了随机仿真的方法来验证上述问题, 具体思路是:得到贝叶斯网络后, 对该网所表示的联合概率分布进行随机抽样, 以产生足够多的样本, 然后再利用产生的样本进行关联规则挖掘, 得到一组新的规则, 将新规则和原来的规则进行比较, 看看原来的规则经过贝叶斯网这一层转化后究竟改变了多少。

采用的实验数据来源于Internet (www.kdnuggets.com) , 数据具体参数如下:事务项目集的个数N=1000, 事务数据记录的数目D=50K, 事务数据记录的平均长度T=10。实验环境如下:Windows 2000 (professional) , VC++6.0, SQL SERVER2000, CPU为P4-2.0GHz, 内存1024M。步骤一采用参数为:最小兴趣度ms=0.05, 最小兴趣度mi=0.5;最小置信度mc=0.4, 得到二项关联规则134条。经过步骤二、步骤三得到了一个有83个节点, 67条边的贝叶斯网。然后采用对该网进行随机仿真, 得到样本数据1K, 对样本数据重复步骤一, 挖得关联规则105条, 比较两组关联规则, 发现存在相同关联规则高达93条, 实验数据表明该贝叶斯网基本反映了原来的关联规则。

结束语

针对关联规则难于理解、不便应用的问题, 提出了一种用贝叶斯网络表示关联规则的方法, 应用贝叶斯网的各种推理算法, 可以更好地理解关联规则, 从另一个角度来说这里提出的方法也可以理解为一种新的贝叶斯网的学习方法。如何进一步挖掘两者之间的联系, 优化转换算法, 从而达到更好的转换效果, 将是我们下一阶段工作的研究内容。

参考文献

[1]Agrawal.R, Imielinski.T, Swami.A.Mining as-sociation rules between sets of items in mas-sive databases.In Proceedings of the1993ACM SIGMOD International Conference on Management of Data.ACM, Washington D.C.1993:207-216.

[2]D.Heckerman, J.S.Breese.Causal independence for probabilistic assessment and inference using Bayesian networks.in:IEEE trans.on Systems, Man and Cybernetics, 1996, 26 (6) :826-831.

[3]Piatetsky-Shapiro.Discovery, analysis, and pre-sentation of strong rules.In Knowledge discov-ery in Databases.AAAI/MIT, Menlo Park, Calif., USA, 1991:229-248.

[4]Stuart Russell, Peter Norvig.Artificial Intel-ligence:A Modern Approach.Prentice-Hall.1995:438-445.

[5]李开灿, 耿直.条件独立it的三种形式及其相互关系[J].北京大学学报 (自然科学版) , 2002, 38 (5) :629-634.

贝叶斯网络篇2

贝叶斯网络是一种概率网络, 它是基于概率推理的图形化网络, 以下是贝叶斯网络中涉及的概率知识:

(1) 条件概率[2]:设A, B是两个事件, 且P (A) >0, 称P (B|A) =P (AB) /P (A) 为在事件发生的条件下事件发生的条件概率。

(2) 联合概率[2]:设A, B是两个事件, 且P (A) >0, 它们的联合概率为:P (AB) =P (B|A) /P (A) 。

(3) 全概率公式[2]:设实验的样本空间为S, A为E的事件, B1, B2, …, Bn为E的一组事件, 满足:互不相容; (3) P (Bi) >0, i=1, 2, …, m。则有全概率公式:。

(4) 根据 (1) 、 (2) 和 (3) , 很容易得到贝叶斯公式[26]:。

(5) 先验概率[2]:根据历史的资料或主观判断所确定的各种事件发生的概率, 该概率没能经过实验证实, 属于检验前的概率, 称之为先验概率。

(6) 分隔定理 (d-seperation) [3]:设A, B, C为网络节点中三个不同的子集, 当且仅当A与C间不存在以下情况的路径时, 称B隔离了A和C, 记作:D:

(1) 所有含有聚合弧段的节点或其子节点是B的元素。

(2) 其它节点不是B的元素。

(7) 条件独立性假设[4]:依据分隔定理, 如果B隔离了A和C, 则认为A和C是关于B条件独立的, 即:P (A|C, B) =P (A|B) 。

2贝叶斯网络的结构

贝叶斯网络又称信念网络, 一个典型的贝叶斯网络由两部分组成[5]:第一部分是一个有向无环的图形结构G, 其中每个节点代表一个变量, 节点之间的有向弧段反映了变量间的依赖关系, 指向节点X的所有节点称为X的父节点, 图1为一个贝叶斯网络的拓扑结构;另一部分是与每个节点相关的条件概率表 (CPT, conditional probability table) , 该表列出了此节点相对于其父节点的所有可能的条件概率。

贝叶斯网络规定以节点Xi的父节点为条件, Xi与任意非Xi子节点条件独立, 按此约定有n个节点的贝叶斯网络的联合概率分布为[6]:

其中π (Xi) 是网络中Xi父节点集合∏ (Xi) 中的变量取值后的一个组合。若Xi没有父节点, 则集合∏ (Xi) 为空, 即P (Xi|π (Xi) ) =P (Xi) 。

3贝叶斯网络的推理

贝叶斯网络的推理通常是从先验知识入手, 按贝叶斯规则沿网络弧线层层演进而计算出我们感兴趣的概率。依据贝叶斯学派的观点, 概率推理本质上就是信任度的传播, 按推理方向贝叶斯网络有三种重要的推理模式[7]。

3.1因果推理或自上而下的推理

此模式是从先验概率开始的正向推理过程。之所以称为因果推理, 是因为贝叶斯网络中相连两节点表达了一种直接的因果关系。以图1为例, 求概率:, 因果推理的过程可总结如下:

(1) 将询问节点 (X4) 的其它父节点 (未在条件中出现) 加入到询问节点, 条件不变, 对新节点的所有状态求和。

(2) 利用贝叶斯规则将和式中的每一项展开, 因为伴随询问节点的CPT只提供了形式为P (Xi|π (Xi) ) 的概率。

3.2诊断推理或自下而上的推理

此模式是在已知结论的前提下, 推断出可能引发该结论的原因。以图1为例, 求概率P (X1|X4) 的过程为:, 其中P (X4|X1) 需利用因果推理求得。所以诊断推理的主要一步是将概率转换为因果推理的形式。

3.3解释推理

问题中已经包含了原因和结果, 这时如果要推断其它导致该结果的原因, 就需要运用解释推理。解释推理可概括为:诊断推理中运用因果推理。例如求P (X1|X4, X2) 的过程:, 这就是解释推理, 其中P (X4|X2) 也需要利用因果推理, 本质上解释推理是前两种模式的混合。

4结束语

综上, 贝叶斯网络是一系列变量的联合概率分布的图形表示。实际上这种表示法最早被用来对专家的不确定知识编码, 今天它们在现代专家系统、诊断引擎和决策支持系统中发挥了关键作用。贝叶斯网络的一个被经常提起的优点是它们具有形式的概率语义并且能作为存在于人类头脑中的知识结构的自然映像。这有助于知识在概率分布方面的编码和解释, 使基于概率的推理和最佳决策成为可能。论文主要介绍了贝叶斯网络的概率基础、拓扑结构以及贝叶斯网络的推理。

参考文献

[1]王军, 周伟达.贝叶斯网络的研究与进展[J].电子科技, 1999 (8) :5-7.

[2]盛骤, 谢式千, 潘承毅.概率论与数理统计[M].北京:高等教育出版社, 第2版, 1989:18-25.

[3]Judea Pearl.Causal diagrams for empirical research.Biometrika, 1995, 82 (4) :669-709.

[4]余东峰, 孙兆林.基于贝叶斯网络不确定推理的研究[J].微型电脑应用, 2004, 20 (8) :6-8.

[5]Luis M.de Campos, Juan M.Fernández-Luna, Juan F.Huete.Clustering terms in the Bayesian network retrieval model:a new ap-proach with two term-layers.Applied Soft Computing, 2004, 4:149-158.

[6]Berthier Ribeiro-Neto, Iimério Silva, Richard Muntz.Bayesian network models for IR.Soft Computing in Information Retrieval Tech-niques and Application, 2000:1-32.

贝叶斯网络推理算法研究篇3

现代大型复杂系统的贝叶斯网络结构也是庞大复杂的,对于诊断推理存在困难。因此在进行诊断推理前,应适当地对其网络结构进行简化。本文采用分簇优化联合树算法对贝叶斯网络结构进行简化处理及推理运算,下面介绍分簇优化联合树算法及其用于网络参数学习及诊断推理算法。

1 分簇搜索算法基本思想

用于故障诊断的贝叶斯网络的结构是非常复杂的,并且由于其结构的复杂性致使故障诊断推理也非常复杂,因此,通过贝叶斯网络结构学习,寻找一个与训练数据拟合度高且网络复杂性相对较低的网络结构成为一个非常有意义和研究价值的问题。由式可知,n个变量构成的贝叶斯网络结构的数目是指数级的,要从这些可能存在的网络结构空间中搜索出最优的网络结构也是很难的。当n=10时,需要搜索的模型个数就已经达到约为4.17*1018,可见搜索空间太大,为了缩小搜索空间,有效地找到最优解,一个较好的搜索算法就非常必要。

贝叶斯网络结构的学习实际就是优化搜索的问题。基于分簇的优化搜索方法就是将问题节点划分为团簇结构。团簇结构思想最早用于物理和化学领域中对分子和原子的处理,而在近代,团簇结构在许多领域得到了广泛的应用,包括模式识别,数据分析,图像处理等。许多学者都在这方面做出了研究,旨在发现能够用于更好聚类方法的簇结构,不同的网络拓扑结构对于分簇算法都是不同的。人工智能越来越多地研究这种方法,使之成为一种较为优秀的搜索算法。基于簇的搜索方法被证实较好地用于解决TSP问题。这种方法的主要优势在于不会陷入局部最优,并且搜索时间非常短。

分簇算法的基本思想是把网络结构中的节点划分为若干个簇,簇内依据某种事先约定的值进行连接,在簇与簇之间,也根据这种约定进行点与点之间的连接,这里设定一个阀值,节点间的关联程度大于这个阀值时就连接这两个节点,最终基于簇的这种搜索算法将形成一个团簇树状结构。

基于簇的结构学习算法是由初始的贝叶斯网络结构经过优化搜索构造出用于诊断的树形结构。设用于该算法的阀值为θ,由当前信息得到相关节点的关联程度为θij,表示第i个节点和第j个节点的关联程度,设两个数据结构D 1,D 2分别存放局部网络的起始参数节点表和目标节点表,首先把网络的所有节点都放入D 1表中。具体的步骤如下:

步骤1:随即选取一个起始节点V1,比较与V1相关的各个节点的θ1k值,若θ1k≥0,则将V1和Vk划分到一个簇S1内,把簇S1中的节点都从D1表中移出,放入表D2中。

步骤2:如果D1为空表,则转到步骤4。

步骤3:在D1表中随即选取一个节点Vn,比较与Vn相关的各个节点,分两种情况:

(1)若无关联节点,则将Vn单独划分到簇S2中,并将节点Vn从表D1中移出,放入表D2中,转入步骤2。

(2)若有关联的节点,且关联值为θnm,若θnm≥0,则将Vn和Vm划分到一个簇S2中,把簇S2中的节点从D1表中移出,放入表D2中,转入步骤2。

步骤4:在簇到S1之Sn间,观察是否簇间有相关联的节点,若相关联,且关联值θij≥θ,则将Vi与Vj相连接。

该算法的最终目的是搜索出一个较为简单的网络结构,减少网络推理的复杂度,使学习后的网络结构能够使用精确推理算法来实现推理,得出一个较为准确的结果。

搜索的过程如图1所示。

从图1可以看出,在经过分簇搜索之后,网络结构(d)比网络结构(a)有了一定程度的简化。

有效的贝叶斯网络推理算法是贝叶斯网络的重要内容,也是其应用的前提。大型复杂的故障诊断系统,所建立的贝叶斯网络模型也具有非常复杂的结构,为了降低贝叶斯网络的推理复杂度,使其更容易应用于解决实际问题,一般的推理算法都是在简化网络结构上进行研究的。下面来分析经过分簇结构优化算法后的网络推理。

2 联合树推理

分簇优化联合树算法实现对贝叶斯网络的诊断推理。分簇优化联合树算法是分簇优化算法与联合树算法的结合,其流程图如图2所示。分簇优化已在前文介绍,下面介绍流程图中其余步骤。

2.1 贝叶斯网络转化为联合树

将贝叶斯网络B转化为联合树,分为四步:建立B的Moral图;三角化Moral图;确定所有的团(Cliques);建立联合树。

(1)建立B的Moral图

简历Moral图的过程就是找出每个节点的父节点,并将他们用无相边两两相连,同时将所有有向边改为无向边。

(2)三角化Moral图

在Moral图中添加一些无向边,使图中每个大于或等于4的环中,都存在一条边连接两个非相邻节点。这就完成了对Moral图的三角化。

(3)确定所有的团(Cliques)

对Moral图三角化的目的就是找到构成联合树的所有团。团是Moral图三角化后最大的全连通子图,团中每对不同的节点都有边相连。

(4)建立联合树

利用得到的团,添加一些边和分隔节点就可构造一棵联合树T。联合树T要满足:树中任意两个团C,C′在连接它们的路径上的所有团节点必须包含变量C∩C′。

2.2 初始化

将贝叶斯网络转化为联合树后,就要对联合树的所有节点指定参数,即对联合树进行初始化。下面的算法实现了对满足条件的联合树参数的指定。

若联合树中的团Ci由X1,X2,…,Xr,r个节点组成,每一个节点有Sr个状态,则共有个状态组合。i代表Ci的分布函数,ij代表图Ci第j个状态组合的分布函数。具体步骤是:

for一个随机变量V

找到包含V的家庭的团Ci;

fori=1,…,n(n为团的数目)

orj=1,…,m(m为团C状态组合的个数)

初始化Φij,使Φij=1;

forj=1,…,m

Φij=Φij*P(Vj|Pa(Vj))

2.3 消息传递

对联合树进行初始化后,要在联合树上进行消息传递。通过个团节点之间的消息传递,可以是联合树达到全局一致,即达到稳态。如图3所示是团节点间一次消息传递的过程。

从节点Ci到Cj的一次消息传递过程包括以下几步:

(1)产生消息:

(2)吸收信息,更新团结点的分布函数:

(3)更新分隔节点的分布函数:

2.4 概率计算

当一个联合树通过消息传递满足全局一致性后,即可计算任意随机变量V的概率分布。找到任意一个包含变量V的团节点C,通过可计算出变量V的分布。

2.5 加入证据

若有新的证据加入,重复证据收集和证据扩散的过程,直到得到全局一致的联合树为止。当联合树再次满足全局一致性时,对任意的团C有:C=P(C,e),(e表示加入的证据)。要计算假设的变量V的概率分布,首先找到任意一个包含变量V团结点C,,再根据条件概率公式,求出变量V的概率分布

3 结束语

有效的贝叶斯网络推理算法是贝叶斯网络的重要内容,也是其应用的前提。大型复杂的故障诊断系统,所建立的贝叶斯网络模型也具有非常复杂的结构,为了降低贝叶斯网络的推理复杂度,使其更容易应用于解决实际问题,一般的推理算法都是在简化网络结构上进行研究的。而分簇简化联合树算法在对网络结构简化之后再进行网络推理,一定程度上简化了网络推理的难度。

摘要：大型复杂贝叶斯网络的诊断推理存在困难,在其推理诊断之前对网络结构进行适当的简化,可以有效地加快诊断推理速度。采用分簇联合树算法实现对网络结构的简化与推理。主要介绍了分簇搜索算法的基本思想、实现步骤及联合树推理算法,并将它们结合使用,使贝叶斯网络的简化推理更有效。

关键词：贝叶斯网络,概率推理,分簇理论,联合树

参考文献

[1]Wang Weidong,Zhu Qingxin.A Hierarchical Clustering Algorithmand Cooperation Analysis for Wireless Sensor Networks[J].Journalof Software,2006,17(5):1157-1167.

[2]Stephenson T.A.An Introduction to Bayesian Network Theory andUsage[Z].IDIAP-PR,Feb,2000.

[3]Gregory F Cooper,Edward Herskovits.A Bayesian method for theinduction of probabilistic networks from data[J].Machine Learning(S0885-6125),1992,9(4):309-347.

[4]衡星辰,覃征,邵利平,等.动态贝叶斯网络在复杂系统中建模方法的研究[J].系统仿真学报,2006,18(4):1002-1005.

[5]邢永康.信度网理论及应用研究:[D].重庆:重庆大学,2001.

贝叶斯公式的教学初探篇4

一、创设情境, 图片案例引入———以背景导课

利用多媒体播放图片和网络视频案例“湖北武汉苑先生发烧住院, 检查费3500元”, 并提出一个问题 (你被“过度医疗”过吗?) 吸引学生的注意。在以药养医的问题之外, 以查养医更应引起有关部门的关注, 医生看病是应该有针对性的开方, 还是列出清单式的化验指标进行排查?引发学生思考, 使学生尽快进入学习状态。

二、案例求解“医疗诊断”———以疑难启思

结合已有基础, 循序渐进启发教学对提出案例尝试求解, 锻炼学生建模能力, 突破难点。

分析案例中苑先生的症状是发烧 (结果) A, 目的是找到病因Bi (原因) , 这实际上是一个因果求因的过程, 根据医学知识及临床数据的统计资料, 对发烧病因总结为四大类 (1) B1:感染性疾病, 发病率为0.1 (2) B2:结缔组织疾病, 发病率为0.05 (3) B3:肿瘤性疾病, 发病率为0.005 (4) B4:其它类, 发病率为0.845。每种病因导致发烧的可能性分别为0.6, 0.8, 0.85, 0.005, 问题变为求P (Bi│A) =?

解

计算得到P (Bi│A) =0.55, 0.37, 0.04, 0.04 (i=1, 2, 3, 4) , 即最有可能得的是感染类疾病。

三、新课教学“贝叶斯公式”———以方法解惑

对案例的求解过程总结方法, 得到本次课的具体内容, 结合案例, 详细讲解公式的背景含义, 实现认识目标。

求解中体现了另一种思想, 已知结果找原因, 把公式推广到一般情况, 即是贝叶斯公式:

定理:设B1, B2, …, Bn为样本空间S的一个划分, 如果以P (Bi) 表示事件Bi发生的概率, 且P (Bi) >0。对于任一事件A, 则有:

在对公式的总结过程中, 教师可以提问与学生互动。关于公式含义的理解, 直观地将Bi看成是导致A发生的各种可能原因, 且P (A│Bi) 已知, 如果A已发生, 反过来要根据这个新信息讨论Bi中哪个发生的可能性最大, 是导致A发生的真正原因, 它是一个由果求因的条件概率。

设B1, B2, …, Bn是病人可能患有n种不同疾病, A为病人出现的某种症状, 从概率论的角度讲, 若P (Bi│A) 较大, 则病人患Bi种病的可能性较大, 可利用贝叶斯公式建立一种定量化的诊疗方案, 由此可更直观认识到这个公式的意义。公式的应用还需要注意以下几个方面 (1) 必须有准确的数据, 即准确预测某种疾病的发病率P (Bi) , 可由过去的统计数据得到, 在诊断之前已知, 也称先验概率 (先于试验) , (2) 找到引起A发生的所有病因, 但因为病因的复杂性, 会导致样本空间的划分个数较大, 需要结合医学规律进行合理的选择。因此我们喜欢找专家看病, 较准确在确定几种可能的疾病及估计先验概率, 有针对性化验、确诊, 能更好地“对症下药”。对应的P (Bi│A) 称为后验概率, 是根据症状A的出现对Bi发生概率的修正。通过可能患有的疾病Bi和出现的症状A的假设可以更直观的理解贝叶斯公式的意义——由果求因。

四、寓言解析“狼来了”———以问题开拓

贝叶斯公式的应用远远不止如此, 在我们身边无处不在, 所有需要作出概率预测的地方都可以见到它的影子, 这时教师可以和学生积极互动, 让学生思考还有哪些方面可以体现这一公式的思想。以重温寓言故事“狼来了”为切入点, 教育学生做言而有信的人, 实现教书中育人。提出问题:用数学方法分析此寓言中村民对这个小孩的可信程度是如何下降的呢?

分析:设Ai:小孩说谎i次, B:小孩可信, 设村民过去对小孩的印象为

即可信孩子说谎的可能性为0.1, 不可信孩子说谎的可能性为0.5。小孩说了一次谎后, 村民对他可信程度的改变即求P (B│Ai) 。

说明村民上了一次当后, 对这个小孩的可信程度由原来的0.8调整为0.444, 按照上面的方法, 第二次说谎后, 村民对他的可信程度改变为0.138, 如此低的可信度, 村民听到第三次呼叫时怎么再会上山打狼呢?通过这样的介绍, 既提高了学生对公式的运用能力, 同时对学生也进行了一次关于诚信的教育, 所谓“一箭双雕”。

五、背景前沿介绍———以思想为纲

贝叶斯公式体现的是一种思想方法, 这种思想经过多年的完善和发展如今形成一整套统计推断方法, 即贝叶斯方法, 如今它的应用已延伸到各个问题领域, 在人工智能、计算机诊断、医学研究、经济学等方面都有重要的应用。对公式的发展背景及前沿作一介绍, 了解相应数学史及应用领域, 拓宽知识。通过一个简单的概率公式给我们的实际生活以理论指导, 这也是理论联系实际的一个表现。

通过这样的教学设计, 使学生学得主动, 学得深刻, 知识掌握得更加牢固。循循善诱, 步步紧逼, 激发学生的求知欲望, 使学生主动去学, 主动去探讨, 变被动为主动, 从而培养学生的探索能力和自学能力。不仅能理解该公式的含义, 更重要的是掌握了其应用及这种思想方法, 为后续的学习打好基础, 经过课堂实践, 效果非常好。

参考文献

[1]茆诗松, 程依明, 濮晓龙.概率论与数理统计教程 (第1版) [M].北京:高等教育出版社, 2004.

基于利他的贝叶斯均衡研究篇5

基于Marco G和Morgan J于2008年提出非合作博弈轻微利他理论[10],王能发[11]在企业成本信息完全公开且成本相同的条件下,引入利他因子0<ε<1,推广至n个企业的利他博弈,并且分析了随着利他因子的变化,总产量和总利润的变化规律,为实际竞争中打破垄断提供了最优策略。

本文推广张维迎[7]的结论,分析对手成本信息不完全公开下的古诺-纳什模型,比较成本信息完全公开与否对两个企业最优均衡产量的影响。并引入利他因子0<ε<1,讨论两个企业在成本信息不完全公开竞争中实现利他(期望)利润最优化的贝叶斯利他均衡产量,分析了利他因子对两个企业贝叶斯利他均衡产量的影响。

一、成本信息不完全公开的古诺模型

企业1的成本c1为公共信息,企业2的成本c2是两点分布的随机变量,c2以概率p21取到低成本c2L,以概率p22取到高成本c2H。其中p21+p22=1,p21cL2+p22c2H=Ec2。

企业1和企业2的利润函数:

假设1:π1(q1,q2),π2(q1,q2)分别为企业1和企业2的利润函数;

假设2:产品价格p=a-q1-q2,其中a为常数且a>c1,a>c2。

企业2的利润函数极值条件为:

企业2的反应函数:

由于企业1不知道企业2的使用成本,所以考虑企业1的期望利润函数:

企业1的期望利润函数的极值条件为:

企业1的反应函数:

联立(1)式,解得:

(q1*,q2*)即为两个企业在成本信息不完全公开下的贝叶斯均衡产量。

定理1设企业1在成本信息完全公开下的纳什均衡产量为q1*L和q1*H,有q1*L<q1*<q1*H,企业2在成本信息完全公开下的纳什均衡产量为q2*L和q2*H,有q2*H<q2*<q2*L。

证明:若企业2公开成本为c2=c2L,得到企业1的纳什均衡产量:

若企业2公开成本为c2=c2H,得到企业1的纳什均衡产量:

由于c2L<Ec2<c2H,所以

同理可证,对企业2有q2*H<q2*<q2*L。证毕。

结论:若企业2公开成本为c2=c2L,则企业1的纳什均衡产量低于贝叶斯均衡产量,企业2作出相应反应;若企业2公开成本为c2=c2H,则企业1的纳什均衡产量高于贝叶斯均衡产量,企业2作出相应反应。

定理2设企业1在成本信息完全公开下的最优期望利润为Eπ1*L(q1*L,q2*L)和Eπ1*H(q1*H,q2*H),在成本信息不完全公开下的最优期望利润为Eπ1*(q1*,q2*),有Eπ1*L(q1*L,q2*L)<Eπ1*(q1*,q2*)<Eπ1*H(q1*H,q2*H);企业2在成本信息完全公开下的最优利润为π2*L(q1*L,q2*L)和π2*H(q1*H,q2*H),在成本信息不完全公开下的最优利润为π2*(q1*,q2*),有π2*H(q1*H,q2*H)<π2*(q1*,q2*)<π2*L(q1*L,q2*L)。

证明:设企业1在成本信息不完全公开下的最优期望利润为Eπ1*(q1*,q2*),有Eπ1*(q1*,q2*)=(q1*)2

根据定理1,有q1*L<q1*<q1*H,则

同理可证,对企业2有π2*H(q1*H,q2*H)<π2*(q1*,q2*)<π2*L(q1*L,q2*L)。证毕。

结论:两个企业在成本信息不完全公开下的最优(期望)利润介于成本信息完全公开下的两个最优(期望)利润之间。

二、成本信息不完全公开下,考虑利他的古诺模型

在成本信息不完全公开的古诺模型里,引入利他因子0<ε<1。建立企业1和企业2的利他函数:

假设1:π1ε(q1,q2),π2ε(q1,q2)分别为企业1和企业2的利他函数;

假设2:产品价格p=a-q1-q2,其中a>0,a均为常数;

假设3:ε为利他因子,0<ε<1。

企业2的利他函数极值条件为:

企业2的反应函数:

由于企业1不知道企业2的使用成本,所以考虑企业1的利他函数期望:

企业1利他函数期望的极值条件为:

企业1的反应函数:

联立(2)式,解得:

(q*1ε,q*2ε)即为两个企业在成本信息不完全公开下考虑了利他的贝叶斯利他均衡产量。

定理3设企业1在成本信息完全公开下的纳什利他均衡产量为q1ε*L和q1ε*H,有q1ε*L<q*1ε<q1ε*H,企业2在成本信息完全公开下的纳什利他均衡产量为q2ε*L和q2ε*H,有q2ε*H<q*2ε<q2ε*L。

若企业2公开成本为c2=c2L,得到企业1纳什利他均衡产量:

若企业2公开成本为c2=c2H,得到企业1纳什利他均衡产量:

同理可证,对企业2有q2ε*H<q*2ε<q2ε*L。证毕。

结论:若企业2公开成本为c2=c2L,则企业1的纳什利他均衡产量低于贝叶斯利他均衡产量,企业2作出相应反应;若企业2公开成本为c2=c2H,则企业1的纳什利他均衡产量高于贝叶斯利他均衡产量,企业2作出相应反应。此结论与成本信息不完全公开的古诺模型结论一致。企业2成本信息不完全公开时,企业1采用的最优贝叶斯(利他)均衡产量介于企业2公开成本时的两个纳什(利他)均衡产量之间,企业2作出相应反应。

图2企业2的纳什利他均衡产量和贝叶斯均衡利他产量比较

考虑下列情形的数值模拟。

设a=2,c1=1,c2L=0.6,c2H=0.9,p21=0.5,p22=0.5,此时,Ec2=p21c2L+p22c2H<c1。取0<ε<0.7,做出企业1纳什利他均衡产量和贝叶斯利他均衡产量的比较图图1及企业2纳什利他均衡产量和贝叶斯利他均衡产量的比较图图2。由图1、图2观察到,无论企业2成本信息是否完全公开,企业1的均衡产量均随着利他因子的增大而减小。企业2的均衡利他产量随着利他因子的增大而增大,说明当企业2的成本具有明显优势时,企业2更倾向于利他。

定理4当0<ε<1时,两个企业的贝叶斯利他均衡总产量为Qε*(ε),满足Qε*(1)<Qε*(ε)<Qε*(0)。

证明:当0<ε<1时,两个企业的贝叶斯利他均衡总产量为Qε*(ε),有:

因为c1<a,c2<a,Ec2<a,所以:

因此Qε*单调递减。又

即Qε*(1)<Qε*(ε)<Qε*(0)。证毕。

结论:此结论具有一般性,无论企业2成本信息是否完全公开,两个企业的利他均衡总产量随着利他因子ε的增大而减少。

三、结束语

面对成本信息不完全公开的竞争,企业1的贝叶斯均衡产量介于成本信息完全公开时的两个纳什均衡产量之间,企业2相应作出反应,这一特征,在考虑了相同利他因子的情况下仍然成立。成本信息不完全公开下的最优期望利润,可能会比成本信息完全公开下的最优期望利润小,但是不失为化被动为主动的最优竞争策略。而两个企业总产量随着利他因子的增加而减少,这为企业在成本信息不完全公开下的反垄断提供决策参考。结论推广到n个企业成本信息不完全公开的竞争是否成立,或一般化为企业间的差异利他,结论会怎样改变,有待进一步论证。

摘要：本文比较了成本信息公开与否对两个企业均衡产量的影响,在成本信息不完全公开的情况下,引入利他因子0<ε<1,建立企业在成本信息不完全公开下的利他函数,讨论了两个企业在成本信息不完全公开下的贝叶斯利他均衡产量。

贝叶斯估计的图像分割技术篇6

图像分割是图像处理的最基本手段,它往住是各种图像分析与处理时的预处理过程。图像预处理其主要目的有两个:一是改善图像的视觉效果,提高图像成分的清晰度;二是使图像变得更有利于计算机处理。目前的分割方法以概率理论作基础,运用灰度点运算来实现图像的变换,从而达到图像增强的目的。这些方法是不以图像保真为原则的,它们是通过增强处理设法有选择地突出某些对人或机器分析感兴趣地信息,抑制一些无用信息,以提高图像地使有价值。在实际应用中,应针对不同的图像应采用不同的处理方法,或同时采用几种适当的算法进行实验,从中选出视觉效果较好的、计算不复杂的、又合乎应用要求的一种算法。因此图像分割技术大多属于试探式和面向问题的[1,2]。因为图像分割的理论来自连续函数,而数字图像的灰度是离散值,所以在图像分割中存在以下问题:(1)量化误差,造成原图某些灰度信息的丢失:这个就是因为分割以连续函数为参考的,但是数字图像的灰度信息是离散的,这就必然会存在一个近似值,也就必然会产生误差,这里丢失的信息一定是数量很少的像素,使用加权直方图均衡算法可以从根本上减小这种现象[3,4]。(2)结果图像中概率密度的不均匀性:直方图均衡化只是改变图像中同意灰度层上的分布,所以,从信息的角度看,原图中的同一灰度层上的像素点代表了相同的信息,不能通过变换使原本带有相同信息的像素点变成带有不同信息的像素点[3,4]。所以,造成直方图均衡在对灰度呈现两端分布,达不到满意的效果。因此针对以上分析,为提高图像分割的精确度,本文首先采用自适应直方图增强的方法对图像的目标信息进行增强。其次具体研究了贝叶斯最小风险模型和阈值分割的关系,该研究对图像分割中阈值的选取提供了重要的参考[5]。

1 基于贝叶斯公式的全局和局部法相结合的二值化算法

图像分割阈值选取算法是根据图像直方图的全局和局部特征自适应选取灰度级作为灰度直方图分割阈值来进行图像灰度直方图分割的[6,7]。根据对直方图观察,直方图具有双峰特征,可以根据图像的双峰特征求得的灰度直方图分割阈值nth,然后将图像直方图分割成为目标和背景两部分。首先进行图像直方图增强,其具体算法如下:首先对图像进行中值滤波,在其灰度直方图上寻找目标与背景的峰值,计算出主峰峰值h(n1)。其次,利用灰度变换分别将背景灰度级[0,nth]和目标灰度级Nf映射到整个灰度域[0,Nf]中,其中:Nf是图像的灰度的峰值,即:

其中:Nf是图像的灰度的峰值,得到背景图像g1和目标图像g2,将两幅图像进行如图1的加权叠加得到增强图像g。

算法增强后的图像,目标信息较灰度变换增强后的目标信息更为明显,而背景信息得到了更好的抑制,为后续图像分割阈值T的选取提供了良好的条件。

2 贝叶斯分类

对于通常的二值假设检验问题,如果P(H0/z)>P(H1/z),则决策规则选择H0;如果P(H0/z)<P(H1/z),则决策规则选择Hl,这个决策规则就是最大后验概率准则,其中,P表示概率,H0和H1表示决策结果,z表示独立同分布的高斯变量。

图像I(m,n)的分割属于假设检验的贝叶斯分类问题,有:

式中:λ是图像的贝叶斯阈值,满足:

假定P(z)是图像I(m,n)的概率密度函数,那么

设G为输入图像的灰度图,则其有L层灰度的直方图H={h0,h1,……,h L-1},灰度概率密度为P(i)=h(i)/N,i=0,1…,L-1,N为G像素总数。G被最优阈值T分为Gb(背景)和Gf。所以有权概率公式得:

式中:Pbi=1-pfi则P(Gb)=1-P(Gf)(7)

采用香农最大熵原理作为判别准则,则熵函数E为

把式(6)代入,则式(7)可改写为

当P(Gf)=0.15时熵函数E取最大。然而在实际应用中,由于直方图离散,P(Gf)很少能完全等于0.5,可以转而求最小误差:

阈值T的选取方法:

选取阈值T将图像分为背景信息和目标信息两类,两分类(设类分别为ω1,ω2)问题中,设先验概率为P(ω1),P(ω2),表征类特征的参数为x,由贝叶斯公式:

得到的条件概率称为后验概率,表示当观测特征值为x时它属于类ωi的概率。最小错误率贝叶斯决策规则分割阈值即可表述为:

即依据阈值T进行图像分割,能够在单一概率分布下取得相对最小的分割错误率[8]。

贝叶斯线性回归检测模型:设P(θ,Z)表示参数向量θ和观测向量Z的联合概率密度函数,则Bayeas准则可以表示为:

这里P(θ)表示参数向量θ的先验概率密度函数,而P(Z/θ)表示观测向量Z基于θ的条件概率密度函数,通常称之为θ的似然函数。在参数突变的线性回归模型中观测集合为y=(y1,y2…yn)、Tx1γ=x11,x12,…x1γ、z=(z1,z2,…zk)。对观测数据按下面方法重新排序:对给定一组(π1,π2,…πk-1)首先对由状态y1产生的观测数据,按出现的时间顺序排列为y1*,y2*,…y*t1同时将x1γ中相对应的值排列为x*11,x*12,…x*1t1对状态2进行相应处理,依次进行下去,直至状态k。我们可以得到:

εkT=(ε*k,ti-1+1,ε*k,ti-2+2…)其中(i=1,2,…,k),εi中元素排序与xk中元素排序相对应。

令π=(π1,π2,…πk-1)是k-1维的变化阈值向量。由于各个时刻观测是相互独立的,因而似然函数:

假设先验概率密度为:P=(0,σ2,π)=P=(0,σ2)·P(π)(14)

再令D=(Y,X,Z)

则后验概率密度:

两边同时对θ,σ2积分,其中θ的最小二乘估计:

其中就是(2)式中第i个状态的模型Yi=Xiθ+εi中参数θi的最小二乘估计。在实际计算中,变化阈值向量π=(π1,π2,…πk)的先验概率密度一般都取作下面形式的含糊先验概率密度:P(π)∝1。

实验结果可以看出,读入的原始灰度级图像,设定目标图像(即非边缘轮廓)为类别ω1,非目标图像(即边缘轮廓)为类别ω2,从直方图中发现它们的灰度级类条件概率密度分布基本满足正态分布并从直方图中估计出目标图像和非目标图像的数学期望,μ1,μ2,方差σ12,σ22同时计算出目标图像和非目标图像在整幅图像中所占比例,即目标图像和非目标图像的先验概率P(ω1)和P(ω2),图2是贝叶斯估计模型对阈值T判断的结果,红圈代表异常阈值,绿色‘+’代表正常阈值,从直方图中估计出,μ1=50,σ1=2.6,μ2=180,σ2=0.22,计算得P(ω1)为0.3669,P(ω2)为0.6331,依据最小风险贝叶斯决策理论进行图像分割。

由于选用不同的初值可能带来最后结果的差异,实验选取了8个不同的初值,将所得结果列表比较表1。

在提取的125组数据中,平均峰值分别是174.9960和67.2340,协方差矩阵为运用最小错误率贝叶斯分类器,有18组像素值被错误判断,总的错误率为14.4%,最小风险贝叶斯决策理论分割图像如图3所示经过最优选取的阈值是T=172.2440,经过对异常阈值的排除,图3是本文提出的算法结果,通过图3与图4的比较,可以看出很好的去除的背景信息,同时目标图像的边缘也保持的较好。

3 结论

3.1 在分析了各种全局阈值法和局部阈值法各自优缺点的基础上,根据直方图的双峰特征提出了一种自适应直方图增强的算法算法增强后的图像,使[100-255]的灰度域显示的更为清晰,目标信息较灰度变换增强后的目标信息更为明显。

3.2 一般的非聚类分割,需要预先的指定分割的区域,对各个区域进行样本统计,本文从数字图像信息入手,利用信息论的方法,建立贝叶斯线性回归模型判断检测的正确性。并对计算的阈值样本进行模拟,结果显示提出的方法利用了所有可能获得样本信息,对提取的125组样本采用本文建立的判断模型,将14.4%的阈值分割点剔除。

摘要：针对图像在动态阈值选取难的问题,通过比较全局阈值和局部阈值优缺点,选用贝叶斯阈值估计和迭代加权的方法对图像进行二值化分割,建立基于贝叶斯线性回归模型对检测到的阈值进行分析,通过图像增强,建立目标与非目标区域,分别计算各个区域的先验概率,使用贝叶斯估计模型求得似然函数的极小值即为后验概率,通过此模型对125组阈值样本进行分类,对异常阈值的判断率为14.4%,选取后的阈值更为精确。本文方法,既能有效的提取目标特征,较好的去除背景,又能够保留目标图像的细节。

关键词：图像分割,贝叶斯模型,全局法,局部法

参考文献

[1]王洪刚.贝叶斯理论在医学图像处理中的研究与应用[D].吉林:吉林大学,2006.

[2]范九伦,雷博.灰度图像最小误差阈值分割法的二维推广[J].自动化学报,2009,35(4):386-393.

[3]张新峰,沈兰荪.图像分割技术研究[J].电路与系统学报,2004,(2):92-99.

[4]杨昕梅,周进,吴钦章.基于灰度分布的概率密度实现实时图像分割[J].辽宁工程技术大学学报,2007,25(2):264-266.

[5]郭平,卢汉清.贝叶斯概率图像自动分割研究[J].光学学报,2002,22,(12):1479-1483.

[6]李小斌,田铮,刘密歌,徐海霞.基于加权割的图像分割[J].电子学报2008,36(1):76-80.

[7]范九伦,赵凤.灰度图像的二维Otsu曲线阈值分割法[J].电子学报,2007,(04):751-755.

基于贝叶斯公式的保费的确立篇7

一、保险费的计算

(一) 保险费率

保险费率是计算保险费的依据, 以财产保险为例, 它是根据存放地点的好坏, 危险可能性的大小, 保险标的种类, 可能造成损失的程度以及保险期限等条件来考虑的。在计算保险费率时, 其保险金额单位通常以每千元为单位, 即是每千元保险金额应交多少保险费, 通常以‰来表示。保险费率由纯费率和附加费率两个部分组成。这两部分费率相加叫做毛费率, 即为保险人向被保险人计收保险费的费率。其中财产存在的危险可能性存放地点的好坏、可能对财产造成损失的程度可以用损失率来衡量。

根据以上分析, 保险费率的计算公式为:

式中, 1P表示保险费率, λ表示比例系数, P2表示损失率, T表示保险期限。

(二) 保险费

保险费是指在被保险人参加保险时, 根据其投保时所订的保险费率, 向保险人交付的费用。保险费由保险金额、保险费率和保险期限三部分构成。保险费的数额同保险期限的长短、保险费率的高低和保险金额的大小成正比, 即保险期限越长, 保险费率越高, 保险金额越大, 则保险费也就越多。交纳保险费是被保险人的义务。如果被保险人不按期交纳保险费, 在强制保险中, 就要附加一定数额的滞纳金, 在自愿保险中, 则保险合同失效。交纳保险费一般有4种方式:按季交纳、按年交纳、一次交纳、按月交纳。其中保险金额由投保人根据保险价值在投保时向保险公司申报, 也即由保险人与被保险人约定, 保险金额要求不得超过其保险价值, 超过保险价值的, 超过部分无效。保险价值一般包括运费、货价、保险费以及预期利润等。由此可以看出, 保险金额是保险单位与被保险人事先确定好的, 对某一具体的保单而言, 也是一个定值。

综上, 保险费的计算公式为:

式中, 1C表示保险费, µ表示比例系数, 1P表示保险费率, C2表示保险金额, T表示保险期限。

二、贝叶斯公式

以离散情况为例, 设B1, B2, LBn是样本空间Ω的一个分割, 即是:B1, B2, LBn是互不相容的, 且, 也表示状态集Ω={Bi}, A={ia}表示行动集, 状态变量的先验分布为P (iB) , i=1, 2, …, n, 行动集的成功率为:P (ia|iB) , 即在状态为iB的条件下, 行动ia的成功率。

如果P (A) >0, P (iB) >0, i=1, 2, …, n, 则状态变量的后验贝叶斯公式为:

本文主要从保险公司的角度, 讨论贝叶斯公式在保险学中的应用。首先按照先验分布计算行动集向量A= (a1, a2, Lak) 发生的概率, 而后把向量A看成是一组样本, 重新计算状态变量发生的概率, 也即是利用后验贝叶斯公式计算状态变量的发生率, 如此就可以用新计算出的状态变量的发生率来计算未知行动的成功率。

三、应用实例

保险学是一个比较广泛的学科, 为了突出贝叶斯公式在保险学中的地位, 本文以保险学中的一个具体事例加以分析。

某快递公司为了增强自己的竞争力, 减少自身的损失, 现决定在每一次递送前都为该次递送买一份保险。保险公司为了合理确定保费, 现对该公司的运输情况做一个统计。保险公司经调查了解到, 该公司以前曾接收过n=10000次运输任务, 其中在1n=1500 (n1≤n) 次运输中, 信件出现了丢失。

现利用上述信息来计算保费:

(一) 首先来计算保险费率

记ix表示第i次运输情况, i=1, 2, …, n

保险公司根据以往的经验得到P (xi=1) =p0,

在P (xi=1) =p0的情况下, X~B (n, p0)

因此, P (xi=1, X=n1) =P (xi=) 1*P (X=n 1|xi=1)

根据邮件邮寄所需要的时间也即是保险的时间T=5, 有保险人和被保险人协商得到比例系数λ=0.01利用 (1) 就可以得到保险费率1p=.03。

(二) 计算保险费

上述已经求得保险费率, 再由快递公司和保险公司商量确定好保险金额C2=1010, µ=0.2以后, 利用公式 (2) 就可以直接得到每一份的保险费1C=3.3。