Bayes方法

2024-10-06

Bayes方法(共7篇)

Bayes方法 篇1

Bayes公式是大学数学课程———概率统计中的重要公式之一.既是教学的重点,又是教学的难点[1-3].同时它也是贝叶斯统计的核心和理论基石,并且在实际生活中应用也十分广泛.Bayes公式始于17世纪,由英国数学家贝叶斯发展而来,主要用于处理由果溯因问题.即已知实验结果,探求导致结果发生的某种原因可能性的概率问题.是根据先验概率探求后验概率,从而做出决策分析.例如出现了某种毒品,寻找毒品源;又如某学生考试成绩不理想,寻求故障源等等.

1在 Bayes公式教学中学生认知障碍的成因分析

在以往教学实践中,Bayes公式的教 学效果十分不理想.作者通过案例分析,发现造成学生认知障碍的成因如下.

1.1传统教学观念是导致学生认知障碍的一个关键因素

目前大学教学过程中,传统式教学手段比比皆是.即先给出概念、公式、定理,然后再去解释概念,推导公式、定理的教学方式.这种教学模式在Bayes公式教学过程中往往是事倍功半.

1.2Bayes公式 本 身 的 知 识 结 构 造 成 认 知障碍

Bayes公式是从现实生活 中抽象出 来,有其鲜明的特色和强烈的直观意义.一方面其形式比较复杂,不便于学 生记忆,另一方面,它是一种“逆向思维方式”.很多学生因此产生了“知识断链”,进而不能对其形成很好地认知.

1.3学生获取知识的方式造成认知障碍

学生接受“Bayes公式”的思想往往过多依赖于教材.同时教师在授课过程中,往往忽视学生的认知发展规律,忽视学生从现实生活中发现问题、提出问题和解决现实问题的能力;学生不能理解其由来和应用价值,生搬硬套,没有主动去发现和提炼出其所包含的概率思想和统计方法.

1.4学生整合水平不高造成认知障碍

由于整合水平低,学生不能迅速地将捕捉的知识信息纳入已有的知识系统,也不能根据需要来激活、检索和提取信息.致使应用起来困难重重,易于全概率公式混淆.并对公式的作用模糊,不利于解决实际问题等等.

2Bayes公式教学方法探讨

基于以上分析,作者结合教学实践,在教学过程中尝试了以下教学方法.

2.1转变教学观念,优化教学内容

首先应当转变教学观念.在Bayes公式教学过程中,由以往的侧重教师传授为主转变为鼓励学生创新和应用为主.做到“理解理论,掌握应用”.教师在授课过程中要选用一些生活实例,比如用Bayes公式分析“狼和孩子”的故事中,村民对小孩的可信度是如何下降的;又如用Bayes公式分析“出现某种传染疾病,寻找传染源”等.运用Bayes公式的方法观察和分析这些实例,以此来激发学生的学习兴趣,让他们感受到知识的实用性.

2.2创设教学情景,激发认知动因,使学生体会 Bayes公式的特点

通过生活实例,创设情境,使学生在解决问题过程中体会Bayes公式的特点.

例1某地在过去的20年里一共发生过2次被盗,该地的主人有一条狗,狗平均每周晚上叫3次,在盗贼入侵时狗叫的概率被估计为0.9,问题是:在狗叫的时候发生被盗的概率是多少?

解析设事件A={狗在晚上叫},事件B={被盗},则A珡={狗不在晚上叫},B珚={未被盗},以天为单位统计,则有

问题:狗叫,结果是发生被盗的概率,即求P(B|A).由条件概率公式易得

再由乘法公式得

于是有

例2商店的玻璃杯成箱出售,每箱10只.假设每箱含0,1,2只次品的概率为0.8,0.1和0.1.有一顾客欲买一箱玻璃杯,售货员随意取一箱交给顾客,而顾客只随意察看了其中4只,结果未发现次品,于是买下.试求在顾客买下的一箱中确实无次品的概率.

解析引入事件A={顾客买下所察看的一箱},Hi={箱中恰有i件次品}(i=0,1,2).由条件知

P(H0)=0.8,P(H1)=0.1,P(H2)=0.1.

P(A|H0)=1,

由全概公式知

于是,再由乘法公式得

从而有

上述问题的实质是求“所买一箱无次品”结果是由“察看”原因造成无次品的概率.在顺应知识同化中推导出一个新的公式,推而广之,就得到Bayes公式.简述如下:

设事件H1,H2,…,Hn为样本空间Ω的一个分割 或完全事 件组,即满足:则对Ω中任一事件A,有

这里事件A表示某种实验结果,事件 {H1,H2,…,Hn,…}是关于A发生的原因.其特点是贝叶斯公式的分母便是全概率公式,而分子是分母的其中一项.

2.3引导学生形成建模的思维机制,扩大认知成果,完善认知结构

Bayes公式提供 了一种重 要的统计 方法,即如何充分利用验后信息逐步修正对事件概率的估计.是人们充分利用概率方法进行决策的一个有力的工具.在Bayes公式教学过程中要使学生理解模型的内容、处理方法和应用价值,在遇到同类型的问题时能迅速地提取和对应起来,将复杂的问题转化为简单的模型加以处理.

例3[5](Bayes公式在医疗诊断上的应用)假设在一项利用血液化验诊断某种疾病的过程中,发现95% 的患者反应呈阳性,但是其中有1% 的健康人也呈阳性反应———伪阳性.统计资料表明,这种疾病的患者在人口中的比重为0.2% .试求这种血液化验反应呈阳性的实际并没有患这种疾病的概率.

解随机抽取1人进行化验.设事件A={血液反应呈 阳性},H1= {患者},H2={非患者}.则由已知条件知

于是,由Bayes公式得

上述计算结果表明:利用这种验血方法,尽管对于确实患有这种疾病的确诊 率高达95% ,但是在血液化验呈阳性反应的人群中平均约有84.1% 的人没有患这种疾病.即用这种方法进行诊断,把未患这种疾病的人误诊为患者的概率高达84.01% .显然,需要改进这种验血方法.

为了降低错检率,在实际医务工作中,一个行之有效的方法就是———复查.譬如,对首次检查“患者”的人 群再进行 复查,此时P(H2)=84.01% ,P(H1)=15.99% .再用贝叶斯公式计算得

复查结果 使这种验 血错误率 不足5.1% ,两次利用贝叶斯公式定量地对医学问题进行相关分析,使其结论更具有可信度,何乐而不为?

2.4整合教学资源,提高学生整合水平,使教学迈上新台阶

通过学生的课 堂表现以 及课后调 查发现,把案例教学法、类比教学法和启发式教学法等融入讲授式教学中具有很强的实用性.利用贝叶斯公式解决实际问题往往是用全概率公式将复杂事件的概率拆分成若干简单事件的概率,应用的难点在于揭示贝叶斯公式本身各要素的内在关系.因此从教学过程中,既要强调公式本身的特点、作用,又要挖掘其所包含的统计推断思想,从而达到既突出了教学重点,又顺利完成了教学内容的目标,值得实践.

Bayes方法 篇2

标签对象位置的推断方面, 对阅读器固定而标签对象移动的应用场景, 文献[2]提出了一种通过分析监控对象之间的关联度来进行数据填补的模型。在有小组参与的应用场景中, 该模型可以提高数据填补的效果;货物相对固定而阅读器随移动的应用场景, 美国Massachusetts大学则以阅读器移动, 标签对象相对固定为应用场景设计了RFID概率推演系统[3], 旨在将缺失的、带有噪音的原始数据流清洗成带有较精确标签位置的事件流。文献[4]基于采样机制提出一种粒子过滤技术, 从RFID原始数据流中推断出标签对象的位置信息;但该机制讨论的是阅读器及标签均可移动的情况。文献[5]提出基于贝叶斯推理的数据清洗方法MH-C。利用数据冗余对探测对象的位置进行推断, 针对每个探测对象的可能位置, 将探测对象的整体位置分布的所有可能作为采样空间, 采用改进的蒙特-卡洛机制对标签位置进行采样, 经过有限步骤得到探测对象总体的位置分布。但随着部署环境中阅读器及标签对象数量的增多, 采样空间急剧扩增, 很难同时保证算法的准确性和高效性。文献[6]提出随时间变化的图模型来有效地捕获标签对象间的关系 (如小组关系、包含关系) , 继而通过概率推演算法推断出每个标签对象的位置, 该算法考虑了RFID数据的不完整性和不确定性, 但仍基于标签在某一时刻只被单一阅读器读到的前提, 没有考虑数据冗余及具体应用中的约束条件.

基于Bayes原理的统计推断方法能够在考虑不确定性的基础上给出更合理的参数估计, 但往往需要进行大量的采样计算, 随着采样方法的发展, 新型采样算法大大削减了高维采样的计算复杂度, 使Bayes估计得以实现。本文建立利用RFID原始冗余数据反演RFID系统中标签符号位置参数的Baye模型, 对符号位置参数进行了估计, 主要贡献如下:

(1) 详细分析了RFID数据模型, 推导了待估计符号位置参数的条件后验概率分布, 建立利用多阅读器的冗余数据反演目标符号位置参数的Bayes模型。

(2) 融合监测区域中的先验知识和约束条件, 提出了采用MCMC方法中的Metropolis-Hastings抽样估计符号位置参数, 提出并证明了参数估计算法性能的检验模型。

(3) 实测数据与大量仿真, 将本方法与Sequential Importance Sampling (SIS) [6]的性能进行了比较, 证明了所提出方法的效率和效果。

1 Bayes模型的建立

1.1场景描述

本文研究的对象是湖南张家界某风景区基于RFID技术的旅游智能管理系统[7], 通过RFID电子门票的使用, 实现游客流量统计与密度分析、游客游迹跟踪与追溯, 从而规范景区内部管理以规范旅游行业, 保障消费者的权益, 促进旅游市场的良性发展。景区的实验采用远望谷支持EPC Gen2协议与ISO18000—6C标准的XCRF—860密集型阅读器和Inlay嵌体的无源电子标签XC-TF8029-C07作为现场的基础设备现场的实验结果显示, 由于环境湿度和人体的个体差异, 尤其是当游客密集的时候, 阅读器对游客的身份识别卡 (电子标签) 的获取率在50%~60%之间, 这降低了游客识别率。为了提高精度, 在游客集中通过的地方, 增大了阅读器的数量。增加的阅读器识别区域在空间上交叉的, 这些从硬件上报的原始游客游迹数据量是海量的, 但可能只有少部分是对用户有意义的、非重复性的数据。

因此, 抽象后的场景如图1所示。将阅读器的识别范围分为3个部分:主识别区域、次识别区域以及0识别区域, 各个区域分别对应于阅读器所在位置区域、阅读器所在位置的相邻区域以及无法识别区域。其中, 于二者间存在共同的交叉探测区域而构成一组交叉读写器空间组 (被动式读写器的探测区域在平面上是如图1中虚线所示的近似扇形) 。

1.2 RFID识别模型

根据图1场景, 当附着标签的对象进入阅读器的感知范围内时, 就会产生一个RFID标签的读数。将标签对象标记为Oi, i= (1, 2, …, n) ;数据元ri= (r~EPC, o~EPC, t) , 其中, r~EPC和o~EPC分别表示阅读器和电子标签的EPC编码, t表示标签对象被识别的时间戳。由于EPC编码仅仅是一个理论上的标准, 在实际应用中, 一般都采用预先设定的连续编码来标记阅读器和监测对象, 相当于将EPC编码映射成为一个逻辑的id号。因此, So表示o~EPC集合, 通过映射f:So→N, 这样就用Oi表示具有id号i的标签对象;Sr表示r~EPC集合, 通过指定映射g:Sr→N, 每个阅读器指定关联一个逻辑区域, 用变量hi标记该区域, 表示实际应用中的某一指定位置的id号i的逻辑区域, 多个r~EPC映射为hi, i= (1, 2, …, n) 。

将t时刻在整个监控区域内标签对象的集合标记为R (t) , t时刻某个逻辑区域i探测到的标签定义为, 需要说明的是, 阅读器一般都会预先布置在指定的逻辑区域, 位置不会在应用中发生变化;而标签对象Oi将动态地穿梭于各个rm, 因此rm (t) 是动态变化的。

定义1数据元 (data element) 阅读器对进入其识别范围中对象的探测上报的数据, m个区域中的阅读器获取n个监测对象原始数据元矩阵用珗R表示, 该举证元素rij表示位置j中的阅读器读到标签Oi的情况, 其中, rij=0表示位置j中的阅读器没有读到标签Oi, rij=1位置j中的阅读器读到标签Oi。

定义2符号位置集 (symbol location set) 标签符号位置Oi在m个区域中的可能位置集合为, 其中, p (hi|珗R) 表示标签符号对象Oi在区域位置hi的后验概率, 简写pro (hi) 。

定义3先验知识 (prior knowledge) 关于阅读器及部署环境等先验知识 (如阅读器的误读率、部署情况) 先验知识。由先验知识所知, 一旦获得的rij为非0, 可以判定肯定某个阅读器探测到某个标签对象, 则先验知识如公式 (1) 所示。如果pro (h1) >pro (h2) , 说明符号位置在1的位置比2具有更大的可能性。

定义4约束条件 (Constraints) 每个位置区域关联被称为资源描述符的多重变量, 将位置区域i关联的资源定义为一个变量, 记作Capi, 表示位置区域i的空间容量;将位置区域i中的对象数量定义为一个变量, 记作Volj。约束的条件是如果位置资源变量大于或等于容纳对象数量, 否则, 分配的位置无法容纳放置对象的体积, 必须重新采样直到一个新的位置满足所有的约束。约束条件如式 (2) 所示。

RFID阅读器传输和标签传输可能导致碰撞因为阅读器和标签使用共用的无线频道来进行通信。当邻近的阅读器同时与一个标签通信时, 产生阅读器碰撞, 当多个标签在同一时间与一个阅读器进行通信时, 产生标签碰撞。但是, 仲裁协议能够有效地阻止这两种类型的碰撞。因此, 在研究中, 假定不产生碰撞为前提, 得到性质1—性质2。

性质1符号位置集各个元素hi之间相互独立。

性质2之间相互独立。

综合上述, RFID的识别模型将阅读器的所有识别区域划分为几个子区域, 每个子区域对应关联一个具有唯一阅读速率的区域, 跨越邻近的子区域的阅读速率的差异是一个常量。对于一个具体的阅读器来说, 在n-态识别模型下, 各个区域的识别速率依次为x, (n-1-1) x/n-1, …, (n-1-k) x/n-1, …, x/n-1, 0。本文采用3态识别模型, 假设在该模式下的最高阅读速率是x, 第一状态拥有x速率, 第二状态保持x/2速率, 第三状态为0速率, 则信号模型如式 (3) 所示。

2参数估计方法

2.1待估计位置参数后验分布

Bayes原理是根据已知观测数据 (y) 来估计未知数据 (x) 的概率一种统计归纳推理方法。根据Bayes原理, 假设某个时刻M个位置上的阅读器对位置标签i的阅读情况为, 由此推断位置标签i在位置hi的后验概率

由全概率公式得知,

, 代入式 (4) 得到

式 (5) 中p (hi) 为标签i在位置hi的先验概率, 先验概率即为观察数据未知时候标签对象i在所有可能位置的概率分布, 通常认为是均匀分布。由此式 (5) 可以化简为

式中, 称为关联概率, 即已知标签i在位置hi的条件下能够得到的概率。未知符号位置参数变量的先验概率分布根据先验知识给出, 各个观测数据相互独立且服从均匀分布, 式 (7) 显示利用观测到的数据反演位置参数。

2.2 Markov Chain Monte Carlo抽样

Markov Chain Monte Carlo (MCMC) [8]方法通过构造一条非周期不可约的Markov链, 其样本近似为目标概率分布的样本, 可用来估计目标分布。Metropolis-Hastings (MH) 抽样器[9]是应用最广泛的MCMC抽样器之一, 它抽样通过重复考虑随机地对每个分量产生变化来实现, 基于它们如何影响状态的概率或接受或拒绝这种变化。本文采用Metropolis-Hasting抽样算法。

借助辅助的提议函数q (x, y) 构造一个目标分布π (x) 的Markov链。提议函数的形式与目标分布越接近, 则模拟的效果越好, 且满足以下三个条件: (a) 对于固定的x, q (x, ·) 是一个概率密度函数; (b) 对于的值要能够计算出来, 其中S表示状态空间; (c) 对于固定的x, 能够方便地从q (x, y) 中产生随机数。本文构造的提议函数描述为

式 (8) 中, 令Ci表示第i个抽样样本, Pi表示第i个提议样本, S表示均匀提议分布的步长, Rand (-S, S) 表示根据均匀分布产生整数一个随机。具体的步骤描述如下:

(1) 第0次迭代, 从阅读器上报原始数据中选择合格样本, 构建提议函数q (x, y) , 初始化迭代P1。

(2) 迭代次数j, 其中j∈[1, Dobject]。

判断提取的样本是否满足式 (1) 和式 (2) , 如果不满足, 重新抽样;如果满足, 根据式 (8) 计算接受概率

(3) 抽取样本u~U[0, 1], 如果u≤α (x, y) , 则接受该提议样为Markov链的下一个状态, 否则, Markov链保留原状态。

(4) j←j+1, 返回 (2) 。

2.3位置参数估计性能分析

符号位置参数估计后验分布, 消除了系统的无效状态, 利用熵衡量该系统的性能。针对n-态信号识别模型来说, 阅读器成功获取符号位置标签数据可能出现的区域个数为2 (n-2) +1=2n-3, 将先验概率假设为一个均匀分布, 令x是最高的阅读速率, 则位置i的区域中阅读速率为 (n-i) x/n-1, L表示对象i的真实位置, 根据等式 (9) 的右面, L的概率分布如下:

得到如下定理:

定理在满足先验知识和约束条件的前提下, 3态识别模型比其他态模型得到的位置参数的估计能使系统的性能更佳。

证明:

因为n-态模型所有的2n-3个区域概率和为1, 即

由式 (9) 、式 (10) , 可得n-态模式的熵:

令, 则熵函数为

n-态模式的熵函数H (L) 关于n是递增的, 设置x=0.95, 当H (L) |n=2=1.098, H (L) |n=3=0.395。因此, 当且仅当n=3时熵最小, 参数估计的精确性最高。证毕。

3结果分析

3.1实验环境与数据集

RFID冗余数据的符号位置的参数估计具有两个显著特点:一是原始上报数据与位置参数之间的地位非对称性;二是参数估计的实时性。非对称性表现原始上报数据是符号位置参数数量数倍;实时性表现在标签与具体位置的相对运动, 给参数估计带来困难。

实测数据通过湖南张家界某景区的游客管理系统获取, 并与本文的模拟方法进行对比并分析了数据误差的原因;仿真试验对RFID冗余数据中位置参数的Bayes估计方法进行了验证, 仿真实验通过真实的矩阵发生器随机地产生具有真实的分布效果的分布矩阵, 噪声矩阵发生器按照相同格式提供类似RFID原始数据噪声的噪声矩阵, 仿真实验所用的参数如表1所示。

3.2实验结果与分析

3.2.1符号位置参数估计计算效率

本节实验主要验证符号位置参数的Bayes估计的效率, 衡量的指标为算法的抽样时间, 抽样时间越小说明抽样的算法效率越高。与SIS相比, MC-MC的平均采样时间随着合格样本的数量显著地减少, 如图2所示。例如, 对于5 000个合格样本来说, MCMC的采样时间是11.58 s, 而SIS的采样时间是230.78 s。因此, MCMC比SIS花费更少的时间来产生相同数量的合格样本。

3.2.2冗余度的位置参数估计曲线

本节实验验证数据冗余度对符号位置参数Bayes估计精度的影响, 数据冗余度反映数据误报程度, 验证衡量的指标为K-L散度, K-L散度越低说明估计的精确度越高。设置样本数量为5 000, 数据冗余度从0.325变化到0.475, 主要识别区域中的阅读速率相应地从65% (最小可靠的阅读器) 变化到95% (最大可靠阅读器) 。图3显示了这些结果, 随着数据冗余度的增大, MCMC和SIS的K-L散度都随之降低, 说明在约束精确度方面的性能是逐步提高的。重要的是, MCMC比SIS一直维持在一个较低的散度, 这证明本文提出的算法比SIS更为精确。

3.2.3数据量的位置参数估计曲线

本节实验验证数据量对符号位置参数的Bayes估计精度的影响, 衡量的指标依然为K-L散度。首先将合格样本的数量从500增加到9 000来研究MCMC和SIS对重构精确度的性能。图4所示, 随着合格样本数量的增大, 两种方法的SK-L散度值全部保持减小。但是, MCMC总是比SIS性能要好。尤其是, 当我们绘制了500个合格样本时, MCMC的SK-L散度是0.86而SIS的SK-L散度是3.78。因此, MCMC比SIS花费更少的时间来产生相同数量的合格样本。

3.2.4模拟与实测位置参数对比分析

本节实验验证实测数据与本算法效果对比。随机选择了10个旅行团对位置参数算法进行了对比测试, 分别在晴天、雨天、多云、高峰期等条件下进行测试, 测试的方法是通过导游给每个游客一个吊牌式电子标签, 通过关联阅读器的ID号, 验证游客的位置识别率。实验的结果如图5所示, 显示第7组实验团的误差最大, 其主要原因在于当天大雨且人数非常地拥挤, 造成数据上报缺失, 其他组游客位置参数的识别与人工测量值具有良好的一致性。

4结论

利用原始RFID阅读器上报的数据反演符号位置参数的Bayes方法, 以先验知识和约束条件为基础, 利用3-态RFID识别模型, 有效地估计了多阅读器环境下, 符号位置参数的精确估计, 可作为仓储物流的跟踪与追溯、数据统计与查询等系统的基础参数。仿真实验验证了在噪声环境下, 随着RFID数据冗余度的增加, K-L散度则逐步减小, 说明Bayes估计的精确性更高;符号参数呈正态分布。本文建立的Bayes模型可进一步发展, 例如将标签的时间戳观测数据用于参数反演, 以期降低RFID数据的不确定性。

摘要:RFID设备固有的限制和环境噪声的影响, 造成RFID原始数据的不确定性。为了估计RFID冗余数据中位置参数, 提出了利用多阅读器观测到的冗余数据反演目标符号位置参数的Bayes方法。该方法以3-态识别模型为基础建立了Bayes推论模型, 通过融合监测区域中的先验知识和约束条件, 采用Markov Chain Monte Carlo (MCMC) 的方法求解Bayes联合概率分布, 进而得到符号位置参数的后验概率分布。模拟实验结果表明, 符号位置参数的估计方法可以获得较好的效率和准确性。

关键词:RFID,冗余数据,Bayes方法,MCMC方法

参考文献

[1] Hahnel D, Burgard W, Fox D, et al.Mapping and localization with RFID technology.In:International Conference on Robotics and Automation, 2004:1015—1020

[2] Cu Y, Yu G, Chen Y G, et al.Efficient RFID data imputation by analyzing the correlations of monitored objects.In:Database Systems for Advanced Applications, 2009:186—200

[3] Thanh T, Charles S, Richard C, et al.Probabilistic inference over RFID streams in mobile environments.In:International Conference of Data Engineering, 2009:1096—1107

[4] Chen Haiquan, Ku Weishinn, Wang Haixun, et al.Leveraging spatio-temporal redundancy for RFID data cleansing.In:Proc of Special Interest Group on Management of Data, Indiana, USA, 2010:51—62

[5] Cocci R, Tran T, Diao Y L.Efficient data interpretation and compression over RFID stream.In:Proceedings of Internatianal Conference on Data Engineering, ICDE, Cancun, Mexico, 2008:1445—1447

[6] Xie J, Yang J, Chen Y, et al.A sampling-based approach to information recovery.In:ICDE, 2008:476—485

[7] 卢印举, 苏玉, 单国全.基于RFID技术的跟踪与追溯系统研究.煤炭技术, 2012;05 (6) :163—164

[8] 侯云山, 黄建国, 金勇.基于MH抽样的Bayesian方位估计快速算法.系统仿真学报, 2009;10 (19) :6033—6035

Bayes方法 篇3

分类是模式识别中重要功能之一,在很多领域中都有广泛的应用,通过计算机对一组事件或过程进行辨识和分类,所识别的事件或过程可以是文字、声音、图像等具体对象,也可以是状态、程度等抽象对象[3]。分类是通过机器学习,构造一个分类函数或分类模型,也称之为分类器,该函数或模型能够把数据库中的记录映射到给定类别中的某一个,从而应用于数据预测,分类的目的输出是离散的类别值。

模式识别的应用领域已经非常广阔,包括文本分类、语音识别、视频识别、信息检索和数据挖掘等。模式识别技术在生物医学、航空航天、工业生产、交通安全等许多领域发挥着重要的作用[4]。本文利用模式识别理论,对化工区重大危险源分级进行研究[5],建立化工区重大危险源分级判别分类模型,通过计算机模拟实验进行验证,为化工区重大危险源分级提供一种新方法。

1 模式识别理论

模式识别就是机器识别或计算机识别,目的在于让机器自动识别事物。模式识别研究的目的是利用计算机对物理对象进行分类,在错误概率最小的条件下,使识别的结果尽量与客观物体相符合[2]。模式识别方法是一种借助于计算机对信息进行处理、判决分类的数学统计方法。模式识别属于多元分析方法,它是借助计算机来揭示隐含在事物内部规律性一种综合技术[6]。

模式识别的基本思想是在已知观测对象的分类和特征变量值的前提下,从中筛选出能提供较多信息的变量,并建立判别函数,目标是使得到的判别函数在对观测量进行判别其所属类别时的错判率最小。

判别函数的一般形式是:Y=a1x1+a2x2+…anxn。

其中,Y为判别函数判别值;x1,x2,…xn为反映研究对象特征的变量;a1,a2,…an为各变量的系数,即判别系数。

用统计语言来描述判别分析,就是已知有g个总体G1,G1,…,Gg(每个总体Gi可认为是属于Gi的指标X=(X1,X2,…XP)T取值的全体),它们的分布函数F1(x),F2(x),…Fg(x)均为p维函数,对于任一给定的新样品关于指标X的观测值x=(x1,x2,…,xp)T,我们要判断该样品应属于这g个总体中的哪一个。

模式识别的分类问题是根据识别对象特征的观察值将其分到某个类别中去。分类的目的是构造一个分类函数或分类模型,该模型可以把样本数据映射到给定类别中的某一类。分类的目的是构造一个分类函数或分类模型,该模型可以把数据库中的数据项映射到给定类别中的某一类。分类通过分析训练样本数据,产生关于类别信息的精确描述,可以用来对未来未知类别的数据进行分类预测,分类算法的核心是由训练样本构造分类器[7]。

目前模式识别的分类模型有很多,其中贝叶斯算法模型简单,处理速度快,正确率高,因而得到广泛的应用。

2 Bayes 判别方法

Bayes判别是模式识别重要方法之一,其基本思想是:假定对所研究的对象(总体)在抽样前已有一定的认识,常用先验分布来描述这种认识,然后给予抽取的样本再对先验认识作修正,得到后验分布,而各种统计推断均基于后验分布进行。

在模式分类问题中,人们往往希望尽量减少分类的错误,从这样的要求出发,利用概率论中的贝叶斯公式,就能得出使错误率为最小的分类规则,称之为基于最小错误率的贝叶斯决策。应用贝叶斯最小错误概率判别原则来分类,可使得分类器发生分类错误的概率最小。

一般情况下,如果有N个样本,每个样本有n个特征x1,x2,…,xn,则X=(x1,x2,…,xn)理解为一个n维的向量。如果N个样本共分为M个类别c1,c2,…,cM,P(ci|X)表示在X的情况下,样品为ci的概率,则依据贝叶斯定理,每个类的先验概率分

别为P(c1),P(c2),…P(cM),每个类条件概率密度分别为P(X|c1),P(X|c2),…P(X|cM),共有M个判别函数,因每个判别函数的分母相同,所以决策时仅需要比较分支的大小,即:

在取得一个观察特征X后,在特征X的情况下,判断哪个类的概率最大,就把X归于概率最大的ci。也就是把X代入M个判别函数中,看哪个判别函数的值最大,就把X归于这一类。如图1所示。

在通常情况下后验概率很难得到,然而利用贝叶斯公式,后验概率P(ci|X)可由类别ci的先验概率P(ci)和条件概率P(X|ci)算出。

4 重大危险源分类实例

根据《危险化学品重大危险源监督管理暂行规定》的规定,危险化学品单位应当对重大危险源进行安全评估并确定重大危险源等级,重大危险源根据其危险程度,分为一级、二级、三级和四级,一级为最高级别[5]。对重大危险源应该依据国家法律法规,进行分级管理,确保重大危险源的事故得到有效控制。

重大危险源危险物质的特性可以有很多指标,如果每一个指标是重大危险源一个特征值,则可以把重大危险源用一个n维数组来表示,即为X=(x1,x2,x3…xn)X∈ci,x1,x2,x3…xn表示该重大危险源的危险性的特征属性值。ci为重大危险源分级级别。

为了对重大危险源分类的模式识别Bayes判别方法进行验证,本文采用文献[8]的危险源特征指标,指标参数分别为:事故易发性、事故财产损失、死亡人数、重伤人数、轻伤人数、损失半径、死亡半径、重伤半径、轻伤半径,共9个参数。同样,采用文献[8]提供的重大危险源数据进行模拟实验。

根据现有重大危险源特征参数和分级数据,建立分类器样本矩阵。如果共有N个样本,每个样本有n个特征,N个样本共分为4个类,C=(ci,c2,c3,c4)T,则样本矩阵表示为:

为N×n矩阵,它的行表示为N个样本,其中每个样本有n个特征值。

首先根据模式识别分类理论,建立重大危险源原始样本数据表;其次在matlab9.0中建立基于模式识别Bayes判别分类器,根据贝叶斯判别理论,计算每一类的先验概率等有关数值,代入判别函数进行判别,根据后验概率最大的数值进行判别归类;最后将原始样本数据表数据调入判别分类器进行实验。文献[9]提供了40个重大危险源的数据,在实验过程中每次选取35个数据作为样本数据,5个为等待判断归类的数据,按重大危险源分3级、4级进行对比研究。实验结果如图2所示。

通过实验结果可以看出,经过多次实验,基于模式识别Bayes方法建立的重大危险源分级判别分类器正确率在95%以上,进行对出错数据分析,发现不能达到100%正确率的原因,主要是实验样本数量不够多导致。在文献[7]提供的数据中,40个样本数据中,无论分3级还是4级,重大危险源为被确定为一级、二级的样本数仅为1至2个,当样本数据不够充分时,判别分类器会出现判别失误,导致分级分类的正确率下降。

5 结论

重大危险源的分级是危险源监控管理重要手段,本文基于模式识别理论提出危险源分级分类方法,通过该方法,可以借助计算机实现重大危险源的分级的智能判别。通过实验验证,该危险源分类分级方法正确率较高,对重大危险源分级判别具有实际意义。该方法在实际应用需要一定数量的样本数据为基础,如何在样本数据较少的情况下,进一步提高重大危险源分类判别的正确率是后续继续研究的方向。

摘要:文章依据模式识别相关理论,采用贝叶斯判别分类方法,建立化工区重大危险源分级分类判别模型,通过计算机进行模拟实验验证,实验结果证明,基于Bayes方法的重大危险源分级判别正确率在95%以上,说明借助计算机辅助判别重大危险源级别具有较高的准确率,为重大危险源分级监管提供了新手段。

Bayes方法 篇4

学校、政府部门、金融机构、企事业单位和商业组织等对信息系统的依赖程度日益加深,而高校校园网作为高校教育科研的一项重要基础设施,其规模逐年扩大,网络本身具有的开放性和互联性等特点,使校园网面临着外部黑客入侵、局域网内部攻击、 蠕虫病毒、信息失窃、物理故障等各种网络安全威胁。此时信息安全风险评估尤为重要,可以利用风险评估的结果来确定随后的控制策略并选择成本效益合理的、适用的安全对策来规避网络威胁。因此,针对校园网选用适合、高效的风险评估方法非常关键。 本文将基于动态Bayes网络的评估方法应用到校园网风险评估中,建立的模型更加合理可行,评估结果准确度更高,给决策者提供了有力的支持。

1动态Bayes网络介绍

Bayes网络是一种概率网络,它是包含概率信息的有向无环图,包括网络结构和网络参数。网络结构是由节点及连接这些节点有向边构成,节点代表随机变量,有向边代表节点间互相关系, 网络参数即表征节点间关系强度的条件概率表。Bayes网络是一种将因果和概率相结合的信息表示框架,并逐渐成为不确定知识表达和推理领域最有效的模型之一,它没有固定的输入或输出节点,任何节点证据的获得都会对其它节点的状态造成影响,同时支持由果及因的诊断推理和由因及果的预测推理。

动态Bayes网络是Bayes网络的一个特例,表示一个时变过程,由有限或无限个时间维度上的切片组成,每一切片均为一个Bayes网络,相邻切片的Bayes网络通过由网络中节点指向下一时刻相同节点的有向边相连,有向边可以通过X0(初始变量)的概率分布P(X0)及相邻两个节点的条件概率分布量化。动态Bayes网络适用于随时间变化的结构或系统,能加入结构或系统的测量信息,进行实时更新。

2基于动态Bayes网络的信息安全风险评估方法

基于动态Bayes网络的信息安全风险评估方法就是将动态贝叶斯网络应用到信息安全风险评估模型建立中,它是一种基于模型的评估方法。基于模型的评估方法可以分析出系统自身内部机制中存在的各种危险性因素还能够发现系统与外界环境交互中不正常、有害的行为,从而定性分析系统脆弱点和安全威胁。基于建模的风险评估方法主要有基于图的建模方法和模型检测等, 如基于模糊-小波神经网络的评估方法、基于逻辑渗透图模型的评估方法、基于模糊层次法的评估方法、基于离散动态Bayes网络的评估方法等。其中的基于模糊层次法的评估方法、基于模糊-小波神经网络的评估方法可以应用于各个风险因素级别的计算;基于逻辑渗透图模型的评估方法、基于离散动态Bayes网络的评估方法可以动态实时的对网络信息系统进行风险评估。

基于动态Bayes网络风险评估方法基本推理过程如下所述: 首先初始化模型,使用指定的网络初始状态和条件概率进行;在某一时刻如果检测到新的风险指标变量信息,也就是说更新网络的叶结点信息或网络的观测结点的信息时,则进行网络模型的推理,使用相应的推理算法后得到网络风险的后验概率,即可更新整个网络结点状态的概率分布,而下一时刻推理的依据就是刚刚更新过的后验概率分布;然后不断往模型中输入时序观测数据, 就可得到网络实时风险,进而采取相应的措施实时的控制风险。

这种评估方法可定量化描述评估过程,本身贝叶斯在数学上的可靠性使得此方法建立模型相对标准,也能够反映评估的连续性和累积性。

3高校校园网的特点及风险分析

3.1高校校园网的特点

高校校园网是局域网基础上发展而来的,它与电子政务、电子商务网站相比有很大不同,具体体现在以下两个方面。

(1)用户群体:大学生是校园网的主要用户群体,他们计算机应用水平较高且用户数量大,表现欲、好奇心会让他们尝试更多的网络攻击技术,对信息安全意识和版权意识也相对薄弱, 会浪费网络带宽并带来很多的安全隐患。

(2)网络环境:校园网用户量大、带宽高,网络安全问题蔓延速度快,影响也就比较严重;校园网络环境具有开放性、计算机系统的复杂性的特点,这样就会带来安全管理上的难度。

3.2校园网的风险分析

校园网目前主要面临的风险有:教室和机房计算机等公共用机病毒交叉感染、泛滥,导致重要数据的破坏和丢失;机房报警系统,设备供电故障,火灾、雷电,人为操作失误或错误等物理安全风险;网络自身存在的安全缺陷;校园网接入点多、公共资源多,容易受到各种非法入侵和攻击,破坏信息的有效性和完整性;管理制度不够健全、定期检查不够深入导致管理人员对突发危机事件处理能力较差等。

规避这些风险除了加强技术支持外,更重要的就是进行信息安全管理,其中风险评估是最关键的一环。要对威胁网络安全的因素和漏洞进行更好地掌握进行有效的控制风险,必须有效地对校园网网络系统所面临的风险进行评估。校园网风险评估是动态循环的,须对网络系统的风险进行长期的周期性评估和改进,降低校园网的安全风险,从而使校园网更安全。使用哪一种风险评估方法进行有效的评估是非常重要的工作。

4基于动态Bayes网络的风险评估方法在高校校园网中的应用

针对校园网风险评估动态性、周期性、实时性等特点,本文提出可将基于离散动态Bayes网络的评估方法应用到高校校园网风险评估中。

4.1评估过程

(1)识别网络中的风险要素。例如对校园网来说识别出的资产包括路由器、交换机和计算机硬件设备,软件资源还有电子数据与文档等;根据对校园网的特点和风险分析,识别出的威胁包括非授权访问、资产丢失、人为失误和网络攻击等;识别出的脆弱性包括物理保护措施不足、访问控制措施不严格、系统软件和网络设备安全漏洞等方面。

(2)建立风险评估模型。先建立基于专家知识的先验网络模型;对它进行扩展,根据相邻时刻变量之间的相互影响建立因果关系,从而得到转移模型,转移模型能够反映相邻时刻变量间的概率关系及其随时间变化的情况;把转移模型与时间信息结合起来,得到最终的评估模型。信息安全风险评估模型是一个带有隐含结点和观测结点的有向图,比如隐含结点有风险等级、资产价值、威胁和脆弱性,观测结点有物理保护措施不足、访问控制、 有形资产、数据与文档、非授权访问等,模型的结构反映了所有变量之间的因果关系,而这些因果关系的强弱由变量之间的条件概率表来表示。

(3)建立模型参数。采用专家咨询的Delphi方法确定网络中的条件概率,列出资产价值、威胁严重性、脆弱性发生频率的条件概率表;同样的,可得到有形资产、数据与文档、非授权访问、物理措施保护不足、访问控制不足等的条件概率表;列出在网络随时间变化的同时着这两个时间片间转换的状态转移概率表。

(4)模型推理。建立模型的目的就是对模型进行分析找到解决问题的方法,也就是要对对模型图中各个变量进行分析并对感兴趣的变量或事件结果进行推理,在此模型中可以通过观测结点变量的状态计算出隐含结点的概率。整个推理过程可以使用Netica软件得出仿真结果。

4.2评估方法的分析

基于动态Bayes网络的评估方法中建立的动态模型具有信息的时间累积的特点,对风险的评估能够较客观的考虑风险积累因素,其推理精度相比静态Bayes网络好很多,条件概率表中的数据更精确,更加符合实际情况,给决策者提供了有力的支持。

5总结

Bayes方法 篇5

国际数理统计主要有两大学派:Bayes学派和经典学派。他们之间既有共同点,又有不同点。经典统计学是基于总体信息(即总体分布或总体所属分布族的信息)和样本信息(即从总体抽取的样本的信息)进行的统计推断,而Bayes统计是基于总体信息、样本信息和先验信息(即在抽样之前有关统计问题的一些信息,主要来源于经验或历史资料)进行的统计推断,与经典统计的本质区别在于是否利用先验信息。

Bayes统计起源于英国学者托马斯·贝叶斯(Thomas Bayes,1702—1761)死后发表的一篇论文“论有关机遇问题的求解”[31](An essay towards solving a problem in the doctrine o chances)。在此论文中,他提出著名的Bayes公式和一种归纳推理方法。随后拉普拉斯[32](Laplace,P.C,1749—1817)不仅重新发现了Bayes定理,阐述得远比贝叶斯更为清晰,而且用它来解决天体力学、医学统计和法学问题。之后虽有一些研究和应用,但由于其理论尚不完整,应用中出现一些问题,致使Bayes方法长期未被接受。直到二战后,瓦尔德[33](Wald,A,1902—1950)提出统计决策函数论后,又引起很多人对Bayes研究方法的兴趣。因为在这个理论中,Bayes解被认为是一种最优决策函数。Savage,L.J[34](1954),Berger,J.O[2]等Bayes学者通过努力,对Bayes方法在观点、方法和理论上不断地完善。1984年史密斯教授曾预言:“到本世纪末,Bayes理论加上计算机的图示,将成为现代统计实践中最受欢迎的形式。”不论这一预言是否偏颇,但如今Bayes统计日趋成熟,有关Bayes统计方面的研究与著作也越来越多,Bayes学派已发展成为一个有影响的统计学派,打破了经典统计学一统天下的局面。

二、Bayes学派的观点

Bayer学派最基本的观点是:总体分布中的未知参数是一随机变量,用一个概率分布去描述对的未知状况,这个概率分布是在抽样前就有的关于先验信息的概率陈述,被称为先验分布(prior-distribution)。为什么采用概率的形式呢?因为任一未知量都有不确定性,而在表述不确定性时,概率和概率分布是最好的语言。例如产品的不合格率是未知量,但每天都有一些变化,把它看作一个随机变量是合理的,用一概率分布去描述它也是恰当的。Bayes统计就是基于所具有的知识用概率(或概率分布)来度量对一个不确定事件的真实度的相信程度。

Bayes统计存在的主要问题是先验分布问题。例如如何在具体的问题中定出“合适的”先验分布?先验分布是一个纯主观的随意性的东西,那还有什么科学意义?到目前为止,Bayes统计未能提出一个放之四海皆准的确定先验分布的方法,且看来在今后也难以做到这一点,因而,这确实是Bayes统计的一个重大弱点。但在承认这一点的同时应清晰地看到,Bayes学赞成主观概率,并不等于说可以用主观随意的方式去选取先验分布,而是要求研究者对所考察的事件有较透彻的了解和丰富的经验,甚至是这一方面的专家。事实上,对如何确定先验分布Baye,学者作了不少的探讨,并且在实用范围内,对一些常见的分布都已得到了较好的回答。

三、Bayes统计的应用

随着Bayes统计的兴起和发展,Bayes统计得到了广泛的应用。

1. 经济方面

国外已出版了Bayes统计在经济学的某一领域的应用专著。其中,芝加哥大学的Zellner,A教授是Bayes学派在经济方面应用的主要领导人,东京大学的两位知名学者铃木雪夫和国友直人是日本Bayes统计在经济学中应用的领导人。而在国内,经济界的学者结合我国实际研究“三角债”的博弈理论分析时,把Bayes方法、博弈论和经济学的“均衡理论”结合起来,提出了“Bayes博弈均衡理论”。

2. 计算机科学方面

Bayes统计在计算机科学中的“统计模式识别”中用得最多,已经使用“修正的Bayes公式”作为开发Prospeetor地质矿藏勘探专家系统的概率推理方法,软件可靠中的L-V模型就是一个Bayes随机模型,从这一模型出发,可以确定软件投放市场的最佳时间,有利于软件生产的质量管理,提高软件产业的经济效益。

3. 可靠性方面

1982年,美国出版了Martz和Walter的专著Bayesian Reliability Analysis。该书系统地介绍了Bayes方法在可靠性中的应用。国内的许多刊物也经常可看到Bayes方法在可靠性方面应用的文章。另外,Bayes方法在可靠性中的一个有代表性的例子是,美国研制MZ导弹时,应用Bayes方法把发射试验从原来的36次减少为25次,可靠性却从0.72提高到0.93,节省费用二亿五千万美元。

另外,Bayes统计在医学、法律,以及体育运动等方面都有广泛的应用,它已逐步渗透到现实中的各个领域。它既可以用于质量控制,软件质量评估,核电站可靠性评价和缓慢周转物品的存储问题,又可以应用于水文事件频率的估计,犯罪学不完全记数的估计和保险精算。这里就不一一详述。

4. Bayes方法应用的关键

Bayes推断方法的关键在于所作出的任何推断都必须也只须根据后验分布π(θ|x),而不能再涉及x的样本分布Pθ。例如,在奈曼—皮尔逊理论中,为了确定水平a的检验的临界值C,必须考虑x的样本分布Pθ,这在Bayes推断中是不允许的。但Bayes推断在如何使用π(θ|x)上,有一定的灵活性,例如作为θ的点估计,可用后验分布密度π(θ|x)关于θ的最大值点,也可用π(θ|x)的均值或中位数等。作为θ的区间估计,可以取区间[A(X),B(X)],使π(A(x)≤θ≤B(x)|x)等于事先指定的数1-a(0

摘要:国际数理统计主要有两大学派:Bayes学派和经典学派。越来越多的人支持Bayes学派的观点,其相关思想、内容及其起源、发展和应用,成了在一开始他们就必须了解的内容;同时,越来越多的业余统计爱好者希望能够有比较全面又浅显易懂的资料以帮助他们了解该学科。

关键词:Bayes统计,起源,发展,应用

参考文献

[1]Berger.J.o著.贾乃光译.统计决策理论及贝叶斯分析[M].北京:中国统计出版社,1998.

[2]Kotz.S著.吴喜之译.现代贝叶斯统计学[M].北京:中国统计出版社,2000.

[3]Press,S.J.(1989)著.廖文,陈安贵等译.贝叶斯统计学,原理,模型及应用.中国统计出版社,1992.

[4]陈希孺.数理统计引论.科学出版社,1997.

[5]陈希孺.高等数理统计学.中国科学技术大学出版社,1999.

[6]峁诗松.贝叶斯统计.中国统计出版社,1999.

[7]张尧庭,陈汉峰.贝叶斯统计推断.科学出版社,1991.

[8]张金槐,唐雪梅.Bayes方法(修改版).国防科技大学出版社,1993.

Bayes方法 篇6

模式识别就是机器识别、计算机识别或机器自动识别, 目的在于让机器自动识别事物, 如手写数字的识别、智能交通管理信号的识别、文字识别、语音识别等等。该学科研究的目的是使机器能做人类能做的事, 具备人所具有的对各种事物与现象进行分析、描述与判断的部分能力。模式识别是直观的、无所不在的。人和动物具有模式识别能力是极其平常的, 但对计算机来说却非常困难。让机器能识别、分类, 需要研究识别的方法。

模式识别可以概括为两个类型, 一是有直觉形象的, 如图片、相片、图案、字符图案等;另一种是无知觉形象而只有数据或信号的波形, 如语言、声音、心电图、地震波等。字符识别处理的信息可分为两大类:一类是文字信息, 处理的主要是用各国家、各民族的文字书写或印刷的文本信息;另一类是数据信息, 主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据。手写数字识别就是字符识别处理中的一种, 它的研究对象是如何利用电子计算机自动辨认人手书写的阿拉伯数字。

1 Bayes算法

若已知总共有M类物体, 以及各类在d维特征空间的统计分布, 具体说来是已知各类别wi=1, 2, …, M的先验概率P (wi) 及类条件概率密度函数P (X/wi) , 对于待测样品, Bayes公式可以计算出该样品分属各类别的概率, 叫做后验概率, 后验概率作为识别对象归属的依据, 看X属于哪个类的可能性最大, 就把X归于可能性最大的哪个类。Bayes公式可以表示如下:

undefined。

其中:P (wi/X) 称为后验概率。

类别的状态是一个随机变量, 而某种状态出现的概率是可以估计的。Bayes公式体现了先验概率、类概率密度函数、后验概率3者之间的关系。

1.1 先验概率P (wi)

先验概率P (wi) 针对M个事件出现的可能性而言, 不考虑其他任何条件。如总数为n, 其中类1数为n1, 类2数为n2, 则:

undefined

1.2 类条件概率密度函数P (X/wi)

类条件概率密度函数P (X/wi) 是指在已知某类别的特征空间中, 出现特征值X的概率密度, 即第wi类样品它的属性X是如何分布的。

在工程上的许多问题中, 统计数据往往满足正态分布规律。正态分布简单, 分析方便, 参量少, 是一种适宜的数学模型。如果采用正态密度函数作为类条件概率密度的函数形式, 则函数内的参数如期望和方差是未知的, 那么问题就变成了如何利用大量样品对这些参数进行估计, 只要估计出这些参数, 类条件概率密度函数P (X/wi) 也就确定了。单变量正态分布概率密度函数为:

undefined。

其中:μ为数学期望 (均值) ;σ2为方差。

多维正态概率密度函数为:

undefined。

其中:S为N维协方差矩阵, S-1为S的逆矩阵;|S|为S的行列;undefined为N维均值向量。

在多数情况下, 类条件概率密度函数可以采用多维变量的正态概率密度函数来模拟, 即:

undefined。

1.3 后验概率

后验概率是指呈现状态X时, 该样品分属各类别的概率, 这个概率值可以作为识别对象归属的依据。由于属于不同类的待识别对象存在着呈现相同观察值的可能, 即所观察到的某一样品的特征向量为X, 而在类中又有不止一类可能呈现这一值, 它属于各类的概率可用P (wi/X) 表示。可以利用Bayes公式来计算这种条件概率, 称之为状态的后验概率:

undefined。

P (wi/X) 是表示在X出现条件下, 样品为wi类的概率。在这里要弄清楚条件概率这个概念。P (A/B) 是条件概率的通用符号, 在“/”后边出现的B为条件, 之前的A为某个事件, 即在某条件B下出现某个事件A的概率。

1.4 P (w1/X) 和P (w2/X) 与P (X/w1) 和P (X/w2) 的区别

P (w1/X) 和P (w2/X) 是在同一条件X下, 比较w1与w2出现的概率, 如P (w1/X) >P (w2/X) , 则可得以下结论, 在X条件下, 事件w1出现的可能性比事件w2出现的可能性大。

P (X/w1) 与P (X/w2) 都是指各自条件下出现X的可能性, 两者之间没有联系, 比较两者没有意义。P (X/w1) 与P (X/w2) 是在不同条件下讨论的问题, 不能仅因为P (X/w1) >P (X/w2) , 就认为X是第一类事物的可能性较大。

2 数字识别举例

2.1 实现步骤

(1) 计算先验概率P (wi) , 先验概率可由各类的样品数和总数近似计算。此处为数字, i=0, 1, 2, …, 9, 得:

P (wi) ≈Ni/N 。

其中:P (wi) 为数字i的先验概率;Ni为数字i的样品数;N为样品总数。

(2) 计算Pj (wi) 。Pj (wi) 表示样品X (x0, x1, x2, …, x24) 属于wi条件下, X的第j个分量为1 (xj=1) 的概率估计值。

其中:i=0, 1, 2, …, 9, j=0, 1, 2, …, 24。

再计算类条件概率P (X/wi) 。样品X的类条件概率为:

P (X/wi) =P[X= (x0, x1, x2, …, x24) /X∈wi] 。

(3) 应用Bayes公式求后验概率, 得:

undefined。

(4) 后验概率的最大值的类别 (0~9) 就是手写数字的所属类别。

2.2 效果图

图1 (a) 为手写数字的特征样品, 图1 (b) 的左边是待测样品特征提取后的模板示意图, 右边是从样品库中找到的样品模板, 该样品距离待测样品最近, 也就是最像或最相似, 可以通过图1 (b) 的显示来比较它们的相似程度。

3 结束语

本文所采用的方法仅是概率统计分类器中的一种。Bayes决策采用分类器中最重要的指标——错误率作为产生判别函数和决策方面的依据, 给出了最一般情况下使用的“最优”分类器设计方法, 对各种不同的分类器设计在理论上都有指导意义。

参考文献

[1]杨淑莹.图像模式识别[M].北京:清华大学出版社, 北京交通大学出版社, 2005.

[2]徐士良.C常用算法程序集[M].北京:清华大学出版社, 1996.

[3]王正军.Visual C++6.0程序设计[M].北京:人民邮电大学出版社, 2006.

[4]Tang YT.Offline recognition of Chinese handwriting bymultifeature and multilevel classification[J].IEEETransactions on PAMI, 1998, 20 (5) :556-561.

Bayes方法 篇7

设随机变量X服从两参数复合Rayleigh分布,相应的概率密度函数和分布函数分别为:

f(x;θ,λ)=2θλθx(λ+x2)-(θ+1);x>0,θ,λ>0 (1)

F(x;θ,λ)=1-λθ(λ+x2)-θ;x>0,θ,λ>0 (2)

其中θ为尺度参数,λ为形状参数。

1最大似然估计

X1,X2,…,Xn为来自两参数复合Rayleigh分布式(1)的容量为n的一个简单随机样本,(x1,x2,…,xn)为的样本观测值。则给定下参数θ的似然函数为:

L(θ)=i=1nf(xi;θ)=i=1n2θλθxi(λ+xi2)-(θ+1)=2nθnλnθi=1nxii=1n(λ+xi2)-(θ+1)(3)

相应的对数似然函数为:

lnL(θ)=nln2+nlnθ+nθlnλ+i=1nlnxi-(θ+1)i=1nln(λ+xi2)(4)

从而似然方程为:

lnL(θ)θ=nθ+nlnλ-i=1nln(λ+xi2)=0(5)

于是参数θ的最大似然估计为:

θ^=nΤ(6)

式(6)中Τ=i=1nln(1+Xi2λ)~Γ(n,θ)

注1:由文献[8],我们有Τ=i=1nln(1+Xi2λ)~Γ(n,θ)。从而T的概率密度函数为:

fΤ(t)=1Γ(n)tn-1e-θtt>0(7)

则有EΤ-1=θn-1,且易知T为参数θ的完全充分统计量,从而尺度参数θ的最小方差无偏估计为[9]:

θ^UΜVU=n-1Τ(8)

2Bayes估计

以下均设X1,X2,…,Xn为来自复合Rayleigh分布式(1)的容量为n的一个简单随机样本,Τ=i=1nln(1+Xi2λ)。本文我们感兴趣的的损失函数为平方误差损失函数:L(θ^,θ)=(θ^-θ)2和LINEX损失函数[10]:

L(Δ)=ecΔ-cΔ-1,c0(9)

式(9)中Δ=θ^-θ,θ^为参数θ的估计, c为损失函数的形状参数,且在LINEX损失下,参数θ的Bayes估计为:

θ^BL=-1cln[E(e-cθ|X)](10)

定理2.1设X=(X1,X2,…,Xn)为来自复合Rayleigh 分布式(1)的容量为n的简单随机样本,x=(x1,x2,…,xn) 为相应的样本观测值, tT的观察值,并设参数θ的先验分布为伽玛分布Γ(α,β),则

(i)在平方误差损失函数下,参数θ的Bayes估计为:

θ^BS=n+αβ+Τ

(ii) 在LINEX损失函数下,参数θ的Bayes估计为:

θ^BL=n+αclnΤ+β+cΤ+β

证明 设参数θ的共轭先验分布为伽玛分布

Γ(α,β)

即相应的概率密度函数为:

π(θ;α,β)=βαΓ(α)θα-1e-βθ; θ>0,α,β>0。

由式(3)及Bayes 定理,参数θ的后验密度函数为:

h(θ|x)∝l(θ|x)π(θ;α,β)∝

θne-θtθα-1e-βθθn+α-1e-(β+t)θ (11)

从而θ的后验分布为Γ(n+α,β+t)。

则(i)在平方误差损失函数下,参数θ的Bayes估计为其后验均值,从而θ的Bayes估计:

θ^BS=E(θ|X)=n+αβ+Τ

(iii)由式(11)有

E(e-cθ|X)=0+e-cθ(β+Τ)n+αΓ(n+α)θn+α-1e-(β+Τ)θdθ=(β+Τ)n+αΓ(n+α)Γ(n+α)(β+Τ+c)n+α=(Τ+βΤ+β+c)n+α

于是在LINEX损失函数下,参数θ的Bayes估计为:

θ^BL=-1clnE(e-cθ|X)=n+αclnΤ+β+cΤ+βc0

3数值模拟例子和结论

利用Monte Carlo数值模拟一组来自参数θ=1.5和λ=2的复合瑞利分布式(1) 容量为n=21的样本(见表1)。

利用公式Τ=i=1nln(1+Xi2λ)T=10.978 3,从而可以计算出尺度参数θ的各种估计值(见表2)。

从表2以及大量的数值模拟可以得到如下结论:

(i)给定合适的先验参数值,尺度参数θ的Bayes估计会比最大似然估计和最小方差无偏估计的估计结果更加准确;

(ii)随着样本容量的增大,这几种估计值都越来越接近参数真值.

摘要:基于完全样本讨论了复合Rayleigh分布尺度参数的估计问题。在平方误差损失、LINEX损失函数下导出了复合Rayleigh分布尺度参数的Bayes估计。给出了Monte Carlo数值模拟例子,将得到的估计与最大似然估计进行比较。

关键词:最大似然估计,Bayes估计,平方误差损失函数,LINEX损失函数,复合,Rayleigh分布

参考文献

[1] Bekker A,Roux J,Mostert P.A generalization of the compound Ray-leigh distribution:using a Bayesian methods on cancer survival times.Communications in Statistics-Theory and Methods,2000;29(7):1419—1433

[2] Al-Hussaini E K.Predicting observables from a general class of distri-butions.Journal of Statistical Planning and Inference,1999;79(1):79—91

[3] Abushal T A.Estimation of the unknown parameters for the com-pound Rayleigh distribution based on progressive first-failure-censoredsampling.Open Journal of Statistics,2011;1:161—171

[4]王炳兴.Burr Type XII分布的统计推断.数学物理学报,2008;28A(6):1103—1108

[5] Kundu D.,Hatem H.Bayesian inference and prediction of the inverseWeibull distribution for Type-II censored data.Computational Statis-tics and Data Analysis.2010;54:1547—1558

[6]王琪,阳连武.对称熵损失函数下一类分布族参数的Bayes估计.科学技术与工程,2011;11(22):5241—5243

[7]王亮,师义民.逐步增加II型截尾下比率危险率模型的可靠性分析.数理统计与管理,2011;30(2):315—321

[8]任海平.熵损失函数下一类广义分布族参数估计的容许性.西北师范大学学报(自然科学版),2010;46(6):19—22

上一篇:清洁可再生能源下一篇:模块并联