贝叶斯均衡博弈

2024-07-29

贝叶斯均衡博弈（共4篇）

贝叶斯均衡博弈篇1

随着近年来农业政策的改革,引发基础设施的发展,农民拥有更多的自由去选择新的工作机会以增加收入,大量的农村人口连年涌入城市,但到2007年末农村人口仍占全国人口总数的55.1%[1],为此全国的农村建设仍是全国经济建设的重中之重。在农业政策的带动下,中国农村经济的发展大幅度提高,但是这些政策也有其负面影响。在此,本文从贝叶斯均衡理论出发,针对农业政策对农村经济社会的影响进行分析。

1 中国农村经济社会的现状分析

上个世纪80年代以来,大量农村剩余劳动力涌向城市,在一定程度上转移出的部分劳动力增加了其经济收入,减小了农村劳动力的压力。但根据国家统计局2008年2月28日发行的“2007年国民经济和社会发展统计公报”,2007年年末全国总人口为132129万人,乡村人口仍然占全国总人口数的55.1%[1],因此,农村经济的发展仍需放在重要位置。现在,虽然国家取消农业税,给种田的农民发补贴,给生活困难的农民发放生活最低保障金,但绝大多数的农民仍然没有生活保障。由于经济危机,物价上涨,而农民的收入却基本没有改善。农村工业无序分散,乡镇工业和企业大比例分散在农村,造成农村土地浪费、污染蔓延、农产品受污染且产量下降。政策虽然在实施,但是效果不明显,一些农民已经失去信心,并对政策的实施产生怀疑;与此同时,乡政府政策的实施能否有利于农民的实际生活而有利于国家整体经济水平。二者之间实际上存在着一个博弈关系。

2 贝叶斯均衡博弈理论及其模型分析

贝叶斯均衡定义[2],在一个不完全信息博弈中,如果每一参与人i的类型θi有限,且参与人类型的先验分布为P,相应纯策略空间为si,则该博弈的一个贝叶斯均衡是其“展开博弈”的一个纳什均衡,在这个“展开博弈”中,每一个参与人i的纯策略空间是有从到Si的映射构成的集合si。

给定策略组合s(●),和si'(●)∈si,令(si'(●),s-i(●))代表当参与人i选择Si'(●)而其他参与人选择s(●),且令(si'(θi),-s-i(θ-i))-(si(θi),…,si-1(θi-1)si'(θi),si+1(θi+1),…,sI(θI))代表策略组合在θ=(θi,θ-i)的值。那么策略组合S(●)是一个(纯策略)贝叶斯均衡,如果对于每一个参与人i均有:

贝叶斯均衡的存在性可由纳什均衡的存在性立即得到(和纳什均衡一样,贝叶斯均衡实际上是一个一致性检验,参与人关于其他参与人的判断并不包含在均衡定义中,所涉及的只是每一个参与人对类型分布和其对手的类型相依策略的判断。只有当参与人考虑参与各方的行动构成贝叶斯均衡的可能性以及均衡精练时,对判断的判断、对判断的判断的判断等才变得重要)。

3 农业政策对社会的影响及其模型分析

农业政策作为指导农村经济发展的工具,其实施效用是多层次的。某一个政策的制定虽然经过了严格的商讨,但是对于农民来说,他们考虑的是自己的切身利益,怎么做对自身有力、自己这么做了其他人做出什么样的反应、这个政策的可实施度、照例实施后政策会有什么样的反应等一系列的问题都要考虑在内;政策的制定也要考虑农民的具体连锁反应。不当的农业政策同样会有其负面影响[6],诸如:降低民众总体的生活质量;抑制农村的内需拉动;妨碍和谐社会以及新农村的建设;加剧城乡之间的差距;加剧社会排斥等。因此,政策与农民之间存在多种对弈,如图一:

设该政策正面影响的概率为P1,其负面影响的概率为1-P1,令x代表政策为正面影响时实施的概率(政策为负面影响时肯定不会实施),令y代表农民的执行概率。农民的最优策略是:如果x>1/2P1,则选择y=1(即执行);如果x<1/2P1,,选择y=0;如果x=1/2P1,,选择y∈[0,1]。同理,正面影响时政策的最优反应是:如果y<1/2,选择x=1(即实施);如果y<1/2,则选择x=0;如果y=1/2,选择x∈[0,1]。求解贝叶斯均衡就是要找到这样一组(x,y)使得x是正面影响政策的最优策略;同时,给定农民关于政策的判断P1及政策的策略,y是农民的最优策略。例如,对于任何P1,策略组合(x=0,y=1)是一个均衡(即政策不实施,农民实行);当且仅当P1≥1/2时,策略组合(x=1,y=1)构成一个均衡(即政策实施,农民不执行)。

政策是正面影响的概率是1/2,负面影响的概率亦是1/2,而且政策的判断是共同知识。这样,农民有两种可能类型。政策与农民同时选择。当现象需求函数的截距与双方的不变单位成本之差固定,则代入贝叶斯均衡策略组合可求出相应的均衡(此均衡唯一)。

总而言之,对农业政策的相关博弈分析应该给与关注,只有农村经济发展了,城乡差距才会从本质上缩小,才会从本质上提高国家经济发展的总体水平。

摘要：农村建设是全国经济建设的重中之重,文章通过纵观农村经济现状,利用贝叶斯均衡博弈理论,对农村政策的效用进行分析,并对此提出了相关建议。

关键词：农村现状,农业政策,农村经济,贝叶斯均衡博弈

参考文献

[1]中国人口信息网.

[2]Drew Fudenberg&Jean Tirole.博弈论[M].北京:中国人民大学出版社,2006.

[3]常芳.政府发展计划和政策改革对西北农村地区的影响[J].内蒙古科技与经济,2008,(4).

[4]张一民.农村经济政策对农民经济行为的影响——全国29个省、自治区、直辖市24352户农民家庭抽样调查[J].中国农村经济,1990,(4).

[5]胡恒洋,张俊峰.农村劳动力转移对农业生产的影响及政策建议[J].中国经贸导刊,2008,(3).

[6]赵慧珠.农村社会政策缺失的负面影响[J].学习时报,2007,(3).

基于利他的贝叶斯均衡研究篇2

基于Marco G和Morgan J于2008年提出非合作博弈轻微利他理论[10],王能发[11]在企业成本信息完全公开且成本相同的条件下,引入利他因子0<ε<1,推广至n个企业的利他博弈,并且分析了随着利他因子的变化,总产量和总利润的变化规律,为实际竞争中打破垄断提供了最优策略。

本文推广张维迎[7]的结论,分析对手成本信息不完全公开下的古诺-纳什模型,比较成本信息完全公开与否对两个企业最优均衡产量的影响。并引入利他因子0<ε<1,讨论两个企业在成本信息不完全公开竞争中实现利他(期望)利润最优化的贝叶斯利他均衡产量,分析了利他因子对两个企业贝叶斯利他均衡产量的影响。

一、成本信息不完全公开的古诺模型

企业1的成本c1为公共信息,企业2的成本c2是两点分布的随机变量,c2以概率p21取到低成本c2L,以概率p22取到高成本c2H。其中p21+p22=1,p21cL2+p22c2H=Ec2。

企业1和企业2的利润函数:

假设1:π1(q1,q2),π2(q1,q2)分别为企业1和企业2的利润函数;

假设2:产品价格p=a-q1-q2,其中a为常数且a>c1,a>c2。

企业2的利润函数极值条件为:

企业2的反应函数:

由于企业1不知道企业2的使用成本,所以考虑企业1的期望利润函数:

企业1的期望利润函数的极值条件为:

企业1的反应函数:

联立(1)式,解得:

(q1*,q2*)即为两个企业在成本信息不完全公开下的贝叶斯均衡产量。

定理1设企业1在成本信息完全公开下的纳什均衡产量为q1*L和q1*H,有q1*L<q1*<q1*H,企业2在成本信息完全公开下的纳什均衡产量为q2*L和q2*H,有q2*H<q2*<q2*L。

证明:若企业2公开成本为c2=c2L,得到企业1的纳什均衡产量:

若企业2公开成本为c2=c2H,得到企业1的纳什均衡产量:

由于c2L<Ec2<c2H,所以

同理可证,对企业2有q2*H<q2*<q2*L。证毕。

结论:若企业2公开成本为c2=c2L,则企业1的纳什均衡产量低于贝叶斯均衡产量,企业2作出相应反应;若企业2公开成本为c2=c2H,则企业1的纳什均衡产量高于贝叶斯均衡产量,企业2作出相应反应。

定理2设企业1在成本信息完全公开下的最优期望利润为Eπ1*L(q1*L,q2*L)和Eπ1*H(q1*H,q2*H),在成本信息不完全公开下的最优期望利润为Eπ1*(q1*,q2*),有Eπ1*L(q1*L,q2*L)<Eπ1*(q1*,q2*)<Eπ1*H(q1*H,q2*H);企业2在成本信息完全公开下的最优利润为π2*L(q1*L,q2*L)和π2*H(q1*H,q2*H),在成本信息不完全公开下的最优利润为π2*(q1*,q2*),有π2*H(q1*H,q2*H)<π2*(q1*,q2*)<π2*L(q1*L,q2*L)。

证明:设企业1在成本信息不完全公开下的最优期望利润为Eπ1*(q1*,q2*),有Eπ1*(q1*,q2*)=(q1*)2

根据定理1,有q1*L<q1*<q1*H,则

同理可证,对企业2有π2*H(q1*H,q2*H)<π2*(q1*,q2*)<π2*L(q1*L,q2*L)。证毕。

结论:两个企业在成本信息不完全公开下的最优(期望)利润介于成本信息完全公开下的两个最优(期望)利润之间。

二、成本信息不完全公开下,考虑利他的古诺模型

在成本信息不完全公开的古诺模型里,引入利他因子0<ε<1。建立企业1和企业2的利他函数:

假设1:π1ε(q1,q2),π2ε(q1,q2)分别为企业1和企业2的利他函数;

假设2:产品价格p=a-q1-q2,其中a>0,a均为常数;

假设3:ε为利他因子,0<ε<1。

企业2的利他函数极值条件为:

企业2的反应函数:

由于企业1不知道企业2的使用成本,所以考虑企业1的利他函数期望:

企业1利他函数期望的极值条件为:

企业1的反应函数:

联立(2)式,解得:

(q*1ε,q*2ε)即为两个企业在成本信息不完全公开下考虑了利他的贝叶斯利他均衡产量。

定理3设企业1在成本信息完全公开下的纳什利他均衡产量为q1ε*L和q1ε*H,有q1ε*L<q*1ε<q1ε*H,企业2在成本信息完全公开下的纳什利他均衡产量为q2ε*L和q2ε*H,有q2ε*H<q*2ε<q2ε*L。

若企业2公开成本为c2=c2L,得到企业1纳什利他均衡产量:

若企业2公开成本为c2=c2H,得到企业1纳什利他均衡产量:

同理可证,对企业2有q2ε*H<q*2ε<q2ε*L。证毕。

结论:若企业2公开成本为c2=c2L,则企业1的纳什利他均衡产量低于贝叶斯利他均衡产量,企业2作出相应反应;若企业2公开成本为c2=c2H,则企业1的纳什利他均衡产量高于贝叶斯利他均衡产量,企业2作出相应反应。此结论与成本信息不完全公开的古诺模型结论一致。企业2成本信息不完全公开时,企业1采用的最优贝叶斯(利他)均衡产量介于企业2公开成本时的两个纳什(利他)均衡产量之间,企业2作出相应反应。

图2企业2的纳什利他均衡产量和贝叶斯均衡利他产量比较

考虑下列情形的数值模拟。

设a=2,c1=1,c2L=0.6,c2H=0.9,p21=0.5,p22=0.5,此时,Ec2=p21c2L+p22c2H<c1。取0<ε<0.7,做出企业1纳什利他均衡产量和贝叶斯利他均衡产量的比较图图1及企业2纳什利他均衡产量和贝叶斯利他均衡产量的比较图图2。由图1、图2观察到,无论企业2成本信息是否完全公开,企业1的均衡产量均随着利他因子的增大而减小。企业2的均衡利他产量随着利他因子的增大而增大,说明当企业2的成本具有明显优势时,企业2更倾向于利他。

定理4当0<ε<1时,两个企业的贝叶斯利他均衡总产量为Qε*(ε),满足Qε*(1)<Qε*(ε)<Qε*(0)。

证明:当0<ε<1时,两个企业的贝叶斯利他均衡总产量为Qε*(ε),有:

因为c1<a,c2<a,Ec2<a,所以:

因此Qε*单调递减。又

即Qε*(1)<Qε*(ε)<Qε*(0)。证毕。

结论:此结论具有一般性,无论企业2成本信息是否完全公开,两个企业的利他均衡总产量随着利他因子ε的增大而减少。

三、结束语

面对成本信息不完全公开的竞争,企业1的贝叶斯均衡产量介于成本信息完全公开时的两个纳什均衡产量之间,企业2相应作出反应,这一特征,在考虑了相同利他因子的情况下仍然成立。成本信息不完全公开下的最优期望利润,可能会比成本信息完全公开下的最优期望利润小,但是不失为化被动为主动的最优竞争策略。而两个企业总产量随着利他因子的增加而减少,这为企业在成本信息不完全公开下的反垄断提供决策参考。结论推广到n个企业成本信息不完全公开的竞争是否成立,或一般化为企业间的差异利他,结论会怎样改变,有待进一步论证。

摘要：本文比较了成本信息公开与否对两个企业均衡产量的影响,在成本信息不完全公开的情况下,引入利他因子0<ε<1,建立企业在成本信息不完全公开下的利他函数,讨论了两个企业在成本信息不完全公开下的贝叶斯利他均衡产量。

贝叶斯均衡博弈篇3

关键词：贝叶斯博弈,混合策略,Web应用安全,Stackelberg均衡

0 引言

近年来,许多研究都集中于博弈论在资源分配和调度方面的问题[1],但博弈论不仅适合应用在这些问题上,也可以应用在Web安全攻防问题上。 Stackelberg博弈应用在Web安全问题中时, 领导者是信息安全人员, 而追随者是黑客。随着安全技术的提升,有多种先进的策略和技术可以提供给攻击者和防御者。本文中要解决问题是寻找稳定的Stackelberg博弈用于Web应用安全中领导者的最优策略。本文提供了Stackelberg安全博弈和贝叶斯Stackelberg安全博弈的详细描述,对其在Web安全领域的适用性进行了讨论,并给出了实验的结果。

不同的研究者探索用博弈论的方法来建立安全问题的适用性[1], 在过去的几年有了显著的结果和实际运用。在文献[2]中,提出了ARMOR框架,能够有效地在洛杉矶国际机场内设置检查点和警犬巡逻维护安全。在文献[3-4] 中, 博弈论被用于联邦空警在商业航班中的安全护航,以及在纽约地铁中的逃票检查。博弈论也已经被用在建立信息安全领域的模型中, 文献[5] 用完全信息的静态博弈来建立信息安全的攻防模型。在文献[6]中,利用零和随机博弈对攻击者和系统管理员的行为进行建模,其中网络被表示为一组独立的节点来对应安全资产和漏洞。在文献[7-8]中,描述了在信息安全问题中运用博弈论的方法找到最佳的策略,提出了相关决策的惩罚参数。在文献[9]中,提出了基于马尔科夫决策过程的博弈模型对漏洞威胁进行风险评估。

本文将会探讨在Stackelberg博弈中防守者和攻击者形成最优稳定局面可能性以及在Web安全领域的应用。本文的目标是找到在Web安全问题中面对攻击时最有效的防守策略。

1 Stackelberg博弈

Stackelberg博弈是非合作、有先后次序的决策博弈。是由两个局中人领导者和追随者参与的一种博弈论类型。被称为领导者(leader)的参与者首先发布一个混合策略,另一个被称为追随者(follow) 的参与者在领导者的策略下优化自己的性能或收益,回应一个纯策略。两个参与者都想其收益最大化。每个参与者有一个可能的行动集合, 每个参与者可以从集合中选择形成策略, 这个策略是参与者可能采取行动的概率分布,可以表示参与者选择这个行动的可能性。参与者只能选择一个行动的策略就叫做 “纯策略”。而在混合策略中每个行动可以被选择的概率是0≤p<1。由于本文侧重于Stackelberg博弈在安全领域中的应用, 相关术语 “ 领导者” 对应的 “ 防守者”及 “追随者”对应的 “攻击者”会被交替使用。

在Stackelberg博弈中, 我们定义x表示领导者的混合策略, 追随者则从纯策略集合J中选择一个纯策略,回应领导者的策略并最大化其预期收益。对于追随者执行的每个纯策略j, 领导者的预期收益为ujTx + uj ， 0追随者的预期收益为vjTx + vj ， 0, 其中uj和vj是RN中的实向量,uj ， 0, vj ， 0∈R。定义U和V分别表示领导者和追随者的收益矩阵:

1 . 1 贝叶斯Stackelberg博弈

贝叶斯Stackelberg博弈将Stackelberg博弈扩展成允许有多个类型的追随者,每种类型都有其自己的收益矩阵, 方便建立有多个类型攻击者的模型。在贝叶斯Stackelberg博弈中, 追随者的类型集合表示为{ 1 , 2 , … ,I } , 其中每种类型1 ≤ λ ≤ I都有一个先验概率Pλ来表示其出现的可能性。领导者在知道每种类型追随者先验概率分布的情况下承诺一个混合策略,但是领导者不知道面对的追着者的具体类型。而追随者会根据领导者的策略回应一个最佳的策略。对于每个追随者类型,领导者和追随者对应的收益矩阵分别为Uλ和Vλ。

在本文中定义j =(j1,j2, … ,jI) 来表示追随者回应的纯策略,其中jλ是追随者类型 λ 的纯策略,对于类型为 λ的追随者,其预期收益为vλ(x,jλ)=(vjλTλ)x + vjλ， 0, 领导者总收益,其中对应每种i类型的追随者时,领导者的相应策略对应收益为uλ(x,jλ)=(ujλTλ)x + ujλ， 0。

1 . 2 稳定Stackelberg均衡条件

为了计算领导者的最优策略, 则需要先定义稳定Stackelberg均衡[10]。首先需要定义一组向量函数g =( g1, g2, … , gI) , 其中每个gλ表示领导者的混合策略到 λ类型追随者的纯策略的映射关系, 那么g (x) 就是追随者回应x策略的一组向量, 可以表示为g(x)=(g1(x), … ,gI( x ) ) 。

定义1: 对于给定一个收益矩阵为(U1,V1), … , (UI,VI) 类型的概率分布为p的贝叶斯Stackelberg博弈, 一组策略集(x,g) 当且仅当满以下条件时能构成一个稳定Stackelberg均衡。

( 1 ) 领导者执行最优反应策略

( 2 ) 所有类型的追随者执行最优反应策略

( 3 ) 在每个类型追随者在最优反应的前提下, 使领导者收益最优

其中的所有j都是(2)中追随者的最优反应策略.

2 DOBSS算法

在以前的研究中, 有很多方法可以用来解决Stackelberg安全博弈问题[11],DOBSS算法是其中一个能够有效计算出在贝叶斯Stackelberg博弈中领导者的最优混合策略。采用这个方法有3 个优势,首先这个方法不需要通过海萨尼转换转化为正则形式的博弈来表示贝叶斯博弈;第二,该方法仅需计算一个混合整数线性规划问题,而不是计算一组线性规划问题的集合;第三,它直接搜索了领导者的最优策略,而不是Nash均衡,从而使其能够找到高回报的Stackelberg均衡策略(利用了领导者的优势)。

首先需要定义一个基本形式来解决贝叶斯Stackelberg博弈问题, 这是一个混合整数二次规划问题( MIQP ) , 其次会将其转化为一个混合整数线性规划的问题(MILP)。我们用x表示领导者的策略, 其由一组领导者的纯策略向量组成。 xi的值表示纯策略i在混合策略中的比例。同样,用q表示追随者策略的向量。我们用X和Q表示领导者和追随者各自纯策略的集合。 M则是表示一个无穷大的正数。收益矩阵R和C的定义是:当领导者选择纯策略i, 追随者选纯策略j,Rij是领导者的收益,Cij是追随者的收益。

领导者的MIQP问题定义为:

为了扩展这个Stackelberg模型来处理多个追随者类型,我们遵循贝叶斯方法先假设存在一个先验概率pl来表示追随者类型l出现概率, 用L表示追随者类型的集合。在这个例子中,ql表示追随者类型l ∈L的策略向量。同样的, 领导者和追随者类型为l的收益矩阵用矩阵Rl和Cl表示。那么领导者需要解决问题变为:

现在面临的最终步骤是消除MIQP中目标函数的非线性, 使之变为一个MILP, 我们可以通过交换变量zilj=xiqjl, 得到式( 6 ) :

这是我们可以在IBM的cplex框架下实施的最终形式,将会在第4 章讨论。

3 Stackelberg博弈在Web安全上的应用

3 . 1 Stackelberg博弈在Web安全上的适用性探讨

Stackelberg博弈在Web安全应用问题中非常有用。在这种情况下, 领导者可以是信息安全人员或者组织,追随者可以是黑客或者有组织的犯罪集团。领导者首先通过部署不同的信息安全策略来保护其资源,然后追随者可以通过探测网络确定其状态,用纯策略回应领导者的策略。不同类型的追随者可以被解释为不同类型的攻击, 根据以前的研究和统计[12], 安全部门可以构建攻击技术分布比例, 而攻击者可以扫描网络的当前状态,查找漏洞,实施最佳策略。

安全部门可以被当做一个领导者,原因如下:

( 1 ) 在大多数情况下, Web应用的安全策略是对外公开的。

( 2 ) Web应用的安全手段和措施都是标准的和众所周知的。黑客可以通过探测网络来推断安全部署。而且这种信息经常也可以从安全供应商得到。

( 3 ) 每个安全措施都有自己的弱点和不足, 这给了攻击者有机会选择最好的方式来攻击。

这些情况都可以说明Stackelberg策略可用在Web安全领域。

3 . 2 Web应用中的攻击策略和修补策略

为了具体说明将Stackelberg博弈策略运用在Web安全应用中, 本文建立了在Web安全应用中的攻防模型。在Web应用安全问题中,攻击者(跟随者)试图利用一些漏洞来执行未经授权的操作,而安全人员(领导者)试图解决这些错误。根据研究[13],Web应用中最广泛的追随者的攻击策略和领导者的修补策略见表1, 这些攻击手段和防御手段分别对应了追随者的行动集合和领导者的行动集合。

3 . 3 Web安全中领导者和追随者的收益计算

将Stackelberg博弈应用于Web应用的安全问题上,其核心问题是需要以一种有意义的方式填充领导者和追随者的收益矩阵。在研究[13]中,OWASP团队的文档数据由7 家专业的应用安全公司提供。数据涵盖了来自上百家组织上千个应用,超过500 000 个漏洞。根据这些数据, 同时考虑攻击向量的可利用性、安全漏洞的普遍性和可检测性以及技术影响的严重性程度等多方面因素, 给出了Web漏洞每个风险因素的风险值。在研究[ 13 ] 的基础上, 本文给出了Web安全应用中领导者修补策略的收益(表2)和追随者攻击策略的收益(表3)。

根据收益表格,当追随者发起攻击时给出定义:

( 1 ) 如果修补手段对攻击手段是有效的, 那么领导者的收益为领导者行动的影响减去领导者修补手段的成本,追随者的收益是其攻击手段的成本。

( 2 ) 如果修补手段对攻击手段是无效的, 那么领导者的收益是负的,其值为领导者修补手段的成本减去追随者攻击手段的影响,追随者的收益为追随者行动的影响减去追随者攻击手段的成本。

( 3 ) 追随者同样可以选择不进行攻击, 那么领导者的收益为其修补手段的成本, 追随者的收益为0, 由此可以得到收益表格来定义收益矩阵(表4)。

4 实验结果

在本文实验中使用了IBM ILOG CPLEX软件来处理寻找Stackelberg博弈领导者的最优策略时面临的线性规划问题,IBM ILOG CPLEX是一种非常强大的线性规划处理工具,支持各种编程语言,在这个例子中,我们使用JAVA语言编程实现。

在这个例子中, 定义了两种类型的追随者, 它们的攻击手段相同时具有相同的收益值,但是有不同的行动集合。其中A类型的追随者可以用第3 章表1 里攻击策略集合中的任何纯策略,但是不可以不进攻(选择NA策略)。而B类型的追随者不可以使用SQLi和ITIP策略。 A类型的追随者先验概率为0.7,B类型的追随者先验概率为0.3.

得到程序的结果如下:

优化状态:Optimal

领导者最大预期效用:-0.702 052 238 805 969 8

A类型追随者最大预期效益:1.357 142 857 142 857 2

B类型追随者最大预期效益:1.283 582 089 552 239

追随者的追策略:

A的纯策略:SQLi

B的纯策略:XSS

领导者的混合策略:

采取转义程序行动的概率:0.390 485 074 626 865 66

采取会话安全的概率:0.221 641 791 044 776 13

采取访问控制行动的概率: 0.0

采取跨站点请求伪造防卫行动的概率:0 . 166 231 343 283 582 05

采取环境安全行动的概率: 0.221 641 791 044 776 05

采取安全算法行动的概率:0.0

上述结果与研究[13] 中的Web应用安全的研究情况相符,SQLi和XSS是威胁性最大的攻击手段, 因此基于所得到的结果,领导者可以使用如上的混合策略达到最优防守状态。

5 结论

博弈论在安全领域有着越来越重要的作用, 近年来理论研究和生产实践使安全博弈分析有了长足的发展[14]。本文综述了贝叶斯Stackelberg博弈, 在此基础上提出了一种贝叶斯Stackelberg博弈策略在Web安全中的应用的模型,综合考虑领导者和追随者的成本参数和收益参数,构建了更加全面的局中人收益函数。并利用文献[10] 提出的DOBSS算法, 计算贝叶斯Stackelberg博弈均衡的混合整数二次规划问题转化为混合整数线性规划问题,并且借助了高性能的线性规划问题处理工具CPLEX,给出实例计算了Web应用安全中防守者的最优混合策略。

贝叶斯均衡博弈篇4

电力系统和电气设备发生事故, 给电力生产和工农业生产都带来了灾害, 危及设备和人身的安全。当电力系统发生故障时, 电网调度中心将会在短时间内出现大量的报警信息, 此时调度人员往往难于进行全面、准确的事故判断和处理以致延误时机或判断处理失误, 造成系统事故[1,2]。对新调度人员在理论之上进行实际演练, 积极开展反事故演习是提高电网事故处理能力行之有效的措施。近年来, 国内外学者对专家系统在电力系统中的应用作了大量研究, 开发了许多系统。这些系统大都基于规则推理。由于各个电网的网络结构、保护配置等具体情况不同, 因而针对每一具体电网开发电网调度处理方面的专家系统时都要从头开始, 使各专家系统之间没有可继承性。在开发过程中经验知识的获取是比较困难的, 需要知识工程师和领域专家的密切合作, 而每开发一个专家系统都要重新搜集和总结专家经验, 需要大量人力劳动, 使专家系统的开发成本高、周期长、效率低[3]。更不利的是在这些规则中, 知识往往是静态的, 不能适应领域知识不断发展变化的要求。

文献[4]基于事例推理 (CBR) 方法开发的专家系统虽然可以即时添加数据库, 实现化动态存储, 但是在检索故障类型时, 是基于已有实例分析, 因而规则提取困难, 缺乏灵活性, 知识不全面;文献[5]为使输电网得到最大限度的利用建立了输电网动态博弈模型;文献[6]基于动态博弈模型框架, 分析了突发事件应急管理的动态博弈过程, 并初步利用博弈模型得出假设条件下的最佳决策。

为了进一步提高基层电力企业快速、高效处理电网事故的能力, 迫切需要能快速提升操作人员处理事故能力的事故演习专家系统。事故分析是事故管理的重要组成部分, 事故分析包含两层含意:一是对已发生事故的分析, 二是对相似条件下类似事故可能发生的预测。事故分析过程如图1所示。

不完全信息动态博弈相关理论和均衡解法在分析处理电网事故的决策过程中得到较广泛应用, 但是较少应用于电网事故演习系统[5,6,7]。本系统综合采用这两种方法, 以调度中心的典型真实事故案例作为反事故演习题, 从假设的事故象征、初步分析判断、具体检查处理和操作过程、再分析、恢复系统运行方式, 到故障分析和演习点评、最优决策诱导[5], 来提高调度人员处理现场事故的实际技能。

2 精炼贝叶斯纳什均衡

本系统通过归纳分析收集查阅到的日常电网事故资料, 总结电网事故类型, 分析其产生机理, 并对电网事故诊断、事故分析提供了新的智能方法———精炼贝叶斯智能分析法。

贝叶斯为博弈论相关的概念[8], 用于研究电力市场中各种策略性竞争行为的主要是非合作博弈。非合作博弈通常被划分为四种不同类型的博弈:完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈和不完全信息动态博弈。对应于上述四类博弈的解是四种均衡:即纳什均衡, 子博弈精炼纳什均衡, 贝叶斯纳什均衡及精炼贝叶斯纳什均衡。

精炼贝叶斯纳什均衡是所有参与人战略和信念的一种结合。它满足如下条件:第一, 在给定每个参与人有关其他参与人类型的信念的条件下, 该参与人的战略选择是最优的;第二, 每个参与人关于其他参与人所属类型的信念, 都是使用贝叶斯法则从所观察到的行为中获得的。

贝叶斯法则:设 (Ω, F, Ρ) 为概率空间, Ai=F (i=1, 2, …, n) 为Ω的一个有穷部分, 且P (Ai) >0 (i=1, 2, …, n) , 则对任意的B∈F且P (B) >0, 有

3 计及贝叶斯纳什均衡的事故演习系统

3.1 模型描述

模拟动态电网, 把专家系统演习软件运行时参与动态博弈的对峙双方分别定义为“调度人员”与“故障信息类型”, 电网故障的表现为随机因素下或采取措施后不同信息类型的具体内容, 电网调度人员的表现为依据信息内容变更所采取的应对措施。

参与人在博弈的某个时点的决策变量的集合称之为行动集合。“故障信息类型”的策略空间就是其状态空间, 而“调度人员”的策略空间则是其方案空间。电网的故障t∈T, T为电网故障信息类型空间, “故障信息类型”属于类型ti的先验概率为P (ti) , ∑P (ti) =1 (i=1, 2, …, n) 。“调度人员”开始行动时, 他发现对方采取了行动ar, 使自己处在信息集R中, 设信息集R中有n个结点, 而且信息集中每一个结点都与前期局中人的类型与行动有关。这时, “调度人员”对电网信息在自己的类型为ti时在信息集R中选择行动ar的概率P (ar|ti) 有一个先验判断, 且∑P (ar|ti) =1 (r=1, 2, …, n) 。定义在博弈初始由自然N选择故障信息的类型, 先验概率的求取可根据运行记录和调度经验确定。

在突发事件应急管理过程中, 我们假定“故障信息类型”与“调度人员”之间进行的是一场动态的零和博弈, 也就是说一方的所失即另一方的所得。因此, 只需给出一方的支付函数即可确定不同的博弈结局下双方的支付情况[9]。

支付函数指在一个特定的战略组合下参与人得到的确定的效用水平或者是得到的期望效用水平。决策者的效用函数是故障信息类型、信息内容、决策方案等因素的函数, k指博弈的第k阶段。ar (ti) 表示电网在属于故障信息类型ti下采取的一个特定的行动, 即电网的一个特定的运行信息表示, 它可以表示为工作中的线路、开关等装置的状态。dk (ar) = (k=1, 2, …, m) 表示“调度人员”的第k个行动, dk (ar) ∈D是行动方案, 表示实施具体投切负荷和机组等的操作。

效用函数u (tki, akr, dkk) 表示在第k阶段, 故障信息类型为tki, 信息内容为akr, “调度人员”采取行动dkk, 决策者将选择dkk使自己的期望效用最大化, 定义决策者的期望效用函数为

3.2 电网事故处理决策

阶段一:“自然”选择之后, 电网发生故障信息类型ti, 出现某一特定的信息内容a1r, “调度人员”依据由运行记录及调度经验确定电网故障信息类型的先验概率P (ti) , 故障在自己的类型为ti时在信息集R中选择行动ar的概率P (ar|ti) , 以阶段1子方案库中的j个方案作为行动的方案空间, 每个方案对应于一个由故障信息类型、信息内容、“调度人员”方案等因素组成的效用函数, “调度人员”根据期望效用最大化原则选择最佳实施方案。贝叶斯法处理决策过程图如图2所示。

阶段二:根据第一阶段“调度人员”采取的行动方案, 事故信息选择自己的行动, 即选择自己的内容a2r, “调度人员”对上一阶段结果进行评估并搜集关于事件的新信息对事件状态进行推断或修正, 得到该阶段中关于信息内容判断的后验概率P (ti|ar) , 利用期望效用最大化原则选择第二阶段的方案。

……

阶段m:对于第m-1阶段“调度人员”采取的行动, 故障信息选择自己所处的具体内容amr, “调度人员”根据阶段结果评估和新信息的搜集, 对信息内容的概率进行推断或修正得到后验概率, 利用贝叶斯法则按照期望效用最大化原则选择第m阶段的实施方案, 直到电网事故被控制。

3.3 反事故演习题案例

下面列举了“车2汇桥开关跳闸, 重合不成功”的事故演习题, 从事故象征假设、初步分析判断、具体检查处理和操作过程、再分析、恢复系统运行方式, 到故障分析和演习点评, 使调度人员在每一步骤都能了解具体的处理方法。

故障信息类型:t1:SCADA告警显示, t2:现场汇报, t3:用户来电, t4:承讯汇报, t5:领导、同事来电;

信息内容:a1:开关跳闸, a2:重合不成功;a3:询问事故缘由;a4:线路巡线, a5:全部正常;

判断:“故障信息类型”为t1, “信息内容”为a1, 这时在第一阶段, 电网管理者有5个方案:d11-TCM登记、PMS置位, d12-答复, d13-接受汇报, d14-确认电网状态, d15-派巡线;第二阶段有3个方案;……;到第m-1阶段“调度人员”采取行动d (m-1) k, 电网调度选择自己所处的故障信息类型a (m-1) 1, 求出此时后验概率 (假设为P (t1|a1) =0.35、P (t2|a1) =0.2、P (t3|a1) =0.2、P (t4|a1) =0.15、P (t5|a1) =0.1) 。此时系统显示故障信息为“SCADA告警显示”, 并且信息内容为“开关跳闸”。

将第m-1阶段的后验概率作为阶段m的先验概率, 即P (t1) =0.35、P (t2) =0.2、P (t3) =0.2、P (t4) =0.15、P (t5) =0.1。

条件概率P (ar|ti) , (r=1, …, 5;i=1, …, 5) , 如表1所示 (先验概率值是由经验丰富的教练员拟定的) 。

再由式 (1) 求解后验概率, 如表2所示。

利用贝叶斯法则按照期望效用最大化原则选择第m阶段的实施方案, 直到电网事故被控制。阶段m的实施方案有dm1、dm2、dm3三种:

dm1:立即判断开关实际位置, 并打电话到现场确认开关实际状态, 同时向现场人员确认开关动作过程。

dm2:立即通过SCADA显示的遥测量判断开关实际位置, 并打电话到现场确认开关情况要求现场中心站人员通过红绿灯、表计、机械位置等确认开关实际状态。

dm3:经SCADA中遥测遥信判断开关分位后, 未询问现场。

当信息内容状态为a1时实施方案dm1、dm2、dm3的效用值分别为0.8、0.3、0.1;信息内容状态为a2时, 各方案的效用值为0.1、0.5、0.4;信息内容状态为a3时, 各方案效用值为0.4、0.6、0.5;信息内容状态为a4时, 各方案效用值为0.3、0.2、0.5;信息内容状态为a5时, 各方案效用值为0.4、0.3、0.1。

定义决策者的期望效用函数为:

方案dm1的效用值um1=0.6084211;方案dm2的效用值um2=0.3273684, 方案dm3的效用值um3=0.1757895, 比较可知dm1效用值最大, 故选择方案dm1。

4 系统运用

本系统在上海电力公司松江供电公司地调中心得到了成功应用, 该系统采用本地化编译语言, 并结合大量动画效果以增加用户的操作体验。本着考核并提高调度人员对日常电网中异常情况的处理能力为目的, 定制不同分数段及不同分数段的评价, 从而使导演更好地对各种处理流程进行分类, 及对不同类别的评价做出较为灵活的变动。通过对日常发生的事故案例的收集, 查询, 选择, 再现的方式来模拟, 并由导演来诱导被演者解决事故每一步发生的情况, 最终给出演习报告。本软件运行于Windows XP/Win7操作系统环境, 数据采用Excel 2003存贮。系统可统一进行用户管理, 导演可以通过统一编辑更改被演者的岗位及姓名的文件来对被演习用户进行管理。

诱导方法是运用贝叶斯推理来进行决策, 通过分阶段循环分析选择, 诱导事故处理员能够掌握事故处理的最佳方案, 具体分析过程如图3所示。

5 结论

本论文研究的优势是不光对调度人员进行反事故能力的培训、有针对性地进行事故预想和反事故演习, 还对调度人员的行为进行了评估反馈, 并诱导操作员在突发事故时选择最优措施。最后记录好每个人员的成绩, 确保培训工作的真实性和有效性, 分析培训工作的薄弱环节。在短时间内帮助操作员熟悉电力系统相关调度、常见故障及故障处理, 具有重要的现实意义。本事故演习系统还加入变电运行仿真培训的反事故演习训练内容, 增加了一部分事故处理的经验和教训。这些经验和教训, 源自所接触过的一些供电单位的工程技术人员提供的素材。这些素材经过整理, 可以使调度人员对新技术、新设备有更深入的了解。本系统已在上海市电力公司松江供电公司地调中心获得了成功应用, 并申请了国家实用新型专利。

参考文献

[1]高曙, 江北, 顾雪平, 等 (Gao Shu, Jiang Bei, Gu Xueping, et al.) .电力系统事故判断专家系统的研究 (The study of expert system for power system fault diagnosis) [J].电力系统及其自动化学报 (Proceedings of the EPSA) , 1992, 4 (2) :51-59.

[2]张文勤, 周明, 顾雪平, 等 (Zhang Wenqin, Zhou Ming, Gu Xueping, et al.) .电力系统事故实时调度处理专家系统 (ESRG-A real time expert system for a restoration duide in a dispatching center) [J].电力系统及其自动化学报 (Proceedings of the EPSA) , 1992, 4 (2) :60-67.

[3]盛四清, 张文勤, 顾雪平 (Sheng Siqing, Zhang Wenqin, Gu Xueping) .电力系统事故处理专家系统工具的设计与实现 (Design and implementation of expert system tool for restoration of power system) [J].华北电力大学学报 (Journal of North China Electric Power University) , 1997, (3) :27-32.

[4]刘子介, 解建仓, 杨华 (Liu Zijie, Xie Jiancang, Yang Hua) .基于事例推理的电网事故处理专家系统 (Electric network accident management expert system based on CBR) [J].电测与仪表 (Electrical Measurement&Instrumentation) , 2005, 42 (5) :3-6, 62.

[5]Salehian A.Dynamic game theory model for the power transmission grid[A].2004 IEEE PES Power Systems Conference and Exposition[C].Connecticut, USA, 2004.1449-1452.

[6]宫秀军 (Gong Xiujun) .贝叶斯学习理论及其应用研究 (Research on Bayesian learning theory and its application) [D].北京:中国科学院研究生院 (Beijing:Graduate School of the Chinese Academy of Sciences) , 2002.

[7]田廓, 曾鸣, 王晶晶, 等 (Tian Kuo, Zeng Ming, Wang Jingjing, et al.) .基于精炼贝叶斯均衡的电网动态应急管理 (Grid dynamic emergency management based on perfect Bayesian equilibrium) [J].华东电力 (East China Electric Power) , 2009, 37 (1) :103-107.

[8]李路, 周渝慧 (Li Lu, Zhou Yuhui) .博弈论在处理大电网事故中的应用 (The application of game theory to the handling of power grid collapse) [J].东北电力技术 (Northeast Electric Power Technology) , 2005, (4) :25-27.

【贝叶斯均衡博弈】推荐阅读：

非均衡博弈与社会公共组织发展论文06-09

均衡招生07-18

均衡机制07-21

均衡相关06-07

内外均衡06-15

动态均衡06-22

均衡调度07-05

信息均衡07-28

协调均衡08-10

分数均衡08-11

>> 查看更多相关文档