马尔科夫决策

2024-10-25

马尔科夫决策(共4篇)

马尔科夫决策 篇1

随着社会经济的飞速发展, 市场竞争日趋激烈, 在企业的经营管理中, 除了需要摸清产品市场销售状态, 还要对销售利润的变化进行预测, 并采取相应措施进行正确有效的决策, 从而使得企业产品在市场中处于高效良性的营销状态。

马尔科夫 (Markov) 预测方法是指利用马尔科夫链来确定状态的变化趋势, 从而对未来的市场占有率或者利润变化进行预测的一种方法。

一、马尔科夫链与状态转移概率

设随机过程X (t=1, 2, 3…) 每步试验的结果都为有限个状态s1, s2, …, sn如果第t步出现si状态, 第t+1步出现sj状态的概率只与si有关, 而与t无关, 即 , 则称Xt为马尔科夫链 (Markov) , 为一步状态转移概率, 而为状态空间各状态一步转移概率矩阵, 且有。 。

二、期望利润预测及实证分析

企业的利润分析对企业的发展十分有益, 由于企业产品的销售利润与前一阶段的销售状态和利润有关, 而与早先的状况如何基本无关, 因此我们可以把这一过程近似地看成一个马尔科夫过程, 运用马尔科夫法来预测。

在进行利润预测时, 首先通过市场调研摸清市场销路的基本状态及变化, 并测定出状态转移概率矩阵和转移利润矩阵, 然后预测出未来销售状态变化获得的利润和亏损情况, 最后通过一定的措施调整转移概率和利润矩阵, 作出正确有效的决策。

1. 期望利润预测模型

假设市场销售有n种状态, P为销售状态转移概率矩阵, 有 , 为状态转移利润矩阵, 其中rij (i, j=1, 2, …, n) 表示由si状态转到状态所获的利润:rij>0表示盈利, rij<0表示亏损, rij=0表示保本, 则一步转移期望利润预测模型为:

一般地, 经过k步转移后的期望利润递推公式为:

若将n种状态的期望利润罗列成矩阵形式, 则矩阵形式的k步期望利润模型为:

其中: :

2. 实证案例的预测分析

假设某玩具制造企业的市场销售有畅销和滞销两种状态 (1-畅销, 2-滞销) , 通过市场调研销售状态转移时其利润变化如下:连续两年 (本文以年作为时期的计算单位) 持续畅销可获利40万元, 持续滞销要亏损10万元, 由畅销转向滞销或由滞销转向畅销状态都将获利20万元, 即状态转移利润矩阵 , 同时通过调研得到相应的状态转移概率矩阵为 , 试预测该企业即期 (下一年) 的期望利润以及三年后的期望利润。

由式 (1) 可计算各状态下个月的即期期望利润vi;由式 (2) 或式 (3) 可计算出二步、三步转移的期望利润vi和vi (3) 其值如下:

计算结果表明:明年该企业玩具销售状态若是畅销可获利30万元, 滞销可获利2万元;如果该企业没采取任何营销和技改手段, 市场状态转移状况不变, 则三年后预计畅销状态的期望利润为60.6万元, 滞销为29.52万元。

三、运用马尔科夫链进行决策分析

为了获取最大经济效益, 可以采取一些措施, 如在畅销时进一步登广告而市场滞销时通过技术改造和研发新产品来促进销售、增强竞争能力获得更多利润。该企业在市场调研后拟定以下方案来改善销售状况及利润变化, 若各个方案欲定期实施5年, 我们也可以利用马尔科夫链分析选择较为有效的方案做出最优决策。

方案一:如果市场畅销则不登广告, 而市场滞销时, 进行技术革新研究试制新玩具。这样市场销售状态转移矩阵转变为 , 转移利润矩阵 , 则利用式 (1) 和式 (2) 或 (3) 计算即期和5年后的期望利润分别为:

方案二:如果市场畅销进一步登广告营销, 但市场滞销不革新不试制新玩具。这样市场销售状态转移矩阵为 , 转移利润矩阵 , 则即期和5年后的期望利润分别为:

比较两种方案的结果可以看到定期经营5年, 无论市场未来是畅销还是滞销状态, 方案二的期望利润都小于方案一, 所以方案一是最优决策方案。

摘要:本文应用概率论中的马尔科夫链理论, 建立了期望利润预测模型, 通过实证案例对企业销售利润进行预测和决策分析。

关键词:马尔科夫链,转移概率,期望利润预测,决策

马尔科夫决策 篇2

关键词:市场占有率,转移概率矩阵,预测,改进

1 引 言

在市场中, 产品市场占有率即企业实际销售产品数量在同行业实际销售量中所占的百分比, 是评价产品市场竞争能力的综合指标。市场占有率是产品竞争力的晴雨表, 其发展趋势的变化反映企业的竞争态势和运营前景。管理者需要根据产品的市场占有率做出决策。因此, 为了能使企业产品在市场中处于高效良性的营销状态, 必须随时掌握市场动态, 了解本企业产品的市场占有率, 预测其发展趋势, 并采取相应措施, 进行正确有效的决策。

2 详细分析预测过程

2.1 选择预测方法

影响冰箱销售量的因素很多, 除产品质量、价格、经营管理水平等外, 还与某个时期是否有同类新产品投放市场有关。表1为无锡松下冰箱各月的销售量。

资料来源:张昕主编:预测决策方法.

从表1看, 时间序列无明显的趋势变动, 也没有季节变动, 无法采用趋势外推法或季节变动预测法, 但可以将其看做随机平稳序列。冰箱在时刻t 的销售状况, 一般来说只与其前一刻即t-1 时刻的销售状况有关, 而与t-1 以前的状况无关, 所以考虑采用马尔科夫法。建立假设如下:①使用一阶马尔科夫模型;②转移概率矩阵逐期保持不变;③销售总额大小逐期保持不变;④用户按规定时间购货, 且每次购货数量相等。

2.2 确定系统状态及系统状态的初始分布

对一个企业来说, 不仅要预测本企业产品市场占有率, 同时还应了解竞争对手的变化态势。假设系统取n个状态, 这是一个状态空间为{ S1, S2, …, Sn} 的马尔科夫链。表2为2006年5月我国大城市各品牌冰箱市场占有率的调查数据, 根据马尔科夫的基本原理与方法, 按表2 把系统分为海尔、西门子、其他品牌3个状态。得到3 个系统状态在2006年5月的市场占有率分别为:海尔:22.4%;西门子:12.0%;其他品牌:15.4%。以2006年5月为基期来预测2006年6月的市场占有率。那么2006年5月的3个状态的市场占有率即为系统状态的初始分布, 用向量表示为 (P1 (0) , P2 (0) , P3 (0) ) = (0.224, 0.120, 0.154) 。

数据来源:中怡康对全国260个城市2800家门店销售监测。

2.3 建立转移概率矩阵

运用马尔科夫链进行预测的关键在于建立状态转移概率矩阵, 如果在时刻m系统状态Sm=I, 在下一时刻系统转移到状态Sm+1=j, i, j=1, …, n, 其转移概率为Pij。它可以排成一个矩阵:

undefined

, 称为转移概率矩阵。

表3中的数据是中怡康市场研究公司对大城市一些商场的抽样调查, 统计其2006年5月购买和6月欲订购的电冰箱的转移数量而获得的。

按表3数据, 容易建立转移概率矩阵:

undefined

其中:横行元素表示保留或输出的概率, 如P11=0.967 表示购买海尔冰箱的用户保留率为96.7 %;P12=0.023表示5月购买海尔冰箱的用户到6月转至购买西门子冰箱的概率 (输出率) 为2.3 %。列元素表示保留或输入的概率, 如P21=0.050 表示6月海尔从5月购买西门子冰箱的用户中获得客户的概率 (输入率) 为5 %, 等等。

2.4 市场占有率预测

有了状态初始分布向量及状态转移概率矩阵, 就可以根据马尔科夫链的预测公式 (P1 (k) , …, Pn (k) ) = (P1 (0) , …, Pn (0) ) ×Pk (k=1, …, n) 预测报告期各状态的市场占有率。2006年6月3类冰箱的市场占有率分布向量为:

undefined

2.5 稳定状态下的占有率预测

稳定状态下的占有率就是在市场竞争中达到均衡 (稳定) 状态的占有率。对某些马尔科夫链来说, 经过较长一段时间以后, (P1 (k) , …, Pn (k) ) 将逐渐趋于常数向量, 我们记为 (P1, …, Pn) , 称其为稳定分布或终极占有率。根据马尔科夫链理论易知:在一定条件下, 我们有:

对计算结果可做出如下分析:与基期的市场占有率相比较, 海尔冰箱0.612-0.224=0.388=38.8 %, 有非常大的增加;西门子冰箱相对来说增加较小;其他品牌冰箱0.156-0.154=0.2 %, 波动很小。

2.6 预测误差分析

根据中怡康公司公布的数据, 得到这2个月3种电冰箱的市场占有率, 见表4。

这些数据较准确地反映了3类冰箱2个月内的实际市场占有率。将它与预测值相比较得误差见表5。

从表5中可看出预测误差较小。实际上, 激烈的市场竞争中, 各企业经常采取各种措施, 影响用户的购买意向, 因此转移概率矩阵是经常发生变动的。而且, 之前假设销售总额、用户购货时间、购货数量都保持稳定。实际上, 这3个因素由于季节变动、消费水平等因素的影响, 往往也是不稳定的。

3 探讨初步改进

对于用马尔科夫链得到的以上结果可通过改变转移概率矩阵来提高市场占有率以获得竞争优势。一般方法分为两种:第一种, 从竞争对手公司吸引客户过来;第二种, 提高客户保留率。

以此, 我们对稳定状态下的市场占有率预测公式进行改进:假设西门子从海尔那里吸引x%客户过来, 并提高了y%的客户保留率, 那么由式 (1) 有:

从上面结果可以看出, 如果市场条件发生变化, 概率转移矩阵改变的时候就可以直接套用以上结果来预测下一期的市场占有率。下下期可以在以上结果的基础上根据市场变化继续增加变量来进行预测, 方法同上。

4 对马尔科夫分析法的评析

本文提出的基于马尔科夫分析的市场占有率预测模型, 前提是假设转移概率不变, 且仅限一阶马尔科夫过程。然而现实生活中, 顾客下次的购买倾向往往不只与前一次的购买行为有关, 而且可能与在此之前的若干次购买行为有关, 同时转移概率也不会总是不变的。但是在相对短暂的时间里, 可以认为转移概率是不变的, 可以采用本文提出的模型做短期或中期的市场预测, 预测的结果只是为了了解未来市场的变化趋势并为采取相应的对策提供参考依据。

参考文献

[1]中怡康市场研究公司.家电信息监测[N].中国经济导报, 2006-04-03.

[2]王坚强.动态多指标系统增长问题研究[J].系统工程与电子, 2004 (7) :3-4.

[3]易丹辉.统计预测方法与应用[M].北京:中国统计出版社, 2004.

马尔科夫决策 篇3

随着信息技术的发展,计算机以其卓越的性能在科学技术、国民经济和社会生活各个领域得到广泛的应用。20世纪70年代,在管理信息系统(Management Information Systems,MIS)基础上出现了决策支持系统(Decision Support Systems,DSS),DSS是以计算机为主要手段,综合了管理科学与工程、计算机科学、统计学和运筹学等多学科理论和方法,以支持决策过程为目标的信息处理系统。MIS和DSS的产生与发展使计算机应用从工程技术、自然科学等领域向经济、金融、生物、医学、环境、地质、人口、交通等领域渗透。

DSS是面向组织的管理层,侧重于应用模型化的数量分析方法,通过对组织内部、外部数据的分析,挖掘信息内在的规律和特征,以易于理解和使用的方式为管理层提供决策信息。但是,由于管理决策问题的复杂型,现有决策系统大多是面向某类决策问题,如经济分析、人口分析、流量分析等,在实际的管理应用中,DSS只能以某种形式“嵌入”到已建立的信息系统中。基于此,本文给出了基于马尔柯夫分析模型的计算机预测和决策应用,利用Excel2007提供的线性规划功能,简化了手工预测中的大量烦琐计算,提高了预测工作的效率和数据的准确性,具有一定的应用价值。

1 马尔柯夫分析的基本原理

1.1 马尔柯夫分析的定义

马尔柯夫分析是以俄国数学家A.马尔柯夫(A.Markov)命名的一种预测模型。早在1907年,马尔柯夫经多次试验研究发现:在某些随机事件的转移过程中,第n次试验结果取决于第n-1次试验结果,而与更早的试验结果无关。对于由一种情况转换至另一种情况的过程若具有转换概率,而且此转换概率又可以依据其前项情况推算出来,这种过程称为马尔柯夫过程,一连串的此种转换过程称为马尔柯夫链。对马尔柯夫过程或马尔柯夫链进行分析,观察和预测该过程或链未来变化趋势的工作称为马尔柯夫分析。马尔柯夫分析作为预测技术广泛应用于各个领域,如产品销售状态、市场占有率、设备更新成本、交通运输流量、最佳服务地点选择、人口分布和人才拥有量预测等等。

1.2 马尔柯夫分析的数学原理

定义1:任意向量U=(ui),若各元素都为非负数,且元素总和为1,则此向量U称为概率向量。

定义2:任意矩阵P=(pij),若各行均为概率向量,则此方阵称为概率矩阵。

1.3 马尔柯夫分析过程

马尔柯夫分析过程是一概率过程,其转移概率就是过去若干个状态下的概率向量。假定研究系统S有互不相容的n个状态,每隔一定时间状态变更一次,如果在ti时刻系统处于状态Ai(i=1,2,3,…,n),在下一时刻ti+1呈现出状态Aj(j=1,2,3,…,n)的概率只与ti时刻有关,而与ti以前的状态无关,利用条件概率可记为:

Pij(i,j=1,2,3,…,n)称为系统S的马尔柯夫链转移概率,由转移概率Pij构成的矩阵称为系统S的状态转移矩阵,也叫做马尔柯夫链的转移矩阵,即:

基于马尔柯夫分析的预测就是利用转移矩阵对系统发展趋势进行分析的过程。

2 马尔柯夫预测的基本步骤

Step 1:划分预测对象基本状态。从预测目标出发,根据过去出现的基本状态,通过定性与定量分析,确定未来可能出现的状态。

Step 2:计算初始概率。分析历史数据,确定预测对象初始状态的概率向量S0。

S(0)=[S1(0),S2(0),…,Sn(0)](n为系统可能存在相互独立的状态数)(3)

Step 3:确定一步状态转移概率矩阵。根据收集数据,采取统计估算或主观估计法,计算状态转移概率,将所有的状态转移概率依次排列起来,确定一步状态转移概率矩阵P,如(2)式。

Step 4:预测k次转移后的状态。根据马尔柯夫链具有无后效性特征,经k次转移后,对象处于状态i的概率为S(k),由S(k)=S(k-1)·P,递推可得S(k)=S(0)·P(k)(4)

Step 5:预测稳定状态。根据马尔柯夫链具有遍历性特征,系统状态经历多步转移后将逐渐达到稳定状态,且与初始状态无关,即得稳态概率模型为:

3 马尔柯夫预测法在市场占有率预测中的应用

市场占有率又称市场份额(Market Shares),是指一个企业的销售量(或销售额)在市场同类产品中所占的比重,它在很大程度上反映了企业的竞争地位和盈利能力,是企业非常重视的一个指标。在市场经济条件下,竞争日趋激烈,了解市场动态、掌握商品的市场占有率,对企业发展有着至关重要作用。

例:有A、B、C三家公司同时向市场投入一种轮胎,假设三家公司初期市场占有份额相等。但在第二年中,市场份额发生了如下变化:A公司保持其客户的80%,5%客户流失到B公司,15%客户流失到C公司;B公司保持其客户的90%,10%客户流失到A公司;C公司保持其客户的60%,20%客户流失到A公司,20%客户流失到B公司。

预测三家公司未来一年及市场达到稳定状态时的市场占有率。

3.1 建立数学模型

根据题意,系统中研究的客户状态可划分为保持、流失和争取3种。三家公司初期市场占有率(即预测对象初始状态的概率向量)S1=[1/3,1/3,1/3],三家公司客户转移情况见表1。

由表1可知,表中每行表明各公司保留客户和流失客户的百分比,表中每列表明各公司保留客户和争取客户的百分比,由此得到

根据(4)式,第二年各公司市场占有率是:

如果客户流动按照这个趋势不变,经过若干年,各公司市场占有率趋于稳定,与期初市场占有率无关,根据(5)式,达到稳定状态

3.2 应用计算机预测

Excel 2007中的“规划求解”命令可以用来解决线性规划与非线性规划优化问题,借助“规划求解”命令可实现基于马尔柯夫分析模型的预测计算。

3.2.1 加载“规划求解”命令

在Excel 2007窗口中,单击【开始】→【Excel选项】按钮,打开【Excel选项】对话框,选择【加载项】选项卡,从【管理】列表中选择“excel加载项”,单击【转到】按钮,打开【规划求解】对话框,选中“规划求解加载项”,单击【确定】按钮,则在窗口【数据】选项卡【分析】组中加载了【规划求解】命令。

3.2.2 数学模型的计算机转换和计算

(1)预测一次转移状态市场占有率。启动Excel2007,建立“市场占有率预测”表;根据(6)式,将状态将转移矩阵中的各元素置于B4:D6区域,初期市场占有率S1置于E4:E6区域,在E7单元格输入“=SUM(E4:E6)”,结果为“1”,如图1所示。

应用SUMPRODUCT函数求解一步转移矩阵向量,预测第二年市场占有率。在B7-D7单元格依次输入:

第二年市场占有率的预测结果:S2=[36.7%,38.3%,25.0%],如图2所示。

(2)预测稳定状态市场占有率。在图2基础上,重新输入E2和A7单元格内容,清除E4:E6区域数据,建立“稳态市场占有率”表,如图3所示。

应用“规划求解”命令预测稳定状态市场占有率。选择【数据】选项卡,单击【数据】→【规划求解】命令,打开【规划求解参数】对话框,进行参数设置,如图4所示。

设置目标单元格为E7,选定“值”,输入值为“1”;

设置可变单元格为E4:E6;

设置约束为﹩B﹩7=﹩E﹩4、﹩C﹩7=﹩E﹩5、﹩D﹩7=﹩E﹩6;

单击【选项】按钮,打开【规划求解选项】对话框,选中“采用线性模型”和“假定非负”复选框,其它默认;

在【规划求解参数】对话框中,单击【求解】按钮,得到稳定状态市场占有率:St=[38.1%,47.6%,14.3%],如图5所示。

求解结束后,打开【规划求解结果】对话框,如图6所示。选中“保存规划求解结果”单选按钮,选择“运算结果报告”,单击【保存方案】按钮,运算结果报告将以工作表形式保存在同一文件中,见表2。

3.3结果分析

基于马尔柯夫分析模型进行市场占有率的预测解决了两个问题,一是预测某一特定时期的市场占有率,二是预测最终占有率,其最终目的是为经营决策提供依据。以C公司为例,当市场趋于稳定时,其仅占市场份额的14.3%。因此,C公司为了争取市场可以采取两种策略:一是保留策略,二是争取策略。

保留策略就是通过提高产品质量、提供良好售后服务等措施尽力保留原有客户,减少客户流失。若C公司流失到A、B公司的客户各减少10%,通过预测可得C公司稳态市场占有率为25%,提高了9.7%,如图7所示。争取策略就是通过加大宣传、降低价格等措施积极争取其他公司客户。若C公司能从A、B公司争取到的客户在原有基础上提高10%,通过预测C公司稳态市场占有率为29.7%,提高了15.6%,如图8所示。

由上可知,采取争取措施的稳态市场占有率略高保留策略,在实际决策中采取哪种策略还要综合考虑成本等因素,也可综合运用两种策略。

4 结论

利用Excel 2007中的SUMPRODUCT函数和“规划求解”命令可以解决基于马尔柯夫模型预测的计算问题,本文设计的表格简便通用,提高了基于马尔柯夫模型预测的计算精度和效率。在实际应用中,本文设计的表格除了可以在预测过程中使用外,在决策分析过程中,通过修改表格中的参数,即可提供决策参考信息,也可通过增加参数项解决马尔柯夫分析模型在其他领域中预测和决策的计算问题。

摘要:从DSS应用现状出发,介绍了马尔柯夫分析的定义和数学原理,阐述了马尔柯夫分析的过程和预测的基本步骤,利用Excel设计了进行市场占有率预测的应用模型,并进行了仿真预测和决策分析。测试表明,应用模型简便通用,操作方便,提高了预测的计算精度和效率。

关键词:马尔柯夫,预测,概率,转移矩阵,市场占有率

参考文献

[1]甘仞初.信息系统分析与设计[M].北京:高等教育出版社,2003年6月:1-19,27-31.

[2]宋廷山.经济预测与决策方法及其计算机实现[M].长春:吉林大学出版社,2006年7月:193-201.

[3]张学群,楼克明.运筹学基础[M].北京:经济科学出版社,1996年3月,150-157.

[4]吕岩.马尔柯夫分析模型在计算机预测系统中的应用[J].航空计算技术,2003(2):52-54.

马尔科夫决策 篇4

机电装备集成了电、机、液等多种技术,其失效机理相当复杂,导致其可靠性难以评价[1,2,3]。一方面缺少有效的基础数据,可靠性预计结果误差较大;另一方面,在环境载荷持续作用下系统性能逐渐劣化,呈现出多态、时变和相关特性,常规的可靠性分析手段存在很多与工程不相适应的地方。因此,如何实时描述和获得机电装备运行状态和可靠性水平,即所谓的动态可靠性评价问题,是复杂机电装备运行维护过程中难题之一。

针对上述难题,国内外学者分别采用了动态贝叶斯网络(dynamic bayesian network,DBN)理论、部分可观察马尔可夫决策过程(partially observable Markov decision processes,POMDP)、Petri网等理论开展了广泛的研究[4,5,6,7,8,9,10]。其中,POMDP理论因能描述不确定环境下序贯决策问题而受到青睐,在机电装备运行状态估计、维修策略制订等领域中获得了广泛研究。刘繁茂等[1]利用POMDP理论,在基于设备状态的视情维修模式下,提出了以最小化折扣费用为目标函数的设备检测和维修的联合决策方法。黄飞腾等[2]基于系统的马尔可夫性假设,对系统状态进行适当的离散化处理,利用状态转移方法来描述系统的动态随机过程,再建立离散动态事件树求得系统故障概率。尚永爽等[11]针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。实例研究表明,该方法可为保障人员提供科学的维修决策依据。但是,目前的大多数研究都存在模型过于简单、考虑因素单一等问题,与复杂环境下设备维修需求尚有差距。另外,由于POMDP存在“维度灾”问题,缺少有效的求解算法,也限制了该理论在机电设备运行维护中的工程应用。

本文将机电装备的动态可靠性问题看成部分可观察马尔可夫决策过程,通过不完全观测到的设备运行信息(如噪声、温度、压力、振动水平等),对机电装备进行动态可靠性评价,提出以最小化维修成本费用和潜在故障代价为目标函数的设备维护策略制订方法,为机电设备可靠性动态评价和维修策略制订提供有效途径。

1 POMDP概述

POMDP的基本框架可以表示为6元数组<S,A,T,R,O,Ω>[12,13]。其中,S为有限状态集,一般采用离散形式表示,如S={1,2,…,n},n代表状态空间的规模;A为有限行动集,通常表示为A={1,2,…,m},m代表行动空间的规模;T为状态转移函数,S×A→S′表示在状态s下执行行动a后,状态转移为s′的概率为P(s′|s,a),也记为Ta(s,s′)或T(s,a,s′);R为立即收益函数,S×A→R意为在状态s下执行行动a后期望得到的立即收益,也称作报酬函数,用R(s,a)表示;O为有限观测集,通常表示为O={1,2,…,l},l代表状态空间的规模;Ω为观测函数,表示执行行动a后,状态为s′时观测到o的概率,即P(o|s′,a),也记为Ω(s′,a,o)。

1.1 信念状态(Belief State)

在POMDP中,状态s是未知的,只能在一定程度上进行估计。这里的估计即称作信念状态,记为b(s),有0≤b(s)≤1,且

图1表示POMDP模型中的决策过程。由图1可知,信念状态是行动决策的直接依据,信念状态的转移具有马尔可夫性[14,15]。信念状态b′可以用贝叶斯公式进行更新[12,13],具体过程如下:

式(2)为归一化因子。根据转移函数T及观测函数Ω,就可以实现信念状态的转移更新。

1.2 值函数

为了寻求最优行动策略,需要确定值函数。策略表示信念状态空间到行动集的映射:a=π(b)。对于一个初始状态s,按照策略执行动作得到的期望收益为[12,13]

其中,Vfuture为执行动作a之后的潜在长期收益;γ为折扣值,表示相对立即收益R存在一个时间折扣。

按照式(3)和式(4),初始信念状态b的最优值函数和最优策略可以表示为

求解POMDP问题,就是要计算整个信念状态空间中每个信念状态上的最优值函数。受“维度灾”的影响,目前常采用的算法是基于点的值迭代算法(point-based value iteration,PBVI)。PBVI算法属于近似算法,只在信念状态空间部分点上进行计算,由两个步骤组成:①在给定的信念点集上更新值函数;②扩充信念点集。两个步骤交替执行,直到值函数收敛或者满足终止条件为止。

2 动态可靠性评价模型

机电装备的可靠性评价和维护,需要综合考虑装备的运行状态、资源和费用耦合问题。例如,设备某个组件的振动幅值随着时间而变化,反映了它可靠性水平在变化,维修策略也要相应变化。这些时变的因素需要综合在一起考虑,从而决定可靠性水平怎么样,何时维修,怎么维修,目标是在设备的可靠性和可用性可以接受的水平下,最小化装备检测维修费用和潜在故障代价。

2.1 状态集、观测集与行动集

按照上节所述,POMDP模型需要确定系统的状态集、观测集与行动集。为了实现对机电装备可靠性评价,本文将可靠性水平看成系统状态。并假定在复杂工作环境下,系统可靠性水平的动态演变符合POMDP理论。

一般情况下,可靠性属于隐藏状态,需要借助观察或监测信息对其合理估计。工程中,一般是依赖设备的振动水平、噪声水平、温度等可观测信息来评估设备可靠性水平。比如,噪声水平长期维持在高水平,说明结构内部可能存在磨损等故障源,可靠性水平降低,需要进行拆机检修。POMDP模型的观测集可以集成机器的性能参数和每个检测行动取得的多种诊断信息,如某个时间噪声水平和振动信号的幅值。

不同可靠性水平需要采取不同的维修策略。设备如果高可靠,就只需简单维护;反之,则需要大修。不同的维修行为用于构建行动集,如维护、置换组件、置换机器、机器的连续运行或者检测等。

综上所述,假定某个系统的寿命历史能够模拟成一个离散时间的有限状态的马尔可夫过程,下面给出基于POMDP的动态可靠性评价模型定义:

状态集S={1,2,3,4,5},分别对应机电装备高可靠、可靠、亚可靠、次可靠、不可靠。

行动集A={1,2,3,4},分别对应简单保养、普通维护、小修、大修。

假设一个机电系统有k个观测量,分别为O1、O2…、Ok,将每个观测量按照大小离散为5个水平,对应“低”“中下”“中”“中上”“高”。则观测集定义为:Oi={1,2,3,4,5},i=1,2,…,k。

2.2 转移函数和观测函数

状态转移函数Ta(s,s′)如图2所示,即假定当前系统状态为可靠,采取的行动集———维修策略是普通维护,则下一时刻系统状态(不可靠、可靠、高可靠)以一定概率发生转移。本质上,状态转移函数属于条件概率范畴,反映了维修行为对系统可靠性水平影响程度。大多数情况下,这种影响是正面的,但并不是完全百分之百的。因为设备固有的退化性质以及误操作等不确定因素,导致维修不可能回到初始正常状态。也就是说,即使采取了维修操作,设备的可靠性仍然是值得怀疑的。工程中,状态转移函数的确定需要依赖经验知识,是人工维修行为的一种智能化过程。

系统的观测函数Ω(s′,a,oi)=P(oi|s′,a),表示执行行动a后进入下一个状态s′时观测到oi的概率。显然观测函数构建了装备可靠性水平、观测信息和维修行为之间的逻辑关系。即维修行为越合理,可靠性水平越高,观测到的信息也是正向相关的。

由于系统有k个观测信息,因而对应着k个观测函数。按照式(1),信念状态由观测函数和转移函数共同决定和更新计算。因此,每个观测函数会对应一个信念状态,记为bi。本文通过加权方式,确定最终的信念状态:

式中,ωi为加权系数,且∑ωi=1。

工程中,需要综合各种观测信息对机电装备的可靠性水平作一个合理估计,不同的观测信息会导致估计值不同。当观测信息的可信度较高时,其权重自然要大些。同理,在根据式(4)和式(5)计算值函数时,首先分别计算不同观测函数对应的值函数,再加权求总的值函数,这里不再赘述。

2.3 值函数

一般来说,机电装备有多个不同的维修和检测方法,其费用和效果都不相同。不当的维修行为会导致成本升高,且设备达不到最优运行状态。因此,合理的维修策略取决于每个时间点系统的可靠性水平。

本文综合考虑了维修成本和潜在故障危害,定义评价函数如下:

其中,f为潜在故障危害代价函数,表示系统在当前可靠性信念状态下潜在的故障危害;g为维修成本函数,表示采取维修行为之后需付出的维修成本。将式(8)代入式(5)和式(6),即可获得最优维护策略。

3 案例分析

以某型号雷达天线旋转系统为例,该系统由轴承、齿轮、旋转轴、电机、传感器等零部件组成,主要失效模式为旋转运动部件的磨损、零部件的锈蚀卡死、结构疲劳变形、电机故障等。系统的可靠性水平可以通过噪声水平和振动水平进行判断,可靠性评价周期为1年。基于第2节所述,POMDP模型可以定义如下:

状态集定义为S={1,2,3,4,5}。其中s=1表示高可靠(r>0.99,r为可靠度);s=2表示可靠(0.95<r≤0.99);s=3表示亚可靠(0.90<r≤0.95);s=4表示次可靠(0.85<r≤0.90);s=5表示不可靠(r≤0.85)。

行动集定义为A={1,2,3,4}。其中,a=1表示简单保养,如紧固螺钉、加润滑、去锈渍等;a=2表示普通维护,需更换非关键件,如螺栓、线路、传感器等;a=3表示小修,需对电机、驱动器、轴承等设备进行检修;a=4表示大修,需更换关键件,如电机、轴承、齿轮等。

噪声观测集O1={1,2,3,4,5}。其中,o1=1表示低噪声,设备运行正常;o1=2表示中低噪声,设备存在润滑不良或安装松动;o1=3表示中噪声,设备可能存在些微磨损、变形或安装松动;o1=4表示中高噪声,设备可能存在磨损或变形;o1=5表示高噪声,设备可能存在较大磨损或变形。

振动观测集O2={1,2,3,4,5}。其中,o2=1表示低振动水平,设备运行正常;o2=2表示中低振动水平,转子些微不平衡、激励载荷或负载些微异常;o2=3表示中等振动水平,转子不平衡、激励载荷或负载异常;o2=4表示中高振动水平,转子较大不平衡、激励载荷或负载较大异常;o2=5表示高振动水平,转子严重不平衡、激励载荷或负载严重异常。

根据工程经验,假设状态转移函数和观测函数分别如表1~表3所示。表1中,a=1表示只需进行简单的日常保养,如果当前可靠性水平为高可靠(s=1),下一时刻可靠性水平的5个状态概率分别为0.99、0.01、0、0和0;如果当前可靠性水平为可靠(s=2),下一时刻可靠性水平的5个状态概率分别为0.05、0.75、0.20、0和0;如果当前可靠性水平为不可靠(s=5),下一时刻可靠性水平的5个状态概率分别为0、0、0、0.01和0.99。表2中噪声观测函数表示:如果当前设备是低噪声水平(o1=1),则当前可靠性水平的5个状态概率分别为0.95、0.04、0.01、0和0;如果当前设备是一般噪声水平(o1=3),则当前可靠性水平的5个状态概率分别为0.35、0.35、0.15、0.1和0.05;如果当前设备是高噪声水平(o1=5),则当前可靠性水平的5个状态概率分别为0、0.05、0.1、0.25和0.6。类似地,表3中振动观测函数表达了振动水平同机电装备可靠性水平之间的概率关系。按照式(7),假设振动和噪声观测函数的加权系数皆为0.5。

评价函数定义如下:

假设行动a分别为1、2、3、4的经济成本分别为10、100、1000和10 000;故障危害的代价主要由可靠性水平决定,对应s分别为1、2、3、4、5,付出的代价分别为25、125、625、3125和15 625。

设初始信念状态b(s)=(0.99,0.01,0,0,0),将上述设置代入到式(5)~式(7),可求得系统在不同信念状态b下最佳维修策略。以可靠性水平s=5为例,描述如下:①b(s)≤0.05,a=1表示当前系统处在不可靠状态的估计概率不大于0.05,采取日常保养策略;②0.05<b(s)≤0.15,a=2表示当前系统处在不可靠状态的估计概率在0.05~0.15之间,采取普通维护策略;③0.15<b(s)≤0.45,a=3表示当前系统处在不可靠状态的估计概率在0.15~0.45之间,采取小修策略;④b(s)>0.45,a=4表示当前系统处在不可靠状态的估计概率大于0.45,采取大修策略。

在这种维修策略下,该雷达天线旋转系统可以持续工作18年。工程中,该雷达实际大修时间为服役15年后,表明本文提出的维修策略是合理的。

4 结语

本文针对机电装备运行维护问题,提出了基于POMDP理论的动态可靠性评价和维护策略制订方法。当机电装备动态可靠性问题被看成不确定环境下序列决策问题时,POMDP模型可以帮助发现最优维护策略。在构建动态可靠性评价模型时,重点讨论了状态转移函数、观测函数和评价函数等POMDP模型中的几个关键参数的定义。最后,针对某雷达旋转系统线进行了案例分析,结果表明基于POMDP的动态可靠性评价和维护策略制订方法是合理有效的,与工程实际情况相吻合。

上一篇:口语表达障碍下一篇:提高产奶量