马尔可夫决策

2024-10-16

马尔可夫决策（共7篇）

马尔可夫决策篇1

0 引言

机电装备集成了电、机、液等多种技术,其失效机理相当复杂,导致其可靠性难以评价[1,2,3]。一方面缺少有效的基础数据,可靠性预计结果误差较大;另一方面,在环境载荷持续作用下系统性能逐渐劣化,呈现出多态、时变和相关特性,常规的可靠性分析手段存在很多与工程不相适应的地方。因此,如何实时描述和获得机电装备运行状态和可靠性水平,即所谓的动态可靠性评价问题,是复杂机电装备运行维护过程中难题之一。

针对上述难题,国内外学者分别采用了动态贝叶斯网络(dynamic bayesian network,DBN)理论、部分可观察马尔可夫决策过程(partially observable Markov decision processes,POMDP)、Petri网等理论开展了广泛的研究[4,5,6,7,8,9,10]。其中,POMDP理论因能描述不确定环境下序贯决策问题而受到青睐,在机电装备运行状态估计、维修策略制订等领域中获得了广泛研究。刘繁茂等[1]利用POMDP理论,在基于设备状态的视情维修模式下,提出了以最小化折扣费用为目标函数的设备检测和维修的联合决策方法。黄飞腾等[2]基于系统的马尔可夫性假设,对系统状态进行适当的离散化处理,利用状态转移方法来描述系统的动态随机过程,再建立离散动态事件树求得系统故障概率。尚永爽等[11]针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。实例研究表明,该方法可为保障人员提供科学的维修决策依据。但是,目前的大多数研究都存在模型过于简单、考虑因素单一等问题,与复杂环境下设备维修需求尚有差距。另外,由于POMDP存在“维度灾”问题,缺少有效的求解算法,也限制了该理论在机电设备运行维护中的工程应用。

本文将机电装备的动态可靠性问题看成部分可观察马尔可夫决策过程,通过不完全观测到的设备运行信息(如噪声、温度、压力、振动水平等),对机电装备进行动态可靠性评价,提出以最小化维修成本费用和潜在故障代价为目标函数的设备维护策略制订方法,为机电设备可靠性动态评价和维修策略制订提供有效途径。

1 POMDP概述

POMDP的基本框架可以表示为6元数组<S,A,T,R,O,Ω>[12,13]。其中,S为有限状态集,一般采用离散形式表示,如S={1,2,…,n},n代表状态空间的规模;A为有限行动集,通常表示为A={1,2,…,m},m代表行动空间的规模;T为状态转移函数,S×A→S′表示在状态s下执行行动a后,状态转移为s′的概率为P(s′|s,a),也记为Ta(s,s′)或T(s,a,s′);R为立即收益函数,S×A→R意为在状态s下执行行动a后期望得到的立即收益,也称作报酬函数,用R(s,a)表示;O为有限观测集,通常表示为O={1,2,…,l},l代表状态空间的规模;Ω为观测函数,表示执行行动a后,状态为s′时观测到o的概率,即P(o|s′,a),也记为Ω(s′,a,o)。

1.1 信念状态(Belief State)

在POMDP中,状态s是未知的,只能在一定程度上进行估计。这里的估计即称作信念状态,记为b(s),有0≤b(s)≤1,且

图1表示POMDP模型中的决策过程。由图1可知,信念状态是行动决策的直接依据,信念状态的转移具有马尔可夫性[14,15]。信念状态b′可以用贝叶斯公式进行更新[12,13],具体过程如下:

式(2)为归一化因子。根据转移函数T及观测函数Ω,就可以实现信念状态的转移更新。

1.2 值函数

为了寻求最优行动策略,需要确定值函数。策略表示信念状态空间到行动集的映射:a=π(b)。对于一个初始状态s,按照策略执行动作得到的期望收益为[12,13]

其中,Vfuture为执行动作a之后的潜在长期收益;γ为折扣值,表示相对立即收益R存在一个时间折扣。

按照式(3)和式(4),初始信念状态b的最优值函数和最优策略可以表示为

求解POMDP问题,就是要计算整个信念状态空间中每个信念状态上的最优值函数。受“维度灾”的影响,目前常采用的算法是基于点的值迭代算法(point-based value iteration,PBVI)。PBVI算法属于近似算法,只在信念状态空间部分点上进行计算,由两个步骤组成:①在给定的信念点集上更新值函数;②扩充信念点集。两个步骤交替执行,直到值函数收敛或者满足终止条件为止。

2 动态可靠性评价模型

机电装备的可靠性评价和维护,需要综合考虑装备的运行状态、资源和费用耦合问题。例如,设备某个组件的振动幅值随着时间而变化,反映了它可靠性水平在变化,维修策略也要相应变化。这些时变的因素需要综合在一起考虑,从而决定可靠性水平怎么样,何时维修,怎么维修,目标是在设备的可靠性和可用性可以接受的水平下,最小化装备检测维修费用和潜在故障代价。

2.1 状态集、观测集与行动集

按照上节所述,POMDP模型需要确定系统的状态集、观测集与行动集。为了实现对机电装备可靠性评价,本文将可靠性水平看成系统状态。并假定在复杂工作环境下,系统可靠性水平的动态演变符合POMDP理论。

一般情况下,可靠性属于隐藏状态,需要借助观察或监测信息对其合理估计。工程中,一般是依赖设备的振动水平、噪声水平、温度等可观测信息来评估设备可靠性水平。比如,噪声水平长期维持在高水平,说明结构内部可能存在磨损等故障源,可靠性水平降低,需要进行拆机检修。POMDP模型的观测集可以集成机器的性能参数和每个检测行动取得的多种诊断信息,如某个时间噪声水平和振动信号的幅值。

不同可靠性水平需要采取不同的维修策略。设备如果高可靠,就只需简单维护;反之,则需要大修。不同的维修行为用于构建行动集,如维护、置换组件、置换机器、机器的连续运行或者检测等。

综上所述,假定某个系统的寿命历史能够模拟成一个离散时间的有限状态的马尔可夫过程,下面给出基于POMDP的动态可靠性评价模型定义:

状态集S={1,2,3,4,5},分别对应机电装备高可靠、可靠、亚可靠、次可靠、不可靠。

行动集A={1,2,3,4},分别对应简单保养、普通维护、小修、大修。

假设一个机电系统有k个观测量,分别为O1、O2…、Ok,将每个观测量按照大小离散为5个水平,对应“低”“中下”“中”“中上”“高”。则观测集定义为:Oi={1,2,3,4,5},i=1,2,…,k。

2.2 转移函数和观测函数

状态转移函数Ta(s,s′)如图2所示,即假定当前系统状态为可靠,采取的行动集———维修策略是普通维护,则下一时刻系统状态(不可靠、可靠、高可靠)以一定概率发生转移。本质上,状态转移函数属于条件概率范畴,反映了维修行为对系统可靠性水平影响程度。大多数情况下,这种影响是正面的,但并不是完全百分之百的。因为设备固有的退化性质以及误操作等不确定因素,导致维修不可能回到初始正常状态。也就是说,即使采取了维修操作,设备的可靠性仍然是值得怀疑的。工程中,状态转移函数的确定需要依赖经验知识,是人工维修行为的一种智能化过程。

系统的观测函数Ω(s′,a,oi)=P(oi|s′,a),表示执行行动a后进入下一个状态s′时观测到oi的概率。显然观测函数构建了装备可靠性水平、观测信息和维修行为之间的逻辑关系。即维修行为越合理,可靠性水平越高,观测到的信息也是正向相关的。

由于系统有k个观测信息,因而对应着k个观测函数。按照式(1),信念状态由观测函数和转移函数共同决定和更新计算。因此,每个观测函数会对应一个信念状态,记为bi。本文通过加权方式,确定最终的信念状态:

式中,ωi为加权系数,且∑ωi=1。

工程中,需要综合各种观测信息对机电装备的可靠性水平作一个合理估计,不同的观测信息会导致估计值不同。当观测信息的可信度较高时,其权重自然要大些。同理,在根据式(4)和式(5)计算值函数时,首先分别计算不同观测函数对应的值函数,再加权求总的值函数,这里不再赘述。

2.3 值函数

一般来说,机电装备有多个不同的维修和检测方法,其费用和效果都不相同。不当的维修行为会导致成本升高,且设备达不到最优运行状态。因此,合理的维修策略取决于每个时间点系统的可靠性水平。

本文综合考虑了维修成本和潜在故障危害,定义评价函数如下:

其中,f为潜在故障危害代价函数,表示系统在当前可靠性信念状态下潜在的故障危害;g为维修成本函数,表示采取维修行为之后需付出的维修成本。将式(8)代入式(5)和式(6),即可获得最优维护策略。

3 案例分析

以某型号雷达天线旋转系统为例,该系统由轴承、齿轮、旋转轴、电机、传感器等零部件组成,主要失效模式为旋转运动部件的磨损、零部件的锈蚀卡死、结构疲劳变形、电机故障等。系统的可靠性水平可以通过噪声水平和振动水平进行判断,可靠性评价周期为1年。基于第2节所述,POMDP模型可以定义如下:

状态集定义为S={1,2,3,4,5}。其中s=1表示高可靠(r>0.99,r为可靠度);s=2表示可靠(0.95<r≤0.99);s=3表示亚可靠(0.90<r≤0.95);s=4表示次可靠(0.85<r≤0.90);s=5表示不可靠(r≤0.85)。

行动集定义为A={1,2,3,4}。其中,a=1表示简单保养,如紧固螺钉、加润滑、去锈渍等;a=2表示普通维护,需更换非关键件,如螺栓、线路、传感器等;a=3表示小修,需对电机、驱动器、轴承等设备进行检修;a=4表示大修,需更换关键件,如电机、轴承、齿轮等。

噪声观测集O1={1,2,3,4,5}。其中,o1=1表示低噪声,设备运行正常;o1=2表示中低噪声,设备存在润滑不良或安装松动;o1=3表示中噪声,设备可能存在些微磨损、变形或安装松动;o1=4表示中高噪声,设备可能存在磨损或变形;o1=5表示高噪声,设备可能存在较大磨损或变形。

振动观测集O2={1,2,3,4,5}。其中,o2=1表示低振动水平,设备运行正常;o2=2表示中低振动水平,转子些微不平衡、激励载荷或负载些微异常;o2=3表示中等振动水平,转子不平衡、激励载荷或负载异常;o2=4表示中高振动水平,转子较大不平衡、激励载荷或负载较大异常;o2=5表示高振动水平,转子严重不平衡、激励载荷或负载严重异常。

根据工程经验,假设状态转移函数和观测函数分别如表1~表3所示。表1中,a=1表示只需进行简单的日常保养,如果当前可靠性水平为高可靠(s=1),下一时刻可靠性水平的5个状态概率分别为0.99、0.01、0、0和0;如果当前可靠性水平为可靠(s=2),下一时刻可靠性水平的5个状态概率分别为0.05、0.75、0.20、0和0;如果当前可靠性水平为不可靠(s=5),下一时刻可靠性水平的5个状态概率分别为0、0、0、0.01和0.99。表2中噪声观测函数表示:如果当前设备是低噪声水平(o1=1),则当前可靠性水平的5个状态概率分别为0.95、0.04、0.01、0和0;如果当前设备是一般噪声水平(o1=3),则当前可靠性水平的5个状态概率分别为0.35、0.35、0.15、0.1和0.05;如果当前设备是高噪声水平(o1=5),则当前可靠性水平的5个状态概率分别为0、0.05、0.1、0.25和0.6。类似地,表3中振动观测函数表达了振动水平同机电装备可靠性水平之间的概率关系。按照式(7),假设振动和噪声观测函数的加权系数皆为0.5。

评价函数定义如下:

假设行动a分别为1、2、3、4的经济成本分别为10、100、1000和10 000;故障危害的代价主要由可靠性水平决定,对应s分别为1、2、3、4、5,付出的代价分别为25、125、625、3125和15 625。

设初始信念状态b(s)=(0.99,0.01,0,0,0),将上述设置代入到式(5)~式(7),可求得系统在不同信念状态b下最佳维修策略。以可靠性水平s=5为例,描述如下:①b(s)≤0.05,a=1表示当前系统处在不可靠状态的估计概率不大于0.05,采取日常保养策略;②0.05<b(s)≤0.15,a=2表示当前系统处在不可靠状态的估计概率在0.05~0.15之间,采取普通维护策略;③0.15<b(s)≤0.45,a=3表示当前系统处在不可靠状态的估计概率在0.15~0.45之间,采取小修策略;④b(s)>0.45,a=4表示当前系统处在不可靠状态的估计概率大于0.45,采取大修策略。

在这种维修策略下,该雷达天线旋转系统可以持续工作18年。工程中,该雷达实际大修时间为服役15年后,表明本文提出的维修策略是合理的。

4 结语

本文针对机电装备运行维护问题,提出了基于POMDP理论的动态可靠性评价和维护策略制订方法。当机电装备动态可靠性问题被看成不确定环境下序列决策问题时,POMDP模型可以帮助发现最优维护策略。在构建动态可靠性评价模型时,重点讨论了状态转移函数、观测函数和评价函数等POMDP模型中的几个关键参数的定义。最后,针对某雷达旋转系统线进行了案例分析,结果表明基于POMDP的动态可靠性评价和维护策略制订方法是合理有效的,与工程实际情况相吻合。

然而,本文提出的动态可靠性评价和维护策略制订方法,仅仅考虑了一种理想的变化情况,对系统动态可靠性问题作了一些必要的简化。虽然模型具有一定的合理性和有效性,但是该模型仍然存在很多需要进一步改进的地方,比如细化状态的表示、在模型中加入其他决策评价方法、更合理的转移函数和观测函数获取方法、针对行动空间和观察空间庞大的问题提出更高效的POMDP近似算法等。

马尔可夫决策篇2

高斯混合模型 (GMM) [2]是神经学中广泛使用的一种统计学模型, GMM不仅与脑部MR图像的分段常数性质一致, 而且具有较低的计算复杂度。GMM的模型参数可以利用期望最大化 (EM) 算法根据最大似然 (ML) 准则来估计, 然而, 基于EM的ML估计具有过度拟合和容易限于局部最优解的缺点。为了克服这些缺点, 使用几种全局优化技术来替代EM算法, 例如, 文献[3]在似然估计中结合了遗传算法, 提出了GA-EM算法。此外, 当先验知识可用时, 最大后验概率 (MAP) 估计是ML估计的一种常见替代方法。文献[4]提出一种MAP-MRF框架来求解图像分割问题, 通过将体素类标签建模为马尔可夫随机场 (MRF) 来表示体素空间依赖性的先验。文献[5]提出一种基于全局随机搜索的推理方法, 即马尔可夫链蒙特卡尔 (Markov chain monte carl, MCMC) 推理, 用来替代确定性程序。文献[6]受免疫机制启发, 提出一种克隆选择算法 (clonal selection algorithm, CSA) , 基于克隆选择理论, 选择能够识别抗原的抗体来进行繁殖, 繁殖的细胞会通过一个亲和力成熟过程来改进它们对抗原的亲和力, CSA模仿对抗原刺激免疫应答机制来实现全局最优。

将CSA和MCMC技术融合到隐马尔可夫随机场 (hidden Markov random field, HMRF) 模型估计中, 提出一种用于脑部MR图像分割的HMRF-CSA算法。首先, 通过MCMC方法近似最优标签配置, 然后, 由CSA算法估计HMRF模型参数。用全局随机优化技术替代确定性搜索程序, 以此提高分割算法的鲁棒性, 同时, 将MR图像建模为分段常数图像的乘法分量, 根据MCMC推断方法获得的中间分割结果来评估图像的不均匀性。通过仿真实验, 将本文HMRF-CSA算法与现有的GA-EM方法、可变形共同分割 (D-C) 算法、SPM软件包中的统一分割算法和FMRIB软件库 (FSL) 上的HMRF-EM分割算法进行比较, 结果表明该算法具有更好的分割精度。

1 相关技术

1.1 图像不均匀模式

由图像采集的不完善所导致的图像不均匀性, 或称偏场或强度非均匀性 (INU) [7]是MR图像分析的难点之一。设定y={yi;i=1, 2, …, N}表示一副脑部MR图像, 其中yi表示在体素i处的强度, N表示体素的数目, 未知偏场B={bi;i=1, 2, …, N}通常建模为y的乘法分量, 如下式所示

式 (1) 中, 是理想图像, 是附加的高斯白噪声。由于图像中偏场B变化缓慢, 所以可将它定义为在整个图像域上的一个平滑函数。采用正交多项式{Wj:j=1, 2, …, NOP}作为偏置函数来近似偏场[8]

式 (2) 中, φ={φj:j=1, 2, …, NOP}表示组合系数, NOP= (D+1) (D+2) /2是多项式的数目, D是多项式的度。

1.2 统计学模型

假设体素强度y={yj;j=1, 2, …, N}符合GMM;从有先验概率πk的高斯分布N (μkΣk) 中独立采样每个强度值yj, 观察图像的似然, 计算式如下:

通过最大化上述似然函数来估计最优GMM参数, 确定参数后, 利用贝叶斯分类器对每个体素进行分类, 以此求解脑部图像分割问题[7]。

为了将空间约束融入到这个模型中, 本文应用MRF到模型类标签x={xj;j=1, 2, …, N}中, 根据Hammersley-Clifford理论, 类标签p (x) 的先验联合分布符合Gibbs分布。在MAP-MRF框架下, 图像分割等价于通过最大化其后验概率寻找最优配置x*

式 (4) 中, Θ={μk, Σk;k=1, 2, …, K}表示模型参数, p (y|x;Θ) 是图像似然, p (x) 是空间先验。

本文将图像强度y当作在相同图像点阵中另一个随机场建模的模型, 然后将代表潜类标签的MRFx变成HMRF。在这个模型中, 将图像分割问题制定为配置x和参数Θ的最大联合概率

式 (4) 中后验与式 (5) 中联合概率之间的差是惩罚项p (Θ|y, x) , 用于检查模型参数是否与配置x给出的观察值一致。

2 HMRF-CSA算法提出

HMRF模型主要用来估计式 (5) 中的最优类标签和模型参数 (x, Θ) , 估计过程可划分成两个相互依赖的优化步骤:搜索最优配置x*和学习最匹配模型参数Θ*。使用下式三个步骤的迭代程序来实现HMRF模型估计

式 (6) 中, f (., .) 是基于观察y和分割结果x纠正偏场的函数, t∈{1, 2, …, Tmax}表示当前迭代数目。在每次迭代中, 首先采用MCMC方法实现MRF-MAP估计, 在近似的分割结果下估计偏场, 然后利用CSA学习HMRF模型参数, 当达到最大迭代数目或分割结果变成稳态时迭代停止。

2.1 MCMC体素分类

上述迭代步骤中第一步是通过MRF-MAP近似寻找最优配置x*, 使用MCMC方法求解这种优化问题, 根据式 (4) , 对于给定任意特定配置x, 假设yj相互独立且符合基于参数Θk={μk, Σk}的多元高斯分布, 则似然为

MRFx的联合分布可表示为Gibbs函数[9],

式 (8) 中, Z是规范化常量, Vc (x) 表示派系c的潜力, C是根据邻域系统确定的所有派系的集合, T是温度参数。本文使用Potts模型表示派系潜力, 运用式 (7) 和式 (8) 到式 (4) , 并对其进行负对数变换, 得到

根据模拟退火MCMC方法, 为温度参数T定义一个冷却进度表,

式 (10) 中, i=1, 2, …, I表示MCMC算法迭代的数目, C是冷却因子, 本文设置T (0) =4, C=0.97。若给定一幅脑部MR图像y和标签x (0) 的初始配置, 则可计算出模型参数。定义用来表示从x (i) 随机移动的跳跃密度Q (.|x (i) ) 符合高斯分布, 每次迭代中, 从建议密度Q (x* (i+1) |x (i) ) 提取一个候选x* (i+1) , 从均匀分布u (0, 1) 提取一个随机序列, 计算每个体素j的接受率

如果uj<αj, 接受模拟xj (i+1) =xj* (i+1) , 否则拒绝它并保持类标签与上一次迭代xj (i+1) =xj (i) 相同, 当达到最大迭代次数时停止, 如算法1所示。

算法I:体素分类的MCMC采样

2.2 偏场校正

在利用MCMC体素分类之后, 可以获得分割结果x*和最小能量E={Ekj, xj=k, j∈S}。归一化后验概率n={nkj;j=1, 2, …, N, k=1, 2, …, K}作为软分割结果

根据理想MR图像的分段常数性质, 定义软分割与对应平均μk的积作为存储的图像

本文使用奇异值分解 (SVD) 求解下列最小二乘拟合问题, 以此估计偏场。

式 (14) 中, ./表示点对点划分, 根据估计的组合系数, 获得偏场

偏场损坏的图像可恢复如下:

2.3 CSA进行参数估计

第三步是通过最大化后验概率p (Θ|y (t) , x (t) ) 来学习当前图像强度y (t) 和配置x (t) 给出的最优参数

式 (17) 中, p (Θ) 是参数的先验概率, 这个先验指的是基于马尔可夫性质信息p (Θkj) =p (xj=k|kj) 的体素, 可以通过MRF能量计算得到, 定义它作为这些项的混合来平衡参数的收敛和多样性, 对于每个体素j∈S

式 (18) 中, v是平衡常量, Πkj=πk表示分体素全球先验。给定任意具体参数集Θ, 即可计算式 (18) 中所示优化问题的目标函数。为了实现全局最优, 采用CSA[10]求解该问题, 以群体方式模拟所有可能参数。CSA是一种进化优化算法, 通过迭代生成一群编码抗体来寻找全局最优解。本文中, 抗体群np设为100, 定义每个抗体为一个候选参数集Θ, 将有特定抗原的抗体Θk的亲和力定义为后验似然p (Θ|y, x) , 迭代优化过程由下列六个主要步骤组成:

第一步:评估每个抗体的亲和力, 根据其亲和力按降序排列所有抗体;

第二步:从当前群体中选择Ns个抗体, 克隆它们形成克隆群。对于亲和力排序为j的抗体, 定义其克隆的数目正比于其亲和力排序, 如式 (19) 所示。

式 (19) 中, β是常量, 用来控制克隆率, round (.) 用来将实数变换到与其最接近的整数;

第三步:分别对概率为phm和pre的克隆群运用超突变和受体编辑操作。超突变是在动态范围±10%内随机改变抗体的值, 目的是局部搜索最优解。受体编辑是在动态范围±100%内随机改变抗体, 实现全局搜索;

第四步:评估克隆群中抗体的亲和力, 根据其亲和力按降序排列;

第五步:选择克隆群中排名靠前的抗体代替记忆细胞集中较低亲和力的40%抗体, 保证记忆细胞集保存迄今为止获得的最优解, 以便最高亲和力的抗体按代递增;

第六步:用随机生成的抗体代替剩余集中具有最低亲和力的10%抗体, 对新群体引入多样性。

重复迭代这个过程直到达到最大迭代数目, 如图1所示。

2.4 总结

给定K-平均算法产生的初始分割结果, HMRF-CSA算法迭代执行基于MCMC的体素分类、偏场校正和基于CSA的模型参数估计, 直到算法收敛。一旦达到收敛, 则获得最终分割结果、偏场和模型参数。HMRF-CSA算法的主要步骤见算法II。

算法II:HMRF-CSA脑部图像分割算法

3 实验结果

本文从Brain Web数据集[11]获取仿真TI加权脑部MR图像, 比较提出的HMRF-CSA算法与现有的e HMRF算法、GAMIXTURE包中GA-EM算法、D-C算法、FSL包中的经典HMRF-EM算法和SPM包中的统一分割程序。Brain Web数据集提供的一组仿真脑部图像, 这些图像具有各种INU和噪声级别的解剖模型仿真, 每个仿真研究的维度为181×217×181, 体素大小为1 mm×1 mm×1 mm。

图2分别显示了仿真图像中具备40%INU和7%噪声的第88个横切片, 偏长矫正图像, 估计的偏场, 使用六种算法获得的分割结果和地面实况组织图。其中图2 (a) 表示仿真图像的第88个横切片 (7%噪声和40%INU) ; (b) 表示INU校正图像; (c) 估计的INU; (d) 表示HMRF-EM算法的结果; (e) 表示D-C算法的结果; (f) 表示SPM算法的结果; (g) 表示GA-EM算法的结果; (h) 表示e HMRF算法的结果; (i) 表示HMRF-CSA算法的结果; (j) 表示地面实况。可以看出, 本文算法产生的分割结果比其他算法产生的结果更接近地面实况。

接下来, 在两组仿真MR图像上对这些算法进行进一步比较。第一组MR图像包含有20%INU和噪声级别范围从1%到7%的四个图像, 使用骰子相似度系数 (DSC) [12]定量评估每个脑部组织类型分类的性能。

式 (20) 中, Vs (k) 是分割结果中脑部组织类k的体, Vg (k) 是在地面实况上对应的体, |V|代表体V中体素的数目。通过正确分类的脑部体素百分比来计算分割精度, 并评估整体精度。图3表示六种算法获得的分割精度。

从图3可以看出, 在大部分仿真图像中, 本文算法在划分每个脑组织和分类整个脑部体方面都具有较高的精度。而且, 随着噪声和INU级别的增加, 提出算法的精度下降幅度比其他算法低, 这表明本文算法具有较强的抵制噪声和INU影响的能力。

第二个测试组包含有40%INU和噪声级别范围从1%到7%的四个图像, 六种算法获得的分割精度如图4所示。

从图4可以看出, 本文算法能在高噪声和INU级别下保持良好分割性能。

4 讨论

4.1 参数设置

本文提出的HMRF-CSA算法中, 有三组需要近似的参数, 包括MCMC推断、INU估计和基于CSA的参数近似。在INU近似中, 以正交多项式的阶来权衡考虑近似精度和计算复杂度, 由于INU变化非常慢, 对于INU近似, 10个三阶多项式已经足够。式 (19) 中权重参数v决定MRF先验, 较大的v能使MRF的作用更大, 另一方面, 小v则更支持GMM先验。CSA本身需要很多参数, 文献[13]对此进行了详细讨论。本文使用CSA程序的经验参数设置:群体大小Np=100、记忆集大小Nm=0.3Np、选定抗体的数目Ns=0.5Np、克隆率常量β=0.5, 超突变概率phm=0.8、受体编辑概率pre=0.1和最大的代Nt=20。

4.2 计算复杂度

计算机程序的性能与许多因素有关, 包括计算机处理能力、数据表示、编程语言和编码实现等[14]。本文评估了HMRF-CSA算法的计算复杂度, 本文算法在每次迭代中顺序执行MCMC推断、偏场估计和基于CSA的参数估计。设定对于有N个体素的一副图像, MCMC推断的计算复杂度为O (N) ;偏场估计仅进行一些矩阵计算;基于CSA的参数估计的复杂度为O (Np+NcK) , 其中Np表示群体大小, Nc表示总克隆数目。提出的迭代分割算法的迭代次数达到wmax后停止, 其线性整体计算复杂度O (N+Np+NcK) 。需要注意的是, MCMC方法的主要缺点是需要大量仿真图[15], 然而, 由于CSA为MCMC方法配置了一个良好的开始状态, 所以本文算法不需要许多仿真图。同时, MCMC方法的输出使CSA在有限代数之后成熟, 因此, 尽管本文HMRF-CSA算法涉及耗时的MCMC和CSA程序, 然而, 其计算复杂度只稍微高于传统分割方法。

5 结论

提出了HMRF-CSA脑部MR图像分割算法, 在基于HMRF模型分割中结合了CSA和MCMC, 本文算法能够有效的用于基于HMRF模型估计的图像分割问题。在仿真脑部MR图像上进行实验, 将本文算法与GA-EM算法、D-C算法、SPM和FSL软件包算法进行比较, 实验表明该算法获得了更好的分割精度。

马尔可夫决策篇3

关键词：Mean Shift,灰色马尔可夫预测模型,几何特征,目标跟踪

Comaniciu等[1]提出的基于Mean Shift的跟踪算法取得了很大成功,并且吸引了越来越多学者的研究兴趣。Mean Shift算法是一种非参数密度估算法,它具有良好的实时性,且对形变、目标遮掩的稳健性良好,易于与其他算法集成,广泛地应用于目标跟踪中。但该算法也存在一定的缺陷,为了解决传统均值偏移算法不能自适应改变核函数带宽的缺陷,Collins等将Lindeberg尺度的空间理论和Mean Shift算法相结合[2],并在某种程度上改善了此缺陷;Li Jinping等提出了采用Level Set描述目标轮廓方法与Mean Shift算法组合进行跟踪,使得在光线变化、目标颜色发生改变时取得好的效果[3],改善了相似颜色干扰问题;为了解决遮挡情况下均值偏移算法的跟踪缺陷,许多学者采用了目标预测结合Mean Shift的跟踪方法,Maggio E等提出了采用粒子滤波结合Mean Shift算法的跟踪[4],取得了好的跟踪效果,但计算量大。

本文在灰色GM(1,1)模型的基础上引入马尔可夫链预测理论,建立运动目标的灰色马尔可夫GM(1,1)预测模型,利用少量的数据来预测目标的运动轨迹,并以当前时刻的目标预测位置作为Mean Shift算法进行迭代搜索的起始位置;利用提取的几何特征表示相似度函数来自适应性地更新搜索窗口,以此减少迭代次数,最后根据模型更新策略来更新目标模拟。

1 Mean Shift算法

Mean Shift算法是一个自适应地寻找概率密度局部最大值的迭代方法。在目标跟踪中,采用归一化的加权颜色直方图来描述目标模型。假定跟踪目标的中心位于x0,xi是d维Euclidean空间Rd中的一组点,用向量表示xi(i=1,2,…,n),使用带宽为h的核函数K(x)作为多变量核密度估计,则目标模型可以表示为

$p_{u} = C_{h} \sum_{i = 1}^{n} k (| | \frac{x_{i} - x_{0}}{h} | |^{2}) δ [b (x_{i}) - u] (1)$

式中:u=1,2,…,m,为目标区域的所有特征值;Ch为归一化常数; $\sum_{u = 1}^{m} p_{u} = 1$ ;δ是Kronecker函数,如果像素属于第u个直方图,该函数值为1,否则为0。

令候选模型的中心坐标为y,则可以描述为

$q_{u} (y) = C_{h} \sum_{i = 1}^{n_{h}} k (| | \frac{x_{i} - y}{h} | |^{2}) δ [b (x_{i}) - u] (2)$

pu与qu(y)的相似性用Bhattacharyya系数 $\hat{ρ}$ (y)来度量,即

$\hat{ρ} (y) \equiv ρ [p_{u}, q_{u} (y)] = \sum_{u = 1}^{m} \sqrt{p_{u} q_{u} (y)} (3)$

从式(3)可以看出,两个模型越相似,则 $\hat{ρ}$ (y)的值越大,为使其值最大,令yk表示目标的初始位置,将 $\hat{ρ}$ (y)在该点进行一阶泰勒展开求导为零,可以得到Mean Shift向量

$\begin{array}{l} Μ_{h} (x) = y_{k + 1} - y_{k} = \\ \frac{\sum_{i = 1}^{n_{h}} w (x_{i}) (x_{i} - y_{k}) g^{'} (∥ \frac{x_{i} - y_{k}}{h} ∥^{2})}{\sum_{i = 1}^{n_{h}} w (x_{i}) g^{'} (∥ \frac{x_{i} - y_{k}}{h} ∥^{2})} (4) \end{array}$

式中: $w (x_{i}) = \sum_{u = 1}^{m} \sqrt{\frac{p_{u}}{q_{u} (y)}} δ [b (x_{i}) - u]$ 是图像中采样点的权重。在计算(4)式的迭代过程中,若 $∥ Μ_{h} (x) ∥ \leq ε$ ,则 $\hat{ρ}$ (y)的值达到最大,迭代停止;否则总是往 $Μ_{h} (x)$ 向量的方向移动,搜索满足条件的目标中心坐标来使 $\hat{ρ}$ (y)达到最大值,即两模型最相似;最后,目标就从初始位置移动到了真实的目标位置。

2 灰色马尔可夫预测模型

灰色系统预测的概念是由邓聚龙教授首先在国内提出,之后灰色系统理论的研究得到了迅速发展。灰色预测方法的优点在于对缺少基础资料的预测能够得到较好的预测效果,与别的预测方法相比较而言它用到的样本数据较小,而预测的精度相对较高。马尔可夫概率矩阵是对随机过程每个时刻状态的描述,它是根据状态之间的转移概率来预测系统的发展,把在不相同状态范围的内在波动规律展现出来,使随机作用造成的波动得以修正。灰色马尔可夫预测模型就是将两者的优势相结合进行预测。

2.1 建立GM(1,1)模型

假设有原始序列为

x(0)={x(0)(1),x(0)(2),…,x(0)(n)} (5)

将该序列x(0)进行一次累加生成处理,得到x(1)(记作1-AGO)

x(1)={x(1)(1),x(1)(2),…,x(1)(n)} (6)

式中: $x^{(1)} (k) = \sum_{i = 1}^{k} x^{(0)} (i), k = 1, 2, \dots, n$ 。

建立GM(1,1)灰微分方程

$\frac{d x^{(1)}}{d t} + a x^{(1)} = b (7)$

式中:a为发展系数;b为灰作用量,是待估参数。

把式(7)转化为矩阵方程

$y_{n} = B \hat{a} (8)$

$\hat{a} = [a, b]^{Τ}, y_{n} = [x^{(0)} (2), x^{(0)} (3), \dots, x^{(0)} (n)]^{Τ} (9)$

$B = [\begin{array}{l} - z^{(1)} (2) \\ - z^{(1)} (3) \\ ⋮ \\ - z^{(1)} (n) \end{array} \begin{array}{l} 1 \\ 1 \\ ⋮ \\ 1 \end{array}] (10)$

z(1)(k)=[x(1)(k)+x(1)(k-1)]/2,k=2,3,…,n (11)

由式(8)可得: $\hat{a} = [a, b]^{Τ} = (B^{Τ} B)^{- 1} B^{Τ} y_{n}$

GM(1,1)模型的离散响应方程为

$\hat{x}^{(1)} (k + 1) = [x^{(0)} (1) - \frac{b}{a}] e^{- a k} + \frac{b}{a} (12)$

将 $\hat{x}^{(1)} (k + 1)$ 计算值作累减还原计算得到原始数据的估计值

$\hat{x}^{(0)} (k + 1) = \hat{x}^{(1)} (k + 1) - \hat{x}^{(1)} (k) (13)$

以上就是建立运动目标轨迹的灰色GM(1,1)预测模型的基础[5]。

2.2 建立转移概率矩阵

假设将目标的轨迹状态分为m个,即状态空间I={1,2,…,m},fij作为i到j状态经一步转移的数据样本数,与 $\sum_{j = 1}^{m} f_{i j}$ (状态i的所有数据样本数)相除的值定义为“转移概率”,用pij,i,j∈I表示,即有

$p_{i j} = \frac{f_{i j}}{\sum_{j = 1}^{m} f_{i j}} (14)$

由状态i经k步转到状态j的频率也可以用式(14)来表示,将状态转移概率依次排序,可得到矩阵

$p^{(k)} = [\begin{matrix} p_{11}^{(k)} & \dots & p_{1 n}^{(k)} \\ ⋮ & ⋮ \\ p_{1 n}^{(k)} & \dots & p_{n n}^{(k)} \end{matrix}] (15)$

式中: $\sum_{j = 1}^{n} p_{i j}^{(k)} = 1$ 。

从以上分析可知,灰色GM(1,1)模型用来预测目标轨迹变化的总趋势,对其轨迹状态的修正则是通过马尔可夫转移概率矩阵来完成的,最终精确地预测出目标的位置,为均值偏移算法提供搜索初始位置,避免了由于遮挡造成的目标丢失。

3 Mean Shift算法和灰色马尔可夫模型的结合

跟踪的过程中,会产生一系列的时间序列{yi},i=1,2,…,表示迭代的次数,这种时间序列有平稳收敛(呈递增和递减两种形式分布)和波动收敛(呈交替状分布)两种形式。针对这两种形式,可以采用灰色马尔可夫模型进行目标中心位置的预测。在Mean Shift搜索之前先进行目标在下一帧中位置的初步预测,并用预测中心位置作为目标搜索的起始位置,之后再进行迭代搜索,不仅可以提高搜索准确性,还能够减少迭代搜索次数。灰色马尔可夫模型采用“新陈代谢”更新策略,保证用于预测的数据是最新的,一般用当前帧的前4帧数据作为基本数据,既保证了预测的准确性,也减少计算量。

如图1所示,提取的颜色特征用于传统的Mean Shift算法进行迭代计算,找出最匹配的目标位置,具体过程见本文第2节;利用文献[6]中的迭代投影算法来近视计算目标的面积,通过前后两帧面积的差值来判断是否更新跟踪窗口的大小;再设置一个阀值,根据相邻两帧的目标面积的比值是否小于阀值来判断是否更新目标模型,避免了目标模型过更新。

4 实验结果与分析

本文实验使用的硬件平台为2.53 GHz的CPU、2 Gbyte内存,在Windows7操作系统下的计算机,软件平台为MATLAB 2010a编程环境。测试视频选取一段橄榄球的运动视频序列,视频图像大小为352×288,共88帧。根据反复的实验,选取模板更新阈值为0.2。在整个视频序列中,橄榄球的运动都是随机波动的,前42帧被跟踪的橄榄球从大到小,再从小到大,其大小一直在不断变化;后40多帧发生遮挡情况。

图2为传统的均值偏移算法跟踪的仿真图,当球的大小不断变化时,跟踪窗口不能自适应地调整大小,当球快速运动时,目标窗口的中心位置严重偏移,在42帧发生遮挡时,跟踪失败,跟踪窗口停留在第42帧时的位置。本文算法的仿真图如图3所示,根据灰色马尔可夫模型和均值偏移算法相结合,在球快速运动时能准确地确定目标的中心位置,再根据提取目标的几何特征的变化来改善跟踪窗口的大小,能很好地进行实施跟踪,效果也比传统的均值偏移算法要好;在发生遮挡时,以灰色马尔可夫GM(1,1)的预测值为中心来开窗,避免丢失跟踪目标。从两个仿真图来看,本文提出的算法要优于传统的均值偏移算法,可以取得良好的实时性和稳健性。

5 结论

当在运动目标跟踪的过程中,发生遮挡、多种运动方式存在的情况下,本文提出通过灰色GM(1,1)模型对目标的运动轨迹进行总趋势预测,再用马尔可夫概率转移矩阵来对轨迹进行修正,这样能准确预测出目标在每一帧中的中心位置,并比一般的预测方法计算量小、精度高;再结合Mean Shift算法进行匹配跟踪,最终确定目标。其中通过提取的几何特征的变化来更新跟踪窗口和目标模型,这样可以适应目标的尺度变化和避免了目标模型的过更新。实验表明,该方法能够对目标进行实时有效的跟踪。

参考文献

[1]COMANICIU D,RAMESH V,MEER P.Real-time tracking of non-rigidobjects using mean Shift[C]//Proc.IEEE Conference on Computer Vi-sion and Pattern Recognition 2000.[S.l.]:IEEE Press,2000:142-149.

[2]COLLINS R T.Mean Shift blob tracking through scale space[C]//Proc.IEEE Conference on Computer Vision and Pattern Recognition 2003.[S.l.]:IEEE Press,2003:234-240.

[3]LI J P,LI Q J.Real-time tracking by combining level set and Mean Shift[J].Journal of Information&Computational Science,2008,5(2):829-836.

[4]MAGGIO E,CAVALLARO A.Hybrid particle filter and mean shifttracker with adaptive transition model[C]//Proc.ICASSP 2005.[S.l.]:IEEE Press,2005:221-224.

[5]邓聚龙.灰色系统理论教程[M].武汉:华中理工大学出版社,1992.

马尔可夫决策篇4

光线追踪算法用于计算机生成真实感图像, 在电影, 电视和辅助设计领域有着广泛的应用。光线追踪算法和另一大图像生成算法光栅化相比, 其图像生成的质量和真实性均占优, 但是速度要比光栅化算法慢很多。自从该算法被提出以来, 研究人员提出了多种对此算法的改进, 比如光子映射算法和辐射度算法。这些算法和传统光线追踪算法比起来在生成图像质量相同的情况下速度快了很多。但是这些算法只针对特定的场景布置才能起到加速效果, 在一些复杂场景特别是有大量光滑和光泽表面的情况下会出现大量误差, 并且计算速度会大幅下降。

光线追踪算法的本质是求解光传输方程。通过光能守恒定律我们可以把积分空间离散的传输方程转换为场景中面积度量的积分。求解这个积分的方法是把它转换为一个无穷维的高阶积分, 并用蒙特卡罗方法采样整个积分空间, 使积分结果按概率趋近于方程解。由于渲染场景的复杂性和光照模型的多样性, 求解这个问题的最大难点在于如何在有限的时间内使蒙特卡罗方法逼近真实解。目前, 光线追踪主要还是应用于离线渲染领域。如何在保证图像质量的情况下提高算法速度就成了亟待解决的问题。

二、问题描述

2.1光传输方程。

真实感渲染中, 核心算法之一是模拟光从光源发出, 在场景物体和介质之间进行交互, 传播, 最终被吸收或者进入摄像机的过程。从物理学的角度来看, 这个过程就是电磁波 (辐射) 与实物粒子的碰撞与反射。我们将一个表面上一点p处ω0方向上辐射出射能量定义为L0 (p, ω0) , 那么根据热辐射定律, 出射能量可以表示为入射能量在表面BRDF函数和方向ω的积分, 该积分可以用下列公式表示:

其中Le (p, w0) 是表面发出的辐射;f (p, ω0, wi) 是表面的BRDF函数, 表征物体表面对辐射的反射和吸收特性。积分空间s2是场景中的所有表面。由于积分中含有即立体角, 为了能计算这个积分, 我们希望它能统一到积分空间中。有限空间的场景中, 沿着射入一个表面的光线能找到另一个场景中的点。于是我们定义函数, 它表示点p处沿着方向找到的另一个场景中的点。如果这样的点不存在, 则t函数返回一个特殊的值。将函数t带入式 (1) 可以得到

(2) 式与 (1) 式相比, 右侧的积分函数和左侧统一, 但是依然无法直接进行计算, 因为它依然含有ω。考虑到我们在上一步的变换同样适用于L (p, ω0) , 为此我们定义

其中P'为沿着点p的出射光线遇到的场景中的点。由于场景中存在遮挡关系, 我们定义几何函数

函数表示点p和P'的可见性。如果两点之间没有遮挡, 那么V的值是1, 否则是0.将上述函数引入式 (2) 中, 我们得到了光传输方程的表面形式:

注意到上式中左边和右边都有函数L。现在我们考虑一条从光源到摄像机的完整光路径, 我们把P0处的式 (3) 带入P1处的式 (3) 得到

如果光路径上还有其他点, 也可以同样按照上述方法带入, 从而把光传输方程转化成路径形式。有了式 (4) 就可以在某些简单场景中计算数值解了。但是对于大多数复杂场景, 光路径的长度可能很长甚至是无限长, 式 (4) 就变成了一个无穷维积分, 这样的积分是无法计算数值解的。对于这样的场景, 我们用2.2中的采样算法进行计算。

2.2 Metropolis-Hastings采样算法。

其中表示以概率a接受从X状态到X’状态的变化, 否则不变。由 (5) 式得

以这种采样的方式计算积分的话, 就是MCMC算法:

其中g (x) 可以是任意的函数, xi服从分布.

式 (4) 可以简化写为

使用MCMC算法, 式 (6) 可以用下式计算:

三、算法流程与实现

本文算法的实现使用了开源项目mitusba render作为输入和输出, 核心算法流程图如下:

四、实验与结果分析

实验使用光线追踪测试场景veach, 生成的图像如下:

通过生成的图像我们可以看到, 使用MCMC算法生成的图像整体具有较好的真实感, 并且能够表现出光线多次反射对场景中物体的影响。但是, 该算法的速度比较慢, 在2450M处理器上渲染上图使用了15分钟26秒。如何提高算法的性能将是一部研究的重点。

参考文献

[1]Veach.Robust Monte Carlo methods for light transport simulation[D].斯坦福:斯坦福大学, 1997.

[2]Jakob W., S.Marschner.Manifold exploration:A Markov Chain Monte Carlo technique for rendering scenes with difficult specular transport[J].ACM Trans, Graph, 2012, 31, 4, 58:1-58:13.

[3]Jaakko L., K.Tero, L.Samuli, A.Miika, D.Fr'edo, A.Timo.Gradient-Domain Metropolis light transport[J].ACM Trans.Graph, 2013, 32, 4, 95:1-95:11.

[4]Jakob W.2012 Mitsuba v0.4 EB/OL].http://mitsuba-renderer.org.

[5]Jaakko L., K.Tero, L.Samuli, A.Miika, D.Fr'edo, A.Timo.GradientDomain Metropolis light transport[J].ACM Trans.Graph, 2013, 32, 4, 95:1-95:11.

[6]Jakob, W.Light transport on path-space manifolds[D].伊萨卡:康奈尔大学.2013.

马尔可夫决策篇5

CAPM模型是威廉·夏普 (1964) 和林特纳 (1965) 分别提出的, 其核心理论是在均值-方差理论的基础上和市场存在无风险利率的条件下, 非系统风险可以通过投资组合得以消除, 对期望收益产生影响的是无法消除的系统性风险, 即模型中的β系数, 期望收益与β系数线性相关。随着对β系数的研究不断深入发展, 对β系数的动态变化过程以及预测性等问题的探讨还存在相当大的拓展空间, 而我国资本资产市场属于新兴的市场, 与欧美发达国家相对成熟的资本资产市场相比有很大的不同, 存在很大风险, 因而对β系数的研究就显得极为重要了。由于β系数属于不可观测的参数, 只能被估计, 而不可测量。因此, 研究β系数的变化过程以及对β系数更加准确的预测, 理论上可以更深入地揭示资本资产市场的均衡性与投资者的行为特征, 在实践上则对于金融风险度量、资产定价、投资组合管理具有非常重要的意义。

二、贝塔系数预测模型建立

Sharpe (1964) 的资本资产定价模型为:

其中ρkt为每只股票和市场指数收益率之间的时变相关系数。

为了使模型 (1) 得到有效估计, 需要知道状态变量St取值的变化规律。本

本文选用极大似然算法来估计模型的参数。假定状态变量St取值为{1, 2}, 其中状态1为低风险状态, 2为高风险状态, 并且满足一阶马尔可夫链过程, 其相应的概率转移矩阵P为:

则关于θ的对数条件似然函数为:

根据状态变量的取值和公式 (1) 可以得到变量βkt的两种可能的条件概率密度函数:

由联合概率密度分布函数

则:

其中j∈J, J={1, 2}确定状态St。对于公式 (3) 至公式 (9) 进行迭代, 步骤如下:

步骤1:当t=0时, 将初始值式 (8) 代入公式 (4) ;

步骤2:将公式 (4) 、公式 (5) 代入公式 (6) ;

步骤3:将公式 (6) 代入公式 (7) ;

通过迭代最终计算出关于θ的最大似然估计值。

三、实例分析

本文选用沪深300指数作为资产组合的代表, 选取A股中前5支股票指数收盘价作为样本。沪深300数据开始日期为2005年4月15日, 数据终止日期为2015年12月7日, 数据频率为月。证券数据来源为CSMAR中国股票市场交易数据库。无风险利率来源于中国人民银行官方网站公布数据。本文采用银行定期存款利率作为市场无风险利率, 将一年的银行定期存款利率通过计算并将其作为无风险利率。利用A股前5支股票收盘指数, 可以求出相应的股票回报率, 股票收益率公式如下:

其中:rkt是第k种股票在t时刻的收益率, pkt为第k支股票 (指数) t时刻的收盘价, pkt-1是第k种股票在t-1时刻的收盘价。

各支股票的收益率统计特征如表1所示:

根据沪深300收盘指数, 求得市场组合的指数收益率, 公式如下:

其中:rmt表示市场组合m在t时刻的收益率, pmt为市场组合m在t时刻的收盘指数, pmt-1表示市场组合m在t-1时刻的收盘价。

对模型 (4) 和 (6) 的参数进行估计。对模型 (4) 用统计软件Eviews6.0计算参数的最大似然估计, 对模型 (6) 通过迭代过程计算条件对数似然函数。

对参数的极大似然估计值如表2所示。

表2中α和β为经典的资本资产定价模型的参数估计, LM是极大似然估计值。反映了在状态1、2的期望持续期间。

四、结论

时变贝塔资本资产定价模型显著优于传统的资本资产定价模型。贝塔系数、方差和转移概率矩阵系数均能通过显著性检验, 其中β1/β2之比在0.362~1.274, 两状态贝塔系数存在显著差异。βi>1表明属于进攻股票, 反之属于防守型股票, αi>0表明股票定价过低, 反之定价过高, 运用这一模型为资产选择投资提供了一种有效的分析方法。p11和p22的值普遍较大, 它们反映了前一日处在状态1 (或状态2) 下, 下一个仍处于本状态的概率, 即贝塔系数的稳定程度和波动的集聚情况。反映了在状态1、2期望持续时间。这一方法对于资产选择以及银行贷款行业分析、度量非系统风险等都具有实际操作意义。

摘要：资本资产定价模型刻画了资产收益与风险的关系, 贝塔系数是资本资产定价模型的重要参数之一, 是投资者进行决策的重要依据。针对目前国内外对贝塔系数的研究不断深入, 本文基于马尔可夫过程构建贝塔系数的时变模型, 对贝塔系数的时变性进行预测研究。

关键词：资本资产定价模型,贝塔系数,马尔可夫过程,预测

参考文献

[1]Sharpe.Capital asset prices:A theory of market equilibrium under conditions of risk[J].Journal of Finance, 1964, 19:425-442.

[2]Black, F.Capital Market Equilibrium with Restricted Borrowing[J].Journal of Business, 1972, (45) :444-454.

[3]孙颖, 孔爱国.零贝塔CAPM模型的特征值检验——基于上海A股市场的研究[J].系统工程理论方法应用, 2004, 13, (2) :147-152.

[4]Brennan, M.Taxes, Market Valuation and Corporate Financial Policy[J].National Tax Journal, 1970, 23 (4) :417-427.

[5]R.Merton.An Intertemporal Capital Asset Pricing Model[J].Econometrica, 1973, 41 (5) :867-887.

[6]Blume, M.E.On the Assessment of Risk[J].Journal of Fiance, 1971, 26 (4) :275-288.

马尔可夫决策篇6

1 马尔可夫预测模型的建立

1.1 马尔可夫链的定义及性质

马尔可夫链数学表述:定义1:设有离散的随机变量过程{Xn,n∈N,N=0,1,2,L},X所有可能取值的全体称为{Xn}的状态空间,记为E={x1,x2,K}。若对任意正整数n及任意xi,(xi1xi2,L,xin,xin+1)∈E,只要:

P(X1=xi1,X2=xi2,L,Xn=Xin)>0 (1)

有:P(Xn+1=xin+1|X1=xi1,X2=xi2,L,Xn=xin)

=P(Xn+1=xin+1|Xn=xin) (2)

则称{Xn}为马尔可夫链[1,2,3,4]。

定义2:若{Xn}为马尔可夫链,对任意xi,xj∈E;m≠n,总有:

P(Xn+1=xj|Xn=xi)=P(Xm+1=xj|Xm=xi) (3)

则称{Xn}为齐次的马尔可夫链。对齐次的马尔可夫链,有对任意m,k∈T,有:

Pij(m;k)=Pij(k),i,j∈E (4)

式中,Pij(m;k)为系统在m时刻处在状态i,经k步状态转移到达状态j的概率;Pij(k)为系统从状态i,经k步状态转移到达状态j的概率,此时转移概率与初始时刻无关,k取1时,Pij记为Pij(1)。齐次马尔可夫次链完全由其初始分布{P0(i0),i0∈E}及其一步状态转移概率矩阵p=(Pij),i,j∈E所决定。若已知时刻n的绝对分布p(n)={pn(j),j∈E},则时刻n +1的绝对分布为:

undefined

1.2 模型的建立过程

假定某一种被预测的事件有E1,E2,…,En,共n个可能的状态。记Pij为从状态Ei转为状态Ej的状态转移概率,作矩阵:

undefined

则称P为状态转移概率矩阵。为了运用马尔可夫预测法对事件发展过程中状态出现的概率进行预测,还需要再介绍一名词:状概率πj(k)。πj(k)表示事件在初始(k=0)时状态为已知的条件下,经过k次状态转移后,第k个时刻(时期)处于状态Ej的概率。根据概率的性质,显然有:

undefined

从初始状态开始,经过k次状态转移后到达状态Ej这一状态转移过程,可看作是首先经过(k-1)次状态转移后到达状态Ei(i=1,2,…,n),然后再由Ei经过一次状态转移到达状态Ej。根据切普曼—柯尔莫哥洛夫方程有:

undefined

若记行向量π(k)=[π1(k),π2(k),L,πn(k)],则由式(8)可得逐次计算状态概率的递推公式:

undefined

式中,π(0)=[π1(0),π2(0),L,πn(0)]为初始状态概率向量。

2 文登市降水量预测

2.1 研究区概况

文登市位于山东半岛东部,36°52′—37°23′N、121°43′—122°19′E;西阻于昆嵛山,与烟台市牟平区和乳山市相接,北连威海市环翠区,东邻荣成市,南濒黄海。文登市总面积1645km2,海岸线155.88km;地处北温带,属于大陆性季风气候,四季分明;年均气温11.5℃,有气象资料记录以来的极端最高气温为36.4℃,极端最低气温-25.5℃;降水量762.2mm,降水分布不均,夏季较为集中,6—9月份降水量约占全年70%,春秋季降水偏少,常发生干旱;年日照时数2540.7h,无霜期194d;冬季漫长,盛行从大陆北部吹来的干冷冬季风,气温偏低,为半岛地区低温站点;夏季最短,盛行从海洋吹来的暖湿夏季风,春秋两季属冬夏季风转换期,春季大风天气较多。

2.2 模型的应用

以山东省文登市降水量作为研究实例,文登市1953—2005降雨量的变化情况见图1。考虑到山东省文登市年降水量变化的3个状态,即“枯水年(≤550mm)"、“平水年"和“丰水年(>800mm)",分别记E1为“枯水年"、E2为“平水年"、E3为“丰水年"。文登市1953—2005年年降水量的状态变化情况见表1。

由表1计算可得该地区年降水量的状态转移概率矩阵为:

undefined

根据建模过程可知,如果某一事件在第0个时刻(或时期)的初始状态已知,即π(0)已知,则利用递推公式(9)就可求得它经过k次状态转移后在第k个时刻(时期)处于各种可能状态的概率,即π(k),从而得到该事件在第k个时刻(时期)的状态概率预测。如果将2005年的年降水量状态记为π(0)=[0,0,1](2005年处于“丰水年"状态),则将状态转移概率矩阵(10)式及π(0)代入递推公式(9)式,就可求得2006—2010年可能出现的各种状态的概率,见表2。

2.3 城市雨水的利用

由于文登市属于大陆性季风气候,而且降水夏季较为集中,春秋季降水偏少,因此有必要利用城市雨水资源解决春秋季的水资源不足,实现水资源利用的可持续性发展。由图2和表2可知,未来的5年来是丰水年的概率很高,因此协调春秋季与夏季之间水量不平衡则极其重要。实施城市雨水收集工作比农田集水的形式便捷,收集利用率高,一般可达到75%以上。这主要是城市的大多数街道为柏油路面,雨水通过改造后的地下管网汇集起来,经过处理后再使用。随着城市化发展,城市生活用水、工业用水和生态用水大幅度增加,不仅挤占农业用水,也加重了地下水的负担。在长期的发展规划中,如何合理、可持续地利用水资源具有战略性意义,因此城市雨水资源利用是解决城市水危机的必然选择。

许多地区对城市雨水利用未引起足够的重视,其原因一是观念落后,几千年以来人类对雨水放任自流已形成根深蒂固的思维定势;二是经济账不清,对城市水危机和雨水资源化认识不足,未核算雨水利用的投入产出;三是缺乏政府行为,规划、立法、规范等问题亟待解决,因此建议:①加强宣传,确立雨水是宝贵的水资源的共识。通过各种媒体、社区活动等形式进行宣传,提高全社会的雨水资源利用意识,取得民众的广泛参与和支持,不能让雨水资源放任自流地白白浪费,要确定综合利用在前、排放在后的指导思想。②结合规划,改建雨水专用排水系统。现在大多数城市排水管网都是雨水和污水合流,雨水比污水的水质好,易处理,因此将雨水和污水分流处理是较好利用雨水资源的一个前提条件。传统的排水系统主要是将雨水及时排走,避免路面积水,而雨水利用则是需要将雨水进行存储、运输,所以需要把现有的排水系统改造成既能很好利用雨水又不影响城市环境的雨水专用排水系统。③制定法规,鼓励和强化对雨水的利用。针对研究区的水资源和环境状况,并借鉴发达国家的经验,充分合理地利用雨水资源,应尽早制定一系列有关雨水利用的法律法规和条例,规范新建城区、居民小区和工、商业区,设计雨水利用及蓄水设施等内容。同时,采用鼓励对雨水的利用政策,调动开发商和企事业单位的积极性。④把城市雨水资源的利用纳入城市整体规划。城市雨水资源的利用是一项造福子孙后代的系统工程,应纳入城市整体规划。因此,在统一考虑城市雨水利用与城市建设、水资源优化配置、生态建设时,应把集水、蓄水、处理、回用、入渗地下、排水等纳入城市建设规划之中。

3 结论

在水文及气象科学中,降水量的预测是一项非常重要的工作。本文所提出的预测方法具有如下特点:①由表2和图2可知,未来的5年山东省文登市的降雨量出现"枯水年"的概率最低,出现“平水年"的概率居中,出现“丰水年"的概率最高。总之,未来5年山东省文登市是丰水年的可能行较大。②预测结果为降水量的某一个状态的发生概率,而不是一个具体的数值,在可以完全满足实际工作的前提下,预测的范围更广,其可靠性也得到了提高。③根据最后计算出来的状态概率分布,求得所预测的降水量的具体值仍是一个有待解决的问题,马尔可夫链方法为这种预测提供了一个新的思路。

摘要：在介绍马尔可夫链的预测方法与模型的基础上,以山东省文登市为例,根据1953—2005年的降水量资料,对年降水量进行了状态分级;应用马尔可夫模型对该地区的降水情况进行了预测和分析,提出了对雨水资源利用的看法。结果表明,该方法客观、准确、可靠、简便,为区域降水的中短期预测提供了新的解决途径。

关键词：马尔可夫,降水量预测,雨水资源利用

参考文献

[1]王家生,刘嘉.随机过程基础[M].天津:天津大学出版社,2003.

[2]冯强,王昂生.用马尔可夫模型预测长江中下游地区旱涝灾害的试验[J].中国减灾,1997,7(4)∶17-20,24.

[3]丁晶,邓育人.随机水文学[M].成都:成都科技大学出版社,1988.

[4]张汉雄.用马尔可夫链模型预测宁南山区旱情[J].自然灾害学报,1994,3(1)∶47-54.

[5]宋志斌,张洪清,韩艳芳,等.对城市雨水资源利用的思考[J].水科学与工程技术,2006,22∶34-36.

[6]侯玉玲,张艳红,李春辉.城市雨水资源利用现状及发展建议[J].水科学与工程技术,2004,(6)∶11-13.

[7]郝红海,刘志强,刘畅.城市雨水资源利用研究[J].安徽农业科学,2007,35(1)∶163-164.

[8]夏乐天,朱元生生,沈永梅.加权马尔可夫链在降水状况预测中的应用[J].水利水电科技进展,2006,26(6)∶20-23,27.

马尔可夫决策篇7

备件是指用来替换机械设备中容易损坏的零部件而备用的完好的零部件。贮存备件可以缩短维修时间,提高机械设备的使用效率。备件的筹措与供应是维修管理中一项重要的物资技术保障工作。备件管理是否得当,一方面涉及到机械效能的正常发挥和影响机械设备的利用率,另一方面又涉及能否合理使用维修经费,避免资金积压和物资浪费。因此,必须重视维修备件的管理,而备件的选择和数量的确定则是备件管理中的一项重要内容。

对于备件的保障工作的研究主要关心两个方面:设备的可靠性及使用率和保障费用。备件库存量小可以降低备件费用,但不能满足维修保降需求,会影响到设备的可靠性及使用率;增大备件库存量则可以保证设备的可靠性,却会占用大量保障费用,造成相当的资金浪费。因此,就需要对备件配置实施科学的优化决策,寻求费用与可靠性之间的最佳平衡,使得维修需要时能保证备件得到及时和充分的供应,同时尽量使费用降至最低。这就是备件优化问题的研究目标,最终表现为寻找最优的备件配置方案[1]。

本文提出了应用马尔可夫模型[2]来解决备件优化问题的方法,在马尔可夫模型中引人优化策略,在保证设备可靠性及使用率的同时使保障费用最小[3],从而确定最优的备件库存量,并且解决了设备可靠性与保障费用之间的平衡问题。

2 传统备件配置方法

目前国内外已经对备件供应保障进行了大量的研究并建立了大量的模型。可以根据模型把这些研究分为两大流派[4]:①以备件需求量为中心的预测模型;②以缺货为中心的优化模型。

2.1 以备件需求量为中心的预测模型

基于备件需求量的预测模型围绕备件消耗过程对备件需求量进行预测。20世纪60年代以前以及60年代,在国内外大多数都是采用便于计算、实用的经济订货量公式EOQ(economic order quantity)。在需求确定、采购提前期一定、等周期采购等严格的假设条件下,传统的EOQ库存模型综合考虑定货费用和存贮费用给出了“何时采购”和“采购多少”的求解公式。以EOQ理论为基础的库存模型考虑了库存控制的动态特性,并在降低费用方面取得了成效。但EOQ模型紧紧围绕优化费用进行求解,并没有建立与完好性之间的关系,此外预测备件需求量的时候要着重考察备件的消耗过程。以可靠性为中心的维修理论认为设备故障的发生是随机的,并且备件需求受很多因素的影响包括:故障率、供应保障系统、使用环境、使用率系数等。因此备件消耗过程是一个随机过程,在一定的范围内呈现出随机的波动性。

2.2 以缺货为中心的优化模型

在武器机械装备的实际运用中,装备使用者关心的往往不只是费用,更多的是机械装备的战备完好性和可用性。因此, 综合考虑装备系统结构、备件供应保障结构的备件配置优化模型、方法应运而生,其中最有影响力的是METRIC模型。该模型采用期望缺货值来描述完好率,问题归结为在总费用约束下,对所有不同库存点库存数量可能的排列组合分析计算相应的期望缺货值,寻找约束下使装备使用效能最大的库存策略。在策略空间中搜索时采用了边际效益分析法。但这类模型都基于一个重要的假设:基层的部件故障过程是一个泊松过程,也就是说基层所有类型部件的数量都是无限的,其故障失效率与工作部件的数量无关。然而,在实际装备的使用过程中,装备的数量是有限的。由此可见,在装备数量较少的情况下,上述假设会造成结果的不可信。

3 基于马尔可夫模型的备件配置优化方法

3.1 马尔可夫模型的建立及状态分析

对m个完全相同的机械系统,称其为域。设每一个系统包含k个相同类型的部件,因此一个域中相同类型的部件总数为q=mk.一旦出现故障,发生故障的失效部件就必须替换,并且被运送到其他地方进行维修,维修完毕重新运回备件库中备用。这个过程所花费的时间称为循环时间Tr.为了应用马尔可夫方法解决备件问题,必须知道两个常量:失效率λ和循环率α=1/Tr.

域的状态是由三个整数构成的因子(i1;i2;i3)所组成,第一个表示域中系统中正常运行的部件数目, 第二个表示储备的可利用的备件数目,第三个表示处于维修过程的备件数目。设初始状态为(q;n;0),记为状态0(对所有状态用i3来编码),这个状态只可能以速率qλ转移到状态1 (q;n-1;1)。从状态1可能以速率α转移到状态0,或者以速率qλ转移到状态2(q;n-2;2)。因此前n+1种状态都具有形式(q;n-j;j), j=0,1,…,n.从状态j转移到状态j+1的速率为qλ,而返回前一个状态的速率为jα.在前n+1种状态下不会出现部件短缺,这组的最后一个状态为(q;0;n),此时,如果某个部件失效,则域中缺少备件可供替换,该状态将以速率qλ转移到状态n+2(q-1;0;n+1)。紧跟着状态n+1,有q=mk种可能的状态,形式为(q-i;0;n+i), i=1,…,mk.这组的每一个状态以速率(q-i)λ转移到下一个状态,以速率(n+i)α转移至前一个状态,这样就形成了一个马尔可夫链。

由以上分析求解这个模型的稳态解。首先可以得到αP(1)=qλP(0),因此

$Ρ (1) = u Ρ (0) ‚ u = \frac{q λ}{α} (1)$

第二种状态有(qλ+α)P(1)=qλP(0)+2αP(2)成立,从中消掉P(1),得到

$Ρ (2) = \frac{u^{2}}{2} Ρ (0) (2)$

通过归纳可以直接得到前n+1种状态的概率为

$Ρ (k) = \frac{u^{k}}{k!} Ρ (0) ‚ k = 1 ‚ \dots ‚ n + 1 (3)$

且

$Ρ (n + 1) = \frac{u}{n + 1} Ρ (n) (4)$

状态n+1有

$\begin{array}{l} [(q + 1) λ + (n + 1) α] Ρ (n + 1) \\ = q λ Ρ (n) + α (n + 2) Ρ (n + 2) \end{array}$

成立,消去P(n),可得

$Ρ (n + 2) = \frac{u - y}{n + 2} Ρ (n + 1) ‚ y = \frac{λ}{α} (5)$

推理归纳可得

$\begin{array}{l} Ρ (n + j + 1) = \frac{u - j y}{n + j + 1} Ρ (n + j) \\ = \frac{(m k - j) y}{n + j + 1} Ρ (n + j), j = 0 ‚ 1 ‚ \dots ‚ m k - 1 (6) \end{array}$

设 $d_{k} = \prod_{j = 0}^{k} \frac{u - j y}{n + j + 1}$ , 又可得

$\begin{array}{l} Ρ (n + k + 1) = d_{k} Ρ (n) = \frac{u^{n}}{n!} d_{k} Ρ (0) ‚ \\ k = 0 ‚ 1 ‚ \dots ‚ m k - 1 (7) \end{array}$

P(0)可以由归一化关系 $\sum_{i = 0}^{m k + n} Ρ (i) = 1$ 求得。

$Ρ (0) = \frac{1}{1 + \sum_{i = 1}^{n} \frac{u^{i}}{i!} + \frac{u^{n}}{n!} \sum_{k = 0}^{m k - 1} d_{k}} (8)$

其中,u=mkλ/α, y=λ/α.

这样就可以确定各状态的概率。由于n为备件个数,因此不发生备件短缺的概率为前n+1种状态的概率之和,即求得备件充足的概率。

3.2 基于系统可用度和费用的备件优化方法

保存备件的原因在于保障系统的性能,根据备件可用性来决定需要购买的备件数量几乎没有意义,应该从系统可用性和费用的观点出发,综合考虑可靠性、维修性、保障性以及经济效益,由整个系统的可用性要求和总费用来决定所需备件的数量[5,6]。

系统使用可用度的表达式为:

$A_{0} = \frac{Μ Τ B F}{Μ Τ B F + Μ Τ Τ R + (1 - Ρ) Τ_{S}} (9)$

式中,MTBF为平均故障间隔时间;MTTR为平均修复时间;TS为平均备件供应反应时间;P为备件保障概率,即备件充足概率。

由于备件的替换时间比故障间隔时间和循环时间小得多,并且应用马尔可夫方法解析问题时也假定备件的替换是瞬时完成的,即系统的平均修复时间为零,所以基于马尔可夫模型的系统使用可用度的表达式为:

$A_{0} = \frac{Μ Τ B F}{Μ Τ B F + (1 - Ρ) Τ_{S}} (10)$

系统费用就是生产损失和购买备件的费用之和。由系统使用可用度可得系统的稳态不可用度,乘以8760小时可以得到系统一年的平均故障时间,再乘以系统单位时间的生产损失就是系统一年总的生产损失。购买备件的费用即购买备件的数量乘以单个备件的价格。

得到系统的使用可用度和总费用之后,在满足系统高使用度的同时使系统总费用尽可能小,权衡后确定最佳备件配置数量。

4 算例

在一个机械车间内有3条相同的生产线,每个生产线有5个机械手,机械手的失效率为λ=9.82×10-5,循环时间为2100小时,平均备件供应反应时间为4300小时,每一个机械手的费用为10万元,每条生产线工作1小时的产品价值为300元,要求该机械车间生产线可用度为0.95以上,下面以这个机械车间为研究对象,求在一个生产年度内的机械手最佳备件配置策略。

根据3.1节先求出机械手各备件数量下备件充足概率,再利用式(10)得到各备件数量下的生产线年度可用度。由生产线年度可用度可求得生产线一年的平均故障时间,从而得到生产线一年的生产损失,再根据各备件数量下的备件费用,进而得到各备件数量下生产线的总费用,结果如表1所示。从表1可以看出,当机械手备件数为6时,生产线年度可用度为0.9847,满足可用度要求并且总费用最低。因此,该机械车间一个生产年度内的机械手最佳备件配置数量应为6。

5 结论

备件的设计和要求是机械设备保障性的关键或重要因素。备件的数量决定了机械设备维修能力或保障水平,也同时决定了机械设备的成本。为了协调好机械设备费用和保障能力的关系,本文采用马尔可夫模型来实现机械设备的优化权衡,按照使用效率和费用成本进行备件优化配置计算。最后通过实例分析,说明该方法是有效的、可行的,具有一定的工程应用价值。

参考文献

[1]朱煜.以可靠性为中心的备品备件优化配置模型及其算法研究[D].上海:上海交通大学,1999.

[2]刘次华.随机过程第四版[M].武汉:华中科技大学出版社,2008.

[3]Dinesh K U,Knezevic J.Availability based spareoptimization using renewal process[J].ReliabilityEngineering and System Safety,1998,59:217~223.

[4]陈学楚,郑东良.以可靠性为中心的维修理论剖析[J].航空杂志,2000,(2):36~37.

[5]曹军海,徐宗昌.以可用度为中心的备件库存模型[J].兵工学报.坦克装甲车与发动机分册,1997,65(1):25~33.

【马尔可夫决策】推荐阅读：

马尔可夫06-30

马尔可夫过程07-22

马尔可夫预测05-17

空间马尔可夫链07-05

加权马尔可夫链08-14