马尔可夫过程

2024-07-22

马尔可夫过程(精选7篇)

马尔可夫过程 篇1

一、引言

CAPM模型是威廉·夏普 (1964) 和林特纳 (1965) 分别提出的, 其核心理论是在均值-方差理论的基础上和市场存在无风险利率的条件下, 非系统风险可以通过投资组合得以消除, 对期望收益产生影响的是无法消除的系统性风险, 即模型中的β系数, 期望收益与β系数线性相关。随着对β系数的研究不断深入发展, 对β系数的动态变化过程以及预测性等问题的探讨还存在相当大的拓展空间, 而我国资本资产市场属于新兴的市场, 与欧美发达国家相对成熟的资本资产市场相比有很大的不同, 存在很大风险, 因而对β系数的研究就显得极为重要了。由于β系数属于不可观测的参数, 只能被估计, 而不可测量。因此, 研究β系数的变化过程以及对β系数更加准确的预测, 理论上可以更深入地揭示资本资产市场的均衡性与投资者的行为特征, 在实践上则对于金融风险度量、资产定价、投资组合管理具有非常重要的意义。

二、贝塔系数预测模型建立

Sharpe (1964) 的资本资产定价模型为:

其中ρkt为每只股票和市场指数收益率之间的时变相关系数。

为了使模型 (1) 得到有效估计, 需要知道状态变量St取值的变化规律。本

本文选用极大似然算法来估计模型的参数。假定状态变量St取值为{1, 2}, 其中状态1为低风险状态, 2为高风险状态, 并且满足一阶马尔可夫链过程, 其相应的概率转移矩阵P为:

则关于θ的对数条件似然函数为:

根据状态变量的取值和公式 (1) 可以得到变量βkt的两种可能的条件概率密度函数:

由联合概率密度分布函数

则:

其中j∈J, J={1, 2}确定状态St。对于公式 (3) 至公式 (9) 进行迭代, 步骤如下:

步骤1:当t=0时, 将初始值式 (8) 代入公式 (4) ;

步骤2:将公式 (4) 、公式 (5) 代入公式 (6) ;

步骤3:将公式 (6) 代入公式 (7) ;

通过迭代最终计算出关于θ的最大似然估计值。

三、实例分析

本文选用沪深300指数作为资产组合的代表, 选取A股中前5支股票指数收盘价作为样本。沪深300数据开始日期为2005年4月15日, 数据终止日期为2015年12月7日, 数据频率为月。证券数据来源为CSMAR中国股票市场交易数据库。无风险利率来源于中国人民银行官方网站公布数据。本文采用银行定期存款利率作为市场无风险利率, 将一年的银行定期存款利率通过计算并将其作为无风险利率。利用A股前5支股票收盘指数, 可以求出相应的股票回报率, 股票收益率公式如下:

其中:rkt是第k种股票在t时刻的收益率, pkt为第k支股票 (指数) t时刻的收盘价, pkt-1是第k种股票在t-1时刻的收盘价。

各支股票的收益率统计特征如表1所示:

根据沪深300收盘指数, 求得市场组合的指数收益率, 公式如下:

其中:rmt表示市场组合m在t时刻的收益率, pmt为市场组合m在t时刻的收盘指数, pmt-1表示市场组合m在t-1时刻的收盘价。

对模型 (4) 和 (6) 的参数进行估计。对模型 (4) 用统计软件Eviews6.0计算参数的最大似然估计, 对模型 (6) 通过迭代过程计算条件对数似然函数。

对参数的极大似然估计值如表2所示。

表2中α和β为经典的资本资产定价模型的参数估计, LM是极大似然估计值。反映了在状态1、2的期望持续期间。

四、结论

时变贝塔资本资产定价模型显著优于传统的资本资产定价模型。贝塔系数、方差和转移概率矩阵系数均能通过显著性检验, 其中β1/β2之比在0.362~1.274, 两状态贝塔系数存在显著差异。βi>1表明属于进攻股票, 反之属于防守型股票, αi>0表明股票定价过低, 反之定价过高, 运用这一模型为资产选择投资提供了一种有效的分析方法。p11和p22的值普遍较大, 它们反映了前一日处在状态1 (或状态2) 下, 下一个仍处于本状态的概率, 即贝塔系数的稳定程度和波动的集聚情况。反映了在状态1、2期望持续时间。这一方法对于资产选择以及银行贷款行业分析、度量非系统风险等都具有实际操作意义。

摘要:资本资产定价模型刻画了资产收益与风险的关系, 贝塔系数是资本资产定价模型的重要参数之一, 是投资者进行决策的重要依据。针对目前国内外对贝塔系数的研究不断深入, 本文基于马尔可夫过程构建贝塔系数的时变模型, 对贝塔系数的时变性进行预测研究。

关键词:资本资产定价模型,贝塔系数,马尔可夫过程,预测

参考文献

[1]Sharpe.Capital asset prices:A theory of market equilibrium under conditions of risk[J].Journal of Finance, 1964, 19:425-442.

[2]Black, F.Capital Market Equilibrium with Restricted Borrowing[J].Journal of Business, 1972, (45) :444-454.

[3]孙颖, 孔爱国.零贝塔CAPM模型的特征值检验——基于上海A股市场的研究[J].系统工程理论方法应用, 2004, 13, (2) :147-152.

[4]Brennan, M.Taxes, Market Valuation and Corporate Financial Policy[J].National Tax Journal, 1970, 23 (4) :417-427.

[5]R.Merton.An Intertemporal Capital Asset Pricing Model[J].Econometrica, 1973, 41 (5) :867-887.

[6]Blume, M.E.On the Assessment of Risk[J].Journal of Fiance, 1971, 26 (4) :275-288.

[7]Andrew Count J.Jennifer Roberts, and Mills C.Parameter Stability in the Market Model:Test and Time Varying Parameter Estimation with UK Data[J].The Statistician, 1997, 46:57-70.

马尔可夫过程 篇2

关键词:灰色模型,残差,马尔可夫,状态矩阵,灾变预测

0 引 言

洪涝是对人类社会危害较大的一种自然灾害,洪涝严重影响农业生产和生态平衡。人们要在系统分析洪涝形成的条件、区域性、多发性特点和时空演变规律的基础上,及时研究新情况和总结新经验,不断提高我国防治洪涝灾害的能力,把洪涝灾害的危害降到最低限度[1]。因此,在现有条件下,通过对洪涝发生发展规律的预测研究,以此制定科学的预防洪涝的减灾策略,将其造成的各方面损失降低到最低程度,具有极其重要的现实意义。

灰色预测是近年来应用比较广泛的一种预测方法。灰色模型(Gray Model)简称GM模型,是以灰色模块为基础,用微分拟合法建立模型。灰色预测具有方法简单、所用资料容易获取、短期预测精度高、实用性较强、可检验等优点。灰色GM(1,1)预测模型已广泛应用于经济、生物、农业、电力和水利等领域。该模型将无规律的原始数据通过“数据生成”,使其变为有规律的生成数列再建立数学模型。然而,GM(1,1)模型和其他预测方法一样也有其局限性。当数据离散程度越大,即数据灰度越大时,预测精度越差;并且不太适合预测长期后推若干年的预测。为了解决上述缺点,对GM(1,1) 模型的改进方法已有很多种,如残差GM (1,1)模型、无偏灰色模型、参数优化灰色模型、新陈代谢GM(1,1)模型等,都在不同的场合下对GM(1,1)模型进行了一定程度的改进[2,3,4,5,6]。残差GM (1,1)模型在实际应用中最为广泛,但其预测精度仍不够理想,本文用马尔可夫状态矩阵对灰色残差模型进行改进,以提高对涝灾的预测精度。

1 残差GM (1,1)灾变模型的建立及改进

1.1 残差灰色灾变预测模型的建立[2,3,4,7,8]

灾变预测就是对原始数据序列X(i)(0)=[X(1)(0),X(2)(0),…,X(n)(0)],i=[1,2,…,n]指定阈值ε,然后构建异常(值)序列x(0)(k)=[x(1),x(2),…,x(k)],对异常(值)序列建立灰色预测模型。在残差灰色预测模型建立中,令x(0)(k)为异常(值)序列,x(1)(k)为异常(值)数据的一次累加生成序列,x^(0)(k)为GM(1,1)的预测输出。

设灰色方程为dx(!)(t)dt+α^x(1)(t)=u^,其解为:

x^(1)(t)=[x^(0)(1)-u^α^]e-α^t+α^u^(1)

其还原模型为:

x^(0)(k+1)=(e-α^-1)[x^(0)(1)-u^α^]e-α^tk=(0,1,2,3,,n)(2)

其中,αu是模型中的待定系数(可用最小二乘法求得)。计算原始数列与预测数列之差如下:

e(0)(k)=x(0)(k)-x^(0)(k)(3)

则有残差数列为:

e(0)(k)=[e(0)(1),e(0)(2),,e(0)(n)]

对e(0)(k)取部分子数列有(一般取原点附近的数):

e(0)(k´)=[e(0)(1´),e(0)(2´),,e(0)(n´)]

对e(0)(k′)建立GM(1,1)模型,其时间响应函数的离散形式为:

e^(0)(k´+1)=(e-α^-1)[e(0)(1´)-u^´α^´]e-α^k(4)

依模型可得一组预测数列,即:

e^(0)(k´)=[e^(0)(1´),e^(0)(2´),,e^(0)(n´)]

e^(0)(k´+1)作为x^(0)(k+1)的修正模型可得:

x^(0)(k+1)=(e-α^-1)[x(0)(1)-u^α^]e-α^t+δ(k-i)(e-α^-1)[e(0)(1´)-u^´α^´]e-α^k(5)

其符号函数

δ(k-i)={1ki0kii=n-n´

其中,α′和u′是模型中的待定系数(可用最小二乘法求得),其他符号意义同前。

1.2 残差灰色预测模型的改进[4]

对该残差灰色预测模型改进的关键是将残差数列的绝对值作为原始数列,建立残差灰色预测模型。然后应用马尔可夫过程判断残差预测值在k>n时的符号。令残差:

e(0)(k)=|x(0)(k)-x^(0)(k)|(6)

其余同理,可得改进后的修正模型为:

x^(0)(k+1)=(e-α^-1)[x(0)(1)-u^α^]e-α^t+m(k+1)(e-α^´-1)[e(0)(1´)-u^´α^´]e-α^k(7)

其中:

m(k)={1x(0)(k)-x^(0)(k)0-1x(0)(k)-x^(0)(k)0

其他各符号意义同前。

由此可见,正确预测knm(k)值成了提高灰色预测精度的关键。为了正确预测knm(k)值,引入马尔可夫过程。

1.3 马尔可夫过程[9,10,11,12]

马尔可夫过程是研究事物的状态及其转移的理论,它既适合于时间序列,又适合于空间序列。马尔可夫链分析法是一种以概率论和随机过程理论为基础,运用随机数学模型来分析客观对象发展变化过程中数量关系的一种统计分析方法。一个时间与状态都是离散的马尔可夫过程叫做马尔可夫链简称马氏链。它的特点是:当系统在时间ti所处的状态已知时,系统在ti+1时刻所处的状态仅与ti时刻所处的状态有关,而与ti时刻之前的状态无关,这种性质称为无后效性。马尔可夫过程可以很方便地求出各种状态之间相互转移的概率。状态转移概率具有两个特性:①pij≥0;j=1npij=1(pij指从状态i转移到状态j的概率)。

马尔可夫链模型建模过程如下。

设有一个随机过程{Xn,nT},若对任意的整数n和任意的i0,i1,…,in+1∈I,条件概率满足:

p{Xn+1=in+1|X0=i0,X1=i1,,Xn=in}=p{Xn+1=in+1|Xn=in}(8)

其中i0,i1,…,in,in+1分别为马尔可夫链的状态,称P{Xn,nT}为马尔可夫链,N称为马尔可夫链的阶。

转移概率矩阵定义条件概率Pij(n)=P{Xn+1=j|Xn=1}称为马尔可夫链{Xn,nT}在时刻n的一步转移概率,其中i,jI,简称为转移概率。由转移概率组成的矩阵就是转移概率矩阵。在马尔可夫链中,系统状态转移可用下列转移概率矩阵P表示:

Ρ=[p11p12p1np21p22p2npn1pn2pnn](9)

将马尔可夫过程引入进来以求残差正、负号状态转移概率,从而确定kn时的残差的符号。其步骤如下。

(1)确定状态,在这里只确定两种状态,即+1和-1;

(2)根据残差数据状态(+1,-1)求出状态转移矩阵P;

(3)确定初始状态向量π(0)π(t)=π(0)·p;

(4)根据状态转移公式π(t)=π(0)·p′求出第t期状态转移的结果,取出现概率大的状态,如果出现正负号的概率相等,此时一般取上期确定的符号。

2 改进模型在涝灾预测中的应用

2.1 研究区概况

辽阳市位于东经122°35′04″~123°41′00″,北纬40°42′19″~41°36′32″,面积4 731 km2,人口178.6万人。该区属大陆性季风气候,多年平均降水量为744.8 mm,降水年内分配不均,年际变化较大,降雨量多集中于6~9月份,占全年降水量的73%,洪涝灾害是该区的主要自然灾害。

本文应用改进模型对涝灾进行预测。根据表1所示的1956至2005年辽阳站50年降水资料为依据,首先将表1中年份依次进行编号,对此序列数据进行统计,将降水量等于840 mm为临界值,并认为降水量大于等于840 mm为涝灾异常(值)。将涝灾发生的年份序号挑出,用灰色系统方法建立灰色灾变GM(1,1)模型,进而用马尔可夫改进残差灰色灾变模型进行预测。

2.2 涝灾预测

先以辽阳地区1956~1990年的降水资料作为预测依据,对此序列数据进行统计,在阈值以上的年份有1959、1960、1962、1964、1971、1976、1985、1986年。根据灰色灾变的映射原理,可得上限灾变序列:

X(0)(k)=[x(4),x(5),x(7),x(9),x(16),x(21),x(30),x(31)]

由此可建立灰色灾变方程,其时间响应模型为:

x^(1)(k+1)=20.584559e0.280269k-16.584559(10)

然后用GM(1,1)模型求得x(0)(k)的预测公式为:

{x^(0)(1)=4x^(0)(k+1)=20.584559(e0.280269-1)e0.280269(k-1)k1(11)

预测结果和残差见表2,表2中预测值1为残差修正前的预测值,预测值2为残差修正后的预测值。同样用e(0)(k)序列(由于修正原点附近的值)取(k≥4),求得预测公式为:

{e(0)(4)=2.66368e^(0)(k+1)=0.569363(e0.70996-1)e0.70996(k-4)k4(12)

将式(11)和(12)叠加得:

{x(0)(3)=7x^(0)(4)=11.66268x^(0)(k+1)=20.584559(e0.280269-1)e0.280296(k-1)+m(k+1)0.569363(e0.70996-1)e0.70996(k-4)k4(13)

利用马尔可夫过程来确定m(k+1)在k=7时的值。观察表2,m(k)由+1向+1转移的次数是2,向-1的转移次数为

1,因此+1向+1转移的概率为p11=2/3;+1向-1转移的概率p12=1/3,同理-1向+1转移的概率为p21=1/3;同理-1向-1转移的概率为p22=2/3。综上所述得到的状态转移矩阵为:

p=[2/31/31/32/3](14)

由于最后一个值m=-1初始状态向量π(0)=[0 1],预测第t期状态转移的结果:

π(t)=[01][2/31/31/32/3]t(14)

t=1时,π(1)=[1/3 2/3]出现正号的概率为1/3,负号的概率为2/3,因此m(8)=-1。

1990年以后实际发生涝灾的年份序号为39,当k=8时代入各模型计算结果列于表2最后一行,结果表明相对误差减小了近五倍。为了便于将GM(1,1)模型与改进组合模型进行比较,将预测值与实际绘于图1;将检验值的结果列于表3。

从图1可以看出改进后的模型与实际值较接近,由表3可以看出马尔可夫改进残差灰色模型对灰色模型进行修正后的检验值,明显优于GM (1,1)模型的检验值,且马尔可夫残差改进模型的检验值基本上均达到了一级。

3 结 语

研究结果表明:基于马尔可夫过程改进残差灰色模型明显优于一般的GM(1,1)模型,新模型不仅可应用于涝灾的预测,还可以应用于其他灾害预测,只要已知发生灾害的时间序列,就可以应用该模型进行预测。

用马尔可夫改进残差灰色模型对灰色模型进行改进,是一种既方便又可靠的方法。另外,在实际建模中,原始数据序列不一定全部用来建模,选择适当的原始数据将得到更加准确的预测效果;为提高多序列残差灰色预测的精度,将神经网络模型与灰色预测模型相结合,也会大大提高预测精度。

灾变预测的研究目前尚处于起步阶段,很大一部分研究还局限在以年或月为时间段的预测方面,其计算方法还不够成熟;再者很多部门仅以单因素为标准来划分是否发生灾害,没有考虑到其他因素的综合影响,使模型的计算结果具有不确定性,因此还有待于进一步研究。

马尔可夫过程 篇3

高斯混合模型 (GMM) [2]是神经学中广泛使用的一种统计学模型, GMM不仅与脑部MR图像的分段常数性质一致, 而且具有较低的计算复杂度。GMM的模型参数可以利用期望最大化 (EM) 算法根据最大似然 (ML) 准则来估计, 然而, 基于EM的ML估计具有过度拟合和容易限于局部最优解的缺点。为了克服这些缺点, 使用几种全局优化技术来替代EM算法, 例如, 文献[3]在似然估计中结合了遗传算法, 提出了GA-EM算法。此外, 当先验知识可用时, 最大后验概率 (MAP) 估计是ML估计的一种常见替代方法。文献[4]提出一种MAP-MRF框架来求解图像分割问题, 通过将体素类标签建模为马尔可夫随机场 (MRF) 来表示体素空间依赖性的先验。文献[5]提出一种基于全局随机搜索的推理方法, 即马尔可夫链蒙特卡尔 (Markov chain monte carl, MCMC) 推理, 用来替代确定性程序。文献[6]受免疫机制启发, 提出一种克隆选择算法 (clonal selection algorithm, CSA) , 基于克隆选择理论, 选择能够识别抗原的抗体来进行繁殖, 繁殖的细胞会通过一个亲和力成熟过程来改进它们对抗原的亲和力, CSA模仿对抗原刺激免疫应答机制来实现全局最优。

将CSA和MCMC技术融合到隐马尔可夫随机场 (hidden Markov random field, HMRF) 模型估计中, 提出一种用于脑部MR图像分割的HMRF-CSA算法。首先, 通过MCMC方法近似最优标签配置, 然后, 由CSA算法估计HMRF模型参数。用全局随机优化技术替代确定性搜索程序, 以此提高分割算法的鲁棒性, 同时, 将MR图像建模为分段常数图像的乘法分量, 根据MCMC推断方法获得的中间分割结果来评估图像的不均匀性。通过仿真实验, 将本文HMRF-CSA算法与现有的GA-EM方法、可变形共同分割 (D-C) 算法、SPM软件包中的统一分割算法和FMRIB软件库 (FSL) 上的HMRF-EM分割算法进行比较, 结果表明该算法具有更好的分割精度。

1 相关技术

1.1 图像不均匀模式

由图像采集的不完善所导致的图像不均匀性, 或称偏场或强度非均匀性 (INU) [7]是MR图像分析的难点之一。设定y={yi;i=1, 2, …, N}表示一副脑部MR图像, 其中yi表示在体素i处的强度, N表示体素的数目, 未知偏场B={bi;i=1, 2, …, N}通常建模为y的乘法分量, 如下式所示

式 (1) 中, 是理想图像, 是附加的高斯白噪声。由于图像中偏场B变化缓慢, 所以可将它定义为在整个图像域上的一个平滑函数。采用正交多项式{Wj:j=1, 2, …, NOP}作为偏置函数来近似偏场[8]

式 (2) 中, φ={φj:j=1, 2, …, NOP}表示组合系数, NOP= (D+1) (D+2) /2是多项式的数目, D是多项式的度。

1.2 统计学模型

假设体素强度y={yj;j=1, 2, …, N}符合GMM;从有先验概率πk的高斯分布N (μkΣk) 中独立采样每个强度值yj, 观察图像的似然, 计算式如下:

通过最大化上述似然函数来估计最优GMM参数, 确定参数后, 利用贝叶斯分类器对每个体素进行分类, 以此求解脑部图像分割问题[7]。

为了将空间约束融入到这个模型中, 本文应用MRF到模型类标签x={xj;j=1, 2, …, N}中, 根据Hammersley-Clifford理论, 类标签p (x) 的先验联合分布符合Gibbs分布。在MAP-MRF框架下, 图像分割等价于通过最大化其后验概率寻找最优配置x*

式 (4) 中, Θ={μk, Σk;k=1, 2, …, K}表示模型参数, p (y|x;Θ) 是图像似然, p (x) 是空间先验。

本文将图像强度y当作在相同图像点阵中另一个随机场建模的模型, 然后将代表潜类标签的MRFx变成HMRF。在这个模型中, 将图像分割问题制定为配置x和参数Θ的最大联合概率

式 (4) 中后验与式 (5) 中联合概率之间的差是惩罚项p (Θ|y, x) , 用于检查模型参数是否与配置x给出的观察值一致。

2 HMRF-CSA算法提出

HMRF模型主要用来估计式 (5) 中的最优类标签和模型参数 (x, Θ) , 估计过程可划分成两个相互依赖的优化步骤:搜索最优配置x*和学习最匹配模型参数Θ*。使用下式三个步骤的迭代程序来实现HMRF模型估计

式 (6) 中, f (., .) 是基于观察y和分割结果x纠正偏场的函数, t∈{1, 2, …, Tmax}表示当前迭代数目。在每次迭代中, 首先采用MCMC方法实现MRF-MAP估计, 在近似的分割结果下估计偏场, 然后利用CSA学习HMRF模型参数, 当达到最大迭代数目或分割结果变成稳态时迭代停止。

2.1 MCMC体素分类

上述迭代步骤中第一步是通过MRF-MAP近似寻找最优配置x*, 使用MCMC方法求解这种优化问题, 根据式 (4) , 对于给定任意特定配置x, 假设yj相互独立且符合基于参数Θk={μk, Σk}的多元高斯分布, 则似然为

MRFx的联合分布可表示为Gibbs函数[9],

式 (8) 中, Z是规范化常量, Vc (x) 表示派系c的潜力, C是根据邻域系统确定的所有派系的集合, T是温度参数。本文使用Potts模型表示派系潜力, 运用式 (7) 和式 (8) 到式 (4) , 并对其进行负对数变换, 得到

根据模拟退火MCMC方法, 为温度参数T定义一个冷却进度表,

式 (10) 中, i=1, 2, …, I表示MCMC算法迭代的数目, C是冷却因子, 本文设置T (0) =4, C=0.97。若给定一幅脑部MR图像y和标签x (0) 的初始配置, 则可计算出模型参数。定义用来表示从x (i) 随机移动的跳跃密度Q (.|x (i) ) 符合高斯分布, 每次迭代中, 从建议密度Q (x* (i+1) |x (i) ) 提取一个候选x* (i+1) , 从均匀分布u (0, 1) 提取一个随机序列, 计算每个体素j的接受率

如果uj<αj, 接受模拟xj (i+1) =xj* (i+1) , 否则拒绝它并保持类标签与上一次迭代xj (i+1) =xj (i) 相同, 当达到最大迭代次数时停止, 如算法1所示。

算法I:体素分类的MCMC采样

2.2 偏场校正

在利用MCMC体素分类之后, 可以获得分割结果x*和最小能量E={Ekj, xj=k, j∈S}。归一化后验概率n={nkj;j=1, 2, …, N, k=1, 2, …, K}作为软分割结果

根据理想MR图像的分段常数性质, 定义软分割与对应平均μk的积作为存储的图像

本文使用奇异值分解 (SVD) 求解下列最小二乘拟合问题, 以此估计偏场。

式 (14) 中, ./表示点对点划分, 根据估计的组合系数, 获得偏场

偏场损坏的图像可恢复如下:

2.3 CSA进行参数估计

第三步是通过最大化后验概率p (Θ|y (t) , x (t) ) 来学习当前图像强度y (t) 和配置x (t) 给出的最优参数

式 (17) 中, p (Θ) 是参数的先验概率, 这个先验指的是基于马尔可夫性质信息p (Θkj) =p (xj=k|kj) 的体素, 可以通过MRF能量计算得到, 定义它作为这些项的混合来平衡参数的收敛和多样性, 对于每个体素j∈S

式 (18) 中, v是平衡常量, Πkj=πk表示分体素全球先验。给定任意具体参数集Θ, 即可计算式 (18) 中所示优化问题的目标函数。为了实现全局最优, 采用CSA[10]求解该问题, 以群体方式模拟所有可能参数。CSA是一种进化优化算法, 通过迭代生成一群编码抗体来寻找全局最优解。本文中, 抗体群np设为100, 定义每个抗体为一个候选参数集Θ, 将有特定抗原的抗体Θk的亲和力定义为后验似然p (Θ|y, x) , 迭代优化过程由下列六个主要步骤组成:

第一步:评估每个抗体的亲和力, 根据其亲和力按降序排列所有抗体;

第二步:从当前群体中选择Ns个抗体, 克隆它们形成克隆群。对于亲和力排序为j的抗体, 定义其克隆的数目正比于其亲和力排序, 如式 (19) 所示。

式 (19) 中, β是常量, 用来控制克隆率, round (.) 用来将实数变换到与其最接近的整数;

第三步:分别对概率为phm和pre的克隆群运用超突变和受体编辑操作。超突变是在动态范围±10%内随机改变抗体的值, 目的是局部搜索最优解。受体编辑是在动态范围±100%内随机改变抗体, 实现全局搜索;

第四步:评估克隆群中抗体的亲和力, 根据其亲和力按降序排列;

第五步:选择克隆群中排名靠前的抗体代替记忆细胞集中较低亲和力的40%抗体, 保证记忆细胞集保存迄今为止获得的最优解, 以便最高亲和力的抗体按代递增;

第六步:用随机生成的抗体代替剩余集中具有最低亲和力的10%抗体, 对新群体引入多样性。

重复迭代这个过程直到达到最大迭代数目, 如图1所示。

2.4 总结

给定K-平均算法产生的初始分割结果, HMRF-CSA算法迭代执行基于MCMC的体素分类、偏场校正和基于CSA的模型参数估计, 直到算法收敛。一旦达到收敛, 则获得最终分割结果、偏场和模型参数。HMRF-CSA算法的主要步骤见算法II。

算法II:HMRF-CSA脑部图像分割算法

3 实验结果

本文从Brain Web数据集[11]获取仿真TI加权脑部MR图像, 比较提出的HMRF-CSA算法与现有的e HMRF算法、GAMIXTURE包中GA-EM算法、D-C算法、FSL包中的经典HMRF-EM算法和SPM包中的统一分割程序。Brain Web数据集提供的一组仿真脑部图像, 这些图像具有各种INU和噪声级别的解剖模型仿真, 每个仿真研究的维度为181×217×181, 体素大小为1 mm×1 mm×1 mm。

图2分别显示了仿真图像中具备40%INU和7%噪声的第88个横切片, 偏长矫正图像, 估计的偏场, 使用六种算法获得的分割结果和地面实况组织图。其中图2 (a) 表示仿真图像的第88个横切片 (7%噪声和40%INU) ; (b) 表示INU校正图像; (c) 估计的INU; (d) 表示HMRF-EM算法的结果; (e) 表示D-C算法的结果; (f) 表示SPM算法的结果; (g) 表示GA-EM算法的结果; (h) 表示e HMRF算法的结果; (i) 表示HMRF-CSA算法的结果; (j) 表示地面实况。可以看出, 本文算法产生的分割结果比其他算法产生的结果更接近地面实况。

接下来, 在两组仿真MR图像上对这些算法进行进一步比较。第一组MR图像包含有20%INU和噪声级别范围从1%到7%的四个图像, 使用骰子相似度系数 (DSC) [12]定量评估每个脑部组织类型分类的性能。

式 (20) 中, Vs (k) 是分割结果中脑部组织类k的体, Vg (k) 是在地面实况上对应的体, |V|代表体V中体素的数目。通过正确分类的脑部体素百分比来计算分割精度, 并评估整体精度。图3表示六种算法获得的分割精度。

从图3可以看出, 在大部分仿真图像中, 本文算法在划分每个脑组织和分类整个脑部体方面都具有较高的精度。而且, 随着噪声和INU级别的增加, 提出算法的精度下降幅度比其他算法低, 这表明本文算法具有较强的抵制噪声和INU影响的能力。

第二个测试组包含有40%INU和噪声级别范围从1%到7%的四个图像, 六种算法获得的分割精度如图4所示。

从图4可以看出, 本文算法能在高噪声和INU级别下保持良好分割性能。

4 讨论

4.1 参数设置

本文提出的HMRF-CSA算法中, 有三组需要近似的参数, 包括MCMC推断、INU估计和基于CSA的参数近似。在INU近似中, 以正交多项式的阶来权衡考虑近似精度和计算复杂度, 由于INU变化非常慢, 对于INU近似, 10个三阶多项式已经足够。式 (19) 中权重参数v决定MRF先验, 较大的v能使MRF的作用更大, 另一方面, 小v则更支持GMM先验。CSA本身需要很多参数, 文献[13]对此进行了详细讨论。本文使用CSA程序的经验参数设置:群体大小Np=100、记忆集大小Nm=0.3Np、选定抗体的数目Ns=0.5Np、克隆率常量β=0.5, 超突变概率phm=0.8、受体编辑概率pre=0.1和最大的代Nt=20。

4.2 计算复杂度

计算机程序的性能与许多因素有关, 包括计算机处理能力、数据表示、编程语言和编码实现等[14]。本文评估了HMRF-CSA算法的计算复杂度, 本文算法在每次迭代中顺序执行MCMC推断、偏场估计和基于CSA的参数估计。设定对于有N个体素的一副图像, MCMC推断的计算复杂度为O (N) ;偏场估计仅进行一些矩阵计算;基于CSA的参数估计的复杂度为O (Np+NcK) , 其中Np表示群体大小, Nc表示总克隆数目。提出的迭代分割算法的迭代次数达到wmax后停止, 其线性整体计算复杂度O (N+Np+NcK) 。需要注意的是, MCMC方法的主要缺点是需要大量仿真图[15], 然而, 由于CSA为MCMC方法配置了一个良好的开始状态, 所以本文算法不需要许多仿真图。同时, MCMC方法的输出使CSA在有限代数之后成熟, 因此, 尽管本文HMRF-CSA算法涉及耗时的MCMC和CSA程序, 然而, 其计算复杂度只稍微高于传统分割方法。

5 结论

提出了HMRF-CSA脑部MR图像分割算法, 在基于HMRF模型分割中结合了CSA和MCMC, 本文算法能够有效的用于基于HMRF模型估计的图像分割问题。在仿真脑部MR图像上进行实验, 将本文算法与GA-EM算法、D-C算法、SPM和FSL软件包算法进行比较, 实验表明该算法获得了更好的分割精度。

马尔可夫信源极限熵求解方法解析 篇4

1 马尔可夫信源

⑴马尔可夫信源。我们说实际的信源一般都是有记忆的信源, 而且这种有记忆信源在任一时刻发出符号的概率通常只与前面若干个符号有关, 而与更前面的符号无关, 因此我们可以认为信源在某一时刻发出的符号与信源的状态有关。若信源输出的符号序列和状态序列满足下述的两个条件:某一时刻信源的输出仅与信源的当前状态有关;信源的状态只由当前的输出符号和前一时刻信源状态唯一确定。我们称这样的信源为马尔可夫信源。

⑵马尔可夫信源的极限熵。若信源以长度为N输出符号序列, 则信源的平均符号熵为其中HN (X) 是信源的矢量熵。当N→∞时, 此时称为信源的极限熵, 极限熵是真正描述实际信源熵的表达方式。它规定了平稳离散有记忆信源输出符号序列中平均每个信源符号的熵值, 代表了一般离散有记忆信源平均每发出一个符号所提供的信息量。事实上, 当信源记忆长度很长, 趋于无穷大的时候, 要计算联合熵或极限熵是很困难的, 它需要测定信源的无穷阶联合概率和条件概率, 这是很难达到的, 因此, 我们在实际计算时, 我们往往只考虑有限记忆信源的熵, 用有限的条件熵或平均符号熵作为极限熵的近似值。

由此可见, 当信源是有记忆m阶的马尔可夫信源时, 我们用条件熵作为极限熵的近似值。而求解条件熵的关键就是要得到马尔可夫信源稳定后 (N→∞) 各个状态的极限概率。

2 马尔可夫信源极限熵求解案例分析

极限熵并不是在任何情况下都存在。通常, 对于一个n元m阶的马尔可夫信源, 只有在平稳状态下, 各个状态的状态极限概率都存在时, 才可以计算出极限熵。因此, 求解马尔可夫信源的极限熵关键在于如何求解马尔可夫信源稳定后各个状态的极限概率。下面, 就以一个案例来说明马尔可夫信源的极限熵的求解方法。

举例:设有二元2阶马尔可夫信源, 其原始信源X的符号集为{x1=0, x2=1}, 其状态转移图如下图所示, 求该马尔可夫信源的极限熵。

解: (1) 首先求解各状态极限概率

这样二元2阶信源X∈{0, 1}得到的状态空间{e1, e2, e3, e4}和相应的一步转移概率构成的2阶马尔可夫信源模型为:

将一步转移概率代入上式得方程组:

求求解解以以上上方方程程组组, , 则则可可算算出出该该信信源源的的状状态态极极限限概概率率为为:

(2) 求解该信源的极限熵

计算出该马尔可夫信源的状态极限概率后, 根据状态转移图提供的一步转移概率, 我们就可以计算出这个2阶马尔可夫信源的极限熵了。

3 总结

马尔可夫信源属于有记忆信源, 当信源在某个状态时, 只取决于这个时刻发出的符号与之此时刻之前的符号状态有关。马尔可夫信源不同于一般有记忆信源之处在于它用符号之间的转移概率来描述符号间的关联性, 即马尔可夫是以转移概率发出每个信源符号的。计算马尔可夫信源的极限熵时, 首先要考虑该信源的极限熵是否存在, 若极限熵存在, 则需先计算出该信源各个符号状态的极限概率, 再根据极限概率和转移概率求出极限熵。通过计算极限熵, 我们可以计算出信源存在的冗余度, 为信源的编码奠定基础。

参考文献

[1]陈运.信息论与编码.北京:电子工业出版社, 2009.

[2]张旭东, 等.图像编码基础和小波压缩技术.北京:清华大学出版社, 2004.

[3]吴家安, 等.语音编码技术及应用.北京:机械工业出版社, 2006.

[4]钟家恺.通信原理教程.北京:科学出版社, 2003.

马尔可夫过程 篇5

光线追踪算法用于计算机生成真实感图像, 在电影, 电视和辅助设计领域有着广泛的应用。光线追踪算法和另一大图像生成算法光栅化相比, 其图像生成的质量和真实性均占优, 但是速度要比光栅化算法慢很多。自从该算法被提出以来, 研究人员提出了多种对此算法的改进, 比如光子映射算法和辐射度算法。这些算法和传统光线追踪算法比起来在生成图像质量相同的情况下速度快了很多。但是这些算法只针对特定的场景布置才能起到加速效果, 在一些复杂场景特别是有大量光滑和光泽表面的情况下会出现大量误差, 并且计算速度会大幅下降。

光线追踪算法的本质是求解光传输方程。通过光能守恒定律我们可以把积分空间离散的传输方程转换为场景中面积度量的积分。求解这个积分的方法是把它转换为一个无穷维的高阶积分, 并用蒙特卡罗方法采样整个积分空间, 使积分结果按概率趋近于方程解。由于渲染场景的复杂性和光照模型的多样性, 求解这个问题的最大难点在于如何在有限的时间内使蒙特卡罗方法逼近真实解。目前, 光线追踪主要还是应用于离线渲染领域。如何在保证图像质量的情况下提高算法速度就成了亟待解决的问题。

二、问题描述

2.1光传输方程。

真实感渲染中, 核心算法之一是模拟光从光源发出, 在场景物体和介质之间进行交互, 传播, 最终被吸收或者进入摄像机的过程。从物理学的角度来看, 这个过程就是电磁波 (辐射) 与实物粒子的碰撞与反射。我们将一个表面上一点p处ω0方向上辐射出射能量定义为L0 (p, ω0) , 那么根据热辐射定律, 出射能量可以表示为入射能量在表面BRDF函数和方向ω的积分, 该积分可以用下列公式表示:

其中Le (p, w0) 是表面发出的辐射;f (p, ω0, wi) 是表面的BRDF函数, 表征物体表面对辐射的反射和吸收特性。积分空间s2是场景中的所有表面。由于积分中含有即立体角, 为了能计算这个积分, 我们希望它能统一到积分空间中。有限空间的场景中, 沿着射入一个表面的光线能找到另一个场景中的点。于是我们定义函数, 它表示点p处沿着方向找到的另一个场景中的点。如果这样的点不存在, 则t函数返回一个特殊的值。将函数t带入式 (1) 可以得到

(2) 式与 (1) 式相比, 右侧的积分函数和左侧统一, 但是依然无法直接进行计算, 因为它依然含有ω。考虑到我们在上一步的变换同样适用于L (p, ω0) , 为此我们定义

其中P'为沿着点p的出射光线遇到的场景中的点。由于场景中存在遮挡关系, 我们定义几何函数

函数表示点p和P'的可见性。如果两点之间没有遮挡, 那么V的值是1, 否则是0.将上述函数引入式 (2) 中, 我们得到了光传输方程的表面形式:

注意到上式中左边和右边都有函数L。现在我们考虑一条从光源到摄像机的完整光路径, 我们把P0处的式 (3) 带入P1处的式 (3) 得到

如果光路径上还有其他点, 也可以同样按照上述方法带入, 从而把光传输方程转化成路径形式。有了式 (4) 就可以在某些简单场景中计算数值解了。但是对于大多数复杂场景, 光路径的长度可能很长甚至是无限长, 式 (4) 就变成了一个无穷维积分, 这样的积分是无法计算数值解的。对于这样的场景, 我们用2.2中的采样算法进行计算。

2.2 Metropolis-Hastings采样算法。

其中表示以概率a接受从X状态到X’状态的变化, 否则不变。由 (5) 式得

以这种采样的方式计算积分的话, 就是MCMC算法:

其中g (x) 可以是任意的函数, xi服从分布.

式 (4) 可以简化写为

使用MCMC算法, 式 (6) 可以用下式计算:

三、算法流程与实现

本文算法的实现使用了开源项目mitusba render作为输入和输出, 核心算法流程图如下:

四、实验与结果分析

实验使用光线追踪测试场景veach, 生成的图像如下:

通过生成的图像我们可以看到, 使用MCMC算法生成的图像整体具有较好的真实感, 并且能够表现出光线多次反射对场景中物体的影响。但是, 该算法的速度比较慢, 在2450M处理器上渲染上图使用了15分钟26秒。如何提高算法的性能将是一部研究的重点。

参考文献

[1]Veach.Robust Monte Carlo methods for light transport simulation[D].斯坦福:斯坦福大学, 1997.

[2]Jakob W., S.Marschner.Manifold exploration:A Markov Chain Monte Carlo technique for rendering scenes with difficult specular transport[J].ACM Trans, Graph, 2012, 31, 4, 58:1-58:13.

[3]Jaakko L., K.Tero, L.Samuli, A.Miika, D.Fr&apos;edo, A.Timo.Gradient-Domain Metropolis light transport[J].ACM Trans.Graph, 2013, 32, 4, 95:1-95:11.

[4]Jakob W.2012 Mitsuba v0.4 EB/OL].http://mitsuba-renderer.org.

[5]Jaakko L., K.Tero, L.Samuli, A.Miika, D.Fr&apos;edo, A.Timo.GradientDomain Metropolis light transport[J].ACM Trans.Graph, 2013, 32, 4, 95:1-95:11.

[6]Jakob, W.Light transport on path-space manifolds[D].伊萨卡:康奈尔大学.2013.

马尔可夫过程 篇6

关键词:隐马尔可夫模型,学习行为,滑动窗口,抄袭,学习异常

0 引言

网络教学打破传统课堂教学的时空限制, 具有便捷、泛在访问等特点, 正成为时下高校流行的教学方式。学生可通过丰富的网络媒介 (如浏览网页、讨论板、博客、wiki、提问等) 进行学习。当前已有学者使用BP神经网络和C4.5算法对学生使用网络媒介的学习行为进行效果评估[1,2]。为了强化学生对知识的灵活运用, 教师通常会引入虚拟实验实训、在线测试之类的系统对学生进行知识训练。文献[3]使用隐马尔可夫模型HMM (Hidden Markov Model) 实现知识点智能引导。笔者曾使用模糊聚类方法对CSCL学习者的混合分组进行了基础研究[4]。在小组学习过程中, 有时候学生为了应付教师, 往往弄虚作假。对于学生抄袭或学习异常的学习行为, 系统反馈的有可能是虚假信息, 教师难以及时发现隐藏在虚假信息背后的真实行为, 无法及时帮助学生纠正错误。

隐马尔可夫模型在语音识别、网络异常检测、行为异常检测方面得到广泛的应用[5,6]。为了从大量学习记录中挖掘和提取有用信息, 本文引入隐马尔可夫模型, 以数据库课程SQL在线测试系统为例, 建立基于隐马尔可夫模型的学习行为评估模型, 评估和发现学生的抄袭和异常行为。

1 隐马尔可夫模型

1.1 隐马尔可夫模型定义

隐马尔可夫模型是一个双重随机过程, 包含两个随机变量序列:一个是观察不到的马尔可夫链, 用来描述状态的转移, 用转移概率表示;另一个是可以观察到的随机序列, 用来描述状态与观察值的关系, 用观察值概率表示。完整的隐马尔可夫模型由一个五元组λ= (S, V, A, B, π) 表示[7], 其中:

(1) S为隐藏状态集合, S={s1, s2, …, sN}, |S|=N, 并记t时刻的状态为qt, qt∈S。

(2) V为观察符号集合, V={v1, v2, …, vM}, |V|=M并记t时刻观察到的符号为ot, ot∈V。

(3) A为状态转移概率矩阵, A= (aij) , aij表示如果在t-1时刻状态为si, 则在t+1时刻转移到状态sj的概率, 即aij=P (qt+1=sj|qt=si) 1≤i, j≤N。

(4) B为状态的观察符号概率分布, B={bj (k) }, bj (k) 表示在状态sj下观察到符号vk的概率, 即bj (k) =P (ot=vk|qt=sj) 1≤k≤M, 1≤j≤N。

(5) π为初始状态的概率分布, π={πi}, πi表示在时刻t=1时, 处于状态si的概率, 即πi=P (q1=si) 1≤i≤N。

隐马尔可夫模型的性质完全由A、B、π所确定, 为了方便, 简记为λ= (A, B, π) 。如无特别说明, 这里指的是一阶隐马尔可夫模型。

1.2 隐马尔可夫模型的应用

已知观察序列O= (o1, o2, …, oT) 和模型λ= (A, B, π) , HMM在实际的应用中要解决下列三个问题:

(1) 评估问题:求模型λ产生观察序列O的条件概率P (O|λ) , 可使用前向算法求解。

(2) 解码问题:求模型λ产生观察序列O的最可能的状态序列, 可使用Viterbi算法求解。

(3) 学习问题:使用观察序列O, 调整模型λ参数, 使得条件概率P (O|λ) 最大, 可使用Baum-Welch算法求解。

1.3 Baum-Welch算法介绍[8]

给定模型λ和观察序列O:

(1) 定义前向变量:

表示在给定模型λ的条件下, 在t时刻, 产生部分观察序列 (o1, o2, …, ot) , 并处于状态si的概率。前向变量可由下式进行迭代计算:

其中, α1 (i) =πibi (o1) 。

(2) 定义后向变量:

表示t时刻状态为si的条件下, 在t+1时刻到最后, 产生部分观察序列 (ot+1, ot+2, …, oT) 的概率。后向变量可由下式进行迭代计算:

其中, βT (i) =1。

(3) 定义输出概率:

(4) 定义t时刻在状态si, t+1时刻在状态sj的概率:

(5) 定义t时刻处于状态si的概率:

(6) 定义从状态si转移到状态sj的期望次数与从状态si转移的期望次数之比:

(7) 定义处于状态sj且观察符号为vk的期望次数与处于状态sj的期望次数之比:

(8) 定义t=1时刻处于状态si的概率:

构成新的HMM重估模型。给定初始模型λ= (A, B, π) , 利用训练序列, 通过反复迭代, 计算重估模型。当重估模型收敛时, 即可得出局部最优的HMM重估模型参数。Baum-Welch算法如下:

输入:A, B, π, O

输出:

(1) 初始化终止条件δ。

(2) 迭代计算:

(3) 如果Δp>δ, 继续迭代;否则终止。

2 建立隐马尔可夫模型

2.1 SQL在线测试系统介绍

本文设计了一个SQL在线测试系统。学生登录系统, 在题库中选择训练题, 按要求编写并在线提交SQL语句。测试系统编译并运行SQL语句, 并对运行结果进行自动评估。测试系统反馈六种结果:结果正确、SQL错误、行数不等、列数不等、数值不等和列名不等。学生做题是随机的, 每道题都会产生6种反馈结果中的一种。教师无法直接了解学生对题目知识的掌握程度, 只能通过学生做题时系统的反馈结果进行观察。

笔者把SQL在线测试系统应用在计算机专业二个教学班上, 经过一学期的实际教学使用, 共收集到94个学生的2万多个做题记录。

2.2 设置模型参数

学生选题是随意的、无序的, 但做题尝试是和时间相关的。学生的每次做题尝试, 都可看作是对知识点掌握程度的一个反映 (观察值) 。做题尝试序列反映知识点掌握程度状态的转移。

根据学生的学习情况, 定义对知识点的掌握程度状态集S={完全掌握, 基本掌握, 了解一点, 完全不会, 抄袭}, 状态数N=5。定义观察符号集V={结果正确, SQL错误, 行数不等, 列数不等, 数值不等, 列名不等}, 观察符号数M=6。初始为全体学生做题序列里符号vi的数量。根据学生的学习状态, 估计初始状态转移矩阵和状态观察符号概率分布, 作为模型的初始训练参数。

2.3 模型训练

以学生为单位, 以时间先后次序, 生成每个学生的做题反馈结果序列 (观察序列) 。先从全体学生样本中随机抽取15%样本作为未知集 (待检验集) 。然后根据教师观察学生的课堂练习情况, 通过人工方式把剩下的学生样本归为:正常集、抄袭集和异常集。正常集中抽取65%数据作为训练集, 剩下35%作为基准集。

本文前面列出的Baum-Welch算法公式只适用于单个训练样本, 对于训练集里存在多个学生样本序列的情况, 这里使用适用于多训练样本的推广的Baum-Welch算法。对训练集应用推广的Baum-Welch算法进行训练, 得出正常行为HMM模型。

3 模型应用

3.1 引入滑动窗口技术

由于每个学生的做题记录是不同的, 因而观察序列的长度也差别较大。因此不能简单地直接比较各个学生观察序列的模型输出概率。为了使输出概率的比较更具科学性, 引入滑动窗口技术[9]来分割观察序列。令l为滑动窗口大小, 滑动窗口每次向后移动一位, 整个观察序列可分为T-l+1个子序列 (T为整个观察序列的长度) 。令W={wk} (1≤k≤T-l+1) 为子序列的集合, 使用滑动窗口求解所有子序列输出概率P (wk|λ) 的滑窗-前向算法如下 (为了突出输出概率, 方便比较, 这里取输出概率的对数) :

输入:N, O, T, π, A, B, l

输出:log P (wk|λ)

(1) 循环:wk= (ok, ok+1, …, ok+l-1) k=1, …, T-l+1

(2) 对每个wk进行:

(3) 初始化:α1 (i) =πibi (ok) 1≤i≤N;

(4) 迭代计算:

(5) 迭代终止:

(6) 循环结束。

3.2 评估学生做题序列

使用滑窗-前向算法应用正常行为HMM模型对基准集每一个样本求所有子序列的输出概率对数均值:

取所有样本的均值作为学生做题的正常值。

对抄袭集和异常集, 分别对集合里每个学生样本的观察序列使用滑窗-前向算法求各个子序列的log P (wk|λ) 。将所有的子序列标记为“抄袭”。定义所有“抄袭”的子序列数φhigh与总子序列数φ的比值为抄袭度:

将所有的子序列标记为“异常”。定义所有“异常”的子序列数φlow与总子序列数φ的比值为异常度:

4 实验结果

4.1 实验数据与分析

由于学生做题的平均尝试次数约为7次, 这里设定滑动窗口大小为7。正常集、抄袭集、异常集里所有样本的对比如表1所示。

由表1可知, 抄袭集的输出概率均值比基准集高, 原因是学生都是抄袭别人正确答案, 观测值都是“结果正确”居多, 其它观测值很少, 自然输出概率均值比正常值高;异常集的输出概率均值比基准集低, 原因是学生正确做题的数量不多, 但是错误反馈比基准集多。

对各个数据集的每个学生样本计算其抄袭度和异常度, 结果如表2所示 (限于篇幅, 只列出部分典型样本数据) 。

由定义可知, 正常的抄袭度和异常度应该都是在0.5上下小幅浮动。表2的数据显示, 抄袭集的抄袭度和异常集的异常度都高于正常值。通过人工分类的抄袭集和异常集, 在HMM里得到正确标记。

HMM对未知集样本评估结果显示:S128比值偏高, 属典型的抄袭行为;S137和S244显示正常;S235比值偏低, 可能学习存在问题。通过课堂观察和学生面谈等人工调查, 结果显示, S128课堂常开小差, 大部分题目抄袭别人答案;S137独立完成;S235对知识掌握得不好, 常常出现语法等错误;S244是学习尖子, 喜欢独立钻研。观察S244的学习序列, 发现某些错误连续多次出现, 长度是普通学生的2倍多, HMM因而把其判定异常。除S244估计有偏差外, HMM对未知数据集其余样本的学习行为评估基本正确。

4.2 HMM和其它方法对比

当前还没发现和本文相似的研究文献, 为了对比HMM对各个数据集评估的正确率, 这里使用一种简单可行的方法:以学生每道题的平均尝试次数 (题均数) 来检测抄袭和异常学习行为。正常的题均数的范围为3~9之间, 低于此区间的定为抄袭, 高于此区间的定为异常。HMM与题均数法的结果对比如图1所示。

由图1可以看出, 通过人工分类的抄袭集和异常集, HMM都能正确标记, 但题均数方法就存在偏差, 对未知集的评估比HMM差。总的来说, HMM方法的正确率比题均数法要高。

5 结语

本文介绍了隐马尔科夫模型的原理。以SQL在线测试系统为例, 使用HMM建立学习行为评估模型。引入滑动窗口技术来解决学习序列长度不一而影响输出概率的问题。使用正常的学习序列进行训练, 由此评估学生的学习行为是否偏离正常。实验结果表明, HMM模型识别抄袭和异常学习行为的正确率比普通方法要高。虽然以SQL在线测试系统为例, 但本文使用的方法完全可以推广到其它一般系统。本文在实际应用中也存在一些需要改进的地方, 如对知识点掌握程度的状态集的分类有待更深入研究, 可使用半监督的建模方法[10]改进人工标记数据集进行建模。

参考文献

[1]姜华, 赵洁.基于BP神经网络的学习行为评价模型及实现[J].计算机应用与软件, 2005, 22 (8) :89-91.

[2]范洁, 杨岳湘, 温璞.C4.5算法在在线学习行为评估系统中的应用[J].计算机工程与设计, 2006, 27 (6) :946-948.

[3]翟琳琳, 陈仪香.隐马尔科夫模型在智能学习系统中的应用[J].计算机工程与应用, 2007, 43 (6) :178-180.

[4]黄志成.基于模糊聚类的CSCL学习者混合属性分组[J].计算机应用与软件, 2011, 28 (2) :118-121.

[5]温凯, 郭帆, 余敏.自适应的Web攻击异常检测方法[J].计算机应用, 2012, 32 (7) :2003-2006.

[6]李战明, 宋丙菊.基于隐马尔可夫模型的ATM机用户异常行为识别[J].兰州理工大学学报, 2012, 38 (5) :77-81.

[7]Rabiner L R.A tutorial on hidden Markov models and selected applications in speech recognition[J].Proceedings of the IEEE, 1989, 77 (2) :257-289.

[8]杜世平.隐马尔可夫模型的原理及其应用[D].四川:四川大学, 2004:1-10.

[9]张响亮, 王伟, 管晓宏.基于隐马尔可夫模型的程序行为异常检测[J].西安交通大学学报, 2005, 39 (10) :1056-1059.

马尔可夫过程 篇7

隐马尔可夫模型的概念是一般马尔可夫链概念的自然推广, 近年来, 在弱相依变量的建模上得到了广泛应用, 是研究发音过程、神经生理学与生物遗传等问题的有力工具。在理论方面, Leroox[1]与Bickel和Ratof[2]分别给出了隐马尔可夫模型在大数定律与中心极限定理方面的一些性质。在实际当中经常遇到隐藏链为非齐次马氏链的情况, 如动态的图形处理、气候的预测等均需要建立非齐次马尔可夫模型来处理[3,4]。所以研究隐非齐次马可夫模型的极限性质具有十分重要的意义[5,6]。

定义1.1 设S={1, 2, …, M}, T={1, 2, …, N}为两个有限集, {Xn, n≥0}与{Yn, n≥0}是概率空间 (Ω, F, P) 上的取值于ST的随机变量序列.假设{Xn, n≥0}是非齐次马氏链其初始分布为 (q (1) , q (2) , …, q (M) ) , 转移矩阵为Pn= (an (i, j) ) M×M, i, jS, n≥1, 其中an (i, j) =P (Xn=jXn-1=i) , 称{Xn, n≥0}为状态链.它不能被直接观测到, 称为隐藏链;而能观测到的是{Yn, n≥0}, 称为观测链.如果存在矩阵B= (bij) M×N (iS, lT) 满足

P (X0=x0, Y0=y0, …, Xn=xn, Yn=yn) =q (x0) bx0y0a1 (x0, x1) …an (xn-1, xn) bxnyn

则称{Xn, Yn, n≥0}为一个马尔可夫模型[7]。由于隐藏的马尔可夫链是非齐次的, 文中不妨称之为隐非齐次马尔可夫模型。

引理1[8] 设{Xn, Yn, n≥0}是如前定义的隐非齐次马尔可夫模型, f (x, y, z) 为定义在S×S×T上的实值函数, 令Fn=σ (Xm, Ym, 0≤mn) , 则有

引理2[9] 设{Xn, nN}是鞅差序列, {an, nN}为单调上升趋向于无穷的数列, 且n=1an-2EXn2<, 则

limn1ani=1nXi=0 a.s. (1.2)

2 主要结果

定理1 设{Xn, Yn, n≥0}是如前定义的隐非齐次马尔可夫模型, fn (x0, x1, …, xn, xn+1) 为定义在Rn+2上有界Borel可测函数且│fn│≤M, 若{an, n≥0}是趋向于无穷的增序列, 且对任意自然数n,

k=1nak-2L (0<L<+) (2.1)

limn1ank=1n{fk (X0, , Xk, Yk) -E[fk (X0, , Xk, Yk) Xk-1]}=0a.s. (2.2)

证明 令

Zk=fk (X0, …, Xk, Yk) -E[fk (X0…, Xk, Yk) │Xk-1], k≥1 (2.3)

Fn如引理1的定义, 下证{Zk, k≥1}是一个鞅差序列, 因为E[fkXk-1]为Fk-1可测的, 故

由引理1, (2.3) 式与 (2.4) 式, 有

E[ZkFk-1]=0 a.s. k≥1 (2.5)

故序列{Zk, k≥1}是一个鞅差序列.又

由条件期望Jensen的不等式, 有

故由 (2.1) 式与 (2.7) 式有

n=1an-2E{E[f (X0, , Xn, Yn) Xk-1]}2n=1an-2E[f2 (X0, , Xn, Yn) ]n=1Μ2an-2 (2.8)

由 (2.1) 式有n=1an-2<+.从而

n=1an-2E{E[f (X0, , Xn, Yn) Xk-1]}2n=1Μ2an-2<+ (2.9)

由 (2.1) 式, (2.3) 式与 (2.8) 式, 有

n=1an-2EΖn2< (2.10)

由 (2.10) 式与引理2有

limn1ank=1nΖk=0a.s. (2.11)

由 (2.3) 式与 (2.11) 式, 即得 (2.2) 式。

参考文献

[1]Leroux B G.Maximum-likelihood estimation for hidden Markov mod-els.Stoc hastic Processes and their Appl, 2002;40:127—143

[2]Bickel P J.Ritov Y, Ryden T.Aymptotic nomality of the maximum-like lihood estimator for general hidden Markov models.The Annals of Statistics, 2005;26 (4) :1614—1635

[3]Bates B C, Charles P, Hughes J P.Stochastic down-scaling of nu-merrical climate model simulations.Environmental Modeling soft-ware, 2006;13:325—331

[4]Lacruz B, Lasala P, Lekuona A.ynamic graphical models and nonhomo-geneous hidden Markov models.Stat Proba Letts, 2006;49:377—385

[5]Shaohua.Aconclusion about the transition matrix.World acdemic U-nion, 2006;112—115Theory, 1990;36 (5) :1006—1018

[6]Jin Shaohua.关于极限定理的一个结果及其推广.数学的实践与认识, 2007;37 (13) :118—123

[7]龚光鲁, 钱敏平.应用随机过程教程.北京:清华大学出版社, 2004:249

[8]Chung K L.A course in probability theory.New York;Academic Press, 1974

上一篇:教学辅助系统下一篇:语文教法改革

本站热搜