随机时间序列分析模型

2024-09-13

随机时间序列分析模型(精选9篇)

随机时间序列分析模型 篇1

摘要:工作流Petri网的时间性能分析方法有多种, 本文采用加入时间因素的扩展马尔可夫链, 建立与随机Petri网同构的有穷马尔可夫链, 再根据此过程的稳定概率求解系统的性能参数。

关键词:工作流,Petri网,时间性能分析,马尔可夫链

工作流模型的时间性能分析是工作流研究的重要内容之一, 也是分析资源利用率、成本等指标的基础。目前, 大多数实用的工作流应用系统, 在业务流程的性能分析上, 几乎未给出适合各种工作流模型的有效方法。工作流除了正确性之外, 还要关心它的性能分析, 而这一点又往往被人们所忽视。工作流性能分析主要反映工作流定量方面的特性, 比如过程的完成时间, 资源利用率等等。定量分析模型之前须确认模型的正确性, 即保证模型在业务流程和逻辑结构上没有错误且是合理的。传统的基于马尔可夫链的性能分析方法[1]具有指数时间复杂性, 影响了其实用性。对给定的工作流, 可以生成一个马尔可夫链, 利用它可以分析工作流的某些方面, 而且马尔可夫链的分析[2]非常耗时 (即使是对本来不难处理的问题) 。但是, 根据实际应用可以通过成本或时间的引入来扩展马尔可夫链, 就能获取一系列性能指标。

本文讨论加入时间因素的扩展马尔可夫链, 根据被评价的随机Petri网工作流模型构造出连续时间的马尔可夫链, 即随机模型[3], 对其进行时间性能分析。

1 基本概念

1.1 工作流网

对工作流的控制流建模的Petri网被称作工作流网 (WF-net) , 是Aalst在Petri网的基础上提出的概念。

1.2随机Petri网

随机Petri网 (SPN) :一个连续时间SPN是一个六元组SPN= (P, D, F, W, M0, λ) , 在Petri网基础上, λ={λ1, λ2, …, λm}, 是变迁平均实施速率集合。

在连续时间SPN中, 一个变迁t从变成可实施的时刻到它实施时刻之间的延时被看成一个连续随机变量, 服从以λ为参数的指数分布。λ是变迁t的平均实施速率, 表示在可实施的情况下单位时间内平均实施的次数, 单位是次数/单位时间。平均实施速率的倒数1/λ称为变迁ti的平均实施延时或平均服务时间。

1.3工作流-随机Petri网的定义

工作流-随机Petri网 (WF-SPN) 是在随机Petri网 (SPN) 和工作流网 (WF-net) 的基础上提出的, 目的是将随机触发时间引入工作流网, 使模型具有分析时间性能的能力。

WF-SPN是SPN的真子集, 可递归定义为:由一个基本结构组成的SPN是WF-SPN。WF-SPN满足如下性质: (1) 有一个初始库所i∈P, ·i=φ; (2) 有一个终止库所0∈P, o·=φ; (3) 每个节点x∈P∪T都在从I到o的一条路径上。

2 工作流-随机Petri网时间性能分析

基本Petri网模型不能用于系统的性能评价, 必须对其扩展。可以在每个变迁的可实施和实施之间联系一个随机的时间延迟。应用随机Petri网对系统评价时分三步:1) 构造系统对应的随机Petri网模型。2) 构造出该Petri网所同构的马尔可夫过程。3) 基于马尔可夫过程的稳定概率求解系统的性能参数。

工作流-随机Petri网和一般工作流网的区别:在变迁中引入平均实施速率λi, 每个λi值是从对所模拟系统的实际测量中获得或根据某种要求的预测值, 它们具有实际意义。

定理1[4]任何具有有穷个库所、有穷个变迁的连续时间的随机Petri网同构于一个一维连续时间的马尔可夫链。K-有界的随机Petri网同构于有穷马尔可夫链。

假定一个工作流随机网同构于一个马尔可夫链, 那么工作流随机网的每一个标识可以达到一个动态平衡状态, 即每一个标记有一个确定的值, 称为标记Mi的稳定概率, 记为P (Mi) , (i=1, 2, ..., k) 。根据马尔可夫链平稳分布的有关理论, 得出如下的公式[5]:

其中Q为变迁速率矩阵, 其非对角线上的元素qi, j (i≠j) 是这样确定的:如果在马尔可夫链中从Mi到Mj有一条有向弧连接时, qi, j为弧上的速率值;如果没有弧, 则qi, j (i=j) 是从Mi发出的各条弧速率之和的相反数。将工作流随机网同构为马尔可夫链之后, 利用公式 (1) , 可以解出P (Mi) 的值。由此可以得出工作流模型的一些系统特性和运行特性。

生成一个工作流网的可达图是实现从工作流网到马尔可夫链转换的关键, 但要确保工作流网模型是合理的。工作流网是合理的, 那么工作流随机网必定有界, 该网就可以同构于一个有限的马尔可夫链, 保证了计算的可行性。具体的分析步骤如下:

(1) 从工作流随机网的定义可以看出, 它是工作流网的一个特例。由于任何一个合理的工作流网必将结束于标识 (0, 0, ..., 0, 1) , 也就是在马尔可夫链中该结束标识的稳定概率为1, 其他标识的稳定概率均为0。这样就不能用来分析其性能, 原因是工作流网仅执行一次。因此要将一个工作流网执行多次, 然后得出每个标识的稳定概率。现有的工作流网模型不能反映这一特性, 在文献[6]中提出在库所o和库所i间增加一个瞬间变迁t*, 并连接库所o和变迁t*, 连接变迁t*和库所i, 由于变迁t*是不需要时间的, 实际上标识 (0, 0, ..., 0, 1) 是不存在的。因此, 可以考虑将库所o映射为库所i, 也就是将库所o和库所i合并, 这样在不额外增加变迁的基础上, 也能反映工作流网可任意次执行的特性, 得出的标识稳定概率可用于分析工作流的性能。因此这一步要完成的任务就是将库所i和库所o合并。

(2) 接着要生成可达图。首先可以先生成一个可达树, 再将可达树转换成一个可达图。

(3) 计算Q矩阵的值。在马尔可夫链中, 当从状态Mi到状态Mj有一条弧相连时, 则弧上标注的值即是qi, j的值;如果从状态Mi到状态Mj没有弧相连时, 则qi, j=0。对角线上的元素qi, j (i=j) 是从Mi发出的各条弧速率之和的相反数。证方法[7], 可以得出结论, 图1模型是的马尔可夫链, 保证了计算的可行性。⑴在库所o和库所i之间增加一个示的改进模型。反映工作流网可任意次

根据公式1得到稳定概率P (Mi) 的值;在求得稳定概率的基础上, 可进一步分析系统的以下性能指标, 如变迁的标记流速, 子系统的平均延时时间等, 具体可参考文献[5]。的性能。⑵生成可达图, 得出图2所示的

(1) 在每个状态M中的驻留时间:在每个可达标识M∈[M0>的驻留时间是以-γi, i为参数的一个指数分布的随机变量, 平均均

(2) 标记概率密度函数:在稳定状态下, 每个库所中所包含标记数量的概率。对, ∀s∈S, ∀i∈N令P{M (S) =i}表示库所s中包含i个标记的概率, 则可从标识的稳定概率求得库所s的标记概率密度函数: , 其中Mj∈[M0>且Mj (s) =i.

3 实例分析:

本文以ASP平台进销存系统为例对其过程模型进行时间性能分析。此系统的简化过程模型见图1所示, 库所集合P= (p1, p2, …, p6) , 变迁集合T= (t1, t2, …, t5) 。其中变迁标识和含义:标识t1代表客户下订单, 即当收到客户的订货信息就触发变迁t1, 实施创建销售订单的任务;t2表示检查库存, 若当前库存能满足订单需求, 则实施p2分支, 否则实施p3分支;t3代表采购;t4表示出销售单;t5代表出货。标识i是库所开始, o表示库所结束。

因为要采用工作流随机Petri网来分析工作流, 首先要确保模型是合理的, 通过分析验证方法[7], 可以得出结论, 图1模型是正确的、合理的。通过定理1, 该网同构于一个有限的马尔可夫链, 保证了计算的可行性。如前文所述, 对工作流随机Petri网的分析步骤如下:

⑴在库所o和库所i之间增加一个瞬间变迁t*, 将库所o和库所i合并, 形成图2所示的改进模型。反映工作流网可任意次执行的特性, 得出的标识稳定概率可用于分析工作流的性能。

⑵生成可达图, 得出图2所示的工作流网的可达状态标识, 可用表1来表示。将图2所示的工作流Petri网转换成与其等价的马尔可夫链, 见下图3。

⑶Q为变迁速率矩阵, 根据前文计算规则, 得出图3马尔可夫链对应Q矩阵的值见表2

一旦给出λ的具体值, 就可以根据公式 (1) 得到稳定概率P (Mi) 的值。根据对实际问题的预测, 该网中的变迁引入平均实施速率λi。给定随机变量集合λ={λ1, λ2, λ3, λ4, λ5, λ*}={2, 5, 20, 3, 15, 0}。得到P (Mi) ={0.2498, 0.2145, 0.2237, 0.187, 0.1250, 0}。在求得稳定概率P (Mi) 的基础上, 就可以得出上文中提到的工作流网的其他性能指标标

4 结语

本文采用加入时间因素的扩展马尔可夫链对被评价的随机Petri网工作流模型, 首先构造出相应的连续时间的马尔可夫链, 再根据此过程的稳定概率对其进行时间性能分析。通过实例分析得出:此方法是有效、可行的, 对同类问题的分析和评价具有一定的参考价值值

参考文献

[1]王建民, 闻立杰, 等, 译.工作流管理—模型、方法和系统[M].北京:清华大学出版社.2004.

[2]曲扬.基于Petri网的工作流建模和分析方法研究.清华大学学位论文.清华大学, 2004.

[3]卫刚.基于Petri网的工作流建模工具的研究与实现.南京航空航天大学学位论文.南京航空航天大学.2005.

[4]林闯.随机Petri网和系统性能评价[M].北京:清华大学出版社.2000.

[5]林闯.计算机网络和计算机系统的性能评价[M].清华大学出版社.2002, 1:3~202.

[6]Lin C, Marinescu D C, Reachability trees for high level Petri nets with marking variables, Computer Sciences Department, Purdue University, CSD-TR-857, February1989.

[7]沈美.基于高级Petri网的工作流建模研究与仿真分析.计算机工程与应用.2006, 42 (32) :200~203.

随机时间序列分析模型 篇2

关键词 财务管理;违约预测;实证分析; 贡献度随机森林; 连续属性离散化; WOE变换

中图分类号 F224 文献标识码 A

Abstract The contribution forest model(CRF) was used to research the inner connection between the corporate bonds and its financial index ratio,. The method of discretization and WOE transformation were applied to reduce the dimension of these indexes. The results show that the CRF model's performance significantly outperforms the other models, and the performance of the model on test dataset reaches a accuracy of 90.47%. And the other assessment indexes,AUC statistics, AR ratio and K-S values, are improved by 2.6%, 7.6%, 4.38%. Furthermore, the contribution of variables evaluated its influence on probability of default in a quantitative way, which provides a new point of view to interpret the process of forecast of random forest.

Key words financial management; default prediction; empirical analysis ; contribution andom forest model; discretization; WOE transformation

1 引 言

随着金融体系的快速发展,金融市场不断实现快速迭代不断更新,取得显著成就的同时,危机事件却频出不穷.2016年以来国内先后出现多起银行危机事件,先后有中国农业银行39.15亿元票据案件、中信银行9.69亿票据案件、天津银行7.86亿票据案件.上述危机之所以爆发,一个重要原因就是风险管理不当.而信用风险作为Basel新资本协议所强调的重要风险之一,由于其复杂多变,对信用风险的识别、计量往往面临更大的挑战.如何对借债企业的信用风险进行评估、预判其违约概率是信用风险管理的重点内容.因此,建立科学有效的信用风险评估模型,无论是对商业银行增强抵御风险能力,还是对企业管理者宏观审慎的战略决策均有显著意义.

从信用风险的现有研究成果来看,方法体系多分布于传统的统计分析方法、定性评级法、基于期权理论以及现代数据挖掘类方法.其中,最早研究开始于Altman(1968)[1], 认为企业违约可能性的大小与其财务健全与否有直接密切联系,选择五个重要的财务比率,建立了区别倒闭公司与非倒闭公司的Altman模型.Deakin(1972)[2]认为,己经破产、无力偿还债务的公司容易发生信用风险.由于我国目前信用评级机构尚不完善,信用评级数据严重缺失,国内关于企业信用风险的研究多从财务数据中提取特征指标建立相应信用评价模型.Prinzie(2008)[3]将随机森林方法与logistic方法相结合,利用随机森林的构造决策树的思想构建logistic决策森林,提高了logistic模型的估计精度.Yeh等(2012)[4]利用实际金融市场数据,基于KMV模型、随机森林方法、粗糙集理论构建混合KNV-RF-RST模型,评价企业信用风险问题.张奇等(2015)[5]构建了Logit-SVM混合评价模型,提高了模型在训练集上的二分类预测能力.Cui (2015)等[6]充分利用社交媒体大数据,结合BP神经网络模型,构建现代商业银行信用风险评价模型,拓展了传统的信用风险研究指标选择方式.上述研究从不同角度充实了信用风险评价研究,但多数研究都注重模型精度的提高,而忽略了在提高模型精度的同时增加模型的解释能力.如何改进已有的学习算法,在提高模型精度的同时也保证模型的解释能力、量化评估指标的贡献度.基于此,本文采用最优分箱(Optimal Binning,OB)和证据权重变换(Weight Of Evidence,WOE)对数据集进行转变进一步提升模型预测精度,并提出贡献度随机森林(Contribution Random Forest,CRF)方法分解预测函数,在提升预测性能同时也提升了传统RF模型的解释能力.

2 贡献度随机森林模型构建

2.1 随机森林原理回顾

随机森林是Breiman(2001)[8]提出的一种组合分类算法.随机森林通过随机的方式建立多个决策树,利用bootstrap抽样方法从样本数据中抽取k个bootstrap样本Si(i=1,2,…,k),再每次从原始M个自变量中选择n输入变量(nM),由被选择的n个自变量构成随机特征输入向量X,并利用分类回归树(CART)算法建立相应无剪枝的元决策树分类器,最后利用这k个元分类器构成一个组合分类决策系统,最终采用简单投票法做出最终预测.

2.2 连续属性离散化与WOE变换

原始随机森林算法模型虽然分类精度高,但计算负荷大、评估速度慢,在数据集指标维度过大时这一点尤为明显.而对于采用信息熵、Gini指数作为节点分裂标准的随机森林而言,在决策树的生成过程中倾向于选择取值分布广的连续变量,无法有效处理连续变量属性,而通过离散化连续变量,恰可以消除这一影响.根据Fayyad和Irani(1993)[10]的基于熵的连续变量离散化最优分箱方法,以下简称最优分箱(Optimal Binning,OB),其原理和步骤如下:

(5)对分割后的左右子集,重复上述步骤,直至达到最大分组数K.

通过对连续变量进行OB分箱,一方面约束了连续变量的取值维度,使得各变量之间利用信息增益、Gini指数作为节点分裂标准有了可比性,且在一定程度上避免了极端值的影响;另一方面变量取值的降维大大降低了算法的开销.在上述连续变量分箱后,相当于若干个虚拟变量,这就导致原始数据集变量取值过于稀疏,因此需要对分箱后的数据进一步规约,考虑进行证据权重变换(Weight of Evidence,WOE) [10],对分箱后的变量进行重新编码.

从式(7)可以看出,CRF模型预测值可以分解为各决策树的初始决策值的平均值与各特征变量的平均贡献值之和.CRF模型虽然对随机森林对预测函数进行了分解,但最终对响应变量的预测结果和传统随机森林的投票法完全一致.

3 实证分析

3.1 数据准备与指标体系说明

选取发行公司债券的沪深上市公司作为研究对象,数据来源于WIND金融咨询终端,样本包括截止2016年8月1日已到期债券和已摘牌债券.由于企业的财务状况是企业经营现状的直接反馈,其信用风险亦可从财务指标角度考察,因此从财务指标比率的角度建立信用风险评价模型.参考中诚信、鹏元资信、大公国际等评级机构信用风险评价指标体系,结合刘畅[11]等提出的中小企业信用风险预警指标体系,从资本结构、盈利能力、偿债能力、营运能力、发展能力以及现金流量情况6个方面,遴选以下25项财务比率指标作为信用风险评估候选指标集,见表1.在研究样本中,剔除数据缺失严重的样本,最终初始样本量为230.在230只债券中,已发生违约的债券有28只,记为Bad类,正常债券202只,记为Good类.在数据时间截点选择上,选择债券违约发生前一年或被评级机构降级前一年的财务数据,以此达到建模预警目的.由于现有样本Bad类样本过少,为平衡样本结构,对于债券或主体评级为BBB以下、债券(主体)评级或评级展望被连续降级的也归为Bad类,最后利用SMOTE[12]方法选择每个Bad类样本临近的5个样本合成部分Bad类样本,最终Bad类样本为166.

3.2 模型设定

设定训练集与测试集比例为7:3,分别设定随机森林中元分类器数量为100、200、300、400,设定候选特征数的变化范围为2-25,训练集中各模型的OOB误差如图1所示.

在n=100,候选特征数为 8时,OOB误差达最小值为0.0702;在n=200,候选特征数为 4时,OOB误差达最小值为0.0742;在n=300,候选特征数为 4时,OOB误差达最小值为0.0661;在n=400,候选特征数为 3时,OOB误差达最小值为0.0713 .综合来看,随着模型训练次数的增加,OOB误差逐渐收敛于稳定水平,过高的训练次数范围反而增加计算负荷,而候选特征数不宜过大或多小,因此设定模型元分类器数量为300,候选特征数为4.在实施最优分箱过程中,对连续变量的分组数不宜过大也不宜过小,过大则无法达到降维的目的,过小则区分度不足.设定每次划分带来的信息增益最小阈值为0.01,最大分组数K的变动范围为3—10,不同分组条件下,随机森林模型的准确率情况如表2所示.当分组数等于3时,模型的准确率最低;当分组数等于5或6时,准确率达最大;当分组数大于6时,准确率开始下降.因此,设定最大分组数为5或6为宜,为减小计算负荷,此处设为5.

3.3 模型比较

经过前述OB-WOE变换、预测函数贡献度分解,即得变换后的CRF模型,为评估最优分箱WOE变换对其他模型影响,考察决策树、支持向量机、logistic回归、贝叶斯分类、KNN最近邻分类以及神经网路在最优分箱WOE变换下的预测表现,如表3所示.

在实施最优分箱WOE变换的训练集中,随机森林对Good类样本的准确率为98.39%,相比不变化情况上升了6.07个百分点;对Bad类的准确率为98.17%,上升了8.5个百分点.在测试集中,变换后的数据集对Good类样本的准确率为91.80%,对Bad类的准确率为89.13%,分别上升了2.5、6.5个百分点.由此可见,无论是对于训练集还是测试集,对于随机森林分类方法而言,OB-WOE变换后的数据集能显著提升模型分类效果.对于其他模型而言,提升效果较为明显的是logistic回归、神经网络.其中,logistic回归对于Good类的预测能力的提升效果尤为明显,训练集中由76.45%上升到90.32%,测试集中由76.82%上升到86.36%.对于神经网络而言,无论是测试集还是训练集,其Good类准确率和Bad类准确率都上升了10个百分点以上.究其原因,最优分箱本质是对数据集的一种规约,通过降低自变量取值维度来提炼各样本之间的共性,故对于分类评估模型而言,最优分箱后的数据往往更能提升分类效果.模型准确率只是模型评估的一方面,为综合评估一个信用风险评价模型,还需要从ROC曲线、K-S曲线、CAP曲线等角度综合度量.

3.4 模型总体效应评估

考虑到准确率只是评估模型优劣的一种方法,在信用风险评估研究中还经常从ROC曲线、CAP曲线及K-S曲线三个角度考察模型的曲线性质.其中,ROC曲线是在混合矩阵基础上利用图形综合揭示模型预测的灵敏性和误报率的一种方法,横轴表示误报率(模型错误预测的Bad类占比总Good类比率),纵轴表示灵敏性(模型正确预测到Bad类占比总Bad类比率).CAP曲线又称累计正确率曲线,CAP和准确性比率(AR)通常广泛用于信用评级领域,通过模型为受评对象计算一个风险评分,将风险评分作为其信用的综合评价,评分越高风险越大,通过求得不同风险评分范围百分比下累计违约的概率部分来刻画CAP曲线.K-S曲线是对模型区分Good类样本和Bad类样本的另一种评估方法,利用评估模型为每个研究样本计算一个违约概率,再将所有样本进行K等分分割,对每部分样本按照违约概率大小进行降序,计算每个样本中违约与正常百分比的累计分布,二者之间的差异就是K-S曲线的构成要素.

如图2所示,从各模型的测试集的ROC曲线来看,在误报率在0.05左右时,变换后的CRF模型对Bad类的覆盖率已达到92%,AUC统计量达0.943,而不变化的CRF模型模型对Bad类的覆盖率约88%,AUC统计量统计量为0.917.对于其他模型,变换前后效果也很明显,其中神经网络模型的AUC统计量有0.653提升到0.872,在误报率为0.1时的覆盖率由0.38左右提升到0.8.综合来看,实施变换后,各模型的优劣次序依次为随机森林、SVM、KNN、神经网络、logistics回归、贝叶斯、决策树,与测试集准确率评估结果基本一致.从各模型的CAP曲线来看,在前40%左右的样本,变换后的CRF模型的CAP曲线贴近理想结果,其AR比例为0.891,不变换的CRF模型的CAP曲线与理想结果有一定差距,最终其AR比率为0.815,说明进行最优分箱变换能提高模型对Bad类的辨识度.从K-S曲线来看,变换后的模型,其K-S值达到0.8204,而不变换的CRF模型其K-S值为0.776 6,处于较高水平,进一步说明进行连续变量的OB-WOE变换能提升模型的分类性能.

3.5 变量重要性与变量贡献度比较

根据式(7)建立变换后的CRF模型,以“11超日债”2013年年度财务数据为例,评估其变量贡献度,并对比随机森林方法下的变量重要性. 在变量贡献度分析方法下,各变量变量贡献度之和为0.802,即说明划分为Bad类的概率为0.802,从而可以认为其风险较高.评级机构在超日债违约后才将其信用等级下调至C级,在某种程度上有一定时滞.而根据变换后的CRF模型,基于“超日债”发债主体2013年年度财务指标数据可判断其违约概率为0.802,在判别“11超日债”为违约过程中,各变量的变量变量贡献度如表4所示.

由(7)式可知,在判断“11超日债”为Bad类过程中,贡献度排在前5位的变量与变量重要性排在前5位的变量重复率为40%;贡献度排在前10位的变量与变量重要性排在前10位的变量重复率为60%;贡献度排在前15位的变量与变量重要性排在前15位的变量重复率为73%;贡献度排在前20位的变量与变量重要性排在前20位的变量重复率为85%.其中吻合度较高的变量为EBITtoSaale、Asset_TR、Gro_profit、TAtoD_R、AR_TR;差异较大的变量为Z_Value、Inventory_TR、EM、LDA_R.这是因为变量重要性是对全部样本共性的提炼,旨在说明在各变量在总体数据集的表现情况,多用于从大量指标中选择有作用的变量;而变量贡献度侧重评估对象个性的描述,旨在说明在判断其为Good类或Bad类过程中,哪些变量发挥的作用相对明显,可用于个体分析判断.从贡献度来看,ROE的贡献度最大,说明从ROE角度相对最能说明超日债的风险情况,其次是EBITtoSaale、GropToRev、NetPro_M等等,这也与实际的财务分析理念一致.企业长期经营战略必须提升其ROE,ROE过低则自有资产利用效率低,偿债压力增大.此外,还注意到贡献排名前12的变量中,其WOE值均为正,说明该分组子集中负例占比总负例的比率大于集中正例占比总正例的比率,即落入该分组的个案更多体现Bad类别的特征.结合 “11超日债”实际财务数据来看,其ROE为-1169.6,EBITtoSaale 为-793.56、GropToRev为-64.317、ROA为-65.783等均远低于平均水平,而其Z_Value为-3.34,远远低于Altman的破产概率预警阈值1.8[1],从而上述指标在 “11 超日债”的判别过程中区分能力强,对违约率影响显著.

因此,从预测结果分解的维度上来看,CRF模型是对预测过程的一个分解,将“黑盒”的决策过程还原为各变量的贡献度之和,进而衡量在预测过程中哪些变量发挥的作用相对明显,再从财务分析角度予以对比印证,在个案分析层面增加了模型的可解释性.

4 结 论

针对传统随机森林方法的“黑盒”弊端提出贡献度随机森林方法,通过变量贡献度视角研究了财务指标与违约率的关系.利用对数据集进行基于熵的最优分箱处理、WOE变换实现数据集约简目的,并进一步构建CRF模型评估变量在个案预测过程中的贡献度,实现预测过程的可解释性,最后基于ROC曲线、CAP曲线、K-S曲线对模型进行评估.经对比分析,实施最优分箱、WOE变换能有效提升各模型的准确率,但仍属CRF模型准确率最高,达90.47%.相比不变换的CRF模型,其AUC统计量、AR比率、K-S值分别提升了2.6%、7.6%、4.38%.在“11 超日债”单个样本评估分析中,变量贡献度和指标重要性排在前5、10、15、20位指标的重复度分别为40%、60%、73%、85%,两种评估方式一致程度高.变量贡献度排名靠前的指标均对违约率影响显著,通过变量贡献度角度分解了随机森林预测过程,量化各项指标的影响大小,增加了模型的可解释性.

参考文献

[1] Altman E I. Financial Ratios, Discriminate analysis and the prediction of corporate bankruptcy[J].Journal of Finance,1968, 12(23):589-609.

[2] Deakin E B. A discriminate analysis of prediction for business failure[J]. Journal of Accounting Research,1972, 14(10):167-169.

[3] Prinzie A, Van den Poel D. Random forests for multiclass classification: Random multinomial logit[J]. Expert systems with Applications, 2008, 34(3): 1721-1732.

[4] Yeh C C, Lin F, Hsu C Y. A hybrid KMV model, random forests and rough set theory approach for credit rating [J]. Knowledge-Based Systems, 2012, 22(33):166-172.

[5] 张奇, 胡蓝艺, 王珏. 基于Logit与SVM的银行业信用风险评价模型研究[J]. 系统工程理论与实践,2015, 10(7):1784-1790.

[6] Cui D. Financial credit risk warning based on big data analysis [J]. Journal of Accounting Research , 2015, 8(10):133-141.

[7] 李军,信聪,陈暮紫,杨晓光. 诉讼处置不良贷款违约损失率估计的模型簇[J].系统工程,2015, 11(08):123-132.

[8] Breiman L. Random forests[J].Machine Learning,2001, 45(1):145-168.

[9] Fayyad U M, Irani K B. Multi-interval discretization of continuous valued attributes for classification learning[J]. Thirteenth International Joint Conference on Articial Intelligence, 1993, 12(2):1022-1027

[10]Bill H Y, Mykola T . Modeling exposure at default and loss given default: Empirical approaches and technical implementation [J]. Journal of Credit Risk, 2012, 8(2):81-102

[11]刘畅, 郭敏, 莫铌, 等. 基于巴塞尔协议Ⅱ内部评级法构建我国商业银行中小企业贷款信用风险有效度量和预警指标体系[J]. 金融监管研究, 2012, 12(7):26-39.

随机时间序列分析模型 篇3

近年来, 随着科学技术的迅速发展, 各生产系统的结构日益复杂化, 各种高精度、 集成化设备广泛应用于生产线。企业间的竞争越来越激烈,生产系统的复杂性、随机性使得生产线的维护难度不断提升,维护成本和强度随之加大,合理的维护策略对获得良好生产效益起着至关重要的作用。

目前国内外关于生产线维护策略的研究成果很多,主要分为基于状态的维护和基于时间的维护两种形式[1]。 基于状态的维护是在设备检测技术迅速发展的基础上实现的,通过检测设备的状态来判断其出现故障的概率,确定实施方案,使损失降到最低。传统的基于时间的维护多采用固定维修周期, 这样的方式操作简单,维护人员和备件都可以做事先安排。 随着神经网络与模糊系统理论与技术的发展,基于神经网络与模糊逻辑的自适应控制系统得到了广泛应用[2,3,4,5]。 徐昕等人[6]对基于MDP动态系统学习控制理论、 算法与应用的发展前景进行综述。 起初研究人员用离散的Markov链描述设备维护调度模型, 之后,Gharbi等人提出用连续Markov链描述设备寿命的维护结构,通过控制设备生产率和预维修率使目标函数达到最优化[7]。 Jin等人[8]利用马尔可夫决策过程描述设备维修或替换等维护活动的概率转移函数,得到一个生产系统的预防性维护优化模型。 陈静静提出利用MDP模型同时考虑劣化故障和随机故障两种故障类型, 制定针对单台设备工作排序、 清洗和维修的长期维护优化策略[9]。 以上关于MDP模型的应用多采用固定式转移概率,在一定程度上反映了状态的变化过程。 根据生产实际可以考虑采用动态的转移概率反映不同状态下的状态转移情况。

本文将利用连续时间的MDP模型描述单台设备工作状态,充分体现生产实际中设备工作、维护的连续性,综合考虑转移概率和实施方案选择的动态性和随机性,利用MATLAB实现优化获取最佳维护周期。 在系统层维护中以混联结构为框架应用该模型, 对其实现优化仿真,验证其可行性。

1 连续时间的MDP模型

作为描述动态随机系统优化决策问题的一类基本数学模型,MDP模型通常用四元组{S,A,P,R} 表示, 其中S为状态空间,A为行为空间,P为转移概率( 满足无后效性),R为回报函数,在一定意义上可以理解为目标函数。

定义行为策略 π 表示从状态集合S到行为选择概率的映射,即 π:S→P(a)。

1 . 1 离散空间的MDP

状态空间S(i),i=0,1,2…m代表设备所有可能状态的集合。行为空间A(i)表示系统处于状态S(i)时可采用的行为的集合,。转移概率P(i,j,a)表示任一时刻t,系统处于状态S(i),选用方案a∈A(i)后,在t+1时刻转移到状态S(j)的概率。且P满足P(i,m j,a)≥0,。

1 . 2 连续时间的MDP

首先, 状态空间属于连续函数, 通常可以描述为如下连续时间系统最优控制问题:。

采用平稳策略 π 的值函数定义如下:

区间Bellman方程如下:

其中,r为回报函数,对于其积分即为目标函数。 需要寻找最佳 π 使Vπ(x)达到最优解。

实际生产系统中设备工作环境复杂, 设备的自身工作状态、 运转环境、 已维护次数等信息直接关系生产线的效益,合理的维护策略和预先安排能够有效降低因突发事件带来的巨大损失。 MDP模型能够形象地模拟不同维护策略对设备状态的影响。 对于整个生产系统,要获得最优维护策略, 首先需要研究每台设备的维护策略。本文利用连续时间的MDP模型研究单台设备维护策略, 然后研究在交货期、 在制品数和成品率等因素的综合影响下,系统层的维护策略。

2 单台设备维护策略

在生产实际中设备的工作状态具有连续性的特点,因此, 利用连续时间的MDP模型能够更加合理地模拟设备退化过程。 在连续时间的MDP模型中, 状态空间、行为空间均为连续空间,状态转移时间也是连续的。 本文将在此基础上进一步考虑转移概率的动态性和方案选择的随机性。 本文将设备的状态空间设定为连续空间,综合考虑设备自身运转状态、成品率、维修记录等因素, 利用连续函数拟合设备自然状态下的退化过程,实现设备整个生命周期中状态的连续性。

首先,根据生产实际数据拟合状态空间x(τ),0<τ≤m 。 x ( τ ) 是关于自然退化时间 τ 的连续函数, 表示设备的自然退化过程。 根据实际情况, 状态空间x(τ) 为递减函数。 随着时间的延续,当到达时刻m时设备将退化至某一劣化极限x(m), 状态x(m) 表示设备出现故障, 必须进行故障性维修。

行为空间u(t) 表示t时刻系统处于状态x(τ) 可采用的行为的集合。

且当x(τ)=x(m) 时u(t)=1, 当x(τ)<x(m) 时设备处于无法修复状态,停止工作。

状态转移矩阵P (i,j,a) 表示设备处于状态x (i), 采用方案a后, 设备状态转移到x(j) 的概率, 其中i,j∈τ。转移概率P(i,j,a)的随机性表现为:

且其满足如下关系:

方案选择概率g(a)表示到达维护时刻选择实施方案a的概率。 其随机性表现为不同时刻选择各方案的概率不同,即g(a)=g(t,a)。

r ( x ( τ ) , u ( t ) ) 表示设备处于状态x ( τ ) 时采用方案u ( t )获得的收益。 π(u(t))表示所采用的一系列维护策略, 即在每个维护时刻所采用的方案,目标即为寻找一个最优维护策略 π*(u(t))使效益最大化。 本文中维护策略 π 的选择由转移概率的动态性和方案选择的随机性体现。 在此基础上确定最优维护周期T,使目标函数达到最优解。

平稳策略的值函数:

Bellman方程:

若u(t)≡0 则设备状态变化过程为服从函数x(τ),即设备自然退化过程。 且有,若采用最优维护策略 π*(u(t)),则所对应的状态空间为x*(τ)。 目标即为寻找最优维护策略 π*(u(t))和最优维护周期T*使系统效益最大化。

假设维护周期为l,采用一定维护策略后, 单位时间产生的效益为h(t), 其与状态空间具有线性关系。 则一个维护周期内获得效益:

其中g(a) 表示选择方案a的概率,x(i) 表示设备所处状态。 最佳维护策略 π*即使效益最大化的维护周期T和实施方案a,π*=π(T,a1, a2, a3, … , an) , an∈a。

目标函数:

其中,u1、 u2分别表示设备进行一次预防性维修和故障性维修的费用,v1、 v2分别表示设备进行预防性维修和故障性维修的次数。

3 系统层维护策略

对于生产系统, 根据连接形式的不同各单台设备所得效益在系统层效益中反映的程度不同。 本文研究假设, 对于串联结构的效益, 以串联结构中效益最大的单台设备的效益作为评价标准。 并联结构的效益,以各单台设备效益之和为评价标准。

串联系统效益:

其中,S表示串联的设备总数,WSπ( l ) 表示维护周期为l时第s台设备所带来的效益。

并联系统效益:

其中,S表示并联的设备总数,Wiπ( l ) 表示维护周期为l时第i台设备所带来的效益。

在系统混联结构中, 将并联设备作为一个单元与串联设备一起作为串联结构考虑。

混联系统效益:

其中,S表示串联的设备总数,r表示并联单元的个数,Nrπ( l ) 表示维护周期为l时第r个并联单元的效益。

本文以混联结构为模型框架研究最优维护策略, 系统层维护策略模型满足max Qπ(l), 即获得能够使系统效益最大化的维护周期l和相应的各个周期的实施方案。

4 案例仿真

为验证模型的可行性和有效性, 本文采用以下算例进行分析。 如图1 所示,系统由5 台退化模型相同的设备组成,按统一周期进行仿真。 设备自然退化过程x(τ)通过拟合为8 次多项式,极限工作时间8 000。 一次故障性维修的费用u2= 5 000 元, 一次预防性维修的费用u1=1 000 元。 转移概率P ( i , j , a ) 的分布如下:

实施方案选择原则如下:

(1)当τ≤0.3m时,

(2)当0.3m<τ≤0.7m时,

(3)当τ>0.7m时,

利用MATLAB建模仿真获得如图2 结果。 由图2 可知,在此模型假设基础上,当维护周期为1 700 h时效益最大化。 维护周期较低时,频繁的维护会增加维护费用导致效益降低。 维护周期太大时,设备维护不及时,故障停机的概率增加,设备利用率下降,导致效益下降。

由图3 可知, 在设备运转初期(0<t<2 500), 当到达维护周期时选择正常运转(a=0)而不实施维护措施的概率为40% ; 在运转中期(2 500 <t <5 600), 选择预防性维护(a=1) 的概率为61% ; 在运转后期(t >5 600), 选择故障性维护(a=2) 的概率为54% 。 由此可知, 在设备运行后期随着设备可靠性的降低, 故障维修的次数增加,符合生产实际,证明方案选择假设可行。

本文以混联结构为框架应用此模型, 分析系统的设备利用率,与基于离散空间的MDP维护策略进行比较。如图4 所示,采用连续时间MDP模型下的平均利用率为0 . 992 48 , 采用离散MDP模型的平均利用率为0 . 987 22 。由此可知, 连续时间MDP模型下的维护策略能够有效提高设备利用率,从而在一定程度上提高效益,进一步证明基于连续时间MDP模型的维护决策的有效性和可行性。

5 结论

在生产实际中设备状态属于连续变化量,本文采用连续时间的MDP模型模拟设备状态连续变化过程下系统效益的连续变化过程。综合考虑生产实际因素,利用生产实际数据模拟设备自然退化过程,将连续变化的设备状态转化为效益的变化过程,以效益最大化为目标获得最优维护策略。系统层框架结构在基于连续时间的MDP模型下,将生产系统的现实因素融于控制条件,进一步控制维护策略,获得较为合理的维护策略。仿真结果显示,基于连续时间MDP模型应用于生产系统,可有效提高设备利用率和产量,改善系统性能,从而提高生产线效益。

参考文献

[1]吴洪飞.基于非齐次马尔可夫过程的多动作动态维护策略研究[D].上海:上海交通大学,2008.

[2]王振雷.模糊神经网络理论及其在复杂系统中的应用研究[D].沈阳:东北大学,2002.

[3]徐瑜,危韧勇.神经网络在控制系统中的应用现状及展望[J].电脑知识与技术,2006(5):178-179,187.

[4]徐英智.一种新型模糊神经网络及其在控制中的应用[D].西安:西安电子科技大学,2008.

[5]马俊伟.动态模糊神经网络在非线性系统中的应用研究[D].沈阳:东北大学,2010.

[6]徐昕,沈栋,高岩青,等.基于马氏决策过程模型的动态系统学习控制:研究前沿与展望[J].自动化学报,2012(5):673-687.

[7]GHARBI A,KENNE′J P.Maintenance scheduling and production control of multiple-machine manufacturing systems[J].Computers&Industrial Engineering,2005(48):693-707.

[8]JIN Y L,JIANG Z H,HOU W R.Optimal policy research on reliability-centered preventive maintenance for multicomponents equipment[J].Journal of Shanghai Jiaotong University,2006,40(12):2051-2056.

随机时间序列分析模型 篇4

【关键词】时间序列;中国人均GDP;ARIMA(p,d,q)

一、引言

2020年是中国建成小康社会的战略期限,人均国内生产总值最能反映出一国或地区的宏观经济运行状况及人民生活水平,中国人均GDP从2010年的30567元提高至2014年的46629元,扣除价格因素,五年间增长33.6%,年均实际增长7.5%。到2020年能否实现预期目标,人均GDP能达到多少,需要用一个时间序列模型来分析预测。时间序列模型优于计量经济模型之处在于,建立时间序列模型时不需考虑被研究变量以外的其他变量。另外,在20世纪80年代以前,建立经济计量模型时变量的非平稳性一直被忽视,而大多数经济变量往往是非平稳的。基于以上,本文利用1978—2014年人均GDP数据值,通过建立人均GDP的ARIMA模型,进行实证分析及预测,以期得到更好的宏观经济对策与建议。

二、数据准备

1.数据来源、平稳性检验及处理

本文以中国人均GDP历史数据(1978—2014年)为样本进行分析,原始资料来自国家统计局官方网站,人均GDP序列用Y表示。

对象确立后,首先对实际数据进行平稳性检验。从1978至2014年整个时期看, 人均GDP序列呈现出指数增长趋势, 具有明显的非平稳性,因此需要对数据进行平稳化处理。经过取对数处理后, 发现呈线性趋势的序列Y1仍然不是平稳序列, 再经过一阶差分处理后,序列Y2在均值附近大体平稳波动,已经没有明显趋势。进一步考察其自相关及偏自相关图,如图1所示,自相关图表明该序列有很强的短期相关性,则可以初步认为Y2具有一定的平稳性。

采用ADF方法进行单位根检验,Y2的单位根检验输出结果表明,在样本容量显著性水平为1% 、5% 、10% 时,t统计量的临界值分别为-3. 653730、-2. 957110和-2. 617434。Y2的ADF检验t统计量值为-3.779267,小于1% 显著性水平临界值,因此拒绝有单位根的原假设,说明了序列Y2在99%的置信水平上为平稳序列。

2.数据的白噪声检验

常用Q统计量来检验序列是否为白噪声,由图1知,Q(6)=28.322(0.000),Q(12)=30.450(0.002),Q(16)=32.225(0.009),括号中的数值为对应检验统计量的P值,则在显著性水平0.05的条件下,由于延迟6阶的卡方检验统计量的P值小于0.05,所以拒绝原假设,该差分序列不能视为白噪声序列。

通过以上分析得知,对人均GDP进行先取对数运算再进行一阶差分后的序列Y2是平稳非白噪声序列,可以开始建立ARIMA模型。

三、模型的建立与检验

1.模型的识别与选择

模型的识别通过自相关和偏自相关图来判别。采用AIC准则、SC准则、模型显著性检验及残差白噪声检验进行ARIMA(p,d,q)的选择,选取整体拟合效果较好模型作为最优模型。

对序列Y2进行自回归移动平均预估计,通过使用Eviews6.0软件不断模拟,最终得出相对较优的模型有 ARIMA(4,1,0)、ARIMA(1,1,(1,2,5))、ARIMA(1,1,(2,5))、ARIMA(3,1(1,4,5))。比较四个模型的输出结果,根据AIC与SC最小值原则,可知ARIMA(1,1,(2,5))模型相对最优,如果通过检验,ARIMA(1,1,(2,5))模型可以视为最优模型。

2.模型的检验

模型检验主要包括检验参数是否显著及拟合模型的残差序列是否为白噪声。对模型ARIMA(1,1,(2,5))进行参数估计,结果表明,模型的F统计量及参数的t统计量对应P概率值均为0,拟合模型的可决系数为0.76,检验结果说明参数全部显著有效。残差序列不同延迟期数Q统计量为:Q(6) = 5.977(0.113), Q(12) = 6.602(0.679), Q(16) = 10.116(0.684),括号中的数为对应检验统计量的P值,由此知在显著性水平为0.05的条件下,延迟6阶的卡方检验统计量的P值大于0.05,接受原假设,该残差序列是白噪声序列,即拟合模型显著有效,残差序列值的变动是由于随机波动引起的。

用模型已有的数据来模拟2013年和2014年的数据, 2013、2014年模拟出的数据分别为43584元、47880元,预测相对误差分别为0.61%、2.68%,模拟结果未出现太大偏差,说明此ARIMA模型有很强的预测能力。通过模型的识别和检验后得出结论:采用ARIMA(1,1,(2,5))模型可以较好地拟合中国人均GDP的实际值。

四、预测结果

对“十三五”时期中国人均GDP进行ARIMA模型预测,这对于综合判断经济形势,合理制定中远期经济发展目标,推进全面建设小康社会进程具有参考意义。由于该时间序列模型经过取对数再做一阶差分才基本平稳,且模型由有限数据拟合而成,所拟合的模型反映的是短期变化关系,而不是长期变化关系,因此只适合进行短期预测。通过这一模型对2015—2020年人均GDP进行预测, 其结果见表2。

五、结论及说明

文章主要从数据自身发展规律来分析和预测人均国内生产总值,从预测结果来看,预测值有明显的增长趋势,这符合我国发展的现况。改革开放以后,中国经济持续快速增长,2002—2011年10年间人均GDP年增速最小值为8.4%,最大值为2007年的13.6%,10年间年均增速为9.93%。在实现人均 GDP稳步增长的同时,人均GDP增长速度出现过3个高峰期:1983—1988年10.06%的年均增长速度,1992~1996年11.06%的年均增长速度和2005—2007年12.08%的年均增长速度。1997年亚洲金融危机及2007年金融危机对中国经济增长有一定影响,从人均GDP上也可以体现出来,2008—2011年受奥运、金融政策等多方面的影响,人均GDP增速依旧保持在8.7%~10.1%。

近3年,人均GDP年增速开始放缓,2012及2013年年增速均为7.2%,2014年降至 6.7%。这种增速递减也说明一定时期内的经济增长是有增长极限的。从发展阶段上分析,纵观世界各国发展历程和发展阶段,中国目前进入到人均GDP3000美元以上和1万美元以下的中等收入国家陷阱发展阶段。中国经济保持中高速增长的同时还会遇到更多不确定因素,能否成功越过中等收入陷阱,实现到2020年国内生产总值和城乡居民人均收入比2010年翻一番,关键还在以后五年时间里,因此应综合考虑经济社会发展环境,制定科学合理的经济发展战略。

通过ARIMA模型分析能进行定量估计,但估计结果与现实的可变性和多变性之间存在一定的矛盾性,该预测是在稳定的国际经济环境及良好的中国内部经济环境的前提下进行的。 ARIMA模型对于短期预测比较准确,随着预测期的延长,会出现预测误差增大的情况,不过预测结果在一定程度上能说明实现经济增长规划目标是可能的。

参考文献:

[1] 王燕.应用时间序列分析[M]. 北京:中国人民大学出版社,2005.

[2]华鹏,赵学民.ARIMA模型在广东省GDP预测中的应用[J].统计与决策,2010,(12).

[3] 郭景威,李洪斌.中国人均GDP时间序列的实证分析与预测[J].经济论坛,2012,(3).

[4]余后强,李玲.我国人均国内生产总值的预测分析[J].统计观察,2012,(4):103-106.

作者信息:

随机时间序列分析模型 篇5

陀螺仪是一种用来测量运载体角运动的传感器, 是构造惯导系统的核心器件, 具有体积小、重量轻、可靠性高和低成本等优点, 在汽车导航、炮弹制导、各种速率检索系统等领域中广泛应用[1]。由于各种原因, 陀螺仪在工作时, 常常存在各种干扰力矩, 在这种干扰力矩的作用下, 陀螺仪会产生随机漂移的现象, 且随着时间的增加, 随机漂移误差会不断累积, 且随机漂移误差的大小基本上决定了陀螺仪精度的高低和性能的优劣。因此, 针对陀螺仪随机漂移的特点, 本文提出先将陀螺仪漂移数据平稳化, 再进行建模滤波的方法提高其精度[2]。

1 陀螺仪随机漂移数据平稳化检验与处理

1.1 陀螺仪随机漂移数据的采集

本文采用实验室的美国IMU440传感器采集陀螺仪的随机漂移数据, 采集6000个样本数据, 陀螺仪去除均值后的的原始漂移数据如图1所示。

1.2 数据的平稳化检验与处理

对于陀螺仪原始漂移数据的平稳性检验, 主要通过eviews软件对漂移数据的统计特性进行分析, 分别计算出数据的自相关函数 (ACF) 和偏相关函数 (PACF) , 软件分析结果如图2所示。

由图2的分析结果可知, 陀螺仪的原始漂移数据的自相关函数和偏自相关函数没有逐渐变为0, 表明数据是非平稳的。为将原始漂移数据平稳化, 在eviwes软件中对原始漂移数据进行差分处理, 对差分后的漂移数据进行平稳性检验, 检验结果如图3所示。

由图3的分析结果可知, 陀螺仪的漂移数据经一阶差分后自相关函数和偏相关函数逐渐趋于0, 则表明经差分后的陀螺仪的漂移数据为平稳随机时间序列。

2 时间序列分析建模

对于平稳随机序列模型的识别, 主要根据以下两个重要的结论:

1) 根据学者Bartlett (1946年) 的研究, 如果当k>q时:

式中:ρ (k) 为时间序列的自相关函数;N为时间序列的个数。若式 (1) 成立, 则表示自相关系数函数ρ (k) 是q步截尾的, 可判断为MA (q) 模型 (可信度为95%) 。

2) 根据学者Quenouille (1949年) 的研究, 如果当k>p时:

式中:φ为时间序列的偏自相关函数;N为时间序列的个数;

若式 (2) 成立, 则表示偏自相关系数函数;φ是p步截尾的, 可判断为AR (p) 模型 (可信度为95%) [3]。

对于结论1, 可等效为令:

并绘制出ρ (k) 和边界±ζ (k) 的图形。如果只有ρ (k) 的前几个点 (如q个) 位于边界之外, 则判断为MA (q) 模型;同理对于结论2, 亦可绘制出φ和边界的图形, 如果直观上只有φ的前几个点 (如p个) 位于边界之外, 则判断为AR (p) 模型, 为求模型简洁, 还可以将超出边界不多的点适当忽略。

根据上述结论1, 运用软件Matlab编程计算出差分后陀螺仪的平稳随机序列的自相关函数ρ (k) 和边界±ζ (k) , 并绘制图形如图4所示。

据上述结论2, 运用软件Matlab编程计算出差分后陀螺仪的平稳随机序列的偏自相关函数φ和边界, 并绘制图形如图5所示。

从图4和图5可知, 陀螺仪随机平稳序列的自相关函数值和偏相关函数值有很多超过了边界值, 则表明若建立MA模型或AR模型, 模型的阶数会比较高或根本无法建立。因此, 对于该陀螺仪的平稳随机序列, 考虑建立自回归滑动平均模型, 即ARMA (p, q) 模型, 其中p和q是指时间序列模型的阶数。

若建立ARMA (p, q) 模型, 通过赤池信息量 (AIC准则) 来确定模型的阶数, 即p和q的值。其中AIC准则定义为[4]:

式中:σ2为平稳时间序列的残差平方和;N为时间序列的个数;K=p+q, p和q是指模型的阶数。

对陀螺仪的随机平稳时间序列计算AIC值, 计算结果如图6所示。

根据AIC准则:AIC值越小, 则表示模型建立的越准确。由图6知, 当k+1=4时, AIC值最小。根据图3的分析结果且k=p+q, 故建立的时间序列模型为ARMA (2, 1) 。

3 随机误差模型的滤波分析

根据上面的分析知, 建立的时间序列模型为ARMA (2, 1) , 则模型的时域递推形式为

式中:a1和a2为模型的自回归系数;b1为模型的滑动平均系数;w (n) 为输入的白噪声;x (n) 为零均值的随机平稳时间序列。

根据公式[5]:

计算得出:a1=-0.208;a2=-0.023;b1=-0.3095。

根据模型的时域递推形式转化为状态空间模型为:状态方程为

输出方程为

式中:A为n×n阶增益矩阵;C为m×n阶的量测矩阵;v (k) 和w (k) 分别表示过程激励噪声和观测噪声, 且它们相互独立, 符合正态分布的白噪声。

根据建立的ARMA (2, 1) 模型, 设定状态向量为:

设w (k) 为模型的估计误差, 则有

并令输出y (k) =x (k) , 则系统的输出方程为:

其中C=[1, 0], 可写出kalman的滤波递推公式为:

式中:K (k) 为卡尔曼增益矩阵;为状态变量的一步预测估计值, x (k) 为状态变量k时刻的值;Q和R分别为系统的量测噪声方差和过程噪声方差矩阵[8];P (k) 为后验估计误差的协方差, I为单位矩阵。令P的初值为, 状态1 0变量初值为x (0) =[1, 1]T。根据建立的ARMA (2, 1) 模型进行滤波, 将陀螺仪测量到的实际漂移数据作为kalman滤波器的状态输入[8], 滤波结果如图7所示。

图中黑色信号代表滤波前的陀螺仪输出值, 红色信号代表滤波后的陀螺仪输出值。计算出滤波前后陀螺仪随机漂移数据的标准差和协方差, 如表1所示。

4 仿真结果分析

从图7可以看出, 陀螺仪漂移数据的波动性大幅减小, 表明经过对漂移数据建立ARMA (2, 1) 模型且进行kalman滤波后, 系统的噪声大幅降低。从表1可知, 滤波前漂移数据的标准差为0.1027, 滤波后的标准差为0.0267, 滤波后的标准差比滤波前的标准差降低了一个数量级, 表明了通过kalman对建立的ARMA (2, 1) 模型进行滤波, 有效减少了漂移数据的分散程度, 提高了陀螺仪的输出精度。

在实际的工程应用中, 可以先对陀螺仪的随机漂移数据进行平稳性检验, 若漂移数据不平稳, 采用对漂移数据进行差分处理的方法使其平稳, 待数据平稳后, 进行模型的识别和模型的定阶, 模型确定后结合kalman进行滤波处理, 将处理好的陀螺仪数据进行各种测量计算, 来提高整个惯性系统的测量精度。

5 结论

本文主要对陀螺仪的随机漂移误差进行分析研究, 利用eviews软件对漂移数据进行平稳性检验, 若不平稳可采用该软件对数据进行差分处理使其平稳。在数据处理平稳后, 可进行时间序列模型的识别, 并利用最小信息量准则确定模型的阶数, 确定建立的时间序列模型并计算出模型的参数。根据建立的时间序列模型, 结合kalman对模型进行滤波。实验仿真结果表明:利用软件eviews能够准确地对漂移数据平稳性检验与处理;结合建立的时间序列模型, 利用kalman对建立的模型进行滤波, 能够有效地抑制陀螺仪的随机噪声, 提高其输出精度。本文的创新之处在于:提出利用软件eviews对陀螺仪的随机漂移数据进行平稳性检验和处理, 提出对陀螺仪的随机漂移误差时间序列建模与补偿的具体过程, 结合工程的实际应用给出陀螺仪随机误差补偿的具体方法。本文提出的方法在提高惯性系统实际工程应用方面有着十分重要的意义。

摘要:介绍了基于时间序列分析的陀螺仪随机误差模型的建立, 并对误差模型进行滤波补偿的方法。主要是利用e vie w s软件将陀螺仪随机漂移数据进行平稳化处理, 然后对处理后的时间序列进行模型的识别与定阶, 最后结合kalm an滤波方法对建立随机误差模型滤波补偿。实验结果表明, 该方法建立的模型很好地反映了陀螺仪随机漂移的趋势, 并有效地抑制了陀螺仪的随机噪声, 提高了其输出精度。

关键词:时间序列分析,eviews,陀螺仪,随机漂移,误差模型

参考文献

[1]秦永元.惯性导航[M].北京:科学出版社, 2006.

[2]李杰, 张文栋, 刘俊.基于时间序列分析的kalman滤波方法在MEMS陀螺仪随机漂移误差补偿中的应用研究[J].传感技术学报, 2006, 5 (19) :2217-2218.

[3]严恭敏, 李四海, 秦永元.惯性仪器测试与数据分析[M].北京:国防工业出版社, 2012.

[4]吴明辉, 许爱强, 周小程, 等.基于时间序列分析的动调陀螺仪故障预测研究[J].计算机测量与控制, 2014, 22 (2) :2-3.

[5]BOX G E P, JENKINS G M.Time Series Analysis Forecasting and Contro[lM].Honlden-Day.San Francisco, 1970.

[6]陆芳.MIMU中陀螺随机漂移建模及Kalman滤波技术研究[D].太原:中北大学, 2007.

[7]陈殿生, 邵志浩, 雷旭升.MEMS陀螺仪随机误差滤波[J].北京航空航天大学学报, 2009, 2 (35) :247-248.

随机时间序列分析模型 篇6

目前, 有关城市公交系统的研究多数集中在公共汽车路径选择问题上, 主要是运用组合优化理论确定合理的公共汽车走行路径[1,2,3,4,5] , 对乘客等车时间长度方面的研究较少。事实上, 在公交站点的等车时间是乘客较为关心的问题, 乘客希望等车的时间越短越好, 但由于运行过程中存在许多不确定性的影响因素, 使得公共汽车不能准时到达各站点, 会增加乘客等车时间。

本文综合考虑乘客到达公交站点和公共汽车到达、离开公交站点的情况, 运用随机过程理论对公交站点乘客和公共汽车数量的变化情况进行研究, 推导出乘客在公交站点累积等车时间的计算公式。

2 公交站点乘客数量随机性态描述

在城市公交系统中一般是按照既定线路上客流的疏密程度将一天分为若干个时段, 在上、下班等乘客出行高峰时段加大公共汽车开行密度, 而在客流量少的时段则降低公共汽车开行频率。在同一时段内公共汽车从始发站发车的间隔时间相同。如果沿途交通状况良好, 公共汽车能够按照预定速度运行, 则在同一时段内出发的公共汽车到达沿途站点的间隔时间也是相同的。但由于交通堵塞等原因, 一般会导致公共汽车延迟到达中间站, 沿途交通状况越差、公共汽车运行的路程越长, 这种延迟出现的几率会越大, 致使公共汽车到达沿途站点的间隔时间呈现出不确定状态。在日常生活中人们常会遇到这样的现象:在公交站点有时很长时间也等不到一辆车, 有时几辆车几乎同时到站。公共汽车和乘客到站的不确定性致使乘客的等车时间有时长有时短。

本文以某沿途公交站点为背景, 假设公交车可以超载。设T0=0 (Tl, l=1, 2, …) 表示第l次公共汽车到达这一公交站点的时刻, TiTj是相互独立的随机变量, TiTj不相交。本文暂不考虑从公共汽车到达公交站点时刻时起至公共汽车离开公交站点时刻时止时段内到达公交站点的乘客, 因此可假设乘客的上下车是瞬时实现的, 公共汽车到达后立即出发, 则Tl也是第l次公共汽车离开公交站点的时刻。设Jl (l=1, 2, …) 表示顺次相邻两公共汽车到达公交站点的间隔时间, Jl=Tl-Tl-1.可知{Jl, l=1, 2, …}是相互独立且同分布的连续型随机变量序列。设Jl的分布函数为F (t) , F (t) =P (Jlt) , l=1, 2, …, 均值为u, 方差为d.可知Jl (l=1, 2, …) 也是顺次相邻两公共汽车离开公交站点的间隔时间。

假设乘客以强度为λ的泊松流陆续到达公交站点, 在任意时段 (0, t) 内到达公交站点的乘客人数为N (t) , 由泊松流的性质[6]可知Ρ[Ν (t) =k]= (λt) kk!e-λt.设S0=0, Tl-1+Sk表示在从第l-1次公共汽车离开公交站点时刻时起至第l次公共汽车离开公交站点时刻时止的时段[Tl-1, Tl]内第k个乘客到达公交站点的时刻, 可知Tl-1+Sk也是乘客等车的起始时刻。令Hl (l=1, 2, …) 表示时段[Tl-1, Tl]内到站等车的乘客人数。因为TiTj不相交, 可知{Hl, l=1, 2, 3, …}是相互独立且同分布的离散型随机变量序列[7]。

S表示在任意顺次相邻两公共汽车离开公交站点的间隔时间内到站乘客的累积等车时间。设S (Jl) 表示在时段[Tl-1, T]内到站等车乘客的累积等车时间, N (Jl) 表示在时段[Tl-1, Tl-1+Jl]内到站等车的乘客人数。

假设公共汽车的到站与乘客的到站相互独立, 则在公交站点内等车乘客和公共汽车形成了一个排队服务系统, 服务规则是先到先服务。假设在初始时刻t=0时, 系统中乘客人数为0。

乘客的到站可能有两种情况:乘客一个一个地到达公交站点;乘客分批到达公交站点, 每批乘客的数量不同, 可能是一个人, 也可能是多个人, 每批乘客的数量是一个随机变化的数值。针对这一分类, 本文建立两个模型进行研究。

3 乘客逐个到站等车模型

当乘客一个一个地到达公交站点时, 乘客人数随时间变化情况及公共汽车出发情况如图1所示。

图1中, 横轴表示时间, 纵轴表示已到达公交站点排队等车的乘客人数, 竖粗线表示公共汽车的到达和离开。

可知, 在时段[Tl-1, Tl]内到站等车的第k个乘客的等车时间是 (Jl-Sk) 。在时段[Tl-1, Tl]内到站乘客的累积等车时间为:

S (Jl) = (Jl-S1) + (Jl-S2) ++ (Jl-SΝ (Jl) ) =k=1Ν (Jl) (Jl-Sk)

由泊松流的性质[8]可知:

E[S (Jl) |Ν (Jl) =r]=E[k=1Ν (Jl) (Jl-Sk) |Ν (Jl) =r]=E[k=1r (Jl-Sk) |Ν (Jl) =r]=rJl-E[k=1rSk|Ν (Jl) =r]=rJl-E[k=1rU (k) ]=rJl-E (rk=1nUk) =rJl-k=1rE (Uk) =rJl2

其中, U1, …, Ur独立同分布, 且U1~U[0, 1], U (1) , …, U (r) 为其顺序统计量。由条件期望性质可知在时段[Tl-1, Tl]内到站乘客的累积等车时间的均值为:

E[S (Jl) ]=r=0E[S (Jl) |Ν (Jl) =r]Ρ[Ν (Jl) ]=r=λJl22

由此可推导出在任意顺次相邻两公共汽车离开公交站点的间隔时间内到站乘客的累积等车时间的均值为:

E (S) =0λ2t2dF (t) =λ20t2dF (t) =λ2E (Jl2) =λ2[E2 (Jl) +D (Jl) ]=λ2 (u2+d)

由上式可知, 乘客累积等车时间受公共汽车到达间隔时间和乘客到达强度两项因素的影响。为缩短乘客的累积等车时间, 应尽量减少顺次相邻两公共汽车离开公交站点的间隔时间的均值及其波动。也就是说公交公司要尽量调控公共汽车的出发时间, 才能更好的实现乘客送达的及时性。

4 乘客成批到站等车模型

在本模型中假设每批乘客的人数不相同, 其它假设条件及变量含义同上。设在时段[Tl-1, Tl]内到达的第k批乘客的人数为βk=1, 2, …, 设其均值为β.可知, {βk, k=1, 2, 3, …}是相互独立且同分布的离散型随机变量序列。

此时公交站点乘客人数随时间变化情况及公共汽车出发情况如图2所示。

在时段[Tl-1, Tl]内到站乘客的累积等车时间为:

由条件期望的性质可得:

E[k=1rβk (Jl-Sk) ]=m=0E[k=1rβk (Jl-Sk) |βk=m]Ρ (βk=m) =m=0E[mk=1r (Jl-βk) ]Ρ (βk=m) =m=0mrJl2Ρ (βk=m) =rJl2m=0mβm=rJl2β

从而

E[S (Jl) ]=E[k=1Ν (Jl) βk (Jl-Sk) ]=r=0E[k=1Ν (Jl) βk (Jl-Sk) |Ν (Jl) =r]Ρ[Ν (Jl) =r]=r=0E[k=1rβk (Jl-Sk) ]Ρ[Ν (Jl) =r]=r=0r2βJlΡ[Ν (t) =r]=βJl2r=0r (λJl) kk!e-λJl=λβ2Jl2

由此可推导出在任意顺次相邻两公共汽车离开公交站点的间隔时间内到站乘客的累积等车时间的均值为:

E (S) =0Ek=1Ν (Jl) [S (Jl) |Jl=t]Ρ (Jldt) =0E[ (k=1Ν (t) βk (t-Sk) ]dF (t) =0λβ2t2dF (t) =λβ20t2dF (t) =λβ2E (Jl2) =λβ2[E2 (Jl) +D (Jl) ]=λβ2 (u2+d)

由上式可知, 乘客累积等车时间受公共汽车到达间隔时间、乘客批次的到达强度和每批乘客的人数三项因素的影响。为缩短乘客的累积等车时间, 应尽量减少顺次相邻两公共汽车离开公交站点的间隔时间的均值及其波动。也就是说公交公司要尽量调控公共汽车的出发时间, 才能减少乘客等车过程中等车所耗费的时间。

5 例证分析

某公交站点, 在某时段内公共汽车的出发服从强度为10辆/小时的泊松分布。乘客到达服从强度为50批/小时的泊松分布, 平均每批乘客有2个乘客, 问题是如何确定任意顺次相邻两公共汽车离开公交站点的间隔时间内到站乘客的累积等车时间的均值。

因为公共汽车的出发服从泊松分布, 可知车辆到达间隔时间服从负指数分布, 由问题意可知:λ=50β=2E2 (Jl) =110D (Jl) =1, 可计算出这个公交站点在在任意顺次相邻两公共汽车离开公交站点的间隔时间内到站乘客的累积等车时间的均值是1人·小时。

6 结论

本文在公共汽车随机到达公交站点, 乘客以泊松泊松流到达公交站点的前提下, 运用随机过程理论, 推导出公交站点乘客累积等车时间的计算公式。结论表明如果能够调控公共汽车的出发时间, 并减少其波动性, 就能够减少在任意顺次相邻两公共汽车离开公交站点的间隔时间内到站乘客的累积等车时间。公交公司应事先对公共汽车行驶线路的状况进行调查, 在次基础上确定合理的车辆行驶路线, 以此减少车辆在运输过程中消耗时间的不确定性。

本文在推导时对某些过程进行了简化处理: 假设乘客上下车是瞬时的, 即公共汽车在公交站点内的停留时间为零, 事实上乘客上下车同样需要消耗一定时间, 在这个时段内也可能会有乘客到达公交站, 作者在后续研究中将会考虑这个问题, 对模型予以改进, 使之更符合实际情况。

摘要:分析了公交站点乘客等车过程的随机特性, 在公共汽车和乘客均随机到站的条件下, 确定了描述乘客在公交站点等车过程中关键状态的一系列随机变量, 用图示的方法予以说明。从两个角度研究了公交站点乘客的累积等车时间, 并根据随机过程理论推导出其均值的计算公式。结果表明有效控制顺次相邻两公共汽车离开公交站点的间隔时间并尽可能减少其波动可以缩短公交站点乘客的累积等车时间。

关键词:交通工程,随机过程,公交站点,等车时间

参考文献

[1]卜雷, 蒲云, 尹传忠.城市公交车路线选择的遗传算法[J].世界科技研究与发展, 2004, (2) .

[2]吕关锋, 苏开乐.最经济路线规划算法[J].研究计算机工程与应用, 2004, (17) .

[3]刘佳, 夏少芳, 吕亚男, 陈立潮.复杂网络中最短K条路径问题的求解算法研究[J].计算机应用, 2008, (4) .

[4]何胜学, 范炳全, 严凌.公交网络最优路径的一种改进求解算法[J].上海理工大学学报, 2006, (1) .

[5]朱江云, 王玉琨.基于最小换乘次数的最优路径算法[J].福建电脑, 2007, (3) .

[6]运筹学教材编写组.运筹学[M].北京:清华大学出版社, 2005.

[7]候振挺.马尔可夫决策过程[M].长沙:湖南科技出版社, 1998.

随机时间序列分析模型 篇7

1 资料来源与方法

1.1 资料来源

选取某高校防保科登记的2002-2005年在校学生遭受侵害获医保理赔资料,各年度在校学生人数由教务处提供。

1.2 方法

对获医保理赔病例资料整理分为如下8类:篮球运动伤害;足球运动伤害;溜冰、跑步、练三节棍等其他伤害;从床上掉下、下楼梯摔伤、开水烫伤等其他意外伤害;动物咬伤;呼吸系统疾病;消化系统疾病;其他疾病。

建立高校学生获得医保理赔病例模糊随机过程模型。根据相邻2年的各类发病率,进行模糊化[4],得到一步模糊转移矩阵,再对一步模糊转移矩阵进行迭代。出现平稳状态时,以前1年的各类发病率为初始状态,计算次年的各类发病率的理论值。再分析实际发病率与理论值的关系,揭示高校预防保健工作的中心与需要加强的薄弱环节。

2 结果

2.1 基本情况 见表1,2。

注:()内数字为检出率/‰。

除2003年外,获医保理赔病例发生率基本呈现逐年上升趋势。性别对获医保理赔病例有影响,总体男生高于女生。进行不同性别获医保理赔病例χ2检验,各年度差异均有统计学意义(2002-2005年各年度χ2值分别为12.33,6.64,16.02,23.58,P值均<0.01) 。

2.2 医保理赔病例模糊随机过程模型

记由2002-2003年,2003-2004年,2004-2005年的一步模糊转移矩阵,男生分别为A1,A2,A3,女生分别为B1,B2,B3。并以A1为例,其计算过程如下。

2002年与2003年医保理赔各类病例发生率用矩阵表示为

undefined

取随机变量ξi(第i类医保理赔病例,i=1,2,…,8),由实际意义可近似得到(ξi,ξj)的联合分布为Pundefinedp2×8,并得到一步模糊转移矩阵

undefined

以2002年医保理赔各类病例发生率作为初始状态

V0=(0.182,0.125,0.023,0.170,0.057,0.102,0.204,0.204)

经过A1转移为下一个状态V1=V0A1;在相同的条件下,V1的下一个状态为V2=V1A1= V0A1A1=V0Aundefined,当Vk=V0Aundefined=V0Aundefined时,即Aundefined=Aundefined,亦即Aundefined为平稳状态,把Vk作为初始状态V0延展的最终状态,视为初始状态V0转移为下一个状态的理论值。该例为

undefined

V5=(0.191,0.140,0.023,0.195,0.048,0.103,0.182,0.185)

与2003年医保理赔各类病例实际发生率 (0.105 0,0.019 5,0.009 5,0.143 1,0,0.047 7,0.028 6,0.185 4)比较,得到2003年医保理赔各类病例实际发生率低于理论值。

用与计算A1及V5的同样方法,得到结果见表3。

3 讨论

模型显示,2003年获医保理赔各类病例实际发生率男、女生均低于理论值,其余年份则高于理论值。所建立的模糊随机过程模型突出地表明,2003年是一个特殊的年份。事实上,2003年因“非典”的原因,高校均采用封闭式管理的方法,对学生的健康教育、学生对“非典”的防范意识和自觉接受健康知识的传播,达到了空前的程度,故获医保理赔各类病例实际发生率不仅低于理论值,而且在调查的年份中也是最低的,故模型深刻体现这一实际背景。

在其他年份,获医保理赔各类病例实际发生率高于理论值。这是由于每年新生关于健康知识、自身安全保护意识方面较少和不断出现新情况(例如,近年有学生在寝室偷养宠物)所致。模型提示应以新生为重点,加强高校的健康教育和学生的管理,提高学生健康知识的知晓率和行为的改变情况。

另外,该模型虽然是通过学生获医保理赔各类病例获得的信息,反映学校学生防疫保健工作效果与需要加强的薄弱环节所建立的模型,但可应用于其他疾病的控制。例如对某种传染病的控制,把疫区的人群进行分类,根据该传染病的流行特点,建立模糊转移矩阵进行分析,从而获得现行的防治效果与进一步防治的重点和改进措施的信息。

参考文献

[1]魏新民.大学生医疗保险存在的问题及对策.中国学校卫生,2005,26(12):1 065.

[2]胡月,冷明祥.江苏省高校学生医保现状与提高医保水平研究.医学与哲学,2006,27(4):29-31.

[3]KWAKERNAAKH.Fuzzy random variables I.Inf Sci,1978,15:1-29.

随机时间序列分析模型 篇8

关键词:序列运算,随机潮流,分布函数,风电并网,线路故障

0 引言

近年来,为保障能源安全、推动环境保护,我国推出了一系列促进新能源发展的政策,鼓励风电的大规模开发利用,风电装机连年翻番。截止2011年底,全国风电并网容量已达到4 505万k W,居世界第一位[1]。然而,相比传统的发电方式,风电出力具有随机性大、波动性强等特点,随着比重的逐渐增大,风电的接入使电力系统的规划和运行面临更多的不确定因素[2,3]。随机潮流可综合考虑风电及其他间歇性能源出力的不确定性,以及负荷需求的不确定性,甚至电网结构和线路状态的不确定性,给出支路功率和节点电压等变量的概率分布信息,有利于运行人员全面了解系统运行的安全水平,因而具有广泛的应用前景[4,5]。

随机潮流是由Borkowska于1974年首次提出的[6],目前已有30多年的研究历史,其求解方法主要分为解析法[6]和模拟法[7]两类。解析法主要根据随机变量的概率分布情况,采用卷积运算等方法对支路潮流的期望、方差和分布函数等信息进行直接计算。文献[8]针对线性化支路潮流模型导致的计算误差,提出了基于线性映射关系与直流潮流模型的改进卷积方法,该方法虽提高了计算精度,但却增加了计算开销。文献[9]提出了离散频域卷积技术,通过快速傅里叶变换减少计算时间。但由于卷积运算自身的内在缺点,该方法的效果并不理想。为提高求解速度,文献[10]提出了将累积量法与Gram-Charlier展开级数相结合计算状态量概率分布的方法。当随机变量服从正态分布时,利用该方法可获得较好的计算效率与精度,但当随机变量非正态分布时,该方法收敛较慢。蒙特卡洛模拟法是一种随机模拟方法,可方便应用于随机潮流的计算[7]。但由于随机模拟的特点,为保证计算精度,必须进行大量的随机模拟抽样计算,因此计算量大,计算过程极为耗时。

为提高随机潮流的求解速度,文献[11]提出了基于序列运算理论的随机潮流计算方法。本文基于其基本框架,应用序列运算理论,考虑风电场出力、常规机组的停运、负荷需求以及线路故障的不确定性,对含有风电场的电力系统的随机直流潮流计算方法进行改进,求出系统有功不平衡及各支路潮流的概率分布情况,并分析不确定因素对线路潮流的影响。

1 序列运算理论

序列运算理论是康重庆教授于1997年提出的[12],它是以数字信号处理领域中的序列卷积为基础,并对原有的序列卷积概念进行了扩展。针对电力系统中对于随机变量分析的实际需求,文献[13]在序列运算理论的基础上提出了概率性序列运算理论,它不仅具有明确的物理意义,而且能够解释随机变量之间的复杂运算,使得该理论在电力系统中得到了推广和应用[14,15,16]。

概率性序列中每一项的取值均处于(0,1)之间,代表的是该项出现的概率。因此,随机变量的概率分布可以用一个概率性序列来表示。此外,序列运算理论还定义了包括卷和、卷差等六种基本序列运算法则。限于篇幅,本文不进行详细介绍,读者可参见文献[11]。

2 系统元件的序列化建模

2.1 风电出力的序列化建模

风电具有出力波动大,随机性强的特点,其未来出力在0到装机容量之间均有可能。若有风电功率预测,则预测系统将会给出未来风电出力的预测值。但由于预测误差的存在,需要根据预测值及预测误差对风电出力概率分布进行估计。文献[11]采用正态分布对风电出力预测误差进行估计,并给出了风电场预测平均误差e与方差σ2之间的换算关系。

因此,在有风电功率预测的情况下,风电的出力概率分布可视为服从参数为预测值Pwp和方差σ2的正态分布,即Pw~N(Pwp,σ2)。对符合正态分布的随机变量进行概率性序列建模时,可以利用标准正态分布表进行查表计算,以减小计算量。若选取序列的离散化步长为则风电出力的概率性序列Pw(i)为

其中,

其值可以在标准正态分布表中直接查到。

序列长度

其中,C为风电场的装机容量或设置的最大出力限值。

2.2 常规机组出力的序列化建模

常规机组在运行过程中,存在因故障等原因而导致突然退出的可能性。因此,常规机组的出力也可以视为服从0-1分布的随机变量,其概率值可根据历史统计得到。设机组出力的计划值为Psp,强迫停运率为Fs,若选取序列的离散化步长为P,则该机组的出力概率性序列Ps(i)为

2.3 负荷的序列化建模

电力系统中负荷的变化具有不确定性的特点,一般认为节点负荷的随机波动服从正态分布,可以使用式(1)建立负荷的概率性序列。当节点负荷中含有部分较大的独立负荷时,如电弧炼钢炉、轧钢机等,它们的突然投入和退出会对该节点的总负荷值影响很大,可以将这部分负荷视为服从离散分布的随机变量,采用与式(4)相似的方法对这部分负荷进行概率性序列建模。此时,该节点总负荷的概率性序列即为各部分负荷的概率性序列的卷和结果。

3 计算方法的改进

本文以文献[11]所提出的基于序列运算理论的随机潮流计算方法为基本依据,对其中的几个计算环节和分析技术进行改进,核心技术如下。

3.1 系统功率不平衡

电力系统在运行时,需要维持系统的有功功率平衡,否则将引起系统频率的偏移,严重时将造成系统的崩溃。在进行潮流计算时,通常指定一台调节性能较好的机组为平衡机组,其出力大小取决于系统负荷及其他机组的出力,以使系统满足功率平衡的需要。然而,风电场出力和负荷需求的不确定性,将大大增加平衡机组的调节范围。当计算出的平衡机组出力值超出其出力上下限时,将导致系统的有功功率无法达到平衡状态,威胁系统的安全运行。

在考虑风电场出力、机组停运以及负荷需求不确定的情况下,采用序列运算理论可以方便地计算出平衡机组出力的概率分布情况,从而对比其出力上下限,直接计算出系统的有功不平衡概率。其中,不计平衡机组时系统的总有功出力序列为各机组及风电场出力序列的卷和,系统的总有功消耗为所有负荷序列的卷和。而平衡机组的出力序列即为二者的卷差。设平衡机组的出力序列为gb(i),出力上下限分别为Lup和Ldown,则系统有功不平衡的概率

3.2 考虑线路故障的支路潮流

在不考虑线路故障的情况下,采用序列运算理论进行随机直流潮流计算,需先对系统内各机组、风电场出力以及负荷进行序列化建模,计算出每个节点的有功输出序列,然后利用潮流转移分布因子矩阵,进行相应的序列运算,直接求出各支路潮流的概率性序列,得到其概率分布情况[11]。

在考虑线路故障的情况下,由于线路故障将改变原系统的潮流转移分布因子矩阵,因此对每种故障情况均要进行单独计算。在计算过程中,可以根据系统实际情况,生成系统线路故障集,给出每种线路故障情况发生的概率以及该故障情况下系统的潮流转移分布因子矩阵,再依次对故障集中各种情况进行计算。

由于线路发生故障的概率与各节点有功输出的概率是相互独立的,因此总的支路潮流概率分布等于系统线路故障集中各种情况下支路潮流概率分布的概率和[17],对应于概率性序列的计算如式(6)所示。

其中:N表示故障集中情景的个数;x=0表示不发生线路故障的情况;px为第x种线路故障情况发生的概率;lx为该种情况下支路潮流的概率性序列;Nl表示序列的长度。

3.3 计算流程图

根据3.1节和3.2节所述,采用序列运行理论进行随机直流潮流计算的改进算法流程如图1所示。

4 算例分析

本文对图2所示的IEEE-30节点系统进行仿真计算,并与采用蒙特卡罗法得到的结果进行比较,以验证本文方法的正确性。其中,节点6、22和27分别接入了三个风电场,各风电场的信息如表1所示。此系统的支路和节点负荷信息为IEEE-30系统标准值,各机组的出力如表2所示,强迫停运率参考文献[18]。假设各节点负荷服从正态分布,标准差为期望值的5%。考虑支路10-21可能发生故障,故障率参考文献[19],取为4%。

根据图1编制程序,采用Matlab进行程序仿真,对该系统进行随机直流潮流计算。选择位于节点1的发电机组为平衡机组,序列运算的离散化步长为0.1 MW,蒙特卡洛法仿真次数为10万次。

为了更清晰地比较两种方法,以蒙特卡洛法仿真次数为一千万次的计算结果为基准,分别将两种方法计算出的系统有功不平衡和支路潮流的概率分布函数进行对比,并采用文献[10]中定义的平均均方根误差指标(Average Root Mean Square,ARMS)来衡量误差大小。图3显示了平衡机组需要发出有功功率的概率分布情况,图4显示了线路21-22潮流的概率分布情况,表3对两种方法的计算结果进行了详细对比。

由计算结果可以看出,由于本算例中存在较多的随机变量,当采用蒙特卡罗法进行计算时,必须进行大量的随机模拟抽样,计算速度较慢。而采用序列运算法进行随机潮流计算,可以全面考虑各随机变量的概率分布情况,准确反映出各变量的不确定性对系统的影响,在保证精度的同时,大幅提高随机潮流的求解速度。

此外,如图3所示,平衡机组需要发出有功功率的概率分布有一部分已经低于其50 MW的出力下限,导致系统有功功率的不平衡,这主要是由风电出力的不确定性引起的。由于风功率预测存在一定误差,风电的实际出力将可能高于其预测值。当系统的可下调容量不足时,将导致系统频率的升高,威胁系统的安全运行。在系统运行中,可根据实际情况采取给风电场下发出力限值的方式,限制风电场的最大可能有功输出,减小风电出力的不确定性,保证系统的安全运行。图5显示了风电场在不同出力限值的情况下,系统有功不平衡概率的情况,其中,横坐标代表各风电场出力限值占其装机容量的比例。

由图5可以看出,随着风电场出力限值的降低,系统有功不平衡的概率也逐渐降低,并在出力限值达到45%时,系统不平衡概率几乎降至0%。但当风电场出力限值低于10%时,由于风电场无法提供足够的有功支持,受出力上限的限制,平衡机组将可能无法为系统提供足够的功率,从而导致系统有功功率不足的风险增大。因此,在电网调度运行中,应根据实际情况,合理安排风电场的出力限值,降低风电出力不确定性对系统运行风险的影响。

5 结论

随机时间序列分析模型 篇9

一、基于随机森林的银行个人信用评估模型

(一) 随机森林模型

随机森林模型的基本思想为:首先, 利用booststrap抽样方法从原始训练集抽取k个样本集, 且每个样本的容量均与原始训练集一致;其次, 对k个样本分别建立k个决策树模型, 其中, 每个基本决策树模型均使用随机的m个变量属性, 得到组合的分类器。对于每个测试样本, 利用k个模型分别进行分类, 得到k种分类结果;最后对k种分类结果分别投票决定其最终分类结果。

P (j/t) 为类别j在节点t处的相对频率, 当Gini (t) =0时, 即在此节点处的所有记录均属于同一类别。如果集合T在X的条件下分成两部分N1和N2, 那么这个分割的Gini指数就是:

这里采用简单多数投票法决定最终分类结果, 最终的分类决策为:

其中, H (x) 表示组合分类模型, hi表示单个决策分类模型, Y表示目标变量, I (·) 为示性函数。

(二) 算法流程

(三) OOB误差估计

值得注意的是随机森林采用Boostrap方法对原始训练集抽样时, 原始训练集中每个样本未被抽取的概率为 (1-1/N) N, 当N足够大时, 将收敛于1/e≈0.37, 这表明原始训练集中有近37%的数据可能不在每个Boostrap样本中出现, 未被选中的数据称为袋外数据 (out-of-bag, OOB) , 这部分数据可以用作测试数据估计该分类树的泛化性能, 这种方法被称为Outbag Estimation[2]。

(四) 变量重要性的计算

随机森林的一个重要特性是可以评价特征变量的重要性, 其基本思想为对一个特征变量加入噪声值后, RF的预测精度 (基尼值) 显著降低则表明该特征变量比较重要, 具体的计算可描述为:

1. 先用OOB数据测试已生成的随机森林的性能, 得到一个OOB准确率 (或基尼值) ;

2. 然后在OOB数据中人为地给某特征变量v加入噪声值, 再用加入噪声后的OOB数据测试随机森林的性能, 得到一个新的OOB准确率 (或基尼值) ;

3. 原始OOB准确率 (基尼值) 与加入噪声后的OOB准确率 (基尼值) 之差, 作为相应特征变量v的重要性度量值。

利用随机森林这点特性, 可以对特征变量进行重要性排序, 银行在进行信贷业务过程中应当重视较为重要的信息, 尽量确保其真实性及完整性。

二、实证研究

本文以德国某商业银行的个人信贷数据集[3]进行实证实验, 并与其他常见分类算法进行对比分析。

(一) 数据资料描述

该数据集共有信贷记录1000条, 每一条记录均由21个字段构成, 其中前20个字段是贷款申请人的信息, 为影响个人信用比较重要的因素。最后一个字段表示已知的银行对贷款客户的信用级别, 分为“良好”与“不良”两个级别。对每个字段进行编号, 得到表3。

该数据集中的20个属性中有7个是连续型属性, 其余13个为离散型属性, 在对模型进行测试前, 需要先对数据进行标准化处理, 针对离散型属性使用数值{1, 2, 3, …}表示, 之后按照式 (4) 对每个属性的数值进行归一化处理, 将数据统一映射到[0, 1]上。

其中vs是标准化处理后的数值, v是原始数值, vmax、vmin分别表示数据集中该属性的最大、最小值。

数据集中“良好”与“不良”客户数量比例为7:3, 为了保证训练集和测试集两类客户分布与总体样本一致, 实证中将按照表4中的比例抽取数据对模型进行训练与测试。

(二) 实证结果分析

这里采用多次随机实验预测准确率 (precision) 的平均值及其方差两个评价指标衡量模型的性能, 预测准确率指在每次实验中, 先使用训练集训练模型, 然后用测试数据集对模型进行测试, 预测正确的样本数量占总测试样本数的比例, 其平均值反应模型的预测精度, 而其方差则反应模型的稳定性。本文进行了20组随机实验, 每次实验均按照上述的比例从原始数据集中随机抽取数据作为训练集及测试集。

在每组实验中, 选择了多个单分类器与随机森林算法进行对比: (1) 基于径向基的神经网络 (RBF-NET) :调整参数进行多次试验发现当隐含层中心个数为40及迭代次数为200时发现结果较优且趋于稳定, 故选为每次实验的固定参数; (2) k最近邻算法 (KNN) :通过改变k进行多次试验择优选定k=4; (3) 决策树 (CART) :CART中的分割属性选择Gini指数; (4) 支持向量机 (SVN) :SVM中的核函数取径向基函数, C=1; (5) 梯度提升决策树 (GBDT) :损失函数为bernoulli分布, 学习速率为0.01, 决策树的深度为1, 交叉检验次数为5。依据上节的分析, 随机森林模型的参数设置为:随机变量树m=5, 决策树数k=2000。20组实验的分类准确率如表5所示。

实证结果表明, 单分类器模型中, RBF-NET模型平均准确率只有70.42%, 其次是KNN模型, CART模型比RBF-NET、KNN要好, 平均准确率为73.03%, 单个分类器中最好的是SVM, 平均准确率达到76.63%, 比CART高出3.6%, 表明SVM在处理非线性分类问题具有相对的优势, 其性能相比组合分类器GBDT仅低0.05%, 通过方差可以看出SVM的稳定性甚至超越GBDT。同样是组合分类器, 相比GBDT随机森林模型获得更佳的性能, 平均预测准确率达78.5%, 并且更加稳定, 平均准确率相比GBDT虽然只提高1.82%, 但是准确率的微小提高, 就可能使银行减少不必要的巨额损失。

依据上文“ (四) 变量重要性的计算”方式, 使用上述实验的20组训练数据分别计算变量的重要性, 选取OOB准确率的平均下降值作为度量, 20个变量的重要性按照降序排序为:C1-C2-C3-C5-C10-C12-C6-C14-C7-C13-C8-C4-C17-C16-C15-C11-C20-C9-C18-C19, 具体重要性排序如图1所示, 横坐标表示重要性度量值 (单位:%) , 纵坐标表示变量编号。从图1可以看出, 现有账户状态 (透支或有余额等情况) 、信贷期限、信贷历史记录、贷款金额对预测准确率有显著的影响, 同时也可以看出是否电话注册、法定需要抚养人数对预测准确率几乎没影响。

三、结论

本文将随机森林算法引进银行个人信用评估中, 建立基于组合分类器的模型。通过实证研究发现, 随机森林模型相比其他模型具有更高的风险预测准确率以及稳定性。随机森林模型不仅分类准确率高, 而且具有能处理含有噪声的数据, 不会出现过拟合的现象, 泛化能力良好等优点, 并且能度量模型中特征变量的重要性。银行的个人信用数据中常常出现指标多、噪声复杂等特点, 提出使用基于随机森林的信用评估模型, 对实际应用具有重要的参考价值。

参考文献

[1]Breiman L.Random Forests[J].Machine Learning, 2001, 45 (1) .

[2]Breiman L.Out-of-bag Estimation[OE/OL].1996.

上一篇:传统文化企业品牌下一篇:整体叶轮