正态模型

2024-06-08

正态模型(共9篇)

正态模型 篇1

摘要:我国是全球最大钢铁生产国和消费国, 同时由于我国矿石资源禀赋特点, 我国也是全球最大的铁矿石进口国, 铁矿石对外依存度很高。因此, 面对不断上涨的铁矿石价格, 在满足钢铁生产矿石需要量的同时, 如何最优化港口库存量, 防止压港, 具有非常重要的意义。本文以为若干个钢厂供应铁矿石的港口为研究对象, 在考虑订货成本、存货成本、缺货成本、特别订货成本的前提下, 计算港口的最优库存量和最小成本, 具有一定的应用价值。

关键词:港口,铁矿石,优化模型

1 引言

2010年我国产粗钢62 665万吨, 比上年增加5 300万吨, 增长9.3%, 产能利用率82%。全年进口铁矿石6.2亿吨, 同比下降1.4%, 铁矿石对外依存度高达62.5%;控制的海外铁矿石资源量仅为9%左右, 进口铁矿石的企业多而分散。虽然目前中国已经成为全球最大钢铁生产和消费国, 同时也是铁矿石最大进口国, 但是在全球铁矿石价格谈判中, 中国钢铁企业处于不利位置。自从2003年加入国际铁矿石谈判以来, 我国在铁矿石定价上毫无话语权, 占世界铁矿石出口65%份额的淡水河谷、力拓和必和必拓在价格谈判中一言九鼎。

2010年, 进口铁矿石价格一路高涨, 从年初的90美元/吨左右上扬至年底的超过140美元/吨。由于铁矿石价格大幅上涨, 中国钢铁行业2010年全年利润预计850亿元左右, 扣除投资收益近80亿元, 主业利润仅770亿元。2010年中国进口铁矿砂平均价格为128美元/吨, 上涨60.6%, 由于进口铁矿砂涨价, 中国钢铁行业为此多支出近300亿美元。2010年中国钢铁行业的利润率仅为3.5%, 低于各行业平均6%的利润率, 在所有行业中垫底。相比之下, 必和必拓2009-2010财年的净利润飙升116.5%, 达到127.2亿美元, 淡水河谷2009年第三季度营业利润为78亿美元, 环比增长69.2%。

近年来, 伴随着港口不断上调的铁矿石现货价格, 二季度协议价格上调的预期也逐步强烈。三大矿山之一的必和必拓日前向钢厂发出了铁矿石最新报价, 由1月份的155美元/吨上涨至168美元/吨 (离岸价) 。如果按照澳大利亚到中国平均海运费7美元/吨计算, 矿石到岸价格将达175美元/吨。

面对不断上涨的铁矿石价格, 在满足钢铁生产矿石需要量的同时, 如何最优化港口库存量, 防止压港, 具有非常重要的意义。本文以为若干个钢厂供应铁矿石的某港口为研究对象, 在考虑订货成本、存货成本、缺货成本、特别订货成本的前提下, 计算港口的最优库存量和最小成本。

2 假设条件

(1) 港口为N个钢厂补充供应铁矿石, 港口两次补货之间的时间间隔为一个循环, 钢厂两次可补货时刻之间的时间间隔为一个周期, 且港口的一个补货循环是钢厂i的补货周期的mi倍。港口有充足的库存满足所有钢厂i的mi个周期的补货要求。

(2) 港口来自钢厂i一个周期总需求Wi, 包括正常补货Yi和特别补货Xi;钢厂i在一循环的第j个周期对港口需求量Wij;港口每个循环末的期望库存水平V。

(3) 港口库存成本主要包括库存订货成本C1、持有成本C2、缺货成本C3, 以及发生缺货时而进行特别订货的成本C4。[1]

(4) 港口和钢厂均采取周期盘点补货策略, 港口和钢厂在它们各自的订货时刻分别向矿石供应商和港口订货并使其期初库存水平分别达到基本库存水平S、si;补货提前期为零[2]。

(5) 第i个钢厂每个周期的的铁矿石需求量ri, ri~N (μiσi2) , 其分布密度和分布函数分别记以fi (x) 和Fi (x) , 不同钢厂之间及同一钢厂不同周期之间的随机需求是相互独立的[3]。

(6) 在港口处发生缺货时, 以常数p的概率造成缺货, 以1-p的概率进行特别订货。

3 模型建立及求解

由假设有:Wi=Yi+Xi, 因为:Yi=min{ri, si}, 故有[4]:

又因为如果Yi

否则Yi=si且Xi>0, 所以有:XiYi=siXi

E[Wi2]=E[Xi2]+2E[XiYi]+E[Yi2]=E[Xi2]+2si (1-μ) ei+E[Yi2], 故可得到Wi的期望和方差分别为:

基于假设, 则所有钢厂对港口在该循环总需求为:

因为港口总的需求是N个独立随机变量的和, 并且一般而言N是足够大的, 故由中心极限定理, 港口每个循环总需求近似服从均值为μ、方差为σ2的正态分布, 即:

P{ri

港口每m个周期 (即一个循环) 被补货至其固定的基本库存水平S, 用 (期初库存+期末库存) /2作为平均库存A的近似值, 即:

所以港口每个循环总期望成本为:

C (S) =C1+C2姨S+0乙s (S-2x) f (x) dxΣ+ (C3p+C4 (1-p) ) s乙∞ (x-S) f (x) dx

设Φ (x) 是标准正态分布函数, 令Φ (zα) =α, 则港口的最优库存水平及相应的库存成本为:

4 仿真计算

假设钢厂铁矿石需求分布服从正态分布N (1 000, 80) , 各客户需求相互独立, 基本参数如下:客户数30;配送中心订货成本7;配送中心单位商品缺货成本5;配送中心单位商品持有成本6;配送中心单位商品特别订货成本10;特别订货率0.5。可计算求得正态分布时的港口最优库存为35 896;总费用297 561。本算例只是表明公式计算的可行性, 实际计算需要收集相关数据。

参考文献

[1]H Schneider, D B Rinks, P Kelle.Allocation of Safety Stocks in a Whole-sale Inventory System Using a Service Level[R].Working Poper, Depart-ment of Quantitative Business Analysis Louisiana State Vniversity, 1989.

[2]A Svoronos, P Zipkin.Estimating the Performance of Multi-Level InventorySystems[J].Opertions Research, 1988, 36 (1) :57-72.

[3]S Chopra, P Meindl.Supply Chain Management:Strategy, Planning, andOperation[M].Upper Saddle River, NJ:Prentice Hall, 2001:78-91.

[4]《运筹学》教材编写组.运筹学[M].北京:清华大学出版社, 2005:346-376.

例析正态分布 篇2

[参数对正态分布图象的影响]

例1 已知三个正态分布密度函数[φix=12πσie-x-μi22σ2i]

([x∈R],[i=1,2,3])的图象如图所示,则( )

[O][x]

A. [μ1<μ2=μ3],[σ1=σ2>σ3]

B. [μ1>μ2=μ3],[σ1=σ2<σ3]

C. [μ1=μ2<μ3],[σ1<σ2=σ3]

D. [μ1<μ2=μ3],[σ1=σ2<σ3]

解析 平均数μ决定正态曲线的对称轴(中心位置);标准差σ决定正态曲线的陡峭或扁平程度. σ越小,曲线越陡峭;σ越大,曲线越扁平. 从图象中不难发现[y=φ1(x)]与[y=φ2(x)]的形状相同且[y=φ3(x)]的图象比他们要扁平,[y=φ2(x)]与[y=φ3(x)]图象的对称轴相同且在[y=φ1(x)]图象的对称轴的右边.

答案 D

[正态分布曲线的对称性]

例2 如图是正态分布N~(0,1)的正态分布曲线图,下面4个式子中,能表示图中阴影部分面积的个数为( )

[O][y][x][-a]

①[12-φ(-a)] ②[φ(-a)]

③[φ(a)-12] ④[12φ(a)-φ(-a)]

A. 1 B. 2 C. 3 D. 4

解析 该题目需掌握以下几个知识点:曲线与x轴围成的区域面积表示概率,其值为1;图象关于y轴对称,因此y轴两侧对应的区域面积均为[12];[φ(a)]表示的是指[x≤a]时对应的区域面积. 在[-a≤x≤a]处的图象关于y轴对称,结合这几点不难得出①③④正确.

答案 C

[标准正态分布概率的求解]

例3 设随机变量ε服从N(0,1),求下列各式的值:

(1)[P(ε≥2.55)];

(2)[P(ε<-1.44)];

(3)[P(ε<1.52)].

分析 一个随机变量若服从标准正态分布,则可以借助标准正态分布表,查出其值. 但在标准正态分布表中只给出了[x0≥0],即[P(x

解 (1)[P(ε≥2.55)=1-P(ε<2.55)]

=[1-φ(2.55)=1-0.9946=0.0054];

(2)[P(ε<-1.44)=φ(-1.44)=1-φ(1.44)]

[=1-0.9251=0.0749];

(3)[P(ε<-1.52)=P(-1.52<ε<1.52)]

[=φ(1.52)-φ(-1.52)=2φ(1.52)-1]

[=2×0.9357-1=0.8714].

[一般正态分布密度函数结构分析及相关概率的求解]

例4 设[X~N(μ,σ2)],且总体密度曲线的函数表达式为:[f(x)=12πe-x2-2x+14,x∈R].

(1)求μ,σ;

(2)求[P(x-1<2)]及[P(1-2

分析 利用一般正态总体[N(μ,σ2)]与标准正态总体[N(0,1)]概率间的关系,将一般正态总体划归为标准正态总体来解决. 对于任一正态总体[N(μ,σ2)],其取值小于[x]的概率为[f(x)=φ(x-μσ)]. 对于这个公式,课本中不加证明地给出,只用了“事实上,可以证明”这几个字说明. 这表明,对等式[f(x)=φ(x-μσ)]的来由不作要求,只要会用它求正态总体[N(μ,σ2)]在某个特定区间的概率即可.

解 (1)由于[f(x)=12πe-x2-2x+14=12π?2e-(x-1)22(2)2]根据正态曲线函数的结构特征,对照已知函数模型知[μ=1],[σ=2],故[X~N(1,2)].

(2)[P(x-1<2)]=[F(1+2)-F(1-2)]

[=φ(1+2-12)-φ(1-2-12)]

=[φ(1)-φ(-1)=2φ(1)-1]=[2×0.8413-1=0.6826]

又[P(1-2

=[F(1+22)-F(1-2)]

[=φ(1+22-12)-φ(1-2-12)]

=[φ(2)-φ(-1)=φ(2)+φ(1)-1]

=[0.9772+0.8413-1=0.8185].

[正态分布随机变量落在特定区间概率的应用]

例5 假设每天从甲地去乙地的旅客人数[X]是服从正态分布[N(800,502)]的随机变量. 记一天中从甲地去乙地的旅客人数不超过900的概率为[p0],求[p0]的值. (参考数据:若X~N(μ,σ2),有P(μ-σ

解析 从题目中可以分析得出正态分布中的参数所对应的数值[μ=800,σ=50;900=μ+2σ].

结合图形的对称性可得

[P(X≤900)=P(X<μ+2σ)]

[=12+12P(μ-2σ

故[p0=0.5+12×0.9544=0.9772].

[练习]

1. 已知随机变量x服从正态分布N(μ,σ2),且P(μ-2σ

A. 0.1358 B. 0.1359

C. 0.2716 D. 0.2718

[y] [x][O][C][1][1] 2. 在如图所示的正方形中随机投掷10000个点,则落入阴影部分(曲线C为正态分布N(0,1)的密度曲线)的点的个数的估计值为( )

A. 2386 B. 2718

C. 3413 D. 4772

[参考答案]

[x][y][x=4][O][A][E][F][B][C][G][D][H] 1. 由题知x~N(4,1),作出相应的正态曲线,如图,依题意P(2

2. 根据正态曲线对称性和[P(μ-σ<ξ<μ+σ)=68.26%]可得阴影部分的面积为[12P(μ-σ正态模型 篇3

固定资产的各期折旧额应该体现固定资产的使用效能发挥和价值损耗的内在规律。在固定资产的使用初期,由于对固定资产的综合性能和配套技术不能很好地掌握以及管理水平的限制,其效能未能充分发挥。固定资产价值损耗包括有形损耗和无形损耗,此时的固定资产折旧额应处于较低水平。随着时间的推移,企业对固定资产逐渐熟悉以及管理水平的提高,固定资产的使用效能逐渐增强,价值损耗随之增大,折旧额应呈现递增的趋势。当固定资产的使用效能达到最大化后,技术进步导致的无形损耗以及使用负荷导致的有形损耗增大,修理费用增加,固定资产性能减弱,使用效能日益减弱直至报废。固定资产使用效能的发挥和价值损耗呈现先上升后下降的轨迹,固定资产的各期折旧额也应呈现先上升后下降的轨迹,类似于正态分布的特征。

实践证明,凡一个随机现象是由许多随机因素共同作用的结果,各随机因素所发挥作用的大小都是相等的,那么这个随机现象的概率模型就是正态分布的。分析固定资产各期折旧额的影响因素可知,各期折旧额大体也应符合正态分布特征。基于此,引入正态分布,构建固定资产正态折旧模型。

严格地说,正态分布的概率密度函数曲线向两端无穷延伸时与x轴所围的面积渐进趋于单位1。但通常认为,正态分布时,x几乎只取(u-3σ,u+3σ)中的值,即P(|x-u|<3σ)=P (u-3σ

1. 固定资产正态折旧模型的构建。

(1)确定固定资产的折旧率。将标准正态分布的概率密度函数的横轴(-3, 3)区间长度按固定资产的折旧期限等额分为n段,每段的平均长度为6/n,形成n个区间,[-3+6 (t-1)/n,-3+6t/n](t=1, 2,…,n),将各段对应的曲边梯形的面积{Ф[-3+(6/n) t]-Ф[-3+(6/n) (t-1)]}作为各期的固定资产折旧率,各期的折旧率之和近似等于1。

固定资产正态折旧模型下各期折旧率的确定如下图所示。图中的区间[-3+6 (t-1)/n,-3+6t/n]中的曲边梯形的面积{Ф[-3+(6/n) t]-Ф[-3+(6/n) (t-1)]}即对应为第t期的折旧率。

(2)确定固定资产折旧的基础。以“C-S”作为固定资产折旧的基础,其中:C为固定资产原值,S为固定资产净残值。

(3)计算固定资产各期的折旧额。

其中:Dt为第t期的折旧额,t=1, 2, 3,…,n。

2. 隐含的一个悖论。

以上构建的固定资产正态折旧模型虽然使得各期折旧额的绝对数的分布具有正态的合理性,但是至少还存在如下两个需要解决的问题:

(1)问题一:折旧总额的误差较大。正态分布的概率密度函数图像与x轴无限逼近,也就是说正态分布的概率密度函数与x轴形成的曲边梯形的面积总是逐渐趋于单位1,但始终不能等于单位1。而且我们根据正态分布的“3σ法则”,选择曲边梯形在区间(u-3σ,u+3σ)的面积作为折旧基础,至少存在0.26%的折旧总额误差。当固定资产的折旧总额很大的时候,这一误差会更大。显然,减小折旧总额误差的方法是尽量扩大折旧区间,比如选择折旧区间为(u-4σ,u+4σ)甚至更大。

(2)问题二:各期折旧额的差距较大。当我们依据正态分布的“3σ法则”选择了折旧区间(u-3σ,u+3σ)时,通过代入具体数据进行实际测算,我们发现将这一区间按固定资产折旧年限分为n等份时,各期对应的折旧率之间差距太大,进而导致各期对应的折旧额相差较大,这同固定资产使用效能的发挥和价值损耗的真实情况不吻合。显然,为了解决这一问题,就需要进一步把整个折旧区间缩小,比如选择折旧区间为(u-2σ,u+2σ)甚至更小。

通过分析不难看出,要减小折旧总额的误差就需要扩大折旧区间,而要缩小各期折旧额的差距就要缩小折旧区间。也就是说,问题一与问题二刚好是一个悖论,如果用已有的思路去解决问题一,就会扩大问题二,反之亦然。

二、两条修正思路

为了更好地同时解决固定资产正态折旧模型中互为悖论的两个问题,笔者提出如下两条修正思路:

1. 修正思路一:

同时除以总折旧区间单位,确保折旧率之和等于1。将折旧区间选择为(u-2σ,u+2σ),即标准正态分布的区间为(-2, 2),缩小了折旧区间,这首先解决了问题二,即“各期折旧额的差距较大”的问题。在此基础上,同时将确定的各期折旧率统一除以区间(-2, 2)上曲边梯形的面积[Ф(2)-Ф(-2)],作为对各期折旧率的调整,这又解决了问题一,即“折旧总额的误差较大”的问题。这样,经过这两个步骤的修正之后,固定资产正态折旧模型就较好地解决了以上两个互为悖论的问题。

以此思路进行修正之后的固定资产正态折旧模型确定的各期折旧额为:

其中:Dt为第t期的固定资产折旧额;C为固定资产原值;S为固定资产净残值;代数式{Ф[-2+(4/n) t]-Ф[-2+(4/n) (t-1)]}/[Ф(2)-Ф(-2)]为修正之后的第t期的折旧率;t为折旧期数,t=1, 2, 3,…,n。

2. 修正思路二:

引入权数,直接调整各期折旧率。将折旧区间选择为(u-4σ,u+4σ),即标准正态分布的区间为(-4, 4),扩大了折旧区间,从而减小了固定资产折旧总额的误差,这首先解决了问题一,即“折旧总额的误差较大”的问题。在此基础上,在各期折旧率中引入权数,直接调整各期的实际折旧率,这样做就解决了问题二,即“各期折旧额的差距较大”的问题。修正方案中的权数可以参考年数总和法的折旧率,只不过需要把其改成对称的形式。当然,折旧区间是否需要继续扩大、权数的确定是否合理,需要在二者之间逐渐找到一个平衡点。

各期折旧率的权数的确定规则如下:

确定折旧区间为(u-4σ,u+4σ),以(C-S){Ф[-4+(8/n) t]-Ф[-4+(8/n) (t-1)]}作为修正基础。

当折旧年限为奇数时,其各期折旧率的修正权数依次为:

当折旧年限为偶数时,其各期折旧率的修正权数依次为:

将以上确定的各期折旧率的权数引入固定资产正态折旧模型中去,便可以得到修正之后的固定资产正态折旧模型。下面以折旧年限为奇数的情况为例进行说明,折旧年限为偶数的情况依此类推。按此思路修正之后的固定资产正态折旧模型下的各期折旧额依次为:

其中:Dt为第t期的固定资产折旧额;C为固定资产原值;S为固定资产净残值;t为折旧期数,t=1, 2, 3,…,n。

毫无疑问,经过上述两条思路修正之后的固定资产正态折旧模型是一个更合理、更完善的固定资产正态折旧的理论模型。

参考文献

[1].徐晓静, 刘太平.固定资产折旧中的模糊数学方法.企业经济, 2004;9

[2].孙芳城, 郭华.固定资产折旧方法新探.财会月刊 (会计) , 2005;9

[3].上官敬芝.平均贴现折旧法简介.财会月刊 (会计) , 2006;6

[4].代宏霞, 林祥友.固定资产动态折旧模型的构建.财会月刊 (理论) , 2007;4

[5].林祥友, 蓝文永.固定资产正态折旧模型的构建与修正.财会月刊 (理论) , 2007;8

由正态分布看人生选择 篇4

走近正态分布

也许在你没有接触统计之前,你不知道你的身高、体重、人生目标等与周围同龄朋友有什么不同。而熟悉统计之后,你就会知道你和大多数普通的同龄朋友一样拥有差不多的身高、差不多的体重、差不多的人生目标,因为你们都是在同样的环境之下培养出来的,吃的是同样的粮食,喝的是同样的自来水,呼吸的是同一片蓝天下的空气,读的是同样的课本,玩的是同样的游戏等等。生活的背景差异小,由此形成的生理和心理特征也不会有太大的差别,除非有不可控制因素(如遗传)引起的变异。如成年男人中有中国“第一高人”之称的鲍喜顺(身高2.36米),也有身高不到1.5米的侏儒症患者,但这些奇高奇矮的人在我们周围毕竟只是少数,大多数成年男性的身高都不会特别地突出。也就是在一个成年男性人口的群体中,身高在平均值附近的人最多,而身高偏离平均值越远的人越少。

在自然、经济、社会等客观现象中,大凡能以数据反映者,我们均能将这些通过测量或计量取得的具有共同性质的数据绘成图,而且大都会呈现出下面的图形来。如图1所示。

这种“中间多,两头少,左右对称”的分布规律,就是统计学中的正态分布规律。实践证明:某类人群的体重、身材、情商、智商,某地河流的水位,某种电子管的使用寿命,某种包装商品的重量与其重量误差,在特定生产条件下生长某种农作物的产量,某地居民的收入与存款等大量随机变量都服从或近似服从正态分布规律。

正态分布规律透视

正态分布是最重要的一种概率分布。由于客观现象中绝大多数都是呈现这种分布,因此正态分布也叫常态分布。正态分布的图形是一条高峰位于中央、两侧逐渐下降并完全对称、两端永远不与横轴相交的钟形曲线。

正态分布是由它的平均数μ和标准差σ惟一决定的图形,具有两头小、中间大、左右对称的基本特征。也就是左边的变量值与右边的变量值出现的概率逐渐减小,而位于最中间的变量值出现概率最大,而且以此为中心,左右两边基本对称。在σ不变的情况下,正态分布曲线形状不变,若μ变大时,曲线位置向右移,说明变量值X的整体水平提高;若μ变小时,曲线位置向左移,说明变量值X的整体水平降低。在μ不变的情况下,正态分布曲线位置不变,若σ变大时,曲线形状变的越来越“胖”和“矮”,说明变量值X较分散;若σ变小时,曲线形状变的越来越“瘦”和“高”,说明变量值X较集中。如图2所示。

无论变量值X与其标准差σ如何取值,正态分布曲线与横曲围成的面积都可用100%或1来表示,表明该正态分布曲线与横曲围成的面积包含了所有的X值,或者说所有变量值X都落在X轴上。正态曲线与横轴上某一区间构成的面积即为包含变量值X的比例,或者说变量值X在该区间出现的概率。常见的有以下三种情况:①正态曲线与横曲上由平均数加减一个标准差的区间构成的面积为68%,说明变量值X落在区间(μ±1σ)之内的概率为68%;②正态曲线与横曲上由平均数加减二个标准差的区间上的面积占总面积的95%,说明变量值X落在区间(μ-2σ,μ+2σ)之内的概率为95%;③由平均数加减三个标准差构成区间的面积占总面积的99%,说明变量值X落在区间(μ-3σ,μ+3σ)之内的概率为99%。假设我国在岗职工的年平均工资收入为5万元,标准差为1万元,则可判断我国在岗职工中有68%的人年工资收入在4万~6万之间,有95%的人年工资收入在3万~7万之间,有99%的人年工资收入在2万~8万之间。

正态分布与人生选择

就单个人而言,一个人的人生轨迹犹如一条特殊的正态分布曲线。这条曲线和X轴相交,所围成的面积囊括了人生的核心内容:学习、就业、财富、爱情、家庭、健康、友情等。用X轴代表生命的旅程,Y坐标代表人生的意义,因一个人刚出生时仅是一个需要呵护的生命,人生意义为0,当一个人走到人生的终点时,人生意义也归为0,因此人生轨迹的起点从坐标原点开始,随着生命旅程X的延续,人生意义Y由无到低再到高,再由高到低再到无。人生的宽度(X值的取值范围)与深度(Y的取值范围)决定人生的轨迹。每一次人生选择对于其人生的宽度与深度都会产生举足轻重的作用。如何做出明智的人生选择,拓展人生的宽度与深度,丰富我们的人生,是我们每一个人都值得深思的问题。

就所有人而言,你会发现在我们的日常生活中,许多现象呈现正态分布,虽有差异,偏离正常,但表现过高或过低的情况总是比较少,而且越不正常的可能性越少。比如人生目标,现实中“总统”只有一个,真正的发明家也不太多,而普通人随处可见。明确了这一规律,就不应以当“总统”或“发明家”为目标去要求我们的孩子,而应该帮助他们像大多数普通人一样根据自己的实际情况树立一个通过努力就可以达到的目标,当然没有目标也是不行的。人生一旦没有目标,就没有努力的方向,就会庸庸碌碌过日子,一生无所事成,然而在我们的身边总能看到少数目标不明确的人。再说身边的朋友,最要好、最贴心的不会很多,明争暗斗、勾心斗角的也是少数,而不冷不热、不疏不亲的“点头朋友”却随处可见。“点头朋友”约占95%,也就说你在大街上随便碰到的100个朋友中,大约只有五个是好朋友或坏朋友,其余都是“点头朋友”。明白了这一点,我们就应好好珍惜那少数几个难能可贵的好朋友们,对那95%的“点头朋友”要少些期待和要求,对那些无可救药的坏朋友则应该敬而远之,避免不必要的麻烦。

正态模型 篇5

一、方法建立

第一步:使用M atlab做出样本的频率直方图, 判断数据大致符合何种分布;第二步:利用正态概率纸做正态性检验, 样本数据在概率纸上描点, 若诸点在一条直线附近, 则认为该批数据来自正态总体;若诸点明显不在一条直线附近, 则认为该批数据的总体不是正态分布;第三步:进一步检验该批数据的总体服从正态分布, 采用经典的卡方拟合优度检验法进行验证;第四步:利用数据的正态分布特性进行相关求解。

二、实例分析

通过对某企业的实地调查与统计, 得到其在过去一年255个交易日的日收益额 (单位为万元) 的统计数据如下表1所示。

现做出假设:企业每天结算一次, 保持每天在市场上的投资额为1000万元;影响每天收益额的外界因素基本稳定;所抽取的255个交易日中的收益额为随机抽样;各周期间的收益额相互独立;收益率与收益额呈简单线性关系。

首先使用M atlab做出样本的频率直方图进行直观判断。通过观察, 255个交易日的日收益额的频率直方图近似服从正态分布, 笔者又对比了与该样本同期望、同方差的正态分布图, 见图1。

可知, 该公司255个交易日收益额的频率直方图与其同期望、同方差的正态分布图两者几乎完全契合, 可以初步认为该样本数据服从正态分布。再用正态概率纸对数据服从的分布进行检验, 运行结果如图2所示。

经典的χ2拟合优度检验法进行验证:

1) 原假设:过去一年该公司255个交易日的日收益额的总体服从正态分布, 即H0∶X服从正态分布;备择假设为:过去一年该公司255个交易日的日收益额的总体不服从正态分布, 即H1∶X不服从正态分布;

2) 将整体样本X的取值范围分成t个互不重叠的小区间。由题目所提供的样本值作分割区间:[-∞, -12) 、[-12, -8) 、[-8, -4) 、[-4, 0) 、[0, 4) 、[4, 6) 、[6, 8) 、[8, 10) 、[10, 12) 、[12, 16) 、[16, 20) 、[20, 24) 、[24, 27) 、[27, +∞) , 区间数m=14, 定第i个区间的实际频数为ni, 并计算Pi=F0ti-F0ti-1, i=1, 2, …, 14, 其中t0=-22, t14=32, 根据已经假设的正态分布, 确定理论频数n Pii=1, 2, …, 1 4;

3) 根据定理:若n充分大, 则当H0为真时, 统计量 总是近似的服从自由度为m-r-1的χ2分布, r是被估计的参数个数;其中, n=255, m=14, r=2, 给定显著性水平α=0.05, 则PΣχ2≥χα2m-r-1Σ=α, 查χ2分布表可得:χα2m-r-1=χ02.0514-2-1=19.6751, 即拒绝域为:Ic=Σχ2≥19.6751Σ;

由以上检验可知, X~N 7.4863, 97.0619。可得该正态分布的概率密度和分布函数为:

估计下一周期内的损失数额超过10万元的可能性, 根据样本数据的正态分布性, 即为:

查标准正态分布表, 可得:

即一个周期内损失超过10万元的概率为3.84%。

考虑一个周期内的损失超过10万元的可能性不大于5%的最大初始投资额M。设收益率为r, 收益额为X, 则X=M r, 日收益额X服从正态分布, 初始投资额为一个常数, 故收益率也服从正态分布。

故初始投资额最多为M=1153.27万元。

三、问题推广

四、结语

文章通过对企业历史投资数据的观察与统计, 根据相关理论及历史经验, 认为数据近似符从正态分布。接着通过m atble作图以及卡方拟合优度检验验证了这一猜想, 这是本篇文章的基本立足点之一。基于此结论, 开始对一个周期内, 企业投资风险的相关数据进行预测。最后将其推广到T周期内预测的一般情形。我们通过某企业的2012年的统计数据验证了该套方法的有效性, 同时, 该套方法易于应用到其他任何企业的投资风险预测问题。

摘要:文章主要探究金融投资中的风险掌控问题, 需要根据历史数据, 建立适当的模型, 从而对今后一周期, 两周期, 甚至更一般的情况下的投资风险进行预测。通过对某公司的数据收集, 对其进行实例分析, 建立正态分布拟合模型, 并进行卡方拟合优度检验, 得到相关结论, 进而推广到一般情况。

关键词:投资风险预测,正态分布拟合,卡方拟合优度检验

参考文献

[1]刘小茂, 马林等.资产相对价值的VaR和CVaR风险[J].统计与决策, 2006.

[2]王亮.基于CVAR模型的风险度量[J].统计与决策, 2011.

[3]姜启源, 谢金星, 叶俊等.数学模型[M].高等教育出版社, 2011.

正态模型 篇6

云模型是李德毅院士在模糊数学和概率统计的基础之上,通过特定的结构算法所形成的定性概念与其定量表示之间的转换模型。云模型将自然语言中定性概念的模糊性和随机性有机地结合在一起,实现了定性语言值与定量数值之间的自然转换[1,2]。正态云模型通过三个数字特征(期望、熵、超熵)描述信息的模糊性和随机性,这三个数字特征值把模糊性(边界的亦此亦彼性)和随机性(发生的概率)完全集成到一起,构成定性和定量相互间的映射,作为知识表示的基础,有效的反映了模糊性和随机性之间的关联性。

付斌等[3,4]归纳了正态云模型应用活跃的几个领域(数据挖掘、算法改进、网络安全等),分析它在这些应用中的方法和优势,其中数据挖掘是一个重要的应用方向。数据挖掘中的定量数据可以通过正态云模型来实现定性概念转换,同时建立在定性概念基础之上的数据挖掘任务需要进行相似度计算,例如不确定性分类、聚类、相似性搜索等。特别的,在股票时间序列数据挖掘中,云模型可以对时间序列数据进行分段概念表示,需要利用云模型相似性计算方法来度量概念之间的距离,以便在挖掘过程中发现潜在的序列模式和其它信息。因此,在云数据挖掘应用领域中,正态云模型相似度计算方法的优劣直接影响到数据挖掘算法的效率[5]。张勇等[6]提出了一种通过随机取若干个云滴,计算云滴平均距离值来表示正态云模型的相似度,但选取云滴、对云滴的排序以及云滴的组合将不利于大规模数据;张光卫等[7]将正态云模型的数字特征当作向量,利用夹角余弦来计算相似度,这种方法容易忽视熵和超熵的作用。李海林等[5]提出通过求解两个正态云模型期望曲线和最大边界曲线相交重叠部分面积来表示云模型的相似度,这两种方法前者忽视了超熵的作用后者扩大了超熵的作用,而且仅考虑重叠面积衡量云模型相似度仍然不够,尤其对于两个云模型具有包含关系的情形。本文依据云模型的统计特征重新定义了正态云期望曲线,将修正的正态云期望曲线看作正态模糊数,考虑内积和外积即考虑重叠面积与非重叠面积之比的方法,提出基于组合模糊贴近度的云模型相似度计算方法。实例表明,该方法在一定程度上能够克服现有方法的不足。

2 云模型概念及数字特征

云模型是用语言值表示的某个定性概念与其定量表示之间的不确定性转换模型,它把模糊性与随机性这二者完全集成在一起构成定性和定量相互间的映射[1]。

定义1设U是一个普通集合,U={x},称为论域。C是论域U上的概念。论域U中的元素x对C的隶属函数μC(x)∈[0,1]是一有稳定倾向的随机数。概念C的云模型是从论域U到区间[0,1]的映射,有

从云的基本定义出发,论域U中某一个元素与它对概念C的隶属度之间的映射是一对多的转换,而不是传统的模糊隶属函数中的一对一的关系。

定义2设U为论域,C是论域U上的定性概念,若定量值x∈U,且x是定性概念C的一次随机实现,若满足:x~N(Ex,En'2),其中,En'~N(En,He2),且对C的确定度满足:

则称在论域U上的分布成为正态云模型。

正态云期望曲线是研究正态云重要几何特征的重要方法,刘常昱等[8]证明了由正态云发生器算法生成的正态云模型(1)产生的云滴是一个期望为Ex,方差为En2+He2的随机变量,因此,文献[5]定义的期望曲线方差忽视了超熵的作用,具有一定的缺陷,为此定义如下改进的正态云期望曲线。

定义3若随机变量x满足:x~N(Ex,Wn'2),其中En'~N(En,He2),且En≠0),则

称为正态云的修正期望曲线。

正态云模型是基本的云模型,正态分布具有普适性,大量社会和自然科学中定性知识的云的期望曲线都近似服从正态或半正态分布[9]。正态云的数字特征反映了定性概念和定量特性,用期望Ex(Expected Value)、熵En(Entropy)、超熵He(Hyper Entropy)三个数值来表征,如图1所示。

3 基于组合模糊贴近度的正态云相似度计算

模糊贴近度概念是我国学者汪培庄教授[10]于1982年提出的,它不同于一般数学意义下的“相似度”,它是用来描述两个模糊数之间的贴近程度,对贴近度的公理化定义是由刘学成[11]完成的。

定义4设Ψ(U)为论域U的模糊幂集,若映射C:Ψ(U)×Ψ(U)→[0,1],满足

则称为模糊数的贴近度。

设论域U为实数域R,则依据定义4和内积和外积的性质,定义下列模糊贴近度

其中,表示两个模糊数重叠面积与非重叠面积之比,表示两个模糊数重叠面积与总面积之比。

假定正态云修正期望曲线是一个正态模糊数,则正态云模型相似度计算就可以理解为计算两个正态模糊数的贴近度问题。设两个正态模糊数为

若a1<x*<a2,则两个模糊数的交点横坐标为

则由式(3)和式(4),相应的

为了计算方便,令类似的令,有

将上式代入式(6)和式(7),得

对于上述,记,

则有

若a2<x*<a1时,类似的也可以得到上述结果。对于上述两个模糊贴近度,定义下列算术平均组合模糊贴近度

因此,对于两个正态云模型N1(Ex1,En1,He1)和N2(Ex2,En2,He2),则基于组合模糊贴近度(Combined Fuzzy Similarity Measure,CFSM)的云模型相似度为

4 实例分析

为了更好的说明云模型相似度计算方法的有效性,分别利用文献[6]和文献[7]中示例数据进行数据实验,并且与现有方法进行比较,分析它们的实验结果。

实例1文献[6]给出3个正态云模型N1=(3,3.1 23,2.05),N2=(2,3,1),N3=(1.585,3.556,1.358),如图2所示,这3个正态云模型具有熵和超熵比较大的特征,也即模糊性和随机性都比较大,因此在计算它们的相似度时,不但要考虑熵的因素也必须要考虑超熵的作用。

利用Matlab软件以及正态云发生器,由组合模糊贴近度公式(11)对3个正态云模型的相似度进行计算,实例结果如表1所示。

由表1可知,N2和N3的相似度最大((0.9035),N1和N2的相似度次之(0.7790),N1和N3的相似度最小(0.7223),这个结果与图2的直观印象一致。由表2容易发现,SCM、ECM和CFSM方法的结果一致,但是CFSM方法效果更好,这是因为SCM算法通过取随机云滴的平均值,并计算平均值的距离度量云模型的相似度,这种方法容易引起结果的不稳定;EC M方法没有考虑超熵的作用,计算结果要大于CFSM方法;MCM方法虽然考虑了超熵的影响,但是采用最大边界曲线方法扩大了超熵的作用,导致了与其他三种方法不同的结果。

实例2文献[7]给出了4个正态云模型N1=(1.5,0.62666,0.3390),N2=(4.6,0.60159,0.30862),N3=(4.4,0.75199,0).27676),N4=(1.6,0.60159,0.30862),如图3所示,这4个正态云模型的熵和超熵虽然都不是很大,而且相互之间相差不大,在计算它们的相似度时,也必须要考虑超熵的作用。

利用Matlab软件以及正态云发生器,由组合模糊贴近度公式(11)对4个正态云模型的相似度进行计算,实例结果如表3所示。由表3可知,N1和N4的相似度最大(0.88),N2和N3的相似度次之(0.79),N1、N4和N2、N3的相似度最小(0.00、0.01),这个结果与图3的直观印象一致。由表4容易发现,LICM、ECM、MCM和CFSM方法的结果一致。但是,CFSM方法能够更好的鉴别云模型的相似度,LICM方法认为(N1,N4)和(N2,N3)的相似度一致(均为0.99),ECM方法认为(N1,N4)和(N2,N3)的相似度相差0.08,MCM方法认为(N1,N4)和(N2,N3)的相似度相差0.01,而CFSM方法认为(N1,N4)和(N2,N3)的相似度相差0.09。

5 结论

本文在现有云模型相似度计算方法的基础上,提出了一种新的基于组合模糊贴近度的正态云模型相似度度量方法。CFSM方法改进了现有的云模型期望曲线,修正期望曲线综合利用了云的三个数字特征,能更好地描述正态云的“骨架”,从模糊数学的角度利用组合模糊贴近度对正态云相似度算法进行了分析和描述。实例验证表明,该方法在计算正态云模型相似度方面是有效和可行的,在一定程度上能够克服现有方法的不足。云模型是一种具有定性表示数据能力的模型,如何运用云模型相似度计算方法定性分析数据之间的关系仍然是今后不确定数据挖掘研究的一个方向。

摘要:提出一种新的计算正态云模型相似度方法——基于组合模糊贴近度的正态云相似度方法,该方法利用两种模糊贴近度,并通过计算修正的正态云期望曲线的模糊贴近度度量云模型的相似度。实例表明,与现有方法相比本文方法计算简单,能够更有效的对正态云模型相似度进行度量。

关键词:正态云模型,相似性度量,期望曲线,模糊贴近度

参考文献

[1]李德毅等.不确定性人工智能[M].北京:国防工业出版社,2005.

[2]李德毅等.隶属云和隶属云发生器[J].计算机研究与发展,1995,32(6):15~20.

[3]付斌等.云模型研究的回顾与展望[J].计算机应用研究,2011,28(2):420~426.

[4]叶琼等.云模型及应用综述[J].计算机工程与设计,2011,32(12):4198~4201.

[5]李海林等.正态云模型相似度计算方法[J].电子学报,2011,39(11):2561~2567.

[6]张勇等.相似云及其度量分析方法[J].信息与控制,2004,33(2):129~132.

[7]张光卫等.基于云模型协同过滤推荐算法[J].软件学报,2007,18(10):2403~2411.

[8]刘常昱等.正态云模型的统计分析[J].信息与控制,2005,34(2):236~248.

[9]李德毅等.论正态云模型的普适性[J].中国工程科学,2004,6(8):28~34.

[10]汪培庄.模糊集理论及其应用[M].上海:上海科技出版社,1982.

正态模型 篇7

有限混合分布[1]提供了为众多随机现象建立统计模型的数学基础。由于该分布的灵活性, 无论在理论上还是实践上都受到人们的极大关注。事实上, 在过去的几十年里, 有限混合模型的应用范围和潜力得到广泛认可。混合模型已成功被应用到天文学、生物学、遗传学、医学、精神病学、经济学、物理学、社会科学等领域。在这些应用中, 有限混合模型支撑着各种统计技术, 包括聚类分析、判别分析、模式识别和生存分析等。混合分布模型的提出是为了解决如何在大量的数据中发现有用的信息、模式和知识这一问题, 而传统的单一分布很难有效地解决这个问题。不同的混合分布模型应用于不同的领域, 其中混合泊松分布在医学领域有广泛应用;混合指数分布在工程领域里有一定应用;而混合正态分布应用最广, 因为许多随机现象在样本量足够大时都可以用正态分布逼近, 并且混合正态分布模型也具有灵活、高效的拟合能力。

近年来, 越来越多的学者致力于用EM算法来解决混合模型参数估计问题。Gelffrey[2]利用EM算法对有限正态混合模型进行了讨论, 并给出了具体例子;凌燕[3]用不同的方法对不同情况下的混合分布模型的参数进行了估计;谢勤岚[4]介绍了混合模型极大似然参数估计的EM算法实现;张香云等[5]用EM算法推导出了隐Markov模型中参数的迭代公式;温艳清[6]对区间型Weibull分布使用EM算法进行了极大似然估计。本文针对混合正态分布模型, 将混合分布观测数据视为不完全数据, 通过数据扩张达到简化似然函数的目的。最后利用EM算法进行极大似然估计, 并且在得到相应迭代公式后, 进行了数值模拟。

1 EM算法及其性质

1.1 EM算法

EM算法由Dempster[7]等人提出, 是一种从不完全数据求参数的极大似然估计的迭代算法。该算法的每一次迭代由两步组成:第一步是求对数似然函数的条件期望 (E步) , 第二步是最大化E步计算所得的条件期望 (M步) 。该算法利用数据扩张, 将比较复杂的似然函数最优化问题化成一系列比较简单的函数优化问题。

形式上, 我们有两个样本空间X、Y, 以及从X到Y的一个多对一映射x→y (x) 。其中x= (x1, x2, …, xn) 是不能被观测到的, 被称为“完全数据”。我们只能观测到Y里的y= (y1, y2, …, yn) , 也就是所谓的“不完全数据”。设参数Ψ∈Ω, x的密度函数为fc (x|Ψ) , 则y的密度函数为:

这里的X (y) ={x∶y (x) =y}。

我们想用极大似然法估计参数Ψ, 也即对Ψ∈Ω, 使g (y|Ψ) 极大化。做法是令x= (y, z) 来表示y的完全数据, 其中z= (z1, z2, …, zn) 表示不可观测数据或缺失数据, 即将yi, i=1, …, n用缺值扩张为xi= (yi, zi) 。由于在统计问题中, 极大化不完全数据的密度函数g (y|Ψ) 要比极大化完全数据的密度函数fc (y|Ψ) 难很多, EM算法就是试图对AΨ∈Ω, 使lnfc (y|Ψ) 极大化。但是x不能被观测到, 从而就不知道1nfc (y|Ψ) , 所以我们用1n fc (x|Ψ) 在给定y和Ψ (k) (第k步Ψ的迭代值) 下的条件期望来代替。

更具体地说, 设Ψ (0) 是Ψ的初值, 则在第一次迭代中, E步需要计算:

Q (Ψ;Ψ (0) ) =EΨ (0) {lnfc (x|Ψ) |y}

M步则需要关于Ψ最大化Q (Ψ;Ψ (0) ) , 也就是求Ψ (1) , 使得对所有的Ψ∈Ω, 有:

再次执行E步和M步, 但是这次用Ψ (1) 的当前值来代替Ψ (0) 。在k+1次迭代时, E步和M步可以被定义如下:

E步:计算Q (Ψ;Ψ (k) ) , 其中Q (Ψ;Ψ (k) ) =EΨ (K) {lnfc (x|Ψ) |y}。

M步:求Ψ (k+1) ∈Ω, 使Q (Ψ;Ψ (k) ) 极大化, 即对所有的Ψ∈Ω, Q (Ψ (k+1) ;Ψ (k) ) ≥Q (Ψ;Ψ (k) ) 。

如此形成了一次迭代Ψ (k) →Ψ (k+1) 。将上述E步和M步进行迭代直至|Ψ (k+1) -Ψ (k) |或|Q (Ψ (k+1) ;Ψ (k) ) -Q (Ψ (k) ;Ψ (k) ) |充分小时停止。

1.2 EM算法的性质

简单和稳定是EM算法的最大优点, 以下定理[7]表明, 利用EM算法所得到的估计序列具有良好的收敛性, 且收敛到g (y|Ψ) 的最大值。估计序列为Ψ (k) , k=1, 2, …, L (Ψ|y) =lng (y|Ψ) 。

定理1 EM算法在每次迭代后均提高后验分布密度函数值, 即:

定理2 (1) 如果g (y|Ψ) 有上界, 则L (Ψ (k) |y) 收敛到某个L*; (2) 如果Q (Ψ;θ) 关于Ψ和θ都连续, 则在关于L的很一般的条件下, 由EM得到的估计序列Ψ (k) 的收敛值Ψ*是L的稳定点。

2 混合分布参数估计的EM算法

设混合正态分布模型的密度函数为:

以下根据两个正态分布混合建立模型, 利用EM算法对未知参数Ψ进行估计。

如果一组数据样本y= (y1, y2, …, yn) 来自于正态分布N (μ1, σ2) 与N (μ2, σ2) 的混合, 混合比为π与1-π, 且0<π<1, 则Ψ= (π, μ1, μ2, σ2) 为未知参数, 我们的目的是求Ψ的极大似然估计。设两重混合正态分布的概率密度函数为:

得到其似然函数:

对以上似然函数取对数得:

由于

很难用数值方法直接得到解, 下面我们用EM算法来进行分析。

引入潜在变量z= (z1, z2, …, zn) , 其中z1, z2, …, zn相互独立, 且

满足

这样, yi有如下条件分布:

yi|zi=1□N (μ1, σ2) , yi|zi=0□N (μ2, σ2) 。

设x= (y, z) , 则xi= (zi, yi) 的似然函数为:

对上式取对数并去掉与参数π, μ1, μ2, σ2无关的量, 则:

设在第k+1步迭代中, 有估计值Ψ (k) , 由EM算法的E步和M步得到新的估计值Ψ (k+1) 。

在E步中, 令

容易验证, 其中

在M步中, 解

得:

3 EM算法的随机模拟

下面用R统计软件分两种情形对EM算法进行随机模拟。

第一种情形:建立混合模型0.6N (0, 1) +0.4N (8, 1) , 分别产生100个和200个来自该混合模型的随机数, 然后取两组不同的初值:π (0) =0.4, μ1 (0) =-1, μ2 (0) =7, σ2 (0) =0.1和π (0) =0.8, μ1 (0) =3, μ2 (0) =10, σ2 (0) =4进行数值模拟, EM算法参数估计值结果如表一所示。

第二种情形:建立混合模型0.6N (0, 1) +0.4N (2, 1) , 分别产生100个和200个来自该混合模型的随机数, 也是取两组不同的初值:π (0) =0.5, μ1 (0) =-1, μ2 (0) =1, σ2 (0) =0.1和π (0) =0.7, μ1 (0) =1, μ2 (0) =3, σ2 (0) =2进行数值模拟, EM算法参数估计值结果如表二所示。

EM算法的收敛性和有效性从表一和表二可以明显看出。首先, 不论参数初值如何选取, 相同的样本容量得到的估计值几乎相同, 也就是说由EM得到的估计序列Ψ (k) 的收敛值Ψ*是L的稳定点。其次, 随着样本容量的增加, 迭代次数也在逐渐增加, 参数的估计值越接近于真值。最后, 由表一、表二对比可以看出, 当μ1和μ2的距离越远时, 迭代次数越少, 收敛速度越快;当μ1和μ2的距离越近时, 迭代次数越多, 收敛速度越慢。

参考文献

[1]McLachlan G J.Finite Mixture Models[M].New York:Wiley&Sons, Inc, 2000.

[2]McLachlan G J.The EM Algorithm and Extensions (Second Edition) [M].New York:Wiley&Sons, Inc, 2008.

[3]凌燕.混合模型中的参数估计问题[D].上海:华东师范大学, 2006.

[4]谢勤岚.基于EM算法的混合模型的参数估计[J].计算机与数字工程, 2006, 34 (12) :42-44.

[5]张香云, 张秀伟.基于EM算法隐Markov模型参数估计[J].大学数学, 2008, 24 (03) :53-56.

[6]温艳清.EM算法的一个应用[J].山东理工大学学报 (自然科学版) , 2012, 26 (06) :66-68.

[7]Dempster A P, Laird N.Maximum Likelihood from Incomplete Data via EM Algorithm[J].J.Royal Statistical Society Series B, 1977, (39) :1-38.

[8]肖枝洪, 朱强.统计模拟及其R实现[M].武汉:武汉大学出版社, 2010.

正态模型 篇8

在衡量波动的非对称性方面,主要有Nelson提出的EGARCH模型,Glosten等提出的GJR模型,Engle提出的AGARCH模型等。Hagurd、GonzalezRivera、Anderson等、Lee,Degennaro、Lubrano、Lanne和Saikkonen等先后扩展了这类模型,在方差方程中引入平滑转移函数,提出了各种STGARCH模型来衡量波动性。STGARCH模型在2个状态之间,还允许中间状态的平滑移动,TARCH模型实际 上是STGARCH模型的特定形式[1]。

在衡量波动的尖峰厚尾性方面,对金融时间序列波动结构特征的的建模效果很大程度上取决于其残差服从何种分布。“有效市场假说”下假设金融资产收益服从正态或高斯分布已无法合理描述、解释金融资产条件收益率经常呈现出现的尖峰厚尾现象。对此很多学者把学生t分布、广义误差分布( GED) 和Skewed - t分布引入到GARCH族模型的研究中,并取得了非常好的研究效果。而国外学者更是提出了一些具有前沿性的Elliptical分布、双曲线分布等来刻画金融资产条件收益率的尖峰厚尾现象,在国内这些分布的应用还不广泛。

在衡量波动的长记忆性方面,Engle和等提出用IGARCH模型来刻画波动的这一特性。该模型的条件方差有一个单位根,这意味者任何对条件方差的影响都将永久持续下去,而无条件方差无穷大,这显然与事 实不符。Bollerslev等[2]提出了FIGARCH模型,其滞后随机误差项以双曲速度衰减,有效刻画了波动的长记忆性而被广泛应用。FIGARCH模型的局限性在于,其信息冲击曲线是对称的,不能反映波动的非对称性。之后他们又进一步提FIEGARCH模型以同时反映波动的长记忆性和对正负信息反应的非对称性。

国内学者也对股市波动的长记忆性从多个角度进行了大量的实证研究,取得了一定的成果。汤果等[3]采用FIGARCH模型对我国股市与纽约股市的长记忆性进行了研究,发现我国股市与纽约股市的区别,弥补了我国FIGARCH研究的空 白。王春峰[4]用传统的R/S分析法对中国股市进行研究,发现中国股市具有显著的长期记忆性。张卫国建立了双长记忆特征的ARFIMA-FIGARCH模型,结果表明深市收益率序列的长记忆性不显著,但波动序列具有显著的长记忆特征。胡平等[5]利用FIEGARCH模型和FIGARCH模型实证分析了上交所的铝、铜、燃料油和天胶四种期货品种波动率的长记忆性和杠杆效应,发现所有期货品种的价格波动率均存在显著的长期记忆性,但其假设残差服从正态分布,无法更好的的刻画金融时间序列常有的尖峰厚尾性。

在总结前述研究成果基础上,发现利用FIEGARCH模型对黄金市场的非对称性和长记忆性进行研究的文献尚不多见。所以本文把FIEGARCH模型应用在黄金市场,并假设残差服从t分布和GED分布,对我国黄金市场的波动进行刻画,而在国内还没有采用FIEGARCH模型对黄金波动进行研究的文献。

1 研究方法与计量模型

FIEGARCH模型由Bollerslev等提出,其主要思想在于把分形差分思想引入了EGARCH模型,可以用来更好 地描述波 动的长记 忆性和杠 杆效应。EGARCH模型用分形差分思想可以表示为

其中: 参数γ1描述正负效应系数体现方差波动项对正负信息的不对称性反应。参数γ2描述放大效应。

当γ1< 0时,在波动大小相同时,利坏消息带来的的波动增幅大于利好消息带来的波动增幅; 当γ1> 0时,在波动大小相同时,利坏消息带来的的波动增幅小于利好消息带来的波动增幅; 当γ1= 0时,在波动大小相同时,利坏消息带来的的波动增幅等于利好消息带来的波动增幅。

通过分形差分自回归多项式[1 - B ( L) ] =Φ( L) ( 1 - L) d来描述长 期记忆性,就得到了FIEGARCH模型的表达式:

FIEGARCH模型的条件方差用指数形式表示,保证了σ2t总是正值,在对模型进行参数估计时,不需要对模型参数进行非负约束。同时,随着zt取值的正负变化,σ2t也会有不同程度的变化,从而更好的体现价格波动[6,7]。

大量的金融实证研究表明,金融市场的价格收益序列具有尖峰厚尾的特征,收益方差序列具有相关性、聚集性和异方差性。而高斯GARCH过程无法解释收益序列通常遇到的尖峰厚尾现象[8]。因此,对于中国黄金市场收益序列的分析客观上要求采用非正态分布进行分析。除t分布外,广义误差分布( GED) 是一种更为灵活的分布形式,通过对参数的调整变化可以拟合不同的情形,包括正态分布,其密度函数形式如下

其中: λ为尾部厚度参数,当ν < 2时,GED分布为厚尾分布; 当ν > 2时,GED分布呈现瘦尾性; 当ν = 2时,GED分布退化为正态分布。

所以本文假设残差服从t分布和GED分布,建立FIEGARCH模型,对我我国黄金市场的波动进行刻画分析。

2 数据选取与分析

2. 1 数据选取与统计特征分析

本文的数据来自于上海黄金交易所的主要交易品种Au99. 99。黄金Au99. 99品种是现货市场的交易品种,但它同时具有T + D等特殊交易机制,使其类似于黄金期货,具有套期保值的特点,所以具有的风险也比较大。所以黄金Au99. 99品种具有一定的代表性。回顾近十年的黄金价格走势,2007年全球金融危机的出现可以说是最近几年价格快速上涨的转折点,所以为了更好的研究近些年我国黄金市场的风险状况,选取2007年1月4日至2014年3月5日,共1 737个Au99. 99品种日交易收盘价数据。其价格走势,如图1所示。

本文对数 据的实证 分析主要 利用Matlab,Eviews软件完成。从图1中可以清晰地看到,从2007年开始黄金价格开始快速的上涨。但是从2011年下半年开始,价格开始大幅度的回落,在整个期间黄金价格波动剧烈,变动幅度较大。

设第t日的收益率为rt,则rt= 100 * ( ln ptln pt - 1) ,pt为AU99. 99品种的日收盘价。则其日收益率序列的基本统计,如表1所示。

Au99. 99黄金品种收益率均值0. 029 159 > 0,中位数0. 061 078 > 0,说明样本为正收益。由于标准差1. 208 614明显大于均值0. 029 159,说明在观察的时间段内日收益率有很大的变化。在正态分布假设下,S( 偏度) = 0,K( 峰度) = 3,而表中数据表明样本的偏度和峰度均显著异于正态分布,且J - B统计量较大,说明了收益分布序列的尖峰厚尾性。其收益率序列,如图2所示。

从图2中可以看到,波动在一些较长的时间内非常小,在其他一些较长的时间内非常大,表明黄金收益率数据存在明显的波动聚集特性。

2. 2 序列平稳性检验

平稳性检验是分析时间序列的重要指标之一。因为使用GARCH模型的一个前提条件是扰动项为平稳过程。可采用ADF检验对数据平稳性进行检验。用Eviews进行ADF检验,如表2所示。

从表2可知,收益率序列的ADF值为 - 42. 69891,且检验的P值为0,所以不存在单位根,这表明样本收益率序列是平稳的。

2. 3 序列自相关性性检验与 ARCH 效应检验

如果时间序列数据在残差之间存在相关性,这将会使变量不能有效的反馈信息。一般采用LQ方法检验自相关性和偏相关性。检验结果,如图3所示。

由于自相关检验中随 机区间的 计算公式为,其中T为样本量。所以从以上序列相关图中可以判断,我国Au99. 99黄金品种收益率序列滞后2期、4期、9期的自相关系数和偏相关系数超出了随机区间的范围[- 0. 047,0. 047],所以拒绝零假设: 随机过程是独立同分布的白噪声过程。通过Eviews软件对AR( 4) 过程的检验和不断试验,均值方程设置为AR( 4) 过程合理。

对此过程拟合出的残差序列作ARCH Test检验,如表3所示

由上表可以判断说明方程残差中ARCH效应是显著的。

下面对残差平方做自相关检验,如图4所示。

图4中序列的自相关系数均较大,在滞后12阶时仍为0. 182,尚未很快趋近于0,其Q统计量也都比较大,相应的概率值均为0. 000,说明残差平方序列存在着明显的自相关,拟合异方差性需要高阶的ARCH模型,也就是说 用GARCH模型来拟 合Au99. 99黄金品种收益率序列效果会更好。

2. 4 收益率序列的杠杆性分析

就大多数金融资产而言,普遍存在的一种现象是: 同等强度的负面消息比正面消息引发的市场波动更大,而新信息导致的价格变动与波动之间呈负相关关系,这种关系被称为杠杆效应。这种金融资产中的杠杆效应,实际反映出的是资产价格的后续波动与外部信息冲击之间的一种非对称性关系。通常而言,负面信息引起的波动更大,这在一定程度上也反映出投资者的风险厌恶特性。

对于杠杆性的分析,现有文献主要采用的模型有EGARCH模型、GJR模型与杠杆SV模型等。本文根据以上自相关性分析,采用AR - EGARCH模型和AR - GJR模型对我国Au99. 99黄金品种收益率序列可能存在的杠杆性进行初步的分析和判断。

EGARCH模型:

残差服从t分布下的方差方程:

残差服从GED分布下的方差方程:

GJR模型:

残差服从t分布下的方差方程:

残差服从GED分布下的方差方程:

从以上各 模型参数 估计结果 可知,我国Au99. 99黄金收益率序列在EGARCH模型和GJR模型下均表现出对信息的不对称反应,及存在杠杆效应。在EGARCH模型中,表征杠杆系数的值都大于0,表明好消息对波动的影响比坏消息大。在GJR模型中表征杠杆系数的值都小于0,同样说明好消息对波动的影响比坏消息大。郑秀田[9]采用EGARCH模型对上海黄金交易所最具有代表性的品种Au99. 95的每日收盘价格数据研究同样表明正的冲击比负的冲击更容易增加黄金市场的波动。

所以可以判断,与发达国家金融市场通常表现出的非对称效应———利坏消息对波动的影响比利好消息大相比,在我国黄金市场,杠杆效应表现为好消息对波动的影响比坏消息大。

2. 5 数据长记忆性性检验

如果一个时间序列具有自相似性,即可被称为具有长期依赖或长期记忆的特征,意味着近期的价格变化将影响远期的价格波动。Hurst提出了一种新的统计量———赫斯特指数( Hurst Exponent) ,对长期记忆性进行测量,运用R/S分析( Resealed RangeAnalysis,即重新标度极差分析) 法来分析分形时间序列。重标极 差 ( R/S ) 分析方法 由Mandebrot( 1974) 将其运用到经济理论上,设时间序列{ xt} ,t = 1,2,…,T,取n个序列观察值的均值为

这里只为说明R/S的具体含义,在实证分析中,可以让n从小到大取值一直到N/2,将总时间序列长度N分成A个长度相同的n,分别计算每个时间序列段的R/S值,然后对A个R/S值求平均,就得到了( R/S( j)n序列。在R/S分析法中,赫斯特指数( 即H值) 是非常重要的统计量。H值与( R/S( j)n序列以及时间间隔长度n之间的具体关系是: ( R/S( j)n= ( an)H,对等式两边取对数,即得ln ( R/S) =Hln n + Hln a,式中a为常数。于是,对 ( R / S( j)n序列进行处理,把lnn作为独立变量,ln ( R/S) 作为因变量,应用上式做线性回归,得出自变量的系数即为赫斯特指数H。当H = 0. 5时,原序列是标准的随机游走过程; 当H < 0. 5时,原序列具有反持久性,具有短期记忆性; 而H > 0. 5时,时间序列为长期记忆性[10]。

利用Matlab软件对R/S分析法进行检验,ln( R/S) 关于ln ( n) 的轨迹图,如图5所示。线性回归方程为ln ( R /S) = 0. 544 6ln ( n) - 0. 088 5. 所以上海Au99. 99黄金品种的Hurst指数为0. 544 6,从而可以认为收益的波动率呈现长记忆性特征。

3 计量模型估计

由以上分析可知,我国Au99. 99黄金品种收益率序列存在尖峰厚尾,杠杆性和长记忆性等特征,而FIEGARCH模型综合考虑了时间序列的杠杆性和长记忆性等特点,所以可对我国Au99. 99黄金品种收益率序列建立AR( 4) - FIEGARCH( p,d,q)模型。对于一般的金融时间序列来说,GARCH( p,q) 类模型均设置p,q = 1即可。本文为了找到刻画我国黄金市场效果最好的AR( 4) - FIEGARCH( p,d,q) 模型,分别设置以下4个不同模型,并分别进行了参数估计,并根据Akaike,Schwarz,Shibata,Hannan - Quinn4个信息准 则进行AR - FIEGARCH模型的定阶。其中信息准则值越小,表示模型拟合的越好。各模型参数估计值如下[11],如表4所示。

通过观察比较,AR( 4) - FIEGARCH( 1,d,0) GED模型的4个信息准则值相比于其他3个模型均较小,所以基于GED分布的AR( 4) - FIEGARCH( 1,d,0) 模型拟合效果最好,且其各参数估计值均比较显著。所以选择对我国Au99. 99黄金品种收益率序列建立AR( 4) - FIEGARCH( 1,d,0) - GED模型。

由AR( 4) - FIEGARCH( 1,d,0) - GED模型参数估计值可知:

分形差分系数d > 0. 5,表明Au99. 99黄金品种具有长记忆性特征,与重标极差( R/S) 分析方法分析结论相同。

GED分布自由度为1. 149227 < 2,说明我国黄金市场收益序列呈现明显尖峰厚尾性。

各模型信息准则值,如表5所示。

EGARCH( Theta1) 用来度量非对称性效应,其值不为0,表明我国Au99. 99黄金品种市场存在杠杆效应,但其值较小,度量杠杆性作用较弱,说明FIEGARCH模型度量我国黄金市场杠杆性存在不足。由于EGARCH( Theta1) 的系数为负,表明在波动大小相同时,利坏消息带来的的波动增幅大于利好消息带来的波动增幅,这与前述采用EGARCH模型和GJR模型得到的结论相反。究其原因,认为有以下几点可能造成这种结论差异。第一: 我国黄金市场与欧美黄金市场相比,存在市场化不足,信息有效性不强,交易活跃度不高的状况。在我国民众的心里黄金是保值增值,抵抗通货膨胀的最有利商品,而且很多普通大众认为黄金永远不会贬值,黄金就是财富的象征,这些认识严重忽略了黄金作为一种金融商品所特有的投资风险属性。现在全球黄金市场持续低迷,但国内却有很多民众会大肆购买黄金。与欧美黄金市场的成熟和市场化相比,把许多在国外金融市场应用研究效果较好的计量模型应用在我国黄金市场难免会出现结论上的差异。第二: 数据是否存在结构突变的可能。在此我们先对我国Au99. 99黄金品种收益率序列做回归,然后用Chow Breakpoint Test检验其是否存在突变点。结果显示我国Au99. 99黄金品种不存在结构突变。第三: 有可能因为长记忆性因子的引入造成了这种差异。具体造成这种差异的原因还有待继续的研究和探索。但不可否认的是我国黄金市场存在杠杆效应。

此模型估计方差与实际收益率,如图6所示,从图6可以看出,AR( 4) - FIEGARCH( 1,d,0) - GED模型整体上较为准确的刻画了黄金市场收益序列波动状况。

4 研究结论

本文主要建立了残差服从t分布和GED分布的AR - FIEGARCH模型,并利用此模型对我国黄金市场收益序列进行了拟合估计,并分析了我国黄金市场的波动特征。主要有以下结论:

( 1) GED分布自由度估计结果小于2,说明我国黄金市场收益序列呈现明显尖峰厚尾性,与J - B统计量结论一致。

( 2) FIEGARCH模型分形差分系数估计值为0. 5左右,表明Au99. 99黄金品种具有长记忆性特征,与Hurst指数分析结果一致。

( 3) 虽然EGARCH模型和GJR模型对Au99. 99黄金品种拟合分析表明其存在杠杆性———好消息对波动的影响比坏消息大,但FIEGARCH模型估计结果只表明了其存在较弱的杠杆特性,且方式为利坏消息带来的的波动增幅大于利好消息带来的波动增幅。由于对FIEGARCH模型估计采用的是BFGS迭代法,造成这种结果的差异可能与数据的质量,估计方法还有我国黄金市场本身特性有关。具体杠杆效应表现为何种形式还有待更为准确的计量方法和模型。

以上结论说明我国黄金市场的有效性不强,市场价格对信息的反应存在非对称性。波动的长记忆性暗示市场中发生的事件和消息对期黄金市场的影响不会马上消失,而可能对市场产生长远的影响。例如2008年美国次贷危机发生,为了实现保值,避免通货膨胀、股市下跌带来的巨额损失,投资者纷纷涌入黄金市场。黄金价格也从此时开始快速上涨,直到2013年由于美国经济复苏美元走强、欧债危机等因素致使黄金价格下跌。波动的长记忆性也表明,黄金市场的波动在一定程度上是可以预测的,这可为投资者确定投资策略,规避风险服务。另外,在建立黄金投资组合中,必须考虑黄金价格收益波动的长记忆性,以建立更加符合实际的统计模型。对监管者而言,出台相关政策时,要考虑到价格波动的长期记忆性和对信息反应的非对称性影响。

总之,本文采用FIEGARCH模型对我国黄金市场波动特征刻画,得到的结论较为理想。

参考文献

[1]邹平.基于STFIGARCH模型的中国股市波动与权证定价研究[D].上海:上海理工大学,2012:1-5.

[2]BOLLERSLEV T,MIKKELSEN H O.Modeling and pricing long memory in stock market volatility[J].Journal of Econometrics,1996,73(1):151-184.

[3]汤果,何晓群,顾岚.FIGARCH模型对股市收益长记忆性的实证分析[J].统计研究,1999(7):39-42.

[4]王春峰,张庆翠,李刚.中国股票市场收益的长期记忆性研究[J].系统工程,2003,21(1):22-27.

[5]胡平,崔海蓉,吴有华,等.我国期货市场波动率长记忆性的实证研究[J].西安电子科技大学学报,2009,19(6):10-14.

[6]赵岩.欧元外汇市场分形特征研究[D].大连:大连理工大学,2008:30-35.

[7]BAILLIE R T,BOLLERSLEV T,MIKKELSEN H.Fractionally integrated generalized autoregressive conditional heteroskedasticity[J].Journal of Econometrics,1996,74:3-30.

[8]黄炎龙.基于Skewed-t分布的FIGARCH模型与VaR的度量[J].应用概率统计,2012,28(2):189-190.

[9]郑秀田.我国黄金市场的波动特征与风险度量研究[D].杭洲:浙江工商大学,2008:31-37.

[10]余顺治.基于R/S方法的我国股市分形特征研究[D].武汉:华中科技大学,2009:12-15.

正态模型 篇9

众所周知, 金融市场数据的分布大多数都由于尖峰厚尾而近似服从正态分布。T分布由于尾部分布比正态分布更厚而成为我们的首选分布, 但t分布有一个很大的缺点, 就是不具有可加性。所以我们就想如何在数据近似服从正态分布的情况下仍然假设它服从正态分布而得到更加准确的结果。这样, 正态分布的一些优良性质就可以保留。

最后, 我们想到了一种方法, 那就是在假设我们所得到的金融数据继续服从正态分布的前提下, 运用Cornish-Fisher (CF) 展开公式恰当地改变置信分位数, 从而减小误差, 得到更加准确的结果。

二、Gamma-CF模型的基本原理

Gamma-CF模型的基本原理是调整置信区间参数, 以校正Gamma风险对正态分布偏斜的影响。展开公式基于统计学的一个基本原理:任意分布 (如X2分布) 都可被看作是其他分布 (如正态分布) 的函数, 可以用其他分布的参数表示。对于任意分布, 以正态分布为基准, CF的展开式为F△p (α) =zα+ (zα2-1) ρ3/6+ (zα3-3zα) ρ4/24- (2zα3-5zα) ρ32/36其中, F△p (α) 为组合回报△P的分布函数;zα与前同;ρ3和ρ4为△P的三次和四次累积量 (分布的s次累积量ρs为ln (Mx (t) ) =, 其中Mx (t) =E (etx) ) , ρ3是分布偏度的测量, ρ4是分布峰度的测量, 很容易求出。

于是, 一般分布对正态分布的实际调整为Sα为F△p (α) -zα, 这样在正态分布下用置信参数- (α-Sα) 代替α, 就可以近似得到分位数, 从而估计出Va R。

三、数据收集

本文收集了沪深股市从2005年上证指数最低点998点到2009年10月16日上证指数与深圳成份指数每周的涨幅 (收益率) 共444个数据。

四、实证研究

为了使收益率的取值范围在区间 (-∞, +∞) 上, 首先对这444个数据取对数。然后通过SAS软件计算所得数据的均值、标准差、偏度和峰度。结果如下表:

然后运用Cornish-Fisher (CF) 展开公式计算得出:

从而得出:

五、检验

由计算出的Va R值可得95%置信度下的周收益率的置信区间上界, 即:

将数据从大到小排列, 发现此值位于第23个数据和第24个数据之间;而如果不用Cornish--Fisher (CF) 展开公式, 得出的结果是第27个数据, 大大减小了误差。同时, 计算出来的Va R值小于1.645, 这个结果对于那些尤其是保险公司、银行等可以腾出更多资金用于投资, 从而使公司自有资金发挥更大作用。

摘要:文章主要运用Gamma-CF模型的基本原理, 即运用Cornish—Fisher (CF) 展开公式调整置信区间参数, 以校正Gamma风险对正态分布偏斜的影响, 最终得到中国股票市场以95%的置信度在一周内的VaR。

关键词:Gamma-CF模型,Cornish--Fisher (CF) 展开公式,Gamma风险,正态分布

参考文献

[1]王春峰.金融市场风险管理[M].天津:天津大学出版社, 2001.

[2]Dowd K.Beyond value at risk[M].New York:JohnWiley&Sons, 1998.

[3]JP Morgan.RiskMetrics[M].RiskMetricsMornitdou FirstQuarter, 1996.

上一篇:有效性中学语文教学下一篇:农业产业技术创新