变量分布

2024-09-14

变量分布(精选8篇)

变量分布 篇1

一、存在的问题

在讲授概率统计课程中随机变量及其分布这一章时,一种常见顺序是:随机变量的分布函数,离散型随机变量及其分布律,连续型随机变量及其概率密度函数[1].这种安排基本合理,但在实际讲授之后往往效果不佳,常出现学生对分布函数的重视程度不够,难以理解概率密度函数概念,易混淆分布函数,分布律和密度函数以及书写时符号混乱等问题.究其原因,主要是对初学者来说:随机变量概念很难理解到位;概率密度函数概念的出现太过突兀;分布函数,分布律,概率密度三者相互之间既有联系又有区别,易造成混淆.

二、问题驱动式解决方案

针对以上症结,在不改变上述顺序的前提下,本文对随机变量及其分布一章的主要知识点采用6个关键问题进行驱动,促进学生主动思考,加深基本概念的理解,区分易混淆概念,使内容层层递进,各部分自然衔接,知识点融会贯通.同时适当融入研究型教学方式,培养学生的思维和创造能力.

以下将按各教学内容详述此问题驱动式教学过程.

内容一:随机变量

随机变量是本章的首个关键概念,它在概率统计中的重要地位和对后续内容的深远影响不言而喻.然而,此前学生关注的一直是各种随机事件的概率计算,如何引入随机变量概念才能让他们认识到其必要性和重要性?为此提出第一个问题:

问题1何为随机变量?为什么要引入随机变量的概念?

从生活实例出发,让学生初步体会随机变量.如生活中常关心的一些量:某城市一个月的降雨量,某银行一天接待的顾客数,这些量的取值看似随机变化,但在多次观察时又呈现某种确定的统计规律.这种变量就是随机变量,对之常关注:(1)变量可能取哪些值;(2)取各值的可能性大小.

接着指出:实际中所关心的对象还有很多也是随机变化的,但它们本身并不是数,如天气状况,疾病化验结果等.为方便用数学工具研究这些对象的变化规律,有必要把非数的试验结果(样本点)数量化.于是自然定义样本空间到实数域的映射:ω→X(ω),把非数的试验结果全部转化为数.此定义在样本空间上的实值函数X(ω)就是随机变量,它与普通函数的区别在于:函数值是由试验结果决定的,故称为随机变量——随机会而取值的变量.通过实例可说明:随机变量的取值情况完整描述了随机试验中的各种随机事件,故今后将研究重点放在随机变量上.此时再给出随机变量的数学定义则水到渠成,解答了学生“为什么要讨论随机变量?随机变量有什么用?”的疑问,并奠定了随机变量在今后学习中的重要位置.

内容二:随机变量的分布函数

在引入随机变量的概念之后,由以下问题自然带入随机变量的分布函数.

问题2随机变量的本质特征在于其可能取值和取值的概率分布情况,用什么工具来描述随机变量的概率分布情况?

直接给出分布函数的定义会稍显生硬,可通过例子引入.

实际中,人们常关心随机变量在某范围内取值的概率.如:产品质量检查时,随机抽取的n件产品中次品件数X不超过3的概率P{X≤3},某公司生产的某一型号液晶电视寿命X在(45000,55000)(小时)之间的概率P{45000<X≤55000}.

若对任意实数x,都存在概率P{ω:X(ω)≤x}=P{X≤x}=F(x),以上问题就迎刃而解(这也解释了为什么随机变量的定义中要求对任意实数x,事件{ω:X(ω)≤x}的概率都是可确定的).这个函数F(x)就是随机变量的分布函数,它可描述随机变量在任一区间取值的概率P{x1<X≤x2}=F(x2)-F(x1),甚至在任意一点取值的概率P{X=x}=F(x)-F(x-0).只要是随机变量就存在分布函数,分布函数可描述任一随机变量的概率分布.

在此讲解分布函数有如下好处:体现了分布函数的重要性和一般性,与本章最后内容:随机变量除了离散型,连续型外还有奇异型前后呼应.

内容三:离散型随机变量及其分布律

问题3对取值离散的随机变量,如何描述其概率分布比较方便?

用一实例引入离散型随机变量及其分布律,并用柱状图或火柴棍图来直观表示.提问:对离散型随机变量来说,分布律和分布函数都可描述其概率分布,哪种描述方式比较直观方便?学生能够自己看出是分布律.在教师引导下讨论总结:分布函数与分布律均可描述离散型随机变量的概率分布,二者可互相转化,只是描述方式不同而已.对离散型随机变量往往选择更直观的工具———分布律.

内容四:连续型随机变量及概率密度函数

很多现行教材都直接给出连续型随机变量及其概率密度函数的定义[1,2],这固然是由于教材限制所致,但若在课堂讲授时也直接抛出此概念,会让学生觉得非常突兀,造成理解和学习上的困难.实际上,离散型随机变量与连续型随机变量有诸多可类比性质[3],故本文的解决办法是由离散型随机变量的分布律进行类推,过渡到连续型随机变量的概率密度.具体为讲完分布律后提出如下问题.

问题4对取值连续的随机变量来说,能否用分布律来直观描述其概率分布?

例:一半径为2米的圆盘靶子,击中靶上任一同心圆盘的概率与该圆盘的面积成正比,若射击均能中靶,用X表示弹着点与圆心的距离.能用分布律来描述X的概率分布吗?

学生会发现不行,因为X的取值是连续的!继续提问:

问题5能否找到类似离散型随机变量分布律的工具来直观描述这种取值连续的随机变量的概率分布?

此处需事先做好两项准备工作.

1. 理解频率直方图.

例:为了解某地区成年男子的身高情况,从该地区所有成年男子中随机抽取100名进行调查.问:如何根据这些数据(略,单位:cm)分析该地区成年男子身高X的分布情况?

用此例讲解频率直方图的做法以及含义.重点在于指出:频率直方图利用将连续取值离散化的手段直观体现了身高X这个取值连续的随机变量的大致分布情况,具有与分布律类似的特征.

2. 基本弄清频率与概率的关系.

因后面学习大数定律时才能明确频率依概率收敛于概率,现只需学生理解随试验次数增多频率会逐渐稳定于概率即可,用抛硬币例子数据进行说明.

现在可向概率密度过渡.在频率直方图中,随机变量在某一区间取值的频率,为该区间上小矩形的面积之和.当样本数据很多,组距很小时,各小矩形会非常密集.设想:n趋于无穷,组距趋于0时,直方图中变量的有限多个离散取值范围将趋于无限多个连续取值,而图中小矩形边缘将逐渐稳定在一条光滑(或分段光滑)曲线附近,设为函数f(x).

与离散型情况类似:分布函数和概率密度均可描述连续型随机变量的概率分布,只是方式不同,二者可相互转化,但概率密度较分布函数更为直观.

内容五:其他类型的随机变量

问题6除了离散型随机变量和连续型随机变量之外,还有其他类型的随机变量吗?

在教师引导下,学生发现此分布函数不符合离散型或连续型变量分布函数的特征,故其对应随机变量既非离散型,也非连续型.这时不能用分布律或概率密度来描述其概率分布,但分布函数仍适用,体现了分布函数的一般性和重要性.

三、总结

如上,通过六个问题逐步带出本章各重要概念和知识点,有利于激发学生自主探索的欲望,使本章内容保持一致性与连贯性,学生对分布函数,分布律,概率密度各概念的理解更深入,应用时不易产生混淆.并利用类推与研究式教学较好地处理了概率密度这个教学难点,其中运用的微积分知识还加强了不同学科知识的融合,提高了学生分析处理问题的能力.

参考文献

[1]徐全智,吕恕.概率论与数理统计[M].北京:高等教育出版社,2010.

[2]盛骤,谢式千,潘承毅.概率论与数理统计[M].北京:高等教育出版社,2008.

[3]马生昀.概率统计教学改革中两类随机变量的类比教学[J].内蒙古农业大学学报(社会科学版),2012(06):119-123.

变量分布 篇2

一、教学内容、要求以及完成情况的再认识

《离散型随机变量的分布列》在近几年高考的推波助澜下愈发突显出其应用性和问题设计的新颖和创造性,如火如荼的新课改时时刻刻在提醒我们“思路决定出路”,们明确教学设计应是为了“学生的学而设计教”,不是为了“老师的教而设计学”。

1、学的重点应是离散型随机变量的分布列的含义与性质而非如何求概率

看过《离散型随机变量的分布列》的几个视频,大多采用“一个定义、三项注意、变式训练”的传授型数学概念教学模式,定义匆匆过,训练变式多,学生表示随机变量的分布列时错误不断。这些错误集中指向是某些事件的概率求错,从而导致分布列的表示错误,老师又纠错,学生还犯错。整堂课反映出的教学重点是求随机事件的概率。孰不知学生出错的根本原因是在思维的过程中没有有意识的将分布列问题转化为求互斥事件的概率。历经离散型随机变量的分布列的概念的教学过程并形成解题时将分布列问题转化为求互斥事件的概率的意识理应成为教学的重点。

2、数学概念的教学应是从创设概念的生长点的问题情境切入探究而不是抛给学生

“一个定义、三项注意、变式训练”的“抛式”数学概念教学模式,犹如过眼云烟,未建立在学生已有的认知基础上的数学概念的理解犹如空中楼阁,未建立在思维的最近发展区内进行的类比归纳的正迁移思维犹如断了翅膀的鸟,未历经数学概念的探究而进行的变式训练亦不过是模仿解题。“问题是数学的心脏”,数学活动是由“情景问题”驱动的,“问题解决”是其主要的活动形式,创设可以连续变式的正多面体的问题情境,提出从低纬度向高纬度发展的问题是历经数学概念再创造的好的开始。

引例1:某人抛一颗骰子,出现的点数有几种情况?如何表示?各种结果出现的概率分别是多少?

引例2:100件产品中有10件次品,任取其中的4件,出现次品的情况有几种?如何表示?各种结果出现的概率分别是多少?

引例3:扔一枚硬币,出现的结果有几种?能用数表示吗?如果可以,如何表示?各种结果出现的概率分别是多少?

以上三个问题,集中指向了先是随机变量取不同值时对应概率的表示,更加如何简洁的表示,而离散型随机变量的分布列也是概率的一种表示形式,古典概率就是离散型随机变量的分布列的知识生长点。这就是将数学概念的引入情境化、顺其自然、不强加于人,是要合乎学生的认知规律、不苛求与形式。

3、数学概念的含义和性质是剥洋葱皮式的探究而不是变式训练的强化

学生对数学概念的理解出现偏差,往往是学生站的认识问题的角度不合理、维度不全面,所以我借助于问题串、采用“剥洋葱皮”的方式从数学概念的外延出发探寻概念的内涵。问是深入思考的开始、是质疑探究的延续。

离散型随机变量的分布列的性质是概念的外延,而离散型随机变量的概率分布列的内涵是一个必然事件分解成有限个互斥事件的概率的另一种表示形式,更主要的是应在概念的生成中形成解决问题的思维方法。

问题1、通过以上简单的离散型随机变量的分布列,归纳出离散型随机变量的分布列具有哪些性质?(学生发现性质)

性质2的理解是本节课的一个难点,设置如下问题串:

问题2、性质2的含义是什么?

问题3、每一个分布列有多少个随机事件?

问题4、随机事件之间是什么关系?

问题5、这些随机事件构成的复杂事件又表示什么事件?

通过以上问题串的探究,就是要学生历经离散型随机变量分布列的本质的认识过程,从而形成求解离散型随机变量的分布列的方法和步骤:

①明确随机变量的含义、确定随机变量的取值

②判定随机事件的关系、计算随机事件的概率

③列表表示分布列、检验是否构成必然事件

这样设计的目的`是想避免学生在没有对数学概念和思想方法有基本了解的情况下就盲目进行大运动量的变式解题操练,导致教学缺乏必要的根基,是要培养学生数学用数学思维来解决问题。

在教学设计上要做整体的把握,应该从基本点出发,形成交汇点,进而达到制高点。教学的基本点就是“双基”:数学基础知识和基本技能。从双基出发,使得基础知识形成网络、基本技能形成规律。教学的交汇点就是数学活动,在数学活动中形成基本思想方法和基本活动经验。

制高点是什么?制高点是重点,是可以达到必要深度的部分,但又不仅仅是重点。重点只是数学的结果,不指向如何应对;而制高点致力于探寻问题解决的基本思路,形成解决问题的方法和规律。站在制高点上进行教学设计,就是首先要准备贯彻什么样的教学理念、采用什么样的教学方法为支撑下的教学设计。所以我在教学设计时重视情境预设、更重视思维的发展历程,关注知识的内化、更关注形成知识的方法的理性建构。

数学思维的培养成长于每一节课堂、成败于每一点基础、影响于每一个细节,让每一节数学课堂都真正在有利于学生发展为本的道路上改革,牢牢把握这个制高点,成功就水到渠成了。

二、值得注意的地方

在教学过程中要充分发挥学生的主体地位。在课堂上,无论是新教师还是老教师,通常会把自己当做课堂上的主人而过多的会忽略学生的主体地位;或者学生会因为长时间的习惯于听老师来讲解而忘记自己是课堂的主人。在建立新知的过程中,教师力求引导、启发,让学生逐步应用所学的知识来分析问题、解决问题,以形成比较系统和完整的知识结构。每个问题在设计时,充分考虑了学生的具体情况,力争提问准确到位,便于学生思考和回答。使思考和提问持续在学生的最近发展区内,学生的思考有价值,对知识的理解和掌握在不断的思考和讨论中完善和加深。但由于时间的把握,以及对学生的放手程度上‘实施落实的可能还不到位,有待改进。

变量分布 篇3

例1 写出下列随机变量可能取的值,并说明所取值的实际意义.

(1)袋中装有5个同样大小的球,编号为1,2,3,4,5,现从该袋中随机取出3个球,记所取球的最大号码为[X].

(2)连续投掷一枚骰子两次,所得点数之和为[Y].

解析 (1)[X]可能取的值为3,4,5.

[X=3]表示最大号码为3,即取出的球为1,2,3号;

[X=4]表示最大号码为4,即4号球被取出,1,2,3号球中恰好取出两个;

[X=5]表示最大号码为5,即5号球被取出,1,2,3,4号球中恰好取出两个.

(2)[Y]可能取的值为2,3,4,5,6,7,8,9,10,11,12.

[Y=2]表示掷出的点数为(1,1);

[Y=3]表示掷出的点数为(1,2),(2,1);

[Y=4]表示掷出的点数为(1,3),(2,2),(3,1);

[Y=5]表示掷出的点数为(1,4),(2,3),(3,2),(4,1);

[Y=6]表示掷出的点数为(1,5),(2,4),(3,3),(4,2),(5,1);

同理,[Y=7]有6个不同的结果,[Y=8]有5个不同的结果,[Y=9]有4个不同的结果,[Y=10]有3个不同的结果,[Y=11]有2个不同的结果,[Y=12]有1个结果.

点评 学会用随机变量描述试验结果非常重要,它是下一步学习分布列的重要基础.

二、离散型随机变量的分布列

例2 设[S]是不等式[x2-x-6≤0]的解集,整数[m,n∈S].

(1)记“使得[m+n=0]成立的有序数组[(m,n)]”为事件[A],试列举[A]包含的基本事件;

(2)设[ξ=m2],求[ξ]的分布列.

解析 (1)由已知,可求得[S={x|-2≤x≤3}],故[m,n∈{-2,][-1,0,1,2,3}],则[A]包含的基本事件为(-2,2),(-1,1),(0,0),(1,-1),(2,-2).

(2)变量[m]的分布列为

则[ξ]的分布列为

点评 1. 求分布列一般有3个步骤:第一步确定变量的所有取值,第二步求出相应的概率,第三步列表.其中最难的是第二步,它需要综合运用我们此前所学的概率知识;

2. 该题第二问涉及变量函数分布列的求法,关键是通过函数关系找到新变量的取值,新变量每个取值的概率等于原变量相应取值的概率之和.

三、分布列的性质

例3 设随机变量[X]的分布列为[P(X=k5)=ak,][k=1,2,3,4,5.]

(1)求常数[a]的值;

(2)求[P(110

解析 (1)由已知条件得变量[X]的分布列为

故[a+2a+3a+4a+5a=1],解之,得[a]=[115].

(2)[P(110

[P(X=35)=115+215+315=25].

四、超几何分布

例4 在10件产品中,有3件一等品,4件二等品,3件三等品,从这10件产品中任取3件.

(1)记取出的3件产品中一等品的件数为[X],求[X]的分布列;

(2)求取出的3件产品中一等品件数多于二等品的概率.

解析 (1)[X]的可能取值为0,1,2,3.

[P(X=0)]=[C37C310]=[724], [P(X=1)]=[C13C27C310]=[2140], [P(X=2)]=[C23C17C310]=[740],[P(X=3)]=[C33C310]=[1120].

故[X]的分布列为

(2)记事件[A1]表示“一等品件数为1,二等品件数为0”,事件[A2]表示“一等品件数为2”,事件[A3]表示“一等品件数为3”.

则所求事件为[A1]+[A2]+[A3], 故所求概率为[P(A1)+P(A2)+P(A3)]=[C13C23C310]+[740]+[1120]=[31120].

点评 1. 求超几何分布的关键在于组合数的计算,理解起来并不困难;

2. 利用分布列求概率关键是要搞清楚所求事件与随机变量之间的关系.

【练习】

1. 一个人有[n]把钥匙,其中只有一把可以打开房门.他随意地进行试开,试过的钥匙放在一旁.记打开房门时,试过的次数为随机变量[X],则[P(X=k)]=( )

A. [kn] B. [1n]

C. [k-1n] D. [AkkAkn]

2. 若离散型随机变量[X]的分布列如下表所示,则[c=] .

3. 有甲、乙两个盒子,甲盒子中有8张卡片,其中2张写有数字0,3张写有数字1,3张写有数字2;乙盒子中有8张卡片,其中3张写有数字0,2张写有数字1,3张写有数字2.

(1)如果从甲盒中取2张卡片,从乙盒中取1张卡片,那么取出的3张卡片都写有1的概率是多少?

(2)如果从甲、乙两个盒子中各取出1张卡片,设取出的2张卡片上数字之和为[X],求[X]的分布列.

4. 袋中有10个白球,[n]个红球(2≤[n]≤9),试求:

(1)当取出2个球时,白球和红球各1个的概率[Pn]及[Pn]的最大值;

(2)当[Pn]最大时,从袋中随机取出4个球,记白球与红球的个数差的绝对值为随机变量[X],求[X]的分布列.

【参考答案】

1. B

2. [13]

3. (1)[3112]

(2)

[[X]&0&1&2&3&4&[P]&[332]&[1364]&[2164]&[1564]&[964]&]

4. (1)[Pn]=[20n(n+10)(n+9)],当[n=9]时,[Pn]取得最大值[1019].

(2)

变量分布 篇4

概念的内涵指的是概念所反映对象的本质特征。

数学概念的教学应从创设概念生长点的问题情境切入探究。“问题是数学的心脏”, 数学活动是由“情景问题”驱动的, “问题解决”是其主要的活动形式, 创设可以连续变式的正多面体的问题情境, 提出从低纬度向高纬度发展的问题是历经数学概念再创造的好的开始。层层递进的过程中, 逐步丰富和建构对概念中位数本质意义的理解, 即将“促进学生理解”始终贯串在整个课堂中。

引入随机变量的概念, 是把对随机现象统计规律的研究数学化, 从而可以利用数学方法研究随机现象的规律性。其中对随机变量的概率分布的研究是实现这种转化的关键。

本节的内容“分布列”是一种列举方式, 是将试验结果整理的过程。在这个表格中, 我们可以直观的找到某一事件所对应的片段, 进而对整个试验有较为完整的认识。

例如:一袋中装有5只球, 编号为1, 2, 3, 4, 5, 在袋中同时取3只, 以ξ表示取出的三只球中的最小号码, 写出随机变量ξ的分布列.

首先, 明确试验结果的可能性, 然后再给予随机变量的取值。其中第一行中每个数字的含义给出更为具体的解释, 如:“4”表示最小号码为4。在此基础上, 根据随机变量相应的取值, 求对应的概率。

对应练习:

判断下列表格是否可以作为分布列:

二、对分布列的应用探究

概念的外延指的是概念所反映的本质属性的对象, 概念的内涵是质的方面, 概念的外延是概念量的方面, 它说明概念所反映的事物有哪些。

离散型随机变量的分布列的性质是概念的外延, 而离散型随机变量的概率分布列的内涵是一个必然事件分解成有限个互斥事件的概率的另一种表示形式, 更主要的是应在概念的生成中形成解决问题的思维方法。

借助于“引导式”教学、采用“剥洋葱皮”的方式从概念的外延出发探寻其内涵。循序渐进, 逐层推进。基于此, 设置问题, 引发学生的思考。

问题1:通过简单的离散型随机变量的分布列, 学生交流归纳并验证分布列具有哪些性质。

其中, 性质2的理解是本节课的一个难点, 结合实例, 设置如下问题串:

例:若某随机变量ξ的分布列如表所示

问题2:性质2的含义是什么?

问题3:每一个分布列有多少个随机事件?

问题4:随机事件之间是什么关系?

问题5:这些随机事件构成的复杂事件又表示什么事件?

通过以上对问题的探究, 使学生感受和体验如何学会数学思考方式, 体会归纳和类比这两种重要的合情推理在猜测和发现结论、探索和提供思路方面的作用。避免学生在没有对数学概念和思想方法有基本了解的情况下就盲目进行大运动量的变式解题操练, 导致教学缺乏必要的根基。

对应练习:

1. 随机变量ξ的分布列为

(1) 求常数a;

(2) 求P (1<ξ<4)

2. 抛掷两枚骰子, 点数之和为X, 请列出变量分布表, 并求点数之和为3的倍数的概率。

3.某城市有甲、乙、丙3个旅游景点, 一位客人游览这3个景点的概率分别是0.4, 0.5, 0.6, 且客人是否游览哪个景点互不影响.设ξ表示客人离开该城市时游览的景点数与没有游览的景点数之差的绝对值.

(1) 求ξ的分布列及数学期望;

三、教学上要做整体的把握, 应该从基本点出发, 形成交汇点, 进而达到制高点

教学的基本点就是“双基”:数学基础知识和基本技能。从双基出发, 使得基础知识形成网络、基本技能形成规律。制高点是重点, 是可以达到必要深度的部分, 但又不仅仅是重点。重点只是数学的结果, 不指向如何应对;而制高点致力于探寻问题解决的基本思路, 形成解决问题的方法和规律。站在制高点上进行教学设计, 就是首先要准备贯彻什么样的教学理念、采用什么样的教学方法为支撑下的教学设计。所以在教学时应重视情境预设、更重视思维的发展历程, 关注知识的内化、更关注形成知识的方法的理性建构, 努力对课堂教学不断地进行积极的、有意义的开发与探索。

参考文献

[1]中华人民共和国教育部.普通高中数学课程标准[S].北京:人民教育出版社, 2003.

[2]廖金祥, 朱晴晴.“直线的一般式方程”的教学分析及教学思考[J].中学数学教学参考, 2015, 19:29-31+34.

[3]方厚良, 罗灿.泰勒的思维“六步骤”范式及其应用[J].中学数学教学参考, 2015, 28:29-31.

变量分布 篇5

干旱是一种频发的自然灾害,对人类和社会产生极大的危害。它是包括干旱历时、干旱烈度和干旱强度等多个相关变量的极值水文事件,并且干旱特征变量之间往往存在着一定的相关性,单变量分析很难反映这种相关性。传统的多变量频率分析模型要求单变量服从相同的边缘分布,而Copula函数理论适用于构建边缘分布不受此类限制的联合分布,是描述变量间相关性的一种很好的工具。

Copula函数最初多应用于金融、保险等行业。近些年来,Copula函数被引入水文研究领域,取得了一定的成果。Genest et al.研究了大量的相关性方程及相关的Copula函数的参数估计及拟合度评价,并将meta椭圆Copula函数应用于年度春季洪水的洪峰、洪量和历时的联合分布的建立[1,2]。Serinaldi and Grimaldi基于非对称Archimedean Copula函数建立三维联合分布[3]。Kao and Govindaraju利用Plackett Copula分析了三维降水极值事件,结果表明,Plackett Copula可以分析二维和三维的降水的联合分布[4]。Song Songbai and Vijay P Singh应用遗传算法估计Plackett Copula函数的参数,基于Plackett Copula函数建立了干旱历时、干旱烈度以及干旱间隔时间之间的联合分布,并计算了相应的条件重现期[5]。L Zhang and Vijay P Singh(2007b,2007c)基于Gumbel Copula建立了降水历时、降水强度和雨深以及洪峰、洪量和洪水历时的三变量联合分布,并与三维正态分布进行了比较,表明Gumbel Copula建立的三维联合分布效果相对较好,并计算了不同条件下的重现期[6,7]。J.T,Shiau、Song Feng和Saralees Nadarajah利用Clayton Copula函数对黄河流域的水文干旱事件进行了干旱历时和干旱烈度的联合分布的构造,并对其联合概率分布、联合重现期与条件重现期进行了计算[8]。阎宝伟等以标准降水指数作为干旱指标, 通过Gumbel Copula 函数构造干旱历时和干旱程度的联合分布来分析干旱的基本特征, 并以汉江上游为例进行了应用研究[9]。徐岗飞等依据轮次分析、游程理论等计算了北方荒漠化地区的降水特征,并分析了干旱区和极端干旱区等地区的江水增减趋势[10]。方红远等运用模拟统计法和概率解析法多角度的分析了干旱和非干旱历史分布、转移概率以及干旱重现期等干旱事件特征[11]。迄今为止,在国内外的文献中, 基于Copula函数对二维联合分布的研究和应用比较多, 对三维及以上的联合分布的研究和应用比较少。相对于洪水和降雨特征分析,对干旱的特征研究所作的工作相对较少,且这些研究大多为干旱历时和干旱烈度之间以及干旱历时和干旱强度之间的两维分布的分析计算。本文以渭河流域西安站为例,利用Copula函数对其月降水资料进行分析,选取干旱历时、干旱烈度和干旱烈度峰值为干旱特征变量,研究三维的干旱联合分布,从而分析该地区的干旱发生规律,以期为当地的水资源决策者提供依据。

1 干旱变量的定义

干旱特征变量通常包括干旱历时、干旱烈度、干旱强度和干旱烈度峰值等[12]。对于干旱的识别,一般采用游程理论(Run theory),也叫轮次理论。干旱变量的定义如图1所示,X0为截取水平,当径流(或降水)序列Xt(t=1,2,…,N)在一个或多个时段内连续小于X0时,出现负游程,发生干旱;干旱历时D为负游程长度;干旱烈度S为负游程的阴影部分的面积;干旱强度I为干旱烈度S与干旱历时D的比值;烈度峰值M为负游程的极值。

2 Archimedean Copula函数

2.1 Copula函数

Copula是定义在[0, 1]区间均匀分布的联合分布函数,其定义见参考文献[4]。

常用的三维的Archimedean Copulas函数有Clayton, Frank, Ali-Mikhail-Haq (AMH)和Gumbel-Hougaard (GH) [13]:

(1)Clayton Copula:

C(u1,u2,u3)=(u1-θ+u2-θ+u3-θ-2)-(-1/θ)θ(0,)(1)

(2) Gumbel-Hougaard (GH) Copula:

C(u1,u2,u3)=exp{[(-lnu1)θ+(-lnu2)θ+(-lnu3)θ](1/θ)}θ[1,)(2)

(3) Ali-Mikhail-Haq (AMH) Copula:

C(u1,u2,u3)=u1u23/[1-θ(1-u1)(1-u2)(1-u3)]θ[-1,1)(3)

(4) Frank Copula:

C(u1,u2,u3)=-1θln{1+[exp(-θu1)-1][exp(-θu2)-1][exp(-θu3)-1][exp(-θ)-1]2}θR(4)

式中:C(u1,u2,u3)为三维的Copula函数;u1,u2,u3为边缘分布函数;θ为Copula函数的参数。

2.2 Archimedean Copula函数的参数估计

常用的Copula函数的参数估计方法有相关性指标法,极大似然法,以及适线法等等。其中,对于二维Copula函数的参数估计,普遍适用的相对简便的方法是相关性指标法。然而,对于三维的Copula 函数,相关性指标法不再适用。本文选用极大似然法和适线法进行参数估计。

(1)极大似然法[14]。

假定在(u1,u2,u3)的样本空间上,极大似然的计算步骤表示如下:

L(θ)=i=1nc[(ui1,ui2,ui3);θ]=i=1n3C[(u1,u2,u3);θ]u1u2u3(5)ln[L(θ)]=i=1nln{c[(ui1,ui2,ui3);θ]}(6)ln[L(θ)]θ=0(7)

解方程(7)即可得到参数θ

式中:L(θ)为似然函数;c[(u1,u2,u3);θ]为三维Copula函数的密度函数,其他符号意义同前。

(2)适线法[15]。

适线法的基本原理在一定的实现准则下,求解与经验点据拟合最优的频率曲线的统计参数。本文选择离差平方和最小准则(OLS):

ΟLS=1ni=1n(Cei-Ci)2(8)

式中:Ci表示联合观测值样本(x1i,x2i,x3i)的Copula函数计算值;Cei表示相应的经验概率。对于某一特定的Copula函数,目标函数OLS越小,说明该Copula函数的参数θ越优。因此,Copula的参数估计值θ^满足:minθ[ΟLA(θ)]

2.3 Copula函数的选择

拟合优度评价是选择分布线型的一个重要标准。本文分别采用均方根误差(RMSE),AIC以及Bias[16]为指标来评价Copula函数的拟合程度的优劣。RMSE、AIC和Bias的值越小,表示Copula函数拟合程度越好。

3 干旱特征变量的联合分布

干旱历时D、干旱烈度S和烈度峰值M分别选用指数分布、Gamma分布和广义Pareto分布,分布函数分别为:

FD(d)=1-ed-μλ(9)FS(s)=0ssα-1βαΓ(α)esβds(10)FΜ(m)=1-[1-kσm]1k(11)

假定X1,X2和X3分别表示干旱事件中具有相依关系的变量序列,u1,u2,u3分别表示干旱历时、干旱烈度和烈度峰值的边缘分布,其事件(x1,x2,x3)的联合概率分布函数F可表示为:

F(x1,x2,x3)=C[FX1(x1),FX2(x2),FX3(x3)]=C(u1,u2,u3)(12)

当给定X3≤x3时,条件概率分布函数可表示为:

[ΗS2*3]F(x1,x2|X3x3)=F(x1,x2,x3)F(x3)=C(u1,u2,u3)u3(13)

相应的重现期为:

[ΗS2*3]Τ(x1,x2|X3x3)=Νn[1-F(x1,x2|X3x3)](14)

当给定X2≤x2,X3≤x3时,条件概率分布函数可表示为:

[ΗS2*3]F(x1|X2x2,X3x3)=F(x1,x2,x3)F(x2,x3)=C(u1,u2,u3)C(u2,u3)(15)

相应的重现期为:

Τ(x1|X2x2,X3x3)=[ΗS2]Νn[1-F(x1|X2x2,X3x3)](16)

式中:N为干旱系列长度(年);n为发生干旱的次数。

4 实例研究

本文以渭河流域西安站1932-2008年的月降水资料为例,选取多年各月平均值为截取水平,获得干旱历时D、干旱烈度S和烈度峰值M,研究该站的干旱变量联合分布及条件重现期。

4.1 干旱特征变量的边缘分布

应用概率权重矩法求得指数分布的参数为μ=0.61,λ=1.70;用极大似然法求得Gamma分布和广义Pareto分布的参数分别为α=0.96, β=49.96;k=-0.39,σ=39.92。指数分布,Gamma分布和广义Pareto分布对干旱历时、干旱烈度和烈度峰值的拟合程度如图2所示。

4.2 Copula函数的参数估计与选择

根据公式(6),(7),(8),(9)计算得Copula函数的参数及拟合优度评价指标,计算结果见表1。通过计算结果的对比,适线法计算得出的RMSE、AIC和Bias的值均小于对应函数用极大似然法计算出的RMSE、AIC和Bias的值,因此,对于三维Archimedean Copula函数的参数估计,适线法的效果优于极大似然法。

将适线法估计出的参数分别代入4种Archimedean Copula函数中,做经验频率与理论频率拟合效果图如图3, 由图3以及表1中各拟合优度评价指标的比较可知,Clayton Copula对西安站的干旱数据的拟合效果最好。所以,本文选用Clayton Copula函数对西安站进行基于干旱历时、干旱烈度和烈度峰值的三变量的联合分布的分析计算。

4.3 联合分布的分析计算

给定烈度峰值小于等于某一特定值,干旱历时和干旱烈度的联合重现期的计算结果如图4和图5所示,从图4和图5中,可查出给定M≤20 mm,M≤10 mm条件时的干旱历时和干旱烈度的联合重现期。

给定干旱烈度和烈度峰值分别小于等于某一特定值,干旱历时的条件重现期的计算结果如图6所示,从图6中,可以查出给定(M≤20 mm,S≤100 mm),(M≤20 mm,S≤160 mm),(M≤20 mm,S≤220 mm),(M≤10 mm,S≤100 mm),(M≤10 mm,S≤160 mm), (M≤10 mm,S≤220 mm)条件时的干旱历时的条件重现期。

5 结 论

以渭河流域西安站77年的月降水资料为例,基于游程理论,从降水资料中提取干旱特征变量(干旱历时、干旱烈度和烈度峰值),通过Archimedean Copula函数构造三变量间的联合分布,然后通过拟合优度检验选择Clayton Copula函数构造西安站干旱变量间的联合分布,并计算条件重现期。结果表明,用Copula函数构造的联合分布考虑到了干旱历时、干旱烈度和烈度峰值的不同组合情况,而且能够求得不同干旱历时、干旱烈度或烈度峰值下的条件概率和条件重现期,能够更全面真实地反应干旱特征。

变量分布 篇6

关键词:随机变量,分布列,数学期望,概率论

离散型随机变量的分布列及数学期望的计算, 是概率论中的两个基本问题.分布列的计算其实质依然是随机事件概率的计算, 如何体现概率解题方法的灵活多样性, 一个有效的策略是从解答结果出发, 通过对结果的化简处理, 启迪我们探求解决问题的新思路;分布列已知, 可直接利用定义计算数学期望, 但有时计算会比较困难, 通过将随机变量进行和式分解、利用对称性、条件数学期望等技巧往往可使数学期望的计算分外简捷.本文讨论一个重要的离散型随机变量的分布列及其数学期望的计算方法.

例 一个口袋中有m个红球, (n-m) 个白球, 无放回地从口袋中取球, 直到取出白球为止.设X表示取球停止时已取出红球的个数, 求X的分布列及其数学期望E (X) .

1.求X的分布列

解 (X=k) 表示事件“前k次取到的都是红球, 且第 (k+1) 次取到的是白球”, 因为是“无放回地”取球, 通常采用排列计数模式, X的分布列为

undefined

计算上式的排列数, 得到

undefined

比较 (1) 式和 (2) 式可以得出结论:“无放回地逐个取k个球”与“一次性取出k个球”的概率相同, 即可以采用组合计数模式.需要注意的是无论采用哪种计数模式, 在计算样本点总数和有利事件数时必须采用相同的计数模式.

对上述结果进一步进行化简, 得到

undefined

化简的结果很容易使人联想到古典概型的概率计算公式, 受此启发, 得到以下一种更简捷直观的解法.

解 把同色球看作无区别的, 把n个球排成一行, 可看作在n个位置上选m个放红球, 剩下的放白球, 样本点总数为Cundefined;前k个位置必须放红球, 第 (k+1) 个位置上必须放白球, 只需在其余 (n-k-1) 个位置上选 (n-m-1) 个放白球, 剩下的放红球, 有利事件数为Cundefined, 由古典概型的概率计算公式得到式 (3) .

2.求X的数学期望

关于X的数学期望, 文[1]给出了2种解法:一种方法是对m作数学归纳法, 过程比较繁琐;另一种方法是先求随机变量的分布列, 再套用期望公式, 需要先通过一个多项式函数来证明一个组合恒等式, 计算的技巧性较强.本文给出以下几种解法:

解法1 直接利用离散型随机变量数学期望的定义.

E (X) =undefinedkP (X=k) =undefinedundefined

计算上式的关键也是难点在于计算求和表达式undefinedkCundefined.

下面通过一个简单常用的组合恒等式来计算.

undefinedkCundefined=Cundefined+2Cundefined+3Cundefined+…+ (m-1) Cundefined+mCundefined=Cundefined+Cundefined+Cundefined+…+Cundefined+Cundefined+Cundefined+Cundefined+…+Cundefined+Cundefined+Cundefined+…+Cundefined+Cundefined+ …+Cundefined+Cundefined+Cundefined. (5)

利用组合恒等式Cundefined+Cundefined=Cundefined, 这个关系式可以由定义直接验证.特别地, 当r=m时,

Cundefined+Cundefined=Cundefined. (6)

且有Cundefined+Cundefined=Cundefined. (7)

将表达式 (5) 中第2个等号后的每一行自右向左先利用一次 (7) 式, 再反复使用 (6) 式, 得到

undefinedkCundefined=Cundefined+Cundefined+Cundefined+…+Cundefined+Cundefined.

将上面表达式自右向左再利用 (7) 式与 (6) 式, 可以得到undefinedkCundefined=Cundefined.

从而由 (4) 式可得undefined

解法2 利用随机变量的和式分解.

用X表示取球停止时摸出的红球数, 用A1, A2, …, Am表示m个红球, 对于i=1, 2, …, m,

undefined

则有X=X1+X2+…+Xm.

undefined

undefinedundefined

参考文献

[1]张福阁, 杜志涛.一个随机变量数学期望的计算[J].高师理科学刊, 2005, 25 (3) .

[2]刘国祥等编.概率论与数理统计[M].甘肃:甘肃教育出版社, 2002.

变量分布 篇7

随机变量的许多重要数字特征都与该随机变量的高阶矩有关[1,2],例如,随机变量的标准化量的三阶矩是该随机变量的偏度、标准化量的四阶矩是该随机变量的峰度等,这些高阶矩在金融投资、保险和数据传输中都有着重要的应用[3,4,5]。因此,高阶矩的计算就显得尤为重要。

独立同分布随机变量和的分布及其数字特征是保险和精算领域的重点研究对象之一[6]。精算学中将被保险人的理赔额看作是一个随机变量,由于多个被保险人之间通常是彼此没有联系的,所以保险人在保单存续期内的总的理赔额就可以看作是这些彼此相互独立的随机变量的和。研究这个和的分布及其数字特征对于保险公司而言有着重要的实际意义。

本文选取了均匀分布作为研究对象,利用组合数学中的第二类Stirling数、多项式定理和二项式定理,对独立同U(0,1)和U(a,b)随机变量和的高阶矩进行了计算,得到了相应的计算公式。

1基本概念及引理

定义1[7]若连续型随机变量X的概率密度为

f(x)={1b-a,a<x<b0,

则称X在区间(a,b)上服从均匀分布,记为XU(a,b)。

定义2[8]将n个元素的集合划分成k个块的划分数称为第二类Stirling数,记为S(n,k)。对于1≤kn,有S(n,k)>0;对于1≤n<k,有S(n,k)=0。此外,规定S(0,0)=1;对于k≥1,S(0,k)=0。 换言之,S(n,k)的组合意义就是将n个不同的球分配到k个不加区别的盒子中去,不考虑盒子的顺序,没有盒子为空的分配数,因此有

S(n,k)=1k!i1++ik=nijΖ+,j=1,,k(ni1i2ik)

第二类Stirling数的递推关系式[8]:

S(n,k)=k·S(n-1,k)+S(n-1,k-1)。

根据此递推关系式和第二类Stirling数的初始值,可以计算S(n,k)。

引理1[9](二项式定理) 令n为一正整数,对于所有的xy,有

(x+y)n=k=0n(nk)xn-kyk

引理2[9] (多项式定理) 令n为一正整数,对所有的x1,x2,…,xm,有

(x1+x2++xm)n=n1++nm=nnjΝ,j=1,,m(nn1n2nm)x1n1x2n2xmnm

引理3[6] 若XU(0,1),则

E(Xk)=1k+1;k=1,2,3,…。

引理4[6] 若XU(a,b),则

X-ab-aU(0,1)

2主要结论

定理1 设X1,…,Xm独立同分布于U(0,1),则

证明 根据引理2和数学期望的性质,有

E[(X1+X2++Xm)n]=E[i1++im=nijΝ,j=1,,m(ni1i2im)X1i1X2i2Xmim]=i1++im=nijΝ,j=1,,m(ni1i2im)E(X1i1)E(X2i2)E(Xmim)

根据引理3,有E(Xjij)=11+ij(j=1,,m),所以有

E[(X1+X2++Xm)n]=i1++im=nijΝ,j=1,,m(ni1i2im)11+i111+i211+im=i1++im=nijΝ,j=1,,mn!(1+i1)!(1+i2)!(1+im)!

此处,令1+ij=ij,(j=1,…,m),则i1+i2+…+im=n变成i′1+i′2+…+im=n+m;ijN变成ijZ+,有

E[(X1+X2++Xm)n]=i1++im=n+mijΖ+,j=1,m(n+m)!(i1)!(i2)!(im)!n!(m+n)!=n!m!(m+n)!1m!i1++im=n+mijΖ+,j=1,,m(m+ni1i2im)

根据定义2,知

所以有

定理2 设Y1,Y2,…,Ym独立同分布于U(a,b),则

E[(Y1+Y2+Ym)n]=k=0n(nk)(b-a)k(ma)n-kS(m+k,m)(m+kk)

证明 由Y1,Y2,…,Ym独立同分布于U(a,b),令Xi=Yi-ab-a,(i=1,2,,m),根据引理4,有X1,X2,…,Xm独立同分布于U(0,1),所以有

E[(Y1+Y2+…+Ym)n]=

E[(ma+(b-a)(X1+X2+…+Xm))n]。

根据引理1和数学期望的性质,有

E[(Y1+Y2++Ym)n]=E[k=0n(nk)(b-a)k(X1+X2++Xm)k(ma)n-k]=k=0n(nk)(b-a)k(ma)n-kE[(X1+X2++Xm)k]

根据定理1的结论,有

E[(Y1+Y2++Ym)n]=k=0n(nk)(b-a)k(ma)n-kS(m+k,m)(m+kk)

3计算实例

根据定理1的结论,取m=1,2,3;n=1,2,3,4,得到m个独立同U(0,1)随机变量和的n阶矩,如表1所示。

根据定理2的结论,取a=2;b=4;m=1,2,3;n=1,2,3,4,得到m个独立同U(2,4)随机变量和的n阶矩,如表2所示。

参考文献

[1]于晶贤.一类离散型随机变量高阶原点矩的递推计算方法.科学技术与工程,2010;10(15):3681—3683

[2]于晶贤,李金秋.泊松分布高阶原点矩的两种计算方法.数学的实践与认识,2010;40(21):221—224

[3]王莺歌,江孝感.高阶矩风险与金融投资决策.价值工程,2008;9:7—10

[4]赵晓瑜,谭忠.含有高阶矩的CAPM在保险业的应用.山西财经大学学报,2007;1:106—107

[5]赵国英,向世明,李华.高阶矩在颜色传输中的应用.计算机辅助设计与图形学学报,2004;1:62—66

[6]卡尔斯R,胡法兹M,达呐J,等.现代精算风险理论.唐启鹤,胡太忠,成世学,译.北京:科学出版社,2005

[7]盛骤,谢式千,潘承毅.概率论与数理统计.第四版.北京:高等教育出版社,2008

[8]王天明.近代组合学.大连:大连理工大学出版社,2008

变量分布 篇8

模糊数学原理:在现实生活中, 经常要对某些客体出现的可能性大小做出预测, 但是有时很难给被预测对象一个准确的量值, 这时预测一个客体出现的可能性大小, 我们可采用“大, 较大, 较小和小”等来做以预测。事实表明, 大和较大之间没有截然的界限, 这种界限具有模糊性, 所以对客体的测定用“大, 较大, 较小, 小”等模糊评语来预测, 才显得比较准确和方便。尽管各人对模糊事物界限的认识不完全一致, 预测时还可能伴有较大的主观性, 但是人们心目中的界限毕竟有着一定的分布规律, 而且模糊事物本身也客观存在着相对的标准, 所以在做了模糊性的预测后, 仍能求出它们的内在联系。模糊数学就正是揭示这种内在联系的一种工具。

建立数学模型:我们假设在一风险型决策中有种自然状态, 也即有个状态变量1, 2, …, , 它们的先验分布已知, 不妨设为11=1, 12=2, …, 1=令=1, 2…) ;再用个等级1, 2, …, 对上述的种状态的出现可能性做出预测, 以1, 2, …, 表示个等级的预测百分率, 在一定数量的决策者参加预测之后, 可得到一个预测表:=1, 2…, 。假设我们先预测1:如果有个人参加预测, 其中11个人认为1出现的等级为1, 有12个人认为1出现的等级为2, …, 有1个人认为1出现的等级为, 令则决策者对1的预测可记为1=11, 12…, 1。若对2出现的可能性大小预测为2=21, 22…, 2, …, 对出现的可能性大小预测为=2, 2…, , 以上项状态指标

的预测表可组成一个矩阵,

由先验分布概率距阵A与复合距阵B经模糊变换后便得

把这个结果作为θ1, θ2, …, 的的后验分布概率, 然后以这个后验分布概率作为参数, 用期望值准则计算方案的满意程度, 选出最优方案。

参考文献

[1]杨家驹, 陈力编.人才定量考核方法, 能源出版社, 1986.

上一篇:地方法制下一篇:产品设计的环境因素