连续概率模型(通用9篇)
连续概率模型 篇1
1 问题重述
某公司在金融投资中, 需要考虑如下两个问题:
1) 准备用数额为1000万元的资金投资某种金融资产 (如股票, 外汇等) 。它必须根据历史数据估计在下一个周期 (如1天) 内的损失的数额超过10万元的可能性有多大, 以及能以95%的置信度保证损失的数额不会超过多少。
2) 如果要求在一个周期内的损失超过10万元的可能性不大于5%, 那么初始投资额最多应为多少。
下面是该公司在过去一年255个交易日的日收益额 (单位为万元) 的统计数据, 假定每天结算一次, 保持每天在市场上的投资额为1000万元:
要求:
1) 参考以上数据, 建立模型来解决前述的两个问题;
2) 讨论二周期情形 (如今后两天内) 上述两个问题的答案;
3) 陈述上述两个问题的一般形式 (即初始投资额为M, 限定损失额为L, 置信度为1-α, T个周期) 及其解决方案。
2 模型假设
1) 认为一个周期是一天, 两个周期是连续两天;
2) 连续模型中, 收益额精确到元, 认为是连续的;
3) 每一个周期服从独立正态分布;
4) 两周周期内连续两天的每一天的收益额服从独立同分布;
5) 利用经过检验的样本均值和样本方差估计值作为总体均值和总体方差;
6) 投资额与收益额认为是正比例关系。
3 模型建立
3.1连续概率模型
3.1.1样本分析
将题目中所给的数据进行分析, 得出这些数据大致符合正态分布, 然后运用matlab对样本分布进行正态性检验 (如图2所示) :
从上图可以看出得出的结果近似一次线性函数, 基本符合正态分布的要求。
为了更加准确地证实样本分布性质, 下面运用t-检验对样本进行验证:
对于假设H0:μ=μ0;H1:μ≠μ0, 构造[3]:
由P{T<tα (n-1) }=α, 可得拒绝域T<tα (n-1) , 查表、计算, 比较大小即得结论。
在确定了数据符合正态分布这一结论后, 下一步我们将对数据进行参数估计。由MATLAB计算得到, 均值μ为7.5569, 标准差δ为9.7977, 均值的95%的置信区间为[6.3486, 8.7652], 标准差的95%的置信区间为[9.0148, 10.7308]。
另外, 我们要在方差未知的情况下, 对均值7.5699的采取进行假设检验, 于是调用matlab中的ttest函数[1], 我们得到:
(1) 布尔变量h=0, 表示接受原假设, H0:=7.5699成立;
(2) 95%的置信区间为[6.3486, 8.76522];
(3) Sig的值为1大于0.05, 所以接受假设, 即不存在显著差异。根据假设检验的结果, 我们可以确定的取用均值7.5569。
3.1.2问题1
1) 准备用数额为1000万元的资金投资某种金融资产 (如股票, 外汇等) 。它必须根据历史数据估计在下一个周期 (如1天) 内的损失的数额超过10万元的可能性有多大, 以及能以95%的置信度保证损失的数额不会超过多少。
样本分布函数[3]:
利用得到的正态分布模型, 由MATLAB可以得到一天损失数额超过十万元的概率为:
95%的置信度保证损失的数额:
2) 如果要求在一个周期内的损失超过10万元的可能性不大于5%, 那么初始投资额最多应为多少?
根据经验, 投资额越大, 一周期内损失额越大, 收益额也越大, 所以可以认为投资额与损失额成正比例关系:
求得投资额M1为1168.3744 (万元) 。
3.1.3问题2
1) 对于两个周期情况下, 因为每一天收益额都是独立服从正态分布, 可以记作X, Y。收益额Z=X+Y。因为:
利用得到的正态分布模型, 由MATLAB可以得到两天损失数额超过十万元的概率为:
95%的置信度保证损失的数额:
求得M2为1302.5413 (万元)
3.1.4问题3
样本分布函数[3]:
1) 已知损失金额为L, 其超过损失金额L概率为:P (X<-L) =F (-L)
4 模型分析
本文建立连续分布模型, 解决了提出的问题。但是模型存在一些优缺点, 如下:
1) 在计算单个周期的情况下计算不是特别复杂, 但是在两个周期情况下, 利用列举的方法会带来计算复杂的情况, 只能借助于编程计算。也就失去了不需要复杂计算的优点, 对于更多周期的情况, 实用性更差。
2) 连续正态分布的应用很好地解决了本文提出的问题, 并且精度很高, 借助于MATLAB计算不是特别复杂, 可以说连续性模型优于离散型模型。
3) 本例还可以借助蒙特卡洛法, 通过生成服从该正态分布的随机数来估算概率值和限定损失额。
摘要:针对某公司在金融投资中遇到的问题, 我们建立了连续概率模型。对于连续概率模型, 我们观察收益额频率正态性检验, 发现各个收益额频率分布基本符合正态分布, 然后我们使用正态分布参数估计和参数检验, 证明了该样本符合正态分布。对于单周期情形, 模型得到结果如下:P (X<-10) =0.0366, 以95%的置信度保证损失的金额不会超过8.5589万元, 初始投资额为1168.3744万元。对于两周期情形, 模型得到结果如下:P (X<-10) =0.0350, 以95%的置信度保证损失的金额不会超过7.6773万元, 初始投资额为1302.5413万元。对于T周期情形, 模型推导得出结果如下:样本分布函数[3]:。1) 已知损失金额为L, 其超过损失金额L概率为:P (X<-L) =F (-L) ;2) 已知损失超过损失金额L概率为Y, 通过列方程F (M′) =Y求解, 得出M′的值, 再通过关系式M′1000=-10M求出M的值。模型总结。连续正态分布的应用很好地解决了本文提出的问题, 并且精度很高, 借助于MATLAB计算不是特别复杂。
关键词:样本分析,连续概率模型,正态分布
参考文献
[1]卓金武.MATLAB在数学建模中的应用[M].北京:北京航空航天大学出版社, 2011.
[2]赵静, 但琦.数学建模与数学实验[M].北京:高等教育出版社, 2008.
[3]夏乐天.概率论与数理统计[M].南京:河海大学出版社, 2011.
遗传概率问题的模型构建 篇2
遗传学的内容是高中阶段的一个重点,也是难点.长期以来,很多学生都很难把握.面对变幻莫测的遗传问题,学生既感觉新奇、喜欢,又觉得无法准确掌握,尤其是遗传概率的计算问题.理解遗传现象的组合方式,是解决遗传概率计算问题的关键.现结合人教版第二册课本中的《性状分离比的模拟实验》,通过构建“小桶”模型来分析一例遗传概率问题——自交与随即交配的概率计算.
【例题】 玉米高茎(D)对矮茎(d)为显性,现将纯种高茎玉米和纯种矮茎玉米杂交,产生F1,F1自交产生F2.
(1)将F2中所有的矮茎除去,让高茎玉米自交,产生F3.问F3中高茎与矮茎玉米的比例是().
(2)将F2中所有的矮茎除去,让高茎玉米自由相互授粉,产生F3.问F3中高茎与矮茎玉米的比例是().
A.3∶1B.5∶1C.8∶1D.9∶1
解析:F2中的高茎∶矮茎=3∶1,基因型DD∶Dd∶dd=1∶2∶1.将矮茎除去后,剩余的高茎中DD∶Dd=1∶2.
自交是指同一基因型的个体授粉.F2中的高茎自交,授粉方式只有两种:DD×DD和Dd×Dd.因此我们可以把高茎的两种基因型装入两个小桶里.见图一:
桶一中的小球代表Dd基因型,其占F2中高茎的2/3.桶二中的小球代表DD基因型,其占F2中高茎的1/3.桶二中的高茎自交后代中的分离比为高茎∶矮茎=3∶1,即在整个桶里所占比例分别为3/4和1/4.桶二中的高茎自交后代中全为高茎用1代表.则整个F3高茎∶矮茎=(2/3×3/4+1/3×1)∶2/3×1/4=5∶1.
随机自由交配是指群体中的雌雄个体可以随机结合,自由交配.F2中的高茎随机授粉,其授粉方式的可能组合就有四种:♂DD×♀DD、♂Dd×♀Dd、♂DD×♀Dd、♂Dd×♀DD.我们不难发现,这四种组合实际上保证了F2中的高茎个体产生的各种花粉能够和F2中的高茎个体产生的各种卵细胞随机结合,完成受精作用.我们同样可以借助“小桶”模型来分析.根据上述分析,我们可以把F2中的高茎个体产生的各种基因型的花粉和各种基因型卵细胞放入两个小桶里.见图二:
桶一代表F2个体形成精子,桶二代表F2个体形成的卵细胞.由于F2高茎中DD∶Dd=1∶2.因此形成的配子D∶d=(2+1×2)D∶(1×2)d=2∶1.桶一、桶二中随机选择配子结合的结果组合就是:DD=2/3×2/3=4/9,Dd=2/3×1/3×2=4/9,dd=1/3×1/3=1/9.因此F3个体中高茎∶矮茎=(4/9+4/9)∶1/9=8∶1.
通过构建“小桶”模型,可以将自交和随机交配这样比较复杂的、抽象的问题直观化,便于学生进行分析理解.构建模型分析遗传现象是遗传学的教学和学习过程中的有效手段,有利于学生同化新知识.
在生物教学过程中尝试构建一些简单的模型,能够从学生已有的生活经验出发,让学生亲身经历将生物实际问题抽象成简单直观的模型,并进行分析解释,进而使学生在获得对生命现象理解的同时,在思维能力、情感态度与价值观等多方面得到进步和发展.
连续概率模型 篇3
关键词:概率论,计算,概率模型
概率论是一门研究随机现象统计规律的学科, 它是各种数理统计方面的理论基础。在自然界存在着两类不同的现象——确定性现象和随机现象。若一个试验在可以相同的条件下重复进行, 且试验的所有可能结果是已知的, 但无法预言每次试验的具体结果, 则称此试验为随机试验。随机试验的结果称为事件。
概率内容中新概念较多, 相近概念易于混淆。
一、等可能事件和互斥事件
等可能事件的前提是:一次试验可能出现的结果 (基本事件) 只有有限个, 并且每一中结果出现的可能性都相等。互斥事件的前提是:同一试验中两个事件不可能同时发生。等可能事件的出发点是两个事件所含结果出现的机会是否相等, 互斥事件只要求不同时出现, 而不要求出现的机会是否相等。
例1:甲袋中有10个白球, 6个黑球, 乙袋中有6个白球, 10个黑球。现在从中各取一球。求事件“A=两球同色”的概率。
解析: (从等可能角度考虑) 从中各取一球的基本事件的总数为C161C161=265个, 而两球同色共有C101C61+C61C101=120取法, 由等可能事件概率的计算公式知 (从互斥事件角度考虑) 记A1=“两球为白球”, A2=“两球为黑球”, 则事件A1与A2互斥, 故
二、互斥事件与对立事件
互斥与对立都表示两个事件之间的关系, 互斥事件是指同一试验中不可能同时发生的两个事件。而对立事件除了要求这两个事件不同时发生外, 还要求这两个事件中有且只有一个发生。因此对立事件一定是互斥事件, 且是互斥事件的特殊情况, 而互斥事件不一定是对立事件。从本质上说“互斥”是“对立”的必要而非充分条件。
例2.两个射手向同一目标射击, 判断下列每组事件是否互斥事件, 是否对立事件。
(1) “甲击中目标, 乙未击中目标”与“甲未击中目标, 乙击中目标”;
(2) “甲乙至少有一人击中目标”与“甲乙都未击中目标”。
解析:记A=“甲击中目标”, B=“乙击中目标”
(2) 由于前一个事件意味着“目标被击中”, 后者意味着“目标未被击中”所以它们既是对立事件又是互斥事件。
三、互斥事件与相互独立事件
互斥事件强调在同一事件中两个事件不能同时发生, 即同时发生为不可能事件;相互独立事件则强调试验下两个事件互不影响, 它们都描绘了两个事件的关系, 但其所描绘的本质不同, 相互独立的两个事件不一定互斥, 有可能同时发生。
例3.甲乙丙三人独立的同解一道题, 他们单独解出此题的概率分别为0.5, 0.6, 0.7
(1) 求有人没解出这道题的概率;
(2) 求恰有一任解出此题的概率。
解析:记甲乙丙单独解出此题的事件分别为A, B, C, 则A, B, C是相互独立的事件, 而不是互斥事件。
(1) 记D=“有人没解出此题”, 则D与ABC是对立事件, 并且P (ABC) =0.5×0.6×0.7=0.21, 那么P (D) =1-P (ABC) =1-0.21=0.79
(2) E=“恰有一人解出此题”, 则而是互斥事件, 那么
注:概率问题的求解实现应正确理解各种“事件”, 并分清它们之间的联系, 然后用数学式子来描述这些关系。
四、等可能事件与相互独立事件
等可能事件强点一次试验中两个事件出现的机会是否均等, 而相互独立事件强调不同试验下的两个事件互不影响.有些相互独立事件的概率问题可以借助于等可能事件的概率求解。
例4.同时掷出两枚筛子, 记A=“第一个骰子的点数为偶数”, B=“第二个骰子的点数为奇数”, C=“两个骰子的点数同时为偶数, 或同时为奇数”, 判断事件A, B, C是否相互独立。
解析:同时掷出两枚骰子的基本事件的总数为C61C61=36个, 由等可能事件概率的计算公式可知于是P (ABC) ≠P (A) P (B) P (C) , 故事件A, B, C不相互独立。
注:众所周知, 事件A1, A2……An中任意两个互斥, 则A1, A2……An彼此互斥, 但是通过本题可见, “互斥”不可能类比到“相互独立”上来, 即对于A1, A2……An中任意两个相互独立, 则未必有A1, A2……An相互独立。
五、相互独立事件与n次独立重复试验
n次独立重复试验有3个特征:
(1) 实验次数不止一次, 而是多次, 每次试验相互独立, 试验的结果互不影响, 即事件A在各次试验中的概率保持不变;
(2) 次试验的条件是相同的, 是重复性的试验序列;
(3) 次试验只有且只有两个事件A与并且这两个事件互斥。
因此在相同多次的试验中, 只要任意两次的结果不但相互独立而且只有事件A与出现, 那么相互独立事件问题就可以上升为独立重复实验来求解。
例5.某人射击依次命中目标的概率为0.5, 求射击6次恰有3次命中且无两次的概率。
解析:由于恰有3次命中目标且无两次连续命中目标共有C43=4个互斥事件, 而每个互斥事件是若干个相互独立事件的积, 所以恰有3次命中目标且无两次连续命中目标的概率为P6 (3) =4×0.53 (1-0.5) 3=116
注:在独立重复试验中, 事件A发生k次试验为Cnk互斥事件之和, 每个互斥事件是n个相互独立事件的积。事件发生k次, 其对立事件A发生了n-k次, 即每个互斥事件的概率为pk (1-p) n-k
六、古典概型和贝努里概型
(1) 古典概型的特征:
(1) 样本空间的元素 (即基本事件) 只有有限个, 不妨设为n个, 并记它们为, w1w2……wn
(2) 每个基本事件出现的可能性是相等的, 即有P (w1) =P (w2) =P (w3) =……P (wn)
(2) 贝努里概型的特征:试验E只有两个可能的结果A及, 并且 (其中0<p<1) , 把E独立的重复n次的试验构成了一个试验, 这个试验称作重贝努里试验或贝努里概型。
例6.在盒子中有10个相同的球, 分别标号为1, 2, 3, ……10, 从中任取一球, 求此球的号码为偶数的概率。
解:令i={所取球的号码为i}, i=1, 2, ……10, 则Ω={1, 2, ……10}故基本事件总数n=10, 又令A={所取球的号码为偶数}显然A={2}={4}={6}={8}={10}所以A中含有nA=5个基本事件, 从而
例7.某人有一串m把外形相同的钥匙, 其中只有一把能打开家门, 有一天该人酒醉后回家, 下意识地每次从m把钥匙中随便拿一只去开门。问该人在第k次才能打开家门的概率是多大?
解:因为该人每次从m钥匙把中任取一把试用后不做记号又放回, 所以能打开家门的一把钥匙在每次试用中被选中的概率为, 易知这是一个贝努里试验, 在第k次才把门打开, 意味着前面的k-1次都没有打开。于是由独立性即得:
P (第k次才把门打开)
七、全概率公式与贝叶斯公式
(1) 设B1, B2……是一列互不相容的事件, 且有则对任一事件A, 有这个公式称为全概率公式。
(2) 若B1, B2, ……为一列互不相容的事件, 且则对任一事件A有P (Bi|A)
例8.某工厂有四条流水线生产同一种产品, 该四条流水线的产量分别占总产量的15%, 20%, 30%, 35%, 又这四条流水线的不合格品率依次为0.05, 0.04, 0.03, 及0.02, 现在从出厂产品中任意取一件, 恰好抽到不合格品的概率为多少?
解:令A={任取一件, 恰好抽到不合格品}
Bi={任取一件, 恰好抽到第i条流水线的产品} (i=1, 2, 3, 4)
于是由全概率公式可得:
例9.用甲胎蛋白法普查肝癌,
令C={被检查者患肝癌}
A={甲胎蛋白检查结果为阳性}
C={被检查者未患肝癌}
A={甲胎蛋白检查结果为阴性}
由过去的资料已知, P (A|C) =0.95
P (A|C) =0.90
已知某地居民肝癌的发病率为P (C) =0.0004, 在普查中查出一批甲胎蛋白检查结果为阳性的人, 求这批人中真的患有肝癌的概率P (C|A) 。
解:由贝叶斯公式可得:
参考文献
连续概率模型 篇4
摘 要:对多个处理且试验结果为多档次的临床试验,构建了其 概率罐子模型。研究了模型中每个处理试验结果发生的概率。利用极大似然估计方法得到其 估计量,并获得此估计量具有渐近正态性。
关键词:罐子模型;自适应设计;极大似然估计;渐近正态性
Asymptotic Behaviour of Probability Estimation in
Urn-models with Multi-outcome
ZHOU Yue-jin
(School of Sciences, Anhui University of Science and Technology , Huainan Anhui 232001, China)
Abstract:The urn model for clinical trails with multi-treatment
and multi-outcome was constructed. The probability of outcome of every treatmen t was researched in the urn model.The estimators were obtained by MLE method, an d the estimators have asymptotic normality.
Key words: urn model;self-adaptive designs;MLE;asymptot ic normality
随着科学技术的发展,新的药品和治疗方法不断涌现,这样临床试验设计 越来越受到重视。从人道主义上讲,在临床试验设计中应尽可能地把较好的、处理较多的分 配给病人。传统的临床试验设计是随机化的50-50设计,这种设计优点是操作简便,但若治 疗方法治愈率相差较大时,有的处理对病人有较重的负面影响,有近半数病人受到损 害。这 样就提出了如何根据前面的试验结果,合理有效地修正后面试验方案的自适应设计方法。文 献[1]提出了自适应设计思想。文献[2]提出了“胜者优先”(Play-the-Winner Rule )设计。文献[3]1 801提出了广义Friedman概率罐子模型(Generalized Friedman ’s Urn)。利用广义Friedman概率罐子模型而构建的序贯试验设计是一种重要的自适应设 计。文献[3]1 805~1 807还研究了成功概率为齐态的概率罐子模型渐近性质。文献 [4]研究了成功概率为非齐态的概率罐子模型强相合性和渐近性质。文献[5]研 究了带时 序趋势的概率罐子模型极限性质。文献[6]研究了多处理的罐子模型极限定理。以 上研究 的罐子模型考虑的试验结果只有两档次,成功和失败。但是在临床试验中试验结果为多个档 次的情形也是常见的。文献[7]利用非参数秩统计方法提出了一种设计,但没有建立这种 设计的渐近性质。文献[8]研究了在临床试验中试验结果为多档次的罐子模型,对 此提出了一种设计,并建立了渐近定理。
本文考虑多个处理且试验结果为多档次的罐子模型, 并建立其渐近性质, 推广了文献[8 ]中的结果。 文中第一部分对多个处理且试验结果为多档次的临床试验设计一种罐子模型 ; 第二部分得到主要结果, 即建立这种模型的渐近正态性质并给出证明。
1 罐子模型
考虑k个处理临床试验问题,假定临床试验结果可划分为2t个档次:Tt,Tt-1,… ,T1;S1,S2,…,St。其中Tt,Tt-1,…,T1表示负面结果,负面程度由 轻到重;S1,S2,…,St表示正面结果,正面程度由轻到重。对病人有人文关怀的设计 应是这样,当处理Ai(i=1,…,k)的试验结果为Tj(j=1,…,t)时,下一步则应减少处理A i(i=1,…,k)的试验机会,同时增加其它处理的机会;当处理Ai(i=1,…,k)的试验结果 是Sj(j=1,2,…,t)时,下一步则应增加处理Ai(i=1,…,k)的试验机会,同时减少其它 处理的机会,而且随着负面(正面)结果程度的增加,相应减少(增加)机会的力度也增大 。
设X(l)(l=1,…,k)表示试验处理Al的结果。记plj={X(l)=Sj },qij={X(l)=Tj},l=1,…,k,j=1,…,t,则pl=∑[DD(]t[]j=1[DD)]p lj表示试验处理Al成功的概率。取定2t个正数0<βt<βt-1<…<β1 <[SX(]1[]2[SX)]<α1<α2<…<αt,并约定αi+βi=1,i=1,…,t。假定在 试验开始时已在一个罐子中放入k种球,每种球代表一种处理方法,第i种球表示第i种处理 方法。在开始时罐子中k种球的个数分别为Y01,Y02,…,Y0k。从大样本 观点看,各种球的分配个数Y0i对试验的渐近结果没有影响。为简单而不失本质,可 假定Y01=Y02=…=Y0k=[SX(]1[]k[SX)]。试验开始时,随机地从罐中有 放回抽取一球,若抽取第i种球,则对病人进行Ai处理。若试验结果是Sj,则在罐中添 加αj个第i种球,同时以[SX(]psj[]∑[DD(]k[]s≠i[DD)]psj[SX)]概率添 加βj个其它第s种球(s≠i,s=1,…,k),即增加处理Ai的试验机会,减少其它处理机 会;若试验结果是Tj,则在罐中添加βj个第i种球,同时以[SX(]psj[]∑[DD(]k []s≠i[DD)]psj[SX)]概率添加αj个其它第s种球(s≠i,s=1,…,k),即减少处理 Ai的试验机会,增加其它处理机会。
这样试验可重复递推进行下去,到第n次时,记罐中成份为Yn=(Yn1,Yn2 ,…,Ynk),其中Yni(i=1,…,k)表示第i种球的个数。上述罐子模型可表示 成如下递推形式
Yi=Yi-1(I+[SX(]1[]i[SX)]H)+Qi
i=1,2,…(1)
式中:Yi=(Yi1,Yi2,…,Yik)′;Yi-1=(Yi-1,1,Y i-1,2,…,Yi-1,k)′;I为k阶单位阵;Qi=(Yi-Yi-1)-E(Yi-Y i-1|Fi-1),i=1,2,…,为一个k维鞅差序列;Fi=σ(Y0,Y1,…,Yi)是 由Y0,Y1,…,Yi所产生的σ-域;F0为平凡σ-域;H为模型的生 成矩阵,H=[JB([]∑[DD(]t[]i=1[DD)](p1iαi+q1iβ i)
∑[DD(]t[]i=1[DD)][[SX(]p2i[]∑[DD(]k[]s≠1[DD)]psi[SX)](p1i βi+q1iαi)]…∑[DD(]t[]i=1[DD)][[SX(]pki[]∑[DD(]k[]s≠1[DD)]psi[SX)](p1i βi+q1iαi)]
∑[DD(]t[]i=1[DD)][[SX(]p1i[]∑[DD(X]s≠2[DD)]psi[SX)](p2iβ i+q2iαi)]∑[DD(]t[]i=1[DD)](p2iαi+q2iβi)
…∑[DD(]t[]i=1[DD)][[SX(]pki[]∑[DD(X]s≠2[DD)]psi[SX)](p2iβ i+q2iαi)]
…………
∑[DD(]t[]i=1[DD)][[SX(]p1i[]∑[DD(X]s≠k[DD)]psi[SX)](pkiβ i+qkiαi)]∑[DD(]t[]i=1[DD)][[SX(]p2i[]∑[DD(X]s≠k[DD)]psi[SX)](pkiβ i+qkiαi)]…∑[DD(]t[]i=1[DD)](pkiαi+qkiβi)
[JB)]]
2 主要结果
在此罐子模型中,每个处理发生的试验结果是未知的,为此需对plj,qlj 进行估计。记:
am=[SX(][SX(]pmi∑[DD(X]s≠m[DD)]psi[]qmiαi+pmiβ i[SX)][]∑[DD(]k[]j=1[DD)][SX(]pji∑[DD(X]s≠j[DD)]psi[]qji αi+pjiβi[SX)][SX)],a=(a1,…,ak)′,则向量a是矩阵H的左特征向量。
如果第i次抽得第j种球,ξji=1;如果第i次抽得其它球,ξji=0。
ηi(Sj)=1,第i次试验结果为Sj;
ηi(Sj)=0,第i次试验结果为其它情况。
ηi(Tj)=1,第i次试验结果为Tj;
ηi(Tj)=0,第i次试验结果为其它情况。
以上j=1,…,t;i=1,2,…。
Mnj=∑[DD(]n[]i=1[DD)]ξji,Mn=(Mn1,Mn2,…,Mnk )′,则Mnj表示到n次时,第j种处理实验次数。
令
p[DD(-1*3]^[KG-*2]lj=[SX(]∑[DD(]n[]i =1[DD)]ξliηi(Sj)[]Mnl[SX)] q[DD(-1*3]^ [KG-*2]lj=[SX(]∑[DD(]n[]i=1[DD)]ξliηi(Tj)[]Mnl[ SX)](2)
其中l=1,…,k;j=1,…,t,由极大似然估计可知,p[DD(-1*3]^ lj,q[DD(-1*3]^lj分别是plj,qlj的极大似然估计。
记:
P=(p11,…,p1t,…,pk1,…,pkt)′
P[DD(-1*3]^n=(p[DD(-1*3] ^11,…,p[DD(-1*3]^ 1t,…,p[DD(-1*3]^k1 ,…,p[DD(-1*3]^kt)′
p[DD(-1*3]^t=∑[DD(]t[]j=1[DD)]p[ DD(-1*3]^lj,l=1,…,k(3)
由此获得的估计量P[DD(-1*3]^n有 渐近正态分布。
定 理 当n→∞时,有[KF(]n[KF)](P[DD(-1*3]^n-P)→N(0,∑x)。其中
l=1,2,…,k
(4)
[FL(K2]
为了证明定理,需引入一个引理 。
引 理[8]:当n→∞时,有Mn[]n[SX)]→a,a.s.。 证 明:由引理,有
n[KF)](P[DD(-1*3]^n-P)=
([SX(]∑[DD(]n[]i=1[DD)]ξ1i(ηi(S1)-p11)[]Mn1[SX)],…,[SX (]∑[DD(]n[]i=1[DD)]ξ1i(ηi(St)-p1t)[]Mn1[SX)],
[SX(]∑[DD(]n[]i=1[DD)]ξ1i(ηi(T1)-q11)[]Mn1[SX)],…,[SX(]∑[DD(]n[]i=1[DD)]ξ1i(ηi(Tt)-q1t)[]Mn1[SX)],…,
[SX(]∑[DD(]n[]i=1[DD)]ξki(ηi(S1)-pk1)[]Mnk[SX)],…,[SX(]∑[DD(]n[]i=1[DD)]ξki(ηi(St)-pkt)[]Mnk[SX)],
[SX(]∑[DD(]n[]i=1[DD)]ξki(ηi(T1)-qk1)[]Mnk[SX)],…,[SX(]∑[DD(]n[]i=1[DD)]ξki(ηi(Tt)-qkt)[]Mnk[SX)])′
(∑[DD(]n[]i=1[DD)]ξ(1)n1i,…,∑[DD(]n[]i=1[DD)]ξ(1 )nki,∑[DD(]n[]i=1[DD)]ξ(2)n1i,…,∑[DD(]n[]i=1[DD)]ξ(2)nki,…,
∑[DD(]n[]i=1[DD)]ξ(2k)n1i,…,∑[DD(]n[]i=1[DD)]ξ(2k )nki)′(1+op(1))[JY](5)
由鞅的中心极限定理[9]可得
n[KF)](P[DD(-1*3]^n-P)→N( 0,∑x)。
推 论 当n→∞时,有
n[KF)][JB((]p[DD(-1*3]^1-p 1
…
p[DD(-1*3]^k-pk[JB))]→N[JB((][HL(3][SX(]p1(1-p1)[]a1[SX)][]…[]0
………
0…[SX(]pk(1-pk)[]ak[SX)][HL)][JB))](6)
参考文献:
[1] ROBINS H.Some aspects of the sequential design of experiments [J].Bull.Amer.Math. Soc.,1952,58:527-535.
[2] M ZELEN.Play the winner rule and controlled clinical trial[J ].Joural of the American Statistical Association,1969,75:131-146.
[3] ALTHREGA KB,KARLIN S.Embedding of urn scheme into continuou s time
branching processes and related limit theorems[J].Ann. Math. Statist., 1968 , 39: 1 801-1 817.
[4] BAI ZD,HU FF.Asymtotic theorems for urn models with monhomogeneo us
generating matrices[J].Stochastic Processes and Their Applications,1999,80( 1):87-01.
[5] BAI ZD,CHEN GJ,HU FF.Some theorems under urn models with time t rebds[J].Chinese Annal of Mathematics,2001,22(A):89-96.
[6] CHEN GJ,ZHU CH,WANG YH.Limit theorems and optimal design with a dap tive urn models[J].Journal of Systerms Science and Complexity,2005,18:347-36 0.
[7] ROSENBERGER WF.Asymptopic inference with response adapti v e treatment allocation designs[J].Ann.Statist.,1993,21:2 098-2 107.
[8] 陈桂景,胡舒合,洪圣岩.多档次试验结果下的一种罐子模型[J].应用概率 统计,2006,22(3):281-287.
[9] HALL P,HEGDE CC.Martingale limit theory and its application[M ].Academic Press,London,1980:127-128.
构造概率模型解题例说 篇5
概率已经作为重要内容进入高中数学教材, 它为我们解题又提供了一种有力的工具, 不少非概率的数学问题, 通过构造概率模型来解, 往往可使解题过程变得简洁、明快, 下面举例说明.
例1 设x, y, z∈[0, 1], 求证:x (1-y) +y (1-z) +z (1-x) ≤1.
证明:设A、B、C是相互独立的三个事件, 且P (A) =x, P (B) =y, P (C) =z, 则有
P (A+B+C) =P (A) +P (B) +P (C) -P (A·B) -P (B·C) -P (C·A) +P (A·B·C)
=x+y+z-xy-yz-zx+xyz≥x+y+z-xy-yz-zx
=x (1-y) +y (1-z) +z (1-x) ,
而P (A+B+C) ≤1,
故有x (1-y) +y (1-z) +z (1-x) ≤1.
例2 已知
证明:原不等式可变为
sinα+cosα-sinαcosα≤1.
设A、B是相互独立的两个事件, 且P (A) =sinα, P (B) =cosα, 则
P (A+B) =P (A) +P (B) -P (A·B)
=sinα+cosα-sinαcosα.
而P (A+B) ≤1,
所以sinα+cosα-sinαcosα≤1.
故原不等式成立.
例3 求证:C
证明:设事件A在一次试验中发生的概率为
令k=0, 1, 2, …, n, 并求和得
例4 求证:
证明:建立概率模型:有两盒火柴, 每盒n根, 现从任一盒中取一根火柴, 经过一段时间, 发现一盒火柴已取完, 求另一盒恰有n根火柴的概率 (Banach火柴问题) .
以Pk表示上述概率, 则
因为当k取0到n的各个事件之和为必然事件, 且它们两两互斥,
所以P0+P1+P2+…+Pn=1,
即
证明:构造模型:从一批有n个次品的N个产品中一个一个地取出来检验 (取后不放回) , 求迟早要发现次品的概率.
因为一共有N个产品, 迟早要发现次品的概率为1, 另一方面, 若用Ak表示“第k次发现次品”, 那么在A1, A2, A3, …, AN-n+1中至少有一个发生, 它们是互斥的, 且
当k≥2时,
两边同乘以
山东省财政学院文理学院
构造模型解决高中概率问题 篇6
问题一:剖析样本空间构建数学模型
例1.袋中有a只黑球和b只白球, 除颜色外无其他区别.现随机地把球一只只摸出来, 每次一球, 取后不放回.求第k次摸出黑球的概率 (1≤k≤a+b) .
策略一:把a只黑球和b只白球都看成是不同的, 将所有的球一一摸出来依次放在排成一直线的 (a+b) 个位置上, 则所有不同的排法有 (a+b) !, 作为基本事件全体;而其中第k个位置排黑球的方法有C1a (a+b-1) !, 故所求概率为
策略二:把a只黑球和b只白球都看成是不同的, 前k次摸出球的所有不同可能为Aka+b, 将其作为基本事件全体;而第k个位置排黑球的方法有C1aAk-1a+b-1, 故所求概率为
策略三:对同色球不加区别, 仍把摸出的球依次排在成一直线的 (a+b) 个位置上.a只相同的黑球在 (a+b) 个位置上的所有不同排法作为基本事件全体, 其总数为Caa+b, 第k个位置是黑球的排法共有Ca-1a+b-1, 则所求概率为
教后体会:通过上述对比不难发现, 解决古典概率问题的传统做法是重在如何用排列组合计算上, 而忽视了对概率本身的理解.本例充分把握了对古典概率的本质要求, 做到了不用排列组合而十分简便地得到结果, 因此, 这种注重样本空间的选取的思想值得引起我们的关注和重视.
问题二:构造递推数列模型
例2.掷均匀硬币直至第一次出现接连两个正面为止, 求此时共掷了n次的概率.
解析:以An记事件“掷了n次, 第一次出现接连两个正面”, pn=P (An) .易知, 考虑An+2 (n≥1) 的情况, 事件An+2发生可分为下列两种情况: (1) 第一次出现反面, 接下来的n+1次投掷中 (与第一次投掷独立) , 第n+1次才首次出现接连两个正面; (2) 第一次出现正面, 第二次出现反面, 接下来的n次投掷中 (与第一、二次投掷独立) 第n次才首次出现接连两个正面.利用加法计数原理可得:
引入待定参数α、β使得qn+2-αqn+1=β (qn+1-αqn) , 则数列{qn-αqn-1}为以q2-q1=1为首项, β为公比的等比数列.∴qn-αqn-1=βn-2.
教后体会:将概率知识作为一个新型的材料和介质, 与递推数列合理融合, 创造了新的命题情景, 一方面, 实现了知识载体的突破, 给传统内容带来了新的生机与活力.另一方面, 凸现了以数列知识为核心的多元联系和多元应用, 丰富了研究概率问题的方法和手段, 同时, 概率与数列知识在相互融合、渗透过程中均得到了进一步的升华.
问题三:化离散模型为连续模型
所谓整值型随机变量是指只取非负整数值的随机变量, 是概率统计中研究随机现象的一类重要变量.
例3.抛掷均匀的骰子n次, 求所得n个点数的最大值与最小值的分布列.
教后体会:整值随机变量ξ的概率特性完全有它的分布列pn=P (ξ=n) (n=1, 2, …) 确定.例如它的数学期望为.但是常发生这样的情况, 要直接求P (ξ=n) 比较困难, 难以入手, 而求P (ξ≥n) 或P (ξ≤n) 却比较容易求得, 这时我们可以利用P (ξ=n) =P (ξ≥n) -P (ξ≥n+1) 或P (ξ=n) =P (ξ≤n) -P (ξ≤n-1) 来得到P (ξ=n) , 其实质是求其对立事件概率的间接方法.
遗传概率问题的模型构建 篇7
【例题】 玉米高茎(D)对矮茎(d)为显性,现将纯种高茎玉米和纯种矮茎玉米杂交,产生F1,F1自交产生F2.
(1)将F2中所有的矮茎除去,让高茎玉米自交,产生F3.问F3中高茎与矮茎玉米的比例是( ).
(2)将F2中所有的矮茎除去,让高茎玉米自由相互授粉,产生F3.问F3中高茎与矮茎玉米的比例是( ).
A.3∶1 B.5∶1 C.8∶1 D.9∶1
解析:F2中的高茎∶矮茎=3∶1,基因型DD∶Dd∶dd=1∶2∶1.将矮茎除去后,剩余的高茎中DD∶Dd=1∶2.
自交是指同一基因型的个体授粉.F2中的高茎自交,授粉方式只有两种:DD×DD和Dd×Dd.因此我们可以把高茎的两种基因型装入两个小桶里.见图一:
桶一 桶二
桶一中的小球代表Dd基因型,其占F2中高茎的2/3.桶二中的小球代表DD基因型,其占F2中高茎的1/3.桶二中的高茎自交后代中的分离比为高茎∶矮茎=3∶1,即在整个桶里所占比例分别为3/4和1/4.桶二中的高茎自交后代中全为高茎用1代表.则整个F3高茎∶矮茎=(2/3×3/4+1/3×1)∶2/3×1/4=5∶1.
随机自由交配是指群体中的雌雄个体可以随机结合,自由交配.F2中的高茎随机授粉,其授粉方式的可能组合就有四种:♂DD×♀DD、♂Dd×♀Dd、♂DD×♀Dd、♂Dd×♀DD.我们不难发现,这四种组合实际上保证了F2中的高茎个体产生的各种花粉能够和F2中的高茎个体产生的各种卵细胞随机结合,完成受精作用.我们同样可以借助“小桶”模型来分析.根据上述分析,我们可以把F2中的高茎个体产生的各种基因型的花粉和各种基因型卵细胞放入两个小桶里.见图二:
桶一 桶二
桶一代表F2个体形成精子,桶二代表F2个体形成的卵细胞.由于F2高茎中DD∶Dd=1∶2.因此形成的配子D∶d=(2+1×2)D∶(1×2)d=2∶1.桶一、桶二中随机选择配子结合的结果组合就是:DD=2/3×2/3=4/9,Dd=2/3×1/3×2=4/9,dd=1/3×1/3=1/9.因此F3个体中高茎∶矮茎=(4/9+4/9)∶1/9=8∶1.
通过构建“小桶”模型,可以将自交和随机交配这样比较复杂的、抽象的问题直观化,便于学生进行分析理解.构建模型分析遗传现象是遗传学的教学和学习过程中的有效手段,有利于学生同化新知识.
概率主题模型LDA浅析 篇8
LDA是一种对离散的数据集(如文本数据库)建模的方法,它属于生成模型。生成模型(generative probabilistic model)指的是可以随机生成可观测的数据,也就是说通过训练样本建立起LDA模型后,LDA模型可以随机生成(一篇由N个主题组成的)文章。通过对文本的建模,我们可以对文本根据主题进行分类,判断文档的相似度等。为了更清晰的表达LDA模型的含义,本文一个具体的例子说明,理解这个例子,才算真正对LDA有“一定程度”的理解。同时,也希望这个例子对理解Dirichlet分布和multinomial分布有所帮助。值得指出的是,LDA实际上是对corpus,即文档库的建模,而不是对document建模。
2文档库生成模型
在描述了这个LDA模型以后,我们现在看一看,这个LDA模型是否符合一般的常识。由于LDA是一个生成模型(Generative model),也就是说LDA模型实际上描述了这个Corpus库的生成过程(或特性)。由于这个Corpus可能由很多的文档构成,而模型的建立仅仅采用了其中的一部分文档,那么这个生成模型的有效性应该由两方面决定(自己的看法)。
a.从这个模型中生成一个Document,这个Document应该具有符合这个模型特性的一些性质。b.随便选取一篇新document w,如果是这个模型产生(或与训练document类似的话)的话,那么p(t|w,α,β)的概率应该很大(这里我们将α,β都看作hyperparameter)。其中D为训练数据,α,β为LDA的参数,t是w所属的Corpus的标记。
a.选择文章的长度(单词个数)N,这个长度N服从Possion分布,但是这里,我们仅随机指定N=6;b.选择θ,即从Dirichlet(α)分布中,选择一个向量θ。在前文中,我们说过θ是document级的参数,θ确定了document的主题特性。LDA假定corpus中的每篇文章可能与不同主题相关,而且相关程度取决于θi的大小,也就是说:
一篇文章的主题,可能是由三个主题的混合决定的,比如一个关于艺术鉴赏的document,则文章的主题则更倾向于Art,其次是Education。可以看出,对不同的corpus,生成的α参数不同,导致Dirichlet的概率分布密度不同,得到这样的α参数以后,我们就可以进行诸如分类,建模等一系列问题。
重复执行(a)(b),直到选取所有N个word。这样,我们就算生成了一篇document从这个1,2.3我们也清楚的知道,为什么zn和wn是单词级(word-level)的变量,θ是document-level的变量,而α和β是corpus-level的参数。
3结论
本文给出了一个LDA模型生成文档库的基本流程,阐述了LDA模型中参数的意义以及,对于进一步理解LDA模型以及其他主题模型提供了一个基础。
参考文献
[1]Blei,David M.;Ng,Andrew Y.;Jordan,Michael I(January 2003)."Latent Dirichlet allocation".Journal of Machine Learning Research 3:pp.993-1022.
基于概率模型的进程调度量化分析 篇9
进程调度算法是计算机操作系统最核心的算法之一。进程调度算法的功能是按一定的调度策略选择处于就绪队列中的进程在处理机上运行。处理机利用率和系统吞吐量都与进程调度算法的好坏直接相关, 其算法设计直接影响操作系统的整体性能[1,2]。通过几个定量指标来评价进程调度性能的重要性也就不言而喻了。
进程调度算法的评价是一个较复杂的系统工程[3]。一般有两类方法。一类是基于具体调度算法的性能分析。常见的进程调度算法有FIFO、SCBF、HPF、RR、HRN和MFQ。这些调度算法各有其优缺点, 一般只从系统吞吐量的高低、周转时间长短等方面做定性的分析。另一类是基于样本统计的性能评价方法。这种方法是通过一定数量的样本, 来定性分析这些调度算法的性能。由于具有代表性样本的设计难度和样本数量的限制, 其性能评价必然具有一定的片面性[4]。
本文将建立一个进程调度的简化概率模型, 在此基础上给出六个定量评价指标, 综合分析进程调度算法的综合性能。
2、进程调度的概率模型
2.1 进程状态分析
在多道程序系统中, 处理机的分配和调用都是以进程为单位。进程从创建而产生, 由调度而执行, 由撤销而死亡。在这个过程中, 进程表现出了不同的状态。进程创建是进程管理的第一步, 是给进程分配除CPU之外的资源的过程。这个阶段称进程处于建立态。进程创建完毕后, 新进程将被插入就绪队列, 等待处理机的调用, 此时, 称该进程处于就绪状态。
一个就绪进程获得CPU, 正在执行, 称该进程正处于执行态。进程从就绪态到执行态的过程就是分派程序 (dispatcher) 的执行调度算法的结果。进程在执行过程中, 也有可能由于某事件而暂时无法继续执行, 不得不放弃CPU。此时, 称进程处于阻塞态。进程进入执行态除了可能来自就绪态外, 也可能来自于阻塞态。只要处于阻塞态的进程在申请的某事件得到满足。进程执行完毕后, 还得作必要的善后处理工作, 称这种状态为终止状态。图1表明了这些状态之间的转换关系
2.2 模型建立的假设条件
影响进程调度的因素比较多, 为了使得评价模型简单实用, 我们忽略了一些次要因素。下面是模型建立的假设条件。
(1) 本模型仅实用于多道批处理系统, 不适合分时系统与实时系统。
(2) 所有进程的执行都是一次性的, 要么不执行 (等待) , 要么一次执行完成。
(4) 所有进程的执行过程中都不会出现死锁现象。
(5) 所有进程遵循有闲让进, 忙则等待的原则。
(6) 新进程进入就绪队列的过程不会停止。
(7) 系统是单核的, 在某一时刻仅有一个进程在执行。
根据上述假设, 可以将图2简化为:
其中:排队规则体现了就绪进程按如何方式和顺序接受CPU服务。一般有:先来先服务、优先权服务、短作业优先和随机服务等。
2.3 进程调度的概率模型
基于以上假设和大量的统计数据表明:一段时间间隔内, 进入就绪队列的进程数近似符合参数为λ的Poisson分布。如果我们同时假设每个进程的CPU服务时间也近似符合负指数分布, 则根据排队论的相关知识, 不难得出:单CPU简化进程调度的概率模型就是M/M/1排队模型。具体而言
(1) 在时间间隔段t内, 进入就绪状态的进程数符合参数为λ的Poisson分布。即
其中:N (s) 表示在时刻s处于就绪状态的进程数, λ表示到达率。
(2) 每个进程的CPU服务时间Vn相互独立, 具有相同的负指数分布:
2.4 基于概率模型的进程调度评价
参考相关文献[5, 6, 7, 8], 基于M/M/1排队模型, 我们可以得到进程调度算法的定量指标。见表一:
从上表不难看出, 进程调度性能仅仅与平均到达率λ和平均服务率μ有关。而由于平均到达率λ是不可控的, 提高性能就转移到提高平均服务率μ上面。μ是单位时间内CPU执行的进程数, 与CPU的性能和每个进程需要CPU服务时间的长短有关。假定CPU性能一定, 如果执行的进程需要CPU服务的时间越少, 那么μ就越大, 从而W和Wq越少。
基于排队规则而产生的不同算法, 如先来先服务、优先权服务、短作业优先和随机服务等, 必然导致单位时间内CPU执行的进程数的不同。显然, 一段时间间隔内短作业优先算法的CPU平均服务率μ最高。先来先服务算法优先考虑的是等待时间最短的进程, 而优先权服务则优先考虑的是优先权大的进程。随机服务算法是随机选择进程。这三种算法的不同主要体现在优先考虑对象的不同, 对单个进程有较强的意义。
3、讨论
为了使得进程调度的概率模型简单和易于建立, 我们给出了7个假设条件和两个近似分布。其中第7个假设条件可以去掉, 那么我们所对应系统就是多处理机系统, 建立的模型就是M/M/1。两个近似分布即Poisson分布和负指数分布也仅仅是我们比照文献[4][7]的参考结果, 迄今为止, 还没有发现严格的证明。因此本文所阐述的模型也仅仅是一个相当粗糙的近似。结合具体的调度算法, 对CPU平均服务率的细化是我们下一步的工作。
摘要:通过简化进程的状态转换关系, 在给定了7个假设条件和2个近似分布的条件下, 建立了进程调度的概率模型, 在该模型的指导下, 深入分析了进程调度的几个定量化指标。
关键词:进程调度,概率模型
参考文献
[1].屠立德, 屠祁编著.操作系统基础 (第二版) [M].北京:清华大学出版社, 2000.
[2].汤小丹, 梁红兵, 哲凤屏, 汤子瀛.计算机操作系统 (第三版) [M].西安:西安电子科学大学出版社, 2007.
[3].庞丽萍.操作系统原理 (第三版) [M].武汉:华中科学大学出版, 2000.
[4].徐光辉.排队论及其在计算机设计中的应用[J].计算机应用与应用数学, 1995, No, 1, 33-43
[5].任泰明.如何用数学模型定量评价进程调度算法的性能[J].兰州石化职业技术学院.2001, No, 1, 7-9.
[6].唐应辉.分析M/G/1排队系统队长分布的方法标注[J].系统工程理论与实践, 16 (1996) No, 1, 46-50.
[7].徐光辉.随机服务系统理论 (第二版) [M].北京:科学出版社, 1988.