联合概率

2024-06-29

联合概率(共7篇)

联合概率 篇1

0 引言

风电大规模并网缓解了国内的能源压力并带来了巨大的经济和环境效益, 是目前技术最成熟、最具规模化开发条件的可再生能源。然而, 风电作为一种间歇性电源, 其大规模并入电网势必增加系统运行控制难度, 加重系统备用负担。因此, 对风电场及风电场群输出功率进行预测具有十分重要的意义[1]。

短期风电功率预测一般是对未来24~72h风电机组或风电场的有功功率进行预测, 由于预测尺度较大, 通常借助数值天气预报 (NWP) 能够得到更好的预测效果[2,3]。短期预测结果可用于优化常规机组出力及系统备用配置, 提高系统运行的安全性和经济性。根据预测结果的不同, 短期风电功率预测方法可以分为单点值预测和概率式预测两类方法。单点值预测方法主要有物理方法[4]、统计方法[5,6,7]及组合方法[8]。这类方法是对未来某时段风电功率最大可能出现值进行预测, 目前预测误差 (以48h平均的归一化平均绝对误差为例) 多在15%与40%之间。由于单点值预测方法无法提供风电功率预测的不确定信息, 近年来, 概率式预测方法得到越来越多的重视和研究, 主要方法有:经验预测误差统计方法[9,10]、分位点回归方法[11]及概率密度预测方法[12,13]。这些方法不仅能够预测未来时段风电场输出功率的期望值, 还可以给出预测误差的分布信息, 为含有风电场电力系统的运行风险评估和风险决策提供重要参考[14,15]。

以上方法, 无论是单点值预测或者是概率预测, 其结果均未对风电场输出功率的时空关联特征进行描述。然而, 这些关联信息对于电力系统运行决策 (如阻塞管理) 是有意义的[10,16,17,18]。为此, 文献[16]对风电场短期输出功率时域相关信息进行了效用分析, 并针对如何获取相关信息进行了风电场输出功率的多时段联合概率密度预测。然而, 这一预测只针对一座风电场进行, 未计及空间分布特性。文献[17]将单一风电场多个超前预测时段的输出功率预测误差转换为多元高斯随机变量, 进而利用协方差矩阵描述预测误差的互依结构, 并结合协方差矩阵与风电功率概率式预测结果形成包含预测时段间相关信息的短期风电功率统计场景, 与文献[16]相同, 该文也未涉及风电空间相关性;文献[18]考虑风电场风速的日周期性、非负性及波动特性, 利用状态转移空时 (regime-switching space-time, RST) 模型对风速进行超前2h预测。虽然这一模型相对持续法精度较高, 但其状态识别质量依赖于风电场的特殊地理和气候条件, 以至于模型较难适用于其他风电场。文献[19]对风电功率不确定性预测以及利用概率密度函数描述风电功率预测不确定性的作用进行了较为详细的阐述。

针对上述研究现状, 本文在分析实际风电场预测误差统计规律的基础上, 提出了一种多风电场短期输出功率的联合概率密度预测方法, 其特点如下: (1) 方法在预测结果中包含风电功率预测误差的时空关联信息, 使预测结果更加符合实际; (2) 采用支持向量机 (SVM) 进行单点值预测, 利用稀疏贝叶斯学习 (SBL) 进行SVM预测误差的估计, 并进行误差修正, 使单点值预测精度大幅提高; (3) 采用SBL进行SVM误差预测时, 可同时提供误差分布信息, 从测试结果看, 这种方法能够得到比历史误差统计方法更为切合实际的误差分布; (4) 所得的联合概率密度函数包含风电功率的丰富信息 (如期望值、方差、时空交叉相关系数等) , 结果更为全面。此外, 为了展示和应用的便利性, 借助多元随机变量抽样技术从联合概率密度函数抽样形成包含风电功率动态时空关联信息的多维场景集合, 可直接用于机组组合或经济调度问题建模。

1 风电功率边际概率密度预测

1.1 数据描述

本文以某地区3座实际风电场为研究对象进行预测模型构建, 风电场分别标记为wf1, wf2和wf3, 其相对位置如图1所示。

NWP提供小时平均风速和风向数据。为建立输入变化量与输出变化量的映射关系, 对所有数据进行归一化处理。其中, 风速数据利用历史记录最大值进行归一化, 风向数据取其正弦值和余弦值, 而风电功率数据利用风电场装机容量Pn进行归一化。

1.2 边际概率密度预测方法

联合概率密度函数是多元随机变量的概率分布函数。分析多元随机变量的联合概率密度函数时, 各组成随机变量自身的概率密度函数被称为边际概率密度函数, 或边缘概率密度函数[20]。本文中的各风电场在各预测时段的输出功率预测误差, 组成了本文待预测的多维随机变量。本文采用分步式预测方法对多风电场多时段风电功率的联合概率密度函数进行预测。此处, 首先构建各风电场单时段输出功率边际概率密度函数的预测方法, 方法结构如图2所示。

如图2所示, 本文风电功率边际概率密度预测方法由单点值预测、预测误差分布预测与风电功率分布预测3部分组成, 其过程描述如下。

1) 基于SVM的风电功率单点值预测

SVM是一种被广泛采用的单点值预测方法, 其通过非线性核函数, 将输入样本空间映射到高维线性特征空间, 具有处理高度非线性回归问题的能力[21]。SVM回归预测模型可表示为:

式中:youtput为待预测随机变量;xinput为输入向量;xi为训练样本中的输入向量;K (·) 为核函数, 本文采用高斯核函数形式;I为训练样本总数;wi和w0均为权重系数;ε为误差项。

执行过程中, 首先利用输入输出样本数据 (此处通过相关性分析, 选取NWP风速、风向数据和风电功率历史数据为输入, 预测时刻风电功率的实际值为输出) 对SVM进行训练, 得到权重系数。预测过程中, 运用SVM根据NWP数据及风电功率历史数据对风电功率单点值进行预测[22]。

2) 基于SBL的SVM预测误差概率密度预测

通过SVM对测试样本集合的测试预测, 可以得到预测误差样本集, 利用此误差样本数据结合对应NWP数据, 可以对SVM预测误差进行规律分析, 并对SBL学习机进行训练, 形成对SVM预测误差的概率密度预测能力。SBL模型同样是一种基于核函数构建的预测方法, 其回归模型形式与式 (1) 类似, 只是其中的权重因子, 被看做先验分布为正态分布的随机变量, 通过贝叶斯架构学习得到。预测过程中, 利用NWP结合预测误差历史值, 可以对目标时段的SVM预测误差作出分布预测, 给出SVM预测误差的期望值与方差。SBL原理可见Tipping原著[23], 应用于风电功率概率预测的建模细节可参见文献[13, 16]。

需要强调的是, 虽然SBL在每个时段给出的是正态分布的预测结果, 但对于多次重复预测, 其所提供的是一个高斯混合模型 (GMM) 预测结果, 该模型有足够多的参数, 可以对几乎任何形状的分布进行拟合。也就是说, 尽管风电预测误差的统计分布可能是非高斯的, 但这并不妨碍在每个考察瞬间对误差分布进行高斯假设。关于GMM的特点, 可参见文献[24]中的相关章节。

3) 误差修正, 给出风电功率概率密度预测结果

在上述两个步骤的基础上, 采用SBL预测的误差均值对SVM的单点值预测结果进行修正, 得到如下式所示的风电功率边际概率密度预测结果。

式中:t为预测执行时刻;k为前瞻时段数;为经过误差修正后的风电功率预测值;为风电功率波动方差;为SVM风电功率单点预测值;分别为SBL对误差分布预测所得的期望值和方差。

2 动态条件相关回归及联合概率密度预测

本文采用动态条件相关回归模型对SVM预测误差的相关性进行建模, 进而进行联合概率密度预测。在预测之前, 对SVM预测误差进行统计学分析, 以确定联合概率密度预测的必要性。

2.1 预测误差统计特性分析

互相关函数 (CCF) 常用来分析两个时间序列之间的相关关系。利用CCF分析风电场预测误差序列间的相关性, 可得出如下结论: (1) 风电场输出功率预测误差之间存在时域关联特性, 且随着滞后时段的增加, 相关程度逐渐下降; (2) 风电场输出功率预测误差之间存在空间互相关性, 相距较近的风电场预测误差序列之间相关性相对较强; (3) 风电场功率预测误差的空间相关性弱于时域相关性, 因此, 在SBL输入变量选择时, 没有采用相异风电场预测误差数据作为输入。

2.2 动态条件相关回归模型

上述分析结果说明风电功率SVM预测误差存在时空关联性, 而要在预测结果中反映相关信息, 需进行多元随机变量的联合概率密度预测。目前, 由边际概率分布形成联合概率分布的常用方法有相关系数估计法[16]与Copula函数法[25]。前者适用于描述边际分布为正态分布的线性相关关系, 优点在于多元正态分布是研究最广泛的分布形式, 结果的求取、理解、展示与应用较为方便, 当条件符合时, 有很好的实施效果;后者利用Copula函数, 根据各组成随机变量的累计概率分布函数, 形成多随机变量的联合累计概率分布函数。方法优点在于不需要假设边际分布形态, 可描述非线性相关关系, 适用范围更为广泛。

为确定采用何种方法, 对SVM预测误差绘制散点图, 确定相关关系类型, 分析细节见附录A。通过分析发现, SVM预测误差之间相关性具有明显的线性特征, 因而, 此处采用动态条件相关回归模型 (相关系数估计模型的一种) 来描述预测误差间的相关关系。当然, 预测误差的统计特征与风电场条件、预测方法密切相关, 若测试结果具有非线性特征, 则建议采用Copula方法进行相关性建模。

动态条件相关回归 (DCC) 是由Engle和Sheppard结合广义自回归条件异方差 (GARCH) 过程提出的, 方法具有良好的计算效率, 可以用来估计大规模时间序列之间的动态条件相关系数矩阵[26]。对风电预测误差序列进行DCC估计时, 将任一风电场每一时刻的功率预测误差视为单一随机变量, T个预测时段L座风电场形成K=TL维多元随机变量, DCC即为要估计此多元随机变量间的相关系数矩阵。

根据概率理论可知, 相关系数矩阵与协方差矩阵的关系为:

式中:Rt为相关系数矩阵, 为K×K阶对称阵, 对角线元素为1, 非对角元素绝对值小于1, 下标t为相关系数矩阵时间标;Qt为K×K阶协方差矩阵, 为正定阵;diag表示取对角阵运算, 实际表示各随机变量标准差对角阵的逆。

由式 (4) 可以看到, K阶预测误差随机变量相关系数矩阵可以通过相应协方差矩阵Qt求出。DCC通过回归方法动态获得时变的Qt, DCC (M, N) 回归模型可表示为:

式中:αm和βn为回归模型系数, 利用误差历史数据采用多元正态分布的极大似然估计方式得到, 具体细节见文献[27]第5节;M和L为回归模型阶数, 通过比对测试发现预测效果对阶数不敏感, 本文采用了DCC (1, 1) 模型;εt-m为t-m时刻的K维标准化残差列向量, 可表示为D-1t-mzt-m, 其中, zt-m为t-m时刻SBL对SVM误差预测的误差向量 (误差的误差) , 为K维列向量, Dt-m为SBL预测得到的SVM误差标准差对角阵;Q-为标准化残差的非条件协方差矩阵, 由统计得到, 统计公式为[27]

其中Ω为测试次数 (样本数量) 。

2.3 多风电场输出功率联合概率密度预测

结合1.2节求出的风电功率边际概率密度函数与2.2节动态条件相关回归所得到的相关系数矩阵, 可得未来T个时段L座风电场输出功率的联合概率密度函数:

式中:μt为K维风电功率期望值列向量;p^lt+k/t为风电场l前瞻k时段的输出功率期望值, 由式 (2) 得到;Σt为K×K阶输出功率波动的协方差矩阵;Dt为K×K阶对角阵, 对角元素为由式 (2) 得到的风电功率波动的标准差, Rt为K×K阶相关系数矩阵, 由式 (3) 得到, Dt及Rt的具体形式见附录B。

至此, 完成多风电场输出功率联合分布预测, 预测整体流程如图3所示。

3 算例分析

本文方法在单一风电场输出功率概率密度预测方法的基础上考虑动态时空关联特性, 对多风电场输出功率进行联合概率密度预测。方法的有效性可从3个方面来分析验证:期望值预测结果、边际概率密度预测结果, 以及包含时空相关性的联合概率密度预测结果。

测试对图1所示的3处风电场进行前瞻48h预测。将数据样本分为训练集、测试集和验证集, 大小分别为1 200, 1 000, 5 000个样本。首先, 利用训练集对各风电场的每个前瞻时段训练一台SVM学习机;其后, 利用SVM学习机对测试集进行前瞻48h的单点值预测, 得到单点值预测结果和预测误差样本;然后, 利用测试集的预测误差样本和对应的NWP数据训练用于边际分布预测的SBL学习机, 并利用误差样本及SBL预测结果, 形成动态条件相关回归模型;最后, 利用训练好的SVM和SBL对验证集进行前瞻48h的概率密度预测, 得到每个风电场输出功率的边际概率密度函数, 利用动态条件相关回归模型, 对相关系数矩阵进行动态估计, 最终给出多风电场在多个前瞻时段内的联合概率密度预测结果。

3.1 期望值预测精度分析

对于期望值预测结果, 将本文方法与自回归方法AR (1) [13]和经典SVM方法预测结果进行比较, 评价指标为归一化平均绝对误差 (NMAE) [13]。前瞻48h的平均NMAE指标如表1所示。从表中可以看出, 本文方法的NMAE指标较AR (1) 方法, 3座风电场平均降低了15.08%, 而较经典SVM方法平均降低了6.2%, 说明了本文方法在期望值预测上的有效性。

3.2 分布预测合理性分析

本文采用多种概率式评价指标对预测误差正态分布假设以及预测结果进行合理性分析, 包括:预测分布失真率、边缘标度、中心概率区间, 以及连续排名概率得分等[13,28]。

为形成直观印象, 图4首先给出了利用本文方法对wf1的一次预测结果。预测时刻为0时, 对未来48h进行预测。图中:Pw为风电场输出功率;红线为风电场输出功率测量值, 带圈黑线为预测期望值, 绿色和蓝色的误差带分别代表误差带 (置信水平为68.27%) 和误差带 (置信水平为95.45%) 。从图中可以看出, 真实值绝大部分时段落在误差带内, 极个别超过误差带之外, 说明对误差的分布预测结果较为合理。

进而, 进行预测效果的量化评估。首先利用文献[13]中预测分布失真率指标进行测试, 指标定义及区间划分见附录C。将本文方法与文献[9]中经验误差统计方法进行比较, 表2给出了48h平均预测分布失真率指标比较结果。可以看出, 对wf3, 两种方法的预测分布失真率相当, 而对其他两座风电场, 本文方法较经验误差统计方法的失真率都要小, 进一步说明了本文方法对误差分布预测的合理性。

边缘标度指标用来评价经验累积分布函数与预测累积分布函数的等价性, 其值越靠近零说明分布函数预测结果越接近真实的分布函数。经验累积分布函数可以用平均指示函数表示:

式中:下标k表示进行前瞻k小时预测测试;N为总预测实验次数;pk, n为第n次实验的风电功率测量值;p为风电功率随机变量;1{·}为指示函数, 大括号中条件成立时, 函数值取1。

而预测的累积分布函数可以用整个验证集的平均预测累积分布函数表示:

式中:为前瞻k时段的平均预测累积分布函数;Fk, n (p) 为第n次前瞻k时段预测得到的风电功率累积分布函数。

边缘标度指标可以表示为p的函数:

图5给出了本文方法与经验误差统计方法前瞻1h边际分布预测结果的边缘标度指标 (p从0变化到100%Pn) , 图中实线与点划线分别代表由本文方法和经验误差统计方法得到的边缘标度值。可知, 本文方法得到的风电功率分布函数与经验误差统计方法相比, 更接近真实的风电功率概率分布。

衡量概率预测效果的另一个重要指标在于预测误差带的宽窄。预测误差带越窄意味着概率式预测效果越好, 结果对调度决策的指导意义越强。本文方法与经验误差统计方法前瞻1~48h的50%中心概率区间和90%中心概率区间如图6所示。从图中可以看出, 两种方法1h前瞻预测结果的50%中心概率区间和90%中心概率区间相当, 而其余时段, 由本文方法预测得到的中心概率区间显著小于由经验误差统计方法预测得到的中心概率区间, 体现了本文方法的有效性。

连续排名概率得分指标是评价概率式预测性能的综合指标, 其值越小说明方法预测性能越好。本文方法与经验误差统计方法的连续排名概率得分指标统计结果见附录C图C1。可知, 本文方法对3座风电场所有前瞻时段的概率式预测性能均优于经验误差统计方法。

3.3 联合概率密度预测合理性分析

利用动态条件相关回归模型预测得到相关系数矩阵。相关系数矩阵包含了3座风电场前瞻48h输出功率预测误差之间的相关性信息。结合相关系数矩阵和风电场输出功率的边际概率密度预测结果, 可形成风电功率的联合概率密度函数。由于联合概率密度函数维数较高, 为了展示和应用方便, 采用多元随机变量抽样技术形成多维场景集[16]。

根据单次联合概率密度预测结果形成的场景集合 (抽取50次场景, 每次场景包括3座风电场在48h内的连续变化) 如图7所示。

图中:带圈红色粗线为风电场输出功率真实值。所形成场景包含了风电功率的时空关联特性, 可以看出所形成的场景集合能够包含绝大部分的真实值, 且趋势相似。

为了量化评估联合概率密度预测结果, 并验证时空关联信息的效用, 本文采用能量分数指标Es对包含与不包含时空关联特性的两类场景集合进行比较。Es指标是评价场景可靠性的一种常用指标, 值越小说明所形成场景越合理[29]。Es指标表达式为:

式中:V为形成场景个数;P为风电功率量测值列向量;S (u) 与S (v) 分别为由预测结果抽样得到的第u和第v个场景。

在测试中, 形成不包含关联特性的场景集合时, 只需将相关系数矩阵设置为单位阵即可。容量为2 000次的3类场景集合Es指标比较结果如表3所示。其中, Et对应采用本文边际分布预测方法但不包含时空关联信息的Es指标结果;Rt对应采用本文边际分布预测方法且包含关联信息的Es指标结果;Et*对应采用误差统计方法得到边际分布且不包含关联特性的Es指标结果。从表中可知, 包含时空关联特性所形成的场景集Es值小于不包含时空关联特性所形成的场景集Es值, 说明考虑时空关联特性所形成的场景集合更加符合实际情况。

4 结语

本文提出了一种多风电场短期输出功率的联合概率密度预测方法。该方法不仅能够提供单一风电场输出功率的均值与方差信息, 而且能够定量描述风电场输出功率预测误差在时空间的动态关联特性, 使预测结果更加符合实际, 为含有风电场电力系统的调度决策提供更加丰富的决策信息。算例分析利用实际风电场运行数据, 采用多方位评判指标对所提出的方法进行了分析与验证。结果表明, 本文方法所采用的误差修正技术能够显著提高风电场输出功率的单值预测精度;采用的SBL误差概率分布预测方法所得到的预测结果合理, 各项指标均明显优于历史误差统计方法;通过加入时空关联信息, 使抽样得到的风电场输出功率场景集合能够更为准确地刻画风电功率的真实变化情况。上述测试结果表明了本文方法的有效性。

附录见本刊网络版 (http://www.aeps-info.com/aeps/ch/index.aspx) 。

摘要:提出一种多风电场短期输出功率的联合概率密度预测方法。首先利用支持向量机对每座风电场的输出功率进行单点值预测, 对预测误差建立稀疏贝叶斯学习模型进行误差的概率密度预测, 得到单一风电场输出功率的边际概率密度函数预测结果;对多风场输出功率预测误差特性进行统计分析, 发现同一区域内, 风电场输出功率预测误差之间存在线性时空关联特性, 进而运用动态条件相关回归模型求得相关系数矩阵, 定量描述多风电场短期输出功率预测误差之间的动态时空相关关系;最后, 综合单一风电场输出功率边际概率密度预测结果和相关系数矩阵得到多风电场输出功率的联合概率密度函数, 并借助多元随机变量抽样技术形成包含动态时空关联特性的多维场景。通过实例分析, 表明了所提出方法的有效性。

关键词:短期风电功率预测,联合概率密度预测,支持向量机,稀疏贝叶斯学习,动态条件相关回归模型,电力系统

联合概率 篇2

随着资源日益匮乏、环境问题日益突出,清洁能源发电被认为是解决能源和环境问题的有效手段,在这种背景下,风电装机容量发展迅速[1]。然而近年来随着风电等新能源大规模接入,其对电网的安全稳定运行产生一系列影响[2,3,4,5]。风电接入改变了负荷单纯消耗功率的情形,使得负荷节点向电网倒送功率成为可能[6]。而且,连接到多个根母线节点且地理位置邻近的风电场群往往处于同一风带,其风速具有较强的相关性,从而各风电场出力往往具有相关性[7]。风电出力具有随机波动性、间歇性,风电机组也存在故障或者检修,需考虑其失效性,而负荷本身具有时变性,这些因素相互作用加剧广义负荷节点的不确定性,而且对于地理位置邻近并有联络线相接的多个广义负荷节点,相邻节点的波动势必影响其他节点的功率波动,这对系统潮流、可靠性评估等均会产生较大影响,也给节点特性建模分析带来了新的挑战。

针对负荷的时变性,传统建模方法采用分类与综合的思想,通过总体测辨法得到负荷的准确模型[8]。随着风电接入电网的规模不断扩大,许多学者对含有风电场的负荷建模进行了研究。文献[6,9-11]或在综合负荷模型(SLM)中增加异步发电机,或将动态负荷扩大到任意实数,或将风电机组模型接入综合负荷模型。但都是假定风电出力恒定的机电暂态下,没有涉及长时间尺度下风电的随机性。文献[12]在广义负荷建模中分析了风电随机特性与负荷时变特性的相互作用对根母线的影响,依概率分区间建立了节点统一广义负荷模型,解决了风电接入电网传统建模方法无法描述不确定性的问题,但只是针对单节点进行建模,未涉及多节点相关性对建模产生的影响。目前考虑风电相关性的研究主要集中在风电功率预测[13]、风电系统可靠性评估[14,15]和概率潮流计算研究[16,17],考虑相关性因素在广义负荷建模的研究领域还鲜有涉及。

由此,本文提出一种带有概率标识的计及节点空间相关性的节点特性建模学习方法。该方法将节点分为电源特性与负荷特性并依照有功功率进行区间细化统计其概率信息。利用空间相关性法计算相邻节点功率区间之间相关特征参数,采用计及相关特征参数的RBF神经网络学习训练并提取区间集的节点特性。最后,本文将所提方法应用到风险分析中,说明了所提方法的有效性。

1 广义负荷特性与多节点间相关性

多根母线节点组成示意图见图1。图中的根母线节点为系统中配电网侧负荷节点,风电场的接入使得节点由单纯消耗功率变成传统负荷与风电场接入功率的相互综合叠加,其节点特性随负荷的时变和风功率的随机而变化。在电力系统运行中,负荷通常用预测误差满足正态分布来描述,且风电机组存在发生故障的随机性,需考虑其失效概率[18,19]。

根母线节点有功功率表达式为:

式中:PL和PWF分别为负荷消耗的有功功率和风电场发出的有功功率;βi为风电机组状态,正常工作取值为1,故障时取值为0;PWT,i为第i台风电机组发出的有功功率;NT为风电场内风电机组的台数;Pfor为节点负荷预测值;σ 为预测误差的标准差。

从系统角度看,分布于同一地区的多风电场往往由于风速相关性而表现为出力同步性,使得所接入的根母线节点功率波动因风电场出力同步性而具有相关性,而且系统内根母线节点由于地理位置相近,并且有联络线相接,多节点间往往存在关联性。在节点特性建模分析中充分考虑广义特性与空间相关特性对于准确建模具有重要意义。

2 基于统计概率的功率区间分段

因实测功率空间能准确反映曲线负荷特性、便于分时建模,传统建模方法采用实测有功功率作为特征参数进行聚类分析[20]。风电接入后,由于负荷时变性与风功率波动性相互叠加,节点呈现的特性包括幅值和方向具有随机性,而有功功率具有变化范围大、易于细化分段的特点,此时仍以有功功率区间作为节点特性特征参数。

本文以有功功率为正表示负荷特性,为负表示电源特性。在对有功功率进行分段时,分段数不宜过多,分段数过多虽可获得准确模型,但过多模型造成分析应用繁琐;分段数也不宜过少,分段数过少不能反映节点特性变化规律。因此,本文以零功率为起点,以基准功率的10%为间隔,根据样本正负绝对值的最大值自适应确定区间范围和分段数,分别统计各段下有功功率出现次数作为相应出力概率。

3 基于空间相关性的联合概率建模

基于空间相关性方法考虑了临近的风电场之间的多组风功率数据,通过与负荷叠加形成多节点的功率数据,每个节点功率分段统计概率指标,并计算节点区间之间相关参数矩阵,将其融入到节点特性建模中,因而将空间节点的相关性纳入节点建模,使得模型更为全面、准确。

3.1 区间相关特征参数

本文通过引入相关特征参数的概念作为量化指标引入到节点特性建模中。设有T个相邻节点的区间聚类样本集为X = {xk,p|xk,p∈Rp,k=1,2,…,N,p=1,2,…,T},其中,Rp为第p个节点功率样本数据,xk,p为第p个节点功率样本聚类所形成的第k个区间样本,N为区间样本个数。用Ck,p表示区间样本xk,p的聚类中心,则有:

根据各相邻节点聚类得到的各区间样本聚类中心,定义区间相关特征参数为:

式中:Ci,m为第m个节点样本聚类所形成的第i个区间样本聚类中心;Cj,n为第n个节点样本聚类所形成的第j个区间样本聚类中心;λ为调整系数。

3.2带有相关特征参数的模型结构及其特性提取

RBF神经网络是多维空间插值的传统技术,能够逼近任意的非线性函数,具有良好的泛化能力和全局逼近能力,并有很快的学习收敛速度,克服了BP(back propagation)神经网络存在的局部最小值和收敛速度慢的缺陷[21],因此,本文采用RBF神经网络作为节点特性提取的模型。

模型结构由输入层、隐含层和输出层组成,其网络结构如图2所示。该网络从输入层到隐含层为非线性映射,隐含层到输出层为线性映射。作为隐含层径向基函数,通常选用高斯核函数。

本文采用带有相关特征参数的RBF神经网络函数对区间样本进行模型特征提取。其中,输出变量为功率p,输入变量包括本节点的电压和相邻有联络线连接节点的电压组成的电压向量u以及相关特征参数ρ,表达式为:

式中:wpk为第p个隐含层到输出层的连接权值;Rpk为第p个隐含层的RBF。

由于电压向量u及相关特征参数ρ为不同物理量纲,需分别对各物理输入量做归一化处理,以消除不同物理量间因量纲不同而同时作为输入变量无法进行建模。本文采用最大最小归一化处理方式,即

式中:xij为第i个物理量中第j个采样值;xi max和xi min分别为第i个物理量中的最大值和最小值。

功率区间计算模型结构如下:

式中:k为输出变量序数;m为节点分段功率区间编号;Em为区间m样本训练误差;Nm为区间m样本数;No为输出神经元个数;Pk,n为区间样本功率实测值;pk,n为模型计算值;R为隐含层RBF;Xn为输入变量向量;Cj和δj分别为第j个隐含层神经元的中心和扩展常数;ρm,l为本节点第m个功率区间和相邻节点第l个功率区间之间的相关特征参数;Nh为隐含层神经元的个数;wj,k为第j个输出变量与第k个隐含层神经元的连接权值;Ni为输入层神经元的个数;为u中的元素。

采用梯度自适应调整算法求解模型参数,调整公式为:

式中:ΔCj为误差对隐含层中心的调整参数;Δδj为误差对隐含层扩展常数的调整参数;Δwj,k为误差对隐含层输出权值的调整参数;η为训练学习系数。

对于总体样本,均方误差为:

式中:Yi为实测值;Xi为拟合值;Nn为样本总数。

3.3 联合概率模型结构

以节点区间有功功率为例建立模型表达式:

式中:i1表示在节点m1聚类分段所形成的第i1个功率区间号,其他类似;m1,m2,…为相邻节点集合M中的元素;I为区间集合;此处u为集合M中节点电压组成的向量;表征在区间集(i1,i2,i3,…)下提取的节点m1聚类分段所形成的第i1个功率区间的电源特性,只有在区间imin1=1,2,…,时成立,其中为节点ml1的最小功率,Ps为基准功率;表征在区间集(i1,i2,i3,…)下提取的节点m1聚类分段所形成的第i1个功率区间的负荷特性,只有在区间时成立,其他功率区间类似,其中为节点m1的最大功率;表示区间集i1,i2,i3,…)出现的概率;Pi为各功率区间出现的概率;表示区间集(i1,i2,i3,的相关特征参数。

4 算例分析

本文风电数据采自河北某地区的风电场群有功功率数据,负荷采用该地典型日变电站110kV侧出线的功率数据,数据采样间隔为5 min。为获得建模所需要的样本数据,首先应通过合理计算以获得风电场无功功率样本和根母线电压样本。

双馈风电机组由于具有高风能转换效率和改善风电场功率因数及电压稳定性功能,成为了当今主流风电机组机型。已有学者对双馈风电机组并网潮流做了大量研究,本文借鉴文献[22]含双馈风电机组的潮流计算方法,在潮流迭代过程中,利用风电有功功率按式(10)计算双馈机组吸收的无功功率,与负荷叠加获得根母线功率,作为下一次潮流迭代计算的母线功率。

式中:r2为转子电阻;xm为励磁电抗;s为转差率;xk=x1+x2,其中x1为定子电抗,x2为转子电抗;U为机端电压;QWF为双馈风电机组吸收的无功功率。

以两个相邻功率波动节点为例,分别选取迅风风电场和骆驼沟风电场两个风电场某月的风电出力功率数据,与负荷叠加获得根母线功率,分别作为IEEE 14节点算例系统中母线13和母线14的功率数据,通过含风电场的潮流计算获得电压样本,以此获得建模所需数据。通过风电和负荷叠加得到的根母线功率数据如图3所示。

利用本文方法对根母线数据进行统计,功率区间概率如图4所示。由式(9),沿功率坐标轴功率场景号从左至右依次记为1,2,…。如图4中,功率区间[-0.4,-0.3)的场景号为1,功率区间[-0.3,-0.2)的场景号为2,依此类推,本节点共分9个区间场景号,其他节点功率区间场景号类同。利用本文给出的方法,两节点功率区间之间的相关特征参数见附录A表A1。可以看出,距离相近的功率区间之间相关特征参数较大,距离较远的功率区间之间相关特征参数较小,因此,定义的相关特征参数可有效量化功率区间之间的相关性。

按照本文考虑相关性的方法进行建模分析。计及节点13和节点14 功率区间之间的相关特征参数,采用RBF神经网络对各功率区间进行节点特性建模。为方便建模计算,隐含层RBF选用高斯函数,训练学习系数η取值为0.01,隐含层中心、隐含层扩展常数、隐含层输出权值初始值为随机值,式(6)各分段区间的Ni,Nh,No取值相同,分别为1,30,1。节点13拟合结果见附录A表A2。可以看出,各段拟合误差较小,拟合效果好。 区间场景(6,3)出现最大拟合误差为7.289×10-4。

以文献[12]中单节点建模方法及本文考虑相关性建模方法进行拟合对比。以节点13为例,在考虑相关性的建模方法中,遍历节点14所有区间段,获得节点13每个功率区间的总拟合误差,对比结果见表1。由表1可知,单节点建模方法在独立节点情况下合理可行,但在多风场并存的多节点场景下拟合效果差,考虑相关性的建模方法更合适,因此在多节点功率波动的情况下,需要考虑相邻节点的影响。

分别用上文建立的传统稳态模型[23]、单节点模型以及本文考虑相关性模型拟合下月数据以验证泛化能力,以节点13为例对比如图5所示。

传统建模方法、单节点建模方法与本文方法拟合误差分别为0.036,0.039和7.92×10-4。可以看出,风电接入后传统方法拟合效果不佳,单节点建模方法拟合误差大。本文方法拟合误差小,泛化能力强,所建立的模型精确,能够充分计及相邻节点波动带来的影响,而且考虑空间性的节点特性建模方法细化系统空间,可进行系统全面运行分析。

5 考虑空间相关性的风险分析

本文所提出考虑空间相关性的广义负荷模型,可根据大量数据样本的统计规律引入概率信息并计及节点功率区间相关特征参数进行建模,从而在反映节点特性的模型基础上具备对不确定问题的全局描述能力。因此,从运行风险评估角度综合考虑支路潮流临近度、节点电压临近度和场景发生概率,分析系统在稳态情况下的潜在风险。

本文以New England 39节点算例为例,通过上文建立的广义负荷概率模型作为相邻节点16、节点21的节点特性模型,修正功率不平衡量如下:

式中:下标q为隐含层个数;Vi和Vj分别为节点i,j的电压幅值;θij为节点i与节点j之间的相角差;Gij和Bij分别为支路ij的电导和电纳。

按式(11)、式(12)分别修正雅可比矩阵中对角元素,分别进行各功率场景下的潮流计算,获取支路潮流和节点电压计算结果,定义支路潮流失稳临近度Pc和节点电压失稳临近度指标Uc考核系统运行潜在风险。根据风险评估定义,风险度指标δP和δU为发生可能性与严重度乘积。

式中:Pmnmax和Pmnmin分别为支路功率上、下限,分别取2.5,-2.5;Pmn为支路功率;Umax和Umin分别为节点电压上、下限,分别取1.1,0.9;Ub为节点电压;Pi,m和Pj,n分别对应于相邻节点m和n聚类分段所形成的区间i和j的功率出力概率,即发生的可能性指标。

根据式(13)至式(16),风险分析结果见附录A表A3和表A4。附录A表A3从支路24潮流的角度,综合考虑Pc与场景集发生可能性Pi,mPj,n,其中场景(7,5)和(7,6)的 δP分别为0.028 7 和0.032 3;附录A和表A4从节点21电压角度,综合考虑Uc与发生可能性Pi,mPj,n,得出其风险度δU,其中场景(7,5)和(7,6)的δU分别为0.008 1 和0.009 8,为最大的场景集。因此,当出现这两个场景集时应通过调度控制措施避免系统越限而造成损失。

根据式(17),综合考虑节点16的每个功率区间对节点21的功率区间进行风险分析统计。

式中:Uci,j为场景集(i,j)下节点i电压失稳邻近度;Nd为节点n区间分段数;δUi为节点i电压风险度。

与单节点建模方法得到的风险分析结果进行对比,如表2所示。分析可知,就本系统而言,节点21处于电源特性区间时,考虑相关性的节点电压风险结果比独立节点建模风险分析结果小;在负荷特性区间,考虑相关性的节点电压风险结果比独立节点建模风险分析结果大;在电源特性和负荷特性交界处区间,则两者相当。在这种情况下,当节点处于电源特性时,相邻节点对于本节点电压有一定支持作用,而处于负荷特性时,相邻节点使本节点电压偏离中心运行点。因此,在系统进行风险分析时,必须考虑空间地理位置临近节点的影响以求全面描述本节点特性,否则易引起偏差,从而可能带来经济、安全隐患。

6 结论

1)本文提出的考虑空间相关性的广义负荷建模方法首次将风电场间相关性纳入广义负荷建模范畴,是对考虑风电不确性的广义建模理论体系的发展,利于系统内多风电场接入场景的空间统一分析。

2)为表征相关性,首次提出区间集相关参数矩阵,结果表明距离相近的功率区间之间相关特征参数较大,距离较远的功率区间之间相关特征参数较小,该参数可有效量化功率区间集之间的相关性。

3)将相关参数矩阵融入RBF神经网络建模中,并将相邻节点电压计入本节点特性学习中,所建模型更为全面。仿真表明各段拟合误差较小,拟合效果好。

4)该模型可直接从系统角度进行考虑风电场间相关性的统一风险分析,细化了整个系统空间形成风险场景集的概念,为系统决策提供参考依据。

附录见本刊网络版(http://www.aeps-info.com/aeps/ch/index.aspx)。

摘要:大规模风电并网带来广义负荷节点功率流向不确定性问题,对广义负荷建模提出新的要求。如何全面考虑随机变量所具有的波动性以及地域的相关性特点,准确进行广义负荷建模,成为亟待解决的问题。为此,提出一种带有概率标识的计及节点空间地域相关性的节点特性建模学习方法。首先,将与各风电场相连的根母线节点据其各自的功率流向,分为电源特性与负荷特性;其次,对各根母线节点分别依照有功功率进行区间细化,统计其概率信息。针对节点地域的相关性,采用空间相关性方法计算相邻节点功率区间内相关特征参数并纳入节点的特性学习中,采用径向基函数(RBF)神经网络学习训练并提取区间集的节点特性;以风险分析为例验证所提方法的有效性和实用性。仿真结果表明,通过将节点空间相关性纳入广义负荷建模范畴,建模因素更为全面并细化了整个系统空间形成风险场景集,风险分析结果指出系统高风险场景,为系统决策提供参考依据。

联合概率 篇3

风电作为当前世界范围内发展最快的可再生能源发电形式,在具有清洁、可再生等优点的同时,由于受外界自然环境影响显著,其输出功率的不确定性较强,大规模并网发电会增加电力系统运行调度的难度。因而,如何提高风电场输出功率的预测水平,尽可能准确地实现风电功率预测就成为充分、合理利用风电资源的一个关键问题[1]。

目前,关于风电场输出功率预测方法的研究较为丰富,已有方法大致可以分为时间序列方法[2,3,4]、物理模型方法[5]以及统计学习方法[2,6,7,8,9]这3类。这些方法构成了当前风电场输出功率预测的主流方法,在理论研究与工程实践中发挥着重要作用。

近年来,随着风电接入电网规模的扩大,风电场输出功率的不确定性问题引起了广泛关注,关于含有风电场的电力系统运行风险评估与风险决策问题的研究日益增多[10,11,12],这些问题的建模多依赖于对风电场输出功率偏差信息的掌握。因而,在风电场输出功率预测精度不断提高的同时,对预测误差分布的估计与预测技术也得到了发展,目前已应用的方法有预测误差统计方法[13]、分位数回归方法[14,15]以及概率密度预测方法[16,17]等。

分布预测相比于单点预测能够提供更为充分的决策信息。然而,从当前研究现状来看,已有分布预测多是逐时段进行的,没有考虑风电场输出功率各时段间的关联特性。这常常导致风电场输出功率的预测值频繁大幅波动,不符合风电场实际运行特点。

在此背景下,本文根据多元回归估计常条件相关—多元广义自回归条件异方差(CCC-MGARCH)模型与稀疏贝叶斯学习理论,给出了一种基于数值天气预报信息的风电场输出功率短期多时段联合概率密度预测方法,以期进一步提高风电场输出功率概率密度预测结果的有效性。

1 风电场数据来源及分析

从某内陆风电场收集到自2004年6月1日至2005年7月1日的数值天气预报数据以及风电场输出功率数据(时间分辨率为1h)。该风电场装机容量为74.25 MW,数值天气预报提供了风电场周围4个测点的风速、风向、大气压力、日照强度等信息。通过对风电场运行数据的分析(具体过程可见附录A),可得该风电场输出功率预测问题建模的数据条件如下:(1)该风电场拥有1年以上的风电场输

出功率及相关气象信息连续监测数据;(2)该风电场输出功率非常平稳,具有趋势性及周期性;(3)该风电场输出功率自相关性较强,与风速互相关性显著。

数据条件分析为解释变量的选择提供了依据。然而,需要指出的是,此处分析结论仅依据测试风电场数据得出,并非通用结论(尤其是风向、气压等气象数据与风电场输出功率间的相关性会因风电场地理、气象条件以及风电机组类型不同而有差别),但这并不影响预测方法的构建,其他风电场可根据具体分析情况对解释变量进行调整。

2 逐时段概率密度预测

相对于风电场输出功率的单点值预测,分布预测除了能够提供风电场输出功率的预测值,还可进一步提供依条件而变的误差分布情况,从而为决策提供更为全面、客观的信息。根据上述风电场输出功率的统计特性,此处采用基于稀疏贝叶斯学习理论的预测方法对各个独立时段的风电场输出功率进行概率密度预测,该方法在文献[17]中已有详细描述,此处仅就其要点进行介绍。

稀疏贝叶斯学习方法与支持向量机学习方法均是围绕核函数构建预测模型的方法,而相比于支持向量机方法,稀疏贝叶斯学习方法最主要的特点在于其学习过程是基于贝叶斯架构的,而不是采用结构风险最小化原则。这就使稀疏贝叶斯学习方法拥有如下独特优势:(1)能够提供概率分布预测结果;(2)无需对支持向量机中平衡经验风险和泛化能力的惩罚因子进行设定;(3)模型稀疏程度与支持向量机相当或更好[18]。

基于稀疏贝叶斯学习理论,对未来多个时段内风电场输出功率的概率密度进行预测,预测架构如图1所示。图中:SBL-X表示第X台稀疏贝叶斯学习机;N为预测时段总数。

根据风电场输出功率的相关性分析,此处学习机输入数据(解释变量)由风电场输出功率历史数据(回溯三步)和预测目标时段的风速预报数据2个部分构成。而在预测过程中,稀疏贝叶斯学习机的输出则为预测目标时段内风电场输出功率的期望值与方差。稀疏贝叶斯学习机训练与预测的原理简要介绍如下。

稀疏贝叶斯学习机预测模型可表示为:

式中:youtput为待预测随机变量;xinput为输入向量;xm为训练样本中的输入向量;K(·)为核函数,在回归预测中可采用高斯核函数形式;M为训练样本总数;ε为误差项,服从正态分布N(0,σ2);wm和w0均为权重系数,在稀疏贝叶斯学习机中被看做随机变量,并假设其先验分布为N(0,αm-1),其中αm为超参数。

容易看出,当式(1)所示学习机训练完成时,对于任意给定的输入向量,均可得到被预测量的概率密度函数。

学习机的训练过程则是根据贝叶斯原则对参数w=[w0,w1,…,wM]T、超参数α=[α0,α1,…,αM]T以及σ2的后验分布进行推断的过程,即可表示为p(w,α,σ2y),其中,输出量y=[y1,y2,…,yM]T。

然而,由于对全部参数进行贝叶斯推断计算复杂,在实际计算过程中,超参数α与σ2是通过对联合分布的极大似然估计得到的,表示为αMP与σ2MP。进而,可以利用贝叶斯推断得到w的后验分布为N(μ,E),其中:

在得到w及ε的后验分布后,带入式(1)即完成了稀疏贝叶斯学习机的训练过程。而实际上,由于youtput仍然服从正态分布,可直接写出其均值与方差为:

3 多时段联合概率密度预测

基于稀疏贝叶斯学习理论的预测方法可实现风电场输出功率的逐时段概率密度预测,然而,从图1所示预测架构可以看出,这种预测方法并没有考虑风电场输出功率各预测时段间的相关性。这一忽略尽管不会显著影响逐时段风电场输出功率概率密度预测的精度(因为逐时段概率密度预测并未对风电场输出功率各预测时段间的独立性进行假设),然而,风电场输出功率各时段间的相关性却是决策中十分重要的信息,其暗含着风电场输出功率各时段间变化速度的分布规律[19,20]。为此,对包含风电场输出功率各时段间相关信息的多时段联合概率密度进行预测是有必要的。

3.1 联合概率密度预测原理

风电场输出功率的多时段联合概率密度预测问题具有相当的复杂度,其难点至少体现在如下2个方面。

1)待预测参数的维数随预测时段数的增加呈二次方增加。

风电场在连续多个时段内的输出功率可用多元正态分布N(η,B)表示,其概率密度函数为:

式中:y*为N维随机向量,表示未来N个时段的风电场输出功率;η为N维待预测期望值向量;B为N×N维待预测协方差矩阵。

显然,随着N的增大,需预测的向量η与矩阵B中的参数数目将迅速增加。

2)根据多元正态分布的性质,协方差矩阵B必须为正定对称矩阵,这一约束条件的加入增加了预测模型构建的复杂程度。

在统计学领域,特别是统计经济学领域,对于多元随机变量的联合分布预测问题已有较长的研究历史,从时间序列回归角度提出了多种多元异方差回归模型[21]。其中,较为常用的一种模型为CCC-MGARCH模型[21,22]。该模型的显著特点在于将协方差矩阵预测分解为常相关系数矩阵估计与逐时段概率密度预测2个独立步骤,使其具有计算上的便利性,有很好的实用价值。本文借鉴此分解预测架构来实现风电场输出功率的多时段联合概率密度预测。

在联合概率密度预测过程中,协方差矩阵的预测是最为困难的,而根据基础概率知识可知,协方差矩阵与相关系数矩阵之间有如下关系:

式中:D为与矩阵B同维数的对角矩阵,其对角元素为各个待预测时段风电场输出功率的标准差,即为矩阵B对角元素的平方根;Γ为与矩阵B同维数的相关系数矩阵,是正定对称矩阵,对角元素均为1,非对角元素的绝对值小于1。

当采用式(5)分解形式后,可以看到η,D,Γ成为待预测的参量。此时,根据CCC-MGARCH模型假设,分别采用2种方式进行参数预测与估计。其中,η与D通过逐时段概率密度预测过程得到,是时变的,而Γ则为固定参数,通过分析历史数据得到。这样,一方面可以有效减少时变预测参数的数量,而另一方面由于相关系数矩阵是由历史数据分析得到的,其自然满足正定性条件,从而保证协方差矩阵亦为正定矩阵(由对称正定矩阵乘积为对称正定矩阵充要条件得此结论)。此外,从CCC-MGARCH模型结构来看,这一预测架构恰好可与前文所述稀疏贝叶斯学习方法相结合,通过稀疏贝叶斯学习方法逐时段对风电场输出功率的均值(用以形成η)与方差(用以形成D)进行预测,进而,结合通过预测误差历史数据相关性分析得到Γ,预测得出目标时段内风电场输出功率的联合概率密度函数。

3.2 联合概率密度预测步骤

根据上述原理,风电场输出功率联合概率密度预测的具体实施步骤如下。

步骤1:训练稀疏贝叶斯学习机。利用风电场运行历史数据按逐时段概率密度预测方法中所述及的方式对各时段的学习机进行训练。

步骤2:估计相关系数矩阵。利用学习机进行预测测试(尽量避免采用训练用数据,以使相关系数矩阵的估计能够接近真实预测场景),得到L组预测误差样本,如表1所示。进而,根据预测误差样本,得到预测误差之间的相关系数矩阵,其计算公式为:

式中:i,j=1,2,…,N;Γi,j为相关系数矩阵中的第i行第j列元素,代表第i个时段与第j个时段风电场输出功率预测误差之间的相关系数;el,i和el,j分别为第l个预测误差样本的第i个和第j个时段风电场输出功率的预测误差;ei-和ej-分别为第i个和第j个时段预测误差样本的均值(即表1中的列均值)。

步骤3:预测。利用步骤1训练得到的学习机对风电场输出功率均值及方差进行逐时段预测,并利用预测得到的逐时段方差与步骤2得到的相关系数矩阵得到协方差矩阵,完成联合概率密度预测。

4 测试与分析

4.1 预测精度分析

本文方法是基于风电场输出功率逐时段概率密度预测方法发展而来的,其可以提供逐时段概率密度预测所能提供的期望值与逐时段分布预测结果。首先对这2个方面的预测效果进行测试。

测试中,对测试风电场进行了1 500次前瞻24h的逐时段概率密度预测实验。其中,对于每一个前瞻时段的学习机(共24台学习机)采用600组数据进行训练,训练平均耗时4.3s。虽然本文并没有采用新数据对学习机进行循环训练,但可以看出,训练机训练耗时较少,完全可以满足在线循环训练需求。利用训练好的学习机对1 500组新数据进行预测。

将期望值预测结果与持续法预测结果进行比较,如表2所示。表中以归一化平均绝对误差(NMAE)为期望值预测精度的评价指标[8,17]。从结果比较可以看出,本文方法在较短前瞻时段与较长前瞻时段内的预测精度均显著高于持续法,说明了本文预测方法在期望值预测上的有效性。

对于逐时段分布预测,此处采用文献[17]所述基于落点统计的分布预测精度衡量方法进行精度测试。将前瞻时长1~24h的落点统计数据绘于图2。图中:粗实线为预测结果在各区间内的理论落点数的分布情况;虚线为各前瞻时段(前瞻1~24h)内的实际落点数的分布情况。从图中可以看出,本文方法所预测的理论落点分布与实际统计落点分布接近,说明本文方法能够较好地对风电场输出功率预测误差的分布进行预报。

4.2 时段间关联信息效用分析

本文方法在逐时段概率密度预测基础上考虑了时段间的关联信息,为说明此信息的有效性,此处对计及与不计及各时段间关联信息的风电场24h的输出功率预测结果进行对比采样,形成风电场输出功率连续变化的场景,并通过比较场景特征的不同,说明本文方法的有效性。

测试过程中,首先利用上述预测所得的1 500组结果中的前500组进行风电场输出功率预测误差的相关性分析,按式(6)得到风电场输出功率预测误差的相关系数矩阵,其阴影曲面图如图3所示。从图中可以看出,相邻较短时段内的预测误差相关系数绝对值较大,相关性较强。图中所示相关系数分布范围为-0.18~1,通过验证为正定矩阵。

进而,任选一组逐时段概率密度预测结果(此处选择第1 500次预测结果)作为基础,根据上述相关系数矩阵,按式(4)与式(5)形成联合概率密度函数,完成一次联合概率密度预测。此次预测详细结果见附录B。并采用多元正态随机变量随机采样方法(见附录C),对预测结果采样进行对比。

不考虑各时段间的相关性的预测直接采用第1 500次逐时段概率密度预测结果,由于各时段间相互独立,可对各时段逐次采样进行对比。

对上述2种方法各取3次采样结果见图4。

从图4中可以清晰地看出,当考虑风电场输出功率各时段间的相关性,所得采样结果更接近真实风电场输出功率的波动程度,对真实风电场输出功率的拟合程度较好。而不考虑风电场输出功率时间关联特性时,由于未考虑误差分布的前后相关性,采样结果波动较为剧烈,相对而言,难以描述风电场输出功率变化发展的实际情况。

5 结语

本文提出了一种风电场输出功率的多时段联合概率密度预测方法。该方法相较于以往逐时段的概率密度预测,能够反映风电场输出功率的速度变化分布特征,从而使预测更加符合实际,为调度决策提供更为准确、全面的决策信息。算例分析通过对均值、边际分布以及采样结果的比较,说明了本文方法的有效性。

概率中的条件概率 篇4

条件概率是在解决各种实际问题的实践过程中发展起来的, 在国民经济、工农业生产、近代物理、气象、地震、生物、医学、金融、保险等很多领域都有大量应用, 具有丰富的实际背景.因此, 与其他数学内容相比, 条件概率课程的学习, 更有利于促进学生形成良好的科学品质.主要包括培养学生探索、创新、决策、合作等精神.当条件概率在教学中逐步扮演重要角色的时候, 充分认识概率统计课的教育价值, 发挥它的育人功能, 必能促进学生综合素质的提高.

正如著名数学家拉普拉斯说的:“虽然它 (概率统计) 是从考虑某一低级的赌博开始的, 但它却成为人类知识中最重要的领域……生活中最重要的问题, 其中绝大多数在实质上只是概率问题.”

二、条件概率概述

1.条件概率的含义

在事件B已经发生的条件下考虑事件A的概率, 则这种概率称为事件A在事件B已经发生条件下的条件概率, 记为P (A|B) .

例1 一批同类产品共14件, 其中由甲厂提供的6件中有4件优质品, 由乙厂提供的8件中有5件优质品.试考察下列事件的概率.

(1) 从全部产品中任取的一件是优质品;

(2) 从甲厂提供的产品中任抽1件, 而被抽的这一件是优质品.

解 设A=“抽到的产品是优质品”, B=“抽到甲厂提供的产品”。

(1) Ρ (A) =914. (2) Ρ (A|B) =46.

如果把事件B已经发生这个前提看作是形成条件概率P (A|B) 的附加条件, 则相对而言, 仅在原有样本空间Ω上求出的概率P (A) 可称为无条件概率.这样, 给定题设下的P (A) 与P (A|B) 不仅数值不相等而且意义也是不同的.下面讨论它们的关系.

沿用例1的题设、记号以及事件.

AB=“从全部产品中任抽的一件既是甲厂的产品又是优质品”, 故Ρ (B) =614Ρ (AB) =414.

于是Ρ (A|B) =46=414614=Ρ (AB) Ρ (B) .

类似地, 从优质品中任抽一件, 而该优质品由甲厂提供的概率为

Ρ (B|A) =49=414914=Ρ (AB) Ρ (A) .

上述两式表达了条件概率与无条件概率的关系, 而且可以证明, 在古典概型下, 只要P (B) >0或P (A) >0, 那么表达式③或④总是成立的.

2.条件概率的计算方法

方法一 在问题中根据事件B发生的结果 (包含基本事件) , 缩减样本空间为B, 在B中求事件A发生的概率, 即为条件概率P (A|B) , 如表达式②.

方法二 利用条件概率公式Ρ (A|B) =Ρ (AB) Ρ (B) , 在样本空间Ω中求概率P (AB) 和P (B) , 再求条件概率P (A|B) , 如表达式③.

三、有关条件概率的三个重要公式

以条件概率为基础, 可得出乘法公式、全概率公式和贝叶斯公式.

1.乘法公式

一方面, 由已知的P (B) 和P (AB) 去求P (A|B) 用表达式③.

另一方面, 从已知的P (B) 和P (A|B) 去求P (AB) , 有

P (AB) =P (B) ·P (A|B) . (3.11)

公式 (3.11) 叫做乘法公式.

从 (3.11) 式出发可以导出更一般的乘法公式, 即为下面的定理:

若P (A1A2…An-1) >0,

则P (A1A2…An) =P (A1) P (A2|A1) P (A3|A1A2) …P (An|A1A2…An-1) . (3.12)

(3.11) 式的重要性在于:有时从条件概率的直观意义出发比较容易得出P (A|B) 的值, 然后用公式 (3.11) 求出比较复杂的事件AB的概率.

2.全概率公式

有一类事件, 可以借助另外的事件组分解为若干比较简单的事件, 把这些简单事件的概率叠加起来, 就可以计算该事件的概率, 这就是全概率公式.

设A1, A2, …, An为一完备事件组, 则对任一事件B, 有

P (B) =i=1nP (Ai) P (B|Ai) . (3.21)

公式 (3.21) 称为全概率公式.

全概率公式将事件B分解为BA1, BA2, …, BAnn个互不相容事件的和, B==B (A1+A2+…+An) =BA1+BA2+…+BAn.

如果概率P (Ai) , P (B|Ai) (i=1, 2, …, n) 易算, 则

P (B) =i=1nP (BAi) =i=1nP (Ai) P (B|Ai) .

所以全概率公式的思想方法是化整为零, 关键是恰当地选取与该事件相关的完备事件组A1, A2, …, An, 且概率P (Ai) , P (B|Ai) (i=1, 2, …, n) 易算.

例2 假设明天的天气与今天的天气相同的概率为13, 而新年第一天是晴天的概率为14, 试求第n天仍是晴天的概率.

解 设Ai=“第i天为晴天”, i=1, 2, …求P (An) .它是一个与n有关的量, 为了计算它, 建立P (Ai) 与P (Ai-1) 间的递归关系.显然Ai-1A¯i-1为完备事件组, 由全概公式得

Ρ (Ai) =Ρ (Ai-1) Ρ (Ai|Ai-1) +Ρ (A¯i-1) Ρ (Ai|A¯i-1) =13Ρ (Ai-1) +23[1-Ρ (Ai-1) ]=23-13Ρ (Ai-1) (i2) .

将上式改写为:Ρ (Ai) -12=-13[Ρ (Ai-1) -12] (i2) .

于是i=2n[Ρ (Ai) -12]=i=2n

(-13[Ρ (Ai-1) -12]) Ρ (An) =12+ (-13) n-1[Ρ (A1) -12].

根据题意, Ρ (A1) =14, 从而

Ρ (An) =12+ (-1) n143n-1.

3.贝叶斯公式

全概率公式解决的问题是借助完备事件组{Ai}来计算某一事件B的概率, 若已知发生了某一事件B, 求完备事件组中某个Ai发生的条件概率, 可用下述定理表述.

A1, A2, …, An是一完备事件组, 对于任意的事件B, 若P (B) >0, 则有

Ρ (Aj|B) =Ρ (AjB) Ρ (B)

=Ρ (Aj) Ρ (B|Aj) i=1nΡ (Ai) Ρ (B|Ai) , (j=1, 2, …, n) . (3.31)

公式 (3.31) 称为贝叶斯公式.公式的实际背景是:已知出现了试验“结果”B, 要求推断哪一种“原因” (Aj) 产生“结果”B的可能性大.比较各个P (Aj|B) 的大小, 若P (Ak|B) 是诸P (Aj|B) 中最大的, 这表明产生“结果”B的最可能“原因”是Ak.

由上面可以看出, 全概率公式是“由因导果”, 而贝叶斯公式是“由果溯因”, 所以全概率公式和贝叶斯公式是相反的两个过程.

结论:乘法公式是事件求交的概率, 全概率公式是求一个复杂事件的概率, 而贝叶斯公式是求一个条件概率.

四、条件概率在现实生活中的应用

伊索寓言“孩子与狼”讲的是一个小孩每天到山上放羊, 山里有狼出没.第一天, 他在山上喊:“狼来了!狼来了!”山下的村民闻声便去打狼, 可到山上, 发现狼没有来.第二天仍是如此.第三天, 狼真的来了, 可是无论小孩怎么喊叫, 也没有人来救他, 因为前两次他说了谎, 人们不再相信他了.

现在用贝叶斯公式来分析此寓言中村民对这个小孩的可信程度是如何下降的.

首先记事件A为“小孩说谎”, 记事件B为“小孩可信”.不妨设村民过去对这个小孩的印象为

Ρ (B) =0.8Ρ (B¯) =0.2. (4.1)

我们用贝叶斯公式来求P (B|A) , 即这个小孩说了一次谎后, 村民对他可信度的改变.

贝叶斯公式中概率P (A|B) 和Ρ (A|B¯) 的含义是:前者为“可信” (B) 的孩子“说谎” (A) 的可能性, 后者为“不可信” (B¯) 的孩子“说谎” (A) 的可能性.在此不妨设Ρ (A|B) =0.1Ρ (A|B¯) =0.5.

第一次村民上山打狼, 发现狼没有来, 即小孩说了谎 (A) .村民根据这个信息, 对这个小孩的可信程度改变为 (用贝叶斯公式)

Ρ (B|A) =Ρ (B) Ρ (A|B) Ρ (B) Ρ (A|B) +Ρ (B¯) Ρ (A|B¯) =0.8×0.10.8×0.1+0.2×0.5=0.444.

这表明村民上了一次当后, 对这个小孩的可信度由原来的0.8调整为0.444, 也就是 (4.1) 调整为

Ρ (B) =0.444Ρ (B¯) =0.556. (4.2)

在此基础上, 再一次用贝叶斯公式计算P (B|A) , 亦即这个小孩第二次说谎后, 村民对他的可信程度改变为

Ρ (B|A) =0.444×0.10.444×0.1+0.556×0.5=0.138.

这表明村民们经过两次上当, 对这个小孩的可信程度已经从0.8下降到了0.138.如此低的可信度, 村民们听到第三次呼叫时怎么会再上山打狼呢?

这个例子启发人们:若某人向银行贷款, 连续两次未还, 银行还会第三次贷款给他吗?

继股票之后, 彩票也成了城乡居民经济生活中的一个热点.据统计, 全国100个人中就有3个彩民.“以小博大”是不少彩票购买者的共同心态.那么, 购买彩票真的能让我们如愿以偿吗?以36个号码中选择7个 (36选6+1) 的投注方式为例, 经计算, 中一等奖的概率为千万分之一点二, 全国13亿人口每人都去摸奖, 中一等奖的一共156人.所以购买者应怀有平常心, 既不能把它作为纯粹的投资, 更不应把它当成发财之路.

大学英语四级考试包括听力、语法结构、阅读理解、填空、写作等.除写作外, 其余85道题是单项选择题, 每道题有A, B, C, D四个选项.不考虑写作分, 及格按60分算, 则85道题必须答对51题以上.如果凭碰运气和侥幸心理, 可以看成85重贝努利试验, 过关率为亿分之2, 所以靠运气通过考试是不可能的.因此, 我们在生活和工作中, 无论做什么事都要脚踏实地, 对生活中的某些偶然事件要理性地分析、对待.

参考文献

[1]余长安.概率论与数理统计.武汉:武汉大学出版社, 2007.

[2]夏宁茂, 等.新编概率论与数理统计.上海:华东理工大学出版社, 2006.

联合概率 篇5

很多概率问题往往不是简单直白的, 而是附加了一些条件, 在此基础上来求解事件的概率。例如, 在某事件A发生的前提下, 求解B事件的条件概率, 则可简记为P (B|A) 。

“条件概率”的基本概念:设A和B是两个不同的事件, 且P (A) ≠0, 那么称为在事件A发生的条件下, 事件B发生的条件概率。一般地, P (B|A) ≠P (B) , 且它满足以下三个条件: (1) 非负性; (2) 规范性; (3) 可列可加性。

二、利用“条件概率”计算

通过对现有的概率乘法公式、全概率公式和贝叶斯公式的一点新的理解, 读者可以不用去考虑课本给出的全概率公式和贝叶斯公式, 只要对所给出的概率事件能够有足够的分析, 利用“条件概率”就可以进行计算。

1. 关于条件概率的判定。

上述对于如何区分条件概率事件进行了讨论, 那么对于主要标志是P (AB) 还是P (A|B) 取决于A、B两个事件在所述问题中是否是地位平等的, 也就是探索是否事件A、B存在一个必然事件和一个随机事件。如果事件A、B均为随机事件, 那么两者就是平等地位。实际在分析问题时, 不用探索其是否是平等事件, 因为条件概率P (A|B) 中, 事件A、B均为随机事件。对于具体的问题, 附加的条件若为事件B已经发生, 那么很明确其为条件概率事件, 因此, 附加条件是判断是否为条件概率的关键。举例分析:投掷一枚硬币, 第一次为正面时, 第二次也为正面的概率为条件概率;第一次第二次都为正面, 则不是条件概率。因此表述不当, 可能会造成分析的错误。正确判断是否为条件概率事件是十分重要的。

2. 条件概率的解题思路。

所研究的事件A是在事件B已经发生的前提下产生, 那么可以将事件A发生的概率按照条件概率进行分析。对于简单的条件概率, 这里主要论述两个基本的思路:一是根据条件概率的定义进行计算, 在其原来的样本空间中分析P (A) 及P (AB) , 再利用公式, 求解出P (B|A) 。二是在缩减的样本空间SA中计算B出现的概率。

三、概率公式的理解

在概率论学习中, 全概率公式、贝叶斯公式以及乘法公式, 是《概率统计》这门学科学习的重中之重, 也是研究生考试的一个重要常考点。倘若学习这门课程时, 按照课本的内容和顺序, 直接熟记其公式, 并仅仅学习如何套用公式解题的话, 对学生而言, 只是记住了公式的形式, 而在实际应用时, 并不能明白其实际的意义。其实, 应用这三个公式最重要的是准确找到其样本空间。这里着重讲解这三个公式的意义, 并研究如何确定其样本空间。

1. 对概率乘法公式的理解。

通过条件概率, 进行求积的事件的概率, 即为乘法公式。

(1) 设P (B) >0, 那么P (AB) =P (B) P (A|B) ;同理可知, 如果P (A) >0, 那么P (AB) =P (A) P (B|A) , 即为乘法公式。

(2) 推广:如果A1, A2, ...An为n个事件, 且P (A1A2…An-1) >0, 那么P (A1A2…An) =P (A1) P (A2|A1) …P (An|A1A2…An-1) 。

乘法公式一般应用于求解几个事件同时发生的概率。

例:盒中装有5个产品, 其中3个一等品, 2个二等品, 从中不放回地取产品, 每次1个, 求: (1) 取两次, 两次都取得一等品的概率; (2) 取三次, 第三次才取得一等品的概率;

解:令Ai={第i次取到一等品}

(也可直接按古典概型进行计算。)

2. 对全概率公式的理解。

全概率公式的定义如下:设Ω为随机的试验样本空间, 其中, 事件A为试验E的一个事件, 而B1, B2, B3...为样本空间Ω的一个划分, 并且P (Bi) >0 (i=1, 2, …, n) , 那么P (A) =P (B1) P (A|B2) +P (B2) P (A|B2) +…+P (Bn) P (A|Bn) , 即为全概率公式。

全概率公式的意义为, 对于A事件, 不能直接计算求解其概率时, 就要将其划分为若干个小的事件进行求解, 通过对小事件的概率的计算, 然后进行相加求和, 进而得到A事件的概率。当对A事件进行分割时, 不是直接将事件A进行分割, 而是先寻找Ω这个样本空间的一个划分, 例如B1, B2, …, Bn。这样就可将事件A分成了n个部分, 即为AB1, AB2, …, ABn, 那么事件A就可表示为A=AB1+AB2+…+ABn由此可以通过加法公式表示为P (A) =P (AB1) +P (AB2) +…+P (ABn) =P (B1) P (A|B1) +P (B2) P (A|B2) +…+P (Bn) P (A|Bn) , 这便是全概率公式的定义与思路。

不妨举例进一步解释全概率公式的含义。假设某个年级共有5个班级, 每个班共有40人, 男、女生各占一半, 如果选择其中1名学生当社联的主席, 那么这个职务为女生的可能性是多少?应该很快就能得出结果。设选中女生为事件A, 那么 (这个年级共有200人, 而女生共100人, 则所求即为0.5) 。事实上, 我们应该是以0.2的可能性在1班进行选取, 然后以0.5的可能性会选中女生;同样以0.2的可能性在2班进行选取, 再以0.5的可能性选中女生。依次可知, 以0.2的可能性在3班选取, 再以0.5的可能性选取到女生;以0.2的可能性在4班选取, 再以0.5的可能性选取到女生;以0.2的可能性在5班选取, 再以0.5的可能性选取到女生。这样的进行选择, 实际就是运用了全概率公式。此外, 完备事件组不一定唯一, 根据不同的思路, 就可以找出不同的完备事件组, 但是无论哪个完备事件组, 都可以解决问题。

3. 对贝叶斯公式的理解。

贝叶斯公式的定义如下:设试验D的一个样本空间是Ω, 其中A为试验E的一个事件, B1, B2, …, Bn为其样本空间Ω的一个划分, 并且可知P (A) >0, P (Bi) >0, 那么, , 此公式则被称为贝叶斯公式。

贝叶斯公式的应用范围很广, 对于很多的实际问题的解决也发挥了很大的作用。举例分析, 某一工厂生产某种产品, 有三种备选方案:小批量生产、中批量生产、大批量生产。该产品生产的决定性因素是市场对其的需求量, 根据资料分析可知, 大需求量的概率是30%, 假如市场有大的需求, 则分别选择小批量、中批量、大批量生产, 工厂可获利分别为10万、20万、30万;假如市场的需求量较小, 而分别选择小批量、中批量、大批量生产, 那么工厂获利分别为5万、2万、6万。为了更好地获益, 该工厂进行市场调研, 调研经费为3万, 从获取的资料可知, 市场的需求量较大的准确率为80%, 而市场需求量小的准确率为90%, 该怎样选取最佳方案呢?分析可知决策人拥有全部的信息, 那么就可以以最佳的方案获得最大的利益。然而实际情况存在很多不可预知的因素, 那么要想通过更多的信息来做出最合理的决策, 需要市场调研提供信息, 以便调整事件的先验概率, 使得经调整的后验概率更加接近实际。故需要进行研究分析, 根据上述的计算可知, 当工厂进行市场调研时, 工厂就可达到11.4288万的期望获益, 相比于比那些不市场调研的工厂, 要高于它们的6.4万元, 差值为5.0288万元。当市场调研价低于5.0288万时, 工厂就要进行市场调研工作, 因为进行市场调研费用为3万元。因此案例, 我们得到了后验风险决策的论断: (1) 要进行市场调研工作; (2) 依据调研结果进行工作安排。这个例子的结论就是, 当市场的需求量大时, 就进行大批量生产, 当需求量小时, 就进行小批量生产。通过运用贝叶斯条件概率, 可以得到先验概率和被修正的后验概率, 进而选择最佳方案, 降低风险, 获得最大效益, 这在实际应用中是相当重要的。

4. 乘法公式, 全概率公式和贝叶斯公式之间的联系。

当存在两个事件, 彼此之间不是相互独立的, 且互相排斥的情况, 在事件A发生情况下, 事件B发生的概率时, 即应用条件概率公式, 即为, 其中P (A) ≠0。当计算事件A与事件B同时发生时的概率, 即应用乘法公式, 即为P (AB) =P (B) P (A|B) =P (A) P (B|A) 。当将事件A看作为一个整体时, 并被事件B分割时的计算方法为全概率公式, 即为P (A) =P (AB1) +P (AB2) +…+P (ABn) =P (B1) P (A|B1) +P (B2) P (A|B2) +…+P (Bn) P (A|Bn) 。在条件概率和全概率的基础上进行变形的用途十分广泛, 主要是将其应用到先验概率事件和后验概率事件, 利用贝叶斯公式进行计算, 即为。当要求较为复杂且精确时, 则应用边际分布密度。如果将上述公式方法应用于较多的事件, A1, A2, …, An, B1, B2, …, Bn那么公式则将变为和的形式。

四、结语

通过以上对条件概率以及概率公式的理解和分析, 可以知道, 条件概率在《概率论》这门学科中显现出的重要性。条件概率作为概率论的一个相当重要的概念, 当然, 它也是概率统计学中一个重要的难点, 在概率论的整个知识体系中起着上下连贯的作用。通过本文对条件概率的研究分析, 介绍了其相关的概念和公式, 以及对其的一些新的解读, 读者若能够熟练的掌握并理解条件概率的定义和其相关知识, 对于他们之后进一步学习概率论的更深层次的问题是十分有帮助的。

摘要:条件概率属于概率论范畴中一个重要的概念, 本文主要从条件概率的定义, 对其的认识, 以及对现有的概率乘法公式、全概率公式、贝叶斯公式的新的理解方面进行了分析与阐述。只要对所已知的概率事件进行认真分析, 就可不考虑其他公式约束, 而利用“条件概率”对其进行计算和分析。

关键词:条件概率,全概率公式,贝叶斯公式,样本空间

参考文献

[1]丁万鼎, 等.概率论与数理统计[M].上海科学技术出版社, 1999.

[2]张克军.关于条件概率及其应用的教学研究[J].徐州教育学院学报, 2008, (3) .

联合概率 篇6

一、学生观察概率实验与亲身做概率实验的主要区别

1. 观察概率实验会很快忘记, 而亲身做概率实验是亲身做实验, 体会过程。

看过的听过的容易忘, 只有经历过的才会记牢。而且学生要获得有关概率的知识得先提出问题, 在收集数据之后再整理数据, 最后才会分析数据。因此, 为了会分析数据就得有实验收集数据的过程。让学生经历收集、整理、分析数据的过程, 比老师说、学生听好多了。而且学生在自己动手做实验的同时, 能增强学生自己动手的能力, 培养学生解决问题的灵活性。

2. 一个是教师演示知识形成的过程, 一个是学生投身到探索知识的过程中去, 亲临知识产生的情境中去。

教师演示, 学生只是课堂实验的观众, 用眼将实验“看一遍”和手将实验“记一遍”。我认为概率教学中要做实验。在做实验之前可以让学生先猜想一下, 不同的学生猜想到的概率肯定不一样, 然后让学生去实验, 并且让他们多实验几次, 与他们之前猜想的概率作比较, 让学生自己感受到概率的出现不像自己想象的那样, 而是随机出现的。这样的实验目的不仅仅是为了验证自己的猜想, 更主要的是让学生体验到概率的随机性。

3. 一个是教师教, 学生被动听的传统教学模式;

一个是学生是学习的主人, 进行自主学习的模式。教材中已经给了学生做实验的时间, 但是教师为了怕浪费时间或怕实际课堂教学中出现尴尬的操作结果, 就教学生观察实验, 这还是传统的教学模式。而亲身做概率实验更容易让学生对所学内容感兴趣, 不自觉地就投入到学习之中。特别是当实验问题来源于现实生活实际时, 更能激发学生实验的积极性, 感受到学习数学是有用的, 并在解决问题的过程中加深对问题的理解, 体会成功的乐趣。

4. 一个是观察概率实验, 学生只是分散的个体, 缺乏有效的交流、合作;

教师也缺乏有效的评价;一个是探索、合作、总结、争论、修改完善、应用的过程。教师因此也可通过观察学生在活动中的投入程度———能否积极、主动地从事各项活动, 向同伴解释自己的想法, 听取别人的建议和意见等, 对学生进行情感、态度、价值观的有效评价。还可由此更具体地体察学情, 调整教学。

二、学习反思

1. 教材已经给了学生做实验的课时安排, 主要是如何组织让学生能在实验时提高效率, 完成实验任务, 避免时间的无畏浪费。

2. 学生应该亲身做概率实验看起来争论不大, 但最重要的还是要积累资源, 包括教学设计、学生案例、评价案例等。

3. 概率统计的评价试题确实需要创新, 否则只重视试卷上的知识技能的落实, 概率的实验教学很难落到实处。

那么, 哪些概率实验应当要求学生亲身做?较简单的概率、学生能通过努力做的、能通过合作做的、时间允许的一些概率实验应该让学生亲自去做。 (1) 掷硬币问题, 关注结果发生的概率。 (2) 掷骰子问题, 关注结果发生的概率。 (3) 摸球问题。 (4) 转盘———配紫色问题。 (5) 摸牌问题。 (6) 投针问题。 (7) 利用计算器随机产生随机数问题等。

三、以投针实验为例, 简单介绍一下实验的目的与过程

1. 实验的目的:

(1) 能用实验的方法估计一些复杂的随机事件发生的概率, 并会验证。 (2) 经历实验、统计等活动过程, 在活动中进一步发展学生的合作交流意识和能力。

2. 情境引入:

平面上画着一些并行线, 相邻的两条并行线之间的距离都是a, 向此平面任投一长度为l (l<a) 的针, 该针可能与其中某一条并行线相交, 也可能与它们都不相交, 相交与不相交的可能性是否一样?你能说明你的想法吗?能否利用列表格或树状图的方法来计算概率?为什么?用什么方法计算概率?

以情境引入课题, 通过提问使学生的思维逐步深入, 从而想到实验的方法。

3. 实验过程:

(1) 学生分5人一个小组进行实验。利用课堂上的桌子, 用粉笔画出等距离a的7条平行线。 (2) 每组至少完成100次实验, 分别记录下其中相交和不相交的次数, 及实验频率。 (3) 收集数据:老师列表格, 学生填数据。 (4) 统计全班的实验资料, 估计针与并行线相交的概率。

在具体实验的过程中, 要求每组学生都确定相同的l和a, 针可由教师统一准备。这样做是因为如果l和a取不同的值, 实验结果是不同的。为了保证随机性, 我在教学中要求学生从一定的高度随意抛针。此外, 在实验过程中, 有时针与线是否相交较难判断, 教师可以适当地建议学生忽略这次实验或者认为相交、不相交各计半次, 等等。

4. 问题延伸:

(1) 你能否验证你估计的概率是否准确? (2) 若换一次实验, l、a都改变, 其概率会发生变化吗?通过实验你能估计圆周率的值吗?

5. 课时小结:

这节课我们学会了用实验的方法估计一些复杂随机事件发生的概率, 并亲自体验到了“当实验次数较大时, 实验频率稳定于理论概率, 并可据此估计某一事件发生的概率”。经历实验、统计等活动过程, 在活动过程中, 同学们都能积极参与到数学活动中去, 合作意识和小组交流都有了进一步的发展。

联合概率 篇7

关键词:概率论,计算,概率模型

概率论是一门研究随机现象统计规律的学科, 它是各种数理统计方面的理论基础。在自然界存在着两类不同的现象——确定性现象和随机现象。若一个试验在可以相同的条件下重复进行, 且试验的所有可能结果是已知的, 但无法预言每次试验的具体结果, 则称此试验为随机试验。随机试验的结果称为事件。

概率内容中新概念较多, 相近概念易于混淆。

一、等可能事件和互斥事件

等可能事件的前提是:一次试验可能出现的结果 (基本事件) 只有有限个, 并且每一中结果出现的可能性都相等。互斥事件的前提是:同一试验中两个事件不可能同时发生。等可能事件的出发点是两个事件所含结果出现的机会是否相等, 互斥事件只要求不同时出现, 而不要求出现的机会是否相等。

例1:甲袋中有10个白球, 6个黑球, 乙袋中有6个白球, 10个黑球。现在从中各取一球。求事件“A=两球同色”的概率。

解析: (从等可能角度考虑) 从中各取一球的基本事件的总数为C161C161=265个, 而两球同色共有C101C61+C61C101=120取法, 由等可能事件概率的计算公式知 (从互斥事件角度考虑) 记A1=“两球为白球”, A2=“两球为黑球”, 则事件A1与A2互斥, 故

二、互斥事件与对立事件

互斥与对立都表示两个事件之间的关系, 互斥事件是指同一试验中不可能同时发生的两个事件。而对立事件除了要求这两个事件不同时发生外, 还要求这两个事件中有且只有一个发生。因此对立事件一定是互斥事件, 且是互斥事件的特殊情况, 而互斥事件不一定是对立事件。从本质上说“互斥”是“对立”的必要而非充分条件。

例2.两个射手向同一目标射击, 判断下列每组事件是否互斥事件, 是否对立事件。

(1) “甲击中目标, 乙未击中目标”与“甲未击中目标, 乙击中目标”;

(2) “甲乙至少有一人击中目标”与“甲乙都未击中目标”。

解析:记A=“甲击中目标”, B=“乙击中目标”

(2) 由于前一个事件意味着“目标被击中”, 后者意味着“目标未被击中”所以它们既是对立事件又是互斥事件。

三、互斥事件与相互独立事件

互斥事件强调在同一事件中两个事件不能同时发生, 即同时发生为不可能事件;相互独立事件则强调试验下两个事件互不影响, 它们都描绘了两个事件的关系, 但其所描绘的本质不同, 相互独立的两个事件不一定互斥, 有可能同时发生。

例3.甲乙丙三人独立的同解一道题, 他们单独解出此题的概率分别为0.5, 0.6, 0.7

(1) 求有人没解出这道题的概率;

(2) 求恰有一任解出此题的概率。

解析:记甲乙丙单独解出此题的事件分别为A, B, C, 则A, B, C是相互独立的事件, 而不是互斥事件。

(1) 记D=“有人没解出此题”, 则D与ABC是对立事件, 并且P (ABC) =0.5×0.6×0.7=0.21, 那么P (D) =1-P (ABC) =1-0.21=0.79

(2) E=“恰有一人解出此题”, 则而是互斥事件, 那么

注:概率问题的求解实现应正确理解各种“事件”, 并分清它们之间的联系, 然后用数学式子来描述这些关系。

四、等可能事件与相互独立事件

等可能事件强点一次试验中两个事件出现的机会是否均等, 而相互独立事件强调不同试验下的两个事件互不影响.有些相互独立事件的概率问题可以借助于等可能事件的概率求解。

例4.同时掷出两枚筛子, 记A=“第一个骰子的点数为偶数”, B=“第二个骰子的点数为奇数”, C=“两个骰子的点数同时为偶数, 或同时为奇数”, 判断事件A, B, C是否相互独立。

解析:同时掷出两枚骰子的基本事件的总数为C61C61=36个, 由等可能事件概率的计算公式可知于是P (ABC) ≠P (A) P (B) P (C) , 故事件A, B, C不相互独立。

注:众所周知, 事件A1, A2……An中任意两个互斥, 则A1, A2……An彼此互斥, 但是通过本题可见, “互斥”不可能类比到“相互独立”上来, 即对于A1, A2……An中任意两个相互独立, 则未必有A1, A2……An相互独立。

五、相互独立事件与n次独立重复试验

n次独立重复试验有3个特征:

(1) 实验次数不止一次, 而是多次, 每次试验相互独立, 试验的结果互不影响, 即事件A在各次试验中的概率保持不变;

(2) 次试验的条件是相同的, 是重复性的试验序列;

(3) 次试验只有且只有两个事件A与并且这两个事件互斥。

因此在相同多次的试验中, 只要任意两次的结果不但相互独立而且只有事件A与出现, 那么相互独立事件问题就可以上升为独立重复实验来求解。

例5.某人射击依次命中目标的概率为0.5, 求射击6次恰有3次命中且无两次的概率。

解析:由于恰有3次命中目标且无两次连续命中目标共有C43=4个互斥事件, 而每个互斥事件是若干个相互独立事件的积, 所以恰有3次命中目标且无两次连续命中目标的概率为P6 (3) =4×0.53 (1-0.5) 3=116

注:在独立重复试验中, 事件A发生k次试验为Cnk互斥事件之和, 每个互斥事件是n个相互独立事件的积。事件发生k次, 其对立事件A发生了n-k次, 即每个互斥事件的概率为pk (1-p) n-k

六、古典概型和贝努里概型

(1) 古典概型的特征:

(1) 样本空间的元素 (即基本事件) 只有有限个, 不妨设为n个, 并记它们为, w1w2……wn

(2) 每个基本事件出现的可能性是相等的, 即有P (w1) =P (w2) =P (w3) =……P (wn)

(2) 贝努里概型的特征:试验E只有两个可能的结果A及, 并且 (其中0<p<1) , 把E独立的重复n次的试验构成了一个试验, 这个试验称作重贝努里试验或贝努里概型。

例6.在盒子中有10个相同的球, 分别标号为1, 2, 3, ……10, 从中任取一球, 求此球的号码为偶数的概率。

解:令i={所取球的号码为i}, i=1, 2, ……10, 则Ω={1, 2, ……10}故基本事件总数n=10, 又令A={所取球的号码为偶数}显然A={2}={4}={6}={8}={10}所以A中含有nA=5个基本事件, 从而

例7.某人有一串m把外形相同的钥匙, 其中只有一把能打开家门, 有一天该人酒醉后回家, 下意识地每次从m把钥匙中随便拿一只去开门。问该人在第k次才能打开家门的概率是多大?

解:因为该人每次从m钥匙把中任取一把试用后不做记号又放回, 所以能打开家门的一把钥匙在每次试用中被选中的概率为, 易知这是一个贝努里试验, 在第k次才把门打开, 意味着前面的k-1次都没有打开。于是由独立性即得:

P (第k次才把门打开)

七、全概率公式与贝叶斯公式

(1) 设B1, B2……是一列互不相容的事件, 且有则对任一事件A, 有这个公式称为全概率公式。

(2) 若B1, B2, ……为一列互不相容的事件, 且则对任一事件A有P (Bi|A)

例8.某工厂有四条流水线生产同一种产品, 该四条流水线的产量分别占总产量的15%, 20%, 30%, 35%, 又这四条流水线的不合格品率依次为0.05, 0.04, 0.03, 及0.02, 现在从出厂产品中任意取一件, 恰好抽到不合格品的概率为多少?

解:令A={任取一件, 恰好抽到不合格品}

Bi={任取一件, 恰好抽到第i条流水线的产品} (i=1, 2, 3, 4)

于是由全概率公式可得:

例9.用甲胎蛋白法普查肝癌,

令C={被检查者患肝癌}

A={甲胎蛋白检查结果为阳性}

C={被检查者未患肝癌}

A={甲胎蛋白检查结果为阴性}

由过去的资料已知, P (A|C) =0.95

P (A|C) =0.90

已知某地居民肝癌的发病率为P (C) =0.0004, 在普查中查出一批甲胎蛋白检查结果为阳性的人, 求这批人中真的患有肝癌的概率P (C|A) 。

解:由贝叶斯公式可得:

参考文献

上一篇:矿物特征下一篇:平面应力问题