混合概率分布

2024-08-13

混合概率分布（精选7篇）

混合概率分布篇1

摘要：在电网恢复过程中最后的负荷恢复阶段, 寻求全局优化的恢复方案通常都是NP完全问题。在综合考虑负荷恢复阶段中各种不同因素的基础上, 建立了基于多目标多约束组合优化的数学仿真模型, 并将参数可变的混合概率分布演化算法 (EABHPD) 引入到模型的求解。该算法通过改变分布函数的参数实现了负荷恢复问题求解精度与计算复杂度的折衷, 并且避免了演化算法在搜索遍历过程中陷入局部最优解而过早收敛的问题。仿真实验结果表明算法具有良好性能。

关键词：混合概率分布,求解精度,负荷恢复,全局最优

0引言

随着现代电网面临大面积停电事故带来的风险与损失不断增大, 电网安全已经成为国家安全的重要组成部分, 而事故后采取快速准确的措施恢复电网系统功能是国内外电力系统领域研究者关注的重要课题之一[1,2]。依据电力系统在恢复过程中各个时期的特点, 一般把恢复过程分成三个阶段:黑启动阶段、网络重构阶段和负荷恢复阶段。文献[3]对系统恢复过程中的负荷恢复问题进行了研究, 采用迭代算法对问题进行建模求解, 但由于在建模时的参数仅包括了系统的稳态频率约束条件, 显然求得解的精度不能得到保证, 在实际操作中按非精确解进行负荷恢复必然存在越限问题。更严重的是电网在恢复过程中的健壮性不高, 系统越限的存在加大了电网再次停电的可能性, 同时消除越限问题延长了系统的恢复时间, 也使得解的精度进一步降低, 进而恶化了系统恢复效率, 这个恶性循环成为负荷恢复的一大难题。文献[4,5]将遗传算法引入到负荷恢复阶段的求解过程, 基本消除了极限越界问题。但是, 遗传算法中变异算子参数的选择需要经验规则和反复的实验验证, 求得精确解的计算时间将随着解的精度呈指数提高, 而用户缺乏控制解的精度与计算时间的能力, 这使得算法的适用性受到了限制, 因为, 实际恢复过程中需要在规定时间内得到若干满足精度要求的可行解, 而不是长时间搜索获得唯一的最佳解。

本文针对电网系统恢复过程中第三阶段的负荷恢复问题, 综合考虑该过程中不同恢复目标的重要性后根据专家打分以及经验规则赋予它们不同权重, 并在此基础上将负荷恢复问题建模为多目标多约束条件的非线性组合优化问题。该类问题都是NP完全问题, 线性时间复杂度内无法获得精确解。演化算法[6]将生物界的遗传演化变异规则引入到NP完全问题的求解, 实践表明, 对于非线性组合优化问题演化算法在解空间的全局搜索能力优秀, 但是用户缺乏控制机制以平衡解的精度与时间复杂度两者之间的关系。基于这一点, 本文提出将高斯算子、柯西算子和t算子混合用于演化算法并应用到负荷恢复问题求解过程, 三种算子的全局搜索能力, 局部搜索能力各有不同, 可以通过t分布的自由度和方差两个参数来调节全局搜索能力和局部搜索能力, 进而控制解的精度与时间代价。

1负荷恢复问题的建模

1.1多目标函数

电网恢复过程在进行到第二阶段后, 新的系统网络框架应经形成, 第三阶段的主要任务就是在保证系统安全稳定的前提下尽可能多地进行负荷恢复。在电网恢复前, 各种负荷根据专家打分、实践经验以及社会影响因子设置了不同的权重 (例如医院、政府机关以及居民用电负荷应优先于普通生产用电负荷, 应尽早恢复) , 在第三阶段恢复前可以根据实际情况调整各种负荷权重。显然, 负荷恢复过程的另外一个目标是使恢复后的负荷权重之和尽可能大。由以上两条规则可列出系统负荷恢复时的多目标函数为:

${\begin{cases} Ζ 1 = m a x f (x) = \max \sum_{i = 1}^{n} \sum_{k = 1}^{j} c_{i k} w_{i k} x_{i k} \\ (n 个节点中 j 个开关闭合时总的负荷) \\ Ζ 2 = m a x f (w) = \max \sum_{i = 1}^{n} \sum_{k = 1}^{j} w_{i k} \\ (n 个节点中 j 个开关闭合时总的负荷权重) \end{cases}$

其中:xik —— 负荷布尔状态, 1 表示投入, 0表示未投入;

wik —— 负荷权值, 负荷越重要, 权值越大, 取值范围为1.0～1.5;

cik —— 开关xik 上的相应负荷量;

k —— 各节点待投入的负荷开关总数;

i —— 系统总的节点总数;

Z1——系统投入后的总负荷;

Z2——系统投入后的节点的总负荷权重, 其值小于等于1, 大于等于0。

1.2约束函数

负荷恢复阶段的主要约束条件是线路潮流不越限, 系统的稳态频率、电压必须保持在规程允许范围。因此, 针对上述多目标函数的约束函数包括以下几个方面[7]:

(1) 基于系统动态潮流方程的等式多约束函数

$\begin{array}{l} Q_{G i} - Q_{L i} (A_{Q} V_{i}^{2} + B_{Q} V_{i} + C_{Q}) (1 + Κ_{L Q i} ⊿ f) \\ = V_{i} \sum_{j = 1}^{n} V_{j} (G_{i j} \sin θ_{i j} - B_{i j} \cos θ_{i j}) \end{array}$

$\begin{array}{l} Ρ_{G i} (1 - Κ_{G i} ⊿ f) - Ρ_{L i} (A_{Ρ} V_{i}^{2} + B_{Ρ} V_{i} + C_{Ρ}) (1 + Κ_{L Ρ i} ⊿ f) \\ = V_{i} \sum_{j = 1}^{n} V_{j} (G_{i j} \cos θ_{i j} + B_{i j} \sin θ_{i j}) \end{array}$

其中i、j分别是相应的负荷以及它的开关数目。在经典的潮流计算中, 常常由于系统节点上功率的不断输入而超过平衡机组的额定功率, 进而影响计算结果的收敛性。但实际操作的经验说明, 电力系统的部分机组具有备用容量能动态调整进入系统的有功和无功, 负荷也能根据其自身电气特性改变其消耗功率, 这将增加系统对功率扰动的承受能力。因而计算所得的平衡节点仅具有参考作用, 而潮流的平衡性也能在更大的范围内得到了保证[9,10,11]。

(2) 不等式多约束函数

|⊿f|max≥|⊿f|表示恢复后系统的频率约束量应小于最大允许值;Vimax≥Vi≥Vimin表示节点的电压值应在规定区间内;Plmax≥Pl≥Plmin表示线路容量值应在规定的区间范围内。

2混合概率分布的演化算法求解

演化算法是对基于达尔文物竞天择机制的传统遗传算法的一种改造。演化算法的进化操作主要依赖基因突变, 它避开了二进制编码环节直接利用实数编码, 因此对问题的表述更加自然, 问题空间的搜索过程比较平稳。这一特点使得演化算法成为电网负荷恢复问题求解的有利工具。演化算法常用的变异算子包括高斯算子、柯西算子、莱维算子以及t算子等, 其中前两者最为常用。高斯算子的局部搜索能力较强, 柯西算子的全局搜索能力较强, 而t算子在其自由度可变的情况下能以任意精度逼近高斯算子和柯西算子。为了综合以上三者的优点, 本文采用三阶段混合变异的方案:第一阶段利用柯西算子进行全局搜索;第二阶段利用高斯算子进行局部搜索;第三阶段在多个目标区域利用t算子进行综合搜索。

2.1算法策略

(1) 编码方案

采用混合编码的方案, 对于开关量用0或1二进制表示, 对于负荷权重值采用实数直接编码方案。若负荷被恢复, 则其权重加入目标函数, 否则不被加入。

(2) 搜索策略

在开始的K1代中以柯西算子迭代搜索问题空间, 对于每一代中的个体比较与当前最优解的欧氏空间距离, 作为其个体适应度;对于最差的t个个体, 按其适应度的高斯分布函数打分确定其相对权重, 再依据“轮盘赌”的方式[6]决定淘汰其中的m个个体 (其中m<t) 。每隔n代, 将当前最优的若干解组成一个临时新种群Xi。从K1+1代到K2代开始用高斯算子在这些临时新种群Xi中分布搜索, 按照循环赛的方式进行随机竞争, 选取排在最前面的N个个体。保留第K2轮的N个个体, 在每个个体所在的一个局部解空间邻域展开第三轮搜索, 按照适应度函数得到最优解, 并结束搜索流程。

(3) 新种群的产生策略

不同于经典遗传算法, 个体的变异是演化算法的主要进化策略, 选择算子在搜索策略中也已用到。每个个体按照自身的适应度函数值, 在不同演化阶段分别按照柯西概率分布函数、高斯概率分布函数和t概率分布函数进行变异。比如在t概率分布函数的影响下第m+1代的第j个个体x $_{m + 1}^{j}$ 的变异函数为:

x $_{m + 1}^{j}$ = xjm+σm×Tj (n)

其中σm为t分布的方差, n为t分布的自由度。

(4) 适应度函数的设定

按照优化策略的一般原则, 将多目标函数与多约束函数融合为一个完整的适应度函数, 这样避免了选择多个适应度函数的难题[8]。本文将多目标函数融合为f (x) =w1×Z1+w2×Z2 (其中w1、w2为目标函数经过归一化后的经验值权重) , 潮流约束方程简写为g (xi) ≤0[4]。显然, 如果两个个体x1、x2有f (x1) >f (x2) 且g (x1) >g (x2) , 则个体x1优于x2。

2.2算法流程

(1) 参数初始化设置种群个体数目N, 随机竞争个体q, 最大进化代数Kmax, 按柯西算子进化的最大代数KC, 按照高斯算子进化的最大代数KG, 按照t算子进化的最大代数Kt (显然KC+KG+Kt≤Kmax) 。选取三种算子各自的参数, 特别是t分布的自由度n和方差σ作为变异尺度。

(2) 种群初始化在电网负荷恢复问题的可行解空间随机产生N个个体作为初始化种群X0;

(3) 演化终止判断在解的精度满足适用性的时候终止演化过程并输出计算结果;否则转到 (4) ;

(4) 变异产生新个体个体分别在三个阶段按照柯西分布、高斯分布和t分布进行变异, 而且三个算子的维度相互独立。前KC代的变异函数为:x $_{m + 1}^{j}$ = xjm+σc×Tj (nc) , 其中nc, σc为以t分布逼近标准柯西分布时的自由度和方差;中间KG代的变异函数为:x $_{m + 1}^{j}$ = x $_{m}^{j}$ +σG×Tj (nG) , nG和σG分别是以t分布逼近标准高斯分布时的自由度和方差;最后Kt代的变异函数为x $_{m + 1}^{j}$ = xjm+σm×Tj (nt) , nt和σm为t分布的自由度和方差;

(5) 重组x $_{m + 1}^{j}$ , x $_{m}^{j}$ 形成临时种群X’, 按照电网负荷恢复的目标函数与潮流方程综合计算X’中的适应度, 进行随机竞争, 按照轮盘赌的算法淘汰部分个体保留前N个个体组成新的一代种群Xm;

(6) m=m+1, 进行下一代的演化, 转到 (3) 。

3仿真实验与结果分析

本文以沧州地区电网负荷的一次恢复过程为例, 系统中包含的6个节点均为发电机节点数。根据该地区发电厂的实际情况以及负荷恢复的历史统计数据, 开始系统负荷恢复时的参数设置如下:原平衡节点第6个节点的发电机的输出有功功率为0.83, 输出无功功率为0.25, 系统中总的有功负荷为6.25, 总的无功负荷为1.18, 各个节点的权重值相等。以此状态作为系统开始恢复负荷时的初始状态。采用上述的算法, 优化的节点恢复次序以及开关序列的计算结果如表1 所示, 其中系统有100个负荷节点。

可投入的一级负荷的总量为2.57 , 可投入的总负荷量为5.63。每个负荷节点上尚待恢复的负荷量为节点现有负荷容量的25%～40%, 每个节点上的负荷开关的数目在2～9 之间随机生成, 每个负荷开关上的负荷量是在节点上的负荷开关数生成以后, 再把节点上待恢复的负荷量随机分配到各个负荷开关上, 负荷的功率因数取为0.8, 负荷权值在1.0～1.5 之间随机生成。采用上述混合概率分布的演化算法, 在JDK1.5的Eclipse环境中用Java语言编程实现, 硬件环境为AMD 4.4GHz双核PC机。本算例在文献[5]中已用经典遗传算法和模拟退火算法实现, 与本文基于混合概率分布算子的演化算法相比 (经典遗传算法进行20 次计算2000代后得到最优值) , 基于混合概率分布的演化算法找到这个最优值经过900代得到最优解, 其计算量在最好的情况下是经典遗传算法的45%, 而计算量在最坏的情况下是经典遗传算法的55%, 本文算法的平均时间复杂度为经典算法SEA的50%。图1和图2分别是EABHPD算法的性能以及两种算法的性能比较。

4结论

本文用多目标多约束的非线性组合优化方法来解决电力系统大停电后的负荷恢复问题。由于在搜索过程中负荷的权重也包含在待优化的目标函数中, 因而算法性能优于文献[4]提出的普通贪婪算法, 解的可行性与优化性都得到了提高。在演化算法的循环过程中, 每一代的个体都经过变异和相互竞争, 解的优良性提高速度大大增加, 而非优良解也以一定概率保留在种群中以提高种群变异改良的可能性。算法中将各种多个约束条件与多个目标函数分别融合在一起, 形成统一的约束函数与目标函数, 不仅避免了种群适应度函数多参数选择的困难, 也使求解过程的计算量有所降低。因此算法的设计保证了输出解是满足系统的潮流约束、频率偏移约束和过电压约束条件的, 按求得的解进行系统的负荷恢复可以保证系统是安全的, 不会出现系统的越限, 也不需要进行越限的消除, 可以有效地进行用户交互并提高负荷的恢复速度。

参考文献

[1]Lester H Fink, Liou Kan Lee, Liu Chenching.From generic restora-tion actions to specific restoration strategies[J].IEEE Trans.on Pow-er Systems, 1995, 10 (2) :745-752.

[2]房鑫炎, 郁惟镛, 熊惠敏, 等.电力系统黑启动的研究[J].中国电力, 2000, 33 (1) :40-43.

[3]周云海, 闵勇.负荷的快速恢复算法研究[J].中国电机工程学报, 2003, 23 (3) :74-79.

[4]张志毅, 陈允平, 刘敏忠, 等.用改进遗传算法求解电力系统负荷恢复[J].华中科技大学学报:自然科学版, 2007, 35 (7) :102-104.

[5]张志毅, 陈允平, 袁荣湘.电力负荷恢复问题的混合遗传算法求解[J].电工技术学报, 2007, 22 (2) :105-109.

[6]云庆夏.演化算法[M].北京:冶金工业出版社, 2000.

[7]杨秀霞, 张晓锋, 张毅.基于加速遗传算法的舰船电力系统故障恢复[J].电工技术学报, 2005, 20 (5) :53-57.

[8]Zhao Bo, Guo Chuangxin, Cao Yijia.Optimal power flowusing parti-cle swarm optimization and nonstationary multi-stage assignment penal-ty function[J].Transactions of China Electrotechnical Society, 2005, 20 (5) :53-57.

[9]Adibi MM, Borkoski J N, Kafka R J.Analytical tool requirements forpower system restoration[J].IEEE Trans.on Power Systems, 1994, 9 (3) :1582-1591.

[10]Huang J A, Audette L, Harrison S.A systematic method for powersystem restoration planning[J].IEEE Trans.on Power Systems, 1995, 10 (2) :869-875.

[11]Jerry J Ancona.A framework for power system restoration following amajor power failure[J].IEEE Trans.on Power Systems, 1995, 10 (3) :1480-1485.

混合概率分布篇2

关键词：EXCEL,概率统计,概率分布

Excel是美国微软件公司office办公套装中的重要组件之一, 不仅具有强大的表格处理功能而且还具有完善的统计功能。它使得原本需要复杂的统计运算才能得出的结果, 却由计算机快速而准确地计算完成, 本文介绍如何运用EXCEL来处理统计学中的概率及概率分布的相关问题。

一、概率及概率分布的基本知识

概率, 又称或然率、机会率或机率、可能性, 是概率论的基本概念, 是一个在0到1之间的实数, 是对随机事件发生的可能性的度量。表示一个事件发生的可能性大小的数, 叫做该事件的概率。人们常说某人有百分之多少的把握能通过这次考试, 某件事发生的可能性是多少, 这都是概率的实例。如果一件事情发生的概率是1/n, 不是指n次事件里必有一次发生该事件, 而是指此事件发生的频率接近于1/n这个数值。什么是概率分布呢, 简单的说, 概率分布是用以表述随机变量取值的概率规律, 由随机变量的取值 (x) 及其相应的P (x) 概率构成。

(一) 两个重要参数介绍。

在我们分析概率及概率分布时, 必须要计算出二个参数值。一是均值, 在数值上等于随机变量的各个取值与其相应的概率的乘积, 二是方差, 它是随机变量的各个取值与均值E (x) 之间离差平方的均值。按随机变量取值的特点, 概率分布可分为离散型随机变量的概率分布和连续型随机变量的概率分布。

(二) 常见的概率分布的介绍。

在数理统计中, 概率分布有很多种, 本文只介绍三种最常见的分布形态:

1. 二项分布。

它是描述随机现象的一种常用概率分布形式, 因与二项式展开式相同而得名。在概率论与统计学中, 二项分布属于离散概率分布, 它用于计算在n次相同条件的试验中, 出现k次“成功” (或“失败”) 的概率P (x=k) 。

2. 泊松分布。

泊松分布也是属于概率论与统计学里常见的离散型概率分布, 它适合用于描述单位时间内随机事件发生的次数, 如某一服务设施在一定时间内到达的人数, 电话交换机接到呼叫的次数, 汽车站台的候客人数, 机器出现的故障数等。

3. 正态分布。

正态分布在统计学与概率论中是非常重要的一个概率分布, 属于连续型随机变量的分布, 在自然界和社会现象中, 大量随机现象都服从或近似于正态分布, 它具有几个重要特征:一是正态分布是个对称分布, 对称轴为x=μ。二是当x=μ时, 正态概率的密度最大。三是当σ为定值时, μ的变化引起正态概率密度曲线在横轴平行移动。四是当μ为定值时, σ的变化将引起正态概率密度曲线的形状变得尖峭或偏平。

二、用EXCEL计算概率及概率分布实例

在EXCEL中, 运用各种函数能够轻松地对概率及概率分布进行计算, 下面通过几个实例来进行证明。

(一) 二项分布概率的计算。

例:假定某一足球队员在12码线罚球的命中率为75% (即P=0.75) , 求罚球4次命中2次的概率。

解:操作步骤如下:

一是打开Excel的“插入”菜单, 选择“函数”选项, 打开“粘贴函数”对话框。

二是在“函数分类”列表中选择“统计”, 在“函数名”列表中选择二项分布函数BINOMDIST。单击“确定”按钮, 打开二项分布函数对话框。

三是根据题意得知, 成功次数为2, 试验次数为4, 成功概率为0.75, 使用概率分布函数 (False) , 将这些已知资料填入对话框中, 单击“确定”按钮, 得知罚球4次命中2次的概率为0.21。

(二) 泊松分布的概率计算。

例:假定某电话总机每分钟收到的呼唤次数服从参数为3的泊松分布, 求在1分钟内恰有2次呼唤的概率是多少?

解:操作步骤如下:

一是选中计算结果所在的单元格。

二是单击“插入函数”按钮, 选择“POISSON”函数, 在弹出“函数参数”的对话框中依次输入参数2, 3, false, 如图2所示:

X:事件出现的次数;

Mean:期望值 (λ) ;

Cumulative:如果为“true”, 函数POISSON返回P{X≤k (X) }的概率;如果为“false”函数POISSON返回P{X=k (X) }的概率。

三是单击“确定”按钮, Excel计算的泊松分布概率为:0.224。

(三) 正态分布概率的计算。

例:设随机变量ξ～N (1, 4) , 求P (0≤ξ≤1.6) 。

解:操作步骤如下:

一是选中计算结果所在的单元格。

二是单击“插入函数”按钮, 选择“NORMDIST”函数, 在弹出“函数参数”的对话框中依次输入参数1.6, 1, 2, true, 如图3所示。

X:输入需要计算概率的数值;

Mean:分布的期望;

Standard_dev:分布的标准偏差;

Cumulative:如果为“true”, 函数EXPONDIST返回累积分布函数;如果为“false”函数EXPONDIST返回概率密度函数。

三是单击“确定”按钮, Excel计算的P{ξ≤1.6}的概率为:0.617911。

四是按上述操作用Excel算出P{ξ≤0}的概率为:0.309374, 所以得出P{0≤ξ≤1.6}=0.308538。

三、结语

EXCEL是目前最适合辅助统计学教学的一款软件, 它虽然在功能上不及专业统计软件强大, 但完全能满足教学的需要, 最重要的是EXCEL易学易懂, 普及化程度高。EXCEL在教学中的使用, 不仅节省了大量时间, 而且丰富了教学内容, 使一些比较抽象的问题具体化, 复杂的运算简单化, 使繁琐、枯燥、难学的统计课程变得更加有趣。

参考文献

[1].申兆光.Excel在统计学教学中的应用探讨[J].现代商贸工业, 2008

[2].刘博雷, 刘叔才, 葛利荣.浅谈Excel2007统计功能在经济预测决策中的应用[J].经济师, 2010

混合概率分布篇3

1 何谓“弱小目标”

“弱”和“小”指的是目标属性的两个方面。所谓“弱”是指目标红外辐射的强度, 反映到图像上是指目标的灰度, 即低对比度的目标, 也称灰度小目标;所谓“小”是指目标的尺寸, 反映到图像上是指目标所占的像素, [1]即像素点少的目标, 也称能量小目标。

自然背景的变化一般都比较平缓, 且背景像素之间的灰度是相关的, 因此弱小目标可以看作是平缓背景中的孤立奇异点, 对应于图像中的高频部分。在低信噪比的情况下, 检测和跟踪弱小目标时的难点在于:对比度低、信号强度弱, 以至于很难从单幅图像中检测出目标;目标可能会突然出现或消失;缺乏形状、大小、纹理等目标特征。

2 弱小目标检测与跟踪算法概述

红外弱小目标的检测与跟踪算法主要分为两大类:跟踪前检测 (Detect Before Track, DBT) 和检测前跟踪 (Track Before Detect, TBD) 。经典的小目标检测与跟踪方法是DBT, 即先根据检测概率计算出检测门限, 然后对每帧图像进行分割, 并将目标的分割结果和目标的运动轨迹关联, 最后进行目标跟踪。DBT算法适应于信噪比较高的情况, 因为在低信噪比情况下获得的目标和背景的灰度相差不大, 进行分割时, 检测门限过高有可能造成目标丢失, 检测门限过低会把一部分背景当成目标。DBT算法流程图如图1所示, DBT算法常采用的方法有:小波分析方法、背景抑制方法、基于变换的方法、门限检测方法。

为了提高复杂背景下的红外弱小目标的检测性能, 基于先跟踪后检测的目标检测算法被提出来。其基本思想是:先不判断单帧图像中有没有弱小目标, 对图像中运动目标的轨迹进行跟踪, 然后根据检测概率和信噪比计算出检测门限, 再用它对各条轨迹进行检测判决, 得到真实的运动弱小目标。TBD目标检测算法的流程如图2所示。

TDB方法概况起来包含三个步骤:

(1) 背景抑制:通过高通滤波将红外图像低频和高频部分进行分离, 尽可能抑制原始图像中的低频背景杂波干扰, 提高信噪比。

(2) 可疑目标跟踪:将滤波后的图像利用相邻几帧中目标的运动信息来进行分割, 得到一些可能的弱小目标。[2]

(3) 目标检测:利用运动的弱小目标的运动特性, 进一步剔除虚假目标, 从可能的目标中检测出真正的弱小目标。

3 基于局域概率分布的红外弱小目标检测

在目标的局部范围内, 背景变化一般不太剧烈, 目标和邻域背景的对比明显, 因而, 目标点像素灰度值与局域像素灰度和的比值较大。通过在局域灰度概率分布图上对较大概率值的检测可以实现对应小目标的检测。

设为序列图像中某一帧图像中点处的灰度值, 以为中心的局域内, 定义为点的灰度值与局域内总灰度值的比值, 即称为该点的局域灰度概率, 点局部范围之内所有点的局域灰度概率之和为1。

一般而言, 在以为中心的局域内, 当灰度分布均匀时, 当小于周围像素点的灰度值或是局域内有其他灰度值较高的像素点时;当高于其邻域内其他像素时, 且该像素越高, 越大。因此, 通过计算、比较的大小可以检测平滑背景中的孤立奇异点。

利用小目标的运动特性对伪目标进行剔除, 原理如下:当目标在图像上只占1~3个像素时, 其移动速度一般小于1像素/帧, 会在邻域中连续出现;而噪声是随机的, 其移动速度大于1像素/帧, 而且不可能在某邻域内连续出现。

基于局域概率分布的小目标检测的具体步骤如下:

(1) 计算序列图像中某一帧图像各像素点的局域灰度概率值, 得到该幅图像的局域概率分布图;

(2) 设定阈值, 提取图像中的孤立奇异点 (小目标点和噪声点同时被提取, 需要通过步骤3提取目标、驱除噪声) ;

(3) 剔除伪目标:如果某一奇异点在连续的n内连续出现t次, 则认为该奇异点为目标点, 否则认为是伪目标。

4 实验分析及结论

本文采用的红外弱小目标图像是在红外背景图像上嵌入弱小目标得到的合成图像, 图像大小为244×320像素。其中, 背景为天空, 弱小目标为1~3个像素点。背景变化相对比较平缓, 选择局域进行概率分析, 得到其局域概率分布图。然后对概率分布图进行高通滤波, 增强目标点的局域灰度概率值。再对灰度概率分布图进行阈值处理, 得到包括伪目标在内的检测图, 并根据上面的伪目标剔除原理剔除伪目标确认最终的检测目标。图a、图b、图c分别是待检测的图像、经过高通滤波后的图像的局域概率灰度三维图和最终检测的结果。从上图可以看出, 局部概率统计方法对平缓背景下的红外弱小目标检测具有较好的效果, 滤除了大部分的相关背景和弱边缘。除此之外还有很好的实时性, 在matlab R2008a环境下对图a的检测时间为0.441016s。

参考文献

[1]张长城, 杨德贵, 王宏强.红外图像中弱小目标检测跟踪算法研究综述[A].激光与红外, 2007, 37 (2) :104-107

条件概率分布与巴格达的贼篇4

在《概率统计》这一门课程中, 关于条件概率分布这一部分内容, 一般同学都觉得有些困难.然而该内容, 无论是在实际应用, 还是在概率论的深入学习方面都是必不可少的, 为此本文通过求解巴格达的贼的问题, 引入条件概率分布, 条件数学期望和全数学期望公式。随后利用这些工具, 圆满地解决了巴格达的贼问题。本文旨在帮助学生化解这一数学难点。

2 巴格达的贼的问题

巴格达是伊拉克的首都, 它以石油和古巴伦历史文化为骄傲。近年来又以战乱抢劫偷盗闻名于世。据悉, 此地的盗贼猖獗由来已久, 分析贼的处置可归结为如下数学模型。

把巴格达的贼关进一座有三扇门的地牢, 其中一扇通过一个短地道, 通过这一地道走一天后又返回地牢。另一扇门通过另一个长地道, 通过该地道走三天仍回地牢。第三扇门通向自由。假定地牢很暗, 贼想逃走是等可能地选择每扇一门, 试求贼被投狱的平均天数 (从他第一次选择某扇门的时刻算起, 直到他选择了通向自由门的次数为止) 。

易知贼人没有死罪, 而在地牢中呆的天数要看他的运气, 只有求出平均被投狱天数才可以比较对其的惩罚力度。

3 条件概率分布

设ξ, η 是离散型随机变量。即

其中, i, j∈N U{0}, N为自然数集,

不妨设pi>0, qj>0, i, j∈NU{0},

令P{ξ=xi, η=yj}=pij

于是

由条件概率定义知

简记p (j|i) =P {η=yi|ξ =xi}, 即称为在条件ξ =xi的条件下, 随机变量η的条件分布列。

称为在的条件下, 随机变量的条件分布函数。

例设ξ 是取值{0, 1, 2} , η 是取值为{0, 1} 的二维随机变量, (ξ, η) 的概率如表1 所示:

求其条件分布列。

解:由随机向量 (ξ, η) 的概率函数可算出其边际分布列

由条件分布列定义知:

当i=0时, 则

当i =1时, 则

当i =2时, 则

同理还可求得, 当j =0 时, 则

当j =1时, 则

当然也可以写出其条件分布函数, 此处从略。

对于离散型随机变量, 由其分布列可定义描述其取集中位置的数学特征, 即数学期望。类似地, 由离散型随机变量的条件分布, 也容易引进其条件期望的概念。在一个可数的样本空间里, 考虑一个值域为{yi}的随机变量η与一个事件A, p ( A) >0, 值域为{yi}, 假定η的数学期望存在, 则它相对于事件A的条件期望自然地定义为

因此, 只是在公式中把概率换成了条件概率.上式中的级数是绝对收敛的。如果取A ={ξ=xi}, 就得到

E (η|ξ=xi) 。由全概率公式, 又有

用yi乘上式, 对j求和并将二重级数的项排列, 得到

类似于全概率公式, 称上式为全数学期望公式, 它也非常有用。

4 巴格达贼问题的解

贼的每次选择, 可以看成是一次试验。设随机变量ξi表示第i次选择至第i +1次选择时贼在地牢中逗留的时间。

其中ξi= 0表示贼选择通向自由门, ξi= 1表示贼选择通向短地道门, ξi= 2表示贼选择通向长地道门。并假定每次试验是独立的、同分布的。令

则sn表示贼从第一次选择一扇门时刻起, 到第n +1次选择通向自由门为止被关押的天数。由全数学期望公式, 则平均天数

可知, 若贼选择通向自由的门, 则在此条件下, 之后被关押的天数为0, 即E (sn|ξ1=0) = 0。

所以

由上面所得的递推公式, 再用ξi的独立分布的性质及数学期望的可加性得

令n → ∞得 (天) 。

得到巴格达的贼被投入监狱的平均天数仅为短短4 天, 如此低的代价使得在巴格达盗贼非常猖厥.

参考文献

[1]Y.S.Chond, H.Teicher.Probability Theory[M].Berlin:Springer-Verlag, 1978.

[2]E.Parzen.Stochastic Processes[M].San Francisco:Calif Holden-Day, lnc., 1962.

混合概率分布篇5

由于污染物在地表水环境中进行的物理、化学、生物过程是随机的, 监测数据处理过程中存在一定的随机不确定性, 评价类别、评价标准存在着模糊性, 因此, 地表水环境评价不可避免具有随机性和模糊性。目前水质评价的方法有很多, 例如综合指数法[1]、模糊数学法[2]、灰关联分析法[3]、人工神经网路[4]等。本文提出一种考虑指标概率分布的水质评价方法, 将监测值与标准值放一起进行概率分布统计, 并在计算过程中考虑主、客观信息一致化的组合权重, 为地表水水质评价提供参考和依据。

1 评价指标及评价标准

以大沽河主河道9个监测断面[5]为例, 监测项目主要包括pH、温度、电导率、DO、高锰酸盐指数、五日生化需氧量、挥发酚、石油类、化学需氧量、总磷、氨氮、铜、锌、镉和铬。根据大沽河干流水质现状, 从中选取高锰酸盐指数、五日生化需氧量、挥发酚、石油类、化学需氧量、总磷、氨氮7项指标作为水质评价指标, 如表1所示, 指标值为2004年各项指标平均值。

mg/L

根据《地表水环境质量标准》 (GB 3838-2002) , 将水质分为5级, 水质分级标准见表2。

2 评价指标概率分布

考虑到地表水环境评价具有随机性和模糊性, 拟采用概率统计学理论对其进行研究。将指标监测值和标准值统一放一起作样本考虑, 采用水文中常用的经验频率公式切哥达也夫公式[6]对评价指标进行标准化处理。在经验公式中, 越大越优型指标按从大到小顺序排序, 越小越优型指标按从小到大顺序排序, 对于中间型指标按距最优值距离从小到大顺序排序。

mg/L

式中:pij为指标标准化后的值;ni为第i个指标排序顺序;Ni为第i个指标样本总个数, 本例为14。

标准化后结果见表3。

3 组合权重确定

某一指标组合权重的确定包括两个部分:一部分反映专家的经验、知识的主观权重W1=[w1 (1) , w1 (2) , …, w1 (m) ], 专家在确定指标权重时, 较多地是从指标本身的经济意义 (或技术意义) 来考虑其重要性[7], 主观权重采用有序二元比较法[8];另一部分反映指标所传递信息量大小的客观权重W2=[w2 (1) , w2 (2) , …, w2 (m) ], 客观权重是根据各指标间的差异程度及相关关系确定指标的重要性, 权重具有很强的客观性, 这里采用熵值法确定各指标的客观权重, 其计算过程如下:

(1) 数据标准化。

对于越大越优型指标为:

对于越小越优型指标为:

对于固定型指标, 一般可令:

式中:xj*为第j个指标的最佳稳定值。

(2) 熵值ej计算。

(3) 熵权计算。

综合各指标的主观权重W1和客观权重W2可以得到组合权重W=[w (1) , w (2) , …, w (m) ]。W与W1, W2均应尽可能地接近, 根据最小相对信息熵原理[9], 为此构造如下最优化模型:

用Lagrange乘子法求解上述最优化问题得:

主观权重来自参考文献[10], W1= (0.183 0, 0.202 2, 0.149 4, 0.067 3, 0.067 3, 0.165 4, 0.165 4) , 通过式 (2) ~ (7) 计算客观权重, W2= (0.151 4, 0.161 1, 0.142 3, 0.086 9, 0.098 7, 0.177 7, 0.181 8) , 通过公式 (10) 计算组合权重, W= (0.167 2, 0.181 3, 0.146 4, 0.076 8, 0.081 9, 0.172 2, 0.174 2) 。

4 综合评价

在评价指标数据标准化处理及组合权重确定后, 采用下式计算:

令地表水环境质量标准Ⅰ级为等级1, Ⅱ级为2, Ⅲ级为3, Ⅳ级为4, Ⅴ级为5。若检测值的评价结果位于两级状态等级之间, 则采用线性插值的方法计算其状态等级, 见表4。

基于指标概率分布水质评价结果与模糊综合评价、灰色关联分析评价结果进行对比, 见表5。

在进行指标概率分布水质评价中分别采用熵权和组合权重进行分析, 发现两种方法除监测断面序号5和9即后沙湾庄和斜拉桥监测断面水质类别有区别外, 其他监测断面水质类别一致。表5中4种地表水水质评价方法所得结果可知, 由于方法和权重选取的不同, 个别监测断面存在评价结果不一致, 但总体趋势基本一致。可见, 基于指标概率分布的水质评价是可行的, 评价结果是可信的。

5 结语

基于指标概率分布理论对大沽河干流水质进行综合评价, 结论如下:

(1) 基于指标概率分布水质评价方法原理简单, 计算简洁, 可操作性强。

(2) 针对主、客观赋权各自优缺点, 引入组合权重, 兼顾专家赋权的偏好性, 同时又力争减少赋权的主观随意性, 使赋权达到主观与客观的统一, 进而使评价结果更加真实、可靠。

(3) 该方法具有一定的科学性和创新性, 为地表水水质评价提供了一条新的途径。此外, 该方法还可应用于环境评价、水资源评价、多目标决策等方面, 具有一定的推广前景。

摘要：水质信息是水质管理的基础, 正确评价水质状况显得尤为重要。将水文经验频率公式引入水质评价中, 将评价指标监测值与标准值采用经验频率公式进行数据标准化, 且与组合权重有机结合后得出水质评价结果。该方法应用到水质评价中, 并与模糊综合法和灰色关联分析法比较, 得出该方法计算简单, 评价结果合理可靠, 具有一定的科学性和创新性, 有一定的推广前景。

关键词：概率分布,水质评价,标准化,组合权重

参考文献

[1]陈仁杰, 钱海雷, 袁东, 等.改良综合指数法及其在上海市水源水质评价中的应用[J].环境科学学报, 2010, 30 (2) :431-436.

[2]陈娟, 李杰, 朱秋菊.基于组合权重的模糊数学法在水环境质量评价中的应用[J].珠江现代建设, 2013, (1) :12-14, 33.

[3]张春洁, 金鑫.灰关联分析法在大辽河营口段生态供水水质评价中的应用[J].吉林水利, 2013, (5) :46-49.

[4]朱长军, 李文耀, 张晋.人工神经网络在水环境质量评价中的应用[J].工业安全与环保, 2005, 31 (2) :27-29.

[5]周贵忠, 张金恒, 王军强, 等.利用模糊数学评价大沽河干流水质的研究[J].农业环境科学学报, 2010, 29 (增刊) :191-195.

[6]黄振平.水文统计学[M].南京:河海大学出版社, 2003.

[7]牛东晓, 张弛.基于组合权的灰色关联分析在供电企业营销效果综合评价中的应用[J].技术经济与管理研究, 2007, (5) :55-57, 61.

[8]陈守煜.水资源与防洪系统可变模糊集理论与方法[M].辽宁大连:大连理工大学出版社, 2005.

[9]朱雪龙.应用信息论基础[M].北京:清华大学出版社, 2001.

混合概率分布篇6

关键词：极值风速,概率模型,参数估计,优度拟合检验,辽宁省,沿海地区

辽宁省海岸线东起鸭绿江口西至绥中县的老龙头, 全长2 294.4 km, 占全国海岸线长的12%。大风灾害是辽宁沿海地区最严重的气象灾害之一, 夏季的台风和冬季的寒潮是造成该地区出现大风的主要因素。由于辽宁沿海地区经济比较发达, 大风造成的危害是非常严重的[1]。大风不仅自身具有巨大的破坏性, 还会带来严重的次生灾害, 威胁人民的生命财产安全, 甚至影响社会稳定和经济发展。同时, 大风也是工程建设与规划中必须慎重考虑的气象要素。因此, 研究辽宁省沿海地区极值风速的概率分布特征, 对于该地区大风灾害防御工作有重要意义。

本文基于经典极值理论的GEV模型, 利用辽宁省沿海地区国家气象站的风观测资料, 对该地区极值风速的概率分布特征进行统计分析。

1 资料与方法

1.1 资料

本文的极值风速是指年最大风速, 最大风速是指给定时段内10 min平均风速的最大值, 年最大风速由风自记资料统计获得, 而风自记资料来源于辽宁省气象档案馆。共选取辽宁省沿海地区16 个站的资料, 时间范围为1980—2014年。抽样采用AM法 (Annual Maximum) , 即每年取一个最大值组成一个新序列。

1.2 GEV模型及其参数估计

经典极值理论起源于1928 年Fisher和Tippett的研究, 自20 世纪30 年代开始, 极值理论在气象、水文、地震、保险等领域得到了广泛的应用[2,3,4]。

根据Fisher—Tippett的极值类型定理, 设x1, x2, …, xn是独立同分布的随机变量序列, 其极值的渐进分布趋于下列3种极值分布类型中的一种, 即极值Ⅰ型 (Gumbell分布) 、极值Ⅱ型 (Fréchet分布) 、极值Ⅲ型 (Weibull分布) 。

上述3 种模型得到了广泛的实际应用, 但在应用中发现有一个难点, 就是对于给定的极值序列, 很难确定该极值序列的分布是上述3 种分布的哪一种。如果分布类型选择不当, 将会导致严重的偏差。1955 年, Jenkinson提出了广义极值分布模型 (Generalized Extreme Value Distribution, 简称GEV) , 解决了这个难题。他将上述3 种类型的分布函数统一成一种形式, 广义极值分布的分布函数为:

式 (1) 中, α 为尺度参数, α>0;β 为位置参数, -∞<β<∞;k为形状参数, -∞<k<∞, 也称k为GEV分布的极值指数 (EVI) , k值的大小决定GEV分布的具体类型:当k=0 时, F (x) 为Ⅰ型极值分布, 即Gumbell分布;当k<0 时, F (x) 为Ⅱ型极值分布, 即Fréchet分布;当k>0 时, F (x) 为Ⅲ型极值分布, 即Weibull分布;GEV分布参数估计的方法包括极大似然估计法、矩估计法、概率加权矩法、L-矩法等, 本文采用L-矩法来估计极值分布的参数。L-矩法是由Hosking在概率权重法的基础上发展起来的, 其参数估计精度与极大似然法相当, 且统计方法较简单, 最大特点是对序列的极大值和极小值没有长规矩那么敏感, 其求得的参数估计值的稳健性较强[5]。

对于给定的样本长度为n的序列x1, x2, …, xn, 将样本按照从小到大的顺序排列, 即x (1) ≤x (2) ≤…≤x (n) , 则样本的前三阶矩可以如下计算[6]:

GEV分布参数的估计公式为[7]:

1.3 拟合优度检验

拟合优度检验有多种方法, 本文选取Kolmogorov-Smirnov (K-S) 检验法来进行拟合优度检验, 由于K-S法不是分区间来检验样本得到经验分布函数Fn (xi) 与理论分布F (xi) 之间的偏差, 而是对每一点都检验Fn (xi) 与F (xi) 之间的偏差, 因此, K-S检验法相对比较准确。

假设理论分布函数F (x) , 根据样本数据计算的经验分布函数Fn (x) , 检验统计量D=MAX|Fn (x) -F (x) |。Dα (n) 为给定的显著性水平 α 下, 样本量为n时的K-S检验的临界值, 可以通过查K-S临界值表获得。如果D<Dα (n) , 则认为样本所在的总体分布在显著性水平 α 下与理论分布F (x) 无显著差异, 理论分布与样本数据拟合良好。

本研究所有站点的样本长度均为35 年, 这样, 在显著性水平为0.01 下, K-S临界值为0.27。

1.4 重现期估算

重现期极值风速的估算是工程设计的一个重要参数, 也是研究极值分布特征的重要目的之一。重现期是在一定年代的记录资料统计内, 大于或等于某量级的要素出现一次的平均间隔时间。它是概率意义上的徊转周期, 本质是概率分布右侧的小概率问题。对于GEV分布, 重现期T年下的极值估算可采用下式[8]:

2 结果与分析

利用16 个站点的最大风速资料, 进行了GEV分部模型拟合, 计算得到的GEV模型参数估算值和K-S检验统计量列于表1 中。可以看出, 所有站点的K-S检验统计量均小于其临界值0.27, 全部通过了柯尔莫科洛夫检验, 表明辽宁省沿海地区极值风速符合GEV分布。

图1 给出了葫芦岛、盖州、旅顺、皮口4 站点的GEV概率分布模型拟合情况, 通过累积频率理论值与经验值的对比图可以看到模型拟合效果良好。

注:a为葫芦岛, b为盖州, c为旅顺, d为皮口。

GEV形状参数值的大小决定分布的类型, 由表1 可知, 大洼、皮口、东港的形状参数值小于0, 其他13 个站点的形状参数值均大于0, 说明辽宁省沿海地区极值风速分布多服从极值Ⅲ分布。

从表2 可知, 在15 年重现期下, 极值风速在12.5~27.8m/s之间; 在30 年重现期下, 极值风速在16.1~24.4 m/s之间;在50 年重现期下, 极值风速在16.4~30.6 m/s之间;在100 年重现期下, 极值风速在16.8~31.8 m/s之间。在这16个站中, 旅顺在不同重现期下的极值风速是最大的, 而绥中则是最小的。

3 结论

辽宁省沿海地区极值风速符合GEV分布, 从GEV形状参数值的大小看, 该地区极值风速分布多服从极值Ⅲ型分布。辽宁沿海地区不同站点重现期下的极值风速变化很大, 其中, 旅顺在不同重现期下的极值风速最大, 而绥中则最小。

参考文献

[1]孟莹.辽宁大风气候特征及风能资源分析[D].南京:南京信息工程大学, 2005.

[2]李明辉.极值理论在气象中的应用[D].扬州:扬州大学.2010.

[3]王灿.基于极值统计的洪水频率分析模型及其应用研究[D].长沙:湖南师范大学.2013.

[4]柳会珍.统计极值理论及其应用研究进展[J].统计与决策.2006, 8 (1/2) :150-153.

[5]蔡敏.L-矩估计方法在极端降水研究中的应用[J].气象科学, 2007, 27 (16) :597-603.

[6]佘敦先, 夏军, 张永勇, 等.近50年来淮河流域极端降水的时空变化及统计特征[J].地理学报, 2011, 66 (9) :1200-1210.

[7]金光炎.水文水资源计算务实[M].南京:东南大学出版社.2010.

混合概率分布篇7

关键词：加速度传感器,信号预处理,区间分布概率矩阵,动态手势识别

基于动作传感器的人机交互不受光线遮挡和角度限制,测量单元易于嵌入片上系统,并且更接近于自然交互方式,基于动作传感器的人机交互已成为当前该领域的研究热点[1,2]。业界对基于加速度传感器的动作识别方法开展了大量的研究,基于隐马尔可夫模型[3]、模糊神经网络[4]、模版匹配[2,5]等识别方法被广为关注和研究。但因这些识别方法的算法复杂度偏高,手势识别的动态实时性和识别率不理想,这些方法难以满足手势在线识别的要求。

本文提出一种基于区间分布概率矩阵模型的在线快速手势识别方法,其主要优点是:(1)把大量工作转移到模型建立和模型优化上面,而这些工作完全可以在PC机上完成。(2)在线识别系统中没有大量复杂计算公式、递归运算和模版库的存储,极大地提高了动态实时性;(3)识别率高,实用性强。通过对日常生活中常做的12种单笔画手势[6]动作的在线识别,验证了该识别方法具有很高的人机交互实时性和较强的实用性。

1 手势识别系统整体架构

手势识别系统流程如图1所示,首先利用样本数据在PC机上建立和优化区间分布概率矩阵模型。利用戴在手指上的可穿戴数据采集和发送模块采集手势动作的三维加速度信号,由接收、处理和识别模块对信号进行预处理、提取和检测X、Y和Z轴的观测点数据、输出观测序列,然后利用建立好的区间分布概率矩阵模型进行手势识别,显示识别结果。

2 信号预处理

2.1 动作数据自动检测和归一化处理

通常用户完成一个动态的手势动作会经历三个阶段:开始阶段、动作阶段和停止阶段。利用此特点可在连续的加速度数据流中检测出手势识别过程所需要的动作阶段加速度数据流。

本文设计了一个可通过设置门限阈值自动检测手势动作阶段加速度数据流的滑动窗口。在手势的开始和停止阶段,加速度数据流可用常量表示。在手势的动作阶段,加速度数据流会产生明显的变化。设A(t)=[ax(t),ay(t),az(t)]为t时刻采集的三轴加速度数值。Threshold为设置的门限阈值。将A(t)和前n个采样点逐个进行比较,若‖A(t)-A(t-n)‖≥threshold,则可判断t时刻的采样点A(t)为动作阶段的数据点,这样即可检测包含运动信息的动作阶段的数据点。

在实际数据检测中,设置2个阈值(开始阈值和结束阈值),较大的开始阈值有利于滤除噪声数据,较小的结束阈值可以确保动作阶段数据传输的完整性[7]。

由于人的手势动作幅度不固定,尤其是不同人做同一个手势动作时,加速度数据幅度相差比较大,所以必须对采集的手势动作加速度数据进行归一化处理,以降低手势动作加速度数据幅度变化差异对识别结果的影响,从而可以降低识别难度,提高识别精度。本文采用的是线性函数转换法,yi=(xi-Min Value)/(Max Value-Min Value)其中xi、yi分别为样本中第i个点处转换前、后的值,MaxValue、Min Value分别为样本中的最大值和最小值。

2.2 插值法归整数据采样频率

由于不同人完成同一种手势动作的快慢不同,而且同一个人完成同一种手势动作的快慢也不尽相同,而系统的采样频率是固定的,相同的手势动作如果完成快,则采集的数据点较少;反之,如果完成速度慢,则采集的数据点较多。这样就增加了识别难度,但是,对于同一种手势动作,无论采集到的数据点多少,它的整体变化规律是相似的。为了简化识别过程,降低识别难度,本文通过插值法把一个完整手势动作数据点扩充到同一长度来消除人为速度干扰因素对识别率的影响。

本文采用三次样条插值法[8](简称spline插值)对手势动作数据点进行扩充。三次插值法既保留了分段低次插值多项式的简单、稳定和收敛等优点,又提高了插值函数的光滑性,从而不会造成原始数据失真。插值效果如图2所示。

3 PC机建立区间分布概率矩阵初始模型

3.1 特征区间提取

3.1.1 观测点的选择

在经过本文上述数据预处理之后,所有手势动作加速度数据长度标准化为H0=50。本文选择加速度值作为特征量,所以需要确定一些特定的观测点(即需要确定一些特定的采样点)来提取不同手势的加速度信息。在选择观测点时,尽量做到在同一个观测点处,相同手势动作的加速度数值变化幅度较小。以X轴为例,根据手势在X轴上加速度数据的特征分布,选取K个观测点:O1,O2,…,Ok。

3.1.2 特征区间的定义

设有M个手势,共N个样本(每种手势有N/M个样本),那么在观测点Ok处,由N/M个观测值构成每个手势的分布区间Ω。统计M个手势的区间的分布情况后,确定M个手势的观测值的分布区间ξ,将ξ划分成S个子区间(左闭右开型):R1,R2,…,Rs。子区间就称为M个手势在观测点Ok处的特征区间。

3.1.3 提取特征区间

以本文的12种手势为例,阐述提取过程。随机为每个手势选取了10个样本,在X轴上观测点O1=10处,12种手势的观测值分布如图3所示。根据这个分布统计出加速度最大值和最小值,就可以知道此时所有样本观测值的集中分布的范围ξ。然后再把这个分布区间范围等间隔分为了5个子区间(即特征区间),则12种手势的所有样本(120个)在观测点处的加速度值都会落入这些子区间:R1,R2,R3,R4,R5。

3.1.4 区间分布概率矩阵及模型的定义

同一种手势的不同样本,在同一个观测点处的观测值可能会落入不同的特征区间。以图3为例,在观测点O1=10处,手势11的10个样本观测值落入了R2,R3,R43个特征区间,但是有的区间落入的观测值多(如R2,7个),有的区间落入的观测值少(如R4,1个),从统计学的角度讲,手势11的10个样本在观测点处的观测值落入R2,R3,R43个特征区间的概率不同。不同的手势在观测点O1=10处又有不同的情况。能够表示不同手势和不同样本在同一个观测点处的观测值落入不同特征区间的概率分布情况(下文有详细建立过程)的矩阵称之为区间分布概率矩阵。在X、Y和Z轴上的所有观测点处的区间分布概率矩阵构成了本文手势识别方法的区间分布概率矩阵模型。

3.2 初始模型建立

初始模型建立过程如下:

(1)为每个观测点建立对应的区间分布概率矩阵。以X轴为例,在某个观测点处,M个手势的N个观测值属于S个不同的特征区间。每个观测点处会对应一个区间分布概率矩阵A,例如在第K个观测点处的区间分布概率矩阵为:Ak(i,j),1≤i≤S,1≤j≤M。

(2)区间分布概率矩阵初始化。每种手势的样本数为N0=N/M,假设在第K个观测点处,手势j(1≤j≤M)有n(0≤n≤N0)个样本中的观测值属于第i个特征区间,则Ak[i,j]=n/N0。这样就可以得到第K个观测点处对应的区间分布概率矩阵Ak(i,j),如表1所示。显然满足:。

(3)用以上步骤分别为X、Y和Z轴上各观测点建立区间分布概率矩阵,这些矩阵构成了区间分布概率矩阵初始模型(在X、Y和Z轴上选取的观测点可以不一样)。

3.3 模型优化

为了提高识别率,还需要对各观测点对应的区间分布概率矩阵进行优化训练。在区间分布概率矩阵初始模型已有的N个样本中继续添加新的训练样本。每添加一个新的训练样本,在各观测点处就会生成一个新的区间分布概率矩阵。例如,在X轴上第k个观测点处会生成一个新的区间分布概率矩阵Ak1[i,j]。随着训练样本的添加,各观测点处的区间分布概率矩阵会趋于一个常数矩阵,这时达到了最优模型,此时的区间分布概率矩阵模型可以用到手势的在线识别中。

4 在线识别

在线识别过程如下:

(1)信号预处理和检测各观测点处对应的特征区间。以X轴为例,当某一手势数据输入时,首先经过信号预处理,然后检测X轴上各观测点处观测值对应的特征区间,输出观测序列O={O1,O2,…,Ok}。例如,在第一个观测点处观测值对应的特征区间为R2,则O1=R2。

(2)计算每一种手势在X轴上输出上述观测序列时的概率值。假设在第l个观测点Ol处的观测值属于第i个区间Ri,则手势m在第l个观测点Ol处的观测值属于区间R2的概率为:

则第m个手势输出上述观测序列的概率为:

识别输入手势。若:

则手势m即为要识别的手势动作。

(3)将以上识别过程在X、Y、Z轴上分别实现。

5 实验结果与评价

为了使传感器与测量点之间尽可能地相对稳定,避免因手势的变化引起传感器偏离原始测量位置,使识别结果产生较大误差,本系统中,把数据采集和发送模块做成了一个小巧的戒指,通过无线的方式将采集到的数据实时地发送给微处理器进行处理和识别。实验时,将戒指模块戴到左手或右手食指的第二节,这样,MMA7361L加速度传感器相对于手指的位置是固定的。

实验中选用了30名志愿者,每个志愿者在自己习惯和放松的状态下,以正常的速度匀速执行预定义的12种手势,每种手势重复做10次,实验中随机选取了5次动作进行训练优化模型,其余的5次动作进行测试,共采集了3 600组样本数据。

实验结果如表2所示。平均识别率为97.94%,手腕向下、手腕向上和右旋转的识别率最高为100%,手腕向右的识别率最低为94.7%。为了更好地说明本文的识别方法在识别率和实时效果上比其他算法更具有优势,实验中同时用HMM和DTW算法对这12中手势进行了识别,平均识别率分别为79.08%和85.2%,并且延时比较明显。基于本文识别方法对手势动作的整体识别率较高,实施效果好,说明本文的识别方法能有效实时地完成人机动态交互。

本文通过对加速度传感器MMA7361L采集到的手势动作加速度数据的分析,经过动作数据自动检测、归一化和三次样条插值预处理,最后根据完成相同手势动作得到的三维加速度数据变化规律的相似性,提出一种基于区间分布概率矩阵模型的动态手势识别方法,简化了传统算法识别过程的复杂度,成功地降低了手势识别难度,从而提高了基于加速度传感器手势识别的人机交互实时性,在一定程度上解决了动态实时性与识别率的相互矛盾性。

参考文献

[1]荆雷,马文君,常丹华.基于动态时间规整的手势加速度信号识别[J].传感技术学报,2012,25(1):72-76.

[2]杨先军,王昌喜,潘磊,等.基于三维加速度信息的上肢动作质量评价的研究[J].传感技术学报,2010,23(12):1709-1712.

[3]CARIDAKIS G,KARPOUZIS K.SOM:self organizingmarkov map for gesture recognition[J].Pattern recognitionletters,2010,31(1):52-59.

[4]CHOWHAN S S,KULKARNI U V,SHINDE G N,et al.Iris recognition using modified fuzzy hypersphere neuralnetwork with different distance measures[J].InternationalJournal of Advanced Computer Sciences and Applications,2011,2(6):130-134.

[5]ZHANG S Q,YUAN C,et al.Self-defined gesture recog-nition on keyless handheld devices using MEMS 3D acce-lerometer[C].In Proceedings of International Conference onNatural Computation.IEEE.2008(4):237-241.

[6]JING L,ZHOU Y,et al.A recognition method for one-stroke finger gestures using a MEMS 3D accelerometer[C].IEICE Tran on Information,2011,E94-D(5):1062-1072.

[7]刘蓉,刘明.基于三轴加速度传感器的手势识别[J].计算机工程,2012,37(24):141-143.

【混合概率分布】推荐阅读：

概率分布07-25

失效概率07-19

实际概率05-14

概率方法05-15

联合概率06-29

概率公式07-06

概率应用07-13

高中概率07-27

概率计算08-11

概率统计方法07-18