密度估计

2024-05-29

密度估计(精选7篇)

密度估计 篇1

为夺取现代战争的胜利,世界各国都在提高军事装备的通信对抗能力。跳频通信作为通信对抗的一部分,以其良好的抗检测、抗干扰,低截获概率及组网能力,在军事通信中得到了快速发展。跳频技术的出现,在军事通信领域得到了广泛的应用,军事通信采用跳频技术的短波、超短波电台,极大地提高了军事装备的抗截获和抗干扰能力[1]。

1 跳频通信系统的组成

(1)跳频信号的产生。

图1为跳频信号的产生与发射系统。信源产生的信号,经过调制器的相应调制,获得载波频率固定的已调波信号形式,再与频率合成器输出的载波信号进行混频,输出的已调波信号载波频率达到射频通带的要求,然后经过高通滤波器处理后,至天线发射出去。

在跳频信号的产生和发射过程中,跳频器是跳频系统的核心,它由频率合成器和跳频指令器构成,由跳频指令来控制频率合成器产生适合系统性能指标要求的跳频频率信号,该跳变频率是一个随时间变化的频率信号。这种跳频系统的频率跳变规律称为跳频图案[2,3]。

(2)跳频信号的接收。

跳频信号的接收系统如图2所示。在接收端,接收到的信号通过输入回路处理后,送至混频器,再与跳频器产生的载波信号混频。接收机的本振信号也是频率跳变信号,它的跳变规律刚好与发送端一致,但是在频率上有个差值,正好为接收机的中频频率。只要发收双方的跳频指令同步,就可以使收发两端的跳频源,也就是频率合成器产生的跳变频率同步,经过混频后会产生一个中频信号和组合波频率成分,这些混合信号通过带通滤波器和解调器,可以滤除组合波频率成分,恢复出发送的信号。在接收过程中,接收机中的跳频器必须受同步指令的控制,确定跳频的开始和结束时刻,这样可以有效地抑制干扰信号,不会对跳频系统产生干扰。

(3)跳频信号的波形。

图3为跳频信号的时域波形图。从图中可以看出,跳频信号的波形和定频连续信号的波形不同,它是不连续的,因为跳频器产生的跳变载波信号之间不连续。频率合成器从接受跳频指令开始到完成频率的跳变有一定的切换时间,频率合成器从接受指令开始建立振荡到达稳定状态的时间叫做建立时间,从稳定状态到达振荡消失的时间叫消退时闻,稳定状态持续的时间叫驻留时间。从建立到消退的整个过程叫做跳频信号的一跳,持续时间叫做一个跳周期,记作Th。建立时间加上消退时间叫做换频时间。只有在频率稳定的时间TD内才能有效地传送信息。

2 跳频信号功率谱密度的估计分析

跳频信号是典型的随机信号,而跳频信号本身的傅里叶变化是不存在的,因此无法像确定信号那样用数学表达式来精确地描述它,而只能用它的各种统计平均量来表征。自相关函数最能完整地表征它的特定统计平均量值。而一个随机信号的功率谱密度正是自相关函数的傅里叶变换,可以用功率谱密度来表征它的统计平均谱特性。 因此,在统计意义下描述一个随机信号,就需要估计它的功率谱密度。功率谱估计在其他应用中也有着重要的作用,如设计最优线性滤波器,测量噪声频谱,检测埋没在宽带噪声中的窄带信号[4,5],以及用噪声激励法估计线性系统的参数等,都要估计功率谱,因此随机信号的功率谱估计是当前信号处理中一个重要的研究课题和研究工具。

(1)功率谱密度的定义。

信号f(t)的能量:由电压在1 Ω电阻上消耗的能量

E=∫∞-∞f2(t)dt (1)

若积分值存在,信号的能量为有限值,对于能量无限大的信号,考虑能量的时间平均值,这显然是信号的平均功率。

信号的平均功率即为电压f(t)在1 Ω电阻上消耗的平均功率

S=limΤ1Τ-Τ2Τ2f2(t)dt (2)

其中,T为求平均的时间区间。功率谱密度能更好地描述功率信号,能表示信号的功率密度随频率变化的情况,研究功率谱密度,可以了解信号的功率分布情况,确定信号的频带,在信号处理中非常的重要。以下主要研究功率谱密度。

对于功率信号,其功率谱密度可定义如下:把f(t)在间隔|t|Τ2以外的部分截去,得到截短函数

fΤ(t)={f(t),|t|Τ20,

(3)

只要T为有限值,则fT(t)的能量ET也是有限值。

FT(ω)为fT(t)的频谱函数,这样fT(t)的能量ET

EΤ=-f2Τ(t)dt=12π-|FΤ(ω)|2dω (4)

因为

-f2Τ(t)dt=-Τ2Τ2f2(t)dt (5)

因此平均功率S

S=limΤ1Τ-Τ2Τ2f2(t)dt=limΤ1Τ-Τ2Τ2f2(t)dt=limΤ1Τ12π-|FΤ(ω)|2dω=12π-limΤ|FΤ(ω)|2Τdω(6)

T增加时,fT(t)的能量和|FΤ(ω)|2也增加。当T趋于无穷时,|FΤ(ω)|2Τ的极限可能存在,令limΤ|FΤ(ω)|2Τ=ΡS(ω),此极限为功率谱密度。

信号f(t)的功率又可表示为

S=12π-ΡS(ω)dω=1π0ΡS(ω)dω=20ΡS(f)df (7)

功率谱密度是频率的时偶函数,信号的频率等于各个频率分量单独贡献的功率连续和,反映了信号能量在频率轴上的分布情况。

(2)功率谱估计方法改进。

功率谱估计有多种方法,一般可分为参数化方法和非参数方法。非参数方法中较为常用的是韦尔奇方法,这种方法属于经典谱估计的一类,周期图法,以下从经典谱估计,周期图法出发,分析改进跳频信号的功率谱密度。

经典的周期图方法:计算出样本信号序列的傅里叶变换,然后取变换结果幅值的平方,并除以样本序列的个数作为真实功率谱的一个估计,通过除以样本长度,确保了这个估计值是渐进无偏的,即对于固定的样本长度,周期图方法是有偏的,当样本长度趋于无穷大时,周期图方法的期望值趋向于真实的功率谱密度。

假设一个信号xn,功率谱的粗略估计为

PXX=abs(fft(xn,1024)).^2/length(xn) (8)

基本的周期图估计方法效果并不好,它的估计方差很大,而且不满足一致性估计的条件,即方差不会随着样本数的增大而趋于0。

取跳频信号的参数:跳频图案fk=5∶50∶255;采样频率fs=600 Hz;跳频信号驻留时间t=0∶(1/fs)∶(0.25-1/fs);跳变时刻忽略不计。

取长度为1 024和长度为256仿真对比,就明显看出随着FFT长度的增长,周期图并没有变得更平滑。

对于周期图的改进,一方面,不用矩形窗,而采用合适的窗函数来消除由矩形窗旁瓣带来的谱失真;另一方面,将长度为N的数据分成若干段,分别求出每一段的功率谱,然后加以平均,甚至允许每段数据有部分重叠。以下是两种方法的效果。

首先,可以尝试用平均法降低功率谱估计的方差,先采用将数据分成不重叠的数据,然后求平均的周期图。

可以直观地看出,图6比前面的估计结果要平滑得多,理论上这一估计结果的方差是前面单纯256样本估计结果方差的1/3。所以,平均的段数越多,估计结果的方差也就越小。但是信号的长度限制了分段的数目,要获得更多的分段,可以将信号分割成重叠的段。由于重叠的段会使各段之间具有统计相依性,反而会导致方差增大,所以在分段数目与重叠之间的选择上存在一个折衷。而且,随着分段的增加,虽然方差减小了,但估计的偏差会变大,因此在使用平均周期图法时,需要在估计期望值偏差和估计方差之间进行权衡。

其次,使用窗函数的方法,即在周期图前给每段信号加一个数据窗,改进周期图估计方法。因为窗两边渐变为0,所以这种方法降低了由于重叠导致的段间统计相依的效应。

取矩形窗和汉宁窗为例,分析信号的平均周期图,从仿真图可以看出,汉宁窗对减小“旁瓣效应”,即功率谱泄露,能起到一定的效果,也可以使峰值的宽带增大。多次实践表明,取合适的汉宁窗和一半段长度的重叠率,可以最有效的降低估计的偏差。这种改进周期图方法就是韦尔奇方法。

由以上仿真图结果可知,韦尔奇估计比上面的仿真图要低一些,因为Pwelch 函数将计算的功率谱结果除以抽样频率Fs,因此才有这样的结果。

3 韦尔奇方法的偏差和正规化分析

通过前面的功率谱计算,从图中可看出,在5 Hz,55 Hz,105 Hz,155 Hz,205 Hz和255 Hz有明显的谱峰,而且谱峰的高度基本相当,这和所取的信号幅度所对应。这些数值只是相对值,功率谱图无法给出波形的实际绝对幅度。而解决这一问题的办法,要对功率谱图作正规化处理。

韦尔奇方法理论推算表明,它的功率谱估计的理论期望与真实功率谱值间有一定的关系,为

E{Ρ^x(ω)}=12π|w|2-ππΡx(θ)|W(ω-ϑ)|dθ (9)

显然,期望值并不等于真实的功率谱密度,因此这个估计是有偏的。W(ω)是窗函数的离散傅里叶变换,而标度因子是窗函数的平方和。为

|w|2=w(n)2 (10)

这说明,只要W(ω)的主瓣宽带比各谱峰的距离窄,如果Px(ω)在频率ω0处有一个高度为1的谱峰,则谱估计对应的谱峰高度为|W(0)|2/|w|2。所以,要获得一个反映实际功率谱谱峰高度的估计,可以将Pwelch函数的结果乘以norm2(w)/sum2(w),这里w窗函数向量,这样得到的功率谱估计,就与窗的长度和形状关系不大。

采用不同的窗函数,汉明窗和汉宁窗。相同长度,相同噪声,相同信噪比仿真如图12,图13所示。

采用相同的窗函数,汉宁Hanning窗。长度不同,噪声相同,信噪比相同,仿真如图14和图15所示。

4 功率谱估计的置信区间分析

计算功率谱估计时,功率谱估计的置信区间计算非常重要,通过置信区间的计算,就可以定量地知道所得功率谱估计结果在统计意义下的可信程度。

图16表明,真实的功率谱曲线概率有95%的可能性在这两条曲线之间。估计置信区间时,只有在分段无重叠的情况下,才有可靠性,如果在重叠的情况下,计算置信区间,其结果不可靠。经过多次仿真表明,置信区间与窗函数的形状和长度,采样频率,FFT长度等有密切关系,要想得到合适的信号置信区间图,就要多次仿真,得到合适的参数。

5 结束语

本文主要对跳频信号的功率谱做了分析,就经典的周期图方法出法,指出此方法的不足,再从改进经典周期图方法的思路出发,仿真分析了改进后的功率谱,得出韦尔奇方法的可行性。然后分析了韦尔奇方法的偏差和正规化及功率谱估计的置信区间。

摘要:通过对跳频信号功率谱密度分析,指出经典周期图方法的不足,经过分析改进,得出跳频信号功率谱密度估计合适的方法和参数。仿真结果表明,改进方法具有良好的可行性功率谱估计性能。

关键词:跳频通信,功率谱密度,周期图方法

参考文献

[1]陈亚勇.Matlab信号处理详解[M].北京:人民邮电出版社,2001.

[2]陆根源,陈孝帧.信号检测与参数估计[M].北京:科学出版社,2004.

[3]葛哲学,陈仲生.Matlab时频分析技术及其应用[M].北京:人民邮电出版社,2006.

[4]赵宏伟.基于时频分布的跳频信号参数检测方法研究[D].西安:西北工业大学,2006.

[5]张明照,何玉彬,刘政波,等.应用Matlab实现信号分析和处理[M].北京:科学出版社,2006.

基于核密度估计的喷枪沉积建模 篇2

喷涂机器人现已广泛应用于现代制造业,并且工作方式也由人工示教-再现式向离线编程等方式发展。喷枪沉积建模是对涂料离开喷枪后在目标表面沉积成膜的过程进行建模和分析。在喷涂机器人离线轨迹规划中, 喷枪沉积建模是离线编程的前提和重要依据,对最终喷涂质量、效率等具有重要作用。

涂料沉积的过程复杂,一般涂料通过空气喷枪、高压无气喷枪或旋杯等装置雾化成大量液滴,通过气流场喷射到待涂目标表面,部分液滴沉积在目标表面,经流平、 固化,成为涂层;另一部分液滴不能沉积,成为漆灰等废物。由于缺乏准确实用的建模手段,喷涂机器人的离线编程较焊接、搬运、码垛等其他工业机器人更加复杂[1]。

喷涂时涂料沉积过程如下:涂料借助喷枪雾化后, 高速冲击待涂目标表面,部分沉积生成涂层。在喷涂过程中,涂料通过管道输送至喷枪,从喷嘴高速喷出进入空气,其后迅速的减速、雾化成不同尺寸的液滴,直径从几微米到几十微米不等,通常流量的喷枪,每秒产生的液滴数在109量级[2]。当液滴冲击待涂目标表面,液滴要么沉积要么飞溅,这与液滴大小、速度、角度、表面粗糙度以及涂料的粘度等因素有关。

1常规建模方法

建立准确的喷枪沉积理论模型困难。目前,常见的模型主要有无限范围模型和有限范围模型两大类:

1)无限范围模型

无限范围模型多使用于喷涂面为平面的情况,对于曲面的模型精度不佳,典型无限范围模型如高斯分布[3和柯西分布模型[4,5]等,只适应喷枪垂直于工件表面的情况,应用较少。

2) 有限范围模型

有限范围模型更接近实际物理模型,都是以喷枪喷雾形状为圆锥的基础建立的,对于实际喷涂有一定的指导意义;典型的有椭圆分布模型、抛物线分布模型、分段函数模型[6,7],均匀厚度模型[8]、变厚度模型[9]、β分布模型[9]。

为降低喷枪沉积建模过程的计算复杂度,针对液滴的一个有限子集进行仿真。建模方法应具有灵活性、良好的边缘效应、鲁棒性和可接受的计算量。

2基于核密度估计的建模方法

核密度估计(kernel density estimation)是数理统计学中构造未知密度函数的方法。由Rosenblatt(1955) 和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。Ruppert和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。核密度估计方法,不利用有关数据分布的先验知识,对分布函数不附加任何假定,是一种从样本本身出发研究分布特征的方法,因而受到高度重视[10]。

具体如下:

核密度估计是从一组有限样本构建一个未知的概率密度函数估计的方法。从一个未知的概率密度函数测得一组样本X =(X1,X2,...,XN),单变量核估计可表示为:

其中h是一个带宽参数,K是正值、归一化、对称核函数,即:

尽管核函数的选择对建模结果并不是至关重要的, 但更平滑的核函数往往能得到更好的结果。通常人们更愿意采用定义在有限范围的内核函数,比如x定义在 [-1;1]区间上。易见到,这能降低计算量。表1给出了常见的核函数范例。在本文中,我们选择使用Biweight内核由于是无论是在顺利和有限的性能[-1,1]。

带宽参数h的选择对结果同样重要。h值的大小和模型误差相关。目前已有一些能够自动选择带宽的方法, 如cross-validation方法[11],插件法[12]等。这些方法在本文中不做讨论,通过手动选择带宽,实现误差最小化。

喷枪沉积厚度函数可以看作体积为Vi的液滴的密度函数。代入核密度函数,有:

其中,SK是K的归一化常数:

假设如下:X点附近为平面,法线方向为nx。沉积点Xi在表面上被投影沉积方向vi上(如图1所示)。这些投影的表面点通过归一化和带宽选择比较,以确定他们是否应该包括在估计,使用:

通过式(6)和式(7)可以排除喷涂表面背面液滴以及与法线夹角较小液滴对x点沉积的影响。

使用核密度估计算法所得到的单层厚度曲线示意如图2所示,相比经典的直方图方法,本方法所得的结果更平滑。

考察指标:厚度方差:

其中, 表示核密度沉积模型仿真得到的厚度,T表示实际测量得到的厚度函数。需要指出,作为输入,算法生成的各点被取样,因此不能够完全代表厚度的函数。厚度的绝对误差不仅取决于建模方法,同样取决于样本的数量。

核密度估计沉积模型的结果在独立于网格划分的类型和质量,因此可以直接使用CAD网格,从而满足灵活性和鲁棒性的双重要求。

3试验验证

试验设备 采用A B B I R B 5 4 0 0 - 1 2型喷涂机 器人、GRACO AL型喷枪及配套高压泵、马口铁板 (100cm×100cm)、磁性测厚仪(误差±5μm)、某型涂料等。喷涂时分四道水平喷涂马口铁板,每道间隔15cm,如图3所示。喷涂运动速度设置为90cm/s,喷枪距离马口铁板表面距离恒定为12cm,高压泵工作压力150Bar,涂料粘度60s。测量涂层厚度时,测量L线上15个样本点涂层厚度,每个样本点间间隔2cm。

在获得实际喷涂数据的基础上,将仿真核密度模型预测值和测量值进行了比较。仿真计算时,n取120000,带宽h取3mm。结果如图4所示。

从图4中不难发现:建模得到的厚度曲线与测量数据的趋势基本相符,同时,各点测量值与模型期望值误差也在较低水平上。

4结论

在本文中,通过使用核密度估计算法进行喷枪沉积建模,得到一种与现实情况较符合的方法,此种方法不依赖于区块划分,适合直接在CAD中计算估计,不需要任何重新网格化,更适合指导离线轨迹规划。试验结果证明了本文模型的正确性与实用性。

摘要:针对喷枪的涂层沉积建模问题进行研究,通过分析喷涂系统和涂层形成过程,并引入核密度估计方法,构建一种能够适应涂层不同分布情况的喷枪沉积模型,以获得更好的建模精度和应用适应性。开展喷涂工艺试验验证,结果表明,新模型具有高精度和广泛适应性。

密度估计 篇3

根据人群密度特征的表征方式不同,人群密度估计方法[2]通常分为基于像素统计、基于纹理分析和基于目标分析3 类方法。文献[3]提出基于像素统计方法,而文献[4]改进了这种方法,引入神经网络估计人群密度。该方法能获得准确度较高的密度估计结果。但由于高密度人群之间存在较为严重的遮挡现象,密度估计误差较大。文献[5]提出基于纹理分析的方法,但该方法主要适用于人群密度较高的场景,因低密度人群的纹理特征区分度较低,在进行分类时误差较大。文献[6]提出基于目标分析的方法对于分割技术要求较高,但实际应用中的人群图像通常难以用现有技术进行有效分割,误差较大。针对这些相关方法存在的问题,本文提出一种基于医院监控场景下的人群密度估计方法。

1 方法整体框架

在医院的实际监控场景中,通常会出现整幅图像的人群数量较少,但局部人群过密的情况,无论采用基于像素特征与最小二乘直线拟合的低人群密度估计方法,还是采用基于灰度共生矩阵与支持向量机的高人群密度估计方法,均无法准确有效地估计人群密度。本文在医院实际场景下,采用一种基于分块的人群密度估计方法对医院人群进行实时监测。该方法通过摄像头采集医院场景图像,然后划分子块,对每一个子图像进行人数和密度估计。该方法主要有以下创新:( 1) 引入分块思想,根据摄像头的透视模型将图像划分为若干子图像,不仅可提高人群密度估计准确度,而且还能得到局部图像的人群密度分布图; ( 2) 对每个子图像分别采用基于像素特征与最小二乘法的方法和基于灰度共生矩阵与支持向量机的方法,进行人数的定量和定性估计,从两方面确定了人数和密度,进一步提高人群密度估计精度。

2 方法设计与实现

2. 1 子图像的划分

在医院的实际监控场景中,视频监控区域面积较大,出现人群密度分布不均匀,采用传统方法无法发现局部密度异常,因此需要估计局部人群密度。本文采用一种分块的方法,分别估计子图像的人群数量,累加后得到整幅图像的人群数量,在提高人群密度估计准确度的同时,还能估计局部人群密度。由于摄像头成像存在一定的透视效应,同一场景下的同一物体在不同的位置外,成像大小不一致。因此,本文利用摄像头的透视模型进行子图像划分。

首先对视频图像进行纵向上的划分,子区域的划分比例可根据摄像头成像在纵向上的模型来确定,如图2 所示。根据图2 模型,可得

其中,c = Hcotα,a = d /3,b表示摄像头与最近拍摄点A在水平方向上的距离。由于医院监控场景中摄像头处于45°方向,根据和式( 1) 求出比例系数,3 个实际监控区域大小基本相等,如图3 所示。

通过纵向划分保证子区域内图像对应的场景高度一致,为划分出面积基本一致的子图像,还需要对子区域在横向上进行划分。子区域的横向划分比例可根据摄像头成像在横向上的模型来确定,摄像头成像在横向上的模型如图4 所示。

根据图4 模型,可得

其划分结果如图5 所示,然后按顺序对每个子图编号。

经过划分处理,视频图像就被划分为若干个子图像,每个子图像对应的实际监控区域面积基本相等。值得注意的是,分块后会出现人体目标被分散到几个子图像中的情况,由于本文估计的是人群密度而不是人群人数,个体目标的分散对子图像中的像素特征和纹理特征影响基本可忽略,不影响人群密度估计结果。

2. 2 拟合的人数定量估计

在低密度人群情况下,人数与人群前景目标的像素特征之间有着较强的线性关系。因此,本文采用前景目标的像素面积特征和边缘像素特征这两个像素特征来表征前景图像,并利用最小二乘法分别建立人数与这两个特征之间的线性模型,并利用该线性模型对人群图像进行人群密度估计,其算法流程如图6所示。

其主要过程如下: ( 1) 人群图像的前景目标提取。由于医院场景是室内环境,背景单一。所以,本文一种结合平均背景[7]和帧间差分的方法。相邻帧进行差分处理,对背景部分的像素灰度值求平均值,即可得到背景图像; ( 2) 计算前景像素面积。统计1 中提取的前景像素个数,由于前景像素面积受前景目标距离摄像头的远近影响不同,故需进行归一化处理。提取前景面积像素后再除以整幅图像的像素,得到前景像素面积比特征; ( 3) 统计前景边缘像素。使用基于二值图像的边缘检测方对图像进行边缘提取对样本图像进行二值化,以1 为前景点,0 为背景点,若某一非零点的4邻域内任一点为0,则为边缘点,否则为内点。通过该方法得到高精确的人群前景边缘,实时性高,然后统计边缘像素数量; ( 4) 像素特征与人数的直线拟合。从监控视频中抽取80 幅样本图像,并人工统计实际人数及其对应的前景像素面积比和前景边缘像素数量。利用最小二乘拟合法[8]便可分别计算出这两个像素特征与人数的线性方程。根据具体实验数据拟合得到的直线方程函数表达式为

由于采用单一的像素特征对人群人数进行估计存在一定的误差。因此,本文利用加权平均的方法使前景面积和边缘相结合,得到准确度更高的估算值。根据不同特征对人数估计影响的不同来确定相应的估算系数,改进后的人数估算公式如下

式中,y1表示基于前景像素面积估算的人数; y2表示基于前景边缘数量估算的人数; x1和x2分别表示前景像素面积比和前景边缘数量; a表示基于前景像素面积估算方法的估算系数。通过实验确定的估算系数a的最佳值为0. 35。

2. 3 人群密度定性估计

在高密度人群情况下,由于人群之中相互遮挡现象比较严重,导致部分有效人群前景像素特征丢失,无法准确地描述人群密度,密度估计误差较大。但高密度人群图像的纹理特征显著,而且灰度共生矩阵[9]能有效地描述纹理信息。同时,由于支持向量机[10]拥有较强的泛化能力,并能够较好地解决局部最优和非线性等问题,且训练性能高,分类效果显著,因此本文结合纹理分析法的思路,采用一种基于灰度共生矩阵与支持向量机( SVM) 的人群密度估计方法,其算法流程,如图7 所示。

其具体过程如下:

( 1) 特征提取。灰度共生矩阵是像素对的联合概率密度P( i,j,d,q) 组成的矩阵,其数学表达式定义为

从上式可看出,灰度共生矩阵由灰度等级、方向和距离这3 个参数决定。其中N表示灰度等级,即图像中像素对的灰度值范围,一般可取为8、16、32 等; θ 表示方向,即像素对之间的相对角度,一般只取4 个角度0°、45°、90°和135°,需要选取恰当的构造参数来计算灰度共生矩阵,本文根据实际场景,选取 θ = 0°、90°以及d =10 来计算灰度共生矩阵。

由于灰度共生矩阵直接作为纹理特征计算复杂度过高。因此,一般需在其基础上提取有效统计量作为纹理特征。本文使用以下5 个纹理特征统计量作为人群密度特征:

能量统计量( Energy)

对比度统计量( Contrast)

相关性统计量( Correlation)

式中,μ1,μ2,σ1,σ2分别定义为

熵统计量( Entropy)

逆差矩统计量( Homogeneity)

( 2) 支持向量机分类训练。选取训练样本图像,从同一监控环境的不同时间段的实验视频中抽取了4种密度等级共800 幅样本图像,其中每种密度等级的样本图像各200 幅; 提取图像纹理特征,计算5 个纹理特征量,其中0°和90°方向的灰度共生矩阵各有5 个特征量,每幅样本图像组成一个10 维特征向量; 建立分类器,利用支持向量机的机器学习方法,采用RBF核函数,并利用一对一的多类分类方法,样本图像的特征向量进行分类训练。由于样本图像中的密度等级有4 种,其分类类别共4 个,所以一共训练出6 个SVM密度分类器。根据得到的支持向量机密度分类器便可对人群图像进行密度分类。

3 实验结果与分析

实验环境: 主机为处理器为i3 2. 0 GHz,内存为2 GB的PC机,开发工具为Visual C ++ 6. 0 和Open CV1. 0。实验视频由PC机自带摄像头采集,视频图像尺寸为320 × 240。经过上述处理过程可得到人群密度分布图,如图8 所示,每个子图像的左上角表示其编号,右下角表示该子图像的估计人数与密度等级。

图中每个子图像的左上角表示其编号,右下角表示该子图像的估计人数与密度等级。根据得到的人群密度分布图,文中不仅可得到整个监控区域的人群总人数,还可了解人群的分布情况和运动规律,对于图像局部的密度异常能有及时发现并准确定位。对所有子图像中的人群数量进行累加统计便可得到整幅图像的总人数,其实验结果如图9 所示。

图9 中横坐标表示视频帧数,纵坐标表示人数,其中与纵坐标垂直的3 条直线分别表示较高密度、高密度和中密度的对应人数。图9 中细线表示估计人数,粗线表示实际人数,可看出估计人数的变化曲线与实际人数基本一致,只是在密度较高的时候估计人数比实际人数少,存在一定的误差,而在对于低密度情况,准确度较高。实验过程中处理每帧图像的平均耗时为0. 197 s,每秒抽取两帧图像进行处理,基本可以满足医院实时监测的需求。

4 结束语

针对医院场景实时人数监测的应用要求,采用一种基于分块的方法得到监控区域的密度分布图。通过对某医院门诊大厅内采集的一段视频进行人群密度估计,实验表明,该方法能有效地估计人群数量和密度,准确度较高,能满足实时性的需求。

摘要:人群密度估计是智能化人群监控中的重要内容,在公共安防、管理控制和商业决策等方面起着重要作用。文中针对医院应用场景,采用一种基于分块的方法,对每一个子图像分别利用基于像素特征与最小二乘直线拟合方法进行人数定量分析和基于灰度共生矩阵与支持向量机的方法进行密度定性分析,得到整幅图像中不同子图及整幅图像的人数和密度分布图。实验表明,该方法能有效的提高人群密度估计的准确率,且还能对局部的密度异常精准定位。

关键词:人群密度估计,医院,最小二乘法,灰度共生矩阵,支持向量机

参考文献

[1]曹杰,杨晓光,汪寿阳.突发公共事件应急管理研究中的重要科学问题[J].公共管理学报,2007(2):84-93,126-127.

[2]Davies A C,Yin J H,Velastin S A,et al.Measurement of crowd density using image processing[C].Edinburgh,UK:Proceedings of the VII.European Signal Processing Conference(EUSIPCO-94),1994.

[3]Ma R,Li L,Huang W,et al.On pixel count based crowd density estimation for visual surveillance[C].London:2004IEEE Conference on Cybernetics and Intelligent Systems,IEEE,2004.

[4]Hussain N,Yatim H S M,Hussain N L,et al.CDES:A pixel-based crowd density estimation system for Masjid al-Haram[J].Safety Science,2011,49(6):824-833.

[5]Wang B,Bao H,Yang S,et al.Crowd density estimation based on texture feature extraction[J].Journal of Multimedia,2013,8(4):331-337.

[6]Lin S F,Chen J Y,Chao H X.Estimation of number of people in crowded scenes using perspective transformation[J].IEEE Transactions on Systems,Man and Cybernetics,Part A:Systems and Humans,2001,31(6):645-654.

[7]Monnet A,Mittal A,Paragios N,et al.Background modeling and subtraction of dynamic scenes[C].Shanghai:Ninth IEEE International Conference on Computer Vision,IEEE,2003.

[8]Chan A B,Vasconcelos N.Counting people with low-level features and Bayesian regression[J].IEEE Transactions on Image Processing,2012,21(4):2160-2177.

[9]Chen Y,Yang F Y.Research on characteristic properties of gray level co-occurrence matrix[J].Applied Mechanics and Materials,2012(204):4755-4759.

密度估计 篇4

基于机器视觉的手势交互是智能人机交互HCI(Human Computer Interaction)的关键技术之一[1-5],旨在提供更方便快捷的人机视觉接口。在静态手势识别中,主要解决三个问题[2,3,5-7]:手势分割、手势特征提取与分析和手势识别。文献[1,5]等的方法能很好地分割出精确手势区域,为手势特征提取和识别提供了良好的基础。手势识别广泛采用实时性较好的模版匹配算法[1,5]获得鲁棒的识别结果。

不同手势类型主要由不同手指数量和组合表示,手指部分代表了手势的关键[1,5]。在手势特征提取与分析中,文献[8]通过“U”特征分析手势类型,但并非每个手势都有平滑的“U”特征,鲁棒性较差,手势类型数也受到限制。文献[1]通过提取手势边缘与掌心的相对距离曲线特征并引入FEMD的概念,通过模版匹配可靠地判断出手势类型。文献[6]通过计算手势边缘梯度分解特征,得到了较好的识别效果。文献[5]使用的基于半径的凸包分解算法,经过多次计算形状凹度和复杂的手势骨架提取算法,最后进行模版匹配,较好地判断出手势类型。然而,文献[1,5,6]的方法计算复杂度均较高,不利于实时识别。为提高手势识别实时性并同时保持健壮的鲁棒性,本文提出并证明了任意手势基于指尖角度集核密度估计序列KDES-FAS(Kernel Density Estimation Sequence of Fingertip Angle Set)特征提取方法的有效性。

1 手势分割

采用文献[1]的结合有标记的RGB图像和Kinect深度数据[9]方法,容易获得精确的手势分割效果,如图1所示。

图1 文献#xref_id=137#的手势分割效果

2 指尖角度集核密度估计序列特征提取

2.1 指尖角度集

通常手势类型,如图2所示,l1表示手小臂所在直线(本文采用图1(c)手势图像长轴所在的直线),l2表示图1(a)中标记手环所在的直线,l1⊥l2。总可以有一个沿直线l2向右的单位向量e,此时<e,x><90°。本文定义向量e为手腕切割向量。

图3是精确分割后的手势模型,向量e为手腕切割向量,点O为将精确分割的手势图像距离变换[1]取距离灰度图像最大灰度值点所得的手势中心点,R2为手势以O为圆心的手势外接圆半径。

式中α1、α2值的选取需满足对任意手势指尖区域(阴影部分)互不连通。向量Mi表示从点O指向指尖区域每个像素点的向量,称Mi为指尖向量。

以下定义指尖角度集:有这样一个角度集合S:

其中N1为指尖区域像素点数。称集合S为手势指尖角度集。

2.2 核密度估计

核密度估计[10]在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt和Emanuel Parzen提出,又名Parzen窗。对于数据x1,x2,…,xN,核密度估计的形式为:

其中h>0。

式中,K(·)为核函数,满足且对任意u存在K(u)≥0,h为带宽。核函数与带宽的选取决定着估计效果的好坏程度。核函数的选择取决于根据距离分配各个样本点对密度贡献的不同。常用的核函数有均匀核、高斯核、余弦核、指数核等。通常,h对密度估计分布的光滑程度影响很大,选择合适的h非常重要。本文运用核密度估计理论获取平滑的指尖角度集核密度估计序列。

2.3 指尖角度集核密度估计序列

精确的手腕切割向量e在实际中不易取得,而传统的基于互相关系数的形状匹配算法需要相位漂移参数[11],这给后文手势特征形状匹配带来困难。为此,先将集合S在有效角度区间[θmin,θmax]内归一化处理,即:

式中,Nangle表示一个指尖角度集样本的元素数,与式(2)中相应样本的N1相等。

鉴于指尖角度集的性质,选取高斯核作为核函数K(·),即:

推导得核密度估计:

其中i=1,2,…,Nangle,h>0。

式中,带宽h的选取本文在第4节详细讨论。

至此得到了样本手势的指尖角度集核密度估计特征,类似于文献[1]中手势边缘与掌心的相对距离曲线。文献[1]中的特征曲线不够平滑,难以采用相关性匹配方法进行识别,而采用高复杂度的最小FEMD(H,Tc)算法进行模版匹配。

为进一步减少匹配复杂度,对进行均匀采样得到指尖角度集核密度估计序列:

其中:

式中,Nsam为均匀采样点数。

对于拓扑结构[5]相同的不同手势类型,由于指尖区域间距离和各指尖所占的比重不同,这给KDES-FAS特征带来明显差异。本文方法仅选取指尖区域进行特征提取,这也有效解决了文献[1]中手指相互靠得过近所带来的识别困难。另外,KDES-FAS特征完全满足手势平移,缩放和旋转不变性。

3 手势识别

采用基于KDES-FAS互相关系数形状匹配[11]的方法识别手势类型,KDES-FAS平均互相关系数:

式中,c表示手势类型,N表示手势类型数,n表示每种手势类型的模版数,Hinput表示输入手势,T表示模版手势,手势识别匹配算法如下:

其中,Γmat为匹配阈值,Γmat∈(-1,1),Houtput表示输出手势类型。

4 实验分析与比较

4.1 带宽h的选取

对图4(a)手势类型距离变换[1]得到距离灰度图像并找取掌心点如图4(b),取式(1)中得到手势指尖部分如图4(c)。

图4 手势距离变换和关键位置获取

对图4(c)指尖样本取不同的带宽h,取式(7)中采样点数Nsam=200。得到的KDES-FAS特征如图5所示。由图5可知,随着带宽h的增大,KDES-FAS特征越平滑,当h>0.2时失去了表征手势特征的意义。另一方面,分别选取图6中6种一般手势类型各5个样本{Hc,i|c=1,2,…,6;i=1,2,…,5},内部手势平均相关系数与带宽h的函数,i≠i'曲线如图7所示。由图5和图7可知,h选取过大或过小均不利于KDES-FAS特征的有效提取和内部手势的匹配识别。一般地,为了能同时最小化内部手势差异性和最大化外部手势差异性,选取带宽h=0.1作为KDES-FAS特征的合适取值。

图5 不同带宽h下的KDES-FAS特征

图6 6种一般手势类型

图7 不同带宽h下的内部手势平均相关系数

4.2 特征提取的比较

对图6中6种一般手势,分别采用文献[1]和本文的方法对其特征提取,相对距离特征和KDES-FAS特征如图8所示。由图像可知,本文提取了一般手势的概率特征KDES-FAS,而不是精确表征手势的手势特征。KDES-FAS特征比精确表征手势类型的一般特征更稳定光滑,可以采用计算量较小且鲁棒性好的相关系数形状匹配算法进行匹配识别,而不需要文献[1]计算量巨大的FEMD算法,这有利于手势识别的鲁棒性和实时性。

图8 相对距离和KDES-FAS特征

4.3 鲁棒性与实时性实验验证与比较

本文实验硬件环境包括台式计算机一台(Win7系统,Core(TM)i3处理器,2 GB内存),Microsoft公司的XBOX 360一台。软件环境为Visual Studio 2010,所有代码基于Kinect for Windows SDK v1.7采用C#语言编写完成。

一般地,取匹配阈值Γmat=0.75,式(8)中n=5,可以很好地识别出待识别手势和区分出未采样手势。在相同硬件和软件环境条件下,将600个手势样本(分别来自10位实验者,每位实验者分别采集正常和较暗光照条件下各30个样本。实验背景均为如图1(a)所示实验室一般复杂背景条件)。分别连续采用文献[1]和本文方法统计识别率和耗时,实验结果如表1所示。由表可知,本文方法平均识别率比文献[1]提高4.23%,平均耗时仅为文献[1]阈值分解+FEMD方法的7.7%。实验表明,该特征提取方法的手势识别鲁棒性强,实时性有显著提高。

表1 鲁棒性和实时性实验结果

5 结语

本文通过对一般手势定义指尖角度集和引入核密度估计理论,对任意手势进行指尖角度集核密度估计序列特征提取并采用形状匹配算法进行识别。对不同状态下的一般手势识别率达到93.6%,单幅识别平均耗时仅为0.0367 s。显著提高了任意手势识别的鲁棒性和实时性,对手势的实时识别人机交互具有理论意义和实际应用价值。

参考文献

[1]Ren Z,Yuan J,Meng J,et al.Robust part-based hand gesture recognition using kinect sensor[J].Multimedia,IEEE Transactions on,2013,15(5):1110-1120.

[2]Suarez J,Murphy R R.Hand gesture recognition with depth images:Areview[C]//RO-MAN,2012 IEEE,2012:411-417.

[3]Yao Y,Zhang F,Fu Y.Real-Time Hand Gesture Recognition Using RGB-D Sensor[M].Computer Vision and Machine Learning with RGB-D Sensors.Springer International Publishing,2014:289-313.

[4]Kao C Y,Fahn C S.A human-machine interaction technique:hand gesture recognition based on hidden Markov models with trajectory of hand motion[J].Procedia Engineering,2011,15(1):3739-3743.

[5]Qin S,Zhu X,Yang Y,et al.Real-time hand gesture recognition from depth images using convex shape decomposition method[J].Journal of Signal Processing Systems,2014,74(1):47-58.

[6]ElS aadany O S,Abdelwahab M M.Real-Time 2DHoG-2DPCA Algorithm for Hand Gesture Recognition[M]//Image Analysis and ProcessingICIAP 2013.Springer Berlin Heidelberg,2013:601-610.

[7]包加桐,宋爱国,郭晏,等.基于SURF特征跟踪的动态手势识别算法[J].机器人,2011,33(4):482-489.

[8]Lahamy H,Lichti D.Real-time hand gesture recognition using range cameras[C]//Proceedings of the Canadian Geomatics Conference,Calgary,Canada,2010,38(5):357-362.

[9]Zhang Z.Microsoft kinect sensor and its effect[J].MultiM edia,IEEE,2012,19(2):4-10.

[10]Luo N,Qian F.Multi-objective evolutionary of Distribution Algorithm using kernel density estimation model[C]//Intelligent Control and Automation(WCICA),2010 8th World Congress on.IEEE,2010:2843-2848.

密度估计 篇5

1 聚类有效性分析与聚类个数估计

1.1 聚类有效性分析

现在常用的估计聚类个数的有效性评价方法大概有3种:有效性指标、检测稳定聚类结构的稳定性方法和系统演化方法。其中,有效性指标在实际中应用广泛,包括Silhouette指标、Davies-Bouldin指标、Calinski-Harabasz指标、加权的类间类内相似度比率和Homogeneity-Separation指标等。

1.1.1 平均Silhouette(Sil)指标。

设a(t)为聚类Cj中的样本t与类内所有其他样本的平均不相似度或距离,d(t,Ci)为样本t到另一个类Ci的所有样本的平均不相似度或距离,则b(t)=min{d(t,Ci)},i=1,2,……,k;i≠j[1]。Sil指标计算每个样本与同一聚类中样本的不相似度以及与其他聚类中样本的不相似度,其每个样本t的计算公式如下:

一般以一个数据集的所有样本的平均Sil值来评价聚类结果的质量,Sil指标越大,表示聚类质量越好,其最大值对应的类数作为最优的聚类个数。

1.1.2 Davies-Bouldin(DBI)指数。

DBI指数是基于样本的类内散度与各聚类中心间距的测度,进行类数估计时其最小值对应的类数作为最优的聚类个数。设DWi表示聚类Ci的所有样本到其聚类中心的平均距离,DCij表示聚类Ci和聚类Cj中心之间的距离,则DB指标如下:

1.1.3 Calinski-Harabasz(CH)指标。

CH指标(伪F统计量)是基于全部样本的类内离差矩阵与类间离差矩阵的测度,其最大值对应的类数作为最优的聚类个数,则CH指标如下:

其中,SSB和SSw分别表示类间离差矩阵和类内离差矩阵,k为聚类数目。类间离差矩阵SSB定义如下:

其中,mi,m分别表示第i个类的中心和类内平均,||mi-m||定义了向量之间的欧式距离。类内离差矩阵SSw的定义如下(也称为Hartigan指标):

其中,x,Ci分别表示数据点和第i个类。

从定义可以看出:好的聚类结果,是希望SSB越大越好和SSw越小越好。因此,CH(k)的值越大,选择的k值越接近最优。

1.2 聚类数目对有效性的影响

对于盲聚类分析,聚类数目和聚类初始中心对于结果的影响很明显,因为目前采用的聚类算法,类似于K-均值聚类,都对类数和初始聚类中心敏感。

不失一般性,对同一组数据集合,分别采用目标类数为3~5进行K-均值聚类,仿真的对比结果如图1所示。

为了对比不同聚类数目下的聚类结果的性能指标,对上述实验数据,分别采用2.1节中的指标进行评估,结果如图2所示。从图2可以看出,前3种指标显示,选择类数为4最接近最优的聚类目标。但是采用Hartigan指标,其结果不然。

上述实验中,不同的指标所侧重的测度是不一致的,从而适用的应用场景也是有区别的。另外,从相邻类数下指标的走势可以看出,K-均值算法对于类数敏感性显而易见。因此,在聚类之前,能够确定有效的聚类数目是非常必要和重要的。

2 基于局部密度估计的聚类个数确定

给定点集S,对于每一个样本点i,为其定义2个属性参量:局部密度ρi和距离高密度点集的距离δi。样本点i的局部目的ρi定义如下:

其中,dij为样本点i和样本点j之间的“距离”度量,并且满足三角不等式;dc是常数参数,定义为截止距离,其物理意义是控制样本点的影响最远距离。式(6)中函数R(x)的定义如式(7):

其中,ρi表示距离i的距离小于dc的样本点数量。i的参数δi计算如下:

其中,max(ρ)为点集S的最大局部密度。从式(8)可以看出,对于非最大局部密度样本点,δi定义为样本点i距离其他任意更高局部密度样本点的最小距离;而对于最大局部密度样本点,δi定义为其他点到此点的最大距离。

通过对点集S中的样本经行二维空间的处理,以ρi和δi两个指标对点集降维处理。其中,ρi用来限制点集在多维测度空间内的局部密度,而δi用来度量局部密度较大的多维点集在测度空间内的相对聚类。距离其他高局部密度较“远”的点,称为在决策图上的“孤点”。“孤点”的个数即是聚类的估计类数。在局部密度的估计中,截止距离dc的选择非常重要,其影响了局部密度测度空间的边界。对于dc的选择准则,还需要进一步的理论分析,但是多次实验证明,dc的选择需要保证局部密度的最小取值不小于点集总数的1%~2%。

3 实验结果与分析

对于2.2中所采样的同样的数据数据集合,使用2中介绍的基于局部密度估计的方法,计算点集中每个样本的ρi和δi两个指标,绘出决策图如图3所示。

从图3可以看出,在ρi和δi两个指标都很“突出”的区域有4个明显的“孤”点。所以,估计算法确定出的聚类数目为k=4。对于2.2节的结论,两者的结论是一致的。通过对多组数据的实验,该文所提出的算法估计出的聚类类数和Sil指标、DBI指标和CH指标的一致率分别是99.4%、99.1%和98.8%。

4 结论

从K-均值算法对于聚类个数和初始中心敏感的缺陷出发,基于聚类中心具有高密度且距高局部密度聚类中心具有较远距离的特点,提出一种基于局部密度估计的聚类个数的估计方法。经过仿真实验,验证了该算法具有良好的有效性和鲁棒性。

摘要:随着人工智能和数据挖掘技术的兴起,聚类分析已被广泛应用于通信、文本数据统计、生物信息学和图像处理中。对于非监督聚类分析,聚类的分类数目是决定聚类质量的关键因素。通常聚类个数事先无法确定,随即选择的初始聚类中心容易使聚类结果不稳定。针对此,基于聚类中心具有高局部密度且距高局部密度聚类中心距离较远的特点,提出一种基于局部密度估计的聚类个数的估计方法。经过仿真实验,验证了该算法具有良好的有效性和鲁棒性。

密度估计 篇6

在雷达辐射源信号识别中,雷达辐射源基本参数如载频、脉冲重复周期和脉冲宽带都是采用直方图法进行参数分析与特征提取。在直方图法中分组数的确定,一直没有一个确定的规则,影响了直方图的有效性。在分组数适当情况下,直方图的形状应能反映参数的概率密度分布情况[1]。因此,根据参数的概率密度函数来确定直方图分组数是一可行的途径。若参数概率密度函数未知,则可预先采用核密度估计方法估计出样本的概率密度函数。

设X1,X2,…,Xn是从一维总体X中抽出的独立同分布样本,X具有未知的密度函数p(x),x∈R,则p(x)的密度核估计为:

式中n为样本集包含的样本数目;K(u)为核密度估计函数,简称核函数;h称为窗宽,决定了核函数的方差。常用的核函数有Epanechnikov核、三角核、高斯核和均匀核。窗宽h的选取是核函数密度估计能否成功的关键。理论上选择最优窗宽是从密度估计与真实密度之间的误差开始[2,3],如使密度核估计与真实密度函数p(x)之间的均方误差式达到最小的h作为最优窗宽值[4]。

通过极小化MSE(h0),得到最优窗宽:

其中。然而真实密度是未知的,否则无需进行估计。因此,本文先采用改进核密度估计方法,使窗宽的选择不依赖于真实概率密度,而只依赖于给定的核函数和所抽取的样本点;然后根据估计出的密度核估计,来搜索直方图的最优分组数;最后,在最优分组数直方图下进行参数的分析与提取。

1 改进的核密度估计方法

对于来自某未知总体分布的一组样本X1,X2,…,Xn,根据选取核函数的不同,由式(1)给出样本的两个不同的核估计[5]:

和之间的积分平方误差ISE为:

由于与为同一样本的密度核估计,二者之间的误差越小,说明选取的窗宽越好。故最优窗宽应使ISE(h)取最小值。

将式(4)和式(5)代入式(6),通过计算可得:

其中:

改进的核密度估计方法就是在ISE最小准则下,寻求最优窗宽,此时的最优窗宽不是理论上的最优窗宽,而是接近理论最优窗宽的一个值。具体过程如下:

(1)设定初始窗宽h,门限δ和步长Δ;

(2)选取两个不同核函数,由式(1)给出样本的两个不同的核估计与(x);

(3)根据式(6)计算(x)与(x)的积分平方误差ISE(h);

(4)如果ISE(h)>δ,令h=h+Δ,返回步骤(2);否则最优窗宽,执行步骤(5);

(5)取样本的核密度函数为(x)和(x)的平均值。

2 基于改进核密度估计确定最优分组

设T是某一实参数观测数据的集合,区间A是该参数的取值范围,δi(i=1,2,…,N)是区间A的子区间,fi是T集合中落入子区间δi的数值个数,称为频数。其中δi和fi分别满足下面的条件:

(1)对任意i和j(i=1,2,…,N;j=1,2,…,N;i≠j),δ1和δj的交集为空,即δi∩δj;Φ,Φ表示空集;

(2)。

δi(i=1,2,…,N)的宽度可以相等也可以不相等,视具体情况而定。以子区间δi的宽度和fi为边长,做出N个长方形,称为直方。把参数取值范围作为横轴,频数作为纵轴,将每个直方按相应的δi放置在横轴上,这样做出的图形就称为直方图[6]。

将直方图进行归一化处理,令,令归一化处理后直方图的上部轮廓线函数为f(x),如图1所示。参数服从的概率密度函数为p(x),定义f(x)和p(x)的贴近度为:

贴近度越小,说明直方图的上部轮廓线与参数概率密度函数越接近,此时的分组就越好;贴近度越大,说明直方图的上部轮廓线与参数概率密度函数相差较远,此时的分组就不是最优分组。

设参数观测数据为xi(i=1,2,…,n),n代表该批观测数据的总个数,则基于改进核密度估计确定最优分组的直方图算法如下:

(1)采用改进核密度估计算法估计出样本的概率密度函数;

(2)计算样本的平均值和标准差,取参数的下限值可取(xmin-w'×Sx),上限值可取(xmax+w'×Sx),其中xmin、xmax分别为xi(i=1,2,…,n)中的最小值和最大值;

(3)令分组数N=5,作出直方图,将直方图进行归一化处理,令,令归一化处理后直方图的上部轮廓线函数为f(x);

(4)根据式(13)计算f(x)和的贴近度σ,如果σ小于门限σth,则令N=N+2,返回步骤(3);否则此时的分组数N即为最优分组,执行步骤(5);

(5)根据最优分组下的直方图进行参数分析和提取,算法结束。

3 仿真实验

实验一为了验证改进核密度估计算法的有效性,选取n个来自正态分布N(0,2)的样本点即:Xi=normrnd(0,2,1,n),分别利用式(3)计算出理论最优窗宽h0和改进核密度估计算法得到最优窗宽,结果如表1所示。样本集数目为n=1 000时,真实概率密度函数p(x)和核密度估计(x)的曲线如图2所示。

实验二为了验证改进直方图算法的有效性,将其用于分析雷达辐射源信号的基本参数脉冲重复周期(PRI)。设定重复周期固定类型的取值为50ms;重复周期抖动类型的中心值为50ms;重复周期三参差类型的取值分别为50ms、100ms、150ms;重复周期捷变或滑变取值分别为40ms、42.5ms、45ms、47.5ms、50ms、52.5ms、55ms、57.5ms、60ms。每种类型仿真500个样本,并设定1%的测量误差。

实验中取w'=0.25,σth=0.8。直方图法中的分组有等距分组和不等距分组,实验采用等距分组,将直方图的分组数从小到大进行搜索,当归一化处理后直方图的上部轮廓线函数与估计出概率密度函数之间的贴近度小于门限σth时,搜索停止。此时,计算出的贴近度与分组数如表2所示,概率密度曲线及最优分组下的直方图如图3至图6所示。从图中可以看出,在取最优分组数时的直方图可以清晰地反映出参数工作类型和取值情况。

4 结语

为解决直方图法中的最优分组问题,本文采用改进的核密度估计算法来估计参数的概率密度函数,该方法得到窗宽可以接近于理论上的最优窗宽。然后,引入贴近度的概念,将参数直方图的上部轮廓线与参数服从的概率密度函数之间的接近程度作为最优分组的判决准则。利用改进核密度估计确定最优分组的直方图算法分析雷达辐射源信号基本参数之一PRI,结果表明,该方法可以定量获得最优的分组数,在此过程中不需要人参与判断搜索过程是否结束,从而实现算法的自动化。

参考文献

[1]刘甸瑞.作直方图中的最优分组问题[J].物探化探计算技术, 1995,17(1):62-67.

[2]Ibrahim A Ahmad,Fan Yanqin.Optimal Bandwidth for Kernel Density Estimators of Functions of Observations[J].Statistics&Probability Letters,2005,51(3):245-251.

[3]摆玉龙,杨志民.基于Parzen窗法的贝叶斯参数估计[J].计算机工程与应用,2007,43(7):55-58.

[4]黎运发,黄名辉.核密度估计逐点最优窗宽选择的改进[J].统计与决策,2011(14):28-32.

[5]郭照庄,霍东升,孙月芳.密度核估计中窗宽选择的一种新方法[J].佳木斯大学学报:自然科学版,2008,26(3):401-403.

密度估计 篇7

随机潮流(probabilistic load flow,PLF)计及电力系统运行中的不确定性,可综合分析系统的薄弱节点与运行风险,是静态安全分析的有力工具[1,2,3,4,5,6,7]。

蒙特卡洛法,又称为随机抽样方法或统计试验方法,目前在随机潮流计算中应用广泛[5,6,7]。随着研究的深入,蒙特卡洛的扩展问题凸显出来。扩展蒙特卡洛方法可将随机潮流的误差转化为可控量,并在扩展样本规模时保留已知的潮流计算结果。简单随机抽样的样本之间相互独立,实现扩展较为方便,但其计算效率较低,获得精确结果的计算代价大[8]。以拉丁超立方抽样[5,6,7]为代表的伪随机采样方法根据输入变量的累积分布函数进行分层采样,可提高蒙特卡洛的精度与计算效率。针对其扩展问题,文献[9]提出扩展拉丁超立方抽样,目前已应用于随机潮流计算[7],但样本仅能由N扩展到2 N,因此无法兼顾算法效率与扩展规模。此外,由于该方法不能保证序列的低差异性,因此文献[10]指出这限制了蒙特卡洛的计算精度及收敛速度,而以低差异序列(low-discrepancy sequence,LDS)为基础的准蒙特卡洛方法在精度和收敛速度上均优于基于拉丁超立方抽样的方法,可以任意维度扩展样本序列,已应用于电子电路设计中[10]。而在低差异序列中,Sobol序列可由布尔代数方法快速生成,故应用最广泛。

除了样本产生方法,扩展蒙特卡洛方法的另一问题是算法收敛判据的选取。基于简单随机抽样的蒙特卡洛方法中,由于样本之间的独立性,一般可采用方差系数作为收敛判据[11]。为弥补其在扩展拉丁超立方抽样方法中应用的缺陷,文献[7]中提出改进方差系数定义随机潮流的收敛判据,获得了置信概率较高的结果。但由于方差系数推导的假设前提是输出变量为正态分布,因此这类判据在输出变量偏离正态分布时会带来较大误差,影响扩展蒙特卡洛方法的准确收敛。

本文针对扩展拉丁超立方抽样方法的缺陷,提出扩展准蒙特卡洛方法,可克服蒙特卡洛方法收敛性的瓶颈,并能够实现任意步长的扩展,通过算例分析证明了其在随机潮流计算中的正确性与高效性。此外,针对方差系数应用于非正态变量时的问题,本文提出基于非参数核密度估计结果的收敛判据,改进了现有判据的不足,其有效性通过算例分析得以证明。

1 基于扩展准蒙特卡洛方法的随机潮流

1.1 准蒙特卡洛方法及其误差

当节点注入功率向量S的分布特性已知时,节点电压向量V和支路潮流向量B的概率分布如式(1)所示。

式中:h(·)为概率密度函数分别为节点注入功率对节点电压和支路潮流的Jacobian矩阵。

蒙特卡洛方法利用经验概率分布函数代替h(S),因此可得输出变量概率分布如式(2)所示。

式中:Si为根据节点注入功率分布产生的序列;n为蒙特卡洛的模拟次数;δ(S-Si)为注入功率样本Si的Dirac测度[12]。

为便于分析,将式(2)简化为式(3):

式中:Qn为n次模拟得到的数值结果;pi表示式(2)中的

根据大数定律,Qn会以概率1收敛到输出变量的真实分布函数Q[12],即

大数定律的意义在于,其指出蒙特卡洛方法随着采样规模无限增大时收敛的必然性,但却不能给出收敛速度的信息。而文献[13]证明,序列的差异性(discrepancy)是影响蒙特卡洛收敛速度的主要因素。

定理1[13]蒙特卡洛方法的误差ε可定义为:

式中:Dn*为L∞-差异性[13],Dn*越小,代表序列在空间中分布更均匀;C为由系统本身性质决定的常数[14]。

由式(5)可知,当系统参数确定时,蒙特卡洛方法的效率取决于序列的差异性。文献[15]给出拉丁超立方抽样等抽样方法产生s维均匀分布序列的Dn*为:

结合式(5),基于拉丁超立方抽样的蒙特卡洛方法收敛速度为。文献[16]指出,任意维度均匀分布序列最小Dn*如式(7)所示。满足该式的序列称为低差异序列,而基于低差异序列的蒙特卡洛方法称为准蒙特卡洛方法。

对比式(6)和式(7)可知,序列的L∞-差异性由变为O(n-1),再结合式(5),引入低差异序列后蒙特卡洛方法的收敛于真实值的速度由变为O(n-1),从而大大加快蒙特卡洛方法的收敛。

1.2 准蒙特卡洛的扩展

在准蒙特卡洛方法中,Sobol序列可以利用布尔代数方法快速生成[17],过程参见附录A。本文在此基础上提出其扩展方法,基本思路是已有规模为N的满足独立均匀分布的样本矩阵Uold,通过新增加规模为Nstep的样本矩阵Uadd,获得拥有N+Nstep个样本的满足独立均匀分布的样本矩阵Unew。过程如下。

已知Uold、原始多项式P(x)、方向数v=[v1,v2,…,vj](j=1,2,…,N)。

1)采用生成Uold相同的多项式:

2)按照递推关系继续生成Nstep个方向数vj(N<j≤N+Nstep):

式中:表示异或运算。

3)由此可生成Nstep个Sobol序列的新元素:

式中:下标ci表示N+k的二进制表示“…b3b2b1”中最右非零位的下标;Uadd,k和Uold,k表示Uadd和Uold中的第k个样本。

二维Sobol序列长度由100扩展到150的效果分别如图1(a)和图1(b)所示。可以看出,扩展后的Sobol序列保持了序列的差异性,因此不会影响算法的效率。对比文献[7]中的扩展拉丁超立方抽样方法,本文提出的扩展准蒙特卡洛有以下优势:(1)扩展方便,无需额外运算,因此效率高;(2)生成样本均匀性好,可提高随机潮流效率;(3)可实现任意维度扩展,因此可兼顾算法效率与计算精度。

1.3 输入样本生成方法

文献[18]中的Nataf变换可将均匀分布的输入变量转化为任意分布,过程见附录A。在输入变量相关性的处理上,由于输入变量相关系数矩阵可能为非正定或非满秩阵,此时其Cholesky分解不存在,无法采用文献[18]的方法对样本进行排序。而由于相关系数矩阵均为对称阵,存在奇异值分解。针对这一问题,本文提出采用奇异值分解的方法改进文献[18]的相关系数矩阵处理方法,本文通过证明定理2说明奇异值分解排序方法的过程。

定理2设K为n维独立标准正态分布向量,矩阵由向量z的相关系数矩阵ρz的奇异值分解生成:

式中:Uρz为酉矩阵;Λρz为由矩阵奇异值构成的对角矩阵,并按从大到小排列。

则由式(12)定义的z*相关系数矩阵等于ρz:

证明:对,其期望值E(zi*)满足式(13)。

相关系数矩阵为:

因此,可根据定理2的步骤生成相关系数为ρz的正态分布向量后可再通过Nataf反变换,得到服从任意分布的随机向量。

2 基于非参数核密度估计方法的收敛判据

扩展随机潮流的另一个问题是其收敛判据的选取。基于方差系数的扩展随机潮流收敛判据以正态随机变量为假设,当实际情况偏离假设时会存在较大误差,这将影响扩展随机潮流的准确收敛。非参数核密度估计对数据分布不附加任何假定,直接根据原始数据构造其分布。本文提出基于此方法的收敛判据,进一步拓宽扩展随机潮流的适用范围。简要介绍如下。

设Sn={X1,X2,…,Xn}为原始数据,其满足未知分布f。文献[19,20,21]提出通过求解原始数据构造的傅里叶热传导方程如式(15)所示,可得到连续的分布函数估计式g,估计误差可由如式(16)所示的均方积分定义,称为均方积分误差(mean integrated squared error,MISE),本文表示为M。

为得到符合条件的解,必须事先给定方程的初始值和Neumann边界条件。其中初始值由数据集Sn的经验概率密度函数D(x)给定,如式(17)所示:

式中:δ(x-Xi)为数据集中元素Xi的Dirac测度;L为数据集维度。

Neumann边界条件可由式(18)给出。

基于以上条件,式(15)的解析表达式如式所示:

式中:x∈[0,1];为均值等于2k±Xi、方差为t的高斯分布。方差t又称为尺度参数,是式中唯一的变量,需要通过选择合适的尺度参数使得式(16)中的M最小化。

通常M求解复杂,不适合于快速计算。本文提出采用M的一阶近似M(1)衡量单个变量的精度,并定义其平均值CM(1)为随机潮流的收敛判据,当其小于阈值ε时算法停止:

式中:;m为输出变量维度。

文献[21]中给出了求解t最优值topt的解析方法,如式(22)所示:

‖f″‖2中f未知,无法直接求解。文献[21]提出了近似方法可求解‖f″‖2。

3 扩展随机潮流方法

扩展准蒙特卡洛方法的流程图如图2所示。蒙特卡洛方法可以任意步长扩展,设初始样本规模为N0,最大扩展次数为Nmax,扩展步长为Nstep。

4 算例分析

4.1 算例设置

本文采用IEEE 30和IEEE 118节点系统验证所提算法的计算效果。仿真平台基于Intel Core dual i7-3820 3.6GHz,RAM 8GB。假设风速满足威布尔分布W(c,k)=W(10.7,3.97),风电场功率因数恒定,有功出力与风速关系满足:

式中:PWR为风电场额定功率;vci,vr,vco分别为切入风速、额定风速和切出风速,大小分别为2.5m/s,13m/s和25m/s。

对于IEEE 30节点系统,节点3,4,6,28分别接入容量为15MW的风电机组;对于IEEE 118节点系统,节点93,94,95,96分别接入200 MW的风电机组,风电机组出力的互相关系数均为0.9。负荷均为恒功率因数,有功负荷服从期望为额定有功功率,标准差为期望5%的正态分布。互相关系数均为0.5。发电机有功、无功调度方法见附录A图A1。

4.2 收敛判据变化趋势

为分析准蒙特卡洛方法对随机潮流的全局加速性能,IEEE 30和IEEE 118节点系统CM(1)随着采样规模增大的收敛趋势分别如图3(a)和图3(b)所示,N0=25。本节中,为方便与扩展拉丁超立方方法比较,采用加倍扩展的方式。

分别采用扩展拉丁超立方抽样[7]方法和本文方法分析特定变量的变化趋势,部分IEEE 30节点系统支路有功潮流及IEEE 118节点系统的线路无功潮流M(1)随样本规模扩大的变化分别见表1至表4。表中:MP(1)为有功潮流部分M(1);MQ(1)为无功潮流部分M(1)。

综合图3、表1至表4可得到以下结论:(1)由图3可知,采用准蒙特卡洛方法可以提高随机潮流的全局收敛速度;(2)准蒙特卡洛方法可以提高特定变量的收敛速度,同样本规模下可得到精度更高的结果;(3)扩展随机潮流不会影响最终的结果,两种方法所得结果相近。

4.3 收敛判据的应用分析

扩展随机潮流无需事先给定样本规模,可根据误差情况决定算法是否终止,具有较高灵活性。本文以简单随机抽样(SRS)50 000次的结果作为标准,采用式(21)作为收敛判据,设定ε=0.05。对本文提出的扩展准蒙特卡洛方法和扩展拉丁超立方抽样方法的算法效率进行比较。参数及方法组合设置如下:本文方法和扩展拉丁超立方抽样方法[7]起始步长均为100,本文方法扩展步长为100,扩展拉丁超立方抽样方法为规模加倍扩展。

采用IEEE 30节点系统和IEEE 118节点系统分别进行计算,算法计算情况见表5。

由表5中结果可知,本文提出的扩展准蒙特卡洛方法的效率高于扩展拉丁超立方抽样方法,算法收敛用时少,这一结果与4.2节中结论相吻合,在此证明了准蒙特卡洛方法的高效性。

计算收敛时IEEE 30节点系统支路6-7有功潮流和IEEE 118节点系统支路15-19无功潮流收敛时的概率分布分别如图4和图5所示。对比图4和图5可见,三条曲线较为接近。这不仅可以说明本文定义的收敛判据可以有效指导扩展随机潮流的收敛,得到较精确的结果,而且也说明了本文判据的适用性。

为进一步说明本文判据相对文献[7]方差系数的优势,利用本文方法分别采用两种判据应用于IEEE 118节点系统,结果如图6所示。此处本文方法采用规模加倍的扩展方式,方差系数置信概率为90%。

从图6中可以看出,方差系数作为收敛判据有明显的“早熟”现象,收敛判据下降快,在还未到达精度要求时判据数值已下降到很低的水平,这对准确指导算法收敛不利。而本文判据随着样本规模的扩大下降均匀,可较好地指示扩展随机潮流的收敛。此外,本文的判据还具有如下优势:(1)本文判据对输出变量分布没有附加条件,当输出变量偏离正态分布时不会带来误差;(2)不同于方差系数这类概率型指标,本文的判据是基于确定型的,不存在置信区间,因而没有误判的可能。

5 结论

1)本文提出的基于Sobol序列的扩展准蒙特卡洛方法保证了生成样本的差异性,因此保持了准蒙特卡洛方法的高效性,分析证明本文方法效率高于扩展拉丁超立方抽样的方法,同样本规模下可获得更精确的结果。

2)针对输入变量相关性矩阵非正定的情况,本文提出并证明基于奇异值分解的改进方法。

3)两种扩展方法最终均得到相似的结果,因此扩展技术不会影响随机潮流的精度。

4)本文提出的基于非参数核密度估计的收敛判据可以有效指示扩展随机潮流的收敛,可获得较精确的概率特性。

5)本文提出判据对输入变量概率分布没有附加条件,具有直观性和普适性,分析证明该判据没有方差系数的“早熟”现象,因此适合于作为扩展随机潮流的判据。

附录见本刊网络版(http://www.aeps-info.com/aeps/ch/index.aspx)。

摘要:扩展蒙特卡洛方法将随机潮流的误差转化为可控量,并可在样本数增加时保留已知的潮流计算结果。基于扩展拉丁超立方抽样的方法效率比简单随机抽样高,但仍存在两方面的问题:第一,扩展拉丁超立方抽样无法保证序列的差异性,这成为计算效率提高的瓶颈;第二,当输出变量偏离正态分布时,扩展拉丁超立方抽样方法缺乏性能良好的收敛判据。针对以上两个问题,采用基于Sobol序列的扩展准蒙特卡洛方法进行随机潮流计算,并提出基于非参数核密度估计方法的收敛判据。对IEEE 30和IEEE 118节点系统的仿真结果表明,所述方法比扩展拉丁超立方抽样方法更加方便、准确,同时效率更高、收敛更快;而基于非参数核密度估计的收敛判据直观、适应性强,对变量的概率分布没有附加条件,可准确指导扩展随机潮流的收敛。

上一篇:批注式阅读阅读下一篇:舞蹈的审美研究