非参数统计分析方法

2024-08-21

非参数统计分析方法(共10篇)

非参数统计分析方法 篇1

1 前言

近年来,人们对粮食产量的关注程度不断加大,研究频率也有所提高,但是其中专门对单位面积粮食产量的研究文献却很少。我国著名的土壤学家,农业教育家陈恩凤在1983年提出我国人口多,应该自力更生解决粮食问题,而解决的途径就是大力提高单位面积产量。在他的论证中指出我国各地单产高低悬殊,这说明我们现实的生产潜力还很大,巩固和提供高产稳产田,努力改造低产田,成为我国粮食增产的迫切任务。刘玉,蒙达,周艳兵等在京津冀地区粮食产量变化及其作物结构分析中指出粮食单产对粮食产量的正向促进作用显著。粮食产量的快速提升是研究期内京津冀地区粮食总产量增加的主要因素。王琛,吴敬学,钟鑫等2015年在我国粮食劳动生产率地区差异及分解研究中利用13个粮食主产区省级面板数据,对我国粮食劳动生产率地区差异进行分解,进一步对影响地区差异的各个因素及作用机制进行分析研究。

当前,实现粮食的基本自足、保障粮食安全成为我国粮食政策的基本方针。但是中国粮食产量的年际波动仍较为剧烈,区域变化也非常明显。因此,明确中国各地粮食产量的差异性,找出粮食产量存在差异的原因,可为有关部门粮食生产发展规划和相关产业政策的制定提供数据参考和理论依据,从而达到增加单产的目的。之前的研究大都直接分析如何提升粮食产量,很少去对比各地区粮食产量的差异性,非参数统计作为数理统计学的分支,是解决很多不知道数据分布的问题的主要方法,通过运用非参数方法可以对事物建立起统计模型,进行数学描述。粮食产量是指谷物、豆类和薯类的生产总量,而谷物正是粮食的重要组成部分,因此本文选取谷物单位面积的产量,利用非参数统计的方法对华东地区的六个省份进行对比从而得到谷物产量的差异性。

2 研究方法

2.1 Friedman检验

用非参数的方法分析参试地区单位面积产量的差异。可将该排列看作非参数统计中的随机化的完全区组。对于随机区组的数据,传统的方差分析要求实验误差是正态分布的,当数据不符合方差分析的正态前提时,Friedman建议采用秩方差分析法。

其中Rij表示第i个区组中第j个处理在第i区组中的秩。

2.1.2 检验统计量。Friedman建议用(k-1)/k乘Q'得校正式:

H0:同一个区组中,对随机变量的每个赋秩是等可能的(即处理效果相同)。

H1:至少有一个处理倾向于比其他处理中的至少一个处理产生较大的观测值。

2.2 多重比较

当分析结果为拒绝零假设时,说明样本之间存在差异性,Hollander-Wolfe在1973年提出了一个两样本(处理)间的比较公式:

3 实证分析

3.1 数据来源

文章中使用的资料来源于《中国统计年鉴》2008年到2014年主要农产品单位面积产量数据。选取了华东地区的六个省份,分别是:上海、江苏、浙江、安徽、福建、山东。运用了从2008~2014年六个省份的谷物单位面积产量数据,随机区组进行排列。

3.2 Friedman检验的结果与分析

在SPSS软件中选择“Analyze”→“Noparametric tests”→“KRelated Samples”命令进入“Test for several Related Samples”对话框,选取六个变量进入变量对话框,选择“Fridman”,点击OK。得到六个省份的秩均值和检验结果。其中上海的秩均值最高,为5.43,安徽省的秩均值最低,为1.00。

通过Fridman检验得到卡方值为28.38,p值为0.000,拒绝原假设,接受备则假设,即六个省份之间的谷物单位面积的产量之间存在显著的差异性。

通过计算六个省份的均值可以看出,上海的谷物单产量均值最高,为6721.43,浙江次之,为6648.29,而安徽的最低,为5428.86。

3.3 多重比较分析结果

由各省份之间的比较结果可知,上海与安徽,福建,山东;浙江与安徽,福建;江苏与安徽之间的谷物单产量有显著性差别,其它省份谷物单产量之间的差异不显著。其中,上海与安徽谷物单产的差异性最大,上海从2008年到2014年谷物单产量均值为6 721.43kg/hm2,而安徽省从2008年到2014年谷物单产量均值为5428.86kg/hm2。

4 结论与建议

将原始数据的平均单产的排名与秩排序的结果结合起来可以看出,上海和浙江的谷物单位面积的产量最高,安徽省的最低。影响粮食总产量的因素有很多,上海和安徽之间的谷物单产量差异性最大,我们可以进一步分析安徽省和上海谷物单产量存在差异的原因,找到影响谷物单产的主要因素,并着手去解决它。一般可以从以下几个方面去提高粮食的单产量。一,提高农民的人均纯收入。农民纯收入决定了农民对农田管理、劳动力、施肥量的投入,从而决定了粮食产量的高低。二,政府增大对农业的扶持力度。粮食单产的高低很大程度上依赖于财政支出。通过对农田水利的建设,农业扶贫以及农业综合开发,提高粮食生产环境,从而提高粮食产量。三,发展农业机械总动力。农机总动力的发展和合理利用将会提高农业生产效率。但是想要更有效的提高安徽省的粮食单产量,还要进一步分析安徽省粮食生产的各个方面,得出更适合它粮食生产的方法。

摘要:粮食问题是事关国家和地区社会稳定的重大问题,而谷物是粮食的重要组成部分。本文为了探究华东地区六个省份谷物单位面积产量之间的差异,选取2008年至2014年六个地区谷物单产的数据,通过非参数方法中的Friedman检验,得到华东地区六个省份谷物单产的差异性,并运用多重比较的方法,得出差异性最大的两个省份。结果表明,六个省份之间的谷物单位面积的产量存在显著的差异。上海的谷物单产量均值最高,浙江次之,而安徽的最低。并对提高谷物单产提出了一定的建议。

关键词:非参数方法,谷物单位面积产量,华东地区六省

参考文献

[1]陈恩凤.大力提高单位面积产量是我国增产粮食的主要途径[D].沈阳农学院,1983.

[2]周小萍,崔月明.我国粮食供求的区域特征及未来形势分析[J].未来与发展,2006,27(4):5-10.

[3]陈秧分,李先德.中国粮食产量变化的时空格局与影响因素[J].农业工程学报,2013,29(20):1-10.

非参数统计分析方法 篇2

非参数统计学方法研究的出发点是假定研究总体的理论分布是未知的,是一个待检验的假设,可以减少实际应用中对假设条件的依赖,不受样本分布形式限制。本文通过研究正常肝核糖核酸(RNA)对癌细胞的生物作用,以对照组(生理盐水)、水层RNA组和酚层RNA组此3种不同处理方法诱导肝癌细胞的果糖二磷酸酯(FDP酶)活力为样本,运用非参数统计方法对其进行实证分析。

一、研究背景

当今经济研究领域,运用传统的参数统计进行实证分析非常广泛。然而,在现实生活中,传统参数统计方法对总体分布的假定常常难以满足,比如数据并非来自所假定的分布,或者数据根本不是来自一个总体,又或者数据因为种种原因被严重污染等。这样,假定总体分布的情况下进行推断的做法就可能产生错误的结论,影响决策。为此,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息,这就是非参数统计的宗旨。

二、实证分析

以小白鼠为对象研究正常肝核糖核酸(RNA)对癌细胞的生物作用,试验分别为对照组(生理盐水),水层RNA组和酚层RNA组,分别用此3种不同处理方法诱导肝癌细胞的果糖二磷酸酯(FDP酶)活力,数据如表1所示.

3种不同处理的诱导结果

处理方法 诱导结果

对照组 2.79 2.69 3.11 3.47 1.77 2.44 2.83 2.52

水层RNA组 3.83 3.15 4.70 3.97 2.03 2.87 3.65 5.09

酚层RNA组 5.41 3.47 4.92 4.07 2.18 3.13 3.77 4.26

从上表可以看出,对照组的诱导的平均FDP酶活力最小,水层RNA组次之,酚层RNA组的最大。因此可以初步认为,3种诱导作用的效果有显著差异。

(二)、正态性检验

对样本做假设检验则首先必须知道总体服从的分布,本文针对3个总体分别进行正态性检验,原假设为H0:样本所来自的总体分布服从正态分布,备择假设为H1:样本所来自的总体分布不服从正态分布。具体检验结果如下:

显然,通过Kolmogorov-Smirnov检验可知,在给定的显著性水平0.05的条件之下,在3个总体所得P值均小于α,故拒绝原假设,可以认为出这3个总体均不服从正态分布。且从现阶段所知的分布来看,无法断定其到底属于何种分布,故采用非参数方法对该问题进行统计分析。

(三)、尺度参数检验

本文中尺度参数的检验采取Mood检验。原假设X和Y同分布,即H0:b=1,备择假设H1:b≠1。通过R软件检验结果如下:

Z检验统计量的值 P值

对照组与水层RNA组 -1.3956 0.1628

对照组与酚层RNA组 -1.4349 0.1513

水层RNA组与酚层RNA组 -0.41 0.6818

表4

结果显示,对于分布函数形状的检验,在给定的显著性水平0.05的条件之下,对照组与水层RNA组、对照组与酚层RNA组和水层RNA组与酚层RNA组的尺度参数检验均全部通过,接受原假设。即3个总体的分布函数(以及密度函数)的形状完全相同,若有不同仅有可能的是位置参数不同。

(四)、位置参数检验

1、Kruskal-Wallis检验

由于本文样本为3个独立同分布的总体,因此对于位置参数的检验采取Kruskal-Wallis检验。根据题意有,原假设H0:试验中3种诱导作用的效果无显著差异,备择假设H1:试验中3种诱导作用的效果有显著差异。结果显示p=0.01895,故在给定的显著性水平α=0.05条件之下,拒绝原假设。

2、Wilcoxon秩和检验

为了进一步检验3中诱导作用中产生显著性差异的是哪一种,本文对其进行两两的Wilcoxon秩和检验。其中,原假设H0:试验中某两种诱导作用的效果无显著差异,备择假设H1:试验中某两种诱导作用的效果有显著差异。通过R软件编程检验,结果如表5所示。

W秩和检验统计量的值 P值

对照组与水层RNA组 10 0.02067

对照组与酚层RNA组 8.5 0.01564

水层RNA组与酚层RNA组 27 0.6454

表5

结果显示,在给定的显著性水平0.05的条件之下,对照组与水层RNA组、对照组与酚层RNA组的位置参数检验没有通过,因此拒绝原假设,认为对照组与水层RNA组、对照组与酚层RNA组的`诱导作用效果有显著性差异。但是水层RNA组与酚层RNA组的Wilcoxon检验结果显示,在给定的显著性水平0.05的条件之下,不能拒绝原假设,即没有证据表明水层RNA组与酚层RNA组的诱导作用效果之间存在显著性差异。

三、结论

非参数统计分析方法 篇3

以卷烟硬包小盒为例,通常其尺寸为98mm×246mm,印刷方式为凹印,拼版为18联,排版方式为3×6,卷筒印刷裁切大张的尺寸为603mm× 727mm,如图1所示。其中,圆圈代表需要进行全息定位烫印的图案,字母A代表全息图案的方向。假设全息图案为16mm×16mm的圆形图案,那么各参数的计算方法如下。

1.确定烫印尺寸和烫印箔宽度

在计算烫印尺寸时一般需要在烫印图案尺寸的基础上再加2mm出血,因此本例中烫印尺寸即为18mm×18mm。

在全息定位烫印中,定位主要是为了消除烫印过程对烫印精度误差的逐步积累,因此独立图案的全息定位烫印箔通常需要用定位光标及时修正全息图案在间距上的误差。全息定位烫印箔上每个全息图案都需要匹配方形的定位光标,定位光标的尺寸通常为5mm×5mm,为保证全息定位烫印的稳定性,通常需要在全息图案的两边都加上定位光标,且定位光标两边都要各加1mm出血。本例中,由于横向(垂直于走箔方向)上的全息图案(含出血)宽度为18mm,因此全息定位烫印箔的宽度为18+5+5+2=30mm。

2.计算光标间距

光标间距是全息定位烫印箔最为重要的一项参数,其决定了全息定位烫印的稳定性,即根据拼版联数决定能否实现稳定距离跳步。

全息图案的出血尺寸为18mm×18mm,烫印时一个烟包盒片在走箔方向上的宽度为98mm,该宽度内所能做的全息图案数量为5(即98÷18≈5,取整),那么全息定位烫印的理论光标间距为19.6mm,计算公式为98÷5=19.6mm。然而,在全息定位烫印过程中,由于烫金机的收卷和放卷装置对全息定位烫印箔有一定的张力,因此计算全息定位烫印光标间距时通常采用在理论数据的基础上减去3‰作为最终的实际数据,所以实际光标间距应为19.54mm(保留两位小数)。

特别说明一下,在计算光标间距之前应充分考虑一个烟包盒片宽度(98mm)内全息图案的数量,如本例中得到的数量为5,而我们在前面已经提到,大张排版方式为3×6,即在走箔方向上共有6个图案需要进行全息定位烫印,由于5和6之间没有整数倍的关系,因此所计算的光标间距在全息定位烫印过程中可实现稳定距离跳步。然而,如果一个烟包盒片宽度(98mm)内全息图案的数量为6或3(即光标间距为16.33mm或32.66mm),由于6或3与走箔方向上需要进行全息定位烫印的图案数量6存在整数倍关系,此时全息定位烫印时就无法实现稳定距离跳步,可能要先小步跳再大步跳,而这种工艺在批量烫印时是无法保证稳定烫印质量的,因此需要重新修改计算方案。

3.计算跳步距离

基于前面的介绍,计算跳步距离时就容易多了。本例中,跳步距离即为19.54×6=117.24mm。至此,您或许就能够明白为何一个烟包盒片宽度(98mm)内全息图案的数量不能与走箔方向上拼版联数存在整数倍关系了,因为一旦存在整数倍关系,就会导致重步。

非参数统计分析方法 篇4

农业保险是转移和规避农业生产风险的一种比较有效的管理工具, 已成为国际上最重要的非价格农业保护工具之一, 目前世界上约有40多个国家在推行或试验该项农业政策, 是被WTO组织认为所允许的国家扶持农业发展的“绿箱”政策之一[1]。

科学厘定保险费率是确保农业保险经营稳定的重要前提[2]。传统农业保险是以单位农田的历史产量损失数据为基础, 通过核算保险费率开展起来的。作物遭受自然灾害时, 直接表现为产量损失或者质量下降。由于作物产量或者质量直接影响人们效用, 因此各国最初制定农业保险计划时, 大都以产量标的物进行风险分析, 努力找到作物产量的分布函数, 从而厘定不同损失程度的保险费率[3]。

已有的文献主要从两个方面, 即参数方法和非参数方法, 来描述产量分布和测量产量风险[3]。参数方法假定这种损失随机变量服从某一具体分布, 然后根据样本数据进行参数估计。国外学者提出了正态、对数正态、Logistic、Weibull、Beta、Gamma等多种分布形态[4,5,6,7,8]。参数估计方法一般要求有先验的分布函数以及样本容量足够大等, 而这在产量风险估计中估计结果具有不稳定性。

另一种方法是非参数方法, 这种方法是根据样本数据对所寻找的分布通过直方图来进行描述, 或者根据样本数据利用某种非参数方法, 如非参数核密度估计方法或最临近估计方法对所求的分布进行密度估计。农业保险费率厘定研究中关于非参数方法的运用主要集中于核密度估计法。Turvey等采用非参数估计量对农作物产量分布的保险费率进行了估计, 由于采用的样本过小, 限制了核密度估计的效果[8]。Barry等采用非参数核密度估计农作物产量密度, 并用此方法确定了美国小麦和大麦1995~1996年保险纯费率[3], 随后对该方法进行了重新的探讨, 提出了适应性核密度算法, 优化了估计的效果[2]。

本文介绍小波分析和非参数方法的一般数学原理, 列出保险费率厘定的小波——非参数统计方法一般步骤, 即利用小波方法确定出作物单产的趋势产量, 用非参数核密度方法估计作物损失的概率分布和保险费率的厘定, 最后进行实证分析, 将小波——非参数方法应用于江苏水稻保险纯费率的厘定, 得到在80%和70%保障水平下, 江苏水稻产量保险的纯费率分别为2.54%和1.67%。

2 小波——非参数方法介绍

2.1 小波分析

小波分析属于时频分析的一种, 它在时域和频域同时具有良好的局部化性质。它是一种信号的时间——尺度 (时间——频率) 分析方法, 具有多分辨率分析的特点, 而且在时频两域都具有表征信号局部特征的能力, 是一种窗口大小固定不变, 但其形状可改变, 时间窗和频率窗都可以改变的时频局部化分析方法。小波变换在低频部分具有较高的频率分辨率和较低的时间分辨率, 在高频部分具有较高的时间分辨率和较低的频率分辨率, 被作为分析信号的显微镜。由小波分析理论, 信号可以通过小波分解, 一层一层分解到不同的频率通道上。由于分解后的信号在频率成分上比原始信号单一, 并且小波分解对信号作了平滑, 因此分解后信号的平稳性比原始信号好得多。

多分辨分析是一种对信号的空间分解的方法, 在其基础上, 产生了小波分解的Mallat算法[9]。运用Mallat算法, 可以将信号一层层进行分解, 每一层分解的结果是将上次分解得到的低频信号再分解成低频和高频两部分。算法如下:

Aj+1, k=mh0 (m-2k) Aj, m (1) Dj+1, k=mh1 (m-2k) Aj, m (2)

j为分解尺度, k, m为平移系数, Aj, m为尺度系数, 是低频部分;Dj, k为小波系数, 是高频部分, h0, h1分别是低通和高通滤波器。

利用分解后的小波系数可以重构原来的序列, 小波系数的重构公式为

简而言之, 从第一层开始分解, 结果有高频部分D1和低频部分A1;接着, 对低频部分进行进一步的分解, 结果有高频部分D2和低频部分A2, 如此, 一直把信号进行分解, 经过4次分解之后, 原始信号A分解为:A=A4+D4+D3+D2+D1, 式中D1、D2、D3、D4分别为第1层到第4层分解得到的高频信号;A4为第4层分解得到的低频信号。这里分解层数的选择根据实际需要而定。

2.2 非参数核密度法

核密度估计理论由Rosenblatt[10]首次提出, 然后ParzenCacoullos进行了详细论证[11,12]。非参数核密度估计不需要该分布的先验知识和任何概率分布形式的假设, 是一种从数据样本本身出发, 研究数据分布特征的方法。

设X1, X2, …, Xn为n个指标样本, 指标样本的概率密度函数为f (x) , f (x) 的核密度估计定义为:

为核函数, h为窗宽, n为样本容量。

目前常用的核函数有均匀、三角、依潘涅契科夫、四次、三权、高斯六种形式[11]。在核密度估计中, 窗宽h和核函数的选择直接影响密度函数的估计精度;一个核估计的好坏, 取决于核函数及窗宽的选择是否合理[13,14,15]。

事实上, 在Kernel密度估计法中, 核函数的选择对估计结果的准确性影响并不大, 选择“合适”的窗宽h才是Kernel密度估计中十分重要的步骤。窗宽h越小, 核密度估计对原样本值拟合得越好 (即偏差越小) , 但密度曲线很不光滑, 有许多突出点 (即方差越大) ;窗宽h越大, 密度曲线越光滑, 方差越小, 但核估计的偏差却增大。因而, 如何选择一个合适的窗宽, 也就是在核估计的偏差和方差之间做一个权衡, 是利用核估计方法对密度函数进行估计的一个重要环节。选择窗宽h的一个常用原则就是使得均方误差MSE (f^) =E[f^ (x) -f (x) ]2dx最小, 主要方法有总量确定法、Sliverman的经验法则和各种插入法。Parzen指出最优的窗宽h的计算公式为[11]:

其中, θ为待估的密度函数, 如果未知密度是方差为σ2的正态分布, 则以正态分布函数作为核密度 (高斯核) [2]。

3 纯费率厘定的小波——非参数统计方法一般步骤

纯费率的厘定过程分为三个主要步骤——粮食单位产量小波分解、农作物产量损失概率的非参数估算、保险费率的厘定。

3.1 粮食单位产量序列小波分解

实际中遇到的时间序列经常含有趋势项、周期项和随机项, 其中趋势项和周期项在时间序列中非常重要[16]。我们可以对原时间序列进行小波变换, 将其分解成不同尺度的成分, 使复杂问题简单化, 再用小波逆变换合成。常见的小波函数是Harr小波、Daubechies小波、Symlet小波、Dmeyer小波等。针对不同的问题类型, 可以选择不同的小波函数。

影响作物最终产量形成的各种自然和非自然因素按影响的性质和时间尺度划分为农业技术措施、气象条件和随机“噪声”三大类[17]。从理论上讲, 由于农业技术进步、品种改良和劳动者素质提高等因素, 作物单产的潜在水平不是稳定不变的, 一般都有一个上升的趋势。剔除单产数据的趋势来考察粮食的单产波动十分重要, 否则不能反映出单产的真实波动。

相应地, 如果将粮食单产时间序列视作一个波动函数, 为研究的方便, 同时考虑实际物理意义, 可以将这个序列分解为三个波动的合成:

其中, Y为粮食单产, Yt是反映历史时期生产力发展水平的长周期产量分量, 称为趋势产量;确定趋势产量的一般方法是 (加权) 移动平均法、指数平滑法、回归拟合法等, 但移动平均法和指数平滑法都会损失一些样本数据, 而回归模拟法又具有很大的主观性。采用Daubechies小波对时间序列进行分解得到趋势项可以避免上述方法的缺点。Yp是受以气象要素为主的短周期变化因子影响的产量分量, 称为气象产量, ε是受病虫害、社会动荡等随机因素影响的产量分量, 实际计算中不作考虑。

3.2 农作物产量损失概率的非参数估算

农作物产量损失模型的构建是农作物生产风险分析和评估的关键步骤, 模型构建的准确性和合理性直接关系到作物生产风险分析评估结果的可靠性。

定义单产随机波动的相对值

此时气象产量就变成一个相对比值, 不受历史时期不同农业技术水平的影响, 其物理意义表明粮食波动的幅值, 不受时间和空间影响, 具有可比性, 能较好地描述气象灾害等各种短期变动因子对粮食单产的影响。

由前面的分析, 采用非参数方法估算农作物产量损失概率, 选用最为常用的高斯核作为核函数, Silverman经验法则计算窗宽。

3.3 纯费率的厘定

Alan P.KerBarry K.Goodwin的研究结果[2]表明, 农业保险的纯费率可以表示为:

其中, r是农作物产量保险纯费率, λ (0≤λ≤1) 表示农业保险的保障水平, Y表示当年的农作物实际产量, ye表示当年农作物的趋势产量。P (Y<λye) 表示当年农作物的实际产量小于保障水平下产量的概率。

4 小波——非参数统计方法实证分析

自2004年以来, 江苏的淮安、苏州和无锡先后开始了农业保险的试点工作, 农业保险在江苏省有了一定程度的发展, 2006年全省农业保险的保费比上年增长6倍以上。2007年江苏省被农业部、财政部和保监会列为全国六个农业保险试点省份之一。

以江苏淮安的农业保险实施条款为例, 已经植麦和植稻的农户, 保费的类型有三种:每亩农作物缴纳2.5元、5元或7.5元的保费, 如果产量损失超过正常产量的90%, 他们将从保险公司相应获得每亩100元、200元或300元的赔偿。根据实地调查, 这样的收费与赔款条款的设计基本上根据管理经验, 没有用统计方法进行科学的厘定。

江苏是我国南方水稻高产大省。2007年江苏省参加农业保险的水稻种植面积已经达到2986.99万亩, 占全省水稻种植面积90%以上。以江苏水稻的保险费率厘定为例, 具有实际的应用价值和推广意义。图1是建国以来江苏水稻的历年亩产量yt (单位:斤/亩) , 数据来源于中国种植业信息网的农作物生产统计数据。

Daubechies正交小波对江苏水稻历年亩产量数据进行分解, 分解三次其图形见图2。

A3分别为分解3次后数据的低频部分, 作为水稻产量序列的趋势项。D1, D2, D3分别为小波分解第一次到第三次的高频部分。

接着计算出单产随机波动的相对值, 采用非参数方法估算农作物产量损失概率, 选用最为常用的高斯核作为核函数, Silverman经验法则确定窗宽, 得到h=0.04333。利用Matlab软件作出水稻产量损失概率的拟合图 (图3) 。

编写相关Matlab程序, 计算出自建国以来江苏的水稻单产损失大于20%的概率为5.91%, 水稻单产损失大于30%的概率为3.86%。根据式 (8) 的计算, 在80%保障水平下, 水稻的纯费率为2.54%, 在70%保障水平下, 水稻的纯费率为1.67%。

5 结语

中共中央2004年、2005年两年的一号文件都不同程度提出, 要尽快建立我国政策性农业保险制度并进行试点工作。农业保险工作利国利民, 但是目前这项工作开展还存在不少技术问题, 农民和保险公司办理保险业务仍具有一定难度。其中保险费率的科学性是关系到农民投保和保险公司开展业务活动的关键, 本文改进了纯保险费率的厘定方法, 运用小波和非参数方法确定农作物的保险纯费率, 对政府和保险公司开展农业保险业务具有参考作用。

摘要:农业保险制度是被WTO组织认为所允许的国家扶持农业发展的“绿箱”政策之一, 科学厘定保险费率是确保农业保险经营稳定的重要前提。本文介绍了小波分析和非参数方法的一般数学原理, 接着列出了保险费率厘定的小波——非参数统计方法一般步骤, 即利用小波方法确定作物单产的趋势产量、用非参数核密度方法估计作物损失的概率分布和厘定保险费率。最后进行了实证分析, 将小波——非参数方法应用于江苏水稻产量保险纯费率的厘定。

非参数统计分析方法 篇5

大理大学 实验报告

课程名称

生物医学统计分析

实验名称

非参数检验(卡方检验)

专业班级

实验日期

实验地点

2015—2016 学年度第2

学期 一、实验目得 对分类资料进行卡方检验。

二、实验环境、硬件配置:处理器:Intel(R)Core(TM)i5-4210U CPU 1、7GHz 1、7GHz 安装内存(RAM):4、00GB

系统类型:64 位操作系统 2、软件环境:IBM SPSS Statistics 19、0 软件

三、实验内容 (包括本实验要完成得实验问题及需要得相关知识简单概述)(1)

课本第六章得例 6、1-6、5 运行一遍,注意理解结果;(2)

然后将实验指导书得例 1-4 运行一遍,注意理解结果。

四、实验结果与分析

(包括实验原理、数据得准备、运行过程分析、源程序(代码)、图形图象界面等)例 例 6、1 表 1 灭螨A A 与灭螨B B 杀灭大蜂螨效果得 交叉制表

效果 合计 杀灭 未杀灭 组别 灭螨A 32 12 44 灭螨B 14 22 36 合计 46 34 80 分析: 表1就是灭螨A与灭螨B杀灭大蜂螨效果得样本分类得频数分析表,即交叉列联表。

表 2 卡方检验

X2 值 df 渐进 Sig、(双侧)精确 Sig、(双侧)精确 Sig、(单侧)Pearson 卡方 9、277a、002

连续校正b

7、944 1、005

似然比 9、419 1、002

Fisher 得精确检验、003、002 有效案例中得 N 80

a、0 单元格(、0%)得期望计数少于 5。最小期望计数为 15、30。

b、仅对 2x2 表计算

分析: 表2就是卡方检验得结果。因为两组各自得结果互不影响,即相互独立。对于这种频数表格式资料,在卡方检验之前必须用“加权个案”命令将频数变量定义为加权变量,才能进行卡方检验。

Pearson 卡方:皮尔逊卡方检验计算得卡方值(用于样本数n≥40且所有理论数E≥5);

连续校正b : 连续性校正卡方值(df=1,只用于2*2列联表);

似然比:对数似然比法计算得卡方值(类似皮尔逊卡方检验);

Fisher 得精确检验:精确概率法计算得卡方值(用于理论数E<5)。

不同得资料应选用不同得卡方计算方法。

例6、1为2*2列联表,df=1,须用连续性校正公式,故采用“连续校正”行得统计结果。

X2 = 7、944, P(Sig)=0、005<0、01,表明灭螨剂A组得杀螨率极显著高于灭螨剂B组。

例6 6、2 2

表 3

治疗方法 * 治疗效果

交叉制表 计数

治疗效果 合计 1 2 3 治疗方法 1 19 16 5 40 2 16 12 8 36 3 15 13 7 35 合计 50 41 20 111 分析: 表3就是治疗方法* 治疗效果资料分析得列联表。

表 4

卡方检验

X2 值 df 渐进 Sig、(双侧)Pearson 卡方 1、428a、839 似然比 1、484 4、830 线性与线性组合、514 1、474 有效案例中得 N 111

a、0 单元格(、0%)得期望计数少于 5。最小期望计数为 6、31。

分析: 表4就是卡方检验得结果。自由度df=4,表格下方得注解表明理论次数小于5得格子数为0,最小得理论次数为6、13。各理论次数均大于5,无须进行连续性校正,因此可以采用第一行(Pearson 卡方)得检验结果,即X2 =1、428,P=0、839>0、05,差异不显著,可以认为不同得治疗方法与治疗效果无关,即三种治疗方法对治疗效果得影响差异不显著。

例6 6、3 3

表 5

灌溉方式 * 稻叶情况

交叉制表 计数

稻叶情况 合计 1 2 3 灌溉方式 1 146 7 7 160 2 183 9 13 205 3 152 14 16 182 合计 481 30 36 547 分析: 表5就是灌溉方式* 稻叶情况资料分析得列联表。

表 6

卡方检验

X2 值 df 渐进 Sig、(双侧)Pearson 卡方 5、622a、229 似然比 5、535 4、237 线性与线性组合 4、510 1、034 有效案例中得 N 547

a、0 单元格(、0%)得期望计数少于 5。最小期望计数为 8、78。

分析: 表6就是卡方检验得结果。自由度df=4,样本数n=547。表格下方得注解表明理论次数小于5得格子数为0,最小得理论次数为8、78。各理论次数均大于5,无须进行连续性校正,因此可以采用第一行(Pearson 卡方)得检验结果,即X2 =5、622,P=0、229>0、05,差异不显著,即不同灌溉方式对稻叶情况得影响差异不显著。

例 例 6 6、4 4

表 7

场地 * 奶牛类型

交叉制表 计数

奶牛类型 合计 1 2 3 场地 1 15 24 12 51 2 4 2 7 13 3 20 13 11 44 合计 39 39 30 108 分析: 表5就是场地* 奶牛类型资料分析得列联表。

表 8

卡方检验

X2 值 df 渐进 Sig、(双侧)精确 Sig、(双侧)精确 Sig、(单侧)点概率 Pearson 卡方 9、199a、056、056

似然比 8、813 4、066、079

Fisher 得精确检验 8、463

、072

线性与线性组合、719b、397、404、217、036 有效案例中得 N 108

a、3 单元格(33、3%)得期望计数少于 5。最小期望计数为 3、61。

b、标准化统计量就是-、848。

分析: 表 8 就是卡方检验得结果。自由度 df=4,样本数 n=108。表格下方得注解表明理论次数小于 5 得格子数为 3,最小得理论次数为 3、61。需采用精确概率法计算,即用第三行(Fisher 得精确检验)得检验结果,即 X2 =8、463,P=0、072>0、05,差异不显著,即 3 种奶牛牛场不同类型奶牛得构成比对差异不显著。

例 例 6 6、5 5

表 9

LPA* FA 交叉制表

FA 合计 1 2 LPA 1 17 0 17 2 4 7 11 合计 21 7 28 分析: 表9就是LPA* FA资料分析得列联表。

表 10

配对 卡方检验

值 精确 Sig、(双侧)McNemar 检验、125a

有效案例中得 N 28

a、使用得二项式分布。

分析: 表10就是LPA与FA两种检测方法得配对卡方检验。由于b+c<40,SPSS选用二项分布得直接计算概率法(相当于进行了精确校正),计算该配对资料得检验得精确双侧概率,并且不能给出卡方值。本例P=0、125>0、05,差异不显著,即LPA法与FA法对番鸭细小病毒抗原得检出率差异不显著。

表 11

对称度量

值 渐进标准误差 a

近似值 T b

近似值 Sig、一致性度量 Kappa、680、140 3、798、000 有效案例中得 N 28

a、不假定零假设。

b、使用渐进标准误差假定零假设。

分析: 表11为LPA与FA两种检测结果得得一致性检验。Kappa值就是内部一致性系数,除数据P值判断一致性有无统计学意义外,根据经验,Kappa≥0、75,表明两者一致性较好0、7>Kappa≥0、4,表明一致性一般,Kappa<0、4,则表明一致性较差。

本例Kappa值为0、680,P=0、000<0、01,拒绝无效假设,即认为两种检测方法结果存在一致性,Kappa值=0、680,0、7>Kappa≥0、4,表明一致性一般。

例1 1

表 12

周 内日频数表

观察数 期望数 残差 1 11 16、0-5、0 2 19 16、0 3、0 3 17 16、0 1、0 4 15 16、0-1、0 5 15 16、0-1、0 6 16 16、0、0 7 19 16、0 3、0 总数 112

分析: 表12结果显示一周内各日死亡得理论数(Expected)为16、0,即一周内各日死亡均数;还算出实际死亡数与理论死亡数得差值(Residual)。

表 13

检验统计量

周日 卡方 2、875a

df 6

渐近显著性、824 a、0 个单元(、0%)具有小于 5 得期望频率。单元最小期望频率为 16、0。

分析: Chi-Square过程,调用此过程可对样本数据得分布进行卡方检验。卡方检验适用于配合度检验,主要用于分析实际频数与某理论频数就是否相符。卡方值X2 =2、875,自由度数(df)=6,P=0、824>0、05,差异不显著,即可认为一周内各日得死亡危险性就是相同得。

例2 2

表 14

二项式检验

类别 N 观察比例 检验比例 精确显著性(双侧)性别 组 1 0 12、30、50、017 组 2 1 28、70

总数1、00

分析: 调用Binomial过程可对样本资料进行二项分布分析。表14得二项分布检验表明,女婴12名,男婴28名,观察概率为0、70(即男婴占70%),检验概率为0、50,二项分布检验得结果就是双侧概率为0、017,可认为男女比例得差异有高度显著性,即与通常0、5得性比例相比,该地男婴比女婴明显为多。

例3 3

表 15

两组工人得血铅值 及秩

group N 秩均值 秩与 血铅值 1 10 5、95 59、50 2 7 13、36 93、50 总数 17

分析: Independent Samples过程:调用此过程可对两个独立样本得均数、中位数、离散趋势、偏度等进行差异比较检验。有四种检验方法:Mann-Whitney U:主要用于判别两个独立样本所属得总体就是否有相同得分布;Kolmogorov-Smirnov Z:推测两个样本就是否来自具有相同分布得总体;Moses extreme reactions:检验两个独立样本之观察值得散布范围就是否有差异存在,以检验两个样本就是否来自具有同一分布得总体;Wald-Wolfowitz runs:考察两个独立样本就是否来自具有相同分布得总体。

表 16

检验统计量b b

血铅值 Mann-Whitney U 4、500 Wilcoxon W 59、500 Z-2、980 渐近显著性(双侧)、003 精确显著性[2*(单侧显著性)]、001a

a、没有对结进行修正。

b、分组变量: group

分析: 本例选Mann-Whitney U检验方法,表15结果表明,第1组得平均秩次(Mean Rank)为5、95,第2组得平均秩次为13、36,U = 4、5,W = 93、5,精确双侧概率P = 0、001,可认为铅作业组工人得血铅值高于非铅作业组。

例4 4

表 17

group* effect 交叉制表 计数

effect 合计 无效 有效 group 对照组 21 75 96 实验组 5 99 104 合计 26 174 200 分析: 表17就是group* effect资料分析得列联表。

表 18 卡方检验

X2 值 df 渐进 Sig、(双侧)精确 Sig、(双侧)精确 Sig、(单侧)Pearson 卡方 12、857a、000

连续校正b

11、392 1、001

似然比 13、588 1、000

Fisher 得精确检验、001、000 有效案例中得 N 200

a、0 单元格(、0%)得期望计数少于 5。最小期望计数为 12、48。

b、仅对 2x2 表计算

分析: 表18卡方检验资料n=200>40 , 表格下方得注解表明理论次数小于5得格子数为0,最小得理论次数为12、48。,可取Pearson卡方值与似然比(Likelihood ratio)值 ,二者值分别为12、857与13、588,P<0、01,试验组与对照组得疗效差别有统计学意义,可认为异梨醇口服液降低颅内压得疗效优于氢氯噻嗪 + 地塞米松。

五、实验小结:

(包括主要实验问题得最终结果描述、详细得收获体会,待解决得问题等)在此次实验中,由于实验内容更贴近生活应用,因此比起上学期,我们更容易领悟该程序得表达,只就是在细节方面还就是很容易出错,甚至不容易拐过弯来。但经过此次实验,我们懂得要学着从复杂得程序中剥茧抽丝,把程序尽可能得简单化。

在实验中应注意得点:

1、因为两组各自得结果互不影响,即相互独立。对于这种频数表格式资料,在卡方检验之前必须用“加权个案”命令将频数变量定义为加权变量,才能进行卡方检验。

2、Pearson 卡方:皮尔逊卡方检验计算得卡方值(用于样本数 n≥40 且所有理论数 E≥5);

连续校正 b:连续性校正卡方值(df=1,只用于 2*2 列联表);

似然比:对数似然比法计算得卡方值(类似皮尔逊卡方检验);

Fisher 得精确检验:精确概率法计算得卡方值(用于理论数 E<5)。

不同得资料应选用不同得卡方计算方法。

3、有列联表用于描述分析得卡方检验,而其它用于非参数检验就是对拟合优度得检验。

4、有计数用加权个数,就是具体数值,如例 3,则不用加权,因为两组数据长度不同,用独立 性检验,不知道总体分布情况,所有用非参数检验,要就是假设它为正态分布,也可以用 卡方检验。

5、描述统计里得交叉表得行、列选择可以互换,互换只就是转置,不影响最后得结果。

非参数统计分析方法 篇6

智能交通系统近年发展迅猛,交通控制和诱导成为当今社会交通领域的一大课题,解决这一问题的前提是采用精度高、时效性强的方法对交通流进行准确预测。现存的预测方法大致可分为2类:第1类是传统的基于数理统计模型的预测方法,如ARIMA模型[1,2]、自适应权重联合模型[2]、卡尔曼滤波模型[1]等,这些预测方法基于数理统计模型,计算简便,但是由于交通流的随机性与非线性,实际情况下,很难建立精确且符合交通流特征的数学模型,尤其无法克服随机干扰因素的影响。近年来,交通流预测开始逐渐依赖于第2类智能交通流预测方法,如神经网络方法[3,4]、支持向量机方法[5]、非参数回归方法[6,7]等。神经网络具有自学习自适应等优点,贠天鹂[8]针对传统预测方法准确性低、预测时间长等问题将遗传算法和神经网络相结合,提高了交通量的预测精度,张敬磊[9]提出的1种基于RBF和ARIMA网络非线性组合模型的短时交通流预测方法组合发挥了2种方法的预测优势。非参数回归是近几年兴起的1种适合不确定性的、非线性的动态系统的建模方法,其基本思想是:从交通流数据中寻找不同的“模式”、即交通流的当前状态和未来状态的固定对应关系并建立模式库,然后通过在模式库中寻找与当前状态相似的历史状态,并把与当前点匹配的历史状态应用于状态预测,具有可移植性强和预测精度高等特点,适应短时交通流预测。1995年Smith[10]第1次将其应用在短时交通流预测上,这之后很多学者提出了改进方法,王晓原[11]将小波分析算法和非参数回归结合,先将交通流数据分解重构得到光滑的交通信号曲线,提升了非参数回归的预测效果。贾宁[12]针对提高搜索速度和关键参数的优化设置2个问题,提出使用KD树作为模式库的存储结构,能够有效提高搜索速度,使预测性能进一步提高,这些预测方法在一定程度上满足了交通流预测的需要。

从预测原理上讲,非参数回归预测就是通过模式匹配的方法,利用交通流的当前状态(自变量)来估计交通流参数的未来值(因变量),因此自变量的选取是非参数回归预测方法应用中1个十分重要的问题[7]。在交通流预测中,一般有2种代表性思路。

1) 时间关联。

例如,利用待预测位置前推若干个周期的交通流量来预测未来的交通流量,这种选取方法的依据是交通流变化趋势的重复性。

2) 空间关联。

例如,该位置上游某点的当前流量,来预测该位置的未来流量,这种思路的依据是交通流的空间变化性质。

在实际应用中,具体应用哪种策略需要根据待预测道路的实际情况来选择。在高速公路交通流预测中,由于交通流信息采集设备一般间隔较远,大多只安装在高速公路的出入口附近,因此空间关联策略由于受到数据因素的限制,很难采用,因此只能以时间关联策略为主。

在目前提出的方法中,通行的做法是将收集的所有历史流量数据构造为样本数据库,然后采用预测路段前N个时刻的流量作为状态向量。但是,根据交通科学的原理,不同日期(例如:工作日和周末)的交通流量分布有明显的差异,如果忽视这一现实特点,对提高预测精度是不利的。因此,本文根据不同日期流量模式分布不同的原理,将聚类分析和非参数回归相结合,提出了基于聚类分析的非参数回归短时交通流预测方法,即先根据不同时间的交通流数据特点将流量数据进行分类,再选择匹配待预测时刻流量模式的类别作为样本数据库运用非参数回归进行预测,更好地考虑了交通流的现实特点和规律,使短时交通流预测的精度有所提高。

1 基于聚类分析的非参数回归短时交通流预测方法

不同日期道路状况、天气情况下,人们出行需求等都有很大差异,导致流量在不同日期的分布具有不同的特点。例如人们在节假日由于工作产生的出行需求大大降低,而因为旅游的出行增加,流量模式和非节假日必然不同。如图1、2对比所示,图1为天津市高速公路九宣闸站2011年3月3日的流量数据,3月3日为普通工作日,图2为九宣闸站2011年10月1日国庆节的流量数据,数据均来自天津市高速公路信息管理中心的实测数据。图1和图2虽然都具有早高峰和晚高峰,但是国庆节的高峰值所在时间早于3月3日。从流量值上看,国庆节的最高值在220辆左右,是3月3日的最高值2倍以上。

由图1可见,不同日期之间,交通流量在1 d当中的分布差异很大,从3月3日数据中发现的流量模式,直接应用于国庆节流量的预测势必会产生很大的误差。因此在交通流预测中,需要根据不同类型的交通流量分布去分别建立不同的交通流量模式库。因此,如何区分流量模式的类别对于预测精度有很大影响。凭经验直接分类不能科学准确地将交通流量分布区分,应该采用聚类分析方法根据流量相似程度分类。

1.1 K-means聚类方法

聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程,符合短时交通流预测对于流量模式分类的要求,本文选择K-means聚类方法。

K-means算法采用距离作为相似性的评价指标。该算法认为簇是由距离较近的对象组成的,它要求同一聚类中的对象相似度较高,不同聚类中的对象相似度较小。

流程如下:

1) 初始化。设定聚类数(K),随机选择某些样本点作为初始聚类中心;

2) 循环。按就近原则将其余记录向聚类中心聚集,计算出各个类新的聚类中心位置,并用它们重新进行聚类,反复循环直至聚类中心位置收敛。

K-means聚类方法需要预先设定类别个数(K),K值的选择对于之后聚类结果好坏以及预测的效果有直接影响。类别过少或过多都不能准确的表现出样本特性,无益于提升预测精度,类别太少会掩盖“同一类”样本中实际存在的差别;类别太多则无法抽象出“不同类别”间存在的共同特征,且可能导致预测流程繁琐或者某个类别中数据不足的情况。K值的设定应满足同一类中的对象相似程度较高,不同类中的对象相似程度较低。在进行交通流预测时,各类中的对象指的是不同日期流量的时间序列,本文选择这些时间序列之间的欧式距离作为衡量相似程度高低的标准,计算方法如下。

d=i=1Ν(X1i-X2i)(1)

为了满足以上聚类要求,可选择类间距离/类际距离作为评价K值优劣的指标。类间距离指的是同1类中每个数据和这个类中其他所有数据均值的欧式距离的和,用来表示同1类内部的距离大小,设为IntraDistance。类际距离指的是将每1类的每个数据和其他各类中数据均值的欧式距离的和,用来表示不同类之间的距离大小,设为InterDistance。IntraDistance/InterDistance越小,聚类效果越好。

因此,在运用K-means聚类区分流量模式时,只需预先设定几个符合实际情况的K值,分别进行聚类,然后计算IntraDistance/InterDistance,选择该指标较小的结果作为聚类结果,根据聚类结果分别建立数据库,为预测交通流做准备。

1.2基于聚类分析的非参数回归短时交通流预测方法框架

基于聚类分析的非参数回归短时交通流预测方法框架见图3。

由图3可知,预测流程如下:

1) 基于聚类分析建立模式库:非参数回归预测的准确程度和效率很大程度上取决于模式库的质量。模式库并不是越大越好,1个质量较好的数据库应该包含研究道路的所有状态,而又不存在过多数据冗余。为了区分不同日期的交通流量模式,应将以天为单位的历史流量时间序列作为对象,运用上述K-means聚类方法将其分为几类,然后对不同类中的历史数据分别建立模式库。

2) 定义状态向量和数据相似性:状态向量是指能够描述当前状态的几个分量组成的1个向量,在预测交通流时一般选择预测路段前N个时刻的流量时间序列;数据相似性的定义指根据何种标准评价当前点和历史数据库中的点的相似度,一般选用欧式距离作为相似性指标。

3) 选择样本数据库:将待预测时刻前N个时刻的流量时间序列作为表征流量模式的向量,计算该向量与流程1中建立的各数据库中的聚类中心点同时间的N个时刻组成的时间序列之间的相似性。选择相似性最小的库作为样本数据库。

4) 近邻机制的建立:近邻机制是如何根据数据相似性来判断历史数据库中的点是否是当前状态的近邻,一般有最小K近邻法和核近邻法[13]。

5) 定义预测算法:近邻点找到以后,如何利用这些近邻点预测下1个时刻的预测变量的值。常用的方法有:求平均值,加权平均法等。

综上,基于聚类分析的非参数回归短时交通流预测方法是指将历史数据库中的交通流数据运用聚类分析的方法区分为流量模式不同的几个类别,在有交通流预测需求时,基于模式识别的思想,选定流量模式最近似的类别作为样本数据库,然后采用非参数回归方法进行计算得到预测结果。

该方法有以下特点:

1) 该方法的数据首先经过聚类处理对不同交通流状态进行区分,使在交通流预测时考虑到不同时间的交通流特点不同的现实特征;

2) 选择非参数回归作为预测方法,具有可移植性和高适应性,当需要采用该方法在其他路段或站点进行预测时,只需将数据库更换即可。另外,车辆保有量和区间需求量的变化是对交通流预测结果的1个影响因素,由于车辆保有量和区间需求量一般是1个长期因素,它在短时间内变化较小,因此定期将新数据更新到非参数回归的模式库中可以较好地减小两者对预测结果的影响。

2 实例应用

为了验证聚类分析对于非参数回归短时交通流预测的效果,选择天津市域高速公路中的九宣闸站为研究对象,将该方法应用到该地点的交通流预测之中,并将结果与传统的预测方法进行对比。

九宣闸站为天津市高速公路的主线站,数据来源于天津市高速公路信息管理中心的实测数据,包括九宣闸站2011年全年和2012年1月份到3月份的过往车辆的OD数据,其中包含上游车站名称、到达时间。2011年全部数据作为历史数据。

2.1 聚类分析结果及分析

将2011年的流量数据预处理成每5 min 1个时刻的数据作为历史样本,通过SPSS 20采用K-means聚类算法进行聚类分析,由于交通流的现实特点以及预测的需要,K值不宜取较大的值。2.1节中已经说明类间距离/类际距离可以作为评定K值优劣的指标,因此,取K=2~6分别做5次聚类分析得出结果并计算类间距离/类际距离,取使intra/inter最小的K,即K=5,分为5类。

假设节假日和非节假日流量模式不同,以此为例分析聚类效果。图4为各类中所有样本点每一时刻流量的平均值所绘制的流量图,可以看出不同类别的交通流流量模式有明显的差异,第2类和第3类的流量值较低,第1类、4类、5类的流量值比较高。

由出行习惯可知,人们往往在节假日出行前1 d就考虑出行方案,因此可预知节假日前1 d的流量模式和节假日的流量模式相差不大。全年法定假日共29 d,加上假期前1 d计7 d,共36 d。表2为节假日在各类中的分布情况,图5为各类中节假日所占比例,由表2和图5可知,节假日在第5类中的有11 d,而其样本总量为300 d,节假日仅为3.7%左右。其他类样本总量为60 d左右,节假日占25 d,比例较高,第1类和第5类的节假日比例甚至在50%以上。第3类样本量较大,节假日比例低,流量均值较低,可知第3类为工作日类,其他几类包含节假日和流量值较大的日期,聚类分析区分开了不同日期的流量模式。

综上所述,不同时间段的交通流流量模式有显著差异,在进行短时交通流预测之前将流量模式分类有意义,并且K-means聚类分析方法可以将不同的流量模式较好地区别出来。

2.2 预测结果及分析

已经通过聚类分析获得不同类别的数据库之后,本文选择2.1节所述的天津市高速公路九宣闸站2011年3月1日至15日早8时到晚8时共2 160个时刻的数据作为待预测的数据,采用非参数回归进行预测得到结果并与真实数据对比检验预测效果。真实数据数据来源于天津市高速公路信息管理中心的实测数据。

非参数回归预测流程如下:

1) 确定状态向量和数据相似性。取预测路段前N个时刻的流量的时间序列作为状态向量,这里N取12。数据相似性为状态向量和数据库中同时间12个时刻的流量数据组成的向量之间的欧氏距离。距离越近,相似程度越高。

2) 选择样本数据库。在每次预测时,预测路段的状态向量可以作为表征该时刻流量模式的向量,计算该向量与各类数据库聚类中心点的同时间的向量之间的距离,选择距离最近的中心点所在的类作为样本数据库。

3) 建立近邻机制。K近邻机制在近邻机制的选择上选择K近邻非参数回归,并设定K值为15,即取15个近邻点。

4) 选择预测算法:不同近邻点和当前状态距离不同,为了将不同近邻点与当前状态的相似程度的差异体现在预测算法中,采用距离倒数的加权平均算法作为预测算法,设Xi为待预测状态的第i个近邻点,di为它与当前状态的距离,其中,d=i=1k1di。根据式(1)进行预测,近邻集合中的与待预测状态距离越大的点权值越小,相反地距离越小的点权值越大,符合实际情况,预测结果更为准确。

d=1di=1k1diXi(1)

采用上述流程得到预测结果后,将预测数据与真实数据相对比,将3月1日到15日共15 d的同一时刻的绝对误差值的平均值绘成折线图见图6。

由图6可知,该方法的大部分时刻的预测结果的绝对误差在5辆车以下,与真实数据相差很小,预测效果较好。

为了验证聚类分析对于非参数回归进行短时交通流预测的作用,采用普通K近邻非参数回归对待预测时刻也进行了预测,并将其误差与基于聚类分析的非参数回归方法进行对比。预测结果精度对比见表3。

由表3可知,基于聚类分析的非参数回归短时交通流预测方法在平均绝对误差和平均相对误差上都优于普通预测算法,聚类分析对于非参数回归短时交通流预测方法的预测效果有较大提升。

3 结 语

不同日期的交通流量分布不同,流量模式有很大差异,而一般的非参数回归方法将所有历史交通流数据看作1个时间序列进行分析和计算,没有很好地考虑交通流的现实特点。本文提出1种基于聚类分析的非参数回归短时交通流预测方法,即在进行短时交通流预测之前采用聚类技术对流量模式进行区分,根据聚类结果建立不同的数据库,预测时选择某1个匹配待预测时刻流量模式的数据库,结合非参数回归得到预测结果。实例计算结果表明,采用聚类分析来分类流量模式使非参数回归预测交通流的平均绝对误差和平均相对误差都有所降低,提高了预测性能,这对于交通控制和诱导有很大意义。

摘要:大部分非参数回归预测算法并不对交通流历史数据进行区分,而是将全部历史流量数据建立模式库进行分析。基于交通流的现实特征,提出基于聚类分析的非参数回归短时交通流预测方法,首先根据流量分布特点运用聚类分析将其分类成不同的流量模式,然后选择匹配待预测时刻的流量模式作为样本数据库运用非参数回归进行预测。实例计算结果表明,其预测精度优于传统非参数回归方法。

非参数统计分析方法 篇7

典型的三端协作系统由源节点S、协作节点R和目的节点D组成。Laneman在参考文献[1]中对于前向译码传输方案的性能进行了详细的分析,但其研究主要是建立在各个节点的发射功率相等、地理位置均匀对称、S-D和R-D两次传输时隙相等、传输内容相同的假设条件下的。近年来,协作分集在不同条件下的资源分配和联合优化已经成为研究热点[4,5,6,7]。参考文献[4]在信道资源(频带/时隙)分配固定的情况下,对功率资源最优分配和协作节点的选择问题进行了研究;参考文献[5]研究了在总能量受限的情况下,功率资源和信道资源的动态分配问题;Janani在参考文献[6]中提出了在协作通信的两个阶段采用不同编码码本的并行编码PC(Parallel coding)方案,研究表明其性能较传统基于重复编码的前向译码协作有明显改善;H.Ochiai在参考文献[7]中研究了基于并行编码的可变速率的协作方案;Khormuji M.N.在参考文献[8]、[9]中研究了前向译码中继的性能和参数优化问题,其中参考文献[8]主要侧重于研究不同信道状态和不同合并方式下的系统中断概率性能,参考文献[9]主要侧重于研究部分重复编码协作传输方案的性能。

由于实际应用中节点地理位置的随机性和不对称性,导致传统对称协作传输方法不能充分利用协作节点资源。本文拟采用基于并行编码的协作传输模式,结合不对称功率资源分配和信道(时隙)资源分配方法,来动态适应节点相对位置的变化;推导了大信噪比条件下,选择合并和编码合并时非对称前向译码协作的中断概率性能表达式。仿真得到了最优时隙分配参数和功率分配参数随节点相对位置变化的曲线图。最后结合理论分析和数值仿真,提出了一种简化的参数优化方法。仿真结果表明,这种参数简化方法较好地逼近了联合优化方法性能,且相对于对称协作而言,有明显的分集增益。

1 信号模型和参数说明

典型的三端协作模型如图1所示。实际应用中,由于受收发隔离性能的限制,通常要求节点工作在半双工状态[1]。在时分半双工前向译码模式下,每次传输包括两个阶段:在第一个阶段,S发送信息,R和D接收信息;如果R能够正确译码,则它将在第二阶段给D发送信息,否则不发。假设S-D,S-R,R-D的信道为相互独立的大尺度平坦瑞利分布,传输增益分别为asd、asr、ard。服从均值分别为gsd、gsr、grd的指数分布。zr、zd1、zd2分别为协作节点,目的节点第一阶段和第二阶段接收到的高斯白噪声,其均值均为零,方差均为N0。

若不采用协作直接传输时,每次传输时间为T0,传输速率为R0,带宽为B,则频带利用率为η0=R0/B;采用对称DF协作传输之后,第一阶段和第二阶段所占用的时隙均为0.5T0,因此每个阶段的频带利用率均为2η0。假设源节点和中继节点的发射功率均为P0,则消耗总能量为E0=P0T,发端的信噪比为ρ0=P0/N0。根据参考文献[1]的研究结论,大信噪比条件下DF的中断概率为:

2 非对称前向译码性能分析

由于非对称传输时,目的节点在两个阶段将接收到两份码本不同的信息,因此不能采用最大比合并MRC(Maximum Ratio Combining)。根据目的节点取得的信道信息状态和处理能力的不同,其合并方式有选择合并SC(Selection Combining)和编码合并CC(Code Combining)两种。

2.1 选择合并非对称前向译码

对于选择合并而言,目的节点每次只选择一个阶段接收到的信号进行解调、译码,因此:

由于asd、asr、ard相互独立,因此A、B、C相互独立,系统的中断概率为:

其中,P(B)=1-P(B),将(3)、(4)、(5)式代入(6)式,在大信噪比条件下利用ex≈1+x(0

2.2 编码合并非对称前向译码

对于编码合并而言,目的节点第二阶段译码时可以将两次接收到的信号采用合适的方法进行信息叠加。对于编码合并而言P(A)、P(B)与SC方式的表达式相同,但是P(C)的表达式为:

这是两个随机变量|asd|2、|ard|2函数的分布,大信噪比条件下近似可得[9]:

其中:

具体推导过程见附录1。对于编码合并而言,A、B相互独立,但是A与C并不独立,且,因此系统的中断概率为:

将(3)、(4)、(9)式代入(10)式可得:

3 参数联合优化和仿真

系统参数联合优化的目标是通过调整功率分配参数和时隙分配参数δ,使得Pout-SC、Pout-CC尽可能小。优化方法是:对于每组dsd、dsr、drd,在δ和κ的变化范围内,做两重循环搜索,通过比较大小找出Pout-SC、Pout-CC的极小值。考虑到实际中设备的功率调整能力,取κ的搜索范围为(0.01~100),相当于协作节点与源节点发射功率比的范围为(-20 dB~20 dB)。

取,定义,则协作节点R在以源节点S和目的节点D为直径的圆周上移动。当R靠近S时,dsr较小,ξ→0;当R靠近D时,dsr约等于dsd,ξ→1。取η0=1 bit/s/Hz,经过计算机搜索,当Pout-SC、Pout-CC取最小值时,优化得到的最优δ和最优κ取值与ξ变化关系曲线分别如图2、图3所示。由图可以看出,当协作节点与源节点较近时,δ≈0.5;当协作节点离源节点较远时,δ逐渐增大;当协作节点靠近目的节点,即离源节点最远时,δ→1。对于κ值而言,当协作节点与源节点较近时,κ≈1;当协作节点离源节点较远时,κ逐渐减小。

假设信道传输系数的均值服从大尺度路径损耗模型,即gsd=1/dαsd、gsr=1/dαsr、grd=1/dαrd其中dsd、dsr、drd分别表示S-D、S-R、R-D的距离,α称为路径衰落因子[8],一般取2~5,在这里固定取α=4。

4 参数简化优化和仿真

在上一节中,参数δ和κ的联合优化问题主要是通过计算机搜索得到的,运算量很大,且难以得到一个闭式解。经过理论分析和大量数值仿真,提出如下的简化参数优化方法:

定义经典对称DF的中断概率与非对称DF协作的中断概率的比值为相对增益,即。采用参数联合优化时,SC和CC的相对增益分别记为GSCO,GCCO;采用(12)、(13)式的简化参数优化方法时,相对增益分别用GSCJ,GCCJ表示。取α=4,图4和图5分别是η0=0.1 bit/s/Hz和η0=1 bit/s/Hz时,相对增益GSCO、GSCJ、GCCO、GCCJ的对比曲线图。可以看出,采用简化参数优化方法得到的相对增益与联合优化方法相比误差均在0.5 dB以内;同时,非对称DF协作相对于对称DF协作可以获得数个dB的增益;当中继节点离目的节点越近时,相对增益越大;当频带利用率越大时,相对增益越大。

本文研究了非对称前向译码协作的中断概率性能和功率分配、时隙分配参数的优化问题。通过计算机仿真,得到了最优功率分配因子和时隙分配因子变化曲线图。最后结合理论分析和数值仿真,提出了一种参数简化优化方法,给出了参数优化表达式,减少了计算机搜索运算量。数值仿真表明,这种参数分段近似方法较好地逼近了联合优化方法性能,得到的相对增益误差均在0.5 dB以内。

本文的研究是建立在三端协作基础上的,当有多个源节点、多个中继节点或多个目的节点时,结合节点实际位置的功率资源和时隙资源联合最优分配问题还需要进一步研究。

摘要:研究了基于并行编码的非对称前向译码协作的中断概率性能以及节点相对位置、功率分配和时隙分配等参数的联合优化问题。结合理论分析和数值仿真,提出了一种简化参数优化方法。仿真表明,这种简化方法性能较好地逼近了联合优化方法的性能,相对于对称前向译码协作有明显的分集增益。

关键词:协作分集,前向译码,中继信道,并行编码,选择合并

参考文献

[1]LANEMAN J N,WORNELL G W,TSE D N C.Cooper-ative diversity in wireless networks:efficient protocols and outage behavior[J].IEEE Transactions on Information Theory,2004,50(12):3062-3080.

[2]SADEK I A S,WEIFENG A K,et al.Cooperative comm-unications with relay-selection:when to cooperate and whom to cooperate with[J].IEEE Transactions on Wireless Communications,2008,7(7):2814-2827.

[3]Somekh-Baruch,SHAMAI A,VERDU S,et al.Coopera-tive multiple-access encoding with states available at one transmitter[J].IEEE Transactions on Information Theory,2008,54(10):4448-4469.

[4]T.Chiu-Yam Ng,YU W.Joint optimization of relay strategies and resource allocations in a cooperative cellular network[J].IEEE Journal on Selected Areas in Communi-cation,2007,25(2):328-339.

[5]GUNDUZ D,ERKIP E.Opportunistic cooperation by dynamic resource allocation[J].IEEE Trans.on Wireless Communications[J].2007,6(4):1446-1454.

[6]JANANI M,HEDAYAT A,HUNTER T E,et al.Coded cooperation in wireless communications:space-time trans-mission and iterative decoding[J].IEEE Transactions on Signal Processing,2004,52:362-371.

[7]OCHIAI H,MITRAN P,TAROKH V.Variable rate two phase collaborative communication protocols for wireless networks[J].IEEE Transactions on Information Theory,2006,52(9):4299-4313.

[8]KHORMUJI M N,LARSSON E G.Finite-SNR analysis and optimization of decode-and-forward relaying over slow fading channels[J].IEEE Transaction on Vehicular Technology.To apear,2009.

[9]KHORMUJI M N,LARSSON E G.Cooperative transmi-ssion based on decode-and-forward relaying with partial repetition coding[J].IEEE Transactions on Wireless Comm-unications,2009,8(4).

非参数统计分析方法 篇8

托管代码调用非托管代码, 必定存在参数传递问题, 但其参数传递方法不仅与托管代码之间参数传递方法不同, 而且与托管代码之间参数传递方法也不相同。.NET平台提供了多种参数传递方法, 本文就托管代码调用非托管代码及其参数传递的实现方法进行了研究。

1 托管代码调用非托管代码的方法

托管代码可以通过静态 DLL 入口点的方式来访问非托管代码, DllImport 属性用于指定包含外部方法实现的DLL名称。DllImportAttribute是System.Runtime.InteropServices命名空间的一个属性类, 它提供对从非托管 DLL 导出的函数进行调用所必需的信息, 除必须提供包含入口点的DLL名称外, 其它参数都是可选的。用DllImport属性修饰的方法必须具有static和extern修饰符。

假定动态链接库Test.DLL导出的非托管代码C函数声明如下:

extern “C” __declspec (dllexport) void WINAPI setInt (int value) ;

则C#类中声明外部方法为:

[DllImport ("Test") ]

static extern void setInt (int value) ;

C#代码中, 该方法只有声明, 没有实现。

2 数据传递的各种方法

2.1 基本数据类型参数传递

基本数据类型包括整型、浮点型、布尔型、字符型, C#和C/C++之间存在这些数据类型的对应关系。

2.1.1 参数传入

以C的unsigned int为例, 假定动态链接库Test.DLL导出的非托管代码C函数声明如下:

extern “C” __declspec (dllexport) void WINAPI setUInt (unsigned int value) ;

则C#类中声明外部方法为:

[DllImport ("Test") ]

static extern void setUInt (uint value) ;

该方法只能将托管代码的参数传递到非托管代码。

2.1.2 参数传出

以C的double为例, 假定动态链接库Test.DLL导出的非托管代码C函数声明为:

extern “C” __declspec (dllexport) void WINAPI calc (double* value) ;

或extern “C” __declspec (dllexport) void WINAPI calc (double& value) ;

则C#类中声明外部方法为:

[DllImport ("Test") ]

static extern void calc (ref double value) ;

该方法既能将托管代码的参数传递到非托管代码, 也能将非托管代码的参数返回到托管代码。如果不需要将托管代码的参数传入非托管代码, 则只需要将C#类声明方法参数的ref修改为out即可。

2.1.3 函数返回值传递

如果函数返回值为基本数据类型, 则只需要将void修改为相应的数据类型即可。如果返回值为基本数据类型指针, 则需要将void修改为IntPtr, 并且需要调用System.Runtime.InteropServices.Marshal类的相应方法进行处理。

2.2 字符串参数传递

字符串是应用程序中常用的数据类型, .NET平台提供了string类型。因此字符串参数的传递实际上是.NET的string类型和C/C++中的char[]或char*类型的传递。

2.2.1 参数传入

假定动态链接库Test.DLL导出的非托管代码C函数声明如下:

extern “C” __declspec (dllexport) void WINAPI setString (const char * value) ;

则C#类中声明外部方法为:

[DllImport ("Test") ]

static extern void setString (StringBuilder value) ;

该方法只能将托管代码的参数传递到非托管代码。

2.2.2 参数传出

假定动态链接库Test.DLL导出的非托管代码C函数声明如下:

extern “C” __declspec (dllexport) void WINAPI setString (char * value) ;

则C#类中声明外部方法为:

[DllImport ("Test") ]

static extern void setString (ref StringBuilder value) ;

该方法既能将托管代码的参数传递到非托管代码, 也能将非托管代码的参数返回到托管代码。如果不需要将托管代码的参数传入非托管代码, 则只需要将C#类声明方法参数的ref修改为out即可。

2.2.3 函数返回值传递

如果函数返回值为字符串, 则只需要将void修改为IntPtr, 并且需要调用System.Runtime.InteropServices.Marshal类的相应方法进行处理。

2.3 结构参数传递

基本数据类型和字符串参数只能传递一个数据项, 当数据项较多时, 一般采用结构来描述。传递结构参数时, 必须在C#代码中声明与C/C++结构相对应的结构, 而且考虑效率因素, 一般通过指针或引用传递。如标识屏幕位置的C#结构声明为:

public struct Pos

{

public int x;

public int y;

}

2.3.1 参数传递

假定动态链接库Test.DLL导出的非托管代码C函数声明如下:

extern “C” __declspec (dllexport) void WINAPI movePos (Pos* dest) ;

或extern “C” __declspec (dllexport) void WINAPI movePos (Pos& dest) ;

则C#类中声明外部方法为:

[DllImport ("Test") ]

static extern void movePos (ref Pos dest) ;

2.3.2 函数返回值传递

如果函数返回值为基本数据类型, 则只需要将void修改为IntPtr, 并且需要调用System.Runtime.InteropServices.Marshal类的相应方法进行处理。

2.4 回调函数传递

回调函数在Windows API中经常用到, 其调用关系如图1所示:

假定动态链接库Test.DLL导出的非托管代码C函数声明如下:

typedef void (_WINAPI *callback) (int value) ;

extern “C” __declspec (dllexport) void WINAPI callFunc (callback fn) ;

在C#代码中, 首先要定义委托函数类型public delegate void callback (int value) ;

然后在C#类中声明外部方法callFunc和回调函数实现方法callbackImpl:

[DllImport ("Test") ]

static extern void callFunc (callback fn) ;

static void callbackImpl (int value)

{

Console.WriteLine ("callbackImpl paramter value = {0}.", value) ;

}

采用以下方式调用callFunc方法:callFunc (new callback (callbackImpl) 。回调函数对参数的处理方法与2.1到2.3所述相同。

摘要:基于.NET平台的应用程序开发, 经常会需要调用Windows API等非托管代码DLL, 托管代码和非托管代码之间的参数传递是一个不可缺少的环节。.NET平台提供了多种参数传递方法, 每种方法都有其适用范围, 就托管代码调用非托管代码及其参数传递方法进行了探讨。

关键词:托管代码,非托管代码,调用,参数传递,C#

参考文献

[1]Christian Nagel.C#高级编程 (第4版) [M].李敏波, 译.北京:清华大学出版社, 2006.

[2]Microsoft Corporation, CSharp Language Specification[EB/OL].http://download.microsoft.com/download/3/8/8/388e7205-bc10-4226-b2a8-75351c669b09/csharp%20language%20specification.doc.

[3]Microsoft Corporation.平台调用教程[EB/OL].http://msdn.mi-crosoft.com/zh-cn/library/aa288468 (VS.71) .aspx.

非参数统计分析方法 篇9

随着智能交通系统的发展, 交通管理模式逐渐由被动转为主动, 短时交通流预测作为智能交通系统的核心技术之一, 为交通信息服务、交通控制与诱导提供基础数据, 对预测效率和精度都要求较高。短时交通流预测的研究方法可分为2类:传统的基于数学模型的方法;数据驱动式的计算智能方法[1]。近年来, 面对复杂的路况以及大量的交通数据集, 第1类方法存在明显不足, 学者们逐渐将研究重点转向后者[2,3,4,5]。非参数回归预测就是1种基于数据驱动式的计算智能方法, 它实际上是基于模式匹配和数据挖掘的方法, 其优点在于它完全是数据驱动的, 几乎不需要先验知识, 只需要有足够规模的模式库, 就可以做到比较准确的预测。

近年来, 许多学者将非参数回归方法应用于交通流预测, 但在实际应用中存在预测时间长, 实时性差的缺陷。1991年, Davis和Nihan[6]首次将非参数回归的方法应用于交通预测中, 指出该方法适用于预测非线性的交通数据, 但该算法需要维护1个庞大且具有代表性的历史数据库, 因此运行所耗费的时间相对较长。Smith等[7]将非参数回归模型应用于单点短时交通流预测, 但在实际使用上仍存在搜索速度过慢的问题。后来, 许多学者就这一问题提出解决方案, Oswald等[8]用KD树来建立历史模式库进行模糊最近邻搜索, 缩短了K近邻算法的运行时间。张晓利等[9]针对非参数回归中案例库生成难和搜索速度慢的问题, 提出1种基于平衡二叉树的K-邻域非参数回归预测方法, 该算法首先对历史数据进行聚类, 然后采用平衡二叉树建立历史数据库, 预测速度有一定提高。贾宁等[10]用KD树作为模式库的存储结构, 并基于KD树进行最近邻搜索, 有效地提高了近邻搜索速度。但KD树的形态高度依赖于数据的插入顺序, 不合理的插入顺序会影响KD树的结构, 从而影响查询效率。另外, 数据的删除会导致KD树结点的重新组织, 而现实中预测系统不断增加新数据, 剔除旧数据, 这使得模式库的更新耗费大量时间[11]。

综上所述, 非参数回归方法可以解决交通流预测中的非线性和不确定性问题, 使预测精度达到满意的效果。但该方法要求大量的历史数据来构建历史模式库, 当数据量和状态向量维数增长时, 预测的速度将下降, 从而影响预测的实时性。随着大数据时代的到来, 交通流数据不断增长, 同时为了准确预测交通流量, 考虑的影响因素也越来越多, 如检测点历史流量、速度、占有率, 上下游的流量、速度、占有率, 信号灯情况, 天气因素, 地理位置等。这些问题使得非参回归方法中历史模式数据库建立和模式搜索的速度受到挑战, 而传统的线性数据库已经不能满足预测的实时性要求。因此, 笔者提出了1种基于R树的K近邻非参数回归短时交通流预测方法, 该方法使用R树来建立模式库, 根据数据在空间中的分布进行存储, 使相近数据存储在同1个或相邻的节点中, 这便使得K近邻搜索的速度得以提高, 从而提高预测的实时性。

1 基于R树的交通流非参数回归预测方法

1.1 交通流非参数回归预测方法

非参数回归是1种数据驱动的预测技术, 是1种适合于不确定性和非线性性动态系统的非参数估计方法。将其用到交通流预测中的主要过程就是在数据库中寻找与当前交通模式相近的历史模式, 再用这些历史模式去预测当前交通流量。在数据库中, 1条交通流模式由2部分组成, 一部分为断面交通流的状态向量, 即影响该断面交通流量的因素f1~fn, 如该断面以及上下游的历史交通流特征 (流量、速度、占有率) 、天气、地理位置等;另一部分则为断面的交通流量q, 它由状态向量所决定。因此, 1条交通流模式可表示为{f1 (ti) , …, fn (ti) |q (ti) }。随着交通系统的运行, 交通流模式将不断被加入到历史模式数据库中。

1.2 R树结构

R树[12]最初由Guttman于1984年提出, 作为1种空间索引机制, 它将空间对象按范围划分, 每个结点对应1个空间区域, 在物理存储上, 每个结点对应1个磁盘页。相应于交通流数据, 由于它的状态向量往往都是多维的, 因此1条交通流模式可被看作是多维空间中的1个点, 那些状态向量相似的模式在多维空间中是相邻的, 它们将被划分到同1个字空间存入同1个磁盘页。因此在进行数据检索时, 可根据数据的空间位置快速有效地在多维空间中找到1组相似的数据。R树中的结点分为2种:叶结点和非叶结点, 叶结点存储的是其区域范围内所有空间对象的最小边界矩形 (minimum bounding rectangle, MBR) , 非叶结点存储的是包络其所有子结点所在空间范围的MBR。该设计使得对空间对象进行搜索时只需访问小部分结点, 并且可以方便快速地进行空间对象的插入和删除操作, 无需对树中所有数据进行空间上的再组织。

R树空间数据存储方法是把多维空间进行递归划分, 最终将空间对象划分到不同的子空间中。每个子空间都由1个结点表示, 而每个结点有惟一的记录形式。叶结点的记录形式为: (M, i) 。其中:M为包络了该结点中所有空间对象的MBR;i为该结点的标识即其物理存储地址。非叶结点的记录形式为: (M, p) 。其中:M为包络了其所有子结点所在区域的MBR;p为指向其子结点存储位置的指针。对于n维空间中的1个MBR, M可表示为M= (I0, I1, …, In-1) , 其中:Ii指空间对象在第i维上的取值范围[a, b], 它在数值上等于该空间中所有数据第i维的最小值和最大值。

R树的构造方法就是将数据点逐个插入到R树中, 在插入过程中, 寻找最优的路径, 使相近数据聚集在同1个结点中, 保证R树的结构稳定。下面给出R树构造的伪代码, 设R为R树的根结点, E为要存入到R树中的数据。

1.3 基于R树的K近邻搜索策略

历史模式数据库中交通流模式的状态向量是多维的, 而且模式数量众多, R树组织结构的特点就是将空间中相邻的对象划分在1个区域内, 使它们拥有共同的祖先, 待测对象与其他对象间的距离可以通过它们的祖先与待测对象的距离表示。使用R树进行近邻搜索, 可通过祖先与待测对象的距离剔除大部分距离远的分支, 这样便可提高查找效率。

R树中结点存储的是其若干子结点或空间对象的MBR, MBR为包络对象所在空间的最小边界矩形, 通常用其主对角线上的2个顶点表示, 例如, 在二维空间里, 用 (xl, xh, yl, yh) 表示。在本文中, 用minDist表示点p到空间内某矩形R的最小距离, 若点p在矩形R内, 则两者距离为零;若点p在矩形R外, 则两者的距离为p到矩形R上最近1点的欧式距离平方值。则minDist (p, R) 表示为[13]

式中:pi为n维待测点p第i维的值, i=1, 2, …, n;ri为n维空间矩形R在第i维与待测点p距离较近的值, i=1, 2, …, n;si为n维空间矩形R在第i维上的最小值。ti为n维空间矩形R在第i维上的最大值。

可以证明, 点p到MBR的minDist小于等于点p到该MBR中任意对象O的距离[14]。因此minDist值可以看作待测点p到每1个MBR中对象的距离下限, 在查找过程中可以按照minDist值从小到大排列, 确定MBR的搜索顺序, 从而减少需要访问结点的数量。但因为MBR内对象分布不均匀, 待测点到MBR中对象的距离比minDist确定的距离远, 如果先访问minDist值小的MBR, 并将其中的对象都作为近邻点, 那么将损失更优的对象, 从而影响了预测精度。如图1所示, minDist (p, MBR1) <minDist (p, MBR2) , 但MBR2中的对象多集中于靠近点p一侧, 而MBR1中的对象多集中于远离点p的一侧。因此, 点p到MBR2中对象的距离比到MBR1中对象的距离小, 若将MBR1中的对象均视为p的近邻, 则会影响预测精度。为解决该问题, 引入参数距离上限r, 它表示近邻点与待测点之间的距离上限, 若MBR中的对象到p的距离小于r, 则将其视为近邻点。因此, 即使某个MBR到待测点p的minDist较小, 若其中的对象到p的距离都大于r, 舍弃该MBR, 继续搜索其它的MBR, 直到搜索到K个近邻或者遍历完整棵树。

因此笔者采用的K近邻搜索策略是:首先设定1个距离上限r, 对于MBR中的任意对象O, 当Dist (p, O) ≤r时, 将其视为p的近邻;然后对R树进行有序深度优先遍历, 从根结点开始向下逐层访问MBR, 对于同层的结点, 计算所有MBR到待测点p的minDist, 然后将结点按minDist由小到大排序后放入链表ABL中;之后选择minDist最小的结点递归进行以上过程, 直至到达叶结点, 在叶结点中选择距离小于r的对象放入近邻集合中;若近邻个数等于K或遍历完整棵树, 则搜索完成, 否则, 返回链表中ABL搜索下一个结点。

设R树的根节点为R, 待测点为p, 搜索的距离上限为r, 近邻个数为K, 近邻点存于Nearest列表中。则该搜索策略的伪代码如下:

1.4 预测算法

预测算法是影响预测精度的重要因素, 它是根据K近邻查找得到的近邻点, 利用预测函数做出合理的预测。

笔者采用带权重的预测方法, 设搜索到的K个近邻点为n1, n2, …, nk, 对应的决策属性为y1 (t+1) , …, yk (t+1) , 待测点与第i个近邻点的距离为di (i=1, 2, …, k) , 距离越小的点在预测中所占的权重越大, 则预测算法如下。

2 实验与应用

2.1 线性和R树结构下K近邻搜索速度的对比

首先针对2种结构下的历史模式库进行K近邻搜索速度的比较实验。在实验中, 每个数据对象由10维状态向量表示, 状态向量中的各分量是随机生成的0~1之间的实数, 距离上限r为1, 近邻个数K=20。对不同规模的模式库进行查找实验。实验程序使用Java语言编写, 硬件环境为2.4GCPU, 4G内存, 实验结果见图2。

由图2可见, 随着数据规模的增大, 线性结构的查找耗时增长快, 而R树结构查找速度比较稳定, 在耗时上没有明显的增长。这是因为在线性结构的数据库中进行K近邻查找时, 需要遍历整个数据库, 进行1次最近邻搜索的时间复杂度是O (kN) , k是数据对象的维数, N是数据库规模, 因此查找时间与数据库规模N成正比。R树的查找速度与其遍历的节点数目以及每个节点中数据对象的数量成正比, 而其遍历的节点数目与R树的高度有关, R树的高度可表示为因此R树最近邻查找的时间复杂度可表示为式中:k为数据对象的维数;N为数据库规模;m为节点容量下限。因此使用R树进行K近邻查找的速度明显优于线性结构。

2.2 预测应用

2.2.1 数据来源

实验采用的交通数据来自加利福尼亚州交通局的路况监测系统[15] (caltrans performance measurement system) , 这些数据采集自圣地亚哥市I5号公路由北向南24.4km (15.2 mile) 处的检测器, 包含了2013年1月1日~2014年1月15日的流量数据, 其中每5min记录1条交通流量, 1d共288个样本。实验中将所有样本的交通流量进行归一化处理, 以2013年全年105 120条数据作为历史模式来建立数据库, 2014年的4 320条数据作为测试数据来进行流量预测, 预测周期为5 min。在预测中, 仅考虑交通流量之间的时间关联, 用前10个时刻的流量来预测本时刻的流量。

2.2.2 近邻个数和距离上限的确定

在本文涉及的K近邻搜索策略中, 对最后预测精度及速度起到影响作用的参数有2个, 1个是近邻个数K, 另1个是距离上限r。对于近邻个数K而言, 过大或过小都会影响非参数回归预测结果, 如果K过大, 那么需要搜索较多的结点, 增加搜索耗时。如果K过小, 则会降低预测精度。通过对比实验检验K值与预测误差的关系, 其他参数固定, K分别取不同的值进行预测, 预测效果见图3, 当K值为20时, 预测结果的平均相对误差最小, 因此实验中K值取20。

对于距离上限r来说, 如果r过大将起不到约束minDist的作用, 虽然在进行K近邻查找时, 能较快找到K个近邻, 但这些近邻与待测点的距离却相对较远, 即这些点并不是待测点的最优匹配点, 在未访问的结点中可能存在与待测点更加匹配的数据。这样虽然达到一定的预测效率, 却在预测精度上略有不足。如果r过小, 即对待测点的近邻要求更严格, 这样在近邻查找过程中将访问更多的结点来查找最优近邻, 虽然提高预测精度, 但是却以牺牲预测效率为代价。图4是不同r值与耗时的关系图, 在实验中, 从0开始, 每隔0.01取1个r值, 直到r为1。每个r值, 进行20次K近邻查找, 其中K=20, 再计算平均耗时, 结果如图4所示, 当距离上限r从0增到0.05时, 耗时显著减小, 当距离上限r继续增大时, 耗时渐趋平稳。

2.2.3 预测结果

非参数回归是通过历史数据对未来数据的模拟, 方法自身具有一定误差。线性结构下的非参数回归下的K近邻搜索, 在遍历完所有的模式的前提下, 找出K个近邻点, 所得近邻点是距离待测点的最近的前K个, 因此, 它的误差可以看作是非参数回归方法自身的误差。表1为线性结构下, 近邻个数为20时的预测结果。

R树结构下的非参数回归, 除了非参数回归自身的误差之外, 还应考虑R树下K近邻查找的误差, 该方法查找出来的K个近邻点, 并不是离待测点最近的K个近邻, 因此预测误差较大。但是在该方法中, 误差的大小在一定程度上可以通过距离上限r调节。如表2所示, 随着距离上限r减小, 预测耗时不断增加, 但都低于线性结构下的预测耗时, 而平均相对误差不断减小, 接近甚至优于线性结构下的预测误差。这是因为R树的K近邻查找算法中共有2个参数来约束近邻点, 当r值较大时, 它对近邻点的约束条件放宽, 更多的邻居点被当作近邻点, 此时近邻个数K起到约束作用, 即从多于K个的近邻点中选出前K个与待测点最相似的近邻点;当r值较小时, 越来越少的邻居点符合近邻点的要求, 此时存在少数待测点的近邻个数少于K, 但这些近邻点与待测点的相似度更高, 因此误差相对减小。

在表2中, 当距离上限大于等于0.02时, R树搜索到的平均近邻个数为20个, 此时线性结构下搜索到的20个近邻相对更精确, 因此线性结构下的预测误差总是小于R树结构下的预测误差.但是在预测速度上, R树结构下的搜索耗时远小于表1中线性结构下的搜索耗时。当距离上限为0.02时, R树结构下的预测误差比线性结构的预测误差上升了8.8%, 但预测速度提高了59.6%。当距离上限小于0.02时, R树搜索到的平均近邻个数都小于20, 与平均近邻个数为20的线性结构预测结果缺乏可比性, 因此, 为线性结构下的K近邻查找算法添加距离上限这一相同约束, 其预测结果如表3所示, 与表1结果比较, 平均相对误差增大, 这是因为对于大多数待测点来说, 模式库中存在多余20个的近邻点, 在考虑距离上限这一约束后, 只要满足约束条件即可视为近邻点, 无需遍历完所有模式, 从而这些近邻点与待测点的相似度变小, 因此预测误差增大, 预测耗时减小。由表2与表3的对比结果显示, 2种结构下搜索到的近邻个数相等且都小于20, 在同一水平的距离上限下, R树凭借自身的空间聚类特征, 可以更快且更准确地找到满足条件的近邻, 因此, R树结构下的预测精度和速度都优于线性结构下的预测结果。

3 结束语

非参数统计分析方法 篇10

一、文献综述

查阅相关文献发现, 在参数分析领域研究居民CPI与RPI相关关系的文章比较多, 王扬眉、杨桂云运用ARIMA模型针对我国2005年—2013年间CPI和RPI数据进行分析, 得出CPI和RPI之间存在着长期均衡的稳定关系;马敬利用VAR模型, 选取以1987年为基期的2001年—2010年的CPI和RPI数据, 将我国各个省市自治区划为三部分, 得出我国CPI和RPI在各个地区的分布情况具有明显的差异性。一些学者为了摆脱时间序列方法的局限, 运用非参数方法研究并预测CPI, 相对参数方法, 非参数方法灵活、简单、易操作, 在经济金融领域有广泛的应用。但是, 在非参数领域中, 研究居民CPI和RPI之间关系的文章仍然较少。

在此基础上, 本文运用非参数模型中的Kruskal-Wallis检验和Jonkhere-Terpstra检验对居民CPI和RPI之间的相关性以及在全国不同地区的差异性进行研究分析。一方面, 非参数方法对数据的要求相对参数检验要少, 用非参数方法验证CPI和RPI数据是否服从正态分布, 既减少了数据换算时间, 又在非参数领域开辟了CPI和RPI研究的先河;另一方面, 如果将我国的省市自治区划分为东、中、西三部分, 利用参数方法进行分析时会使分析工作变得更复杂, 但非参数方法中的Krukal-Wallis检验和Jonkheere-Terpstra检验在检验分组数据时具有绝对的优势。

二、数据来源及检验

(一) 数据的来源与指标介绍

本文使用的数据来源于中华人民共和国统计局网站2014年月度数据。将全国31个省市自治区等按照地域划分为东、中、西三个不同的地区。

(二) 正态性检验

运用R软件以及Kolmogorov-Smirnoo检验法计算表1中CPI和RPI数据, 得出正态性检验结果, 如表2。

查表可知D0.05, 31=0.24, CPI的实际观测值 (Dc) 和RPI的实际观测值 (Dr) 分别为0.146和0.158, 均小于临界值D0.05, 31=0.24, 但在0.05的置信水平下, RPI实际统计量和P值都不能拒绝原假设, CPI实际观测值虽不能拒绝原假设, 但其P值0.044小于0.05, 不能接受原假设。由表2可以看出, 我们不能确信CPI服从正态分布, 因此, 本文采用更加稳健的非参数统计检验方法来处理。

Krukal-Wallis检验和Jonkhere-Terpstra检验都是用于检验两组或多组数据是否存在差异性的方法, 但这两种方法的前提有一定的区别。设总体的未知参数为θ1、θ2、…、θk, 对应于Krukal-Wallis检验和Jonkhere-Terpstra检验的原假设均为H0∶θ1=θ2=…=θk, 备择假设则分别为“H0∶θi不全相等 (i=1, 2, …k) ”和“H1∶θ1:≤θ2≤…≤θk”。

三、Krukal-Wallis检验在差异性比较中的应用

根据我国东、中、西三个地区的划分, 将其作为三个不同的总体:

H0:我国东部、中部、西部三个地区的CPI (或RPI) 的中位数相等。

H1:我国东部、中部、西部三个地区的CPI (或RPI) 的中位数不相等。

取置信度α=0.05, 利用R软件对原假设进行检验, 得到检验结果, 如表3:

CPI统计量和RPI统计量都大于5%置信度下的临界值, 且两个统计量的P值都小于0.05, 即这两个统计量均拒绝原假设, 认为我国东部、中部、西部三个地区的CPI (或RPI) 的中位数不相等, 2014年我国居民CPI和RPI在东部、中部和西部地区具有明显的差异。

四、Jonkheere-Terpstra检验在差异性比较中的应用

在Jonkheere-Terpstra检验中的原假设和备择假设分别为:

H0:我国东、中、西部三个地区CPI (或RPI) 的中位数相等。

H1:我国东、中、西部三个地区CPI (或RPI) 的中位数西部中部东部。

在大样本情况下, 已知的临界值为Z0.05=1.645, 得出表4的结果:

对于居民消费价格指数, 统计量J的计算结果为226.5, 查表发现当n1=11, n2=8, n3=12时超过表的范围, 为了得到更可信的结果, 本文用大样本近似计算统计量Z值, 利用R软件在0.05置信度下得到居民CPI和RPI的统计量以及相应的P值, 得到表4的结果:

检验结果表明, 修正后的统计量Z都大于5%置信水平下的临界值, 因此均拒绝原假设, 表明2014年我国居民CPI和RPI的平均水平按照东部、中部、西部的顺序依次降低, 并且居民消费价格指数和商品零售价格指数的升降趋势相同。

为了进一步探究这两个指数间的相关性, 用SPSS软件对这两组数据进行相关性分析, 考虑到使用Pearson相关系数检验时必须满足连续数据、正态分布和线性相关三个条件, 而本文数据并不服从正态性分布, 因此, 采用Spearman系数进行相关系数检验和分析, 得到表5的相关系数矩阵:

注:**指在置信度 (双侧) 为0.01时, 相关性是显著的.

从Spearman相关系数检验结果中可以看出, 我国CPI和RPI之间的相关性是非常显著的, 这也间接地验证了J-T检验的结果。

五、建议和对策

从本文的分析中可以看出, 居民CPI和RPI在我国东部、中部、西部不同地区有明显的差异性, 且依次降低, 而CPI和RPI两者之间存在显著的正相关关系。为缩小我国各地区CPI和RPI的差异性, 提出以下建议。

1.政府价格调控要体现区域差异性。改革开放以来我国发生了几次比较严重的通货膨胀, 形成原因一般包括经济过热、生产要素价格上涨和资源环保成本上升等。但是, 因为各地区在产业结构、经济增长、居民收入和消费结构等方面均有很大的差异, 以至于在通货膨胀发生的成因、传导机制、严重程度等方面上也不完全相同。因此, 宏观调控要体现出省区的差异性, 把握好宏观调控方向, 以提高价格水平调控的灵活性、有效性和针对性。

2.调整收入分配格局, 完善社会保障体系。影响居民消费价格变化最直接的因素是居民的收入和消费水平。国家有关部门应该切实调整收入分配格局, 增强劳动报酬在初分配中的份额, 逐步分别提高各区域的最低工资水平, 注重改善低收入群体的收入水平。继续完善我国在医疗、教育、住房和社会保障体制上的改革, 降低城乡居民收入、支出不平衡性, 防止因过快上涨的价格使生活水平下降。

3.提高西部地区居民生活水平。我国东部、中部和西部地区经济文化发展一直都不平衡, 所以, 要不断提高西部地区居民的生活质量。一方面, 可以通过合理地调整国民资源分配结构和政策来加大对西部的支持和保护力度;另一方面, 国家要加强在西部地区的投资力度, 尤其是在教育方面。另外, 应增加西部地区的就业人数, 从而增加收入, 改善生活状况。

参考文献

[1]王扬眉, 杨桂云.基于ARIMA模型的CPI和RPI分析[J].经济与管理, 2013 (02) :34—36

[2]马敬.商品零售价格与CPI关系的实证分析[J].湖北师范学院学报 (哲学社会科学版) , 2010 (4) :11—14

[3]申菊梅, 高岳林.基于非参数统计的我国分地区生活质量指数分析[J].太原城市职业技术学院学报, 2009 (7) :49—50

[4]王星, 非参数统计[M].北京:清华大学出版社, 2009:124—135

[5]吴剑飞.中国实际产出波动与价格波动的关系:1992—2008[J].当代经济科学, 2009 (5) :72—80

上一篇:人工生物膜下一篇:功能性鼻窦开放手术