非参数分析

2024-08-27

非参数分析(精选10篇)

非参数分析 篇1

1 问题背景

本文基于西北民族大学数学与计算机科学学院2013级信息和2013级应数班的教改前后成绩进行分析, 从而来评判本次教改的成效.主要数据有:教改前总成绩, 教改后概率期末成绩和教改后总成绩。

2 问题分析

对教改成绩进行分析常用的主要方法为方差分析或者非参数估计[1], 而方法的实现常常借助数学软件spss.方差分析要求数据服从正态分布且满足齐性[2], 而非参数估计并无此要求.利用spss通过对本文数据的正态分布检验发现, 数据并不是全部服从正态分布, 而且并不是全部满足齐性, 故而本文采用非参数估计来分析教改成效.

3 模型建立

本文主要应用的非参数检验模型为曼-惠特尼秩和检验.该方法是在1974年由H.B.Mann和D.R.Whitney年提出的。它假设两个样本分别来自除了总体均值以外完全相同的两个总体, 目的是检验这两个总体的均值是否有显著的差别。该检验方法的具体应用步骤如下[1]。

第一步:任取某一科目, 将教改前后的两组数据混合, 并按照大小顺序编排等级。最小的数据等级为1, 第二小的数据等级为2, 以此类推 (若有数据相等的情形, 则取这几个数据排序的平均值作为其等级) ;

第二步:分别求出两个样本的等级和 (第一组值的秩和计算值) 、 (第二组值的秩和计算值) ;

第三步:计算曼-惠特尼U检验统计量, 设为第一个样本的量, 为第二个样本的量:

选择U1和U2中最小者与临界值Ua比较, 当U<Ua时, 拒绝H0, 接受H1。

在原假设为真的情况下, 随机变量的均值和方差分别为:

当n1和n2都不小于10时, 随机变量近似服从正态分布。

第四步:进行判断。

设教改前该科成绩的均值为μ1, 教改后该科成绩的均值为μ2, 则有:

其中, Z表示渐进显著性 (双侧) 。

4 分析结果

本文对三组数据分别进行分析, 通过对比分析结果来说明教改成效。

4.1 教改前总成绩分析

注:a.分组变量:

表1和表2中的”wuli”和”shufen”分别代表物理和数学分析。从表1可以看出, 两个班的物理成绩均值为67.3148, 标准差为11.60667, 数学分析成绩均值为20.10554, 标准差为20.10554。表2是检验结果显示0.002<0.05, 说明两个班的物理成绩具有显著差异。同样由于0.000<0.05, 说明两个班的数学分析成绩具有显著差异。从而可以认为, 在教改之前由于两个班级的不同, 两个班的成绩是具有显著性差异。

4.2 教改后概率期末成绩

注:a.分组变量:group

表3和表4中的”gailvlater”表示教改后的概率期末成绩.从表3可以看出, 两个班的概率成绩均值为60.1605, 标准差为10.29861。表4的检验结果显示0.136>0.05。说明两个班的概率论成绩没有显著性差异。这是因为教改对两个班产生了影响, 使两个班级之间的成绩差异不再明显。

4.3 教改后总成绩

注:a.分组变量:group.

表5和表6中“fubianhanshu”、“gailvtongji”、“jisuanjizuchneg”和“shujujiegou”分别代表复变函数、概率论、计算机组成原理和数据结构。从表5可知:两个班的复变函数成绩均值为67.0138, 标准差为21.54303;概率论成绩均值为63.9586, 标准差为18.45041;计算机组成原理成绩均值为63.9621, 标准差为20.75818;数据结构成绩均值为73.8494, 标准差为20.66320。表6的检验结果显示0.022<0.05, 说明两个班的复变函数成绩具有显著性差异;0.016<0.05, 说明两个班的概率论成绩具有显著性差异;0.835>0.05说明两个班的计算机组成原理成绩无显著性差异;0.000<0.05, 说明两个班的数据结构成绩具有显著性差异。从分析结果可以看出, 教改之后两个班的成绩大体上仍然具有显著性差异, 似乎教改并没有起到应有的作用。其实, 并非如此。因为教改只针对的某一个科目, 并不是整体所有科目的教改。本文教改针对的是概率论。所以其他科目的成绩并

没有因为教改发生变化的结论不一定成立。

参考文献

[1]张宜华, 李振亚.精通spss[M].北京:清华大学出版社.2001, 193-196.

[2]邢航.独立样本均数差异的显著性检验及其应用[J].学术探讨, 2008.6:27-29.

非参数分析 篇2

大理大学 实验报告

课程名称

生物医学统计分析

实验名称

非参数检验(卡方检验)

专业班级

实验日期

实验地点

2015—2016 学年度第2

学期 一、实验目得 对分类资料进行卡方检验。

二、实验环境、硬件配置:处理器:Intel(R)Core(TM)i5-4210U CPU 1、7GHz 1、7GHz 安装内存(RAM):4、00GB

系统类型:64 位操作系统 2、软件环境:IBM SPSS Statistics 19、0 软件

三、实验内容 (包括本实验要完成得实验问题及需要得相关知识简单概述)(1)

课本第六章得例 6、1-6、5 运行一遍,注意理解结果;(2)

然后将实验指导书得例 1-4 运行一遍,注意理解结果。

四、实验结果与分析

(包括实验原理、数据得准备、运行过程分析、源程序(代码)、图形图象界面等)例 例 6、1 表 1 灭螨A A 与灭螨B B 杀灭大蜂螨效果得 交叉制表

效果 合计 杀灭 未杀灭 组别 灭螨A 32 12 44 灭螨B 14 22 36 合计 46 34 80 分析: 表1就是灭螨A与灭螨B杀灭大蜂螨效果得样本分类得频数分析表,即交叉列联表。

表 2 卡方检验

X2 值 df 渐进 Sig、(双侧)精确 Sig、(双侧)精确 Sig、(单侧)Pearson 卡方 9、277a、002

连续校正b

7、944 1、005

似然比 9、419 1、002

Fisher 得精确检验、003、002 有效案例中得 N 80

a、0 单元格(、0%)得期望计数少于 5。最小期望计数为 15、30。

b、仅对 2x2 表计算

分析: 表2就是卡方检验得结果。因为两组各自得结果互不影响,即相互独立。对于这种频数表格式资料,在卡方检验之前必须用“加权个案”命令将频数变量定义为加权变量,才能进行卡方检验。

Pearson 卡方:皮尔逊卡方检验计算得卡方值(用于样本数n≥40且所有理论数E≥5);

连续校正b : 连续性校正卡方值(df=1,只用于2*2列联表);

似然比:对数似然比法计算得卡方值(类似皮尔逊卡方检验);

Fisher 得精确检验:精确概率法计算得卡方值(用于理论数E<5)。

不同得资料应选用不同得卡方计算方法。

例6、1为2*2列联表,df=1,须用连续性校正公式,故采用“连续校正”行得统计结果。

X2 = 7、944, P(Sig)=0、005<0、01,表明灭螨剂A组得杀螨率极显著高于灭螨剂B组。

例6 6、2 2

表 3

治疗方法 * 治疗效果

交叉制表 计数

治疗效果 合计 1 2 3 治疗方法 1 19 16 5 40 2 16 12 8 36 3 15 13 7 35 合计 50 41 20 111 分析: 表3就是治疗方法* 治疗效果资料分析得列联表。

表 4

卡方检验

X2 值 df 渐进 Sig、(双侧)Pearson 卡方 1、428a、839 似然比 1、484 4、830 线性与线性组合、514 1、474 有效案例中得 N 111

a、0 单元格(、0%)得期望计数少于 5。最小期望计数为 6、31。

分析: 表4就是卡方检验得结果。自由度df=4,表格下方得注解表明理论次数小于5得格子数为0,最小得理论次数为6、13。各理论次数均大于5,无须进行连续性校正,因此可以采用第一行(Pearson 卡方)得检验结果,即X2 =1、428,P=0、839>0、05,差异不显著,可以认为不同得治疗方法与治疗效果无关,即三种治疗方法对治疗效果得影响差异不显著。

例6 6、3 3

表 5

灌溉方式 * 稻叶情况

交叉制表 计数

稻叶情况 合计 1 2 3 灌溉方式 1 146 7 7 160 2 183 9 13 205 3 152 14 16 182 合计 481 30 36 547 分析: 表5就是灌溉方式* 稻叶情况资料分析得列联表。

表 6

卡方检验

X2 值 df 渐进 Sig、(双侧)Pearson 卡方 5、622a、229 似然比 5、535 4、237 线性与线性组合 4、510 1、034 有效案例中得 N 547

a、0 单元格(、0%)得期望计数少于 5。最小期望计数为 8、78。

分析: 表6就是卡方检验得结果。自由度df=4,样本数n=547。表格下方得注解表明理论次数小于5得格子数为0,最小得理论次数为8、78。各理论次数均大于5,无须进行连续性校正,因此可以采用第一行(Pearson 卡方)得检验结果,即X2 =5、622,P=0、229>0、05,差异不显著,即不同灌溉方式对稻叶情况得影响差异不显著。

例 例 6 6、4 4

表 7

场地 * 奶牛类型

交叉制表 计数

奶牛类型 合计 1 2 3 场地 1 15 24 12 51 2 4 2 7 13 3 20 13 11 44 合计 39 39 30 108 分析: 表5就是场地* 奶牛类型资料分析得列联表。

表 8

卡方检验

X2 值 df 渐进 Sig、(双侧)精确 Sig、(双侧)精确 Sig、(单侧)点概率 Pearson 卡方 9、199a、056、056

似然比 8、813 4、066、079

Fisher 得精确检验 8、463

、072

线性与线性组合、719b、397、404、217、036 有效案例中得 N 108

a、3 单元格(33、3%)得期望计数少于 5。最小期望计数为 3、61。

b、标准化统计量就是-、848。

分析: 表 8 就是卡方检验得结果。自由度 df=4,样本数 n=108。表格下方得注解表明理论次数小于 5 得格子数为 3,最小得理论次数为 3、61。需采用精确概率法计算,即用第三行(Fisher 得精确检验)得检验结果,即 X2 =8、463,P=0、072>0、05,差异不显著,即 3 种奶牛牛场不同类型奶牛得构成比对差异不显著。

例 例 6 6、5 5

表 9

LPA* FA 交叉制表

FA 合计 1 2 LPA 1 17 0 17 2 4 7 11 合计 21 7 28 分析: 表9就是LPA* FA资料分析得列联表。

表 10

配对 卡方检验

值 精确 Sig、(双侧)McNemar 检验、125a

有效案例中得 N 28

a、使用得二项式分布。

分析: 表10就是LPA与FA两种检测方法得配对卡方检验。由于b+c<40,SPSS选用二项分布得直接计算概率法(相当于进行了精确校正),计算该配对资料得检验得精确双侧概率,并且不能给出卡方值。本例P=0、125>0、05,差异不显著,即LPA法与FA法对番鸭细小病毒抗原得检出率差异不显著。

表 11

对称度量

值 渐进标准误差 a

近似值 T b

近似值 Sig、一致性度量 Kappa、680、140 3、798、000 有效案例中得 N 28

a、不假定零假设。

b、使用渐进标准误差假定零假设。

分析: 表11为LPA与FA两种检测结果得得一致性检验。Kappa值就是内部一致性系数,除数据P值判断一致性有无统计学意义外,根据经验,Kappa≥0、75,表明两者一致性较好0、7>Kappa≥0、4,表明一致性一般,Kappa<0、4,则表明一致性较差。

本例Kappa值为0、680,P=0、000<0、01,拒绝无效假设,即认为两种检测方法结果存在一致性,Kappa值=0、680,0、7>Kappa≥0、4,表明一致性一般。

例1 1

表 12

周 内日频数表

观察数 期望数 残差 1 11 16、0-5、0 2 19 16、0 3、0 3 17 16、0 1、0 4 15 16、0-1、0 5 15 16、0-1、0 6 16 16、0、0 7 19 16、0 3、0 总数 112

分析: 表12结果显示一周内各日死亡得理论数(Expected)为16、0,即一周内各日死亡均数;还算出实际死亡数与理论死亡数得差值(Residual)。

表 13

检验统计量

周日 卡方 2、875a

df 6

渐近显著性、824 a、0 个单元(、0%)具有小于 5 得期望频率。单元最小期望频率为 16、0。

分析: Chi-Square过程,调用此过程可对样本数据得分布进行卡方检验。卡方检验适用于配合度检验,主要用于分析实际频数与某理论频数就是否相符。卡方值X2 =2、875,自由度数(df)=6,P=0、824>0、05,差异不显著,即可认为一周内各日得死亡危险性就是相同得。

例2 2

表 14

二项式检验

类别 N 观察比例 检验比例 精确显著性(双侧)性别 组 1 0 12、30、50、017 组 2 1 28、70

总数1、00

分析: 调用Binomial过程可对样本资料进行二项分布分析。表14得二项分布检验表明,女婴12名,男婴28名,观察概率为0、70(即男婴占70%),检验概率为0、50,二项分布检验得结果就是双侧概率为0、017,可认为男女比例得差异有高度显著性,即与通常0、5得性比例相比,该地男婴比女婴明显为多。

例3 3

表 15

两组工人得血铅值 及秩

group N 秩均值 秩与 血铅值 1 10 5、95 59、50 2 7 13、36 93、50 总数 17

分析: Independent Samples过程:调用此过程可对两个独立样本得均数、中位数、离散趋势、偏度等进行差异比较检验。有四种检验方法:Mann-Whitney U:主要用于判别两个独立样本所属得总体就是否有相同得分布;Kolmogorov-Smirnov Z:推测两个样本就是否来自具有相同分布得总体;Moses extreme reactions:检验两个独立样本之观察值得散布范围就是否有差异存在,以检验两个样本就是否来自具有同一分布得总体;Wald-Wolfowitz runs:考察两个独立样本就是否来自具有相同分布得总体。

表 16

检验统计量b b

血铅值 Mann-Whitney U 4、500 Wilcoxon W 59、500 Z-2、980 渐近显著性(双侧)、003 精确显著性[2*(单侧显著性)]、001a

a、没有对结进行修正。

b、分组变量: group

分析: 本例选Mann-Whitney U检验方法,表15结果表明,第1组得平均秩次(Mean Rank)为5、95,第2组得平均秩次为13、36,U = 4、5,W = 93、5,精确双侧概率P = 0、001,可认为铅作业组工人得血铅值高于非铅作业组。

例4 4

表 17

group* effect 交叉制表 计数

effect 合计 无效 有效 group 对照组 21 75 96 实验组 5 99 104 合计 26 174 200 分析: 表17就是group* effect资料分析得列联表。

表 18 卡方检验

X2 值 df 渐进 Sig、(双侧)精确 Sig、(双侧)精确 Sig、(单侧)Pearson 卡方 12、857a、000

连续校正b

11、392 1、001

似然比 13、588 1、000

Fisher 得精确检验、001、000 有效案例中得 N 200

a、0 单元格(、0%)得期望计数少于 5。最小期望计数为 12、48。

b、仅对 2x2 表计算

分析: 表18卡方检验资料n=200>40 , 表格下方得注解表明理论次数小于5得格子数为0,最小得理论次数为12、48。,可取Pearson卡方值与似然比(Likelihood ratio)值 ,二者值分别为12、857与13、588,P<0、01,试验组与对照组得疗效差别有统计学意义,可认为异梨醇口服液降低颅内压得疗效优于氢氯噻嗪 + 地塞米松。

五、实验小结:

(包括主要实验问题得最终结果描述、详细得收获体会,待解决得问题等)在此次实验中,由于实验内容更贴近生活应用,因此比起上学期,我们更容易领悟该程序得表达,只就是在细节方面还就是很容易出错,甚至不容易拐过弯来。但经过此次实验,我们懂得要学着从复杂得程序中剥茧抽丝,把程序尽可能得简单化。

在实验中应注意得点:

1、因为两组各自得结果互不影响,即相互独立。对于这种频数表格式资料,在卡方检验之前必须用“加权个案”命令将频数变量定义为加权变量,才能进行卡方检验。

2、Pearson 卡方:皮尔逊卡方检验计算得卡方值(用于样本数 n≥40 且所有理论数 E≥5);

连续校正 b:连续性校正卡方值(df=1,只用于 2*2 列联表);

似然比:对数似然比法计算得卡方值(类似皮尔逊卡方检验);

Fisher 得精确检验:精确概率法计算得卡方值(用于理论数 E<5)。

不同得资料应选用不同得卡方计算方法。

3、有列联表用于描述分析得卡方检验,而其它用于非参数检验就是对拟合优度得检验。

4、有计数用加权个数,就是具体数值,如例 3,则不用加权,因为两组数据长度不同,用独立 性检验,不知道总体分布情况,所有用非参数检验,要就是假设它为正态分布,也可以用 卡方检验。

5、描述统计里得交叉表得行、列选择可以互换,互换只就是转置,不影响最后得结果。

非参数分析 篇3

在记录多选题调查结果时,为了便于定量分析,采用多重二分法(Multiple Dichotomy Method)的编码方法,即将多项选择题的每一个选项视为一个“处理”,每一份问卷看作一个“区组”,并用“0”表示没有被选中、“1”表示被选中。这样,多项选择题的数据可以表示为二元完全区组数據。

一、问题的提出

本文的例证数据采用以下多选题的调查数据:请问您日常饮用下列哪种水?(多选)A 自来水,B井水,C 家用净水器处理后的水,D 桶装水或瓶装水。

选取调查结果中的25份问卷,其调查结果以多重二分法编码如下:

二、关于随机性的游程检验

(一)模型建立

游程检验是用于检验取值“1”概率为p的Bernoulli试验中的“1”和“0”是否随机出现的方法。其原理是,将连在一起的“0”或“1”作为一个游程,当已知出现了多少个“1”和“0”时,游程个数R服从固定的分布。

其假设为:H0:有随机性;H1:无随机性(有聚类倾向)

统计量及其分布为:R=游程数~Y(m ,n)

其中m为“0”的个数,n为“1”的个数,Y代表游程分布。

其具体计算是通过累加概率求得P值:

(二)模型求解

编写R程序实现这一检验方法,得到4个选项检验的p值分别为:(α=0.05)

可见,均不能拒绝原假设,即认为源数据的随机性良好,符合问卷调查的随机抽样原则。也就是说,这部分问卷在填写时并没有出现较为严重的相互抄袭或人为编造等影响问卷质量的现象,因此,该数据适合进行进一步分析。

三、关于单对选项差异的McNemar检验

(一)模型建立

McNemar检验是用于检验配对二元取值数据中取“1”的比例是否相等的检验方法,对于本例,则是选择某选项的比例,该方法首先将数据写成列联表形式:

分别为处理1和处理2的取“1”的比例,则检验的假设为:

统计量和近似分布为:

其p值即是统计量在分布中的双边概率值。

(二)模型求解

编写R程序实现这一检验方法,得到AD、DC、CB三对检验的p值分别为:(α=0.05)

可见,A>D>C>B中的A>D,D>C,C>B这三个关系都不是显著的。也就是说,目前没有足够的理由认为饮用“自来水”的人数多于“桶装水或瓶装水”,饮用“桶装水或瓶装水”的人数多于“家用净水器处理后的水”,饮用“家用净水器处理后的水”的人数多于“井水”。

那么,如果跨步检验,即A>C,D>B,甚至直接检验A>B,大于关系是否显著呢?检验结果为:

可见,结果发生了巨大变化,全部都非常显著。

四、关于全部选项差异的Cochran检验

(一)模型建立

Cochran检验是对二元响应的完全区组数据中不同处理的位置参数是否相同的检验。位置参数表征四个选项在受访者眼中的排序。假设为第i个选项的位置参数,则检验的假设为:不全相等

统计量及其分布为:

其中,b为区组数,即问卷数;k为处理数,即选项数;Ni为第i个选项1出现的个数;Lj为第j个问卷中选1的个数;N为1出现的总个数。

(二)模型求解

编写R程序实现这一检验方法,得到检验的p值为:

可见,显著性是非常强的。也就是说,对于“自来水”“井水”“家用净水器处理后的水”“桶装水或瓶装水”这几种饮用水方式,人们对其选择的比例差异是非常大的。这也说明,该问卷中该多项选择题的设置是十分有意义的,收回问卷后得到的数据也是十分有比较价值的。

五、结论

通过各个模型的建立、实际问题的求解,以及对二元数据的新的处理方法的效果讨论,可以从实际问题和研究方法两方面得出结论。

对于本文所示的多项选择题来说,其调查所得数据的随机性是良好的;在4个选项之间的两两大小关系的比较中,只有3个跨步大小关系是显著的,因此A>D>C>B不是显著成立的,只能确信A>C,D>B,A>B这三种关系。作为多选题整体来看,该题的整体选项差异是显著的,因此用本例来进行调查是有意义的。

对于研究方法来说,游程检验能够很好地判断调查问卷所得数据是否具有随机性,即是否是完全随机抽样;McNemar检验能够很好地比较两个选项的差异性,即选一种选项的人数是否显著大于另一种;Cochran检验能够很好地判断多选题整体的各个选项是否具有差异性,即从整体判断多选题调查的效果;而加入随机变量后的Friedman检验方法也在本例中达到了比较好的效果,能够以较高的准确率判断多选题整体差异性是否显著。

参考文献:

[1]李灿.调查问卷中多项选择题的处理方法[J].统计与决策,2006(06).

[2]吴喜之,赵博娟.非参数统计[M].中国统计出版社,2013.

[3]赵江涛.多项选择模型的参数估计[J].网络财富,2009(15).

[4]罗明奎.配对资料McNemar检验法的适用范围[J].中国卫生统计,1993(03).

非参数分析 篇4

近年来,人们对粮食产量的关注程度不断加大,研究频率也有所提高,但是其中专门对单位面积粮食产量的研究文献却很少。我国著名的土壤学家,农业教育家陈恩凤在1983年提出我国人口多,应该自力更生解决粮食问题,而解决的途径就是大力提高单位面积产量。在他的论证中指出我国各地单产高低悬殊,这说明我们现实的生产潜力还很大,巩固和提供高产稳产田,努力改造低产田,成为我国粮食增产的迫切任务。刘玉,蒙达,周艳兵等在京津冀地区粮食产量变化及其作物结构分析中指出粮食单产对粮食产量的正向促进作用显著。粮食产量的快速提升是研究期内京津冀地区粮食总产量增加的主要因素。王琛,吴敬学,钟鑫等2015年在我国粮食劳动生产率地区差异及分解研究中利用13个粮食主产区省级面板数据,对我国粮食劳动生产率地区差异进行分解,进一步对影响地区差异的各个因素及作用机制进行分析研究。

当前,实现粮食的基本自足、保障粮食安全成为我国粮食政策的基本方针。但是中国粮食产量的年际波动仍较为剧烈,区域变化也非常明显。因此,明确中国各地粮食产量的差异性,找出粮食产量存在差异的原因,可为有关部门粮食生产发展规划和相关产业政策的制定提供数据参考和理论依据,从而达到增加单产的目的。之前的研究大都直接分析如何提升粮食产量,很少去对比各地区粮食产量的差异性,非参数统计作为数理统计学的分支,是解决很多不知道数据分布的问题的主要方法,通过运用非参数方法可以对事物建立起统计模型,进行数学描述。粮食产量是指谷物、豆类和薯类的生产总量,而谷物正是粮食的重要组成部分,因此本文选取谷物单位面积的产量,利用非参数统计的方法对华东地区的六个省份进行对比从而得到谷物产量的差异性。

2 研究方法

2.1 Friedman检验

用非参数的方法分析参试地区单位面积产量的差异。可将该排列看作非参数统计中的随机化的完全区组。对于随机区组的数据,传统的方差分析要求实验误差是正态分布的,当数据不符合方差分析的正态前提时,Friedman建议采用秩方差分析法。

其中Rij表示第i个区组中第j个处理在第i区组中的秩。

2.1.2 检验统计量。Friedman建议用(k-1)/k乘Q'得校正式:

H0:同一个区组中,对随机变量的每个赋秩是等可能的(即处理效果相同)。

H1:至少有一个处理倾向于比其他处理中的至少一个处理产生较大的观测值。

2.2 多重比较

当分析结果为拒绝零假设时,说明样本之间存在差异性,Hollander-Wolfe在1973年提出了一个两样本(处理)间的比较公式:

3 实证分析

3.1 数据来源

文章中使用的资料来源于《中国统计年鉴》2008年到2014年主要农产品单位面积产量数据。选取了华东地区的六个省份,分别是:上海、江苏、浙江、安徽、福建、山东。运用了从2008~2014年六个省份的谷物单位面积产量数据,随机区组进行排列。

3.2 Friedman检验的结果与分析

在SPSS软件中选择“Analyze”→“Noparametric tests”→“KRelated Samples”命令进入“Test for several Related Samples”对话框,选取六个变量进入变量对话框,选择“Fridman”,点击OK。得到六个省份的秩均值和检验结果。其中上海的秩均值最高,为5.43,安徽省的秩均值最低,为1.00。

通过Fridman检验得到卡方值为28.38,p值为0.000,拒绝原假设,接受备则假设,即六个省份之间的谷物单位面积的产量之间存在显著的差异性。

通过计算六个省份的均值可以看出,上海的谷物单产量均值最高,为6721.43,浙江次之,为6648.29,而安徽的最低,为5428.86。

3.3 多重比较分析结果

由各省份之间的比较结果可知,上海与安徽,福建,山东;浙江与安徽,福建;江苏与安徽之间的谷物单产量有显著性差别,其它省份谷物单产量之间的差异不显著。其中,上海与安徽谷物单产的差异性最大,上海从2008年到2014年谷物单产量均值为6 721.43kg/hm2,而安徽省从2008年到2014年谷物单产量均值为5428.86kg/hm2。

4 结论与建议

将原始数据的平均单产的排名与秩排序的结果结合起来可以看出,上海和浙江的谷物单位面积的产量最高,安徽省的最低。影响粮食总产量的因素有很多,上海和安徽之间的谷物单产量差异性最大,我们可以进一步分析安徽省和上海谷物单产量存在差异的原因,找到影响谷物单产的主要因素,并着手去解决它。一般可以从以下几个方面去提高粮食的单产量。一,提高农民的人均纯收入。农民纯收入决定了农民对农田管理、劳动力、施肥量的投入,从而决定了粮食产量的高低。二,政府增大对农业的扶持力度。粮食单产的高低很大程度上依赖于财政支出。通过对农田水利的建设,农业扶贫以及农业综合开发,提高粮食生产环境,从而提高粮食产量。三,发展农业机械总动力。农机总动力的发展和合理利用将会提高农业生产效率。但是想要更有效的提高安徽省的粮食单产量,还要进一步分析安徽省粮食生产的各个方面,得出更适合它粮食生产的方法。

摘要:粮食问题是事关国家和地区社会稳定的重大问题,而谷物是粮食的重要组成部分。本文为了探究华东地区六个省份谷物单位面积产量之间的差异,选取2008年至2014年六个地区谷物单产的数据,通过非参数方法中的Friedman检验,得到华东地区六个省份谷物单产的差异性,并运用多重比较的方法,得出差异性最大的两个省份。结果表明,六个省份之间的谷物单位面积的产量存在显著的差异。上海的谷物单产量均值最高,浙江次之,而安徽的最低。并对提高谷物单产提出了一定的建议。

关键词:非参数方法,谷物单位面积产量,华东地区六省

参考文献

[1]陈恩凤.大力提高单位面积产量是我国增产粮食的主要途径[D].沈阳农学院,1983.

[2]周小萍,崔月明.我国粮食供求的区域特征及未来形势分析[J].未来与发展,2006,27(4):5-10.

非参数分析 篇5

非参数解集模型在汛期日径流随机模拟中的应用

传统解集模型是对序列相依结构和概率密度函数形式作某种假定后用参数来描述的,因而有其自身的.缺陷[1].非参数解集模型能避开上述假定,克服了传统解集模型的不足.本文首次将非参数解集模型创造性地应用于金沙江流域屏山站汛期日径流随机模拟,研究结果表明该模型是有效的,模拟成果令人满意.

作 者:袁鹏 王文圣 丁晶 YUAN peng WANG Wen-sheng DING Jing 作者单位:四川大学,水电学院,成都,610065刊 名:四川大学学报(工程科学版) ISTIC EI PKU英文刊名:JOURNAL OF SICHUAN UNIVERSITY(ENGINEERING SCIENCE EDITION)年,卷(期):32(6)分类号:P333 P333.9关键词:非参数解集模型 汛期日径流 随机模拟

一种最近邻线非参数鉴别分析算法 篇6

关键词:特征提取,最近邻线非参数鉴别分析,算法,人脸识别

在线性特征提取方法中,通常采用Fisher线性鉴别准则[1,2]。但做特征提取时Fisher线性鉴别准则对原始样本的分布情况提出两个要求[3]:样本的分布须是单峰值的; 每类样本均值须不同。但在实际应用中很难达到这两个要求。因此,Fukunaga等提出了非参数鉴别分析[4,5](Nonparametric Discriminant Analysis,NDA)的方法,这个方法将原先的Fisher鉴别准则法进行优化,即利用相应的散布矩阵差替代相应的散布矩阵的比值,不过NDA方法仍受相应的散布矩阵奇异的影响。因此,可用分步的非参数间距最大准则[6]算法来解决这个问题。根据最近邻线思想[7,8,9,10],在点-线距离的基础上提出了一种新的称为最近邻线非参数鉴别分析[11]的算法,并且通过在ORL人脸库进行实验识别验证了此算法的有效性。

1间距最大准则(MMC)

MMC准则的目的是要将原始的高维空间数据压缩到低维空间并且仍然能够保证较好的可分性。所以,在特征提取的过程中,应当在变化之后的低维空间内保持类间距离的最大化。那么,特征提取的准则定义如下:

式(1)表示的是任意两类之间的距离,可定义其为最大鉴别准则,MMC的准则目的就是要使这个J值尽可能大。

类与类之间的距离,通过类中心点的距离来度量,即:

式中:mi,mj分别代表类别Ci和Cj的类中心,但是如果简单就以d(Ci,Cj)作为分类依据,在距离度量中,可能会出现散布矩阵的奇异。所以在出现不同样本分布混乱或重叠时,这种分类就不可行。

重新对类间距离进行定义:

式中:S(Ci)表示Ci的散布度量的值。在实际使用时, 用tr(Si)来代替S(Ci),表示类别Ci的散布度量的信息。

将tr(Si)代入式(3),得出:

其中式(4)的后半部分可以简化成如下形式:

对于公式(4)的前半部分,采用欧氏距离,可以得出:

将公式(6)展开并加入如下公式:

可推出与公式(6)等价的一个公式:

因此,特征提取准则函数公式(1)可转化成如下形式:

这样实现了不同类之间的距离最大,同类之间的距离最小,也就是使同类间距离最紧凑。

MMC的方法在一定范围内能有效地解决Fisher方法中产生的问题,但解决类内散布矩阵的问题还需要进一步探讨。Qiu等提出了分步式非参数间距最大准则 (Stepwise Nonparametric Margin Maximum Criterion, SNMMC)方法。

2分步式非参数间距最大准则(SNMMC)

SNMMC的目的与MMC方法一样,尽量使类间距离最大而类内距离最小。在该算法设计中,不去具体定义类的中心点,只是考虑某一样本与它周围样本的分布情况,从而来定义相应的散布矩阵。算法的思想描述如下:

对于一个样本x ∈ Ci(i = 1,2,⋯,C) ,那么定义相应的类间最近距离:

类推,得到类内最远距离的定义:

因此,找出每个点的类间最近点和类内最远点,以此来计算每个样本点x的非参数类间和类内差异:

由此,得到新的类间散布矩阵和类内散布矩阵定义如下:

式中的 ωi为样本的权值,定义如下:

式中:α 作为一个控制参数来使用,取值在0到无穷大之间。这个样本的取值尽量不靠近样本中心点。公式 (16)的值越大说明样本离类别的边界越近,反之值越小说明样本越靠近类中心。 α 控制其变化的过程。

公式(12)和(13)给出,||ΔiE||表示的是样本xi和不在样本xi类中的最临近点之间的距离,而 ||ΔiI||表示的是样本xi和属于样本xi所在类空间内的最远点之间的距离。

对于给定样本xi,相应的非参数距离可以表示如下:

对于一个样本xi而言,相应的非参数距离大小可以去估计分类的准确性。即非参数距离值越小,样本分类的正确性越低,反之,值越大其正确率越高。

假设样本在进行特征提取后可以得到d维空间的特征向量,可以得出一个转换矩阵W(n × d),由此得出投影矩阵xnew= WTx。投影之后的非参数类间和类内差异分别是:

其目的是使得非参数距离  δiE2-  δiI2越大越好。

在这个优化过程中,致力于找到这样的样本,使其并非在原始样本空间而是在投影空间上,使得类间距离最大,而类内距离最小。

基于这样的考虑,有:

式中:tr( ·)代表矩阵的秩;Ŝb和Ŝw分别代表矩阵的非参数类间散布矩阵和矩阵的类内散布矩阵。

因此,公式(20)可以写为:

公式(22)被称为非参数最大间距准则。

3最近邻线非参数鉴别分析(NNL-NDA)

3.1最近邻线算法(NNL)

最近邻线的定义:假设xiN(1)和xiN(2)是样本x在第i类中的两个最近的邻点,那么样本x在第i类中的最近邻线就用这两个点构成的直线来表示。那么最近邻线距离就是点x到最近邻线xiN(1)xi的距离,其定义如下:

式中样本x在最近邻 线上的投影 点表示为

投影点piN(1)N(2)的计算如下:

其中:

根据LLE算法能得到:

其中:

其中最近邻线的定义为:

3.2算法的实现

在本文的方法中,NNL算法可以用来对距离进行度量计算。这里可以通过相应的非参类间和类内距离来实现相关的散布矩阵。

算法中使用的非参类间和类内差异进行重新定义:

式中:pE是通过最近邻线思想取得的点,这个途径是从不同于样本x所属的类别Cˉk中获得;pI则与pE相反, 是由xfNa(r1),xfNa(r2)得到的点。

由此可以定义新的非参类间:

定义新的类内散布矩阵:

根据以下定义的函数:

式中限定WTW = I,可以计算得到相应的投影矩阵。

由此,可以将NNL-NDA算法描述如下:

通过T次变换后得到一个转换矩阵。假设,在经过t步转换之后得到dt维的数据,得到的维数应满足dt - 1> dt> dt + 1,其中d0= D ,dT= d 。 D和d分别代表了图像的原始维数和要经过转换后需要得到的维数。

假定循环次数为T ,算法描述如下:

(1)根据最近邻线的思想得出每一个样本的pE和pI值;

(2)根据公式(32)和(33)计算得出在dt-1维下的类间散布矩阵和类内散布矩阵;

(3)根据公式(34)计算得到在dt-1维下的转换矩阵t,其中的t是一个dt - 1× dt的矩阵;

(4)进行投影矩阵的映射,得到新维数下的样本矩阵x = tTx 。

令可以构成最终的变换矩阵。

4实验与分析

实验在ORL人脸数据库上进行。训练样本集的产生是从样本库中随机挑选每个类别中的9个人脸来进行,这样,训练样本集的人脸的个数就是40×9,测试样本集就是从余下的人脸数据产生,针对不同的训练样本数,均进行10次不相同的实验。其结果见表1,表2。

%

%

表1和表2分别显示了NNL-NDA与其他经典的人脸识别算法在ORL人脸数据库上的识别性能的比较;图1和图2分别显示了在类别数目不同的情况下采用不同的分类器方法得到的识别率。

5结语

非参数分析 篇7

玉米深加工技术的不断推陈出新在扩宽玉米产品应用领域的同时, 也延伸了玉米产业链条, 促使玉米不仅作为粮食作物, 同时也作为工业能源原料影响着我国的粮食安全和能源战略。因此, 玉米生产效率与产量在国民经济中的地位日益凸现。玉米生产的规模与效率水平直接受限于土地、资金和劳动力三大生产要素。其中, 在生产过程中, 资金被物化为化肥、 种子、农药、农膜、农机、畜力等生产资料。在玉米生产中, 如何最大限度地发挥各种投入要素的潜能, 进而提高玉米全要素生产效率, 是我国玉米产业高产、 优质、高效、生态的迫切要求, 也是我国玉米产业落实 “十二五”规划“加快发展现代农业, 坚持走中国特色农业现代化道路, 把保障国家粮食安全作为首要目标, 加快转变农业发展方式, 提高农业综合生产能力、 抗风险能力、市场竞争能力”的客观需要。

进行玉米全要素生产效率测算, 提出效率改进的方向和措施并运用到生产实践中, 可以在土地、资金、 劳动力等资源有限的条件下实现玉米产能的最大化, 或者在取得等量的玉米产能基础上实现土地、资金和劳动力等资源的节约, 这也是“十二五”规划落实科学发展、建设资源节约型、环境友好型农业的重要着力点。玉米生产效率的增长和生产资源的有效配置是玉米稳定增产的重要保障。如何测算玉米生产中各种要素的投入-产出效率是政府进行宏观调控的重要依据, 也是保证国家粮食安全、能源安全的重要措施。 研究土地、资金、劳动力等自然禀赋与技术禀赋作为我国玉米生产的基本要素在时间和空间上的变动态势, 可以为玉米生产资源的优化组合和结构调整提供科学参考。

1玉米生产效率投入产出指标

玉米生产效率的测算中, 应尽量考虑到生产过程中涵盖的各项投入要素。陈卫平根据土地、劳动力、 种子秧苗、化肥和其他中间投入要素, 测算了我国1983 -2003年全要素生产率对玉米产出增长的贡献。 丁岩运用Torngvist生产率指数对辽吉两省的玉米全要素生产率进行了分析, 并对辽吉两省玉米生产资源配置效率时序变化进行比较。刘洋选用农业劳动力数量、农业机械总动力、有效灌溉面积、化肥施用量、 农作物播种面积5个变量作为投入变量, 对全要素生产率的变化进行了测算。吴先华经过单位根检验、协整分析和模型选择, 利用面板回归模型, 计算了各地区的全要素生产率 ( 简称TFP) 及其在不同时期的增长率[1]。在以上学者对于农产品要素的筛选中, 主要考虑到的是投入要素, 而对于直接的产出要素并没有应用于统一的测算框架中。为此, 在总结前人研究的基础上, 从生产收益、生产直接费用、人工费用和化肥投入费用等4个方面设定了玉米生产对应的投入-产出指标要素。

2玉米生产效率投入-产出指标中美时序对比分析

全球两大玉米生产黄金带分别位于美国和中国, 美国与中国分别是世界上第一、第二大玉米生产国。 本文将两国衡量玉米生产效率的成本及产量指标进行基于2005-2010年的对比分析。

2. 1 2005-2010年公顷产量对比分析

美国是世界上第一大玉米生产国, 且玉米生产品质与产量均具有较高的水平。利用2005 -2010年的统计数据, 对美国与我国的玉米公顷产量进行了比较显示: 美国与我国的玉米公顷产量之间存在较大差距, 最大差额发生在2009年, 差额达到3 342. 6kg, 是当年我国玉米公顷产量的51. 83% 。2005 - 2010年间, 美国玉米生产公顷产量比我国玉米公顷产量的差距均值为2 632. 65kg。美国公顷产量高的主要原因源自于美国玉米生产多为规模化农场模式, 且采用大量的精确农业技术和农业机械技术, 不断提高了玉米的生产效率水平[2]。与此同时, 美国玉米生产中, 采用了转基因品种与技术, 增强了玉米的抗病害和抵御自然灾害能力, 这些因素均为提高玉米的单产水平提供了保障。

2. 2 2005-2010玉米生产每公顷总成本

从玉米生产每公顷成本花费的角度进行对比分析, 2005-2010年美国与我国的对比数据显示: 玉米成本时序变动情况说明, 我国玉米生产每公顷成本呈逐年递增趋势, 且在2010年超过了美国每公顷成本消耗的数目8 703. 75元; 而美国玉米生产每公顷总成本自2005 -2010年有小幅度攀升, 但整体变动不大。 我国玉米生产成本增幅较大的主要原因是国内玉米生产所需的直接费用和间接费用均呈递增趋势。因此, 若想提高我国玉米生产的效率水平需要从节约成本和提高产量两个方面同时进行, 即降低投入指标、 提高产出指标。

3测算模型方法介绍与选择

以现代经济学理论为基础, 对经济系统进行效率测算所采取的主要是基于生产前沿面的方法, 可将其大致分为参数方法和非参数方法两类: 参数方法事先假定生产函数具有某种函数形式, 再利用统计方法估计其中的参数, 从而得到经验生产函数, 而后进行生产分析; 非参数方法是直接应用观测数据, 根据所描述的经济特征, 构造生产可能集, 进而研究生产可能集的生产前沿面, 利用生产前沿面进行经济分析。当前, 使用较多的前沿效率分析技术主要有5种: 数据包络分析 ( DEA) 与无界分析 ( FDH) 均属于非参数评价方法; 随机前沿面法 ( SFA) 、自由分布法 ( DFA ) 和厚前沿面法 ( TFA) 是基本的参数评价方法。参数方法最大的缺点在于需要事先假设生产函数的形式以及误差项的概率分布, 而且不适合处理多输出生产系统。与参数方法不同, 非参数的DEA方法不需提前假设函数的具体形式, 直接通过观测数据确定有效生产前沿面, 通过判断投入-产出向量 ( x, y) 是否位于有效生产前沿面上, 来评价决策单元的效率及其获得改进绩效的信息。DEA是一种能够处理多输入、多输出系统评价的典型非参数方法, 它利用有效生产前沿面测算各决策单元的效率值, 不仅能够对业绩进行全面的评价, 还可以提供改进效率的最佳途径。因此, 该方法具有参数方法无法比拟的优点。

鉴于DEA方法在处理多输入、多输出系统中的优点, 其在生产效率测算理论中的应用十分广泛。传统的DEA模型有两种形式: 一种是基于规模收益不变 ( 简称CRS) 的CCR模型, 另外一种是基于规模收益变动 ( 简称VRS) 的BCC模型。假设有n个待评价对象, 称为决策单元 ( 简称DMU) , 对于第j0 ( j0= 1, 2, …, n) 个决策单元DMUj0, 具体的模型计算公式为

其中, xij表示DMUj对第i种类型输入的投入量;yrj表示DMUj对第r种类型输出的产出量;vi为对第i种类型输入的权重;ur为对第r种类型输出的权重;ε为非阿基米德无穷小量。同时, 满足xij>0, yrj>0, vi≥0, ur≥0, i=1, 2, …, m;r=1, 2, …, s;j=1, 2, …, n。记Xj= (x1j, …, xmj) T, Yj= (y1j, …, ysj) T, j=1, 2, …, n, 则可用 (Xj, Yj) 表示第j个决策单元DMUj。当μ=0时, 模型 (1) 为CRS模型;当μ为自由变量时, 模型 (1) 为VRS模型。

本文对玉米全要素生产效率的测算中, 设定了16个投入要素指标及4个产出要素指标, 即m = 16, r = 4。利用传统的DEA模型, 可以测算得到CCR效率值和VRS效率值; 然而, CRS效率指标和VRS指标并不能完全反映全要素生产效率的状况。因此, 将生产效率分解为纯技术效率 ( PE) 、规模效率 ( SE) , 综合技术效率 ( TE) 利用PE与SE的乘积表示。对于各个分解效率的测算, 以单投入-单产出生产系统基于投入的CRS与VRS模型对应的数据包络面进行说明, 如图1所示。

根据图1显示的CRS曲线与VRS曲线之间的关系, 若P点表示的是一个决策单元所对应的投入-产出位置, 则该决策单元对应的分解效率分别为TE=APv/AP, SE=APc/APv, PE=TE/SE。

4数据分析与测算

依据本文设计的玉米生产效率投入-产出指标体系, 通过《中国统计年鉴》《农业统计年鉴》《全国农产品成本收益资料汇编》对指标数据进行了收集, 并且从2005-2010年的全国玉米生产全要素效率和2010年各地区玉米生产全要素效率进行了测算与分析。

4.1 2005-2010年我国玉米生产全要素效率测算与分析

本文设计的指标体系中包含16项投入要素, 同时对应4项产出指标。鉴于评价年份只有6个年份, 传统DEA测算中易于出现多个或全部决策单元DMU均有效的情况。为了克服这一缺点, 在测算中选择了对应投入指标最小值和产出指标最大值构造标杆单元, 并利用日本DEA软件10. 0, 可以测算得到各个年份对应的效率分解指标。

综合效率TE是对我国玉米生产系统中2005 - 2010年玉米生产要素的配置能力、使用效率等多方面能力的综合衡量与评价。从整体综合效率水平来看, 我国玉米生产呈递增趋势, 且在2008年达到最优效率值。2005-2007年间综合效率值保持在0. 92左右, 2008年达到有效, 2009年比2008年有所降低, 而紧接下来的2010年又提升到了0. 981 98。这说明, 从整体趋势上, 我国玉米生产系统全要素投入效率基本呈现不断优化和提升的趋势。我国玉米生产投入要素结构不断优化, 尤其是伴随玉米种植技术与机械化水平的提高, 促进了我国玉米生产的劳动生产率, 优化了各要素的组合比例, 为玉米产量与产值的提升提供了重要保证。

从纯技术效率PE的角度可以看到: 2005 -2009年的PE效率水平均为1, 表征这些年份的纯技术效率水平均表现为有效; 而2010年的技术效率水平低于2005 -2009年的水平。 纯技术效率反映了我国玉米生产系统在一定投入要素条件下的生产效率, 其主要决定于玉米生产系统中的投入技术要素和生产管理水平。测算结果显示, 我国玉米生产系统对应的纯技术效率水平较高, 均达到0. 98以上, 说明玉米生产中的技术要素配置水平较高。

规模效率SE反映了玉米生产的实际规模与最优生产规模的差距。规模效率的测算结果显示: 2008年、2010年我国玉米生产效率达到了最优水平; 而2005 -2007年间基本在0. 92左右波动; 2009年虽然比2008年对应的纯技术效率水平低, 为0. 940 38, 但仍高于2005-2007年间的平均水平。这说明, 我国玉米生产规模效率基本呈递增趋势。纯技术效率PE = 1, 表示该年份对应的玉米生产从技术水平上, 其投入资源的使用是有效率的。如果该年份对应的综合效率水平TE未能达到最优, 其根本原因在于玉米生产的规模无效, 因此其改革的重点在于如何更好地发挥其规模效益。2005-2007年、2009年对应的玉米生产系统要素投入-产出效率的分解测算结果均反映出了这一现象, 说明这些年份适度扩大我国玉米生产规模将是提高玉米生产要素效率的重要途径。

4. 2 2010年各地区玉米生产全要素效率测算与分析

为了进一步了解我国各个玉米种植区域内的生产全要素效率水平, 选择了全国20个玉米生产省份, 并按照本文构造的指标体系收集数据, 对效率计算结果进行分解。

为了进一步区分决策单元的投入-产出生产要素效率水平, 同样引入标杆单元进行测算。测算结果显示, 20个省份的综合技术效率水平均未达到最优, 且区域之间差别较大。其中, 玉米生产要素效率水平最高的是内蒙古, 效率值为0. 979 23; 表现为效率水平最低的区域是广西, 效率值为0. 447 57。这说明, 我国玉米生产区域内玉米生产要素效率水平存在很大差异性。

从纯技术效率PE的角度来看, 山西、黑龙江、江苏、重庆、贵州对应的玉米生产要素纯技术效率表现为最优, 说明这些省份在玉米生产中具有较高的生产技术水平和生产管理水平。除此之外, 内蒙古、河北、 吉林和安徽的玉米生产要素纯技术效率PE均高于0. 9。从规模生产效率SE水平来看, 规模效率表现为最优的区域仅有3个, 分别是内蒙古、甘肃和新疆, 其他区域还存在规模效率提升的空间。扩大玉米生产规模效率, 并在适度规模基础上推进玉米种植机械化水平, 是提高区域玉米综合生产要素效率水平的重要方向。

5我国玉米全要素生产率提升对策与建议

1) 增加玉米生产科技投入, 提升玉米生产要素技术效率水平。根据玉米生产作业的基本流程, 可将其划分为整地、施肥、播种、中耕、植保、灌溉、收获7道基本环节。在玉米生产作业中, 应增加生产科技投入量, 如精准农业生产技术、优质高效施肥技术、浸种催芽、菌肥拌种及机械化生产、收获等技术。玉米生产科技投入量的增加, 可以促进玉米生产全要素的利用效率, 起到节本增效的作用。玉米机械化水平是玉米生产全要素技术效率提升的重要途径, 与玉米工艺流程相适应的七大机械化生产技术模式包括: 以深松为主体, 少耕降耗为核心, 松、翻、耙、免相结合的机械化轮耕技术; 机械化精密播种技术; 机械分层深施肥技术; 中耕机械化技术; 机械喷雾药剂灭草免中耕技术; 机械化节水灌溉技术; 玉米机械化收获技术。然而, 目前我国玉米收获机械还处于瓶颈期, 存在生产效率低、难以推广应用、工艺适应性差、作业损失大和可靠性差等问题。因此, 提高玉米机械化水平, 尤其是实现玉米收获机械的新突破, 将是促进我国玉米生产要素技术效率水平的重要途径。

2) 扩大玉米生产规模化水平, 推进玉米机械化水平。由于美国玉米生产采用农场化大规模生产模式, 从20世纪初开始美国便已开始推行玉米生产机械化, 并于1940年基本实现玉米的全程机械化。然而, 我国农业生产模式基本采用家庭联产承包责任制形式, 该模式在一定程度上限制了玉米的规模化生产, 尤其是限制了玉米生产中采用农业机械进行机耕、机播和机收的规模化效率水平。因此, 农村人口多、土地资源少, 导致农业生产规模不经济, 从而阻碍农机化的发展。为了促进玉米生产的规模化水平, 应该推行多种类型的玉米生产模式。例如, 通过土地承包或激励种植大户进一步实现土地流转和专业化生产, 或者通过玉米生产专业协会协调种植户进行联合标准化生产等。另外, 为了促进玉米机械化水平, 还应该不断加强配套农机服务体系和种植户相关科技培训体系建设。

3) 缩短区域差距, 依据各地资源禀赋特征促进玉米生产要素效率。从玉米生产区域的分布来看, 我国玉米生产70% 以上聚集在东北地区和华北黄淮地区, 生产区域共可以划分为6个各具特色的生态种植区。 由于各个区域资源禀赋、地理区位的差异性, 也导致了玉米生产要素效率水平的差异性。为提升区域纯技术效率, 各区域应根据各地玉米生产特征, 加强区域间的技术交流与协调, 选择最适合于本区域玉米种植的先进技术及适用机械, 以促进区域发展的优化与协调。另外, 应加强玉米生产技术及区域先进经验的推广, 不断推进我国玉米生产技术效率的整体提升。

4) 加强政府供需调控与科技扶持, 促进玉米生产平稳增效。作为世界第二大玉米生产国, 我国玉米储备与生产水平直接影响着国际玉米市场价格与期货价格。因此, 我国政府应采取相应措施加大玉米生产种植面积, 增加国内玉米储备水平, 缓解国际市场玉米价格波动。另一方面, 为了促进玉米生产平稳高效, 政府应加大科技资金投入, 尤其是玉米生产、加工技术的产-学-研链条, 促进玉米技术的产业化能力, 最终提升玉米产量与品质。

摘要:玉米生产受到诸多投入要素的限制与影响, 如种子、秧苗、劳动力、土地、农药、化肥、农膜、机械设备、畜力和其他物质投入等, 提高这些因素的投入-产出效率水平对于促进玉米高效持续增产至关重要。为此, 在对中美两国玉米生产成本与单产时序比较的基础上, 利用基于DEA的非参数前沿面效率分解方法对全国主要地区的玉米全要素生产效率问题进行了实证分析, 从纵向时间序列和横向不同区域两个视角研究了我国玉米生产效率和生产资源配置的演化过程及区域对比特征。最后, 有针对性地提出了促进我国玉米生产资源有效配置、提高玉米生产效率的相应措施与途径。

关键词:玉米生产,全要素生产率,非参数方法

参考文献

[1]陈卫平.我国玉米全要素生产率增长及其对产出的贡献[J].经济问题, 2010 (2) :40-42.

[2]丁岩, 翟印礼, 周艳波.辽吉两省玉米全要素生产率的比较研究[J].农机化研究, 2011, 33 (9) :63-65.

[3]刘洋, 吴育华.中国农业全要素生产率变动:1995-2005[J].中国农机化, 2010 (6) :41-44.

[4]吴先华, 唐新川, 于波, 等.基于省际面板数据的全要素生产率的计算:1995-2006[J].数理统计与管理, 2010, 29 (6) :975-986.

[5]路王宗, 范英, 魏一鸣, 等.技术进步对经济增长作用定量化分析的若干方法[J].中国管理科学, 2010 (1) :103-113.

[6]韩松, 王稳.几种技术效率测量方法的比较研究[J].中国软科学, 2011 (4) :147-151.

[7]黄映晖, 戎承法, 张正河.DEA方法在小麦生产效率衡量中的应用[J].农业技术经济, 2011 (5) :16-22.

[8]赵自芳, 史晋川.中国要素市场扭曲的产业效率损失—基于DEA方法的实证分析[J].中国工业经济, 2011 (10) :40-48.

[9]朱顺林.区际分割与产业效率损失分析—以中国烟草制品产业为例[J].统计与决策, 2011 (1) :11-13.

非参数分析 篇8

农业保险是转移和规避农业生产风险的一种比较有效的管理工具, 已成为国际上最重要的非价格农业保护工具之一, 目前世界上约有40多个国家在推行或试验该项农业政策, 是被WTO组织认为所允许的国家扶持农业发展的“绿箱”政策之一[1]。

科学厘定保险费率是确保农业保险经营稳定的重要前提[2]。传统农业保险是以单位农田的历史产量损失数据为基础, 通过核算保险费率开展起来的。作物遭受自然灾害时, 直接表现为产量损失或者质量下降。由于作物产量或者质量直接影响人们效用, 因此各国最初制定农业保险计划时, 大都以产量标的物进行风险分析, 努力找到作物产量的分布函数, 从而厘定不同损失程度的保险费率[3]。

已有的文献主要从两个方面, 即参数方法和非参数方法, 来描述产量分布和测量产量风险[3]。参数方法假定这种损失随机变量服从某一具体分布, 然后根据样本数据进行参数估计。国外学者提出了正态、对数正态、Logistic、Weibull、Beta、Gamma等多种分布形态[4,5,6,7,8]。参数估计方法一般要求有先验的分布函数以及样本容量足够大等, 而这在产量风险估计中估计结果具有不稳定性。

另一种方法是非参数方法, 这种方法是根据样本数据对所寻找的分布通过直方图来进行描述, 或者根据样本数据利用某种非参数方法, 如非参数核密度估计方法或最临近估计方法对所求的分布进行密度估计。农业保险费率厘定研究中关于非参数方法的运用主要集中于核密度估计法。Turvey等采用非参数估计量对农作物产量分布的保险费率进行了估计, 由于采用的样本过小, 限制了核密度估计的效果[8]。Barry等采用非参数核密度估计农作物产量密度, 并用此方法确定了美国小麦和大麦1995~1996年保险纯费率[3], 随后对该方法进行了重新的探讨, 提出了适应性核密度算法, 优化了估计的效果[2]。

本文介绍小波分析和非参数方法的一般数学原理, 列出保险费率厘定的小波——非参数统计方法一般步骤, 即利用小波方法确定出作物单产的趋势产量, 用非参数核密度方法估计作物损失的概率分布和保险费率的厘定, 最后进行实证分析, 将小波——非参数方法应用于江苏水稻保险纯费率的厘定, 得到在80%和70%保障水平下, 江苏水稻产量保险的纯费率分别为2.54%和1.67%。

2 小波——非参数方法介绍

2.1 小波分析

小波分析属于时频分析的一种, 它在时域和频域同时具有良好的局部化性质。它是一种信号的时间——尺度 (时间——频率) 分析方法, 具有多分辨率分析的特点, 而且在时频两域都具有表征信号局部特征的能力, 是一种窗口大小固定不变, 但其形状可改变, 时间窗和频率窗都可以改变的时频局部化分析方法。小波变换在低频部分具有较高的频率分辨率和较低的时间分辨率, 在高频部分具有较高的时间分辨率和较低的频率分辨率, 被作为分析信号的显微镜。由小波分析理论, 信号可以通过小波分解, 一层一层分解到不同的频率通道上。由于分解后的信号在频率成分上比原始信号单一, 并且小波分解对信号作了平滑, 因此分解后信号的平稳性比原始信号好得多。

多分辨分析是一种对信号的空间分解的方法, 在其基础上, 产生了小波分解的Mallat算法[9]。运用Mallat算法, 可以将信号一层层进行分解, 每一层分解的结果是将上次分解得到的低频信号再分解成低频和高频两部分。算法如下:

Aj+1, k=mh0 (m-2k) Aj, m (1) Dj+1, k=mh1 (m-2k) Aj, m (2)

j为分解尺度, k, m为平移系数, Aj, m为尺度系数, 是低频部分;Dj, k为小波系数, 是高频部分, h0, h1分别是低通和高通滤波器。

利用分解后的小波系数可以重构原来的序列, 小波系数的重构公式为

简而言之, 从第一层开始分解, 结果有高频部分D1和低频部分A1;接着, 对低频部分进行进一步的分解, 结果有高频部分D2和低频部分A2, 如此, 一直把信号进行分解, 经过4次分解之后, 原始信号A分解为:A=A4+D4+D3+D2+D1, 式中D1、D2、D3、D4分别为第1层到第4层分解得到的高频信号;A4为第4层分解得到的低频信号。这里分解层数的选择根据实际需要而定。

2.2 非参数核密度法

核密度估计理论由Rosenblatt[10]首次提出, 然后ParzenCacoullos进行了详细论证[11,12]。非参数核密度估计不需要该分布的先验知识和任何概率分布形式的假设, 是一种从数据样本本身出发, 研究数据分布特征的方法。

设X1, X2, …, Xn为n个指标样本, 指标样本的概率密度函数为f (x) , f (x) 的核密度估计定义为:

为核函数, h为窗宽, n为样本容量。

目前常用的核函数有均匀、三角、依潘涅契科夫、四次、三权、高斯六种形式[11]。在核密度估计中, 窗宽h和核函数的选择直接影响密度函数的估计精度;一个核估计的好坏, 取决于核函数及窗宽的选择是否合理[13,14,15]。

事实上, 在Kernel密度估计法中, 核函数的选择对估计结果的准确性影响并不大, 选择“合适”的窗宽h才是Kernel密度估计中十分重要的步骤。窗宽h越小, 核密度估计对原样本值拟合得越好 (即偏差越小) , 但密度曲线很不光滑, 有许多突出点 (即方差越大) ;窗宽h越大, 密度曲线越光滑, 方差越小, 但核估计的偏差却增大。因而, 如何选择一个合适的窗宽, 也就是在核估计的偏差和方差之间做一个权衡, 是利用核估计方法对密度函数进行估计的一个重要环节。选择窗宽h的一个常用原则就是使得均方误差MSE (f^) =E[f^ (x) -f (x) ]2dx最小, 主要方法有总量确定法、Sliverman的经验法则和各种插入法。Parzen指出最优的窗宽h的计算公式为[11]:

其中, θ为待估的密度函数, 如果未知密度是方差为σ2的正态分布, 则以正态分布函数作为核密度 (高斯核) [2]。

3 纯费率厘定的小波——非参数统计方法一般步骤

纯费率的厘定过程分为三个主要步骤——粮食单位产量小波分解、农作物产量损失概率的非参数估算、保险费率的厘定。

3.1 粮食单位产量序列小波分解

实际中遇到的时间序列经常含有趋势项、周期项和随机项, 其中趋势项和周期项在时间序列中非常重要[16]。我们可以对原时间序列进行小波变换, 将其分解成不同尺度的成分, 使复杂问题简单化, 再用小波逆变换合成。常见的小波函数是Harr小波、Daubechies小波、Symlet小波、Dmeyer小波等。针对不同的问题类型, 可以选择不同的小波函数。

影响作物最终产量形成的各种自然和非自然因素按影响的性质和时间尺度划分为农业技术措施、气象条件和随机“噪声”三大类[17]。从理论上讲, 由于农业技术进步、品种改良和劳动者素质提高等因素, 作物单产的潜在水平不是稳定不变的, 一般都有一个上升的趋势。剔除单产数据的趋势来考察粮食的单产波动十分重要, 否则不能反映出单产的真实波动。

相应地, 如果将粮食单产时间序列视作一个波动函数, 为研究的方便, 同时考虑实际物理意义, 可以将这个序列分解为三个波动的合成:

其中, Y为粮食单产, Yt是反映历史时期生产力发展水平的长周期产量分量, 称为趋势产量;确定趋势产量的一般方法是 (加权) 移动平均法、指数平滑法、回归拟合法等, 但移动平均法和指数平滑法都会损失一些样本数据, 而回归模拟法又具有很大的主观性。采用Daubechies小波对时间序列进行分解得到趋势项可以避免上述方法的缺点。Yp是受以气象要素为主的短周期变化因子影响的产量分量, 称为气象产量, ε是受病虫害、社会动荡等随机因素影响的产量分量, 实际计算中不作考虑。

3.2 农作物产量损失概率的非参数估算

农作物产量损失模型的构建是农作物生产风险分析和评估的关键步骤, 模型构建的准确性和合理性直接关系到作物生产风险分析评估结果的可靠性。

定义单产随机波动的相对值

此时气象产量就变成一个相对比值, 不受历史时期不同农业技术水平的影响, 其物理意义表明粮食波动的幅值, 不受时间和空间影响, 具有可比性, 能较好地描述气象灾害等各种短期变动因子对粮食单产的影响。

由前面的分析, 采用非参数方法估算农作物产量损失概率, 选用最为常用的高斯核作为核函数, Silverman经验法则计算窗宽。

3.3 纯费率的厘定

Alan P.KerBarry K.Goodwin的研究结果[2]表明, 农业保险的纯费率可以表示为:

其中, r是农作物产量保险纯费率, λ (0≤λ≤1) 表示农业保险的保障水平, Y表示当年的农作物实际产量, ye表示当年农作物的趋势产量。P (Y<λye) 表示当年农作物的实际产量小于保障水平下产量的概率。

4 小波——非参数统计方法实证分析

自2004年以来, 江苏的淮安、苏州和无锡先后开始了农业保险的试点工作, 农业保险在江苏省有了一定程度的发展, 2006年全省农业保险的保费比上年增长6倍以上。2007年江苏省被农业部、财政部和保监会列为全国六个农业保险试点省份之一。

以江苏淮安的农业保险实施条款为例, 已经植麦和植稻的农户, 保费的类型有三种:每亩农作物缴纳2.5元、5元或7.5元的保费, 如果产量损失超过正常产量的90%, 他们将从保险公司相应获得每亩100元、200元或300元的赔偿。根据实地调查, 这样的收费与赔款条款的设计基本上根据管理经验, 没有用统计方法进行科学的厘定。

江苏是我国南方水稻高产大省。2007年江苏省参加农业保险的水稻种植面积已经达到2986.99万亩, 占全省水稻种植面积90%以上。以江苏水稻的保险费率厘定为例, 具有实际的应用价值和推广意义。图1是建国以来江苏水稻的历年亩产量yt (单位:斤/亩) , 数据来源于中国种植业信息网的农作物生产统计数据。

Daubechies正交小波对江苏水稻历年亩产量数据进行分解, 分解三次其图形见图2。

A3分别为分解3次后数据的低频部分, 作为水稻产量序列的趋势项。D1, D2, D3分别为小波分解第一次到第三次的高频部分。

接着计算出单产随机波动的相对值, 采用非参数方法估算农作物产量损失概率, 选用最为常用的高斯核作为核函数, Silverman经验法则确定窗宽, 得到h=0.04333。利用Matlab软件作出水稻产量损失概率的拟合图 (图3) 。

编写相关Matlab程序, 计算出自建国以来江苏的水稻单产损失大于20%的概率为5.91%, 水稻单产损失大于30%的概率为3.86%。根据式 (8) 的计算, 在80%保障水平下, 水稻的纯费率为2.54%, 在70%保障水平下, 水稻的纯费率为1.67%。

5 结语

中共中央2004年、2005年两年的一号文件都不同程度提出, 要尽快建立我国政策性农业保险制度并进行试点工作。农业保险工作利国利民, 但是目前这项工作开展还存在不少技术问题, 农民和保险公司办理保险业务仍具有一定难度。其中保险费率的科学性是关系到农民投保和保险公司开展业务活动的关键, 本文改进了纯保险费率的厘定方法, 运用小波和非参数方法确定农作物的保险纯费率, 对政府和保险公司开展农业保险业务具有参考作用。

摘要:农业保险制度是被WTO组织认为所允许的国家扶持农业发展的“绿箱”政策之一, 科学厘定保险费率是确保农业保险经营稳定的重要前提。本文介绍了小波分析和非参数方法的一般数学原理, 接着列出了保险费率厘定的小波——非参数统计方法一般步骤, 即利用小波方法确定作物单产的趋势产量、用非参数核密度方法估计作物损失的概率分布和厘定保险费率。最后进行了实证分析, 将小波——非参数方法应用于江苏水稻产量保险纯费率的厘定。

非参数分析 篇9

关于板书教学与多媒体教学效果的比较研究, 尤其是关于具体课程教学效果的计量实证研究成果较少。鉴于此, 笔者拟以安徽科技贸易学校的电子商务概论课程为例, 通过对板书教学和多媒体教学手段下电子商务概论课程教学效果的非参数检验和偏相关分析, 探讨不同教学手段与电子商务概论教学效果之间的关系及其差异性, 旨在为提高课程教学效果和人才培养质量提供参考。

一、研究方法

(一) 非参数检验

非参数检验是在无法或无需获悉两独立样本总体分布形式的条件下, 通过统计学方法和数学技巧等建立统计量, 挖掘数据样本背后隐藏的信息, 从而比较样本分布位置和形状等是否存在显著差异的一种重要的统计分析方法, 其中Mann-Whitney U检验是最主要的方法之一。

其中, Uxy (Uyx) 为y (x) 的观测值大于x (y) 的观测值个数。

(二) PCA分析

PCA分析 (Partial Correlation Analysis) 即偏相关分析, 是通过控制其他变量的影响来分析两变量之间关联程度的分析方法。采用如下公式计算偏相关系数:

建立零假设H0, 即两样本的PCA分析与零无显著差异, 选择如下偏相关分析检验统计量, 通过计算检验统计量的观测值和概率p值, 并比较概率p值与显著性水平的差异。

其中, n、q、t分别为样本数、阶数, 且t∶t (n-q-2) 。

二、教学手段与电子商务概论课程教学效果的关系实证分析

为分析板书和多媒体两种教学手段与电子商务概论课程教学效果之间的关系, 并尽可能减少其他因素的影响, 笔者分别选取安徽科技贸易学校2012—2013学年和2013—2014学年第一学期2012级、2013级两个独立样本, 以上两个样本时间上跨度较小, 且电子商务概论课程由同一名专业教师授课。考虑到研究的需要, 剔除同一学期电子商务概论、语文、数学、计算机基础期末综合成绩不全以及调查问卷未收回或无效的学生, 共得到2012级、2013级两个样本容量分别为31和45的样本。学校期末综合成绩是由期末考试、平时成绩、学习态度和出勤四个部分加权得到的综合成绩, 为更准确地分析多媒体和板书这两种教学手段与电子商务概论课程教学效果之间的关系, 笔者选取了综合成绩中的期末考试和平时成绩来衡量教学效果。

安徽科技贸易学校电子商务概论课程2013年起采用多媒体教学, 而此前采用板书教学。为了比较两种不同教学手段的优劣, 需要分析2012级、2013级电子商务概论教学效果两个独立样本数据分布是否存在显著的差异性。将两个独立样本数据混合, 按照升序进行排列, 并得到每一个数据相应的秩, 分别求出两个独立样本数据的平均秩次及秩和, 如表1所示。

从表1来看, 在2012级、2013级电子商务概论教学效果中分别抽取31个和45个样本, 两独立样本的秩和分别为1 036.00和1 890.00, 平均秩分别为33.42和42.00。从平均秩次可粗略地看出, 2012级、2013级电子商务概论教学效果的秩和存在一定的差异, 为检验其差异是否具有统计学意义, 通过两个独立样本Mann-Whitney U检验和Kolmogorov-Smirnov检验进行了分析, 如表2所示。

从表2来看, 取2012级电子商务概论教学效果的秩综合为W统计量, Mann-Whitney U统计量及Z值540.00和-1.666, 双尾 (2-tailed) 近似概率值为0.096, 小于显著性水平0.10。因此, 2012级、2013级电子商务概论教学效果的分布存在显著差异。

Kolmogorov-Smirnov检验也表明, 2012级、2013级电子商务概论教学效果的累积概率最大绝对差、观测值分别为0.312、1.336, 概率p值为0.056, 小于显著性水平0.10。因此, 拒绝零假设, 即2012级、2013级电子商务概论教学效果的分布存在显著差异。

在对相关研究成果进行归纳的基础上, 构建以下模型来分析教学手段与电子商务概论课程教学效果之间的关系:

其中, y为电子商务概论课程教学效果, x1为教学手段学生满意度, 通过建立包括信息量、生动性、互动性、启发性等4个二级指标11个问项的测量量表, 并采用李克特LIKERT五分量表法在学生无意识的条件下进行调查并得出;x2为学生基础、学风、班风等综合变量, 用语文、数学、计算机基础期末综合成绩表示, 如表3所示, α、β1、β2为待定归系数。

为剔除2012级和2013级学生基础、学风、班风等方面的影响, 避免出现变量间的虚假相关性, 将x2作为控制变量, 进行偏相关分析。

表4为剔除了学生基础、学风、班风等方面的影响之后教学手段与电子商务概论的偏相关系数方阵, 其中相关系数为0.774, 自由度为73, 显著性概率p值为0.000, 表明两者之间存在强正相关关系。

三、结论及建议

教学手段、学生基础、学风、班风等因素会影响课程教学效果, 进而影响人才培养质量。为分析教学手段与课程教学效果之间的关系, 笔者首先采用MannWhitney U检验和Kolmogorov-Smirnov检验等两独立样本非参数检验方法。以电子商务概论课程为例, 分析了安徽科技贸易学校2012级板书教学和2013级多媒体教学这两种不同教学手段下课程教学效果分布存在的显著差异性。在此基础上, 通过控制学生基础、学风、班风等方面的影响, 分析了教学手段与电子商务概论课程教学效果之间的关系, 结果表明:板书和多媒体教学手段与电子商务概论教学效果之间存在强正相关关系, 多媒体教学手段的教学效果比板书教学手段的教学效果好。

基于以上结论, 提出如下建议:

首先, 要加强对教师的多媒体教学培训。许多电子商务教师入职前未接受过专业的多媒体教学培训, 对多媒体教学的理解较为狭隘。作为一种新型的、重要的教学手段, 多媒体教学集文字、色彩、图形、音像等于一体。要利用好多媒体, 就需要强化教师对多媒体教学的认知, 教师要明确影响多媒体教学效果的因素, 了解学生对不同教学手段的接受程度及差异, 掌握多媒体教学的特点, 熟练地利用Authorware、Power point、Flash、3DMAX、Premiere等软件, 进行文本编辑、动画制作和图像处理, 科学地管理多媒体硬件教学设施, 并探索性地在电子商务概论教学过程中将不同教学手段结合起来, 创新教学模式, 提高学生学习的积极性和主动性。

其次, 要实现多媒体教学资源共享。多媒体教学需要充足的软件、数据、图表、图片、动画、影像、网页、课件等资源, 建立多媒体教学资源库, 实现对这些资源的共享, 是提高课件质量、降低制作成本的有效途径。电子商务概论课程教师要加强沟通与协作, 对多媒体教学课件制作和教学中遇到的主要问题和主要困难展开讨论, 积极协作, 寻求解决方案。学校要鼓励教师借鉴国家精品课程资源, 积极申报精品课程, 通过精品课件建设平台, 形成由电子商务教师和电化教育专业人员共同组成的团队, 设计出教学内容和教学环节符合教学目标的优秀多媒体课件, 在全校开展课程建设经验交流, 并实现多媒体教学资源共享。此外, 要增加对多媒体馆藏建设和多媒体资源库的投入。

再次, 要完善多媒体教学激励机制。目前, 学校电子商务概论多数采用传统板书形式进行教学, 少数采用多媒体教学的教师, 其课件也是以文字为主, 仅将多媒体当作电子屏幕这种“单媒体”使用。一份优秀的多媒体课件, 是顺利实现教学目标的重要工具, 其字体、颜色、大小、行距、段落、标题需要合理设计, 信息量需要合理安排, 为提高学生的学习兴趣, 还需要适时加入动画、声音、图像等元素, 插入超级链接, 并且每年要根据情况更新相应的多媒体素材, 这需要投入大量的精力。此外, 多媒体教学的采用对教师的教学互动、课堂管理、重点难点管理和学生逻辑思维能力培养等都提出了更高的要求。因此, 学校要完善相应的激励机制, 如可定期举行多媒体教学课件比赛, 给予多媒体教学较传统板书教学更高的工作量系数, 将多媒体教学与评优评先挂钩, 引导教师积极开展多媒体教学。

最后, 要构建多媒体教学评价体系。多媒体教学作为一种重要的教学手段, 将在中职课程教学中长期存在。要鼓励教师革新教学手段, 开展多媒体教学, 制定多媒体教学课件制作、教学方法和教学质量评价标准, 并构建科学合理的教学评价体系。每学期期初和期末应由教务处统筹、各个系牵头进行教学课件审查, 对于教学内容消极、不符合教学要求的, 应要求进行整改。要不定期地安排同行和督导对多媒体课件制作质量、教学方法和教学质量等进行评价, 期末组织学生进行教学评价, 从课件内容与教学大纲的吻合度、课件制作质量、课程考核、专家评教、同行评教、学生评教等方面进行综合评价并形成长效机制, 以此促进教师提高对多媒体教学效能的认知和使用的动力, 激发教师开展多媒体教学研究与创新的主观能动性, 从而有效地提升教学效果。

摘要:板书教学和多媒体教学是课程教学的重要手段。以电子商务概论课程为例, 通过对板书教学和多媒体教学手段下电子商务概论课程教学效果的非参数检验和偏相关分析, 明确不同教学手段与电子商务概论教学效果之间关系及其差异性。结果表明, 板书和多媒体教学手段与电子商务概论教学效果之间存在强正相关关系, 多媒体教学手段的教学效果较板书教学手段好。

关键词:教学手段,教学效果,非参数检验,PCA分析

参考文献

[1]郭晓光.多媒体教学与板书教学的再认识[J].中国教育学刊, 2014 (2) :71-74.

[2]周媛.高校多媒体教学效果调查分析与策略研究[J].中国大学教学, 2010 (2) :86-88.

[3]魏文忠, 王寄鲁, 吴玉阁.对多媒体教学效果的调查与分析[J].现代教育技术, 2007, 17 (9) :35-37.

[4]王娟.影响高校多媒体教学效果的因素分析与建议[J].电化教育研究, 2009 (5) :96-99.

[5]张芝花.大学英语多媒体教学效果的模糊综合评价与分析[J].教育理论与实践, 2010 (11) :54-55.

[6]王淑芬.基于学生角度的高校财管类多媒体课堂教学效果的优化[J].中国教育信息化, 2011 (21) :65-67.

非参数分析 篇10

智能交通系统近年发展迅猛,交通控制和诱导成为当今社会交通领域的一大课题,解决这一问题的前提是采用精度高、时效性强的方法对交通流进行准确预测。现存的预测方法大致可分为2类:第1类是传统的基于数理统计模型的预测方法,如ARIMA模型[1,2]、自适应权重联合模型[2]、卡尔曼滤波模型[1]等,这些预测方法基于数理统计模型,计算简便,但是由于交通流的随机性与非线性,实际情况下,很难建立精确且符合交通流特征的数学模型,尤其无法克服随机干扰因素的影响。近年来,交通流预测开始逐渐依赖于第2类智能交通流预测方法,如神经网络方法[3,4]、支持向量机方法[5]、非参数回归方法[6,7]等。神经网络具有自学习自适应等优点,贠天鹂[8]针对传统预测方法准确性低、预测时间长等问题将遗传算法和神经网络相结合,提高了交通量的预测精度,张敬磊[9]提出的1种基于RBF和ARIMA网络非线性组合模型的短时交通流预测方法组合发挥了2种方法的预测优势。非参数回归是近几年兴起的1种适合不确定性的、非线性的动态系统的建模方法,其基本思想是:从交通流数据中寻找不同的“模式”、即交通流的当前状态和未来状态的固定对应关系并建立模式库,然后通过在模式库中寻找与当前状态相似的历史状态,并把与当前点匹配的历史状态应用于状态预测,具有可移植性强和预测精度高等特点,适应短时交通流预测。1995年Smith[10]第1次将其应用在短时交通流预测上,这之后很多学者提出了改进方法,王晓原[11]将小波分析算法和非参数回归结合,先将交通流数据分解重构得到光滑的交通信号曲线,提升了非参数回归的预测效果。贾宁[12]针对提高搜索速度和关键参数的优化设置2个问题,提出使用KD树作为模式库的存储结构,能够有效提高搜索速度,使预测性能进一步提高,这些预测方法在一定程度上满足了交通流预测的需要。

从预测原理上讲,非参数回归预测就是通过模式匹配的方法,利用交通流的当前状态(自变量)来估计交通流参数的未来值(因变量),因此自变量的选取是非参数回归预测方法应用中1个十分重要的问题[7]。在交通流预测中,一般有2种代表性思路。

1) 时间关联。

例如,利用待预测位置前推若干个周期的交通流量来预测未来的交通流量,这种选取方法的依据是交通流变化趋势的重复性。

2) 空间关联。

例如,该位置上游某点的当前流量,来预测该位置的未来流量,这种思路的依据是交通流的空间变化性质。

在实际应用中,具体应用哪种策略需要根据待预测道路的实际情况来选择。在高速公路交通流预测中,由于交通流信息采集设备一般间隔较远,大多只安装在高速公路的出入口附近,因此空间关联策略由于受到数据因素的限制,很难采用,因此只能以时间关联策略为主。

在目前提出的方法中,通行的做法是将收集的所有历史流量数据构造为样本数据库,然后采用预测路段前N个时刻的流量作为状态向量。但是,根据交通科学的原理,不同日期(例如:工作日和周末)的交通流量分布有明显的差异,如果忽视这一现实特点,对提高预测精度是不利的。因此,本文根据不同日期流量模式分布不同的原理,将聚类分析和非参数回归相结合,提出了基于聚类分析的非参数回归短时交通流预测方法,即先根据不同时间的交通流数据特点将流量数据进行分类,再选择匹配待预测时刻流量模式的类别作为样本数据库运用非参数回归进行预测,更好地考虑了交通流的现实特点和规律,使短时交通流预测的精度有所提高。

1 基于聚类分析的非参数回归短时交通流预测方法

不同日期道路状况、天气情况下,人们出行需求等都有很大差异,导致流量在不同日期的分布具有不同的特点。例如人们在节假日由于工作产生的出行需求大大降低,而因为旅游的出行增加,流量模式和非节假日必然不同。如图1、2对比所示,图1为天津市高速公路九宣闸站2011年3月3日的流量数据,3月3日为普通工作日,图2为九宣闸站2011年10月1日国庆节的流量数据,数据均来自天津市高速公路信息管理中心的实测数据。图1和图2虽然都具有早高峰和晚高峰,但是国庆节的高峰值所在时间早于3月3日。从流量值上看,国庆节的最高值在220辆左右,是3月3日的最高值2倍以上。

由图1可见,不同日期之间,交通流量在1 d当中的分布差异很大,从3月3日数据中发现的流量模式,直接应用于国庆节流量的预测势必会产生很大的误差。因此在交通流预测中,需要根据不同类型的交通流量分布去分别建立不同的交通流量模式库。因此,如何区分流量模式的类别对于预测精度有很大影响。凭经验直接分类不能科学准确地将交通流量分布区分,应该采用聚类分析方法根据流量相似程度分类。

1.1 K-means聚类方法

聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程,符合短时交通流预测对于流量模式分类的要求,本文选择K-means聚类方法。

K-means算法采用距离作为相似性的评价指标。该算法认为簇是由距离较近的对象组成的,它要求同一聚类中的对象相似度较高,不同聚类中的对象相似度较小。

流程如下:

1) 初始化。设定聚类数(K),随机选择某些样本点作为初始聚类中心;

2) 循环。按就近原则将其余记录向聚类中心聚集,计算出各个类新的聚类中心位置,并用它们重新进行聚类,反复循环直至聚类中心位置收敛。

K-means聚类方法需要预先设定类别个数(K),K值的选择对于之后聚类结果好坏以及预测的效果有直接影响。类别过少或过多都不能准确的表现出样本特性,无益于提升预测精度,类别太少会掩盖“同一类”样本中实际存在的差别;类别太多则无法抽象出“不同类别”间存在的共同特征,且可能导致预测流程繁琐或者某个类别中数据不足的情况。K值的设定应满足同一类中的对象相似程度较高,不同类中的对象相似程度较低。在进行交通流预测时,各类中的对象指的是不同日期流量的时间序列,本文选择这些时间序列之间的欧式距离作为衡量相似程度高低的标准,计算方法如下。

d=i=1Ν(X1i-X2i)(1)

为了满足以上聚类要求,可选择类间距离/类际距离作为评价K值优劣的指标。类间距离指的是同1类中每个数据和这个类中其他所有数据均值的欧式距离的和,用来表示同1类内部的距离大小,设为IntraDistance。类际距离指的是将每1类的每个数据和其他各类中数据均值的欧式距离的和,用来表示不同类之间的距离大小,设为InterDistance。IntraDistance/InterDistance越小,聚类效果越好。

因此,在运用K-means聚类区分流量模式时,只需预先设定几个符合实际情况的K值,分别进行聚类,然后计算IntraDistance/InterDistance,选择该指标较小的结果作为聚类结果,根据聚类结果分别建立数据库,为预测交通流做准备。

1.2基于聚类分析的非参数回归短时交通流预测方法框架

基于聚类分析的非参数回归短时交通流预测方法框架见图3。

由图3可知,预测流程如下:

1) 基于聚类分析建立模式库:非参数回归预测的准确程度和效率很大程度上取决于模式库的质量。模式库并不是越大越好,1个质量较好的数据库应该包含研究道路的所有状态,而又不存在过多数据冗余。为了区分不同日期的交通流量模式,应将以天为单位的历史流量时间序列作为对象,运用上述K-means聚类方法将其分为几类,然后对不同类中的历史数据分别建立模式库。

2) 定义状态向量和数据相似性:状态向量是指能够描述当前状态的几个分量组成的1个向量,在预测交通流时一般选择预测路段前N个时刻的流量时间序列;数据相似性的定义指根据何种标准评价当前点和历史数据库中的点的相似度,一般选用欧式距离作为相似性指标。

3) 选择样本数据库:将待预测时刻前N个时刻的流量时间序列作为表征流量模式的向量,计算该向量与流程1中建立的各数据库中的聚类中心点同时间的N个时刻组成的时间序列之间的相似性。选择相似性最小的库作为样本数据库。

4) 近邻机制的建立:近邻机制是如何根据数据相似性来判断历史数据库中的点是否是当前状态的近邻,一般有最小K近邻法和核近邻法[13]。

5) 定义预测算法:近邻点找到以后,如何利用这些近邻点预测下1个时刻的预测变量的值。常用的方法有:求平均值,加权平均法等。

综上,基于聚类分析的非参数回归短时交通流预测方法是指将历史数据库中的交通流数据运用聚类分析的方法区分为流量模式不同的几个类别,在有交通流预测需求时,基于模式识别的思想,选定流量模式最近似的类别作为样本数据库,然后采用非参数回归方法进行计算得到预测结果。

该方法有以下特点:

1) 该方法的数据首先经过聚类处理对不同交通流状态进行区分,使在交通流预测时考虑到不同时间的交通流特点不同的现实特征;

2) 选择非参数回归作为预测方法,具有可移植性和高适应性,当需要采用该方法在其他路段或站点进行预测时,只需将数据库更换即可。另外,车辆保有量和区间需求量的变化是对交通流预测结果的1个影响因素,由于车辆保有量和区间需求量一般是1个长期因素,它在短时间内变化较小,因此定期将新数据更新到非参数回归的模式库中可以较好地减小两者对预测结果的影响。

2 实例应用

为了验证聚类分析对于非参数回归短时交通流预测的效果,选择天津市域高速公路中的九宣闸站为研究对象,将该方法应用到该地点的交通流预测之中,并将结果与传统的预测方法进行对比。

九宣闸站为天津市高速公路的主线站,数据来源于天津市高速公路信息管理中心的实测数据,包括九宣闸站2011年全年和2012年1月份到3月份的过往车辆的OD数据,其中包含上游车站名称、到达时间。2011年全部数据作为历史数据。

2.1 聚类分析结果及分析

将2011年的流量数据预处理成每5 min 1个时刻的数据作为历史样本,通过SPSS 20采用K-means聚类算法进行聚类分析,由于交通流的现实特点以及预测的需要,K值不宜取较大的值。2.1节中已经说明类间距离/类际距离可以作为评定K值优劣的指标,因此,取K=2~6分别做5次聚类分析得出结果并计算类间距离/类际距离,取使intra/inter最小的K,即K=5,分为5类。

假设节假日和非节假日流量模式不同,以此为例分析聚类效果。图4为各类中所有样本点每一时刻流量的平均值所绘制的流量图,可以看出不同类别的交通流流量模式有明显的差异,第2类和第3类的流量值较低,第1类、4类、5类的流量值比较高。

由出行习惯可知,人们往往在节假日出行前1 d就考虑出行方案,因此可预知节假日前1 d的流量模式和节假日的流量模式相差不大。全年法定假日共29 d,加上假期前1 d计7 d,共36 d。表2为节假日在各类中的分布情况,图5为各类中节假日所占比例,由表2和图5可知,节假日在第5类中的有11 d,而其样本总量为300 d,节假日仅为3.7%左右。其他类样本总量为60 d左右,节假日占25 d,比例较高,第1类和第5类的节假日比例甚至在50%以上。第3类样本量较大,节假日比例低,流量均值较低,可知第3类为工作日类,其他几类包含节假日和流量值较大的日期,聚类分析区分开了不同日期的流量模式。

综上所述,不同时间段的交通流流量模式有显著差异,在进行短时交通流预测之前将流量模式分类有意义,并且K-means聚类分析方法可以将不同的流量模式较好地区别出来。

2.2 预测结果及分析

已经通过聚类分析获得不同类别的数据库之后,本文选择2.1节所述的天津市高速公路九宣闸站2011年3月1日至15日早8时到晚8时共2 160个时刻的数据作为待预测的数据,采用非参数回归进行预测得到结果并与真实数据对比检验预测效果。真实数据数据来源于天津市高速公路信息管理中心的实测数据。

非参数回归预测流程如下:

1) 确定状态向量和数据相似性。取预测路段前N个时刻的流量的时间序列作为状态向量,这里N取12。数据相似性为状态向量和数据库中同时间12个时刻的流量数据组成的向量之间的欧氏距离。距离越近,相似程度越高。

2) 选择样本数据库。在每次预测时,预测路段的状态向量可以作为表征该时刻流量模式的向量,计算该向量与各类数据库聚类中心点的同时间的向量之间的距离,选择距离最近的中心点所在的类作为样本数据库。

3) 建立近邻机制。K近邻机制在近邻机制的选择上选择K近邻非参数回归,并设定K值为15,即取15个近邻点。

4) 选择预测算法:不同近邻点和当前状态距离不同,为了将不同近邻点与当前状态的相似程度的差异体现在预测算法中,采用距离倒数的加权平均算法作为预测算法,设Xi为待预测状态的第i个近邻点,di为它与当前状态的距离,其中,d=i=1k1di。根据式(1)进行预测,近邻集合中的与待预测状态距离越大的点权值越小,相反地距离越小的点权值越大,符合实际情况,预测结果更为准确。

d=1di=1k1diXi(1)

采用上述流程得到预测结果后,将预测数据与真实数据相对比,将3月1日到15日共15 d的同一时刻的绝对误差值的平均值绘成折线图见图6。

由图6可知,该方法的大部分时刻的预测结果的绝对误差在5辆车以下,与真实数据相差很小,预测效果较好。

为了验证聚类分析对于非参数回归进行短时交通流预测的作用,采用普通K近邻非参数回归对待预测时刻也进行了预测,并将其误差与基于聚类分析的非参数回归方法进行对比。预测结果精度对比见表3。

由表3可知,基于聚类分析的非参数回归短时交通流预测方法在平均绝对误差和平均相对误差上都优于普通预测算法,聚类分析对于非参数回归短时交通流预测方法的预测效果有较大提升。

3 结 语

不同日期的交通流量分布不同,流量模式有很大差异,而一般的非参数回归方法将所有历史交通流数据看作1个时间序列进行分析和计算,没有很好地考虑交通流的现实特点。本文提出1种基于聚类分析的非参数回归短时交通流预测方法,即在进行短时交通流预测之前采用聚类技术对流量模式进行区分,根据聚类结果建立不同的数据库,预测时选择某1个匹配待预测时刻流量模式的数据库,结合非参数回归得到预测结果。实例计算结果表明,采用聚类分析来分类流量模式使非参数回归预测交通流的平均绝对误差和平均相对误差都有所降低,提高了预测性能,这对于交通控制和诱导有很大意义。

摘要:大部分非参数回归预测算法并不对交通流历史数据进行区分,而是将全部历史流量数据建立模式库进行分析。基于交通流的现实特征,提出基于聚类分析的非参数回归短时交通流预测方法,首先根据流量分布特点运用聚类分析将其分类成不同的流量模式,然后选择匹配待预测时刻的流量模式作为样本数据库运用非参数回归进行预测。实例计算结果表明,其预测精度优于传统非参数回归方法。

上一篇:优质护理管理下一篇:达斡尔族民族音乐