非参数模型

2024-09-24

非参数模型(共9篇)

非参数模型 篇1

0 引言

中长期负荷预测是指1~10 a的月、季、年的负荷预测,它是电力系统进行电力规划、设计和投资的基础[1,2,3]。 中长期负荷预测主要包括用电量、最大负荷、负荷特性指标以及典型日时序、持续负荷曲线预测等。 国内外大量文献对用电量、最大负荷和负荷特性指标的预测方法进行了详尽的研究[4,5,6,7,8],并取得了较好的预测效果,而针对典型日负荷曲线的预测方法研究较少。 事实上,典型日负荷曲线的预测对于电源、电网优化具有重要意义,它是系统分配电量、审核调峰能力以及评估互联系统错峰调节效益的基础。

与短期日负荷曲线预测相比,中长期日负荷曲线的预测有以下特点:不同年份相同月份的典型日负荷曲线形状相似,变化规律相近;典型日负荷特性指标,如日负荷率 γ 和最小负荷率 β 能反映负荷曲线变化的形状和特点;用于预测的历史负荷曲线样本较少。 目前,中长期日负荷曲线除了采用人工按比例 进行编制 或历史数 据简单加 权累加的 方法[9,10]进行预测外,较为准确的方法是先预测典型日的最大负荷和负荷特性指标,如日负荷率 γ 和最小负荷率 β,然后选取一条已知负荷曲线作为参考曲线,认为待预测曲线与参考曲线形状接近,各时段具有相同的变化趋势,从而建立使待预测曲线满足负荷特性指标要求,并且形状与参考曲线形状最接近的数学规划模型。 文献[11]取待预测年前一年的典型日负荷曲线作为参考曲线,建立了使待预测曲线与参考曲线误差平方和最小的二次规划模型进行预测。 文献[12]用参考曲线从2个方向“夹逼” 待预测曲线,将预测模型转化为线性规划模型。 用上述方法进行预测的关键是选取一条合适的参考曲线。 文献中基于相似性“近大远小”的原则,一般选择待预测年前一年的典型日负荷曲线作为参考曲线。 文献[13]将历史典型日负荷曲线样本中不同年份、同一时刻的负荷数据构成时间序列,用支持向量机回归的方法分别对每个时刻点进行预测,得到预测曲线。 该方法预测结果受模型参数设置影响比较大。

函数型数据分析是加拿大统计学家J. O. Ramsay等在20世纪70年代提出的结合泛函分析、拓扑学与统计学的数据统计及处理方法[14]。 传统数据分析的观点是将历史数据视为变量在不同时刻点上的观测值按时间顺序排列构成的时间序列。 然而,处理的很多数据实际上是变量在某个观测区间上的重复观测值,例如日负荷数据。 基于函数型数据分析的观点,如果将观测区间内的一次观测数据视为整体,这些数据能构成一条曲线,即具有函数特征, 就称之为函数型数据。 利用函数型数据分析方法可以对无限维空间的曲线数据进行统计分析,更好地刻画数据变化的规律,挖掘出更多的数据信息,对一些建模问题的分析将更加全面、深刻[15,16]。 目前该分析方法已成功应用于气象学、生物力学、经济学以及短期电力负荷预测[17,18]。

本文基于函数型数据分析理论,提出了一种用于中长期日负荷曲线预测的新方法。 该方法首先将历史典型日负荷曲线视为函数型数据,基于非参数核密度估计方法,建立了函数型非参数回归预测模型。 然后在已知待预测典型日负荷特性指标的情况下,以函数型非参数回归预测方法所得预测曲线作为参考曲线,建立二次规划模型对该预测曲线进行修正,使修正后的预测曲线满足典型日负荷特性指标的要求。 最后利用某省级电网和美国PJM电力公司的负荷数据对所提的预测方法进行测试。

1 函数型非参数回归预测模型

1.1 函数型变量和数据

文献[16,19]中给出了函数型变量和函数型数据的定义:如果随机变量S在无限维空间(或函数空间)F上取值,则称该随机变量为函数型变量,函数型变量的观测值称为函数型数据。

电力系统的日负荷变化是一个连续的变化过程,对应连续变化的曲线,其本质具有函数特征,记录日负荷变化的日负荷曲线则为函数型数据。 从传统数据分析的角度来看,负荷变化是在实数空间R上取值的随机变量Z,它在时间t = 0到t = n T上的观测值是连续时间序列{Z(t),t∈[0,n T]}。 根据负荷变化的规律,通常选择1 d,即T = 24 h作为观测周期,那么{Z(t),t∈[0,n T]}就是在观测区间[0,T) 上的重复观测值,它可以按观测周期T划分为n个等长的观测段Si= {Si(t),t∈[0,T)},有:

基于函数型数据分析理论,观测段Si为函数型数据,由式(1)可将连续时间序列{Z(t),t∈[0,n T]} 转化为离散的函数型时间序列{S1,S2,…,Sn}。

通常情况下,电力系统的日负荷数据是在时间间隔相等的离散时刻点t1、t2、… 、tP(P为时刻数 ) 记录的观测值,常取的时间间隔有1 h(P = 24)、15 min (P = 96) 等 , 所以实际获得的日负荷变化的函数型数据为Si={Si(t1),Si(t2),…,Si(tP)}。

1.2 函数型非参数回归模型

设{(Xi,Yi),i=1,2, … ,n} 是空间F × R上的数据对,对Xi、Yi可以建立如下函数型回归模型[20]:

其中,解释变量Xi为函数型变量;响应变量Yi为实数变量;未知函数r为回归函数(或条件均值函数);误差项 εi为实数随机变量,满足E(εiXi) = 0( i), E(·)表示期望。

建立回归模型的关键是通过已知数据估计回归函数r。 本文基于非参数核密度估计技术,采用Nadaraya-Watson (N-W) 核估计方 法[16]对函数型 回归函数r进行估计,可得如下回归函数的估计式:

其中,K(·)为核函数,核函数的选择有多种,比如三角、高斯、均匀核函数等,通常选择高斯核函数;h为带宽,表示核函数在样本点附近的作用范围;D(·) 为半度量,是衡量2个函数型样本间的近似程度。

1.3 基于函数型非参数回归的预测模型

假设已知函数型时间序列{S1,S2,… ,Sn},预测Sn+1。 由1.2节可知 , 首先需要根据历史负荷数据 {S1,S2, … ,Sn} 构建数据对 (Xi,Yi) 估计回归函数r。 利用式(1)给出的函数型数据Si与时间序列{Z(t), t[0,n T]} 的关系 , 设a为确定的非负实数 , 令Xi= Si、Yi=Z (i T+a) (i=1,2, … ,n-1), 代入式 (3) 可得回归函数估计式:

由于实际获得的函数型数据样本是时间间隔相等的离散观测值Si= {Si(t1),Si(t2),… ,Si(tP)},所以日负荷曲线Sn+1(tm)的预测模型如式(6)所示:

由式(6)可知基于函数型非参数回归方法的日负荷曲线预测结果是历史日负荷曲线的加权平均, 其权重是通过非参数核密度估计方法进行计算,权重大小取决于历史日负荷曲线与待预测日前一日负荷曲线的近似程度。

2 预测模型在中长期日负荷曲线预测中的 应用

2.1 负荷数据的预处理

对历史典型日负荷曲线数据按式(7)做归一化处理:

其中,S(tm)为典型日负荷曲线各时刻的负荷值 ;Smax为典型日负荷曲线的最大负荷值;S*(tm) 为典型日负荷曲线经归一化处理后各时刻的数值,有S*(tm) [0,1]。

2.2 日负荷曲线的预测

将经过负荷数据预处理后的各历史典型日负荷曲线样本按时间的先后顺序构成函数型时间序列{S*i,i = 1,2,… ,n},其中S*i= {S*i(t1),S*i(t2), … , S*i(tP)}。 通过式 (6)的函数型非参数回归预测模型可以得到S*n + 1的预测曲线赞S *n + 1。

下文将重点介绍函数型非参数回归预测模型中半度量D和带宽h的计算。

2.2.1 半 度量 D 的 计算

在函数空间中需要引入半度量D来刻画空间中2个函数型数据之间的距离,判断它们的接近程度,本文是采用基于函数型主成分分析的半度量计算方法[16]。

对于函数型变量S的2个观测样本Si*(t)和Sj*(t),基于函数型主成分分析的半度量计算表达式如式 (8)所示:

由于变量S的协方差矩阵 Γ 和特征函数vk未知,而且电力系统的日负荷数据是时间间隔相等的离散观测值,所以用n个函数型数据样本估计协方差矩阵 Γ,令w=T / P,样本估计的协方差矩阵为:

D(S* i,S* j) =姨k =q 鄱 1乙m P = 鄱1 w(S* i(tm) -S* j(tm) )vk(tm )2≥(10)

其中,[v1(tm)]T、 [v2(tm)]T、 … 、 [vq(tm)]T分别为样本估计的协方差矩阵赞Γn的特征值λ1≥λ2≥…≥λq对应的单位正交特征向量。

2.2.2 带宽 h 的计算

带宽h在回归函数中起平滑作用,对回归函数的影响很大。 h越小,回归函数r赞(x)对于响应变量Yi的微小变动就越敏 感 ;相反 ,h越大 ,回归函数r赞(x)对响应变量Yi的微小变动就越不敏感。 为了使预测模型具有更好的效果,本文根据式(4)函数型非参数回归模型,采用交叉验证法[21]计算预测模型中的最优带宽hopt。 计算步骤如下 。

a. 在n个函数型数据样本中去除第j个样本 , 用剩下的n-1个样本对回归函数进行估计,可得:

c. 求解使 δCV(h) 最小的带宽即为最优带宽hopt:

2.3 日负荷预测曲线的修正

日负荷率 γ 和最小负荷率 β 是反映典型日负荷曲线变化形状和特点的负荷特性指标,它们可以通过中长期负荷特性的预测得到。 在已知待预测曲线的日负荷率 γ 和最小负荷率 β 的情况下,为了使预测曲线满足典型日负荷特性指标的要求,以2.2节函数型非参数回归预测方法得到的预测曲线赞Sn*+ 1作为参考曲线Sr*,建立使修正曲线Sf*与参考曲线误差平方和最小为目标函数,日负荷率 γ 和最小负荷率 β 为约束条件的二次规划模型对预测曲线进行修正。

为了使曲线的修正更准确,本文参考文献[11] 中二次规划的建模方法,引入灰色理论的基本思想, 首先对参考曲线数据S赞*n + 1(tm)进行如下的数据预处理,弱化原始数据的随机性。

a. 排序。 将赞Sn*+ 1(tm)由大到小排列成序列lr(k), 修正后的曲线S*f也相应排成序列lf(k), 记两序列对应的原始下标为hk,有:

其中,k= 1,2,…,P 。

b. 作差 。 分别将lr(k)、lf(k)序列相邻2项求差值,得到序列yr(i)、yf(i),有:

其中,i = 1,2,…,P - 1。

根据式(15),典型日负荷特性指标与yf(i)有如下关系:

经过数据处理后,预测曲线的修正模型可以转化为求使排序后的一阶差分序列误差最小的二次规划模型,如式(17)所示:

通过求解上述模型,得到最优解即yf(i)。 根据式(15)以及lf(1)=1、lf(P)= β 可求出经过排序后的序列lf(k)。 利用所记录的原始下标hk和式(14)还原得到修正后的曲线S*f。

已知待预测典型日的最大负荷Sfmax,可计算出经修正的实际典型日负荷预测曲线为Sf(tm) = S*f(tm)Sfmax。

基于函数型非参数回归模型的中长期日负荷曲线预测步骤如图1所示。

3 算例分析

本文采用中国某省级电网2000至2009年夏季典型日和美国PJM电力公司2002至2011年冬季典型日24点(P = 24)负荷数据[22]对本文所提预测方法进行研究分析。 这里假设2009年夏季典型日和2011年冬季典型日的日负荷率 γ、最小负荷率 β 和最大负荷已知,如表1所示。

同时,将本文预测方法与经典的中长期日负荷曲线预测方法,即文献[11]的二次规划预测方法和文献[12]的“双向夹逼”线性规划预测方法进行对比。

使用下述指标分析和对比不同预测方法的准确性。

a. 平均绝对百分比误差MAPE (Mean Absolute Percent Error):

b. 均方根差RMSE(Root Mean Square Error):

其中,St(tm)和Sf(tm)分别为实际负荷曲线和负荷预测曲线。

3.1 某省级电网夏季典型日负荷曲线预测

按照2节的步骤 以某省级 电网2000至2008年夏季典型日负荷曲线作为历史样本,对2009年夏季典型日负荷曲线进行预测。 通过对历史样本曲线进行交叉验证计算,可得函数型非参数回归模型中的最优带宽hopt= 0.197。 选择某省级电网2008年夏季典型日负荷曲线作为文献[11]方法和文献[12] 方法的参考曲线。 所得预测曲线和各点预测结果相对误差对比如图2和表2所示。

3种预测方法的预测效果比较如表3所示 。 由表3可知,本文提出的基于函数型非参数回归模型的预测方法对某省级电网2009年夏季典型日负荷曲线的预测结果在MAPE、RMSE和最大相对误差上均优于文献[11]和文献[12]的预测方法。

3.2 美国 PJM 电力公司冬季典型日负荷曲线预测

以美国PJM电力公司2002至2010年冬季典型日负荷曲线作为历史样本对2011年冬季典型日负荷曲线进行预测。 通过对历史样本曲线进行交叉验证计算,可得函数型非参数回归模型中的最优带宽hopt= 0.016 5。 选择PJM电力公司2010年冬季典型日负荷曲线作为文献[11]方法和文献[12]方法的参考曲线。 所得预测曲线和各点预测结果的相对误差对比如图3和表4所示。

3种预测方法的预测效果比较如表5所示 。 由表5可知,本文提出的基于函数型非参数回归模型的预测方法对美国PJM电力公司2011年冬季典型日负荷曲线的预测结果在MAPE、RMSE和最大相对误差上均优于文献[11]和文献[12]的预测方法。

3.3 算例结果分析

从表3和表5的预测结果对比可知,本文预测方法在总体预测误差指标上均优于文献[11]和文献[12]的预测方法。 在各点预测误差上,从表2和表4可知,在超过75% 的点上本文预测方法的预测精度均高于文献[11]和文献[12]的预测方法。 总体而言,本文预测方法的预测误差较小,相比文献[11] 和文献[12]中的方法有一定程度的提高。

本文的预测方法是从函数型数据的角度来分析具有相似性特征的典型日负荷曲线样本并建立预测模型,可以更好地挖掘和考虑典型日负荷曲线的变化规律。 本文采用不事先对变量之间关系作任何假定的非参数回归方法,模型基于样本数据,具有一定自适应性。 通常情况下,典型日的历史负荷曲线有形状相似、变化规律相近的特点,但是当历史数据中出现某些典型日负荷曲线的变化趋势与其他曲线的变化趋势有较大差别时,本文预测方法的预测精度会受到影响,预测误差将会增大。 相关的理论分析和处理方法将是下一步的研究重点。

4 结论

本文提出了一种用于预测中长期日负荷曲线的新方法。 该方法引入函数型数据分析理论,将典型日负荷变化视为函数型变量,从函数型数据的角度来分析具有相似性特征的典型日负荷曲线样本并建立预测模型,可以更好地挖掘和考虑典型日负荷曲线的变化规律。 在建立预测模型时,本文采用非参数回归的方法,不事先对变量之间的关系作任何假定,是基于样本数据进行建模,模型具有一定的自适应性。 相比于经典中长期日负荷曲线预测方法中仅以待预测年前一年的典型日负荷曲线作为参考曲线进行修正,本文是以函数型非参数回归预测模型的预测曲线作为参考曲线,参考曲线的获取上考虑了更多的历史负荷曲线样本以及样本之间的变化规律。 经过实际电网数据的仿真验证表明, 本文提出的预测方法预测精度较高,适用于时间跨度较长的中长期日负荷曲线的预测。

非参数模型 篇2

利用MATLAB搭建了小电流接地系统模型。线路采用分布参数模型,其正序参数为:

R00.23R10.17/km,L11.2mH/km,C19.697nF/km;零序参数:/Y/km,L05.48mH/km,C06nF/km;变压器连接方式为:,110KV/35KV;其中线路1所带负载为2MVA,线路3所带负载为5MVA。供电线路总长度为100km,若故障发生在线路的50km处,且在0.02s发生故障,0.04s恢复正常运行(在故障发生器中已设置),由于单相接地故障占到整个系统故障类型的80%以上,所以,仿真以A相接地故障为例进行。仿真模型中系统采样频率f1000KHZ,整个仿真时间为0.06s。

实验内容:分别做出当过渡电阻为5、50、500时,线路UA、UB、UC以及IA、IB、IC的波形,并分析与所学单相接地故障时的边界条件是否符合。

注意:

1.实验报告纸上的实验器材、实验步骤、结果分析等内容都要填写完整,除实验结果(波形)应另附外,其他都在实验报告纸上完成。

2.实验步骤描述模型的搭建过程,以及各个参数数值的大小和设置过

程。

3.4.结果分析要详细且有说服力。该模型时在MATLAB7.6(MATLABR2008a)中建立的模型,其它低版本的可能打不开,建议同学们采用高版本软件运行模型。

实验二:电力系统潮流分析

采用实验一的模型,进行实验二,做出:

基于参数模型的EVaR风险度量 篇3

关键词 EVaR;CARE模型;GARCH类模型;SV模型

中图分类号F224.7 文献标识码A

1引言

在现代金融理论中,风险的定义、分析和管理的理论方法占据着重要的地位.风险度量和风险管理已成为各大商业银行,投资银行,机构投资者乃至个人投资者管理资产的一个必备工具.在众多风险度量方法中,在险价值VaR (Value At Risk)最早由J. P. Morgan提出的一种风险度量方法,该方法以“简单实用,适用广泛”的特点广受欢迎,并且迅速成为风险分析中的一种主要方法.VaR的计算一般有三种方法:一是参数方法,应用ARCH和SV模型来描述随机波动率,进而求得VaR的估计;二是非参数方法,包括蒙特卡洛模拟法和历史数据模拟法;三是半参数方法.

为评价风险度量方法,Artzner等提出了风险度量的一致性公理[1].若某种风险度量满足平移不变性、单调性、次可加性以及正齐次性这四个条件,则称该风险度量为一致性风险度量.只有一致性风险度量才能充当投资组合管理工具.而VaR风险度量不满足次可加性,从而不是一致性风险度量,用VaR进行风险度量时,投资组合的风险不一定小于各单个资产的风险之和,这就违背了风险分散化的投资准则.

为了克服VaR风险度量的上述缺陷,Rockafeller和Uryasev提出了条件在险价值CVaR(Conditional Value At Risk)风险度量方法[2].Acerbi和Tasche的研究指出CVaR是一个一致性风险度量[3].

不论VaR还是CVaR模型,均属于基于分位数(quantile)的风险度量,度量的是资产分布在下尾部的极值所造成的风险,都只与资产收益的尾部特征有关,而没有涉及收益的整个分布情况.Kuan等指出expectile在分布形式上比quantile更有全局的依赖性,VaR的计算只与收益分布的尾部取值的大小以及取相应值的概率有关,从而改变一个分布的上尾形状并不会改变VaR的取值大小,但它却影响所有的expectile[4].基于expectile以上的优点,Kuan等提出了一个基于expectile的风险度量测度EVaR(Expectilebased Value at risk) [4].EVaR风险度量比VaR对极值变化的反应更加敏感,并且对资产收益的整个分布都是敏感的.另外,Rossi和Harvey的研究表明,当谨慎性水平小于0.5时,EVaR是一致风险度量[5].因而EVaR是比VaR具备更优良性质的一种风险度量.最近,Fabian 和Thomas[6]以及姚宏伟[7]基于expectile提出了一些新的模型.

Kuan等提出了两类条件自回归expectile (Conditional Autoregressive Expectile, CARE)模型来计算EVaR[4],基于Newey和Powell提出的非对称最小二乘(ALS)方法[8]来计算每一类模型,并做了两类模型比较的理论研究,给出了模型选择的判别方法.

但Kuan等提出的CARE模型[4]并没有考虑异方差的情形,而金融数据很容易碰到异方差的情形,所以该模型在应用于金融数据时并不太合适.本文基于GARCH类和SV波动率模型研究EVaR风险度量的计算方法,即EVaR计算的参数模型方法,并基于模拟学生t分布时间序列数据,给出EVaR样本外预测的失败率检验方法:Kupiec失败率检验和动态分位数DQ检验法,与采用CARE模型的EVaR计算方法进行对比评价,并将这些EVaR计算模型应用到国内外股票市场指数收益数据进行风险估计,以评价各类模型在估计和预测不同股票市场EVaR风险的适用程度.

2 EVaR定义及计算模型

2.1EVaR的定义

最大化此条件似然函数即得出了参数的估计,进而利用式(4)递推得到波动率的估计值.类似地可以得到EGARCH模型的估计.

3. 2SV模型的参数估计

SV模型的参数估计方法有伪极大似然QML (Quasi Maximum Likelihood), 广义矩估计GMM (Generalized Method of Moments)和马尔可夫链蒙特卡洛MCMC (Markov Chain Monte Carlo)方法等.本文采用伪极大似然方法QML进行估计.

4 基于模拟数据的EVaR分析

首先生成两组服从不同自由度的学生t分布的模拟数据,然后分别用CARE, GARCH, EGARCH和SV模型建模,并进行模型估计,然后计算EVaR进行风险分析.为检验模型优劣,给出了EVaR预测的两种返回检验方法,进行评价研究.

4.1数据准备

由于金融资产收益的分布具有尖峰厚尾特性,本文采用自由度分别为3和5的学生t分布来生成模拟时间序列数据,各自生成的序列长度为700.如图1所示.

nlc202309032001

4.2EVaR的计算

分别用CARE, GARCH, EGARCH和SV模型来计算服从学生t(3)和t(5)分布的模拟数据在谨慎性水平为1%下的EVaR.对于每个估计模型,用模拟数据的前500个数据来得到模型的参数估计,然后向后滚动预测得到200个EVaR的值.

4.2.1基于CARE模型的EVaR计算

采用Kuan等的方法 [4],表1和表2分别列出了用CARE1模型和CARE2模型计算两组服从学生t分布模拟数据的EVaR所得的参数估计及相应的标准差.表1和表2中的倒数第二行给出模型计算EVaR的失败率大小,即预测的EVaR大于相应模拟数据数值的次数在总体中所占的比例.表1和表2中的最后一行列出了学生t分布在谨慎性水平为1%下的EVaR对应的VaR的显著性水平大小,从表1和表2中可以看出,服从t(3)分布的模拟数据比t(5)分布模拟数据模型计算的失败率更接近于理论水平.

4.2.2基于GARCH类和SV模型的EVaR估计

由模型选择的AIC和BIC准则,对于模拟数据,最终确定可以用GARCH(1,1)和EGARCH(1,1)模型来建模,为了客观地与其他EVaR计算模型的结果相比较,假定波动率的新息序列服从标准正态分布.表3列出GARCH(1,1)模型估计两条模拟时间序列的相关统计量,从表3中数值可以看出系数β1非常显著,说明模拟数据的ARCH效应明显存在,且GARCH模型预测EVaR的失败率比CARE模型更为接近理论失败率.

EGARCH(1,1)的波动率过程可表示为

从表4的结果可知,EGARCH的杠杆系数γ1的估计值都不为零,所以模型的杠杆效应是显著存在的,EGARCH模型预测EVaR的失败率与GARCH模型预测EVaR的失败率是相同的.

表5给出了采用SVNormal模型估计服从学生t分布模拟数据的有关统计量.模型估计参数在5%显著性水平下基本都显著,且样本外预测EVaR的失败率与理论失败率都比较接近.

4..3EVaR的返回检验(Back Testing)

为对选用模型进行评价比较,下面给出EVaR风险度量的返回检验方法.对于服从已知分布的模拟数据而言,每个谨慎性水平下的EVaR都对应于某一置信水平下的VaR,因而可以将VaR返回检验方法移植到EVaR风险度量中,形成EVaR的返回检验方法.本文将目前最常用的VaR返回检验方法:Kupiec失败率检验法[11]和Engel和Managenelli的动态分位数(Dynamic Quantile, DQ)回归检验法[12]移植得到EVaR的返回检验.

表6列出上面四种模型的预测EVaR的Kupiec失败率检验结果,表中的P值表示拒绝原假设H0的最小的显著性水平,P值越大,表明EVaR计算的准确度越高.从表6容易得出,在99%置信水平下Kupiec失败率检验拒绝了t(5)分布的模拟数据基于CARE2模型的EVaR预测,在95%置信水平下Kupiec失败率检验拒绝了t(5)模拟数据基于CARE1模型的EVaR预测,但在95%置信水平下Kupiec失败率检验均接受了基于GARCH(1,1),EGARCH(1,1)和SVNormal模型的EVaR预测.因而对于服从自由度分别为3和5的学生t分布的模拟时间序列数据EVaR预测而言,GARCH类和SV模型比CARE模型更有优势.

表7列出了各模型预测EVaR的DQ检验统计量及其对应的P值.由表7可知,在95%的置信水平下,DQ检验接受了CARE1,GARCH(1,1)以及EGARCH(1,1)模型的t(3)模拟数据EVaR的预测,在99%的置信水平下,DQ检验还接受了EGARCH(1,1)模型的t(5)模拟时间序列EVaR的预测,但检验均拒绝了CARE2, SVNormal模型对两个模拟时间序列的EVaR的预测.从DQ检验的结果可得出,对于本文中服从t(3)和t(5)分布的模拟数据,基于GARCH类模型的EVaR预测优于基于CARE模型的EVaR预测.

以上检验结果表明,对于具有尖峰厚尾特征的模拟数据,基于参数模型的 EVaR风险度量,GARCH类和SV模型略优于CARE模型.考虑到实际中金融资产收益具有尖峰厚尾特性,采用GARCH类和SV模型来估计和预测资产收益的EVaR度量是较好的选择.

5 基于EVaR的实证分析

5.1数据

选取2004年1月5日到2009年12月30日的上证综指(SH),深圳成指(SZ),香港恒生指数(HZ),日经225指数(Nikkei)以及纳斯达克指数(Nasdaq)数据,数据来源于大智慧证券分析软件.为了便于分析的统一性,选取其中五个股指数据都有发布的日期,并将2004年1月5日到2007年12月28日之间的886个数据作为模型估计的样本内数据,将2008年1月2日到2009年12月30日之间的442个数据作为预测EVaR的样本外数据.

考虑如下日对数收益率:

图2为各股指的日收盘价随时间的变化,从图中很容易观察到国内股指的波动性比美国、日本等成熟资本市场的股指的波动性要大,特别是在2008年、2009年全球金融危机时期,这表明国内股市的风险在这期间比成熟资本市场股市的风险要更大.另一方面,恒生指数的走势与大陆股市股指的走势越来越具有一致性,日收益的相关性很高,因而它们的风险也应具有一定的相似性.

图3刻画了各股指对数收益率随时间的变化图.可以看出,各股指收益率的波动幅度在2008年金融危机后都明显增强,这段时间股指的波动率更大.从收益率变动图还可以看出,不论是国内股指收益率还是国外股指收益率都呈现出一定的“波动率聚集”现象.

表8给出了各股指日对数收益率的描述统计量,由表可得,各股指对数收益率分布的JarqueBera正态性检验的P值均为0,均在99%的置信水平下显著,因而所有股指的收益率序列都拒绝了正态分布的原假设.上证指数和深圳成指收益率序列的方差比日经指数以及纳斯达克指数收益率序列的方差要大,这说明国内股票市场比国外股票市场的波动更为剧烈,风险更大,尽管它们的峰度系数比国外市场的峰度系数小,但所有股指收益率序列的峰度均大于3,都呈现出尖峰的特征.此外,各收益率序列的偏度系数均小于0,表现出左偏性.

nlc202309032001

表8最后一行给出了各股指收益率序列的单位根检验的结果,表明各收益率序列均为平稳的时间序列,因而可以对它们直接进行分析和建模.

为进一步研究收益率序列的性质,本文对收益率及其一阶滞后项序列的回归的残差序列进行了ARCH效应检验,残差序列的滞后阶数分别取1阶,2阶和3阶.从表9的检验结果来看,所有股指的收益率序列在滞后1~3阶的ARCHLM检验的P值均小于0.01,即在99%的的置信水平下均拒绝原假设,因而各股指收益率序列都存在显著的高阶ARCH效应,波动率序列表现出较强的序列相关性.

5.2基于CARE模型的各股指收益率序列的

EVaR计算

首先估计谨慎性水平为1%条件下的各股指收益率序列的CARE模型,然后再计算样本内的EVaR,最后滚动预测样本外每天股指收益的EVaR.表10给出了各股指收益率序列的CARE1模型的参数估计,括号内给出了各参数估计所对应的标准差,用来确定模型阶数的显著性水平为10%,深证成指以及日经指数所确定的滞后阶数为3,而上证指数,恒生指数以及纳斯达克指数所确定的滞后阶数为4,每个模型的常数项估计值均为负,并且在99%的置信水平下均是显著的.同样地,表11给出了各股指收益率序列的CARE2模型的参数估计及其对应的标准差,除了纳斯达克指数外,其余4个股指收益率序列采用CARE2模型估计的最后两个参数在90%的置信水平下是显著的,5个模型的滞后阶数均为5.

为了更好地比较CARE1和CARE2两类模型EVaR估计的效果,表10和表11的最后两行分别给出了两类模型估计EVaR的样本内和样本外的失败率,在谨慎性水平为1%的条件下,样本内估计EVaR的失败率大部分位于3%-4%之间,而样本外预测EVaR的失败率全部大于10%,这说明在样本外预测EVaR时,CARE模型低估了EVaR的大小,因而CARE模型不适宜用来预测金融危机时期的股指EVaR.另一方面,日经指数和纳斯达克指数的样本外失败率明显大于国内和香港市场股指的样本外失败率,这表明CARE模型更适合用于预测国内和香港市场的股指风险.

5.3基于GARCH类和SV模型的各股指收

益序列的EVaR计算

表12列出了用GARCH(1,1)模型来估计5个股指收益率序列的有关统计量.首先由各收益率序列的偏自相关函数来确定AR模型的阶,除了Nasdaq指数收益率序列建模的AR项的阶数为1外,其余股指收益建模的AR项的阶数均为0,并且所有股指的收益率序列GARCH模型的参数估计在5%的显著性水平下均是显著的.

各模型的样本内EVaR估计的失败率均在4%至5%之间,而各模型的样本外EVaR预测的失败率比CARE1,CARE2模型的样本外EVaR预测的失败率都要低,这说明GARCH模型的样本外EVaR预测效果比CARE类模型的样本外EVaR预测效果好.

从图3中各股指收益率序列图可看出,前期正负收益对当期收益波动影响大小是不同的,因而采用EGARCH(1,1)模型对各股指收益率序列进行建模.表13给出了5个EGARCH(1,1)模型估计的有关统计量,各模型的新息取自自由度为10的学生t分布,其 1%下侧expectile为-2.在95%的置信水平下,从样本内残差的LjungBox检验结果可知,除了上证综指收益率序列的新息存在一定的相关性,其他的几个股指收益率序列的新息均没有自相关性存在,上证指数,深证成指以及恒生指数的收益率序列的样本内新息序列拒绝了服从自由度为10的学生t分布的原假设,日经225指数以及纳斯达克指数的收益率序列的样本外序列新息拒绝了服从自由度为10的学生t分布的原假设.5个EGARCH(1,1)模型的EVaR估计的样本内失败率均小于对应的GARCH(1,1)模型的失败率,而样本外失败率并无很明显的变化.

综合以上基于CARE1,CARE2,GARCH,EGACH,SV等5种模型的EVaR预测结果,比较得到的5个股指样本外EVaR预测的均值可知,在金融危机期间,国内股市和香港股市的风险明显高于美国纳斯达克指数和日本日经225指数,其中美国纳斯达克指数的风险是最低的.

6 结论

针对EVaR风险度量,本文提出了基于GARCH类和SV波动率模型的EVaR的计算方法,即EVaR计算的参数模型方法,给出了服从学生t分布模拟时间序列数据的EVaR样本外预测的失败率检验方法,对5个模型进行了比较评价,最后选取国内外5个股票市场指数数据进行了EVaR风险对比分析实证研究.

从模拟时间序列数据的EVaR样本外预测失败率检验结果来看,在99%的置信水平下,Kupiec失败率检验接受了大部分的模型,但DQ检验拒绝了两类CARE模型以及SV模型,因而GARCH类模型对于服从学生t分布的模拟数据的EVaR预测表现最好,这说明用波动率模型来进行EVaR估计和预测是可行的.

实证研究结果表明,在金融危机期间,基于CARE模型计算的EVaR低估了市场的实际风险,而基于GARCH类模型和SV模型预测的EVaR更接近于市场实际风险.对于上证综指,深圳成指以及恒生指数的EVaR预测,EGARCH模型要比SV模型更合理,对于日经225指数以及纳斯达克指数的EVaR预测,SV模型要比EGARCH模型更合理.今后可以考虑将单个资产收益的EVaR计算推广到投资组合收益的EVaR,进而考虑将EVaR风险度量应用到更多的金融领域,如期货市场,债券市场等.

参考文献

[1]P ARTZNER, F DELBAEN, J M EBER,et al. Coherent measure of risk [J]. Mathematical Finance. 1999, 9(3): 203-228.

[2]T ROCKAFELLAR, S URYASEV. Optimization of conditional valueatrisk [J]. Journal of Risk. 2000, 2(3): 21-42.

nlc202309032001

[3]C ACERBI, D TASCHE. On the coherence of expected shortfall [J]. Journal of Banking & Finance. 2002, 26(7):1487-1503.

[4]C M KUAN, J H YEH, Y C HSU. Assessing value at risk with CARE, the conditional autoregressive expectile models [J]. Journal of Econometrics. 2009, 150(2): 261-270.[5]G D ROSSI, A HARVEY. Quantiles, expectiles and splines [J], Journal of Econometrics. 2009, 152(2): 179-185.

[6]F SOBOTKA, T KNEIB. Geoadditive expectile regression [J]. Computational Statistics and Data Analysis. 2012, 56: 755-767.

[7]姚宏伟. 基于Expectile的线性异方差模型[D].合肥: 中国科技大学数学科学学院, 2011.

[8]W K NEWEY, J L POWELL. Asymmetric least squares estimation and testing [J]. Econometrica. 1987, 55(4):819-847.

[9]Q YAO, H TONG. Asymmetric least squares regression estimation: A nonparametric approach [J]. Journal of Nonparametric Statistics. 1996, 6(2/3):273-292.

[10]D BELSON. Conditional heteroskedasticity in asset returns: a new approach [J]. Econometrica. 1991, 59(2): 347-370.

[11]P H KUPIEC. Techniques for verifying the accuracy of measurement models [J]. Journal of Derivatives. 1995, 3(2): 73-84.

[12]R F ENGEL, S MANAGENELLI. CAViaR: Conditional autoregressive value at risk by regressionon quantiles [J]. Journal of Business and Economic Statitics, 2004, 22(4):367-381.

非参数模型 篇4

关键词:非参数成本前沿模型,成本效率,成本节约行业,规模成本弹性

在全国范围内, 调结构、促改革提高增长的质量效益的背景下, 广东作为制造业大省, 转型升级更加迫在眉睫。2015年3月, 广东省出台《广东省工业转型升级攻坚战三年行动计划 (2015~2017年) 》把转型升级落到实处。在这样的背景下, 广东省目前经济增长模式的现状如何?增长模式发生了怎样的变化?以后又会发生什么样的变化?因此, 认真分析和总结广东工业目前的增长模式, 发现其中的问题, 总结好的经验, 为更好地实现转型升级提供参考, 并为讨论之后的发展路径提供支持, 因而具有重要的意义。

1 非参数成本前沿模型构建

1.1 成本增长的分解模型

公式 (1) 中的要素价格效率及生产规模效率都是在基期参考技术背景下测度。由于参考技术选用有相应的主观因素影响, 从更为客观的角度考虑我们取参考期及报告期的几何平均为最终值, 然后同时取自然对数, 并把技术效率、配置效率及技术进步几项的符号做微调便于理解。结果为:

至此, 决策单元的实际成本增长率就等于技术效率变化加上配置效率变化加上技术进步再加要素价格效应及产出规模效应。

1.2 节约型行业与规模经济性的界定

我们可以构建成本节约指数来测算行业增长模式。定义:

CSI计量了保持产品投入要素价格不变以及在一定生产规模下, 实际成本的变化比率中哪些是由技术效率变化、技术进步及配置效率变化决定的。该项指标体现了经济效率的大小。该指标小于等于0认为该行业为非节约行业, 该指标大于0说明该行业为成本节约型行业。

2 实证研究结果

2.1 投入、产出变量界定及样本、数据来源

本文以工业增加值作为产出指标。投入指标则为固定资产 (含土地) 及劳动力。共涉及的变量为:不变价格的增加值、固定资产净值年平均余额、从业人员年均人数, 以及资本与劳动的行业平均价格。

在样本选择上面, 本文选取了37个两位数的行业作为研究对象。另外, 时间上选择了最新的2004~2013年投入产出数据。数据来源于广东统计年鉴及广东工业统计年鉴。模型使用MATLAB软件计算。

2.2 基于非参数成本前沿模型的广东工业企业成本效率分析

2.2.1 广东工业企业成本效率变动分解及评价

成本效率下降, 意味着与成本前沿的距离加大, 进而实际成本上升。成本效率等于技术效率乘以配置效率。这里我们对三个因素同时取对数, 转换后的成本效率变化就等于技术效率变化加上配置效率变化。数据如表1所示。

成本变化与技术效率的变化是相互对应的, 技术效率上升多少个百分比, 实际成本就会降低多少个百分比。从技术效率的变化情况看, 2005~2013年, 工业企业的技术效率效应值平均为-7.15%, 即行业间技术效率差距拉大导致成本上升7.15%。2011年和2012年尤为突出, 技术效率水平下降导致成本分别上升27.9%和45.6%。

行业方面, 37个行业的技术效率都呈下降态势。非金属矿采选业、木材加工及木、竹、藤、棕、草制品业、有色金属矿采选业等行业与生产前沿面的技术效率差距呈扩大态势, 实际成本受此影响上升13~21个百分点。

成本效率除了受技术效率影响之外, 还要受要素配置效率的影响。从配置效率效应来看, 9年的平均值为-0.12%。2008年以后呈现出改善的趋势。特别是2011年和2012年, 配置效率改善使实际成本下降12.6%、10.8%。

从行业来看, 石油和天然气开采业 (7.15%) 、文教体育用品制造业 (6.17%) 、仪器仪表及文化配置效率提高较快。烟草制品业 (-7.18%) 、有色金属矿采选业 (-3.39%) 、废弃资源和废旧材料回收加工业 (-3.37%) 配置效率出现明显下降。

2.2.2 广东工业企业技术进步效应及评价

技术进步是在保持成本效率、产出规模及要素价格不变, 由技术进步引起的成本水平降低的比重。技术进步的内涵范围较广, 如先进的信息技术、工艺设备, 活跃的金融创新、制度因素、经济周期变化等宏观背景的影响。下面对技术进步效应做具体分析。

平均来看, 2005~2013年, 广东工业企业技术进步效应加权平均值为3.9%。说明广东工业企业技术进步效应在不断改善。特别是2012年, 由于技术进步使得实际成本降低26.33%。

行业平均来看, 技术进步效应为3.9%, 所有行业的技术进步效应均大于0。即由于技术进步使得实际成本出现下降。2005~2013年平均技术进步效应最高的三个行业为文教体育用品制造业0.0850、烟草制品业0.0811、燃气生产和供应业0.0741。后三个行业为:化学纤维制造业0.0241、有色金属矿采选业0.0271、废弃资源和废旧材料回收加工业0.0274。

从结果来看, 技术进步效应较高的行业大都为垄断性行业, 由于垄断行业大多是资源与资本密集型行业, 垄断行业在提高资本装备水平方面更加具有优势, 从而获得相应的技术改进。

2.2.3 广东工业企业规模成本弹性及评价

图1为计算出的规模成本弹性。

平均而言, 广东工业的产出规模对成本前沿的平均弹性为0.946。且呈上升趋势。从行业分布看, 废弃资源和废旧材料回收加工业、化学纤维制造业、有色金属矿采选业等行业的规模经济性特别突出。相反, 烟草制品业、纺织业、仪器仪表及文化等行业则显示规模不经济。

2.2.4 成本节约行业及评价

根据前文对成本节约行业的界定, 我们保持要素价格不变, 在一定的生产规模下, 重点考虑成本效率及技术进步, 即实际成本中由配置效率、技术效率及技术进步引起的变动。成本节约行业就是成本节约指数 (CSI) 大于0的行业。反之, 则为非节约行业。根据本文构造的成本节约指数CSI, 2005~2013年加权平均的成本降低率分别为-14.36%、0.84%、-2.19%、10.48%、-1.97%、5.9%、-8.48%和0.96%。

从行业数量看, 发现2005年37个行业中, 29个属于非节约型行业, 仅8个是节约型行业。但是到了2008年, 整个大中型工业中, 约76%的行业转变为节约型行业, 到了2013年, 38个行业中16个为节约型行业。

成本节约指数说明广东工业在技术效率、配置效率及技术进步三个方面都有改善的空间, 特别是技术效率方面更为突出, 说明广东工业各行业在技术效率层面的差异比较大, 行业分化明显。因此必须重视这些问题的紧迫性。这就要求工业企业在技术创新、强化企业内部治理提高效率和提高要素价格配置能力这三个方面加大投入力度。

3 结论

第一, 成本效率效应的趋势非常波动, 技术效率效应与配置效率效应都出现较大的波动, 稳定性差, 说明外部环境的变化直接影响到广东工业企业经营。而工业企业在内部经营管理能力方面及资源配置方面都还有优化的空间。在产出规模扩大的同时也要重视内部管理能力的提升。另一方面, 成本效率的结果也说明广东工业企业行业间的效率差距在拉大。

第二, 技术进步效应方面。一方面, 广东工业行业平均来看, 技术进步效应大于0, 也就是技术进步降低了实际成本的支出。另一方面, 就其发展趋势来看, 技术进步效应大致呈波动态势, 但在2012年及2013年有了比较明显的改善。这是在政府和企业各方的努力下, 通过技术创新及产业升级, 使得技术前沿推进从而降低了实际成本。

第三, 在几种效应中, 总体来看, 技术进步效应是影响实际成本变化的最大的要素, 因此, 工业企业必须加大对技术进步的投入, 提高内部管理效率。其次是成本效率, 但还有很大的改进空间。

参考文献

[1]涂正革.全要素生产率与区域工业的和谐快速发展——基于1995~2004年28个省市大中型工业的非参数生产前沿分析[J].财经研究, 2007 (12) .

[2]涂正革.非参数成本前沿模型与中国工业增长模式研究[J].经济学, 2007 (1) .

非参数模型 篇5

s+r星单辐照模型与对流模型参数的对比研究

将解释s+r星元素丰度的单辐照和对流2种参数化模型的最佳拟合参数进行了对比,找出了这些参量的分布规律以及各参量之间的关系,得到了s-过程和r-过程核合成相关信息,进一步确定了s+r星的.主要形成机制.还对文献[13]做了有益的补充,给出了单辐照模型r-过程分量系数与s-过程分量系数之间的关系图.

作 者:牛萍 崔冬暖 张波 NIU Ping CUI Dong-nuan ZHANG BO  作者单位:牛萍,NIU Ping(石家庄学院,物理系,河北,石家庄,050801)

崔冬暖,张波,CUI Dong-nuan,ZHANG BO(河北师范大学,物理科学与信息工程学院,河北,石家庄,050016)

刊 名:河北师范大学学报(自然科学版)  ISTIC PKU英文刊名:JOURNAL OF HEBEI NORMAL UNIVERSITY(NATURAL SCIENCE EDITION) 年,卷(期):2007 31(6) 分类号:P142.9 关键词:贫金属星   AGB星   s+r星   参数化模型  

非参数模型 篇6

关键词: 眼部特征; 混合参数模型; 语义编码

中图分类号: TP 391.9文献标志码: Adoi: 10.3969/j.issn.10055630.2014.06.014

引言眼部语义特征[13]提取在如机器视觉、人脸识别、人机交互界面中占有重要的地位。常用的眼部特征提取方法[47]有基于可变形模板法[8]、基于三庭五眼法、模板与投影相结合法、基于几何特征检测等。在基于可变形模板法[910]中眼睛的几何模板中需要对几何模型设置初始化参数,即便是在改进的可变形模板中也需要通过先验知识设置相应的初始化参数,虽能够实现对眼睛特征的提取,但计算复杂度较高、比较耗时。模板与投影相结合法是在图像搜索区域内将模板遍历搜索区域,根据相关匹配数值检测出眼睛特征值。基于几何特征的人脸检测方法是依据人脸当中依据五官的位置划分不同的区域,然后提取相应的特征。以上方法大多是对眼睛或眉毛[11]单独进行几何模型特征提取,没有把眉毛与眼睛作为一个整体系统进行建模。由于眉毛与眼睛在面部的几何位置,往往依据对眼部特征几何形状的视觉感知,把眉毛与眼睛放在一起进行描述,虽然描述清晰但是存在差异没有量化,譬如三角眼不同的人对其感觉会有所不同。因此需要用相应的现代技术手段对其用标准予以界定,用参照标准描述人眼特征显得尤为重要。1描述眼部特征的方法

1.1构建眼部特征混合参数模型传统文化对眼部特征的汉语语义描述往往就是针对眼睛的特点,用许多形象、简洁的汉语语义来描述眼睛的特征,譬如细长眼、眯缝眼、三角眉、八字眉等,细长眼就是眼睛的垂直方向距离占眼睛内外角点距离的比例,当比例比较小时表现出来的细长的视觉特性。因此结合现有的眼部特征提取的方法,依据传统文化对眼部特征的语义描述,采用眉毛与眼睛相结合构建新型描述眼部特征混合参数模型,模型如图1所示。在图1所示混合参数模型中主要阐述三个方面的语义主特征:第一,描述眼睛的主特征,譬如特征参数N1描述眼睛间距,N2描述两只眼睛的眼心距,N5描述的是虹膜在眼睛里水平方向占的比例,表示眼睛中眼白的多少;第二,描述眉毛的语义特征,譬如特征参数N7描述眉毛的粗细程度,N8描述眉毛之间的距离;第三,描述眼睛与眉毛之间的语义特征,特征参数N11描述眉毛与眼睛之间的距离,N12与N13描述的是以眼睛为参照物,判断眉毛是内侧或者外侧型。 表征眼睛主特征参数如:N1=EX3/EX1;N2=EX2/EX1;N3=EX4/EX1;N4=EY1/EX4;N5=2·IR1/EX1;N6=IX1/EX1;表征眉毛主特征参数如:N7=BY1/BY2;N8=EBX1/EX4;N9=(B1(y1)-B3(y3))/(B1(x1)-B3(x3));N10=BX3/BX1;表征眼与眉毛之间主特征参数:N1=EBY1/EBY2;N2=EBX1/EX4;N3=EBX2/EX4;N4=EBX3/EX4;光学仪器第36卷

第6期刘祥楼,等:基于语义新型眼部特征的混合参数模型构建

1.2提取描述眼部特征的混合参数混合参数模型的特征参数的提取主要原理:首先,依据眼睛的色度信息定位眼睛;其次,依据眉毛与眼睛的几何位置关系分割出眉毛;最后,采用投影法提取相应特征参数。眼睛特征的提取主要是利用肤色的聚类特征检测出彩色图像中人的脸部,然后根据眼睛的色度信息提取眼睛轮廓。眼睛特征提取系统主要分为四个环节,即图像获取、人脸定位、区域分割、特征提取。具体过程如下(1)肤色区域的中值分别用Cb(Y)和Cr(Y)表示,变换式为:Ci(Y)=A2实验仿真与结果分析仿真实验计算机配置为AMD Athlon X2台式机,2.81 GHz主频,2.0 GB内存,计算机运行系统为Windows XP Professional SP3。在MATLAB软件平台上,本文采用东北石油大学2011级研究生入学采集的1 000张照片作为实验样本,实验的流程结构框图如图2所示。在提取眼部混合参数模型特征参数时,以语义字段的形式进行编码,如表1所示。每个混合特征参数针对实验过程中采集的数据的均值划分出4段阈值,并对阈值分别编码为00、01、10、11,如表2所示。图3所示是实验过程中输出的图像,可以看到检测出来眼睛与眉毛的边缘信息。图3中眼睛、眉毛图像投影分别如图4和图5所示。通过投影可以测得眼睛、眉毛特征中的特征参数,如眼心距、眉毛间距离等。也可以测得眉毛、眼睛角点的坐标,通过坐标值可以计算不能直接用投影直接提取的特征参数。例如B1点与B3点之间连线的水平夹角,可以通过投影测得其坐标值,利用坐标值测得N9数值,当N9>0表示眉毛下倾,N9在0附近表示眉毛两侧角点水平,N9<0表示眉毛上扬。提取虹膜的图像如图6所示,虹膜外边缘的投影图像如图7所示,可以测得描述虹膜的特征参数。

参考文献:

[1]周晓彦.基于偏最小二乘回归的人脸身份和表情同步识别方法[J].中国图象图形学报,2009,14(5):802808.

[2]TOLBA A S,ELBAZA H,ELHARBY A A.Face recognition:A literature review[J].International Journal of Signal Processing,2005,2(2):88103.

[3]ZHENG W,ZHOU X,ZOU C,et al.Facial expression recognition using kernel canonical correlation analysis(KCCA)[J].IEEE Transactions on Neural Networks,2006,17(1):233238.

[4]朱树先,张仁杰,郑刚.基于RBF神经网络的人脸识别[J].光学仪器,2008,30(2):3133.

[5]李峰,曾超,徐向东.驾驶防瞌睡装置中人眼快速定位方法研究[J].光学仪器,2002,24(4/5):7072.

[6]连华,林斌,汪林峰.虹膜图像采集系统的设计[J].光学仪器,2003,25(5):2430.

[7]沈沉,林斌,汪林峰.虹膜识别技术中的图像处理[J].光学仪器,2004,26(1):4448.

[8]谭华春,章毓晋,李睿.基于角点特征的眼睛轮廓提取[J].中国图象图形学报,2007,12(7):12251229.

[9]李文书,何芳芳,钱沄涛,等.基于Adaboost高斯过程分类的人脸表情识别[J].浙江大学学报,2012,46(1):7983.

[10]王宇博,艾海舟,武勃,等.人脸表情的实时分类[J].计算机辅助设计与图形学学报,2005,17(6):12961301.

基于非参数检验的教改成效分析 篇7

本文基于西北民族大学数学与计算机科学学院2013级信息和2013级应数班的教改前后成绩进行分析, 从而来评判本次教改的成效.主要数据有:教改前总成绩, 教改后概率期末成绩和教改后总成绩。

2 问题分析

对教改成绩进行分析常用的主要方法为方差分析或者非参数估计[1], 而方法的实现常常借助数学软件spss.方差分析要求数据服从正态分布且满足齐性[2], 而非参数估计并无此要求.利用spss通过对本文数据的正态分布检验发现, 数据并不是全部服从正态分布, 而且并不是全部满足齐性, 故而本文采用非参数估计来分析教改成效.

3 模型建立

本文主要应用的非参数检验模型为曼-惠特尼秩和检验.该方法是在1974年由H.B.Mann和D.R.Whitney年提出的。它假设两个样本分别来自除了总体均值以外完全相同的两个总体, 目的是检验这两个总体的均值是否有显著的差别。该检验方法的具体应用步骤如下[1]。

第一步:任取某一科目, 将教改前后的两组数据混合, 并按照大小顺序编排等级。最小的数据等级为1, 第二小的数据等级为2, 以此类推 (若有数据相等的情形, 则取这几个数据排序的平均值作为其等级) ;

第二步:分别求出两个样本的等级和 (第一组值的秩和计算值) 、 (第二组值的秩和计算值) ;

第三步:计算曼-惠特尼U检验统计量, 设为第一个样本的量, 为第二个样本的量:

选择U1和U2中最小者与临界值Ua比较, 当U<Ua时, 拒绝H0, 接受H1。

在原假设为真的情况下, 随机变量的均值和方差分别为:

当n1和n2都不小于10时, 随机变量近似服从正态分布。

第四步:进行判断。

设教改前该科成绩的均值为μ1, 教改后该科成绩的均值为μ2, 则有:

其中, Z表示渐进显著性 (双侧) 。

4 分析结果

本文对三组数据分别进行分析, 通过对比分析结果来说明教改成效。

4.1 教改前总成绩分析

注:a.分组变量:

表1和表2中的”wuli”和”shufen”分别代表物理和数学分析。从表1可以看出, 两个班的物理成绩均值为67.3148, 标准差为11.60667, 数学分析成绩均值为20.10554, 标准差为20.10554。表2是检验结果显示0.002<0.05, 说明两个班的物理成绩具有显著差异。同样由于0.000<0.05, 说明两个班的数学分析成绩具有显著差异。从而可以认为, 在教改之前由于两个班级的不同, 两个班的成绩是具有显著性差异。

4.2 教改后概率期末成绩

注:a.分组变量:group

表3和表4中的”gailvlater”表示教改后的概率期末成绩.从表3可以看出, 两个班的概率成绩均值为60.1605, 标准差为10.29861。表4的检验结果显示0.136>0.05。说明两个班的概率论成绩没有显著性差异。这是因为教改对两个班产生了影响, 使两个班级之间的成绩差异不再明显。

4.3 教改后总成绩

注:a.分组变量:group.

表5和表6中“fubianhanshu”、“gailvtongji”、“jisuanjizuchneg”和“shujujiegou”分别代表复变函数、概率论、计算机组成原理和数据结构。从表5可知:两个班的复变函数成绩均值为67.0138, 标准差为21.54303;概率论成绩均值为63.9586, 标准差为18.45041;计算机组成原理成绩均值为63.9621, 标准差为20.75818;数据结构成绩均值为73.8494, 标准差为20.66320。表6的检验结果显示0.022<0.05, 说明两个班的复变函数成绩具有显著性差异;0.016<0.05, 说明两个班的概率论成绩具有显著性差异;0.835>0.05说明两个班的计算机组成原理成绩无显著性差异;0.000<0.05, 说明两个班的数据结构成绩具有显著性差异。从分析结果可以看出, 教改之后两个班的成绩大体上仍然具有显著性差异, 似乎教改并没有起到应有的作用。其实, 并非如此。因为教改只针对的某一个科目, 并不是整体所有科目的教改。本文教改针对的是概率论。所以其他科目的成绩并

没有因为教改发生变化的结论不一定成立。

参考文献

[1]张宜华, 李振亚.精通spss[M].北京:清华大学出版社.2001, 193-196.

非参数模型 篇8

关键词Logistic曲线;参数估计;回归;拟合;预测

中图分类号 O212文献标识码:A



1 引 言

寿命数据的参数模型 篇9

1 寿命分布的几个常用参数

1.1 平均寿命与寿命的方差

用T的数学期望来刻画总体T的“平均寿命”, 用方差DT=E (T-ET) 2来刻画总体寿命的波动程度。ET, DT是分布的重要数字特征。

1.2 生存函数 (可靠度)

定义函数

在生存分析中, S (t) 称为生存函数, 在可靠性统计中, S (t) 又被称为可靠度。它刻画了寿命超过一定年龄t的概率, 或者失效时间超过规定长度t的概率。

显然, 对指定的t, S (t) 越大越好。

若有两个总体:T1, T2, 其生存函数分别为S1 (t) 和S2 (t) , 满足S1 (t) ≥S2 (t) , 0≤t,

则总体1的寿命分布一致优于总体2的分布。

S (t) 具备下列性质:S (0) =1;S (t) 为t的下降函数;limt→∞S (t) =0;S' (t) =-f (t) 。

1.3 危险函数 (失效率)

P (tt) 表示个体已经存活过 (产品有效工作过) 时间t, 而在下一个时间间隔△t内死亡 (失效) 的条件概率。当△t很小时, 则

这说明, 当△t很小时, P (t

这个比例系数h (t) 称为危险函数或者失效率。

上述的两个定义的等价性是易知的。

以下说明:危险函数h (t) , 密度函数f (t) , 生存函数S (t) 三者可以相互确定。

事实上, 首先f (t) 与F (t) 是可以彼此相互确定的, 进而f (t) 与S (t) 可以相互确定, h (t) 可以由f (t) 或S (t) 确定。

另外, 由于

危险函数 (失效率) h (t) 随时间t的流逝而变化。例如一台汽车在出厂后, 需要一段磨合期, 在磨合初期发生故障率较高 (h (t) 较大) ;而在磨合后期发生故障率较低 (h (t) 较小) 。此后会逐渐趋于稳定, h (t) 大致可看成是一个常数, 相当长时间后, 零部件老化, 故障率会增高, h (t) 变大。人的寿命分布也有类似这样一个“三部曲”。h (t) 的这种特性无论对于医学研究还是对于产品的可靠性改善都有其重要的意义。

2 常用的寿命分布

我们仅用参数模型来刻画寿命分布。即认为寿命分布为某种已知类型的分布, 其中有一些未知参数, 当这些参数确定后, 寿命分布就完全确定了。在寿命分布的参数模型中, 下面几个是最常见的。

2.1 指数分布e (λ)

即指数分布的危险函数 (失效率) 为常数, 而且它的条件寿命分布与无条件分布相同, 这种性质叫无后效性。

可以证明:若失效时间分布的危险函数 (失效率) 为常数, 则它一定是指数分布。

事实上设h (t) =λ>0, 则它的生存函数

, 恰好为指数分布的生存函数。

2.2 韦布尔分布

当β=1时h (t) =1/α, 即指数分布的危险函数, 因此指数分布是韦布尔分布的一个特例。

当β<1时, h (t) 关于t单调下降, β=1时, h (t) 是常数, β>1时, h (t) 关于t单调上升。

2.3 伽玛分布G (k, λ)

伽玛分布G (k, λ) 的密度函数为

其中k>0, λ>0为参数。显然G (1, λ) =e (λ) , 即指数分布也是伽玛分布的一个特例。

伽玛分布的数学期望和方差分别为ET=k/λ, DT=k/λ2,

伽玛分布的生存函数S (t) 和危险函数h (t) 都没有简单的表达形式。

m为正整数时, G (m, λ) 可看作m个独立同分布于ε (λ) 的随机变量的和的分布;设T服从G (m, λ) , 则2λT服从x2 (2m) 分布。

2.4 对数正态分布LN (μ, σ2)

对数正态分布LN (μ, σ2) 的密度函数为

事实上若ln T~N (μ, σ2) , 则T服从对数正态分布LN (μ, σ2) 。LN (μ, σ2) 的期望和方差分别为

其生存函数与危险函数都没有简单的表达形式。对数正态分布作为寿命的模型有一个好处, 就是将寿命或失效时间T作对数变换后, 就得到大家最熟悉和最易分析处理的正态分布。

摘要:寿命分布是统计学中一类重要分布。人的寿命或者电子产品或其它物种等的寿命, 其统计规律是许多行业必须重视和分析处理的。寿命数据的统计分析在大学的数理统计教材中较少涉及, 本文系统的介绍这类问题的几个概念和几个常用的寿命参数模型, 供学习者参考。

关键词:寿命分布,生存函数,危险函数,指数分布,韦布尔分布,伽玛分布,对数正态分布

参考文献

[1]陆璇.应用统计[M].北京:清华大学出版社, 1999.

[2]魏宗舒.概率论与数理统计教程[M].北京:高等教育出版社, 1987.

[3]茆诗松.可靠性统计[M].上海:华东师范大学出版社, 1984.

[4]张春华, 陈循, 杨拥民.常见寿命分布下环境因子的研究[J].强度与环境, 2001 (4) :7-12.

[5]高尚.剩余寿命分布研究[J].强度与环境, 1995 (3) :61-64.

上一篇:指挥管理系统下一篇:油温变化