偏最小二乘回归模型

2024-09-26

偏最小二乘回归模型(共7篇)

偏最小二乘回归模型 篇1

摘要:半参数模型能有效地分离系统误差,故受到测绘学界的广泛重视。针对大坝安全监测系统中的多元回归、逐步回归和偏最小二乘回归三种常用统计模型的不足,引入半参数模型,提出了基于偏最小二乘回归的半参数模型,并通过实例验证该方法具有良好的适用性。

关键词:半参数模型,系统误差,大坝安全监测,偏最小二乘回归

0 引言

在数据处理中,最常用的模型是高斯-马尔可夫模型,其前提条件是假设观测值中只含有偶然误差。然而现代测量技术为大范围、长时间、不间断的测量提供了充分的可能性,使观测值中不可避免地包含有系统误差,从而对参数估计产生不可忽视的偏差。20世纪80年代统计学界提出的半参数回归模型既含有参数分量又含有非参数分量,前者用来表示观测值与影响因素之间函数关系明确的部分,为模型主体;后者表示观测值和影响因素之间函数关系不明确的部分,为系统误差,从而比经典的参数和非参数模型更具有灵活性和适用性,具有更强的解释能力,更好地满足现代测量数据处理的实际需求。

1 半参数模型及其解

Stone(1997)提出了半参数回归模型[1,2]:

式(1)中,L为n维观测向量,B为列满秩设计矩阵,X为t维参数向量,s为描述系统误差的n维向量,Δ为n维误差向量,σ0为单位权中误差,D,P,Q分别为Δ的方差阵、协因数阵和权阵。未知量为参数X和非参数s,共有n+t个未知数,方程的数目小于未知数的数目,方程无唯一解。为此,统计学者提出了补偿最小二乘准则:

式(2)中,R是一个正定矩阵,二次型s^TR s^反映对参数s^的某种度量;α是一个给定的纯量因子,在极小化过程中对V和s^起平衡作用,称为平滑因子。求解得:

式中,S=(P+αR)-1P

2 基于偏最小二乘回归的半参数模型

2.1 基本思想

大坝安全监测系统是一个复杂的非线性动态系统,而常规的统计模型:线性回归、逐步回归及偏最小二乘回归,在建模时仅仅考虑了水位、温度及时效等线性因素的影响,而忽略了其他诸多非线性因素,如岩体的压缩、地基中的裂缝、大坝内部地质条件及构造的高度非均匀性、筑坝材料及介质的各向异性以及人类活动的影响,使得最终建立的统计模型缺乏严密性和完整性[3]。

本文将半参数模型运用于大坝安全监测中,结合偏最小二乘回归,提出了一种基于偏最小二成回归的半参数模型。其基本思想是将大坝安全监测模型分为参数和非参数两部分,用参数部分来解释水位、温度和时效等线性因素对大坝形变的影响,是观测值中的主要部分;非参数部描述函数关系未知和无法参数化的部分,即模型误差,且运用半参数模型估计方法分别求得参数解与非参数解,从而达到补偿和完善统计模型的目的。

2.2 算法推导

(1)标准化处理。记F0为因变量Y的标准化矩阵,E0为自变量X的标准化矩阵,标准化处理的目的是使样本点的重心和坐标原点重合;

(2)主成分提取。首先从F0中提取一个成分u1,u1=F0C1,‖C1‖=1,则C1为F0的第一主轴。由于F0只是一个变量,因此C1是一个常数,且C1=1,故u1=F0。同时从E0中提取一个成分t1,t1=E0w1,‖w1‖=1,w1是E0的第一主轴,分别求E0和F0对t1的两个回归方程E0=t1pT1+E1,F0=t1rT1+F1,E1,F1分别为回归方程的残差矩阵。

用残差矩阵E1,F1取代E0,F0,用上述方法求C2和w2,以及u2和t2,依次计算下去,可求得第h成分th,h可用交叉有效性原则进行计算。如果进行m(m<A,A为X的秩)次运算,则E0,F0关于t1,t2,…,tm的最小二乘回归方程为:

(3)模型误差补偿。顾及到主成分t1,t2,…,tm无法完全表达对F0的影响,对公式(5)加以模型误差的补偿得:F0=t1r1+t2r2+…+tmrm+s0+Fm,s0为模型误差。运用半参数的虚拟观测法[4,5]解算得:F0^=t1r1^+t2r2^+n+tmrm^+s^。

(4)回归方程还原。由于t1,t2,…,tm均可表示成E01,E02,…,E0 p的线性组合,由偏最小二乘回归的性质得:th=Eh-1wh=E0wh*(h=1,2,…,m),

若记则标准化回归方程为:经过初始化还原,得到原始因变量Y关于原始自变量X=(x1,x2,…,xp)的回归方程:

(5)系统误差推估。假定其变化主要取决于气温、水位两个因子,引入距离函数Q:

式(7)中,H表示水位,T表示气温,下标i,j表示测期。则前n期之间的距离函数矩阵为:

则第k(k>n)期和前n测期间模型误差的函数关系为:Qk=[Qk,1Qk,2…Qk,n],则第k(k>n)期的模型误差为:sk=QkQ-1n×ns。

2.3 精度评价

衡量回归模型有效性和精度的主要指标有复相关系数及标准差,如下:

3 实例分析

某水电站属于混凝土双曲拱坝,该坝安装了变形、渗流渗压、内部观测等设备,且于2001年安装了自动化监测系统,保证了资料的连续可靠。本文对该坝11#坝段L3垂线291测点的上下游水平位移数据进行统计模型的建立和选择,计算时段取1997年1月1日至2002年12月31日共319组数据作为模型拟合数据,实测水位差、气温和上下游水平位移过程线见图1、图2和图3,并取2003年1月1日到2003年12月31日共26组数据作为模型预测数据。

统计模型取为[6]:

式(9)中,H为上下游库水位之差;Ti为位移观测日前i天的平均气温;θ为位移观测日至始测日的天数除以100;θ0为资料建模初始日至始测日的天数除以100;βj表示与因变量对应的第j个自变量的回归系数,j=0,1,…,9。

运用Matlab编程分别求解四种回归模型的系数,并进行参数的检验以及预测精度的比较,分别如表1、表2和图4所示。

从表1看出,因为三个水位因子是呈幂次关系,系数符号该保持一致,而在多元回归中,系数有正有负,毫无规律,显然不符合水位对大坝上下游水平位移的影响规律;在逐步回归中,选入了水位分量和温度分量,而未选入时效因子,从专业角度是无法接受的。相比之下,偏最小二乘回归和基于偏最小二乘回归的半参数模型的系数更加合理。表2中基于偏最小二乘回归的半参数模型的复相关系数值最大,且剩余残差平方和和标准差最小,表明其拟合效果最好。

图4中,自1999年之后s^的范围波动在±5mm内,表明大坝位移受内部复杂因素的影响正逐渐趋于平稳,一直处于良好的工作状态。图5表明,该模型的预测残差平方和略大于逐步回归,分别为55.05mm2、41.71mm2,且远小于多元回归和偏最小二乘回归。

综上所述,基于偏最小二乘的半参数模型不仅弥补了偏最小二乘回归中拟合与预测较差的不足,同时又保留了其效应量分离的合理性、方程组解的稳定性的优点,具有明显的优势。

4 结论与展望

半参数模型因其完备性及合理性,并能有效地分离出观测数据中的系统误差,实现正确的参数估计,从而被广泛应用于现代测量的众多领域。本文将半参数模型运用于大坝安全监测系统中,并与偏最小二乘回归结合,提出了基于偏最小二乘回归的半参数模型,实例分析表明该模型明显优于其他三种常规统计模型,取得较满意的结果,可为大坝安全监测资料分析与决策提供一定的科学依据。

参考文献

[1]丁士俊.测量数据的建模与半参数估计[D].武汉:武汉大学,2005.

[2]丁士俊,陶本藻.半参数回归与平差模型[J].大地测量与地球动力学,2003,23(4):111~114.

[3]袁晓峰.大坝安全监测资料分析若干问题研究[D].南昌:南昌大学,2007.

[4]朱建军,冯光财,戴吾蛟.半参数模型解算的一种虚拟观测法[J].工程勘察,2006,(9):54~57.

[5]周晓卫.基于虚拟观测的若干测量数据处理方法研究[D].长沙:中南大学,2007.

[6]吴中如.水工建筑物安全监控理论及其应用[M].北京:高等教育出版社,2003.

偏最小二乘回归模型 篇2

作物腾发量的研究是节水农业的重要内容,对水资源规划和陆地水文学的研究具有重要意义[1],参考作物腾发量是估算作物腾发量的基础,是各种气象条件对作物腾发量影响的综合反映,参考作物腾发量的预测研究为实时灌溉预报提供参考,也为拟定渠系动态配水计划提供合理依据[2]。

在参考作物腾发量预测方面,通常对多个自变量(气象因子)与因变量(ET0)之间进行回归分析,建立回归预测模型。常用的回归方法有权重回归和逐步回归及多元回归方法。这些传统的多元回归方法,一般要求数据满足一定的数学分布,数据间有典型的统计规律,并且在自变量之间以及因变量之间都存在较严重的多重线性相关时,如果采用一般的多元回归方法,其分析结果的可靠性较低。而采用偏最小二乘回归(PartialLeast-Squares Regression,简称PLS)分析的建模方法,可以很好地解决这些问题。采用偏最小二乘回归有效地解决了自变量的多重线性相关问题,但对处理因变量与自变量间复杂的非线性问题较差。投影寻踪回归模型(projection Pursuit Regression,简称PPR)有效地解决了因变量与自变量间复杂的非线性问题,因此,提出了基于偏最小二乘回归的投影寻踪耦合模型(projection Pursuit based on PLS,简称PLSPP),并用基于实数编码的加速遗传算法来优化投影指标函数从而使模型精度、稳健性、实用性都得到提高[3]。

1 基于偏最小二乘回归的投影寻踪耦合模型建模的具体过程

投影寻踪回归模型为基于Hermite多项式的投影寻踪回归模型,具体过程为:

(1)步骤1。建立偏最小二乘回归模型提取成分。设有因变量yi(i=1,2,…,n)和p个自变量{x1,x2,…,xp},观测n个样本点,构成自变量与因变量的数据表X=[x1,x2,…,xp]n×p和Y=[y]n×1。偏最小二乘回归分别在X和Y中提取成分t1和u1,在第1个成分t1和u1被提取后,偏最小二乘回归分别实施X对t1的回归以及Y对t1的回归,如果回归方程已经达到满意的精度,则算法终止;否则,将利用X被t1解释后的残余信息以及Y被t1解释后的残余信息进行第2轮的成分提取[4,5,6,7]。如此往复,通过交叉有效性判别,直到能达到一个较满意的精度为止,最终对X共提取了d个成分t1,t2,…,td[8,9]。

(2)步骤2。由步骤1提取的d个成分t1,t2,…,td计算投影值:

式中:aj为投影方向;tij已进行归一化处理。

(3)步骤3。对散布点(z,y),用基于正交Hermite多项式拟合,此时基于偏最小二乘回归的投影寻踪耦合模型为:

式中:r为多项式阶数;c是多项式系数,可用最小二乘法获得;h表示正交Hermite多项式。

(4)步骤4。优化投影指标函数。在优化投影方向a时,同时考虑多项式系数c的优化问题,可以通过求解投影指标函数最小化问题来估计最佳a,c值,即:

用传统的优化方法处理较难,本文采用基于实数编码的加速遗传算法来优化投影指标函数。

(5)步骤5。计算第1次拟合残差如果满足要求则输出模型参数,否则,进行步骤6计算。

(6)步骤6。用r1代替y,回到步骤1开始下一个岭函数的优化,直到满足一定要求,停止增加岭函数个数,输出最后结果[10]。

2 PLSPP模型在ET0预测中的应用

2.1 基本资料

本文根据朝阳气象站1996-2006年气象资料,气象资料包括:x1(月平均最高温度,℃),x2(月平均最低温度,℃),x3(月平均温度,℃),x4(月平均相对湿度,%),x5(月平均日照时数,h),x6(月平均风速,m/s),x7(月平均降水量,mm),x8(月平均蒸发量,mm),y(月参考作物腾发量,mm),建立朝阳地区的逐月ET0预测模型。首先利用FAO56-PM公式[11,12]计算逐月ET0,再采用朝阳站1996-2005年10年的120组数据建立预测模型,用2006年12组的数据来检验模型的预测精度。

2.2 建立PLSPP预测模型[13,14]

先对因变量(ET0)序列yi(i=1,2,…,120)和自变量序列xij(i=1,2,…,120,j=1,2,…,8)进行标准化处理,采用单因变量PLS方法提取主成分,交叉有效性判别见表1。

由表1可以看出,提取5个主成分时,交叉有效性判别计算值小于0.097 5,这说明提取4个有效成分t1,t2,t3,t4即可。

然后将因变量(ET0)序列yi(i=1,2,…,120)和主成分序列ti1,ti2,ti3,ti4(i=1,2,…,120)序列分别代入到式(1)~(4)中,采用一个岭函数进行拟合,多项式的阶数为2,通过遗传算法优化投影指标值得投影指标函数为719 290,参数a,c值见表2,该模型的拟合结果见图1。

2.3 精度检验

将PLSPP模型预测的2006年各月ET0值与PenmanMonteith公式计算的ET0结果进行比较。从表3可以看出,采用PLSPP模型预测的精度非常高,其相对误差绝对值的均值为5.78%,相对误差绝对值均小于10%,可见PLSPP模型对参考作物腾发量的预测效果令人满意,因此可以用于朝阳站各月参考作物腾发量的预测。

3 结论

(1)PLSPP模型的参考作物滕发量模型通过提取4个有效成分,有效地解决了气象因子之间多重相关的问题,同时该模型又很好地解决了ET0与各个气象因子间的非线性问题。

(2)应用可变阶的正交Hermite多项式拟合一维岭函数,能够保证模型逼近的精度多项式的计算简单系数的确定有明确的计算公式,有利于实际中的应用,对于非线性的参考作物腾发量预测也比较合适;应用基于实数编码的加速遗传算法来优化投影指标函数,克服了传统优化方法的缺点,而且实现过程简单,便于实际操作,使模型的精度得到提高。

(3)预测参考作物腾发量的PLSPP模型具有很强的处理数据的能力,在样本点少,变量多的条件下也可进行建模;该模型计算简便,稳定性好,适用性强,与传统的投影寻踪回归模型相比精度更高。为非线性参考作物滕发量的预测提供了一条新方法。◆

摘要:根据朝阳气象站的实测气象数据(温度、湿度、日照时数、风速、蒸发量、降水量),提出基于偏最小二乘回归的投影寻踪耦合模型用于预测朝阳地区参考作物滕发量。偏最小二乘回归方法能够有效地处理自变量间多重线性相关问题,但对处理因变量与自变量间复杂的非线性问题较差,而投影寻踪回归模型有效解决了非线性问题。把这2种方法结合在一起,建立了基于偏最小二乘回归的投影寻踪耦合模型,用于该地区参考作物滕发量的预测。并将耦合模型预测的ET0结果与Penman-Monteith公式计算的ET0结果进行比较,该耦合模型预测精度较高。

偏最小二乘回归模型 篇3

在轻型舰载鱼雷发射的过程控制和参数分析中, 动力学模型往往比较复杂, 如何利用有限的实验数据, 进行鱼雷发射过程中一些主要参数的分析及快速预报是十分有意义的。在潜艇鱼雷发射装置管内运动参数设计中, 首先要弄清鱼雷管峰压的影响因素及其函数关系。文献[1]利用基于最小二乘法的回归分析方法, 建立了发射管内峰压Pm的一元线性回归方程, 并进行了显著性检验。

偏最小二乘回归是一种新的多元数据分析方法, 集多元线性回归、典型相关分析和主成分分析的基本功能为一体, 将建模预测类型的数据分析方法与非模型式的数据认识方法有机地结合起来, 使得模型精度、稳健性、实用性得到提高[2,3,4], 已广泛应用于各领域的研究中[5,6,7,8,9,10]。本文应用偏最小二乘回归方法, 进一步探索鱼雷水面发射时影响鱼雷管峰压Pm的主要因素, 建立回归方程并进行误差分析。

1偏最小二乘回归模型

1.1建模原理

设有p自变量X={x1, x2, …, xp}和q个因变量Y={y1, y2, …, yp}, 观测n个样本点, 分别在X与Y中提取出成分t1和u1 (即t1是x1, ..., xp的线性组合, u1是y1, ..., yq的线性组合) , 要求t1和u1应尽可能大地携带他们各自数据表中的变异信息, 同时t1与u1的相关程度能够达到最大使得t1和u1应尽可能好的代表数据表X和Y, 同时自变量的成分t1对因变量的成分u1又有最强的解释能力。

在第一个成分t1和u1被提取后, 分别实施X对t1的回归以及Y对u1的回归。如果回归方程已经达到满意的精度, 则算法终止;否则, 将利用X被t1解释后的残余信息以及Y被t1解释后的残余信息进行第二轮的成分提取。如此往复, 直到能达到一个较满意的精度为止。若最终对X共提取了m个成分t1, …, tm, 偏最小二乘回归将通过实施yk对t1, …, tm的回归, 然后再表达成yk关于原变量x, …, x的回归方程 (k=1, 2, …, q) 。

1.2交叉有效性检验

将所有n个样本点分成两部分:第一部分除去某个样本点i的所有样本点集合 (共含n-1个样本点) , 用这部分样本点并使用h个成分拟合一个回归方程;第二部分是把刚才被排除的样本点i代入前面拟合的回归方程, 得到yj在样本点i上的拟合值y hj (-i) 。对于每一个i=1, 2, …, n, 重复上述测试, 定义Y的预测误差平方和为PRESSh, 有PRESSh=, 显然, 如果回归方程的稳健性不好, 误差就很大, 它对样本点的变动就会十分敏感, 这种扰动误差的作用, 就会加大PRESSh的值。

1.3精度分析

在偏最小二乘回归计算过程中, 所提取的自变量成分th一方面可以尽可能多地代表X的变异信息, 另一方面又尽可能与Y相关联, 解释Y中的信息, 用r (xi, xj) 表示两个变量之间的相关关系, 定义t1, t2, …, th对各变量的解释能力。

对自变量X的累计解释能力:

对自变量X的累计解释能力:

对自变量Y的累计解释能力:

定义为变量投影重要性指标用来描述自变量对因变量的解释能力, 其中whj表示轴wh的第j个分量, VIPj的意义:由于xj对Y的解释是通过th来传递的, 如果th对Y的解释能力很强, 而xj在构造th时, 又起到了非常重要的作用, 则可以认为xj对Y具有相当大的解释能力。

2鱼雷管峰压预测

2.1建立模型

发射鱼雷时, 鱼雷从静止开始, 可以通过不同的运动规律, 进行舰艇鱼雷发射装置管内运动参数的设计。分别记发射气瓶的容积记为x1, 发射气瓶的初始压力为x2, 发射阀喉部的通径为x3, 文献[1]分析了内弹道试验实测数据表1。

建立了鱼雷管峰压的线性回归模型为

Pm=-0.078 3x1+0.035x2+0.048 9x3。

本文利用偏最小二乘法建立模型。首先进行交叉有效性检验, 可得PRESSh=[0.5136 0.21330.2062]', 当h=3时, PRESSh达到最小, 模型的预测能力最好, 因此取3个主成分t1, t2, t3建立模型, 得到鱼雷管峰压的偏最小二乘回归标准化变量模型:

Pm=0.153 7x1+0.795 9x2+0.367 6x3 (1)

转化为原始变量回归方程为:

Pm=-6.610 6+0.124 9x1+0.031 8x2+0.175 9x3 (2)

2.2模型评价

2.2.1累计解释能力分析

计算t1, t2, t3的累计解释能力数值见表2。可以看出, 当取3个主成分时, t1, t2, t3对x1、x2和x3的累计解释能力达到100%, 对全部自变量x的累计解释能力达到100%, 对因变量y的累计解释能力均超过98%, 均达到了很高的解释水平, 说明用偏最小二乘法拟合出的回归模型能概括原始数据所携带大部分的信息。

2.2.2变量投影重要性指标

经计算, 得变量投影重要性指标VIP=[0.1834 1.463 1 0.908 8]', 对鱼雷管峰压的影响程度依次为发射气瓶的初始压力、发射阀喉部的通径和发射气瓶的容积。

2.2.3相关关系分析

图1给出了三个主成分与u1的平面图。从图中可以看出, t1与u1存在明显的线性关系, 说明发射气瓶的容积、发射气瓶的初始压力、发射阀喉部的通径与鱼雷管峰压有显著的相关关系, 采用偏最小二乘回归方法建立的线性模型 (1) 、 (2) 是合理的, t2、t3与u1也存在着一定的线性关系, 但已经很弱了。

2.2.4 鱼雷管峰压拟合结果

鱼雷管峰压的实测值与拟合值的对比情况如表3所示。从中可以看出, 偏最小二乘回归拟合值好于文献[1]的回归值, 相对误差较小, 表明偏最小二乘回归模型能较好的反映鱼雷管峰压与气瓶压力、发射阀通径、气瓶容积的关系, 预测效果较好。

鱼雷管峰压实测值与拟合值对比图如图2所示。可以看出, 所有的样本点均排列在图中对角线的附近, 模型的拟合效果很好。

3 结论

本文采用偏最小二乘回归方法, 经交叉有效性检验, 建立了鱼雷管峰压与气瓶容积、气瓶压力和发射阀通径的关系模型。通过检验, 该模型对自变量和因变量的解释能力较高, 通过与实测值的对比, 该模型拟合精度较高, 具有较好的预测能力。

摘要:采用偏最小二乘回归方法, 经交叉有效性检验建立了鱼雷管峰压的回归方程。通过实验数据比较, 该模型拟合精度较强, 说明偏最小二乘回归是估算舰艇鱼雷发射内弹道特征参数的一种有效方法。

关键词:鱼雷管峰压,偏最小二乘,预测,误差

参考文献

[1] 李志华, 申志伟. 鱼雷内弹道特征参数估计的回归分析. 舰船电子工程, 2009 (12) :188—191

[2] 乔汝椿. 潜艇鱼雷发射装置内弹道特性初步设计. 水中兵器, 2003; (2) :51—55.

[3] 王惠文. 偏最小二乘回归方法及其应用. 北京:国防工业出版社, 1999

[4] 罗批, 郭继昌, 李锵, 等. 基于偏最小二乘回归建模的探讨. 天津大学学报, 2002;35 (6) :783—786

[5] 贾子英, 陈松辉, 黄华. 基于偏最小二乘的两栖突击车作战效能预测. 舰船电子工程, 2009; (1) :119—121

[6] 巴胜生. 基于偏最小二乘回归的军用飞机效能预测. 自动化技术与应用, 2006;25 (10) :40—42

[7] 钱筱丹, 黎放, 卞金露. 偏最小二乘回归在舰船维修费用预测中的应用. 舰船科学技术, 2007;29 (4) :98—100

[8] 任震, 张静伟, 张晋听. 基于偏最小二乘法的设备故障率计算. 电网技术, 2005;29 (5) :12—16

[9] 王文圣, 丁晶, 赵玉龙, 等. 基于偏最小一乘回归的年用电量预测研究. 中国电机工程学报, 2003;23 (10) :17—21

偏最小二乘回归模型 篇4

一项调研表明,在英国,客户使用一年内退货的手机产品中有63%的是因为产品的功能可用性与客户预期需求的不匹配造成的,可见,客户对产品功能的可用性是有不同需求偏好的[6]。在进行产品功能设计时,应充分考虑细分市场客户需求偏好,要针对性改进某些产品功能可用性,才能更好的提升产品的客户满意度。为了挖掘细分市场客户的产品功能可用性偏好,对产品功能可用性进行评价,进而提出产品功能改进建议,本文首次提出了基于偏最小二乘回归的产品功能可用性评价方法,并创新性的用功能可用性评价矩阵进行产品功能可用性评价分析,找出产品中可用性与客户需求不匹配的功能,重点进行可用性改进,达到与客户需求匹配。

1 基于偏最小二乘回归的产品可用性评价

1.1 偏最小二乘回归模型及其算法流程

偏最小二乘回归算法可同时实现回归建模、数据结构简化(主成分分析)及两组变量之间相关性分析(典型相关分析)[7],并使模型精度、稳定性和实用性都得到提高。偏最小二乘回归法的思路是:首先分别从自变量X和因变量Y中提取相互独立的成分th(h=1,2,…)和kh(h=1,2,…)。然后建立这些成分与自变量的回归方程,这些成分既能很好的概括自变量系统中的信息又能很好的解释因变量并排除系统中的噪声干扰,可有效解决自变量间多重相关性。

记C0(C0∈Rn)是因变量Y的标准化变量,D0是自变量集合X的标准化矩阵,对其进行偏最小二乘回归推导:

第一步:首先从C0中抽出一个成分h1,h1=C0k1,‖k1‖=1;从D0中抽取一个成分t1,t1=D0w1,‖w1‖=1。要使得抽取的成分t1对h1有较好的解释作用得:然后,实施D0在t1上的回归以及C0在t1上的回归,即有

其中,p1,r1是回归系数(而r1是标量),

第二步:以D1取代D0,以C1取代C0,重复第一步的方法,可以得到同样,D1,C1对t2的回归,有

第三步,第四步……,均以此类推,最后,可用交叉有效性确定偏最小二乘回归中成分th的提取个数,停止迭代。

最后,有偏最小二乘回归模型为:

x*j的回归系数为

模型用交叉有效性作为回归迭代终止判断依据。考虑到本研究是单因变量的偏最小二乘回归,记yi为原始数据,t1,t2,…,tm是在偏最小二乘过程中提取的成分。是使用全部样本点并取h个成分建模回归后,第i个样本的拟合数值。若为在建模时删除样本点i,取h个成分回归建模后,再用此模型计算ei的拟合值,记为:时,引进新的主成分就会对模型的预测能力有明显的改善作用。

1.2 基于偏最小二乘回归的产品可用性评价

在用户测试、访谈法和问卷法等参与可用性评价方法的基础上,分析产品每个功能的有效性、效率和功能满意度,然后采用偏最小二乘回归构建产品整体满意度和产品功能可用性之间的回归关系,利用偏最小二乘回归的变量间关系分析技术,以重要性分析指标来作为产品功能可用性的评价排序,最后,通过功能可用性评价矩阵对具体产品的可用性进行评价,提出改进建议。

第一步:选取细分市场下的研究产品对象,确定其功能的有效性,效率,功能满意度及产品的整体满意度。利用用户测试法,采用问卷调研来获得用户对这四个指标的分级打分。

有效性评价准则为:任务完成率90%以上,记为有效性很高,打分为10;任务完成率70%—90%,记为有效性高,打分为8;任务完成率50%—70%,记为有效性一般,打分为6;任务完成率30%—50%,记为有效性较低,打分为4;任务完成率30%以下,则记为有效性很低,打分为2。效率的评价准则为:依次评价为很高、高、一般、低和很低,对应的打分为10,8,6,4,2。功能满意度评价准则为:依次评价为很满意、满意、基本满意、不满意和很不满意,对应的打分为10,8,6,4,2。产品的整体满意度评价准则为:根据对产品的满意程度,选择1—100的打分值。

第二步:计算各功能的可用性水平。

可用性水平记为有效性、效率和功能满意度的乘积,即为:

式(1)中,E、E'和S分别表示有效性、效率和功能满意度。U的大小直接体现着功能可用性的高低。

第三步:样本群的E(产品整体满意度)与U(各功能维度的可用性)偏最小二乘回归,并利用其参数重要度测定,确定所选样本产品的功能可用性值的排序评价标准。

以偏最小二乘回归法的辅助分析技术———重要性指标VIP(Variable Importance in Projection)作为功能可用性排序的基础。

其表达式为:

式(3)中,ωji是轴ωj的第i个分量;Rd(E;tj)为变量tj对E的解释能力,即对E的累计解释能力,即而有Rd(el;tj)=r2(el,tj)。

第四步:利用功能可用性评价矩阵,对产品各功能的可用性进行评价分析。

构建产品功能可用性评价矩阵,其中矩阵图的右下区域称为功能待提升区,表示功能在产品中的排序落后于总的产品评价,需要企业重点改进;而中间区域称为功能匹配区,表示产品的可用性值在可容许偏差的范围内,实际可用性和对产品本身需求匹配,可不用改进;左上角区域称为功能突出区,表示产品实际功能可用性优于评价序列,即可用性设计高于客户偏好需求,在改进时可以适当降低功能性能或维持不变。

2 应用实例

为了进行产品功能可用性评价方法的有效性验证,选定智能手机市场产品作为功能可用性评价分析对象,进行第一步、第二步相关的测定和计算后得到表1所示数据。

借助于SIMCA-P软件,经过交叉有效性条件验证,实现对实例数据进行偏最小二乘回归,获得稳定的产品总体满意度和功能可用性之间的回归模型,随后通过偏最小二乘回归的VIP分析技术,获取该类产品的功能可用性排序见图1所示。

针对手机B,采用功能可用性评价矩阵进行分析,功能评价分布见图2。从图中,可以直观的看出偏离功能匹配区越远的右下区域,产品实际可用性与顾客需要偏离大,应该优先对这些功能的可用性进行改进(游戏、拍照、蓝牙和操作系统等4个功能),以满足功能与客户需求的良好匹配,进而提升手机B的整体满意度。

4 结论

为了解决产品可用性与客户对可用性偏好的不匹配问题,进而提升产品的整体用户满意度,本文在常规的可用性测度方法的基础上,提出了基于偏最小二乘回归的产品功能可用性评价分析方法,借助功能可用性评价矩阵得到亟待提升可用性的功能。最后以手机案例进一步演示了该方法,诊断出了现有产品功能中存在的不匹配,得到产品功能可用性改进方向。

摘要:现有的产品功能可用性研究仅为提升具体功能的可用性,忽视了用户对产品功能可用性的偏好问题。为解决该问题,首次提出了基于偏最小二乘回归的产品功能可用性评价方法。在常用可用性分析方法基础上,对细分市场产品整体满意度和功能可用性进行偏最小二乘回归。结合功能可用性评价矩阵分析产品功能改进方向。最后,通过手机实例进行了方法的演示,验证该方法是产品功能可用性分析的有效方法。

关键词:产品功能可用性,偏最小二乘回归,可用性评价矩阵

参考文献

[1] Dumas J S,Redish J C.A practical guide to usability testing.NJ:Albex,Norwood,1994

[2] Nielsen J.可用性工程.刘正捷,译.北京:机械工业出版社,2004:48—144

[3] Han S H,Kim J.A comparison of screening methods:selecting im-portant design variables for modeling product usability.InternationalJournal of Industrial Ergonomics,2003;32(3):189—198

[4]王继成.产品设计过程的可用性研究与应用.东华大学学报:自然科学版,2006;32(5):32—35

[5]刘胧,刘虎沉.运用FMEA的产品可用性评价方法.工业工程,2010;13(3):47—50

[6] Overton D.No fault found returns cost the mobile industry MYM4.5billion per year.WDS Global.http://www.wdsglobal.com/news/whitepapers/20060717/MediaBulletinNFF.pdf,2006

偏最小二乘回归模型 篇5

在多元线性回归模型中,如果解释变量之间存在着密切的线性相关关系,就称它们之间存在着多重共线性. 在出现多重共线性情形时,普通最小二乘估计不再适用; 回归参数的估计值方差会很大,从而影响自变量对因变量的解释;估计的精度会降低; 估计的效果也会变坏. 在实际经济问题的多元回归分析中,多重共线性的现象很多,这时我们就应该寻找另外的回归方法对参数进行估计.

二、方法介绍

如果在实际问题中出现了多重共线性的现象,我们可以选择用有偏回归方法———岭回归( RR) 和偏最小二乘回归( PLS) 来处理. 岭回归是利用岭估计( X'X + k I)- 1X' Y来替代普通最小二乘估计( X'X)- 1X' Y,从而消除了普通最小二乘估计中矩阵X'X无法求逆的问题. 偏最小二乘回归是先在自变量集和因变量集中分别提取第一潜在因子t1与u1,其中t1与u1分别是自变量与因变量的线性组合,要求t1与u1尽可能多地提取所在变量组的变异信息,且t1与u1的相关程度达最大,然后建立因变量与t1的回归方程,若回归方程不能达到满意的精度,则继续提取第二潜在因子,否则停止.

三、实例比较

根据理论及对现实情况的认识,拟建立以我国国民总收入( 单位: 亿元) 为因变量y,以就业人员数( 单位: 万人) 、财政收入( 单位: 亿元) 、能源生产总量 ( 单位: 万吨标准煤) 、国有单位工资总额( 单位: 亿元) 和城镇集体工资总额( 单位: 亿元) 分别为自变量x1,x2,x3,x4,x5的线性回归模型. 由《中国统计年鉴》查得相关数据如下:

在SAS软件上使用REG过程来建立最小二乘回归方程,所有自变量的方差膨胀因子都大于100,诊断出模型中存在非常严重的多重共线性问题. 用最小二乘法所得到的回归方程为y = - 431189 + 6. 13224x1- 0. 18088x2+0. 44051x3+ 5. 69125x4- 13. 63786x5.

可以看到方程中,自变量x2,x5的系数为负,这显然与事实不符,这正是由多重共线性所导致,因此最小二乘回归求出的回归方程不利于模型的解释,下面改用岭回归方法来建模.

用SAS软件中的REG过程,求解岭回归方程. 由岭迹图可以看出,当岭参数k≥0. 02后,岭迹曲线趋于稳定,因此,取k = 0. 02的岭回归估计来建立岭回归方程为

这时,回归系数的符号符合实际意义.

现在用偏最小二乘回归方法来进行处理,用SAS软件中的PLS过程建立偏最小二乘回归方程,用最常用的舍一交叉验证法来抽取偏最小二乘的成分,结果抽取了3个偏最小二乘成分,得到偏最小二乘回归方程为

这时,回归方程中的回归系数的符号也都符合实际意义.

根据前面得出的岭回归方程和偏最小二乘回归方程,计算出衡量模型拟合效果好坏的平均绝对百分误差和复测定系数,得到相应的数值如下:

四、总 结

从上例可以看出,在多元线性回归模型中出现共线性问题时,最小二乘回归方法已经不再适用,而用岭回归和偏最小二乘回归这两种有偏回归方法都可以处理多重共线性问题,且从表2的结果可知,两种方法建立的回归方程拟合的效果都不错,而偏最小二乘回归方法相对岭回归方法要更优.

摘要:文章介绍了处理多元线性回归模型中多重共线性问题的有偏回归方法——岭回归和偏最小二乘回归,并通过实例比较了两种方法建立的回归方程的拟合效果,而偏最小二乘回归方法相对岭回归方法要更优.

偏最小二乘回归模型 篇6

关键词:应力腐蚀敏感性指数,偏最小二乘回归模型,信息挖掘

316L奥氏体不锈钢与碳素钢相比, 具有较高的抗拉强度、较低的屈服点、极好的塑性和韧性, 而且焊接性能和冷弯成型工艺性能也很好, 所以被广泛用于制造各种储槽、塔器、反应釜等压力容器。作为不锈钢, 316L能耐多种介质的均匀腐蚀, 但在某些环境中 (特别是含Cl-介质) 的应力腐蚀开裂现象非常严重, 已成为不锈钢领域中急待解决的工程实际问题。影响316L不锈钢应力腐蚀开裂的介质因素具有特定性, 在酸性环境中主要因素有:Cl-浓度、H2S浓度、温度和p H值等。对其影响因素的关系, 已进行了广泛研究, 取得了许多研究成果[1,2,3,4,5,6]。文献[7]采用慢应变速率拉伸腐蚀试验方法, 研究Cl-浓度、H2S浓度、温度和p H值等参数单独和交互作用对316L钢应力腐蚀敏感性的影响, 并进一步对应力腐蚀敏感性指数进行统计回归分析。

偏最小二乘回归于1983年由S。Wold和C。Albano等人首次提出, 它集多元线性回归、典型相关分析和主成分分析的基本功能为一体, 将建模预测类型的数据分析方法与非模型式的数据认识方法有机地结合起来, 因此, 偏最小二乘回归较传统的回归分析、主成分分析具有更大优势, 能较好地处理基于传统最小二乘回归方法难以解决的问题, 在处理样本容量小、自变量多、变量间存在严重多重相关性问题方面具有独特的优势, 已广泛应用于诸多领域, 取得了良好的效果[8,9,10,11,12]。本文充分考虑影响316L不锈钢应力腐蚀敏感性指数的相关因素, 利用偏最小二乘回归方法建立模型, 挖掘影响因素中的信息。

一、偏最小二乘回归模型

在第一个成分t1和u1被提取后, 分别实施X对t1的回归以及Y对u1的回归。如果回归方程已经达到满意的精度, 则算法终止;否则, 将利用X被t1被解释后的残余信息以及Y被t1解释后的残余信息进行第二轮的成分提取。如此往复, 直到能达到一个较满意的精度为止。若最终对X共提取了m个成分, 偏最小二乘回归将通过实施yk对的回归, 然后再表达成yk关于原变量的回归方程 () 。

回归方程为

FAk是残差距阵FA的第k列。

二、应力腐蚀敏感性指数偏最小二乘回归分析

为了研究316L不锈钢应力腐蚀敏感性指数的影响因素, 记H2S的浓度为x1、Cl-浓度为x2、温度为x3, PH值为x4作为自变量x1 (i=1, 2, …, 8) F (A) 以应力-应变曲线下面积表示的应力腐蚀敏感性指数作为因变量y。

经交叉有效性检验, 计算得到, 因此取成分t1, t2, 模型的预测能力最好, 得到应力腐蚀敏感性指数偏最小二乘回归方程为:

图1给出了t1、t2与u1的平面图。从图1中可以看出, t1与u1存在明显的线性关系, t2与u1也存在着一定的线性关系, 但相对较弱。

为了验证模型的预测效果, 偏最小二乘回归模型验证应力腐蚀敏感性指数, 拟合结果如表2及图2所示。

从表及图中可以看出, 偏最小二乘回归模型预测较好的反映了应力腐蚀敏感性指数与影响因素的关系。

三、结论

本文应用偏最小二乘回归方法, 综合考虑影响应力腐蚀敏感性指数的各种因素, 建立了应力腐蚀敏感性指数预测的模型, 通过计算, 预测结果较好, 应用偏最小二乘回归方法, 对于探索316L不锈钢的应力腐蚀敏感性指数, 挖掘影响因素之间的信息具有重要意义。

参考文献

[1]OBERNDORFER M, KAESTENBAUER M, THAYERK.Application limit s of stainless steel s in the petroleum industry[C].USA:Soc Pet Eng (SPE) , 1999:395-403.

[2]HIBNER EDWARD L, FENDE D S.Conquer chlorides andalloy costs[J].Chemical Engineering Progress, 1999, 95 (4) :63-68.

[3]KANE R D, JOIA CJBM, SMALL ALLT, etal.Rapidscreening of stainless steels for environmental cracking[J].MaterialsPerformance, 1997, 36 (9) :71-74.

[4]BARKER JC, YU J, BROOK R, etal.Some environmental aspects of sulphide stress corrosion cracking stainless steels[C].USA:Int Soc ofOff shore and Polar Engineerns (ISOPE) , 1993:273-278.

[5]CHEN SH, YEH RT, CHENG TP, etal.Hydrogen sulphide stresscorrosion cracking of TIG and laser welded 304 stainless steel[J].CorrosionScience, 1994, 36 (12) :2029-2041.

[6]FANG Deming, LU Zhiming, GAO Zengliang.Stress corrosioncrack study of 316L stainless steel in H2S and Cl-aqueous solution[C].Spain:Spanish Council for Scientific Research, 2002:166.

[7]卢志明, 何正炎, 高增梁.316L不锈钢应力腐蚀敏感性指数计算与回归分析[J].浙江工业大学学报, 2007, 35 (2) :198-200.

[8]王惠文, 付凌晖.PLS路径模型在建立综合评价指数中的应用[J].系统工程理论与实践, 2004, 10:80-85.

[9]J.P.Gauchi.P.Chagnon, Comparison of selection methods ofexplanatory variable in PLS regression with application to manufacturingprocess data[J], Chemometrics and intelligent laboratory systems, 2001, 58:171-193.

[10]张伏生, 汪鸿, 韩悌, 等.基于偏最小二乘回归分析的短期负荷预测[J].电网技术, 2003, 27 (3) :36-40.

[11]李寿安, 张恒喜, 李东霞, 等.基于偏最小二乘回归的军用飞机采购价格预测[J].海军工程大学学报, 2005, 17 (4) :64-68.

偏最小二乘回归模型 篇7

关键词:系统谐波阻抗,偏最小二乘回归,用户谐波发射水平

在电力系统中, 供电系统谐波的定义是对周期性非正弦电量进行傅立叶级数分解, 除了得到与电网基波频率相同的分量, 还可以得到一系列大于电网基波频率的分量, 这一部分分量即被成为谐波。谐波频率与几波频率的比值称之为谐波次数。电网中有时也存在非整数倍谐波, 称之为非谐波或者分数谐波, 谐波实际上是一种干扰量, 使电网受到污染。

1 谐波的危害和抑制

1.1 谐波的危害

理想的公用电网所提供的电压应该是单一而固定的频率以及规定的电压幅值。谐波电流和谐波电压的出现, 对公用电网是一种污染。谐波对电网的危害十分严重, 使电力系统中电能的生产、传输和利用的效率降低, 使电气设备过热、产生振动和噪声, 并使绝缘老化, 使用寿命缩短, 甚至发生故障或者烧毁等等。谐波可引起电力系统局部并联谐振或串联谐振, 使谐波含量放大, 造成电容器等设备烧毁。谐波还会引起继电保护和自动装置误动作, 使电能计量出现混乱。对于电力系统外部, 谐波对通信设备和电子设备会产生严重干扰。

1.2 谐波的抑制

对于解决电力系统中电力装备和其他谐波来源的污染问题, 有两条可行的方法, 首先是装设一种谐波补偿装置来补偿谐波, 这一方法适用于各种来源的谐波, 其次是对电力系统中的电力设备进行种种技术上的改造, 尽量使其不产生谐波, 并且始终将功率因数控制到1, 这一条方法只适用于被谐波污染的电力系统中电子设备。在传统方法中, 装设谐波补偿装置的方法就是采用LC调谐波滤波器, 这种方法技能补偿谐波, 又能补偿无功功率, 而且LC调谐波滤波器结构简单, 操作方便, 因此一直被广泛使用。而LC调谐波滤波器的主要缺点则是对谐波的补偿特性会受到电网的阻抗和电力系统的运行状态的影响, 比较容易的和电力系统发生联通谐振, 致使谐波不仅没有被补偿, 反而持续放大, 最终导致LC滤波器过载运行直至烧毁。而且LC滤波器只能补偿固定频率的谐波, 补偿效率也不高。

2 偏最小二乘回归法对谐波检测的运用

对于电力系统的运行, 谐波的治理已经是必然要面对的重点问题。谐波的定位有两种方法, 第一种是将电力系统分成供电侧和用户侧两侧, 然后根据相应的等效电路模型确定发出主谐波源存在的那一侧, 这种方法成为基于等小电路吗, 模型的定位法, 根据定位依据的不同, 可以分为功率定位法、阻抗定位法、灵敏度定位法;第二种是估计电力系统整体谐波的方法, 计算出系统中各个节点的谐波电压一直各个支路的谐波电流, 从计算结果中判断出哪条支路或者哪个节点含有谐波, 根据不同的量测量的选择, 可以分为功率量测、电压量测和电流量测三种。

谐波源的监测就是指定量的计算出系统侧与用户侧对公共连接点的谐波畸变电压的大小, 并明确估算出用户侧谐波的发射水平。国内外对于谐波发射水平的估计方法主要还是围绕着对系统和用户谐波波阻抗的估算来展开。

偏最小二乘回归法, 是一种新型的多元统计数据分析方法, 它主要研究的是多应变量对多自变量的回归剑魔, 特别当各变量内部高度线性相关时, 用偏最小二乘回归法更有效。此外, 偏最小二乘回归法还可以较好的解决了样本个数少于变两个数等问题。偏最小二乘法是集主成分分析、典型相关分析和多元线性回归分析3种分析方法的优点于一身。它与主成分分析法都试图提取出反映数据变异的最大信息, 但主成分分析法只考虑一个自变量矩阵, 而偏最小二乘法还有一个“响应”矩阵, 因此具有预测功能。研究认为, 集多元线性回归分析、典型相关分析、主因子分析等方法于一体的偏最小二乘回归方法 (PLS) 更适用于FM分析, 可以避免数据非正态分布、因子结构不确定性 (factor indeterminacy) 和模型不能识别等潜在问题。偏最最小二乘回归与传统的多元线性回归模型相比, 有以下几个突出的特点:

(1) 能够在自变量存在严重的相关性的条件下进行回归建模;

(2) 允许在样本点个数少于变量个数的条件下进行回归建模;

(3) 偏最小二乘回归在最终模型中将包含原有的所有自变量;

(4) 偏最小二乘回归模型更易于辩识系统信息与噪声 (甚至一些非随机的噪声) ;

(5) 在偏最小二乘回归模型中, 每一个自变量的回归系数将更容易解释。

目前, 偏最小二乘回归计算方法在国内已经开始逐步实施, 该方法应用于负荷模型预测的研究成果, 并且在过去“二元回归”的方法的基础上, 已有将偏最最小二乘回归方法初步应用于配电网谐波源定位与检测中, 充分的发挥算法本身的特点, 对电力系统数据建模有了新的思路。在应用偏最小二乘回归方法进行谐波源的定位时, 首先应用PMU (相量测量单元) 对电力系统等效电路各个节点的电压和电流相量进行同步测量, 使得测量结果更加准确, 从而给偏最小二乘回归法的应用奠定了更好的基础, 使得计算结果更加符合实际情况, 以使谐波源的定位更加准确。谐波阻抗与谐波发射水平评估是近年来国内外较为关注的谐波源检测方面的研究内容。利用偏最小二乘回归方法可得到较好的评估效果。采用统计回归和其它建模方法, 可在大量相关的实验数据基础上对复杂系统进行建模, 但普通的多元统计回归方法在实际系统建模中往往存在一些难以解决的问题。传统的最小二乘法在其参数估计式的计算中, 要求其计算公式必须是可逆矩阵, 估计式才有意义。所以当模型变量的多重相关性严重时, 或者当系统中样本容量少于变量个数时, 参数估计一般就会失效。采用人工神经网络建模时, 网络模型的选取通常只能依据经验或采用随机试探的方法, 具有一定的随意性;另外, 由于网络采用“黑箱”结构, 它对所描述对象的输入输出变量之间的关系往往缺乏很好的解释性。这些问题在一定程度上制约了神经网络在系统建模方面的进一步发展。偏最小二乘回归方法借助提取主元的思路, 有效地提取对系统解释性最强的综合信息, 从而实现对高维数据空间的降维处理, 较好地克服变量多重相关性在系统建模过程中的不良影响。二元回归法是一种估算电力系统谐波阻抗和用户谐波发射水平的方法, 但在二元回归方程中, 两个自变量的相关系数较大, 存在严重的多重相关性, 这样会使最小二乘法失效, 得到的回归模型的拟合效果不好。为了较好地解决多重相关性问题, 基于电网各参数的复数关系的二元回归方程, 可以用偏最小二乘法来求解系统阻抗和用户谐波发射水平。综上所述, 根据偏最小二乘的基本原理、建模基本思想, 以及该方法在配电网谐波电源定位与检测中的应用, 已经可以证实偏最小二乘法在配电网谐波源定位与检测中得到了较好的效果。

由于实习系统中谐波源发射水平较低, 在数据处理的精度上出现误差相对较大的情况, 当系统中谐波含量越大, 偏最小二乘回归模型估算方法在数据建模上的效果将更加明显。

3 结语

随着电力企业的不断发展壮大, 为了适应社会和人民生活工作的要求, 必然要对电能的质量做出更高的要求, 谐波治理是电力系统中影响电能质量的重点, 应用偏最小二乘回归模型可以较好的估算出系统谐波阻抗以及用户谐波发射水平, 对于分清楚电力系统中系统侧和用户侧的对于电能质量恶化的责任。与传统方法相比, 偏最小二乘回归法算法集多元性回归、典型相关分析和主成分分析的基本功能为一体, 可以同时实现回归建模、数据结构简化以及变量间相关性分析, 能够有效的解决谐波检测中变量相关性给系统建模带来的误差, 并且更加的统一辨认出系统信息与造成, 对于电力系统中谐波的检测和定位有很大的帮助。

参考文献

[1]黄舜, 徐永海.基于偏最小而成回归的系统谐波阻抗与谐波发射水平的评估方法[J].中国电机工程学报, 2007, 27 (1) :94-97.

[2]侯丽丽.配电网谐波源的定位[D].山东大学, 2009.

上一篇:网络设备维护下一篇:回避制度