偏最小二乘法回归(精选7篇)
偏最小二乘法回归 篇1
近年来, 随着现代化工及冶金等工业过程日益大规模化和复杂化, 工业过程的安全问题越来越受到人们的关注。基于多元统计分析的故障检测与诊断方法也成为近年来故障检测与诊断领域的研究热点, 并在工业过程中成功应用[1~3]。偏最小二乘 (PLS) 技术能够根据正常工况的生产数据, 准确捕捉质量变量与过程变量之间的关系, 对生产工况进行有效监测, 且PLS统计检测技术不依赖于过程机理模型, 训练时不需要故障样本, 能够弥补其他统计方法 (例如PCA) 无法考虑过程变量对质量变量影响的不足, 因此近年来在化工过程的质量控制及在线检测等方面得到了广泛研究和应用[4~6]。但是PLS方法无法反映过程的动态时序特性, 这在一定程度上影响了它的故障检测准确率。可预测元分析[7] (Forecastable Component Analysis, Fore CA) 作为一种新的统计信号处理方法克服了这个不足。可预测元分析是一种全新的用于多变量时序相关信号的特征提取方法, 它能从已有的数据中捕捉到系统的动态特性, 并以此来预测系统运行变化的趋势, 因此所提取的特征能从本质上描述工业过程。
笔者将可预测元分析方法与偏最小二乘法回归方法相结合并用于故障检测, 通过将样本映射到可预测子空间, 使用最小二乘回归, 进一步提高了模型的预测性能, 同时构造CUSUM和SPE统计量对系统进行监控, 这样能够较好地检测均值偏差在两倍标准差以下的故障。该方法克服了传统偏最小二乘法无法反映过程时序特性的不足, 能够预测系统运行变化的趋势, 反映出系统的动态特性, 因此能够提升故障检测的准确率。
1 基本算法
1.1 可预测元分析
可预测元分析的基本思想是假设矩阵X∈Rn×m, 其中n为样本个数, m为变量个数, 通过线性变换WT∈Rk×n, 可得:
其中W为由可预测元列向量组成的可预测元矩阵, S为得分矩阵, Fore CA需要解决的问题即由观测矩阵X估计S和W。
首先考虑单变量二阶平稳时间序列yt, 均值为μy (μy<∞) , 方差为σy2, 自协方差函数为:
其中k为时延。
定义单变量平稳过程的谱密度为对其自协方差函数的傅里叶变换, 得:
由文献[7]可知, 一个平稳过程的熵越大越难被预测, 且白噪声无法被预测, 可得:
Hs, a (yt) ≤Hs, a (白噪声)
因此可定义平稳过程的可预测度为:
对于多变量二阶平稳过程Xt, 考虑线性变换yt=wTXt, 其中w (w∈Rn) 是式 (1) 中W的列向量, 即可预测元, 此时yt可以看成是一个单变量的二阶平稳过程。文献[7]给出了Fore CA的最优化问题:
Ω (wTXt) 为可预测元为w时yt的可预测度, SX (λ) 为多变量平稳过程Xt的谱密度, , ΓX (k) 为Xt的自协方差函数, ΣX为Xt的协方差矩阵。
对式 (7) 进行求解, 首先使用加权交叠平均谱估计法对随机过程进行谱密度估计[8], 再使用EM-Like算法求取可预测元[7]。文献[7]给出了此算法的详细步骤, 通过此算法可以得出一组按照可预测度由高到低顺序排列的可预测元, 即可得到式 (1) 中的可预测元矩阵wT。
1.2 偏最小二乘法
给定输入矩阵X∈Rn×N包含n个样本, 每个样本N个过程变量, 输出矩阵Y∈Rn×M包含n个样本, 每个样本M个质量变量。PLS通过隐变量对两个数据块的关系进行建模, 它将n×N零均值矩阵X和n×M零均值矩阵Y分解为:
式中Ek、Fk———拟合误差矩阵;
P———X的负载矩阵;
Q———Y的负载矩阵;
T———得分矩阵, T=[t1, …, tk];
———拟合矩阵。
在PLS模型中, 负载向量和得分向量通过最大化解释各自的信息, 同时也使X与Y的相关程度最大来求得。最常见的计算PLS模型的算法是Nipals算法, Y的预测回归方程为:
其中, BPLS是PLS回归系数矩阵, 权重矩阵M是由Nipals算法定义的, T=XM。
在复杂的多变量系统中, PLS算法将自变量X和因变量Y看成是具有线性关系的数据矩阵。没有逐个对变量判断其留取与舍弃, 而是利用信息分解的思路将显变量系统中的信息重新组合, 综合筛选, 提取出既能最大程度解释自变量信息, 又能最大程度反映自变量与因变量间线性关系的互相正交的综合变量 (隐变量) 。PLS用独立的隐变量进行建模、预测, 使得该方法可以广泛应用于数据不完整、变量间存在多重相关性的场合。
2 基于Fore PLS的故障检测模型
2.1 CUSUM统计量
工业过程中存在很多慢漂移的故障, 为了检测这种微小的变化, 笔者用CUSUM统计量对其进行检测。基于CUSUM统计量的表格累加法为了检测样本均值向上和向下漂移, 定义了两个统计量, 即:
其中μ0是样本实际的均值, xj为第j个样本值, 笔者用训练样本均值代替。K为参考值, 一般取0.5Δ, Δ为期望检测出的偏差, 取值在[0.5σ, 2.0σ]内。其控制限为5倍的标准差[9]。
2.2 SPE统计量
首先选取一段正常工况下的观测数据X (X∈Rn×N) , 其中n为变量个数, N为采样点数, 对其运用Fore CA算法, 得可预测元矩阵:
结合式 (8) 、 (11) , ^X还可以表示为:
过程残差可表示为:
由此, 将原n维过程数据空间分解为隐变量空间和残差空间两个正交互补子空间。仿照PCA定义SPE统计量[10], 在残差空间珘S中定义SPE, 代表数据中未被主元模型解释的变化, 即测量值偏离主元模型的程度:
SPE统计量的控制限用核密度估计确定, 具体参见文献[11]。
2.3 基于Fore PLS的故障检测步骤
基于Fore PLS的故障检测分为两个阶段———离线训练阶段和在线检测阶段。
离线训练阶段。首先采集正常工况下的训练数据X, 对其进行预处理后, 使用Fore CA算法提取出可预测主元矩阵W, 然后在可预测子空间进行PLS回归, 再计算训练数据在可预测子空间的CUSUM统计量和SPE统计量, 最后计算两个统计量的控制限———H和SPEα。
在线检测阶段。首先根据实时采集的未知状态的数据集, 将此可预测模型运用于在线数据, 分别计算每个样本数据的CUSUM和SPE统计量, 最后比较两个统计量与其对应控制限的大小, 通过比较确定系统是否发生故障。如果检验结果在控制限以内, 则说明目前系统工作在可预测模型所预测的变化范围之内, 即系统工作正常;反之, 则说明目前系统的工作状态已经偏离可预测模型所预测的变化范围, 判断系统已经出现了故障。
3 TE实验平台故障分析
TE实验平台是Downs和Vogel根据Eastman化学公司的世界工艺流程做了少许修改于1993年提出的[12], 其中包含21个预设故障。TE过程由连续搅拌式反应釜、分凝器、气液分离塔、汽提塔、再沸器及离心式压缩机等多个操作单元组成, 其流程如图1所示。
TE过程共有A、C、D、E 4种气体进料, G和H两种反应产物, F一种副产品。系统中存在的化学反应如下:
以上各式中, g代表气体, liq代表液体。所有的反应都是不可逆放热反应, 反应速度取决于温度和反应物的气相浓度。
TE模型用于训练的样本数据为500个52维向量, 用于测试的样本数据为960个52维向量, 其中故障从第161个样本点开始引入。笔者选择过程中的G和H (即MEAS35和MEAS36) 作为Fore PLS模型的质量变量Y;选取22个过程变量MEAS1~22和11个操作变量MV1~11作为X。采用Fore PLS模型对TE过程的反应产物G的含量的预测结果如图2所示, 可以看出Fore PLS有很好的预测能力。
下面以随机变化故障中典型的故障IDV (10) 为例加以分析。故障IDV (10) 发生时, 供料C的温度产生了随机变化。为了验证Fore PLS的有效性, 将其与PCA和PLS两种方法进行对比。实验中, Fore PLS的隐变量个数为6, PCA的主元个数为15, PLS的隐变量个数为9, 期望检测到的均值偏离为0.5倍的标准差。图3显示了PCA、PLS和Fore PLS 3种方法对故障IDV (10) 的检测效果。可以看出, PCA的T2统计量和SPE统计量的准确率分别为45.6%和53.9%;PLS的两个统计量的检测准确度都较低, 分别为18.8%和27.8%;Fore PLS的CUSUM和SPE统计量的准确率为96.5%和52.9%。由此说明, 笔者所提出的基于Fore PLS的故障检测方法检测随机变化的故障准确率比PCA和PLS方法更好。
4 结束语
介绍了一种基于可预测元分析和最小二乘回归法相结合的故障检测方法。该方法克服了传统最小二乘法无法反映过程时序特性的不足, 能够有效预测系统运行变化的趋势, 反映出系统的动态特性。通过检测可预测空间上的CUSUM统计量和SPE统计量, 以达到检测慢漂移等微小故障和随机变化故障的目的。在TE模型上的仿真表明:该方法比传统的PCA、PLS方法检测精度更高, 效果更好。
参考文献
[1]周东华, 李钢, 李元.数据驱动的工业过程故障诊断技术:基于主元分析与偏最小二乘的方法[M].北京:科学出版社, 2010.
[2]许超, 陈治纲.预测控制技术及应用发展综述[J].化工自动化及仪表, 2002, 29 (3) :1~10.
[3]陈玉东, 施颂椒.动态系统的故障诊断方法综述[J].化工自动化及仪表, 2001, 28 (3) :1~14.
[4]Kano M, Nagao K, Hasebe S, et al.Comparison of Multivariate Statistical Process Monitoring Methods with Applications to the Eastman Challenge Problem[J].Computers&Chemical Engineering, 2002, 26 (2) :161~174.
[5]Lee G, Song S O, Yoon E S.Multiple-fault Diagnosis Based on System Decomposition and Dynamic PLS[J].Industrial&Engineering Chemistry Research, 2003, 42 (24) :6145~6154.
[6]Qin S J.Statistical Process Monitoring:Basics and Beyond[J].Journal of Chemometrics, 2003, 17 (8-9) :480~502.
[7]Goerg G.Forecastable Component Analysis[C].Proceedings of the 30th International Conference on Machine Learning.Atlanta, USA:ICML, 2013:64~72.
[8]Nuttall A H, Carter G C.Spectral Estimation Using Combined Time and Lag Weighting[J].Proceedings of the IEEE, 1982, 70 (9) :1115~1125.
[9]Montgomery D C.Introduction to Statistical Quality Control[M].New York:Wiley, 1996.
[10]Venkatasubramanian V, Rengaswamy R, Kavuri S N, et al.A Review of Process Fault Detection and Diagnosis—Part III:Process History Based Methods[J].Computers&Chemical Engineering, 2003, 27 (3) :327~346.
[11]Lee J M, Yoo C K, Lee I B.Statistical Process Monitoring with Independent Component Analysis[J].Journal of Process Control, 2004, 14 (5) :467~485.
[12]Downs J J, Vogel E F.A Plant-wide Industrial Process Control Problem[J].Computers&Chemical Engineering, 1993, 17 (3) :245~255.
偏最小二乘法回归 篇2
关键词:鱼雷出管速度,偏最小二乘法,预测,误差
0 引言
在轻型舰载鱼雷发射的过程控制和参数分析中, 动力学模型往往比较复杂, 如何利用有限的实验数据, 对于鱼雷发射过程中的参数进行分析及预测具有重要意义。文献[1]利用基于最小二乘法的回归分析方法, 建立了鱼雷出管速度的一元线性回归方程, 并进行了显著性检验。
偏最小二乘回归是一种新的多元数据分析方法, 集多元线性回归、典型相关分析和主成分分析的基本功能为一体, 将建模预测类型的数据分析方法与非模型式的数据认识方法有机地结合起来, 使得模型精度、稳健性、实用性得到提高, 并已广泛应用于各领域的研究中。本文应用偏最小二乘回归方法, 进一步探索鱼雷水面发射时影响鱼雷出管速度的主要因素, 建立回归方程并进行误差分析。
1 偏最小二乘回归模型
1.1 建模原理
设有p个自变量X={x1, x2, …, xp}和q个因变量Y={y1, y2, …, yq}。观测n个样本点, 分别在X与Y中提取出成分t1和u1 (其中, t1为x1, …, xp的线性组合, u1为y1, …, yq的线性组合) , 要求t1和u1应尽可能大地携带它们各自数据表中的变异信息, 同时t1与u1的相关程度能够达到最大, 使得t1和u1应尽可能好地代表数据表X和Y, 同时自变量的成分t1对因变量的成分u1又有最强的解释能力。
在第一个成分t1和u1被提取后, 分别实施X对t1的回归以及Y对u1的回归。如果回归方程已经达到满意的精度, 则算法终止;否则, 将利用X被t1解释后的残余信息以及Y被t1解释后的残余信息进行第二轮的成分提取。如此往复, 直到能达到一个较满意的精度为止。若最终对X共提取了m个成分t1, …, tm, 偏最小二乘回归将通过实施yk对t1, …, tm的回归, 然后再表达成yk (k=1, 2, …, q) 关于原变量x1, …, xm的回归方程。
1.2 交叉有效性检验
将所有n个样本点分成两部分:第一部分为除去某个样本点i的所有样本点集合 (共含n-1个样本点) , 用这部分样本点并使用h个成分拟合一个回归方程;第二部分为把刚才被排除的样本点i代入前面拟合的回归方程, 得到yj在样本点i上的拟合值undefinedhj (-i) 。对于每一个i=1, 2, …, n, 重复上述测试, 定义Y的预测误差平方和为Ph, 有undefined, 显然, 如果回归方程的稳健性不好, 误差就很大, 它对样本点的变动就会十分敏感, 这种扰动误差的作用, 就会加大Ph的值。
1.3 精度分析
在偏最小二乘回归计算过程中, 所提取的自变量成分th一方面可以尽可能多地代表X的变异信息, 另一方面又尽可能与Y相关联, 解释Y中的信息。用r (xi, xj) 表示两个变量之间的相关关系, 下面定义t1, t2, …, th对各变量的解释能力:
(1) 对自变量xj (j=1, 2, …, p) 的累计解释能力:
R (xj;undefined。
(2) 对自变量X的累计解释能力:
R (X;undefined。
(3) 对自变量Y的累计解释能力:
R (Y;undefined。
定义Vj为变量投影重要性指标, 用来描述自变量对因变量的解释能力, undefined。其中, k为筛选后自变量的个数, whj为轴wh的第j个分量。由于xj对Y的解释是通过th来传递的, 如果th对Y的解释能力很强, 而xj在构造th时, 又起到了非常重要的作用, 则可以认为xj对Y具有相当大的解释能力。
2 鱼雷出管速度分析
2.1 模型建立
发射鱼雷时, 鱼雷从静止开始运动, 可以通过不同的运动规律进行舰艇鱼雷发射装置管内运动参数的设计。分别记发射气瓶的容积为x1, 发射气瓶的初始压力为x2, 发射阀喉部的通径为x3, 鱼雷出管速度为y, 文献[1]建立了线性回归模型:
y=0.133 1x1+0.118 9x2+0.234 2x3 。
本文利用偏最小二乘法建立模型, 经计算得到Ph=[12.793 8.986 7.920]T, 当h=3时, Ph达到最小, 模型的预测能力最好, 因此取3个主成分t1, t2, t3建立模型, 得到鱼雷出管速度y的回归方程为:
y=-5.509 2+0.302 4x1+0.116 2x2+0.339 9x3 。 (1)
2.2 模型评价
2.2.1 累计解释能力分析
计算得到的t1, t2, t3累计解释能力数值见表1。由表1 可以看出, 当取3个主成分时, t1, t2, t3对x1、x2和x3的累计解释能力达到100%, 对全部自变量X的累计解释能力达到100%, 对因变量Y的累计解释能力超过92%, 均达到了较高的解释水平, 说明用偏最小二乘法拟合出的回归模型能概括原始数据所携带的大部分信息。
2.2.2 变量投影重要性指标
经计算, 得到变量投影重要性指标V=[0.231 4 1.539 4 0.759 4]T, 可以看出, 对鱼雷出管速度y的影响程度依次为气瓶压力、发射阀通径、气瓶容积。
2.2.3 相关关系分析
图1给出了t1、t2、t3与u1的相关关系平面图。由图1可知, t1与u1存在明显的线性关系, 说明气瓶压力、发射阀通径、气瓶容积与鱼雷出管速度有显著的相关关系, 采用偏最小二乘回归方法建立的线性模型式 (1) 是合理的, 残余信息t2、t3与u1也存在着一定的线性关系, 但已经很弱了。
2.2.4 鱼雷出管速度y拟合结果分析
鱼雷出管速度y的实测值与拟合值的对比情况见表2。从中可以看出, 偏最小二乘回归拟合值好于文献[1]的回归值, 相对误差较小, 表明偏最小二乘回归模型能较好地反映鱼雷出管速度与气瓶压力、发射阀通径和气瓶容积的关系, 预测效果较好。
鱼雷出管速度的实测值与拟合值对比图如图2所示。从图2中可以看出, 所有的样本点均排列在图中对角线的附近, 模型的拟合效果很好。
3 结论
本文采用偏最小二乘回归方法, 经交叉有效性检验, 建立了鱼雷发射时的出管速度与气瓶容积、气瓶压力和发射阀通径的关系模型。通过检验, 该模型对自变量和因变量的解释能力较高, 通过与实测值的对比, 该模型拟合精度较高, 具有较好的预测能力, 对于实现实验过程的控制、估计鱼雷的内弹道参数具有重要的应用价值。
参考文献
[1]李志华, 申志伟.鱼雷内弹道特征参数估计的回归分析[J].舰船电子工程, 2009 (12) :188-191.
[2]乔汝椿.潜艇鱼雷发射装置内弹道特性初步设计[J].水中兵器, 2003 (2) :51-55.
[3]王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业出版社, 1999.
[4]罗批, 郭继昌, 李锵, 等.基于偏最小二乘回归建模的探讨[J].天津大学学报, 2002, 35 (6) :783-786.
[5]贾子英, 陈松辉, 黄华.基于偏最小二乘的两栖突击车作战效能预测[J].舰船电子工程, 2009 (1) :119-121.
[6]巴胜生.基于偏最小二乘回归的军用飞机效能预测[J].自动化技术与应用, 2006, 25 (10) :40-42.
[7]钱筱丹, 黎放, 卞金露.偏最小二乘回归在舰船维修费用预测中的应用[J].舰船科学技术, 2007, 29 (4) :98-100.
[8]任震, 张静伟, 张晋听.基于偏最小二乘法的设备故障率计算[J].电网技术, 2005, 29 (5) :12-16.
[9]王文圣, 丁晶, 赵玉龙, 等.基于偏最小二乘回归的年用电量预测研究[J].中国电机工程学报, 2003, 23 (10) :17-21.
偏最小二乘法回归 篇3
在信息时代的背景下, 信息以几何级数的方式在增长, 人们可以轻松获得大量的信息。虽然获得信息的数量不断增加, 但这些信息中往往包含着许多不相关的内容, 如何在海量信息中快速、准确、便捷地从中获取、管理和使用这些信息, 已经成为当前迫切需要解决的重要问题。作为解决这些问题的重要工具之一。
在文本分类领域, 高维空间经常存在, 也存在一些同义词和近义词, 所以特征的高共线性经常发生, 考虑到主成分分析的Logistic模型能够同时实现降维、解释变量独立不相关以及最大限度地减少原始数据所含信息的丢失。因此, 提取的主成分很可能丢失了与被解释变量关系密切的信息, 从而降低了文本分类的准确程度。在Wold和Albano提出的偏最小二乘法 (Partial Least Squares, PLS) 模型基础上, Vinzi和Tenanhaus构建了偏最小二乘Logistic模型。目前偏最小二乘方法多应用在化工、医学、生物、地质、机械等自然科学领域。PLS也应用于文本分类领域。偏最小二乘最初是一种矩阵分解算法, 后来作为一种多元工具引入到化学计量分析。在二元文本分类任务中, 因变量是离散变量, 偏最小二乘回归模型是处理和分析连续型自变量的模型, 不能有效解决伯努利数据或者多项式数据等产生的模型异方差问题。
二、基于PLS的Logistic文本分类模型的构建
令X={x1, x2, ..., xp}为已经标准化处理的文档集, 其中x1, x2, ..., xp表示文档的特征, p为该文档集的特征维数, y为文档类别向量。偏最小二乘Logistic模型的基本思路为采用迭代方法, 从标准化后的模型变量中提取h个适合偏最小二乘的正交成分tk, 并依据提取的成分表示为原始向量的Logistic回归模型。
(一) 提取偏最小二乘成分
对每个j=1top, 分别建立以xj为自变量和y为因变量的普通一元Logistic回归模型的回归系数a1, 对a1按照式 (1) 标准化可得w1, 即
依据W1提取偏最小二乘成分t1,
对每个j=1top, 分别建立以xj、t1为自变量和y为因变量的普通二元Logistic回归模型的回归系数a2;a2对按照式 (3) 标准化可得, 即
计算X对t1的偏最小二乘回归, 求出残差矩阵X1;提取偏最小二乘成分t2:
将t2表示成原始变量的线性组合形式, 即
重复以上成分提取步骤, 直至提取第h个偏最小二乘成分th。
(二) 构建偏最小二乘Logistic模型
依据提取的h个偏最小二乘成分, 建立以, t1…, th为自变量, 以y为因变量的普通h元Logistic模型, 即
在模型中, 提取每个偏小二乘成分前, 都要进行Logistic的回归系数计算, 即参数估计。本文采用使用较为普遍的岭回归估计方法 (Ridge Regression) , 在文献[提出了用于岭回归参数估计的CLG算法。该算法基于循环坐标下降算法 (Cyclic Coordinate Descent Algorithm) , 它要求目标函数是凸的, 并且光滑。该算法在应用中速度较快, 实现简单。在算法的每一步近似地最小化目标函数沿着一个坐标方向, 然后进行下一步, 从而保证全局最优。这种方法确实保证算法收敛和运行的速度。其基本思想是在当前值的区间上构造一个二阶导数的上界。因为目标函数是凸的, 这将得到在这个区间上目标函数的二次上界 (Quadratic Upper) 。
CLG算法如下所示:
End在偏最小二乘Logistic算法中, 算法每一次循环由两个主要的步骤组成:Logistic回归模型参数估计部分和提取偏最小二乘成分部分。整个算法具有较高的复杂度。
三、实证检验
(一) 实验方案设计
本文实验使用20News的第二个版本的语料库, 去除了原始19997篇文档中的重复和部分文档, 还有18846篇文档, 分为训练集 (60%) 和测试集 (40%) 两个部分, 包括20个不同的新闻主题。
预处理包括语料库格式标记的去除和停用词和词干化的去除。特征选择算法使用信息增益, 即IG。
采用常用的微平均F1值和宏平均F1值两个指标作为评价指标。微平均强调大类对整体结果的影响, 宏平均强调小类对整体结果的影响。
(二) 实验结果比较
文本分类语料库的数据高位特征和类别的多样性, 导致在Logistic回归模型中的高共线性和参数估计的失败。因此, 本文实验的目的是测试相对于普通Logistic回归文本分类模型, 新模型的文本分类是否有所改善。
表1和表2分别为Logistic和PLSLogistic模型在20Newsgroups上个位数的微平均F1值和宏平均F1值。表1、表2、图1、图2中“All20”表示20Newsgroups预料库的所有20个类别, “Top10”表示语料库中前10个常见类别, “Other10”表示语料库中10个常见类别外的其余10个类别。
从表1和表2可以看出, 普通Logistic回归模型在1000维以内就获得了较好的文本分类性能, 但随着维数的增加, 微平均F1值和宏平均F1值均出现不同程度的下降。从图1和图2可以看出, 对于微平均F1值和宏平均F1值, 取值的变化有明显的两个阶段:第一个阶段从低维开始, F1值随着维数增加不断升高, 并在500维左右的时候达到最大值;第二阶段在维数大于500维以后, F1值明显回落。这说明在第一阶段, 从低位开始, 随着维数的增加, 增加了一些有利于分类的特征, 从而使分类性能逐步提高;从第二阶段开始, 随着维数的增加, 带来了一些噪音, 从而影响了分类性能。从上述对20Newsgroups语料库的Logistic回归模型的性能分析可以看出, 在低维时, 特征数量少, 各特征的相关性不强, 分类性能较好;在高维时, 特征数量多, 随着一些同义词和多义词的增加, 各特征间的相关性明显增强, 产生高共线性的问题, 从而较严重的影响了分类器的性能。
图1、图2显示, 在20Newsgroups语料库上, PLSLogistic模型随着维数的增加, 分类性能也逐步增强, 但增幅不明显。相对于普通Logistic回归模型来说, 所有20个类别的微平均F1值和宏平均F1值分别增加了8个百分点和9个百分点左右, 这可能是数据类别十分均衡的原因。并且从各分类指标的增长趋势来看, 分类性能有所增加。
四、结论
本文在Logistic分析中引入了偏最小二乘方法, 它能够实现解释变量降维和消除模型共线性的同时, 最大限度地减少变量中所含信息的丢失, 尤其是考虑到了解释变量与被解释变量的相关性, 这一特点恰恰能够弥补Logistic分析的不足。研究结果表明偏最小二乘Logistic模型综合了偏最小二乘回归方法和Logistic回归方法的优点, 随着维数的增加, 其分类性能明显优于Logistic模型, 有效消除了高维空间特征的高共线性问题, 具有更好
参考文献
[1]Jian Zhang, Yiming Yang, Bryan Kisiel.A scalability anal-ysis of classifiers in text categorization[C].Proceedings of the26th ACM International Conference on Research and De-velopment in Information Retrieval (SIGIR'03) , 2003:96-103
[2]Fan Li, Yiming Yang.Robustness of regularized linearclassification methods in text categorization[C].Proceedingsof the 26th ACM International Conference on Research andDevelopment in Information Retrieval (SIGIR'03) , 2003:190-197
偏最小二乘法回归 篇4
关键词:中长期电力负荷预测,组合预测,非负性,归一化,偏最小二乘回归
引言
中长期负荷预测是电网规划的基础, 其精度的高低直接影响电网规划的质量。中长期负荷预测方法大体可归结为回归分析、时间序列和人工智能方法三类。虽然中长期负荷预测方法众多, 但是由于影响中长期负荷预测的直接因素或间接因素较多、随机性大, 且众多影响因素的关联性较大, 单一预测模型不能在任何时刻充分反映数据的变化, 预测精度也很难满足预测需要。组合预测能够较好地解决单一模型的缺点, 借鉴单一预测模型的优点, 比单个预测模型更系统、更全面。组合预测由于比单一方法预测更有效、能提高模型的拟合精度和预测能力, 因此长期以来一直是国内外预测界研究的热点课题, 并在世界各国范围内得到广泛应用。分析现有的组合预测模型, 发现预测的核心问题是:基于何种误差评判准则如何求取加权系数。国内外学者提出以下方法:最小方差方法、最小二乘方法、基于不同误差准则和范数的方法等。现有的各种组合预测方法因组合权重受到归一化条件和非负性条件的约束, 在某些情况下不能使组合预测结果优于单一预测方法。因此, 有必要研究新的组合预测方法, 本文所研究的基于偏最小二乘回归的组合预测模型, 不以求取组合权重为切入点, 而是利用偏最小二乘回归强大的拟合和解释能力, 对单一预测模型进行拟合, 抛开了组合权重非负性和归一化的限制, 与传统的组合预测方法有较大的差别。
一、现有组合预测模型分析
现有组合预测模型的重点是如何求取组合权重向量, 设k种单一预测方法的组合权重向量为W, 且WT=[w1, w2, …wk], 则W需满足归一化约束条件和非负性约束条件:
电力系统的负荷变化是受多种因素影响的。在实际的负荷预测系统中, 需要用有限的几个算法模拟大量的系统负荷变化规律进行预测。它们的预测结果向量不可避免地存在一定的“同向特征”, 即单一预测模型的结果均小于或均大于真实值, 下面讨论单一预测模型的结果均小于真实值的情况。
设根据历史数据分别使用k种模型对未来时段1≤t≤m进行预测, 已知未来时段的真实值序列为:x=[x1, x2, …xm]T, 设其中第q个预测模型的预测序列为xq=[x1q, x2q, …xmq]T, 并且xq<x, 其中, q=1, 2, …k。由此可得预测值矩阵为:
可见, 由于组合权重受到非负性条件和归一化条件的限制, 所以在单一预测模型的结果均小于真实值的情况下, 组合预测不能得到最优的拟合效果。对单一预测模型的结果均大于真实值的情况, 类似上述分析可得到相同的结论。
针对上面的问题, 文献尝试了权重取负值的情况, 但仍需进一步的探讨。本文另辟蹊径, 抛开了组合权重非负性和归一化的限制, 利用偏最小二乘回归强大的拟合和解释能力, 对单一预测模型进行拟合, 从而实现准确的组合预测。
二、偏最小二乘回归分析方法的数学模型
(一) 建模步骤。偏最小二乘回归是一种新的多元统计数据分析方法, 是主成分分析、典型相关分析及多元线性回归分析的有机结合。较传统的回归分析、主成分回归具有更大的优势, 从而使模型精度、稳健性、实用性都得到提高。其建模步骤如下:
2、提取第一个主成分:
其中, E0j (j=1, 2, …k) 表示E0的第j列;r (xj, y) ( j=1, 2, …k) 表示xj与y的相关系数。p1表示E0对t1的回归系数;E1表示回归方程的残差矩阵。
依此类推, 从第4步开始, 可用交叉有效性确定偏最小二乘回归中成分的提取个数, 并停止迭代。
三、基于偏最小二乘回归的组合预测模型
由此, 可以得到拟合值矩阵为:
预测值矩阵为:
由上述分析可知, 基于偏最小二乘回归的组合预测模型没有从求取组合权重入手, 而是将单一预测值作为自变量, 真实值作为因变量, 利用偏最小二乘回归强大的拟合和解释能力, 进行回归建模, 完全不受组合权重非负性和归一化的限制, 因此理论上能够得到更优的组合预测结果。
四、实例验证及分析
用某地区1991~2005 年的年用电量进行算例分析, 其中用1991~2000 年的数据进行建模, 用2001~2005 年的数据进行检验。计算时, 采用动平均法、灰色预测法和指数平滑法3 种单一预测模型, 并用方差倒数加权法和偏最小二乘回归方法分别进行组合预测, 预测结果如表1 所示。 (表1)
由表1 可以看出, 3 种单一预测模型在检验阶段的预测值均比真实值小, 用传统的组合预测模型进行预测, 因为组合权重受到非负性及归一化的限制, 组合预测的结果一定介于单一预测方法结果的最小值和最大值之间, 所以也一定小于真实值, 如表1 中的方差倒数加权法。而基于偏最小二乘回归的组合预测模型则完全不受组合权重非负性及归一化的限制, 利用偏最小回归分析和预测样本提取的主成分对各个单一预测方法进行精确拟合, 所得结果不再均小于或大于单一预测模型的结果, 而更接近于真实值。如表1 所示, 基于偏最小二乘回归的组合预测模型, 无论是在拟合阶段, 还是在检验阶段, 其结果均比方差倒数加权法和3 种单一预测模型精确。
五、结论
本文对中长期电力负荷组合预测进行研究, 提出了基于偏最小二乘回归的组合预测模型, 利用偏最小二乘回归分析方法对各种单一预测模型进行精确拟合, 该模型不以求取组合权重为切入点, 较之传统的组合预测方法, 不受组合权重非负性和归一化的约束, 该模型的预测结果可以最大限度的接近真实值, 实际算例表明了该模型的准确性和有效性。基于偏最小二乘回归的组合预测模型对中长期电力负荷预测工作有重要参考价值。
参考文献
[1]毛李帆, 江岳春, 姚建刚等.采用正交信号修正法与偏最小二乘回归的中长期负荷预测[J].中国电机工程学, 2009.29.6.
[2]毛李帆, 江岳春, 龙瑞华等.基于偏最小二乘回归分析的中长期电力负荷预测[J].电网技术, 2008.32.19.
[3]陈昊.基于非高斯分布GARCH模型的负荷预测[J].电力自动化设备, 2008.28.7.
[4]张俊芳, 吴伊昂, 吴军基.基于灰色理论负荷预测的应用研究[J].电力自动化设备, 2004.24.5.
[5]王捷, 吴国忠, 李艳昌.蚁群灰色神经网络组合模型在电力负荷预测中的应用[J].电力系统保护与控制, 2009.37.3.
[6]谢开贵, 李春燕, 周家启.基于神经网络的负荷组合预测模型研究[J].中国电机工程学报, 2002.22.7.
[7]邢棉, 杨实俊, 牛东晓等.多元指数加权电力负荷灰色优化组合预测[J].电网技术, 2005.29.4.
[8]王应明.基于相关性的组合预测方法研究[J].预测, 2002.21.2.
[9]康重庆, 夏清等.电力系统负荷预测研究综述与发展方向的探讨[J].电力系统自动化, 2004.28.17.
[10]王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业出版社, 1999.
偏最小二乘法回归 篇5
一项调研表明,在英国,客户使用一年内退货的手机产品中有63%的是因为产品的功能可用性与客户预期需求的不匹配造成的,可见,客户对产品功能的可用性是有不同需求偏好的[6]。在进行产品功能设计时,应充分考虑细分市场客户需求偏好,要针对性改进某些产品功能可用性,才能更好的提升产品的客户满意度。为了挖掘细分市场客户的产品功能可用性偏好,对产品功能可用性进行评价,进而提出产品功能改进建议,本文首次提出了基于偏最小二乘回归的产品功能可用性评价方法,并创新性的用功能可用性评价矩阵进行产品功能可用性评价分析,找出产品中可用性与客户需求不匹配的功能,重点进行可用性改进,达到与客户需求匹配。
1 基于偏最小二乘回归的产品可用性评价
1.1 偏最小二乘回归模型及其算法流程
偏最小二乘回归算法可同时实现回归建模、数据结构简化(主成分分析)及两组变量之间相关性分析(典型相关分析)[7],并使模型精度、稳定性和实用性都得到提高。偏最小二乘回归法的思路是:首先分别从自变量X和因变量Y中提取相互独立的成分th(h=1,2,…)和kh(h=1,2,…)。然后建立这些成分与自变量的回归方程,这些成分既能很好的概括自变量系统中的信息又能很好的解释因变量并排除系统中的噪声干扰,可有效解决自变量间多重相关性。
记C0(C0∈Rn)是因变量Y的标准化变量,D0是自变量集合X的标准化矩阵,对其进行偏最小二乘回归推导:
第一步:首先从C0中抽出一个成分h1,h1=C0k1,‖k1‖=1;从D0中抽取一个成分t1,t1=D0w1,‖w1‖=1。要使得抽取的成分t1对h1有较好的解释作用得:然后,实施D0在t1上的回归以及C0在t1上的回归,即有
其中,p1,r1是回归系数(而r1是标量),
第二步:以D1取代D0,以C1取代C0,重复第一步的方法,可以得到同样,D1,C1对t2的回归,有
第三步,第四步……,均以此类推,最后,可用交叉有效性确定偏最小二乘回归中成分th的提取个数,停止迭代。
最后,有偏最小二乘回归模型为:
x*j的回归系数为
模型用交叉有效性作为回归迭代终止判断依据。考虑到本研究是单因变量的偏最小二乘回归,记yi为原始数据,t1,t2,…,tm是在偏最小二乘过程中提取的成分。是使用全部样本点并取h个成分建模回归后,第i个样本的拟合数值。若为在建模时删除样本点i,取h个成分回归建模后,再用此模型计算ei的拟合值,记为:时,引进新的主成分就会对模型的预测能力有明显的改善作用。
1.2 基于偏最小二乘回归的产品可用性评价
在用户测试、访谈法和问卷法等参与可用性评价方法的基础上,分析产品每个功能的有效性、效率和功能满意度,然后采用偏最小二乘回归构建产品整体满意度和产品功能可用性之间的回归关系,利用偏最小二乘回归的变量间关系分析技术,以重要性分析指标来作为产品功能可用性的评价排序,最后,通过功能可用性评价矩阵对具体产品的可用性进行评价,提出改进建议。
第一步:选取细分市场下的研究产品对象,确定其功能的有效性,效率,功能满意度及产品的整体满意度。利用用户测试法,采用问卷调研来获得用户对这四个指标的分级打分。
有效性评价准则为:任务完成率90%以上,记为有效性很高,打分为10;任务完成率70%—90%,记为有效性高,打分为8;任务完成率50%—70%,记为有效性一般,打分为6;任务完成率30%—50%,记为有效性较低,打分为4;任务完成率30%以下,则记为有效性很低,打分为2。效率的评价准则为:依次评价为很高、高、一般、低和很低,对应的打分为10,8,6,4,2。功能满意度评价准则为:依次评价为很满意、满意、基本满意、不满意和很不满意,对应的打分为10,8,6,4,2。产品的整体满意度评价准则为:根据对产品的满意程度,选择1—100的打分值。
第二步:计算各功能的可用性水平。
可用性水平记为有效性、效率和功能满意度的乘积,即为:
式(1)中,E、E'和S分别表示有效性、效率和功能满意度。U的大小直接体现着功能可用性的高低。
第三步:样本群的E(产品整体满意度)与U(各功能维度的可用性)偏最小二乘回归,并利用其参数重要度测定,确定所选样本产品的功能可用性值的排序评价标准。
以偏最小二乘回归法的辅助分析技术———重要性指标VIP(Variable Importance in Projection)作为功能可用性排序的基础。
其表达式为:
式(3)中,ωji是轴ωj的第i个分量;Rd(E;tj)为变量tj对E的解释能力,即对E的累计解释能力,即而有Rd(el;tj)=r2(el,tj)。
第四步:利用功能可用性评价矩阵,对产品各功能的可用性进行评价分析。
构建产品功能可用性评价矩阵,其中矩阵图的右下区域称为功能待提升区,表示功能在产品中的排序落后于总的产品评价,需要企业重点改进;而中间区域称为功能匹配区,表示产品的可用性值在可容许偏差的范围内,实际可用性和对产品本身需求匹配,可不用改进;左上角区域称为功能突出区,表示产品实际功能可用性优于评价序列,即可用性设计高于客户偏好需求,在改进时可以适当降低功能性能或维持不变。
2 应用实例
为了进行产品功能可用性评价方法的有效性验证,选定智能手机市场产品作为功能可用性评价分析对象,进行第一步、第二步相关的测定和计算后得到表1所示数据。
借助于SIMCA-P软件,经过交叉有效性条件验证,实现对实例数据进行偏最小二乘回归,获得稳定的产品总体满意度和功能可用性之间的回归模型,随后通过偏最小二乘回归的VIP分析技术,获取该类产品的功能可用性排序见图1所示。
针对手机B,采用功能可用性评价矩阵进行分析,功能评价分布见图2。从图中,可以直观的看出偏离功能匹配区越远的右下区域,产品实际可用性与顾客需要偏离大,应该优先对这些功能的可用性进行改进(游戏、拍照、蓝牙和操作系统等4个功能),以满足功能与客户需求的良好匹配,进而提升手机B的整体满意度。
4 结论
为了解决产品可用性与客户对可用性偏好的不匹配问题,进而提升产品的整体用户满意度,本文在常规的可用性测度方法的基础上,提出了基于偏最小二乘回归的产品功能可用性评价分析方法,借助功能可用性评价矩阵得到亟待提升可用性的功能。最后以手机案例进一步演示了该方法,诊断出了现有产品功能中存在的不匹配,得到产品功能可用性改进方向。
摘要:现有的产品功能可用性研究仅为提升具体功能的可用性,忽视了用户对产品功能可用性的偏好问题。为解决该问题,首次提出了基于偏最小二乘回归的产品功能可用性评价方法。在常用可用性分析方法基础上,对细分市场产品整体满意度和功能可用性进行偏最小二乘回归。结合功能可用性评价矩阵分析产品功能改进方向。最后,通过手机实例进行了方法的演示,验证该方法是产品功能可用性分析的有效方法。
关键词:产品功能可用性,偏最小二乘回归,可用性评价矩阵
参考文献
[1] Dumas J S,Redish J C.A practical guide to usability testing.NJ:Albex,Norwood,1994
[2] Nielsen J.可用性工程.刘正捷,译.北京:机械工业出版社,2004:48—144
[3] Han S H,Kim J.A comparison of screening methods:selecting im-portant design variables for modeling product usability.InternationalJournal of Industrial Ergonomics,2003;32(3):189—198
[4]王继成.产品设计过程的可用性研究与应用.东华大学学报:自然科学版,2006;32(5):32—35
[5]刘胧,刘虎沉.运用FMEA的产品可用性评价方法.工业工程,2010;13(3):47—50
[6] Overton D.No fault found returns cost the mobile industry MYM4.5billion per year.WDS Global.http://www.wdsglobal.com/news/whitepapers/20060717/MediaBulletinNFF.pdf,2006
偏最小二乘法回归 篇6
心理契约是社会交换理论的一个基本概念, 源于组织行为学研究, 它是指以许诺为基础的义务或责任观 (Roussedu, 1989) 。现有心理契约研究在企业与顾客的营销情境中同样存在, 可相关的研究非常少, 只有学者提出心理契约在营销情境中的概念。本文将心理契约应用到电网企业客户的研究当中, 通过设计测度量表及模型计算达到检验心理契约在营销情景中存在并为电网企业客户满意度研究提出建议的目的。
二、基本概念
(一) 心理契约概念
学术界普遍认为是Argyris (1960) 最早引入了心理契约概念, 他用“心理工作契约”术语来描述雇员与工头之间的关系。
Schein (1965) 推广了心理契约这一概念的使用, 她认为, “心理契约理念意味着个人对组织具有许多期望, 同时组织对个人也有许多期望……这些期望虽然没有写入雇主与组织之间的任何正式协议, 但它们却是行为的有力决定因素”。
Kotter (1973) 将心理契约定义为“个人与其组织之间的一种隐含契约, 它界定了各方期望从关系中相互所给予和所接受的东西。”
心理契约概念发展在Rousseau (1989) 的著作中达到了顶峰, 她将心理契约定义为个人与其他方之间互惠交换协议的条款或条件的信念。Roussesu (1990) 进一步将心理契约界定为雇员对相互义务的感知, 认为心理契约概念主要关注的是雇员对相互义务的个人主观感知, 其观点成为此后其他学者的研究基石。
(二) 心理契约的维度
Rousseau (1990) 认为, 在总体层次上, 可以把心理契约分为交易心理契约与关系心理契约两大类, 她通过对224位就业的MBA毕业生的研究, 得到了对心理契约一维度区分的实证支持。
一般来说, 心理契约可能同时包括交易要素和关系要素, 不同心理契约之间的差异主要在于两种成分所占比例的不同。
三、电网企业客户心理契约
电网企业客户心理契约主要从两方面体现客户与企业的关系:一是指指顾客对电网企业所许诺的义务或责任的感知或信念;二是这种许诺和保证不只是停留。
电网企业客户心里契约的影响因素包括以下方面:
电网企业客户心里契约的影响因素包括对于企业和客户之间对于供电质量和服务方面没有日头或书面约定的项目。可归纳为三个方面:供电质量和服务质量;电网企业履行承诺的情况;出现特殊情况时对客户利益的关注和对客户的重视与尊重。
供电质量和服务质量是指电网企业能否尽可能的提供给客户更好的供电服务, 而不是只提供合同约定供电服务。
电网企业履行承诺的情况是指能否提供约定的服务, 在违反约定的情况下能否主动承担给客户带来的损失, 而不是根据合同约定尽可能的减小赔偿。
出现特殊情况时对客户利益的关注是指在出现特殊情况时如突然负荷升高或自然灾害等, 能否首先考虑客户的利益。
对客户的重视与尊重是指和客户保持的长期关系时对客户的态度。
四、心理契约与满意度关系模型及问卷设计
本文在参考ACSI满意度指数模型与Rousseau提出的二维度心里契约的基础上, 根据电网企业客户的心理契约内涵及影响因素的描述, 建立了测评电网企业客户心理契约与满意度的潜在变量, 并得到了具有因果关系的概念模型及将模型中的显变量转化为问卷。
(一) 心理契约与满意度指数模型
本文潜变量的选取主要分为两个方面:心里契约和满意度。其中, 心理契约包括交易心理契约 (TPC) 和关系心理契约 (RPC) 两个隐变量;满意度值选择满意度指数一个潜变量便可通过显变量进行观测。隐变量之间的因果关系假设为:交易心理契约和关系心理契约与满意度具有因果关系, 并且为正相关;交易心理契约与关系心里契约的因果关系不确定但同样为正相关。在模型的设计中设置了12显变量, 交易心理契约有3个显变量, 关系心理契约有5个显变量, 满意度有4个显变量, 得到的具体概念模型如图1所示。
(二) 心理契约与满意度关系问卷设计
针对电网企业客户的具体情况, 从交易心理契约与关系心理契约两个方面进行量表设计, 共包括8个问项, 其中, 前3个问项 (TPC1-TPC6) 是测度消费者交易心理契约维度, 后5个问项 (RPC1-RPC6) 是测度消费者的关系心理契约维度。研究采用1-7级Likert量表, 1表示完全不同意, 7表示完全同意。
满意度的设计思路是参考ACSI满意度指数模型并根据电力企业客户的实际情况及概念模型的需要进行调整, 共包括4个问题, 同样采用7级量表。具体问卷及与隐变量的关系如表1所示。
五、实例分析
(一) 数据处理与分析
本次实证研究是在重庆市电力公司2009年客户满意度测评项目的基础上进行的, 在项目的调查过程中, 在问卷中加入了心理契约的相关问题。对于本文模型的估计, 采用Chin开发的PLS路径分析的PLS-Graph3。0软件对数据进行分析, 研究的目的是验证心理契约与满意度指数模型的有效性, 并得到模型中个潜变量之间及潜变量与显变量的相关系数。
1、数据收集与样本特征
本次调查调查采用拦截访问和入户面访相结合的方式进行, 调查工作从2009年11月15日开始至2010年1月5日结束, 共完成有效样本2448 (拦截1200、面访1248) 。覆盖所属重庆电力公司的12个供电公司的大工业及重要客户、普通工业客户、商业客户、居民和农业客户。
2、信度分析
通过应用SPSS软件对12个度量项目进行数据的信度检验, 得到克朗巴哈α信度系数0.952, 说明问卷是完全可信的。
(二) 基于PLS的模型估计
本文使用PLS-Graph30软件运行PLS方法对模型进行检验, 主要生成个变量间的路径系数, 路径系数结果图2所示。
输出结果显示对角线上交易心理契约、关系心理契约和满意度的AVE值平方根都大于对角线左下角任意二者之间的相关系数, 这说明模型是可信的。即心理契约会影响到满意度。
各变量间相关系数如表2所示。从表2中可以看出关系心里契约和交易心里契约都会对满意度产生影响, 其中关系心里契约的影响远高于交易心理契约对满意度的影响, 因此电网企业要想特高客户满意度应该特别重视关系心里契约, 即与客户保持长期的利益关系。
六、结论
通过以上的模型估计, 可以证明心理契约与满意度指数模型是可信的, 从而可以说明, 心理契约理论在电网企业客户营销中同样存在并且适用。关系心理契约与交易心里契约对满意度都是有影响的, 但关系心理契约对满意度的影响远高于交易心里契约对满意度的影响, 可知电网企业客户更加看重与企业的长期关系, 这也符合电网企业客户为企业的长期客户的客观事实。因此, 电网企业在提高客户满意度方面应该重视与客户的长期关系的培养与保持。
摘要:文章将组织行为学中心里契约的理论应用于电网企业的营销中, 界定了概念的相应内涵, 开发设计了相应的测度量表;然后借鉴ACSI满意度指数模型构建电网企业客户心理契约与满意度指数模型, 并运用偏最小二乘 (PLS) 对测评模型进行检验和参数求解;最后根据测评结果得出模型是可信的, 关系心理契约与交易心里契约对满意度都是有影响的, 但关系心理契约对满意度的影响远高于交易心里契约对满意度的影响。
关键词:心理契约,顾客满意度,PLS路径分析,结构方程
参考文献
[1]、Argyris C..Understanding Organizational Behavior[M].Illinois:Dorsey press, 1960.
[2]、Schein E.H..Organizational Psychology[M].Prentice-Hall, 1965.
[3]、KoLLer J.P..The Psychological Contract:Managing the Joining up Process[J].California Management Review, 1973 (3) .
[4]、Llewellyn N..The Role of Psychological Contracts Within Internal Service Networks[J].The Service Industries Journal, 2001 (1) .
[5]、罗海成.营销情境中的心理契约及其测量[J].商业经济与管理, 2005 (16) .
[6]、刘宇.顾客满意度测评[M].社会科学文献出版社, 2003.
偏最小二乘法回归 篇7
在多元线性回归模型中,如果解释变量之间存在着密切的线性相关关系,就称它们之间存在着多重共线性. 在出现多重共线性情形时,普通最小二乘估计不再适用; 回归参数的估计值方差会很大,从而影响自变量对因变量的解释;估计的精度会降低; 估计的效果也会变坏. 在实际经济问题的多元回归分析中,多重共线性的现象很多,这时我们就应该寻找另外的回归方法对参数进行估计.
二、方法介绍
如果在实际问题中出现了多重共线性的现象,我们可以选择用有偏回归方法———岭回归( RR) 和偏最小二乘回归( PLS) 来处理. 岭回归是利用岭估计( X'X + k I)- 1X' Y来替代普通最小二乘估计( X'X)- 1X' Y,从而消除了普通最小二乘估计中矩阵X'X无法求逆的问题. 偏最小二乘回归是先在自变量集和因变量集中分别提取第一潜在因子t1与u1,其中t1与u1分别是自变量与因变量的线性组合,要求t1与u1尽可能多地提取所在变量组的变异信息,且t1与u1的相关程度达最大,然后建立因变量与t1的回归方程,若回归方程不能达到满意的精度,则继续提取第二潜在因子,否则停止.
三、实例比较
根据理论及对现实情况的认识,拟建立以我国国民总收入( 单位: 亿元) 为因变量y,以就业人员数( 单位: 万人) 、财政收入( 单位: 亿元) 、能源生产总量 ( 单位: 万吨标准煤) 、国有单位工资总额( 单位: 亿元) 和城镇集体工资总额( 单位: 亿元) 分别为自变量x1,x2,x3,x4,x5的线性回归模型. 由《中国统计年鉴》查得相关数据如下:
在SAS软件上使用REG过程来建立最小二乘回归方程,所有自变量的方差膨胀因子都大于100,诊断出模型中存在非常严重的多重共线性问题. 用最小二乘法所得到的回归方程为y = - 431189 + 6. 13224x1- 0. 18088x2+0. 44051x3+ 5. 69125x4- 13. 63786x5.
可以看到方程中,自变量x2,x5的系数为负,这显然与事实不符,这正是由多重共线性所导致,因此最小二乘回归求出的回归方程不利于模型的解释,下面改用岭回归方法来建模.
用SAS软件中的REG过程,求解岭回归方程. 由岭迹图可以看出,当岭参数k≥0. 02后,岭迹曲线趋于稳定,因此,取k = 0. 02的岭回归估计来建立岭回归方程为
这时,回归系数的符号符合实际意义.
现在用偏最小二乘回归方法来进行处理,用SAS软件中的PLS过程建立偏最小二乘回归方程,用最常用的舍一交叉验证法来抽取偏最小二乘的成分,结果抽取了3个偏最小二乘成分,得到偏最小二乘回归方程为
这时,回归方程中的回归系数的符号也都符合实际意义.
根据前面得出的岭回归方程和偏最小二乘回归方程,计算出衡量模型拟合效果好坏的平均绝对百分误差和复测定系数,得到相应的数值如下:
四、总 结
从上例可以看出,在多元线性回归模型中出现共线性问题时,最小二乘回归方法已经不再适用,而用岭回归和偏最小二乘回归这两种有偏回归方法都可以处理多重共线性问题,且从表2的结果可知,两种方法建立的回归方程拟合的效果都不错,而偏最小二乘回归方法相对岭回归方法要更优.
摘要:文章介绍了处理多元线性回归模型中多重共线性问题的有偏回归方法——岭回归和偏最小二乘回归,并通过实例比较了两种方法建立的回归方程的拟合效果,而偏最小二乘回归方法相对岭回归方法要更优.