主成分回归模型

2024-09-10

主成分回归模型(通用8篇)

主成分回归模型 篇1

0 引言

统计学习理论是(Statistical learning theory)是由Vapnik[1]等人建立的一种专门研究小样本情况下机器学习规律的理论,支持向量机(Support vector machines,SVM)是在这一理论基础上发展起来的一种新的分类和回归工具。支持向量机通过结构风险最小化原理来提高泛化能力。己在模式识别、信号处理、函数逼近等领域得到了应用[2]。在一些复杂系统预测中,经常涉及到多维数据,但维数高会影响到模型的建立和预测效果,因此本文先利用主成分分析方法把原来多维样本划为少数几个综合指标低维样本,提取包含样本数据信息的主元,降低样本空问的维数。然后利用SVM对样本进行训练,得到最优的回归预测模型。

1 主成分分析法

主成分分析法旨在力保原始数据信息丢失最小的情况下,对高维变量空间进行降维处理。即在保证原始数据信息损失最小的前提下,经过线性变换和舍弃部分信息。以少数的综合变量取代原有的多维变量。

设原始变量为t1,t2,…,tp进行主成分分析后得到的主成分(综合变量)为x1,x2,…,xm(m

主成分分析法的步骤如下:

①为了排除数量级和量纲不同带来的影响。首先对原始数据进行标准化处理

undefined

式中tij为第i个指标第j个样本的原始数据;undefinedi和σi分别为第个指标的样本均值和标准差。

②根据标准化数据表(t′ij)p×n计算相关系数矩阵R=(rij)p×n,

其中,undefined

③计算R的特征值和特征向量。根据特征方程R-λI=0计算特征根λ,并使其从大到小排列,λ1,λ2,…,λp,同时可得对应的特征向量u1,u2,…,up。将它们标准正交:u1,u2,…,up称为主轴。

④计算贡献率

undefined和累计贡献率undefined

⑤计算主成分undefined

这时各主成分相互独立。

⑥综合分析。可以通过求累计贡献率Em来判断,一个m维主超平面究竟以多大的精度来近似代替原始变量系统才能确保尽可能多的原始数据信息。一般取Em>85%的最小m(m

2 基于主成分分析的支持向量机回归预测模型

根据公式(4)得到如下的数据对(X1,y1),(X2,y2),…,(Xl,yl),其中l为样本的个数计算所得的主成分建立回归模型

y=w1x1+w2x2+…+wmxm+b (5)

将模型(5)简记为下面的回归预测模型

f(X)=+b (6)

其中W=(w1,w2,…,wm),X=(x1,x2,…,xm)T,表示W与X的内积。最优化问题为:

undefined

对线性数据集,VC维满足[3]

h≤‖W‖2r2+1 (8)

其中:r为包络训练样本数据的最小球半径,因此(7)式的最优化问题中,最小化undefined意味着最小化VC维,同时训练误差作为最优化问题的约束条件,因此(7)式的最优化问题体现了SVM的思想,由此得到的回归估计函数具有较好的泛化能力。约束条件不可实现时,可引入松弛变量,这样(7)式写为

undefined

其中C>0为惩罚系数,C越大表示小对超出ε管道数据点的惩罚越大。采用拉格朗日乘子法求解这个具有线性不等式约束的二次规划问题,

undefined

其中αi,α*i,βi,β*i≥0,i=1,2,…,l为拉格朗日乘子。在寻优目标函数中,采用适当的内积函数k就可以实现某一非线性变换后的线性回归[4]。支持向量机回归方法的特效在于,通过引入点积核函数k和利用Wolfe对偶技巧避开了维数灾难和目标函数不可微问题。因此目标函数变为:

undefined

根据最优化的充要条件(KKT条件),求得相应的回归估计函数

undefined

其中SV为支持向量集。由以上推导过程可以看出,通过选择不同的ε和C可以调整回归曲线的拟合精度。

3 实例仿真

国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或者地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素,本例研究第三产业对外汇旅游收入的影响。《中国统计年鉴》把第三产业划为12个组成部分,分别为t1农林牧渔服务业,t2地质勘查水利管理业,t3交通运输仓储和邮电通信业,t4批发零售贸易和餐饮业,t5金融保险业,t6房地产业社会服务业,t7社会服务业,t8卫生体育和社会福利业,t9教育文化艺术和广播,t10科学研究和综合艺术,t11党政机关,t12其他行业。选取1998年我国31个省、市、自治区的数据,以国际旅游外汇收入(百万美元)为因变量,以如上12个行业为自变量作多元回归,数据见文献[5],其中自变量单位为亿元人民币。

对以上数据利用SPSS统计软件得到,两个主成分,分别为

即将12维数据降低到了2维数据,下面根据所得的2维数据建立支持向量机回归预测模型

f(X)=w1·x1+w2·x2+b

本文选取31个样本数据的前21个数据作为训练数据,后10个数据作为测试数据。利用软件包libsvm[6],选择参数为:C=10,ε=0.01,经计算得到17个支持向量(其中有14个边界向量)。得到预测值与真实值的对比如表1所示。

从表中数据可以看出预测精度比较高。通过改变C和ε的值来控制泛化能力的界。

4 结束语

支持向量机回归建模是将低维非线性的输入映射到高维线性的输出,模型简单,具有良好的应用前景。同时,SVM算法及对应的统计学习理论提出了小样本统计学问题,为解决有限样本情况下机器学习问题提供了有力的理论基础。本文的研究结果表明SVM应用到国际旅游外汇收入预测中,具有较高的精度。

摘要:首先利用主成分分析法降低样本数据的维数,建立主成分的多元回归预测模型,其次利用支持向量机方法确定回归模型的系数,最后实例说明了该模型具有较高预测精度。

关键词:主成分分析,回归系数,支持向量机

参考文献

[1]Comes C,Vapnik V.Support vector networks[J].Machine Learning,1995,20:273-297.

[2]杜树新,吴铁军.模式识别中的支持向量机方法[J].浙江大学学报:工学版,2003,37(5):403-409.

[3]Wang XL,Tong TS.The Researchof Integrated Technique onIntelli-gent Control System[C].Proc.of IEEE ICIT’96.Shanghai,Tongji University,1996:638-642.

[4]Camp bell.C.Kernel methods:a survey of current tech-niques[J].Neurocomputing,2002,48:63-84.

[5]何晓群,刘文卿.应用回归分析[M].北京:中国人民大学出版社,2001.

[6]Chih-Chung Chang,Chih-Jen Lin.LIBSVM:alibraryfor support vector machines[EB/OL].[2001].http://www.csie.ntu.edu.tw/-cjlin/libsvm.

主成分回归模型 篇2

关键词:核主成分分析;综合素质;评价

中图分类号:G647 文献标识码:A 文章编号:1000-8136(2009)27-0005-02

教师综合素质评价是教育管理部门对教师进行全面公正客观考核的有效手段,在各级各类教育单位已经广为实施。为了加强学校教学工作管理,促进教师评价改革,适应新时代学校教育教学管理工作的需要,实现学校教育教学工作的规范化和科学化,提高教育教学质量,激励先进,鞭策后进,促进教师队伍素质的全面提高,使教育教学工作又好又快发展,建立一个比较公正客观的评价模型是非常必要的。目前用来进行教师综合素质评价的数学模型主要有:层次分析法[1]、模糊综合评判法[2]、主成分分析法[3]等。本文建立了教师综合素质评价的核主成分分析(Kernel Principal Component Analysis,简称KPCA)模型,为教师综合素质评价提供了一种新的方法。

1核主成分分析

核主成分分析是在确保系统原有数据信息量丢失最小的原则下,在各个变量相关关系研究的基础上,将多个变量的信息压缩为几个能反映原问题特征的综合变量指标,并据此特征信息指标对系统进行综合分析,可以有效地来处理变量间的非线性关系,为解决多指标的综合评价提供了一种很好的手段。[4]其基本思想是:通过一个非线性映射,将输入数据映射到一个特征空间,再在特征空间上进行线性主成分分析。

设有l为变量x1,x2,…,xl的n组观测数据:(xil,xi2,…,xil),i=1,2,…n,核主成分分析通过一个非线性函数φ(•)将样本x1,x2,…,xl映射到特征空间中。不妨假设特征空间中的样本Ф(x1),Ф(x2),…,Ф(xl)已标准化。为了在特征

空间中做主成分分析,计算协方差矩阵 ,求

出C的特征值λ≥0及相应的特征向量V∈F{0},满足λV=CV。由于特征值对应的非零特征向量都位于数据Ф(x1),Ф(x2),…,Ф(xl)的张集上,即V∈span{Ф(x1),…,Ф(xl)},所以存在一组系数α1,α 2,…,α l使得:

(1)

因此λV=CV等价于λ(Ф(xk)•V)=(Ф(xk)•CV),k=1,2,…,l。

由此得到:

,

k=1,2,…,l(2)

通过定义一个l×l的核矩阵 ,(2)式可写为Ka=lλa(3)

所以确定特征向量V而求取系数αi(i=1,…,M)的问题就仅依赖于特征值分解核矩阵K。

在F中归一化特征向量V,等价于λk(αk•αk)=1;而为

了放宽 的假设,这只需将核矩阵替换成 =K-IM K

-KIM+IM KIM,其中 。

最后提取主成分,采用下式计算Ф(x)在特征向量Vk上的投影

(4)

常用的核函数主要有径向基核函数K(x,y)=exp(-||x-y||2/2σ2)、多项式核函数K(x,y)=(x•y)d、Sigmoid核函数K(x,y)=tanh(γ(x•y)+θ)等,其中σ、d、γ、θ均为核参数。

核主成分分析的综合评价函数[5]为:

(5)

其中,r为提取的核主成分个数,ωk为第k个核主成分的贡献率。

核主成分分析的基本步骤[4]是:

step 1 将原始数据X标准化,记为X*;

step 2 将标准化后的数据矩阵X*进行核变换,记变换后的核矩阵为K;

step 3 按下式求矩阵K*:

K*=K-AK-KA+AKA

step 4 求矩阵K*/l的特征值λi和特征向量vi,i=1,2,…,l;

step 5 求出累计贡献率超过85 %的前n个主成分;

step 6 利用n个主成分对每个样本求出评价函数,进行综合评价。

2基于核主成分分析的教学质量评价

2.1样本数据

要对20名教师的业务素质进行综合评价。各位教师的综合素质评价指标值[3]如表1所示,其中,教学计划与备课X1,课堂讲授X2,考试成绩X3,辅导答疑教学改革X4,论文论著X5,科研项目X6,教书育人X7,获奖情况X8。

2.2多重共线性诊断

度量多重共线性严重程度的一个重要指标是方阵XTX的条

件数,即: 。

资助项目:湖北省教育厅科研项目(编号:Q20091809);武汉工业学院校项目(编号:08Y30)。

其中λmax(XTX),λmin(XTX)表示方阵XTX的最大、最小特征值。一般地,若k<100,则认为多重共线性程度很小;若100≤k≤1 000,则认为存在中等程度或较强的多重共线性;若k>1 000,则认为存在严重的多重共线性。

经计算,本问题的矩阵条件数k=11 063>1 000,可认为变量x1,x2,…,x8之间存在严重的多重共线性,可以利用核主成分对数据降维。

表1教师综合素质评价指标

教师

编号 教学情况 科研学术 工作态度

X1X2X3X4X5X6X7X8

11 3942 505758 14417128436

22 8491 258804 83915151 2348

31 0921 250754 72117166973

48321 387904 134181741910

52 7932 397804 91116141 8407

62 0142 334864 14516141 2404

72 4625 343879 28019131 6423

85 1551 925755 94321172 0266

93 5242 249766 61916139162

102 1602 320805 85715144334

115 0021 527905 14517142 2075

123 0021 034784 34416151 3677

135 3812 699768 25018161 3961

141 6061 314805 10518165542

153641 815855 3401311646

16630942744 47516143242

171 2061 261855 14918187165

181 0001 208724 39619176001

191651 445865 76314121059

208341 469705 34819174281

2.3利用核主成分分析提取变量的主成分

对样本数据进行核主成分分析,为便于比较,同时进行主成分分析。核主成分分析的核函数选择多项式核函数,即核函数为K(x,y)=(x•y)d。经试验,相应的核参数d=4。

表2KPCA和PCA前4个特征值及贡献率(%)

No特征值贡献率 / %累计贡献率 / %

PCAKPCAPCAKPCAPCAKPCA

12.6 8772.56e+3233.5 95880.03433.5 95880.034

22.1 9095.47e+3127.3 85917.0 76360.9 81697.1 102

31.5 2516.95e+3019.0 6432.170080.0 45999.2 802

40.7 9511.97e+309.9 3890.613589.9 84899.8 937

从表2可以看出,采用PCA的前4个主成分累积贡献率为89.9848 %,而采用KPCA方法前2个主成分累积贡献率就已经达到97.1102 %,因此KPCA获得了比PCA更好的降维效果。

由KPCA求出每位教师的综合得分以及排序如表3所示。为便于对比,表3同时给出了PCA综合得分和PCA综合排名。

表3教师综合素质评价排名

教师

编号核主成分F1核主成分F2PCA

综合

得分PCA

综合排名KPCA

综合

得分KPCA

综合

排名

分值排

序分值排

1-1.7 44818-0.3 7039-0.0 90911-1.4 59718

21.1 30912-0.3 05970.6 70940.8 52912

31.5 3054-0.7 72514-0.2 205131.0934

41.7 0331-0.8 348170.6 76131.2 2061

50.7 70913-0.1 82360.3 70970.5 85913

61.3 9095-0.6 197110.4 09961.0 0746

7-8.6 978201.0 7274-0.8 70217-6.77820

8-1.0 866171.9 5642-0.9 77518-0.5 35516

9-0.862160.6 7975-0.2 41714-0.5 73817

100.5 19614-0.3 997100.2 33190.3 47614

11-0.0 032151.1 93330.3 46880.2 01215

121.3 4358-0.3 69580.4 43751.0 1215

13-6.0 358194.6 1161-1.1 70220-4.0 43219

141.3 14210-0.6 59512-0.3 587150.9 3929

151.3 7976-0.8 983191.2 88120.9 5088

161.6 9592-0.8 466180.0 703101.2 1272

171.3 6577-0.7 27713-0.1 165120.9 6877

181.6393-0.8 02716-0.8 223161.1 7473

191.3 10711-0.9 215201.35410.8 91611

201.3 3569-0.8 02615-0.9 952190.9 31910

3结束语

对教师综合素质评价的原始数据,运用矩阵条件数对各个变量进行了多重共线性诊断。用核主成分分析法建立了教师综合素质评价模型,消除了测评指标间相互关系的影响,提高了降维效果。与线性主成分的结果对比表明,核主成分分析不仅能够反应指标间的非线性关系,而且能够用更少的成分更多地反映原始指标的信息,从而减少了指标选择的工作量。

参考文献

1 刘 平.高校教师综合素质评价研究[J].管理工程学报,2002.16(10):115~118

2 唐晓静、张圣梅、徐小君.教师综合素质评价模型的研究[J].长春理工大学学报,2004.27(1):113~115

3 谢爱荣、田 盈.加权主成分分析法在教师素质考评中的应用[J].中国教育导刊,2007.6:49~51

4 李冬琴、王丽铮.核主成分分析方法在船型方案综合评价中的应用[J].船海工程,2007.36(2):1~3

5 Bernhard Scholkopf, Alexander Smola, Klaus-Robert Muller. Nonlinear component analysis as a kernel eigenvalue problem[J]. Neural Computation, 1998.10(5):1299~1319

Evaluation Model for Teachers’ Comprehensive Qualities

Based on Kernel Principal Component Analysis

Chen Gaobo

Abstract:In this paper, the matrix condition number is used to diagnosis the multi-collinearity among the index for evaluating Teachers’ Comprehensive Qualities, and a kernel principal component analysis(KPCA)evaluation model is build. Compared with principal component analysis(PCA), the results from KPCA show that KPCA can extract less components which reflect the original index information.

主成分回归模型 篇3

粮食生产是国民经济的基础, 它对国家安全、社会稳定、经济发展具有重要的作用。河南省是我国农业第一大省、粮食大省, 其粮食生产状况对我国全国的粮食安全有着举足轻重的作用。河南省位于黄河中下游, 属黄淮平原的西南部, 全省平原面积占55.7%。河南省地处亚热带向暖湿带过度地带, 适宜于多种农作物生长, 是全国小麦、棉花、油料、烟叶等农产品的重要生产基地。

一直以来, 对粮食产量影响因素的研究取得了很大的成就。赵鹏等[1]利用灰色关联分析及贡献率的方法研究对河南省粮食产量的影响因素, 为不同区域尺度的粮食产量生产提供决策依据。宰松梅等[2]通过主成分分析的方法, 确定出5个主要粮食产量影响因素, 并对这些因素进行分析, 提出相应的建议和意见。赵慧江[3]采用1990~2005年的时间序列数据, 运用回归分析的方法, 建立多元回归模型, 对影响我国粮食产量变化的影响因素进行分析, 并对模型进行检验。旷岭针对粮食产量预测精度问题, 提出了RBF神经网络预测方法。采用RBF神经网络进行非线性定阶, 通过最优阶数进行模型重构, 然后使用遗传算法对RBF神经网络参数进行优化, 得出最优粮食产量预测模型, 最后进行粮食产量预测。

随着全球日益紧张的粮食供求趋势, 我国粮食产量的增长潜力及未来粮食供求变化趋势的问题越来越受到国内外学者的关注。而河南省作为我国农业大省, 粮食产量的情况将直接影响我国粮食安全。通过以上研究, 我们可以发现由于研究人员采用的分析方法、数据所处的时间段及区域的不同, 因而得出的结论不具有通用性。

二、粮食产量与相关影响因素的格兰杰因果关系检验

建立计量经济模型的过程, 其实质是用回归分析工具解决一个经济变量 (因变量) 与其它经济变量 (自变量) 的依存性问题的过程, 但这个经济变量与其它经济变量间存在着因果关系并不是必然的。针对这一问题, 为了判断哪些因素对粮食产量有影响, 可以用Eviews中的格兰杰因果关系进行检验, 进而可以建立回归方程模型。粮食产量的影响因素有很多, 根据现有文献, 本文选取粮食产量的主要影响因素有农作物总播种面积 (千公顷) 、粮食作物播种面积 (千公顷) 、农业机械总动力 (万千瓦) 、有效灌溉面积 (千公顷) 、农用化肥施用折纯量 (万吨) 、农村用电量 (亿千瓦小时) 、受灾面积 (千公顷) 、成灾面积 (千公顷) , 分别用X1、X2、X3、X4、X5、X6、X7、X8来表示, Y表示粮食产量。根据预期, 文章对收集的数据进行了OLS回归分析。这些影响因素以及粮食产量的数据可在《河南统计年鉴》中查到, 这里采用1981~2013年的数据。

下面采用长度为2的格兰杰因果关系检验, 以对各个影响因素进行检验, 验证哪些因素与粮食产量具有因果关系。以农业机械总动力为例, 运用Eviews 6.0进行检验, 结果见图1:

由上图可知, 在显著性水平10%下, 拒绝“农业机械总动力不是粮食产量的格兰杰原因”的假设, 而不是拒绝“粮食产量不是农业机械总动力的格兰杰原因”的假设。因此, 从上述情况可以看出, 农业机械总动力增长是粮食产量增长的原因。同理, 其它因素也可以通过格兰杰因果关系检验, 结果显示, 这些因素中, 农作物总播种面积、农业机械总动力、农用化肥施用折纯量、农村用电量都是引起粮食产量变化的原因, 即这四种影响因素的变化都能引起粮食产量的变化, 因此这四种影响因素选入模型中用来预测产量。

三、基于主成分分析的回归方程预测模型

为了避免模型中异方差的出现, 先对数据进行对数变换。再利用Eviews 6.0检验以上各解释变量之间是否存在多重共线性, 经检验可知, 各解释变量之间存在严重的多重共线性, 多重共线性的修正方法有很多, 本文运用主成分回归法[5]。主成分是将k个具有一定相关关系的解释变量, 组合成新的相互独立的p (p<k) 个综合解释变量, 用来代替原来的k个解释变量, 同时选取少数几个综合变量尽可能多地反映全体解释变量的方法, 所选综合变量就是原来解释变量的主成分。用被解释变量对这些主成分进行回归, 再根据主成分与解释变量之间的对应关系, 求得原回归模型的估计方程。这一过程可以通过Eviews软件来完成。为了不剔除已经考虑的解释变量, 下面釆用主成分回归分析的方法, 克服模型的多重共线性。k p (p k Eviews

在Eviews6.0里, 对全体解释变量进行主成分分析, 结果如下图2:views6.0 2

由上述显著性检验结果可以看出, “主成分”的t检验值为20.16, 其伴随概率为0.0000, 说明它在1%的显著程度下通过了系数显著性检验;修正R平方为0.9269, 说明主成分对因变量的变动的解释程度达到了92.69%, 解释程度较高, 方程拟合度好;F检验值为406.456, 其伴随概率为0.0000, 说明方程在1%的显著程度下通过了方程显著性检验, 方程在整体上显著的。

我们建立的粮食产量预测模型中, 包含了四个影响因素, 若已知这四个因素的具体值, 代入模型, 就可以预测出对应年份的粮食产量。

四、结论及建议

由于影响粮食产量的因素众多, 而在进行粮食产量预测时并不能包含所有因素, 因而本文通过格兰杰因果关系检验, 找出影响粮食产量的主要因素, 即农作物播种总面积、农业机械总动力、农用化肥施用折纯量、农村用电量。然后利用Eviews6.0检验各解释变量之间是否存在多重共线性, 经验证所使用的数据存在多重共线性, 因此采用主成分回归法进行修正, 克服模型的多重共线性。用Eviews6.0提取出主成分, 将被解释变量对主成分进行回归, 根据主成分与解释变量之间的关系, 得出原回归模型的估计方程, 进而可以进行粮食产量预测。

根据以上研究分析结果, 为了促进河南省粮食产量的提升, 应从以下几个方面采取有效措施: (1) 加强对省内农用土地和非农用土地的协调和管理, 保护和开发耕地资源, 稳定和提高农作物总播种面积。 (2) 推进农业机械化工程, 促进农业信息化建设, 提高现代化建设, 加快传统农业向现代化农业迈进的步伐。 (3) 完善农村配电网络, 促进农村电网改革, 同时做好农村用电安全工作。 (4) 鼓励和发展农业科技, 提升农业化肥的技术含量, 合理增加化肥等农业投入品使用量, 提高粮食作物产量。

摘要:河南省作为我国的农业大省, 其粮食产量将影响着我国粮食安全, 为了能够准确找出影响河南省粮食产量的直接因素, 采用格兰杰因果关系检验的方法分析粮食产量影响因素, 得到4个主要影响因素即农作物播种总面积、农业机械总动力、农用化肥施用折纯量、农村用电量, 然后使用Eviews 6.0修正数据的多重共线性, 利用回归分析得出相应的主成分, 最后利用回归预测的方法建立粮食产量的预测模型。

关键词:粮食产量,格兰杰因果关系,主成分回归,预测

参考文献

[1]赵鹏, 陈阜, 刘斌, 等.粮食产量影响因素的灰色关联分析及其贡献率比较[J].农业系统科学与综合研究, 2008, 24 (2) :217-222.

[2]宰松梅, 温季, 仵峰, 等.河南省粮食生产主要影响因素分析[J].节水灌溉, 2011, (6) :56-59.

[3]赵慧江.基于回归分析的粮食产量影响因素分析[J].怀化学院学报, 2009, 28 (2) :31-35.

[4]旷岭.RBF神经网络的粮食产量预测[J].计算机仿真, 2011, 28 (11) :189-192.

主成分回归模型 篇4

黑龙江省农民人均纯收入自1985年的398元上升到2006年的3552元, 扣除价格因素, 实际平均每年增长5.85%。而城镇居民人均可支配收入自1985年的742元上升到2006年的9182元, 扣除价格因素, 实际平均每年增长5.86%。从总体上看, 农村人均纯收入和城镇人均可支配收入的年平均增长率几乎相同, 但是, 自1998年~2006年, 扣除价格因素的影响, 城镇人均可支配收入的年平均增长率为9.74%, 而农村人均纯收入的年平均增长率为5.39%。可见, 自1998年以来, 农民人均纯收入的增长要远远慢于城镇居民人均可支配收入的增长。党的十七大报告明确提出要缩小居民的收入差距, 由于我国农民的人口数量占全国人口的四分之三, 因而, 缩小居民的收入差距更多的是指缩小城乡的收入差距。而缩小城乡居民的收入差距的关键在于提高农民人均纯收入, 所以本文的研究具有现实意义。

二、黑龙江省农民收入回归模型

1. 变量、数据与模型

设黑龙江省农村居民人均纯收入为因变量Y, 自变量分别为黑龙江省第一产业人均GDP (X1) , 第二产业人均GDP (X2) , 第三产业人均GDP (X3) , 城镇化水平 (X4) , 农村投资 (X5) , 主要农作物播种面积 (X6) 。

(1) 做重叠散点图

用SPSS14.0软件做因变量Y与自变量X1——X6的散点图, 结果显示因变量Y与自变量X1——X6呈线性关系。

(2) 做多元线性回归分析

通过SPSS14.0软件的分析, 得到调整后的可决系数为0.992, 有显著的统计学意义。但是由回归分析的结果看, X3、X4、X5的偏回归系数没有通过检验, 无统计学意义。多重共线性诊断中多个自变量的方差膨胀因子 (V I F) >1 0, 多个维度的特征根 (Eigenvalue) 约等于0, 多个维度的条件指数 (Condition Index) >30, 说明自变量之间存在严重的多重共线性。

(3) 进行主成分分析

由表1可知, 特征根大于1的只有一个, 所以只提取了一个主成分, 此主成分的累计共贡献率是88.313%, 说明这一个主成分已经反映了原来6个自变量88.313%的信息。表2因子得分系数矩阵表示主成分与标准化以后的自变量之间的线性关系, 因此主成分可以表示成:

(4) 根据主成分再进行线性回归

首先, 把农村居民人均纯收入 (Y) 进行标准化, 得到ZY, 然后把标准化的农村居民人均纯收入 (ZY) 和主成分 (F) 进行简单线性回归分析, 得到:

通过SPSS14.0软件的分析, 得到调整后的可决系数为0.961, 有显著的统计学意义。再将上面的式子进行变量代换, 得到:

2. 结论分析

通过分析得到农村居民人均纯收入与第一产业人均GDP, 第二产业人均GDP, 第三产业人均GDP, 城镇化水平, 农村投资, 主要农作物播种面积之间的关系。从①中可以看出, 当第一产业人均GDP增加1%, 农村居民人均纯收入将增加0.336%;当第二产业人均GDP增加1%, 农村居民人均纯收入将增加0.074%;当第三产业人均GDP增加1%, 农村居民人均纯收入将增加0.11%;当城镇化水平提高1%, 农村居民人均纯收入将增加37.915%;当农村投资增加1%, 农村居民人均纯收入将增加2.946%;当主要农作物播种面积扩大1%, 农村居民人均纯收入将增加1.887%。

三、提高农民收入的建议

1. 加快第一产业的发展

根据回归分析, 第一产业人均GDP相对于第二、三产业人均GDP来说, 对农民收入的增加的促进作用最大。第一产业人均GDP=第一产业GDP总量/总人口, 所以增加人均GDP的方法应从两方面入手。一方面, 应控制人口的数量, 另一方面, 应增加第一产业GDP总量。2006年黑龙江省总人口为3823万人, 虽然从1985年至2006年黑龙江省人口数量逐渐上升, 但是人口增长率却是呈下降的趋势。由此可以看出, 增加第一产业人均GDP主要应增加第一产业GDP总量。根据回归分析, 当主要农作物播种面积扩大1%, 农村居民人均纯收入将增加1.887%。所以扩大主要农作物的播种面积可以促进农民收入的增加。

如果简单的看, GDP=最终产品的价格×最终产品的产量, 由于黑龙江省是国家商品粮基地, 第一产业的GDP总量主要是农产品的贡献。所以提高GDP总量可以从两方面入手。从价格来看, 农产品价格的提高依赖于农产品的品质, 直接的方法是增加农产品的科技含量, 提高产品的品质, 间接的方法是增加农产品的附加值, 进行农产品的深加工。从数量来看, 也可以从两方面入手。一方面, 通过科学技术手段提高单产, 另一方面, 提高抵御自然灾害的能力。

2. 提高城镇化水平

城镇化水平的提高意味着有更多的农村人口进入到城镇中, 因为城镇的各项基础设施和福利都要比乡村好, 所以农民进城后无论是打工还是自主创业所获得的收入都会远远高于在农村所获得的收入。从模型中可以看到, 城市化对农民收入增长的贡献很大。发达国家的经验表明, 工业化进入初中期以后, 农村人口城市化进程明显加快, 从而使农民收入增长进入了主要通过农村人口减少来增加收入的阶段。可见, 加快农村城镇化, 放宽城市的农民准入条件, 改善农民工进城就业的就业环境, 鼓励支持有条件的民工回流创业等应该成为城市化, 以及农民增收的关键。让大量农民转变为市民, 成为工人、商人、企业家, 农民的收入水平自然得到提高。

3. 增加农村投资

(1) 增加政府对农村的基础建设投资

农田水利、道路桥梁等的建设投资, 可以使农民生产、销售得到便利。农田水利设施的完善, 可以提高农产品的产量、质量;道路交通的便利, 可以降低农产品的运输成本, 减少农产品物流中的损耗。因此, 增加基础设施的投资, 可以增加农民的收入。

(2) 增加农村金融组织的信贷投资

黑龙江省素有中国的“粮仓”之称, 而作为支农的主要金融力量, 黑龙江农村信用社却曾经是一个亏损大户。2005年之前, 黑龙江各级农村信用社的亏损已经连年位居全国第二名, 不良资产和亏损挂账达100多亿元。尽管黑龙江省联社已经扭亏, 但因为资金实力不足、历史包袱沉重, 难以承担支农重任。李久春 (黑龙江省农村信用联合社理事长) 在黑河市调研中发现, 2007年以来黑河市发放的11亿元涉农贷款中, 仅有2000万是其他金融机构发放的。而当时, 黑河市辖区内的18家农行基层营业网点不断撤离农村地区, 农信社又不能及时补充, 部分地区已经出现金融服务真空。

(4) 提高耕地利用率

从黑龙江省国土资源厅了解到, 2006年黑龙江省的耕地保有量始终稳定在1170.6万公顷以上, 基本农田一直保持在1016万公顷以上。虽然黑龙江省的耕地面积并没有减少, 但是土地面积的有限性致使耕地面积的增加不可能无限扩大, 所以不能靠单纯的扩大耕地面积来提高农民收入。

因此, 要提高耕地的利用率。一方面, 应该提升耕地质量, 保持土壤的肥力, 提高土壤有机质含量, 进行合理轮作, 强化农田水利基础设施建设。另一方面应该提高农业技术水平, 选育优良品种, 培育出单产高的新品质, 加快推广步伐, 以增加农作物的单位产量。在耕地面积一定的情况下, 农作物种植结构在一定程度上决定着种植业生产的总量和效益的高低, 所以必须大力发展高产、优质、高效农业, 优化种植结构, 不断提高优质、高产农作物的种植比重。

参考文献

[1]丁亮赵玉李维:湖北省农民增收的宏观经济因素分析——基于主成分回归模型的分析[J].乡镇经济, 2007 (11) :10~14

[2]刘润幸:利用SPSS进行主成分回归分析[J].中国公共卫生, 2001 (8) :746~748

[3]吴航黄恒君:农民增收的主成分回归分析[J].中国统计, 2005 (12) :29~30

[4]郭翔宇罗剑朝曾福生张广胜:中国农业与农村经济发展前沿问题[M].北京:中国农业出版社, 2007:283

主成分回归模型 篇5

关键词:新疆生产建设兵团,道路运输,主成分回归,客运量,预测

1 兵团道路旅客运输业现状

近年来,兵团经济得到迅速发展的同时,道路旅客运输业也在快速发展。据统计,兵团拥有各类民用车辆103 087辆,其中载客汽车39 752辆。全年完成客运量11 019万人,旅客周转量66.60亿人公里,比2005年分别增长42.9%和49.6%,实现生产总值23亿元。其中客运站建设完成投资46 913万元,各类客运站达到1 021个(含简易、港湾和招呼站),已实现团场连队通客车率达90%,通班车率达70%,大大改善了团场职工群众的出行条件。这些既为兵团社会经济的发展和担负屯垦戍边的历史使命提供了基础条件,同时也为新疆社会经济的发展和道路旅客运输业的发展做出了重要贡献。

为了更好实现兵团屯垦戍边的特殊使命和道路运输业的持续、快速和健康发展,以及为“十二五”兵团道路旅客运输业规划的发展目标提供有力支持,对兵团道路客运量进行预测分析是十分必要的。

2 主成分分析

2.1 主成分分析原理

主成分分析也称主分量分析,是用降维的思想,把多指标转化为少数几个综合指标, 降低观测空间的维数,以获取主要信息。

在多指标(变量)的研究中,由于变量太多,且彼此之间存在着一定的相关性,因而使得所观测的数据在一定程度有信息的重叠。主成分分析可以设法将原来众多具相关性的指标(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常的数学处理就是将原来P个指标作线性组合,作为新的综合指标,这个转化后的综合指标就称为主成分。用F1(选取的第一个线性组合)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此,在所有的线性组合中选取的F1应该是方差最大的,所以,称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第2个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,要求Cov(F1,F2)=0,则称 F2为第二主成分,依此类推,可以构造出第三,第四,……,第P个主成分。

由此可见,借助主成分分析可以有一个或几个较好的综合指标来概括信息,而且综合指标相互独立的代表某一方面的性质。

2.2 主成分分析模型的建立

设随机变量X1,X2 ,X3,…,Xpp个随机变量,就有p个主成分F1,F2,F3,…,Fp,所以,主成分模型为

其中a1i,a2i,…,api(i=1,…,m)为X的协差阵Σ的特征值对应的特征向量,X1,X2,X3,…,Xp是原始变量经过标准化处理的值(由于在实际应用中往往存在指标的量纲不同,在计算前应先消除量纲的影响,而将原始数据标准化)。

Φ=(aij)p×m=(Φ1,Φ2,…,Φm),i=λiΦi, R为相关系数矩阵,λiΦi,是相应的特征值和单位特征向量,满足

3 兵团道路客运量预测分析

以新疆生产建设兵团2001~2010年道路客运量相关指标数据(见表1)为基础数据,对兵团道路客运量进行预测分析。

3.1 数据处理

根据新疆生产建设兵团自身发展特点,在参考相关研究的基础上,确定道路运输客运量的影响因素有GDP、交通运输仓储邮政业增加值、总人口、非农业人口、公路里程、载客汽车保有量、社会消费品零售总额等7个因素,分别为X1,X2,X3,X4,X5,X6,X7。由于影响因素数值相差较大,因此,应先进行标准化,将标准化后的数据作为变量(Z)保存。

3.2 多重共线性诊断

由相关系数矩阵可以看出各自变量之前存在着明显的相关性(见表2),避免出现严重的共线性而影响模型的建立,需要进行共线性诊断。

经过共线性诊断,发现ZX2,ZX4,ZX5的容忍度t<0.1,t越小说明共线性越严重,且方差膨胀因子VIF (VIF=1/t)也很大,VIF 越大,说明自变量之间存在严重的共线性;条件指数为6094(6.094/0.001)也说明了这一点。为了避免这种自变量间严重的共线性影响最小二乘估计量,用主成分回归分析对样本进行简化分析。

3.3 主成分分析

采用spass19.0进行主成分分析,将因子得分保存为变量(见表3)。其中,只有第一主成分的特征值大于1(6.094)。其方差贡献率为87.053%(主成分的累计贡献率达到85%时,即可保留有效信息),说明第一主成分包含了7个指标的全部信息,对道路运输客运量的影响最大。又由碎石图(见图1)可以看出,第2个特征值变化的趋势已经开始趋于平缓,因此,取一个主成分是合适的,进而对第一主成分进行荷载值计算(见表4)。

用表4中的数据计算标准正交化特征向量(成分矩阵中的数据除以主成分相对应的特征值开平方根)

计算主成分值得到新变量的表达式为

3.4最小二乘回归分析

将标准化后的ZY作为因变量,F1作为新的自变量进行最小二乘回归分析,得到回归系数估计值B=0.402,常数相近似为0,得

将(2)代入(3)式得

检验结果可以看出,调整后的判定系数为R¯2=0.982,说明模型的总体拟合效果良好,且能通过t检验(t=22.153),所以,回归模型就有统计学意义,能够对新疆兵团道路客运量做出相对合理的预测。

还原到原始变量的关系,得到Y的线性回归方程为

3.5模型检验

把2007~2011年新疆生产建设兵团统计数据代入回归模型(5)式中,可以得到当年的道路旅客运输量的预测值,将预测值与实际值进行对比(见表5)可以看出,主成分回归模型的预测值比灰色模型的预测值与实际值的拟合程度要好。绝大部分年份的预测值与实际值偏差较小(平均相对误差=0.81%),最小误差为0,预测效果基本能够满足新疆兵团道路客运量预测的需要。

4 结束语

本文采用spass主成分回归分析的方法对新疆兵团道路客运量进行了预测,通过对原始数据进行处理及建立模型,从而得到道路客运量的最终预测值序列。结果表明,基于spass主成分回归分析方法构建的新疆兵团道路客运量预测模型,结构简洁,软件运算时间短,效率高,对于受多种因素影响的道路旅客运输需求预测,具有较强的实用性。用此方法预测可能比其他方法预测的结果更精确,更能够反映新疆兵团道路运输客运量变化规律,为今后统筹兵团各种运输方式的发展,构建便捷、安全、高效的综合运输体系提供依据。

参考文献

[1]王生昌,白韶波,张慧.公路客运量预测方法的比较[J].长安大学学报(自然科版),2005,25(5):85-89.

[2]姚新胜,苏延川,孙金玲.公路客运短期运量预测研究[J].公路交通科技,2005,22(11):155-158.

[3]新疆生产建设兵团统计局,国家统计局兵团调查总队.新疆生产建设兵团2011年统计年鉴[M].北京:中国统计出版社,2011.178-195.

[4]张文霖.主成分分析在SPSS中的操作应用[J].市场研究,2005,12(11):76-79.

[5]刘润幸,萧灿培,宫齐,等.利用SPSS进行主成分回归分析[J].数理医药学杂志,2001,14(2):103-105.

[6]贾元华,敖谷昌.基于主成分回归的公路客运量预测模型研究[J].交通标准化,2009(11):103-105.

[7]高惠旋.处理多元线性回归中自变量共线性的几种方法[J].数理统计与管理,2000,20(5):49-55.

主成分回归模型 篇6

关键词:工业地理学,铅锌产业布局,主成分回归分析,影响因素

1 引言

铅锌金属在电气、机械、军事、冶金、化学工业、轻工业和医药业等领域都有广泛的用途[1],所以铅锌产业是重要的基础原材料产业,并且在国民经济的各个领域发挥着至关重要的作用,对国防建设和稳定就业有很大的影响力。我国铅锌产业发展整体呈现出良好态势,2009年我国矿产铅锌产量占世界总产量的1/3,取代澳大利亚位居世界第一,同时精铅精锌消费量也都位居世界第一。

伴随着我国产业布局自建国以来几次变革的浪潮,铅锌产业现已形成东北、湖南、两广、滇川、西北五大采选冶一体化和加工配套的生产基地,现有铅锌产业布局的主要问题在于布局过于分散,行业集中度偏低;空间布局的供求情况明显失衡;发展循环经济困难,环境污染严重等。为了有效地解决上述问题进而优化铅锌产业布局,在国务院颁布的《有色金属产业调整和振兴规划》[2]中明确提出为了提高产业集约化和资源保障程度,增强自主创新能力,完成淘汰落后产能的任务,有色金属产业布局亟待调整。

进行铅锌产业布局的调整需要建立合理的指标评价体系,并且要明确各影响因素的客观权重,这样才能为具体的布局研究提供理论依据。目前专家学者们的研究主要集中在产业布局影响因素分析方面,分析方法以定性分析为主,如通过实证分析[3]和利用产业集群理论知识[4]得出了一些影响工业布局的主要因素,并强调要发挥区域各种资源要素的整合能力和协同效应,突出技术进步与技术创新对产业布局的重要意义。在定量分析方面,也有学者利用省际面板数据[5]研究了影响工业布局变动的主要因素,并分析了中国工业布局变动的趋势。诸如此类针对工业布局影响因素的研究比较多,但是如果具体到铅锌产业布局影响因素研究,就显得相对不足。另外,目前产业布局影响因素的大部分研究方法还是局限在主观分析上,引入模型的客观分析相对较少,这将无法得到每个布局影响因素的客观权重,所以重点的布局影响因素也无法被提取。本文在立足于现有理论研究基础之上,根据铅锌产业本身的特点具有针对性地提取了布局影响因素,并应用主成分回归的研究方法得出每组因素的客观权重,最后将模型结果和铅锌工业布局趋势结合起来提出了几项建议,以期为我国“十二五”期间铅锌产业的合理布局提供理论支撑和政策依据。

2 铅锌工业布局影响因素的选取

本文选取铅锌工业布局影响因素的过程主要立足于三个关键点,即国家有色金属产业政策、国内外关于产业布局影响因素的理论研究[6,7,8,9]和铅锌产业布局特点。 国家在2009年颁布的《有色金属产业调整和振兴规划》中明确指出有色金属产业布局调整要全面考虑到矿产资源、能源、地区环境承载力等要素,国家将严格控制资源、能源和环境容量不具备条件地区的有色金属产能。

韦伯的《工业区位论》[10]以及其他各项研究中都论述了交通运输条件和劳动力资源对工业区位选择的重要性,这两大要素在当代的工业布局中仍具有比较大的影响力。在其他条件相同的情况下,由于交通条件不利,会加大原料和产品运输成本,在人力资源因素方面,劳动力成本是其中的一个方面,更加重要的是地区专业人才的供给情况,人力资源是各个产业发展的基础。

在研究我国铅锌产业发展现状的过程中,铅锌冶炼和加工技术水平的优化升级被重点强调,这不仅仅是因为我国在技术方面落后于发达国家,更重要的是这关系到铅锌资源的综合利用,避免和降低铅锌产业对周围环境造成的污染以及铅锌产品附加值的提高,所以地区本身科研水平以及科研投入水平对铅锌产业具有至关重要的影响力。最后,地区经济因素同样被纳入了影响因素体系,因为没有一定的经济基础,铅锌产业布局的目标地区无法具备相应的投资水平来支撑工业基础设施建设以及高额的科研投入。在综合了国家政策、理论研究和铅锌产业特点之后,本文给出了影响铅锌产业布局的因素体系(图2)。

3 分析模型

在研究我国铅锌工业布局的过程中,由于其本身的复杂性以及综合性,众多的评价指标会遇到共线性问题[11],所以本文采用主成分分析和回归分析相结合的综合评价方法。主成分分析的核心思想就是通过降维,把多个指标化为少数几个综合指标,而尽量不改变指标体系对因变量的解释程度。在应用主成分分析的基础上,利用回归分析建立数学模型[12]。具体步骤如下:

1) 对指标数据xi1,xi2,…,xip,i=1,2…,n进行标准化处理,即:

yij=(xij-x¯j)sjx¯j=1ppi=1xij

;sj=1ppi=1(xij-x¯j)2

2) 计算相关矩R=(rij)p×p

rij=Cov(xi,xj)Var(xi)Var(xj)=1npk=1xki*xkj*(i,j=1,2,p)Cov(xi,xj)=E(xi,xj)-E(xi)E(xj)(i,j=1,2,p)Var(xi)=ni=1(xij-x¯i)(n-1)(j=1,2,p)Var(xj)=nj=1(xij-x¯i)(n-1)(i=1,2,p)

3) 确定主成分

R 的特征根λ1≥λ2≥λ3≥…≥λp≥0,依据aj=λjpk=1λk公式计算方差贡献率,按照mj=1aj85%(j=1,2,k)的原则,提出前几位主成分。

4) 对主成分进行回归分析

本文采用普通最小二乘法建立以下多元回归线性模型:

Y=C+β1F1+β2F2+β3F3+…βmFm+ε

其中,ε表示随机误差,且ε:N(0,a2),由于每个主成分F1,F2,F3,…Fm自变量X1,X2,X3,…Xp的线性组合,因此,最终上面的计量模型可以转化为:

Y.=c+a1X1+a2X2+a3X3+…apXp+ε

线性回归部分由SPSS17.0完成,得出回归模型之后再进行因素分析。

4 我国铅锌工业布局影响因素的实证分析

4.1 数据来源和变量选取

本文的原始数据是由2010年全国各省市的数据组成,主要来源于中华人民共和国国家统计局编辑的《中国统计年鉴2010》以及各省市统计局编辑的2010年统计年鉴以及统计公报。

本文建立模型所选用的被解释变量是铅锌产量(Y),自变量分别为:铅锌矿基础储量(X1),地区工业用水(X2),煤炭基础储量(X3),地区发电量(X4),工业废水排放量(X5),工业废气排放量(X6),工业固体废弃物(X7),公路货运量(X8),铁路货运量(X9),水路货运量(X10),地区生产总值(X11),地区固定资本投资(X12),R&D经费(X13),高校毕业生数(X14)和科技研究人员数(X15)。

4.2 参数估计及检验

4.2.1 共线性诊断。

为验证指标间是否存在多重共线性问题,利用统计分析软件SPSS17.0对因变量和自变量进行了多重共线性诊断。如表2所示,除了的容忍值比较接近1以外,其他自变量的容忍值都很小,由于方差膨胀因子是变量容忍值的倒数,所以膨胀因子会相对应地比较大,这说明自变量间存在严重的共线性,这为接下来的主成分分析提供了依据。

4.2.2 主成分分析。

对表1中的数据完成原始数据标准化处理和特征值计算之后,依据累积贡献率大于等于85%的原则提取了3个主成分(见表3),这部分由公式1、公式2和公式3完成。KMO(Kaiser-Meyer-Olkin Measure)检验值为0.841>0.8,说明很适合作主成分分析。

4.2.3 回归分析及检验。

由上述主成分分析可得到回归分析的三个自变量,见表4:

根据多元线性回归的假设模型,进行了回归分析,这部分由SPSS17.0自动完成。估计结果如表5所示, R2=0.92841,说明模型整体拟合得很好,另外,解释变量的显著性检验也全部通过。

因此,得到的回归模型为:

Y=0.007+0.175F1+0.073F2+0.143F3

由于主成分F1,F2,F3是原自变量X1,X2,X3,…X15的线性组合,为了得到用标准化自变量表示的回归方程,由三个主成分的系数向量组成的矩阵和主成分回归系数向量估计值,可得到:

Y=0.007+0.125X1+0.127X2+0.1X3+0.208X4+0.139X5+0.151X6+0.119X7+0.124X8+0.121X9+0.12X10+0.162X11+0.151X12+0.127X13+0.123X14+0.121X15

5 结论及建议

由回归模型可以看出,资源类因素(X1,X2)所占权重不是很大,这两类指标分别增长1%,会使铅锌产量增长0.125%和0.127%。资源类因素曾经是影响产业布局重要因素之一,并且会决定产业布局的基本格局,但是随着交通运输业的发展和资源在全球范围内的重新配置,其决定性作用正在弱化。

发电量(X4)在所有影响因素中占据最大的权重,即对铅锌产量所产生的影响最大,因为铅锌冶炼能源消耗量仅次于电解铝,分别为1400万千瓦时和3500万千瓦时,所以在进行布局调整的过程中必须充分考虑到地区电力供应能力。在能源类因素中,煤炭基础储量所占权重是所有影响因素中最小的,与发电量形成很大的发差,可见煤炭基础储量对铅锌产业布局的影响不是很大。

在环境类因素中,工业废水排放量(X5)和工业废气排放量(X6)所占权重分别为0.139和0.151,与其他因素相比,权重比较高,这也充分反映了铅锌产量的增加还是会以一定的环境污染为代价,这给地区环境带来一定的负面影响,同时也反映了铅锌产业发展环保产业的重要性。

地区经济因素的平均权重是所有一级指标中最高的,这与相关的产业布局影响因素研究结果相契合,地区经济因素决定了地区投资水平、市场化水平和工业基础设施建设水平等,地区经济发展水平和工业发展水平是相辅相成的,说明地区经济因素对铅锌产业布局较大的影响力。

交通运输因素中的公路货运量(X8)、铁路货运量(X9)和水路货运量(X10)对铅锌工业布局的影响力不是很大,因为随着国家交通基础设施的不断完善和发展,地区间交通运输平均水平差距逐渐缩小,所以对产业布局的影响力比较小。

地区科研因素中除了R&D经费(X13)所占权重比较高以外,另外两个影响因素权重都比较低,R&D经费投入的大小对地区的科技创新和吸引科研人才有直接的影响,科学技术的影响力已经渗透到了社会经济的每一个领域,对于铅锌产业来讲也不例外,铅锌产业技术的优化升级决定了其产品结构的改善和产品附加值的提搞,所以在布局的同时要充分考虑到地区R&D投入水平。相对而言,高校毕业生和科研人员权重比较小是因为现代人才流动性比较大,随着地区工业经济的不断发展,高质量型人才会不断流向该地区,所以在选中目标布局地区之后,相应的保障政策也必须到位。

从铅锌产业布局一级影响因素来看,地区经济因素、地区科研因素、能源因素和环境因素是应重点考虑的布局影响因素,具体到二级指标,发电量、地区生产总值、地区固定资本投资、工业废水和废气排放量以及R&D经费都是权重比较高的因素,对铅锌产业布局影响力比较大。

通过以上分析,铅锌产业布局调整需要重点考虑这些因素。在地区经济因素和科研因素方面,国家和地区都要做出相应的努力,保障铅锌产业重大项目的规划和实施,保证资金与科研人才的供给。考虑到能源,除了地区本身要具备一定的能源基础,该地区周边也要有相应的能源供给,国家在有色金属发展战略中强调了利用好国内外两种资源,考虑到提高国内资源保障力,要加快利用国际资源市场的步伐。环境问题一直以来都收到了广泛的重视,不合理的工业布局对地区环境会产生极大的负面影响,在进行布局评估的过程中,要充分考虑地区环境承载力,对于环境承载力本身比较差的目标地区要坚决淘汰,同时要通过合理的布局减少铅锌产业本身对环境造成的污染。同时铅锌产业要大力发展循环经济,我国再生铅锌的产量跟日本和德国等发达国家相比还相差甚远,在倡导建设资源节约型社会的今天,铅锌产业布局的调整必须充分考虑到环境因素。

参考文献

[1]蒋继穆.我国铅锌冶炼现状与持续发展[J].中国有色金属学报,2004(14):52-62

[2]中华人民共和国国务院.有色金属产业调整和振兴规划[EB/OL].(2009-5-11).http://news.xinhuanet.com/fortune/2009-05/11/content_11352152.htm

[3]BADRI M A.Dimensions of Industrial Location Factors:Review andExploration[J].Journal of Business and Public Affairs,2007(2):1-26

[4]刘斯康,王水嫩.用产业集群理论来规划新的产业布局[J].当代财经,2003(7):118-126

[5]陈仲常,郭雅.中国工业布局变动趋势及其主要影响因素研究[J].上海财经大学学报,2010(5):50-56

[6]LEITHAM S,MCQUAID R,NELSON J.The Influence of Transporton Industrial Location Choice:a stated preference experiment[J].Transportation Research,2000(34):515-535

[7]蒋昭侠.产业布局影响新因素与产业布局的模式选择[J].企业管理,2004(12):96-98

[8]汪晓春.我国有色金属工业布局和结构的现状、问题及对策[J].中国经贸导刊,2005(4):55-57

[9]陈小毅,周德群.关于我国煤电产业布局重构的战略思考[J].科技管理研究,2010(10):201-203

[10]韦伯.工业区位论[M].北京:商务印书馆,2009

[11]刘罗曼.用主成分回归分析解决回归模型中复共线性问题[J].沈阳师范大学学报:自然科学版,2008

主成分回归模型 篇7

在油田利用抽油机进行采油过程用电能耗分析中,影响抽油机用电能耗的因素很多,例如冲程长度、冲程次数、泵径、泵挂、举升高度、排量系数及电机铭牌功率等等多大20种[1]。如果我们应用所有的因素进行分析,其数据量是巨大的,分析的难度是不可想象的[2]。实际中传感器所采集的上述变量都对抽油机用电能耗有影响么?答案是否定的。但是带来的问题是都哪些因素对于分析抽油机用电能耗占主要的影响?我们能否通过主要的影响因素来实现抽油机用电能耗的准确预测?上述问题的研究成为当前学者所要解决的关键技术问题[3]。

众所周知,在研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

本文针对如何约简抽油机进行采油过程用电能耗分析中影响因数数量,解决油田抽油机用电经济预测问题,并以抽油机耗电情况技术指标为研究对象,提出基于因子_主成分回归分析的抽油机耗电技术分析研究,建立了抽油机耗电动态的多元线性回归模型。分析了被选为与抽油机耗电情况相关的参数之间存在的多重共线性问题,并分析该问题对线性回归分析结果造成的影响。提取影响抽油机耗电情况主成分,并以主成分因子为新的自变量建立主成分回归方程,消除了多重共线性对回归模型的影响,提高了预测的精度。最后对测试结果进行了比较和验证,表明了方法的有效性。

一、主成分分析

主成分分析(Principal Componential Analysis, PCA),又称主成分回归分析,是一种多元统计分析技术。其中心目的是将数据降维[4],它借助于一个正交变换,将分量相关的原随机变量转化成分量不相关的新随机向量,同时根据需要从中取几个较少的随机变量尽可能多地反映原来指标的信息。通过主成分分析能够客观地确定各指标的权重,避免主观随意性带来的偏差,对多指标变量进行科学评价[5,6,7,8]。

将影响抽油机用电能耗的因素变量矩阵X的p个变量做线性组合如下:

即Y=UX (2)

其中:

(1) X是影响抽油机用电能耗的因素变量。

(2) 矩阵U的每一行都是单位行向量, 即

(3) Y是系统的用电能耗,其中,Yi与Yj()之间不相,Y1是的一切线性组合(系数满足条件1)中方差最大的;Yi是与都不相关的一切线性组合中方差最大的。

主成分分析的主要思想是:从自变量中提取出新的变量,这些变量是原变量的适当的线性组合,并且互不相关。可以利用因子—主成分分析的方法对自变量进行分析,得到新变量,然后从中,选择少数几个变量,它们含有尽可能多的原变量信息,再对这些变量进行回归分析,从而建立主成分回归方程,以消除多重共线性对回归模型的影响,提高预测的精度。

二、多元非线性回归

回归模型分为线性回归模型和非线性回归模型,线性回归又有一元线性回归和多元线性回归之分。当变量之间的关系是线性关系的模型都称为线性回归模型,否则就称为非线性回归模型。

结合影响抽油机用电能耗的主要因素,即冲程长度、冲程次数、泵径、泵挂、举升高度、排量系数及电机铭牌功率等。我们对抽油机的用电能耗进行测试,并对其进行回归分析可得回归方程为:

式中,y为抽油机用电能耗,kw/h;S为冲程长度,m;N为冲次,min-1;D为泵径,mm;L为泵挂,m;H为举升高度,m;a为排量系数,%;PN为电机铭牌功率,kW;为回归系数[12]。

对其进行F检验,结果表明回归方程是显著的,回归值与实测值相比的最大偏差为6.6%,绝大部分回归值偏差小于5%,回归精度较高。

三、基于因子-主成分回归分析理论的油田机井用电经济预测研究

电机功率、含水度产液量、抽汲参数等14个参数等作为选取指标,将这些参数进行因子主成分分析之后,会获得少数不相关的新的变量,利用这些新的变量可以通过主成分回归分析直接预报耗电量的大小。然后将该预报值与实际工程测量值值进行误差修正。

图1为因子特征根分析的碎石图,其以因子的次序为X轴、以特征根大小为Y轴,由图可知,本例中因子特征根呈下降趋势。这个趋势线的头部快速下降,而尾部则变得平坦。高于回归线的点代表主要的因子,回归线两旁的点代表次要因子。对于油田抽油机用电经济预测问题中,可以宏观地看出前4个成分的特征值贡献较大,后面10个成分的特征值贡献较小。这样就可以确定前4个成分为主成因子。

表1即数据相关阵的具体特征值,前4个成分特征值累积占了总方差的70.352%。后面的特征值的贡献越来越少。

原始的14个向量可以用主成分表示,其组合形式可以由表2得出,而这14个变量又可以由新的4个相互独立的新变量的线性组合表示,其组合形式同样可以由表2得出。

其中每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分作为14个原先变量的线性组合,系数(比例)为0.234, 0.379, 0.569, 0.817,-0.828, 0.710, 0.533,-0.478,-0.345, 0.872, 0.284, 0.446, -0.022, -0.795

如用x1, x2,…,x14分别表示原先的14个变量,而用y1, y2,…,y14表示新的主成分,那么,原先14个变量x1, x2,…,x14与第1、第2、第3、第4主成分y1, y2, y3, y4的关系为:

这些系数称为主成分载荷,它表示主成分和相应的原先变量的相关系数。

比如x1表示式中y1的系数为0.234,这就是说第一主成分和数学变量的相关系数为0.234。

相关系数 (绝对值)越大,主成分对该变量的代表性也越大。可以看得出,第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了[13]。

为了验证以主成分因子为新的自变量建立主成分回归方程的预测的精确性,下面利用支持向量机的多元非线性回归软件进行测试对比分析。得到的模型预测实际结果如下图所示:

从上图可见,图2 (c) 为以主成分因子为新的自变量建立主成分回归方程进行预测的实际值与预测值曲线对比,而图2 (d) 为以传统数学模型而非主成分分析法进行预测的实际值与预测值曲线对比,可见前者的实际值与预测值的误差相对较小,而后者的实际值与预测值的误差相对较大,即前者的预设定精度明显优于后者。因此,采用以主成分因子为新的自变量建立主成分回归方程的方法进行预测,能够油田机井耗电量预报偏差的绝对值均值有明显的降低,消除多重共线性对回归模型的影响,提高预测的精度。

四、结论

通过本文提出的基于因子_主成分回归分析的抽油机耗电技术分析研究,建立了抽油机耗电动态的多元线性回归模型。通过对测试结果的比较,证实了在采用该种方法后,可以大幅度提高油田机井用电经济的预报精度,而且该种结合方式对网络结构的简化也有明显的作用,可以推广到其他类似数学模型的预测过程,为今后水驱井的优化设计奠定了基础,具有较好应用空间和推广前景。H

摘要:本文针对油田抽油机用电经济预测问题, 以抽油机耗电情况技术指标为研究对象, 提出基于因子——主成分回归分析的抽油机耗电技术分析方法, 建立了抽油机耗电动态的多元线性回归模型。分析了被选为与抽油机耗电情况相关的参数间存在的多重共线性问题, 及该问题对线性回归分析结果造成的影响。提取影响抽油机耗电情况主成分, 并以主成分因子为新自变量建立主成分回归方程, 消除了多重共线性对回归模型的影响, 提高了预测的精度。最后对测试结果进行了比较和验证, 表明了方法的有效性。

主成分回归模型 篇8

电力预测是指利用历史数据来预测未来时刻的用电量,是能量管理系统(EMS)的一个重要组成部分,在我国的电力系统管理中已经成为现代化管理不可或缺的因素,在电力系统制定地区间的功率传输方案与负荷调度方案时具有重要作用。有效提高电力预测精度,有助于电力系统经济运行,是合理进行电力系统调度、用电与规划的重要依据之一。

1主成分分析算法原理

主成分分析是一种统计方法。当处理实际问题遇到多个变量之间可能存在一定的相关性,并且变量的个数较多且变量之间存在复杂的关系时,通过主成分分析可以达到降维减轻分析难度的目的。该方法原理为将原来众多具有一定相关性的变量,重新组合成为一种新的相互无关的综合变量,主要步骤如下:

(1)对原始数据进行标准化处理,若样本数据矩阵如下:

对原始数据进行标准化处理:

其中:

(2)计算样本相关系数矩阵:

(3)计算相关系数矩阵R的特征值和相应的特征向量:

特征值:λ1,λ2,…λp。

特征向量:ai=(ai1,ai2,…aip),其中i=1,2,…,p。

(4)选择重要的主成分:由主成分分析算法可以得到p个主成分,根据主成分的贡献率大小来选择前n个主成分。此处的贡献率指的是某个主成分的方差占全部方差的比重,即某个特征值占全部特征值和的比重。

(5)计算主成分得分:

具体形式如下:

其中,i=1,2,…,n;j=1,2,…,k。

(6)根据主成分分析的数据对后续问题进行评估分析。

2多元回归算法原理

多元回归是一种处理变量的统计相关关系的数理统计方法,其基本思想是:虽然自变量和因变量之间没有严格的、确定性的函数关系,但可以设法找出最能代表它们之间关系的数学表达形式。其模型及矩阵表示如下:

随机变量y受p个非随机因素x1,x2,…,xp和随机因素ε的影响,即:

y=β0+β1x1+…+βpxp+ε

式中,y为被解释的变量;xi为解释变量;ε为不可测的随机误差,且通常假定ε~N(0,δ2)。

E(y)=β0+β1x1+…+βpxp被称为理论回归方程。

对于一个实际问题,要建立多元回归方程,首先要估计出未知参数β0,β1,…,βp。为此我们要进行n次独立观测,得到n组样本数据(xi1,xi2,…,xip;yi)。即有:

上式又可表示为:

其中:

In为n阶单位矩阵;X为n×(p+1)阶资料矩阵并为满秩。

3构建模型与预测步骤

3.1使用主成分分析的多元回归算法预测用电量

建模和预测的大致步骤如下:

(1)读取表格里的历史用电数据;

(2)形成主成分分析的样本;

(3)主成分分析计算相应权值;

(4)构成主成分因素与驱动因素的关系;

(5)重构输入空间做多元回归的输入;

(6)多元回归训练计算相应权值;

(7)构建多元回归分析模型;

(8)获取预测值;

(9)与实际值相比较进行误差分析与统计。

3.2案例分析(数据来自互联网)

采用广东电网公司2014—2016年每月数据的部分作为训练样本(表1),使用主成分分析法对数据进行预处理作为多元回归的输入进行预测。

预测结果如表2和表3所示。

由表2、表3可知主成分分析的多元回归预测方法相对误差(准确率)绝对值在2.17%~2.86%之间,其中最大误差为2.86%,最小误差为2.17%。

4结语

通过上例可以看出,主成分分析在保留电力数据主要信息的前提下,除去了数据间的相关性,达到了降维重构空间的目的,将重构的空间作为多元回归的输入不仅减少了输入量而且提高了预测的精确度,由此可见,这是一种可行和有效的预测方法。

摘要:在电力生产部门,电力预测一直是一项重要工作,通过引入多元回归算法建立相应的模型能提高电力预测的精确程度。多元回归是一种处理变量的统计相关关系的数理统计方法,现通过主成分分析来重构输入空间,以改进模型预测精度。

关键词:电力预测,主成分分析,多元回归算法,模型

参考文献

[1]程其云,王有元,陈伟根.基于改进主成分分析的短期负荷预测方法[J].电网技术,2005,29(3):64-67.

[2]牛东晓,曹树华,赵磊,等.电力负荷预测技术及其应用[M].北京:中国电力出版社,1998.

[3]李慧姣.基于主成分分析法的遗传神经网络短期负荷预测的研究[D].长沙:湖南大学,2012.

上一篇:脑室外引流术下一篇:发电备用论文