主成分分析法

2024-10-15

主成分分析法(精选12篇)

主成分分析法 篇1

摘要:依据线性降维与非线性降维的分类原则,分别选择主成分分析法和核主成分分析法对某双层圆柱壳体在不同工况下的机械噪声数据进行降维;然后使用神经网络和支持向量机两种方法分别计算噪声数据在降维前后的正确识别率,以比较不同降维方法的降维效果,从而确定适合于某双层圆柱壳体机械噪声数据的降维方法。

关键词:主成分分析法,核主成分分析法,核函数,神经网络,支持向量机,机械噪声,降维

0 引言

双层圆柱壳体的水下噪声主要来源于自身的机械设备[1],此类噪声属于机械噪声。为了全面分析此类噪声的特点及规律,需要采用尽可能多的特征量进行表征。由于特征量很多,且特征量之间往往存在相关关系,因此很难直接抓住它们之间的主要关系,这就需要一种简化数据的方法使高维数据降维,以便获得噪声数据的主要信息。通过降维可以有效去除机械噪声数据中的冗余信息,从而降低数据分析处理的难度。

目前,数据降维方法主要分为两大类[2]:线性降维和非线性降维。主成分分析法(PCA)因为其概念简单、计算方便、线性重构误差最优等优良的特性,成为数据处理中应用最广泛的线性降维方法之一。核主成分分析法(KPCA)作为PCA方法在处理非线性问题时的扩展,近年来得到了快速发展。

本文将PCA方法和KPCA方法,应用于某双层圆柱壳体机械噪声数据的降维之中,然后使用神经网络(NN)和支持向量机(SVM)两种方法分别计算噪声数据降维前后的正确识别率,通过正确识别率比较PCA方法和KPCA方法的降维效果,从而选择更适合于这种双层圆柱壳体机械噪声数据的降维方法,并由此初步分析出噪声数据的线性或非线性特点。

1 PCA方法与KPCA方法的基本原理

PCA方法是一种基于二阶统计的数据分析方法,该方法在各个变量之间相关关系研究的基础上,用一组较少的、互不相关的新变量(即主元)代替原来较多的变量,而且使这些新变量尽可能多地保留原来复杂变量所反映的信息,具体计算步骤见文献[3]。

KPCA方法是一种非线性主元分析方法[4]。其主要思想是通过某种事先选择的非线性映射Φ将输入矢量X映射到一个高维线性特征空间F之中,然后在空间F中使用PCA方法计算主元成分。在高维线性特征空间中得到的线性主元实质上就是原始输入空间的非线性主元。

设xi∈Rd(i=1,2,…,n)为输入空间的d维样本点。通过非线性映射Φ将Rd映射到特征空间F,即

F中的样本点记作φ(xi)。

非线性映射Φ往往不容易求得,KPCA方法通过使用核函数来完成从输入空间到特征空间的非线性映射。定义核函数k(xi,xj)=〈φ(xi),φ(xj)〉,这样特征空间中两向量的内积可以用输入空间中的两变量的核函数来表示。

核函数是满足Mercer条件的任意对称函数(实正定函数),常用核函数的特性如下:

(1)高斯径向核:

(2)多项式核:

(3)Sigmoid核:

其中,a、b、c、d、e、f为选定的参数,通常取s(xi,xj)=xTixj。

KPCA方法只需要在原空间中计算用作内积的核函数,无需知道非线性映射函数φ(x)的形式,也无需计算非线性变换,具体计算步骤见文献[5]。

PCA方法与KPCA方法已广泛应用于特征提取、数据压缩、图像降噪、分类识别、综合评价以及过程监视等诸多领域。

2 双层圆柱壳体机械噪声数据

在获取某双层圆柱壳体的机械噪声数据时,设定8个不同工况,如表1所示。

在壳体的不同位置布置19个加速度传感器(每个传感器称为一通道),测定不同工况下的噪声数据。采样时间为8s,采样频率为2048Hz。

由于在同一个通道下的采样点较多,且特征单一,不易分析其规律特点,因此对样本点进行预处理:

(1)选定信号处理中常用的10个特征量,即波形因数、峰值因数、脉冲因数、振动加速度总级、期望、方差、标准差、三阶累量、四阶累量和有效值。

(2)以2048个相邻样本点为一个样本段,并以70个样本点为步长,将样本段逐步向后平移,即可在16 384个样本点内得到约205个样本段。

(3)取前200个样本段,在每个样本段内计算选定的10个特征量。

本文重点是比较PCA方法与KPCA方法的降维效果,故只选取10个常用的特征量作为例子,实际上可以选择更多的特征量以更全面地表征噪声数据。

预处理后,在每一工况下的每一通道上可得到一个10×200(10是维数,200是样本量)的噪声数据,则在8种工况下,每一条通道上可得到8个10×200的噪声数据。

3 PCA方法与KPCA方法的主元数目

对上述噪声数据首先选择PCA方法降维,并依据累积贡献率大于0.85的门限值选择主元个数[3]。8种工况下,每一通道上噪声数据的PCA主元计算结果如表2所示。

由表2可知,8种工况下,在19条通道上的噪声数据经PCA方法降维后的主元个数为3的情况占67.1%,主元个数为2个的情况占30.9%,两种情况合计占98%。因此,为保证降维后的数据能够保留原始噪声数据足够多的信息,使用PCA方法降维时统一取3个主元。

本文主要比较PCA方法与KPCA方法对机械噪声的降维效果,因此使用KPCA方法时也取3个主元。

4 PCA方法与KPCA方法降维效果比较

4.1 比较方法

神经网络与支持向量机是模式识别领域最常用的两种方法。神经网络是一种基于经验风险最小原理的方法,它以分布式方式存储信息,具有高度的并行性、较强的自学习自适应性、良好的容错性和联想记忆功能,主要用于解决复杂的分类问题[6]。支持向量机是在Vapnik[7]建立的统计学习理论基础上发展起来的机器学习算法,它主要基于VC维理论和结构风险最小化原理,能够很好地解决训练样本较少时的分类问题[8]。目前这两类方法已广泛应用于分类识别、故障诊断和入侵检测等领域之中[9,10,11,12]。

本文主要使用神经网络和支持向量机对不同工况下的噪声数据进行分类识别,通过对噪声数据的正确识别率,比较PCA和KPCA两种方法降维效果的好坏。

在某通道上,设第i个工况下的机械噪声数据为Xi(i=1,2,…,8),Xi是10×200的数据。若每一噪声数据选择k个样本作为训练样本,l个样本作为测试样本,分别得到X′i、X″i,这里X′i是10×k的数据,Xi″是10×l的数据。则神经网络和支持向量机的输入数据如下:

训练输入

X′=(X′1,X′2,…,X′8)

测试输入

X″=(X″1,X″2,…,X″8)

某双层圆柱壳体机械噪声数据经过降维后,若保留原始信息越多,则来自不同工况下的组合数据经过NN或SVM分类后的正确识别率就会越高;反之,正确识别率就会越低。在每一通道下,使用NN和SVM计算噪声数据降维前和分别经PCA方法、KPCA方法降维后的正确识别率。依据正确识别率比较两种降维方法的降维效果,同时也比较KPCA方法在选择不同核函数时的降维效果。降维后,X′i和X″i分别为3×k的数据和3×l的数据。

本文使用的神经网络为BP神经网络,支持向量机工具箱为stprtool,训练样本个数和测试样本个数取k=l=5,运行平台均为MATLAB7.1。

4.2 KPCA方法在不同核函数时的降维效果比较

KPCA方法是基于核函数的学习方法。核函数反映了样本在高维特征空间中彼此的相似程度,而样本之间的相似程度一旦给定,样本间的分类其实也就基本上确定了。一个好的核函数,会使同类的样本相互靠近,使异类的样本相互远离。正确选择核函数和核参数将会提高KPCA方法的整体性能。

计算可知,对于文中的噪声数据使用KPCA方法降维时,选择Sigmoid核函数得到的s(xi,xj)较大,此时k(xi,xj)总趋向于1。因此,本文只选取高斯径向核函数和多项式核函数进行计算,且b=c=1,a与d根据经验在一定范围内取值。

根据经验,使用高斯径向核函数(称为KP-1方法)和多项式核函数(称为KP-2方法)时,选择核参数a、d的取值范围为0.1~1,步长为0.1。经MATLAB编程计算,其结果如表3所示。

表3中,第3、5、7、9列分别是KP-1方法与KP-2方法在各自核参数取值范围内得到的正确识别率最大值,此时a与d分别为对应的核参数值。可以看出:使用神经网络进行分类识别时,KP-1方法正确识别率高于KP-2方法正确识别率的有8条通道,小于KP-2方法正确识别率的有6条通道,两者相当的有5条通道,即KP-1方法的降维效果稍好;使用支持向量机进行分类识别时,KP-1方法正确识别率高于KP-2方法正确识别率的有11条通道,小于KP-2方法正确识别率的有7条通道,两者相当的有1条通道,即KP-1方法的降维效果明显较好。

两种识别方法在19条通道上的运行总时间和单通道上运行的平均时间如表4所示。

由表3中的正确识别率和表4中的运行时间可知,同等条件下神经网络方法和支持向量机方法在识别能力方面差别不大,但是支持向量机方法的运算速度要快得多。因此对于某双层圆柱壳体的机械噪声数据,在使用KPCA方法进行降维处理时,最好选择高斯径向核函数,并通过支持向量机方法进行分类识别分析。

4.3 PCA与KPCA方法的降维效果比较

对8个不同工况下的机械噪声数据组成的混合数据分别使用NN和SVM计算降维前后的正确识别率,其结果如表5所示。

比较表5中计算结果可知,不论使用哪种识别方法,降维前的正确识别率都比降维后的正确识别率高(至少相等),而由KPCA方法降维后得到的正确识别率在绝大部分通道上要比PCA方法降维后的正确识别率高。也就是说,数据降维后会损失掉一部分原始信息,造成正确识别率下降,但是对于某双层圆柱壳体的机械噪声数据来说,在主元数目相同的条件下,只要选择合适的核函数及核参数,就能保证使用KPCA方法降维后保留的信息要比使用PCA方法降维后保留的信息要多,即KPCA方法的降维效果要好。

5 结束语

事实上,可将本文中的10个特征量扩展到几百个甚至上千个,此时的噪声数据属于典型的高维数据,分析其结构前先进行降维就显得十分必要。通过本文对PCA方法和KPCA方法实际应用的比较可知:在主元数目相同(即数据结构的复杂度相同)的条件下,由于将数据特点的研究范围从线性扩大到非线性上,从而使得使用KPCA方法降维比使用PCA方法降维保留的原始数据信息更多,效果更好,因此,对某双层圆柱壳体机械噪声数据降维时,应优先考虑使用非线性降维方法——KPCA方法,且选择高斯径向核函数效果更好。

参考文献

[1]施引,朱石坚,何琳.舰船动力机械噪声及其控制[M].北京:国防工业出版社,1990.

[2]吴玲达,贺玲,蔡益朝.高维索引机制中的降维方法综述[J].计算机应用研究,2006,23(12):4-7.

[3]Jolliffe I T.Principal Component Analysis[M].2nded.New York:Springer,2002.

[4]Scholkopf B,Smola A,Muller K R.Nonlinear Com-ponent Analysis as a Kernel Eigenvalue Problem[J].Neural Computation,1998,10(5):1299-1319.

[5]Rosipal R,Girolami M,Trejo L J,et al.Kernel PCAfor Feature Extraction and De-noising in Non-lin-ear Regression[J].Neural Computing and Applica-tions,2001,10(3):231-243.

[6]王洪远,史国栋.人工神经网络技术及其应用[M].北京:中国石化出版社,2002.

[7]Vapnik V N.The Nature of Statistical LearningTheory[M].New York:Springer-Verlag,1995.

[8]Vapnik V N.Statistical Learning Theory[M].NewYork:Wiley,1998.

[9]Suykens J A K,Vandewalle J.Least Squares Sup-port Vector Machine Classifiers[J].Neural Process-ing Letters,1999,9(3):293-300.

[10]Wu J N,Wang J,Liu L.Feature Extraction via KPCAfor Classification of Gait Patterns[J].Human Move-ment Science,2007,26(3):393-411.

[11]高海华,杨辉华,王行愚.基于PCA和KPCA特征抽取的SVM网络入侵检测方法[J].华东理工大学学报(自然科学版),2006,32(3):321-326.

[12]鲁书贤,刘正熙,刘显宾,等.基于SVM和NN的空管手写符号的识别研究[J].四川大学学报(自然科学版),2008,45(4):790-794.

主成分分析法 篇2

主成分分析法和因子分析法都是用少数的几个变量(因子)来综合反映原始变量(因子)的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.并且新的变量彼此间互不相关,消除了多重共线性.这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量.在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,...,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到.在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分.公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子.对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度.聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系.也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3 ].聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集.对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用.(二)不同之处

主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成分(变量),使它们尽可能多地保留原始变量的信息,且彼此不相关.它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0 ,或样本向量彼此相互垂直的随机变量),在这种变换中,保持变量的总方差(方差之和)不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分.依次类推.若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出m(m < p)个主成分就够了,只要这m 个主成分能反映原来所有变量的绝大部分的方差.主成分分析可以作为因子分析的一种方法出现.因子分析是寻找潜在的起支配作用的因子模型的方法.因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子.对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量.通过因子分析得来的新变量是对每个原始变量进行内部剖析.因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分.具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态.因子分析只能解释部分变异,主成分分析能解释所有变异.聚类分析算法是给定m 维空间R 中的n 个向量,把每个向量归属到k 个聚类中的某一个,使得每一个向量与其聚类中心的距离最小.聚类可以理解为: 类内的相关性尽量大,类间相关性尽量小.聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律.从三类分析的基本思想可以看出,聚类分析中并没于产生新变量,但是主成分分析和因子分析都产生了新变量.三、数据标准化的比较

主成分分析中为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为0方差为1 的无量纲数据.而因子分析在这方面要求不是太高,因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,并且因子变量是每一个变量的内部影响变量,它的求解与原始变量是否同量纲关系并不太大,当然在采用主成分法求因子变量时,仍需标准化.不过在实际应用的过程中,为了尽量避免量纲或数量级的影响,建议在使用因子分析前还是要进行数据标准化.在构造因子变量时采用的是主成分分析方法,主要将指标值先进行标准化处理得到协方差矩阵,即相关矩阵和对应的特征值与特征向量,然后构造综合评价函数进行评价.聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果.因此在聚类过程进行之前必须对变量值进行标准化,即消除量纲的影响.不同方法进行标准化,会导致不同的聚类结果要注意变量的分布.如果是正态分布应该采用z 分数法.四、应用中的优缺点比较(一)主成分分析

1、优点

首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息.其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价.再次它在应用上侧重于信息贡献影响力综合评价.2、缺点

当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确.命名清晰性低.(二)因子分析

1、优点

第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高.2、缺点

在计算因子得分时,采用的是最小二乘法,此法有时可能会失效.(三)聚类分析

1、优点

聚类分析模型的优点就是直观,结论形式简明.2、缺点

主成分分析法 篇3

[关键词] 超市商品结构 主成分分析 指标体系

一、商品结构的理论研究

目前理论界关于商品结构的研究还很少,基本的提法都是品类管理,品类管理中的品类结构就是狭义的商品结构,因此超市商品结构定义为指卖场有哪些品种商品,各种类型的商品占总量的比例多少。超市商品结构定位是否准确,关系到超市的经营方向和特色问题,简而言之,就是规定了这个超市卖什么、不卖什么的问题。

依据品类管理中的品类结构可以将商品结构分为四类,分别是:

1.大分类

它是连锁超市中最粗的分类。如生鲜、日配品、日用百货、家用电器等大分类。为了便于管理,连锁超市的大分类一般不宜过多。

2.中分类

它是大分类中细分出来的类别。例如:小家电可以分为吸尘器/空气清洁器/电扇,烹调器具,厨房用具,电熨斗/卫生间用品,电话/应答机/传真机,手表/闹钟/配件等。

3.小分类

它是中分类中进一步细分出来的类别。如厨房用具分为:抽油烟机、微波炉、碾磨机、开饮机、燃气灶、洗碗机、消毒柜、烘碗机、烘烤机、快餐炉、电水壶、电水瓶、水果榨汁机、多士炉、搅拌机、咖啡炉等。

4.单品类

单品是商品分类中不能进一步细分的、完整独立的商品品项。如青岛可口可乐饮料有限公司生产的355毫升听装可口可乐、1.25升瓶装可口可乐就是属于两个不同单品。一般情况下,把品类的结构分为大分类、中分类、小分类。

二、指标体系的建立

根据超市商品结构理论以及商品考核原则还有超市商品小分类方法,本文将定量基准分为8个指标和小分类商品种类(本文以厨房用品为例)。

1.销售额指标

销售额指标要细分为大分类商品指标、中分类商品指标、小分类商品指标及一些特别的单品项商品指标。现在大部分门店的销售系统与库存系统是连接的,后台电脑系统都能够整理出门店的每天,每周,每月的商品销售额。

2.商品贡献率

商品贡献率目的在于找出门店的商品贡献率高的商品,并使之销售得更好。

3.毛利率指标

根据超级市场品种订价的特征,毛利率指标首先是确定一个综合毛利率的指标,这个指标的要求是反映超市的业态特征控制住毛利率,然后分解综合毛利率指标,制定比例不同的类别商品的毛利率指标并进行考核。

4.客单价

客单价影响超市营业额高低的主要因素。

5.库存商品周转天数指标

这一指标主要是考核配送中心库存商品和门店存货的平均周转天数。

6.商品有效销售发生率指标

在超市市场中有的商品周转率很低,但为了满足消费者一次性购足的需要和选择性需要,这些商品又不得不备,但如果库存准备的不合理损失就很大。商品有效销售发生率就是考核配送中心档案商品(档案目录)在门店pos机中的销售发生率。如低于一定的发生率,说明一些商品为无效备货,必须从目录中删除出去并进行库存清理。

7.新商品引进率指标

为了保证各种不同业态模式超级市场的竞争力,必须在商品经营结构上进行调整和创新.使用新商品引进率指标就是对新的供应商和新商品的开发能力。

8.商品淘汰率指标

由于门店的卖场面积有限,又由于必须不断更新结构,当新商品按照考核指标不断引进时,就必须制定商品的淘汰率指标,一般商品淘汰率指标可比新商品引进率指标低10%左右,即每月低1%左右。

9.通道利润指标

一般通道利润可表现为进场费,上架费,专架费,促销费等。通道利润就成为一些超市的主要利润来源,这种状况在一些超市竞争激烈的地区已经发生。

10.商品损耗率

它将直接影响商品的贡献毛利。例如:日配商品的毛利虽然较高,但是由于其风险大,损耗多,可能会是赚得不够赔的。

三、主成分分析综合评判过程

运用主成分分析法,首先对原始数据进行标准化处理,计算变量之间的相关系数,形成相关系数矩阵,接着计算特征值和特征向量,据此计算贡献率和累积贡献率,一般取累积贡献率达85%以上的特征值为对应的主成分(主因子),然后计算主因子载荷量,最后根据特征向量和主因子载荷量计算各变量的主因子得分。在分析实际问题时,可只取前K个以累积贡献率达85%以上的特征值为对应的主因子来代表原变量的变差信息,以减少工作量,这是主成分分析法。

根据主成分分析的分析原理及步骤,运用SPSS统计分析软件包中的因子分析法,并采用主因子分析法提取公因子,计算出相关系数矩阵、因子载荷矩阵等,最终求得综合评价值,并据此进行排序。

本文采取10个指标,对某超市厨房用具进行分类得到了16种用具,应用主成分分析法对相关数据进行分析,得到了累计贡献表和因子载荷矩阵表。如表1。

表1完全变量解释表

由表1可以看出主因子个数为3个,满足累计方差贡献率83.311%大于75%。通过表2可以看出第一公因子则基本反映了客单价、商品损耗率、销售额指标、通道利润指标;第二公因子的含义较为清晰,基本反映了商品贡献率、商品淘汰率指标、毛利率指标、新商品引进率指标;第三公因子则基本反映了库存商品周转天数指标和商品有效销售发生率指标。这样,将每个公因子与对应的方差百分比进行线性加权求和,即可得出某一种类商品的综合评价,公式表示如下:

(i代表商品,i=1…16)

表2因子载荷矩阵

表3各商品综合评价及排序

四、结论

由表3可知各厨房用具中排名依次是抽油烟机、燃气灶、微波炉、烘烤机、洗碗机、消毒柜、电水壶、烘碗机、快餐炉、电水瓶、搅拌机、碾磨机、水果榨汁机、开饮机、咖啡炉及多士炉。这样就为厨房用具采购时提供了可行的依据,优化了超市的商品结构。同理,主成分分析可以应用到超市所有商品分类中。如何进行超市商品结构的优化,主成分分析起到了至关重要的作用。

参考文献:

[1]任若恩王惠文:多元统计数据分析——理论、方法、实践[M].国防工业出版社,1997

[2]于秀林任雪松编著:多元统计分析(第一版)[M].1999

[3]商界杂导社:中国零售业主要业态发展状况.销售与市场,2001 年第 9 期:24~36

[4]倪瑜唬霍佳震:超市品类管理及研究现状[J].上海管理科学,2002.5

主成分分析方法的应用研究 篇4

研究和应用中经常会碰到许多综合评价问题, 其本质是多指标决策问题, 多指标综合评价一方面增加了工作量, 另一方面淡化了主要指标的作用。对此, 可采用数理统计法对所考虑的众多指标经过正交化处理, 使其成为少数几个相互独立的综合指标, 再根据综合指标进行评价。主成分分析法恰为这种思路提供了数学依据。

2 主成分分析法简介

2.1 主成份分析

通过降维的思想来精简变量, 将多个相关的原始变量指标转化为几个独立的综合指标。主成分是原始变量指标的线性组合, 其转换的理念是让原始变量指标的线性组合的变异达到最大, 这样就可以尽量减少信息的损失, 仅利用几个重要的主成分就解释原始数据的大部分变异, 同时简化了问题, 能更好地揭示事物内部变量之间的规律, 提高分析效率。

2.2 主成分分析的数学模型

设原始样本 ×变量型数据资料阵

X= (xij) np≜ (X1, X2, …, Xp) ,

其中

X i= (xli, x2i, …, xni) T, i=1, 2, …, p.

用数据矩阵X的P个向量 (即p个指标向量) X1, X2, …, Xp 作线性组合 (即综合指标向量)

Fi =ali X1 +a2i X2 +…+api X p, i=1, 2, …, p, 其中, αundefined+αundefined=1, (i=1, 2, ..., p)

3 关于主成分性质

(1) 设p 个n 维随机向量X1, X2, …Xp协方差矩阵为 ∑, ∑的特征值为λ1≥λ2≥……≥λp>0, 相应的单位特征向量为:μ1, μ2, ……, μp, 则x的主成分可表示为:

Fi =μ′iX =μil X1 +μi2 X2 +…+ μipXp, i=1, 2, …, p,

记 μi= (μil, μi2, …, pi) T

(2) p个主成分均值为0, 且p个主成分不相关。

(3) 主成分的方差之和与原始变量的方差之和相等, 也就是说, 经过变化后, 变量间的变异性没有改变, 信息没有损失。

(4) 称undefined为第k个主成分的方差贡献率, 称undefined为前k 个主成分的累积方差贡献率。

在解决实际问题时, 一般不是取p个主成分, 而是根据累计贡献率的大小取前k个。如果前k个主成分的累积贡献率达到 85%, 表明取前 k个主成分基本包含了全部测量指标所具有的信息, 这样即减少了变量的个数有利于对实际问题的分析和研究。

(5) 若Fi =μ′i X是数据矩阵x的主成分, 则undefined是Yi 与Xk 的相关系数。

数据来源:数据来自于江西统计年鉴2009, 江西各区域经济发展的相关指标数据如表1所示。

4 使用条件

主成分分析适宜用于大样本的场合。

主成分分析要求变量之间有一定的相关关系。

5 应用

指标的选取衡量一个地区的发展情况, 既要注重某一产业的产值, 又应从社会生产的各个方面去考虑, 为各地区实现均衡发展提供理论依据。根据适当性和可得性原则, 选取江西各市为样本, 选取主要经济指标包括:地区生产总会值X1, 第二产业生产总值X2, 生产总值增长速度X3, 人均地区生产总值X4, 地区人均财政一般预算收入X5, 实际使用外资额X6, 五十万元以上固定资产投资额X7, 土地面积X8, 卫生工作人员数X9, 城乡居民储蓄存款余额X10, 第三产业生产总值X11, 社会消费品零售总额X12, 高等学校学生数X13。

运用SPSS13.0对江西各市主要经济指标进行主成分分析, 计算步骤如下:

(1) 对所给数据指标进行标准化处理, 得标准化数据表。

在实际问题中, 不同的变量往往有不同的量纲, 为了实现不同量纲数据之间的可比性, 以保证所提取的主成分与原始变量意义上的一致性, 在进行主成分分析之前按照以下公式将变量标准化。

undefined

其中, E (xi) 表示变量的期望, Var (xi) 表示变量的方差。

(2) 根据标准化数据表计算出相关系数阵R如表2。

(3) 求R的特征值λi 和贡献率。

(4) 根据累计贡献率达85%的原则选取前三个主成分, 各主成分表达式如下:

特征值λ1 =8.796的第一主成分:

Z1=0.11x1+0.099x2-0.002x3+0.077x4+0.108x5+0.104x6+0.11x7-0.021x8+0.076x9+0.095x10+0.107x11+0.111x12+0.111x13

特征值λ2 =1.851的第二主成分:

Z2=0.113x1+0.202x2+0.439x3+0.174x4+0.108x5-0.122x6-0.052x7+0.073x8-0.367x9-0.269x10+0.146x11+0.026x12-0.018x13

特征值 λ3 =1.277的第三主成分:

Z3=-0.007x1+0.086x2+0.138x3-0.416x4-0.003x5+0.01x6+0.08x7+0.738x8+0.097x9+0.117x10+0.092x11+0.011x12+0.009x13

由表3可以看出, 第一、第二主成分及第三主成分对方差的累积贡献率达到91.728%, 并以91.728%的精度将变量由13维降到3。另外, 综合得分 (z) 可依3个主成分进行综合评价, 利用第一主成分、第二主成分及第三主成分对全省11个市的主要经济指标情况进行排序, 并计算出综合得分和排序。

综合得分=第一主成分得分×8.796+第二主成分得分×1.851+第三主成分得分×1.277, 得到的结果如表4。

由表4可知, 南昌作为省会城市, 它是江西经济、文化、交通的重要枢纽。在汽车及零部件生产、光电产业、铜冶炼及精深加工产业、优质钢材深加工、航空产业等方面发展迅速, 带动着整个江西的经济发展。且经济发展水平是最好的, 显示出雄厚的经济基础和实力。新余的经济发展水平在我省排第二名, 南昌和新余是江西经济发展潜力最大的市。近年来, 新余市加快当地工业企业的快速发展步伐, 其光电产业、钢铁工业等较发达, 工业主导特征较明显;赣州市作为革命的摇篮, 是江西省重点发展的地方之一。九江、宜春、萍乡这三个市农业发展条件基础好, 充分发挥自己当地各自的特色和优势, 统筹安排, 大力发展经济。所以, 它们在经济发展中位于中上水平。相比之下, 余下的抚州、吉安、景德镇、上饶、鹰潭五个地区工业和第三产业欠发达, 自然资源未得充分地开发利用, 而且农业人口占据了很大的比例, 其经济发展水平相对较低。从而可知, 江西省各区市经济发展不平衡的现象较为明显。因此, 想办法缩小区域差距, 协调江西省各城市的经济发展才是促进江西经济发展的一条有效途径。

6 对策及建议

(1) 加强区域合作是实现江西加快发展的重要机遇。

作为长珠闽的共同腹地, 改革开放以来, 江西经济的发展形成了自己的特色, 在生产要素、基础产业等方面和长珠闽三个区域均具有较强的互补性, 有承接沿海产业转移的良好基础, 积极融入长珠闽, 实现更深层次和更广的领域合作, 既为长珠闽的发展提供了宽广的市场空间, 也为江西加快发展提供了重要机遇。

(2) 调整产业结构, 加速工业化进程。

我省经济发展的主要矛盾是工业化进程滞后, 而加速工业化的首要任务是调整结构, 增强工业经济活力, 进一步形成以工业化为主导的经济增长格局。主要可以通过全面调整工业所有制结构。另外还可以吸收民间投资, 尤其是东部和外商投资, 发展多元化的经济主体。支持支柱产业优先发展。努力改造传统产业。

(3) 加大投入, 发展第三产业。

要利用独特的区位优势、名山名湖等特点, 大力发展旅游、物流、服务等行业的第三产业, 加大城市特别是旅游区的基础设施规划建设, 不断完善服务行业硬件软件设施, 提高服务行业员工的整体文化素质, 创造优质的服务环境。

(4) 优先发展旅游业。

观光旅游是江西旅游的主导产品, 主要以名城、名山、湖为依托。以世界文化景观庐山、世界文化遗产三清山、龙虎山等为依托的名山观光旅游。在开发观光旅游产品时, 应不断增加和丰富产品的内容, 融知识性、文化性和参与性于一体, 提高现有观光旅游产品的档次, 以满足旅游者新的需求。同时在鄱阳湖地区开展生态湖泊建设, 大力发展生态旅游。加强井冈山、八一起义、瑞金等红色地区的革命传统教育旅游基地的开发。

参考文献

[1]叶双峰.关于主成分分析做综合评价的改进[J].数理统计与管理, 2001, 20 (2) :52-55.

[2]黄宁.关于主成分分析应用的思考[J].数理统计与管理, 1999, 18 (5) :44-52.

[3]何晓群.多元统计分析 (第二版) [M].北京:中国人民大学出版社, 2008.

[4]张文霖.主成分分析在SPSS中的操作应用[J].市场研究, 2005, (12) :31-34.

海洋经济与环境发展的主成分分析 篇5

海洋经济与环境发展的主成分分析

摘要:应用主成分分析方法,对大连海洋经济和环境发展两者之间的关系进行探讨,选取具有代表性、数据齐全的10项指标,对近4年来大连海洋经济和环境发展的情况进行定量分析,筛选出具有良好代表性的2个主成分,并以这2个主成分的贡献率进行加权平均,构造出综合评价函数.以此对大连市在这两者关系的`协调方面进行综合评价.在此基础上,提出海洋经济和环境协调发展的具体建议.作 者:蔡静    张翠霞    侯磊    CAI Jing    ZHANG CUI-xia    HOU Lei  作者单位:蔡静,CAI Jing(大连水产学院,人文法律系,辽宁,大连,116023)

张翠霞,ZHANG CUI-xia(中国科学院海洋研究所,山东,青岛,266071)

侯磊,HOU Lei(沪东造船厂,上海,200129)

期 刊:海洋环境科学  ISTICPKU  Journal:MARINE ENVIRONMENTAL SCIENCE 年,卷(期):2007, 26(3) 分类号:X22 P74 关键词:主成分分析    海洋经济    环境发展    海洋产业   

主成分分析法 篇6

关键词:农业信息化;评价;主成分分析法

中图分类号: S126 文献标志码: A

文章编号:1002-1302(2015)03-0398-04

党的十八大、十八届三中全会以及2014年中央农村工作会议对我国“三农”问题给予了高度关注,明确提出坚持走中国特色新型工业化、信息化、城镇化、农业现代化道路,为我国农业信息化发展提出了更高的要求。推进农业信息化是发展现代农业的现实选择,是促进农民增收的有效途径,是促进城乡一体化发展的客观要求。目前,我国农业信息化建设正在由以信息服务为主向农业生产、经营、管理、服务各领域并重转变,由以政府推动为主向政府引导、需求拉动并重转变,由以单项技术应用为主向综合技术集成应用转变[1-3]。但是,农业信息化行业发展的真实进度难以衡量,研究建立农业信息化发展水平的指标体系和评价方法,科学客观地测算我国农业信息化发展水平,有助于把握现代农业发展规律,梳理跨越式发展思路,制定切实可行的发展战略[4-5]。

美国经济学家Machlup等在知识产业理论基础上提出了信息经济的测算方法,这是最早对信息化水平测度进行的研究[6-7]。我国最早关于农业信息化评价可见于原国家信息产业部于2001年推出的国家信息化指标框架,近年来,国内学者运用多种方法对农业信息化水平的测度及影响因素等进行了研究[8-17]。主成分分析法是以统计数据为基础,筛选、简化指标体系典型的客观赋权方法,对变量较多、指标间有相互相关性的问题特别适用,具有权重确定客观、评价时不受各个评价指标间的相关性影响等特点[18]。本研究选择基于主成分分析法对农业信息化水平进行评价,以解决指标的相关性问题。

本研究以国家统计局数据为依据,建立了包括3个一级指标、9个二级指标的评价指标体系,采用主成分分析法对我国农业信息化水平进行研究,以期为我国政府部门准确判断和把握农业信息化的实现进程,制定相关农业信息化发展战略提供科学依据。

1 农业信息化评价指标体系构建

1.1 评价指标选取原则

农业信息化工作是一个复杂的系统工程,内容涵盖广,在指标选择过程中不能仅对各种指标进行拼凑和堆砌,要充分考虑到农业信息化的各方面。基于此农业信息化水平评价指标体系设计应该遵循以下原则[19]:(1)全面性原则。指标体系涵盖广,既能反映农业信息化基础支撑水平和农业信息化应用水平,又能反映农业信息化的效益水平。(2)可操作性原则。立足我国当前农业信息化发展实际,强调评价指标数据的可获得性。(3)导向性原则。指标体系必须结合国家对农业信息化的重大需求,以及农业信息化发展的自身规律和趋势,引导农业信息化发展方向。(4)科学性原则。指标体系的建立要有科学依据,指标选取应客观和真实地反映农业信息化的水平,要充分体现客观性、公正性和科学性。(5)实用性原则。指标选择能够具体指导各级政府部门开展农业信息化工作,便于执行。

1.2 评价指标体系建立

评价指标体系建立关键在于指标的选取,只有指标选取得当,才能得到充分发挥评价的作用,否则评价不仅徒劳无益,甚至还会给农业信息化建设造成负面影响。本研究借鉴相关学者的研究结果,通过规范化程序收集有关专家意见,从中提取一致信息,在遵循评价指标体系原则的基础上,构建了由农业信息化基础、农业信息化应用、农业信息化效益3个一級指标、9个二级指标构成的农业信息化水平评价指标体系(表1)。

2 基于主成分分析法的农业信息化评价

2.1 主成分法基本原理

利用主成分分析法可以把1组相关变量通过线性变换转成另1组不相关的变量,并且能够最大化的反映原来变量的信息[20]。数学模型为:

2.3 适用性检验

在得到农业信息化水平评价指标标准化数据之后,要进行适用性检验。常见的适用性检验方法有KMO 检验(Kaiser-Meyer-Olkin)和巴特莱特球形检验(Bartlett test of sphericity)。采用SPSS 17.0对数据进行处理,处理结果见表5。由表5可知,KMO值为0.789,大于0.5,说明该组指标数据可以作主成分分析。Bartlett的球形度检验结果相伴概率为0,小于显著性水平0.05,拒绝Bartlett球形度检验的零假设,因此认为本研究数据适合用主成分法来进行分析。

我国31个省(市、区)的农业信息化发展水平见表8。评价结果表明,北京、上海由于其本身政治、经济、文化的优势,在农业信息化发展领域位列前茅;东部省份中除海南排名靠后之外,其他省农业信息化发展水平均排在前列;中部各省份的水平虽然距东部有一定差距,但是发展也初具规模;西部省份除重庆、陕西、宁夏之外,农业信息化发展水平均相对落后,与东部、中部地区有一定差距。

3 结论

在前人研究的基础上,结合我国农业信息化发展实际,以全面性、可操作性、导向性、科学性、实用性为原则,构建了衡量我国农业信息化发展水平的评价指标体系,包括了农业信主成分分析法以统计数据为基础,具有权重确定客观、评价时不受各个评价指标间的相关性影响等特点,本研究选择主成分分析法作为构建农业信息化水平评价模型的方法,评价结果与中国农业信息化实际发展情况基本符合,说明该评价方法客观有效。

利用主成分分析法对中国31个省(市、区)的农业信息化法发展情况进行评价研究,评价结果表明,从全国范围来看,东部省份农业信息化发展水平普遍较好,西部省份则发展相对落后,但重庆、陕西、宁夏等西部省份的农业信息化也已经初具规模。

nlc202309031502

参考文献:

[1]陈晓华. 农业信息化概论[M]. 北京:中国农业出版社,2012.

[2]陈晓华. 抓住机遇 迎接挑战 扎实推进信息化与农业现代化全面融合[R]. 2013.

[3]李昌健. 我国农业信息化建设重点、难点及路径选择[J]. 农业科技管理,2014,33(4):1-4.

[4]李昌健. 加强全国农业信息中心体系建设的思考[J]. 农业科技管理,2014,33(3):1-4.

[5]李道亮. 我国农业信息化面临的新机遇与发展建议[J]. 山东农业科学,2013,45(10):125-128.

[6]Machlup F. The production and distribution of knowledge in the United States[M]. Princeton:Princeton University Press,1962:33.

[7]Porat M U. The information economy:definition and measurement[R]. Washington D C:US Department of Commerce,Office of Telecommunications,1977:47.

[8]Hu J,Yan Y,Lu J P,et al. A study on the informatization evaluation index system of manufacturing enterprises and evaluation standard[J]. Modular Machine Tool & Automatic Manufacturing Technique,2005,12:97-99.

[9]Rezaei-Moghaddam J K,Karami E. A multiple criteria evaluation of sustainable agricultural development models using AHP[J]. Environ Dev Sustain,2008,10:407-426.

[10]Tsitsika E V,Maravelias C D. Fishing capacity and capacity utilization of purse seiners using data envelopment analysis[J]. Fishing Science,2008,74:730-735.

[11]Chen G H,Chen Y T. The research progress & development trend of comprehensive evaluation methods[C]. Proceedings of 2002 International Conference on Management Science & Engineering. Harbin,2002:462-470.

[12]劉 玮,李燕凌,胡扬名. 县域农业信息化发展水平评价[J]. 江苏农业科学,2014,42(5):399-403.

[13]刘世洪,许世卫. 中国农村信息化测评方法研究[J]. 中国农业科学,2008,41(4):1012-1022.

[14]黄婷婷,[HJ1.9mm]李德华. 我国农业信息化水平的测度及影响因素分析[J]. 情报科学,2008,26(4):565-571.

[15]高 雅,甘国辉. 农业信息化评价指标体系初步研究[J]. 农业网络信息,2009(8):9-13,17.

[16]李 思. 基于DEA及超效率DEA模型的农业信息化评价研究[J]. 湖北农业科学,2011,50(6):1292-1294.

[17]张喜才,秦向阳,张兴校. 北京市农村信息化评价指标体系研究[J]. 北京农业职业学院学报,2008,22(1):42-46.

[18]袁志发,周静芋. 多元统计分析[M]. 北京:科学出版社,2002.

[19]袁晓庆. 农业信息化评价决策支持系统研究[D]. 北京:中国农业大学,2011.

[20]张 榕. 基于主成分法的兵团农业信息化发展测评分析[J]. 西昌学院学报:自然科学版,2011,25(1):64-67.

数学建模中的主成分分析法 篇7

关键词:主成分分析,数据分析,累计贡献率

全国大学生数学建模竞赛, 已经成为许多高校学生课外科技活动的重要项目, 人们也越来越关注数学建模竞赛。数学规划、微分方程、图论等是较为常见的建模方法。而近年来, 越来越多的数据处理题目出现在数学建模竞赛当中, 数据处理的任务是降低数据的维数, 保留数据的有用信息。主成分分析法作为一种主要的数据处理方法, 能够提取变量信息, 减少分析的维度, 使问题变得更简单、直观。因此, 尽快掌握主成分分析法的基本知识, 显得尤为迫切。下面介绍主成分分析法的基本知识, 利用主成分分析法的思想方法建立数学模型。

1 主成分分析的基本思想和数学模型

1.1 主成分分析简介

主成分这个概念由美国统计学家Karl Pearson在1901年提出, 当时只是进行了非随机变量的讨论。是从多指标分析出发, 运用统计分析原理与方法提取少数几个彼此不想关的综合性指标而保持其原指标所提供的大量信息的一种统计方法。

1933年Hotelling则将此概念推广到了随机变量中。主成分分析的原理, 是以较少数的综合变量取代原有的多维变量, 使数据结构简化, 把原指标综合成较少几个主成分, 再以这几个主成分的贡献率为权数进行加权平均, 构造出一个综合评价函数。作为一种多指标分析方法, 在综合评价函数中, 各主成分的权术为其贡献率, 它反映了该主成分包含原数据的信息量占全部信息量的比重, 这样确定权术是客观、合理的, 它克服了某些评价方法中人为确定权术的缺陷, 这种方法的计算比较规范, 便于在计算机上实现。

1.2 主成分分析基本思想

在许多实际问题中, 为了全面系统的反应问题, 我们通常用多个变量来刻画某一事物, 但由于这些变量间具有较强的相关关系, 变量间存在大量的重复信息, 直接用它们分析问题时, 往往会引起极大的误差。因此人们希望用较少的新指标代替原来较多的旧变量, 同时要求这些新指标尽可能的反应原来的信息。

一般来说, 主成分与原始变量之间的关系:

(1) 各主成分都是原始变量的线性组合。

(2) 主成分的个数远小于原始变量的个数。

(3) 各主成分之间互不相关。

(4) 主成分保留了原始变量的绝大部分信息。

1.3 主成分分析的模型

假设有n个样本, 有p个观测指标 (p<n) , 得到原始数据矩阵X= (X1, X2, …, Xp) , 其相关系数矩阵为R。数学上通常的做法是将原来p个指标做线性组合, 作为新的综合指标。记这些新的综合指标为Z1, Z2, …, Zk。最经典的方法就是用方差来表示。Z1, Z2, …, Zk这些新指标之间互不相关, 且方差递减。

因此, 计算相关系数矩阵的特征值为λ1≥λ2≥…≥λp, 向量l1, l2, …, lp为相应的单位特征向量, 则第i个主成分为

一般是按累计贡献量的大小取前k个, 多数情况下前几个主成分已代表了原来指标的大部分信息。

2 主成分分析法的计算步骤

主成分分析法做多指标评价的基本步骤如下:

i=1, 2, …, n, j=1, 2, …, p; (其中, n为样本个数, p为原始指标的个数, x为原始指标样本值, s为样本标准差。)

(2) 根据标准化后的数据矩阵求出相关系数矩阵R。

(3) 求出相关系数矩阵R的特征根λ和特征向量l, 以及贡献率

(4) 确定主成分F1, F2, …, Fk。

(5) 计算综合评价值

3 利用Spss进行主成分分析的实例

在进行多指标评价时, 由于要求评价结果客观、全面, 就需要从各个方面用多个指标进行测量, 但这样就使得观测指标间存在信息重叠, 同时还会存在量纲、累加时如何确定权重系数等问题。为此, 就可以使用主成分分析法进行信息的浓缩, 并解决权重的确定问题。本文以全国各市城镇单位就业人员工资水平这一问题来说明主成分评价的用法。

这里引用的是2012年山东省各市按行业分城镇单位就业人员平均工资这一数据, 希望对各地市工资水平给出分析与评价。数据源自《山东省统计年鉴2013版》。

在Spss软件中打开文件之后, 操作步骤如下:

(1) 选择“分析”→“降维”→“因子分析”选项。

(2) 依次选中变量并点向右的箭头按扭。

(3) 在“描述”对话框中, 选中“相关系数”选项组组中的“系数”复选框。

(4) 在“抽取”对话框中, 选中“因子固定数量”输入数字5。

(5) 在“得分”对话框中, 选中“显示因子得分系数矩阵”。

(6) 单击“确定”按钮。

得到输出结果表1。

提取方法:主成分分析

提取方法:主成分分析

提取方法:主成分已提取5个主成分

解的总方差这一表格显示了各主成分解释原始变量总方差的情况, 这里选取5个主成分时累计方差贡献率达到了85.713%, 因此选取前5个主成分可以代表各地市工资水平。表3给出了主成分系数矩阵, 可以说明主成分在各变量上的载荷, 从而得到各主成分的表达式:

4各地市职工平均工资水平综合评价与得分

将17个地市的数据带入主成分表达式可得各地市的5的主成分得分。再利用各因子的方差贡献率作为相应因子的权术可得17个地市的职工平均工资水平的综合得分公式

各地市平均工资水平得分最高的前3个地区如表4所示。

本文选择的5个主成分集中了原始变量的85.713%的信息, 效果较好。2012年, 山东省各地市职工平均工资水平可以用这5个主成分来代替, 利用这5个主成分来综合评测各地市平均工资水平, 得到排名前三位的是青岛、济南、东营。

参考文献

[1]司守奎.数学建模算法与应用[M].北京:国防工业出版社, 2011:595-601

主成分分析法 篇8

加入WTO以后, 我国的炼油企业面临着前所未有的全球性竞争和严峻的发展环境, 如何在新的国际市场环境中健康发展, 提高企业经营业绩, 增强企业竞争能力, 是每一个炼油企业亟待解决的重要课题。炼油企业绩效评价是一项基础性工作, 它对于寻求企业之间的差距、优势和不足, 分析较深层次的原因, 以及挖掘企业今后发展潜力具有十分重要的意义。

1 炼油企业绩效评价指标体系的建立

炼油工业是指将原油经过各种加工, 制成大量的汽油、煤油、柴油、润滑油、石蜡、沥青、化工原料及石油溶剂等各种产品的工业生产, 其生产经营活动是一个相互联系、相互制约的有机总体, 炼油企业的经济效益是各项经济资源综合利用的结果。因此, 还必须从全局出发, 对炼油企业生产经营活动全过程进行综合分析, 以便综合评价炼油企业的经营业绩, 综合衡量炼油企业绩效, 促进炼油企业的全面健康发展。

国内炼油企业现行关键业绩指标包括:生产、资金及综合、损益和费用四大类, 但现行指标体系缺少横向比较的计算基础, 成本费用类指标设置不简洁, 生产技术类指标缺少维修方面的指标, 综合类指标不能反映炼油厂盈利能力及竞争力。

SOLOMON公司的KPI评价体系是在80年代后期随着国际炼油事业以及自由市场经济的发展逐步在咨询实践中形成的, 既能全面评价炼厂的绩效情况, 又具有很好的可比性, 使用SOLOMON的KPI系统进行评价比较, 相互之间取长补短, 改进自己的经营方法, 提高自己炼油厂的绩效。SOLOMON公司的炼油企业评价指标体系主要包括:基础类、工艺指标、维修指数、当量人工、经济指标、操作费用和效益计算等七大类。

由系统的观点来看, 在市场经济的大系统下, 炼油厂是一个小的子系统。装置、生产及运营管理构成炼油厂子系统, 炼油厂子系统通过原料输入和产品输出与外部环境发生关系。在炼油厂子系统中, 成本及生产技术将原料输入与炼油厂装置的生产运营紧密地联系在一起, 炼油厂装置运行与产品输出之间的联系反映出利润及盈利能力。因此, 吸取国外公司 (麦肯锡、SOLOMON等) 的炼油企业绩效考核体系的特点, 根据中国石油现行的计划统计、技术管理和财务核算的口径, 就炼油厂子系统的运营过程可以将炼油业务业绩评价指标[3]分为成本费用、生产技术、损益、综合和基础五大类, 见表1。

2 主成分分析法基本原理

随着社会的发展, 新的企业绩效评价方法层出不穷[1], 如基于活动的成本核算法 (ABC) 、经济增加值法 (EVA) 、平衡记分卡 (BS) 、数据包络分析 (DEA) 、主成分分析法、TOPSIS分析法等, 为企业实施战略管理注入了新的活力。炼油企业绩效评价是一项系统工程, 它贯穿于企业生产运营的始终, 评价指标较多和指标之间不可避免存在着较大的相关性。因此, 结合炼油企业的特点, 本文选用主成分分析法对炼油企业进行绩效评价。

主成分分析法是多元统计分析中的一种, 它是一种去掉重复信息、简化数据结构的有效方法[1,2]。利用主成分分析法可以把多个相关的变量 (指标) 变换成少数几个互相无关的综合变量 (主成分) , 这些综合变量中包含了原来所有变量的大部分信息, 且每个综合变量只反映了经济系统一个独立方向上的信息。

具体来说, 主成分分析法的机理如下:借助于一个正交变换T, 将其分量相关的原随机向量x= (x1, x2, …, xp) T, 转化成其分量不相关的新随机向量u= (u1, u2, …, up) T, 这在代数上表现为将x的协方差阵变换成对角阵, 在几何上表现为将原坐标系变换成新的正交坐标系, 使之指向样本点散布最开的p个正交方向, 然后对多维变量系统进行降维处理, 使之能以一个较高的精度转换成低维变量系统, 再通过构造适当的价值函数, 进一步将低维系统转化成一维系统。

主成分分析法的步骤可归纳如下:

(1) 应用n个样品的p个指标值构造样本阵或称初始决策阵

X=[x1Τx2ΤΜxnΤ]=[x11x12Λx1px21x22Λx2pΛΛxn1xn2Λxnp]

其中, 第i个对象的指标值为xi= (xi1, xi2, …, xip) T。

(2) 对样本阵X中元进行如下变换

yij={xij-xij

得Y=[yij]n×p。

其中, 正效应指标是指标值越大越好的指标, 负效应指标指的是越小越好的指标。

(3) 对Y中元进行如下标准化变换

zij=yij-y¯ji=1n (yij-y¯j) 2/ (n-1) (2)

其中y¯j=i=1nyij/n, 得标准化阵Z=[zij]n×p。

(4) 对标准化阵Z求样本相关系数阵

R=[rij]p×p=ΖΤΖn-1

(5) 解样本相关系数阵R的特征方程

|R-λIp|=0

得p个特征值λ1≧λ2≧…≧λp≧0。

(6) 按照j=1mλj (j=1pλj) -1α, 确定m值, 使前m个主成分的累计贡献率, 即信息的利用率达α (≧0.7) 以上。对每个λj, j=1, 2, …, m, 解方程组Rb=λj, 得单位特征向量bj0=bj/‖bj‖。

(7) 求出zi= (zi1, zi2, …, zip) T i=1, 2, …, n的m个主成分分量uij=zTibj0, j=1, 2, …, m, 得主成分决策阵

U=[u1Τu2ΤΜunΤ]=[u11u12Λu1mu21u22Λu2mΛΛun1un2Λunm]

其中ui为第i个样品的主成分向量, i=1, 2, …, n, 它的第j个分量uij是向量zi在单位特征向量bj0上的投影。

(8) 选择适当的主成分价值函数模型, 进一步把m维系统降成一维系统。价值函数是一个纯量实值函数, 它把每个方案与价值函数值相对应, 从而使决策者能按价值函数值的大小顺序对方案进行优先排序, 即得评价结果。

3 炼油企业绩效评价的主成分分析

指标体系中的投资资本回报率、操作费用增值指数、人工费用增值指数和资产增值指数等综合指标全面反映了炼油企业的盈利能力和竞争能力, 体现了生产过程中人工、操作费用和资产对盈利水平的贡献和影响;而人工费用指数、操作费用指数则给出了企业盈利能力受操作、人工和资产等因素的影响程度, 指明了企业改进空间的大小。因此, 这6项指标能够较全面的反映企业的绩效水平, 有利于引导企业实现利润最大化。本文首先对这六项指标进行分项评价。待评价对象选择了A、B、C、D、E、F、G等7家燃料润滑油型炼油企业, 具体指标数据见表2。

数据选用DPS数据处理系统 (Data Processing System) 进行处理[4]。首先, 对负效应指标取相反数, 并按式 (2) 进行标准化变换, 求得样本相关系数阵如表3所示。

继而解得特征值对应的单位特征向量见表4, 特征值和因子贡献率以及累计贡献率如表5所示。

由表5可以看出, 第一主成分因子1的贡献率达到了55.67%, 加上第二主成分因子2的累计贡献率已高达84%, 基本满足一般的累计贡献率85%的要求, 这样就把原先的5维向量简化为一个2维向量。再由表4知, 第一主成分分量计算式为

ui1=0.54088z1+0.39061z2+0.40171z3+0.53768z4+0.08734z5+0.31108z6

第二主成分计算式为

ui2=0.10874z1+0.40677z2-0.46667z3+0.10086z4+0.62787z5-0.44781z6

即投资资本回报率在第一主成分的负荷量为0.54088, 操作费用增值指数在第一主成分的负荷量为0.39061, 以此类推。

同时, DPS系统还给出了主成分决策阵, 见表6。

由于前两个主成分对应的特征值累计贡献率已高达84%, 因而只需计算前两个主成分的价值函数值。选择比较简单的加权主成分和价值函数模型, 第一、二主成分的权系数分别为0.6622和0.3378, 得价值函数模型为

s3i=0.6622ui1+0.3378ui2

这样, 就把2维系统又降低为最简单的一维系统。最后, 按照上述算式计算得到各炼油企业的分值和名次, 见表7。

不难看出, A炼厂绩效水平最高, 接下来依次为F、G、C、E、B, 排在最后的是D。

4 结束语

应用主成分分析法对炼油企业进行绩效评价, 可有效的解决指标数目较多和指标之间相互“重叠”的缺陷, 使结果更加客观、准确。尽管在计算过程中, 需要求解特征值、特征向量等, 但应用如DPS、MATLAB、Mathematic、SAS、SPSS等数学或统计软件, 可方便的完成计算, 因此, 不失为一种很好的炼油企业绩效评价方法。

摘要:本文从介绍炼油企业指标评价体系入手, 以国内原有指标体系为基础, 借鉴国外现行的评价指标体系, 建立了一套既符合中国炼油企业特点又符合国际惯例的炼油企业绩效评价指标体系。以此为基础, 采用主成分分析法对炼油企业绩效评价进行实证分析。

关键词:炼油企业,指标体系,主成分分析,绩效评价

参考文献

[1].李慧颖.对企业绩效评价的研究[J].大连海事大学学报, 2003, (6)

[2].秦丽华.知识经济时代的企业绩效评价[J].企业管理, 2002, (2)

[3].宋杰鲲, 张在旭, 张宇.基于数据包络分析的炼油企业绩效评价[J].石油化工技术经济, 2006, (3)

基于区域核函数的主成分分析 篇9

核主成分分析是一种非线性推广的主成分分析。大量结果显示[31], 核主成分分析法由于在非线性统计和高阶统计特征提取具有较好的效果, 相对于传统的主成分分析观测数据的特点, 具有更好的分类能力。传统的基于矢量的主成分分析和核主成分分析方法, 计算数字图像数据的特征的方法是, 所有二维图像数据计算出由一个堆积行的列向量, 进而对样本图像的列向量协方差矩阵奇异的整体值分解, 然后计算主成分投影, 最典型的例子是著名的面部识别, “特征脸”技术[32]。由上面的处理方法计算得到的图片, 二维图像数据的不足之处是, 图像矩阵堆叠成一个矩阵列向量的像素行后, 在图像之间的相关矩阵被破坏。而且, 传统的计算方法是, 核主成分分析通过非线性映射到高维特征空间进行整体改造, 然后得到向量的内积后 (内核功能) , 操作时并没有考虑到的图像区域或区域的相关信息。

在不考虑图像噪音的情况, 数字图像矩阵内部的相关性存在于每个矩阵点之间的像素周围。相对于某一个点的灰度 (或彩色) 值, 在这些地方的信息或者语义的蕴藏在相关性之间的知识经常要更大量一些[1]。如果能使用区域相关或图像数据分类或分析部分的知识, 和全部功能和特性并联合单独的图像像素, 方法可能比简单的图像功能或整体采用单个像素的方法更有效。

2、基于区域核函数的主成分分析

本文对图像数据的核分析方法常常在核主成分分析之前从图像数据的每一行累积成列向量。因此, 图像数据处理之后导致的结果是没有考虑矩阵点行和在同一行或相邻行矩阵之间的矩阵列中之间的联系[2]。一些文献开始关注这个问题, 文献[37]在研究支持向量机用于图像数据分类时, 针对支持向量机提出了一种局部核函数的思想, 并取得了比全局核函数要好得多的分类效果。该文的做法是[38], 首先选定一种像素邻域, 这样, 图像就可以由若干个邻域覆盖, 这些邻域可以交叠也可以不交叠, 图像矩阵就相应地变换为一个分块矩阵, 每一块就是邻域大小的像素块[3]。

然后根据每块来确定每个的核函数, 再将各功能块混合得到全部图像的核函数。本章和文献[39]的方法从图像矩阵的角度来看的不同是, 将相同的大小 (每个块之间没有重叠) 或块的窗口分割图像的像素矩阵。本文对 (1) 式做了变化从而来达到简化区域和混合内核的内核函数的计算的目的。所不一样的是, 对于图像列矢量的构造, 从每一行的每一列构造列矢量, 对列矢量的构造是一个矩阵块的积累, 而不是对矩阵点的操作, 因此最后构造出的仍然是一个矩阵的列积累, 如下式:

对于上式Y来说, 列矢量是根据行来累积的, 从而列矢量x就由全部矩阵累积而得到。因此不难得出, 由此得到的累积计算方式与普通的累积方式在核心上是完全一致的, 唯一的不同就是改变了列矢量的每一个组成部分的排列次序。而得出上述的累积计算方式, 可以便利计算一个混合内核的内积。

3、基于区域核函数的图像距离测度算法

基于区域核函数的距离测度算法步骤如下:

(1) 给出数据块的尺寸。将原设图像与目标图像的矩阵分解若干个数据块, 各个数据块按照行来累积成一个列矢量, 每个列矢量累积成一个列矢量。

(2) 抽取一个核函数, 求出原始图像及目标图像的核目标空间的协方差矩阵。

(3) 计算协方差矩阵的特征根和特征向量, 按照大小将特征值排序, 并取前几个 (按方差贡献率确定) 。

(4) 将计算得出的协方差矩阵的特征向量 保存起来, 计算出目标图像与原始图像的特征向量的距离, 并按照大小进行排序, 得到距离最相近的目标图像就是检索图像。

根据数字图像模式数据的特点提出了一种基于区域核函数的图像距离测度方法, 用来提取二维图像模式数据的核距离, 对于以区域为基础的内核分析方法得到的图像矩阵二维主成分, 相对于传统的全局核核主成分, 得到的主成分的数字图像不同。基于区域的核主成分分析方法不仅包含了全局核主成分分析中二维数字图像矩阵的总体特征而且也包括了图像区域的特征。

参考文献

[1]刘甘娜.多媒体应用基础, 高等教育出版社, 2000年, 56-72

[2]徐望明.基于内容的图像检索技术研究[D].中国优秀硕士学位论文全文数据库, 2008, (06)

影响蒸发气象条件的主成分分析 篇10

1 概述

1.1 多元分析法

研究多个自变量与因变量相互关系的一组统计理论和方法, 又称多变量分析。多元分析是单变量统计方法的发展和推广。主要内容有多元回归分析、主成分分析、判别分析、因子分析、对应分析、聚类分析、典型相关分析和多维标度法等。

1.2 风向风速传感器计量性能要求

风速测量范围 (1~60) m/s;启动实际风速不大于115 m/s;被测风速传感器显示风速与实际风速应呈线性关系, 非线性误差在1~5 m/s范围内 (含5 m/s) ≤0.120 m/s, 5~30 m/s范围内 (含30 m/s) ≤0.40 m/s, 30 m/s以上≤0.60 m/s;被测风速传感器显示风速修正值的绝对值≤|0.15 m/s+0.102×被测风速传感器显示风速|;风速传感器测量结果扩展不确定度。

2 主成分的求解步骤

(1) 计算协方差矩阵。对样品数据的协方差矩阵Z进行计算。

(2) Z的特征值和特征向量。协方差矩阵Z的特征值计算 λ1≥λ2≥…≥λp>0。

则原始资料X矩阵的第i个主成分为Fi=ai′X, i=1, 2, …, p。

(3) 选择主成分。计算主成分得分, 计算n个样品在m个主成分上的得分:

Fi=a1iX1+a2iX2+…+apiXp, i=1, 2, …, m

3 原始数据的标准化处理

在实际应用时, 指标的量纲是不确定的, 应先除去量纲的影响再算出主成分。有很多方法去除数据的量纲, 常用的是将原始数据标准化, 即如下变化:

4 应用实例

试用沈阳市气象站 (54342) 2013 年5 月1—31 日的气象数据, 试做影响蒸发的气象条件主成分分析, 从而确定风速在其中影响的比重。通过分析, 提取了与蒸发有关的气象要素为风向、风速、降水、最高温度、最低温度、相对湿度、海平面气压[4,5,6]。本案例选用SPSS 19 中文试用版来计算主成分, 具体步骤如下。

(1) 数据选取与导入。 选取沈阳市气象站 (54342) 2013年5 月1—31 日的气象数据, 并将所用数据存入Excel表中 (表1) 。

(2) 气象要素属性值。站号、观测时间、风向、风速、降水、最高温度、最低温度、相对湿度、海平面气压的属性值如图1所示。

(3) 数据分析。 打开SPSS 19, 将数据表导入SPSS数据编辑器中。点击“分析”→“降维”→“因子分析”, 打开因子分析对话框 (在SPSS软件中, 主成分分析与因子分析均在因子分析模块中完成) 。在对话框中选取要做主成分的气象因子, 输入到“变量”中。在“抽取”中可以设置主成分参数。之后点击“确定”即可得到主成分。

(4) 结果分析。第一主成分 (y1) 和第二主成分 (y2) 为:

y1=-0.742x1-0.919x2+0.372x3+0.937x4+0.805x5+0.078x6+0.833x7

y2=0.249x1-0.179x2-0.650x3+0.133x4+0.162x5+0.872x6+0.091x7

从表1~4 中可见:影响第一主成分的气象因子主要为最高温度和最低温度;影响第二主成分的气象因子主要仍为温度, 其次为相对湿度和风速。故影响蒸发的主要气象因子为地表温度和相对湿度, 其次为风速, 可见风速在影响蒸发中起的作用并不大。

参考文献

[1]万峰.国家计量检定规程汇编[M].北京:科学技术出版社, 2005.

[2]吴洪宝, 吴蕾.气候变率诊断和预测方法[M].北京:气象出版社, 2010.

[3]黄嘉佑.气象统计分析与预报方法[M].北京:气象出版社, 2004.

[4]施能.气象统计预报[M].北京:气象出版社, 2009.

[5]李清翠, 张振华, 姚付启, 等.烟台地区水面蒸发量主成分分析法研究[J].农业系统科学与综合研究, 2007 (3) :289-292.

主成分分析法 篇11

摘要:本文利用多元统计中的主成分分析法对全国各省的农业总产值进行评价,使用SPSS软件运行,分析得出代表全国各省中的农业产值高值区,并对上述高产值区进行分类,经分析得出全国各省(直辖市、自治区)农业产值分配特征。

关键词:主成分分析;SPSS;农业总产值;统计应用

中图分类号: S2                             文献标识码:  A                          DOI编号:   10.14025/j.cnki.jlny.2016.02.026

“三农”问题始终制约着我国经济建设和改革。我国作为农业大国,农业经济的发展关系到全国总体经济的发展,而衡量农业经济的发展离不开农业总产值,将多元统计方法引入农业总产值分析的研究不但可行而且是科学的。本文应用主成分分析法对农业总产值进行判定,力求对农业布局的合理性和农业发展潜力提出评价与建议。

1 资料来源与处理

资料来源于国家统计局官网,选取全国各省和直辖市及自治区农林牧渔业总产值数据。四个指标变量是:X1=农业、X2=林业、X3=畜牧业、X4=渔业。借助SPSS算法进行主成分分析:

2 主成分分析数学模型

主成分分析是一種通用的降维技术,主成分向量的协方差矩阵;其中,即。总方差中属于第主成分的比例为称为主成分的贡献率。第一主成分的贡献率最大,称之为的第主成分得分,平均主成分得分。

3 结果与分析

3.1 主成分特征值

通过主成分分析,得出了四种农业产值相关系数矩阵的特征值,上表列出了四个主成分的特征值、贡献率和累计贡献率;结果显示,由于前2个特征值方差的累计贡献率达83.6%,大于80%,较好地反映了原始数据集的特征,故选取前2个特征向量进行分析。

3.2 主成分系数

提取方法:主成分。

(1)第一主成分:由第一主成分的表达式可知,所考察样本协方差的特征值均为正值,各变量的系数在0.6~0.9之间,呈较均匀分布,反映出四种农业总产值在各省农业生产中为一般发展水平。 (2)第二主成分:第二主成分表达式中,所考察样本协方差的特征值既有正值亦有负值,X1、X3的系数为负,X2、X4的系数为正,正负系数的和较接近,结合各变量的含义,第二主成分表示农业、畜牧业总产值与林业、渔业总产值的对比。(3)各省主成分得分情况。

由第一主成分Prin1的得分可以认为:农业生产整体发展水平最高的省为山东省,河南、江苏等地次之。显然,山东省农业经济多年来一直位于全国第一,山东农业产品的产量不算最高,但是农业产业化相对完善,把初级农产品深加工后的附加值很高,农业生产整体发展水平最低的三个省份别是西藏、青海和上海,吉林省农业整体水平居于中游。

第二主成分Prin2得分值为负的省份为农业和畜牧业生产占优势的省份为河南、河北两省;而得分值为正的市是林业和渔业占优势的省份,如广东、福建等省份,由于濒临沿海地区,捕渔业兴盛,同时处于亚热带季风气候,林业资源丰富。吉林省主要以林业经济为主。

函数性数据分析中的主成分分析 篇12

与传统数据分析方法相比而言, 函数性数据分析有着很大的优越性, 能够通过微分曲线与导数曲线来处理信息, 截至目前为止, 各界的专家学者已经针对函数性数据进行了深入的分析, 下面就针对函数性数据分析的主成分进行相应的介绍.

一、传统主成分分析

主成分分析在1901年开始在正交回归分析中得到了应用, 在1933年, 主成分分析法得到了一定的发展, 该种分析方式能够将高维空间问题变成低维空间问题, 这样即可将问题直观化、简单化, 虽然该种分析法会损失部分数据, 但是却抓住了主要问题, 对问题的分析十分有益. 在技术水平的发展之下, 主分析法十分的重要, 从几何角度进行分析, 该种分析方式能够将原始变量组合成新坐标, 新指标伸缩情况主要由样本协方差矩阵进行表示, 新变量之间并无密切的关系, 可以看出, 使用主成分分析法能够很好地避免多重共线问题的发生.

从本质上而言, 主成分分析是线性映射法, 该种方法是不适宜应用在非线性问题处理中的, 在这一背景下, 一些学者提出主曲线方法、核主成分分析法、主曲面方法、多层感知器方法等多种主成分分析法, 该种这些数据分析法的应用还存在一些弊端, 因此, 就需要使用新型主成分分析法, 函数性数据分析法正是在这一基础上产生.

二、函数性数据主成分分析

1. 函数性数据的特征

顾名思义, 函数性数据就是一种采用函数来表现的数据, 具有函数性的特征, 在分析数据时, 若观测点过于密集, 那么数据则会表现出函数性特征, 采用该种分析法时, 需要将数据作为独立项进行分析, 不能将其看作数据点序列. 该种分析方式最早由一位加拿大学者提出, 在提出伊始, 强调采用现代紧密数据系统来获取数据, 在获取数据时, 需要将其作为动态概念, 并不能将其作为静态概念, 如果采用传统分析法就难以提升分析的准确性, 因此, 就需要进一步来扩展分析方法. 近年来, 很多学者开始对函数性数据进行了深入的分析, 但是, 这一技术依然处在初级发展阶段, 还需要进行深入的研究.

关于函数性数据x函数形式, 需要将数据假定为是一种连续产生的过程, 但是在实际观测过程中, 很难得到离散性数据, 实际观测的数据也常常含有噪声, 因此, 在接收到观测数据之后, 需要对样本开展函数拟合, 这种拟合方式是多种多样的, 常用的有插值法与平滑法. 若接收到的观测数据没有误差, 即可使用插值法进行拟合; 如果接收的数据存在误差, 就需要使用平滑法进行拟合.

2. 函数性数据主成分分析

在实际应用过程中, 观测数据常常存在着比样本量大的情况, 如果未进行处理就直接分析, 那么是无法得出理想的分析解决的. 为了解决这一问题, 可以使用两种方法, 即将观测时间区域减少或者偏最小二乘, 如果变量多重共线性严重, 使用该种分析法虽然能够有效解决问题, 但是却存在很多噪声. 在遇到该种情况时, 即可使用偏最小二乘法来进行回归建模.

函数性数据样本协方差矩阵是一种函数模式, 常常会产生高维协方差矩阵, 该种矩阵表示对变量实施了重复性检测, 且每次得到的数据都生成了函数数据. 在特征方程上, 可以使用如下的表达方式:

在上式之中, λ属于特征值, v ( s, t) 是x ( s) 与x ( t) 的两个协方差, V为协方差算子, 在进行函数性数据分析时, 其中的变量个数决定协方差阵特征向量与特征值, 样本数量决定协方差算子, 在具体的观测过程中, 需要选择好观测点位置与个数.

三、函数性共同主成分

共同主成分已经在形态进化工作中得到了广泛的应用, 分析共同主成分能够有效解决共同主成分结构与协方差矩阵比例等问题, 一般情况下, 在建立好矩阵之后需要使用KL展开式进行分析, 为了得到函数结构与动态特征, 可以使用函数主成分与因子荷载分布来进行确定. 在应用KL展开式时, 需要应用到相互正交函数, KL展开式有着理想的收敛性, 在展开其他类型时, 也可以得出很好的效果. 采用该种方法之后, 即可将问题简单化, 但是由于因子载荷之间存在一定的差异, 就需要对函数性数据主成分进行相应的验证.

四、结 语

综上所述, 函数性数据有效丰富了数据分析领域, 为解决数据问题提供了强有力的支撑. 该种技术属于探索性技术, 对函数通特征描述与特征提取到起到了理想的成效, 但是, 由于各种因素的影响, 函数性数据主成分分析只能够解决单样本问题, 难以解决两样本以上的问题, 因此, 在使用该种问题进行分析时, 还需要综合各类因素解决推断与检验的难题.

摘要:函数性数据分析 (FDA) 是一种新型数据分析方法, 该种分析方法是建立在函数角度基础上, 强调将函数数据作为整体进行分析, 函数性数据有效丰富了数据分析领域, 为解决数据问题提供了强有力的支撑, 该种技术属于探索性技术, 对函数通特征描述与特征提取到起到了理想的成效, 数性数据分析有着很大的优越性, 能够通过微分曲线与导数曲线来处理信息, 本文主要讨论函数性数据分析中的主成分分析.

上一篇:《亚特兰蒂斯》下一篇:门禁控制