主成分与因子分析区别

2024-09-16

主成分与因子分析区别（共10篇）

主成分与因子分析区别篇1

主成分分析与全成分分析的区别

主成分分析：是把几个综合变量来代替原来众多的变量，使这些综合变量能尽可能地代表原来变量的信息量，而且彼此之间互不相关的一种数学降维的方法。

全成分分析：是将送检样品中的原材料、填料、助剂等进行定性定量分析。塑料原材料种类，填料种类、粒径，助剂种类都能影响对产品的性能、寿命，通常是同一种原材料、同一种填料，因为助剂种类的不同，造成产品性能大不相同。

主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。在实际问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。这些涉及的因素一般称为指标，在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。主要目的是希望用较少的变量去解释原来资料中的大部分变量，将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少，能解释大部分资料中变量的几个新变量，即所谓主成分，并用以解释资料的综合性指标。由此可见，主成分分析实际上是一种降维方法。

分析步骤

数据标准化;

一、求相关系数矩阵;

二、一系列正交变换，使非对角线上的数置0，加到主对角上;

三、得特征根xi（即相应那个主成分引起变异的方差),并按照从大到小的顺序把特征根排列;

四、求各个特征根对应的特征向量;

五、用下式计算每个特征根的贡献率Vi;

Vi=xi/(x1+x2+........)

六、根据特征根及其特征向量解释主成分物理意义。

主成分分析的基本思想

主成分分析是设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。

主成分分析，是考察多个变量间相关性一种多元统计方法，研究如何通过少数几个主成分来揭示多个变量间的内部结构，即从原始变量中导出少数几个主成分，使它们尽可能多地保留原始变量的信息，且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合，作为新的综合指标。

主成分分析是把几个综合变量来代替原来众多的变量，使这些综合变量能尽可能地代表原来变量的信息量，而且彼此之间互不相关的一种数学降维的方法。

主成分与因子分析区别篇2

关键词：主成分分析法,核主成分分析法,核函数,神经网络,支持向量机,机械噪声,降维

0 引言

双层圆柱壳体的水下噪声主要来源于自身的机械设备[1],此类噪声属于机械噪声。为了全面分析此类噪声的特点及规律,需要采用尽可能多的特征量进行表征。由于特征量很多,且特征量之间往往存在相关关系,因此很难直接抓住它们之间的主要关系,这就需要一种简化数据的方法使高维数据降维,以便获得噪声数据的主要信息。通过降维可以有效去除机械噪声数据中的冗余信息,从而降低数据分析处理的难度。

目前,数据降维方法主要分为两大类[2]:线性降维和非线性降维。主成分分析法(PCA)因为其概念简单、计算方便、线性重构误差最优等优良的特性,成为数据处理中应用最广泛的线性降维方法之一。核主成分分析法(KPCA)作为PCA方法在处理非线性问题时的扩展,近年来得到了快速发展。

本文将PCA方法和KPCA方法,应用于某双层圆柱壳体机械噪声数据的降维之中,然后使用神经网络(NN)和支持向量机(SVM)两种方法分别计算噪声数据降维前后的正确识别率,通过正确识别率比较PCA方法和KPCA方法的降维效果,从而选择更适合于这种双层圆柱壳体机械噪声数据的降维方法,并由此初步分析出噪声数据的线性或非线性特点。

1 PCA方法与KPCA方法的基本原理

PCA方法是一种基于二阶统计的数据分析方法,该方法在各个变量之间相关关系研究的基础上,用一组较少的、互不相关的新变量(即主元)代替原来较多的变量,而且使这些新变量尽可能多地保留原来复杂变量所反映的信息,具体计算步骤见文献[3]。

KPCA方法是一种非线性主元分析方法[4]。其主要思想是通过某种事先选择的非线性映射Φ将输入矢量X映射到一个高维线性特征空间F之中,然后在空间F中使用PCA方法计算主元成分。在高维线性特征空间中得到的线性主元实质上就是原始输入空间的非线性主元。

设xi∈Rd(i=1,2,…,n)为输入空间的d维样本点。通过非线性映射Φ将Rd映射到特征空间F,即

F中的样本点记作φ(xi)。

非线性映射Φ往往不容易求得,KPCA方法通过使用核函数来完成从输入空间到特征空间的非线性映射。定义核函数k(xi,xj)=〈φ(xi),φ(xj)〉,这样特征空间中两向量的内积可以用输入空间中的两变量的核函数来表示。

核函数是满足Mercer条件的任意对称函数(实正定函数),常用核函数的特性如下:

(1)高斯径向核:

(2)多项式核:

(3)Sigmoid核:

其中,a、b、c、d、e、f为选定的参数,通常取s(xi,xj)=xTixj。

KPCA方法只需要在原空间中计算用作内积的核函数,无需知道非线性映射函数φ(x)的形式,也无需计算非线性变换,具体计算步骤见文献[5]。

PCA方法与KPCA方法已广泛应用于特征提取、数据压缩、图像降噪、分类识别、综合评价以及过程监视等诸多领域。

2 双层圆柱壳体机械噪声数据

在获取某双层圆柱壳体的机械噪声数据时,设定8个不同工况,如表1所示。

在壳体的不同位置布置19个加速度传感器(每个传感器称为一通道),测定不同工况下的噪声数据。采样时间为8s,采样频率为2048Hz。

由于在同一个通道下的采样点较多,且特征单一,不易分析其规律特点,因此对样本点进行预处理:

(1)选定信号处理中常用的10个特征量,即波形因数、峰值因数、脉冲因数、振动加速度总级、期望、方差、标准差、三阶累量、四阶累量和有效值。

(2)以2048个相邻样本点为一个样本段,并以70个样本点为步长,将样本段逐步向后平移,即可在16 384个样本点内得到约205个样本段。

(3)取前200个样本段,在每个样本段内计算选定的10个特征量。

本文重点是比较PCA方法与KPCA方法的降维效果,故只选取10个常用的特征量作为例子,实际上可以选择更多的特征量以更全面地表征噪声数据。

预处理后,在每一工况下的每一通道上可得到一个10×200(10是维数,200是样本量)的噪声数据,则在8种工况下,每一条通道上可得到8个10×200的噪声数据。

3 PCA方法与KPCA方法的主元数目

对上述噪声数据首先选择PCA方法降维,并依据累积贡献率大于0.85的门限值选择主元个数[3]。8种工况下,每一通道上噪声数据的PCA主元计算结果如表2所示。

由表2可知,8种工况下,在19条通道上的噪声数据经PCA方法降维后的主元个数为3的情况占67.1%,主元个数为2个的情况占30.9%,两种情况合计占98%。因此,为保证降维后的数据能够保留原始噪声数据足够多的信息,使用PCA方法降维时统一取3个主元。

本文主要比较PCA方法与KPCA方法对机械噪声的降维效果,因此使用KPCA方法时也取3个主元。

4 PCA方法与KPCA方法降维效果比较

4.1 比较方法

神经网络与支持向量机是模式识别领域最常用的两种方法。神经网络是一种基于经验风险最小原理的方法,它以分布式方式存储信息,具有高度的并行性、较强的自学习自适应性、良好的容错性和联想记忆功能,主要用于解决复杂的分类问题[6]。支持向量机是在Vapnik[7]建立的统计学习理论基础上发展起来的机器学习算法,它主要基于VC维理论和结构风险最小化原理,能够很好地解决训练样本较少时的分类问题[8]。目前这两类方法已广泛应用于分类识别、故障诊断和入侵检测等领域之中[9,10,11,12]。

本文主要使用神经网络和支持向量机对不同工况下的噪声数据进行分类识别,通过对噪声数据的正确识别率,比较PCA和KPCA两种方法降维效果的好坏。

在某通道上,设第i个工况下的机械噪声数据为Xi(i=1,2,…,8),Xi是10×200的数据。若每一噪声数据选择k个样本作为训练样本,l个样本作为测试样本,分别得到X′i、X″i,这里X′i是10×k的数据,Xi″是10×l的数据。则神经网络和支持向量机的输入数据如下:

训练输入

X′=(X′1,X′2,…,X′8)

测试输入

X″=(X″1,X″2,…,X″8)

某双层圆柱壳体机械噪声数据经过降维后,若保留原始信息越多,则来自不同工况下的组合数据经过NN或SVM分类后的正确识别率就会越高;反之,正确识别率就会越低。在每一通道下,使用NN和SVM计算噪声数据降维前和分别经PCA方法、KPCA方法降维后的正确识别率。依据正确识别率比较两种降维方法的降维效果,同时也比较KPCA方法在选择不同核函数时的降维效果。降维后,X′i和X″i分别为3×k的数据和3×l的数据。

本文使用的神经网络为BP神经网络,支持向量机工具箱为stprtool,训练样本个数和测试样本个数取k=l=5,运行平台均为MATLAB7.1。

4.2 KPCA方法在不同核函数时的降维效果比较

KPCA方法是基于核函数的学习方法。核函数反映了样本在高维特征空间中彼此的相似程度,而样本之间的相似程度一旦给定,样本间的分类其实也就基本上确定了。一个好的核函数,会使同类的样本相互靠近,使异类的样本相互远离。正确选择核函数和核参数将会提高KPCA方法的整体性能。

计算可知,对于文中的噪声数据使用KPCA方法降维时,选择Sigmoid核函数得到的s(xi,xj)较大,此时k(xi,xj)总趋向于1。因此,本文只选取高斯径向核函数和多项式核函数进行计算,且b=c=1,a与d根据经验在一定范围内取值。

根据经验,使用高斯径向核函数(称为KP-1方法)和多项式核函数(称为KP-2方法)时,选择核参数a、d的取值范围为0.1~1,步长为0.1。经MATLAB编程计算,其结果如表3所示。

表3中,第3、5、7、9列分别是KP-1方法与KP-2方法在各自核参数取值范围内得到的正确识别率最大值,此时a与d分别为对应的核参数值。可以看出:使用神经网络进行分类识别时,KP-1方法正确识别率高于KP-2方法正确识别率的有8条通道,小于KP-2方法正确识别率的有6条通道,两者相当的有5条通道,即KP-1方法的降维效果稍好;使用支持向量机进行分类识别时,KP-1方法正确识别率高于KP-2方法正确识别率的有11条通道,小于KP-2方法正确识别率的有7条通道,两者相当的有1条通道,即KP-1方法的降维效果明显较好。

两种识别方法在19条通道上的运行总时间和单通道上运行的平均时间如表4所示。

由表3中的正确识别率和表4中的运行时间可知,同等条件下神经网络方法和支持向量机方法在识别能力方面差别不大,但是支持向量机方法的运算速度要快得多。因此对于某双层圆柱壳体的机械噪声数据,在使用KPCA方法进行降维处理时,最好选择高斯径向核函数,并通过支持向量机方法进行分类识别分析。

4.3 PCA与KPCA方法的降维效果比较

对8个不同工况下的机械噪声数据组成的混合数据分别使用NN和SVM计算降维前后的正确识别率,其结果如表5所示。

比较表5中计算结果可知,不论使用哪种识别方法,降维前的正确识别率都比降维后的正确识别率高(至少相等),而由KPCA方法降维后得到的正确识别率在绝大部分通道上要比PCA方法降维后的正确识别率高。也就是说,数据降维后会损失掉一部分原始信息,造成正确识别率下降,但是对于某双层圆柱壳体的机械噪声数据来说,在主元数目相同的条件下,只要选择合适的核函数及核参数,就能保证使用KPCA方法降维后保留的信息要比使用PCA方法降维后保留的信息要多,即KPCA方法的降维效果要好。

5 结束语

事实上,可将本文中的10个特征量扩展到几百个甚至上千个,此时的噪声数据属于典型的高维数据,分析其结构前先进行降维就显得十分必要。通过本文对PCA方法和KPCA方法实际应用的比较可知:在主元数目相同(即数据结构的复杂度相同)的条件下,由于将数据特点的研究范围从线性扩大到非线性上,从而使得使用KPCA方法降维比使用PCA方法降维保留的原始数据信息更多,效果更好,因此,对某双层圆柱壳体机械噪声数据降维时,应优先考虑使用非线性降维方法——KPCA方法,且选择高斯径向核函数效果更好。

参考文献

[1]施引,朱石坚,何琳.舰船动力机械噪声及其控制[M].北京:国防工业出版社,1990.

[2]吴玲达,贺玲,蔡益朝.高维索引机制中的降维方法综述[J].计算机应用研究,2006,23(12):4-7.

[3]Jolliffe I T.Principal Component Analysis[M].2nded.New York:Springer,2002.

[4]Scholkopf B,Smola A,Muller K R.Nonlinear Com-ponent Analysis as a Kernel Eigenvalue Problem[J].Neural Computation,1998,10(5):1299-1319.

[5]Rosipal R,Girolami M,Trejo L J,et al.Kernel PCAfor Feature Extraction and De-noising in Non-lin-ear Regression[J].Neural Computing and Applica-tions,2001,10(3):231-243.

[6]王洪远,史国栋.人工神经网络技术及其应用[M].北京:中国石化出版社,2002.

[7]Vapnik V N.The Nature of Statistical LearningTheory[M].New York:Springer-Verlag,1995.

[8]Vapnik V N.Statistical Learning Theory[M].NewYork:Wiley,1998.

[9]Suykens J A K,Vandewalle J.Least Squares Sup-port Vector Machine Classifiers[J].Neural Process-ing Letters,1999,9(3):293-300.

[10]Wu J N,Wang J,Liu L.Feature Extraction via KPCAfor Classification of Gait Patterns[J].Human Move-ment Science,2007,26(3):393-411.

[11]高海华,杨辉华,王行愚.基于PCA和KPCA特征抽取的SVM网络入侵检测方法[J].华东理工大学学报(自然科学版),2006,32(3):321-326.

主成分与因子分析区别篇3

【关键词】主成分分析；因子分析；新指标解释

一、引言

随着数理统计理论的发展，作为它的分支的“多元统计分析方法”在近20年越来越受到人们的重视。这不仅是因为很多事情都是带有随机因素，而且在具体分析问题的时候，人们需要考虑的因素不止有一个。比如在购物的时候，我们评价商品并不是仅仅看其价格，还要关注质量、保修期等多方面的因素。在学校里，评价一个学生也是至少需要“德、智、体”三方面的指标。多元统计分析就是用统计的方法分析这种带有多指标的随机性问题。上述的例子所涉及的指标其实并不多，但更多的时候会遇到很多指标，如考察一个企业，需要了解其规模、产量、产值、税收、员工数、利润等，如果我们关注所有的指标就会大大增加分析的复杂性，而且也不宜抓住主要的因素。因此有必要对这些原始的指标数据进行降维，亦即用较少的新指标来代替原始指标，这就是主成分分析与因子分析在解决问题时所要体现的思想。可以说，出于数据降维的目的它们是没有区别。

二、具体实例分析

但是在新生成的指标的解释方面，它们还是有较大不同的。首先看一下两种方法的数学模型。主成分分析是考虑原来的指标的线性组合，把原始指标的线性组合叫做主成分。从这一点可以看出，主成分其实就是原来指标的压缩综合。而因子分析模型则是把原始指标表示成因子的线性组合（如果姑且不去考虑随机扰动的因素），也就是说因子分析的目的是要找出影响所有原始指标的内在因素。因此尽管两种方法都是对原始数据进行降维，得到新的指标，但是在对新指标的解释是有不同的。下面分析一个具体例子。该例通常出现在统计教科书中因子分析一章，但本文从主成分分析和因子分析两方面同时对其进行剖析。

考察某校学生的学习成绩状况。随机抽取了30个学生，关注起数学、物理、化学、语文、历史、英语六门课程的成绩。故形成了如下的30行、6列的原始数组。我们需要从中提炼出1，2个新指标。

通过MATLAB软件中的主成分分析与因子分析程序，可以看到通过两种方法的数据降维处理后按照累计贡献率均提炼出了两个新的指标，它们都是从上述的原始二维数组出发，计算其协方差距阵的特征值与特征向量，因此很容易搞不清楚所得到的两个新变量到底是主成分变量，还是因子变量。其实，我们此时回顾一下前文中提到的数学模型就清楚了。主成分分析是原始变量的线性组合，结合此例，即为所获得的两个新指标是原始指标的综合。又注意到原始变量前的组合系数（也叫作载荷）大小，不难发现，在其中的一个新指标中数学、物理、化学、三科占的比重比较大，因此可以把该综合指标形象地称为“理科”主成分；而在另一个新指标中语文、历史、英语三科占的比重比较大，因此可以把该综合指标形象地称为“文科”主成分。此时再考虑因子分析的模型。如前文所讲，原始变量表示成了因子的线性组合。结合此例，即数学、物理、化学、语文、历史、英语这原六个指标表示成了两个新的指标的线性组合。考虑到因子的组合系数，发现在数学、物理、化学这三科的线性表示中一个因子的组合系数比较大，而另一个比较小，因此可以把所占分量较大的那个因子形象地理解成“理性思维”因子，同样的道理可以把另一个新指标理解为“文性思维”因子。

三、总结

从此例可以看出，虽然主成分分析与因子分析都是从原始数据的协方差矩阵（有时是相关系数阵）出发，计算特征值与特征向量，按照累计贡献率大于85%的原则确定新的指标个数。但是为了避免搞混两种方法，在解释新的指标时应回馈到各自的模型上面来。即：按照主成分分析理论，新指标仅仅是原始指标的简单汇总，如果想用较少的几个变量替代原来的变量则用主成分分析；而对于因子分析，新指标则是对所有原始指标皆有影响的那些公共因子，所以当需要寻找潜在的影响要因时，倾向于用因子分析。明白了这一点，对新指标的解释也就变得顺理成章了。

【参考文献】

[1]高惠璇应用多元统计分析 2005

[2]李静萍谢邦昌多元统计分析方法与应用 2008

[3]李卫东应用多元统计分析 2008

[4]陆恒芹苏勤陈丽荣女性旅游者行为特征分析及其动机研究—以西递、宏村为例 2006

[5]陆虹用因子分析测量“护士工作满意度量表”的结构效度[期刊论文] 2007

[6]赵磊李继海朱大洲籍保平 5种鹿茸营养成分的主成分分析[期刊论文] 2010

主成分与因子分析区别篇4

基于主成分分析的尉犁灌区水面蒸发量研究

考虑到水面蒸发气象影响因子之间普遍存在显著相关,若应用所有气象因子建立水面蒸发量计算模型则存在信息重叠问题,而主成分分析方法可以解决该问题.尉犁灌区水面蒸发气象影响因子的`主成分分析表明,前2个主成分累计贡献率已达97.069%,故提取2个主成分已能满足要求.第一主成分代表空气冷热状况与太阳照射状况;第二主成分代表空气动力状况.利用2个主成分建立二元一次回归方程,并与应用所有气象影响因子建立的多元线性回归方程相比较,结果显示,主成分分析方法建立的回归方程的回归系数均通过t检验,达到极显著水平,多元线性回归方程,虽拟合效果稍优于主成分分析方法,但回归系数b0～b6均未通过t检验,系数显著性水平不如主成分分析法.

作者：李安志 LI An-zhi 作者单位：新疆水利厅头屯河流域管理处,新疆,昌吉,831100刊名：广东水利水电英文刊名：GUANGDONG WATER RESOURCES AND HYDROPOWER年，卷(期)：“”(11)分类号：P333.1关键词：主成分分析多元线性回归水面蒸发量

主成分与因子分析区别篇5

辣椒品种主要农艺性状的相关性和主成分分析

以吉林农业大学园艺学院蔬菜教研室收集的47份辣椒种质为材料,对其16个主要农艺性状进行相关性及主成分分析.分析结果表明,在相关性上,果实横径、果内厚与产量呈极显著正相关;单株结果数与单果质量相互制约.品质育种上应注意对小果型品种的选择,其营养物质含量高,辣椒素含量较高.主成分分析上,前7个主成分的`累计贡献率大于85%,说明前7个主成分就可以基本表达原16个农艺性状所代表的遗传特征.前7个主成分主要包括产量因子、株型因子、营养品质因子、单株果数因子和熟性因子,大致代表了供试辣椒品种的综合指标.

作者：李晴韩玉珠张广臣作者单位：吉林农业大学园艺学院,吉林长春,130118刊名：长江蔬菜 PKU英文刊名：JOURNAL OF CHANGJIANG VEGETABLES年，卷(期)：“”(6)分类号：关键词：辣椒农艺性状相关分析主成分分析

主成分与因子分析区别篇6

选定河北省张家口地区34个地下水质站点9年资料,在SPSS统计软件的支持下,将主成分分析方法应用于水环境的.综合评价之中.利用主成分综合得分从评价分区、河流水系、同一水系的相邻站点上进行时空变化分析,分析结果理想,体现了主成分分析在水环境质量评价中的实用性.

作者：李哲强侯美英白云鹏作者单位：李哲强(河北省水文水资源勘测局,河北,石家庄,050031)

侯美英,白云鹏(张家口市水文水资源勘测局,河北,张家口,075000)

主成分与因子分析区别篇7

近年来,我国物流业发展迅速,物流园区作为物流发展中的一个重要节点,作用日益突出,各个地方纷纷兴起建设物流园区的高潮。据不完全统计,目前全国至少有20多个省市和30多个中心城市政府制定了区域性物流发展规划和政策,还有数不胜数的城市、乡镇甚至街道办事处都要发展物流园区。各个地区物流园区的盲目建设致使物流园区规划建设中存在功能定位不清、盲目攀比、变相圈地等现象。

2004年国务院针对各地由于纷纷盲目建设物流园区出现的不少问题决定将物流园区列入整顿范围。今后的物流园区建设将进入冷静、科学和多元化发展阶段。在全国各地区、部门和行业分割的管理下,为了防止物流园区在各地布局结构趋同及资源重复配置,有必要对物流园区作更高层次的统筹规划,以实现区域内物流园区的协调发展。

本文针对各地物流园区建设中存在的功能定位不清,资源重复建设等问题,试图从宏观层面通过对物流园区依托地区的条件分析,以及对各有关地区的横向比较研究,确定物流园区宏观布局载体的层次结构体系,判断某地区适宜建设的物流园区层级,对物流园区的空间类型进行合理划分,进而对物流园区进行合理定位。为此,借助主成分和聚类分析方法,通过使用多个经济指标,实现物流园区空间类型划分,以期望对我国的物流园区建设提供一定的指导与借鉴作用。文中选取泛珠三角地区进行实证分析。

二、物流园区空间类型及功能

物流园区空间类型是指物流园区的空间层次类别。物流园区空间层次主要是指物流园区空间布局体系中的层次等级问题。物流园区的层次定位主要取决于其在整个物流服务网络中的地位和作用。根据物流园区主要空间服务地域层次可以将其划分为国际性物流园区、区域性物流园区和城市性物流园区。其布局的空间层次关系如表2.1所示。

对物流园区宏观空间布局层次的划分主要是对其载体层次的划分。分析物流园区宏观布局层次类别,主要是判断作为其宏观布局载体的省区和城市能够建设的最高级别物流园区种类情况。物流园区空间布局载体主要分为如下3个层次类别。

上层为国际枢纽型物流园区载体城市,也可称为物流中心城市,该类城市具有良好的经济发展水平和优越的交通区位优势,建有或具备条件建设国际枢纽型物流园区,其物流服务辐射范围广,物流相关作业规模大。

中层为区域集散型物流园区载体城市,该类城市具有较好的经济发展水平和较好的交通区位优势,建有或具备条件建设区域集散型物流园区,其物流服务辐射范围一般在本区域内。在物流园区布局层次体系中,此类城市主要承担联结上下两类层次城市的功能。

基层为物流本地生成城市,该类城市是物流服务的本源需求地和最终消费地,因此每个地级城市一般都需要建设本地配送型物流园区。此外,随着区域经济一体化的发展,城市群作为空间经济体系不断出现,应当考虑在密集的城市群间规划布置公共的配送型物流园区。

三、主成分分析与聚类分析在泛珠三角物流园区功能定位中的应用

1. 主成分分析及聚类分析基本原理

主成分分析(Principal Component Analysis)是多元统计分析中一种重要的方法,用来考察多个定量(数值)变量间的相关性。在多指标(变量)的研究中,由于变量的个数较多,并且彼此之间存在一定的相关性,因而使得所观测的数据在一定程度上反映的信息有所重叠,而且当变量较多时,在高维空间中研究样本的分布规律及特征比较麻烦。它是研究如何通过少数几个主分量(即原始变量的线性组合)来解释多变量的一种方差-协方差结构。主成分分析的应用使问题得到简化,即采用降维的方法找到几个综合因子来代表原来众多的变量,使这几个综合因子尽可能反映原来的信息,而且彼此之间不相关。

聚类分析(Cluster Analusis)是统计学所研究的“物以类聚”问题的一种方法,它属于多变量统计分析的范畴。它是一种建立分类的方法,能够将一批样本数据(或变量)按照它们在性质上的亲疏程度在没有先验知识的情况下自动进行分类。这里,一个类就是一个具有相似性的个体的集合,不同类之间具有明显的非相似性。在分类过程中,不必事先给出一个分类标准,聚类分析能够从样本数据出发,客观地决定分类标准。

2. 主成分分析与聚类分析在泛珠三角物流园区功能定位中的应用

“泛珠三角区域合作与发展论坛”的举行,标志着包括华南九省区以及港澳两个特别行政区的泛珠三角合作全面启动。目前,泛珠三角区域正在协力打造全中国最为庞大的一体化产业带、交通网以及信息流,在发展物流业的过程中,泛珠三角区域各大城市应根据各自的产业布局,以及优势,实行对物流产业的合理定位与规划,进而达到各城市在物流基础设施的规划和布局方面要相互协调发展的目标。本文利用主成分及聚类分析法,对泛珠三角各省区的物流业进行综合分析,对各省区的物流园区空间类型进行科学定位,从而得出各省区适宜建立的物流园区层级。

(1)评价指标的选取。建立分类指标体系的目的是为了对物流园区宏观布局载体样本进行分类研究,在进行物流园区空间布局载体分类指标体系的选取时,建立科学合理的指标体系关系到分类结果的正确性。因此,在选择指标体系时,应充分考虑各种因素的影响,然后选择出影响较大的因素和条件进行分析。

本文从研究的总目标出发,采用系统分析的方法,结合物流园区与其空间载体的相互关系,注意空间载体对不同层次类别物流园区的适应性,建立一个系统完整、有机可行的评价指标体系。采用频度统计法、理论分析法和专家咨询法以满足指标选择的各项原则。本文选取GDP(X1)、人均GDP(X2)、GDP增长率(X3)、居民消费水平(X4)、工业总产值(X5)、工业增加值(X6)、社会消费品零售总额(X7)、交通运输仓储及邮电通信业(X8)、批发零售贸易业总额(X9)、制造业总额(X10)、实际利用外资额(X11)、进出口总额(X12)、外商投资企业数(X13)、社会货运量(X14)、铁路货运量(X15)、公路货运量(X16)、水路货运量(X17)、铁路网密度(X18)、公路网密度(X19)、公路货物平均运距的倒数(X20)、地理区位(X21)、是否为全国性交通枢纽规划城市(X22)等22项指标。

(2)主成分分析结果。以泛珠三角区域内9个省区为研究对象(考虑到数据的可得性,以及香港和澳门的特殊地位,文中未将两个特区纳入研究范围),将9个省区的22项指标用主成分法进行分析,得到22个主成分。根据累计方差贡献率超过85%的原则,提取前5个主成分作为第一、第二、……第五主成分,其累计方差贡献率达98.064%(见表2)。这说明前5个主成分已提供了全部原始数据的98.064%的信息。

(3)聚类分析结果。根据主成分的计算方法,得到各主成分的特征向量,根据各主成分特征向量,计算前5个主成分的标准得分系数,将主成分的得分系数代替原始指标进行聚类分析。利用统计软件SPSS12.0中的系统聚类方法,对9个省份进行R型聚类,即对个案聚类,得到聚类结果,如图所示。

(4)泛珠三角区域物流园区空间类型定位。通过对各省区的聚类分析,从图可以看出,泛珠三角地区物流园区空间类型可分为3类,广东为一类,江西和湖南为一类,福建、广西、贵州、海南、四川和云南等5省为一类。

结合实际可见,聚类分析的结果较符合实际。这3类都有各自的特点:

(1)广东省是泛珠三角地区重要的交通枢纽,港口、机场和陆路交通十分发达,省区内多种运输方式骨干线网交汇,工业商业、宏观环境、经济发展等优势明显,发展物流所依托的各方面资源都很好,因此,广东省具备建成国际枢纽型物流园区的条件,广东省在泛珠三角地区处于物流园区空间布局的最高层次,是物流园区布局的1类地区。

(2)江西和湖南两省在泛珠三角地区中除广东省外地区实力较强的省区,发展物流的综合实力比较突出,因此,这两个省份适于建成区域集散型物流园区,是物流园区空间布局的2类地区,适宜建成跨省区区长途运输和省区城市间配送体系的转换枢纽,承担周边省区与城市物流的集散功能。

(3)福建、广西、贵州、海南、四川和云南5省发展物流的实力较弱,属于物流园区空间布局的3类地区,即物流本地生成城市,适于建成城市型物流园区,主要保障商贸与城市生产,承担各自省区的物流配送业务。

四、结语

文中选取反映物流业发展的22项指标,通过主成分分析法,建立主成分模型,在主成分分析的基础上进行聚类分析,以主成分得分系数代替原始指标进行聚类,在聚类分析时,用多种聚类方法进行分析,聚类结果较为一致,这表明将主成分与聚类分析法相结合,可有效避免原始指标间存在相关性造成聚类偏差,聚类结果较为客观准确。

本文在分析泛珠三角区域物流业发展的基础上,为了合理对泛珠三角区域内各省区的物流园区进行定位,首先从宏观层面,采用聚类分析法分析泛珠三角范围内各省区的物流园区的空间类型,然后,从微观层面,在确定各省区物流园区空间类型的基础上,对各省区的物流园区功能进行定位,分析的结果较符合客观实际。在目前物流园区建设热中,可将该方法应用在确定全国物流园区的宏观空间布局规划中,通过分析全国物流园区空间类型,以便提高物流园区规划建设的决策科学性,避免和减少极易出现的盲目投资和重复建设。

摘要：本文利用主成分分析和聚类分析法对泛珠三角物流园区的空间类型进行分类。在目前物流园区热中,从宏观角度对物流园区空间类型进行合理划分,在这基础上对物流园区进行合理的功能定位,可以实现各省区物流园区建设投资合理、物流系统优化等目标,并有效避免资源的重复配置和物流园区功能定位不清等问题。

关键词：主成分分析,聚类分析,物流园区,功能定位

参考文献

[1]汪鸣:宏观调控环境中物流的收获与期待——2004年我国物流发展综述[J].综合运输,2005

[2]王庭建:物流园区及其建设发展研究[J].物流科技,2005,28(114)

[3]张晓东:物流园区布局规划理论研究[M].北京:中国物质出版社,2004

[4]薛薇:SPSS统计分析方法及应用[M].北京:电子工业出版社,2004

[5]云俊:物流园区预测方法及应用研究.武汉理工大学工学博士学位论文,2003

利率期限结构主成分分析篇8

关键词：国债收益率；主成分分析；固定收益证券；利率期限结构；套期保值

中图分类号：F830.8 文献标识码：A 文章编号：1006-8937（2014）29-0108-03

一个国家的国债收益率一向是重要的指标，从宏观经济上看，国债收益率高说明市场经济走势好，稳定增长，投资回报稳定，投向国债的资金少；利率低说明宏观经济开始波动，市场对经济前景不看好，大量资金涌向国债。

从货币政策上看，如果国家执行稳健的货币政策，国债利率稍高，如果因为刺激经济执行宽松的货币政策，降低利率，这样国债利率也会降低。

因此我们对我国国债收益率曲线的变动模式进行探究，找出其主要受到哪些因素的影响，以及其收益率曲线的主要波动方式。

同时，我们试图找出可以更加准确的衡量债券的利率风险的方法，以达到更好的套期保值效果。

1 理论基础

Nelson-Siegel模型是一种通过参数模型来描述曲线动态变化的方法，大量应用于利率期限结构的估计中，由Nelson和Siegel在1987年提出。瞬时远期利率可以用包含参数的如下模型来描述：

由于R（t，x）是f（t，x）的一种积分，因此两者的图形属性一定是一致的，为了研究？茁0、？茁1、？茁2的性质，我们可以对τ取一个假定值，得到R（t，x）相对？茁0、？茁1、？茁2的偏导数。

式中，？茁0是R（t，x）在期限t趋于无穷大时的渐进值，其变动整体改变利率期限结构的水平高度，可以理解为“水平因子”；？茁1参数可以理解为“斜率因子”；？茁2参数可以理解为“曲率因子”；τ参数，在其他参数固定不变的情况下，决定了收益率曲线第一次驼峰出现的时间。

2 系统设计与实现

2.1 求取最佳τ取值

由于Nelson-Siegel模型中？茁0、？茁1、？茁2、τ参数之间的关系，在对期限结构进行估计时，需要选取合适的τ的取值，这里采用试值法。

分别取τ=0.5，1，1.5，…，5，6，7，8，9，10，15，20，25，30对公式（2）进行最小二乘估计，选取综合来看残差平方和最大，R最小的值。

2.2 估计收益率

根据得到的τ值以及方程式，我们分别对2013年8月到2014年5月的收益率进行模拟，得到不同年限的N-S估计利率。

2.3 利率期限结构的主成分分析

将EVIEWS中所构建的N-S模型所估计得到的利率期限结构数据导入SPSS软件中，选取所有变量进行主成分分析，得到了各变量的方差贡献率，得到显著的变量并整理。记录主成分的方差贡献率以及累计方差贡献率，代表原始多维数据进行统计分析。此外，根据三个主成分的成分矩阵可以作出利率变动的主成分分析表，见表1。

3 实验结果

3.1 数据分析

以2014年2月28日得到的国债数据作为样本，制作下表，见表2，并且由表中我们知道最佳的τ取值是8。

我们对从2013年8月31日至2014年5月31日中每月末取得的国债数据进行计算，从而到不同τ下的？茁0、？茁1和？茁2，通过选取最大的残差平方和以及最小的R2，得到最佳的τ。

例如，2013年8月30日得到最佳的τ，τ=1，此时得到的方程为：

4.196166+7.229851×（1-exp（-t））/（t）-14.65054×（（1-exp

（-t））/（t）-exp（-t））（3）

2013年9月29日得到最佳的τ，τ=3，此时得到的方程为：

4.414798-1.352335×（1-exp（-t/3））/（t/3）-2.440788×（（1-exp

（-t/3））/（t/3）-exp（-t/3））（4）

2013年10月30日得到最佳的τ，τ=3，此时得到的方程为：

4.450086-1.459816×（1-exp（-t/3））/（t/3）-2.294317×

（（1-exp（-t/3））/（t/3）-exp（-t/3））（5）

3.2 估计收益率

每月末0.05年至30年N-S估计利率见表3。

3.3 利率期限结构的主成分分析

所得各变量的方差贡献率见表4。

4 结语

从以上实验结果中可以看出，我国国债收益率曲线的变动模式也主要受到三个因素的影响，且收益率曲线的波动方式主要有三种形式：平行移动、斜率变动、曲率变动。

同时，通过主成分分析得到了影响利率期限结构变动的三个主成分，在一定程度上解释了利率非平行移动的原理，在此基础上构建的主成分久期相对于麦考利久期和修正久期而言，就可以更加准确的衡量债券的利率风险，达到更好的套期保值效果。

参考文献：

[1] 萨利赫N·内夫茨（美）.金融工程：金融工程原理（第1版）[M].北京：人民邮电出版社，2009.

摘要：文章通过Nelson-Siegel模型描述我国国债收益率曲线的变动模式，依据β0、β1、β2、τ取得的最佳值建立方程式，进行不同期限的N-S估计利率分析，以及利率期限结构的主成分分析，得出我国国债收益率进行主要受到三个因素的影响，且收益率曲线的波动方式主要有三种形式：平行移动、斜率变动、曲率变动。这三个主成分在一定程度上解释了利率非平行移动的原理，因此在此基础上构建的主成分久期相对于麦考利久期和修正久期而言，就可以更加准确的衡量债券的利率风险，达到更好的套期保值效果。

关键词：国债收益率；主成分分析；固定收益证券；利率期限结构；套期保值

中图分类号：F830.8 文献标识码：A 文章编号：1006-8937（2014）29-0108-03

从货币政策上看，如果国家执行稳健的货币政策，国债利率稍高，如果因为刺激经济执行宽松的货币政策，降低利率，这样国债利率也会降低。

因此我们对我国国债收益率曲线的变动模式进行探究，找出其主要受到哪些因素的影响，以及其收益率曲线的主要波动方式。

同时，我们试图找出可以更加准确的衡量债券的利率风险的方法，以达到更好的套期保值效果。

1 理论基础

2 系统设计与实现

2.1 求取最佳τ取值

由于Nelson-Siegel模型中？茁0、？茁1、？茁2、τ参数之间的关系，在对期限结构进行估计时，需要选取合适的τ的取值，这里采用试值法。

分别取τ=0.5，1，1.5，…，5，6，7，8，9，10，15，20，25，30对公式（2）进行最小二乘估计，选取综合来看残差平方和最大，R最小的值。

2.2 估计收益率

根据得到的τ值以及方程式，我们分别对2013年8月到2014年5月的收益率进行模拟，得到不同年限的N-S估计利率。

2.3 利率期限结构的主成分分析

3 实验结果

3.1 数据分析

以2014年2月28日得到的国债数据作为样本，制作下表，见表2，并且由表中我们知道最佳的τ取值是8。

例如，2013年8月30日得到最佳的τ，τ=1，此时得到的方程为：

4.196166+7.229851×（1-exp（-t））/（t）-14.65054×（（1-exp

（-t））/（t）-exp（-t））（3）

2013年9月29日得到最佳的τ，τ=3，此时得到的方程为：

4.414798-1.352335×（1-exp（-t/3））/（t/3）-2.440788×（（1-exp

（-t/3））/（t/3）-exp（-t/3））（4）

2013年10月30日得到最佳的τ，τ=3，此时得到的方程为：

4.450086-1.459816×（1-exp（-t/3））/（t/3）-2.294317×

（（1-exp（-t/3））/（t/3）-exp（-t/3））（5）

3.2 估计收益率

每月末0.05年至30年N-S估计利率见表3。

3.3 利率期限结构的主成分分析

所得各变量的方差贡献率见表4。

4 结语

参考文献：

[1] 萨利赫N·内夫茨（美）.金融工程：金融工程原理（第1版）[M].北京：人民邮电出版社，2009.

关键词：国债收益率；主成分分析；固定收益证券；利率期限结构；套期保值

中图分类号：F830.8 文献标识码：A 文章编号：1006-8937（2014）29-0108-03

从货币政策上看，如果国家执行稳健的货币政策，国债利率稍高，如果因为刺激经济执行宽松的货币政策，降低利率，这样国债利率也会降低。

因此我们对我国国债收益率曲线的变动模式进行探究，找出其主要受到哪些因素的影响，以及其收益率曲线的主要波动方式。

同时，我们试图找出可以更加准确的衡量债券的利率风险的方法，以达到更好的套期保值效果。

1 理论基础

2 系统设计与实现

2.1 求取最佳τ取值

由于Nelson-Siegel模型中？茁0、？茁1、？茁2、τ参数之间的关系，在对期限结构进行估计时，需要选取合适的τ的取值，这里采用试值法。

分别取τ=0.5，1，1.5，…，5，6，7，8，9，10，15，20，25，30对公式（2）进行最小二乘估计，选取综合来看残差平方和最大，R最小的值。

2.2 估计收益率

根据得到的τ值以及方程式，我们分别对2013年8月到2014年5月的收益率进行模拟，得到不同年限的N-S估计利率。

2.3 利率期限结构的主成分分析

3 实验结果

3.1 数据分析

以2014年2月28日得到的国债数据作为样本，制作下表，见表2，并且由表中我们知道最佳的τ取值是8。

例如，2013年8月30日得到最佳的τ，τ=1，此时得到的方程为：

4.196166+7.229851×（1-exp（-t））/（t）-14.65054×（（1-exp

（-t））/（t）-exp（-t））（3）

2013年9月29日得到最佳的τ，τ=3，此时得到的方程为：

4.414798-1.352335×（1-exp（-t/3））/（t/3）-2.440788×（（1-exp

（-t/3））/（t/3）-exp（-t/3））（4）

2013年10月30日得到最佳的τ，τ=3，此时得到的方程为：

4.450086-1.459816×（1-exp（-t/3））/（t/3）-2.294317×

（（1-exp（-t/3））/（t/3）-exp（-t/3））（5）

3.2 估计收益率

每月末0.05年至30年N-S估计利率见表3。

3.3 利率期限结构的主成分分析

所得各变量的方差贡献率见表4。

4 结语

参考文献：

主成分与因子分析区别篇9

关键词：主成分分析,因子分析,复合财务指标

►►一、上市公司复合财务指标设计以及构造的方法

(一) 指标的选取和财务管理理论指出:企业财务状况是要取决于公司的盈利的能力、偿债的能力、营运的能力以及成长的能力。依据这一思路及我国上市公司的财务特点, 特选定包括盈利能力、偿债能力、营运能力和成长能力在内的16个财务指标进行研究。具体指标如下: (1) 盈利能力, 包括总资产报酬率 (x1) , 净资产收益率 (x2) , 主营业务利润率 (x3) 和销售利润率 (x4) ; (2) 成长能力, 包括主营业务收入增长率 (x5) , 净利润增长率 (x6) 和净资产增长率 (x7) ; (3) 运营能力, 包括总资产周转率 (x8) , 流动资产周转率 (x9) , 存货周转率 (x10) 和应收帐款周转率 (x11) ; (4) 偿债能力, 包括流动比率 (x12) , 速动比率 (x13) , 现金比率 (x14) , 资产负债率的倒数 (x15) 和已获利息倍数 (x16) 。

(二) 中国证券报2006年2月～3月所公布的51家上市公司的财务报表, 这51家公司涉及各行业。

►►二、指标体系以上述体系为准, 运用SPSS软件进行主成分分析

(一) 各财务指标相关系数分析根据SPSS软件运算结果得各财务指标的相关系数可知, 净资产收益率与净资产增长率之间, 流动比率、速动比率与资产负债率的倒数之间分别存在着极其显着的关系, 总资产报酬率与销售利润率、总资产周转率这几个指标间存在显着关系。可见许多变量之间直接的相关性比较强, 证明他们存在信息上的重叠。

(二) 选取并解释主成分运用SPSS软件可得到各主成分特征值与贡献率表, 主成分累积贡献率达到84.539%=27.630%+18.484%+12.828%+10.855%+7.624%+7.117%.根据我们了解的85%的选取的原则我们可以看见选出的6个主要成分。我们为了要对这6个主要成分进行经济分析, 也要得到这16个原始的财务指标对这6个主要成分因子的负荷量。

(三) 主要成分的综合的评价不足, 第一, 因为一样的被的评价对象在不的一样的样本本集合中的均值以及离散程度是不一样有的, 协方的差矩阵是变化的, 因此对于计算的主要成分以及方差的贡献率是不一样的, 因此对于综合的评价结果是不一样的, 因此主要成分分析方法只用于一次评价, 不方便对于横向以及纵向的比较, 不便于统计资料累积。其次 , 进行主要成分综合评价也没考虑指标的本身的重要性。最后 , 在进行主要成分综合的评价时, 实际主要成分的权重也许出现负权数, 与实际情况相违背, 从而给实际应用带来了不便。因此, 主成分分析在此应用有局限, 有必要使用因子分析来解决这一问题。

(四) 因子分析方法的计算步骤:第一步:将原始数据标准化。第二步:建立变量的相关系数R。第三步: 求R的特征根极其相应的单位特征向量。第四步:对因子载荷阵施行最大正交旋转。第五步:计算因子得分。

►►三、小结

复合的财务指标是对因子的分析方法得出的, 它的权数生成来自于财务的指标数据的统计规律, 比较的客观、也很科学, 进而提高了我们综合的价结果的正确性、可靠性。

参考文献

[1]财政部, 国家经济贸易委员会, 人事部, 国家发展计划委员会, 关于印发《国有资本金效绩评价规则》和《国有资本金效绩评价操作细则》的通知[J].中国工会财会, 2000;3

[2]夏嘉华.财务管理学[M].立信会计出版社, 2004

[3]何晓群.现代统计分析方法与应用[M].中国人民大学出版社, 1998

主成分与因子分析区别篇10

1938年梅森 (E.S.Mason) 在哈佛大学建立了产业组织研究小组, 开始对市场竞争过程的组织结构、竞争行为方式和市场竞争结果进行经验性研究。以张伯伦等人垄断竞争理论为基础, 梅森 (E.S.Mason, 1939) 提出了产业组织的理论体系和研究方向。此后, 贝恩 (J.S.Bazn, 1959) 系统阐述了产业组织研究的目的和方法, 提出了现代产业组织理论的3个基本范畴:市场结构、企业行为和市场绩效, 并把这3个范畴和产业组织政策联系起来, 规范了产业组织理论的理论体系[1]。

谢勒 (Scherer, 1970) 对产业组织学作了更为系统的论述, 特别是提出了“基本情况———市场结构———企业行为———市场绩效”的产业组织分析框架[2]。在其框架中, 谢勒 (Scherer, 1970) 考虑了产业基本条件与政府公共政策, 认为供给与需求等产业基本条件影响市场结构, 进而影响产品研发、定价及广告策略等厂商行为, 再进一步影响厂商的经营绩效。至此, 产业组织理论的SCP范式最终得到了系统完整的阐释, 并形成了以梅森、贝恩、谢勒为代表的哈佛学派 (又称为结构主义学派) 。

哈佛学派以实证的截面分析方法推导出企业的市场结构、市场行为和市场绩效之间存在一种单向的因果联系:集中度的高低决定了企业的市场行为方式, 而后者又决定了企业市场绩效的好坏。这便是产业组织理论特有的“结构※行为※绩效” (Structure※Conduct※Performance, 简称SCP) 分析范式。按照这一范式, 行业集中度高的企业总是倾向于提高价格、设置障碍, 以便谋取垄断利润, 阻碍技术进步, 造成资源的非效率配置;要想获得理想的市场绩效, 最重要的是要通过公共政策来调整和改善不合理的市场结构, 限制垄断力量的发展, 保持市场适度竞争。

哈佛学派的SCP范式受到了芝加哥学派的批评。以芝加哥大学的施蒂格勒 (V.Stigler, 1968) 为首的芝加哥学派针对哈佛学派SCP范式的单向因果关系, 提出结构、行为、绩效三者之间应为双向因果关系[3]。芝加哥学派认为市场绩效起决定性作用, 企业效率的不同导致不同的市场结构, 高集中度的市场是高效率、低成本的结果, 一个持续高利润率的产业完全可能是该产业中企业高效率经营所致, 否则会招致其他企业大量进入而导致利润率下降。因此, 芝加哥学派提倡政府放松规制、少干预市场以利于市场自由竞争, 进行资源的合理配置来提高生产活动的效率从而尽可能满足消费者的需求, 实现消费者福利最大化。只有当市场行为限制了产业, 抑制了生产效率的提高, 损害了消费者福利时, 政府才有必要进行干预。

除了单向因果关系之外, 哈佛学派的SCP范式还存在其他一些缺陷。例如, 有的学者指出, SCP范式所描述的那种静态的、单向的研究框架, 要求作为市场结构之结果的企业行为和企业绩效完全内生。但是实际上, 较高的利润可能是组织实现规模经济的一种报酬, 任何成本最低企业的规模会不断扩大, 从而在SCP的单向决定框架之外, 又形成了一条PCS的反向通道。另外, SCP范式的单向研究方法只能反映出某一时期既有行业结构下的行为和绩效间的特定联系, 而并不能说明该结构的形成原因及未来发展趋势如何[4]。

尽管如此, SCP范式对产业组织理论的影响无疑是十分深远的。在政策主张上, SCP范式推动了战后以美国为首的西方发达国家反垄断政策的开展。在研究方法上, SCP范式的提出开创了以跨部门研究为主的经验性产业组织分析。许多学者将SCP分析框架运用于银行业 (如Shaffer, 2002;Brewer和William, 2006) 、保险业 (如David和Harry, 2005) 、电信业 (如Gene和Edward, 1997) 等行业的产业组织分析中。本文正是运用哈佛学派的SCP范式, 借鉴国外已有经验研究思路, 通过产业组织的3个基本范畴市场结构、市场行为和市场绩效, 对我国工业产业集群的结构、行为与绩效进行量化评价。

2 工业产业集群结构、行为与绩效的SCP范式量化评价

2.1 评价指标体系的构建

借鉴哈佛学派SCP范式的核心框架, 这里设置三大类指标, 并结合数据采集的可能性, 具体选择9个指标进行评价:

(1) 市场结构 (S) 指标, 通常包括买者与卖者的数量、产品差异化、进入障碍、成本结构、垂直整合和多元化程度等因素。这里选择企业单位数S1 (个) 、1/主营业务成本S2 (1/亿元) 、1/管理费用S3 (1/亿元) 等3个指标; (2) 厂商行为 (C) 指标, 通常包括厂商的订价行为、产品策略与广告、研究与创新以及设备投资等因素。这里选择固定资产净值C1 (亿元) 、R&D经费C2 (亿元) 、R&D人员全时当量C3 (人年) 等3个指标, 主要评价产业集群的创新能力。固定资产净值、R&D经费和R&D人员全时当量越大, 产业集群创新能力越强; (3) 市场绩效 (P) 指标, 通常包括生产与配置效率、进步速度、充分就业以及对公平的判断。这里选择工业增加值率P1 (%) 、总资产贡献率P2 (%) 、利润总额P3 (亿元) 等3个指标, 用来评价产业集群的市场绩效。工业增加值率、总资产贡献率和利润总额越大, 产业集群市场绩效越大。

2.2 样本、数据与方法

研究样本选择中国煤炭开采和洗选业、石油和天然气开采业、黑色金属矿采选业等37个工业行业的大中型工业企业。由于缺少R&D经费、拥有发明专利数和R&D人员全时当量等相关数据, 研究中剔除废弃资源和废旧材料回收加工业。

各项指标的实际数据根据2007年中国统计年鉴和2007年中国工业年鉴整理、计算得出。评价方法使用主成分分析, 该方法对多个变量进行降维, 把多指标转化为少数几个综合指标, 既能反映原来指标的信息, 又尽可能不含重复信息。限于篇幅, 这里省略对主成分分析法的介绍。主成分分析过程应用SPSS15.0软件, 各主成分值和综合主成分值的计算应用Matlab7.0软件。

2.3 工业产业集群结构、行为与绩效的量化评价

2.3.1 数据的无量纲处理

为了消除变量间在数量级和量纲上的不同, 先将原始数据标准化, 各指标变量前加上z表示标准化后的数据。

数据标准化公式是:

2.3.2 变量的KMO和Bartlett检验

对观测变量进行KMO检验和Bartlett检验, 检验结果见表1。可以看出, Bartlett检验的F值等于0.000, 表明中国工业产业集群的各项数据来自正态分布总体, 可以进行主成分分析。KMO取值0.573, 显示中国工业产业集群数据之间的简单相关系数和偏相关系数较大, 该结果也说明适合进行主成分分析。

2.3.3 主成分个数的确定

为确定主成分的数目, 需要先规定所取的p个主成分的累计方差贡献率达到的百分比, 按照通常的做法, 确定累计方差贡献率为85%。计算得出的相关系数矩阵的特征根及方差贡献率表见表2。可以看出, 前2个主成分累计方差贡献率为70.271%、前3个主成分累计方差贡献率为81.386%。另外, 第3个主成分所对应的特征值为1.000, 通常所提取的主成分特征值应大于等于1。从分析所给出的碎石图 (这里略去) 也可以发现, 明显的拐点为3, 故提取3个主成分。

2.3.4 初始因子载荷阵及主成分函数

根据所提取的3个主成分, 计算得到的初始因子载荷阵见表3。该表中变量没有出现丢失, 这说明主成分数目的确定是合理的。

所提取的3个主成分对应的特征值分别为:λ1=3.917;λ=2.408;λ=1.000。

将初始因子载荷阵中每列的系数除以其相应的特征值的开根, 即可得到主成分系数向量。根据系数向量, 写出3个主成分的函数表达式为:

结合初始因子载荷矩阵对这3个主成分Fi命名, 可以看出, 第一主成分F1反映的是市场结构和厂商行为的信息, 第二主成分F2反映的是市场绩效的信息, 第三主成分F3则反映的是厂商行为的信息, 表示产业集群的成长能力。从初始因子载荷矩阵来看, 主成分F2和F3反映信息的清晰度很高。这里将F2称作集群绩效成分, 将F3称为集群创新成分。

根据主成分函数, 求得综合主成分函数为:

综合主成分函数反映了中国产业集群的结构、行为与绩效的综合信息。

3 结论及建议

根据主成分函数和综合主成分公式, 求出中国37个工业产业集群的主成分值、综合主成分值及其综合排序如表4。限于篇幅, 表中只列举分别按3个主成分和综合主成分排序的前5位和后5位的行业。

3.1 建立技术创新体系, 提高集群自主创新能力

按集群创新成分F3排序, 中国工业产业集群排在前3名的依次是通信设备、计算机及其他电子设备制造业 (2.822) 、非金属矿采选业 (1.919) 、交通运输设备制造业 (1.61) , 括弧中数据为相应主成分得分。其中, 通信设备、计算机及其他电子设备制造业产业集群的创新能力最强。从反映产业集群创新能力的3个测算变量来看, 该行业固定资产净值、R&D经费和R&D人员全时当量指标值都较高, 尤其是R&D经费和R&D人员全时当量在所有行业中的优势相当明显。该行业R&D经费投入348.4亿元, 占所考察37个行业的21.37%, R&D人员全时当量为122066人年, 占所考察37个行业的17.55%。事实上, 通信设备、计算机及其他电子设备制造业的一个重要特征就是技术创新能力和产品附加值很高, 该产业集群的本身特征说明只有不断增强自主创新能力, 才能实现产业集群的可持续发展。排在后3位的则是电力、热力的生产和供应业 (-3.454) 、石油加工、炼焦及核燃料加工业 (-1.319) 和非金属矿物制品业 (-0.713) 。其中, 电力、热力的生产和供应业自主创新能力最差。该产业集群的R&D经费为15.4亿元, 占所考察37个行业的比重仅0.94%, 平均每个企业的R&D经费则只有91.286万元。可见电力、热力的生产和供应业产业集群的自主创新能力很差, 企业的研究与开发经费、研究与开发人员相对不足。

产业集群创新能力分析说明, 必须以促进全社会科技资源高效配置和综合集成为重点, 以建立企业为主体、产学研结合的技术创新体系为突破口, 从增强国家创新能力出发, 加强原始创新、集成创新和引进消化吸收再创新, 提高集群自主创新能力。

3.2 转变经济发展方式, 提高产业集群市场绩效

按集群绩效成分F2排序, 中国工业产业集群排在前3名的依次是石油和天然气开采业 (6.845) 、烟草制品业 (4.512) 、有色金属矿采选业 (1.407) 。石油和天然气开采业的利润总额为3430.78亿元, 占全行业比重为23.89%。其工业增加值率为76.43%, 这两个指标在所考察的全部行业中都最高。石油和天然气开采业的总资产贡献率为56.78%, 在所考察行业中排第2位, 仅次于烟草制品业的62.00%。可见, 石油和天然气开采业产业集群的市场绩效很高。从结果来看, 石油加工、炼焦及核燃料加工业 (-1.491) 的市场绩效最差, 出现全行业亏损, 且亏损数额较大, 达379.37亿元。石油和天然气开采业和石油加工、炼焦及核燃料加工业这两个行业的利润成为两个极端, 是相互关联的。近年石油加工炼焦及核燃料加工业出现亏损的主要原因是生产成本大幅上升:其一是原油和煤炭价格持续上涨, 导致石油加工炼焦及核燃料加工业的原材料购买价格居高不下, 原油和成品油价格倒挂造成石油炼化企业巨额亏损。其二是油源结构发生变化。近两年国内主要油田如大庆油田供给的高质量原油逐年递减, 而大庆混油和俄罗斯进口原油比重提高, 加大了企业的运输成本和炼油成本。此外, 由于国家实施宏观调控, 导致部分产品市场需求发生变化, 也影响了石油加工炼焦及核燃料加工业的市场绩效。

产业集群市场绩效分析说明, 必须加快转变经济发展方式, 推动产业结构优化升级。促进经济增长由主要依靠增加物质资源消耗向主要依靠科技进步、劳动者素质提高、管理创新转变, 依靠提高劳动生产率和节能降耗降低费用、降低成本, 实现减亏增效。

3.3 促进结构、行为与绩效协同, 提高产业集群综合竞争力

按集群综合主成分F排序, 排在前3名的依次是通信设备、计算机及其他电子设备制造业 (2.432) 、石油和天然气开采业 (2.219) 、交通运输设备制造业 (1.699) 。可以看出, 尽管通信设备、计算机及其他电子设备制造业的自主创新能力很强, 但是其市场绩效却较差。究其原因, 通信电子行业市场竞争过于激烈, 导致产品市场价格不断走低, 进而降低了其利润率。值得注意的是, 尽管电力、热力的生产和供应业创新能力不足, 但该行业的市场绩效却相对较高。可见该行业市场结构不尽合理, 存在相当程度的垄断, 导致利润率较高。

排在后3名的依次是非金属矿采选业 (-1.395) 、燃气生产和供应业 (-1.391) 和木材加工及木、竹、藤、棕、草制品业 (-1.337) 。其中, 非金属矿采选业的创新能力较高, 仅次于通信设备、计算机及其他电子设备制造业, 但是在市场结构和厂商行为这两方面表现最差, 导致其综合竞争力在37个行业中处于最后一位。

总体来看, 中国工业产业集群在结构、行为与绩效三方面还没有实现协同发展, 每一产业集群在结构、行为与绩效的一个或两个方面发展欠佳。要想获得理想的市场绩效, 就要提高企业自主创新能力, 同时通过公共政策来调整和改善不合理的市场结构, 限制垄断力量的发展, 保持市场适度竞争。因而, 为了提高工业产业集群的综合竞争力, 既要重视市场结构, 又要重视厂商行业, 还要重视市场绩效, 做到三方面有机协同。

摘要：哈佛学派和芝加哥学派都是从市场结构、企业行为和市场绩效展开对产业组织的理论和经验研究的。根据哈佛学派的SCP范式, 构建相应的评价指标体系, 应用主成分分析法对中国工业产业集群的结构、行为与绩效进行量化评价, 并根据评价结果提出相关对策建议。

关键词：产业集群,哈佛学派,芝加哥学派,SCP范式,主成分分析

参考文献

[1].Bain, Joes.Industrial Organization, first edition, John Wiley&Sons, Inc, 1959

[2].Scherer, F.M.and D.Ross, Industrial Structure and Economic Performance.NewYork:Houghton Mifflin Company, 1990, 3rded:5

[3].Stigler G.J.The Organization of Industry.Homewood, Illinois:Ir-win, 1968

【主成分与因子分析区别】推荐阅读：

主成分分析07-21

改进主成分分析10-20

主成分分析技术11-19

多元分析、主成分分析11-02

主成分分析法10-15