主成分分析

2024-07-21

主成分分析(精选12篇)

主成分分析 篇1

摘要:依据线性降维与非线性降维的分类原则,分别选择主成分分析法和核主成分分析法对某双层圆柱壳体在不同工况下的机械噪声数据进行降维;然后使用神经网络和支持向量机两种方法分别计算噪声数据在降维前后的正确识别率,以比较不同降维方法的降维效果,从而确定适合于某双层圆柱壳体机械噪声数据的降维方法。

关键词:主成分分析法,核主成分分析法,核函数,神经网络,支持向量机,机械噪声,降维

0 引言

双层圆柱壳体的水下噪声主要来源于自身的机械设备[1],此类噪声属于机械噪声。为了全面分析此类噪声的特点及规律,需要采用尽可能多的特征量进行表征。由于特征量很多,且特征量之间往往存在相关关系,因此很难直接抓住它们之间的主要关系,这就需要一种简化数据的方法使高维数据降维,以便获得噪声数据的主要信息。通过降维可以有效去除机械噪声数据中的冗余信息,从而降低数据分析处理的难度。

目前,数据降维方法主要分为两大类[2]:线性降维和非线性降维。主成分分析法(PCA)因为其概念简单、计算方便、线性重构误差最优等优良的特性,成为数据处理中应用最广泛的线性降维方法之一。核主成分分析法(KPCA)作为PCA方法在处理非线性问题时的扩展,近年来得到了快速发展。

本文将PCA方法和KPCA方法,应用于某双层圆柱壳体机械噪声数据的降维之中,然后使用神经网络(NN)和支持向量机(SVM)两种方法分别计算噪声数据降维前后的正确识别率,通过正确识别率比较PCA方法和KPCA方法的降维效果,从而选择更适合于这种双层圆柱壳体机械噪声数据的降维方法,并由此初步分析出噪声数据的线性或非线性特点。

1 PCA方法与KPCA方法的基本原理

PCA方法是一种基于二阶统计的数据分析方法,该方法在各个变量之间相关关系研究的基础上,用一组较少的、互不相关的新变量(即主元)代替原来较多的变量,而且使这些新变量尽可能多地保留原来复杂变量所反映的信息,具体计算步骤见文献[3]。

KPCA方法是一种非线性主元分析方法[4]。其主要思想是通过某种事先选择的非线性映射Φ将输入矢量X映射到一个高维线性特征空间F之中,然后在空间F中使用PCA方法计算主元成分。在高维线性特征空间中得到的线性主元实质上就是原始输入空间的非线性主元。

设xi∈Rd(i=1,2,…,n)为输入空间的d维样本点。通过非线性映射Φ将Rd映射到特征空间F,即

F中的样本点记作φ(xi)。

非线性映射Φ往往不容易求得,KPCA方法通过使用核函数来完成从输入空间到特征空间的非线性映射。定义核函数k(xi,xj)=〈φ(xi),φ(xj)〉,这样特征空间中两向量的内积可以用输入空间中的两变量的核函数来表示。

核函数是满足Mercer条件的任意对称函数(实正定函数),常用核函数的特性如下:

(1)高斯径向核:

(2)多项式核:

(3)Sigmoid核:

其中,a、b、c、d、e、f为选定的参数,通常取s(xi,xj)=xTixj。

KPCA方法只需要在原空间中计算用作内积的核函数,无需知道非线性映射函数φ(x)的形式,也无需计算非线性变换,具体计算步骤见文献[5]。

PCA方法与KPCA方法已广泛应用于特征提取、数据压缩、图像降噪、分类识别、综合评价以及过程监视等诸多领域。

2 双层圆柱壳体机械噪声数据

在获取某双层圆柱壳体的机械噪声数据时,设定8个不同工况,如表1所示。

在壳体的不同位置布置19个加速度传感器(每个传感器称为一通道),测定不同工况下的噪声数据。采样时间为8s,采样频率为2048Hz。

由于在同一个通道下的采样点较多,且特征单一,不易分析其规律特点,因此对样本点进行预处理:

(1)选定信号处理中常用的10个特征量,即波形因数、峰值因数、脉冲因数、振动加速度总级、期望、方差、标准差、三阶累量、四阶累量和有效值。

(2)以2048个相邻样本点为一个样本段,并以70个样本点为步长,将样本段逐步向后平移,即可在16 384个样本点内得到约205个样本段。

(3)取前200个样本段,在每个样本段内计算选定的10个特征量。

本文重点是比较PCA方法与KPCA方法的降维效果,故只选取10个常用的特征量作为例子,实际上可以选择更多的特征量以更全面地表征噪声数据。

预处理后,在每一工况下的每一通道上可得到一个10×200(10是维数,200是样本量)的噪声数据,则在8种工况下,每一条通道上可得到8个10×200的噪声数据。

3 PCA方法与KPCA方法的主元数目

对上述噪声数据首先选择PCA方法降维,并依据累积贡献率大于0.85的门限值选择主元个数[3]。8种工况下,每一通道上噪声数据的PCA主元计算结果如表2所示。

由表2可知,8种工况下,在19条通道上的噪声数据经PCA方法降维后的主元个数为3的情况占67.1%,主元个数为2个的情况占30.9%,两种情况合计占98%。因此,为保证降维后的数据能够保留原始噪声数据足够多的信息,使用PCA方法降维时统一取3个主元。

本文主要比较PCA方法与KPCA方法对机械噪声的降维效果,因此使用KPCA方法时也取3个主元。

4 PCA方法与KPCA方法降维效果比较

4.1 比较方法

神经网络与支持向量机是模式识别领域最常用的两种方法。神经网络是一种基于经验风险最小原理的方法,它以分布式方式存储信息,具有高度的并行性、较强的自学习自适应性、良好的容错性和联想记忆功能,主要用于解决复杂的分类问题[6]。支持向量机是在Vapnik[7]建立的统计学习理论基础上发展起来的机器学习算法,它主要基于VC维理论和结构风险最小化原理,能够很好地解决训练样本较少时的分类问题[8]。目前这两类方法已广泛应用于分类识别、故障诊断和入侵检测等领域之中[9,10,11,12]。

本文主要使用神经网络和支持向量机对不同工况下的噪声数据进行分类识别,通过对噪声数据的正确识别率,比较PCA和KPCA两种方法降维效果的好坏。

在某通道上,设第i个工况下的机械噪声数据为Xi(i=1,2,…,8),Xi是10×200的数据。若每一噪声数据选择k个样本作为训练样本,l个样本作为测试样本,分别得到X′i、X″i,这里X′i是10×k的数据,Xi″是10×l的数据。则神经网络和支持向量机的输入数据如下:

训练输入

X′=(X′1,X′2,…,X′8)

测试输入

X″=(X″1,X″2,…,X″8)

某双层圆柱壳体机械噪声数据经过降维后,若保留原始信息越多,则来自不同工况下的组合数据经过NN或SVM分类后的正确识别率就会越高;反之,正确识别率就会越低。在每一通道下,使用NN和SVM计算噪声数据降维前和分别经PCA方法、KPCA方法降维后的正确识别率。依据正确识别率比较两种降维方法的降维效果,同时也比较KPCA方法在选择不同核函数时的降维效果。降维后,X′i和X″i分别为3×k的数据和3×l的数据。

本文使用的神经网络为BP神经网络,支持向量机工具箱为stprtool,训练样本个数和测试样本个数取k=l=5,运行平台均为MATLAB7.1。

4.2 KPCA方法在不同核函数时的降维效果比较

KPCA方法是基于核函数的学习方法。核函数反映了样本在高维特征空间中彼此的相似程度,而样本之间的相似程度一旦给定,样本间的分类其实也就基本上确定了。一个好的核函数,会使同类的样本相互靠近,使异类的样本相互远离。正确选择核函数和核参数将会提高KPCA方法的整体性能。

计算可知,对于文中的噪声数据使用KPCA方法降维时,选择Sigmoid核函数得到的s(xi,xj)较大,此时k(xi,xj)总趋向于1。因此,本文只选取高斯径向核函数和多项式核函数进行计算,且b=c=1,a与d根据经验在一定范围内取值。

根据经验,使用高斯径向核函数(称为KP-1方法)和多项式核函数(称为KP-2方法)时,选择核参数a、d的取值范围为0.1~1,步长为0.1。经MATLAB编程计算,其结果如表3所示。

表3中,第3、5、7、9列分别是KP-1方法与KP-2方法在各自核参数取值范围内得到的正确识别率最大值,此时a与d分别为对应的核参数值。可以看出:使用神经网络进行分类识别时,KP-1方法正确识别率高于KP-2方法正确识别率的有8条通道,小于KP-2方法正确识别率的有6条通道,两者相当的有5条通道,即KP-1方法的降维效果稍好;使用支持向量机进行分类识别时,KP-1方法正确识别率高于KP-2方法正确识别率的有11条通道,小于KP-2方法正确识别率的有7条通道,两者相当的有1条通道,即KP-1方法的降维效果明显较好。

两种识别方法在19条通道上的运行总时间和单通道上运行的平均时间如表4所示。

由表3中的正确识别率和表4中的运行时间可知,同等条件下神经网络方法和支持向量机方法在识别能力方面差别不大,但是支持向量机方法的运算速度要快得多。因此对于某双层圆柱壳体的机械噪声数据,在使用KPCA方法进行降维处理时,最好选择高斯径向核函数,并通过支持向量机方法进行分类识别分析。

4.3 PCA与KPCA方法的降维效果比较

对8个不同工况下的机械噪声数据组成的混合数据分别使用NN和SVM计算降维前后的正确识别率,其结果如表5所示。

比较表5中计算结果可知,不论使用哪种识别方法,降维前的正确识别率都比降维后的正确识别率高(至少相等),而由KPCA方法降维后得到的正确识别率在绝大部分通道上要比PCA方法降维后的正确识别率高。也就是说,数据降维后会损失掉一部分原始信息,造成正确识别率下降,但是对于某双层圆柱壳体的机械噪声数据来说,在主元数目相同的条件下,只要选择合适的核函数及核参数,就能保证使用KPCA方法降维后保留的信息要比使用PCA方法降维后保留的信息要多,即KPCA方法的降维效果要好。

5 结束语

事实上,可将本文中的10个特征量扩展到几百个甚至上千个,此时的噪声数据属于典型的高维数据,分析其结构前先进行降维就显得十分必要。通过本文对PCA方法和KPCA方法实际应用的比较可知:在主元数目相同(即数据结构的复杂度相同)的条件下,由于将数据特点的研究范围从线性扩大到非线性上,从而使得使用KPCA方法降维比使用PCA方法降维保留的原始数据信息更多,效果更好,因此,对某双层圆柱壳体机械噪声数据降维时,应优先考虑使用非线性降维方法——KPCA方法,且选择高斯径向核函数效果更好。

参考文献

[1]施引,朱石坚,何琳.舰船动力机械噪声及其控制[M].北京:国防工业出版社,1990.

[2]吴玲达,贺玲,蔡益朝.高维索引机制中的降维方法综述[J].计算机应用研究,2006,23(12):4-7.

[3]Jolliffe I T.Principal Component Analysis[M].2nded.New York:Springer,2002.

[4]Scholkopf B,Smola A,Muller K R.Nonlinear Com-ponent Analysis as a Kernel Eigenvalue Problem[J].Neural Computation,1998,10(5):1299-1319.

[5]Rosipal R,Girolami M,Trejo L J,et al.Kernel PCAfor Feature Extraction and De-noising in Non-lin-ear Regression[J].Neural Computing and Applica-tions,2001,10(3):231-243.

[6]王洪远,史国栋.人工神经网络技术及其应用[M].北京:中国石化出版社,2002.

[7]Vapnik V N.The Nature of Statistical LearningTheory[M].New York:Springer-Verlag,1995.

[8]Vapnik V N.Statistical Learning Theory[M].NewYork:Wiley,1998.

[9]Suykens J A K,Vandewalle J.Least Squares Sup-port Vector Machine Classifiers[J].Neural Process-ing Letters,1999,9(3):293-300.

[10]Wu J N,Wang J,Liu L.Feature Extraction via KPCAfor Classification of Gait Patterns[J].Human Move-ment Science,2007,26(3):393-411.

[11]高海华,杨辉华,王行愚.基于PCA和KPCA特征抽取的SVM网络入侵检测方法[J].华东理工大学学报(自然科学版),2006,32(3):321-326.

[12]鲁书贤,刘正熙,刘显宾,等.基于SVM和NN的空管手写符号的识别研究[J].四川大学学报(自然科学版),2008,45(4):790-794.

主成分分析 篇2

主成分分析法和因子分析法都是用少数的几个变量(因子)来综合反映原始变量(因子)的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.并且新的变量彼此间互不相关,消除了多重共线性.这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量.在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,...,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到.在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分.公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子.对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度.聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系.也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3 ].聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集.对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用.(二)不同之处

主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成分(变量),使它们尽可能多地保留原始变量的信息,且彼此不相关.它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0 ,或样本向量彼此相互垂直的随机变量),在这种变换中,保持变量的总方差(方差之和)不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分.依次类推.若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出m(m < p)个主成分就够了,只要这m 个主成分能反映原来所有变量的绝大部分的方差.主成分分析可以作为因子分析的一种方法出现.因子分析是寻找潜在的起支配作用的因子模型的方法.因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子.对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量.通过因子分析得来的新变量是对每个原始变量进行内部剖析.因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分.具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态.因子分析只能解释部分变异,主成分分析能解释所有变异.聚类分析算法是给定m 维空间R 中的n 个向量,把每个向量归属到k 个聚类中的某一个,使得每一个向量与其聚类中心的距离最小.聚类可以理解为: 类内的相关性尽量大,类间相关性尽量小.聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律.从三类分析的基本思想可以看出,聚类分析中并没于产生新变量,但是主成分分析和因子分析都产生了新变量.三、数据标准化的比较

主成分分析中为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为0方差为1 的无量纲数据.而因子分析在这方面要求不是太高,因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,并且因子变量是每一个变量的内部影响变量,它的求解与原始变量是否同量纲关系并不太大,当然在采用主成分法求因子变量时,仍需标准化.不过在实际应用的过程中,为了尽量避免量纲或数量级的影响,建议在使用因子分析前还是要进行数据标准化.在构造因子变量时采用的是主成分分析方法,主要将指标值先进行标准化处理得到协方差矩阵,即相关矩阵和对应的特征值与特征向量,然后构造综合评价函数进行评价.聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果.因此在聚类过程进行之前必须对变量值进行标准化,即消除量纲的影响.不同方法进行标准化,会导致不同的聚类结果要注意变量的分布.如果是正态分布应该采用z 分数法.四、应用中的优缺点比较(一)主成分分析

1、优点

首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息.其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价.再次它在应用上侧重于信息贡献影响力综合评价.2、缺点

当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确.命名清晰性低.(二)因子分析

1、优点

第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高.2、缺点

在计算因子得分时,采用的是最小二乘法,此法有时可能会失效.(三)聚类分析

1、优点

聚类分析模型的优点就是直观,结论形式简明.2、缺点

主成分分析 篇3

摘 要: 高校的学风建设评价研究是一项系统性工程,应遵循科学性、系统性原则。本文立足宁波大红鹰学院,研究高校学风建设评价指标体系,并采用主成分分析对宁波大红鹰学院的七个学院学风建设进行分析。且运用科学方法对学院学风建设进行综合评价,最后提出加强高校学风建设的建议,更好地为高校学风建设提供理论与实践上的支撑依据。

关键词: 主成分分析 高校学风建设 评价体系

学风是体现一所高等学校的办学理念、人才培养质量及管理水平高低的重要标志。因而,高校的学风建设在高校整体建设与发展中就显得尤为重要。高校培养人才的重要任务之一就是学风建设,做好学风建设,培养出大批具有现代意识、适应国家建设发展的优秀人才正是高校教育的首要任务。研究高校学风建设评价指标体系,并采用主成分分析法对宁波大红鹰学院七个学院的学风建设进行分析,可以更好地为高校学风建设提供理论及实践上的支撑依据。

一、高校学风建设存在的主要问题

目前,高校学风建设的整体情况在不同程度上都或多或少地受到地区大环境、高校内部小环境等客观因素,以及学生自身的学习态度、学习观念与学习习惯等主观因素的影响,在建设发展中仍存在不少问题。

(一)缺乏明确的学习目标与足够的学习动力。部分同学进入学习氛围较宽松的高校后,因自身自制力不高,又没有明确的学习目标与学习计划,整体变得松散无目的,学习兴趣大大降低。

(二)对所学专业了解较少,缺乏对职业生涯规划的设计。没有切实了解过自己所学的专业,仅仅出于目前的成绩,或对未来的就业趋向的预计等因素的考虑而选择就读的专业。但在接触后却感觉专业或深奥或乏味的令人难以接受与学习,又常遇到因专业而引发的各种问题且难以解决或不愿解决,从而产生厌学情绪。

(三)学习纪律松弛,学风散漫。具体表现为上课迟到、早退、旷课等,以及即便是到课,也是在课堂上睡觉、看小说、玩手机等做与课堂教学无关的事。学生主动学习性较低,课堂整体纪律松散。

(四)重视专业知识的学习,忽视道德品质的修养。部分同学们重视专业知识的学习,而不在意思想品德方面的修养和马克思主义与列宁主义等方面知识的学习。

(五)忽视文化课学习,偏重社会活动。很多同学更喜欢参与各种社团活动或兼职,甚至为此请假或逃课,忽略文化课学习。

以上这些问题都在不同程度上影响了高校学风建设的构建与发展,只有很好地解决这些问题造成的影响,才能更好地建设校园整体学风。

二、高校学风建设评价体系构建

(一)高校学风建设评价体系原则。高校学风建设是一项系统性的工程,需要建设者长久、用心地建设并经营。而遵循科学性、系统性的原则可使高校学风建设更巩固。

1.科学性原则。指的是在学风建设评价指标的选择上应该尊重高校教育发展规律,而不是仅凭主观臆测或推断。应根据调查得到的实情,将其与科学性的理论依据相结合,准确地反映高校学风建设的实际情况。

2.系统性原则。指的是评价体系应该详细、综合与全面,但又要尽量避免各类指标之间因数据的庞大与复杂而造成的各类误差,以准确、客观甚至长远的规划反映高校的学风建设体系的整体要求。

影响高校学风建设的存在因素较多,而基于高校学风建设中存在的种种问题,笔者认为应该选择一所学校作为蓝本深入分析,以便得到准确、真实的数据进行分析、总结。

(二)基于主成分分析的宁波大红鹰学院学风建设评价。

1.宁波大红鹰学院学风建设综合评价的数据准备。基于高校学风建设存在的问题,针对宁波大红鹰学院的七个学院进行抽样调查,并通过对数据的统计评价各学院的学风建设情况。如学校组织保障学风建设而采取的措施,各学院在制度设定、人员巡查、奖惩设置等方面的具体落实;以及在人才培养方面,指导思想是否明确、计划是否合理可调整等。收集数据并予以分析。

由于影响高校学风建设的因素相对较多,为了更客观地了解高校学风建设,在高校学风建设的内涵之上,以系统性、科学性相结合为基础,构建一个以大红鹰学院为例,以见微知著的学风建设评价为指标。指标以高校学风建设为目标层,以组织保障、学习风气、学习氛围与学风建设成果为一级指标,并在这四个一级指标下分别设有学校管理工作、物质资源支持、人力资源支持度、学生自我管理、学习成绩、学业规划、学风氛围、课外活动、基本技能、思想道德修养和整体效果这11个二级指标,并在二等指标下再次分列了人才培养计划、学风激励制度、违纪处理方式、专项活动场地及经费支持、相关设备支持、校内领导参与度、校内制度建设、方案实施程度、课堂纪律保持度和考试纪律遵守度等27个三级指标。

2.宁波大红鹰学院学风建设的主成分分析情况。通过以上评价体系,得出宁波大红鹰学院学风建设综合评价的相关数据,运用SPSS软件并进行相关计算。与此同时,对宁波大红鹰学院的学风建设进行主成分分析,提取主要的几个成分进行对比后,可以明显发现:经济与管理学院和人文学院这两个学院的学风建设情况在宁波大红鹰学院学风建设中,位于中上水平;基础学院、外国语学院和信息工程学院的学风建设水平则稍弱于前两个学院,在校内处于中等水平;而机械与电气工程学院、艺术与传媒学院这两个学院的学风建设水平还有待提高;尤其是艺术与传媒学院的学生,在学习风气方面亟须加强。

但由此可窥见一些小细节,一个学院的学习风气与学院内学生的整体素质、学习的专业方向等方面存在一些关联,但更重要的是一个学院对学风建设是否重视。

三、加强高校内学风建设的措施

高校整体学风建设是关系到青年学生是否成才的关键,因而做好高校学风建设评价体系显得至关重要。在以宁波大红鹰学院为例进行分析后,在关于如何提高高校学风建设水平这方面,可以得出以下几项措施。

(一)加强新生的入学教育工作,注重思想政治教育。高校学风建设会涉及学生的世界观、人生观与价值观。因此,利用大学新生入学,对大学学习生活充满期待之际是开展新生教育的好时机。通过校领导、老师等层面,利用班会、军训等机会,展开针对性的思想教育,提高学生的学习主动性与积极性,并树立科学的世界观、人生观和价值观,为高校学风建设打下坚实的思想基础。

(二)加强专业思想教育,培养学生的学习兴趣。切实发挥教师教书育人的功能,提高学生对自身专业的学习兴趣,并以此促进课堂内的学风建设;加强实践育人环节,激发学生对于学习的热情,发挥学生主体对于促进学风建设的作用,并不断深化教学改革,建立学生自主学习机制和环境。

(三)建立良好的考风和教风,促进学风的提升。学风建设的基础正是教风建设,而考风建设则是学风建设中的重中之重。通过建立良好的教学风气,为良好学风的形成起导向与示范作用;建设优良的考风制度,端正学生考试的态度,以此促进良好学风的形成。

(四)完善管理制度,营造良好的学习氛围。切实加强对学生教育管理制度的建设。通过制度化的管理,规范学生的行为习惯,营造整体良好的学习氛围;同时加强宿舍方面的管理,创造寝室内优良的学习环境,延长学生的学习时间。

参考文献:

[1]顾岱泉.浅谈新时期高校学风建设中存在的问题及对策[J].吉林广播电视大学学报,2011(10).

[2]傅进军.关于高校学风建设的几点思考[J].思想教育研究,2005(4):33-34.

[3]周亚东,雷广宁.高校学风建设长效机制构建研究[J].宿州学院学报,2011(7).

[4]王丽.C大学学风状况及分析[J].学习月刊,2010(4):95-96.

[5]谭华玉.关于目前大学生学风研究的思考[J].学理论,2011(7):178-179.

主成分分析方法的应用研究 篇4

研究和应用中经常会碰到许多综合评价问题, 其本质是多指标决策问题, 多指标综合评价一方面增加了工作量, 另一方面淡化了主要指标的作用。对此, 可采用数理统计法对所考虑的众多指标经过正交化处理, 使其成为少数几个相互独立的综合指标, 再根据综合指标进行评价。主成分分析法恰为这种思路提供了数学依据。

2 主成分分析法简介

2.1 主成份分析

通过降维的思想来精简变量, 将多个相关的原始变量指标转化为几个独立的综合指标。主成分是原始变量指标的线性组合, 其转换的理念是让原始变量指标的线性组合的变异达到最大, 这样就可以尽量减少信息的损失, 仅利用几个重要的主成分就解释原始数据的大部分变异, 同时简化了问题, 能更好地揭示事物内部变量之间的规律, 提高分析效率。

2.2 主成分分析的数学模型

设原始样本 ×变量型数据资料阵

X= (xij) np≜ (X1, X2, …, Xp) ,

其中

X i= (xli, x2i, …, xni) T, i=1, 2, …, p.

用数据矩阵X的P个向量 (即p个指标向量) X1, X2, …, Xp 作线性组合 (即综合指标向量)

Fi =ali X1 +a2i X2 +…+api X p, i=1, 2, …, p, 其中, αundefined+αundefined=1, (i=1, 2, ..., p)

3 关于主成分性质

(1) 设p 个n 维随机向量X1, X2, …Xp协方差矩阵为 ∑, ∑的特征值为λ1≥λ2≥……≥λp>0, 相应的单位特征向量为:μ1, μ2, ……, μp, 则x的主成分可表示为:

Fi =μ′iX =μil X1 +μi2 X2 +…+ μipXp, i=1, 2, …, p,

记 μi= (μil, μi2, …, pi) T

(2) p个主成分均值为0, 且p个主成分不相关。

(3) 主成分的方差之和与原始变量的方差之和相等, 也就是说, 经过变化后, 变量间的变异性没有改变, 信息没有损失。

(4) 称undefined为第k个主成分的方差贡献率, 称undefined为前k 个主成分的累积方差贡献率。

在解决实际问题时, 一般不是取p个主成分, 而是根据累计贡献率的大小取前k个。如果前k个主成分的累积贡献率达到 85%, 表明取前 k个主成分基本包含了全部测量指标所具有的信息, 这样即减少了变量的个数有利于对实际问题的分析和研究。

(5) 若Fi =μ′i X是数据矩阵x的主成分, 则undefined是Yi 与Xk 的相关系数。

数据来源:数据来自于江西统计年鉴2009, 江西各区域经济发展的相关指标数据如表1所示。

4 使用条件

主成分分析适宜用于大样本的场合。

主成分分析要求变量之间有一定的相关关系。

5 应用

指标的选取衡量一个地区的发展情况, 既要注重某一产业的产值, 又应从社会生产的各个方面去考虑, 为各地区实现均衡发展提供理论依据。根据适当性和可得性原则, 选取江西各市为样本, 选取主要经济指标包括:地区生产总会值X1, 第二产业生产总值X2, 生产总值增长速度X3, 人均地区生产总值X4, 地区人均财政一般预算收入X5, 实际使用外资额X6, 五十万元以上固定资产投资额X7, 土地面积X8, 卫生工作人员数X9, 城乡居民储蓄存款余额X10, 第三产业生产总值X11, 社会消费品零售总额X12, 高等学校学生数X13。

运用SPSS13.0对江西各市主要经济指标进行主成分分析, 计算步骤如下:

(1) 对所给数据指标进行标准化处理, 得标准化数据表。

在实际问题中, 不同的变量往往有不同的量纲, 为了实现不同量纲数据之间的可比性, 以保证所提取的主成分与原始变量意义上的一致性, 在进行主成分分析之前按照以下公式将变量标准化。

undefined

其中, E (xi) 表示变量的期望, Var (xi) 表示变量的方差。

(2) 根据标准化数据表计算出相关系数阵R如表2。

(3) 求R的特征值λi 和贡献率。

(4) 根据累计贡献率达85%的原则选取前三个主成分, 各主成分表达式如下:

特征值λ1 =8.796的第一主成分:

Z1=0.11x1+0.099x2-0.002x3+0.077x4+0.108x5+0.104x6+0.11x7-0.021x8+0.076x9+0.095x10+0.107x11+0.111x12+0.111x13

特征值λ2 =1.851的第二主成分:

Z2=0.113x1+0.202x2+0.439x3+0.174x4+0.108x5-0.122x6-0.052x7+0.073x8-0.367x9-0.269x10+0.146x11+0.026x12-0.018x13

特征值 λ3 =1.277的第三主成分:

Z3=-0.007x1+0.086x2+0.138x3-0.416x4-0.003x5+0.01x6+0.08x7+0.738x8+0.097x9+0.117x10+0.092x11+0.011x12+0.009x13

由表3可以看出, 第一、第二主成分及第三主成分对方差的累积贡献率达到91.728%, 并以91.728%的精度将变量由13维降到3。另外, 综合得分 (z) 可依3个主成分进行综合评价, 利用第一主成分、第二主成分及第三主成分对全省11个市的主要经济指标情况进行排序, 并计算出综合得分和排序。

综合得分=第一主成分得分×8.796+第二主成分得分×1.851+第三主成分得分×1.277, 得到的结果如表4。

由表4可知, 南昌作为省会城市, 它是江西经济、文化、交通的重要枢纽。在汽车及零部件生产、光电产业、铜冶炼及精深加工产业、优质钢材深加工、航空产业等方面发展迅速, 带动着整个江西的经济发展。且经济发展水平是最好的, 显示出雄厚的经济基础和实力。新余的经济发展水平在我省排第二名, 南昌和新余是江西经济发展潜力最大的市。近年来, 新余市加快当地工业企业的快速发展步伐, 其光电产业、钢铁工业等较发达, 工业主导特征较明显;赣州市作为革命的摇篮, 是江西省重点发展的地方之一。九江、宜春、萍乡这三个市农业发展条件基础好, 充分发挥自己当地各自的特色和优势, 统筹安排, 大力发展经济。所以, 它们在经济发展中位于中上水平。相比之下, 余下的抚州、吉安、景德镇、上饶、鹰潭五个地区工业和第三产业欠发达, 自然资源未得充分地开发利用, 而且农业人口占据了很大的比例, 其经济发展水平相对较低。从而可知, 江西省各区市经济发展不平衡的现象较为明显。因此, 想办法缩小区域差距, 协调江西省各城市的经济发展才是促进江西经济发展的一条有效途径。

6 对策及建议

(1) 加强区域合作是实现江西加快发展的重要机遇。

作为长珠闽的共同腹地, 改革开放以来, 江西经济的发展形成了自己的特色, 在生产要素、基础产业等方面和长珠闽三个区域均具有较强的互补性, 有承接沿海产业转移的良好基础, 积极融入长珠闽, 实现更深层次和更广的领域合作, 既为长珠闽的发展提供了宽广的市场空间, 也为江西加快发展提供了重要机遇。

(2) 调整产业结构, 加速工业化进程。

我省经济发展的主要矛盾是工业化进程滞后, 而加速工业化的首要任务是调整结构, 增强工业经济活力, 进一步形成以工业化为主导的经济增长格局。主要可以通过全面调整工业所有制结构。另外还可以吸收民间投资, 尤其是东部和外商投资, 发展多元化的经济主体。支持支柱产业优先发展。努力改造传统产业。

(3) 加大投入, 发展第三产业。

要利用独特的区位优势、名山名湖等特点, 大力发展旅游、物流、服务等行业的第三产业, 加大城市特别是旅游区的基础设施规划建设, 不断完善服务行业硬件软件设施, 提高服务行业员工的整体文化素质, 创造优质的服务环境。

(4) 优先发展旅游业。

观光旅游是江西旅游的主导产品, 主要以名城、名山、湖为依托。以世界文化景观庐山、世界文化遗产三清山、龙虎山等为依托的名山观光旅游。在开发观光旅游产品时, 应不断增加和丰富产品的内容, 融知识性、文化性和参与性于一体, 提高现有观光旅游产品的档次, 以满足旅游者新的需求。同时在鄱阳湖地区开展生态湖泊建设, 大力发展生态旅游。加强井冈山、八一起义、瑞金等红色地区的革命传统教育旅游基地的开发。

参考文献

[1]叶双峰.关于主成分分析做综合评价的改进[J].数理统计与管理, 2001, 20 (2) :52-55.

[2]黄宁.关于主成分分析应用的思考[J].数理统计与管理, 1999, 18 (5) :44-52.

[3]何晓群.多元统计分析 (第二版) [M].北京:中国人民大学出版社, 2008.

[4]张文霖.主成分分析在SPSS中的操作应用[J].市场研究, 2005, (12) :31-34.

主成分分析 篇5

为从波斯小麦中发掘优异基因资源,拓宽小麦遗传基础,对来自15个国家(地区)的`81份波斯小麦进行了农艺性状相关分析和主成分分析.结果表明,供试材料总体表现为植株高大,平均为110.0 cm;有效穗数平均为12.6个;穗粒数较多,平均为42.4粒;播种至抽穗平均为185.5 d;千粒重偏低,平均为17.3g.简单和偏相关分析中分别有16和12对性状相关极显著.其中分蘖数与有效穗数、穗长、小穗数,有效穗数与穗长、小穗数,穗长与小穗数,小穗数与千粒重,抽穗期与穗粒数间相关和偏相关系数均达极显著水平.主成分分析表明,前四个主成分(分蘖因子、粒重因子、穗粒数因子、抽穗期因子)对变异的贡献率达85.61%.

作 者:庄萍萍 李伟 魏育明 颜泽洪 郑有良 ZHUANG Ping-ping LI Wei WEI Yu-ming YAN Ze-hong ZHENG You-liang 作者单位:庄萍萍,ZHUANG Ping-ping(四川农业大学小麦研究所,四川,都江堰,611830)

李伟,LI Wei(四川农业大学小麦研究所,四川,都江堰,611830;西南作物基因资源与遗传改良教育部重点实验室,四川,雅安,625014;四川农业大学农学院,四川,雅安,625014)

魏育明,颜泽洪,郑有良,WEI Yu-ming,YAN Ze-hong,ZHENG You-liang(四川农业大学小麦研究所,四川,都江堰,611830;西南作物基因资源与遗传改良教育部重点实验室,四川,雅安,625014)

主成分分析 篇6

摘要:本文利用多元统计中的主成分分析法对全国各省的农业总产值进行评价,使用SPSS软件运行,分析得出代表全国各省中的农业产值高值区,并对上述高产值区进行分类,经分析得出全国各省(直辖市、自治区)农业产值分配特征。

关键词:主成分分析;SPSS;农业总产值;统计应用

中图分类号: S2                             文献标识码:  A                          DOI编号:   10.14025/j.cnki.jlny.2016.02.026

“三农”问题始终制约着我国经济建设和改革。我国作为农业大国,农业经济的发展关系到全国总体经济的发展,而衡量农业经济的发展离不开农业总产值,将多元统计方法引入农业总产值分析的研究不但可行而且是科学的。本文应用主成分分析法对农业总产值进行判定,力求对农业布局的合理性和农业发展潜力提出评价与建议。

1 资料来源与处理

资料来源于国家统计局官网,选取全国各省和直辖市及自治区农林牧渔业总产值数据。四个指标变量是:X1=农业、X2=林业、X3=畜牧业、X4=渔业。借助SPSS算法进行主成分分析:

2 主成分分析数学模型

主成分分析是一種通用的降维技术,主成分向量的协方差矩阵;其中,即。总方差中属于第主成分的比例为称为主成分的贡献率。第一主成分的贡献率最大,称之为的第主成分得分,平均主成分得分。

3 结果与分析

3.1 主成分特征值

通过主成分分析,得出了四种农业产值相关系数矩阵的特征值,上表列出了四个主成分的特征值、贡献率和累计贡献率;结果显示,由于前2个特征值方差的累计贡献率达83.6%,大于80%,较好地反映了原始数据集的特征,故选取前2个特征向量进行分析。

3.2 主成分系数

提取方法:主成分。

(1)第一主成分:由第一主成分的表达式可知,所考察样本协方差的特征值均为正值,各变量的系数在0.6~0.9之间,呈较均匀分布,反映出四种农业总产值在各省农业生产中为一般发展水平。 (2)第二主成分:第二主成分表达式中,所考察样本协方差的特征值既有正值亦有负值,X1、X3的系数为负,X2、X4的系数为正,正负系数的和较接近,结合各变量的含义,第二主成分表示农业、畜牧业总产值与林业、渔业总产值的对比。(3)各省主成分得分情况。

由第一主成分Prin1的得分可以认为:农业生产整体发展水平最高的省为山东省,河南、江苏等地次之。显然,山东省农业经济多年来一直位于全国第一,山东农业产品的产量不算最高,但是农业产业化相对完善,把初级农产品深加工后的附加值很高,农业生产整体发展水平最低的三个省份别是西藏、青海和上海,吉林省农业整体水平居于中游。

第二主成分Prin2得分值为负的省份为农业和畜牧业生产占优势的省份为河南、河北两省;而得分值为正的市是林业和渔业占优势的省份,如广东、福建等省份,由于濒临沿海地区,捕渔业兴盛,同时处于亚热带季风气候,林业资源丰富。吉林省主要以林业经济为主。

基于区域核函数的主成分分析 篇7

核主成分分析是一种非线性推广的主成分分析。大量结果显示[31], 核主成分分析法由于在非线性统计和高阶统计特征提取具有较好的效果, 相对于传统的主成分分析观测数据的特点, 具有更好的分类能力。传统的基于矢量的主成分分析和核主成分分析方法, 计算数字图像数据的特征的方法是, 所有二维图像数据计算出由一个堆积行的列向量, 进而对样本图像的列向量协方差矩阵奇异的整体值分解, 然后计算主成分投影, 最典型的例子是著名的面部识别, “特征脸”技术[32]。由上面的处理方法计算得到的图片, 二维图像数据的不足之处是, 图像矩阵堆叠成一个矩阵列向量的像素行后, 在图像之间的相关矩阵被破坏。而且, 传统的计算方法是, 核主成分分析通过非线性映射到高维特征空间进行整体改造, 然后得到向量的内积后 (内核功能) , 操作时并没有考虑到的图像区域或区域的相关信息。

在不考虑图像噪音的情况, 数字图像矩阵内部的相关性存在于每个矩阵点之间的像素周围。相对于某一个点的灰度 (或彩色) 值, 在这些地方的信息或者语义的蕴藏在相关性之间的知识经常要更大量一些[1]。如果能使用区域相关或图像数据分类或分析部分的知识, 和全部功能和特性并联合单独的图像像素, 方法可能比简单的图像功能或整体采用单个像素的方法更有效。

2、基于区域核函数的主成分分析

本文对图像数据的核分析方法常常在核主成分分析之前从图像数据的每一行累积成列向量。因此, 图像数据处理之后导致的结果是没有考虑矩阵点行和在同一行或相邻行矩阵之间的矩阵列中之间的联系[2]。一些文献开始关注这个问题, 文献[37]在研究支持向量机用于图像数据分类时, 针对支持向量机提出了一种局部核函数的思想, 并取得了比全局核函数要好得多的分类效果。该文的做法是[38], 首先选定一种像素邻域, 这样, 图像就可以由若干个邻域覆盖, 这些邻域可以交叠也可以不交叠, 图像矩阵就相应地变换为一个分块矩阵, 每一块就是邻域大小的像素块[3]。

然后根据每块来确定每个的核函数, 再将各功能块混合得到全部图像的核函数。本章和文献[39]的方法从图像矩阵的角度来看的不同是, 将相同的大小 (每个块之间没有重叠) 或块的窗口分割图像的像素矩阵。本文对 (1) 式做了变化从而来达到简化区域和混合内核的内核函数的计算的目的。所不一样的是, 对于图像列矢量的构造, 从每一行的每一列构造列矢量, 对列矢量的构造是一个矩阵块的积累, 而不是对矩阵点的操作, 因此最后构造出的仍然是一个矩阵的列积累, 如下式:

对于上式Y来说, 列矢量是根据行来累积的, 从而列矢量x就由全部矩阵累积而得到。因此不难得出, 由此得到的累积计算方式与普通的累积方式在核心上是完全一致的, 唯一的不同就是改变了列矢量的每一个组成部分的排列次序。而得出上述的累积计算方式, 可以便利计算一个混合内核的内积。

3、基于区域核函数的图像距离测度算法

基于区域核函数的距离测度算法步骤如下:

(1) 给出数据块的尺寸。将原设图像与目标图像的矩阵分解若干个数据块, 各个数据块按照行来累积成一个列矢量, 每个列矢量累积成一个列矢量。

(2) 抽取一个核函数, 求出原始图像及目标图像的核目标空间的协方差矩阵。

(3) 计算协方差矩阵的特征根和特征向量, 按照大小将特征值排序, 并取前几个 (按方差贡献率确定) 。

(4) 将计算得出的协方差矩阵的特征向量 保存起来, 计算出目标图像与原始图像的特征向量的距离, 并按照大小进行排序, 得到距离最相近的目标图像就是检索图像。

根据数字图像模式数据的特点提出了一种基于区域核函数的图像距离测度方法, 用来提取二维图像模式数据的核距离, 对于以区域为基础的内核分析方法得到的图像矩阵二维主成分, 相对于传统的全局核核主成分, 得到的主成分的数字图像不同。基于区域的核主成分分析方法不仅包含了全局核主成分分析中二维数字图像矩阵的总体特征而且也包括了图像区域的特征。

参考文献

[1]刘甘娜.多媒体应用基础, 高等教育出版社, 2000年, 56-72

[2]徐望明.基于内容的图像检索技术研究[D].中国优秀硕士学位论文全文数据库, 2008, (06)

影响蒸发气象条件的主成分分析 篇8

1 概述

1.1 多元分析法

研究多个自变量与因变量相互关系的一组统计理论和方法, 又称多变量分析。多元分析是单变量统计方法的发展和推广。主要内容有多元回归分析、主成分分析、判别分析、因子分析、对应分析、聚类分析、典型相关分析和多维标度法等。

1.2 风向风速传感器计量性能要求

风速测量范围 (1~60) m/s;启动实际风速不大于115 m/s;被测风速传感器显示风速与实际风速应呈线性关系, 非线性误差在1~5 m/s范围内 (含5 m/s) ≤0.120 m/s, 5~30 m/s范围内 (含30 m/s) ≤0.40 m/s, 30 m/s以上≤0.60 m/s;被测风速传感器显示风速修正值的绝对值≤|0.15 m/s+0.102×被测风速传感器显示风速|;风速传感器测量结果扩展不确定度。

2 主成分的求解步骤

(1) 计算协方差矩阵。对样品数据的协方差矩阵Z进行计算。

(2) Z的特征值和特征向量。协方差矩阵Z的特征值计算 λ1≥λ2≥…≥λp>0。

则原始资料X矩阵的第i个主成分为Fi=ai′X, i=1, 2, …, p。

(3) 选择主成分。计算主成分得分, 计算n个样品在m个主成分上的得分:

Fi=a1iX1+a2iX2+…+apiXp, i=1, 2, …, m

3 原始数据的标准化处理

在实际应用时, 指标的量纲是不确定的, 应先除去量纲的影响再算出主成分。有很多方法去除数据的量纲, 常用的是将原始数据标准化, 即如下变化:

4 应用实例

试用沈阳市气象站 (54342) 2013 年5 月1—31 日的气象数据, 试做影响蒸发的气象条件主成分分析, 从而确定风速在其中影响的比重。通过分析, 提取了与蒸发有关的气象要素为风向、风速、降水、最高温度、最低温度、相对湿度、海平面气压[4,5,6]。本案例选用SPSS 19 中文试用版来计算主成分, 具体步骤如下。

(1) 数据选取与导入。 选取沈阳市气象站 (54342) 2013年5 月1—31 日的气象数据, 并将所用数据存入Excel表中 (表1) 。

(2) 气象要素属性值。站号、观测时间、风向、风速、降水、最高温度、最低温度、相对湿度、海平面气压的属性值如图1所示。

(3) 数据分析。 打开SPSS 19, 将数据表导入SPSS数据编辑器中。点击“分析”→“降维”→“因子分析”, 打开因子分析对话框 (在SPSS软件中, 主成分分析与因子分析均在因子分析模块中完成) 。在对话框中选取要做主成分的气象因子, 输入到“变量”中。在“抽取”中可以设置主成分参数。之后点击“确定”即可得到主成分。

(4) 结果分析。第一主成分 (y1) 和第二主成分 (y2) 为:

y1=-0.742x1-0.919x2+0.372x3+0.937x4+0.805x5+0.078x6+0.833x7

y2=0.249x1-0.179x2-0.650x3+0.133x4+0.162x5+0.872x6+0.091x7

从表1~4 中可见:影响第一主成分的气象因子主要为最高温度和最低温度;影响第二主成分的气象因子主要仍为温度, 其次为相对湿度和风速。故影响蒸发的主要气象因子为地表温度和相对湿度, 其次为风速, 可见风速在影响蒸发中起的作用并不大。

参考文献

[1]万峰.国家计量检定规程汇编[M].北京:科学技术出版社, 2005.

[2]吴洪宝, 吴蕾.气候变率诊断和预测方法[M].北京:气象出版社, 2010.

[3]黄嘉佑.气象统计分析与预报方法[M].北京:气象出版社, 2004.

[4]施能.气象统计预报[M].北京:气象出版社, 2009.

[5]李清翠, 张振华, 姚付启, 等.烟台地区水面蒸发量主成分分析法研究[J].农业系统科学与综合研究, 2007 (3) :289-292.

函数性数据分析中的主成分分析 篇9

与传统数据分析方法相比而言, 函数性数据分析有着很大的优越性, 能够通过微分曲线与导数曲线来处理信息, 截至目前为止, 各界的专家学者已经针对函数性数据进行了深入的分析, 下面就针对函数性数据分析的主成分进行相应的介绍.

一、传统主成分分析

主成分分析在1901年开始在正交回归分析中得到了应用, 在1933年, 主成分分析法得到了一定的发展, 该种分析方式能够将高维空间问题变成低维空间问题, 这样即可将问题直观化、简单化, 虽然该种分析法会损失部分数据, 但是却抓住了主要问题, 对问题的分析十分有益. 在技术水平的发展之下, 主分析法十分的重要, 从几何角度进行分析, 该种分析方式能够将原始变量组合成新坐标, 新指标伸缩情况主要由样本协方差矩阵进行表示, 新变量之间并无密切的关系, 可以看出, 使用主成分分析法能够很好地避免多重共线问题的发生.

从本质上而言, 主成分分析是线性映射法, 该种方法是不适宜应用在非线性问题处理中的, 在这一背景下, 一些学者提出主曲线方法、核主成分分析法、主曲面方法、多层感知器方法等多种主成分分析法, 该种这些数据分析法的应用还存在一些弊端, 因此, 就需要使用新型主成分分析法, 函数性数据分析法正是在这一基础上产生.

二、函数性数据主成分分析

1. 函数性数据的特征

顾名思义, 函数性数据就是一种采用函数来表现的数据, 具有函数性的特征, 在分析数据时, 若观测点过于密集, 那么数据则会表现出函数性特征, 采用该种分析法时, 需要将数据作为独立项进行分析, 不能将其看作数据点序列. 该种分析方式最早由一位加拿大学者提出, 在提出伊始, 强调采用现代紧密数据系统来获取数据, 在获取数据时, 需要将其作为动态概念, 并不能将其作为静态概念, 如果采用传统分析法就难以提升分析的准确性, 因此, 就需要进一步来扩展分析方法. 近年来, 很多学者开始对函数性数据进行了深入的分析, 但是, 这一技术依然处在初级发展阶段, 还需要进行深入的研究.

关于函数性数据x函数形式, 需要将数据假定为是一种连续产生的过程, 但是在实际观测过程中, 很难得到离散性数据, 实际观测的数据也常常含有噪声, 因此, 在接收到观测数据之后, 需要对样本开展函数拟合, 这种拟合方式是多种多样的, 常用的有插值法与平滑法. 若接收到的观测数据没有误差, 即可使用插值法进行拟合; 如果接收的数据存在误差, 就需要使用平滑法进行拟合.

2. 函数性数据主成分分析

在实际应用过程中, 观测数据常常存在着比样本量大的情况, 如果未进行处理就直接分析, 那么是无法得出理想的分析解决的. 为了解决这一问题, 可以使用两种方法, 即将观测时间区域减少或者偏最小二乘, 如果变量多重共线性严重, 使用该种分析法虽然能够有效解决问题, 但是却存在很多噪声. 在遇到该种情况时, 即可使用偏最小二乘法来进行回归建模.

函数性数据样本协方差矩阵是一种函数模式, 常常会产生高维协方差矩阵, 该种矩阵表示对变量实施了重复性检测, 且每次得到的数据都生成了函数数据. 在特征方程上, 可以使用如下的表达方式:

在上式之中, λ属于特征值, v ( s, t) 是x ( s) 与x ( t) 的两个协方差, V为协方差算子, 在进行函数性数据分析时, 其中的变量个数决定协方差阵特征向量与特征值, 样本数量决定协方差算子, 在具体的观测过程中, 需要选择好观测点位置与个数.

三、函数性共同主成分

共同主成分已经在形态进化工作中得到了广泛的应用, 分析共同主成分能够有效解决共同主成分结构与协方差矩阵比例等问题, 一般情况下, 在建立好矩阵之后需要使用KL展开式进行分析, 为了得到函数结构与动态特征, 可以使用函数主成分与因子荷载分布来进行确定. 在应用KL展开式时, 需要应用到相互正交函数, KL展开式有着理想的收敛性, 在展开其他类型时, 也可以得出很好的效果. 采用该种方法之后, 即可将问题简单化, 但是由于因子载荷之间存在一定的差异, 就需要对函数性数据主成分进行相应的验证.

四、结 语

综上所述, 函数性数据有效丰富了数据分析领域, 为解决数据问题提供了强有力的支撑. 该种技术属于探索性技术, 对函数通特征描述与特征提取到起到了理想的成效, 但是, 由于各种因素的影响, 函数性数据主成分分析只能够解决单样本问题, 难以解决两样本以上的问题, 因此, 在使用该种问题进行分析时, 还需要综合各类因素解决推断与检验的难题.

摘要:函数性数据分析 (FDA) 是一种新型数据分析方法, 该种分析方法是建立在函数角度基础上, 强调将函数数据作为整体进行分析, 函数性数据有效丰富了数据分析领域, 为解决数据问题提供了强有力的支撑, 该种技术属于探索性技术, 对函数通特征描述与特征提取到起到了理想的成效, 数性数据分析有着很大的优越性, 能够通过微分曲线与导数曲线来处理信息, 本文主要讨论函数性数据分析中的主成分分析.

主成分分析 篇10

关键词:主成分分析,水质指标,松山湖

1 引言

水质评价是根据某些水质指标值,通过所建立的数学模型,对水质等级进行综合评价。如何更合理地、更客观地描述水质状况,是20世纪90年代以来水环境研究领域的一个热点和难点问题[1,2]。水质受很多因素影响,基于单一指标的许多评价方法在评价水质时表现出一定的局限性,因为水质系统是由多维因子组成的复杂系统,因子间可互相关联,综合评价较为困难[3,4]。

主成分分析(Principal Components Analysis,PCA),又称定量分析或多元分析,它是在一组变量中寻找出方差-协方差矩阵的特征量,然后由原变量在不损失原数据主要信息情况下,使信息更加集中、更典型地显示出研究对象的特征[4,5]。该方法充分考虑各指标之间的信息重叠,能够在最大限度地保留原有信息的基础上,对高维变量进行最佳的综合降维,且更客观地确定各个指标的权重,避免了主观随意性,因此广泛应用于社会学、教育学、医学、环境科学等方面[2]。

东莞松山湖科技产业园区位于广东省东莞市寮步、大朗、大岭山三镇接壤处,总面积59.43km2,是东莞市的几何中心,目前规划控制面积约72 km2,拥有8 km2的淡水湖(以下简称松山湖)和14 km2的生态绿地,是一个生态自然环境保持良好的区域。近年来,随着园区经济的快速发展,松山湖水质不断恶化,水体富营养化现象日趋严重。为了研究松山湖水质情况,于2015年对松山湖11个采样点的8项指标进行为期1年的监测,利用主成分分析方法对其水质进行综合评价。

2 采样布点和监测方法

2.1 采样方法

根据视松山湖的地形、水面面积、入湖河流和工业排污口分布、富营养化状况及其主要分布特征等,分别在北部、中部各设4个采样点,在南部设3个取样点。具体采样点位置如图1所示,采样方法按照《地表水和污水监测技术规范》(HJ/T 91-2002)中的要求进行。

2.2 监测项目

监测项目包括pH、溶解氧(DO)、高锰酸盐指数(CODMn)、五日生化需氧量(BOD5)、氨氮(NH3-N)、总磷(TP)、总氮(TN)和硝酸盐(NO3-N)等8项,监测结果详见表1所示。

注:以上数据均采用全年监测结果平均值

3 主成分分析方法对水质进行综合评价

3.1 主成分确定

为了消除原始数据量纲和数量级的影响,利用SPSS 19.0软件对11个检测点8项指标数据进行Z-Score标准化[7],见表2所示。再对标准后的数据进行相似性分析,求得其相关系数矩阵R,结果见表3所示。从表3可以知道,CODMn与BOD5、TP和TN之间,TP和TN之间具有较强的相关性,其他指标之间的相关性较小。

利用SPSS 19.0软件分别对检测数据计算特征值和主成分贡献率,结果见表4所示。从表4可以看出,利用SPSS19.0分别对检测数据计算特征值和主成分贡献率,第1、第2、第3主成分特征值分别为6.374、0.984和0.383,我们取特征值为0.9,故只有第1和第2主成分的特征值大于0.9,且二者方差累积贡献率达到91.970%,满足因子选取原则(≥)说明第1和第2个主成分已经反映原始变量提供的91.970%的信息,包含了以上8个指标的所要信息,根据综合评介的需要,用前2个主成分来代替原来的8个指标变量。

3.2 主成分表达式的确定

每个污染指标初始因子载荷系数表示与主成分的相关程度,正值表示正相关,负值表示负相关,其绝对值越接近1,表示相关程度越高[4]。对第1、第2主成分进行载荷值计算,结果见表5所示。由主成分载荷大小可以看出,第1成分,除NO3-N载荷较小外,其他指标所占载荷均较大,说明第1个主成分反映了pH、DO、CODMn、BOD5、NH3-N、TP和TN等7项指标的信息;第2个主成分中NO3-N载荷最大,说明第2个主成分主要反映了NO3-N指标的信息。

各成分表达式系数用初始因子荷载量矩阵第i列向量除于特征值就得到第i个主成分的系数向量[3,4],结果见表6所示。则各成分表达式为:

其中,xn为原始监测数据标准化后的数值。

以每个主成分所对应的特征值占提取主成分总的特征值之和的比例作为权重计算主成分模型[3,4]:

3.3 评价结果

根据上述主成分表达式计算出11个监测点位的主成分得分F1、F2及综合得分F,以定量描述各监测点位水质污染程度并进行排序,具体结果见表7。

根据表5可以知道,F1反映了pH、DO、CODMn、BOD5、NH3-N、TP和TN等7项指标的信息,但关联最大的是CODMn和BOD5,表示的是有机污染物污染程度。从表7可以知道,南部2#和3#监测点位的值最大,而且远远大于其他监测点位,说明此处水体中有机污染物污染程度最严重。这是因为南部2#监测点位刚好位于大岭山杨屋村、颜屋村混合生活污水排入松山湖的排污口;而南部3#监测点位刚好位于大岭山月山村生活污水排入松山湖的排污口,据现状分析,这几个村的生活污水暂时没有收集处理,还是直接排入松山湖,引起有机物污染严重,影响水质。因此,完善大岭山各村镇,特别是靠近松山湖附近村镇的生活污水截流管网,将生活污水排入污水处理站处理后再排放,对松山湖的水质的提高有深刻的影响。

F2反映了NO3-N指标信息。从表7可以知道,南部2#监测点位值最高,中部2#监测点位值其次,而北部1#和2#监测点位值最小。南部2#监测点位值最高原因与前面有机物污染分析一致,而中部2#监测点位较高的原因可能跟中部由于商部、交通设施、密集人流、等产生的生活污水和生活垃圾进入松山湖引起的。

4 结语

本文利用SPSS对2015年松山湖水质进行计算分析,得到以下内容:(1)对松山湖水质监测指标进行主成分分析,得到第1主成分主要是水中的CODMn和BOD5有机污染物引起;第2主成分主要体现的是水中的NO3-N信息。(2)位于南部2#和3#监测点位的水质污染程度严重,也是松山湖水质较差的主要原因。控制此区域水质污染程度将对松山湖水质的改善产生巨大影响。

参考文献

[1]邹志红,孙靖南,任广平.模糊评价因子的熵权法赋权及其在水质评价中的应用[J].环境科学学报,2005,25(4):552-556.

[2]邹海明,蒋良富,李粉茹.基于主成分分析的水质评价方法[J].数学实践与认识,2008,38(8):85-90.

[3]谭明芳,毛唐秀,江利平,田哲.基于主成分分析法的沦河水质评价[J].现代农业科技,2012,11:214-215.

[4]潘春芳,崔广柏,张浩.主成分分析方法在太湖水质综合评价中的应用[EB/OL].北京:中国科技论文在线.[2008-06-10].http://www.paper.edu.cn/releasepaper/content/200806-197.

主成分分析 篇11

【关键词】主成分分析;因子分析;新指标解释

一、引言

随着数理统计理论的发展,作为它的分支的“多元统计分析方法”在近20年越来越受到人们的重视。这不仅是因为很多事情都是带有随机因素,而且在具体分析问题的时候,人们需要考虑的因素不止有一个。比如在购物的时候,我们评价商品并不是仅仅看其价格,还要关注质量、保修期等多方面的因素。在学校里,评价一个学生也是至少需要“德、智、体”三方面的指标。多元统计分析就是用统计的方法分析这种带有多指标的随机性问题。上述的例子所涉及的指标其实并不多,但更多的时候会遇到很多指标,如考察一个企业,需要了解其规模、产量、产值、税收、员工数、利润等,如果我们关注所有的指标就会大大增加分析的复杂性,而且也不宜抓住主要的因素。因此有必要对这些原始的指标数据进行降维,亦即用较少的新指标来代替原始指标,这就是主成分分析与因子分析在解决问题时所要体现的思想。可以说,出于数据降维的目的它们是没有区别。

二、具体实例分析

但是在新生成的指标的解释方面,它们还是有较大不同的。首先看一下两种方法的数学模型。主成分分析是考虑原来的指标的线性组合,把原始指标的线性组合叫做主成分。从这一点可以看出,主成分其实就是原来指标的压缩综合。而因子分析模型则是把原始指标表示成因子的线性组合(如果姑且不去考虑随机扰动的因素),也就是说因子分析的目的是要找出影响所有原始指标的内在因素。因此尽管两种方法都是对原始数据进行降维,得到新的指标,但是在对新指标的解释是有不同的。下面分析一个具体例子。该例通常出现在统计教科书中因子分析一章,但本文从主成分分析和因子分析两方面同时对其进行剖析。

考察某校学生的学习成绩状况。随机抽取了30个学生,关注起数学、物理、化学、语文、历史、英语六门课程的成绩。故形成了如下的30行、6列的原始数组。我们需要从中提炼出1,2个新指标。

通过MATLAB软件中的主成分分析与因子分析程序,可以看到通过两种方法的数据降维处理后按照累计贡献率均提炼出了两个新的指标,它们都是从上述的原始二维数组出发,计算其协方差距阵的特征值与特征向量,因此很容易搞不清楚所得到的两个新变量到底是主成分变量,还是因子变量。其实,我们此时回顾一下前文中提到的数学模型就清楚了。主成分分析是原始变量的线性组合,结合此例,即为所获得的两个新指标是原始指标的综合。又注意到原始变量前的组合系数(也叫作载荷)大小,不难发现,在其中的一个新指标中数学、物理、化学、三科占的比重比较大,因此可以把该综合指标形象地称为“理科”主成分;而在另一个新指标中语文、历史、英语三科占的比重比较大,因此可以把该综合指标形象地称为“文科”主成分。此时再考虑因子分析的模型。如前文所讲,原始变量表示成了因子的线性组合。结合此例,即数学、物理、化学、语文、历史、英语这原六个指标表示成了两个新的指标的线性组合。考虑到因子的组合系数,发现在数学、物理、化学这三科的线性表示中一个因子的组合系数比较大,而另一个比较小,因此可以把所占分量较大的那个因子形象地理解成“理性思维”因子,同样的道理可以把另一个新指标理解为“文性思维”因子。

三、总结

从此例可以看出,虽然主成分分析与因子分析都是从原始数据的协方差矩阵(有时是相关系数阵)出发,计算特征值与特征向量,按照累计贡献率大于85%的原则确定新的指标个数。但是为了避免搞混两种方法,在解释新的指标时应回馈到各自的模型上面来。即:按照主成分分析理论,新指标仅仅是原始指标的简单汇总,如果想用较少的几个变量替代原来的变量则用主成分分析;而对于因子分析,新指标则是对所有原始指标皆有影响的那些公共因子,所以当需要寻找潜在的影响要因时,倾向于用因子分析。明白了这一点,对新指标的解释也就变得顺理成章了。

【参考文献】

[1]高惠璇 应用多元统计分析 2005

[2]李静萍 谢邦昌 多元统计分析方法与应用 2008

[3]李卫东 应用多元统计分析 2008

[4]陆恒芹 苏勤 陈丽荣 女性旅游者行为特征分析及其动机研究—以西递、宏村为例 2006

[5]陆虹 用因子分析测量“护士工作满意度量表”的结构效度[期刊论文] 2007

[6]赵磊 李继海 朱大洲 籍保平 5种鹿茸营养成分的主成分分析[期刊论文] 2010

主成分分析 篇12

在消光法颗粒粒径测量中, 一般采用白光作为光源并配合光谱仪或其他分光元件, 通过对消光光谱的测量和反演, 得到颗粒系的粒径分布。在粒径反演过程中, 每个波长下的消光值都不同程度地包含被测颗粒系的粒径信息。如果选择波长时选用了对粒径影响小的波长, 而遗漏了重要的波长, 可能导致粒径分布反演结果不准确。较多的测量波长数目虽能提高系统的光谱分辨率, 但是波长数目越大, 数据处理的速度就越慢, 而且多波长消光数据本身包含了大量的冗余信息, 邻近波长之间的相关性要高于相距较远的波长之间的相关性。所以, 在选择波长时, 应对多波长消光数据进行降维, 即尽量选择包含对粒径影响比较显著的特征波长进行测量[1]。

主成分分析 (PCA) 作为一种多元数据统计分析的工具, 在去除相关、特征提取和数据压缩中被普遍使用。PCA的中心目的是将数据降维, 将原变量进行转换, 使少数几个新变量 (主成分) 是原变量的线性组合, 同时这些变量要尽可能多地表征原变量的数据特征而不丢失信息。经转换得到的新变量是互不相关的, 以消除众多信息共存中相互重叠的部分[2,3]。

本文提出一种在基于主成分分析的消光法特征波长的选择算法。该算法首先对一阶微分消光光谱进行主成分变换, 然后将每个波长下的一阶微分消光谱对主成分贡献率的大小作为波长选择的主要依据, 并且把光谱范围的边界波长也作为测量波长, 这样的选择方法保证了选出的光谱消光值具有较高的信息量。

1 测量原理

消光法粒径测量的基本原理是Lambert-Beer定律。当一束光强为I0, 波长为λi的平行单色光照射到厚度为L的悬浮被测颗粒时, 由于颗粒对入射光的吸收和散射作用, 穿过颗粒系透射光的光强I减弱[1]。由于实际颗粒系都是具有一定尺寸分布范围的多分散系, 在颗粒满足不相关单散射的前提下, 对于具有一定尺寸范围的多分散颗粒系则有[4,5]:

式中: (I/I0) i为第i个波长的消光值, N为颗粒系的粒子总数, Qext (λi, m, D) 为消光系数, 它表征每个颗粒对入射光的散射量, 是颗粒粒径D、波长λi, 以及相对介质折射率m的函数, 其值可由经典的米氏理论求得[6,7,8], f (D) 是粒径体积频度分布函数, 表示单位体积内直径在D和D+d (D) 范围内的粒子体积频度百分比。

消光粒径测量方法分为独立模式算法和非独立模式算法。在实际测量中, 若不知道被测颗粒系的粒径分布规律, 或者颗粒系的尺寸分布无法简单地用某个分布来描述, 这就使非独立模式下求得的结果不可靠。在已经提出的独立模式反演算法中, 由Phillips和Twomey提出的限制最小二乘算法应用最为广泛, 得到的反演结果也最为理想。所以本文在独立模式下对消光法的特征波长选择算法进行研究[9]。

2 主成分变换及特征波长的选择算法

在消光法粒径分布的反演过程中, 设对M个波长下的消光值重复进行p次测量, 记为X=[xij], xij=ln (I (λj) /I0 (λj) ) i表示对第j个波长下的消光值进行第i次测量, i=1, 2, …, p, j=1, 2, …, M。则X的均值向量n和协方差阵∑X为[2,3]

令γ1, γ2, , γM为∑X的特征根 (γ1≥γ2≥≥γM≥0) , t1, t2, , tM为相应的单位特征向量。主成分变换实际上就是一种线性变换, 形式为

式中:A是主成分变换矩阵, Y1, Y2, , YM之间互不相关, Y的分量Y1, Y2, , YM依次为X的第一, 第二, …, 第M个主成分。

在主成分变换中, 前z个主成分Y1, Y2, , Yz的累计方差贡献率为

累积方差贡献率越大, 表明通过所选的少数几个主成分解释原变量的差异的能力越强。如果选取的主成分太少, 将会丢失原始光谱较多的有用信息, 如果选取的主成分太多, 会将测量噪声过多的包括进来。实际应用中通常取Vz大于某一值 (一般取Vz≥90%) 的前z个主成分代替原来的光谱。

设δjj是∑X对角线上的值, 则主成分Yk与第j个波长下的消光值xj的相关系数为

可以得出, 能代表原始数据的z个主成分对于第j个波长的贡献率vj是xj分别与Y1, Y2, Yz相关系数的平方和, 即:

v的大小反映了该波长下有多少信息被映射到了前z个主成分中, 而主成分本身包含了原始数据的大部分信息。因此v本身也反映了该波长所包含的信息量。根据式 (4) 可以看出, 由累积方差贡献率选取的z个主成分Y1, Y2, Yz改变了光谱消光值的物理意义。为了保证原数据的物理意义, 本文采用v作为波长选择的主要依据。

3 仿真实验及数值模拟结果

图1为一已知待测颗粒系的消光光谱利用协方差矩阵∑X计算出的相关矩阵图。该待测颗粒系粒径服从 (D, k) = (6, 10) 单峰R-R分布, 颗粒物的相对复折射率m=1.33, 粒径范围限制在0.1~10µm。在可见光波段0.4~0.8µm内均匀选择51个波长作为测量波长, 每个波长下的消光值均重复测量10次, 即p=10, M=51。由于在测量过程中会不可避免地引入噪声, 这里对每个波长下的消光值都加入了±0.1%的随机噪声。图1中小方格的颜色越浅, 表示不同波长下消光值之间的相关性越强。从图1可以看出, 邻近波长的消光值之间的相关性是比较接近的, 但是这51个消光值之间相关性的区分不是很明显, 在这种情形下很难从51个波长中选择不相关的波长作为特征波长。在光谱学中, 光谱变化最明显的区域也应当对应光谱信息最丰富的区域, 所以为了更有效地选择有代表性的特征波长, 这里分别对消光光谱进行一阶微分和二阶微分处理。微分光谱既可以提供比原光谱更高的分辨率和更清晰的光谱轮廓变换, 很方便地把握原光谱的变化趋势, 也可以消除平缓背景干扰的影响。

图2为对图1所对应的颗粒系的消光光谱进行一阶微分和二阶微分处理后得到的相关矩阵图。对光谱微分一般有直接微分法和Savitzky-Golay微分法。对于分辨率高、波长采样点多的光谱, 直接微分法求取的微分光谱与实际相差不大, 但对于稀疏波长采样点的光谱, 该方法所求的微分则存有较大误差, 这时可采用Savitzky-Golay卷积微分法计算[10]。该方法既能克服直接微分法的弱点, 且微分谱不发生位移, 又可较好地保持光谱中的有用信息。所以本文采用五点二次多项式的Savitzky-Golay卷积微分法对原消光光谱进行一阶微分和二阶微分处理。从图1和图2可以看出, 一阶微分消光光谱的一些邻近波长之间的光谱相关性是非常接近的, 并且它的相关矩阵图出现了明显的分快现象, 而原始光谱和二阶微分光谱之间的光谱相关性区分却不是很明显, 一阶微分消光光谱最大可能地利用了原始光谱的有用信息, 从而强化谱带特征。因此本文将原始消光光谱先做一阶微分处理后再对其进行主成分变换。

图3为对消光光谱进行一阶微分处理后选取前9个主成分而得到的主成分对一阶微分可见消光光谱的贡献率。该待测颗粒系与图1的测定对象相同。由于在进行主成分变换之前首先要对原始消光光谱进行五点二次的Savitzky-Golay一阶微分, 一阶微分之后需要舍弃51个波长的前两个和后两个波长。从图3可以看出, 每个波长下的消光值对主成分的贡献率是不同的, 贡献率越大, 说明该波长的消光值所包含的信息越丰富。图4为采用四种不同波长选择方法得到的反演结果。该待测颗粒系与图1的测定对象相同。在独立模式下, 将0.1~10µm粒径范围划分100个等区间, 并从51个波长中选择42个作为反演波长。由于v的大小反映了该波长下有多少信息被映射到了选取的主成分中, 所以这里选择v较大的值所对应的波长作为反演波长。在图4中, (a) 表示对一阶微分消光光谱进行主成分变换后, 采用图3所示的v从大到小排序最靠前的42个波长作为测量波长进行反演得到的反演结果。 (b) 表示采用v最靠前的40个波长另外把第1个和第51个波长即测量波长的边界波长也作为选择波长进行反演。 (c) 表示从51个波长中随机任选42个波长作为测量波长进行反演, 但不包括第1个和第51个波长。 (d) 表示从51个波长中随机任选42个波长作为测量波长进行反演, 其中包括了第1个和第51个波长。从图4给出的结果不难看出采用第2种方法得到的反演结果是最好的, 而单独利用v的大小作为特征波长的选择依据是不够充分的, 还应当把光谱范围的边界波长也应作为测量波长。在光谱范围边界处选取波长, 主要是因为消光法的粒径测量范围与波长范围有着密切的关系。在0.1~10µm粒径范围内, 可见光边界波长包含有较为丰富的粒径信息。

图5为粒径服从 (D, k) = (0.5, 12) R-R分布的颗粒系在不同粒径间隔内的反演结果。待测颗粒物的相对复折射率m=1.33。将选择51个波长下的消光值加入±0.1%的随机噪声之后, 再对其一阶微分消光光谱进行主成分变换。采用v从大到小排序最靠前的40个波长作为测量波长, 另外把第1个和第51个波长即测量波长的边界波长也作为特征波长。反演算法仍然是独立模式下的限制最小二乘算法。 (a) 表示将0.1~10µm粒径范围内划分99个区间; (b) 表示将0.1~1µm粒径范围内划分90个区间; (c) 表示将0.1~10µm粒径范围内划分45个区间。从图5显示的反演结果可以看出, 对于粒径较小的颗粒系来说, 粒径间隔以及粒径区间的选取是非常重要的。所以本文采用移动反演窗的方法进行反演, 即设定两个反演窗, 一个是0.1:0.1:10, 一个是0.1:0.02:1, 每次反演时采用分别在这两个反演窗下进行反演, 取反演误差较小的粒径分布作为最终的反演结果。

图6为采用三种不同波长选择方法得到的反演结果。该待测颗粒系与图5的测定对象相同, 将选择51个的波长下的消光值加入±1%的随机噪声之后, 再对其一阶微分消光光谱进行主成分变换。 (a) 表示对一阶微分消光光谱进行主成分变换后, 采用v从大到小排序最靠前的42个波长作为测量波长进行反演得到的反演结果。 (b) 表示采用v最靠前的40个波长另外把第1个和第51个波长即测量波长的边界波长也作为选择波长进行反演。 (c) 表示从51个波长中随机任选42个波长作为测量波长进行反演, 其中包括了第1个和第51个波长。从图6给出的结果不难看出, 利用v的大小作为特征波长选择的主要依据, 并且把光谱范围的边界波长也作为测量波长, 采用这样的选择方法得到的反演结果好于单独将v的大小作为选择依据以及随机任选的波长选择方法。

图7为粒径服从双峰R-R分布的颗粒系采用不同波长选择方法得到的反演结果。粒径分布参数为 (D1, k1, D2, k2, n) = (3, 12, 7.3, 15, 0.2) , 颗粒物的相对复折射率m=1.235。粒径范围限制在0.1~10µm, 在可见光波段0.4~0.8µm内均匀选择51个波长作为测量波长, 并从其中选择42个特征波长作为反演波长。对于双峰分布的颗粒系来说, 仍然可以利用采用本文提出的基于主成分分析的特征波长的选择算法反演粒径分布。图8为单峰R-R分布的颗粒系在可见-红外波段内采用三种不同波长选择方法得到的反演结果。该待测颗粒系粒径服从 (D, k) = (5, 8) 单峰R-R分布, 颗粒物的相对复折射率m=1.33, 粒径范围限制在0.1~10µm。在可见光波段0.4~0.8µm内均匀选择51个波长作为测量波长, 并从其中选择42个特征波长作为反演波长。从图8给出的结果不难看出采用对一阶微分消光光谱进行主成分变换后, 采用v从大到小排序最靠前的42个波长作为测量波长进行反演得到的反演结果仍然是最好的。

4 结论

消光颗粒粒径分布的测量方法是通过测量多个波长下的消光值来获得待测颗粒系的粒径分布的。被测颗粒系的消光光谱包含有颗粒粒径、折射率等信息。本文在对单峰R-R分布的颗粒系在可见及可见-红外波段内的消光光谱、一阶微分以及二阶微分消光光谱进行主成分分析的基础上, 提出了一种基于主成分分析的特征波长的选择算法。该算法首先对一阶微分消光光谱进行主成分变换, 然后将每个波长下的一阶微分消光谱对主成分贡献率v的大小进行特征波长的选择, 将贡献率从大到小排序选择最靠前的波长作为特征波长, 同时把光谱范围的边界波长也作为特征波长。文中分别对单峰及双峰R-R分布的颗粒系采用独立模式下的限制最小二乘算法进行了仿真实验验证。仿真实验结果表明, 采用基于主成分分析的特征波长的选择方法得到的粒径分布反演结果优于单独将v的大小作为选择依据以及随机任选的波长选择方法。该方法较好地解决了消光法光谱消光测量中波长随机任选的问题, 因而具有很好的应用前景。

参考文献

[1]孙晓刚, 唐红, 原桂彬.颗粒系的可见消光光谱分析及最佳波长的选择[J].光谱学与光谱分析, 2008, 28 (9) :1968-1973.SUN Xiao-gang, TANG Hong, YUAN Gui-bin.Analysis of Visible Extinction Spectrum of Particle System and Selection of Optimal Wavelength[J].Spectroscopy and Spectral Analysis, 2008, 28 (9) :1968-1973.

[2]刘智深, 丁宁, 赵朝方, 等.主成分分析法在油荧光光谱波段选择中的应用[J].地理空间信息, 2009, 7 (3) :12-15.LIU Zhi-shen, DING Ning, ZHAO Chao-fang, et al.Application of the PCA Method to Band Selection for Oil Fluorescence Spectrums[J].Geospatial Information, 2009, 7 (3) :12-15.

[3]李遂贤, 廖宁放, 孙雨南.基于主成分分析的多光谱相机灵敏度优化[J].光电工程, 2006, 33 (3) :127-133.LI Sui-xian, LIAO Ning-fang, SUN Yu-nan.Optimal sensitivity of multispectral camera based on PCA[J].Opto-Electronic Engineering, 2006, 33 (3) :127-133.

[4]徐峰, 蔡小舒, 苏明旭, 等.光谱消光法测量高压湿蒸汽的研究[J].动力工程, 2009, 29 (3) :254-260.XU Feng, CAI Xiao-shu, SU Ming-xu, et al.Research on the Measurement of High Pressure Wet Steam by Spectral Light Extinction Method[J].Journal of Power Engineering, 2009, 29 (3) :254-260.

[5]Pahlow M, Müller D, Tesche M, et al.Retrieval of Aerosol Properties from Combined Multiwavelength Lidar and Sunphotometer Measurements[J].Appl.Opt (S1673-3487) , 2006, 45 (28) :7429-7442.

[6]Arias M L, Frontini G L.Particle Size Distribution Retrieval from Elastic Light Scattering Measurements by a Modified Regularization Method[J].Part.Part.Syst.Charact (S0934-0866) , 2006, 23 (5) :374-380.

[7]Bohrend C F, Huffman R.Absorption and Scattering of Light by Small Particles[M].John Wiley&Sons Inc, 1998:481.

[8]彭力, 杨冠玲, 何振江, 等.颗粒侧向大角度光散射信息获取研究[J].光电工程, 2004, 31 (9) :45-48.PENG Li, YANG Guan-ling, HE Zhen-jiang, et al.Study on acquisition of light scattering information of particles in large-angle side direction[J].Opto-Electronic Engineering, 2004, 31 (9) :45-48.

[9]Muller D, Wandinger U, Ansmann A.Microphysical Particle Parameters from Extinction and Backscatter Lidar Data by Inversion with Regularization:Theory[J].Appl.Opt (S1673-3487) , 1999, 38 (12) :2346-2357.

上一篇:个性化声乐技巧下一篇:素质教育的必要性