主成分分析在燕麦引种筛选中的应用评价

2024-07-03

主成分分析在燕麦引种筛选中的应用评价(通用9篇)

主成分分析在燕麦引种筛选中的应用评价 篇1

主成分分析在河流水质综合评价中的应用

采用主成分分析法(PCA),对大沽夹河流域水质进行了定量化综合评价.结果表明:流域水质具有明显的.区域差异,在14个典型监测断面中,福山水闸下和新夹河桥2个监测断面水质污染较为严重,宫家岛等4个断面水质较好,其余断面水质良好.就全流域而言,水质污染程度不是很严重,基本满足功能区的要求.

作 者:刘德林 刘贤赵 LIU De-lin LIU Xian-zhao 作者单位:烟台师范大学地理与资源管理学院,山东,烟台,264025刊 名:水土保持研究 ISTIC PKU英文刊名:RESEARCH OF SOIL AND WATER CONSERVATION年,卷(期):13(3)分类号:P343.1关键词:烟台市 水质 综合评价 PCA分析

主成分分析在燕麦引种筛选中的应用评价 篇2

关键词:工作评价,主成分分析法

0 引言

工作评价是在设立企业内部各项工作共同付酬因素的基础上, 根据一定的评价方法, 按每项工作对企业贡献的大小, 确定其具体价值的过程。以工作或岗位在企业组织中的相对重要性和相对贡献, 间接确定任职者的报酬, 它综合考虑了三种劳动形态 (潜在形态、流动形态、物化形态) , 如果员工能够胜任岗位要求, 则说明如岗位职责所要求的, 为企业做出了相应的贡献, 从而间接地确定员工对企业的贡献。工作评价有助于统一内部分配政策, 确定合理的分配等级, 对评价外部均衡工资率也有一定的参考价值。工作评价较为常用的方法有:简单排序法、分类套级法、元素比较法、评分法。

评分法是目前薪酬设计中运用最广泛的一种工作评价法, 这种方法也是一种定量化的工作评价方法。它是通过设计出一套能够区分工作相对价值的指标体系, 对待评价岗位进行评分, 依照评分结果进行排序并划分相应等级的工作评价方法。这种方法与其他方法相比比较客观, 而且也更利于评价结果的利用。一般来说, 评分法的具体步骤是: (1) 收集岗位信息。 (2) 进行岗位分类。通过岗位分类可以减少信息收集、评价要素确立和评价过程中的信息量;二是便于把不同的工作族分开评价。 (3) 选择和定义指标、指标分等。通过对指标进行适量的等级划分以使得所有岗位都置于按重要性排列的序列中去。 (4) 指标赋权。根据特定的岗位类别确定各个指标的相对重要性, 并赋予相应的权重。 (5) 对指标进行打分, 形成评价方案。 (6) 依照评价结果进行分级。

传统的工作评价方法主要通过人为赋值来确定各个指标的权重, 无疑增加了评价结果主观性。同时, 过多的评价指标也增加了评价过程的复杂性。主成分分析是一种十分有效的降维和浓缩信息的多元统计分析方法, 它在尽可能多地保留原始信息的前提下, 将多个指标转化为少数几个互不相关的综合指标——主成分, 不仅可以由主成分的得分去分析、比较被评对象某方面的特征, 而且为进行综合评价提供了一种客观赋权的方法。所以将主成分分析法引入到工作评价当中, 可以有效地增加工作评价的客观性和科学性。

1 主成分分析法介绍

1.1 构造原始数据矩阵

设一指标体系有k项评价指标, 有n专家参与评价, 对一岗位第i项指标Xi的得分取均值, 即得到该岗位各项指标的原始得分矩阵

若有m位被评岗位得到相应的原始数据矩阵: (Xij) mk

1.2 主成分分析的计算步骤

一般地, 设有m个样本, 每个样本由k项指标X1, X2, X3, …, Xk描述, 原始数据矩阵为

(1) 数据进行标准化。

(2) 建立标准化后的k个指标相关系数矩阵。

其中,

(3) 求解相关矩阵R的特征值和特征向量。

设特征值1≥2≥…p, 相应的标准化正交特征向量a1, a2, …ap, 其中ai= (a1i, a2i, …api) T (i=1, 2, …, p)

(4) 计算各主成分Fi的方差贡献率和累积方差贡献率。

主成分Fi的方差贡献率为:

前k主成分的累积方差贡献率为:

(5) 确定主成分的个数。确定主成分个数的原则是用较少的主成分获取足够多的原始信息, 一般选取的主成分个数k, 满足前k个主成分的累积方差贡献率≥85%。

2 实证研究

2.1 指标体系的构建

通常来说, 工作评价的指标主要分为四个大类:劳动技能、劳动责任、劳动强度和劳动环境。不同性质的岗位评价指标构成是不一样的, 所以在具体确定指标体系之前要对企业所有的岗位按照一定的规则进行分类。由于企业的性质也存在差异, 所以不同企业分类的原则也是不同的。

为了说明问题, 本文以某酒业企业为例进行分析。根据企业特点, 该企业将所有岗位分为六大类:

(1) 管理岗位。从事管理性活动的岗位, 可以根据不同管理活动在横向上再进一步划分, 纵向可划分为高层管理、中层管理和一线管理。 (2) 技术岗位。从事技术性活动的岗位, 可进一步划分, 如可划分为:研发、技术支持、维修服务等。 (3) 营销岗位。从事营销活动的岗位, 可进一步划分, 如可划分为:营销策划、营销设计、营销实施、推销等岗位。 (4) 生产岗位。从事生产活动的岗位, 可从多种视角进行划分。 (5) 职员岗位。机关辅助管理的岗位。 (6) 服务岗位。为企业各项活动的开展提供服务的岗位, 如清洁等。

现以生产岗位的指标体系来进行说明。 (见表1)

采用专家打分法对每个生产岗位进行打分。

2.2 数据分析

取该企业20个生产岗位进行评价分等, 由15位专家组成评价小组, 整理评价数据得到表2。

(数据资料来源:某酒业集团人力资源部, 2008年)

利用SPSS13.0进行统计分析, 由表3可以得到, 提取前四个主成分, 方差累积贡献率达89%, 即提供了13个原始指标83.494%的信息, 且可使得13维变量由4维综合变量代替, 这样可以大大简化数据结构, 对原始指标的刻划也具有明显的作用。

由主成分载荷矩阵 (表4) 可以对主成分的意义作出相应的解释。

3 主成分荷载矩阵

由主成分得分矩阵得到主成分的计算公式:

根据综合得分的公式, 对所有的岗位进行重新记分并进行排序得到:

根据最终的评分和排序结果, 形成工作评价结果。经过调查, 经过主成分法改进后的工作评价评分方法得到的显示结果是基本符合该厂现实情况的。按照分数和对薪酬等级的具体规定, 将岗位进行分等, 从而达到科学评价的目的。例如若要分三等, 则可以按照60-65, 66-70, 71以上来进行划分, 得到结果为:

另外, 具体的岗位得分还可以供薪点制方案利用。

参考文献

[1]何晓群.多元统计分析[M].北京:中国人民大学出版社, 2004.

[2]张毅.学生评教信息的主成分分析模型.重庆电力高等专科学校学报, 2005 (12) :53-57.

主成分分析在燕麦引种筛选中的应用评价 篇3

[关键词]综合评价;主成分分析;英语写作

[中图分类号] H315 [文献标识码] A [文章编号] 2095-3437(2016)11-0171-03

一、引言

近年来,随着统计分析活动的广泛开展,通过对实践活动的总结,逐步形成了一系列运用多个指标对多个单位进行评价的方法,简称综合评价方法。其基本思想是将多个指标转化为一个能够反映综合情况的指标来进行评价。主成分分析法是综合评价方法中一种较新的评价方法。它与现有的专家评分法、模糊综合评价法、灰色聚类法等有着不同的原理和特性,充分考虑了各指标之间的信息重叠,能够在保留原有信息的基础上,最大限度地对高维变量进行最佳的综合降维,且更客观地确定各个指标的权重,避免了主观随意性,提高了综合评价的科学性、客观性及合理性。[1]

在目前的英语教学实践中,分项式评分标准仍然是多数教师经常采用的用来诊断学生的写作水平的方法。研究发现,分项式评分标准适合大学英语写作教学的诊断性评估。[2] [3]这种评分方法能够对学生的英语写作能力作出更加细致和准确的区分,提高英语作文评分信度。[4]也就是说,分项评分法有助于甄别学生作文的弱点是语言表达能力不足的问题,还是思维缺乏条理性,篇章布局和逻辑性差等细节问题。但是,由于各分项的指标受重视程度会有差别,所以各项得分的简单相加并不能全面地反映学生的英语写作水平及写作中存在的主要问题。主成分分析法通过对学生英语作文评分指标进行标准化处理,突出显示学生的强项与弱项,从而给教师和学生本身提供一个有针对性的参考,了解每个学生在哪些方面需要加强,从而达到学生英语写作水平的综合提高。这对教师有针对性地改进教学有着重要的作用。

二、主成分分析数学模型及过程

假设我们研究n个学生的英语作文综合水平,考查英语作文的p项指标。记第i个学生的p项指标值分别为xi1,xi2,…,xip,其中xij为第i个学生的第j项数据值,则这n个学生的p项指标值可以表示成n×p矩阵。利用公式,将原始数据标准化处理,其中xj=xij为第j个指标的样本均值,Sj=为样本标准差。经标准化处理后的相关系数为,其中i,j=1,2,…,p,则得到相关系数矩阵为R=(rij)p×p。然后,求出相关矩阵R的p个特征值λ1,λ2,…,λp以及对应的特征向量。设λi对应的特征向量为Ci=(c1i,…,cpi),其中i=1,2,…,p。则我们得到p个主分量,其中第i个主分量表示为Fi=c1iX1+c2iX2+…+cpiXp。

第i个主成分Fi的特征值μi即主成分的方差。方差越大,对总方差的贡献越大,对总变量的贡献也越大,其贡献率为ηi=μi  / μk,其中ηi反映了第i个主成分综合原始变量信息比。

选取m个主成分,如果前面m个主成分贡献率之和接近于1,一般来说,只要达到85%就可以,我们就取前m个主成分F1,…,Fm,也就是说,这m个主成分基本保留了原来指标变量的信息。这样,指标或者变量就减少到m个,从而起到了筛选指标或者变量的作用。对于以上的计算,我们采用MATLAB数学软件进行。

三、英语写作评价实例分析

现以江苏师范大学数学系二年级某班随意抽取15名学生在一次英语写作的成绩为例。这次写作评分分为四个部分,包括内容(5分)、语言文字(5分)、组织结构(3分)、写作技术(包括拼写、标点符号、大小写及字数等,2分)四个部分,共15分的评分。这四项指标标记分别记为内容(X1)、语言文字(X2)、组织结构(X3)、写作技术(X4),学生的各项指标分数见表1。

对15位学生四项指标进行标准化处理,结果见表2。

根据表2中的数据,算出四项指标的相关系数矩阵R,即

从R出发,计算出特征值、方差贡献率、累计贡献率和特征向量,结果如下表。

于是,主分量与标准变量的关系为

F1=0.5857213X1+0.0529997X2+0.6843405X3+0.4310448X4,

F2=-0.413745X1+0.7703048X2-0.011086X3+0.4851006X4,

F3=-0.302631X1-0.614473X2-0.143337X3+0.7143474X4,

F4=-0.627822X1-0.162002X2+0.7148493X3-0.261888X4.

由表3可知,前三个主成分F1~F3的累计贡献率为85.73%,满足≥85%的条件,因此可以用前3个主成分进行综合评价。其中,相应的Xi的系数反映了偏差程度,正系数反映出较好的水平,而负系数反映低于平均水平,系数的绝对值反映了偏差程度的大小。

在第一个主成分F1的表达式中,X1和X3指标上有较高的载荷系数,可以较好地反映学生的写作内容和组织结构;在第二主成分F2的表达式中,X2指标上有较高的载荷系数,可以较好地反映学生的语言文字水平;在第三个主成分F3的表达式中,X4指标上有较高的载荷系数,可以较好地反映学生的写作技术。因此,选取前三个主成分即可对学生的英语写作综合水平给予综合评价。比如,若F2的值较高,则说明这个学生在写作中语言文字方面水平较高,则这个学生需要加强在其他方面的提高,故其综合评价函数如下:

F=0.3690401F1+0.2819632F2+0.2063451F3

下面计算出学生的综合评价水平分值,即F的值,若学生的F值越高,说明学生的英语写作综合水平越高。下表给出学生按F值的排序:

表4   各主成分及综合得分

在表4中,各主成分及综合得分为负时,表明该生的写作成绩居班级平均水平之下。按综合得分大小排序,就可得到每个学生的写作综合水平在班级中的名次,综合评价学生和原始排序有所不同,可以反映出学生的英语写作的综合素质、强项和弱项。如总分相加排名第1的9号学生,其分数经过综合处理后降到第2名,这名学生在内容写作、组织结构方面成绩突出(F=2.702006),但语言运用能力较弱(F=-0.64305),今后在学习中要关注如何正确使用英语语言。后一种排名次序改变较大,除了6号学生外,其他学生的得分名次均有所改变。名次顺序浮动较大的是2号、3号和13号学生。笔者就以这三个学生作为代表,对他们的写作情况进行分析。2号学生由原始总分相加排名第13上升到第7名,写作成绩在15名学生中居于中间水平(F=0.044278),从F2(0.424306)和F3(0.805763)的值可以看出,该学生写作的语言文字和写作技术方面水平尚可,但在写作内容、组织结构方面(F1=-0.65474)较弱,低于标准水平,需要加强这方面的训练;3号学生由第11名上升到第4名,这名学生在写作中语言运用能力强 (F2=1.50462),和2号学生一样,需加强写作内容、组织结构方面的训练(F1=-0.56928);13号学生由原始总分相加排名第9下降到第15名,写作成绩在15名学生中最差(F=-0.95434),必须加强对内容结构和写作技术的训练(F1=-1.41493,F3=-1.32725)。

四、结论

主成分分析法从若干指标中选取主要的具有代表性的指标,淡化主要指标的作用,大大简化数据结构;可以客观地确定权重,避免了主观随意性,因而使得评价结果具有科学性、客观性和公正性。利用这种评价方法,可以让学生了解自己在班级中所处的位置,找出自己的不足,从而更有针对性地加强相应的训练,最终提高写作综合素质,还可以有效地区分学生的差异,给教师提供有效的参考数据,帮助学生有针对性地提高英语写作水平。

[ 参 考 文 献 ]

[1] 董琇.基于降维法的译者风格研究[J].外语教学与研究,2014(2):282-293.

[2] Knoch U.The assessment of academic style in EAP writing:The case of the rating scale[J].Melbourne Papers in Langu?鄄

age Testing,2008(1):34-67.

[3] 左映娟,冯蕾.大学英语写作的评分标准维度研究——基于Writingroadmap和批改网的评分对比[J].现代教育技术,2015(8):60-66.

[4] 李航.整体与分项量表的使用对EFL作文评分信度的影响[J].外语与外语教学,2015(2):45-51.

主成分分析在燕麦引种筛选中的应用评价 篇4

基于主成分分析法的扬州城市生态系统评价

摘要:为了了解近年来扬州城市生态系统发展趋势,根据社会-经济-自然复合生态系统的概念,从社会、经济、自然三个方面构建了扬州城市生态系统评价指标体系,并利用主成分分析方法对扬州市-城市生态系统进行评价,结果表明扬州城市生态系统发展稳定,呈稳定上升趋势.作 者:范海燕 吕信红 刘臣辉 FAN Hai-yan LU Xin-hong LIU Chen-hui 作者单位:扬州大学环境科学与工程学院,江苏,扬州,225127期 刊:安全与环境工程 Journal:SAFETY AND ENVIRONMENTAL ENGINEERING年,卷(期):,17(3)分类号:X826关键词:城市生态系统 环境质量评价 主成分分析法 扬州

主成分分析在燕麦引种筛选中的应用评价 篇5

一、主成分分析法的基本原理

主成分分析法是一种降维的统计方法, 它借助于一个正交变换, 将其分量相关的原随机向量转化成其分量不相关的新随机向量, 这在代数上表现为将原随机向量的协方差阵变换成对角形阵, 在几何上表现为将原坐标系变换成新的正交坐标系, 使之指向样本点散布最开的p个正交方向, 然后对多维变量系统进行降维处理, 使之能以一个较高的精度转换成低维变量系统, 再通过构造适当的价值函数, 进一步把低维系统转化成一维系统。计算步骤为:

1.原始指标数据的标准化采集p维随机向量X= (X1, X2, ..., Xp) T) n个样品xi= (xi1, xi2, ..., xip) T, i=1, 2, …, n, n>p, 构造样本阵, 对样本阵元进行如下标准化变换:

2.对标准化矩阵Z求相关系数矩阵

3.解样本相关矩阵R的特征方程︳R-λIp︱=0得p个特征根, 确定主成分

按确定m值, 使信息的利用率达85%以上, 对每个λj, j=1, 2, …, m, 解方程组Rb=λjb得单位特征向量bjo。

4.将标准化后的指标变量转换为主成分

U1称为第一主成分, U2称为第二主成分, …, Up称为第p主成分。

5.对m个主成分进行综合评价

对m个主成分进行加权求和, 即得最终评价值, 权数为每个主成分的方差贡献率。

需要注意的是, 并不是所有高维的数据都适合主成分分析。首先在数学上, 要求随机变量X1, X2, X3, …, Xp的协方差矩阵为P阶非负定矩阵。通过主成分分析法的结论可以看出各主成分的方差为相应的特征值。方差是大于等于0的, 则协方差的牲值要大于等于0。非负定矩阵可保证其特征值大于等于0。其次, 数据具有一定的相关性才适合做主成分分析。相关性在一定水平之上使用主成分分析法比较好。常用的检验方法是KMO和Barlett’s球形检验。

二、对30家上市公司财务弹性进行分析

(一) 数据检验

本文选取了上市的30家制造业公司2009年底的财务能力指标作为分析样本。本文选取了从不同角度反映财务弹性的10个代表性指标 (如表1) , 作为初始变量。

在进行主成分分析前, 首先检验数据是否适合做主成分分析。将原始数据带入统计软件SPSS, 得到KMO的值为0.643, 该原始数据比较适合做主成分分析。

(二) 分析结果

对原始数据矩阵进行标准化, 求得其相关矩阵的特征值和主成分的贡献率, 可以得到因子解释原有变量总方差的情况表 (表2) 和旋转后的因子载荷矩阵 (表2) 。

从表2, 可以看出, 第一个因子与董事长持股比例、总经理持股比例、董事会持股比例这几个载荷系数较大, 主要解释了这几个变量。可以把因子1命名为“组织结构”因子。同样, 第二个因子与短期借款资产比、长期借款资产比这两个变量的载荷系数较大, 主要解释了这两个变量, 可以将因子2命名为“资本结构”因子。第三个因子与留存收益资产比、资本购置比率、现金股利保障倍数这几个变量的载荷系数较大, 可以将因子3命名为“现有资本能力”因子, 第四个因子与再投资现金比率的载荷系数较大, 可以命名为“投资能力比率”。

由表3, 可以将公因子表示为各变量的线性组合。用f1、f2、f3、f4分别表示主成分, x1、x2…x10表示原变量因子, 得到的因子得分函数为:

最后, 计算每个地区的因子得分, 可以用每个共因子的方差贡献率做权数, 对每个因子进行加权, 然后加总得到每个地区的总因子得分, 得出财务弹性指数, 按总得分的多少进行排序, 以反映各企业财务弹性的差异。表4为得分排名表。

从排名来看, 所选的公司财务弹性指数普遍偏低, 同时也存在个体差异性。深华发A由于短期借款资产比、长期借款资产比较低, 其他各项指标也优于平均值, 因此在样本中得分最高。特发信息的资本购置比率低于平均较大, 影响综合财务弹性指数。其他的各公司, 财务弹性指数相当。

三、结语

本文借鉴已有的研究成果, 综合考虑了现金资产产出能力、资本结构、组织结构三个方面的指标, 采用主成分分析法, 构建财务弹性指数, 对30家上市公司的财务弹性作出了初步分析, 以期对企业财务管理提供支持。主成分分析法利用降维的思想, 对数据进行变换, 挑选方差贡献大的主成分作为评价依据。主成分分析通过对数据本身的分析, 自动确定权值。因此适合于综合评价, 避免各种人为主观因素的影响, 在研究中得到广泛应用。研究发现, 所选上市公司财务弹性指数整体偏低, 个体差异性也可以用指标加以解释。

主成分分析法在股票研究中的应用 篇6

摘要:文章利用主成分分析法对有色金属板块上市公司第一季度的经营业绩进行了评估。首先从有色金属板块中选择了16家上市公司,选择了9项财物指标,根据报表数据利用通过R软件进行主成分分析。自此基础上,利用主成分方法得出了一种综合排名。研究结果表明,评估比较合理,客观上能反映上市公司的综合水平。

关键词:主成分分析;股票;R软件;评估

中国股市迅速发展壮大是有目共睹的,随着中国的股市正在逐步走向完善,走向规范化,价格向其内在价值回归是未来股市发展的重要方向。股票的档次将不断拉开,成长率高的绩优股会越来越受到投资者的追捧,过去那种高投机、高市盈率、价格严重偏离其价值的现象将逐步纠正。理智的股票投资者,将会更加重视上市公司的经营业绩、重视股票自身的品质,即重视投资对象的选择。但是随着股市发展、投资手法和证券监管方法的成熟,以及上市公司数量的不断增多,如何科学合理的进行股票的分析和选择是每一个投资者所要解决的首要问题。

笔者选取16家上市中去,根据2006年度证券第四季度报告中的信息以及数据,选择每股收益、投资收益、净利润等9九项财物指标,对这些公司进行了主成分分析,试图对他们进行分类,为股票的分析和选择提供依据。

一、 R软件、主成分分析简介

1. R软件。R软件是一个开放的统计编程环境,是S语言(由AT&T; Bell实验室的Rick Becker, John Chambe- rs,Allan Wilks开发)的一种方言之一,它是集统计分析与图形直观显示于一体的统计分析软件。R作为一个计划,最早(1995年)是由Auckland大学统计系的Robert Gentleman和Ross Ihaka开始编制,目前由R核心开发小组(R Development Core Team-以后用R DCT表示)维护,他们完全自愿、工作努力负责,并将全球优秀的统计应用软件打包提供给我们使用。我们可以通过R计划的网站了解有关R的最新信息和使用说明,得到最新版本的R软件和基于R的应用统计软件包。R是完全免费的,R可以运行于UNIX, Windows和Macintosh的操作系统上,我们可以编制自己的函数来扩展现有的R语言。

2. 主成分分析法。主成分分析,也称主分量分析,其基本思想是通过原有变量的少数几个线性组合来解释原有变量所体现的样本变差。

设X1,X2,…,XP为原有的P个指标,X=(xij)n×p为其标准化观测矩阵,R=(rij)n×p为其相关系数矩阵,Li=(l1i,l2i,…,lpi)T(i=1, 2,…,p)为P个常数向量。考虑如下线性组合:Yi=■IkiXk(i=1, 2,…,p)为p个指标。Yi的样本方差为VarYi=LiTRLi,协方差Cov(Yi,Yj)=LiTRLj(i,j=1,2,…,p)。希望用较少的新指标代替原来的p各指标,就要求他们含有尽可能多的原指标信息且互不相关。指标信息量的大小通常用该指标的方差来计算,方差越大,信息量就越大,反之则越小。

设R的特征根和对应的正交化单位特征向量分别为 ?姿1?叟?姿2?叟…?叟?姿p?叟0和e1,e2,…,ep,则可以证明当Li=ei时,有VarYi=?姿i,cov(Yi,Yj)=0(i,j=1,2,…,p)。此时令:

bk=?姿k/■?姿j/,k=1,2,…,p(1)

ck=■?姿j/■?姿j,k=1,2,…,p(2)

则bk和ck分别称为第k个主成分的贡献率和前k各主成分的累积贡献率。累积贡献率表明了前k个主成分占有指标总信息量的份额,一般当ck=85%时,就可以用k个主成分来表示原有指标而不会损失多少信息。此时得到的综合评价函数为:

F(X)=b1Y1+b2Y2+…+bkYk=b1e1TX+b2e2TX+…+bkekTX(3)

在上述步骤中,首先需要对观测矩阵进行标准化处理,只有所有指标在同一个量纲范围内,比较才与意义。且有些指标存在正指标、负指标和区间指标的区别,因此标准化显得非常重要。目前标准化处理的主要方法有 值法、指数法、线性插值法、百分位法等。这里我们采用比较常用的正态标准化处理,即

Xij*=■,j=1,2,…,p

其中■j为指标j的平均观测值,?啄j为其标准差。

二、 实证分析

1. 样本的引入。根据2001年度证券中期报告中的有关信息,16个上市有色进入板块的各项指标及其数据如表所示:

指标体系:

X1——每股收益(元);X2——每股净资产(元);X3——净资产收益率;X4——主营业务净利润(万元);X5——股东权益(万元);X6——主营业务收入(万元);X7——主营业务利润(万元);X8——利润总额(万元);X9——净利润(万元)

数据如表1所示。

将这些原始数据输入到R软件中,命名为Zhibiao,采用R软件中的命令Zhibiao<-scale(Zhibiao)将原始数据标准化,利用命令Zhibiao.pr<-princomp(Zhibiao,core=TRUE) summary(Zhibiao.pr,loadings=TRUE)对数据作主成分分析,然后再用命令predict(Zhibiao.pr)计算各样本主成分的值。

从表2中可以发现,表中前面三个特征值的贡献率已经达到90.5%,因此只要选取3个主要成分因子就基本上能反映原指标的信息表4对应的是旋转主成分载荷矩阵。

由表3中可以看出,第一主成分中每股净资产收益率(X3)主营业务净利润(X4),主营业务利润(X7),利润总额(X8),净利润(X9)占的比重比较大。净资产收益率是公司税后利润出一净资产得到的百分比率,用以衡量公司运用自由资本的效率。主营业务收入反映了企业从事某种主要生产、经营活动所取得的营业收入。利润总额反映了企业所获得的收入减去成本后获得的利润,净利润反映了企业所获得的收入减去所有的成本包含机会成本后所获得的利润。总的来讲,上述五个指标主要反映了上市公司的综合实力,因此第一主成分可以命名为“综合实力”因子。第二主成分中每股收益(X1)、每股净资产(X2)、主营业务收入(X6)虽占的比重比较大,这几个指标主要反映近期上市公司的盈利水平,因此可以命名为“盈利水平”因子。第三主成分中股东权益(X5)所占的比重(下转第85页)非常大,达到了95.5%。而股东权益又称净资产,是指公司总资产中扣除负债所余下的部分。因此可以命名为“资产规模”因子。

根据表4,我们得到三个主分量分别为:

Y1=-0.293X1-0.213X2-0.364X3-0.337X4-0.126X5-0.329X6-0.406X8-0.411X9

Y2=0.479X1+0.536X2+0.253X3+0.243X4+0.118X5-0.371X6-0.270X7-0.270X8-0.249X9

Y3=0.191X1+0.197X3-0.103X4-0.955X5

于是我们得到股票的综合评价函数为:

F(X)=56.19%Y1+23.62%Y2+10.66%Y3

我们将16种股票标准化后的数据代入上面的公式进行计算,得到股票的一种综合排名次序,见表4。

分析表4的结果,豫光金铅一举成为综合排名首位,原因是显然的,表一中第四列,第七列,第九列具有较强的相关性,虽然厦门钨业在这些方面都高于豫光金铅,但其它指标都不如豫光金铅。

三、 结束语

本文采用主成分分析法对有色金属板块的部分上市公司进行了评估,得出了一种最终排名,研究结果表明,评估比较合理,客观上能够反映上市公司的综合水平。

实际上,主成分分析还可以推广到其他类似领域、比如大学排名、地质勘探、综合国力的测定和武器评估等方面。在建立模型前应该把握好几个环节,首先抽取有代表意义的指标,进一步分析数据是否具有相关性,如果相关性明显,采用主成分分析表较好,如果相关性不明显,则应考虑别的方法。

参考文献:

1. 柯冰,钱省三.聚类分析和因子分析在股票研究中的应用.上海理工大学学报,2002,4(24).

2. 张尧庭,方开泰.多元统计分析引论.北京:科学出版社,1982.

3. 薛毅,陈立萍.统计建模与R软件.北京:清华大学出版社,2007.

基金项目:国家自然科学基金(60472062);安徽省高等学校省级自然科学研究项目(KJ2009B213);天津商业大学应用数学重点学科资助。

作者简介:马军海,天津大学管理学院教授、博士生导师;王玉玲,天津商业大学讲师,天津大学管理学院博士生;王晶,硕士,蚌埠学院教师。

主成分分析在燕麦引种筛选中的应用评价 篇7

水资源综合评价中运用主成分分析法, 能客观地反映不同水资源评价指标之间的结构关系, 并通过得到相互独立主成分, 计算维度大大降低, 可以较好的进行分析计算, 并最终得到区域水资源综合评价结果。

但是传统的主成分分析法运用在水资源综合评价中存在三大问题, 一是主成分分析只是一种“线性”降维技术, 只能处理线性问题:一方面主成分是原始指标的线性组合, 另一方面对原始数据进行标准化处理, 使协方差矩阵变为相关系数矩阵, 而相关系数矩阵只能反映指标间的“线性”相关程度[2], 特别是在水资源指标评价上, 不同指标的变化对评价对象的影响是复杂的。二是主成分分析法作为一种由表及里的数学统计手段, 强调的是它的客观性, 在评价指标权系数中只考虑了其信息量权而忽视了重要性权对评价指标的主观价值判断。三是传统主成分分析法的评价结果只能反映不同样本之间排序情况, 不能反映样本所处的位置, 从而不能反映样本的优劣。

本文针对这些问题, 从数据规划、加权时机、综合评价值计算等多方面对主成分方法进行了改进, 同时将改进方法用于区域水资源综合评价, 将评价结果与传统主成分分析法、灰色关联法、专家系统法进行比较, 检验方法的可行性。

1 改进主成分方法

1.1 规格化数据处理

本文选用改进的极差正规方法对原始数据进行无纲量变化, 和传统方法不同, 将各列水资源综合评价指标中最大xjmax与最小xjmin以实际的指标最优与最差值替换, 其中最优与最差值界定参考文献[3]。根据指标性质的不同, 分为越大越优型与越小越优型, 这种方法优势在于充分反映了评价指标固有对系统评价的影响, 能很好地将标准化后的变量在[0, 1]之间取值, 为以后主成分评价中范围的控制奠定基础。

1.2 加权时机问题

权系数实质上是对评价指标自身的评价, 按性质可分为重要性权 (估价权) 和信息量权两大类。传统主成分分析一般不考虑重要性权的作用, 而在水资源指标评价中, 各指标的重要程度差异较大, 需要借助主观权法确定的重要性权对规格化数据进行修正。文献[4]李靖华提出在对规格化数据加重要性权, 再对加权数据矩阵求协方差阵特征向量 (主成分系数) , 这种方法存在重要性权二次加权的问题, 在权数差异较大的多指标水资源开发利用管理评价中, 容易引起综合指标的代表性下降, 且评价结果范围不可控。

本文在加权时机上, 用加入重要性权的规格化数据求协方差特征向量, 并用未加权数据求主成分, 最后辅以贡献度权对多主成分进行综合评价。这种方法加入主观确定的重要性权评价指标, 反映了现实中原指标重要程度上的差异, 在方法上避免了重要性权合成时带来的二次加权放大作用。

1.3 主成分的确定及特征向量的检验

主成分确定过程中涉及是采用一个还是多个主成分的问题, 采用第一主成分可以达到很好的降唯效果, 但是第一主成分是数据变异最大的方向, 如果信息量未达到要求 (方差贡献率小于85%) , 会导致评价结果的偏差;由于水资源综合评价的指标涉及方面广泛, 经过指标筛选后相关性较低, 难以达到第一主成分的要求, 故采用多个主成分的方法。同时, 针对特征向量正负的随意带来评价结果失真的问题, 提出构造最优与最劣样本, 按主成分得分均满足最优样本大于最劣样本的原则来逐个检验调整特征向量方向[5]。

1.4 计算综合评价值

要使最终评价值反映样本的具体位置和优劣, 首先要确定评价得分的范围 (即最优和最差值) , 在无纲量化过程中已经确定了变量的范围在[0, 1], 根据文献[6]的方法, 将主成分特征向量按变换 (其中为第一主成分向量之和) , 并保证方差共享率, 在合成主成分时即可保证综合得分值范围在[0, 1]。但是这个方法存在一些问题值得商榷:特征向量并不是保证综合评价值在[0, 1]的充分条件, 必须同时满足各特征向量Lij≥0, 这点可以通过数学证明得到;同时, 经过变换后的主成分的特征向量模不为1, 且特征向量两两正交也保证了Lij不能全部大于0。

特征向量本身是不能评估权值, 但是它对应的特征值大小表示了特征所含有信息量的多少, 这就可以用来评估权值。本文将特征向量视为评价样本的信息效益, 它具有负效益 (向量为负值) 也具有正效益 (正值) , 而规格化中已将变量范围限定在[0, 1], 若对负效益对应的系统变量取值0, 正效益对应的系统变量取值1, 即可得出系统综合评分的最大值Fmax, 反之得出最小值Fmin。通过以上变换取值后, 可以确定综合得分Fi的范围在[Fmin, Fmax]之间, 将Fmin, Fmax进行数学变换, 使得Fmin=0, Fmax=1, 从而控制综合评分在[0, 1]之间, 让综合评分值具备定量比较的能力。

1.5 计算步骤

(1) 建立底层指标体系, 构建原始数据X。

式中:m为样本数;n为指标个数。

(2) 用改进的极差正规方法对数据规格化, 得:

注:当xij大于或者小于其最优或最差值时, 以最优或最差值代替。

(3) 将规格化数据赋主观权。

式中:Wj为各指标采用主观赋权法确定的重要性权重。

(4) 协方差计算。V={Vjk}nn其中:

(j, n=0, 1, 2, …, n;i=1, 2, …, m)

(5) 由特征方程式|V-KgE|=0, 求V阵的特征根Kg (g=1, 2, …, n) 、特征向量Lg和累积方差贡献率Ag。确定主成分个数p。其中:

主成分个数P值由方差贡献率决定。变化后的累积方差贡献率:

(6) 特征方向向量的检验。构建正负理想点a、b:

根据主成分Fg对样本a、b满足Fag>Fbg, 构建检验公式:

如不满足式 (7) 则特征向量反向。

(7) 用原规格化数据求主成分。

最终确定的综合评价值F如下:

(8) 综合评价范围的确定。由于正效益对应的变量取值1, 负效益对应的变量取值0, 可得各主成分:

综合得分值:

(9) 综合评价值变换 ([0, 1]为界) 。以 (Fmax-Fmin) 为比例进行缩小或放大:

2 水资源综合评价中的应用

2.1 水资源开发利用管理评价指标体系

水资源评价是要定量地弄清某一特定地区水的可利用程度和社会生产、生活所需水资源的可满足程度。对一个地区进行水资源综合评价, 不仅要做到模糊定性, 且能定量的评价, 这就需要建立一个全面、有代表性、关键性的水资源开发利用管理评价指标体系, 极其简单的操作办法。本文以水资源总量Q1、用水效率Q2、水功能区限制纳污Q3“三条红线”[7,8]量化指标为基础, 结合城市生态保护Q4、水资源管理Q5与社会经济发展水平Q6, 构建出一个相互联系的不同层次结构与多个指标组成的有机整体, 既有上下的层次关系, 又有指标间的平行关系, 不同的指标反映区域水资源的不同侧面, 分属于不同的类别, 其中各项指标选取遵循核心性、代表性、系统性、可操作性、可比性的原则。指标体系如表1所示。

2.2 实例应用

用上述改进主成分分析法, 结合建立的城市水资源开发利用管理评价指标体系, 对南京市内六个分区进行评价。首先, 根据计算步骤 (2) 与 (3) , 将原始指标数据进行规格化并赋主观权重 (计算结果见表2) , 计算过程中各指标重要性权重W为表2括号中的内容, 最优指标向量xjmax={100, 900, 95, 95, 97, 24, 6, 30, 90, 0.8, 510, 90, 3, 100, 0, 0, 100, 5, 5, 60, 10, 100, 30, 100, 100, 80, 100, 100, 77 400, 1 000, 60}, 最差指标向量xjmin={80, 10, 70, 70, 80, 500, 300, 0, 50, 0.3, 1 100, 30, 0.6, 0, 100, 100, 50, 0, 1, 10, 50, 30, 10, 0, 50, 0, 62, 90, 3 000, 50, 20}。

注:数据主要参考《2010年南京市水资源公报》及《2011年南京市统计年鉴》。

以表2中数据进行协方差计算, 求得特征值 (见表3) 及对应的特征向量。为了使得累计方差贡献率大于85%, 主成分个数P=3, 此时方差贡献率为89%, 满足评价要求。将确定的三主成分特效向量经 (6) 检验后, 第一与第三主成分向量均满足要求, 第二主成分不满足正理想点大于负理想点的要求, 故第二主成分符号变向, 变换后的特征向量如表4所示。

续表4 经正负理想点检验后的特征向量

根据表4中特征向量, 可得各主成分F1、F2、F3, 根据变换过的方差贡献率, 求出综合评价值为F=0.617F1+0.205F2+0.178F3, 带入规格化后的数据, 得出南京市6个分区水资源综合评价, 此时综合评价值并不能反映样本实际位置, 将综合评价值进行 (8) 与 (9) 计算, 转换得到最终评价结果范围控制在[0, 1], 同时将综合评价值与评分标准 (表5) 对应, 得出评价结果, 见表6。

2.3 与其他方法的比较

同时运用灰关联法、专家系统评价法[9]及传统主成分分析法对对南京市内6个分区进行评价 (评价方法与步骤省略, 结果见表6) , 得到以下结论:

(1) 改进主成分分析法与传统方法相比, 在样本间排名上大致相同, 但是改进主成分分析法用于城市水资源开发利用管理评价中, 不仅能得到各分区水资源综合得分, 且综合得分反映了评价实际优劣情况。由表5可知, 中心城区水资源级别为Ⅲ级 (一般) , 浦口区与高淳区为 Ⅱ 级 (良好) , 其余各区为 Ⅰ 级 (优秀) 。评价结果与实际较为一致。

(2) 灰色关联法与专家系统评价法计算的样本评价值之间差异较小, 主要是由于两种方法对每项指标对系统的影响都分别进行评价, 未考虑主要影响因素, 而水资源综合评价中许多指标变化程度较小, 如用水保障率、灌溉水利用系数、用水满意度等。改进主成分分析法能客观地反映水资源评价指标之间的结构关系, 找到对系统影响最大的主成分, 一定程度上也能消除指标间的重复信息。

(3) 评价结果之间的差异另一方面由于灰色关联法与专家系统法在选取最优最差序列时, 往往是用样本中的最优最差值代替, 而水资源综合评价中实际最优最差值往往不尽相同。如年平均降雨量, 南京作为南方丰水城市各区年平均降雨量超过了1 100mm, 达到了水资源评价中的实际最优 值, 若以样本中的1 174、1 284mm作为最优最差序列会造成评价结果的不准确。

综上所述, 采用改进的主成分分析法对南京市区6个分区进行水资源, 结果较为合理, 与实际情况相符合, 取得了良好的效果。

3 结语

传统主成分分析法存在水资源综合评价中存在一些弊端, 本文针对传统主成分分析法的不足, 从数据规格化的处理、加权时机问题、特征向量的检验以及综合评价值的转换四方面对其进行了改进, 有效解决了传统方法线性问题和评价值范围的限定, 加入重要性权也使评价结果更符合实际。同时以水资源管理“三条红线”为基础建立了水资源综合评价体系, 将改进的方法结合评价体系运用在南京市水资源综合评价中, 得出的评价结果基本准确, 与其他方法相比也更符合实际。

参考文献

[1]赵希男.主成分分析法评价功能浅析[J].系统工程, 1995, 13 (2) :24-27.

[2]叶双峰.关于主成分分析做综合评价的改进[J].数据统计与管理, 2001, 20 (2) :52-61.

[3]宋松柏.区域水资源可持续利用指标体系及评价方法研究[D].陕西杨凌:西北农林科技大学, 2003:52-68.

[4]李靖华, 郭耀煌.主成分分析用于多指标评价的方法研究——主成分评价[J].管理工程学报, 2002, 16 (1) :39-43.

[5]白雪梅, 赵松山.对主成分分析综合评价方法若干问题的探讨[J].统计研究, 1995, (6) :47-51.

[6]李春平, 杨益民, 葛莹玉.主成分分析法和层次分析法在对综合指标进行定量评价中的比较[J].南京财经大学学报, 2005, (6) :54-57.

[7]陶洁, 左其亭, 薛会露, 等.最严格水资源管理制度“三条红线”控制指标及确定方法[J].节水灌溉, 2012, (4) :64-67.

[8]管桂玲, 徐向阳, 徐磊.水资源“三条红线”管理评价系统研究[J].人民长江, 2013, 44 (7) :64-66.

主成分分析在燕麦引种筛选中的应用评价 篇8

地下水水质评价是地下水资源评价和保护的重要内容,它是根据地下水的主要物质成分以及水质评价标准,分析地下水水质的时空分布状况、变化规律和可用程度,为地下水资源的规划、开发、利用和管理提供科学依据[1,2]。由于地下水水质是由多个影响因子(各水质指标)组成的复杂系统,因子间具有不同程度的相关性,每一因子从某一方面反映水质质量,但依据它们做综合评价有一定难度[3]。而主成分分析法[4] (Principal Component Analysis,PCA)能够在保证原始信息损失较小的前提下,经过原始指标的线性组合即少数综合指标,降低空间维数,简化数据结构,客观的确定权重,同时能够对水质污染状况及主要污染物种类进行分析、评价。因此在水质评价中被广泛使用[3,5,6,7,8]。

但实际应用中,原始指标间往往呈现非线性关系,而传统的主成分分析从本质上讲是一种线性映射方法,对于指标间的非线性相关往往会出现降维效果不明显的问题;另外,当指标之间的相关性较小时,可能出现各指标的贡献率过于分散,此时若取较多的主成分,不同的组合会导致评价结果的不一致,从而影响评价效果[9,10]。为此,Scholkopf[11]等于1998年,利用核技巧将传统的PCA法推广到代表非线性领域的高维特征空间,提出一种能提取数据指标间非线性特征的核主成分分析法(Kernel Principal Component Analysis,KPCA)。该分析法具有较高的降维效果,一般当核参数选择适当时,第一主成分的贡献率就可以超过85%。然而目前关于核参数的选取主要凭经验[12]。对此,笔者以第一主成分贡献率为目标函数,建立以核参数为变量的优化模型,拟以SCEM-UA(Shuffled Complex Evolution Metropolis Algorithm)算法实现参数的求解,并尝试将其应用于滦河下游地下水水质综合评价中,最后将所得结果与传统的PCA法进行对比。

1SCEMUA-KPCA法简介

1.1KPCA法[11]

KPCA的基本思想是先通过一个非线性映射Φ,将输入空间的数据映射到一个高维特征空间F上,然后在F中进行传统的线性主成分分析。

设由m个待评水体样点,n个评价指标构成的样本集为(x1,x2,…,xm),其中xkRn,非线性映射Φ:xF。首先,用非线性映射Φ将输入空间的样本点x1,x2,…,xm,映射到高维特征空间F中的Φ(x1),Φ(x2),…,Φ(xm)。

假设映射已经标准化,即:

i=1mΦ(xi)=0(1)

则特征空间中的协方差矩阵为:

C¯=1mj=1mΦ(xj)Φ(xj)Τ(2)

因此,特征空间中的传统PCA就是解方程:

λV=C¯V(3)

的特征值λ和特征向量VF{0}。由于V属于Φ(x1),Φ(x2),…,Φ(xm)生成的特征空间,故V可由其线性表出,即存在参数αi(i=1,2,…,m)使得:

V=i=1mαiΦ(xi)(4)

将式(3)两边左乘Φ(xk),得到:

λΦ(xk)V=Φ(xk)C¯V(5)

定义核函数:

Κij=Κ(xi,xj)=Φ(xi)Φ(xj),i,j=1,2,,m(6)

将式(2)、(4)、(6)代入式(5)中可得到:

mλΚα=Κ2α,mλα=Κα(7)

由于差一个常系数对求解特征向量没有影响,因此K的特征值λk和特征向量αk即为式(7)的特征值和特征向量。设在式(3)中对应于λk的特征向量为Vk,则任意评价对象xF中的映射Φ(x),其在Vk上的投影为:

[VkΦ(x)]=i=1mαik[Φ(xi)Φ(x)]=i=1mαikΚ(xi,x)

式中:αikVk对应的参数向量αk的第i个分量。

由于以上推导过程是在假设式(1)成立的条件下进行的,而一般情况下该式不能满足,因此需进行标准化处理。即Φ¯(xi)=Φ(xi)-1mi=1mΦ(xi),定义核矩阵Κ¯,由此可得:

Κ¯ij=[Φ¯(xi)Φ¯(xj)]=Κij-1mp=1mΚip-1mq=1mΚqj+1m2p=1mq=1mΚpq

即:

Κ¯=Κ-LmΚ-ΚLm+LmΚLm(8)

其中:(Lm)ij=1mVk要进行规范化,即:

Ι=(VkVk)=i=1mαikαjk[Φ(xi)Φ(xj)]=i,j=1mαikαjkkij=(αkΚαk)=λk(αkαk)

与传统的PCA法一样,按累积方差贡献率 85%的原则,取前p个综合指标进行评价,并以各综合指标的贡献率为权重,则综合评价函数为:

f=k=1pωk[VkΦ(x)]=k=1pi=1mωkαikΚ(xi,x)(9)

从以上推导过程可以看出,在KPCA中并不需要知道非线性映射Φ的具体形式,最后而将问题转化为求K,选择不同的核函数及参数可能得到不同的评价结果,目前常用的核函数有:多项式核函数K(xi,x)=[s(xi,x)+c]d;高斯径向基(RBF)核函数Κ(x,xi)=exp(-x-xi22σ2);多层感知器(MLP)核函数K(x,xi)=tanh[s(x,xi)+c]。

当选择不同的核函数及参数进行评价时,不同的参数对结果的影响较大,在使用KPCA过程中,大都通过经验选择参数值后进行KPCA,当效果不好时,再变更参数值,直到找到较好的参数值,这样不仅消耗了大量时间,而且效率较低[13]。本文采用SCEM-UA算法进行核参数的优选。

1.2SCEM-UA简介

SCEM-UA算法是由Jasper A.Vrugt[14]等人为优化和评估模型参数而提出的模拟搜索优化算法,是SCE-UA(Shuffled Complex Evolution-UA)算法的一种重要改进。SCE-UA算法是Duan[15]等于1992年人提出的一种解决非线性约束最优化问题的有效方法,该算法在复合形直接算法的基础上,按照自然界生物竞争进化原理及复合形混杂等方法综合而成。SCE-UA算法能够找到全局最优点,但其全局最优性依赖与随机选取的初始点集的多样性,若初始点集选取不当,则会陷入局部最优解。SCEM-UA算法在SCE-UA算法的基础上,根据马尔可夫链蒙特卡罗(MCMC)理论,以Metropolis-Hastings算法取代SCE-UA中的坡降算法(Downhill Sinplex Method),估计出最有可能的参数集和后验概率分布,从而使算法陷入局部极点得以避免[16]。应用该算法优化和评估模型参数的计算步骤参见文献16。

1.3SCEMUA-KPCA法

利用SCEM-UA算法确定核函数参数,其基本思想为:一般当常用核函数中参数选取适当,第一主成分的贡献率就能够超过85%,实际上主成分的贡献率,也即核函数矩阵的特征值与特征值之和的比,与参数之间具有一一对应的非线性关系,因此可以第一主成分贡献率为目标函数,以核函数的参数为优化变量建立优化问题来选择合适的核参数[17]。

SCEMUA-KPCA评价步骤如下:

Step 1:选择合适的核函数,利用SCEM-UA算法确定其参数。

Step 2:由评价样本计算K,并根据(8)式计算其中心化矩阵Κ¯

Step 3:计算Κ¯的特征值、归一化特征向量和贡献率。

Step 4:找到最大的特征值及对应特征向量。

Step 5:求评价样本的评价系数,由(9)式实现综合评价。

2地下水水质综合评价中的应用

本次评价选取,2001年滦河下游12个地下水水质监测井的监测结果,数据来源于唐山市水环境监测中心。剔除掉监测结果中未达到最小检出限和空缺的指标,选取总硬度、氯离子、硫酸根、氨氮、亚硝酸盐氮、硝酸盐氮、高锰酸盐指数、砷、铅、矿化度、锰11项指标作为评价因子,并依次编号为X1-X11,水质监测数据见表1。

2.1PCA法

依据PCA法原理,在MATLAB软件中进行编程计算,所得特征值、各主成分系数、方差贡献率见表2,以累积贡献率 85%的原则选取前3个主成分并以其对应的贡献率为权重进行综合评价,所得结果见表3。

2.2SCEM-UA优化的KPCA法

利用KPCA法评价时,选择多项式核函数K(xi,x)=[s(xi,x)+c]d。SCEM-UA优化算法中设定,复合体个数为5,样本个数为300,最大进化次数为3 000,经过多次尝试,参数s,c,d的取值范围分别设为[0.01,1],[3,5],[0.2,1.5],当进化到812代时第一主成分的贡献率为98.1954%,此时核参数的取值为:s=0.233 5,c=4.044 3,d=1.499 9。用已确定的核函数进行计算,所得方差贡献率及综合评价结果见表3。

2.3 结果分析

(1)由表2可知,利用传统的线性主成分法需提取3个主成分才能使累积贡献率达到93.655 7%,降维效果不是很理想,而用SCEM-UA优化的KPCA法得到的第一主成分贡献率为98.195 4%,降维效果非常明显。

(2)由表3的评价结果可以看出:利用SCEM-UA优化的非线性KPCA法和传统的线性PCA法所得排序除稻地和碱厂顺序相反外,其他结果一致,且新庄、下马坨、大庄村和老爷庙的排名靠前,水质较差,唐海和奔城的排名靠后,水质相对较好。由于KPCA法第一主成分几乎包含原始数据的全部信息,故认为该结果的可信度更高。

(3)由传统的线性PCA法所得主成分系数可知:第一主成分与全部指标正相关,且密切程度较高的指标有总硬度、铅和矿化度;第二主成分与氨氮、亚硝酸盐氮、硝酸盐氮、砷和锰5项指标正相关,且密切程度较高的指标为氨氮、砷和锰;第三主成分与总硬度、氨氮、亚硝酸盐氮和硝酸盐氮呈负相关,密切程度较高的指标是亚硝酸盐氮和硝酸盐氮。

(4)由于线性PCA法是基于指标进行评价的,通过该方法可以确定主要的污染源。而非线性KPCA法是基于样本的,因此所得主成分意义不明确。

(5)传统线性PCA在计算过程中,不同软件所得主成分特征值相同,但所对应的特征向量符号可能不一致,因此,当选择多个主成分进行综合评价时,评价结果可能不同。经过SCEM-UA优化的KPCA法,通常第一主成分就可解释原始数据90%以上的信息,有效地降低了特征值相同而特征向量不唯一导致的误差,提高了评价的准确性。

3结语

水质综合评价是一个非线性关系较为复杂的问题,考虑到水质系统指标间可能存在非线性相关关系,采用基于核函数的主成分分析法进行评价;针对核函数中参数难以确定,通常靠经验选取的问题,尝试利用能够实现复杂非线性函数参数估计的SCEM-UA算法进行参数优选,同时将该算法应用于滦河下游地下水水质评价中,将所得结果与传统的线性主成分分析法进行对比。结果表明:应用核主成分分析法对地下水水质进行综合评价是可行的,利用SCEM-UA算法可以是核参数的选取更加客观、准确。

摘要:针对核主成分分析中核函数参数难以确定的问题,建立以第一主成分贡献率为目标函数,以核参数为优化变量的优化模型,运用SCEM-UA优化算法实现求解。将该方法应用于地下水水质评价中,通过与传统主成分分析法的对比,结果表明:基于SCEM-UA优化的KPCA法可以客观、精确地得到最优化核参数,提高了综合评价的可信度,同时也验证了该方法在水质综合评价中的可行性。

主成分分析在燕麦引种筛选中的应用评价 篇9

大坝的变形会对大坝整体的运行产生很大的影响, 因此需要采用一些切实可行的手段对其进行分析和预测, 提前对大坝的安全性作出决策, 防止大坝的变形影响到整个坝体的安全。目前, 对大坝变形分析的方法主要是通过前期观测的数据来实现对其进行预测。预测的方法有很多, 针对观测数据量比较多的方法主要有BP法[1]、SVM (支持向量机法) [2]、径向基网络法[3]等;而对于观测数据量不是特别多的预测方法主要有灰色模型方法等。这些方法都是对观测的原始数据直接进行的训练, 并对训练的样本进行参数的确定, 利用确定的参数再进行变形值的预测。但大坝变形预测所需要的观测数据很多, 包括大坝坝体内部的温度、水位的高度、水压的大小以及时间效应等等[4], 而这些因子本身之间又存在相关性, 因此, 单纯的将这些因子代入模型进行训练, 势必会造成模型训练中要素的重叠性, 同时增加了训练的难度。基于此, 为了简化因子关系、提高预测精度, 本文将主成分分析法引入到变形因子的分析中。利用该方法可以实现原有变量的组合, 重新生成一组新的变形因子, 同时这些变量之间互不相关, 又很好的保留了原有的信息, 再将这些信息引入到SVM中, 对其进行训练便可获取较为准确的训练参数, 利用确定的训练参数即可实现大坝变形的准确预测。

1 P C A模型

主成分分析主要是将维数高的数据映射到维数低的空间上, 从而达到降维的目的[5,6]。主成分分析在模式识别、特征提取、数据压缩及质量可控方面进行了广泛的应用, 并取得了一些有用的成果。以往的主成分分析主要是将维数高的数据投影到维数低的空间中, 使其投影后的方差达到最大, 其具体的步骤为:首先完成样本数据协方差的计算, 得到协方差矩阵S, 该协方差为D×D的方正, 再根据特征值和特征向量的计算模型, 计算协方差矩阵的特征值和特征向量, 得到特征值为λj, 特征向量为Wj (j=1, 2, …, D) , 然后利用q个最大特征值对应的特征向量得到q维主成分, zn=WT (xn-μ) , 该主成分模型中的μ为样本数据的平均值W= (W1, W2, …, Wq) 。

大坝变形过程中所受的影响因素很多, 而且各个影响因素之间存在相关性, 同时存在重叠的影响因子的影响, 从而造成了输入样本数据维数过多的问题, 造成不必要的浪费。以往采用相关性分析可以提取出重要的影响因子, 但却忽略了其他影响因子的影响, 而其余影响因子对大坝的变形也会起到一定的作用, 经过相关性的分析, 可以提取出样本数据中大量的部分有用信息, 但是它只是线性的确定大坝位移影响与大坝变形量之间的关系, 并没有实现大坝变形影响因子之间相关性的判断。大坝位移影响因子之间的信息会产生重叠, 并且阻碍样本在计算机中的训练速度, 降低预测的精度, 同时还会造成数据的柔余, 而利用主成分分析可以对大量的影响因子进行预处理, 使得样本变量数据之间不再重叠, 同时减少了数据样本的量数, 对样本数据的信息又没有丢失, 有效地解决了变形影响因子之间多重相关性的问题。将处理后的变量作为SVM的输入因子, 对其进行训练, 利用训练得到的参数再对大坝进行预测, 便可得到比较精确的大坝变形预测值, 从而实现对大坝变形分析的研究。

主成分分析是一种研究多个变量之间关系的多元统计分析方法, 通过对整个样本数据的主成分分析, 提取少数几个主成分量, 从而达到降维的目的, 又完整的保留了原始的样本变量的信息, 而且样本彼此之间不存在任何相关性, 实现了样本数据的简化。该方法对于给定的影响因子概率分布函数 (x) 的m维随机向量X=[x1, x2, …, xm]T进行协方差的计算, 其协方差可表示为CX, 即:

对于CX, 利用特征值分解, 可以得到CX的特征值λ1, λ2, …, λm和对应的特征向量, 对特征向量进行归一化后得到的特征向量为V1, V2, …, Vm, 该特征向量V1, V2, …, Vm即为满足主成分分析的输入的特征。假定特征值的关系为λ1≥λ2≥…≥λm, 则yi=ViTX (i=1, 2, …, m) 即为输入量的特征向量的投影, 即为X的第i主成分的量, 利用矩阵表达为:

式 (2) 中, 用于表示特征向量的矩阵为V=[V1, V2, …, Vm], 满足VVT=E, 且Y=[y1, y2, …, ym]T。因此, 利用特征向量的矩阵V=[V1, V2, …, Vm]将作为输入因子的n维向量X转变成了特征空间中的n维向量Y, 其中, 某个主分量yi为输入X的第i个主分量。根据式 (2) , 利用特征向量的线性组合可以得到重构后的X:

根据式 (3) 便可获得输入因子的所有主分量, 在选择因子特征过程中, 会选择主要特征的因子, 而舍弃无关的因子, 从而实现降维的目的。

对于主要分量所对应的特征值λ1≥λ2≥…≥λm, 实现对Y进行分解。当分解的特征值越大, 其对重构整体的贡献就越大, 而当分解的特征值越小, 其对重构整体的贡献就越小。考虑λ1, λ2…, λm中的前P个 (1≤P≤m) 最大的特征值, X在利用这些特征向量决定主分量来重构变量时, 需要满足均方差最小的原则, 最后重构的估计值为:

根据公式 (4) 可得到均方差:

由式 (5) 可知, 当CX的前L个最大特征值较大时, 均方差就会达到最小, 根据矩阵相关理论有:

式 (6) 中, cii是CX对角线元素, 可以得到方差贡献率为:

当方差贡献率φ (p) 足够大时, 便可将前P的特征向量V1, V2, …, VP构成的空间作为维度较低的投影空间, 从而完成降低维数的处理。

2 P C A-S V M模型

2.1 SVM模型参数的选取

利用PCA对主变量提取完后, 需要将主变量输入到SVM模型中, 而模型参数的确定对预测精度有很大的影响[7], 其中包括嵌入维数m、时间延迟τ、惩罚因子C、损失函数参数ε等。

(1) 对于嵌入维数m, 其决定了是否重构非线性系统的相空间, 其取值范围为3~20。

(2) 对于时间延迟τ, 为了平衡柔余误差, 其一般取值范围为1~15。

(3) 损失函数参数ε, 该参数控制着回归结果误差的大小, 也控制着支持向量的数目和泛化能力, 其取值范围一般为0.0001~0.1。

(4) 惩罚因子C, 该因子在确定的特征子空间中调节学习置信范围和经验风险的比例, 从而使得学习机器的推广更好。该值的选取取决于噪声的数量。在确定空间中, 学习机器的复杂度比较小而经验风险值比较大, 如果要使C满足所有条件, 需要对训练样本进行分类[8]。一般惩罚因子C与模型正确率的关系如表一所示。

2.2 预测模型的计算

SVM模型主要是为了解决非线性预测的问题。本文主要是在SVM基本原理的基础上, 采用SVM回归方法进行大坝变形的分析。而变形预测的目标函数为:

式 (8) 中, Φ (x) 是输入空间到高维特征空间的非线性映射。

训练样本可以在精度ε下用线性函数进行拟合, 在考虑拟合误差的情况下, 回归估计的问题即转为约束条件下最小化的问题。

最小化表示的是凸二次优化问题, 引入拉格朗日函数的情况下, 可以把一个问题简化为一个二次优化的问题, 最大化的二次型即为待求目标函数, 其最终表示为:

式 (9) 中, ai和ai*表示为拉格朗日乘子。

利用回归方法求解式 (9) , 得到解ai, ai*≥0, i=l, …, k。通过引入拉格朗日函数与核函数, f (x) 可表示为:

将拉格朗日乘子代入式 (10) 中, 就可以根据预测样本得到大坝的变形预测量。

2.3 PCA-SVM模型建立过程

利用PCA模型对输入变量进行主成分分析后, 便可将其变量输入到SVM模型中, 作为SVM模型的输入因子, 其PCA-SVM观测模型的计算过程为:

(1) 对原始的观测数据进行预处理, 输入需要训练的样本数据作为SVM模型的学习样本数据。

(2) 根据实际的需要, 选择合适的样本观测数据。

(3) 将样本数据输入到PCA模型中, 利用PCA模型对原始的样本因子进行重组。

(4) 选择适当的SVM模型的惩罚因子、损失函数、核函数及相关参数, 进行整个模型的训练, 并对样本数据进行拟合。

(5) 计算SVM模型中输入数据的误差。

(6) 计算最后输出的精度指标体系, 如果精度没有满足要求, 则重新转向第四步, 重新进行训练样本, 优化训练的参数, 重新对支持向量机模型进行改进。如果精度能够满足精度要求, 则继续第七步。

(7) 输出所需要的结果并且绘制出预测数据及实际数据或和其他数据进行对比分析。

3 实例分析

利用小浪底水利枢纽大坝的坝顶某点在2006—2009年观测的51组数据作为实验样本数据, 本文首先对一样进行分解, 需要先定义训练集、确认集和测试集。选择不同的正则化参数和核参数。利用训练集进行训练, 利用确认样本对训练好的SVM模型进行验证, 提取误差最小的SVM模型, 最后通过测试的样本进行测试。

大坝的变形主要是受温度、扬压力、时效影响, 因此, 将h, h2, h3, h4, h5, θ, θ2, θ3, θ4, θ5, sin G, cos G, T0 (h为上游观测水位值, 为当天到起测日之间的总天数除以100, G=2πt/365, t为观测时刻离初始时的天数) 作为大坝位移的影响因子, 利用主成分对其进行分析, 各成分因子的贡献率如表二所示。

一般将累积贡献率大于85%的成分作为主成分, 代表原始的信息, 因此, 本文选择前3个主成分作为大坝位移的影响因子, 利用前30组样本作为训练样本, 后10组样本作为确认样本, 最后11组作为测试样本对其进行分析预报, 将其预测结果和SVM, BP进行对比分析, 训练样本拟合结果如表三所示, 确认样本的拟合结果如表四所示。

根据表三训练样本及表四确认样本所确定的SVM模型的参数, 对预测样本进行预测, 并得到预测结果的精度, 结果如图一所示。

根据图一预测结果的误差, 计算总体均方差及平均绝对误差, 如图二所示。

从图二不同方法的预测精度对比分析可以明显发现, PCA-SVM预测精度明显高于SVM和BP方法, 其预测结果的稳定性也最好。因此, 经过主成分分析的SVM模型, 对大坝变形的预测效果最好。

4 结束语

由于支持向量机具有很好的非线性特性和泛化性特征, 已经在很多预测领域得到了广泛的应用, 而主成分分析是对原始输入样本进行主要变量提取的有效方法, 经过主成分分析后, 可以对大坝变形的影响因子进行主要分量的提取, 并且不会对原始变量的信息产生任何影响。经过主成分分析后提取的主变量, 相互变量之间没有任何重叠影响, 同时又可以达到降维的目的, 使得输入因子的样本变少, 减少了数据的柔余, 提高了预测效率, 将经过主成分分析后的变量输入到支持向量机中, 可以实现准确的大坝变形预测。

摘要:传统的大坝变形方法主要是基于大量数据统计分析得到, 而大量数据的获得显得异常困难, 同时变量与变量之间会存在相关性, 针对此, 本文将主成分分析引入到大坝变形分析的数据预处理中, 利用该方法对变形分析的因子进行分析, 使得这些因子之间不存在相关性, 同时又保持原有的信息要素, 再将这些变量作为大坝的影响因子。利用经过主成分分析的因子对大坝变形进行分析的过程中, 保证了分析的准确性, 同时又提高了分析效率。

关键词:变形分析,大坝,PCA,SVM

参考文献

[1]向国全.前向网络BP算法在数据挖掘中的运用[J].河南大学学报 (自然科学版) , 1999, 29 (03) :42-45.

[2]王磊.支持向量机的学习算法若干问题研究[D].成都:电子科技大学, 2007.

[3]农吉夫, 金龙.基于MATLAB的主成分RBF神经网络降水预报模型[J].热带气象学报, 2008, 24 (06) :713-717.

[4]翟信德.基于支持向量机的大坝变形预测研究[D].合肥:合肥工业大学, 2007.

[5]茆诗松, 吕晓玲.数理统计学[M].北京:中国人民大学出版社, 2011.

[6]吴翊, 李永乐, 胡庆军.应用数理统计[M].长沙:国防科技大学出版社, 1995.

[7]田执祥, 乔春生, 滕文彦, 等.基于支持向量机的隧道变形预测方法[J].中国铁道科学, 2004, 25 (01) :86-90.

上一篇:国内纪检监察研究下一篇:新学期开学英文祝福语