改进主成分分析

2024-10-20

改进主成分分析（精选12篇）

改进主成分分析篇1

一、引言

水质评价是水环境质量评价的主要内容, 它为水资源的综合利用及水域污染预防提供依据.目前, 进行水质综合评价的方法主要有简单指数法、分级加权评分法、普通概率统计法及主成分析分法[1], 主成分分析方法在综合评价应用各指标提供的信息相互交织重叠, 指标彼此之间存在着一定程度的相关性, 影响了对总体信息的认识与评价, 也使问题分析变得更加困难, 极大限制了它在水质综合评价方面的进一步应用.本文针对这些局限性, 对文中采用的传统主成分分析方法进行改进, 建立了一种新的评价模型, 并对广西宁明县明江河丰水期水质进行了量化评价, 具有一定的理论及实践价值。

二、传统主成分分析方法

已知有p维评价样本, 对n个样本点的同方向规格化变量记作:x1, x2, …, xp.主成分分析经过线性变换, 以少数新的综合变量 (即主成分) 取代原来的变量, R= (Rij) p´p为相关系数矩阵.λ1、λ2、…、λp为R的特征根, e1, e2, …ep是对应的单位化正交特征向量, 则第i个主成分为:

以方差贡献率i为权, 得最终评价指标F, 即:

m的一般取法是累积方差贡献率达到一定比率.将规格化数据分别代入各主成分的表达式中, 计算得样本的各主成分得分, 以方差贡献率为权数求和得综合得分, 从而对样本点进行定量化评价.以上即为传统主成分方法的方差贡献率评价模型.

传统主成分分析方法在水质综合评价应用中的缺陷主要在于信息量权的缺陷.主成分用于多指标评价的传统方法是利用原始指标数据所包含的方差大小来对主成分施行客观赋权, 没有考虑到评价指标的重复影响, 如果一个指标与其它指标的信息重复量越大, 这个指标在整个指标集中的作用越小.在做综合分析时要考虑到各指标间的相关性大小对综合评价的影响, 为此本文对文[1]中的水质评价主成分分析方法进行了改进。

三、改进主成分分析算法及步骤

(1) 数据xj的均值化.即对同一变量减去其均值再除以标准差.

(2) 通过SPSS软件计算X*的相关系数矩阵, 及特征值, 特征向量, 方差贡献率.

(3) 根据方差累计贡献率确定主成分个数及主成分的表达式.

(4) 构造综合评价函数

针对传统主成分分析法的缺陷, 将全部指标的相关系数矩阵, 除对角线上元素外, 按列求和得到一个行向量, 它反映的是各指标与其它指标的信息重复量.将其求倒数并作归一化处理.设指标xi与其它指标的相关系数分别为ri1, ri2, …rip, 则信息重复量为, 对其求倒数得, 标准化得, i反映ji了第i个指标对其它指标ji的重要性, 从而对 (2) 式进行第二次加权处理, 得综合评价函数 (28) p ij jijr1

四、实例

本文仍选取文[1]提供的数据 (见表1) .研究区域为宁明县明江河花山景区附近水域.

表1 2007年7月明江河水质监测指标标准数据 (丰水期) 其中X1代表p H值、X2代表溶解氧、X3代表高锰酸盐指数、X4代表化学需氧量、X5代表总大肠菌群.

利用SPSS18.0实行主成分分析过程, 得各指标相关系数矩阵 (见表2) 、特征根及主成分方差贡献率 (见表3) , 第一、二、三主成分的特征值分别为4.263、0.439、0.297, 其中只有第一主成分的特征值大于1.其方差贡献率为85.268%.说明第一个主成分包含了以上5个指标的全部信息.其对水质变化的影响最大, 进而对第一主成分进行载荷值计算.得第一主成分在X1、X2、X3、X4、X5上的因子载荷分别为-0.922、-0.933、0.815、0.963、0.975, 第一主成分对于X1、X2、X3、X4、X5的特征向量分别为-0.4466、-0.4519、0.3947、0.4664、0.4722.

表2 2007年7月水质监测指标各项相关系数矩阵表3主成分方差解释表

从表3可以看出第一个主成分包含了全部的指标所具有的信息且累计方差贡献率达85.268%, 所以选取一个主成分.根据主成分特征向量, 得出各指标与主成分1y的线性关系为:

从各指标相关系数矩阵表来看, 第一个指标与其余指标具有较强的相关性, 高锰酸盐的影响相对较小, 溶解氧与PH值、高锰酸盐、化学需要量、总大肠菌群呈负相关, 说明受到工业污染物的影响程度比生活污水的程度低.由表2计算出1 (28) .00 67392, 2 (28) .0065833, 3 (28) -.071141, 4 (28) .0392502, 5=185682.1, 由 (3) 式得综合评价函数为

将均值化数据代入 (4) 式计算出明江河各观测点水质综合得分 (见表4) .

表4综合得分及排名

四、结束语

从表4可以看出明江河监测断面1在丰水期污染最重, 其次监测断面2在丰水期污染重, 监测断面3、4在丰水期污染较轻, 有关部门要加强监测断面1、2的治理, 加强该段区域的污水排放管理, 逐步改善水质状况.本文使用的改进主成分分析方法主要优点是考虑了各指标间的相关性, 并利用指标的相关系数对综合评价函数进行了改进, 消除了指标间相关性对评价的影响.通过实例表明本文的方法是可行的。

摘要：为解决传统主成分分析在水质综合评价应用中的局限性, 本文对传统主成分方法作了改进, 建立一种新的评价模型, 利用此模型对明江河4个监测断面水质进行评价.结果表明此方法切实有效且有较强的实践价值。

关键词：主成分分析,河流水质,评价

参考文献

[1]吴浩东, 胡衡生:《基于主成分分析法的明江河水质评价》, 《湖北农业科学》, 2010, (10) 。

[2]孙红卫、徐天和、王玖:《主成分分析用于综合评价合理性的探讨》, 《中国卫生统计》, 2008, (4) 。

[3]徐雅静、王远征:《主成分分析应用方法的改进》, 《数学的实践与认识》, 2006.6, 68-75。

改进主成分分析篇2

主成分分析法和因子分析法都是用少数的几个变量(因子)来综合反映原始变量(因子)的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.并且新的变量彼此间互不相关,消除了多重共线性.这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量.在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,...,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到.在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分.公共因子是由所有变量共同具有的少数几个因子；特殊因子是每个原始变量独自具有的因子.对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度.聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系.也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3 ].聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集.对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用.(二)不同之处

主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成分(变量),使它们尽可能多地保留原始变量的信息,且彼此不相关.它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0 ,或样本向量彼此相互垂直的随机变量),在这种变换中,保持变量的总方差(方差之和)不变,同时具有最大方差,称为第一主成分；具有次大方差,称为第二主成分.依次类推.若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出m(m < p)个主成分就够了,只要这m 个主成分能反映原来所有变量的绝大部分的方差.主成分分析可以作为因子分析的一种方法出现.因子分析是寻找潜在的起支配作用的因子模型的方法.因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子.对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量.通过因子分析得来的新变量是对每个原始变量进行内部剖析.因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分.具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态.因子分析只能解释部分变异,主成分分析能解释所有变异.聚类分析算法是给定m 维空间R 中的n 个向量,把每个向量归属到k 个聚类中的某一个,使得每一个向量与其聚类中心的距离最小.聚类可以理解为: 类内的相关性尽量大,类间相关性尽量小.聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律.从三类分析的基本思想可以看出,聚类分析中并没于产生新变量,但是主成分分析和因子分析都产生了新变量.三、数据标准化的比较

主成分分析中为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为0方差为1 的无量纲数据.而因子分析在这方面要求不是太高,因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,并且因子变量是每一个变量的内部影响变量,它的求解与原始变量是否同量纲关系并不太大,当然在采用主成分法求因子变量时,仍需标准化.不过在实际应用的过程中,为了尽量避免量纲或数量级的影响,建议在使用因子分析前还是要进行数据标准化.在构造因子变量时采用的是主成分分析方法,主要将指标值先进行标准化处理得到协方差矩阵,即相关矩阵和对应的特征值与特征向量,然后构造综合评价函数进行评价.聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果.因此在聚类过程进行之前必须对变量值进行标准化,即消除量纲的影响.不同方法进行标准化,会导致不同的聚类结果要注意变量的分布.如果是正态分布应该采用z 分数法.四、应用中的优缺点比较(一)主成分分析

1、优点

首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息.其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价.再次它在应用上侧重于信息贡献影响力综合评价.2、缺点

当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确.命名清晰性低.(二)因子分析

1、优点

第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据；第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高.2、缺点

在计算因子得分时,采用的是最小二乘法,此法有时可能会失效.(三)聚类分析

1、优点

聚类分析模型的优点就是直观,结论形式简明.2、缺点

改进主成分分析篇3

摘要：高校的学风建设评价研究是一项系统性工程，应遵循科学性、系统性原则。本文立足宁波大红鹰学院，研究高校学风建设评价指标体系，并采用主成分分析对宁波大红鹰学院的七个学院学风建设进行分析。且运用科学方法对学院学风建设进行综合评价，最后提出加强高校学风建设的建议，更好地为高校学风建设提供理论与实践上的支撑依据。

关键词：主成分分析高校学风建设评价体系

学风是体现一所高等学校的办学理念、人才培养质量及管理水平高低的重要标志。因而，高校的学风建设在高校整体建设与发展中就显得尤为重要。高校培养人才的重要任务之一就是学风建设，做好学风建设，培养出大批具有现代意识、适应国家建设发展的优秀人才正是高校教育的首要任务。研究高校学风建设评价指标体系，并采用主成分分析法对宁波大红鹰学院七个学院的学风建设进行分析，可以更好地为高校学风建设提供理论及实践上的支撑依据。

一、高校学风建设存在的主要问题

目前，高校学风建设的整体情况在不同程度上都或多或少地受到地区大环境、高校内部小环境等客观因素，以及学生自身的学习态度、学习观念与学习习惯等主观因素的影响，在建设发展中仍存在不少问题。

（一）缺乏明确的学习目标与足够的学习动力。部分同学进入学习氛围较宽松的高校后，因自身自制力不高，又没有明确的学习目标与学习计划，整体变得松散无目的，学习兴趣大大降低。

（二）对所学专业了解较少，缺乏对职业生涯规划的设计。没有切实了解过自己所学的专业，仅仅出于目前的成绩，或对未来的就业趋向的预计等因素的考虑而选择就读的专业。但在接触后却感觉专业或深奥或乏味的令人难以接受与学习，又常遇到因专业而引发的各种问题且难以解决或不愿解决，从而产生厌学情绪。

（三）学习纪律松弛，学风散漫。具体表现为上课迟到、早退、旷课等，以及即便是到课，也是在课堂上睡觉、看小说、玩手机等做与课堂教学无关的事。学生主动学习性较低，课堂整体纪律松散。

（四）重视专业知识的学习，忽视道德品质的修养。部分同学们重视专业知识的学习，而不在意思想品德方面的修养和马克思主义与列宁主义等方面知识的学习。

（五）忽视文化课学习，偏重社会活动。很多同学更喜欢参与各种社团活动或兼职，甚至为此请假或逃课，忽略文化课学习。

以上这些问题都在不同程度上影响了高校学风建设的构建与发展，只有很好地解决这些问题造成的影响，才能更好地建设校园整体学风。

二、高校学风建设评价体系构建

（一）高校学风建设评价体系原则。高校学风建设是一项系统性的工程，需要建设者长久、用心地建设并经营。而遵循科学性、系统性的原则可使高校学风建设更巩固。

1.科学性原则。指的是在学风建设评价指标的选择上应该尊重高校教育发展规律，而不是仅凭主观臆测或推断。应根据调查得到的实情，将其与科学性的理论依据相结合，准确地反映高校学风建设的实际情况。

2.系统性原则。指的是评价体系应该详细、综合与全面，但又要尽量避免各类指标之间因数据的庞大与复杂而造成的各类误差，以准确、客观甚至长远的规划反映高校的学风建设体系的整体要求。

影响高校学风建设的存在因素较多，而基于高校学风建设中存在的种种问题，笔者认为应该选择一所学校作为蓝本深入分析，以便得到准确、真实的数据进行分析、总结。

（二）基于主成分分析的宁波大红鹰学院学风建设评价。

1.宁波大红鹰学院学风建设综合评价的数据准备。基于高校学风建设存在的问题，针对宁波大红鹰学院的七个学院进行抽样调查，并通过对数据的统计评价各学院的学风建设情况。如学校组织保障学风建设而采取的措施，各学院在制度设定、人员巡查、奖惩设置等方面的具体落实；以及在人才培养方面，指导思想是否明确、计划是否合理可调整等。收集数据并予以分析。

由于影响高校学风建设的因素相对较多，为了更客观地了解高校学风建设，在高校学风建设的内涵之上，以系统性、科学性相结合为基础，构建一个以大红鹰学院为例，以见微知著的学风建设评价为指标。指标以高校学风建设为目标层，以组织保障、学习风气、学习氛围与学风建设成果为一级指标，并在这四个一级指标下分别设有学校管理工作、物质资源支持、人力资源支持度、学生自我管理、学习成绩、学业规划、学风氛围、课外活动、基本技能、思想道德修养和整体效果这11个二级指标，并在二等指标下再次分列了人才培养计划、学风激励制度、违纪处理方式、专项活动场地及经费支持、相关设备支持、校内领导参与度、校内制度建设、方案实施程度、课堂纪律保持度和考试纪律遵守度等27个三级指标。

2.宁波大红鹰学院学风建设的主成分分析情况。通过以上评价体系，得出宁波大红鹰学院学风建设综合评价的相关数据，运用SPSS软件并进行相关计算。与此同时，对宁波大红鹰学院的学风建设进行主成分分析，提取主要的几个成分进行对比后，可以明显发现：经济与管理学院和人文学院这两个学院的学风建设情况在宁波大红鹰学院学风建设中，位于中上水平；基础学院、外国语学院和信息工程学院的学风建设水平则稍弱于前两个学院，在校内处于中等水平；而机械与电气工程学院、艺术与传媒学院这两个学院的学风建设水平还有待提高；尤其是艺术与传媒学院的学生，在学习风气方面亟须加强。

但由此可窥见一些小细节，一个学院的学习风气与学院内学生的整体素质、学习的专业方向等方面存在一些关联，但更重要的是一个学院对学风建设是否重视。

三、加强高校内学风建设的措施

高校整体学风建设是关系到青年学生是否成才的关键，因而做好高校学风建设评价体系显得至关重要。在以宁波大红鹰学院为例进行分析后，在关于如何提高高校学风建设水平这方面，可以得出以下几项措施。

（一）加强新生的入学教育工作，注重思想政治教育。高校学风建设会涉及学生的世界观、人生观与价值观。因此，利用大学新生入学，对大学学习生活充满期待之际是开展新生教育的好时机。通过校领导、老师等层面，利用班会、军训等机会，展开针对性的思想教育，提高学生的学习主动性与积极性，并树立科学的世界观、人生观和价值观，为高校学风建设打下坚实的思想基础。

（二）加强专业思想教育，培养学生的学习兴趣。切实发挥教师教书育人的功能，提高学生对自身专业的学习兴趣，并以此促进课堂内的学风建设；加强实践育人环节，激发学生对于学习的热情，发挥学生主体对于促进学风建设的作用，并不断深化教学改革，建立学生自主学习机制和环境。

（三）建立良好的考风和教风，促进学风的提升。学风建设的基础正是教风建设，而考风建设则是学风建设中的重中之重。通过建立良好的教学风气，为良好学风的形成起导向与示范作用；建设优良的考风制度，端正学生考试的态度，以此促进良好学风的形成。

（四）完善管理制度，营造良好的学习氛围。切实加强对学生教育管理制度的建设。通过制度化的管理，规范学生的行为习惯，营造整体良好的学习氛围；同时加强宿舍方面的管理，创造寝室内优良的学习环境，延长学生的学习时间。

参考文献：

[1]顾岱泉.浅谈新时期高校学风建设中存在的问题及对策[J].吉林广播电视大学学报，2011（10）.

[2]傅进军.关于高校学风建设的几点思考[J].思想教育研究，2005（4）：33-34.

[3]周亚东，雷广宁.高校学风建设长效机制构建研究[J].宿州学院学报，2011（7）.

[4]王丽.C大学学风状况及分析[J].学习月刊，2010（4）：95-96.

[5]谭华玉.关于目前大学生学风研究的思考[J].学理论，2011（7）：178-179.

改进主成分分析篇4

电力变压器是电力系统中十分重要的供电设备,它的故障将对供电可靠性和系统的正常运行带来严重的影响。对于目前普遍应用的变压器差动保护,励磁电流是其不正确动作的重要原因,如何防止励磁涌流造成误动是变压器保护的重要研究课题之一。工程中主要应用二次谐波判据、间断角判据、波形对称判据来防止励磁涌流造成差动保护误动[1,2,3]。但是由于大容量变压器铁心材料的改进以及系统中无功补偿装置的应用使得涌流和故障暂态电流中的二次谐波含量的差别减小,二次谐波判据不正确动作的可能性提高了,波形对称判据和间断角判据都是依据励磁涌流波形产生畸变并有间断的特征,但铁心极度饱和或产生对称性涌流时,上述原理的保护都有可能误动。

目前,人们提出了很多的励磁涌流识别方法和新型主保护原理,总体可分为两类:一类是继续探究电流波形上的特征并利用不同的技术手段加以提取[4,5,6];另一类引入电压量,构成诸如差有功法[7]、磁通特性法[8,9]、等效瞬时励磁电感法[10]、回路方程法[11,12]等新型原理,尤其是回路方程法在理论上完全不受励磁涌流的影响,具有很好的研究前景,但是由于引入电压量必须考虑电压互感器(PT)的暂态响应特性,且PT二次断线时必须退出运行,此时只能依赖电流差动保护。因此研究仅依赖电流量的励磁涌流识别方法仍具有十分重要的意义。

变压器励磁涌流和故障电流波形有明显的差异,在采样空间上集中分布于不同的区域。本文利用主成分分析方法提取出变压器不同运行状态下采样数据空间分布的最大差异,据此给出励磁涌流的识别判据。仿真结果表明该方法具有足够的可靠性和灵敏性,性能上优于二次谐波制动判据和间断角判据。

1 主成分分析用于涌流识别的基本原理

变压器空载合闸时铁心可能饱和,会产生励磁涌流现象,由于铁心励磁特性的非线性,励磁涌流偏向时间轴一侧,出现间断部分,呈现尖顶波的特点;而发生内部故障时,故障电流波形基本保持工频正弦波特点[10]。图1给出典型的变压器励磁涌流(实线)和故障电流(虚线)示例。横坐标为采样点序号,每周有M个采样值,纵坐标为以最大值为基准的标么值。从图1可见,励磁涌流和故障电流波形在时域上有明显的差异。

每个采样点作为一个变量,可构成一个M维采样空间,每组采样数据就是该空间中的一个点。根据图1所示励磁涌流和故障电流波形特征可知,不同状态下采样数据对应的点应分布在不同的区域内,因此通过采样数据所处的空间位置即可判断变压器运行状态。但是当M比较大时,确定它们之间的边界就比较困难,如果能够转换到一个低维空间,将有利于励磁涌流的识别。

主成分分析是将多变量转化为少数几个综合变量的一种统计分析方法[13,14]。其基本思想是通过一定线性变换,将高维空间转换成一个新空间,新空间中各变量相互无关,按方差大小对其进行排序,方差最大的称为第1主成分,其余依次类推。由前几个主成分构成的低维空间包含了原高维空间的绝大部分信息,在这样一个低维空间内可方便地完成状态分类。

图2给出了一个二维空间分类问题,可以说明主成分分析的过程及意义。图2中各点分属于两类样本,可以直观地看到两类样本比较集中地分布在两个区域。在x1x2空间中,两类样本的边界信息包含于变量x1、x2中,任何一个变量无法独立区分两类样本。将x1x2空间旋转变换至y1y2空间,可以看到,在变量y1中包含了充分的分类信息,这样就可以用新空间的y1代替原空间的x1、x2完成样本的分类识别。在高维空间中进行主成分分析带来的意义更加显著。

综上所述,基于主成分分析的励磁涌流识别方法的基本思想是利用主成分分析对M维采样空间进行变换,在新的空间找到一个励磁涌流和故障电流分布差异最大的方向,将采样空间中的各点映射到该方向上,根据映射值的大小判断变压器运行状态。

主成分分析用于分类问题的过程如下[14,15]:

(1)将样本数据标准化,得到标准化数据矩阵INM,N为样本的总数目。

(2)计算标准化数据矩阵的相关系数矩阵R及其特征值向量Λ=(λ1,…,λM)和相应的单位特征向量矩阵U=(u1,…,uM)。

(3)计算各主成分及其方差贡献率。

第i个主成分的计算公式为:

第i个主成分的方差贡献率为:

选取方差贡献率高的一个或前几个主成分构成分类识别判据。

(4)计算待识别样本数据的相应主成分,将其代入识别判据进行识别。

2 主成分分析用于涌流识别的过程分析

主成分分析作为一种统计分析方法用于分类问题时必须与实际问题相结合,本文从下面两个方面分析了常规主成分分析过程,提出了改进主成分分析方法。

2.1 数据预处理

常规主成分分析将原始数据标准化是为了消除变量在数量级和量纲上的差别[14]。本文中各变量均为电流的采样值,因此没有必要对其进行常规标准化预处理。

铁心饱和程度、故障严重程度以及发生时刻不同时,电流幅值和初相位也会改变,采样数据在空间的分布也会随之变化,这样同一状态下采样数据在空间分布就比较分散,必然影响分类的效果,甚至不能分类。为了消除这种因素的影响,本文从两个方面对数据进行预处理。首先,将采样值归一化,消除幅值的影响。以一周期内采样绝对值的最大值|i|max为基准值,按式(3)计算各点采样值的标么值。

然后对采样数据序列进行重排,消除初相位的影响。对于偏向时间轴一侧的电流以峰值对应的采样序号为基准点,对称性电流以两个峰值对应的采样序号的中间值为基准点,将基准点移到整个采样序列的中间位置,其他采样点做相应的移动。图3为数据预处理的示意图。其中横坐标为采样点,这里每周采样100点,图3(a)、3(c)为预处理前电流波形,3(b)、3(d)为预处理后的电流波形。

2.2 主成分选取原则

利用主成分分析完成空间转换后,在新空间里从哪些坐标方向上,或者说选取哪些主成分进行分类识别也是一个关键问题。如前文所述,常规主成分分析中一般选取方差贡献率高的主成分构成分类识别的判据[15]。但是各主成分方差贡献率反应的是全体样本数据在该主成分上的差异程度,方差贡献率越高差异程度越大,这种差异没有考虑样本类型的区别,差异程度大不代表不同类型样本的空间分布界限更明确,因此对于分类问题根据方差贡献率选取主成分是不合适的。本文定义主成分分离度来反应不同类型样本在该主成分上的分布情况,第i个主成分的分离度定义为:

式中:ym(i)k、yf(i)k分别为第k个励磁涌流样本和故障电流样本的第i个主成分;分别为全部励磁涌流样本和故障电流样本的第i个主成分的平均值;Nm、Nf分别为励磁涌流和故障电流样本的数目。式(4)的分子体现了不同类型样本在第i个主成分上分布的平均距离,分母反映了同类型样本在第i个主成分上分布的离散程度。显然分子越大分母越小,该主成分包含的样本类型信息越明确,主成分的分离度越大。因此本文根据主成分分离度大小来选择主成分构成识别判据。

综上所述,改进主成分分析就是按照本文提出的方法完成前述常规主成分分析中的步骤(1)和(3)。

3 仿真分析

为了分析提出的励磁涌流识别方法的性能,本文对变压器各种运行状态进行了仿真[16],首先利用ANSYS软件分析求解变压器磁场,计算变压器正常和内部故障模型的电感参数,然后利用ATP软件仿真变压器各种运行状态。

仿真系统如图4所示。其中变压器为三个单相变压器组成的三相变压器组,采用Υ/Δ-11接线。单相变压器参数如下:额定容量为10 k VA,低压侧额定电压为380 V,额定电流为25.3 A,高压侧额定电压为1 k V,额定电流为10 A,空载电流为1.45%,空载损耗为1%,短路损耗为0.35%,短路电压为10%。仿真的运行工况包括正常变压器空载合闸、内部故障变压器空载合闸、运行中变压器发生内部故障等工况。在仿真过程中通过设置不同的剩磁、励磁特性、合闸时刻、故障类型和故障位置等参数,得到不同程度的涌流和故障电流数据。

利用本文提出的方法对仿真数据进行主成分分析。表1给出了方差贡献率和分离度分别排在前3位的主成分计算结果。

从表1可以看到主成分方差贡献率和分离度并没有对应关系,如方差贡献率排第2、8位的第2、8主成分的分离度却分别排第69和第2位。图5为全部样本的第2、8主成分的分布情况,其中前61个样本为空载合闸数据,中间80个样本为故障变压器空载合闸数据,最后76个样本为变压器内部故障数据。第2、8主成分的计算结果分别位于区间[-1.1,2.46]、[-0.5,1.45]内,第2主成分分布区间更大,这在一定程度上可以解释为什么第2主成分的方差贡献率大于第8主成分。但是很明显励磁涌流和故障电流的第2主成分分布区间大部分是重叠在一起的,而第8主成分分布区间基本是分开的,因此第8主成分的分离度比第2主成分的要大。

从图5可以直观地看到主成分分离度能够反映不同类型样本在该主成分上的分布差异,这正是分类问题所需要的,因此本文按照分离度大小选取第1、8主成分来讨论励磁涌流的识别。图6给出了各样本在由第1、8主成分构成的二维空间中的分布情况。

从图6可以看到,经过主成分分析之后,励磁涌流和故障电流样本分别集中分布于该二维空间的不同区域,左上方为故障电流样本,右下方为励磁涌流样本。这样,励磁涌流的识别转化为如何在该空间上划定一个边界,如直线1、2所示。直线1为励磁涌流和故障电流样本分布区域连线的垂线,直线2与横轴平行。显见,以直线1作为边界时判据的可靠性和灵敏度更高一些,但是此时涉及到两个主成分,判据构成复杂;以直线2作为边界时判据仅涉及第1主成分,构成简单,但灵敏度略低一些。综合两方面因素同时考虑到第8主成分数值较小,本文以直线2作为分类边界,式(5)为动作方程,该方程成立时判断为励磁涌流。

式中:yset为门槛值,数据经过预处理后该定值与变压器容量、结构和系统状态无关。经过对计算结果的统计,励磁涌流和故障电流样本第1主成分分布区间分别为[-2.52,0.06]和[3.13,6.18],yset取1即可满足可靠度和灵敏度的要求。

表2给出了仿真数据的第1主成分、二次谐波含量以及间断角的计算结果。正常空载合闸时统计各相的结果;变压器发生故障时,只统计故障相的结果。

从表2可以看到,如果励磁涌流判据的门槛值取15%,表中用“*”标出的部分正常空载合闸状态下保护可能误动,部分故障变压器空载合闸状态下保护会拒动或延时动作。间断角判据取65°时,表中用“**”标出的部分状态下同样存在上述不正确动作问题。主成分判据门槛值取1时,可以在任何状态下保证正确动作。

从上面的对比结果可知,主成分判据在性能上优于目前的二次谐波判据和间断角判据。主要原因在于二次谐波判据只能反应电流一周波形的总体特征,当带有轻微故障变压器空载合闸时,故障信息只能体现在铁心不饱和的阶段,但是局部故障信息对二次谐波含量的影响较小,造成保护拒动;间断角判据仅反应铁心不饱和阶段电流出现间断的特征,由于电流互感器饱和的影响,间断角会减小甚至消失,使得该判据必须采取其他措施防止这种情况造成误动。而主成分判据基于空间变换原理能最大限度提取不同状态在空间分布上的差异,提高了保护性能。

4 结论

改进主成分分析篇5

为从波斯小麦中发掘优异基因资源,拓宽小麦遗传基础,对来自15个国家(地区)的`81份波斯小麦进行了农艺性状相关分析和主成分分析.结果表明,供试材料总体表现为植株高大,平均为110.0 cm;有效穗数平均为12.6个;穗粒数较多,平均为42.4粒;播种至抽穗平均为185.5 d;千粒重偏低,平均为17.3g.简单和偏相关分析中分别有16和12对性状相关极显著.其中分蘖数与有效穗数、穗长、小穗数,有效穗数与穗长、小穗数,穗长与小穗数,小穗数与千粒重,抽穗期与穗粒数间相关和偏相关系数均达极显著水平.主成分分析表明,前四个主成分(分蘖因子、粒重因子、穗粒数因子、抽穗期因子)对变异的贡献率达85.61%.

作者：庄萍萍李伟魏育明颜泽洪郑有良 ZHUANG Ping-ping LI Wei WEI Yu-ming YAN Ze-hong ZHENG You-liang 作者单位：庄萍萍,ZHUANG Ping-ping(四川农业大学小麦研究所,四川,都江堰,611830)

李伟,LI Wei(四川农业大学小麦研究所,四川,都江堰,611830;西南作物基因资源与遗传改良教育部重点实验室,四川,雅安,625014;四川农业大学农学院,四川,雅安,625014)

魏育明,颜泽洪,郑有良,WEI Yu-ming,YAN Ze-hong,ZHENG You-liang(四川农业大学小麦研究所,四川,都江堰,611830;西南作物基因资源与遗传改良教育部重点实验室,四川,雅安,625014)

改进主成分分析篇6

摘要：本文利用多元统计中的主成分分析法对全国各省的农业总产值进行评价，使用SPSS软件运行，分析得出代表全国各省中的农业产值高值区，并对上述高产值区进行分类，经分析得出全国各省（直辖市、自治区）农业产值分配特征。

关键词：主成分分析;SPSS;农业总产值;统计应用

中图分类号： S2 文献标识码： A DOI编号： 10.14025/j.cnki.jlny.2016.02.026

“三农”问题始终制约着我国经济建设和改革。我国作为农业大国，农业经济的发展关系到全国总体经济的发展，而衡量农业经济的发展离不开农业总产值，将多元统计方法引入农业总产值分析的研究不但可行而且是科学的。本文应用主成分分析法对农业总产值进行判定，力求对农业布局的合理性和农业发展潜力提出评价与建议。

1 资料来源与处理

资料来源于国家统计局官网，选取全国各省和直辖市及自治区农林牧渔业总产值数据。四个指标变量是：X1=农业、X2=林业、X3=畜牧业、X4=渔业。借助SPSS算法进行主成分分析：

2 主成分分析数学模型

主成分分析是一種通用的降维技术，主成分向量的协方差矩阵;其中，即。总方差中属于第主成分的比例为称为主成分的贡献率。第一主成分的贡献率最大，称之为的第主成分得分，平均主成分得分。

3 结果与分析

3.1 主成分特征值

通过主成分分析，得出了四种农业产值相关系数矩阵的特征值，上表列出了四个主成分的特征值、贡献率和累计贡献率;结果显示，由于前2个特征值方差的累计贡献率达83.6%，大于80%，较好地反映了原始数据集的特征，故选取前2个特征向量进行分析。

3.2 主成分系数

提取方法：主成分。

（1）第一主成分：由第一主成分的表达式可知，所考察样本协方差的特征值均为正值，各变量的系数在0.6～0.9之间，呈较均匀分布，反映出四种农业总产值在各省农业生产中为一般发展水平。（2）第二主成分：第二主成分表达式中，所考察样本协方差的特征值既有正值亦有负值，X1、X3的系数为负，X2、X4的系数为正，正负系数的和较接近，结合各变量的含义，第二主成分表示农业、畜牧业总产值与林业、渔业总产值的对比。（3）各省主成分得分情况。

由第一主成分Prin1的得分可以认为：农业生产整体发展水平最高的省为山东省，河南、江苏等地次之。显然，山东省农业经济多年来一直位于全国第一，山东农业产品的产量不算最高，但是农业产业化相对完善，把初级农产品深加工后的附加值很高，农业生产整体发展水平最低的三个省份别是西藏、青海和上海，吉林省农业整体水平居于中游。

第二主成分Prin2得分值为负的省份为农业和畜牧业生产占优势的省份为河南、河北两省;而得分值为正的市是林业和渔业占优势的省份，如广东、福建等省份，由于濒临沿海地区，捕渔业兴盛，同时处于亚热带季风气候，林业资源丰富。吉林省主要以林业经济为主。

改进主成分分析篇7

投资环境指投资对象在进行投资时所面临的影响投资行为的自然、经济、科技、管理、社会、法规和政治的各种条件和因素的总称。投资环境的优劣直接关系到投资活动的正常开展, 关系到投资的发生、投资的效益、投资的风险等重要内容, 它还会间接影响当地的就业、经济发展和竞争力。因此, 投资环境评价能客观真实地反映一个地区综合投资环境现状。

一、庄河市投资环境评价指标的建立

投资环境评价指标体系是反映一个投资环境系统的一系列指标所组成的相互联系、相互补充、相互依存的指标群。本文从研究投资环境因素的重要性角度出发, 内容包括自然环境、基础设施、经济环境、社会环境等四个方面分别选取20个个体指标进行研究, 具体情况 (如表1所示) 。

二、庄河市投资环境指标的主成分分析

为了能够对庄河的投资环境做出客观、准确的评价, 本文选取庄河及其周边四个县 (市) (普兰店、瓦房店、东港、岫岩) 为样本, 根据表1的指标体系, 参考各地区2008年统计年鉴及各地区国民发展统计公报, 赋予指标相应地数值, 作为下一步研究工作的基础数据。为了对指标进行筛选, 本文采用主成分分析。首先利用公式 (1) 、 (2) 对原始数据进行标准化处理以消除量纲影响, 标准化后新变量均值为0, 标准差为1。然后基于标准化后的数据, 用SPSS统计软件对庄河、普兰店、瓦房店、东港、岫岩这5个县 (市) 2008年的20个指标值进行主成分分析。

Xij:标准化后的变量值 :第j个变量的平均值

i:样本数 j:指标数

因子提取方法:主成分分析法。

通过分析, 从表2 (简化了总变量解释) 可以看到, 前3个因子的特征根值都大于1, 其累计的方差贡献率达到了95.346%, 表明它们综合了原始指标95.346%的信息, 满足对整体的结果不会产生实质性影响的要求, 故提取3个公共因子, 将这3个公共因子作为评价五个县 (市) 投资环境的综合变量。

按照方差极大法对因子载荷矩阵旋转后得到表3, 因子正交旋转矩阵反映新因子与原来20个指标间的线性组合关系, 而且系数的绝对值越大, 表明原始指标对新因子指标的影响越大。表3中的负载数据显示, 3个公共因子分别反映的是五个县 (市) 投资环境三个方面的主要特征:公因子1对人均水资源、人均绿地面积、GDP、人均GDP、第二产业比重、第三产业比重、实际利用外资额有较大的影响, 主要反映的是自然条件和经济发展状况。公因子2对农村居民人均纯收入、年均从业人员数、国内专利申请数、普通中学在校学生数、医院、卫生院卫生技术人员数有较大影响, 主要反映的是社会发展水平。公因子3对人均拥有邮电业务量、人均住宅建筑面积影响较大, 主要反映的是基础设施建设情况。

因子提取法:主成分分析法;旋转方法:方差最大旋转法;a.收敛旋转最大次数9次。

用回归法计算出因子得分函数系数, 得到表4。

因子提取法:主成分分析法;旋转方法:方差最大旋转法。

三、庄河市投资环境评价结果及改进建议

1. 庄河市投资环境评价结果。

根据上页表4所计算出的因子得分函数, 以这3个公因子的方差贡献率作为权数, 计算出五个县 (市) 投资环境综合得分F, F=0.3975*F1+0.37893*F2+0.17703*F3;其中F1、F2、F3分别是各个县 (市) 在公因子1、公因子2、公因子3的得分。具体情况 (见表5) 。

从表5中可知, 在五个县 (市) 投资环境排名中, 庄河得分0.333高于普兰店得分0.196, 名列第二, 仅次于瓦房店得分0.354, 在社会发展水平 (公因子2) 和基础设施建设 (公因子3) 两方面, 庄河表现突出, 相比于其他四个县 (市) 有明显优势, 而在自然条件和经济发展 (公因子1) 方面, 庄河得分为-0.7216仅优于岫岩, 低于其余三个县 (市) , 呈现明显劣势。

2. 庄河在自然环境和经济发展方面不利的原因。

第一, 人均经济总量小, 经济结构发展不均衡。近几年, 庄河市经济发展突飞猛进, 基础设施建设逐步完善, 但相对于庄河市人口总数, 其经济发展均量并不显著, 龙头企业虽多但对经济贡献力度不强, 规模工业企业较少且缺少支柱性产业和有带动作用的骨干企业。在三次产业结构方面, 农业增长缓慢。农业是庄河市的重点产业, 也是庄河市有比较优势的产业。政府方面积极倡导实施“科技兴农”, 发展生态型现代化农业, 但由于农业发展的资本投入不足, 外商投资农业的数量和水平有限, 导致农业发展缓慢。工业产业相对单一。2007年, 庄河市三大支柱产业, 农副食品加工业、家具制造业、机械设备制造业实现总产值132.6亿元, 占规模以上工业总产值的79%。制造业的这种优势虽然能使庄河在竞争中占领有利地位, 但这样规模型的生产会导致其领域太小而加剧了内部产业竞争, 使得其比较优势不能充分发挥, 长期下去不利于庄河市产业结构升级。服务业发展潜力巨大却还处于萌芽阶段。传统的服务业, 如餐饮业、房地产业、酒店业虽然是庄河吸引外资的主要产业, 但对庄河来说其发展还处于起步阶段, 相比那些传统服务业发展较好的地区来说, 其发展空间更大。第二, 人才缺乏。人才流失和缺乏已成为庄河经济发展的重要瓶颈。在本土人才培养上, 庄河市没有依据本地经济发展的实际需求而有重点地进行某些行业所紧缺的人才培养;在人才录用上, 存在忽视本地人员而偏爱外地人员的现象, 造成了人才需求和供给上的矛盾;由于分配体制、用人机制、发展条件等方面存在诸多不足, 使得庄河市引进人才和留住人才比较困难, 造成现代管理人才和技术研发人才严重短缺。据庄河市政府网站统计, 庄河每年考入国内院校的学生有4 900名, 而毕业后只有15.7%返回故乡。第三, 资源利用不合理。一方面, 庄河的发展过于依赖自然资源, 产业附加值低, 受下游产业影响较大, 且不能以资源换技术来培养本地企业竞争力。另一方面, 作为辽宁沿海经济带的重要组成部分, 庄河的工业化进程较快, 在此期间, 大规模的资源开发, 势必会导致产业衰退和生态失衡。外资流入对经济增长的拉动也会使一些高污染产业纷纷转移进来。由于一些企业和政府对外资进入的迫切需求, 很可能发生局部地区项目审批不严, 给转移污染产业和夕阳产业提供了机会。

3. 庄河改进投资环境的建议。

第一, 实施开放型经济发展战略。庄河位于辽宁省和大连市“V”字型海岸线黄海北岸的中心地带, 处于大连、丹东两市的中间节点, 区位优势十分明显。要使庄河的区位优势转换成经济优势, 就需要依靠大连这个东北地区经济的龙头和对外开放窗口的带动作用。大连市是优秀人才聚集、基础设施完善、市场广阔的区域经济增长极。庄河与大连距离较近, 完全可以依靠自身的地理位置优势, 大力发展现代沿海临港型能源和重化工业, 以满足包括大连在内的市场需求;借助得天独厚的旅游资源, 吸引积聚在大连的资金, 开发生态游, 将自然优势转化成经济优势;利用大连到庄河便利的交通条件, 壮大现代物流业, 建设临港仓储园区和商贸中心, 使庄河成为大连吸引外资的重要功能区和先导区。第二, 实施人力资源开发战略。一方面, 充分利用劳动保障、工会和妇联等部门的劳动就业培训优势, 加大对“转业农民”、“失业工人”的培训力度, 建立多层次的培训体系, 推行“订单培训”, 把简单劳动力培训成新型蓝领。另一方面, 庄河市政府要加大本地人才培养, 通过各类办学机构培训庄河发展所需的各种专业人才, 以加大庄河人力资源的补充力量。依托教育资源优势, 加强职业教育, 比如可以充分依托庄河市职业技术学院培养具有一定学历技能、实用型人才, 培养有前途、有发展的人, 为企业储备后续力量。政府可制定更加优惠政策吸引外地高尖技术、技能、管理人才提高企业人员的整体素质, 也可以通过吸引优秀企业来庄河落户的方式来引进人才。第三, 实施经济可持续发展战略。庄河是中国东北地区旅游资源最丰富、最具吸引力的市。特殊的地理位置、复杂的地质构造和适宜的气候环境, 造就了山、海、河、林、岛融为一体, 相互映衬、神奇美妙的自然景观。庄河还拥有丰沛的淡水资源, 人均水资源占有量为1 900立方米, 淡水总量占大连地区的60%;海洋资源丰裕且有国内目前唯一未被规模开发利用的岸线资源。良好的生态环境已经成为庄河一张靓丽的名片, 因此庄河经济的发展以生态环境作为衡量的底线。改善和保护生态环境, 遏制环境恶化, 对于招商引资的项目不能单纯地以经济效益为衡量标准, 还要防止工业污染, 为庄河经济发展和人民生活提供良好的环境。这样不仅能优化庄河整体投资环境, 还能吸引更多优质资本共同参与庄河经济的可持续发展。

摘要：自庄河被纳入辽宁沿海经济带建设以来, 其基础设施建设、经济发展均得到快速发展, 为庄河地区投资环境的改善提供了大好的机会, 但在吸引外资、外企和内资方面, 庄河仍落后于大连市内各区及周边较发达地区, 引资的实际效果并不理想。通过建立庄河市投资环境评价指标体系, 运用主成分分析法对庄河及周边四个县 (市) 的投资环境进行对比分析, 并从实施开放型经济发展、人力资源开发和经济可持续发展等方面, 提出了改善庄河投资环境的建议。

关键词：投资环境,主成分分析,建议

参考文献

[1]薛薇.统计分析与SPSS的应用[M].北京:中国人民大学出版社, 2008:1.

[2]程慧芳.浙江与上海投资环境比较及对策[J].浙江社会科学, 2003, (3) .

[3]朱传耿.江苏省城市外商投资环境的定量分析[J].现代经济探讨, 2003, (7) .

[4]路妍.利用外资改造东北老工业基地[J].宏观经济研究, 2004, (5) .

[5]张凤成.城市投资环境评价研究——以大连市为例[J].济宁师范专科学校学报, 2005, (6) .

[6]姜硕.东北地区外商投资环境评估[J].沈阳工业大学学报, 2006, (1) .

[7]王洁.新疆投资环境分析及对策建议[J].经济纵横, 2007, (4) .

[8]潘霞.区域投资环境的评价研究——以中国内地31个省、市、区为例[J].经济问题探索, 2007, (8) .

[9]庄河市政府网站, http://www.dlzh.gov.cn/.

改进主成分分析篇8

水资源综合评价中运用主成分分析法, 能客观地反映不同水资源评价指标之间的结构关系, 并通过得到相互独立主成分, 计算维度大大降低, 可以较好的进行分析计算, 并最终得到区域水资源综合评价结果。

但是传统的主成分分析法运用在水资源综合评价中存在三大问题, 一是主成分分析只是一种“线性”降维技术, 只能处理线性问题:一方面主成分是原始指标的线性组合, 另一方面对原始数据进行标准化处理, 使协方差矩阵变为相关系数矩阵, 而相关系数矩阵只能反映指标间的“线性”相关程度[2], 特别是在水资源指标评价上, 不同指标的变化对评价对象的影响是复杂的。二是主成分分析法作为一种由表及里的数学统计手段, 强调的是它的客观性, 在评价指标权系数中只考虑了其信息量权而忽视了重要性权对评价指标的主观价值判断。三是传统主成分分析法的评价结果只能反映不同样本之间排序情况, 不能反映样本所处的位置, 从而不能反映样本的优劣。

本文针对这些问题, 从数据规划、加权时机、综合评价值计算等多方面对主成分方法进行了改进, 同时将改进方法用于区域水资源综合评价, 将评价结果与传统主成分分析法、灰色关联法、专家系统法进行比较, 检验方法的可行性。

1 改进主成分方法

1.1 规格化数据处理

本文选用改进的极差正规方法对原始数据进行无纲量变化, 和传统方法不同, 将各列水资源综合评价指标中最大xjmax与最小xjmin以实际的指标最优与最差值替换, 其中最优与最差值界定参考文献[3]。根据指标性质的不同, 分为越大越优型与越小越优型, 这种方法优势在于充分反映了评价指标固有对系统评价的影响, 能很好地将标准化后的变量在[0, 1]之间取值, 为以后主成分评价中范围的控制奠定基础。

1.2 加权时机问题

权系数实质上是对评价指标自身的评价, 按性质可分为重要性权 (估价权) 和信息量权两大类。传统主成分分析一般不考虑重要性权的作用, 而在水资源指标评价中, 各指标的重要程度差异较大, 需要借助主观权法确定的重要性权对规格化数据进行修正。文献[4]李靖华提出在对规格化数据加重要性权, 再对加权数据矩阵求协方差阵特征向量 (主成分系数) , 这种方法存在重要性权二次加权的问题, 在权数差异较大的多指标水资源开发利用管理评价中, 容易引起综合指标的代表性下降, 且评价结果范围不可控。

本文在加权时机上, 用加入重要性权的规格化数据求协方差特征向量, 并用未加权数据求主成分, 最后辅以贡献度权对多主成分进行综合评价。这种方法加入主观确定的重要性权评价指标, 反映了现实中原指标重要程度上的差异, 在方法上避免了重要性权合成时带来的二次加权放大作用。

1.3 主成分的确定及特征向量的检验

主成分确定过程中涉及是采用一个还是多个主成分的问题, 采用第一主成分可以达到很好的降唯效果, 但是第一主成分是数据变异最大的方向, 如果信息量未达到要求 (方差贡献率小于85%) , 会导致评价结果的偏差;由于水资源综合评价的指标涉及方面广泛, 经过指标筛选后相关性较低, 难以达到第一主成分的要求, 故采用多个主成分的方法。同时, 针对特征向量正负的随意带来评价结果失真的问题, 提出构造最优与最劣样本, 按主成分得分均满足最优样本大于最劣样本的原则来逐个检验调整特征向量方向[5]。

1.4 计算综合评价值

要使最终评价值反映样本的具体位置和优劣, 首先要确定评价得分的范围 (即最优和最差值) , 在无纲量化过程中已经确定了变量的范围在[0, 1], 根据文献[6]的方法, 将主成分特征向量按变换 (其中为第一主成分向量之和) , 并保证方差共享率, 在合成主成分时即可保证综合得分值范围在[0, 1]。但是这个方法存在一些问题值得商榷:特征向量并不是保证综合评价值在[0, 1]的充分条件, 必须同时满足各特征向量Lij≥0, 这点可以通过数学证明得到;同时, 经过变换后的主成分的特征向量模不为1, 且特征向量两两正交也保证了Lij不能全部大于0。

特征向量本身是不能评估权值, 但是它对应的特征值大小表示了特征所含有信息量的多少, 这就可以用来评估权值。本文将特征向量视为评价样本的信息效益, 它具有负效益 (向量为负值) 也具有正效益 (正值) , 而规格化中已将变量范围限定在[0, 1], 若对负效益对应的系统变量取值0, 正效益对应的系统变量取值1, 即可得出系统综合评分的最大值Fmax, 反之得出最小值Fmin。通过以上变换取值后, 可以确定综合得分Fi的范围在[Fmin, Fmax]之间, 将Fmin, Fmax进行数学变换, 使得Fmin=0, Fmax=1, 从而控制综合评分在[0, 1]之间, 让综合评分值具备定量比较的能力。

1.5 计算步骤

(1) 建立底层指标体系, 构建原始数据X。

式中:m为样本数;n为指标个数。

(2) 用改进的极差正规方法对数据规格化, 得:

注:当xij大于或者小于其最优或最差值时, 以最优或最差值代替。

(3) 将规格化数据赋主观权。

式中:Wj为各指标采用主观赋权法确定的重要性权重。

(4) 协方差计算。V={Vjk}nn其中:

(j, n=0, 1, 2, …, n;i=1, 2, …, m)

(5) 由特征方程式|V-KgE|=0, 求V阵的特征根Kg (g=1, 2, …, n) 、特征向量Lg和累积方差贡献率Ag。确定主成分个数p。其中:

主成分个数P值由方差贡献率决定。变化后的累积方差贡献率:

(6) 特征方向向量的检验。构建正负理想点a、b:

根据主成分Fg对样本a、b满足Fag>Fbg, 构建检验公式:

如不满足式 (7) 则特征向量反向。

(7) 用原规格化数据求主成分。

最终确定的综合评价值F如下:

(8) 综合评价范围的确定。由于正效益对应的变量取值1, 负效益对应的变量取值0, 可得各主成分:

综合得分值:

(9) 综合评价值变换 ([0, 1]为界) 。以 (Fmax-Fmin) 为比例进行缩小或放大:

2 水资源综合评价中的应用

2.1 水资源开发利用管理评价指标体系

水资源评价是要定量地弄清某一特定地区水的可利用程度和社会生产、生活所需水资源的可满足程度。对一个地区进行水资源综合评价, 不仅要做到模糊定性, 且能定量的评价, 这就需要建立一个全面、有代表性、关键性的水资源开发利用管理评价指标体系, 极其简单的操作办法。本文以水资源总量Q1、用水效率Q2、水功能区限制纳污Q3“三条红线”[7，8]量化指标为基础, 结合城市生态保护Q4、水资源管理Q5与社会经济发展水平Q6, 构建出一个相互联系的不同层次结构与多个指标组成的有机整体, 既有上下的层次关系, 又有指标间的平行关系, 不同的指标反映区域水资源的不同侧面, 分属于不同的类别, 其中各项指标选取遵循核心性、代表性、系统性、可操作性、可比性的原则。指标体系如表1所示。

2.2 实例应用

用上述改进主成分分析法, 结合建立的城市水资源开发利用管理评价指标体系, 对南京市内六个分区进行评价。首先, 根据计算步骤 (2) 与 (3) , 将原始指标数据进行规格化并赋主观权重 (计算结果见表2) , 计算过程中各指标重要性权重W为表2括号中的内容, 最优指标向量xjmax={100, 900, 95, 95, 97, 24, 6, 30, 90, 0.8, 510, 90, 3, 100, 0, 0, 100, 5, 5, 60, 10, 100, 30, 100, 100, 80, 100, 100, 77 400, 1 000, 60}, 最差指标向量xjmin={80, 10, 70, 70, 80, 500, 300, 0, 50, 0.3, 1 100, 30, 0.6, 0, 100, 100, 50, 0, 1, 10, 50, 30, 10, 0, 50, 0, 62, 90, 3 000, 50, 20}。

注:数据主要参考《2010年南京市水资源公报》及《2011年南京市统计年鉴》。

以表2中数据进行协方差计算, 求得特征值 (见表3) 及对应的特征向量。为了使得累计方差贡献率大于85%, 主成分个数P=3, 此时方差贡献率为89%, 满足评价要求。将确定的三主成分特效向量经 (6) 检验后, 第一与第三主成分向量均满足要求, 第二主成分不满足正理想点大于负理想点的要求, 故第二主成分符号变向, 变换后的特征向量如表4所示。

续表4 经正负理想点检验后的特征向量

根据表4中特征向量, 可得各主成分F1、F2、F3, 根据变换过的方差贡献率, 求出综合评价值为F=0.617F1+0.205F2+0.178F3, 带入规格化后的数据, 得出南京市6个分区水资源综合评价, 此时综合评价值并不能反映样本实际位置, 将综合评价值进行 (8) 与 (9) 计算, 转换得到最终评价结果范围控制在[0, 1], 同时将综合评价值与评分标准 (表5) 对应, 得出评价结果, 见表6。

2.3 与其他方法的比较

同时运用灰关联法、专家系统评价法[9]及传统主成分分析法对对南京市内6个分区进行评价 (评价方法与步骤省略, 结果见表6) , 得到以下结论:

(1) 改进主成分分析法与传统方法相比, 在样本间排名上大致相同, 但是改进主成分分析法用于城市水资源开发利用管理评价中, 不仅能得到各分区水资源综合得分, 且综合得分反映了评价实际优劣情况。由表5可知, 中心城区水资源级别为Ⅲ级 (一般) , 浦口区与高淳区为 Ⅱ 级 (良好) , 其余各区为 Ⅰ 级 (优秀) 。评价结果与实际较为一致。

(2) 灰色关联法与专家系统评价法计算的样本评价值之间差异较小, 主要是由于两种方法对每项指标对系统的影响都分别进行评价, 未考虑主要影响因素, 而水资源综合评价中许多指标变化程度较小, 如用水保障率、灌溉水利用系数、用水满意度等。改进主成分分析法能客观地反映水资源评价指标之间的结构关系, 找到对系统影响最大的主成分, 一定程度上也能消除指标间的重复信息。

(3) 评价结果之间的差异另一方面由于灰色关联法与专家系统法在选取最优最差序列时, 往往是用样本中的最优最差值代替, 而水资源综合评价中实际最优最差值往往不尽相同。如年平均降雨量, 南京作为南方丰水城市各区年平均降雨量超过了1 100mm, 达到了水资源评价中的实际最优值, 若以样本中的1 174、1 284mm作为最优最差序列会造成评价结果的不准确。

综上所述, 采用改进的主成分分析法对南京市区6个分区进行水资源, 结果较为合理, 与实际情况相符合, 取得了良好的效果。

3 结语

传统主成分分析法存在水资源综合评价中存在一些弊端, 本文针对传统主成分分析法的不足, 从数据规格化的处理、加权时机问题、特征向量的检验以及综合评价值的转换四方面对其进行了改进, 有效解决了传统方法线性问题和评价值范围的限定, 加入重要性权也使评价结果更符合实际。同时以水资源管理“三条红线”为基础建立了水资源综合评价体系, 将改进的方法结合评价体系运用在南京市水资源综合评价中, 得出的评价结果基本准确, 与其他方法相比也更符合实际。

参考文献

[1]赵希男.主成分分析法评价功能浅析[J].系统工程, 1995, 13 (2) :24-27.

[2]叶双峰.关于主成分分析做综合评价的改进[J].数据统计与管理, 2001, 20 (2) :52-61.

[3]宋松柏.区域水资源可持续利用指标体系及评价方法研究[D].陕西杨凌:西北农林科技大学, 2003:52-68.

[4]李靖华, 郭耀煌.主成分分析用于多指标评价的方法研究——主成分评价[J].管理工程学报, 2002, 16 (1) :39-43.

[5]白雪梅, 赵松山.对主成分分析综合评价方法若干问题的探讨[J].统计研究, 1995, (6) :47-51.

[6]李春平, 杨益民, 葛莹玉.主成分分析法和层次分析法在对综合指标进行定量评价中的比较[J].南京财经大学学报, 2005, (6) :54-57.

[7]陶洁, 左其亭, 薛会露, 等.最严格水资源管理制度“三条红线”控制指标及确定方法[J].节水灌溉, 2012, (4) :64-67.

[8]管桂玲, 徐向阳, 徐磊.水资源“三条红线”管理评价系统研究[J].人民长江, 2013, 44 (7) :64-66.

改进主成分分析篇9

关键词：主成分分析法,核主成分分析法,核函数,神经网络,支持向量机,机械噪声,降维

0 引言

双层圆柱壳体的水下噪声主要来源于自身的机械设备[1],此类噪声属于机械噪声。为了全面分析此类噪声的特点及规律,需要采用尽可能多的特征量进行表征。由于特征量很多,且特征量之间往往存在相关关系,因此很难直接抓住它们之间的主要关系,这就需要一种简化数据的方法使高维数据降维,以便获得噪声数据的主要信息。通过降维可以有效去除机械噪声数据中的冗余信息,从而降低数据分析处理的难度。

目前,数据降维方法主要分为两大类[2]:线性降维和非线性降维。主成分分析法(PCA)因为其概念简单、计算方便、线性重构误差最优等优良的特性,成为数据处理中应用最广泛的线性降维方法之一。核主成分分析法(KPCA)作为PCA方法在处理非线性问题时的扩展,近年来得到了快速发展。

本文将PCA方法和KPCA方法,应用于某双层圆柱壳体机械噪声数据的降维之中,然后使用神经网络(NN)和支持向量机(SVM)两种方法分别计算噪声数据降维前后的正确识别率,通过正确识别率比较PCA方法和KPCA方法的降维效果,从而选择更适合于这种双层圆柱壳体机械噪声数据的降维方法,并由此初步分析出噪声数据的线性或非线性特点。

1 PCA方法与KPCA方法的基本原理

PCA方法是一种基于二阶统计的数据分析方法,该方法在各个变量之间相关关系研究的基础上,用一组较少的、互不相关的新变量(即主元)代替原来较多的变量,而且使这些新变量尽可能多地保留原来复杂变量所反映的信息,具体计算步骤见文献[3]。

KPCA方法是一种非线性主元分析方法[4]。其主要思想是通过某种事先选择的非线性映射Φ将输入矢量X映射到一个高维线性特征空间F之中,然后在空间F中使用PCA方法计算主元成分。在高维线性特征空间中得到的线性主元实质上就是原始输入空间的非线性主元。

设xi∈Rd(i=1,2,…,n)为输入空间的d维样本点。通过非线性映射Φ将Rd映射到特征空间F,即

F中的样本点记作φ(xi)。

非线性映射Φ往往不容易求得,KPCA方法通过使用核函数来完成从输入空间到特征空间的非线性映射。定义核函数k(xi,xj)=〈φ(xi),φ(xj)〉,这样特征空间中两向量的内积可以用输入空间中的两变量的核函数来表示。

核函数是满足Mercer条件的任意对称函数(实正定函数),常用核函数的特性如下:

(1)高斯径向核:

(2)多项式核:

(3)Sigmoid核:

其中,a、b、c、d、e、f为选定的参数,通常取s(xi,xj)=xTixj。

KPCA方法只需要在原空间中计算用作内积的核函数,无需知道非线性映射函数φ(x)的形式,也无需计算非线性变换,具体计算步骤见文献[5]。

PCA方法与KPCA方法已广泛应用于特征提取、数据压缩、图像降噪、分类识别、综合评价以及过程监视等诸多领域。

2 双层圆柱壳体机械噪声数据

在获取某双层圆柱壳体的机械噪声数据时,设定8个不同工况,如表1所示。

在壳体的不同位置布置19个加速度传感器(每个传感器称为一通道),测定不同工况下的噪声数据。采样时间为8s,采样频率为2048Hz。

由于在同一个通道下的采样点较多,且特征单一,不易分析其规律特点,因此对样本点进行预处理:

(1)选定信号处理中常用的10个特征量,即波形因数、峰值因数、脉冲因数、振动加速度总级、期望、方差、标准差、三阶累量、四阶累量和有效值。

(2)以2048个相邻样本点为一个样本段,并以70个样本点为步长,将样本段逐步向后平移,即可在16 384个样本点内得到约205个样本段。

(3)取前200个样本段,在每个样本段内计算选定的10个特征量。

本文重点是比较PCA方法与KPCA方法的降维效果,故只选取10个常用的特征量作为例子,实际上可以选择更多的特征量以更全面地表征噪声数据。

预处理后,在每一工况下的每一通道上可得到一个10×200(10是维数,200是样本量)的噪声数据,则在8种工况下,每一条通道上可得到8个10×200的噪声数据。

3 PCA方法与KPCA方法的主元数目

对上述噪声数据首先选择PCA方法降维,并依据累积贡献率大于0.85的门限值选择主元个数[3]。8种工况下,每一通道上噪声数据的PCA主元计算结果如表2所示。

由表2可知,8种工况下,在19条通道上的噪声数据经PCA方法降维后的主元个数为3的情况占67.1%,主元个数为2个的情况占30.9%,两种情况合计占98%。因此,为保证降维后的数据能够保留原始噪声数据足够多的信息,使用PCA方法降维时统一取3个主元。

本文主要比较PCA方法与KPCA方法对机械噪声的降维效果,因此使用KPCA方法时也取3个主元。

4 PCA方法与KPCA方法降维效果比较

4.1 比较方法

神经网络与支持向量机是模式识别领域最常用的两种方法。神经网络是一种基于经验风险最小原理的方法,它以分布式方式存储信息,具有高度的并行性、较强的自学习自适应性、良好的容错性和联想记忆功能,主要用于解决复杂的分类问题[6]。支持向量机是在Vapnik[7]建立的统计学习理论基础上发展起来的机器学习算法,它主要基于VC维理论和结构风险最小化原理,能够很好地解决训练样本较少时的分类问题[8]。目前这两类方法已广泛应用于分类识别、故障诊断和入侵检测等领域之中[9,10,11,12]。

本文主要使用神经网络和支持向量机对不同工况下的噪声数据进行分类识别,通过对噪声数据的正确识别率,比较PCA和KPCA两种方法降维效果的好坏。

在某通道上,设第i个工况下的机械噪声数据为Xi(i=1,2,…,8),Xi是10×200的数据。若每一噪声数据选择k个样本作为训练样本,l个样本作为测试样本,分别得到X′i、X″i,这里X′i是10×k的数据,Xi″是10×l的数据。则神经网络和支持向量机的输入数据如下:

训练输入

X′=(X′1,X′2,…,X′8)

测试输入

X″=(X″1,X″2,…,X″8)

某双层圆柱壳体机械噪声数据经过降维后,若保留原始信息越多,则来自不同工况下的组合数据经过NN或SVM分类后的正确识别率就会越高;反之,正确识别率就会越低。在每一通道下,使用NN和SVM计算噪声数据降维前和分别经PCA方法、KPCA方法降维后的正确识别率。依据正确识别率比较两种降维方法的降维效果,同时也比较KPCA方法在选择不同核函数时的降维效果。降维后,X′i和X″i分别为3×k的数据和3×l的数据。

本文使用的神经网络为BP神经网络,支持向量机工具箱为stprtool,训练样本个数和测试样本个数取k=l=5,运行平台均为MATLAB7.1。

4.2 KPCA方法在不同核函数时的降维效果比较

KPCA方法是基于核函数的学习方法。核函数反映了样本在高维特征空间中彼此的相似程度,而样本之间的相似程度一旦给定,样本间的分类其实也就基本上确定了。一个好的核函数,会使同类的样本相互靠近,使异类的样本相互远离。正确选择核函数和核参数将会提高KPCA方法的整体性能。

计算可知,对于文中的噪声数据使用KPCA方法降维时,选择Sigmoid核函数得到的s(xi,xj)较大,此时k(xi,xj)总趋向于1。因此,本文只选取高斯径向核函数和多项式核函数进行计算,且b=c=1,a与d根据经验在一定范围内取值。

根据经验,使用高斯径向核函数(称为KP-1方法)和多项式核函数(称为KP-2方法)时,选择核参数a、d的取值范围为0.1~1,步长为0.1。经MATLAB编程计算,其结果如表3所示。

表3中,第3、5、7、9列分别是KP-1方法与KP-2方法在各自核参数取值范围内得到的正确识别率最大值,此时a与d分别为对应的核参数值。可以看出:使用神经网络进行分类识别时,KP-1方法正确识别率高于KP-2方法正确识别率的有8条通道,小于KP-2方法正确识别率的有6条通道,两者相当的有5条通道,即KP-1方法的降维效果稍好;使用支持向量机进行分类识别时,KP-1方法正确识别率高于KP-2方法正确识别率的有11条通道,小于KP-2方法正确识别率的有7条通道,两者相当的有1条通道,即KP-1方法的降维效果明显较好。

两种识别方法在19条通道上的运行总时间和单通道上运行的平均时间如表4所示。

由表3中的正确识别率和表4中的运行时间可知,同等条件下神经网络方法和支持向量机方法在识别能力方面差别不大,但是支持向量机方法的运算速度要快得多。因此对于某双层圆柱壳体的机械噪声数据,在使用KPCA方法进行降维处理时,最好选择高斯径向核函数,并通过支持向量机方法进行分类识别分析。

4.3 PCA与KPCA方法的降维效果比较

对8个不同工况下的机械噪声数据组成的混合数据分别使用NN和SVM计算降维前后的正确识别率,其结果如表5所示。

比较表5中计算结果可知,不论使用哪种识别方法,降维前的正确识别率都比降维后的正确识别率高(至少相等),而由KPCA方法降维后得到的正确识别率在绝大部分通道上要比PCA方法降维后的正确识别率高。也就是说,数据降维后会损失掉一部分原始信息,造成正确识别率下降,但是对于某双层圆柱壳体的机械噪声数据来说,在主元数目相同的条件下,只要选择合适的核函数及核参数,就能保证使用KPCA方法降维后保留的信息要比使用PCA方法降维后保留的信息要多,即KPCA方法的降维效果要好。

5 结束语

事实上,可将本文中的10个特征量扩展到几百个甚至上千个,此时的噪声数据属于典型的高维数据,分析其结构前先进行降维就显得十分必要。通过本文对PCA方法和KPCA方法实际应用的比较可知:在主元数目相同(即数据结构的复杂度相同)的条件下,由于将数据特点的研究范围从线性扩大到非线性上,从而使得使用KPCA方法降维比使用PCA方法降维保留的原始数据信息更多,效果更好,因此,对某双层圆柱壳体机械噪声数据降维时,应优先考虑使用非线性降维方法——KPCA方法,且选择高斯径向核函数效果更好。

参考文献

[1]施引,朱石坚,何琳.舰船动力机械噪声及其控制[M].北京:国防工业出版社,1990.

[2]吴玲达,贺玲,蔡益朝.高维索引机制中的降维方法综述[J].计算机应用研究,2006,23(12):4-7.

[3]Jolliffe I T.Principal Component Analysis[M].2nded.New York:Springer,2002.

[4]Scholkopf B,Smola A,Muller K R.Nonlinear Com-ponent Analysis as a Kernel Eigenvalue Problem[J].Neural Computation,1998,10(5):1299-1319.

[5]Rosipal R,Girolami M,Trejo L J,et al.Kernel PCAfor Feature Extraction and De-noising in Non-lin-ear Regression[J].Neural Computing and Applica-tions,2001,10(3):231-243.

[6]王洪远,史国栋.人工神经网络技术及其应用[M].北京:中国石化出版社,2002.

[7]Vapnik V N.The Nature of Statistical LearningTheory[M].New York:Springer-Verlag,1995.

[8]Vapnik V N.Statistical Learning Theory[M].NewYork:Wiley,1998.

[9]Suykens J A K,Vandewalle J.Least Squares Sup-port Vector Machine Classifiers[J].Neural Process-ing Letters,1999,9(3):293-300.

[10]Wu J N,Wang J,Liu L.Feature Extraction via KPCAfor Classification of Gait Patterns[J].Human Move-ment Science,2007,26(3):393-411.

[11]高海华,杨辉华,王行愚.基于PCA和KPCA特征抽取的SVM网络入侵检测方法[J].华东理工大学学报(自然科学版),2006,32(3):321-326.

主成分分析方法的应用研究篇10

研究和应用中经常会碰到许多综合评价问题, 其本质是多指标决策问题, 多指标综合评价一方面增加了工作量, 另一方面淡化了主要指标的作用。对此, 可采用数理统计法对所考虑的众多指标经过正交化处理, 使其成为少数几个相互独立的综合指标, 再根据综合指标进行评价。主成分分析法恰为这种思路提供了数学依据。

2 主成分分析法简介

2.1 主成份分析

通过降维的思想来精简变量, 将多个相关的原始变量指标转化为几个独立的综合指标。主成分是原始变量指标的线性组合, 其转换的理念是让原始变量指标的线性组合的变异达到最大, 这样就可以尽量减少信息的损失, 仅利用几个重要的主成分就解释原始数据的大部分变异, 同时简化了问题, 能更好地揭示事物内部变量之间的规律, 提高分析效率。

2.2 主成分分析的数学模型

设原始样本 ×变量型数据资料阵

X= (xij) np≜ (X1, X2, …, Xp) ,

其中

X i= (xli, x2i, …, xni) T, i=1, 2, …, p.

用数据矩阵X的P个向量 (即p个指标向量) X1, X2, …, Xp 作线性组合 (即综合指标向量)

Fi =ali X1 +a2i X2 +…+api X p, i=1, 2, …, p, 其中, αundefined+αundefined=1, (i=1, 2, ..., p)

3 关于主成分性质

(1) 设p 个n 维随机向量X1, X2, …Xp协方差矩阵为 ∑, ∑的特征值为λ1≥λ2≥……≥λp>0, 相应的单位特征向量为:μ1, μ2, ……, μp, 则x的主成分可表示为:

Fi =μ′iX =μil X1 +μi2 X2 +…+ μipXp, i=1, 2, …, p,

记 μi= (μil, μi2, …, pi) T

(2) p个主成分均值为0, 且p个主成分不相关。

(3) 主成分的方差之和与原始变量的方差之和相等, 也就是说, 经过变化后, 变量间的变异性没有改变, 信息没有损失。

(4) 称undefined为第k个主成分的方差贡献率, 称undefined为前k 个主成分的累积方差贡献率。

在解决实际问题时, 一般不是取p个主成分, 而是根据累计贡献率的大小取前k个。如果前k个主成分的累积贡献率达到 85%, 表明取前 k个主成分基本包含了全部测量指标所具有的信息, 这样即减少了变量的个数有利于对实际问题的分析和研究。

(5) 若Fi =μ′i X是数据矩阵x的主成分, 则undefined是Yi 与Xk 的相关系数。

数据来源:数据来自于江西统计年鉴2009, 江西各区域经济发展的相关指标数据如表1所示。

4 使用条件

主成分分析适宜用于大样本的场合。

主成分分析要求变量之间有一定的相关关系。

5 应用

指标的选取衡量一个地区的发展情况, 既要注重某一产业的产值, 又应从社会生产的各个方面去考虑, 为各地区实现均衡发展提供理论依据。根据适当性和可得性原则, 选取江西各市为样本, 选取主要经济指标包括:地区生产总会值X1, 第二产业生产总值X2, 生产总值增长速度X3, 人均地区生产总值X4, 地区人均财政一般预算收入X5, 实际使用外资额X6, 五十万元以上固定资产投资额X7, 土地面积X8, 卫生工作人员数X9, 城乡居民储蓄存款余额X10, 第三产业生产总值X11, 社会消费品零售总额X12, 高等学校学生数X13。

运用SPSS13.0对江西各市主要经济指标进行主成分分析, 计算步骤如下:

(1) 对所给数据指标进行标准化处理, 得标准化数据表。

在实际问题中, 不同的变量往往有不同的量纲, 为了实现不同量纲数据之间的可比性, 以保证所提取的主成分与原始变量意义上的一致性, 在进行主成分分析之前按照以下公式将变量标准化。

undefined

其中, E (xi) 表示变量的期望, Var (xi) 表示变量的方差。

(2) 根据标准化数据表计算出相关系数阵R如表2。

(3) 求R的特征值λi 和贡献率。

(4) 根据累计贡献率达85%的原则选取前三个主成分, 各主成分表达式如下:

特征值λ1 =8.796的第一主成分:

Z1=0.11x1+0.099x2-0.002x3+0.077x4+0.108x5+0.104x6+0.11x7-0.021x8+0.076x9+0.095x10+0.107x11+0.111x12+0.111x13

特征值λ2 =1.851的第二主成分:

Z2=0.113x1+0.202x2+0.439x3+0.174x4+0.108x5-0.122x6-0.052x7+0.073x8-0.367x9-0.269x10+0.146x11+0.026x12-0.018x13

特征值 λ3 =1.277的第三主成分:

Z3=-0.007x1+0.086x2+0.138x3-0.416x4-0.003x5+0.01x6+0.08x7+0.738x8+0.097x9+0.117x10+0.092x11+0.011x12+0.009x13

由表3可以看出, 第一、第二主成分及第三主成分对方差的累积贡献率达到91.728%, 并以91.728%的精度将变量由13维降到3。另外, 综合得分 (z) 可依3个主成分进行综合评价, 利用第一主成分、第二主成分及第三主成分对全省11个市的主要经济指标情况进行排序, 并计算出综合得分和排序。

综合得分=第一主成分得分×8.796+第二主成分得分×1.851+第三主成分得分×1.277, 得到的结果如表4。

由表4可知, 南昌作为省会城市, 它是江西经济、文化、交通的重要枢纽。在汽车及零部件生产、光电产业、铜冶炼及精深加工产业、优质钢材深加工、航空产业等方面发展迅速, 带动着整个江西的经济发展。且经济发展水平是最好的, 显示出雄厚的经济基础和实力。新余的经济发展水平在我省排第二名, 南昌和新余是江西经济发展潜力最大的市。近年来, 新余市加快当地工业企业的快速发展步伐, 其光电产业、钢铁工业等较发达, 工业主导特征较明显;赣州市作为革命的摇篮, 是江西省重点发展的地方之一。九江、宜春、萍乡这三个市农业发展条件基础好, 充分发挥自己当地各自的特色和优势, 统筹安排, 大力发展经济。所以, 它们在经济发展中位于中上水平。相比之下, 余下的抚州、吉安、景德镇、上饶、鹰潭五个地区工业和第三产业欠发达, 自然资源未得充分地开发利用, 而且农业人口占据了很大的比例, 其经济发展水平相对较低。从而可知, 江西省各区市经济发展不平衡的现象较为明显。因此, 想办法缩小区域差距, 协调江西省各城市的经济发展才是促进江西经济发展的一条有效途径。

6 对策及建议

(1) 加强区域合作是实现江西加快发展的重要机遇。

作为长珠闽的共同腹地, 改革开放以来, 江西经济的发展形成了自己的特色, 在生产要素、基础产业等方面和长珠闽三个区域均具有较强的互补性, 有承接沿海产业转移的良好基础, 积极融入长珠闽, 实现更深层次和更广的领域合作, 既为长珠闽的发展提供了宽广的市场空间, 也为江西加快发展提供了重要机遇。

(2) 调整产业结构, 加速工业化进程。

我省经济发展的主要矛盾是工业化进程滞后, 而加速工业化的首要任务是调整结构, 增强工业经济活力, 进一步形成以工业化为主导的经济增长格局。主要可以通过全面调整工业所有制结构。另外还可以吸收民间投资, 尤其是东部和外商投资, 发展多元化的经济主体。支持支柱产业优先发展。努力改造传统产业。

(3) 加大投入, 发展第三产业。

要利用独特的区位优势、名山名湖等特点, 大力发展旅游、物流、服务等行业的第三产业, 加大城市特别是旅游区的基础设施规划建设, 不断完善服务行业硬件软件设施, 提高服务行业员工的整体文化素质, 创造优质的服务环境。

(4) 优先发展旅游业。

观光旅游是江西旅游的主导产品, 主要以名城、名山、湖为依托。以世界文化景观庐山、世界文化遗产三清山、龙虎山等为依托的名山观光旅游。在开发观光旅游产品时, 应不断增加和丰富产品的内容, 融知识性、文化性和参与性于一体, 提高现有观光旅游产品的档次, 以满足旅游者新的需求。同时在鄱阳湖地区开展生态湖泊建设, 大力发展生态旅游。加强井冈山、八一起义、瑞金等红色地区的革命传统教育旅游基地的开发。

参考文献

[1]叶双峰.关于主成分分析做综合评价的改进[J].数理统计与管理, 2001, 20 (2) :52-55.

[2]黄宁.关于主成分分析应用的思考[J].数理统计与管理, 1999, 18 (5) :44-52.

[3]何晓群.多元统计分析 (第二版) [M].北京:中国人民大学出版社, 2008.

[4]张文霖.主成分分析在SPSS中的操作应用[J].市场研究, 2005, (12) :31-34.

改进主成分分析篇11

【关键词】主成分分析；因子分析；新指标解释

一、引言

随着数理统计理论的发展，作为它的分支的“多元统计分析方法”在近20年越来越受到人们的重视。这不仅是因为很多事情都是带有随机因素，而且在具体分析问题的时候，人们需要考虑的因素不止有一个。比如在购物的时候，我们评价商品并不是仅仅看其价格，还要关注质量、保修期等多方面的因素。在学校里，评价一个学生也是至少需要“德、智、体”三方面的指标。多元统计分析就是用统计的方法分析这种带有多指标的随机性问题。上述的例子所涉及的指标其实并不多，但更多的时候会遇到很多指标，如考察一个企业，需要了解其规模、产量、产值、税收、员工数、利润等，如果我们关注所有的指标就会大大增加分析的复杂性，而且也不宜抓住主要的因素。因此有必要对这些原始的指标数据进行降维，亦即用较少的新指标来代替原始指标，这就是主成分分析与因子分析在解决问题时所要体现的思想。可以说，出于数据降维的目的它们是没有区别。

二、具体实例分析

但是在新生成的指标的解释方面，它们还是有较大不同的。首先看一下两种方法的数学模型。主成分分析是考虑原来的指标的线性组合，把原始指标的线性组合叫做主成分。从这一点可以看出，主成分其实就是原来指标的压缩综合。而因子分析模型则是把原始指标表示成因子的线性组合（如果姑且不去考虑随机扰动的因素），也就是说因子分析的目的是要找出影响所有原始指标的内在因素。因此尽管两种方法都是对原始数据进行降维，得到新的指标，但是在对新指标的解释是有不同的。下面分析一个具体例子。该例通常出现在统计教科书中因子分析一章，但本文从主成分分析和因子分析两方面同时对其进行剖析。

考察某校学生的学习成绩状况。随机抽取了30个学生，关注起数学、物理、化学、语文、历史、英语六门课程的成绩。故形成了如下的30行、6列的原始数组。我们需要从中提炼出1，2个新指标。

通过MATLAB软件中的主成分分析与因子分析程序，可以看到通过两种方法的数据降维处理后按照累计贡献率均提炼出了两个新的指标，它们都是从上述的原始二维数组出发，计算其协方差距阵的特征值与特征向量，因此很容易搞不清楚所得到的两个新变量到底是主成分变量，还是因子变量。其实，我们此时回顾一下前文中提到的数学模型就清楚了。主成分分析是原始变量的线性组合，结合此例，即为所获得的两个新指标是原始指标的综合。又注意到原始变量前的组合系数（也叫作载荷）大小，不难发现，在其中的一个新指标中数学、物理、化学、三科占的比重比较大，因此可以把该综合指标形象地称为“理科”主成分；而在另一个新指标中语文、历史、英语三科占的比重比较大，因此可以把该综合指标形象地称为“文科”主成分。此时再考虑因子分析的模型。如前文所讲，原始变量表示成了因子的线性组合。结合此例，即数学、物理、化学、语文、历史、英语这原六个指标表示成了两个新的指标的线性组合。考虑到因子的组合系数，发现在数学、物理、化学这三科的线性表示中一个因子的组合系数比较大，而另一个比较小，因此可以把所占分量较大的那个因子形象地理解成“理性思维”因子，同样的道理可以把另一个新指标理解为“文性思维”因子。

三、总结

从此例可以看出，虽然主成分分析与因子分析都是从原始数据的协方差矩阵（有时是相关系数阵）出发，计算特征值与特征向量，按照累计贡献率大于85%的原则确定新的指标个数。但是为了避免搞混两种方法，在解释新的指标时应回馈到各自的模型上面来。即：按照主成分分析理论，新指标仅仅是原始指标的简单汇总，如果想用较少的几个变量替代原来的变量则用主成分分析；而对于因子分析，新指标则是对所有原始指标皆有影响的那些公共因子，所以当需要寻找潜在的影响要因时，倾向于用因子分析。明白了这一点，对新指标的解释也就变得顺理成章了。

【参考文献】

[1]高惠璇应用多元统计分析 2005

[2]李静萍谢邦昌多元统计分析方法与应用 2008

[3]李卫东应用多元统计分析 2008

[4]陆恒芹苏勤陈丽荣女性旅游者行为特征分析及其动机研究—以西递、宏村为例 2006

[5]陆虹用因子分析测量“护士工作满意度量表”的结构效度[期刊论文] 2007

[6]赵磊李继海朱大洲籍保平 5种鹿茸营养成分的主成分分析[期刊论文] 2010

基于区域核函数的主成分分析篇12

核主成分分析是一种非线性推广的主成分分析。大量结果显示[31], 核主成分分析法由于在非线性统计和高阶统计特征提取具有较好的效果, 相对于传统的主成分分析观测数据的特点, 具有更好的分类能力。传统的基于矢量的主成分分析和核主成分分析方法, 计算数字图像数据的特征的方法是, 所有二维图像数据计算出由一个堆积行的列向量, 进而对样本图像的列向量协方差矩阵奇异的整体值分解, 然后计算主成分投影, 最典型的例子是著名的面部识别, “特征脸”技术[32]。由上面的处理方法计算得到的图片, 二维图像数据的不足之处是, 图像矩阵堆叠成一个矩阵列向量的像素行后, 在图像之间的相关矩阵被破坏。而且, 传统的计算方法是, 核主成分分析通过非线性映射到高维特征空间进行整体改造, 然后得到向量的内积后 (内核功能) , 操作时并没有考虑到的图像区域或区域的相关信息。

在不考虑图像噪音的情况, 数字图像矩阵内部的相关性存在于每个矩阵点之间的像素周围。相对于某一个点的灰度 (或彩色) 值, 在这些地方的信息或者语义的蕴藏在相关性之间的知识经常要更大量一些[1]。如果能使用区域相关或图像数据分类或分析部分的知识, 和全部功能和特性并联合单独的图像像素, 方法可能比简单的图像功能或整体采用单个像素的方法更有效。

2、基于区域核函数的主成分分析

本文对图像数据的核分析方法常常在核主成分分析之前从图像数据的每一行累积成列向量。因此, 图像数据处理之后导致的结果是没有考虑矩阵点行和在同一行或相邻行矩阵之间的矩阵列中之间的联系[2]。一些文献开始关注这个问题, 文献[37]在研究支持向量机用于图像数据分类时, 针对支持向量机提出了一种局部核函数的思想, 并取得了比全局核函数要好得多的分类效果。该文的做法是[38], 首先选定一种像素邻域, 这样, 图像就可以由若干个邻域覆盖, 这些邻域可以交叠也可以不交叠, 图像矩阵就相应地变换为一个分块矩阵, 每一块就是邻域大小的像素块[3]。

然后根据每块来确定每个的核函数, 再将各功能块混合得到全部图像的核函数。本章和文献[39]的方法从图像矩阵的角度来看的不同是, 将相同的大小 (每个块之间没有重叠) 或块的窗口分割图像的像素矩阵。本文对 (1) 式做了变化从而来达到简化区域和混合内核的内核函数的计算的目的。所不一样的是, 对于图像列矢量的构造, 从每一行的每一列构造列矢量, 对列矢量的构造是一个矩阵块的积累, 而不是对矩阵点的操作, 因此最后构造出的仍然是一个矩阵的列积累, 如下式:

对于上式Y来说, 列矢量是根据行来累积的, 从而列矢量x就由全部矩阵累积而得到。因此不难得出, 由此得到的累积计算方式与普通的累积方式在核心上是完全一致的, 唯一的不同就是改变了列矢量的每一个组成部分的排列次序。而得出上述的累积计算方式, 可以便利计算一个混合内核的内积。

3、基于区域核函数的图像距离测度算法

基于区域核函数的距离测度算法步骤如下:

(1) 给出数据块的尺寸。将原设图像与目标图像的矩阵分解若干个数据块, 各个数据块按照行来累积成一个列矢量, 每个列矢量累积成一个列矢量。

(2) 抽取一个核函数, 求出原始图像及目标图像的核目标空间的协方差矩阵。

(3) 计算协方差矩阵的特征根和特征向量, 按照大小将特征值排序, 并取前几个 (按方差贡献率确定) 。

(4) 将计算得出的协方差矩阵的特征向量保存起来, 计算出目标图像与原始图像的特征向量的距离, 并按照大小进行排序, 得到距离最相近的目标图像就是检索图像。

根据数字图像模式数据的特点提出了一种基于区域核函数的图像距离测度方法, 用来提取二维图像模式数据的核距离, 对于以区域为基础的内核分析方法得到的图像矩阵二维主成分, 相对于传统的全局核核主成分, 得到的主成分的数字图像不同。基于区域的核主成分分析方法不仅包含了全局核主成分分析中二维数字图像矩阵的总体特征而且也包括了图像区域的特征。

参考文献

[1]刘甘娜.多媒体应用基础, 高等教育出版社, 2000年, 56-72

[2]徐望明.基于内容的图像检索技术研究[D].中国优秀硕士学位论文全文数据库, 2008, (06)

【改进主成分分析】推荐阅读：

主成分分析07-21

主成分分析技术11-19

多元分析、主成分分析11-02

主成分分析法10-15

SPSS主成分分析08-06

主成分与因子分析区别10-19

核主成分分析法06-02

主成分聚类分析09-10