多元分析、主成分分析

2024-11-02

多元分析、主成分分析（共12篇）

多元分析、主成分分析篇1

0引言

电力预测是指利用历史数据来预测未来时刻的用电量,是能量管理系统(EMS)的一个重要组成部分,在我国的电力系统管理中已经成为现代化管理不可或缺的因素,在电力系统制定地区间的功率传输方案与负荷调度方案时具有重要作用。有效提高电力预测精度,有助于电力系统经济运行,是合理进行电力系统调度、用电与规划的重要依据之一。

1主成分分析算法原理

主成分分析是一种统计方法。当处理实际问题遇到多个变量之间可能存在一定的相关性,并且变量的个数较多且变量之间存在复杂的关系时,通过主成分分析可以达到降维减轻分析难度的目的。该方法原理为将原来众多具有一定相关性的变量,重新组合成为一种新的相互无关的综合变量,主要步骤如下:

(1)对原始数据进行标准化处理,若样本数据矩阵如下:

对原始数据进行标准化处理:

其中:

(2)计算样本相关系数矩阵:

(3)计算相关系数矩阵R的特征值和相应的特征向量:

特征值:λ1,λ2,…λp。

特征向量:ai=(ai1,ai2,…aip),其中i=1,2,…,p。

(4)选择重要的主成分:由主成分分析算法可以得到p个主成分,根据主成分的贡献率大小来选择前n个主成分。此处的贡献率指的是某个主成分的方差占全部方差的比重,即某个特征值占全部特征值和的比重。

(5)计算主成分得分:

具体形式如下:

其中,i=1,2,…,n;j=1,2,…,k。

(6)根据主成分分析的数据对后续问题进行评估分析。

2多元回归算法原理

多元回归是一种处理变量的统计相关关系的数理统计方法,其基本思想是:虽然自变量和因变量之间没有严格的、确定性的函数关系,但可以设法找出最能代表它们之间关系的数学表达形式。其模型及矩阵表示如下:

随机变量y受p个非随机因素x1,x2,…,xp和随机因素ε的影响,即:

y=β0+β1x1+…+βpxp+ε

式中,y为被解释的变量;xi为解释变量;ε为不可测的随机误差,且通常假定ε~N(0,δ2)。

E(y)=β0+β1x1+…+βpxp被称为理论回归方程。

对于一个实际问题,要建立多元回归方程,首先要估计出未知参数β0,β1,…,βp。为此我们要进行n次独立观测,得到n组样本数据(xi1,xi2,…,xip;yi)。即有:

上式又可表示为:

其中:

In为n阶单位矩阵;X为n×(p+1)阶资料矩阵并为满秩。

3构建模型与预测步骤

3.1使用主成分分析的多元回归算法预测用电量

建模和预测的大致步骤如下:

(1)读取表格里的历史用电数据;

(2)形成主成分分析的样本;

(3)主成分分析计算相应权值;

(4)构成主成分因素与驱动因素的关系;

(5)重构输入空间做多元回归的输入;

(6)多元回归训练计算相应权值;

(7)构建多元回归分析模型;

(8)获取预测值;

(9)与实际值相比较进行误差分析与统计。

3.2案例分析(数据来自互联网)

采用广东电网公司2014—2016年每月数据的部分作为训练样本(表1),使用主成分分析法对数据进行预处理作为多元回归的输入进行预测。

预测结果如表2和表3所示。

由表2、表3可知主成分分析的多元回归预测方法相对误差(准确率)绝对值在2.17%~2.86%之间,其中最大误差为2.86%,最小误差为2.17%。

4结语

通过上例可以看出,主成分分析在保留电力数据主要信息的前提下,除去了数据间的相关性,达到了降维重构空间的目的,将重构的空间作为多元回归的输入不仅减少了输入量而且提高了预测的精确度,由此可见,这是一种可行和有效的预测方法。

摘要：在电力生产部门,电力预测一直是一项重要工作,通过引入多元回归算法建立相应的模型能提高电力预测的精确程度。多元回归是一种处理变量的统计相关关系的数理统计方法,现通过主成分分析来重构输入空间,以改进模型预测精度。

关键词：电力预测,主成分分析,多元回归算法,模型

参考文献

[1]程其云,王有元,陈伟根.基于改进主成分分析的短期负荷预测方法[J].电网技术,2005,29(3):64-67.

[2]牛东晓,曹树华,赵磊,等.电力负荷预测技术及其应用[M].北京:中国电力出版社,1998.

[3]李慧姣.基于主成分分析法的遗传神经网络短期负荷预测的研究[D].长沙:湖南大学,2012.

[4]王志征,余岳峰,姚国平.基于主成分分析法和自适应神经模糊推理系统的电力负荷预测[J].电力自动化设备,2003,23(9):39-41.

多元分析、主成分分析篇2

1、可消除评价指标之间的相关影响

因为主成分分析在对原指标变量进行变换后形成了彼此相互独立的主成分，而且实践证明指标之间相关程度越高，主成分分析效果越好。

2、可减少指标选择的工作量

对于其它评价方法，由于难以消除评价指标间的相关影响，所以选择指标时要花费不少精力，而主成分分析由于可以消除这种相关影响，所以在指标选择上相对容易些。

3、当评级指标较多时还可以在保留绝大部分信息的情况下用少数几个综合指标代替原指标进行分析

主成分分析中各主成分是按方差大小依次排列顺序的，在分析问题时，可以舍弃一部分主成分，只取前后方差较大的几个主成分来代表原变量，从而减少了计算工作量。

4、在综合评价函数中，各主成分的权数为其贡献率，它反映了该主成分包含原始数据的信息量占全部信息量的比重，这样确定权数是客观的、合理的，它克服了某些评价方法中认为确定权数的缺陷。

5、这种方法的计算比较规范，便于在计算机上实现，还可以利用专门的软件。主成分分析法的缺点：

1、在主成分分析中，我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平（即变量降维后的信息量须保持在一个较高水平上），其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释（否则主成分将空有信息量而无实际含义）。

2、主成分的解释其含义一般多少带有点模糊性，不像原始变量的含义那么清楚、确切，这是变量降维过程中不得不付出的代价。因此，提取的主成分个数m通常应明显小于原始变量个数p（除非p本身较小），否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。

聚类分析法优点：

聚类分析模型的优点就是直观，结论形式简明

聚类分析法缺点：

多元分析、主成分分析篇3

[关键词] 超市商品结构主成分分析指标体系

一、商品结构的理论研究

目前理论界关于商品结构的研究还很少，基本的提法都是品类管理，品类管理中的品类结构就是狭义的商品结构，因此超市商品结构定义为指卖场有哪些品种商品，各种类型的商品占总量的比例多少。超市商品结构定位是否准确，关系到超市的经营方向和特色问题，简而言之，就是规定了这个超市卖什么、不卖什么的问题。

依据品类管理中的品类结构可以将商品结构分为四类，分别是:

1.大分类

它是连锁超市中最粗的分类。如生鲜、日配品、日用百货、家用电器等大分类。为了便于管理，连锁超市的大分类一般不宜过多。

2.中分类

它是大分类中细分出来的类别。例如：小家电可以分为吸尘器/空气清洁器/电扇，烹调器具，厨房用具，电熨斗/卫生间用品，电话/应答机/传真机，手表/闹钟/配件等。

3.小分类

它是中分类中进一步细分出来的类别。如厨房用具分为：抽油烟机、微波炉、碾磨机、开饮机、燃气灶、洗碗机、消毒柜、烘碗机、烘烤机、快餐炉、电水壶、电水瓶、水果榨汁机、多士炉、搅拌机、咖啡炉等。

4.单品类

单品是商品分类中不能进一步细分的、完整独立的商品品项。如青岛可口可乐饮料有限公司生产的355毫升听装可口可乐、1.25升瓶装可口可乐就是属于两个不同单品。一般情况下，把品类的结构分为大分类、中分类、小分类。

二、指标体系的建立

根据超市商品结构理论以及商品考核原则还有超市商品小分类方法，本文将定量基准分为8个指标和小分类商品种类（本文以厨房用品为例）。

1.销售额指标

销售额指标要细分为大分类商品指标、中分类商品指标、小分类商品指标及一些特别的单品项商品指标。现在大部分门店的销售系统与库存系统是连接的，后台电脑系统都能够整理出门店的每天，每周，每月的商品销售额。

2.商品贡献率

商品贡献率目的在于找出门店的商品贡献率高的商品，并使之销售得更好。

3.毛利率指标

根据超级市场品种订价的特征，毛利率指标首先是确定一个综合毛利率的指标，这个指标的要求是反映超市的业态特征控制住毛利率，然后分解综合毛利率指标，制定比例不同的类别商品的毛利率指标并进行考核。

4.客单价

客单价影响超市营业额高低的主要因素。

5.库存商品周转天数指标

这一指标主要是考核配送中心库存商品和门店存货的平均周转天数。

6.商品有效销售发生率指标

在超市市场中有的商品周转率很低，但为了满足消费者一次性购足的需要和选择性需要，这些商品又不得不备，但如果库存准备的不合理损失就很大。商品有效销售发生率就是考核配送中心档案商品（档案目录）在门店pos机中的销售发生率。如低于一定的发生率，说明一些商品为无效备货，必须从目录中删除出去并进行库存清理。

7.新商品引进率指标

为了保证各种不同业态模式超级市场的竞争力，必须在商品经营结构上进行调整和创新．使用新商品引进率指标就是对新的供应商和新商品的开发能力。

8.商品淘汰率指标

由于门店的卖场面积有限，又由于必须不断更新结构，当新商品按照考核指标不断引进时，就必须制定商品的淘汰率指标，一般商品淘汰率指标可比新商品引进率指标低10％左右，即每月低1％左右。

9.通道利润指标

一般通道利润可表现为进场费，上架费，专架费，促销费等。通道利润就成为一些超市的主要利润来源，这种状况在一些超市竞争激烈的地区已经发生。

10.商品损耗率

它将直接影响商品的贡献毛利。例如：日配商品的毛利虽然较高，但是由于其风险大，损耗多，可能会是赚得不够赔的。

三、主成分分析综合评判过程

运用主成分分析法,首先对原始数据进行标准化处理,计算变量之间的相关系数,形成相关系数矩阵,接着计算特征值和特征向量,据此计算贡献率和累积贡献率,一般取累积贡献率达85%以上的特征值为对应的主成分（主因子）,然后计算主因子载荷量,最后根据特征向量和主因子载荷量计算各变量的主因子得分。在分析实际问题时,可只取前Ｋ个以累积贡献率达85%以上的特征值为对应的主因子来代表原变量的变差信息,以减少工作量,这是主成分分析法。

根据主成分分析的分析原理及步骤，运用SPSS统计分析软件包中的因子分析法，并采用主因子分析法提取公因子，计算出相关系数矩阵、因子载荷矩阵等，最终求得综合评价值，并据此进行排序。

本文采取10个指标，对某超市厨房用具进行分类得到了16种用具，应用主成分分析法对相关数据进行分析，得到了累计贡献表和因子载荷矩阵表。如表1。

表1完全变量解释表

由表1可以看出主因子个数为3个，满足累计方差贡献率83.311%大于75％。通过表2可以看出第一公因子则基本反映了客单价、商品损耗率、销售额指标、通道利润指标；第二公因子的含义较为清晰，基本反映了商品贡献率、商品淘汰率指标、毛利率指标、新商品引进率指标；第三公因子则基本反映了库存商品周转天数指标和商品有效销售发生率指标。这样，将每个公因子与对应的方差百分比进行线性加权求和，即可得出某一种类商品的综合评价，公式表示如下：

(i代表商品，i=1…16)

表2因子载荷矩阵

表3各商品综合评价及排序

四、结论

由表3可知各厨房用具中排名依次是抽油烟机、燃气灶、微波炉、烘烤机、洗碗机、消毒柜、电水壶、烘碗机、快餐炉、电水瓶、搅拌机、碾磨机、水果榨汁机、开饮机、咖啡炉及多士炉。这样就为厨房用具采购时提供了可行的依据，优化了超市的商品结构。同理，主成分分析可以应用到超市所有商品分类中。如何进行超市商品结构的优化，主成分分析起到了至关重要的作用。

参考文献：

[1]任若恩王惠文:多元统计数据分析——理论、方法、实践[M]．国防工业出版社，1997

[2]于秀林任雪松编著:多元统计分析(第一版)[M].1999

[3]商界杂导社:中国零售业主要业态发展状况.销售与市场，2001 年第 9 期:24～36

[4]倪瑜唬霍佳震:超市品类管理及研究现状[J].上海管理科学，2002.5

多元分析、主成分分析篇4

农业是国民经济的“母体产业”,是整个国民经济的基础,关系着国家,社会经济和政治的稳定。近几年来农民、农村、农业的问题越来越突出,“三农”问题已经作为国务院工作的重中之重。农业上市公司作为我国现阶段先进农业生产力的企业组织,它不仅能够为农业经济的发展提供人才、资金、技术、市场和管理制度,而且可以发挥支柱企业和龙头企业的带头作用,带来制度创新和技术创新,促进农业生产的深加工,提高整个农业的产业化及组织化水平。然而目前,我国农业上市公司资本结构中存在着大量问题:资产负债率水平普遍较低;融资结构失衡,内源融资比例偏小;债务结构不合理,长期负债比例偏小;股权集中程度较高。这些问题导致我国农业上市公司经营业绩不佳,发展劲头不足。因此,本文针对农业上市公司资本结构的现状,借鉴西方资本结构理论和国内外学者的研究成果,对农业上市公司资本结构的影响因素进行实证分析,希望为我国农业上市公司资本结构优化提供经验证据和理论支持,对农业上市公司的持续、健康发展有所裨益。

二、研究设计

(一)样本选取与数据来源为了保证研究结果的有效性,在样本选取上,本文遵循以下原则:(1)选择2009年12月31日之前上市的农业上市公司。新上市公司财务表现可能不太稳定,会影响研究结论的准确性,故选择上市时间较长的公司。(2)选择只发行A股的农业上市公司。本文研究的重点在于A股市场,故为了免受B股市场的影响剔除发行B股和同时发行A、B股的公司。(3)剔除ST、PT类农业上市公司。此类公司的财务状况或者处于异常情况,或者连续两年以上处于亏损状态,如果将其纳入样本会对结论的可靠性和有效性产生影响。根据以上原则,经过筛选,共有24家农业上市公司符合要求(见表1),在时间跨度上,以样本公司2010年至2012年的数据为基础进行分析。本文所需原始数据来自于巨潮资讯网和证券之星网所公开披露的各样本公司2010年至2012年的财务报告,数据分析使用EXCEL和SPSS17.0软件。

(二)变量选择本文采用资产负债率、流动资产负债率和长期资产负债率作为被解释变量对资本结构进行度量。对于解释变量,主要选择具有代表性的,对资本结构可能产生影响的微观因素,包括公司规模、盈利能力、企业成长性、非债务税盾、资产担保价值、资产结构、股权结构、偿债债能能力力和和所所得得税税率率等等99类类共共1177个个指标。涉及的变量及其说明如表2所示。

(三)模型构建第一步,对影响农业上市公司资本结构的解释变量利用主成分分析法提取若干无关的主成分。主成分分析法是利用降维的思想,将多个指标转化为少数几个不相关的综合指标,其中每个主成分都是原始变量的线性组合,这些主成分能够反映原始变量的绝大部分信息,且所含的信息互不重叠;第二步,对提取的若干主成分进行多元线性回归,分析哪些因素对农业上市公司的资本结构会产生影响。

其中Gi(i=l,2,…,k)为主成分因子,k为选取的主成分个数,视主成分分析结果而定,ε为随机误差项。

三、实证结果与分析

(一)主成分分析主成分分析法适用于原有变量之间具有较强的相关性,因此需要对原有变量做相关分析。本文采用KMO检验和Bartlett检验,KMO值越接近于1,意味着变量间的相关性越强,KMO值越接近于0,意味着变量间的相关性越弱,KMO>0.9时效果最佳,KMO<0.5时不宜做主成分分析;如果Bartlett检验统计值较大,且其对应的相伴概率值小于0.05的显著性水平,那么应该拒绝零假设,即原始变量之间存在相关性,适合做主成分分析。检验结果显示,KMO值为0.656大于0.5,且巴特利特值为1298.248,相伴概率p的显著性水平为0.000小于0.05,因此可以使用主成分分析法。

选取主成分时,特征值的大小说明所选主成分对原始变量的说明程度,如果特征值小于1意味着所选主成分对原始变量的解释程度还不如直接引入原始变量的解释程度大,因此,用特征值大于1的标准选取主成分。从表3可以看出,特征值大于1的主成分有6个,即这6个主成分代表了全部原始变量80.276%的方差, 提供了原始指标数据所传递的基本信息。

数据来源:样本数据运用 SPSS17.0 分析软件计算而得(下同)

根据旋转后的主成分矩阵(见表4),可以看出:

因子1:在总资产收益率、每股收益、净资产收益率和主营业务收益率的负荷量大于其他指标,这四个指标代表企业的盈利能力,将其定义为盈利能力因子(G1)。

因子2:在流动比率和速动比率的负荷量大于其他指标,这两个指标反映的是企业的偿债能力,将其定义为偿债能力因子(G2)。

因子3:在折旧资产比上有最大载荷,这个指标反映的是企业的非负债税盾,将其定义为税盾因子(G3)。

因子4;在LN总资产和LN主营业务收入的负荷量大于其他指标,这两个指标反映了公司规模的大小,将其定义为规模因子(G4)。

因子5:在流通股比重和第一股东持股比例的负荷量大于其他指标,这两个指标反映企业的股权结构,将其定义为股权结构因子(G5)。

因子6:在所得税率上有最大载荷,将其定义为所得税率因子(G6)。

(二)多元回归分析通过主成分分析得到的主成分矩阵作为新的解释变量,分别对农业上市公司的资产负债率、流动资产负债率和长期资产负债率进行多元线性回归。用SPSS17.0软件回归分析结果如表5所示。

表5是对被解释变量Y1、Y2、Y3和所有解释变量G1、G2、G3、G4、G5、G6之间的整体相关性的检验,用F值来衡量。可以看出资产负债率和流动资产负债率的F值分别为19.466和18.139,Sig均为0.000远小于0.05 (即95%的置信水平),二者都通过了回归方程的显著性检验;然而长期资产负债率的F值为1.384,Sig为0.234远大于0.05,即说明因变量与自变量间的整体相关性不显著,未通过检验。

表6主要显示Y1方程的回归结果,从t值和t值的显著程度Sig值可以判断出G1、G2、G3、G4、G5均通过了90%的显著性检验,常数项和G6未通过检验,将常数项和G6直接删去,所以回归方程表达式为:

Y1=-21.909G1-15.460G2-30.875G3+4.815G4-11.317G5

表7主要显示Y2方程的回归结果,从t值和t值的显著程度Sig值可以判断出G1、G2、G3、G4、G5均通过了90%的显著性检验,常数项和G6未通过检验,将常数项和G6直接删去,所以回归方程表达式为:

(三)研究结论根据回归结果,可以得出如下结论:

(1)盈利能力因子与资产负债率和流动资产负债率呈负相关,且效果显著。这一结果与优序融资理论相吻合。可以理解为由于盈利能力强的公司具有较强的内源融资能力,进而更容易获得权益性融资,因此负债率较低;相反,盈利能力差的公司自身的留存收益较少且较难获得股权融资的机会,因此只能依靠负债解决资金问题。

(2)偿债能力因子与资产负债率和流动资产负债率呈负相关关系,且效果显著。因为变现能力强的公司一般都能够在短时间内满足企业生产运营的资金需求,且债权融资存在一定的风险,故变现能力强的公司会在资金需求得到满足的情况下,尽可能的减少财务杠杆的使用,同时规避了财务风险;反过来,变现能力差的公司自身资金难以满足扩大生产的需求,股权融资的资金成本又高,因此只能依靠负债筹资。

(3)税盾因子与资产负债率和流动资产负债率呈负相关。这是因为折旧可以减少税前利润,具有抵税作用,若农业上市公司选择债务融资只是出于负债利息抵税效应的考虑,那么折旧可以代替负债发挥抵税作用,从而降低企业的负债率。

(4)规模因子与资产负债率和流动资产负债率存在正相关关系。这与众多学者的研究结果一致。第一,大规模企业倾向于实施多元化战略,分散经营风险,增强企业的发展与稳定性;第二,由于具有良好的发展前景和信誉,使得大公司能够较容易的获得较低成本的债务融资。对于农业上市公司而言,由于行业受季节变化影响较大,农业旺季时往往需要大量资金周转,大规模企业更是如此,因此当企业内部融资有限时就需要举借外债。

(5)股权结构因子与资产负债率和流动资产负债率呈负相关。具体地说就是流通股比重越高,第一股东持股比例越高,企业的负债率就越低。由于流通股比例越高,并购机制的作用就能够越有效的发挥,而且第一股东持股比例越高,就会更注重公司长远发展所带来的股息收入,因此负债率就越低。

(6)所得税率因子与资产负债率和流动资产负债率的关系均不显著。这可能是因为我国农业上市公司享受国家税收优惠政策,实际所得税率远远低于税法所规定25%的比例,减免了应交的各种税负后,负债的节税收益太少,导致节税收益远少于负债的破产成本,企业已经不看重负债的节税收益,而是更注重负债所带来的破产成本和破产风险。

(7)长期资产负债率未能通过回归方程的显著性检验,即所有变量均不能解释长期资产负债率的大小。这是因为我国农业上市公司长期贷款批准手续较为复杂,导致长期贷款难以获得,因此长期以来农业上市公司中流动负债比例较高,长期负债比率较低,一些原本影响长期资产负债率的因素可以忽略;另外,我国债券市场机制还不太完善,债券对资本结构的影响也不稳定。

四、结论

不同行业资本结构的影响因素是不同的,对农业上市公司而言,影响资本结构的主要因素为:盈利能力、偿债能力、非负债税盾、公司规模和股权结构。因此,农业上市公司可以从以下几方面实现资本结构的优化:第一,保持适度的负债率,使企业获得所得税的抵减和财务杠杆收益;第二,提高企业的盈利水平,增加企业的自我积累,加强抵御风险的能力,这就需要依靠农业科技,增强品牌优势,扩大市场占有率;第三,优化债务内部结构,合理安排短期、中期和长期债务,以满足生产经营中对资金不同时期的需要和避免由于各类负债出现集中还款而导致财务风险的发生;第四,完善公司治理结构,强化管理层的股权融资成本意识和债务融资的财务杠杆;第五,实现融资工具的多元化,发展企业债券融资方式和利率互换、期权等新型融资方式,增强企业多渠道、多元化的融资能力,从根本上优化企业资本结构。

摘要：本文以沪深两市农业上市公司为研究对象,运用主成分分析法与多元线性回归法对农业上市公司资本结构的影响因素进行实证分析。结果表明:农业上市公司的盈利能力、偿债能力、非负债税盾、规模和股权结构对资本结构具有显著影响,而所得税率对资本结构的影响不显著。继而对研究结果形成机理进行详细分析,提出农业上市公司要从保持适度的负债率、提高盈利水平、优化债务内部结构、完善公司治理结构和实现融资工具的多元化等方面优化资本结构的对策。

多元分析、主成分分析篇5

为从波斯小麦中发掘优异基因资源,拓宽小麦遗传基础,对来自15个国家(地区)的`81份波斯小麦进行了农艺性状相关分析和主成分分析.结果表明,供试材料总体表现为植株高大,平均为110.0 cm;有效穗数平均为12.6个;穗粒数较多,平均为42.4粒;播种至抽穗平均为185.5 d;千粒重偏低,平均为17.3g.简单和偏相关分析中分别有16和12对性状相关极显著.其中分蘖数与有效穗数、穗长、小穗数,有效穗数与穗长、小穗数,穗长与小穗数,小穗数与千粒重,抽穗期与穗粒数间相关和偏相关系数均达极显著水平.主成分分析表明,前四个主成分(分蘖因子、粒重因子、穗粒数因子、抽穗期因子)对变异的贡献率达85.61%.

作者：庄萍萍李伟魏育明颜泽洪郑有良 ZHUANG Ping-ping LI Wei WEI Yu-ming YAN Ze-hong ZHENG You-liang 作者单位：庄萍萍,ZHUANG Ping-ping(四川农业大学小麦研究所,四川,都江堰,611830)

李伟,LI Wei(四川农业大学小麦研究所,四川,都江堰,611830;西南作物基因资源与遗传改良教育部重点实验室,四川,雅安,625014;四川农业大学农学院,四川,雅安,625014)

魏育明,颜泽洪,郑有良,WEI Yu-ming,YAN Ze-hong,ZHENG You-liang(四川农业大学小麦研究所,四川,都江堰,611830;西南作物基因资源与遗传改良教育部重点实验室,四川,雅安,625014)

多元分析、主成分分析篇6

关键词：主成分分析财务绩效家电公司投资价值

一、主成分分析法概述

作为因子分析法的特例之一，主成分分析法往往通过少数几个主成分来解释多个变量间的内部结构，以此来寻找或判断产生某种现象的综合指标，并对这一综合指标所包含的信息进行适当的解释。其实质是一种回归分析，是衡量多个变量相关性的多元统计方法。主成分分析通过对给定变量的线性组合转换成不相关的变量。设k个原始变量，新的变量（即主成分），主成分和原始变量的关系可以表示为：

表示第i个主成分和原来第j个变量之间的线性相关系数。变量之间如果存在较强的线性关系，则适合作主成分分析。

在实际操作中，通常首先将原来的p个指标进行标准化，接着根据标准化后的数据求出变量之间的相关系数矩阵，然后求出协方差的特征根（即主轴或称方差）及单位特征向量，最后由累积方差贡献率确定主成分的个数，并写出主成分的具体表达式。对主成分进行加权综合。主成分所代表的原始变量的信息用方差来表示。一般而言，选择的主成分的方差总和占到全部方差和的85%以上较为适宜。主成分分析计算复杂，一般采用SPSS软件作主成分分析。设是所求的p个主成分，其特征根分别是，将特征根“归一化”即有，其中就是方差贡献率。

二、上市家电企业财务绩效评价指标体系构建

通过查询我国主要证券公司对A股市场的行业分类，笔者选取归入黑色家用电器（黑色家电是指可提供娱乐的产品，像彩电、音响、游戏机等）行业的6家企业作为实证分析对象，它们分别为：

以上这六家公司均为同一细分行业，且该业务成为公司的主营业务至少三年以上，近期经营正常，股票交易正常。基于黑色家电行业特点及成本和便利的原因，本文主要选取选取了与企业财务状况有关的13个收益类指标来分析企业财务绩效，进行主成分分析并回归。这些财务指标与家电企业的净现金流量和资产经营状况高度相关，基本能从不同的方面反映企业财务绩效，所涵盖信息也较为全面，便于投资者直观地进行分析和决策。

三、实证分析

利用上述六家公司公布的2012年度财务报表，可以获得二级指标的原始数据。但是由于财务指标评价体系里的各指标单位不完全相同，可比性也就不高，因而需要对原始数据进行处理，以消除不同度量对结果的影响。本文采用标准化的处理方式，将不同单位指标转化为无量纲数值。具体操作步骤是将每个企业的某个指标的数据除以所有企业该指标数据的总和。利用基于相关阵的主成分分析法，对于选取的绩效指标相对化后的数据，利用SPSS统计分析软件，计算得到财务绩效指标数据的相关系数矩阵。结果显示，很多指标之间相关系数的绝对值都较大，表明变量之间的相关性也较大，适合采用主成分分析。

表3的数据给出了各家电公司相关系数矩阵的特征值，以及相邻两个特征值之间的差和方差贡献率。其中前4个主成分累计贡献率为97.008%，大于85%。其他主成分特征跟都小于1，一般情况下，当特征跟小于1时，就不再作为主成分了。因而，在本例中，只需选择前4个主成分就足以说明各家电公司的财务绩效水平了。

根据主成分模型和因子荷载阵（成分矩阵）可以得到4个主成分与与原来13个变量之间的线性组合，表达式如下：

现以各主成分的方差贡献率作为权数，由上述4个主成分变量组成一个综合评价函数，对给定家电公司的财务绩效进行综合评价。具体函数为：

四、结论

表4表明利用主成分分析法可以合理评价家电企业财务绩效情况，这种方法可以综合考虑各种因素的影响，比较全面分析企业的资产经营状况，具有良好的实用性。与实际情况比较，主成分分析得到的评价结论基本上是符合客观实际情况的。另外，对各家家电上市公司的财务绩效评价得分也综合反应了这六家上市家电公司的投资价值，而且用于评价的指标体系与关于企业价值理论也是基本一致的，投资者可以根据各个主成分的排名以及综合排名合理选择投资组合，为投资理性投资决策提供一定的参考依据。此方法可推广运用于研究银行业、信托业、医疗器械等行业的财务绩效评价分析中。但是，与此同时，运用主成分分析对上市公司进行财务绩效评价分析也存在着一些问题，如在增强指标选取的行业性特点、主成分个数的合理确定以及结果分析上，有待以后研究的完善和改进。

参考文献

[1]李艳双.主成分分析法在多指标综合评价体系中的应用.河北工业大学学报，2010（6）：26-28

[2]白文杰，尹相青.基于主成分分析的銀行业上市公司投资价值评价研究.价值工程，2009（3）：67-69

主成分分析方法的应用研究篇7

研究和应用中经常会碰到许多综合评价问题, 其本质是多指标决策问题, 多指标综合评价一方面增加了工作量, 另一方面淡化了主要指标的作用。对此, 可采用数理统计法对所考虑的众多指标经过正交化处理, 使其成为少数几个相互独立的综合指标, 再根据综合指标进行评价。主成分分析法恰为这种思路提供了数学依据。

2 主成分分析法简介

2.1 主成份分析

通过降维的思想来精简变量, 将多个相关的原始变量指标转化为几个独立的综合指标。主成分是原始变量指标的线性组合, 其转换的理念是让原始变量指标的线性组合的变异达到最大, 这样就可以尽量减少信息的损失, 仅利用几个重要的主成分就解释原始数据的大部分变异, 同时简化了问题, 能更好地揭示事物内部变量之间的规律, 提高分析效率。

2.2 主成分分析的数学模型

设原始样本 ×变量型数据资料阵

X= (xij) np≜ (X1, X2, …, Xp) ,

其中

X i= (xli, x2i, …, xni) T, i=1, 2, …, p.

用数据矩阵X的P个向量 (即p个指标向量) X1, X2, …, Xp 作线性组合 (即综合指标向量)

Fi =ali X1 +a2i X2 +…+api X p, i=1, 2, …, p, 其中, αundefined+αundefined=1, (i=1, 2, ..., p)

3 关于主成分性质

(1) 设p 个n 维随机向量X1, X2, …Xp协方差矩阵为 ∑, ∑的特征值为λ1≥λ2≥……≥λp>0, 相应的单位特征向量为:μ1, μ2, ……, μp, 则x的主成分可表示为:

Fi =μ′iX =μil X1 +μi2 X2 +…+ μipXp, i=1, 2, …, p,

记 μi= (μil, μi2, …, pi) T

(2) p个主成分均值为0, 且p个主成分不相关。

(3) 主成分的方差之和与原始变量的方差之和相等, 也就是说, 经过变化后, 变量间的变异性没有改变, 信息没有损失。

(4) 称undefined为第k个主成分的方差贡献率, 称undefined为前k 个主成分的累积方差贡献率。

在解决实际问题时, 一般不是取p个主成分, 而是根据累计贡献率的大小取前k个。如果前k个主成分的累积贡献率达到 85%, 表明取前 k个主成分基本包含了全部测量指标所具有的信息, 这样即减少了变量的个数有利于对实际问题的分析和研究。

(5) 若Fi =μ′i X是数据矩阵x的主成分, 则undefined是Yi 与Xk 的相关系数。

数据来源:数据来自于江西统计年鉴2009, 江西各区域经济发展的相关指标数据如表1所示。

4 使用条件

主成分分析适宜用于大样本的场合。

主成分分析要求变量之间有一定的相关关系。

5 应用

指标的选取衡量一个地区的发展情况, 既要注重某一产业的产值, 又应从社会生产的各个方面去考虑, 为各地区实现均衡发展提供理论依据。根据适当性和可得性原则, 选取江西各市为样本, 选取主要经济指标包括:地区生产总会值X1, 第二产业生产总值X2, 生产总值增长速度X3, 人均地区生产总值X4, 地区人均财政一般预算收入X5, 实际使用外资额X6, 五十万元以上固定资产投资额X7, 土地面积X8, 卫生工作人员数X9, 城乡居民储蓄存款余额X10, 第三产业生产总值X11, 社会消费品零售总额X12, 高等学校学生数X13。

运用SPSS13.0对江西各市主要经济指标进行主成分分析, 计算步骤如下:

(1) 对所给数据指标进行标准化处理, 得标准化数据表。

在实际问题中, 不同的变量往往有不同的量纲, 为了实现不同量纲数据之间的可比性, 以保证所提取的主成分与原始变量意义上的一致性, 在进行主成分分析之前按照以下公式将变量标准化。

undefined

其中, E (xi) 表示变量的期望, Var (xi) 表示变量的方差。

(2) 根据标准化数据表计算出相关系数阵R如表2。

(3) 求R的特征值λi 和贡献率。

(4) 根据累计贡献率达85%的原则选取前三个主成分, 各主成分表达式如下:

特征值λ1 =8.796的第一主成分:

Z1=0.11x1+0.099x2-0.002x3+0.077x4+0.108x5+0.104x6+0.11x7-0.021x8+0.076x9+0.095x10+0.107x11+0.111x12+0.111x13

特征值λ2 =1.851的第二主成分:

Z2=0.113x1+0.202x2+0.439x3+0.174x4+0.108x5-0.122x6-0.052x7+0.073x8-0.367x9-0.269x10+0.146x11+0.026x12-0.018x13

特征值 λ3 =1.277的第三主成分:

Z3=-0.007x1+0.086x2+0.138x3-0.416x4-0.003x5+0.01x6+0.08x7+0.738x8+0.097x9+0.117x10+0.092x11+0.011x12+0.009x13

由表3可以看出, 第一、第二主成分及第三主成分对方差的累积贡献率达到91.728%, 并以91.728%的精度将变量由13维降到3。另外, 综合得分 (z) 可依3个主成分进行综合评价, 利用第一主成分、第二主成分及第三主成分对全省11个市的主要经济指标情况进行排序, 并计算出综合得分和排序。

综合得分=第一主成分得分×8.796+第二主成分得分×1.851+第三主成分得分×1.277, 得到的结果如表4。

由表4可知, 南昌作为省会城市, 它是江西经济、文化、交通的重要枢纽。在汽车及零部件生产、光电产业、铜冶炼及精深加工产业、优质钢材深加工、航空产业等方面发展迅速, 带动着整个江西的经济发展。且经济发展水平是最好的, 显示出雄厚的经济基础和实力。新余的经济发展水平在我省排第二名, 南昌和新余是江西经济发展潜力最大的市。近年来, 新余市加快当地工业企业的快速发展步伐, 其光电产业、钢铁工业等较发达, 工业主导特征较明显;赣州市作为革命的摇篮, 是江西省重点发展的地方之一。九江、宜春、萍乡这三个市农业发展条件基础好, 充分发挥自己当地各自的特色和优势, 统筹安排, 大力发展经济。所以, 它们在经济发展中位于中上水平。相比之下, 余下的抚州、吉安、景德镇、上饶、鹰潭五个地区工业和第三产业欠发达, 自然资源未得充分地开发利用, 而且农业人口占据了很大的比例, 其经济发展水平相对较低。从而可知, 江西省各区市经济发展不平衡的现象较为明显。因此, 想办法缩小区域差距, 协调江西省各城市的经济发展才是促进江西经济发展的一条有效途径。

6 对策及建议

(1) 加强区域合作是实现江西加快发展的重要机遇。

作为长珠闽的共同腹地, 改革开放以来, 江西经济的发展形成了自己的特色, 在生产要素、基础产业等方面和长珠闽三个区域均具有较强的互补性, 有承接沿海产业转移的良好基础, 积极融入长珠闽, 实现更深层次和更广的领域合作, 既为长珠闽的发展提供了宽广的市场空间, 也为江西加快发展提供了重要机遇。

(2) 调整产业结构, 加速工业化进程。

我省经济发展的主要矛盾是工业化进程滞后, 而加速工业化的首要任务是调整结构, 增强工业经济活力, 进一步形成以工业化为主导的经济增长格局。主要可以通过全面调整工业所有制结构。另外还可以吸收民间投资, 尤其是东部和外商投资, 发展多元化的经济主体。支持支柱产业优先发展。努力改造传统产业。

(3) 加大投入, 发展第三产业。

要利用独特的区位优势、名山名湖等特点, 大力发展旅游、物流、服务等行业的第三产业, 加大城市特别是旅游区的基础设施规划建设, 不断完善服务行业硬件软件设施, 提高服务行业员工的整体文化素质, 创造优质的服务环境。

(4) 优先发展旅游业。

观光旅游是江西旅游的主导产品, 主要以名城、名山、湖为依托。以世界文化景观庐山、世界文化遗产三清山、龙虎山等为依托的名山观光旅游。在开发观光旅游产品时, 应不断增加和丰富产品的内容, 融知识性、文化性和参与性于一体, 提高现有观光旅游产品的档次, 以满足旅游者新的需求。同时在鄱阳湖地区开展生态湖泊建设, 大力发展生态旅游。加强井冈山、八一起义、瑞金等红色地区的革命传统教育旅游基地的开发。

参考文献

[1]叶双峰.关于主成分分析做综合评价的改进[J].数理统计与管理, 2001, 20 (2) :52-55.

[2]黄宁.关于主成分分析应用的思考[J].数理统计与管理, 1999, 18 (5) :44-52.

[3]何晓群.多元统计分析 (第二版) [M].北京:中国人民大学出版社, 2008.

[4]张文霖.主成分分析在SPSS中的操作应用[J].市场研究, 2005, (12) :31-34.

函数性数据分析中的主成分分析篇8

与传统数据分析方法相比而言, 函数性数据分析有着很大的优越性, 能够通过微分曲线与导数曲线来处理信息, 截至目前为止, 各界的专家学者已经针对函数性数据进行了深入的分析, 下面就针对函数性数据分析的主成分进行相应的介绍.

一、传统主成分分析

主成分分析在1901年开始在正交回归分析中得到了应用, 在1933年, 主成分分析法得到了一定的发展, 该种分析方式能够将高维空间问题变成低维空间问题, 这样即可将问题直观化、简单化, 虽然该种分析法会损失部分数据, 但是却抓住了主要问题, 对问题的分析十分有益. 在技术水平的发展之下, 主分析法十分的重要, 从几何角度进行分析, 该种分析方式能够将原始变量组合成新坐标, 新指标伸缩情况主要由样本协方差矩阵进行表示, 新变量之间并无密切的关系, 可以看出, 使用主成分分析法能够很好地避免多重共线问题的发生.

从本质上而言, 主成分分析是线性映射法, 该种方法是不适宜应用在非线性问题处理中的, 在这一背景下, 一些学者提出主曲线方法、核主成分分析法、主曲面方法、多层感知器方法等多种主成分分析法, 该种这些数据分析法的应用还存在一些弊端, 因此, 就需要使用新型主成分分析法, 函数性数据分析法正是在这一基础上产生.

二、函数性数据主成分分析

1. 函数性数据的特征

顾名思义, 函数性数据就是一种采用函数来表现的数据, 具有函数性的特征, 在分析数据时, 若观测点过于密集, 那么数据则会表现出函数性特征, 采用该种分析法时, 需要将数据作为独立项进行分析, 不能将其看作数据点序列. 该种分析方式最早由一位加拿大学者提出, 在提出伊始, 强调采用现代紧密数据系统来获取数据, 在获取数据时, 需要将其作为动态概念, 并不能将其作为静态概念, 如果采用传统分析法就难以提升分析的准确性, 因此, 就需要进一步来扩展分析方法. 近年来, 很多学者开始对函数性数据进行了深入的分析, 但是, 这一技术依然处在初级发展阶段, 还需要进行深入的研究.

关于函数性数据x函数形式, 需要将数据假定为是一种连续产生的过程, 但是在实际观测过程中, 很难得到离散性数据, 实际观测的数据也常常含有噪声, 因此, 在接收到观测数据之后, 需要对样本开展函数拟合, 这种拟合方式是多种多样的, 常用的有插值法与平滑法. 若接收到的观测数据没有误差, 即可使用插值法进行拟合; 如果接收的数据存在误差, 就需要使用平滑法进行拟合.

2. 函数性数据主成分分析

在实际应用过程中, 观测数据常常存在着比样本量大的情况, 如果未进行处理就直接分析, 那么是无法得出理想的分析解决的. 为了解决这一问题, 可以使用两种方法, 即将观测时间区域减少或者偏最小二乘, 如果变量多重共线性严重, 使用该种分析法虽然能够有效解决问题, 但是却存在很多噪声. 在遇到该种情况时, 即可使用偏最小二乘法来进行回归建模.

函数性数据样本协方差矩阵是一种函数模式, 常常会产生高维协方差矩阵, 该种矩阵表示对变量实施了重复性检测, 且每次得到的数据都生成了函数数据. 在特征方程上, 可以使用如下的表达方式:

在上式之中, λ属于特征值, v ( s, t) 是x ( s) 与x ( t) 的两个协方差, V为协方差算子, 在进行函数性数据分析时, 其中的变量个数决定协方差阵特征向量与特征值, 样本数量决定协方差算子, 在具体的观测过程中, 需要选择好观测点位置与个数.

三、函数性共同主成分

共同主成分已经在形态进化工作中得到了广泛的应用, 分析共同主成分能够有效解决共同主成分结构与协方差矩阵比例等问题, 一般情况下, 在建立好矩阵之后需要使用KL展开式进行分析, 为了得到函数结构与动态特征, 可以使用函数主成分与因子荷载分布来进行确定. 在应用KL展开式时, 需要应用到相互正交函数, KL展开式有着理想的收敛性, 在展开其他类型时, 也可以得出很好的效果. 采用该种方法之后, 即可将问题简单化, 但是由于因子载荷之间存在一定的差异, 就需要对函数性数据主成分进行相应的验证.

四、结语

综上所述, 函数性数据有效丰富了数据分析领域, 为解决数据问题提供了强有力的支撑. 该种技术属于探索性技术, 对函数通特征描述与特征提取到起到了理想的成效, 但是, 由于各种因素的影响, 函数性数据主成分分析只能够解决单样本问题, 难以解决两样本以上的问题, 因此, 在使用该种问题进行分析时, 还需要综合各类因素解决推断与检验的难题.

摘要：函数性数据分析 (FDA) 是一种新型数据分析方法, 该种分析方法是建立在函数角度基础上, 强调将函数数据作为整体进行分析, 函数性数据有效丰富了数据分析领域, 为解决数据问题提供了强有力的支撑, 该种技术属于探索性技术, 对函数通特征描述与特征提取到起到了理想的成效, 数性数据分析有着很大的优越性, 能够通过微分曲线与导数曲线来处理信息, 本文主要讨论函数性数据分析中的主成分分析.

多元分析、主成分分析篇9

GPS数据处理过程中, 一些难以模型化、难以探测、难以通过差分技术消除的误差给定位结果带来一定的影响。特别是非差模型的精密单点定位技术中, 多种误差难以通过模型进行改正或者消除, 严重影响了精密单点定位的精度。本文在主成分分析理论基础之上, 构造了基于主成分分析法的动态精密单点定位结果分析模型, 在动态精密单点定位结果之上, 进行主成分分析。

1主成分分析模型

1) 以矩阵的形式表示动态精密单点定位结果如下:

$x = [\begin{matrix} x_{11} ‚ & x_{12} ‚ & \dots ‚ & x_{1 n} \\ x_{21} ‚ & x_{22} ‚ & \dots ‚ & x_{2 n} \\ ⋮ & ⋮ & ⋮ & ⋮ \\ x_{m 1} ‚ & x_{m 2} ‚ & \dots ‚ & x_{m n} \end{matrix}] = [x_{i k}]_{m \times n}$

(1)

其中, xmn为第n个接收机m时刻所对应的坐标分量。

2) 计算特征值与特征向量。

首先解特征方程|λI-R|=0, 通常用雅可比法 (Jacobi) 求出特征值λi (i=1, 2, …, n) , 并使其按大小顺序排列, 即λ1≥λ2≥…≥λi≥0;然后分别求出对应于特征值λi的特征向量:ei (i=1, 2, …, n) 。

3) 计算主成分贡献率及累计贡献率。

主成分Fi的贡献率为:

$\frac{λ_{i}}{\sum_{k = 1}^{p} λ_{k}} (i = 1, 2, \dots, p)$ (2)

累计贡献率为:

$\frac{\sum_{k = 1}^{i} λ_{k}}{\sum_{k = 1}^{p} λ_{k}} (i = 1, 2, \dots, p)$ (3)

2精密单点定位结果的主成分分析

本文对GPS连续跟踪站上海站SHAO 2007年积日295, 296, 297, 298四天的计算结果进行了主成分分析。按照主成分分析理论, 对年积日295, 296, 297, 298四天的U, E, N坐标分量分别构造矩阵HU, HE, HN, 然后进行反演。为了更加清楚的说明和比较主成分分析结果的精度, 以年积日296的相关结果为例进行数据比较和说明。限于篇幅只列出U向结果, 如图1～图6所示。

对比结果可以看到, 对于含有某些不能模型化或者不能探明的粗差造成的结果可以提高一定的精度;因此, 可以认为主成分分析结果能很好的减弱精密单点定位过程中一些不能模型化以及一些难以消除的误差对定位结果的影响, 提高定位结果的精度。在精密单点定位过程中, 采用传统的无电离层模型, 它能够消除一阶电离层延迟影响和内部频率偏差。然而设备 (硬件) 延迟仍然存在, 其次, 组合观测值的观测噪声被放大了;传统的无电离层组合不能够消除高阶电离层影响。由此可以认为, 以前三个、前两个、前一个特征根为主成分进行定位结果反演具有一定的合理性和科学性, 进一步平滑定位结果, 减弱难以改正的误差对定位结果的影响具有一定的科学意义。从图2可以看出, 以前三个特征根 (贡献率98.7%) 为主成分进行反演, U分量结果从第2 330历元开始相对不理想。从主成分分析理论、贡献率原理以及误差对定位结果的影响进行分析, 反演结果具有一定的合理性, 可以认为, 以前三个特征根进行反演时, 包含了更加的误差信息, 从而影响了反演结果的精度。从图4, 图6可以看出, 以前一个、前两个 (贡献率分别为82.9%, 96.5%) 特征根为主成分反演的定位结果无论是U分量还是N, E分量的精度相比原始结果有了很大的提高, 从主成分理论以及贡献率原理进行分析, 认为在反演过程中, 对于含有误差项进行了忽略甚至剔除。

3结语

主成分分析算法的FPGA实现篇10

主成分分析是一种数据降维的有效方法,常用于网络入侵检测[1]、人脸识别[2]、图像处理、生物医学[3]等领域,它的优点在于只要求出各主成分就能进行数据降维,而且数据包含的信息丢失很少[4]。目前,主成分分析的研究主要停留在软件实现上,由于算法中涉及协方差、矩阵特征分析、线性空间投影等复杂计算,这成为硬件实现的瓶颈。主成分分析中特征分析的输入是原始数据矩阵的协方差矩阵,并且是一个对称矩阵。

本研究采用适合求取对称矩阵特征值和特征向量的Givens算法,结合CORDIC算法,只需移位和加法就能实现矩阵特征分析,同时将线性空间投影的模块复用于协方差计算。

1 主成分分析

主成分分析的主要思想是以某些线性组合(主成分)来表示原始数据,再从这些线性组合中尽快提取原始数据的信息[5]。它可用数学语言描述为:给定n维空间中的m个点(数据,如图像信息等),寻求一个n×n维的矩阵W,使得Y=[y1,y2,…,ym]=WTX,同时满足新坐标系下各维之间数据的相关性最小[6]。

假设数据为X=[x1,x2,…,xi,…,xm],维数为n,即,在下列所有运算中均有i∈[1,n],j∈[1,m]。

(1) 计算每维(行)数据的平均值 $\bar{x_{i}} = \sum_{j = 1}^{m} x_{i j}$ m,得到矩阵 $\bar{X}$ 。 (1)

(2) 中心平移每个数据得到矩阵X,即 $x_{i j} = x_{i j} - \bar{x_{i}}$ 。 (2)

(3) 计算协方差矩阵Sn×n,即 $S [a, b] = cov (x_{a}, x_{b}) = \sum_{k = 1}^{m} x_{a k} \cdot x_{b k}$ (m-1), (3)

其中a、b∈[1,n]。

(4) 对协方差矩阵进行特征分析,并将特征值按照由大到小的顺序排列,对应的特征向量也作相应排列。

(5) 取前d个特征值Λd=diag[λ1,λ2,…,λd]和特征向量Wd=[ω1,ω2,…,ωd],主成分可以由X在Wd上投影得到,即:

原始数据的重建为[7]:

$X = W Y + \bar{X} (5)$

2 矩阵的特征分析

矩阵的特征分析是主成分分析算法中的重要部分。本研究采用Givens算法和CORDIC算法求取矩阵的特征值和特征向量。

2.1 Givens算法

Givens算法是1958年由数学家Givens在Jacobi算法基础上改进并提出的[8]。算法通过向量旋转的方法把矩阵非对角线元素变换为0,数学描述为[9]:

X′=GT·X·G (6)

G被称作Givens旋转矩阵,定义如下:

$G (p, q, θ) = \underset{p q}{[\begin{matrix} 1 & \dots & 0 & \dots & 0 & \dots & 0 \\ 0 & \dots & c & \dots & s & \dots & 0 \\ 0 & \dots & - s & \dots & c & \dots & 0 \\ 0 & \dots & 0 & \dots & 0 & \dots & 1 \end{matrix}] \begin{matrix} p \\ q \end{matrix}} (7)$

其中,c=cosθ,s=sinθ。

选取适当的角度,依下式就能使某个非对角线元素xpq化为0:

tan2θ=2xpq/(xqq-xpp) (8)

经过k次旋转后,得到:

Xk=GkT…G2TG1TXG1G2…Gk, (9)

此时矩阵Xk已经近似对角化。记

则有:

因此,G可以认为是矩阵X的近似特征向量矩阵。

在计算特征值时,对单位矩阵I0进行同步的Givens旋转(旋转矩阵相同)即可求得特征向量矩阵。需注意的是,由式(9)、(10)可知,特征值的计算是进行双侧旋转,而特征向量的计算则是单侧旋转。

2.2 CORDIC算法

Givens算法虽然提供了矩阵对角化的有效手段,但三角函数以及开方等数学运算会增加硬件设计的复杂度,降低系统速度。然而,CORDIC(COordinate Rotation DIgital Computer)算法提供了一种易于硬件实现的方法,通过每次旋转一个小角度α(α=arctan2-i,i=0,1,2…),经多次迭代后完成角度θ的旋转,之所以选取这样的α值是为便于实现移位操作[10]。这个过程只需进行移位、加法等运算[11]。算法如下:

xi+1=xi-yi·di·2-i, (12)

yi+1=yi+xi·di·2-i, (13)

zi+1=zi-di·arctan2-i, (14)

其中,di=sign(zi)。

每次CORDIC旋转会形成一个缩放因子:

$Κ_{i} = \cos α = \cos (\arctan 2^{- i}) = 1 / \sqrt{1 + 2^{- 2 i}} (15)$

当CORDIC迭代n次完成一次Givens旋转时,缩放因子为:

$A_{n} = \prod_{n} 1 / \sqrt{1 + 2^{- 2 i}} \approx 0.607 25 (16)$

对单位矩阵I0进行和特征值计算同步的CORDIC旋转,即可求得特征向量矩阵。

3 实现主成分分析算法的硬件结构

整个系统由3个部分组成,如图1所示。

(1) 协方差矩阵模块Covariance。

根据式(3)求协方差矩阵。该模块涉及乘法、加法和除法。由协方差的定义可知标准化数据的协方差矩阵是对称矩阵,且所有对角线上的数据为1。所以若数据维数为n,则只需计算n(n-1)/2个数据。

(2) 矩阵特征分解模块EigenAnalysis。

特征分解采用Givens算法和CORDIC算法来实现,通过状态机控制旋转、迭代等操作,将矩阵近似对角化(非对角线元素近似为0),求得特征值和特征向量。考虑到系统的速度和面积,因为协方差矩阵是对称矩阵,只计算上三角元素,根据式(12)～式(14)可得以下迭代公式:

xpp(k+1)=xpp(k)+d(k)·2-k+1·xpq(k)+2-2k·xqq(k), (17)

xpq(k+1)=-d(k)·2-k·xpp(k)+(1-2-2k)xpq(k)+

d(k)·2-k·xqq(k), (18)

xqq(k+1)=xqq(k)-d(k)·2-k+1·xpq(k)+2-2k·xpp(k), (19)

xpj(k+1)=xpj(k)+d(k)·2-k·xjq(k), (20)

xiq(k+1)=xiq(k)-d(k)·2-k·xpi(k), (21)

其中,d(k)=sign(xpq(k))。

由于xpp、xqq和xpq均参与了行、列变换,最后要以2倍的缩放因子An进行缩放。

(3) 数据处理模块Post_process。

按照特征值由大到小的顺序对特征值和对应的特征向量进行排序,再根据式(4)进行投影。投影由矩阵的乘法和加法实现,每次取出一个特征向量和一维数据进行并行计算。通常在投影得到各主成分之后,将各主成分结合对应的特征值进行加权平均后得到综合分,即:

Z=[λ1,λ2,…,λn]·Y∑ $_{i = 1}^{n}$ λi, (22)

即

$z_{i} = \frac{λ_{1}}{\sum_{i = 1}^{n} λ_{i}} y_{1 i} + \frac{λ_{2}}{\sum_{i = 1}^{n} λ_{i}} y_{2 i} + \dots + \frac{λ_{n}}{\sum_{i = 1}^{n} λ_{i}} y_{n i} (23)$

对确定的系统来讲特征值是一定的,所以硬件实现时不需用除法,即:

协方差运算和线性空间投影都是类似的乘、加运算,所以将模块Post_process复用于协方差计算,以节省资源。

各模块硬件结构图如图2～图4所示(时钟信号未画出)。

4 实验数据与分析结果

实验数据采用18 bit定点数格式,仿真环境为ModelSim 6.2,FPGA综合环境为Synplify Pro 8.1,综合器件为XC2VP100,包含444个18×18 bit乘法器和44 096 Slices[12]。

实验以文献[5]第101页数据为例,在不同的数据维数下,对设计进行了验证和性能评估,数据如图5、图6所示。

由图5、图6可知,数据维数的变化使得占用资源数、乘法器数增加,这是因为Post_process模块和EigenAnalysis模块中占用的资源和乘法器数目增加了。同时因为系统对数据采用并行计算,即使占用资源增加,时钟频率也基本稳定在65 MHz。根据公式(26),在主成分分析之后,用户可根据精度要求选取前几个权重较大的主成分来实现数据降维,如文献[5]选取了前两个主成分。

5 结束语

本研究提出了一种可用于对不同维数数据进行主成分分析的FPGA实现方案。采用Givens算法只需移位和加法即可实现矩阵的特征分析,计算量小;单元复用减少了占用资源;系统对数据并行计算,时钟频率基本保持不变。

摘要：主成分分析(PAC)是一种典型的数据降维方法,它通过对数据矩阵的特征分析,将高维数据降为低维数据,而且转换后数据包含的信息损失很小。提出了一种主成分分析算法的FPGA实现方案,通过Givens算法和CORDIC算法的矢量旋转,用简单的移位和加法操作来实现协方差矩阵的特征分析,只需计算上三角元素,因此计算复杂度小、迭代收敛速度快;系统对结构相同但不同时处理数据的模块进行复用,节省了资源;在计算协方差矩阵和线性空间投影时对数据并行处理,所以系统时钟频率不受数据维数变化的影响。实验数据表明,该系统能实现对不同维数数据的主成分分析,时钟频率稳定,占用资源少。

关键词：数据降维,主成分分析,矩阵的特征分析,FPGA

参考文献

[1]NGUYEN D,DAS A,MEMIK G,et al.A ReconfigurableArchitecture for Network Intrusion Detection Using PrincipalComponent Analysis[C]//Proceedings of the 2006 ACM/SIGDA14th international symposium on Field programmablegate arrays.Monterey:CA,2006:235-235.

[2]NARAY,YANG Jian-ming,SUEMATSUY.Face Recogni-tion Using Improved Principal Component Analysis[C]//Proceedings of 2003 International Symposium on Microme-chatronics and Human Science.Nagoya:[s.n.],2003:77-82.

[3]Agilent Technologies.Principal Components Analysis[EB/OL].[2005-01-01].http://www.chem.agilent.com/cag/bsp/sig/downloads/pdf/pca.pdf.

[4]SMITH L I.A tutorial on Principal Components Analysis[EB/OL].[2002-2-26].http://csnet.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf.

[5]朱建平.应用多元统计分析[M].北京:科学出版社,2006.

[6]山世光.人脸识别技术综述[EB/OL].[2004-01-01].http://www.jdl.ac.cn/user/sgshan/courses/slides/HCI-sgshan-Part-09-AFR-survey.ppt.

[7]HOTELLING H.Analysis of a complex of statistical varia-bles into principal components[J].Journal of EducationalPsychology,1993(24):417-441,498-520.

[8]张贤达.矩阵分析与应用[M].北京:清华大学出版社,2004.

[9]WILKINSON J H.The algebraic eigenvalue problem[M].Britain:Oxford Science Publications,1999.

[10]ANDRAKA R.A Survey of CORDIC Algorithms for FPGAbased Computers[C]//Proceedings of the 1998 ACM/SIG-DA sixth international symposium on Field ProgrammableGate Arrays.Monterey:CA,1998:191-200.

[11]LIU Yang,BOUGANIS C,CHEUNG P Y K,et al.Hard-ware Efficient Architectures for Eigenvalue Computation[C]//Proceedings of the conference on Design,automationand test in Europe.Munich:European Design and Automa-tion Association,2006:953-958.

多元分析、主成分分析篇11

关键词：主成分分析信息贡献率特征向量综合评价指数

中图分类号：R155.5 文献标识码：A 文章编号：1672-5336（2014）06-0064-03

针对评价深圳市这三年各主要食品领域微生物、重金属、添加剂含量等安全情况的变化趋势的问题，我们首先确立指标体系，并对相关数据进行标准化处理，建立如下基于主成分分析的综合评价模型，并利用Matlab编程进行求解。

假设进行主成分分析的指标变量有个[1]，分别为，共有个评价对象，第个待评对象的第个指标值为，得到观测数据矩阵：。

将各指标值转换成标准化的指标值，有：

其中：

其中即和为第个指标的样本均值和样本标准差。对应地，称为标准化的指标变量。

根据公式概率统计以及线性代数的相关知识[2]可以知道：即为标准化的指标变量和的相关系数矩阵，相关系数矩阵中的元素

其中是第个指标与第个指标的相关系数，显然易见相关系数矩阵为是对称矩阵。

由上述相关系数矩阵的性质知道：相关系数矩阵为是实对称矩阵，因此相关系数矩阵进行特征分解得到[3]：，其中，是由相关系数矩阵的特征值组成的对角阵，是由的标准正交化的特征向量按列并排组成的正交矩阵，称为主成分载荷矩阵，它是用主成分指标变量表示中心标准化的原指标变量时的系数矩阵，即用矩阵可表示为：。由于主成分载荷矩阵是正交矩阵，所以满足，故又有，即可知：，可见的转置矩阵是用原变量表示主成分变量时的系数矩阵。

另外还可以知道矩阵为主成分得分阵，每行的数据就是对应各次观测对应的主成分变量的取值。因而主成分的样本协方差矩阵为

，由此可见主成分指标變量的样本方差就是特征值，且不同主成分之间的样本协方差都等于零。

为计算特征值的信息贡献率和累计贡献率，定义为主成分指标变量的信息贡献率；同时，有为主成分指标变量的累计贡献率。当接近于1（一般取）时，则选取前个指标变量作为主成分指标变量，代替原来的个指标变量，从而可以对个主成分指标变量进行综合评价[4]。

具体到本问题中时，我们定义了食品安全综合指数FSCI；

其中：为第个主成分指标变量的信息贡献率，根据食品安全综合指数FSCI，我们就可以实现对2010、2011以及2012年三年来深圳市主要食品领域食品质量安全的变化趋势。

为综合评价深圳市这2010、2011以及2012三年各主要食品领域微生物、重金属、添加剂含量等安全情况的变化趋势，我们确定了由微生物检测合格率、重金属检测合格率、添加剂含量检测合格率以及其他因素检测合格率四项所组成的评价指标体系，2010、2011、2012年食品质量安全水平组成的评价对象。为综合考虑三年的食品质量安全水平，我们主要以蔬菜、肉制品以及水产品三个食品领域作为指标变量数据获取的样本空间[5]，得到如下的表1，表1中各项数据为三个主要食品领域中不同年份四项检测指标的合格率情况。

注：此处仅考虑蔬菜、肉制品以及水产品三个主要食品领域的各项指标。

因此，指标变量主要食品领域微生物检测指标的合格率、主要食品领域重金属检测指标的合格率、主要食品领域添加剂检测指标的合格率、主要食品领域其他检测指标的合格率，得到相应的数据矩阵[6]为

对相关系数矩阵进行特征值和相应的特征向量求解，并计算各个特征值的贡献率和累计贡献率，如下表2：

由表2得到的主成分分析结果，可以利用主成分的贡献率作为综合评价指标的权重系数。由表中数据可以得知前两个主成分指标变量的累计贡献率就达到了100%，主成分分析效果较好。

主成分载荷矩阵，是由的标准正交化的特征向量按列并排组成的正交矩阵，即；进而可以得到表3——标准化的4个主成分指标变量对应的特征向量[7]。

由此可得2个主成分变量分别为：

据主成分系数可以看出第一主成分主要反映了前两个指标微生物、食品添加剂检测合格率的信息。第二主成分主要反映了重金属和其他因素两个检测指标对食品质量安全的影响信息，很好地将原始数据中相关性很高的指标变量转化成彼此相互独立或不相关的变量，很好地实现了降维；另外，由于数据获取主要来源于蔬菜、肉制品以及水产品三个主要食品领域，而这些食品领域食品不合格的主要原因在于微生物、食品添加剂含量检测不合格，与第一主成分主要包含前两个指标微生物、食品添加剂检测合格率的信息相符合[8]。

利用主成分载荷阵以及中心标准化的数据矩阵可以得到主成分得分阵，，如表4——评价对象的主成分得分阵

针对深圳市这2010、2011以及2012三年各主要食品领域微生物、重金属、添加剂含量等安全情况的变化趋势，我们定义了食品安全综合指数FSCI这个综合评价指数：

分别以4个主成分的贡献率为权重系数，构建主成分综合评价函数，即：

从而可以根据食品安全综合指数FSCI对2010、2011以及2012三年来各主要食品领域微生物、重金属、添加剂含量以及其他因素等食品质量安全情况的变化趋势进行综合评价。

根据表4——评价对象的主成分得分阵，将评价对象2010、2011、2012三年深圳市食品质量安全水平的4个主成分值代入上式，可以分别得到三年的食品安全综合指数FSCI，如表5——三年的食品安全综合指数FSCI。

由上表数据分析可以得知，若以蔬菜、肉制品以及水产品三个食品领域的食品质量来评价2010、2011以及2012年三年深圳市食品安全水平，2012年食品安全质量水平最高，由于四项检测指标合格率都优于2010和2011年，而2011年食品安全质量水平低于2010的主要原因在于占据很大贡献的第一主成分变量主要包含微生物和添加剂含量的主要信息，在这两项指标上11年的合格率都劣于10年，因此在蔬菜、肉制品以及水产品三个主要食品领域，10年的食品安全质量水平较11年高。

参考文献

[1]司守奎，孙玺菁，数学建模算法与应用，北京：国防工业出版社，2013.

[2]陆元鸿，数理统计方法，上海：华东理工大学出版社，2005.

[3]张小蒂，李晓钟.应用统计学导论，浙江：浙江大学出版社，1998.

[4]周乃元，潘家荣，食品安全综合评估数学模型研究，中国食品卫生杂志，第21卷第3期：198-202，2009年.

[5]刘振航.数学建模，北京：中国人民大学出版社，2004.

[6]梅长林，周家良.实用统计方法，北京：科学出版社，2009.

[7]肖智，钟波，应用统计学实验，重庆：重庆大学出版社，2007.

[8]姜启源，谢金星.数学模型，北京：高等教育出版社，2011.

基于区域核函数的主成分分析篇12

核主成分分析是一种非线性推广的主成分分析。大量结果显示[31], 核主成分分析法由于在非线性统计和高阶统计特征提取具有较好的效果, 相对于传统的主成分分析观测数据的特点, 具有更好的分类能力。传统的基于矢量的主成分分析和核主成分分析方法, 计算数字图像数据的特征的方法是, 所有二维图像数据计算出由一个堆积行的列向量, 进而对样本图像的列向量协方差矩阵奇异的整体值分解, 然后计算主成分投影, 最典型的例子是著名的面部识别, “特征脸”技术[32]。由上面的处理方法计算得到的图片, 二维图像数据的不足之处是, 图像矩阵堆叠成一个矩阵列向量的像素行后, 在图像之间的相关矩阵被破坏。而且, 传统的计算方法是, 核主成分分析通过非线性映射到高维特征空间进行整体改造, 然后得到向量的内积后 (内核功能) , 操作时并没有考虑到的图像区域或区域的相关信息。

在不考虑图像噪音的情况, 数字图像矩阵内部的相关性存在于每个矩阵点之间的像素周围。相对于某一个点的灰度 (或彩色) 值, 在这些地方的信息或者语义的蕴藏在相关性之间的知识经常要更大量一些[1]。如果能使用区域相关或图像数据分类或分析部分的知识, 和全部功能和特性并联合单独的图像像素, 方法可能比简单的图像功能或整体采用单个像素的方法更有效。

2、基于区域核函数的主成分分析

本文对图像数据的核分析方法常常在核主成分分析之前从图像数据的每一行累积成列向量。因此, 图像数据处理之后导致的结果是没有考虑矩阵点行和在同一行或相邻行矩阵之间的矩阵列中之间的联系[2]。一些文献开始关注这个问题, 文献[37]在研究支持向量机用于图像数据分类时, 针对支持向量机提出了一种局部核函数的思想, 并取得了比全局核函数要好得多的分类效果。该文的做法是[38], 首先选定一种像素邻域, 这样, 图像就可以由若干个邻域覆盖, 这些邻域可以交叠也可以不交叠, 图像矩阵就相应地变换为一个分块矩阵, 每一块就是邻域大小的像素块[3]。

然后根据每块来确定每个的核函数, 再将各功能块混合得到全部图像的核函数。本章和文献[39]的方法从图像矩阵的角度来看的不同是, 将相同的大小 (每个块之间没有重叠) 或块的窗口分割图像的像素矩阵。本文对 (1) 式做了变化从而来达到简化区域和混合内核的内核函数的计算的目的。所不一样的是, 对于图像列矢量的构造, 从每一行的每一列构造列矢量, 对列矢量的构造是一个矩阵块的积累, 而不是对矩阵点的操作, 因此最后构造出的仍然是一个矩阵的列积累, 如下式:

对于上式Y来说, 列矢量是根据行来累积的, 从而列矢量x就由全部矩阵累积而得到。因此不难得出, 由此得到的累积计算方式与普通的累积方式在核心上是完全一致的, 唯一的不同就是改变了列矢量的每一个组成部分的排列次序。而得出上述的累积计算方式, 可以便利计算一个混合内核的内积。

3、基于区域核函数的图像距离测度算法

基于区域核函数的距离测度算法步骤如下:

(1) 给出数据块的尺寸。将原设图像与目标图像的矩阵分解若干个数据块, 各个数据块按照行来累积成一个列矢量, 每个列矢量累积成一个列矢量。

(2) 抽取一个核函数, 求出原始图像及目标图像的核目标空间的协方差矩阵。

(3) 计算协方差矩阵的特征根和特征向量, 按照大小将特征值排序, 并取前几个 (按方差贡献率确定) 。

(4) 将计算得出的协方差矩阵的特征向量保存起来, 计算出目标图像与原始图像的特征向量的距离, 并按照大小进行排序, 得到距离最相近的目标图像就是检索图像。

根据数字图像模式数据的特点提出了一种基于区域核函数的图像距离测度方法, 用来提取二维图像模式数据的核距离, 对于以区域为基础的内核分析方法得到的图像矩阵二维主成分, 相对于传统的全局核核主成分, 得到的主成分的数字图像不同。基于区域的核主成分分析方法不仅包含了全局核主成分分析中二维数字图像矩阵的总体特征而且也包括了图像区域的特征。

参考文献

[1]刘甘娜.多媒体应用基础, 高等教育出版社, 2000年, 56-72

[2]徐望明.基于内容的图像检索技术研究[D].中国优秀硕士学位论文全文数据库, 2008, (06)

【多元分析、主成分分析】推荐阅读：

主成分分析07-21

改进主成分分析10-20

主成分分析技术11-19

主成分分析法10-15

SPSS主成分分析08-06

主成分与因子分析区别10-19

核主成分分析法06-02

主成分聚类分析09-10