主成分聚类分析

2024-09-10

主成分聚类分析(精选12篇)

主成分聚类分析 篇1

1 黄土中主量元素主因子分析

本文对黄土中主量元素氧化物和微量元素的含量进行了主因子分析, 选取特征值大于1的主因子, 并且剔除了绝对值小于0.3的数值。从方差极大正交旋转后的因子载荷矩阵中提取出3个主因子, 累计方差贡献为87.79%, 基本上能够代表整个剖面的的数据变化。

主因子F1的方差贡献率为49.97%, 明显高于其他因子, 是影响黄土沉积物地球化学组成的主要因素。因为正载荷元素较多, 为了方便对比本文选择正载荷较大的 (>0.7) 元素。正载荷的大于0.7的元素有Al2O3、Fe2O3、Mg O、Ca O、Mn O2、P2O5、Co、Ni, 其中主要包含了在表生环境下相对活跃的常量元素和微量元素, F1因子正载荷元素中Mn O2、Fe2O3、Co、Ni都属于铁族元素, 四者具有亲疏性, 且在沉积过程中经常共生在风化产物中富集。氧化物Fe2O3和Mn O2对沉积环境的氧化还原条件非常敏感。Ca O、Mg O、Al2O3和P2O5等都是相对活泼的氧化物, 风化作用下极易淋漓并迁移, 并极易受细粒粘土吸附或生物作用富集。该因子中的负载荷元素是Na2O是容易受到化学风化作用影响的氧化物, 而Si O2是黄土沉积物最主要的地球化学氧化物, Si O2含量的多少直接影响到其他元素的含量, 所以Si O2与其他常量氧化物均呈不同程度负相关, 即Si O2的“稀释剂”作用。因此推测F1反映了风化程度和沉积过程中的古气候变化。

第二主成分F2的方差贡献为27.42%。载荷绝对值大于0.7的元素有, K2O、V、Cr、Ba、Zn, 这其中包含表生环境下地球化学性质相对稳定, 且这些元素在火山灰层中都表现出了含量的异常性, 如Cr、V和Zn;以及化学性质活跃的K2O。因此第二主成分F2反映了外来沉积的影响, 其中活性成分反映了环境中物理、化学生物作用的变化。

第三主成分F3因子的方差贡献为10.40%, 元素载荷较大的有Mn O2、Pb、V、Ba、Zn、Cu, 该组元素大部分都属于陆源物质特征的标志, 说明该组分受陆源碎屑物质沉积作用影响较大, 反应来源是广泛的上部陆壳。

2 地球化学元素聚类分析

聚类分析是反映事物的相关性并把相关程度大的事物归为一类的数理统计方法。这种做法能够大大缩小以往全凭主观的判断所造成的误差, 使数据分析的结果更具客观性。本文应用R-型聚类分析方法, 将黄土元素进行分析。

如图1所示, 表现为黄土元素更可能是有相同的迁移和积累过程;Ⅰ组中的Ti O2和Zr是不易移动、难于风化相对稳定的元素, 在沉积物的源区多存在于相对较粗的风化物中, 是典型的亲碎屑元素。Ti O2和Zr两者相关性较好, 可能与土壤的沉积母质中金红石、锆石矿物有关。Co、TFe2O3、Mn O2、Ni、是具有亲铁性的元素, 相关性较好, 可以认为在剖面的形成过程中铁质矿物具有较为稳定的表生行为。据此可以判断这组元素可能受沉积母质影响较大的元素组合。第Ⅱ组元素中, V是周期表第五副族的第一个元素具有较强亲氧性。Ba为易淋溶元素, Ba的含量和沉积风化过程中元素淋失程度有关。第Ⅲ组只有Fe O一种元素, Fe O受土壤中的氧化还原条件影响较大。因此可以判断Ⅱ、Ⅲ元素组合是受氧化还原条件影响较大的元素组合。

3 结语

通过上述分析, 可以得出黄土沉积物化学组成主要受气候因子和外来沉积物物源因子控制, 在不同发生层化学组不同, 因子作用也会有差异, 因此算出因子在各发生层的得分, 可以作为反应沉积环境和物源的科学指标。

摘要:本文就是通过主因子分析方法在黄土常量和微量元素中, 找出几个对土壤性质起着决定性作用的因子。分析出在不同发生层化学组不同, 因子作用也会有差异, 因此算出因子在各发生层的得分, 可以作为反应沉积环境和物源的科学指标。

关键词:黄土,主要元素,主成分,聚类分析

参考文献

[1]Rudnick R L, Gao S.2004.The composition of continental crust[A].In:Rudnick R L.Treatise on Geochemistry, Vol.3, The Crust[C].Amsterdam:Elsevier Press, 1-64.

[2]Schaetzl, Randall, J.1998.Lithologic discontinuities in some soils on drumlins:theory, detection, and application.Soil Science, 163 (163) , 570-590.

[3]Takai Y, Kamura T.1966.Mechanism of reduction in waterlogged paddy soil[J].Folia Microbiol, 11:304-313.

[4]Topp S E, Salbu B, Roaldset E, et al.1984.Vertical distribution of trace elements in laterite soil (Suriname) [J].Chemical Geology.47:159-174.

主成分聚类分析 篇2

主成分分析:是把几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关的一种数学降维的方法。

全成分分析:是将送检样品中的原材料、填料、助剂等进行定性定量分析。塑料原材料种类,填料种类、粒径,助剂种类都能影响对产品的性能、寿命,通常是同一种原材料、同 一种填料,因为助剂种类的不同,造成产品性能大不相同。

主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实际问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太 多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主要目的是希望用较少的变量去解释原来资料中的大部分变量,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中变量的几个新变量,即所谓主成分,并用以解释资料的综合性指标。由此可见,主成分分析实际上是一种降维方法。

分析步骤

数据标准化;

一、求相关系数矩阵;

二、一系列正交变换,使非对角线上的数置0,加到主对角上;

三、得特征根xi(即相应那个主成分引起变异的方差),并按照从大到小的顺序把特征根排列;

四、求各个特征根对应的特征向量;

五、用下式计算每个特征根的贡献率Vi;

Vi=xi/(x1+x2+........)

六、根据特征根及其特征向量解释主成分物理意义。

主成分分析的基本思想

主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。

主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。

主成分聚类分析 篇3

关键词: 棉花品种;农艺性状;主成分分析;聚类分析

中图分类号: S562.03 文献标志码: A

文章编号:1002-1302(2015)08-0082-04

农作物的遗传多样性是其遗传改良的基础,也是核心种质构建及杂种优势群划分的重要依据 [1]。目前,中国棉花新品种培育仍以杂交育种为主,研究棉花资源的特性及分类是选配杂交亲本的基础。利用主成分分析在水稻 [2]、小麦 [3]、玉米 [4]、大豆 [5]、棉花 [6-7]等作物研究应用较多,为育种工作者对某些性状的选择和改良提供了依据,提高了选择效率,但将主成分分析与聚类分析相结合综合评价棉花种质资源的报道甚少,为拓宽黄河流域棉花的遗传基础,提高其遗传多样性,丰富杂交育种的亲本资源,本研究在对黄河流域102个棉花品种的9个农艺性状在主成分分析的基础上进行聚类分析,研究棉花遗传多样性,旨在客观评价上述品种,为棉花育种材料的选择提供参考依据。

1 材料与方法

1.1 材料

棉花品种由中国农业科学院棉花研究所、河南省农业科学院经济作物研究所提供,共102个品种,品种名称及编号见表1。

1.2 方法

1.2.1 田间种植 2013年,将102份材料种植于河南省农业科学院原阳试验田。试验采用随机区组设计,3次重复,每小区2行,行长4.5 m,行距0 .9 m,株距0.3 m,田间管理方法与当地常规种植相同。

1.2.2 性状调查及分析 每小区选取中间有代表性的棉花10株,考察性状有株高、营养枝、第一果枝着生节位、果枝数、单株铃数、单铃质量、衣分、籽指、生育期9个性状,数据利用Excel和DPS软件进行方差分析、主成分分析、聚类分析。

2 结果与分析

2.1 农艺性状方差分析

对102个棉花品种的生育期、株高、营养枝、第一果枝着生节位、果枝数、单株铃数、单铃质量、衣分、籽指进行方差分析(表2),结果表明,品种间9个农艺性状差异均达到极显著水平,均可以进行主成分分析。

2.2 农艺性状间相关性分析

相关分析结果(表3)表明,黄河流域棉花品种生育期与营养枝、第一果枝着生节位、单株铃数,株高与营养枝、第一果枝着生节位、单株铃数,单铃质量,第一果枝着生节位与单株铃数,果枝数与单株铃数,单株铃数与衣分呈极显著正相关;生育期与株高,株高与果枝数,营养枝与单铃质量,第一果枝着生节位与单铃质量、衣分呈显著正相关;营养枝与果枝数,第一果枝着生节位与果枝数,衣分与籽指呈极显著负相关。表明棉花品种株高越高相应的营养枝、果枝数、单株铃数增多,单铃质量提高,生育期延长;棉花品种第一果枝着生节位较高,生育期延长,营养枝较多,单株铃数增多,单铃质量提高,衣分也会上升;同一品种的籽指越大,相应的衣分就会降低,导致皮棉产量下降。

2.3 主成分分析

主成分分析结果表明,9个农艺性状中前5个特征值的累积贡献率达88.34%,说明棉花性状的相关信息可以由前5个主成分来概括(表4)。选取前5个主成分及特征向量列表5,特征向量的大小表示供试品种各农艺性状对主成分贡献的大小。第1主成分特征值为3.091,相应贡献率为34346%,从表5第1主成份中第一果枝着生节位特征向量值最大,说明第一果枝着生节位对第1主成分影响最大,其次是营养枝,因此,可以将第1主成分称为第一果枝着生节位因子,第1主成分值增大,第一果枝着生节位增高,营养枝增多,生育期延长。第2特征值是1.668,贡献率是18.528%,从表5可以看出[CM(25],第2主成分中果枝数的特征向量最大,其次是单株铃数,

说明果枝数对第2主成分影响较大,称之为果枝数因子,当品种的果枝数越多,单株铃数越多,单铃质量和衣分越大,产量就越高,而相应的第一果枝着生节位降低,营养枝减少,生育期缩短。第3个主成分特征值为1.345,贡献率为14945%,其中籽指的特征向量最大,其次是株高和果枝数,因此将第3个主成分称之为籽指因子,当品种的籽指增大,相应的株高增高,果枝增多但衣分降低,生育期缩短,因此第3个主成分值不宜过大。第4个主成分特征值为0.987,贡献率为10970%,第4个主成分中单铃质量的特征向量最大(负值),说明单铃质量对第4主成分影响最大,其次是单株铃数和生育期,因此第4个主成分为单铃质量因子,单铃质量减少,相应的株高和果枝节位降低,营养枝减少,单株铃数和果枝数增多,生育期延长。第5个主成分特征值为0.860,贡献

率为9550%,第5个主成分中生育期的特征向量最大,因此称之为生育期因子,生育期延长,则相应品种果枝数,单株铃数、单铃质量增加。

2.4 棉花品种聚类分析

本研究利用主成分将9个性状在保留它们变异总信息量88.34%的前提下浓缩为5 个主成分,然后利用5个主成分和各性状的标准化值计算各个棉花品种相对应的5个主成分得分进行R型聚类分析,采用离差平方和法进行系统聚类分析。结果表明,当欧式距离在9.81时可以将102个棉花品种划分为6大类(图1)。

第1类群包括中棉所12、晋棉19号、豫棉3号、鲁棉21、鑫秋1号、鲁棉研21、鲁棉研22、鲁棉研17号、冀棉228、晋棉38、鲁棉32、鲁棉研27、鲁棉26、鲁棉研36、鲁棉29、鲁棉研16、鲁K638、银山4号、中棉所44、晋棉36号、鲁棉37、鲁棉研28、鲁棉22、鲁棉研32共24个品种,对农艺性状分析结果,第1类属于株高较高、营养枝和果枝较多、第一果枝着生节位最高、结铃性好、衣分最高、产量最高的一类品种(表6)。

nlc202309011505

第2类群包括中棉所21、中棉所23、中棉所41、郑农棉4号、中棉所30、中棉所35、晋棉13、中棉所3474、鲁棉研29、豫棉5号、中棉所40、中棉所69共12个品种,对农艺性状分析结果,第2类属于植株较高、生育期较长、营养枝和果枝较多、结铃性好、籽指偏大、衣分较低的一类品种。

第3类群包括中棉所22、中棉所33、中棉所32、豫棉19号、银山8号、银山6号、中棉所49、豫棉4号、鲁棉27、豫棉17、新研96-48、晋棉12号、豫棉21、中棉所51504、豫棉15号、中棉所8010、冀邯3号、豫棉18、豫棉2号、豫棉1号共 21个品种,第3类属于植株较低、生育期较长、果枝和结铃数少、单铃质量低、衣分一般、产量较低的一类品种。

第4类群包括冀棉26、冀合321、冀棉91-19、冀棉19、冀958、中棉所34、冀棉25、豫棉16、冀棉15、冀棉20、冀棉169、冀668共12个品种,通过性状分析第4类品种属于植株中等、生育期适中、果枝数和结铃性一般、单铃质量最大、衣分较高的一类品种。

第5类群包括中棉所24、中棉所43、中棉所79、鑫秋4号、中棉所25、中棉所31、冀棉28、邯4849、鲁棉研19、鲁棉28、鲁研棉18、中棉所45、豫棉20、冀棉668、豫棉668、豫棉112共16个品种,此类品种属于植株中等、生育期适中、营养枝较少、果枝多、结铃较好、单铃质量与籽指较低、衣分和产量高的一类品种。

第6类群包括冀棉27、晋33、晋742、晋棉16、晋27、秋乐5号、晋棉18号、晋棉17、晋棉21、晋棉24、晋棉20、晋中200、晋棉26、晋棉25、晋棉28号、晋棉29、晋棉14、晋中169共18个品种,此类品种属于生育期短、营养枝较少、第一果着生枝节位较低、结铃少、衣分和产量都较低的早熟品种。

从聚类分析结果可以看出,来自中国农业科学院棉花研究所的23个品种有20个品种主要分散聚集在第2、第3、第5类群中,分别有8、6、6个品种,说明所育成品种遗传多样性较丰富,而其他来自同一地区的品种往往聚集在一起,如鲁棉系列共22个品种,有16个品种在第1类群,在2、3、5、6类群中则分别有1、1、2、1个品种;冀棉系列共16个品种,有11个品种在第4类群,在1、3、5、6类群中则分别有1、1、2、1个品种,说明同一来源地品种亲缘关系较近。在杂交育种亲本选择及杂交优势利用上,不能仅仅只关注品种的来源地,从不同类群进行亲本组配成功率可能会更大一些。

3 讨论

遗传多样性是新品种亲本选配和杂种优势利用的基础,种质资源表型多样性一直是育种工作者搜集材料的核心问题。目前,利用分子标记研究种质资源的遗传多样性与其表型多样性难以对应的阶段,从表型角度了解种质资源的遗传多样性具有不可替代的地位 [8-9]。高产一直是育种工作者追求的目标,但与产量相关的性状较多且相互之间存在相关性,育种工作者往往仅关注与目标性状相关的少数性状,如果仅凭少数性状的表现型对种质资源进行评价,然后进行亲本选配必定带有主观性;主成分分析法中的每个主成分是一个相对独立的指标体系,各个主成分之间不存在相关性且数值直观容易分析 [10]。本研究对来自黄河流域102份品种的9个农艺性状进行主成分分析和聚类分析,结果表明,9个农艺性状之间均表现显著差异,说明这些品种之间差异较大;主成分将9个性状在保留它们变异总信息量88.34%的前提下浓缩为5 个彼此不相关的主成分,即第一果枝着生节位因子、果枝数因子、籽指因子、单铃质量因子、生育期因子,在此基础上利用5个主成分和各性状的标准化值计算各个棉花品种相对应的5个主成分得分进行聚类分析,102个棉花品种被划分为6个类群,其中第1、第5类群品种产量综合性状较好。

本研究聚类分析结果,中棉所23与中棉所25分别属于不同类群,本结论与王沛政等的研究结果 [11]不一致,可能与利用性状研究种质资源遗传多样性时,其遗传距离计算受基因型、环境、聚类方法以及聚类分析所依据的性状有关,因此利用相同的种质资源可能会得出不同的聚类结果,这可能是通过农艺性状聚类相似度较低的原因 [12]。本研究中除来源于中国农业科学院棉花研究所的品种外,其他来自同一地区的品种亲缘关系较近,往往聚集在一起,这可能与育种单位培育新品种时选配亲本的遗传基础狭窄有关。有些品种虽然来源于不同地区,但聚集在一类群,说明棉花品种的遗传差异与地理位置的远近无关,与前人研究的结果 [13]一致。因此,在杂交育种亲本选择及杂交优势利用上应考虑在不同类群选择,而不必考虑地理位置,这样组配成功率可能会更大一些。

参考文献: [HJ1.75mm]

[1] 李慧峰,车 根,李林光,等. 果树资源遗传多样性研究进展[J]. 山东农业科学,2009(5):32-35,40.

[2]殷延勃,马洪文,荣韫琛,等. 宁夏水稻主要农艺和品质性状的因子分析[J]. 西北农业大学学报,1999,27(2):38-42.

[3]康立宁,魏益民,欧阳韶晖,等. 小麦品种品质性状的基因型因子分析[J]. 西北植物学报,2004,24(1):120-124.

[4]杨国虎,冯 前,罗湘宁,等. 玉米杂交种耐旱性状的因子分析[J]. 干旱地区农业研究,2005,23(1):138-143.

[5]周以飞. 不同生境下菜用大豆产量与品质性状的因子分析[J]. 福建农林大学学报:自然科学版,2005,34(3):282-285.

[6]韩 路,曹新川,胡守林,等. 海岛棉数量性状的因子分析[J]. 江西棉花,2005,27(3):26-29.

[7]陈荣江,朱明哲,孙长法. 棉花新品种产量品质性状的综合评价及聚类分析[J]. 西北农业学报,2007,16(4):264-268.

[8]He D H,Xing H Y,Zhao J X,et al. Genrtic diversity analysis and constructing core collection based on phenotypes in cotton[J]. Agricultural Science & Technology,2010,6(10):57-60.

[9]王林海,王晓伟,詹克慧,等. 黄淮麦区部分小麦种质资源农艺性状的聚类分析[J]. 中国农学通报,2008,24(4):186-191.

[10] 庄萍萍,李 伟,魏育明,等. 波斯小麦农艺性状相关性及主成分分析[J]. 麦类作物学报,2006,26(4):11-14.

[11]王沛政,陈爱民,阿布来提,等. 不同来源陆地棉数量性状主成分及聚类分析[J]. 西北农业学报,1999,8(4):50-52.

[12]董承光,李成奇,李生秀,等. 棉花种质资源主要农艺性状的综合评价及聚类分析[J]. 新疆农业科学,2011,48(3):425-429.

主成分聚类分析 篇4

中国西部地区包括重庆、四川、贵州、云南、西藏自治区、陕西、甘肃、青海、宁夏回族自治区、新疆维吾尔自治区、内蒙古自治区、广西壮族自治区等12个省、自治区、直辖市, 面积685万平方公里, 占全国国土面积的71.4%[1]。西部地区疆域辽阔, 有着丰富的自然资源、旅游资源、地质资源和廉价劳动力资源, 但和发达的东部沿海地区相比, 西部大部分地区人口较为稀少、气候恶劣、土壤贫瘠、水资源缺乏, 经济基础较为薄弱。

由于受这些因素的影响, 加上我国改革开放以来, 投资重点放在东部沿海地区, 造成了东西部地区之间发展的极度不平衡, 拉大了两大地区之间的经济差距。中国政府于1999年做出了西部大开发的重大战略性决策, 意在实现东西互动, 促进西部发展, 缩小区域差距, 这为西部地区高速发展提供了一次难得的机遇[1]。但由于西部包括12个省区, 各省区之间发展也不平衡, 为了有重点、有针对性地开发西部, 就必须客观、准确地分析西部各省区的社会经济发展状况, 找出各省区间经济发展不平衡的原因, 从而做出正确决策, 促进各省区之间经济的协调发展。这不但在理论上, 在实践上, 对我国都有现实的指导意义。

2 评价方法

2.1 评价方法的选取

如何科学、综合地评价一个地区的经济实力是统计界十分关注的问题。相关文献也提出了许多各具特色的评价方法, 如采用层次分析法、德尔菲法来进行评价[2,3], 此类方法虽然能够反映经济实力的核心指标, 但由于主观认识的差异以及变化的内涵和外延不是很明确, 其概念具有模糊性, 从而导致不能对各地区的经济实力进行定量分析。也有文献提出了模糊综合评价法[4], 这种方法虽然评价过程较为综合客观, 评价结果也更符合实际。但缺点是计算非常复杂, 尤其是当指标过多时, 评价异常困难。很多文献也提出了用主成分分析法进行评价[5,6], 主成分分析是将多个指标化为少数几个不相关的综合指标, 并最大限度反映原来指标信息的一种多元统计分析方法 (信息量一般在85%以上) [7]。其优点在于它使多维变量降维, 从而简化数据结构, 给分析问题、研究问题带来方便, 而且其得出的综合指标 (主成分) 之间相互独立, 减少了信息的交叉。但在实际应用中, 由于第一主成分在所有原始变量中方差最大, 因而综合评价函数的方差总不会超过第一主成分的方差, 评价结果有一定的片面性[8]。还有的文献采用聚类分析法[9], 聚类分析方法是按着描述事物性质的变量之间的“亲近”程度进行分类的一种方法, 这类方法尽管可以将多指标 (变量) 的数据进行很好的分类, 但并不能得到各类指标之间的优劣程度的评价结果。

针对这些问题, 本文采用“主成分聚类分析法”对我国西部地区的经济实力进行定量化的综合评价, 即先做主成分分析, 再取若干主成分对样品进行聚类分析, 结合第一主成分得分排序对样品进行分类排名。

2.2 评价算法

设有n个观测对象, 每一对象有m个指标因子xj (j=1, 2, …, m) , 所得观测值为xij (i=1, 2, …, n) , 构成原始数据矩阵X= (xij) n×m, 每一样本有m个指标因子xj (j=1, 2, …, m) , 所得观测值为xij (i=1, 2, …, n) , 构成原始数据矩阵X= (xij) n×m。

(1) 将原始数据标准化。

为了使综合评价的结果客观、合理, 必须消除数量级和量纲不同带来的影响, 通常采用的是标准化处理 (标准化处理后的值为xij*) :

xij*=xij-xj¯Sj (1)

式中:xj¯Sj分别为第j个指标的样本均值和标准差, 且

xj¯=1ni=1nxijSj=[1n-1i=1n (xij-xj¯) 2]1/2 (2)

(2) 计算指标的相关矩阵。

在标准化数据矩阵X*= (X*ij) 的基础上, 计算原始指标的相关系数矩阵R= (rij) m×m。其中, rij是xi指标与xj指标之间的相关系数, 且

rij=1n-1k=1nxki*xkj*=k=1n (xki-xi¯) (xkj-xj¯) k=1n (xki-xi¯) 2 (xkj-xj¯) 2

其中, i, j=1, 2, …, m (3)

(3) 计算相关矩阵的特征根和特征向量。

计算特征方程|R-λI|=0, 求出所有的特征根λ1≥λ2≥…≥λn≥0, 相应特征向量tj= (t1j, t2j, …, tmj) 。

(4) 确定主成分的个数。

当前r的个主成分的累计贡献率G (r) =k=1rek达到85%时, 在已确定的全部m个主成分中选择前r个来进行评价分析。

(5) 求n个观测对象在前r个主成分上的得分。

主成分得分是已标准化的原始数据在主成分所定义的新坐标系中的新数据, 即

Yj=k=1mtkjxk*j=12r (4)

(6) 对新数据 (Y1, Y2, …, Yr) 进行聚类分析

根据前r个主成分的得分进行聚类分析, 确定每个样品的排序, 并进行综合评价。

2.3 指标的选取

一个地区的社会经济发展状况是多方面的, 任何单项指标都无法全面而客观地反映该地区的规模、效益以及结构水平。我们通常利用指标体系从不同侧面对一个地区进行全面的评价。但运用的指标也不应过多, 否则在评价过程中工作量会大大增加, 同时也会淡化主要指标的作用。因此如何选取典型的指标变量来反映地区经济实力是一个关键性的问题。

目前国家层面开展的地区经济实力评价标准主要有三种:一是在2003年第三届全国百强县的评选中依据22个指标建立的评价体系[10]。二是由《经济日报》和《经济》杂志推出的2003年中国31省区区域经济实力排行榜中采用五大类15个指标描绘我国新经济图景[11]。三是国家统计局自2002年9月至今连续六年采用10项主要经济指标反映西部地区的经济发展[12]。

经过分析和比较, 本文认为国家统计局的指标更具有权威性, 故选用国家统计局的10个指标进行评价, 包括地区生产总值X1、工业增加值X2、固定资产投资X3、地方财政一般预算收入X4、地方财政一般预算支出X5、海关进出口总额X6、社会消费品零售总额X7、居民消费价格指数X8、城镇居民人均可支配收入X9、农村居民人均现金收入X10这10项指标。

3 西部地区经济实力分析

3.1 分析过程

本文选取2007年度西部地区10项指标相关数据作为分析样本, 使用SPSS (16.0) 软件作为统计分析工具, 利用其自有数据标准化功能, 自动对表1中10个指标的原始数据进行标准化处理, 并得到各指标之间的相关系数矩阵R (略) 及相关系数的特征值、贡献率、累计贡献率 (如表2所示) 。

由表2可知, 相关系数的前两大特征根分别为:7.0005, 1.668, 前两个公共因子的累计贡献率为86.732%。根据累计贡献率大于85%的原则, 可以认为原来的10个指标能够综合成2个主因子, 作为评价我国西部地区经济实力的主成分。

提取的2个主成分的载荷矩阵如表3所示, 第一个主成分F1在ZX1 (地区生产总值) 、ZX2 (工业增加值) 、ZX3 (固定资产投资) 、ZX4 (地方财政一般预算收入) 、ZX5 (地方财政一般预算支出) 、ZX6 (海关进出口总额) 、ZX7 (社会消费品零售总额) 、ZX9 (城镇居民人均可支配收入) 和ZX10 (农村居民人均现金收入) 这9个变量上的荷载值都很大。因此F1主要是全社会经济效益的综合反映。第二主成分F2中ZX8 (居民消费价格指数) 的系数远大于其他变量的系数, 因此F2主要反映了物价变动对人民生活的影响, 并用它来反映消费能力程度。

数据来源:《中国2008年统计年鉴》[13]

通过Fi=a1iX1+a2iX2+…+amiXm, 可以计算出前两个主成分的得分, 对样品进行第一主成分排序, 由于第一主成分的贡献率没有超过85%, 如果仅按照第一主成分得分来排序的话, 信息量不够大, 会有片面性。因而进一步利用SPSS软件再对已选定的第一主成分和第二主成分得分进行聚类分析, 本次聚类采用分层聚类过程, 聚类方法采用类间ward法1, 距离测度采用Euclidean distance2, 得到系统聚类分析的谱系图 (如图1) 。最后结合各主成分得分, 通过各主成分的方差贡献率占两个主成分总方差贡献率的比重作为权重进行加权汇总求出综合得分。以这个综合得分的大小进行排序, 可以得到中国西部地区经济实力排序表 (见表4) 。

为了更好的比较各类地区间、各省区间的经济实力, 使结论更加直观、清晰, 本文分别求出三类地区的主成分聚类平均得分。设第一类地区的主成分聚类平均得分为P1, 第二类地区的主成分聚类平均得分为P2, 第三类地区的主成分聚类平均得分为P3, 计算结果如下:

P1=4.824

P2= (1.552+1.087+0.967+0.472+0.790+0.042) /6=0.818

P3=[ (-0.884) + (-1.130) + (-2.322) + (-2.323) + (-3.074) ]/5=-2.472

4 结果分析

从主成分聚类分析综合得分可以看出, 西部地区中, 四川的主成分聚类得分为4.824, 远远高于其他省区, 排在第一位;内蒙古、广西、陕西、云南、重庆、新疆依次排在2—7位, 这些省区的主成分聚类得分皆大于0, 分别为1.552、1.087、0.967、0.790、0.472、0.042。而贵州、甘肃、宁夏、青海和西藏五个省份的主成分聚类得分都小于0, 分别为-0.884、-1.130、-2.322、-2.323、-3.074, 排在8—12位。

从第一主成分排名和综合排名可以看出, 二者的排名仅在重庆和云南的排序上产生了差别。从重庆和云南的经济指标上看, 在居民消费价格指标上, 云南要超过重庆, 所以云南的排名应该要比重庆的高。也就是说, 在第一主成分没有超过85%时, 其排名可能不够准确, 借助主成分聚类分析来确定排名更为合理。

从聚类分析谱系图看, 西部地区经济实力大致可分为三类:

第一类为四川, 仅1个省。

第二类为内蒙古、广西、陕西、重庆、云南、新疆, 共6个省区。

第三类为贵州、甘肃、宁夏、青海和西藏, 共5各省区。

聚类分析结果表明, 第一类地区经济实力最高;第二类地区经济实力一般;第三类地区经济实力较弱。

将主成分聚类分析的综合得分和聚类分析分类结果相结合来看, 可得出如下两点结论:

(1) 各类地区间经济实力差距较大。第一类地区四川, 主成分聚类平均得分为4.824, 远远高于其他两个地区的得分, 在构成要素的10个指标中, 有7项排首位 (占70%) , 而其余三项指标居民消费价格指数、城镇居民人均可支配收入、农村居民人均现金收入也均排在前四位。故其第一主成分、第二主成分的得分都很大, 综合实力排列第一。可见具有相对雄厚的经济实力, 在西部地区中经济发展水平最高, 故应继续发挥其示范、辐射和带动作用, 推动整个西部地区高速发展。

在第二类地区中, 虽然各省区的第一主成分得分和主成分聚类得分的数值在西部地区都处在中间的位置, 但与第一类地区相比较, 第二类地区的差距较大, 其主成分聚类平均得分仅为0.818, 还不及第一类地区分值的五分之一。可以看出, 这类地区虽然已有一定的经济基础, 但经济实力一般, 故应利用这类地区已有的经济基础加大对科技的投入, 并大力发挥其技术优势, 发展新兴产业, 来提高其实力。

与第一、第二类地区相比较, 第三类地区的主成分聚类平均得分更小, 仅为-2.472。这说明这类地区经济基础弱, 综合水平低, 与其他省份相比各方面的差距较大, 要赶上平均水平, 只有靠国家的政策扶持和这些省份的自身优势特点结合起来, 并加大基础设施的投资, 为经济的发展打下较好的基础, 以提高其整体经济水平。

(2) 地区内各省区的经济发展水平也有较大差异。

第一类地区仅包括四川一个省份, 不存在地区内的差异问题, 故不作分析。

在第二类地区中, 内蒙古的主成分聚类得分最高, 远超过本地区平均得分。内蒙古在城镇居民人均可支配收入、农村居民人均现金收入两个指标排在西部地区的首位, 地区生产总值、工业增加值、固定资产投资、地方财政一般预算收入四个指标仅次于四川排在第二位, 地方财政一般预算支出指标排在第三位, 故其综合得分远高于其他省区, 排在第二类地区的首位。而新疆尽管在海关进出口总额指标的数值较高, 但其余九个指标的数值相对第二类地区各省区都很低, 故其综合得分远低于其他省区, 排在第二类地区的末位, 从各省区的分差可以看出, 第二类地区中各省区的经济发展并不均衡, 其中新疆的经济实力与内蒙古差距最大, 之所以仍然把内蒙古与新疆归为一类, 是由于四川在各项指标中的数值很大, 内蒙古与四川差距更大。

在第三类地区中, 贵州、甘肃、青海仅在居民消费价格指数指标的值相对较高, 其他九项指标的值很低。而宁夏、西藏在十项指标的值都很低, 各方面发展均滞后。从主成分聚类得分可以看出, 这类地区属于我国最不发达地区。虽然这类地区中各省区经济发展均很落后, 但省区间经济实力的差距仍然很大, 其中贵州与西藏差距最大, 贵州虽然各项指标都很低, 但在这类地区各省区中还算相对较好, 而西藏在经济实力最弱的第三类地区中, 各项指标仍属最低, 排在末位, 故其为我国最不发达的省份。

5 结束语

主成分聚类分析法是对主成分分析与聚类分析方法的综合利用, 利用主成分分析的结果作为聚类分析的样本矩阵, 不仅减少了数据的冗余信息, 使得聚类计算较为简单, 而且原理清晰, 所得结论客观实际, 可靠性强, 利用该方法对西部地区经济实力进行综合评价, 其分析结果与实际较为符合。因此, 可以将该方法应用于经济发展水平的评价研究, 为经济实力评价提供合理、科学的依据。

主成分聚类分析 篇5

水化学成分聚类法分析干旱区地下水补给

以巴丹吉林沙漠及邻区为例,基于距离空间基本原理,对水样化学成分进行了离散性、主成分和相关性分析,指导样品数据采集和化验.计算结果表明,祁连山冰川融水自身化学成分在该地区聚类最高,多次聚合说明祁连山冰川融水是该地区地下水补给源.由聚类图推测:祁连山冰川融水通过地下首先经过诺尔图,然后到达古日乃和拐子湖;古日乃和拐子湖地下水某些样品聚合距离大,可能是由黑河水渗入引起的,少量黑河水可通过古日乃渗入拐子湖引起地下水成分变化;没有迹象显示黑河水补给巴丹吉林沙漠(以诺尔图为代表)地下水.

作 者:王新建 陈建生 WANG Xin-jian CHEN Jian-sheng 作者单位:河海大学岩土工程研究所,江苏,南京,210098刊 名:水资源保护 ISTIC PKU英文刊名:WATER RESOURCES PROTECTION年,卷(期):21(5)分类号:X832关键词:聚类分析 水化学 主成分分析 地下水 巴丹吉林沙漠 干旱区

主成分聚类分析 篇6

关键词 橡胶树 ;适宜性 ;种植 ;主成分分析

分类号 S794.1

Abstract This paper selects the soil and climate resources, according to the previous research results and the expertise to determine the evaluation factor. Use the fuzzy mathematical method to quantify the evaluation factors, and then evaluated the planting suitability of rubber in Danzhou City by the method of principal component analysis. The results showed that the most suitable area for rubber planting is 43 029.58 ha, accounting for 14.99 % of the total agricultural land in Danzhou City; the suitable area for planting is 57 770.90 ha, accounting for 20.12 %; the less suitable area for planting is 40 934.9 ha, accounting for 14.26 %. The evaluation results not only bring the maximum benefit of the rubber at the macro, but also provide a reference for the zoning of the rubber plantations in Danzhou City.

Keywords rubber tree ; suitability ; planting ; principal component analysis

橡胶是关乎国计民生和国防安全的重要战略物资,是四大工业原料中唯一可再生的资源[1]。海南省是我国最大的天然橡胶生产基地,橡胶产业不仅是海南农民的重要经济来源,也是海南省的基础产业、支柱产业和优势产业[2]。随着我国人民的生活水平日益提高以及经济全球化和区域经济一体化,人们对天然橡胶的需求随之增加。面临国际市场的竞争,如何在有限的土地上将橡胶的效益最大化,且最大限度地保护土壤资源、挖掘农业资源的潜力,已成为橡胶生产管理部门迫切需要解决的问题[3]。虽然近年来海南橡胶种植的发展势头良好,但是在橡胶种植生产中还存在着一些问题:有些农户仍然过着靠天吃饭的日子或者凭着经验从事橡胶生产,有些农户由于文化素质较低而大量的施肥以片面地追求产量。这些生产模式并非是最好的,还忽略了生态效益;再有儋州市的橡胶实际种植面积及产量位居海南省(农垦除外)第一,但是平均产量却位居全省第六[4]。为了实现橡胶产量的提高,且在不增加种植面积的情况下,增加橡胶的总产量,这就要求逐步提高橡胶的单产。因此,因地制宜地种植橡胶已成为海南橡胶种植管理的热点。

鉴于上述原因,本研究针对海南省儋州市的橡胶种植进行了适宜性分析评价,以提高橡胶的单产,实现橡胶生产的经济效益最大化,增加农民的收入。通过橡胶种植的适宜性评价为橡胶种植区划作出理论依据,为农业管理者提供科学准确的区划参考。

1 材料与方法

1.1 材料

儋州市位于海南岛的西北部,是海南省土地面积最大、人口最多的市(县级市),它濒临北部湾,地处东经108°56′~109°46′,北纬19°11′~19°52′,是海南西部的经济、交通、通信和文化中心。儋州市陆地面积3 265 km2,人口106.86万(2010年底)[4]。由于地处东亚大陆季风气候的南缘,属热带季风气候。年平均气温23.3℃,年平均日照时数在2 000 h以上,西部沿海日照达2 500 h左右;降雨量充沛:全市各地降雨量为900~2 500 mm/a,平均降雨量为1 800 mm/a;全市全年雨量分布不均,冬春季节雨量稀少,夏秋季节雨量充沛。全市地表年径流量达到189亿m3。全市全年水热资源丰富,适宜多种农作物生长繁殖。2010年全市热带作物面积46 646 hm2,其中橡胶种植面积45 605.07 hm2[4]。

空间数据:1∶50 000儋州市行政区界图、土壤类型图、土地利用现状图、数字高程模型等;

文本数据:儋州市气象统计数据、儋州市“测土配方施肥”项目的采样调查分析结果,包括采样点坐标、基本情况、土壤农化分析数据,以及儋州市其他相关资料与数据。

1.2 数据处理方法

数据处理软件:SPSS 统计分析软件、GIS 地理信息系统软件。

2 结果与分析

2.1 基于主成分方法的橡胶种植适宜性评价

2.1.1 评价单元的划分

评价单元是橡胶种植适宜性评价的最基本单元,本研究的评价单元划分采用土壤图、土地利用现状图、行政区划图叠置构成。相同的土壤类型、土地利用现状及行政区划组成一个评价单元,以便于评价结果的应用。其中土壤类型划分到土属,土地利用现状提取农用地,行政区划划分到行政村。通过叠加分析处理后得到儋州市的11 761个评价单元。

nlc202309011624

2.1.2 评价指标的选取及量化

参评的指标主要分为两类:一类是连续型指标(即定量化的指标),包括土壤养分值、土层厚度、容重、风速、降雨量等;一类是离散型指标(即定性、概念型指标),包括质地,成土母质、剖面构型等。由于参评指标不能够简洁地表明该因素对橡胶适宜性影响的大小,所以本研究采用“隶属度”来界定[5]。

2.1.2.1 隶属函数

由于参评的指标是渐变的,固本文采用模糊数学的方法来建立隶属函数。根据前人的研究经验和数学原理来建立函数,为了避免计算时零值过多,隶属函数定为0.1~1.0,最大值1.0表示该指标完全适合作物生长,最低值0.1表示该指标不利于作物生长。建立相应的函数模型[6-8]:

2.1.2.2 指标的选择以及指标临界值的确定

根据橡胶正常生长对环境条件的相关研究,结合专家经验法和理论分析,确定各评价因子的隶属函数的临界值和阈值及散点型函数的隶属度[9-13]。如表1。

2.1.3 评价因子属性数据库建立

利用儋州市各气象站点的空间位置(纬度、经度)及其观测的数据,建立风速、年降水量数据库。采用反距离权重插值模型对气候要素数据进行模拟空间处理,建立风速、年降水量等栅格空间数据库。利用儋州市DEM模型,借助GIS 相关模块自动生成坡度、坡向、海拔高度等地形因子栅格空间及其属性数据库。利用土壤普查、测土配方施肥调查样点的资料和DEM模型,建立调查样点及其相关属性数据库。采用克里格插值法生成儋州市土壤耕层有机质、有效磷、速效钾等栅格数据库;利用ArcGIS进行区域统计,作为评价单元相关因子的属性数据。

2.1.4 主成分分析的计算步骤

(1)各量化指标数据标准化

将采集p维随机向量x=(x1,x2,...,xp)T)n个样品

xi=(xi1,xi2,...,xipT ,i=1,2,…,n,n>p,构造成样本阵,接着对样本阵元进行标准化转换;如下:zij=,i=1,2,…,n;j=1,2,…,p;其中=≥, 得到标准化阵Z。

(2)按照公式R=|Tij|pxp=;其中,rij=,i,j=1,2,…,p;求标准化阵Z的相关系数,并构造相关系数矩阵R。

(3)计算出样本的相关系数矩阵R的特征方程|R-λIp|=0得m个特征根,确定主成分的个数。按≥0.85确定所需的m值,使信息的利用率达85%以上,对每个λj,j=1,2,...,m,解方程组Rb=λjb得单位特征向量b0j。

(4)根据Uij=ZTiB0j,j=1,2,...,m;其中:U1为第一主成分;U2为第二主成分;…,Up为第p主成分。计算各个主成分的得分。

(5)对求得的m个主成分分别进行评价,得到m个主成分的评价分值。再将每个主成分的评价分值与每个主成分的方差贡献率(即权重)相乘累加,计算评价的综合得分。

2.1.5 评价结果

根据指标的临界值和阈值及散点型函数的隶属度,将指标全部通过隶属函数量化于同一水平上。然后利用数据分析软件SPSS16.0和Excel完成主成分分析的相关计算。得到橡胶主成分分析对应的特征根、贡献率及其累计方差贡献率(表2)。

从表2可以看出,当m=8时,累计方差贡献率85.207%>85%,因此可以利用前8个主成分代替原变量进行分析[14]。从表2可知,橡胶的8个主成分与全部的14个指标的线性关系公式为:

根据评价函数模型,将评价单元数据代入上述公式中,计算每个评价单元的综合F值。将所有评价单元的综合得分F作累积频率曲线,并把频率曲线的拐点作为相邻等级的临界值[15]。以最适宜、适宜、次适宜和不适宜对橡胶适宜性综合指数进行归类,从而对适宜性进行定性评价。橡胶的适宜性划分标准见表3。

在橡胶种植适宜性综合指数划分基础上,遵循种植区集中连片且顾及行政区划界线等原则,结合海南限制橡胶生长的自然环境条件:高程高于300 m,风速高于3 m/s[10]等。将评价单元进行适宜性定性评价,并在GIS中,将评价单元图与定性评价结果相衔接,最后得到儋州市橡胶适宜性面积统计表(表4)及适应性评价结果图(图1、2)。

2.1.6 结果分析

从图1可以看出,儋州市中部区域橡胶种植适宜性较高,从中间往东南、西北两边呈适宜递减趋势。橡胶种植适宜区域主要集中在那大镇附近,不适宜区主要集中在沿海及松涛水库附近。

结合表4和图1,可以清楚的看到儋州市橡胶种植的适宜区域:

(1)最适宜区域。橡胶种植最适宜区域的面积为43 029.58 hm2,占农用地面积的14.99%。此类区域分布较为集中,主要分布在大成、和庆、那大、南丰四镇以及八一、兰洋、西联、西流、西培、西庆等农场。此区域农用地的主要特点是地势平坦、土层较厚、风速较小、降雨量充足、土壤酸碱度适宜且养分充足。对于此类农用地,应当切实加强保护,尽量避免建设用地等占用此类耕地,同时注意做好养地,合理调整化肥施用量和投入比,防止土壤酸化和盐渍化。

(2)适宜区域。橡胶种植适宜区域的面积为57 770.9 hm2,占农用地面积的20.13%。此类耕地主要分布在大成、和庆、那大、雅星等乡镇以及西华、西联、西流、西培、西庆、新盈等农场。此类农用地环境与最适宜区域农用地相差不大,影响橡胶种植的不利因素主要是水和养分,尤其是有机质和全氮等养分的含量不高,处于中等或中等偏下水平。由于适宜种植面积较最适宜面积广,因此加强此类耕地的管理和保护是儋州市实现橡胶高产、稳产的保证。针对适宜耕地养分特别是有效磷含量低的特点,可因时适量增加磷肥用量,合理调配复合肥比例,以提高土壤有效磷含量,改善土壤养分结构,达到以磷增氮的效果,消除农业生产中的不利因素。

nlc202309011624

(3)次适宜区域。次适宜种植橡胶的面积为40 934.9 hm2,占14.26%;该类农用地集中分布在雅星、王五、东城、光村、峨蔓、木棠等乡镇以及红岭、西华、西联、新盈等农场。其影响橡胶种植的不利因素主要是降水量较小、风速较大、土壤养分含量不高,虽然其地势较低,但最重要的是此类土壤有机质和全氮等养分含量低,难以维持橡胶正常生长的生理需要。对于此类区域可以选择抗风性较强的橡胶品种种植,并且加强农田水利设施的建设,调节水分状况,增施有机肥等,使之满足橡胶生长需要。

(4)不适宜区域。不适宜种植橡胶的面积为145 317.6 hm2,占农用地面积的50.62%。该类农用地面积较大,主要分布在沿海以及松涛水库一带。沿海地区由于降雨量较小、风速较大等气候条件以及养分含量低等条件限制而无法种植;在松涛水库虽然土壤养分充足,但由于其地势较高、坡度较大等条件限制橡胶的种植,且缺少管理,这些都使得松涛水库附近的大片区域不适宜种植橡胶。

(5)由于八一农场在儋州市橡胶生产中占有较大比重,且农场在规划、管理上较为精细,因此以八一农场来检验橡胶适宜性评价结果。根据资料数据[4]计算得到儋州市的橡胶单产为2.5 kg/年·株。结合八一农场的实际情况,将八一农场的橡胶产量进行分等定级,将干胶大于3.0 kg/年·株的地块确定为最适宜种植,适宜种植为2.5~3.0 kg/年·株,次宜种植为2.0~2.5 kg/年·株,小于2.0 kg/年·株的为不适宜种植。将确定好的橡胶产量水平和评价结果进行对应性比较,得到图2。

(6)从图2中不难看出,对应“相同”的区域(17 855.8 hm2)明显多于“不相同”区域(2 454.9 hm2),“相同”区域占验证区域的87.9%。对应性结果表明:图1的评价结果对于八一农场橡胶的种植具有较高的适用性。

3 讨论与结论

(1)种植适宜性评价涉及土地众多性状,即使所选的因子相同,采用不同的评价方法,其评价结果也有所不同。本研究从儋州市出发,以村一级为研究尺度,采用模糊数学的方法,根据橡胶树正常生长对环境条件的相关研究来确定各评价因子的隶属函数的临界值和阈值及散点型函数的隶属度。并运用主成分分析法,对橡胶种植适宜性进行综合评价,并制作了适宜性种植图。通过适宜性评价,因地制宜的发展橡胶树种植产业,从而提高橡胶的产出率,进而创造出最大的经济、生态和社会效益。

此方法在实际应用中仍有一些问题需要注意。首先,数据资料的获取是本方法应用的制约因素,一些重要的评价因子数据将在很大程度上影响评价结果的科学性;其次,评价因子的确定具有一定的局限性,因为评价因子及隶属函数是根据数据资料以及专家意见加以平衡得出的,受影响较大。另外, 在评价过程中获得的基础数据越多、真实性越高, 所得出的评价单元将越零碎。出于评价目的的考虑, 为了更好地为农业管理部门提供决策参考,对于种植适宜性评价结果, 在评价单元(地块)上,还有待进一步的研究。

(2)在今后的研究中,建立、完善一套科学、可行的适宜性评价方法仍有很多工作需要去做。同时,还应加强人员的管理以及肥料的合理使用,以确保橡胶稳产、高产。

参考文献

[1] 许海平,傅国华. 我国天然橡胶产业发展趋势[J]. 中国热带农业,2007,(2):15-16.

[2] 许道顺,许升锋. 经济一体化背景下海南省橡胶产业的发展战略[J]. 海南金融,2006,(9):25-28.

[3] 黄昌勇. 土壤学[M]. 北京:中国农业出版社,2000.

[4] 海南省统计局. 海南统计年鉴2011[M]. 中国统计出版社,2011.

[5] 朱国宇,黄川友,华国春. 层次分析法在水环境规划中的应用[J]. 东北水利水电,2003,21(4):1-7.

[6] 曹志洪,周建民. 中国土壤质量[M]. 北京:科学出版社,2008.

[7] 刘绍贵,张桃林,王兴祥,等. 江西省余江县土壤肥力变化和驱动因素与对策研究[J]. 土壤通报,2006,(10):869-874.

[8] 张 静. 作物-地域多种组合中作物生态适宜性评价与权重配置方法的研究[D]. 南京:南京农业大学,2005.

[9] 华南亚热带作物研究所. 中国橡胶栽培学[M]. 北京:中国科学出版社,1961.

[10] 何 康,黄宗道. 热带北缘橡胶所栽培[M]. 广州:广东科技出版社,1987.

[11] 王秉忠. 橡胶栽培学(第三版)[M]. 华南热带农业大学出版社,2000.

[12] 韦娉婷. 耕地地力评价方法在橡胶园中的应用研究——以海南农垦八一片区为例[D]. 海口:海南大学,2009.

[13] 欧 滨,罗 微,马 利,等. 基于GIS的橡胶园地分等研究[J]. 热带农业科学,2009,29(6):9-14.

[14] 付 强. 数据处理方法及其农业应用[M]. 北京:科学出版社,2006.

[15] 韩永学. 特尔斐法与“拿来主义”[J]. 哈尔滨师专学报,2000(2):67-68.

主成分聚类分析 篇7

河北省位于渤海地区的中心地带, 形成了独特的环京津、环渤海经济圈, 在十一五计划中河北省9个城市划入京津冀都市圈, 并且环渤海地区正在成为中国改革开放程度最高、经济发展最快的地区之一。随着市场经济体系的逐步建立, 京津冀地区的经济融合程度和相互开放程度有了较大的提高。本文采用一些经济指标对河北省的十一个城市进行聚类分析, 对比各城市之间发展的相似性和差异性。常用的分类方法主要为判别分析和聚类分析, 聚类分析主要分为K-means聚类和分层聚类, 分层聚类中以系统聚类最为常见。本文采用系统聚类分析方法, 对河北省11个城市进行聚类分析, 寻找发展差异, 为河北省经济发展提供建议。

二、实证分析

1. 指标选取

通过查阅资料, 基于不同的视角, 考虑到指标的全面性, 代表性和可操作性, 选取了河北省人均GDP, 固定资产投资额, 就业人员工资总额, 财政收入, 粮食生产量, 社会零售总额, 农林牧副渔生产值, 单位GDP能耗, 外商投资总额九个指标。数据来源于河北经济统计年鉴——2012。

2. 理论基础

主成分分析是利用降维的思想, 在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称为主成分, 其中每个主成分都是原始变量的线性组合, 且各个主成分间互不相关, 这就使得主成分比原始变量具有某些更优越的性能。聚类分析是根据多个观测指标, 具体找出一些能够度量这些指标的统计量, 以这些统计量为依据, 把相似度较大的指标聚成一类。主成分聚类分析是运用多指标进行综合评价时, 如果第一主成分方差贡献率不够大, 即第一主成分表达的原始数据信息不够全面, 仅按第一主成分排序有点片面, 这时把主成分和聚类分析结合起来, 采用“主成分聚类”。

3. 分析过程

从九个指标中看, 单位GDP能耗属于逆向指标, 因此在分析中取倒数, 此外九个指标的计量单位不同, 为了取消量纲影响, 对九个指标进行标准化, 应用SPSS18.0进行分析, 提取了3个主成分。三个主成分累计方差贡献率达到了89.21%, 提取主成分效果较好。利用特征值对11个城市进行得分计算, 其中F为综合得分 (见表1) 。从表中看出唐山市得分最高, 衡水市得分最低。

为了更详细表明各市经济发展水平, 对11个城市进行聚类分析。本文采用Q型聚类。唐山市资源丰富, 蕴含丰富的煤炭, 石油资源, 并地处连接华北, 东北两大地区的咽喉重地, 交通便利, 与北京, 天津两大城市构成经济圈, 拥有京唐港和曹妃甸两个港区, 贸易发展突出, 单独归为一类, 归为第一类;石家庄市为河北省省会, 凝聚了各方面的资源, 在政策方面也有巨大优势, 经济发展较快, 单独归为一类, 归为第二类;保定市, 邯郸市和沧州市固定资产投资总额和财政收入相差不大, 具有一定的相似性, 统一归为第三类;秦皇岛市, 廊坊市, 张家口市, 邢台市, 衡水市, 承德市综合指标值相差不大, 统一归为第四类。

三、结论与建议

从分析结果中可以看出, 河北省经济发展机遇与挑战并存。唐山市资源丰富, 发展较快, 人均GDP较高;衡水市发展潜力巨大, 它地处北京、天津、济南、郑州、石家庄五大华北城市群空间地理中心, 在2009年的中国品牌节, 被评为“中国最具投资潜力城市”。因此, 虽然各个城市的综合得分不同, 但是每个城市都有自己独特的发展优势。

河北省经济发展潜力巨大, 要充分发挥潜力须从以下几方面入手:一是要把握机遇, 抓住国家提出的环京津冀经济圈和环首都经济圈的建设的政策, “加快优势区域聚集发展, 要在‘打京津牌、吃沿海饭’上下功夫。”“打京津牌”就是要着眼发挥环首都、邻天津的区位优势, 打造绿色低碳示范区, 建设“三带”:绿色产业带、绿色生态带和绿色城市带。“吃沿海饭”就是着眼发挥沿渤海优势, 打造引领河北经济发展的增长极。二是加强区域的带动作用。各个地区的区位优势和资源优势不同, 在发展自己的同时, 能给其他地区带来发展机遇, 促进地区间的协调发展。三是各个城市要利用自己独有的优势, 制定适合自己独特发展的政策, 发展自己的特色经济。

参考文献

[1]何晓群.多元统计分析 (第二版) .中国人民大学出版社.

[2]杜强, 贾丽艳.SPSS统计分析从入门到精通.人民邮电出版社.

主成分聚类分析 篇8

近几年房地产业已成为国民经济中重要的基础性产业。房地产投资是一项高收益与高风险并存的经济活动,它跟一般产品的投资不一样,它具有综合性强、投资额大、涉及范围广、影响因素多的特点,且风险贯穿于房地产开发的整个周期,技术质量、市场供求、管理经营及融资利率等任何一个相关因素的变化都会对投资结果产生重要影响。因此,房地产投资风险评估体系的建立、正确评估可能的风险、缩小对收益的影响程度、提高投资效益以及对开发项目的指导和为投资决策提供合理的科学依据等均具有很大现实意义。

本文主要是在分析房地产投资风险影响因素的基础上,重点采用上市房地产企业的一些财务性风险指标、经营性风险指标等,提出房地投资风险评价指标体系,将聚类分析和主成分分析两种分析方法相结合对房地产投资的风险进行综合评价,为投资者的投资决策提供科学依据。应用主成分-聚类分析法,对我国15家房地产上市公司的投资风险进行了评价,对以往的投资风险评价方法进行了改进。此方法可成为风险投资公司选择房地产行业投资对象的工具,具有广泛的实用性及推广价值。

二、房地产行业上市公司投资风险评价

1.样本公司和数据的选取

为使研究结论具有代表性和参照性,以及研究过程的准确性,本文选取数据公开的15家上市公司数据为样本。根据筛选,我们选择了以下15家上市房地产公司为主要研究对象:万科地产、保利地产、金地集团、荣盛发展、招商地产、华侨城、鲁商置业、金融街、新湖中宝、中粮地产、中航地产、嘉凯城、华业地产、荣安地产、华丽家族。

上市公司的数据是公开的,每一季度都要公布财务报表或财务报告,如果公司有重大战略决策或者重大决定都要向股民们报告。本文选取上述15家房地产上市公司2014年12月31日的数据分别进行研究,数据来源于网易股票和sina股票。

2.对样本公司进行聚类分析

应用SPSS17.0软件,利用标准化后的样本数据对上市公司进行聚类分析,得到下图所示的聚类图,为纵向显示的冰挂图。

当聚类类数为3时,在2014年鲁商置业、新湖中宝和嘉凯城所在列的冰柱连为一体,据此可确定这3家上市公司属于一类;华侨城所在列的冰柱单独为一体,据此可确定华侨城为单独一类;其他11家上市公司所在列冰柱连为一体,据此可确定11家上市公司属于一类。

3.投资风险评价指标的主成分分析

2014年份成分F1和F2的特征值依次为λ′1=7.913、λ′2=1.175。其中,F1解释了原始变量总方差的79.133%,其累计方差贡献率为79.133%;F2解释了原始变量总方差的11.746%,其累计方差贡献率为90.879%。由于这2个成分共解释了原始变量总方差的90.879%,因此认为用这2个综合评价指标来反映原始变量的信息是可行的,可将这2个成分作为主成分。采用方差最大法对成分载荷矩阵进行正交旋转,利用SPSS17.0软件得到的旋转后得到成分载荷矩阵。利用式Y=EX确定主成分F1、F2的综合评价值,式中E为成分F1、F2的特征值所对应的单位特征向量;X是标准化的数据矩阵。

计算得到各样本公司的综合评价指标值Y′=79.133%×Y′1+11.746%×Y′2,计算结果分别见表1。

就成分F1的得分而言,鲁商置业、新湖中宝和嘉凯城的得分较大,说明这3家公司的偿债能力和经营能力相对较高;就成分F2的得分而言,华侨城、鲁商置业、新湖中宝和嘉凯城的得分都挺大,说明这4家公司的盈利能力和成长前景都很好。

可以看出,第一类公司盈利能力、偿债能力、成长前景和经营能力都特别好,因此其投资风险很小;第二类有较好的盈利能力和可观的成长前景,所以其投资风险相对较小。风险投资者可考虑将前两类公司作为理想的投资对象;第三类的投资风险都很大。

三、结论

根据聚类结果,有11家样本公司聚为一类,由此可知多数房地产行业上市公司的投资风险具有相似性。第一类和第二类公司的盈利能力、偿债能力、发展前景和经营能力都很好,所以投资风险小。而对第三类的大多数房地产企业来说其盈利能力、偿债能力、发展前景和经营能力等都相对较弱,所以其投资风险相对较大。这说明对于我国多数房地产投资来说风险都是很大的,投资者需谨慎作出投资决策。

摘要:本文以我国15家房地产上市公司做为研究样本,选取影响房地产投资的10个风险指标,再通过相关网站搜集到这15家上市公司2014年的相关指标数据,进行上市公司进行聚类识别,将样本公司分为3类,结果表明,我国多数房地产上市公司的投资风险具有相似性,风险大。

关键词:房地产投资,风险评价,聚类分析,主成分分析

参考文献

[1]王瑞红,王筱萍,薛耀文.我国生物制药上市公司投资风险评价---基于主成分-聚类分析法[J].技术经济,2011,(10):76~80.

[2]王运成,刘莉.房地产投资风险分析[J].现代商贸工业,2011,(18):140~141.

主成分聚类分析 篇9

1 材料与方法

1.1 材料与设备仪器

选取某牌号四类卷烟作为测试对象。所用设备是ZJ19卷烟机, 包括卷烟综合测试台 (MTS-IV) 、端部落丝测试仪 (YDX-III) 、型振动分选筛 (YQ-2) 、烟支含末率测试仪 (JMQ-1A) 、电子精密天平 (PB203-N) 和恒温恒湿箱 (KBF-240) 等。

1.2 试验方法

1.2.1 卷烟生产

选定5批A牌号卷烟烟丝 (四类烤烟) , 按生产日期编号。选定5号、6号2台卷烟机, 按照批次顺序进行卷制生产 (单支质量设定值为0.88 g, 圆周设定值为24.10 mm) 。

1.2.2 取样测试

在机台稳定运行的状态下取样, 在生产每批次卷烟的同时, 2机台每隔1 h各取样1次, 共取样20组。在烟丝取样点位卷烟机烟枪处每次取烟丝样品2 000 g左右, 将其混合均匀之后采用四分法取样1 000 g, 连续取样3次。

烟支取样点为卷烟机烟支出口处, 每次取约50支用于物理指标的测试, 烟支取样工作在取烟枪处烟丝样品前进行。另外, 再每盘取约1 000支烟, 并测定其烟丝的卷烟空头率, 计算平均值。

1.2.3 测定方法

各样品用综合测试台检测其各项物理指标。烟支相关的物理指标取其测定结果的数据平均值和标准偏差, 端部落丝量取其3次 (50支/次) 测定结果的平均值。烟丝结构指标采用《卷烟工艺规范》中规定的方法测定, 并计算不同长度范围内的烟丝质量百分比。长丝是指长度大于3.35 mm的烟丝, 中丝是指长度为2.50~3.35 mm的烟丝, 短丝是指长度为1.00~2.50 mm的烟丝, 碎丝是指长度小于1.00 mm的烟丝。在此过程中, 取样品3次测定结果的平均值作为最后的确定值。

1.3 数据处理

采用SPSS17.0和EXCEL 2003进行数据分析。

2 结果与讨论

2.1 卷烟质量指标的描述性统计

卷烟质量指标如下:X1为长丝率, X2为中丝率, X3为短丝率, X4为碎丝率, X5为含水率, X6为烟支质量, X7为烟支吸阻, X8为烟支硬度, X9为圆周, X10为端部落丝, X11为含末率, X12为填充值, X13为纯净度, X14为空头率。

四类卷烟的烟支质量指标统计描述结果如表1所示。结果表明, 各指标的平均值和变幅均在工艺规范标准范围内。从标准差和变异系数来看, 端部落丝量、含末率和空头率的离散程度比较大。这说明, 在生产卷烟的过程中, 卷烟机的稳定性、烟丝结构的变化和烟丝填充值都对其有影响。而各个指标都在规定的工艺规范标准范围内, 说明测得的试验数值可以用于相关内容的统计、分析中。

2.2 卷烟烟支物理质量指标分析

2.2.1 灰色关联分析

从表2中可以看出, X1 (长丝率) 、X2 (中丝率) 、X3 (短丝率) 、X4 (碎丝率) 与各指标的相关性比较强。这说明, 烟丝结构的变化容易造成烟支各项指标的波动。其中, X1 (长丝率) 对X10 (端部落丝) 的影响最大, 关联度达到了0.563 7;X2 (中丝率) 对X12 (填充值) 的影响最大, 关联度达到了0.603 8, X9 (圆周) 次之。至此可以推断出, 影响烟丝填充性能的主要因素是中丝率, X3 (短丝率) 对X4 (碎丝率) 、X14 (空头率) 的影响比较大, 关联度分别达到了0.643 1和0.614 7, 对其他指标的影响适中, X4 (碎丝率) 与烟支质量指标有较强的关联度, 对X11 (含末率) 的关联度达到了0.611 4, X14 (空头率) 次之。碎丝率作为影响卷烟填充性能的负面因素, 在生产卷烟的过程中, 碎丝率的变化会影响烟支各指标之间的协调难度。X5 (含水率) 对X6 (烟支质量) 、X7 (烟支吸阻) 、X8 (烟支硬度) 有较大影响, 关联度分别达到了0.540 3, 0.593 5, 0.542 9.其中, 与X7 (烟支吸阻) 的关联度最大, 与X13 (烟丝纯净度) 的关联度最小。由此可以看出, 烟丝水分含量变化会使烟丝质量发生变化, 进而导致卷烟烟支中烟丝的填充值不稳定, 影响烟支的吸阻。另外, X6 (烟支质量) 与X9 (烟支圆周) 的关联度最大, 达到了0.676 1.这说明, 烟支质量的波动引起了烟支圆周的变化。X7与各指标的关联度都适中, 有较强的关联性;X8 (烟支硬度) 与X9 (烟支圆周) 的关联度达到了0.575 9;X10 (端部落丝量) 与X11 (含末率) 、X13 (纯净度) 的关联度最大, 达到了0.570 1, 0.562 3.这说明, 端部落丝量会影响烟支的含末率。X11 (含末率) 与X14 (空头率) 的关联度达到了0.577 1, 说明含末率和空头率有一定的关系, 而且X13 (纯净度) 与X12 (填充值) 、X14 (空头率) 有较强的关联性。

2.2.2 聚类分析

利用表2对其指标进行聚类, 最终得到14个指标的一个比较粗的聚类, 即C={C1, C2}, 聚类结果如图1所示。其中, C1={X5, X6, X7, X8, X9, X10, X11, X12}, C2={X1, X2, X3, X4, X13, 14}。指标聚类C1反映了烟丝结构的相关情况, 包括长丝率、中丝率、短丝率、碎丝率、纯净度和烟支的空头率等6项指标。指标聚类C2反映了烟支物理质量指标, 包括含水率、烟支质量、烟支吸阻、烟支硬度、圆周、端部落丝和含水率等8项指标。

2.3 卷烟质量指标聚类的主成分分析

在工作过程中, 分别对灰色关联聚类分析指标后的2个聚类C1、C2进行主成分分析, 相关矩阵的特征值如表3所示, 标准化特征向量如表4所示。依据特征值大于1的原则, 从C1类提取3个主成分, 其特征值分别为2.198 7, 1.624 6, 1.492 7, 累计方差贡献率达到80.4494%, 基本反映了原来变量的信息;从C2类提取2个主成分, 其特征值分别为2.538 6, 1.845 1, 累计方差贡献率达到79.0614%, 基本反映了原来变量的信息。将提取出来的主成分作为主成分集合的元素, 从而得到两类指标的主成分集合分别为Y1={y11、y12、y13}, Y2={y21、y22}。

对于聚类C1的前三个主成分, 第一主成分y11单独说明原始变量的32.483 1%, 突出反映了X5 (含水率) 、X6 (烟支质量) 指标的综合效应;第二主成分y12单独说明原始变量的25.3078%, 突出反映了X8 (烟支硬度) 、X11 (含末率) 2项指标;第三主成分y13单独说明原始变量的22.658 5%, 重点突出了X7 (烟支吸阻) 、X11 (含末率) 、X12 (填充值) 3项指标的综合效应。对于聚类C2的2个主成分, 第一主成分y21单独说明原始变量的45.309 3%, 突出反映了X4 (碎丝率) 、X13 (纯净度) 2项指标;第二主成分y22单独说明原始变量的33.752 1%, 突出反映了X2 (中丝率) 、X13 (纯净度) 2项指标。

根据表3不同因子变量的方差贡献率计算出y11、y12、y13、y21和y22因子变量的权重分别为α11=0.403 8, α12=0.314 6, α13=0.281 6, α21=0.573 1, α22=0.426 9, 则C1类综合指标为F1=α11y11+α12y12+α13y13, C2类综合指标为F2=α21y21+α22y22, 进而得到综合指标F=β1F1+β2F2。利用AHP方法得到指标聚类的权重β1=0.627 8, β2=0.372 2, 然后计算出相应的得分结果。具体的排序结果如表5所示

从表5中可以看出, 除了X12 (填充值) 、X13 (纯净度) 、X7 (含末率) 的得分排序一致外, 其余得分排序均不相同。采用2种方法测得得分高的都是X13 (纯净度) 。这说明, 烟丝的纯净度是保证烟支质量的基础, 而较高的纯净度是得到符合标准烟支的前提。在本文中, X11 (中丝率) 的得分排序第二位, X1 (吸阻) 排序第三位。

3 讨论与结论

从整体上看, 烟支质量指标都在适宜的范围内, 变幅较大的指标可能是由于批间的稳定性差、机台之间卷接质量差异和烟丝结构的稳定性等原因造成的。

由灰色关联分析可知, 各指标间有较强的关联性。通过灰色关联聚类分析得到了指标的2个聚类, 即指标聚类C1反映了烟丝结构的相关情况, 包括长丝率、中丝率、短丝率、碎丝率、纯净度和烟支的空头率等6项指标;指标聚类C2反映了烟支物理质量指标, 包括含水率、烟支质量、烟支吸阻、烟支硬度、圆周、端部落丝、含水率等8项指标。由灰色关联聚类分析后的主成分分析可得出9个指标的得分排序为, 纯净度、中丝率、吸阻、含水率、填充值、碎丝率、含末率、硬度和单支质量。

本文所用分析方法中的指标分类是基于灰色不确定性的, 它更符合客观实际, 既体现了各指标之间的类别差异, 又反映了全体指标的信息, 比较容易解释其主成分, 而且每个主成分反映了同一类指标的信息。在主成分分析的客观分析和聚类分析中, 权重确定与主观分析相结合能保证测试结果的合理性。

摘要:为了评价卷烟的卷制质量, 在分析各质量指标的关系时, 采用主成分分析和灰色关联聚类分析的方法分析、评价某四类卷烟的卷制质量指标。结果表明, 这四类卷烟的质量指标都在规定范围内, 其中端部落丝量、含末率、空头率的变幅比较大。灰色关联聚类分析结果将指标分为两类, 并分析它们的主成分。运用权重的思想集合聚类的主成分, 然后综合排序, 剔除指标间的重复性, 整体反映14个指标信息和指标聚类的差异性。

主成分聚类分析 篇10

用于数据挖掘的数据集维数众多时, 容易陷入“维灾难”, 影响数据挖掘算法的效率和可靠性, 因此往往在数据预处理阶段需要对数据进行特征归约, 去除弱相关特征和冗余特征。同时, 为了数据挖掘的最终结果易于理解, 有时需要对数据进行值归约, 减少已知特征的离散值数目或使连续值离散化, 从而简化对数据的描述。

各高校建立的学生信息管理系统中累积有大量数据, 除了记录和查询, 还需要对数据中隐含的知识加以利用为决策提供数据依据。以成绩管理系统为例, 按培养计划要求, 各学生每学年应选修多门课程, 包括公共基础课、专业基础课、专业选修课、实践课程和学院任选课等各种类型课程, 大学四年完成学业需要选修共平均多达65门课程, 每门课程有一个成绩。其中至少三分之一学生在某些课程修读获得学分过程中有补考或重修多次的经历, 在数据库中将产生同一门课同一个学生的多个成绩数据。如此累计下来的成绩数据数量巨大, 进行数据挖掘得到的隐含知识, 可将学生成绩数据作为评定学生素质的依据。若直接应用如此维数众多的成绩数据, 数据挖掘算法的执行效率将受到很大影响, 因此需要先进行特征归约和值归约。本文讨论在weka平台下使用主成分分析法对学生成绩进行特征归约实现降维, 并对降维后的成绩数据进行聚类从而实现值归约, 以便进一步进行其他数据挖掘工作。

本文中数学公式符号基于下述数据模型定义:

设给定数据集C中有n个样本, 每个样本有p项变量:X1, X2, …, Xp组成原始数据矩阵:

1 主成分分析方法

1.1 简介

主成分分析法是较为常见的一种特征归约方法, 其目的在于以各变量的线性组合代替原有变量, 生成的线性组合之间相互独立, 数量少于原有变量, 并包含有原变量大部分的信息, 从而实现合理的特征归约。

1.2 步骤[1]:

第一步:对样本数据进行标准化, 以便统一量纲[2]。

第二步:计算变量协方差矩阵S, 矩阵S定义为:

第三步:计算上述协方差矩阵Sp×p的特征值λ1, λ2, …, λp (有λ1≥λ2≥…≥λp≥0) , 以及对应的正交化单位特征向量ζ1, ζ2, …, ζp。

上述Sp×p中与前m个最大特征值对应的m个特征向量将定义原数据由p维空间向m维空间的线性转换, 且转换后的m维空间中的特征之间互不相关。

第四步:为了确定上述值, 计算前个最大特征值之和与所有特征值 (方差) 之和的比值,

该比值用百分比表示, 称为累计方差贡献率, 其值反映前m个主成分在方差总和上的投影。当该投影比率足够大 (大于阈值) 时, 包含m个特征的子集的所有分析就是p维空间合适的初步估计[3]。

第五步:得到以上述特征向量值作为系数的m个主成分表达式:

根据主成分表达式计算每个样本在各个主成分上的得分, 得到新的特征归约数据矩阵。

2 k均值聚类方法

2.1 简介

聚类分析在没有先验知识样本没有分类标签的情况下, 依据样本间关联的量度标准将样本自动分成合理的几个群组 (簇) , 目标是分簇后在同一群组中的样本相似度高, 不同群组中的样本相似度低。聚类分析有基于层次、基于划分、基于密度等算法, 其中用于n维连续空间的k均值算法是一种经典的基于划分的迭代型算法, 因为实现运行简单高效等优点被广泛应用。

2.2 步骤:

第一步:随机选取个数据点启动算法。k为预期的聚簇个数。

第二步:通过距离函数的计算将每个数据点分配给当前与之最近的聚簇代表所在的群组中, 同时取消上次迭代确定的归属关系。这一步将对全部数据进行新的划分。

第三步:通过重新计算所有分配给该聚簇代表的所有数据的中心 (如算数平均值) , 从而重新确定每一个群组的新的聚簇代表。

第四步:重复执行第二步和第三步, 直至群组的成员稳定, 聚簇代表未变更, 算法收敛。

应用k均值算法进行聚类分析有三个关键问题需要解决。

1、初始聚簇代表的分布:聚簇代表的初始化不同, 最终获得的聚簇可能会差异很大。为了避免过早收敛于局部最优解, 可以基于不同的初始聚簇代表多次运行该方法, 从中挑选最好的结果[4]。

2、聚簇的个数:需要人工给定, 可能偏大或偏小, 可以根据先验知识指定, 也可以尝试使用多个不同的k值多次运行算法, 使用一些判别函数作为准则进行选择。

3、距离函数:即样本间关联的量度标准, 表示样本间的相异度, 通常用d (x, x′) , 坌x, x′∈X表示样本x和x′之间的距离。如果样本x和x′越不相似, d (x, x′) 越大。对于连续特征样本, 常用的距离函数有欧式距离、曼哈顿距离、方差加权距离、余弦距离、Pearson相关系数等, 可根据样本数据结构特点进行选择。

2.3 评估聚类结果

2.3.1 评估准则的作用

评估准则用于确认识别数据集中是否实际存在非随机结构、聚簇的个数是否正确, 分析聚类结果对数据的拟合情况[5]。常见的非监督簇评估准则有基于凝聚度和分离度的度量, 如类间平方误差和 (Within cluster sum of squared errors, WCSSE) 、加权平均平方距离和、轮廓系数 (Silhouette Coefficient指标) 、类间类内差异比[6]等, 也有基于邻近度矩阵的技术, 如可视化邻近矩阵等方法。

2.3.2 WCSSE

基于欧式距离的聚类, 可以使用WCSSE作为评估聚类质量的准则, 值越小, 说明聚类的聚簇代表能更好的表示簇。WCSSE可定义为:

其中表示第i个群组的聚簇代表 (该群组有mi个样本) , d (ci, x) 代表样本ci与样本x的平均距离, 如表示相异度的欧式距离或表示相似度的余弦距离。

2.3.3 Silhouette指标[7]

数据集C中的一个样本t的Sil指标计算公式为:

其中, 表示t样本和同一群组内其他样本间的距离平均值, 反映簇内凝聚度;, j=1, 2, …, k, 表示t样本和其他群组中样本的最小平均距离, 反映簇间分离度。所有样本的平均Sil值越大, 反映聚类效果越好。

3 使用WEKA实施方法

WEKA简介

Waikato Environment for Knowledge Analysis (WEKA) 是Waikato大学开发的开源数据挖掘平台, 集成了多种机器学习算法, 能实现数据预处理、分类、关联分析、聚类分析等数据挖掘任务及挖掘过程和结果的可视化和性能评估[8]。比较其他商用数据挖掘平台, WEKA允许扩展, 支持用户根据需要使用java语言调用其中封装的算法或进行二次开发。

使用WEKA进行主成分分析聚类

根据上述方法, 在Eclipse集成环境下, 导入WEKA的jar包, 使用JAVA语言编写图1所示流程的程序。本程序调用weka包中weka.core和weka.clusterers的类实现数据预处理和k均值聚类方法。weka.core负责实现数据的获得, 通过调用其中的Instances类进行数据导入和数据集预处理, Instance类获得每条记录的数据。Simple KMeans类负责实现k均值聚类, 其中set Seed接口实现生成随机初始聚簇代表的seed值, set NumClusters接口设置期望的聚簇个数 (Cluster Number) , build Clusterer进行数据集的分簇操作, get Squared Error获得build Clusterer后的聚簇结果。代码实现了各个期望聚簇个数下的各个seed的WCSSE遍历, 并得出WCSSE最小时的seed值, 以及基于该seed值的聚簇结果, 该聚簇结果是相同聚簇个数的最优解。

其中调用Simple KMeans类实现寻找最优解的seed值的核心代码如下:

4 实例分析

4.1 原成绩数据描述

以本学院成绩数据库中2007级计算机专业154个学生的每生必修的46门课程成绩为例。至少有三分之一的学生在某些课程获得学分之前至少补考一次甚至重修多次, 将这部分学生获得学分前的历次考试成绩取平均分作为其该门课程的修正成绩, 生成一个学生一门课仅有一个成绩的数据集, 该数据集有154个样本46个变量。为了了解学生在不同课程的学习情况, 现将学生成绩按课程类型分成公共基础课 (22个变量) 、专业课 (14个变量) 和实践环节课 (10个变量) 三个数据集分别进行以下试验。

4.2 试验与分析

4.2.1 特征归约

使用WEKA数据预处理功能中Principal Components Filter实现数据集的特征归约, 以累计方差贡献率85%作为阈值提取主成分。以专业课成绩为例, 由专业课的主成分分析 (表1) 可见前7个主成分累计方差贡献率达到86.207%, 可以用这7个主成分代替原14个变量来评价学生在专业课程方面的学习情况, 即实现14个变量降维为7个新变量。同法可将公共基础课数据集的22个变量降维为11个新变量, 实践环节数据集的10个变量降维为7个新变量。

4.2.2 值归约

使用前述JAVA程序对特征归约后的数据集 (表2中为PCA得分) 按课程类型分别以3类、4类、5类和6类为期望聚簇个数进行四次k均值聚类, 均选择类内平方误差和 (WCSSE) 最小的结果为该聚簇个数的最佳聚类结果。对未降维数据集按课程类型计算每个学生的平均分和学分绩点成绩, 并分别使用前述JAVA程序进行3类~6类四次k均值聚类。

以专业课成绩为例, 表2表明平均分和学分绩点成绩的聚类效果均不如未降维和PCA得分的聚类效果好, 虽然PCA得分的聚类效果次于未降维的聚类效果, 但因参与聚类的特征维数比未降维少, 聚类的效率比未降维的聚类效率高, 因此使用主成分分析聚类的方法对成绩进行特征归约和值归约是合理可行的。

4.3 结果分析

以专业课成绩为例, 将原数据集按上述方法进行特征归约和值归约后可分为三个群组。

图2表明归属于第一群组的成绩比较好, 第二群组的成绩次之, 第三群组的成绩比较差, 从而将学生专业课成绩离散成“强”、“一般”及“弱”三个值, 对应表示学生的专业学习能力为“强”、“一般”及“弱”。

5 结束语

直接使用绩点成绩或平均分成绩将忽略学生在各科目的学习情况, 对一个学生学习能力的评价不够合理, 而使用传统的五分制或统一的区间硬性划分可能使离散化后的值多数集中在某个区间, 不能很好的区分描述学生的学习情况。使用主成分聚类的方式既保留了学生在各方面的学习情况, 又能合理的将一个学生的成绩进行归类, 因此对学生成绩数据进行降维处理是可行的合理的, 可以此结果作为数据预处理结果进一步进行其他数据挖掘。

参考文献

[1]刘影.多元统计分析在高校教学中的应用:[硕士学位论文].东北师范大学, 2006

[2]林海明杜子芳.统计研究.2013, 08

[3][美]Mehmed Kantardzic著王晓海吴志刚译数据结构:概念、模型、方法和算法 (第2版) .北京:清华大学出版社, 2013

[4]Xindong Xu Vipin Kumar编著李文波吴素研译.数据挖掘十大算法.北京:清华大学出版社.2013

[5][美]Pang-Ning Tan Michael Steinbach Vipin Kumar著范明范宏建等译数据挖掘导论 (完整版) .北京:人民邮电出版社.2011

[6]刘磊.基于k_means的自适应聚类算法研究:[硕士学位论文].北京邮电大学, 2009

[7]王开军.基于有效性指标的聚类算法选择.四川师范大学学报.Nov., 2011 Vol.34, No.6

主成分聚类分析 篇11

【摘 要】 为更加精确地研究无水港选址,分析影响无水港选址的指标因素,采用主成分分析法建立数学模型对无水港选址的问题进行评价。以江西省11个城市为例,得出11个城市的选址顺序。由主成分分析法得出的结论具有说服力,对江西省的无水港选址、政策的制定和执行等方面都具有参考价值。

【关键词】 无水港;主成分分析法;选址;指标因素

0 引 言

随着经济全球化的发展,国与国之间的贸易往来日益密切,港口作为国际物流运输的大型枢纽,其作用也是越来越明显。港口数量的增加加剧了港口之间的竞争,为了获取更多的发展资源,各大港口已不再局限于在港口所在地开展业务,开始向内陆城市延伸。与此同时,内陆的一些外贸企业也希望在本地就能实现“一关三检”,达到港口“直通”的效应。由此,无水港作为一种新的现代物流中心应运而生。[1]

纵观国内外研究可以发现,无水港选址问题的分析大多以定性的方法为主,很少采用定量方法。本文从分析影响无水港选址的指标因素出发,基于主成分分析法,以江西省为例,综合评价11个城市选址问题。采用定量的研究方法,能够避免在采用定性研究方法时,因主观因素而导致结果的不精确。

1 无水港选址指标的影响因素

无水港的选址,必须严格遵循选址的适应性、经济性、战略性、整体性、动态性、协调性原则。目前无水港选址指标体系的设计缺乏标准的规范。从理论上分析,一个指标体系应能充分、准确地反映评价对象的特点和实际水平,评价内容应能包括影响评价的一切因素。但实际上,在一个问题中,影响评价对象的因素很多,很难将所有的影响因素进行定量化,并将其包括在指标体系中。因此,在设计指标体系时,应对这些影响因素作必要的取舍。本文借鉴国外成功选址案例,结合我国实践情况,在遵循选址基本原则的基础上,将无水港选址的影响因素归为社会环境因素和经济环境因素两大类(见图1),再对影响因素进行分析。

1.1 社会环境因素

根据无水港的功能,首先应考虑在运输量大、运输发展空间大、对附近区域具有较强辐射和集散作用的城市选址。随着地区经济的发展,地区贸易量、货物运输量及地区的社会环境等成为影响无水港选址不可忽视的因素。数量充足和质量较高的劳动力条件是无水港选址考虑的因素之一,无水港所在城市的社会经济水平也决定其经济效益。地区工业的发展对国际贸易服务具有支撑作用,有利于无水港建设和运营。无水港的发展同时也需要较好的运输网络,交通运输条件在运输网络中起到了关键作用。在诸多的社会环境因素中,可以选用规模以上工业企业数量、道路长度、货运总量、城镇就业人数对其进行评价。

1.2 经济环境因素

无水港的设立应依托经济中心城市,经济中心城市良好的基础设施和经济基础有利无水港的生存和发展,同时,无水港又能扩大经济中心城市的国际港口功能。地区经济发展水平的高低影响该地区的货物供给和需求量,为保证货物来源充足,无水港选址应倾向于经济发达地区。经济发达地区一般都具有较多的资产投资,基础设施建设尤其是交通设施建设比较完善,有利于无水港在该地区的形成和发展。无水港是随着经济的发展而逐渐产生的,地区经济发展水平是无水港选址规划重点考虑的因素,其评价指标可采用GDP及GDP增速、进出口总额、工业生产总值、固定资产投资总额来衡量。

2 主成分分析法

主成分分析法是一种通过降维技术将多个变量化为少数几个重要变量的一种多元统计方法。其目的是用较少的变量解释原始资料中的大部分变量,亦即期望能将许多相关性很高的变量转化成彼此相互独立的变量,能在其中选取比原始变量个数少,且能解释大部分资料之变异的几个新的变量,也就是所谓的主成分,而这几个主成分也就成为解释资料的综合性指标。主成分分析法的具体计算步骤如下:

(1)选取标准化原始数据;

(2)计算相关系数矩阵;

(3)求特征值和特征向量;

(4)求主成分。

3 实证分析

本文以江西省南昌、景德镇、萍乡、九江、新余、鹰潭、赣州、吉安、宜春、抚州、上饶等11个城市为例,对江西省的无水港选址问题进行研究。

按照选取指标时所遵循的科学性、可比性、合成性、可操作性的原则,提取GDP(x1)、GDP增速(x2)、工业生产总值(x3)、进出口总额(x4)、固定资产投资总额(x5)、规模以上工业企业数量(x6)、城镇就业人数(x7)、道路长度(x8)、货运总量(x9)等9个关键性指标作为分析对象,原始数据见表1。

运用主成分分析法对表中11个城市的数据进行分析,按照特征值大于1的原则提取2个主成分,其累计方差贡献率为79.658%。采用方差最大化的方法对原始变量的载荷矩阵进行变换,得到因子载荷矩阵(见表2)和主成分得分系数矩阵(见表3)。

表2中,主成分F1包括GDP及GDP增速、工业生产总值、进出口总额、固定资产投资总额、规模以上工业企业数量、城镇就业人数、道路长度,主成分F2包括货运总量。

根据表3主成分得分系数矩阵,计算各主成分得分:

F1=0.131 ?x1 + 0.244 ?x2 + 0.186 ?x3 Ha 0.045 ?x4 + 0.091 ?x5 + 0.286 ?x6 + 0.082 ?x7 + 0.207 ?x8 Ha 0.273 ?x9

F2=0.105 ?x1 Ha 0.238 ?x2 + 0.001 ?x3 + 0.353 ?x4 + 0.111 ?x5 Ha 0.212 ?x6 + 0.184 ?x7 Ha 0.081 ?x8 + 0.598 ?x9

综合得分:F=0.827 ?F1 + 0.173 ?F2

运用以上公式求得11个城市综合得分及排序(见表4)。

4 结 语

由江西省11个城市的选址顺序可以看出,南昌的得分远高于其他城市。这说明南昌是江西省建设无水港的首选城市,与2009年国务院通过的《物流业调整和振兴计划》中提出“将南昌市确定为区域性物流节点城市,将南昌向塘铁路-公路关键型物流基地打造成中部地区第一大无水港”的要求相吻合。继南昌之后,江西省各城市也在加紧无水港建设,其中已开通赣州―深圳、赣州―厦门集装箱班列和吉安―厦门、上饶―宁波海铁联运,鹰潭、上饶等城市的无水港建设也在继续推进。

参考文献:

主成分聚类分析 篇12

近年来,我国物流业发展迅速,物流园区作为物流发展中的一个重要节点,作用日益突出,各个地方纷纷兴起建设物流园区的高潮。据不完全统计,目前全国至少有20多个省市和30多个中心城市政府制定了区域性物流发展规划和政策,还有数不胜数的城市、乡镇甚至街道办事处都要发展物流园区。各个地区物流园区的盲目建设致使物流园区规划建设中存在功能定位不清、盲目攀比、变相圈地等现象。

2004年国务院针对各地由于纷纷盲目建设物流园区出现的不少问题决定将物流园区列入整顿范围。今后的物流园区建设将进入冷静、科学和多元化发展阶段。在全国各地区、部门和行业分割的管理下,为了防止物流园区在各地布局结构趋同及资源重复配置,有必要对物流园区作更高层次的统筹规划,以实现区域内物流园区的协调发展。

本文针对各地物流园区建设中存在的功能定位不清,资源重复建设等问题,试图从宏观层面通过对物流园区依托地区的条件分析,以及对各有关地区的横向比较研究,确定物流园区宏观布局载体的层次结构体系,判断某地区适宜建设的物流园区层级,对物流园区的空间类型进行合理划分,进而对物流园区进行合理定位。为此,借助主成分和聚类分析方法,通过使用多个经济指标,实现物流园区空间类型划分,以期望对我国的物流园区建设提供一定的指导与借鉴作用。文中选取泛珠三角地区进行实证分析。

二、物流园区空间类型及功能

物流园区空间类型是指物流园区的空间层次类别。物流园区空间层次主要是指物流园区空间布局体系中的层次等级问题。物流园区的层次定位主要取决于其在整个物流服务网络中的地位和作用。根据物流园区主要空间服务地域层次可以将其划分为国际性物流园区、区域性物流园区和城市性物流园区。其布局的空间层次关系如表2.1所示。

对物流园区宏观空间布局层次的划分主要是对其载体层次的划分。分析物流园区宏观布局层次类别,主要是判断作为其宏观布局载体的省区和城市能够建设的最高级别物流园区种类情况。物流园区空间布局载体主要分为如下3个层次类别。

上层为国际枢纽型物流园区载体城市,也可称为物流中心城市,该类城市具有良好的经济发展水平和优越的交通区位优势,建有或具备条件建设国际枢纽型物流园区,其物流服务辐射范围广,物流相关作业规模大。

中层为区域集散型物流园区载体城市,该类城市具有较好的经济发展水平和较好的交通区位优势,建有或具备条件建设区域集散型物流园区,其物流服务辐射范围一般在本区域内。在物流园区布局层次体系中,此类城市主要承担联结上下两类层次城市的功能。

基层为物流本地生成城市,该类城市是物流服务的本源需求地和最终消费地,因此每个地级城市一般都需要建设本地配送型物流园区。此外,随着区域经济一体化的发展,城市群作为空间经济体系不断出现,应当考虑在密集的城市群间规划布置公共的配送型物流园区。

三、主成分分析与聚类分析在泛珠三角物流园区功能定位中的应用

1. 主成分分析及聚类分析基本原理

主成分分析(Principal Component Analysis)是多元统计分析中一种重要的方法,用来考察多个定量(数值)变量间的相关性。在多指标(变量)的研究中,由于变量的个数较多,并且彼此之间存在一定的相关性,因而使得所观测的数据在一定程度上反映的信息有所重叠,而且当变量较多时,在高维空间中研究样本的分布规律及特征比较麻烦。它是研究如何通过少数几个主分量(即原始变量的线性组合)来解释多变量的一种方差-协方差结构。主成分分析的应用使问题得到简化,即采用降维的方法找到几个综合因子来代表原来众多的变量,使这几个综合因子尽可能反映原来的信息,而且彼此之间不相关。

聚类分析(Cluster Analusis)是统计学所研究的“物以类聚”问题的一种方法,它属于多变量统计分析的范畴。它是一种建立分类的方法,能够将一批样本数据(或变量)按照它们在性质上的亲疏程度在没有先验知识的情况下自动进行分类。这里,一个类就是一个具有相似性的个体的集合,不同类之间具有明显的非相似性。在分类过程中,不必事先给出一个分类标准,聚类分析能够从样本数据出发,客观地决定分类标准。

2. 主成分分析与聚类分析在泛珠三角物流园区功能定位中的应用

“泛珠三角区域合作与发展论坛”的举行,标志着包括华南九省区以及港澳两个特别行政区的泛珠三角合作全面启动。目前,泛珠三角区域正在协力打造全中国最为庞大的一体化产业带、交通网以及信息流,在发展物流业的过程中,泛珠三角区域各大城市应根据各自的产业布局,以及优势,实行对物流产业的合理定位与规划,进而达到各城市在物流基础设施的规划和布局方面要相互协调发展的目标。本文利用主成分及聚类分析法,对泛珠三角各省区的物流业进行综合分析,对各省区的物流园区空间类型进行科学定位,从而得出各省区适宜建立的物流园区层级。

(1)评价指标的选取。建立分类指标体系的目的是为了对物流园区宏观布局载体样本进行分类研究,在进行物流园区空间布局载体分类指标体系的选取时,建立科学合理的指标体系关系到分类结果的正确性。因此,在选择指标体系时,应充分考虑各种因素的影响,然后选择出影响较大的因素和条件进行分析。

本文从研究的总目标出发,采用系统分析的方法,结合物流园区与其空间载体的相互关系,注意空间载体对不同层次类别物流园区的适应性,建立一个系统完整、有机可行的评价指标体系。采用频度统计法、理论分析法和专家咨询法以满足指标选择的各项原则。本文选取GDP(X1)、人均GDP(X2)、GDP增长率(X3)、居民消费水平(X4)、工业总产值(X5)、工业增加值(X6)、社会消费品零售总额(X7)、交通运输仓储及邮电通信业(X8)、批发零售贸易业总额(X9)、制造业总额(X10)、实际利用外资额(X11)、进出口总额(X12)、外商投资企业数(X13)、社会货运量(X14)、铁路货运量(X15)、公路货运量(X16)、水路货运量(X17)、铁路网密度(X18)、公路网密度(X19)、公路货物平均运距的倒数(X20)、地理区位(X21)、是否为全国性交通枢纽规划城市(X22)等22项指标。

(2)主成分分析结果。以泛珠三角区域内9个省区为研究对象(考虑到数据的可得性,以及香港和澳门的特殊地位,文中未将两个特区纳入研究范围),将9个省区的22项指标用主成分法进行分析,得到22个主成分。根据累计方差贡献率超过85%的原则,提取前5个主成分作为第一、第二、……第五主成分,其累计方差贡献率达98.064%(见表2)。这说明前5个主成分已提供了全部原始数据的98.064%的信息。

(3)聚类分析结果。根据主成分的计算方法,得到各主成分的特征向量,根据各主成分特征向量,计算前5个主成分的标准得分系数,将主成分的得分系数代替原始指标进行聚类分析。利用统计软件SPSS12.0中的系统聚类方法,对9个省份进行R型聚类,即对个案聚类,得到聚类结果,如图所示。

(4)泛珠三角区域物流园区空间类型定位。通过对各省区的聚类分析,从图可以看出,泛珠三角地区物流园区空间类型可分为3类,广东为一类,江西和湖南为一类,福建、广西、贵州、海南、四川和云南等5省为一类。

结合实际可见,聚类分析的结果较符合实际。这3类都有各自的特点:

(1)广东省是泛珠三角地区重要的交通枢纽,港口、机场和陆路交通十分发达,省区内多种运输方式骨干线网交汇,工业商业、宏观环境、经济发展等优势明显,发展物流所依托的各方面资源都很好,因此,广东省具备建成国际枢纽型物流园区的条件,广东省在泛珠三角地区处于物流园区空间布局的最高层次,是物流园区布局的1类地区。

(2)江西和湖南两省在泛珠三角地区中除广东省外地区实力较强的省区,发展物流的综合实力比较突出,因此,这两个省份适于建成区域集散型物流园区,是物流园区空间布局的2类地区,适宜建成跨省区区长途运输和省区城市间配送体系的转换枢纽,承担周边省区与城市物流的集散功能。

(3)福建、广西、贵州、海南、四川和云南5省发展物流的实力较弱,属于物流园区空间布局的3类地区,即物流本地生成城市,适于建成城市型物流园区,主要保障商贸与城市生产,承担各自省区的物流配送业务。

四、结语

文中选取反映物流业发展的22项指标,通过主成分分析法,建立主成分模型,在主成分分析的基础上进行聚类分析,以主成分得分系数代替原始指标进行聚类,在聚类分析时,用多种聚类方法进行分析,聚类结果较为一致,这表明将主成分与聚类分析法相结合,可有效避免原始指标间存在相关性造成聚类偏差,聚类结果较为客观准确。

本文在分析泛珠三角区域物流业发展的基础上,为了合理对泛珠三角区域内各省区的物流园区进行定位,首先从宏观层面,采用聚类分析法分析泛珠三角范围内各省区的物流园区的空间类型,然后,从微观层面,在确定各省区物流园区空间类型的基础上,对各省区的物流园区功能进行定位,分析的结果较符合客观实际。在目前物流园区建设热中,可将该方法应用在确定全国物流园区的宏观空间布局规划中,通过分析全国物流园区空间类型,以便提高物流园区规划建设的决策科学性,避免和减少极易出现的盲目投资和重复建设。

摘要:本文利用主成分分析和聚类分析法对泛珠三角物流园区的空间类型进行分类。在目前物流园区热中,从宏观角度对物流园区空间类型进行合理划分,在这基础上对物流园区进行合理的功能定位,可以实现各省区物流园区建设投资合理、物流系统优化等目标,并有效避免资源的重复配置和物流园区功能定位不清等问题。

关键词:主成分分析,聚类分析,物流园区,功能定位

参考文献

[1]汪鸣:宏观调控环境中物流的收获与期待——2004年我国物流发展综述[J].综合运输,2005

[2]王庭建:物流园区及其建设发展研究[J].物流科技,2005,28(114)

[3]张晓东:物流园区布局规划理论研究[M].北京:中国物质出版社,2004

[4]薛薇:SPSS统计分析方法及应用[M].北京:电子工业出版社,2004

[5]云俊:物流园区预测方法及应用研究.武汉理工大学工学博士学位论文,2003

上一篇:职业病分析下一篇:网络信息素质教育论文