聚类评价方法

2024-07-07

聚类评价方法（精选12篇）

聚类评价方法篇1

0 引言

聚类融合算法被认为是数据分析的有效工具之一, 它通过把多个聚类决策进行融合, 得出更准确的、更壮健的决策[1,2,3,4,5]。然而, 除了研究优良的聚类融合算法, 怎么评价聚类的质量也被认为是难题之一。因为聚类属于无监督学习方法, 并不具备像监督学习方法那样的测试集进行评价。

然而, 在许多聚类融合算法文章的实验部分中[6,7,8,9,10], 先假装不知道数据集的分类标签, 然后在得出聚类决策后, 再用该数据集的基准进行评价。这种测定聚类质量的方法被称为外在方法, 它的基准通常由专家构建。现实中, 这种基准不但昂贵, 而且常常不容易得到。另外, 还有一种不依赖基准的方法, 被称为内在方法。这种方法基于聚类的定义进行评价, 即考察同一簇中的对象是否彼此相似, 不同簇的对象是否彼此分离。但由于这种方法需要利用数据集对象之间的相似度量, 因此需要用户来决定使用哪一种的相似度量, 而用户往往不具备这一方面的先验知识。

据此, 本文提出一种新颖的基于实验的聚类融合算法评价方法, 其基准不需要专家来构造, 也不需要用户去决定使用哪一种相似度量, 它的基准由所有参与评价的聚类融合算法折衷而来, 因此其得出来的聚类质量独立于其中任何一种聚类融合算法, 但又依赖于所有的聚类融合算法, 是一种基于参与评价的聚类融合算法的评价方法。

这篇文章的安排如下:第一部分简述聚类质量评价方法的相关工作;第二部分提出聚类融合算法的实验评价方法框架;第三部分, 基于这个框架, 具体描述如何使用这个方法来评价两种聚类融合算法;实验在第四部分;第五部分则是总结。

1 相关工作

基准是一种理想的聚类结果, 它能够完全反映数据集的结构。根据是否有基准可以参照, 聚类质量评价方法分为外在方法和内在方法。

外在方法使用基准, 它将算法所得出的聚类结果与基准进行对比, 得出评价结果。外在方法的评价依据是, 当聚类结果越接近基准, 它的评价越高。通常情况下, 基准是由专家来评定。

内在方法不使用基准, 它依据聚类的定义, 考察聚类结果中簇的分离情况和紧凑情况。内在方法的评价依据是, 同一簇的对象越紧凑, 不同簇的对象越分离, 那么聚类结果的评价越高。例如, 轮廓系数就是这样一类方法[11]。它结合簇的紧凑性和分类性, 度量出聚类结果的簇的拟合性。

内在方法需要用户设定数据集的对象之间的相似度量, 其聚类质量评价结果依赖于用户对数据集结构理解的先验知识。本文采用的是外在方法, 但其基准不由专家构造。它利用聚类融合算法的特点, 构造多个候选基准, 并在其中挑选优良的候选基准作为基准。这种基准不依赖与专家评价等先验知识, 是由参与评价的聚类融合算法折衷所得出。

2 聚类融合算法的实验评价方法框架

聚类融合算法的实验评价方法分为2个步骤。

⑴生成基准的框架如图1所示。首先, 通过个基聚类算法分别作用于数据集, 得出个基聚类。然后, 对基聚类采样次, 得出个采样基聚类集。对每一个基聚类集采用参与评价的个聚类融合算法, 得出个融合聚类, 再对这些融合聚类采取聚类融合聚类算法, 得出基于这个采样基聚类集的基准。如此类推, 一共可以得出个基准。最后, 通过对这个基准进行筛选, 得出最终的基准。

⑵由于已经生成基准, 我们可以利用这个基准采取外在方法的评价方式。给定基准πb和K个由不同聚类融合算法所得的融合聚类, 对每一个融合聚类π={π1, π2, …, πk}, 对每一个融合聚类πi, 都可以得出一个质量评分Qi (πi, πb) 。评分越高, 代表该聚类融合算法得出来的融合结果越好。

聚类质量度量一般满足以下4项标准[11]: (1) 簇的同质性。属于不同的类别的对象应该分在不同的簇。 (2) 簇的完全性。属于同一的类别的对象应该分在同一的簇。 (3) 碎布袋。将异种对象引入碎布袋要比引入纯的簇危害小。 (4) 小簇的保持性。大类别划分成小片比小类别划分成小片危害大。

3 两种聚类融合算法的实验评价方法

本部分介绍参与评价的2种聚类融合算法, singlelinkage clustering (SLC) [2]和iterative voting clustering (IVC) [6], 然后根据第二部分提出的框架, 实现聚类融合算法的实验评价方法。

3.1 两种聚类融合算法

SLC的伪代码如算法一所示。这个算法由三个步骤组成。第一步, 计算每一个结果的co-association矩阵。然后, 把所有co-association矩阵加起来再除于结果的数目。最后, 用single-linkage聚类分层方法来得出聚类合成的结果。

算法一Single-linkage Clustering

输入:数据集X={X1, X2, …, XN}

聚类结果P={P1, P2, …, PL}

K是聚类融合结果的分类数

输出:有K类的聚类融合结果P*

初始化:N×N的co-association零矩阵M

for每一个聚类结果Pi∈P do

M是N×N矩阵, S=1, 2, …, L其中

end for

计算M的single-linkage聚类分层结果。聚类合成结果P*就是有K类的聚类分层结果。

IVC的伪代码如算法二所示。这个算法由2个步骤迭代组成。第1步, 计算聚类合成算法结果中的聚类中心。第2步, 把每一个数据点分配到它最近的聚类中心。

算法二Iterative Voting Clustering

输入:数据集X={X1, X2, …, XN}

聚类结果P={P1, P2, …, PL}

K是聚类合成结果的分类数

输出:有K类的聚类合成结果P*

初始化:P*

repeat

设Pi={y︳p* (y) =i}是第i类

计算每一组的聚类中心

其中 (Pi) j是聚类结果Pi所有数据点的第j个特征值

for y in Y do

分配p* (y) ←arg miniD (y, ypi)

其中D是汉明距离,

end for

untilp*不再变化

3.2 聚类融合算法的实验评价方法的实现

根据第2部分提出来的框架, 评价SLC和IVC的实现方法的第1步如图2所示。首先, 基聚类算法使用随机K-means算法, 得到N个基聚类Π={π1, π1…, πn}。

第2步, 采用赌轮盘方式随机选择采样基聚类, 然后分别使用SLC和IVC进行融合, 得到两个融合聚类。最后, 使用SLC把两个融合聚类进行融合, 得到候选基准。重复这个步骤M次, 得到M个候选基准。

其中, 在采用赌轮盘随机采样方式中, 基聚类被选入采样基聚类的概率依照该基聚类的多样性而定。基聚类的多样性越大, 它被选中的概率越大。这是为了确保多样性大的基聚类集能够生成不同的候选基准。

本文采用标准互信息 (Normalized Mutul Information, NMI) 来评价基聚类的正确性和多样性[12]。标准互信息可以计算两个聚类之间共享的统计信息。假设存在两个聚类πa和πb, 它们之间的标准互信息定义如下:

其中:k (a) 表示在聚类πa中簇的个数, k (b) 表示在πb中簇的个数。I表示数据的个数。Iia表示属于聚类πa中簇Cia的个数。Iib表示属于聚类πb中簇Cjb的个数。Iijab表示同时属于聚类πa中簇Cia和聚类πb中簇Cjb的个数。NMI的取值范围在[0, 1]之间。当NMI等于1时, 表示这两个聚类一致。当NMI等于0时, 表示这两个聚类不存在任何共享信息。

根据NMI的定义, 基聚类πp∈Π的多样性的定义[12]如下:

给定融合聚类π*, 基聚类πp的准确率的定义[12]如下:

根据多样性Div (πp) , 基聚类πp被采样选入基聚类集的概率的定义[12]如下:

第3, 对M个候选基准进行筛选评分。本文采取的基准筛选定义:两个融合聚类相似, 并且两个融合聚类的准确性相近。这样的定义是为了减少融合聚类算法SLC对两个融合聚类的影响, 使两个融合聚类更相近似, 并跟基准都具有近似的共享信息。假设两个融合聚类πu*和πv*, 候选基准πB*, 该基准的评分定义如下:

最终, 选取评分最高的候选基准作为基准。

第2步, 本文采用BCubed作为外在方法[11], 它满足第二部分提到外在方法的4个标准。

假设有对象集合X={X1, X2, …, Xn}, 是的一个聚类, C是X的基准。C (Xi) (1≤i≤n) 表示Xi在C的类别, B (Xi) (1≤i≤n) 表示Xi在B的类别。

对于两个对象Xi和Xj (1≤i, j≤n, i≠j) , Xi和Xj在聚类C的正确性的定义如下:

BCubed的精度定义如下:

BCubed的召回率定义如下:

结合Precision和Recall, 我们使用F度量方法, 其定义如下:

F越接近1, 表示聚类质量越好。

4 实验

4.1 实验数据

本文使用2个仿真数据集和3个UCI数据集。2个仿真数据分别是U02和SP01, 其分布如图3和图4所示。数据集的具体说明如表1所示。3个UCI数据集分别是Iris, Glass和Wine。

4.2 实验参数

在第一步中, 我们运行100次kmeans得到100个基聚类, 然后每次采样基聚类的个数为20, 共采用100次, 得到100个采样基聚类集。在候选基准的评价中, 我们设定α=0.1λ=0.9。在第二步中, 我们设定β=1, 即基聚类算法Kmeans和聚类融合算法SLC、IVC的设定类数均设为该数据集的实际类数。

4.3 实验结论与分析

本评价方法对每一个数据集运行100次, 结果取平均值。作为对比, 以专家评价作为基准, 也使用F方法作为评价, 同样运行100次, 结果取平均值。结果如表2所示。

*使用专家评价作为基准

从实验结果可得出以下结论:

⑴当F*SLC和F*IVC均高于0.8时, 本文的方法的评价与使用专家评价为基准的外在方法的评价一致。例如, 对于U02, 两种评价都认为两种方法的聚类质量一样;对于Iris, 两种评价都认为SLC的聚类质量比IVC好。

⑵当F*SLC和F*IVC均低于0.8时, 本文的方法的评价与使用专家评价作为基准的外在方法的评价不完全一致。例如, 对于SP01、Glass和Wine, 本文的方法认为IVC的聚类质量高于SLC, 但使用专家评价作为基准的外在方法评价相反。

这说明了, 当F*SLC和F*IVC均很高时, 从专家评价作为基准的外在方法看来, SLC和IVC都是强聚类融合算法, 他们都能很好地反映数据集的结构。此时, 它的评价与本文的方法的评价一致。这是因为本文的评价方法假定参与评价的数据融合算法都是强聚类方法。

5 结语

文章提出了一种的新颖的聚类融合算法的实验评价方法的框架, 并依据这个框架, 实现了对SLC和IVC两种聚类融合算法的评价。实验证明, 从传统外在方法看来, 当参与评价的算法是强聚类融合算法时, 本文方法的评价结果与传统方法的评价结果一致。

由于本文的评价方法不需要使用专家评价基准, 因此, 本文的评价方法可以作为外在方法应用到无类别号的数据集中。现实中, 大部分的数据集不具有类标号, 所以本方法比起传统的外在评价方法具有更广泛的应用前景。未来工作将在此方法框架上, 研究对于此方法与不同评价方法的关系, 并对不同类型的聚类融合算法实现本方法。

参考文献

[1]A.Strehl, J.Ghosh.Cluster ensembles-a knowledge reuse framework for combining multiple partitions[J].Journal of Machine Learning Research, 2002, 3 (1) :583-617.

[2]A.Fred, Anil K Jain.Combining multiple clusterings using evidence accumulation[J].Pattern Analysis and Machine Intelligence, 2005, 27 (6) :835-850.

[3]Alexander Topchy, Anil K Jain, William Punch.Clustering ensembles:models of consensus and weak partitions[J].Pattern Analysis and Machine Intelligence, 2005, 27 (12) :1866-1881.

[4]S.T.Hadjitodorov, L.Kuncheva, LP Todorova.Moderate diversity for better cluster ensembles[J].Information Fusion, 2006, 7 (3) :264-275.

[5]L.Kuncheva, D.Vetrov.Evaluation of stability of k-means cluster ensembles with respect to random initialization[J].Pattern Analysis and Machine Intelligence, 2006, 28 (11) :1798-1808.

[6]Nam Nguyen, Rich Caruana.Consensus clusterings[C]//Proceeding of IEEE 13th International Conference on Data Mining, 2007:607-612.

[7]N.Iam-On, T.Boongoen, S.Garrett, et al.A link-based approach to the cluster ensemble problem[J].Pattern Analysis and Machine Intelligence, 2011, 33 (12) :2396-2409.

[8]Hongjun Wang, Hanhuai Shan, Arindam Banerjee.Bayesian cluster ensembles[J].Statistical Analysis and Data Mining:The ASA Data Science Journal, 2011, 4 (1) :5470-5471.

[9]N Li, L.J.Latecki.Clustering aggregation asmaximum-weightindependent set[C]\Proceedings of Neural Information Processing Systems, 2012:782-790.

[10]Andr Laurenco, Samuel Rota Bulo, Nicola Rebagliati, et al.Probabilistic consensus clustering using evidence accumulation[J].Machine Learning, 2013 (4) :331-357.

[11]Jiawei Han, Micheline Kamber, Jian Pei.Data mining concepts and techniques[M].3rd ed.Beijing:China Machine Press.2012, 483-491.

[12]王丽娟, 郝志峰, 蔡瑞初, 等.基于随机取样的选择性K-means聚类融合算法[J].2013, 33 (7) :1969-1972.

聚类评价方法篇2

灰色聚类法评价淀山湖水质状况

逐月在淀山湖6个站点进行水质参数测定.水质参数在各站点的`月平均变化范围为DO 7.210～9.943(mg/L)、BOD5 3.810～4.940(mg/L)、CODMn 6.016～7.053(mg/L)、TP0.137～0.366(mg/L)、NH3-N 2.176～3.362(mg/L)、Chl.a 29.814～56.02(mg/m3).对各站点20水质参数的月平均测定结果应用灰色聚类方法进行富营养化程度和水环境质量等级评价,结果显示:调查的六个站点全部处于富营养化水平;六个站点的水质全部处于v类水等级.在灰色聚类法评价水质过程中,权系数最大的是氮、磷及叶绿素a.因此,在淀山湖人工栽植水草进行脱氮除磷、放养滤食性鱼类抑制藻类大量繁殖是改善淀山湖水质的有效途径.

作者：王旭晨王丽卿彭自然 WANG Xu-chen WANG Li-qing PENG Zi-ran 作者单位：上海水产大学生命科学与技术学院,上海,90 刊名：上海水产大学学报 ISTIC PKU英文刊名：JOURNAL OF SHANGHAI FISHERIES UNIVERSITY 年，卷(期)： 15(4) 分类号：S912 关键词：灰色聚类法水体富营养化水环境质量评价

聚类评价方法篇3

[关键词] 物流外包灰色聚类关联

物流是创造价值的活动—为企业的顾客和供应商创造价值，为企业的股东创造价值。物流外包指生产或销售型企业为集中精力增强竞争能力，而将其物流业务以合同的方式委托专业的物流服务商操作。物流外包作为一个提高物资流通速度、节省物流费用和减少在途资金积压的有效手段，确实能够给供需双方带来较多的收益。阻碍物流外包发展的因素既有体制的制约、人为的失误，也有观念的陈旧和技术的缺陷，这些因素既存在于物流供应商方面，也存在于物流需求商方面。

一、物流外包风险

现代物流企业在攫取“第三利润源泉”的同时，其面临的风险也与日俱增。根据风险管理的理论，现代物流风险可谓是体系庞大、纷繁复杂，它不仅包括了传统意义上的纯粹风险，还包括责任风险、客户流失风险、合同风险、诉讼风险、投融资风险、财务流动性风险、人力资源风险等各个方面。

外包常常会使企业失去对一些产品或服务的控制，从而增加了企业正常生产的不确定性。企业在外包的过程中有可能由于丧失对外包的控制而影响整个业务的发展。长期依赖某一个第三方物流服务商对企业的资本投资、效率提高具有潜在的好处，但同时又会使第三方物流服务商滋生自满情绪而让企业难以控制。企业物流外包往往会影响企业的内部业务流程，需要企业的内部业务流程重组，这个过程很可能对所有员工都产生影响，受到企业内部员工的抵制而对企业正常的生产经营产生负面影响。降低用户满意度。企业过于依赖第三方物流服务商，又无法控制或影响他们，使企业不能取得所需的用户需要信息，从而影响企业的产品改进。从长期来看，由于对物流活动的失控可能阻碍核心业务与物流活动之间的联系而降低用户满意度。企业利益受损。物流活动的长期外包，会使第三方物流服务商认为企业缺乏专家技术，因此抬高物流服务的价格或提供较差的物流服务，从而使企业蒙受损失。

二、灰色聚类关联评价

物流业在我国是一个刚刚兴起的行业，相对于国外成熟、发达的物流业来说，物流服务模式单一、从事物流的企业大都是一些相对“散、乱、差”的中小企业、政府监管和理论研究薄弱、市场不成熟、法制体系不健全等问题困扰着我国物流业的发展。由于物流风险管理评价系统存在着大量的灰色性，因此将灰色系统理论应用于物流风险管理综合评价无疑是一个新的发展方向。所以本文针对物流外包风险控制提出一种物流外包风险综合评价的灰色聚类关联分析法。其基本原理是先利用灰色聚类法中改进后的白化函数计算各评价样本对各级别的从数度，然后再分别计算样本与清晰综合评价间的灰色加权关联度，根据关联度的大小即可确定各第三方物流企业的优劣。

三、评价原理与方法

设有Z个第三方物流公司（即评价样本），m个评价级别，n个评价指标:

其中为第k个物流公司的第j个评价指标的实测值，而为属于第i个级别的第j个评价指标的标准范围。

1.造灰色聚类白化函数

(a)(b) (c)

2.评价指标的权重

根据关联度确定各因素权重，利用加权法计算每个物流企业中评价指标的权重，计算公式为∶

其中为第k个物流企业第j个评价指标的归一化权重。

3.灰色关联度

灰色系统理论提出关联分析方法，可以对不同指标的行为进行对比、分类及分析，以了解哪些行为比较接近，哪些差别较大，它根据系统各因素间或各系统行为之间的数据列或指标列的发展态势做相似或相异程度的比较，

对于第k个物流企业的评价指标对于第j个级别的从属度为,则

于是得出关联度

4.判断

如果，则该物流企业的风险等级为t级。

四、结束语

本文提出的基于灰色聚类关联评价对第三方物流外包的风险进行评估，为决策者提供一种比较科学的风险防范方式，能够准确预测和防范各类风险，真正形成物流外包的优势。

参考文献：

[1]罗纳德·H·巴罗:企业物流管理[M].机械工业出版社，2002

[2]刘思锋等:灰色系统理论及其应用[M].科学出版社 2005

[3]李学全:灰色关联度量化模型的进一步研究[J].系统工程 1995.13（6）

仓储物资管理水平聚类评价方法篇4

仓储是“对物品进行保管及对其数量、质量进行管理控制的活动”。它是物流的重要环节,仓储物资的有效管理是实现物流目标的重要保证。管理水平评估是提高仓储物资管理水平的一种重要手段。在理论研究和实际工作中经常要对多个仓库的物资管理水平进行分类和排序,以便查找不同仓库在仓储管理中存在的薄弱环节,为下一步建设明确指导方向。

聚类分析是研究样品或指标分类问题的一类多元统计分析方法的总称,它包括多种方法,如系统聚类法、有序样品聚类法、模糊聚类法、图论聚类法、动态聚类法等,其中心思想是将相似元素归为一类。本文在文献[1,2]关于仓储管理评估指标研究的基础上,建立了仓储管理水平指标体系,利用模糊聚类分析法对多个仓库的物资管理水平进行了聚类分析。

1 仓储管理水平评价指标体系的建立

1.1 指标体系建立原则

在仓储物资管理水平评价过程中,并非评价指标越多越好,但也不是越少越好,评价指标过多,存在重复性,会受干扰;评价指标过少,可能所选的指标缺乏足够的代表性,会产生片面性。因此,在建立评价指标体系时应该遵循一些原则。

(1)系统性原则。即要反映仓储物资管理的本质特性和整体性能,要抓住主要因素,以保证评价的全面性和可信度。

(2)一致性原则。即评价指标应与仓储物资管理一致,不能将与仓储物资管理无关的指标选进来。

(3)独立性原则。即所建指标不能具有包含关系,保证指标能从不同方面反映仓储物资的管理水平。

(4)可测性原则。即指标尽可能用数字说话,必须符合国家和军队的法规、标准。

(5)可比性原则。即评价指标体系的可比性越强、评价结果的可信度就越大。评价指标和标准制定要客观实际,便于比较。

1.2 指标体系的构建

在建立仓储管理水平评价指标体系时,要考虑人员素质、基础设施建设、投入经费、效益指数等方面的因素,同时结合仓库实际情况,形成能系统地描述仓储物资管理水平的指标体系。仓储物资管理水平评价指标体系如表1所示。

2 管理水平聚类分析

聚类分析是多元统计分析的一种,也是非监督模式的识别的一个重要分支,它把一个没有类别标记的样本按某种准则划分成若干个子集(类),使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中,模糊聚类分析是模糊集理论与传统的聚类分析相结合的分析方法,它克服了硬聚类分析在划分对象时“非此即彼”的缺点。分析的步骤与方法如下:

(1)选择被评价的对象,构成论域U={u1,u2,…,un},其中ui由一组数据来表征,ui={ui1,ui2,…,uim},Xij表示各指标的数值(i=1,2,…,n;j=1,2,…,m)。论域的选择可按实际需要设定,本文在案例计算部分选取了7个仓库A、B、C、D、E、F、G作为评价论域。

(2)原始数据标准化。要构造模糊关系矩阵,必须对样本数据进行预处理,使样本数据压缩到[0,1]闭区间内,首先求出n个样本第j个指标的平均值和标准差。

n个样本的第j个指标的平均值为:

n个样本的第j个指标的标准差为:

原始数据标准化值为:

运用极值标准化公式,将标准化数据压缩到[0,1]闭区间内,其中x′jmax与x′jmin分别表示xij中最大值和最小值。

(3)建立U上的相似矩阵R,可选用数量积法、夹角余弦法、统计相关系数法、绝对数值法、算术平均最小法、几何平均最小法等,本文采用的是绝对值减数法。

(4)计算相似矩阵的等价闭包。一般来说求得的矩阵R只有满足自反性和对称性,而不满足传递性,不能直接用来聚类。因此,需要将其改造成模糊等价矩阵R*,步骤如下:

第1步,将R自乘得R 2,即R 2=R×R,将R 2自乘得R 4,即R 4=R 2×R 2。

第2步,继续算出R 8,R 16,…,直至出现R 2k=Rk(k=2,4,8,…)。

则令R*=Rk为一个模糊等价矩阵,由它描述一个模糊等价关系。

(5)求模糊等价关系的布尔矩阵Rλ=(λγij),其中

(6)λ从1到0逐步取值,得到动态聚类,最后,根据实际需要确定阈值λ,得出论域的分类情况。

(7)重复步骤(1)～(5),逐层进行分析。

3 案例计算

本文选择A,B,C,D,E,F,G,7个仓库作为评价对象,这7个评价对象构成论域U,即U={u1,u2,u3,u4,u5,u6,u7}。根据实际调查情况可得各仓库的相关原始数据表,如表2所示。

原始数据标准化为:

运用极值标准化公式,将标准化数据压缩

到[0,1]闭区间内:

采用绝对值减数法,建立U上的相似矩阵A,取c=0.1

得U相似矩阵:

用平方法求相似矩阵的等价闭包:

所以,R 4是传递包,也就是所求的模糊等价矩阵。

根据模糊统计量的计算及经验判断结果,取λ=0.69,A,B,C,D,E,F,G 7个仓库分为四类:Ⅰ类:{E,F,G},Ⅱ类:{A,C},Ⅲ类:{D},Ⅳ类:{B}。

令λ=0.69

通过数据分析可知,Ⅰ类仓库为仓储物资管理水平比较高的仓库;Ⅱ类仓库为仓储物资管理水平个方面都较一般的;Ⅲ类和Ⅳ类仓库属于仓储物资管理水平较差的,需要进一步提高,以上分析结果,与实际情况相吻合。

4 结束语

仓储物资管理水平是关系仓库综合保障能力的重要组成部分,仓储物资管理水平评价是促进仓库建设的重要手段,目前关于综合评价方法方面的研究已经取得很高的成果,但是真正适合仓库评价的不多。本文在综合前人关于仓库评价指标研究的基础上,建立了仓储物资管理水平评价指标体系,利用模糊聚类分析法将7个仓库的仓储物资管理水平进行聚类,研究结果对于查找仓库建设的薄弱环节,促进仓库规范化建设乃至提高仓库的综合保障能力具有一定的实践指导意义。

摘要：仓储物资管理是仓库全面建设的重要环节,仓储物资管理水平评价是促进仓库规范化建设的一种重要手段。通过建立仓储物资管理水平评价指标体系,利用模糊聚类分析方法将不同仓库仓储物资管理水平进行聚类,对查找仓库建设中的薄弱环节,提高仓库全面建设具有一定的实践指导意义。

关键词：仓库,管理水平,模糊聚类

参考文献

[1]于娜,高崎.仓储物资管理水平评估指标处理方法研究[J].火力指挥与控制,2008(9):138-148.

[2]叶义成,柯丽华,黄德育.系统综合评价技术及其应用[M].北京:冶金工业出版社,2006.

[3]吕政光,赵文杰.基于模糊聚类方法的机场目标选择模型[J].指挥控制与仿真,2009(3):13-16.

聚类评价方法篇5

高粱[Sorghumbicolor(L.)Moench.]是世界五大谷类作物之一，也是中国最早栽培的禾谷类作物之一。甜高粱是粒用高粱的一个变种，甜高粱除具有普通高粱的一般特征外，其茎秆中还含有大量的汁液和糖分，其籽粒可食用、饲用、酿酒，茎秆可饲用、制糖、酿酒、做饮料、提炼酒精等，秆渣还可制纸、制板、人造纤维等。甜高粱作为一种新兴的饲料、糖料、能源作物，极具开发价值[1-4]。

聚类分析方法在研究作物品种资源的差异和分类方面已有不少应用，是一种比较可行的分析评价方法[5-7]。作物生物学性状的聚类分析是其种质资源u价的重要方面[8-9]。表型性状的调查测定相对简单、易操作，而且更直观，是种质资源研究的最基本方法，也是分类不可缺少的重要依据之一[10-11]。将差异显著的N个性状变换为既不具相关性又能反映原来多个性状主要信息的综合指标进行聚类分析，进而比较亲本间的遗传差异，达到归类使用的目的[12-13]。本研究通过甜高粱新品种(系)在全国不同生态环境下的主要农艺性状、产量品质性状的表现，采用多元统计分析方法，探讨它们之间的量化关系，从而对各个参试品种(系)进行综合评价和聚类分析，为甜高粱新品种(系)的推广、高产高效栽培、品种的改良、品质的提高提供参考依据。

1材料与方法

1.1材料

供试甜高粱材料为―全国高粱品种区试能源青贮组区试参试品种(系)。编号1～15的名称依次为辽甜14-1、中科甜5号、311A/LTR108、辽甜14-2、辽甜6号、辽甜14-3、吉甜杂2号、辽甜15-1、3436A×Pi57、辽甜15-2、科甜5号、154A3×Pi571、辽甜15-4、晋甜1401、辽甜15-3。试验分别安排在江苏盐城、内蒙古赤峰、内蒙古通辽、山西晋中、安徽蚌埠、湖南长沙、河南郑州、山东济南、吉林公主岭、吉林吉林、辽宁沈阳、甘肃平凉、辽宁朝阳、河北石家庄14个试点进行。均采用直播的方式，随机区组排列，3次重复，行长5m，小区面积不少于15m2。收获时，去掉两侧边行(两侧各1行)，收中间数行计产，收获面积不少于10m2，密度75000株/hm2。栽培管理略高于当地一般水平。

考察植株性状有株高X1(cm)、茎粗X2(cm)、分蘖数X3(个)、生育期X4(d)、倾斜率X5(%)、倒折率X6(%)、穗长X7(cm)、穗粒质量X8(g)、千粒质量X9(g)、育性X10(%)、鲜质量产量X11(kg/hm2)、籽粒产量X12(kg/hm2)、茎秆含糖锤度X13(%)、茎秆出汁率X14(%)、丝黑穗病接种发病率X15(%)共15个。

1.2方法

采用变异系数、主成分分析、聚类分析、判别分析、多元方差分析方法[6]进行分析，以期找出具有生物学及专业意义的统计参数，为甜高粱新品种(系)进行综合评价并制定性状改良决策，为适应沿海滩涂饲料化利用提供有益的信息。数据处理采用SPSS22.0软件[14]。

2结果与分析

2.1主要农艺性状、产量品质性状的遗传变异分析

变异系数是测定作物各性状受一定环境条件影响发生变异程度的一个指标，它能反映出作物性状遗传的基本动态。甜高粱品种(系)主要农艺性状、产量品质性状的平均值与变异系数见表1。

由表1可以看出，丝黑穗病接种发病率变异系数最大，高达127.47%;其次是育性，为74.94%。由此可见，供试甜高粱品种(系)抗病性和育性具有较丰富遗传多样性，改良空间较大。平均生育期132.3d，变异系数3.75%;茎秆出汁率平均为47.8%，变异系数3.91%，表明这2个性状受外部环境因素及栽培条件的影响较小，主要受遗传因子支配。其他性状的变异系数依次为株高<穗长<茎秆含糖锤度<鲜质量产量<籽粒产量<分蘖数<千粒质量<茎粗<倾斜率<穗粒质量<倒折率。

2.2主要农艺性状、产量品质性状的相关性分析

表2显示，株高(X1)与生育期(X4)、鲜质量产量(X11)呈极显著正相关，与倒折率(X6)呈显著负相关;茎粗(X2)与千粒质量(X9)呈显著负相关;分蘖数(X3)与丝黑穗病接种发病率(X15)呈极显著正相关;生育期(X4)与倒折率(X6)呈极显著负相关，与丝黑穗病接种发病率(X15)呈显著负相关，与鲜质量产量(X11)呈极显著正相关;倒折率(X6)与鲜质量产量(X11)呈显著负相关;穗粒质量(X8)与籽粒产量(X12)呈极显著正相关，与茎秆含糖锤度(X13)呈极显著负相关;千粒质量(X9)与丝黑穗病接种发病率(X15)呈显著负相关;鲜质量产量(X11)与茎秆出汁率(X14)呈极显著正相关;其余性状之间呈正或负相关性但均不显著。由此可见，这些性状间存在着正负、强弱相关错综复杂的关系，致使它们提供的相关信息出现重叠，不易寻求其简明的变化规律，所以须进行主成分分析，以便找出影响各个性状的主成分。

2.3主成分分析

利用表2中得到的相关系数矩阵进行主成分分析，结果提取前5个主成分，其累积方差贡献率达85.442%，已代表所考查性状的绝大部分相关信息。由相关系数矩阵的`前5个特征值及相应的特征向量计算所得的主成分载荷矩阵如表3所示。

这些载荷表示该因子对变量的影响程度，如株高性状值=0.706f1-0.241f2+0.543f3+0.153f4+0.202f5;茎粗性状值=0.213f1+0.089f2+0.452f3-0.745f4-0.382f5等。共同度表示所选主成分对变量方差的贡献率，其数值大小表明所选主成分能反映该变量变异信息的多少。因此从表3可以看出，共同度最小的为倾斜率(59.9%)，其次是穗长(696%)、茎秆出汁率(70.6%)、茎秆含糖锤度(77.8%)，其余各性状的共同度均超过80%，表明所选的5个主成分能较好地反映这些性状所包含的相关信息。

基于求得的主成分载荷矩阵(表3)及各性状的标准化值，按式F=A×Z[其中F、A、Z依次为主成分得分、载荷矩阵参试品种(系)的因子得分值、样本矩阵的标准化]计算各参试品种(系)的主成分得分，结果见表4。

2.4聚类分析

根据所选15个主要农艺性状和产量品质性状，对15个区试品种(系)进行聚类。首先利用主成分将15个性状在保留它们变异总信息量85.442%的前提下浓缩为5个主成分，再将所选各性状进行标准化，进一步利用5个主成分和各性状的标准化值计算供试品种(系)相对应于第1、第2、第3、第4、第5主成分上的得分，在此基础上进行系统聚类[品种间相似性尺度用闵式(minkowski)距离P表示，P=15，聚类方法用离差平方和表示]，系统聚类结果如图1所示。结果表明，15品种(系)可以聚为四大类。第Ⅰ类包括辽甜14-1、辽甜6号、辽甜14-3、3436A×Pi57、辽甜15-2、科甜5号、辽甜15-4;第Ⅱ类包括154A3×Pi571、晋甜1401;第Ⅲ类仅为311A/LTR108、辽甜14-2、辽甜15-3;第Ⅳ类包括中科甜5号、吉甜杂2号、辽甜15-1。

2.5判别分析

为了验证上述聚类分析结果的准确合理性，基于聚类结果，以5个主成分作为判别变量，采用一般判别分析方法，建立判别函数(表5)。根据判别函数，对参试品种(系)重新判别归类，判别结果见表6。结果发现，类别Ⅰ共有7个品种(系)，用判别函数回代分类，与实际相符也是7个品种(系)，没有错分，判别的准确率为100%;同样类别Ⅱ、类别Ⅲ、类别Ⅳ判别的准确率也均为100%。由此可见，上述聚类分析结果准确可靠。

2.6不同类型品种(系)主要农艺性状、产量品质性状的多元方差分析

由表7可以看出，第Ⅰ类7个品种(系)的平均株高中等，为353.2cm;茎粗为2.3cm;分蘖数中等，为1.3个;生育期中等，为132.5d;倒折率中等，为16.2%;穗粒质量最高，为67.7g;千粒质量中等，为27.5g;鲜质量产量中等，为73636.5kg/hm2;籽粒产量最高，为4318.5kg/hm2;茎秆含糖锤度最低，为16.4%;茎秆出汁率中等，为47.2%;丝黑穗病接种发病率较低，为7.1%，对于这类品种(系)应重点改良茎秆含糖锤度、鲜质量产量等方面，同时提高抗倒伏性，以满足市场需求。

第Ⅱ类2个品种(系)的平均株高中等偏下，为339.8cm;茎粗最细，为2.1cm;分蘖数最少，为1.2个;生育期中等，为133.5d;倒折率中等偏低，为13.4%;穗粒质量中等，为59.2g;千粒质量最高，为31.5g;鲜质量产量中等，为75916.5kg/hm2;籽粒产量中等，为3853.5kg/hm2;茎秆含糖锤度最高，为18.6%;茎秆出汁率最低，为46.9%;丝黑穗病接种发病率最低，为0.4%，属优质品种(系)。对此类品种(系)，应重点提高产量。

第Ⅲ类3个品种(系)的平均株高最高，为364.1cm;茎粗为2.3cm;分蘖数中等，为1.3个;生育期最长，为137.8d;倒折率最低，为13.2%;穗粒质量最低，49.5g;千粒质量最低，为23.7g;鲜质量产量最高，为83698.5kg/hm2;籽粒产量最低，为3448.5kg/hm2;茎秆含糖锤度较高，为17.4%;茎秆出汁率最高，为50.3%;丝黑穗病接种发病率中等，为128%，这类品种(系)产量、品质结合性较好。

第Ⅳ类3个品种(系)的平均株高最低，为324.3cm;茎粗中等，为2.2cm;分蘖数最多，为1.5个;生育期最短，为125.3d;倒折率最高，为21.2%;穗粒质量中等，为58.3g;千粒质量中等偏低，为25.1g;鲜质量产量最低，为70098.0kg/hm2;籽粒产量中等偏低，为3612.0kg/hm2;茎秆含糖锤度中等偏低，为16.9%;茎秆出汁率中等，为470%;丝黑穗病接种发病率最高，为43.2%，属低产低质品种(系)，且易倒伏。对这类品种(系)除着重提高产量外，同时加强品质改良。

3结论与讨论

本研究对能源青贮组区试新品种(系)株高、茎粗、分蘖数、生育期、倾斜率、倒折率、穗长、穗粒质量、千粒质量、育性、鲜质量产量、籽粒产量、茎秆含糖锤度、茎秆出汁率、丝黑穗病接种发病率共15个数量性状进行研究，经主成分分析归属于5个主成分，其累积方差贡献率达85.442%。主成分分析对这15个错综复杂关系的性状进行了有效降维，能够准确反映原性状的主要信息。在此基础上计算各品种(系)在主成分上的得分值，据此进行聚类分析，同时对聚类结果进行判别分析，验证聚类分析结果的准确性。

在主成分分析的基础上进行聚类分析，将15个区试甜高粱品种(系)聚为四大类，第Ⅰ类包括辽甜14-1、辽甜6号、辽甜14-3、3436A×Pi57、辽甜15-2、科甜5号、辽甜15-4，这类品种(系)鲜质量产量中等偏低，茎秆含糖锤度低，较易倒伏，抗病性较好;第Ⅱ类包括154A3×Pi571、晋甜1401，这类品种(系)鲜质量产量中等，茎秆含糖锤度和抗病性好，属中产优质品种(系);第Ⅲ类仅为311A/LTR108、辽甜14-2、辽甜15-3，这类品种(系)鲜质量产量高，茎秆含糖锤度和抗病性较好，属产量、品质结合性较好的品种(系);第Ⅳ类包括中科甜5号、吉甜杂2号、辽甜15-1，这类品种(系)鲜质量产量低，易倒伏，茎秆含糖锤度偏低，丝黑穗病接种发病率高，属低产低质品种(系)。

主成分分析和聚类分析被广泛用于研究种质资源间的亲缘关系，但由于是通过利用生物学性状的途径进行的，而生物学性状个体量纲不一致，因此在利用统计软件进行数据分析时，须对数据先进行标准化，再进行主成分分析和聚类分析，否则可能得出错误结论[15]。

本研究甜高粱生物学性状数据来源于国家区域试验，由于这些性状不是在同一时期内测定，并且表型性状容易受环境条件的影响而变动，因此有其不足之处，可能难以详细准确地阐明品种(系)间的差异。

参考文献：

[1]卢庆善. 甜高粱[M]. 北京：中国农业科学技术出版社，.

[2]刘晓辉，高士杰，杨明，等. 浅谈甜高粱的利用价值[J]. 种子，，25(9)：98-99.

[3]曹文伯. 我国甜高粱种质资源鉴定及利用概况[J]. 植物遗传资源科学，，2(1)：58-62.

[4]张丽敏，刘智全，陈冰纾等. 我国能源甜高粱育种现状及应用前景[J]. 中国农业大学学报，，17(6)：76-82.

[5]张彩英，张丽娟，段会军，等. 大豆种质资源的分类鉴定研究[J]. 中国油料作物学报，，24(1)：33-37.

[6]高进，蔡立旺，宋锦花，等. 早熟棉花品种产量品质性状的综合评价与聚类分析[J]. 西南农业学报，，28(6)：2425-2431.

[7]冯国郡，李宏琪，叶凯，等. 甜高粱种质资源在新疆的多样性表现及聚类分析[J]. 植物遗传资源学报，2012，13(3)：398-405.

[8]陈常理，骆霞虹，廖球林，等. 农家红花油茶种质产量和果实性状主成分聚类分析及综合评价[J]. 浙江农业学报，2015，27(11)：1882-1888.

聚类评价方法篇6

关键词：投影寻踪聚类；生态文明建设；美丽乡村建设评价

中图分类号： F327文献标志码： A文章编号：1002-1302（2016）06-0579-04

收稿日期：2016-03-04

基金项目：国家科技支撑计划（编号：2013BAD01B05）；农业部“台湾优质示范与推广”项目（编号：NYB201001）；福建农林大学科技创新建设项目（编号：PTJH13001）。

作者简介：陈锦泉（1987—），男，博士研究生，研究方向为农村建设。E-mail：349569789@qq.com。

聚类评价方法篇7

产业链是指在一种最终产品的生产加工过程中——从最初的自然资源到最终产品到达消费者手中——所包含的各个环节所构成的整个的生产链条。在产业链中,每一个环节都是一个相对独立的产业,因此,一个产业链也就是一个由多个相互链接的产业所构成的完整的链条[1]。

从不同的研究目的和视角出发,产业链环节有不同的划分方法,常见的方法是将其划分为上游、中游和下游三种类型。此外,常见的一种划分方法分为,研发、采购、加工制造、运输、营销和售后服务等,这种方式主要是根据生产工艺流程来划分的,多应用于制造业部门。随着我国关于产业链研究的进一步深入,分析的角度和方法也开始多元化,如张铁男(2005)提到了产业链的战略环节,即产业链上存在的一个或几个与其他环节关联度相对较大的能形成产业链核心竞争能力的主导环节,带动力最强,是产业链发展的“链主”,并且在理论上提出通过灰色关联分析确定产业链的战略环节[2]。刘贵富(2006)从微观的角度出发,研究了产业链的节点企业,即通过产业链上节点企业间的纵向关系,实现知识流的流动,使节点企业的核心竞争力凝聚成产业链的竞争力[3]。刘玥(2007)根据产业链的完整性以及各环节能力的强弱将产业链划分为显性节点和隐性节点。其中,显性节点是产业链中能力比较强的环节,隐性节点是产业链环节缺失或能力较弱而需要强化的环节[4]。这些研究都不同程度地促进了产业链分析和研究的发展,但是几乎都忽略了不同环节对产业链发展的重要性影响,且缺乏定量分析,实践应用有一定局限性。因此,有必要对产业链的组成环节进行深入分析,特别是通过定量方法进行评价,以提高产业链研究的科学性和实践指导作用。

2 产业链环节分析及评价指标体系构建

对产业链环节分析的目的是要区分出不同的环节,并明确各环节在产业链中所处的地位,在此基础上确定产业链发展的重点环节,采取措施以提高产业链的稳定性和运行效率。

2.1 产业链环节分析

产业链是基于产业内分工而形成的链状系统,产业内分工越细,产业链的长度就越长,相应的环节越多,对产业链的影响也就越复杂。同时,由于各环节的发展速度不同,导致其对产业链发展和运行的总体影响也不同,因此,根据各环节对产业链发展的影响程度和作用的不同,将产业链划分为关键环节、主导环节和配套环节。

其中,关键环节是指能够控制整个产业链发展的产业链环节,常常成为产业链瓶颈,对产业链的发展具有重要的制约性,影响着产业链的发展壮大,往往具有垄断、可控以及不可替代性的特点,同时由于垄断性质的存在,使关键环节容易被某一力量控制,且在一定时期内不易出现替代环节。可以说,关键环节是产业链发展的控制点,谁控制了关键环节谁就拥有了产业链发展的话语权,因此,加强对关键环节的控制有利于产业链的发展壮大,同时,对于关键环节的控制也成为一国或地区竞争能力的体现。例如,当今全球产业分工中,发达国家往往控制了一个产业链上的关键环节,从而能够控制整个产业的发展,并且获得很高的经济利益,在制造业中通常表现为掌握其设计研发环节的发展和壮大,从而实现对关键环节的控制。

其次,主导环节是指能够带动并领导产业链发展的环节,主导环节的规模能够很大程度上决定或影响产业链的整体规模。主导环节包含的价值链环节较多,因此价值创造的途径较多,相应的带动的产业链的配套环节和辅助环节也较多,对于经济发展、劳动就业等的影响较大,因此,往往成为引导地区经济发展的主导环节,成为重点扶持和发展的对象。

再次,配套环节是除了关键环节和主导环节之外的能够促进产业链完整性的相关环节,其对于产业链整体的价值增值和规模的影响非常小。配套环节创造的价值较小,规模效应也不明显,一般附属于主导环节或关键环节,成为产业链的组成部分。例如,计算机产业链中,小的零部件如鼠标、键盘等的生产制造,其价值含量较低,规模经济也不明显,因此,作为计算机产业链的小的配套环节。

在产业链发展中,关键环节和主导环节关系着产业链整体的发展规模和方向,因此,抓住这两个环节的发展也就能够把握产业链的发展,但是仅仅从定性方面来分析产业链环节科学性和可行性比较地,因此,产业链环节分析还需要加以量化,以准确地找到产业链重要环节,抓住产业链发展的关键所在,以促进其发展。

2.2 产业链环节评价指标体系构建

产业链环节评价指标体系在构建过程中需要遵循若干原则,主要包括:关联性原则,可度量性原则,可比性原则和导向性原则[5]。在这些原则指导下,选择的评价指标既要从产业链的现实出发,考虑数据资料的可获得性,又要从产业链的发展趋势出发,考虑指标的先进性,力求使设置的指标能够反映产业链环节的本质特征和未来趋势。

整体上来说,产业链环节的评价可以从以下几个方面来分析,第一,产业链环节的带动力,主要反映该环节的市场前景、发展潜力以及对其他环节的带动作用;第二,产业链环节的控制力,通常表现在对资本、渠道和市场等方面的控制,可以通过产值比重,资本控制率,品牌拥有率等反映出来。此外,该环节的市场结构也往往能体现出其市场影响力,这一点可以使用市场集中度来衡量;第三,产业链环节的核心竞争力,一般以技术创新能力的强弱来衡量核心竞争力,由于技术创新能力的直接测量比较困难,考虑到可行性,常用技术研发的投入以及专利和新产品的产出来间接衡量;第四,产业链环节的发展能力,发展能力越强,对产业链产生的影响就会越大,配套环节发展为主导环节或关键环节的可能性就越大;第五,产业链环节的盈利能力,无论什么环节其目的都是要盈利,否则就会被淘汰,退出产业链系统。上述五个方面可以作为一级评价指标,其中每一个都可以细分为若干个二级指标,具体如表1所示。

3 基于灰色聚类评价的产业链环节分析

灰色聚类是灰色系统理论的内容之一,灰色系统理论认为,人们对事物的认识具有广泛的灰色性,即信息的不完全性和不确定性,因而由客观事物所形成的是一种灰色系统,即部分信息已知、部分信息未知的系统[6]。人们对评价对象的认识也具有灰色性,因而可以借助于灰色系统的相关理论来进行研究。产业链环节的分析和评价具有一定的模糊性和不确定性,因此,可以运用灰色聚类方法来进行相应的评价。

灰色聚类分析法是建立在灰数的白化函数基础上的一种方法,它的实质是充分、合理地利用已知信息来代替未知的、非确知的信息,对灰色系统的本质属性进行分类识别,并给出客观、可靠的量化分析结果。它是按N个灰类(评价等级)进行归纳整理,将聚类对象(评价对象)对不同聚类指标(评价指标)所拥有的白化值(实测值或分析数据),从而判断聚类对象属于哪一灰类的灰色统计法[7]。具体的评价步骤主要包括:

第一,产业链环节聚类样本的构成。

设聚类对象,即产业链环节的构成为n个,评价指标为m个,聚类灰数或灰类,即产业链环节类型为p个,则第i个聚类对象第j个相关因素(即聚类指标)的白化值为dij(即评价指标值),其中i∈{1,2,…n},j∈{1,2,…m},k∈{1,2,…p}。

第二,数据的标准化处理。

由于各个指标值的量纲不同会影响到相关的运算过程和结果的判断,因此需要对取得的指标值即白化值进行标准化处理,成为无量纲的数据。

第三,确定聚类白化函数。

灰色理论中将只知道大体范围而不知道其确切的数称为灰数。如果灰数在某一区间内取值,则该区间内的任意数都有可能,但是它的取值机会不一定是均等的,白化函数就是表示这种机会的多少,即该指标值归属于该灰类的隶属度的多少。白化函数不是固定的,根据具体问题而定。

首先需要确定各灰类的分类标准,每一个评价指标都需要按照灰类的类型确定灰类的不同评价标准,从而形成灰类评价标准矩阵[8]。具体的评价标准可以参照国家或国际的标准来制定,或者根据行业的通用标准来确定,评价标准制定的不同,最终的聚类结果也会受到不同的影响。在此基础上构建灰类白化函数,白化函数通常有三种形式,设fundefined为第j个聚类指标属于第k个灰类的白化函数,其大小为0≤fundefined≤1,相应的白化函数如公式(a)、(b)、(c)所示,其中λundefined为设定的灰类评价标准的边界值,也称为门阈值。

undefined

通过白化函数将评价指标体系中的指标值转化为对应的白化函数,对应每一个聚类对象得到一个白化函数值矩阵,从而得到n个评价对象的白化函数值矩阵。

第四,确定评价指标的聚类权。

聚类权是指各指标对某一灰类的权重,它表示第j种指标属于第k灰类的权重,记为ηundefined,当聚类指标的量纲相同时,undefined,其中,k=1,2,…p,j=1,2,…m,从而得到聚类权矩阵。

第五,确定灰色聚类系数。

灰色聚类系数就是表示某一评价对象分别属于各个灰类的机会的大小,undefined,其中σundefined为灰色聚类系数,它反映第i个聚类对象隶属于第k灰类的程度,构成聚类系数向量σundefined={σundefined,σundefined,…σundefined}。由此分别求n个聚类对象的灰色聚类系数,构成了n×p的矩阵,其中每一行的聚类系数对应着一种灰类,即属于该灰类的机会的大小[9]。

第六,确定各聚类对象所属灰类。

根据灰色聚类系数的值σundefined和聚类系数最大化归类原则,取σ*i=max{σundefined,σundefined,…σundefined},从而判断出该聚类对象属于哪个灰类[10]。即对于每一个评价对象选择其最大值对应的灰类,则该评价对象就属于该灰类。当有多个评价对象属于一个灰类时,可以进一步根据综合聚类系数的大小确定同属于一个灰类的各对象的优劣排序位次,由此可对评价对象进行综合评价。

4 灰色聚类评价的实际应用

为了进一步分析灰色聚类评价指标的有效性,下面我们应用该方法量化研究汽车产业。考虑到汽车产业链的复杂性,及相关统计数据的可得性,这里选择汽车制造过程中直接相关的环节进行分析,同时考虑到统计指标的代表性并结合我国汽车产业链实际情况,选择灰色聚类评价指标体系中的若干指标,主要包括:产值比重,即各环节相对于汽车工业总产值的比重;技术人员比例;R&D费用支出比例;资产保值增值率;成本费用利润率和销售收入利润率。

由于汽车产业链统计数据的局限性,本文选择汽车(指乘用车、商用车等)、改装车(指特种车辆,如消防车、救护车等)、发动机、零配件和工程、车辆用的轮胎这几个环节进行研究,各环节具体的聚类指标值如表2所示。

数据来源:《中国汽车工业年鉴》(2007)

进行灰色聚类评价之前,首先确定汽车产业链环节灰类的类型为关键环节、主导环节和配套环节,根据相应的白化函数计算出聚类指标的白化值,如表3所示,其中灰类1表示关键环节,灰类2表示主导环节,灰类3表示配套环节。

各个灰类聚类指标的分类值及门阈值如表4所示,其中门阈值根据我国汽车产业的发展状况以及普遍公认的数值推测而来,具有一定的主观性。

注:指标后面的数字代表该指标的编号

根据门阈值计算各指标的聚类权系数 ,表示j指标属于k灰类的权重,经计算,结果如表5所示。

根据聚类指标白化值和聚类权系数确定评价对象属于各灰类的聚类系数 ,并且根据最大值原则确定所属的灰类,其结果如表6所示。

从灰色聚类评价的结果可以看出,汽车整车制造在汽车产业链中属于主导环节,占据主导地位,但是主导环节的聚类值与配套环节的聚类值相差很小,说明我国汽车制造环节的整体发展力度还不足,仍然处于配套环节的边缘;改装车属于配套环节,这与其在汽车产业中产量和产值所占比例较少的实际情况相吻合;发动机环节作为汽车制造中的重要零部件,应该占据关键环节,但是在聚类结果中,其配套环节的数值最高,且非常显著,这主要由于我国汽车发动机的研发技术比较落后,导致其仍然处于一般的配套环节,因此,今后需要大力加强发动机环节的发展力度;零配件环节的聚类结果属于关键环节,说明当前我国零配件行业得到了较好发展,能够为汽车产业链的发展提供良好的辅助,并且零配件特别关键零部件的生产制造对于汽车的生产制造至关重要;在轮胎环节的聚类结果中,各灰类的聚类值比较平均,其中主导环节的聚类结果稍大,说明轮胎行业在我国汽车产业链发展中占有重要的地位,同时这里统计的轮胎生产中包括其他交通运输工具使用的轮胎,统计范围较大,因此轮胎行业作为主导环节与其在国民经济发展中的重要地位相一致。

综合而言,通过对我国汽车产业链环节的量化分析来看,我国汽车产业链中的汽车制造环节具有很强的产业链带动力和影响力,特别是对下游的零部件及配件制造等环节的发展具有主导作用。但是从灰色聚类评价结果来看,我国汽车产业链主要环节的发展还存在较大的差距和不足。因此,应该充分发挥汽车制造环节的能动性和带动力,加大对汽车产业链的整合力度,加快汽车产业链主要环节的发展,提高汽车产业链的发展水平。

5 结论

对产业链环节进行分析和评价能够帮助人们更好的认识和了解产业链的发展,通过构建相应的评价指标体系,能够从定量角度加深对产业链的认识,同时,采用灰色聚类方法进行量化分析和评价,具有一定的科学性和可操作性,按照此方法完成的评价工作具有较高的可比性,能够帮助我们更加深入的认识产业链的内在本质,有利于制定相应的产业政策促进产业链的发展壮大。

参考文献

[1]郁义鸿.产业链类型与产业链效率基准[J].中国工业经济,2005(11):35-42.

[2]张铁男,罗晓梅.产业链分析及其战略环节的确定研究[J].工业技术经济,2005(6):77-78.

[3]刘贵富,赵英才.产业链节点企业研究[J].工业技术经济,2006(9):61-64.

[4]刘玥,路正南.产业链中的隐性节点研究[J].江苏商论,2007(7):106-107.

[5]王炼,庞景安,曹燕.企业科技竞争力综合评价指标体系研究[J].科技管理研究,2007(11):84-87.

[6]厉彦玲.基于灰色聚类分析方法的生态环境质量综合评价模型[J].测绘科学,2007(5):77-79.

[7]王志勇,冯杰.基于灰色聚类的海上目标威胁等级评估[J].四川兵工学报,2009(3):46-49.

[8]邓聚龙.灰色理论基础[M].武汉:华中科技大学出版社,2002.

[9]李煜华,孙凯,孙彩.基于灰色聚类方法的城市公交发展水平综合评价[J].哈尔滨理工大学学报,2004(12)76-82.

聚类评价方法篇8

关键词：交通发展指标,聚类分析,主成分—聚类分析

0引言

交通体现着城市的重要形象,是城市的命脉,有着为城市发展输送人流、物流的重要使命,作为城市发展的主要动力,交通对生产要素的流动、城镇体系的发展有着决定性的作用[1]。随着我国城市化进程的快速增长和深入推进,对城市交通也提出了更高的要求,如何处理好城市与交通的协同发展,是当下研究的难点和重点。根据区域的差异性,利用合适的分析方法,对区域进行划分,有着重要的现实意义。

目前,交通区域划分领域中研究较多的是聚类分析方法,主要有以下的一些研究:林琴[2]等人以车站的各种接驳交通方式的构成比例数据为基础,进行聚类分析,对城市轨道交通的车站进行了分类。王志伟[3]等人运用模糊聚类分析方法,以1999年的交通事故数据对交通事故进行来了分类。杨波[4]等人利用模糊聚类分析方法根据公建、居住及绿化等指标对交通小区进行了分类。在以往的研究中,聚类分析只能给出聚类结果,不能给出各个类别的差别,只能根据经验进行区分,这往往是不合理的。文章针对这一问题提出了主成分—聚类分析方法,对指标数据进行量化,得到各个城市得分,进而得到类别得分,以此为理论依据,来分析了各个类别之间的差别。

本文首先建立了能反映各个地区社会经济与交通发展水平的18个评价指标,然后利用SAS统计分析软件(SAS是一个模块化、集成化的大型应用软件,能机动、灵活的对数据进行处理与分析),采用聚类分析和主成分—聚类分析方法,对我国6个主要城市进行了区域化分,并对两种方法的结果进行了对比。研究结果表明主成分—聚类分析方法更好,不仅对城市进行了分类,还给出了城市交通综合发展水平的排名。分类结果可以作为政府进行交通决策的依据,让其对当地交通的发展有一个更加准确的定位,促进城市经济与交通的协同发展。

1基本原理与方法

主成分—聚类分析方法是将主成分分析和系统聚类分析相结合在一起的一种新方法。在实际应用过程中,先进行主成分分析,在此基础上在进行聚类分析。

1.1主成分分析

主成分分析法,是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,是处理数据降维的一种方法[5]。其原理是设法将原来纵多具有一定相关性的指标(如p个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标[6]。

具体算法如下:

设有n个样品,每个样品观测有p个指标,xij(i=1,2,…,n,j=1,2,…,p)为观测值,其所构成的矩阵X=(xij)n×p如下:

①原始数据集的标准化。

计算公式如下

(2)计算相关矩阵。

(3)求相关系数矩阵R的特征根和特征向量。

求解特征方程R-λI=0,求得m个特征根λ1叟λ2叟…叟λm及其相对应的每一个特征向量wi=(w1j,w2j,…,wm)j。其中λj为主成分Yj的方差,值越大,对总变量的贡献越大;特征向量wj是主成分Yj线性表达式中原始指标(已标准化)的组合系数。可得主成分Yj的线性表达式如下:

(4)确定主成分的个数(rr<m)。

(5)计算n个样本在前r个主成分上的得分。

主成分得分是原始数据(已标准化)在主成分已定义的新坐标系中的新数据,即

1.2聚类分析

聚类分析又称群分析,是将样品或变量按照它们在性质上的亲疏程度进行分类的多元统计分析方法。在SAS软件中,系统提供了各中聚类分析的方法,包括系统聚类法、动态聚类法和变量聚类法。

综合考虑各城市变量间的数据特点,采用系统聚类法进行分析。该方法是在样品距离的基础上定义类与类之间的距离,开始将n个样品聚成一类,然后每次将具有最小距离的两个类合并,合并后重新计算类与类之间的距离,再并类,这个过程一直持续到将所有的样品都并为一类为止。SAS软件提供了最短距离法、中间距离法、类平均法和离差平方和法等11种系统聚类分析方法,本文采用类平均法进行分析[7,8]。

对入选的新数据(Y1,Y2,…,Y)r进行系统聚类分析,具体步骤如下:

本文采用欧式距离计算dij和类平均法计算Dkr,即

其中,Dp和Dq是聚成的类别,np和nq是其中的样品个数。

(1)聚类数的确定。

基本思想来自于方差分析,开始时n个样品自成一类,共有n类:G1,G2,…,Gn。类与类之间的距离与样本之间的距离相同,即D=(di)jm×n。将D中最小距离对应的类合并,然后在按照公式(2)计算新类别之间的距离,每次缩小一类,直到将所有的样品都归位一类为止。最后,设置阙值,根据方差分析的思想来确定聚类个数。

(2)计算各个类别的综合得分F。

2)计算各个类别的综合得分F=(F(1),F(2),…,F(s)),其中,F()i(i=1,2,…,s)是第i类中所有样本综合得分的平均值。

2实例应用

本文以昆明、广州、上海等6个主要城市为研究对象,考虑其地区特点与交通的差异性,构造了以面积、常住人口、城市道路长度、公交车保有量、轨道长度等18个交通变量为主的城市交通发展指标评价体系。该数据主要来源于2014年各城市的《交通发展年报》,研究数据如表1所示。

利用SAS统计分析软件对上述数据分别进行聚类分析和主成分—聚类分析。

2.1聚类分析

用系统聚类中的类平均法进行聚类,得到如图1的聚类结果:

从聚类结果可以看到,6个城市被聚为了3类(阙值为3)。第一类:重庆主城区;第二类:北京、上海;第三类:武汉、广州、昆明。根据经验可知,北京、上海交通最发达,所以被聚为一类;武汉、广州、昆明相对落后,被聚为一类;重庆主城区单独被聚为一类。

2.2主成分—聚类分析

对样本数据进行主成分分析,结果如下:

实对称矩阵R的特征矢量及其贡献率的结果,如表2所示。

从表2和图2中可以看出,前4个主成分的累积贡献率达到了95.7%。说明了前4个主成分基本包含了全部指标(未被解释的只有4.3%),且前4个主成分的每个主成分方差贡献率分别是57.8%、22.1%、8.8%和7.7%。因此,可以提取前四个主成分来评价城市交通的发展。

结合4个主成分各自的方差贡献率,可以构造各个城市交通发展指标的综合评价模型

综合评价模型F的线性表达式系数矩阵如表4所示。

在表4中,各个指标系数的绝对值越大,说明这个指标对该城市的交通综合发展水平影响越大。其中x6(机动车保有量)、x7(交通建设投资)、x12(公交车保有量)、x13(公交日均客流量)、x14(出租车保有量)、x15(全市出租车千人拥有量)、x16(轨道长度)、x17(公共交通出行比例)的系数最大,其它指标系数相对最小,说明这些是影响城市交通发展水平的主要因素,进行规划和决策时,应该给以重点考虑。

各个城市的综合得分如表5所示。

从表5可以看到,昆明的得分仅为-1.588,在所调查的城市中分数最低,说明昆明的交通发展相对其它城市来说整体情况是最差的。而北京的得分达到了3.330,大大超出了其它城市的得分,说明北京的交通发展状况远超其它城市。

在完成上述主成分分析的基础上,利用系统聚类分析方法对主成分得分表2进行系统聚类分析,得到如图3所示聚类谱系图。

由谱系图可以很直观地看出各个城市的亲疏和归类情况,如果选用某固定距离作为阙值,则由谱系图可将6个城市划分成若干相似群类。本文在充分考虑各个城市交通状况和综合得分的情况下,确定阙值为4,相应的分类结果为:第一类包括昆明、武汉、广州;第二类上海;第三类重庆主城区;第四类北京。

最后计算各个分类的综合得分,得分越高,表示交通的水平越高,交通结构相对越合理。并按照综合得分的多少对分类结果进行从大到小的排序,具体结果如表6所示。

从表6可知,Ⅰ类城市(北京、上海)的综合得分系数为正,而Ⅱ类城市(昆明、武汉、广州、重庆主成区)的综合得分系数为负,说明Ⅰ类城市的交通发达程度明显高于Ⅱ类城市。而地方人民生活水平的质量、经济收入、城市运转效率等都与交通的发展状况息息相关。表中数据也说明了Ⅰ类城市的人民经济状况优于Ⅱ类城市。从分析可以看出,地区之间的交通发展水平是存在差异的,为了缩小Ⅰ类和Ⅱ类城市之间的差距,因加大对Ⅱ类城市的交通投入,优化交通发展结构,提高人们的生活水平。

2.3主成分—聚类分析与聚类分析对比

聚类分析只能对各个城市进行划分,不能区分各个类别、各个城市间的具体差别,且此方法在处理样本少变量多的数据时,存在一定的不合理性。主成分--聚类分析能根据各个城市和类别之间的得分对城市进行排名,可以清晰地看到各个城市的交通发展状况,此方法把18个变量用4个主成分集中表示,减少了分析的困难,处理样本少变量多的数据更为合理。

3总结

本文针对交通指标评价因子之间的相关性,提出了主成分—聚类综合评价方法。利用SAS软件编程技术,对我国6个主要城市的18个交通指标进行了综合分析。该方法能根据调查数据客观地计算出评价权值,然后根据特征值选出主成分(贡献率达到85%以上),最后对各个城市在主成分上的得分进行系统聚类,将城市进行分类,其可信度很高,分析结果对政府进行交通决策时有一定的指导意义。结果表明:该方法切实可行,与现实情况相符,具有很大的应用价值。

参考文献

[1]吴国柱,李亚博.浅析交通对城市的影响[J].城市建筑,2015(9):361-361.

[2]林琴,杜彩军,谭骏珊.聚类分析在城市轨道交通车站分类中的应用[J].铁路计算机应用,2006,15(6):4-7.

[3]王伟志,田一惠,王涛.模糊聚类分析在交通事故分析中的应用[J].辽宁工学院学报(自然科学版),2007,27(4):266-268,272.

[4]杨波,刘海洲.基于聚类分析的交通小区划分方法的改进[J].交通与运输,2007(z1):5-7.

[5]胡骏,别业旭.基于主成分分析的湖北各城市竞争力比较研究[J].湖北经济学院学报(人文学会科学版),2012,09(2):14-15.

[6]Skaudickas,D.,et al.,1485.Evaluation of complexity of induced necrosis zone shape by means of principal component analysis(vol 16,pg 4115,2014).JOURNAL OFVIBROENGINEERING,2016.18(2):1386-1386.

[7]张恒,等.基于SAS聚类分析的用户类型划分[J].科学咨询,2010(10):89.

宏观交通安全的灰色聚类评价篇9

关键词：交通安全,评价指标,灰色聚类

1 概述

根据评价指标的功能分析和交通因素的系统分析, 确定进行交通安全评价的指标体系应包括三类指标:事故总量指标、事故率指标、经济损失率。事故总量指标也称交通安全四项指标, 即:交通事故次数、受伤人数、死亡人数和直接经济损失[1]。为了客观、准确地进行安全评价, 事故率指标不仅包括单项事故率指标还应该有综合事故率指标。

灰色聚类是根据灰色关联矩阵或灰数的白化权函数将一些观测指标或观测对象聚集成若干个可定义类别的方法。一个聚类可以看作是属于同一类的观测对象的集合。本论文通过建立白化权函数, 确定指标序列相对于各个灰类的隶属情况, 并按照某一准则确定评价对象的灰质类别, 从而对评价对象进行交通安全评价[2]。

2 基本交通安全指标

通过查阅公安部交通管理局编写的《中华人民共和国道路交通事故统计》[3]和中国统计局编写的《统计年鉴》[4]可以得到事故次数、死亡人数、受伤人数及直接经济损失四项绝对指标及各省的人口数、各个等级的道路里程、汽车保有量、国内生产总值等。

计算出各省份的交通安全指标, 我们看到, 同一省份的各个指标值有高有低, 所代表的交通状况也不尽相同。因此仅仅通过某一指标并不能判断出一个地区的交通安全状况。所以必须寻找一个新的方法, 考虑一系列的评价指标组成的一个评价指标体系, 综合考虑人、车、路和环境诸方面因素的作用和影响, 对交通安全状况做出全面和准确的评价, 这便是下一节的内容。

3 灰色聚类分析

3.1 各指标的白化权值确定

为了不同量纲之间的数据计算、比较方便, 须将这九项评价指标的实际数据进行无量纲处理, 交通安全评价指标值越大, 安全性越越差。我们希望各项安全评价指标数值经过无量纲处理后, 由小到大变化时, 各项指标性质的性能均能表现由差向优的变化。所以, 对指标数据的无量纲处理, 是将该标中最小的数据作为分子, 将该项指标的实际数据为分母, 分别相除后得到该指标的无量纲处理值, 处理后的数据在0~1之间变化。将交通安全评价等级拟定为好、较好、一般、较差、差五个等级。用“累计频率曲线法”将各项指标各类别的特征值求出, 使之数量化。具体做法是:做出每个指标的累计频率曲线, 找到累计曲线上85%、60%、45%、30%、15%对应的指标值作为好、较好一般、较差、差五个等级的临界值。

3.2 白化权函数的建立

有了不同指标关于不同等级的白化权的临界值后, 我们可以建立白化权函数, 这里采用三种典型的白化权函数。设为五个临界点, 做出白化权函数示意图1。

3.3 聚类系数矩阵的建立及灰色评价

设为xij对象i关于指标j的样本, 为j指标k子类白化权函数, 为指标关于k子类的权，则称时为对象属于k灰类的灰色变权聚类系数。把同一地区的不同指标关于不同灰类的的灰色变权聚类系数作为一个矩阵的行, 所构成的矩阵叫聚类系数矩阵。应用该系数矩阵进行聚类分析。从矩阵的每一行中找到对应该地区的不同评价等级的聚类系数向量中最大的一个作为该地区的交通安全状况等级。

4 实例分析

由原始数据得到九个指标值及其经过无量纲处理。采用经过无量纲处理的数据画出各个指标的累计频率曲线并找到累计频率曲线上15%、30%、45%、60%、85%所对应的指标值作为差、较差、一般、较好、好五个等级的白化值。确定的九个指标五个灰类的白化值权如表1。

根据上面的方法建立聚类系数矩阵, 并按照最大隶属度的原则进行交通安全状况的评价。

5 结论

在对我国公路交通安全状况进行评价时, 仅使用某一、两个评价指标并不能能全面评价一个地区的交通安全状况。因此这里选择一系列的评价指标组成一个评价指标体系, 综合考虑人、车、路和环境诸方面因素的作用和影响, 采用灰色聚类的方法, 建立累计频率曲线和白化权函数, 按照最大隶属度的原则对我国不同地区交通安全状况做出全面和准确的评价。采用灰色聚类的方法有理论依据, 条理清晰而且不繁琐, 实用性强, 所得到的结果能够较正确地进行交通安全评价。

参考文献

[1]裴玉龙.道路交通安全.人民交通出版社, 2004, 8.

[2]刘思峰, 郭天榜, 党耀国等.灰色系统理论及其应用.科学出版社, 2000.

[3]中华人民共和国道路交通事故统计年报 (2002年度) .公安部交通管理局, 2003, 3.

聚类评价方法篇10

关键词：公安院校,藏族,学生,体质,综合评价

1 概述

体质是指人体的质量, 是在遗传性和获得性的基础上表现出来的人体形态结构、生理机能、心理素质和适应能力的综合的、相对稳定的特征。[1]目前我国对于大学生体质评价的研究内容较为广泛, 主要围绕学生体质水平、机能水平、身体素质发展水平、体质与体力活动关系等方面进行。本研究主要以2000年国民体质成人监测指标和新《学生体质健康标准》[3]为研究依据, 结合公安院校的专业特色, 分别从身体形态、身体机能和身体素质对公安院校藏族学生的体质健康状况进行综合评定, 并建立公安院校藏族大学生体质综合评价模型, 为科学调整和加强公安院校藏族学生体质评价与身体训练提供科学理论依据服务。

2 研究对象与方法

2.1 研究设计:

整群抽样, 分类指标测试、建立数据库、统计分析

2.2 研究单位:

浙江警察学院警体部

2.3 研究对象:

本研究抽取来自西藏各个地区, 贯穿西藏东、西、南、北、中地域的11、10级公安方向专业的42名藏族男生, 年龄19～21岁。于2011年7～12月, 经测试对象同意, 以学生身体形态、身体机能、身体素质、专业素质这四个人体机体特征及运动能力为研究对象, 对相关指标进行测试。本测试研究无涉及伦理问题。设计、实施、评估者:实验设计、实施、评估为本文第一作者, 所有参与本实验的测试工作人员均经过统一岗位系统的培训, 整个过程由浙江省学生体质与健康调研组及浙江警察学院警务技战术研究所指导和验收。

2.4 研究方法:

依据2000年国民体质成人监测指标[1], 结合我院警察体育教学的专业特点, 设计了一套能满足对藏族学生体质进行评价的指标方案, 运用国家体质监测颁布的全套仪器和要求对学生的身体形态、机能进行测试, 运用Inbody520人体成分测试仪【韩国百斯公司生产, 批号:sn:P1801C5BE, 特点:任何时间皆可开始测试、八点接触电极、身体节段分析、多次回归分析、多频率检测、测试精确、整个检测过程只需1分半钟、简便、快捷、自动分析并打印报告、无创性、无限量储存、可连接电脑接口、实际测量值、不依靠经验估算、中文软件、可进行各类分析 (包括数据分析) 、提供参考意见】。对学生的身体成份进行测试。

主要观察指标:测试指标:a.身体形态指标:身高、体重、体脂肪、骨骼肌、蛋白质含量、无机盐。b.身体机能指标:安静脉搏、肺活量、血压。c.身体素质指标:100米、400米障碍、1000米、5000米、反应时、倒立、引体向上、立定跳远。派生指标:体重指数、肌肉体重比、体脂百分数、腰臀脂肪比、肺活量身高比、肺活量体重比、脉压差。统计学分析:由第一作者采用SPSS12.0软件包进行统计分析, 结果数据以表示。

3 结果与分析

3.1 身体形态典型指标的评价分析

3.1.1 建立身体形态评价模型

运用Inbody520人体成分测试仪以及依据藏族学生体质监测数据资料和身体形态计算模型, 计算其原始指标和派生指标见表1。

3.1.2 计算身体形态类系列指标中的典型指标

依据藏族学生身体形态系列指标, 运用Excel和体育科研数据统计处理系统软件包对其进行计算和进行R型聚类分析, 可以将该十项身体形态指标分为三类, 得到相关指数的平均数最大的三个典型指标, 分别为:身高x1、蛋白质含量x4、体脂肪x6, 这说明此3项典型指标可涵盖藏族学生身体形态类10项指标的信息量。因此可认为, 这3项指标可作为对藏族学生身体形态进行评价的典型指标。

3.2 建立身体机能评价模型

3.2.1 确立身体机能类系列指标

依据藏族学生体质监测数据资料和身体机能计算模型, 计算其原始指标和派生指标见表2。

3.2.2 计算典型指标

依据藏族学生身体机能类系列指标, 运用Excel和体育科研数据统计处理系统软件包对其进行计算和进行R型聚类分析, 分为两类, 得其典型指标分别为:收缩压X12和肺活量/身高X16。

3.3 对身体素质典型指标的分析

3.3.1 确立身体素质类系列指标

作为维护未来西藏地区安全繁荣的预备警官, 对他们身体素质的评价, 除了《国家学生体质健康标准》规定的测试项目外, 还需在警务实战能力方面体现公安执法战斗工作的要求, 因此, 从人才培养效果来看, 评价公安院校藏族学生的身体素质还应包括400米障碍, 5000米等警察体育项目。依据对藏族学生身体素质系列指标测试数据以及计算模型, 其测试指标见表3。

3.3.2 计算典型指标

依据藏族学生身体素质类系列指标, 运用Excel和体育科研数据统计处理系统软件包对其进行计算和进行R型聚类分析, 将其分为五类, 得其典型指标分别为:直接反应时、5000米、400米障碍、倒立、立定跳远。

3.4 计算体质的典型指标

依据藏族学生身体形态的3项典型指标、2项身体机能指标、5项身体素质指标, 确立其为体质评价的10项指标, 重新确定指标符号见表4。

为方便对学生进行评价, 我们采取综合评价的方法, 依据表4中10项指标, 运用体育科研数据统计处理系统软件包, 再次对其进行R型聚类分析, 计算典型指标。根据谱系图分析, 其指标可以分为6大类, 依据每类指标相关系数的平均值的最大值确定为典型指标的原则, 藏族学生体质的典型指标可以确立为X1身高、X2蛋白质含量、X5肺活量/身高、X6直接反应时、X8400米障碍和X9倒立。 (见图1)

3.5 体质综合评价模型

3.5.1 计算权重系数

依据体质评价的6项典型指标, 再次建立指标符号, 运用体育科研数据统计处理系统软件包, 计算其平均数、标准差和权重系数, 其结果如表5。依据表5中的权重系数分析可知, 影响藏族学生体质水平的典型指标权重值。

3.5.2 建立体质评价综合模型

依据表5中的Xi、Si、Ri值和体质评价的标准分模型, 可以得出藏族学生体质综合评价模型:

某单项典型体质指标得分

[负相关 (速度类) ]70

某单项典型体质指标得分

(正相关)

六项典型指标的得分乘以相应的权重系数之总和即为该生体质综合评价的总得分。

3.5.3 实例计算和评价

依据体质综合评价的6项典型指标和体质综合评价模型, 在Excel上对其进行计算, 得学生综合评价分值 (表6) 。

依据表6中藏族学生的体质综合评分分值和体质综合评分标准 (上等:77分以上;中上等72.9～76.9分为;中等:66.7～72.8;中下等:63.1～66.6;下等:63分以下) 来确定学生体质等级。其等级百分比分别为:上等7.14%, 中上等21.43%, 中等40.48%, 中下等26.19%, 下等4.76%, 其等级百分比呈正态分布, 因此可认为运用此评价方法建立的体质综合评分和等级评价较科学合理。

4 结论

综上, 本研究依据浙江警察学院藏族学生的身体形态、机能以及身体素质指标数据, 从R型聚类分析的典型指标分析, 影响藏族学生身体形态、身体机能、和身体素质的典型指标分别是身高、蛋白质含量、肺活量/身高、直接反应时、400米障碍和倒立。这些指标可作为对公安院校藏族学生体质进行单项指标评价和综合评价的主要因素。运用此评价结果的信息可以较为科学、客观的反映公安院校藏族学生的体质现状。

参考文献

[1]全国学生体质健康调研组.2000年全国学生体质健康状况调查研究工作手册[M].北京:北京出版社, 2000:1-56.

[2]2000年浙江省大学生体质监测研究报告课题组, 2000年浙江省大学生体质监测数据库.浙江省体育局, 2001.

[3]姜建华, 陈志强等.浙江省大学生体质健康评价方法与运动保健处方[M].杭州:浙江大学出版社, 2004:408-444.

[4]陈小华, 公安院校特警人才培养方法探究[J].新疆警官高等专科学校学报, 2006 (4) :50-53

[5]赵军等.公安学校西藏班学生体质综合评价研究[J].北京体育大学学报, 2003 (3) :208-210.

聚类评价方法篇11

关键词：层次聚类动态聚类差异度江苏省技术创新

一、引言

科技创新能力是衡量一个国家和地区发展实力的标志，国家“十二五”规划纲要[1]和江苏省“十二五”规划纲要[2]都把增强科技创新能力作为提升科技综合实力的关键。《中国科技发展研究报告》提出，科技创新能力评价指标由以下五个方面构成：技术创新环境、技术创新投入、技术创新能力、创新经济绩效、科技综合能力[3]。本文的评价指标体系便是基于以上五个方面，并借鉴了文献[4]中的指标体系进行展开的[4]。

关于技术创新能力方面的文献比较丰富，但提供科学量化决策评价方法，并对评价方法进行比较的文献却相对较少。聚类分析是研究多要素事物分类问题的数量方法，可以解释对象之间、特征之间以及对象和特征之间错综复杂的关系，能为量化综合评价提供科学的参考模型。

聚类分析方法中，层次聚类方法是应用最广的聚类技术。尽管层次聚类适用面广，但选择适当的合并或分裂点十分困难，如果在某一步没有很好地选择合并或分裂的决定，可能会直接导致聚类质量受到限制。另外，层次聚类过程中用户必须决定聚类在什么时候停止，以得到某个数量的分类，否则算法的输出结果总是一个聚类[5]。针对层次聚类的缺陷，本文以簇间差异度作为簇自动合并与分裂的准则提出了一种动态合并聚类算法，该算法不需要用户预先设定聚类阀值动态的进行簇的划分，自动决定簇的合并及分裂过程，最终找到一个最佳的聚类。进而以江苏省13个地市的科技创新能力指标值为实验数据，对江苏省科技创新能力进行了聚类分析及综合评价。

二、相关原理与定义

（一）层次聚类原理

层次聚类方法[6]是通过将数据组织为若干组并形成一个相应的树来进行聚类的，根据聚类树图形成的方式，层次聚类方法可分为自顶向下的分裂算法和自底向上的合并算法两种。合并的层次聚类方法由于具体实施过程更为简单实用，所以大多数层次聚类方法都是合并式的[7]，该方法的基本思想是：采用自底向上的策略，首先将每个对象作为一个簇，然后按距离准则逐步合并这些原子簇，减少聚类数，直到所有的对象都在一个簇中，或者某个终结条件被满足为止。

（二）相关定义

定义1 欧式距离：设p维空间内的点X=（x1，x2，...，xp）'及Y=（y1，y2，...，yp）'，定义两点之间的欧式距离为：

■（1）

欧式距离是聚类分析中常见的一种相似性度量方法，它可以用来表示样本点之间的相近程度，距离较近的样本点性质较相似，距离较远的样本点差异较大。

定义2 类间最短距离：聚类过程中，涉及到类和类之间的合并，因此要考虑到类间距离的度量。广泛采用的类间距离度量方法有以下四种：最小距离法、最大距离法、类平均距离法、重心法。本文采用最小距离法，即类间最短距离作为类间合并准则。设A、B是两个聚类，则两类间的最短距离定义为：

Dmin（A，B）=min{d（xA ，xB）}xA∈A，xB∈B（2）

其中d（xA ，xB）表示A类中的样本xA和B类中的样本xB之间的欧氏距离；dmin（A，B）表示A类中的所有样本与B类中的所有样本之间的最小距离。如果一个类C，由A和B两类合并而成，即C=A∪B，则C与另外一个类D之间的最短距离为：

Dmin（C，D）=min{dAD，dBD} （3）

定义3 类内平均距离：设类C包含个聚类{C1，C2，...，Cc}，每个聚类Ci中含有ni个样本，i=1，2，...c，则类X的类内平均距离定义为：

■ （4）

三、动态合并聚类算法（DMCA）

（一）算法思想

层次聚类通过对样本和变量数据的不同特征指标值进行差异程度计算，根据变量或样本间差异程度的大小重新结合分类，产生一个更有效的类。但层次聚类方法是不可逆的，两个簇合并后，无法通过再将其分离到之前的状态，而且需要用户指定所期望得到的聚类个数和阈值作为聚类过程的终止条件，这是很难事先判定的[8]。

基于合并式层次聚类，本文提出了一种动态合并聚类算法（Dynamic-Merge Cluster Algorithm）DMCA。该算法的核心思想是：两个子簇是否合并依据簇间的相对接近度和相对互联度来评定，本文把这种簇间的相对接近度定义为簇间差异度，将两个簇之间的最短距离与它们各自的类内平均距离进行比较，从而决定是否合并两个类。通过采用簇间差异度作为簇自动合并与分裂的准则，可以克服层次聚类不可逆，且需预先设定阀值的缺陷。由于引入一种新的度量依据，而不是仅仅利用原来的类间最短距离准则进行簇合并，因此可以实现不需预知簇个数的聚类和在未知簇划分信息的情况下对数据集自动进行聚类分析。

（二）合并准则

设两个聚类Ci和Cj，依据公式（1）和（2），它们的类间最短距离为Dmin（Ci，Cj）；依据公式（4），它们的类内平均距离为R（Ci）和R（Cj），则Ci和Cj之间的簇间差异度σij的定义如公式（5）。

σij=min{（Dmin（Ci，Cj）-R（Ci）），（Dmin（Ci，Cj）-R（Cj））} （5）

合并准则：如果σij≤0，说明两个簇离得很近并且互联度较高，那么将类Ci和Cj合并成为一类Cij；如果σij>0，表明两个簇之间的最短距离要大于它们各自的类内平均距离，则把类Ci和Cj分别作为两个不同的类进行划分。

（三）算法描述

算法：动态合并聚类算法（DMCA）

输入：输入包含N个对象的数据集

输出：输出经过自动合并后的聚类结果

步骤1：N个初始数据样本自成一类，按照公式（1）计算各类之间（各样本间）的距离，得到初始化的距离矩阵；

步骤2：对距离矩阵中N（N-1）/2个元素按照距离从小到大的顺序进行快速排序，并将其存储在一维数组D中；

步骤3：对D中的当前元素Dij，首先判断类Ci和Cj是否已经被合并到类中，如果没有，计算类Ci和Cj之间的簇间差异度σij；

步骤4：判断σij，如果σij≤0，将类Ci和Cj合并成为一类Cij，并从簇序列中用Cij替换掉Ci、Cj，否则转向步骤5；

步骤5：取数组D中的下一个元素，重复2—4，直到簇序列中没有能合并的簇为止；

步骤6：输出合并后的聚类结果。

四、DMCA在江苏省城市科技创新能力评价的应用

江苏省共辖13个地级市，按经济发展水平可分成三类不同地区，即苏南、苏中和苏北。苏南为江苏省发达地区，苏中为次发达的过渡地区，苏北为欠发达的地区。

本文根据2011年江苏省统计年鉴[9]和参考文献[4]，选取了江苏省13个地级市的5项科技创新能力指标数据，如表1所示。其中包括：技术创新环境、技术创新投入、技术创新能力、创新经济绩效、科技综合能力。

采用DMCA算法对其进行聚类分析，聚类分析结果如表2所示。从表2中可以看出，本文算法可以在预先不设定阀值的条件下，自动将聚类结果合并成三类，符合江苏省的实际发展情况，而K-means算法和层次聚类算法在聚类个数为4的条件下，虽然聚类结果相同，但与江苏省实际情况不符。在聚类个数为3的条件下，采用三种聚类算法得到的第三类的聚类结果相同，第一、二类有所不同，K-means算法把苏州单独归为一类，出现了孤立点，影响了聚类结果；层次聚类算法和本文算法聚类结果的区别在于把常州归为第一类还是第二类，根据分析比较，常州与苏州、无锡、南京归为一类比较好。从以上分析，可以清晰的看出动态合并聚类算法的优势所在，使用本算法不仅能提高聚类质量，而且聚类结果更加符合实际，更具参考价值。

根据聚类结果比较，科技创新能力排在江苏省前四位的城市分别为苏州市、无锡市、南京市、常州市。这些地市一般都具有以下特点：相对于科技创新能力较弱的地区，这些地市都具有相对较好的科技基础，吸引外资相对较多，尤其是苏州，已成为中国吸引外资最多的城市，带动了高新技术产业的发展，也提高了科技创新的综合竞争实力。苏中的南通、扬州、镇江、泰州四地市综合排名大体处于中等水平；苏北的淮安、宿迁、盐城、连云港、徐州五地市的综合排名则为最后五名。可以看出，江苏省各地级市科技创新能力分布不平衡，苏南地区的科技创新能力优势明显，苏中地区的科技创新能力有待提高，苏北地区科技创新能力偏弱，需要大力加强科技创新投入和出台相应的政策措施来推动科技创新能力的发展。

五、结束语

本文基于合并式层次聚类的思想，阐述了一种采用簇间差异度进行簇自动合并划分的动态合并聚类算法，克服了层次划分方法不可逆、需要预先设定聚类阀值等缺陷。通过实践，将其运用到江苏省技术创新能力评价实例中，为江苏省13个地市的科技创新能力提供了科学量化决策评价，验证了算法的可行性与有效性。与其他聚类方法相比，本算法聚类结果更加符合客观实际，从而对各地区科技创新能力分析提供了参考。■

参考文献：

[1]中国网.中华人民共和国国民经济和社会发展第十二个五年规划纲要（全文）[EB/OL].http：//www.china.com.cn/policy/txt/

2011—03/16/content_22156007.htm

[2]江苏省发展规划中心.江苏省“十二五”规划纲要（全文）[EB/OL].http：//jsdp.njnu.edu.cn/Article/news_vi-

ew. asp？newsid=928，2011.7.6

[3]《中国科技发展研究报告》研究组. 中国科技发展研究报（2000）—科技全球化及中国面临的挑战[M].北京：社会科学文献出版社，2000.

[4]王芳. 江苏省科技创新能力的评价及对策[J].科技经济市场，2009（7）：63—64

[5]Xu R，Wunsch D.Clustering[M]. New York：IEEE Pr-

ess，2009：20—40

[6]Sambasivam，Theodosopoulos.Advanced data clus-

tering methods of mining web documents. Issues in Informing Science and Information Technology， 2006，8（3）： 563—579

[7]Ian Davidson， S. S. Ravi，Using instance—level

constraints in agglomerative hierarchical clustering：theoretical and empirical results， Data Mining and Knowledge Discovery，2009，18（2）：257—282

[8]段明秀.层次聚类算法的研究与应用[J].中南大学硕士学位论文，2009

[9]江苏省统计局编：江苏统计年鉴2011[M].北京：中国统计出版社

（董智，1970年生，江苏徐州人，江苏师范大学外国语学院国际交流系讲师。研究方向：市场营销、物流管理、国际商务文化）

（三）算法描述

算法：动态合并聚类算法（DMCA）

输入：输入包含N个对象的数据集

输出：输出经过自动合并后的聚类结果

步骤1：N个初始数据样本自成一类，按照公式（1）计算各类之间（各样本间）的距离，得到初始化的距离矩阵；

步骤2：对距离矩阵中N（N-1）/2个元素按照距离从小到大的顺序进行快速排序，并将其存储在一维数组D中；

步骤3：对D中的当前元素Dij，首先判断类Ci和Cj是否已经被合并到类中，如果没有，计算类Ci和Cj之间的簇间差异度σij；

步骤4：判断σij，如果σij≤0，将类Ci和Cj合并成为一类Cij，并从簇序列中用Cij替换掉Ci、Cj，否则转向步骤5；

步骤5：取数组D中的下一个元素，重复2—4，直到簇序列中没有能合并的簇为止；

步骤6：输出合并后的聚类结果。

四、DMCA在江苏省城市科技创新能力评价的应用

五、结束语

参考文献：

[1]中国网.中华人民共和国国民经济和社会发展第十二个五年规划纲要（全文）[EB/OL].http：//www.china.com.cn/policy/txt/

2011—03/16/content_22156007.htm

[2]江苏省发展规划中心.江苏省“十二五”规划纲要（全文）[EB/OL].http：//jsdp.njnu.edu.cn/Article/news_vi-

ew. asp？newsid=928，2011.7.6

[3]《中国科技发展研究报告》研究组. 中国科技发展研究报（2000）—科技全球化及中国面临的挑战[M].北京：社会科学文献出版社，2000.

[4]王芳. 江苏省科技创新能力的评价及对策[J].科技经济市场，2009（7）：63—64

[5]Xu R，Wunsch D.Clustering[M]. New York：IEEE Pr-

ess，2009：20—40

[6]Sambasivam，Theodosopoulos.Advanced data clus-

tering methods of mining web documents. Issues in Informing Science and Information Technology， 2006，8（3）： 563—579

[7]Ian Davidson， S. S. Ravi，Using instance—level

constraints in agglomerative hierarchical clustering：theoretical and empirical results， Data Mining and Knowledge Discovery，2009，18（2）：257—282

[8]段明秀.层次聚类算法的研究与应用[J].中南大学硕士学位论文，2009

[9]江苏省统计局编：江苏统计年鉴2011[M].北京：中国统计出版社

（董智，1970年生，江苏徐州人，江苏师范大学外国语学院国际交流系讲师。研究方向：市场营销、物流管理、国际商务文化）

（三）算法描述

算法：动态合并聚类算法（DMCA）

输入：输入包含N个对象的数据集

输出：输出经过自动合并后的聚类结果

步骤1：N个初始数据样本自成一类，按照公式（1）计算各类之间（各样本间）的距离，得到初始化的距离矩阵；

步骤2：对距离矩阵中N（N-1）/2个元素按照距离从小到大的顺序进行快速排序，并将其存储在一维数组D中；

步骤3：对D中的当前元素Dij，首先判断类Ci和Cj是否已经被合并到类中，如果没有，计算类Ci和Cj之间的簇间差异度σij；

步骤4：判断σij，如果σij≤0，将类Ci和Cj合并成为一类Cij，并从簇序列中用Cij替换掉Ci、Cj，否则转向步骤5；

步骤5：取数组D中的下一个元素，重复2—4，直到簇序列中没有能合并的簇为止；

步骤6：输出合并后的聚类结果。

四、DMCA在江苏省城市科技创新能力评价的应用

五、结束语

参考文献：

[1]中国网.中华人民共和国国民经济和社会发展第十二个五年规划纲要（全文）[EB/OL].http：//www.china.com.cn/policy/txt/

2011—03/16/content_22156007.htm

[2]江苏省发展规划中心.江苏省“十二五”规划纲要（全文）[EB/OL].http：//jsdp.njnu.edu.cn/Article/news_vi-

ew. asp？newsid=928，2011.7.6

[3]《中国科技发展研究报告》研究组. 中国科技发展研究报（2000）—科技全球化及中国面临的挑战[M].北京：社会科学文献出版社，2000.

[4]王芳. 江苏省科技创新能力的评价及对策[J].科技经济市场，2009（7）：63—64

[5]Xu R，Wunsch D.Clustering[M]. New York：IEEE Pr-

ess，2009：20—40

[6]Sambasivam，Theodosopoulos.Advanced data clus-

tering methods of mining web documents. Issues in Informing Science and Information Technology， 2006，8（3）： 563—579

[7]Ian Davidson， S. S. Ravi，Using instance—level

constraints in agglomerative hierarchical clustering：theoretical and empirical results， Data Mining and Knowledge Discovery，2009，18（2）：257—282

[8]段明秀.层次聚类算法的研究与应用[J].中南大学硕士学位论文，2009

[9]江苏省统计局编：江苏统计年鉴2011[M].北京：中国统计出版社

聚类评价方法篇12

聚类分析是根据研究对象特征对研究对象进行分类的一种多元分析技术, 依据“距离”或“相似系数”把性质相近的个体归为一类, 使得同一类中的个体都具有高度的同质性, 不同类之间的个体具有高度的异质性。

应用于模糊对象的聚类分析叫做模糊聚类分析。基本步骤如下:

1. 选定对象

设对象集E={x1, x2, …xn}, 指标集Y={y1, y2, …ym}。对于被研究的对象, 这些指标应有明确的实际意义、较强的可分辨性和代表性。并通过直接观测或采用统计资料, 可以得到各个对象对应于这些指标所取数值的向量, 即Xi={xi1, xi2, …xin}, 其中是第i个对象的第k个指标值。得到n×m矩阵, 称为原始资料矩阵。

2. 数据标准化

把各指标的数据 (矩阵各列) 按指标标准化, 即把各指标的数据变换到[-1, 1]区间内, 以便用模糊数学工具来处理, 同时避免一些影响较小的指标作用被埋没掉。

3. 建立相似关系矩阵

把标准化后的矩阵的每一行看作各对象在指标集上的模糊集合, 各的表示指标隶属于集合Xi的隶属度。于是, 各Xi就间接描述了各个对象xi的基本特征, 我们可以适当确定xi 与xj的相似程度rij, 如rij=1-cd (x1, x1) , C为使得0≤rij≤1常数。

4. 分析聚类

进行聚类分析通常有3种方法:编网聚类法、模糊等价关系聚类法和最大树法。前两者可用模糊相似矩阵直接求值, 但要进行多次模糊关系的复合运算, 工作量比较大。而最大树法直接利用相似关系作树形图。本文采用模糊等价关系聚类法。

二、模糊聚类分析法的应用

设房地产投资有n个方案 (X1, X2, …Xn) , 每一个方案有m个评价Xi= (Xi1, …, Xim) , 用数据矩阵表示为:

利用模糊聚类分析方法进行房地产投资评价的基本步骤如下:

2. 模糊相似矩阵

模糊相似矩阵由各投资方案间的模糊相似系数构成, xi与xj的模糊相似系数rij+R (xi, xj) , 确定rij+R (xi, xj) 的方法有很多, 这里采用欧氏距离来计算模糊相似系数, 即:, 在直接使用距离法构造模糊相似矩阵时, 总是令:rij=1-cd (xi, xj) , 其中:C为常数, 它使得0≤rij≤1, 我们取

3. 基于模糊聚类的综合排序

类似房地产投资评价的多目标决策问题, 实际上是一个多指标综合排序问题, 就是在已有的方案中, 综合多个目标选择一个最优的方案。在投资评价中, 每一个评价指标都有一个标准值或最优值。对于正向评价指标, 其最优值是所有对象中该指标的最大值, 而对于逆向指标, 其最优值是所有对象中该指标的最小值。如果我们人为地构造一个新对象, 并使其各指标的取值是其标准值或最优值 (或最差值) , 然后对对象的全体进行聚类, 这样与该构造对象聚为一类的就是待评价对象中的最好 (或最差) 的对象。重复这一过程, 就可以得到所有对象从好到差 (或从差到好) 的排序。为了缩短排序过程, 也可以构造两个新对象, 一个存放各指标的最优值, 另一个存放各指标的最差值, 每一次聚类得到待评价对象的最好和最差的对象。这样, 对评价对象的基于模糊聚类的综合排序步骤为:

(1) 增加一个由各指标最优值构成的对象xn+1, xn+1取各指标的最优值, 用数组存储矩阵X, 对于本文的各个指标, 正向指标的最优值取该项指标中的最大值, 最差值则取其最小值, 逆向指标则相反取值。

这样分析对象的矩阵表示为:

(2) 对X标准化, 构造模糊相似矩阵:

(3) 进行模糊聚类, 找出与为一类的对象, 记下序号, 即矩阵里第n+1行中的最大值项, 其列下标即为最优对象所在行的行号。

(4) 从数组中删除与xn+1为一类的对象 (即最优对象) , n的值减1, 记录最优对象的序号, 对应的投资方案就是最优的投资方案。

(5) 重复步骤2-4, 直到全部对象排序完毕。

按上述步骤, 由对象矩阵X建立的模糊相似矩阵R, 对各投资风险指标进行聚类, 最后得出各投资方案优劣的排序。

本文采用房地产投资风险评价相关数据进行实例验证, 设有4个相互独立的房地产投资方案X= (X1, X2, X3, X4) 需要评价。表1中列出4个方案的由初始投资者推出的4项指标值:期望净现值、期望净现值指数、风险赢利值是正向指标, 投资失败率为逆向指标。根据表中的数据, 并增加一个对象用于存储每个评价指标中的最优值。这样得到的初始数据矩阵是:

由初始数据矩阵建立模糊相似矩阵, 并进行聚类, 得到投资方案优选排名结果见表2。

采用模糊聚类分析的综合排序方法, 结合了数据挖掘中的聚类分析和模糊数学中的模糊相似矩阵的思想, 建立了一种基于模糊聚类的房地产投资风险评价模型, 该方法不需要确定评价指标的权重, 减少了评价的主观性, 并且计算方法容易掌握, 因而较为可行。

参考文献

[1]杨纶标:模糊数学原理及其应用第四版[M].广州:华南理工大学, 2005

[2]欧阳建涛刘晓君:灰色预测理论在房地产投资决策中的应用经济师[J], 2005, (12)

[3]李利梅:模糊聚类分析法在房地产市场中的应用[J].深圳大学学报 (理工版) , 2003, 20 (3) :75-79.

【聚类评价方法】推荐阅读：

绩效评价方法05-09

评价方法体系05-17

教师评价方法05-28

财务评价方法06-23

评价方式方法07-01