聚类

2024-09-18

聚类(精选8篇)

聚类 篇1

云分类中逐个修改聚类和模糊聚类分类性能的对比研究

利用卫星图像对各种云型进行识别在大气科学领域具有重要意义,为了深入了解云分类过程中逐个修改聚类和模糊聚类对各种云型的识别能力,采用极轨卫星EOS/MODIS图像资料和静止卫星GMS-5图像资料,在样本采集和特征提取的基础上,选择不同的光谱或纹理特征对两种分类器的分类性能进行测试和对比分析.结果发现,不管采用哪种图像资料,提取哪些特征量,逐个修改聚类的平均分类准确率总体上略高于模糊聚类.但就两种分类器对各种云型的识别能力而言,模糊聚类对低云和高云(如层云、薄卷云、密卷云、卷层云、积云)的分类准确率明显好于逐个修改聚类,而逐个修改聚类对积雨云的`分类准确率稍高于模糊聚类.从各类别间混判的情形来看,积雨云和高中低混合云、低云之间及卷云子类之间混判的情形较多,模糊聚类与逐个修改聚类相比,混判的类别增多,相对比例减少.

作 者:朱亚平刘健文 白洁 Zhu Yaping Liu Jianwen Bai Jie 作者单位:朱亚平,Zhu Yaping(解放军理工大学气象学院,南京,211101;航空气象研究所)

刘健文,白洁,Liu Jianwen,Bai Jie(航空气象研究所)

刊 名:气象 ISTIC PKU英文刊名:METEOROLOGICAL MONTHLY年,卷(期):33(2)分类号:P4关键词:云分类 模糊聚类 逐个修改聚类

聚类 篇2

随着DNA芯片技术的不断发展, 基因表达数据实验得到极大地发展, 实验要求也相应提高, 使得传统聚类方法存在的缺陷日益明显。传统聚类仅在整个数据矩阵的单个方向聚类, 或者行方向或者列方向, 无法发现列集合下行的局部信息, 无法适应生物理论下数据的多功能特点。此外聚类经常会分散相互表达的数据块产生错误决策, 使得基因信息简单化。为了克服传统聚类方法存在的缺陷, Cheng和Church[1]首先提出双聚类并应用于基因表达数据挖掘中。双聚类被定义为一个具有统一标准的基因表达数据子集, 即分别通过交换矩阵的行和列, 将数值相似的数据聚合在一起形成子矩阵。为了评价该子矩阵的相似程度Cheng和Church [1]提出了均方残值的概念, 均方残值越低表明子矩阵的数据相似性越强, 即表达相关性越强, 集合捕获基因数据中有生物意义的基因信息越强。图1表示双聚类与聚类的区别。从图1中可以看出, 行方向为基因, 列方向为实验条件, 整个基因表达数据表达的是基因在不同的实验条件下表现出的不同数值。双聚类是数据矩阵中数据相似块, 双聚类与双聚类之间可以重叠。

Cheng和Church[1]运用贪心策略移动行和列来搜索双聚类。Yang et al [2]在Cheng和Church[1]算法的基础上, 提出了概率算法 (FLOC) , 该算法能够同时发现k个具有可重叠性的双聚类集合。Zhang et al [3]提出DBF算法即运用频繁模式挖掘确定双聚类, 该算法在第一阶段频繁模式下产生较高质量的双聚类集合, 在第二阶段迭代过程中, 通过进一步增加行和列扩大双聚类。

本文使用均方残值策略为双聚类的表达水平打分。为了避免随机值干扰并实现可重叠双聚类, 我们采用自底向上的思想。首先对基因表达数据的行和列分别使用层次聚类生成行集合和列集合, 行集合和列集合再分别组合成数据子矩阵, 并作为双聚类初始种子;然后采用启发式策略对种子分别添加行和列, 用全局优化找出均方残值最低的双聚类;并使用生成双聚类种子的热核图, 也叫做伪彩色图, 在伪彩色图中, 不同的数据表示不同的颜色, 数据相似度越大, 颜色也就越接近。最后将算法的结果与其他流行的算法结果进行比较。

2 双聚类模型

在基因表达数据矩阵中, A为表达矩阵, 行集合为基因集合X, 列集合为条件集合Y, aIJ为表达矩阵A的元素值, 表示在第j列条件下第i行基因的表达值。 (I, J) 对表示子矩阵AIJ, 其中I为基因集合的子集I⊆X, J为条件集合的子集J⊆Y。

双聚类的一致性表现在行和列的数据分别具有相似性。在理想状态下, 每行或者每列的值可以通过其他行和列减去一个值产生。这时, 双聚类中每个元素值根据它的行均值aiJ, 列均值aIj, 矩阵均值aIj确定。差值aIj-aiJ为第J列关于该双聚类中其他列的相对偏差;对行差值亦然。因而, 双聚类的元素值aij可以定义为行均值加上列均值减去矩阵均值。

aij=aiJ+aIj-aIJ (1)

然而基因数据中存在噪声, 双聚类并不一定是理想的, 因此定义残差量化一个元素的真实值与相关的行均值、列均值、矩阵均值的期望。非理想状态下元素值的残差定义为:

RSIJ (i, j) =aij-aiJ-aIj+aIJ (2)

为了评价双聚类在噪声影响下的质量, Cheng 和Church[1]在残差的基础上定义了Hscore (均方残值) 为双聚类行与列的相关性打分。均方残值公式如下:

其中, 存在当δ≥0, 如果满足H (I, J) ≤δ的条件, 则子矩阵AIJ叫做δ-双聚类。

3 双聚类算法

3.1 层次聚类算法生成种子

本节首先介绍层次聚类的基本概念, 再介绍层次聚类的算法, 并阐明该算法计算公式。一个层次聚类算法将数据组织成一棵聚类的树, 根据层次是自底向上还是自顶向下形成, 可以进一步将层次聚类算法分为凝聚型和分裂型聚类算法。根据所采用的计算类间距离方法的不同, 层次聚类算法主要有单连接SL ( Single- Link) , 全连接CL (Complete-Link) 和平均连接AL (Average- Link) 三种。单连接也叫做最近邻居, 就是求两个类之间的最短距离。本文采用分裂型、单连接算法, 分别对矩阵的行和列方向上进行聚类。在行方向进行层次算法时, 将所有行归于同一个类, 采用欧式距离计算每个行之间的距离, 并采用单连接的方法计算每个类之间的相似度, 当两个类之间的距离小于等于阈值, 则合并这两个类。然后将该层类分裂成两个下层的类, 重复计算, 直至达到符合条件为止。列方向方法同样。在matlab中实现的代码如下:

本文对数据矩阵的行和列分别使用层次聚类算法生成m, n聚类, 整个数据集就划分成m×n数据块, 将所有的数据块作为我们双聚类起始的种子。

3.2 启发式更新种子生成初始双聚类

采用启发式方法更新前面生成的种子。先添加列, 计算Hscore值是否超过设定的阈值, 没有则将该列添加到数据矩阵中;对行做同样的操作直到Hscore值达到设定的阈值。

3.3 全局优化生成最终的双聚类

生成种子的质量会影响双聚类的质量, 因此, 我们不是取Hscore值最小的前100个作为我们双聚类起始的种子, 而是使用所有的种子并进行分组更新优化。优化步骤如下:

(1) 初始化双聚类, 设定种子数为n ;

(2) 计算每个种子的行均值, 列均值, 矩阵均值, 和Hscore值, 启发式更新种子 ;

(3) 对于每个种子, 将自己的Hscore值与所经历过的最好Hscore值进行比较, 如果较好, 则将其作为当前的最好的Hscore值;

(3) 对于每组种子, 将该组Hscore值与所有组经历过的最好的Hscore值进行比较, 如果较好, 则将其作为当前的所有种子集合的最好Hscore值;

(4) 根据式子 (1) 、 (2) 扩张种子;判断是否达到终止条件, 如果达到则跳出, 否则转 (2) 。

4 实验结果比较

4.1 算法可行性验证

我们采用理想状态下无噪声干扰的模拟数据矩阵。矩阵大小为50×20, 取值为0或1。图2为模拟数据的热核图, 图3为模拟数据双聚类的热核图, 通过图2和图3可验证本算法的正确性。

4.2 植物数据的实验结果

植物数据包含三种类型植物叫做Setosa、Versicolour、Virginica, 每一种植物约有50个样本。列描述植物的属性分别为萼片长、宽, 花瓣长、宽。

从图4和图5的热核图可看出, 本文方法在四种属性条件下可以找出三种不同类型的植物。

4.3 酵母数据实验结果

进行测试使用的第三个数据集是酵母细胞表达数据。我们采用Cheng 和Church[1]使用的酵母数据集, 目的是比较双聚类的结果。该基因数据集包含2884个基因, 17个条件, 数据取值在[0, 600]之间, 其中缺失的数据用-1来替代。

种子好坏决定双聚类聚类最终结果, 使用层次聚类算法先将酵母细胞数据划分为1000个种子, 并全部用于双聚类的搜索中。

图6、图7两组图一个是原始酵母数据集热核图, 另一个是所有种子组合的热核图, 图7的热核图是通过层次聚类得到的结果, 从中可以看出, 颜色一致的部分是均方残值相似种子组合成, 双聚类在此基础上进行优化搜索, 既能减少搜索偶然性, 又能提高双聚类的搜索速度。

Cheng和Church[1]算法采用阈值为300, 在本算法中设定同样的阈值300, 双聚类的结果比较如表1所示。

4.4 算法存在的一些问题以及改进

对于层次聚类算法生成种子过程, 我们发现该算法对数据大小设定很敏感, 不当的设置会分裂好的双聚类, 并对最后双聚类的生成影响很大, 因此采用分裂层次聚类算法还有很多待改进的地方。

5 结束语

聚类算法研究综述 篇3

关键词:数据挖掘;聚类分析;聚类算法

中图分类号:TP301. 6 文献标识码:A文章编号:1009-3044(2007)12-21500-02

The Research of Clustering Algorithms

XIANG Bing-bing1, QIAN Guang-chao2

(1.School of Mathematics and Computational Science, Anhui University, Hefei, Anhui Province 230039, China;2. School of Computer Science and Technology ,Anhui University, Hefei, Anhui Province 230039, China)

Abstract:Clustering is an important technique in data mining. It’s used to discover the data distribution and concealed patterns. The paper elucidate the basic principle of the clustering algorithms and sum up the contemporary research of the clustering algorithms. It also analyze a few representative clustering algorithms and compare their differences,advantages and disadvantages. At last,the paper indicate the development trend of clustering integrating the application demand.

Key word:Data mining; Clustering Analysis;Clustering Algorithms

1 引言

数据挖掘是指从从大量无序的数据中提取隐含的、有效的、可理解的、对决策有潜在价值的知识和规则,为用户提供问题求解层次的决策支持能力。数据挖掘主要的算法有分类模式、关联规则、决策树、序列模式、聚类模式分析、神經网络算法等等。聚类算法是一种有效的非监督机器学习算法,是数据挖掘中的一个非常重要的研究课题。当人们使用数据挖掘工具对数据中的模型和关系进行辨识的时候,通常第一个步骤就是聚类,其目的就是将集中的数据人为地划分成若干类, 使簇内相似度尽可能大、簇间相似度尽可能小,以揭示这些数据分布的真实情况。但任何聚类算法都对数据集本身有一定的预先假设,根据文献[1]的理论,如果数据集本身的分布并不符合预先的假设,则算法的结果将毫无意义。因此,面对特定的应用问题,如何选择合适的聚类算法是聚类分析研究中的一个重要课题。本文比较了数据挖掘中现有聚类算法的性能,分析了它们各自的优缺点,并指出了其今后的发展趋势。

2 聚类算法分类研究

聚类的目的是把大量数据点的集合分成若干类,使得每个类中的数据之间最大程度地相似,而不同类中的数据最大程度地不同。通常聚类算法可以分为层次聚类、分割聚类、密度型聚类、网格型聚类和其他聚类等几种。

2.1 层次聚类

层次聚类算法通过将数据组织成若干组并形成一个相应的树状图来进行聚类,它又可以分为两类,即自底向上的聚合层次聚类和自顶向下的分裂层次聚类。聚结型算法采用自底向上的策略, 首先把每个对象单独作为一个聚类, 然后根据一定的规则合并成为越来越大的聚类, 直到最后所有的对象都归入到一个聚类中。大多数层次聚类算法都属于聚结型算法, 它们之间的区别在于类间相似度的定义不同。与聚结型算法相反, 分裂型算法采用自顶向下的方法,它先将所有的对象都看成一个聚类,然后将其不断分解直至每个对象都独自归入一个聚类。一般情况下不使用分裂型方法, 因为在较高的层次很难进行正确的拆分。纯粹的层次聚类算法的缺点在于一旦进行合并或分裂之后, 就无法再进行调整。现在的一些研究侧重于层次聚类算法与循环的重新分配方法的结合。

主要的层次聚类算法有BIRCH, CURE, ROCK, CHAMELEON, AMOEBA,COBWEB, Clustering with Random Walks 算法等。CURE算法[2]不用单个中心或对象来代表一个聚类,而是选择数据空间中固定数目的、具有代表性的一些点共同来代表相应的类,这样就可以识别具有复杂形状和不同大小的聚类,从而能很好地过滤孤立点。ROCK算法[3]是对CURE的改进,除了具有CURE算法的一些优良特性之外,它还适用于类别属性的数据。CHAMELEON算法[4]是Karypis等人于1999年提出来的,它在聚合聚类的过程中利用了动态建模的技术。

2.2 分割聚类

分割聚类算法是另外一种重要的聚类方法。它先将数据点集分为k个划分,每个划分作为一个聚类,然后从这k个初始划分开始,通过重复的控制策略,使某个准则最优化,而每个聚类由其质心来代表( k- means 算法) , 或者由该聚类中最靠近中心的一个对象来代表( k- medoids 算法),以达到最终的结果。分割聚类算法收敛速度快,缺点在于它倾向于识别凸形分布大小相近、密度相近的聚类,不能发现分布形状比较复杂的聚类,它要求类别数目k 可以合理地估计, 并且初始中心的选择和噪声会对聚类结果产生很大影响。这类方法又可分为基于密度的聚类、基于网格的聚类等。

很多算法中都使用距离来描述数据之间的相似性,但是,对于非凸数据集,只用距离来描述是不够的。对于这种情况,要用密度来取代相似性,这就是基于密度的聚类算法。基于密度的算法从数据对象的分布密度出发,把密度足够大的区域连接起来,从而可以发现任意形状的类。此类算法除了可以发现任意形状的类,还能够有效去除噪声。

基于网格的聚类算法,把空间量化为有限个单元( 即长方体或超长方体) ,然后对量化后的空间进行聚类。此类算法具有很快的处理速度。缺点是只能发现边界是水平或垂直的聚类,而不能检测到斜边界。此类算法具有很快的处理速度。时间复杂度一般由网格单元的数目决定, 而与数据集的大小无关。此外,聚类的精度取决于网格单元的大小。此类算法不适用于高维情况,因为网格单元的数目随着维数的增加而呈指数增长。所有基于网格的聚类算法都存在下列问题:一是如何选择合适的单元大小和数目;二是怎样对每个单元中对象的信息进行汇总。

主要的分割聚类算法有k - means, EM, k - medoids, CLARA, CLARANS 等。常见的k -medoids 算法有PAM算法、CLARA 算法、CLARANS 算法。

2.3 其他聚类

主要有:基于约束的聚类算法、机器学习中的聚类算法、用于高维数据的聚类算法等。

基于约束的聚类算法,其约束可以是对个体对象的约束,也可以是对聚类参数的约束,它们均来自相关领域的经验知识。该方法的一个重要应用在于对存在障碍数据的二维空间数据进行聚类。COD (Clustering with Obstructed Distance) [ 5]就是处理这类问题的典型算法,其主要思想是用两点之间的障碍距离取代了一般的欧氏距离来计算其间的最小距离。

机器学习中的聚类算法是指与机器学习相关、采用了某些机器学习理论的聚类方法,它主要包括人工神经网络方法以及基于进化理论的方法。如自组织特征映射( SOM) 网络是利用人工神经网络进行聚类的较早尝试,它也是向量量化方法的典型代表之一。在基于进化理论的聚类方法中,模拟退火的应用较为广泛, SNICC算法[ 6 ]就是其中之一。遗传算法也可以用于聚类处理,它主要通过选择、交叉和变异这三种遗传算子的运算以不断优化可选方案从而得到最终的聚类结果。

高维数据聚类是目前多媒体数据挖掘领域面临的重大挑战之一,除了降维这一最直接的方法之外,对高维数据的聚类处理还包括子空间聚类以及联合聚类技术等。子空间聚类算法,认为在高维数据集中,聚类往往不是存在于整个空间中,而是存在于某些子空间中。它们针对高维空间数据,寻找子空间中的聚类。主要子空间聚類算法有CLIQUE,PROCLUS 等。

3 典型聚类算法性能比较

3.1 CLARANS 算法

CLARANS通过利用多次不同抽样改进了CLARA算法,是一种k-中心点聚类方法。它首先随机选择一个点作为当前点,然后随机检查它周围不超过参数Maxeighbar个的一些邻接点。假如找到一个比它更好的邻接点,则把它移入该邻接点,否则把该点作为局部最小量。然后再随机选择一个点来寻找另一个局部最小量,直至所找到的局部最小量数目达到用户要求为止。该算法要求聚类的对象必须预先调入内存,并且需多次扫描数据集,其时空复杂度都相当大,虽通过引入R*—树结构对其性能进行改善,但构造和维护代价太大。该算法对脏数据和异常数据不敏感,但对数据输入顺序异常敏感,且只能处理凸形或球形边界聚类,效率较高。

3.2 BIRCH 算法

BIRCH是一个综合性的层次聚类方法,它利用层次方法的平衡迭代进行归约和聚类。其核心是用一个聚类特征三元组表示一个簇的有关信息,从而使一簇点的表示可用对应的聚类特征。它通过构造满足分支因子和簇直径限制的聚类特征树来求聚类。该算法通过聚类特征可以方便地进行中心、半径、直径及类内、类间距离的运算。算法具有对象数目的线性易伸缩性,及良好的聚类质量。一次扫描就可以进行较好的聚类,其计算复杂度为O( n)。BIRCH 算法只适用于类的分布呈凸形及球形的情况,对不可视的高维数据则是不可行的。

3.3 DBSCAN 算法

DBSCAN是基于密度的聚类算法,可以将足够高密度的区域划分为簇,并可以在带有“噪声”的空间数据库中发现任意形状的聚类。该算法利用类的密度连通性可以快速发现任意形状的类。其基本思想是:对于一个类中的每个对象,在其给定半径的领域中包含的对象不能少于某一给定的最小数目。DBSCAN算法不进行任何的预处理而直接对整个数据集进行聚类操作。当数据量非常大时,就必须有大量内存支持,I/O 消耗也非常大。其时间复杂度为O(nlogn),聚类过程的大部分时间用在区域查询操作上。DBSCAN算法能够发现空间数据库中任意形状的密度连通集;在给定合适的参数条件下,能很好地处理噪声点;对用户领域知识要求较少;对数据的输入顺序不太敏感;适用于大型数据库。但DBSCAN算法要求事先指定领域和阈值,具体使用的参数依赖于应用的目的。

3.4 STING 算法

STING 是一种格的多分辨率聚类技术。它将空间区域划分为矩形单元,针对不同级别的分辨率,通常存在多个级别的矩形单元,这些单元形成了一个层次结构:高层的每个单元被划分为多个低一层的单元。高层单元的统计参数可以很容易地从低层单元的计算得到。STING扫描数据库一次来计算单元的统计信息,因此产生聚类的时间复杂度是O (n) ,其中n是对象的数目。在层次结构建立后,查询处理时间是O ( g),g是最低层风格单元的数目,通常远远小于n。

STING 是独立于查询的,有利于并行处理和增量更新且效率较高。但由于STING 采用了一个多分辨率的方法来进行聚类分析,聚类的质量取决于网格结构的最低层粒度。如果数据粒度比较细,处理的代价会明显增加。并且,STING 在构建一个父单元时没有考虑子单元和其相邻单元之间的关系,因此,尽管该技术处理速度快,但可能降低簇的质量和精确性。

4 结论和展望

聚类分析是数据挖掘中一种非常有用的技术,它可作为特征和分类算法的预处理步骤,也可将聚类结果用于进一步关联分析,还可以作为一个独立的工具来获得数据分布的情况。聚类算法的研究具有广泛的应用前景,其今后的发展也面临着越来越多的挑战。首先是聚类算法的选择,建议使用者根据实际情况(例如发现聚类的形状、数据输入顺序是否敏感、适用数据库的大小或者算法效率)来选择合适的聚类算法。其次,对于特征数据本身所具备的高维性、复杂性、动态性以及容易达到大规模的特性,聚类算法的设计还应该更多地考虑融合不同的聚类思想形成新的聚类算法,从而综合利用不同聚类算法的优点。

参考文献:

[1]R O Duda,P E Hart,D G Stork. Pattern Classification ( 2nd Edition) [M]. New York: Wiley, 2001. 4542458.

[2]Guha S, Rastogi R,Shim K. CURE: An Efficient Clustering Algorithm for Large Databases[C]. Seattle: Proceedings of the ACM SIGMOD Conference,1998. 73-84.

[3]Guha S,Rastogi R,Shim K. ROCK: A Robust Clustering Algorithm for Categorical Attributes[C]. Sydney: Proceedings of the 15 th ICDE,1999. 512-521.

[4]Karypis G,Han E-H,Kumar V. CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modeling[J]. IEEE Computer,1999,32 (8) : 68-75.

[5]Tung A K H,Hou J,Han J. Spatial Clustering in the Presence of Obstacles[C]. Heidelberg: Proceedings of the 17 th ICDE,2001. 359-367.

聚类 篇4

一、市场环境…… 我们处在怎么样一个市场? 我们的优劣势何在?

二、客户特点…… 聚类客户有哪些特性? 哪些对我们有利?

一种基于平均相对偏差的聚类算法 篇5

一种基于平均相对偏差的聚类算法

在k-means算法基础上,提出利用平均相对偏差对数据的维分布密集度进行度量,并根据空间分布的密集度动态地给属性赋予权值.在计算平均相对偏差时,度量值与平均值问的偏差没有被平方,在一定程度上降低了孤立点的影响,与标准差相比具有更强的鲁棒性.仿真结果表明,基于平均相对偏差的.聚类算法提高了聚类的质量.

作 者:聂舟 程远国 NIE Zhou CHENG Yuan-guo  作者单位:聂舟,NIE Zhou(海军工程大学,电子工程学院,湖北,武汉,430033)

程远国,CHENG Yuan-guo(海军工程大学,电子工程学院,湖北,武汉,430033;华中科技大学,计算机科学与技术学院,湖北,武汉,430074)

刊 名:兵工自动化  ISTIC英文刊名:ORDNANCE INDUSTRY AUTOMATION 年,卷(期): 27(8) 分类号:O174 关键词:聚类   k-means   平均相对偏差  

聚类 篇6

聚类分析在地区科技进步统计监测中的应用

该文运用多元统计分析方法,通过建立优化准则,对地区科技进步统计监测模型进行了降维优化处理.经检验,降维后的.新指标体系对原指标体系具有良好的替代性,从而给出在综合评价中经常遇到的由大量指标构成的模型进行优化的一种方法.该方法有助于提高综合评价建模的科学性、简明性和实践运用的可操作性.

作 者:黄西川 韩玉启 作者单位:南京理工大学经济管理学院,南京,210094刊 名:南京理工大学学报(自然科学版) ISTIC EI PKU英文刊名:JOURNAL OF NANJING UNIVERSITY OF SCIENCE AND TECHNOLOGY年,卷(期):27(3)分类号:C931.1 F062.4关键词:聚类分析 科技进步 统计 监测 优化

聚类 篇7

随着我国高等教育的急剧膨胀, 我国的高校出现了人力资源相对过剩与绝对匮乏的矛盾, 出现了管理混乱、职工积极性不高等问题。人事管理工作是学校工作中的重要组成部分。因此, 高校的人事管理有待于进一步正规化、全面化和系统化。

为此, 建立一个有效的高校职工绩效管理决策支持系统则显得十分必要。该系统的各项功能除了满足日常简单查询、统计和维护、协调各部门工作顺利开展外, 还能够为决策者提供有关职工工作情况的瞬时变化, 提取隐含在其中的事先未知的、潜在的、深层次的、有价值的信息, 以利于管理和决策的开展和进行。

2 基于可变聚类数k值的聚类算法

算法描述如下:

1) 编码方式。

由于需要在遗传操作过程中动态确定恰当的聚类数目k, 所以染色体中要设计相应部分, 采用聚类中心的实数编码方式, 每条染色体由k个聚类中心组成C=c1c2…ck进行改进, 在原染色体编码的最前面加入聚类数目k的编码, 新的染色体编码为C=kc1c2…ck, 由于各染色体的k值是不尽相同的, 所以染色体的长度不再是固定值, 采用变长编码方式。

2) 初始化参数。

聚类数目k, 子种群的个数M, 每个子种群的个体数N, 独立进化次数S, 各子种群的交叉概率和变异概率自适应确定。

3) 适应度函数。

好的聚类结果使得类间距离较大, 类内距离较小, 而适应度函数是用来评价聚类结果的优劣。根据染色体中选定的k个聚类中心, 将每个样本向量为输入向量Xl=[Xl1, Xl2, …, Xlm]T (m为输入向量的维数) , 按下列欧氏距离归入中心为ci的类中, ‖xl-ci‖=min j[xl-cj]。相应的目标函数J要考虑类间距、类内距的综合结果, 所以定义表示类内距, 表示类间距。这样类间距较大, 类内距较小的聚类划分较优, 相应的目标函数J的值较小。由此, 定义适应度函数为。

4) 遗传操作。

a.选择:排序选择+最佳个体保存法。

b.交叉:非一致交叉。

c.变异:变步长变异。

5) 若达到进化次数S, 则找出当前M个子群体中各自最优个体, 并从中再选出总最优个体, 将其传播到所有子种群中。否则转步骤 (3) 。

6) 终止条件。

根据连续几次迭代后得到的最好解是否变化来判断是否终止算法。

3 绩效考核中的应用实践

3.1 数据分析

3.1.1 确定挖掘对象、目标

从某高校人事管理系统中收集了80张“2011年职工绩效考核表”, 试图回答诸如“职工的整体工作水平如何”, 在工作中“哪些环节把握的好, 哪些有待于提高”等类似的问题, 并期望用所获得的分析结果来指导职工的工作。

3.1.2 数据采集与预处理

从学校人事管理处, 获取了2011年度的职工“绩效考核表”。

1) 数据清理。

“绩效考核表”要求人事管理部门在“事业心与责任感”、“政策性与原则性”、“创新能力”、“科研能力”、“授课能力”、“学识水平”、“教学完成情况”、“教学质量”等共17个调查项目中, 针对职工的表现, 进行“优秀、称职、基本称职、不合格”共4个等级的考核。

2) 数据转换。

“绩效考核表”中考核的项目共计有17个, 将这些数据集中成一个聚类数据模型。因此, 需要从4个方面 (“工作态度”、“工作能力”、“工作方法”和“工作业绩”) 重新组合绩效考核表中的数据。

依据4个方面的内容形成属性值, 具体如下:

首先, 要把绩效考核表中的单项评定等级化成易计算的数据形式。依据聚类分析中的数据类型, 可以知道等级评定数据属于序数型变量, 它的4个状态“优秀、称职、基本称职、不合格”是以有意义的序列排序的。对应的处理是将每个变量的值域映射到[0.0, 1.0]上, 以使每个变量都有相同的权重。根据数据的转换公式, 得到以上4个状态的值分别为“1、0.75、0.5、0.25”。

接下来, 4个方面“工作态度”、“工作能力”、“工作方法”和“工作业绩”的属性值就可以通过所含各项的算术平均数来计算。其中:

“工作态度”= (事业心+遵章守纪饱满+政策性与原则性+无教学事故) /4;

“工作能力”= (创新能力+学识水平+组织协调能力+科研能力+授课能力) /5;

“工作方法”= (注重记录每天应该完成的工作+反映学科新进展+知识面广, 理论联系实际+教学改革有新意, 加强综合素质教育+积极有效地利用教学辅助手段) /5;

“工作效果”= (教学质量+科研成果完成情况+职工个人发展) /3。

经过以上处理, 把绩效考核表中涉及到的17项考核项目, 都转换到“工作态度”、“工作能力”、“工作方法”和“工作效果”这4个方面了。以下对76个样本数据的4个属性进行数据聚类。

3.1.3 聚类挖掘

经过数据预处理, 聚类数据样本如表1所示。

把以上样本数据分成4个等级, 分别代表优秀、称职、基本称职、不合格, 通过数据聚类, 希望能得到这些数据分别在4个等级上的分布。试图回答诸如“职工的整体工作水平如何”, 在工作中“哪些环节把握的好, 哪些有待于提高”等类似的问题。下面介绍聚类分析算法的实现。

3.2 算法的实现

3.2.1 算法的基本策略

本文所用的聚类分析方法是动态的K-means算法, 其聚类数k是在算法运行过程中确定的, 将k加在染色体的前面, 由于k值是变化的, 所以染色体采用变长编码方式。

再根据欧氏距离把每个点分配到最接近其均值的聚类中, 然后计算被分配到每个聚类点的均值向量, 并作为新的中心, 然后计算个体适应度, 对个体进行选择、交叉、变异等操作。

3.2.2 样本数据的改进

为了减少样本的倾斜, 尽量得到想要的结果, 就要对样本数据进行改进。考虑对最终聚类的要求 (想得到样本数据分别在优秀、称职、基本称职、不合格4个等级上的分布) , 改进措施就是添加代表4个等级的样本数据作为前4个样本, 让它们一开始就成为聚类中心, 以尽量减少数据的倾斜和迭代次数。代表4个等级对应属性值的样本如表2所示。

4 聚类结果分析与知识的应用

使用聚类算法对80个样本 (4个分别代表优秀、称职、不称职的标准样本和76个经过数据变换的样本) , 其中每个样本包含4个属性 (分别代表“工作态度”、“工作能力”、“工作方法”和“工作业绩”4个方面) 的数据进行聚类, 聚类结果如表3所示。

根据最终的聚类结果, 各簇所含样本的比例分别为:

簇1 (优秀) , 共5个样本, 减去一个示范样本, 还有4个, 占4/76=5%;

簇2 (称职) , 共26个样本, 减去一个示范样本, 还有25个, 占25/76=33%;

簇3 (基本称职) , 共44个样本, 减去一个示范样本, 还有43个, 占43/76=57%;

簇4 (不合格) , 共5个样本, 减去一个示范样本, 还有4个, 占4/76=5%。

对于聚类结果, 考察4个等级簇的质心, 与示范样本相比, 大多数都有了提高, 除了簇1“工作方法”项为0.99, 小于示范样本的1.0;簇2“工作方法”项为0.73, 小于示范样本的0.75。说明每个簇的总体得分都有了提高。再考察各个单项的总体得分, 因为样本数不同, 所以要加上权重。4个单项的总体得分如下:

“工作态度”=1.0×5%+0.76×33%+0.52×57%+0.27×5%=0.6107;

“工作能力”=1.0×5%+0.78×33%+0.55×57%+0.35×5%=0.6384;

“工作方法”=0.99×5%+0.73×33%+0.51×57%+0.27×5%=0.5946;

“工作业绩”=1.0×5%+0.76×33%+0.52×57%+0.28×5%=0.6112。

得分由高到低依次是“工作能力”、“工作业绩”、“工作态度”、“工作方法”。可以看到, 所有的得分都在中等偏上 (中等为0.5) , 说明职工总体的工作情况是中等偏上, 是不错的。最高分 (工作能力) 和最低分 (工作方法) 之间差距为0.044, 因为总分为1, 所以相当于低了大约4个百分点, 因此对学校有关管理部门来说, 在加强对职工工作能力和工作业绩的同时, 要加大对工作方法 (涉及项目为注重记录每天应完成的工作;反映学科新进展;知识面广, 理论联系实际;教学改革有新意, 加强综合素质教育;积极有效地利用教学辅助手段共计5项) 的管理和要求。

5 结论

货运企业客户价值聚类分析实例 篇8

关键词聚类分析法;客户价值;货运企业;SPSS;差异化营销

我国自加入WTO后进一步开放国际海运市场,船公司数量随之激增,市场竞争日益激烈,低价营销成为常用策略,导致货运行业基本形成买方市场。由于大多数货运企业的服务差异性不大,客户转移成本较低,造成客户议价能力增强,忠诚度降低。[1]为提高客户忠诚度,改善货运企业经营状况,本文对某货运企业客户价值进行聚类分析,并针对不同价值的客户制定差异化营销策略。

1客户价值评价指标体系的构成

客户价值评价指标体系由直接价值和潜在价值构成,其中:直接价值包括交易、信用、特征等方面的评价指标,潜在价值包括忠诚度、成长度等方面的评价指标(见图1)。通过专家打分和矩阵换算,得出客户价值评价指标权重[2](见表1)。

图1客户价值评价指标体系

表1客户价值评价指标权重

2客户价值计算

本文选取某货运企业2009年1—3月的数据,对运量相对较大的15家典型客户进行分析。各项评价指标的打分标准如下:

(1)合同时间合同时间为1年以上,5分;合同时间为半年以上1年以下,4分;合同时间为3个月以上半年以下,3分;合同时间不足3个月,2分;合同只是一次性的,1分。

(2)约定最小承运量很大,5分;较大,4分;一般,3分;较小,2分;很小,1分。

(3)利润水平很高,5分;较高,4分;一般,3分;较低,2分;很低,1分。

(4)平均运价高出市场平均水平,5分;相当于市场平均水平,4分;稍低于市场平均水平,3分;低于市场平均水平,2分;远低于市场平均水平,1分。

(5)利润贡献率很高,5分;较高,4分;一般,3分;较低,2分;很低,1分。

(6)未来箱量预期远高于现期水平,5分;高于现期水平,4分;与现期水平持平,3分;低于现期水平,2分;远低于现期水平,1分。

(7)平均付款周期3天之内,5分;1周之内,4分;1个月之内,3分;3个月之内,2分;半年之内,1分。

(8)信用额度很高,5分;较高,4分;一般,3分;较低,2分;很低,1分。

(9)欠款率10%以下,5分;20%以下,4分;30%以下,3分;40%以下,2分;40%以上,1分。

(10)在同行业中的市场地位处于领先水平,社会声誉和知名度极高,占据领导地位,5分;在一定区域内社会知名度非常高,4分;在一定区域内社会知名度较高,3分;处于一般水平,社会声誉不佳,2分;处于落后水平,社会声誉不佳,1分。

(11)在区域内同行业中的市场地位处于领先水平,且占据领导地位,5分;处于领先水平,4分;处于一般水平,3分;处于落后水平,2分;处于落后水平且社会声誉不佳,1分。

(12)企业质量管理水平处于国际领先水平,通过GMP认证,5分;处于国内领先水平,达到国际水平,科研力量较强,4分;处于国内领先水平,与国际水平有一定差距,有技改动作,3分;处于国内一般水平,新技术应用较少,2分;处于国内较低水平,无专门的研发机构,产品质量一般,1分。

(13)有效订舱率90%以上,5分;80%以上,4分;50%以上,3分;30%以上,2分;10%以上,1分。

(14)承运份额100%,5分;80%以上,4分;50%以上,3分;20%以上,2分;20%以下,1分。

(15)旺季支持度绝对支持,5分;支持,4分;一般情况下支持,3分;一般情况下不支持,2分;不支持,1分。

(16)淡季支持度绝对支持,5分;支持,4分;一般情况下支持,3分;一般情况下不支持,2分;不支持,1分。

(17)投诉有效率80%以上,5分;60%以上,4分;40%以上,3分;20%以上,2分;20%以下,1分。

(18)建议合理率90%以上,5分;70%以上,4分;50%以上,3分;30%以上,2分;30%以下,1分。

(19)战略同盟性对企业价值较大,与企业形成互补关系,是对企业有利的同盟者,5分;对企业价值较大,将来会与企业建立同盟关系,4分;对企业价值较小,不会与企业联盟,但也不会威胁企业,3分;对企业有一定威胁,将来会成为企业的竞争对手,2分;对企业威胁较大,已经与企业的竞争对手联盟,1分。

(20)客户生命周期生命周期很长,或处于生命周期的成长期,5分;生命周期较长,或处于生命周期的成长期,4分;生命周期较短,或处于生命周期的开拓期,3分;处于生命周期的衰退期或解约期,但今后有望继续合作,2分;对企业失去信任,处于生命周期的终止期,1分。

(21)交叉销售可能性了解企业在同行业中的竞争优势,并已扩大与企业合作的业务范围,5分;从战略角度考虑增加服务项目,短期内会扩大合作业务范围,4分;实力雄厚,但只满足于现有业务,暂时无意开拓新业务,3分;购买意图不明显,生产能力较弱,有合作愿望,但缺乏实力,2分;完全无意开拓新业务,1分。

(22)边际贡献运量明显增加,但摊销费用不变或减少,5分;运量、摊销费用略有增加,且前者增幅略大,4分;运量、摊销费用均不变,3分;运量不变,摊销费用增加,2分;运量减少,摊销费用明显增加,1分。

15家样本客户的客户价值各项评价指标得分如表2所示。

表2 客户价值各项评价指标得分

根据各项评价指标的权重和得分计算客户价值V,即

V=Xijq +Yijq

式中:i=1,2,3;j=1,2,3,4,5,6;q为各项评价指标的相应得分。

客户价值计算结果见表3。

表3客户价值计算结果

3聚类分析

利用SPSS软件对15家样本客户的直接价值和潜在价值进行聚类分析。由图2和图3可见,基于直接价值和潜在价值的聚类分析结果与基于总价值、直接价值、潜在价值的聚类分析结果相同,据此将15家样本客户分为以下4类:(1)第1类客户(即客户11,14和12)直接价值和潜在价值均较大;(2)第2类客户(即客户1,3,8,10和15)直接价值较大;(3)第3类客户(即客户6,9,4,13,5和2)潜在价值较大;(4)第4类客户(即客户7)直接价值和潜在价值均较小。

图2基于直接价值和潜在价值的聚类分析结果

图3基于总价值、直接价值、潜在价值的聚类分析结果

4差异化营销策略

(1)第1类客户的运价水平和忠诚度均较高,且在所属行业中处于领军地位,所生产和托运的产品处于生命周期的成长期,货源结构较好,属于核心客户。对于该类客户,最重要的就是做好维护工作,维持客户关系和现有服务水平。

(2)第2类客户运价水平较高,是企业利润的重要来源,但忠诚度和成长度较低,潜在价值不大,无需投入大量营销资源进行后续开发。

(3)第3类客户虽然尚未成为企业利润的主要来源,但忠诚度和成长度较高,具有较大的开发价值,应作为重点开发对象。

(4)第4类客户对企业利润贡献不大,且成长度和忠诚度较低,无需投入过多的营销资源。

需要说明的是,本文使用的模型为静态分析模型,如果客户情况发生变化,应及时对数据进行调整,以确保判断的准确度。

参考文献:

[1] 朱燕君. 知识经济时代航运企业物流系统分析[J]. 武汉科技学院学报,2003,16(3):88-91.

[2] 林潇茹. 航运企业客户关系营销研究[D]. 大连:大连海事大学交通运输管理学院,2007:41-46.

【聚类】推荐阅读:

上一篇:寻寻觅觅作文600字下一篇:大学生预备党员思想汇报:党员下寝室心得体会

本站热搜

    相关推荐