统计聚类

2024-10-23

统计聚类(精选3篇)

统计聚类 篇1

聚类是按照对象的相似性进行区分与分类,产生多个簇的过程。传统的聚类是一种“确定性分类”,即一个数据对象被严格地分到确定的簇,具有非此即彼的性质。而在现实中,存在着许多带有模糊特征的事物,例如在教学质量评价中,评价指标一般是定性描述,具有鲜明的模糊特征,评价人的知识水平、了解程度甚至个人偏好都会对评价结果有一定的影响,很难直接使用统计定量的方法生成科学合理的划分结果,因此宜采用模糊聚类的方法来全面汇总各评价主体的意见,综合反映被评对象的实际情况。

本文分析了常用模糊聚类算法的缺陷,提出了解决这些缺陷的一种组合式模糊聚类算法,并通过相关实验分析证明其合理性。

1 常用模糊聚类算法分析

目前比较常用的模糊聚类算法有:基于模糊等价关系的传递闭包方法;基于模糊图论的最大树方法,以及在传统的均值聚类基础上演变而来的、基于目标函数的FCM(模糊C均值)方法。

设聚类样本空间为X=(x1,x2,…,xn),对应的模糊相似矩阵为R=(rij)。其中,rij∈[0,1],rij表示对象xi和xj的相似度,相似度的计算可采用相似系数法、距离法以及主观评分法等,本文中选择欧氏距离法。

1.1 传递闭包法和最大树法

(1)传递闭包法

根据模糊数学理论,模糊等价矩阵能进行等价的分类,而模糊相似矩阵仅仅满足自反性和对称性,并不满足传递性,因此采用求R的传递闭包t(R)形成模糊等价矩阵是最自然的想法。当生成传递闭包后,取某一实数λ∈[0,1],生成λ-截集矩阵,便可得到不同的分类,从而形成一种动态聚类图。

传递闭包是包含R的最小传递矩阵,通常采用逐步平方法求R的传递闭包,即R→R2→R4→Rg→…→R2k经有限次运算后,一定有R2k=R2k+1,于是t(R)=R2k。

算法分析:采用传递闭包法进行分类,虽然从原理上看很自然,但在面向全体教师的教学评价中,其对应的模糊相似矩阵阶数较高,计算量很大,因此应用受到一定的限制。可根据传递闭包自反性、对称性特点,其对对角线元素永远为1,且可只计算上三角或下三角,这样可以适度减少计算量。

(2)最大树法

传递闭包法是基于等价矩阵进行分类的,而最大树法是直接使用相似矩阵进行分类,其基本思想是:以被分类元素为顶点,以模糊相似矩阵R中的元素为权重的一棵最大的生成树。

最大树模糊聚类算法的主要步骤为:

(1)提取待聚类对象的特征,建立模糊相似关系,得出模糊相似矩阵;

(2)根据模糊相似矩阵,按Prim方法或Cruskal求出最大树;

(3)确定相应的阈值λ,将最大树中权重小于该阈值的边去掉,使其成为一个不连通的图,该图对应有若干个连通分枝,各连通分枝中的结点即聚为一类。

算法分析:事实上,如果将最大树中连接两个结点i和结点j所在边的权作为rij构造矩阵,则该矩阵其实就是R的一个传递闭包[1]。因此最大树法聚类本质上与传递闭包法的聚类是一样的,且在解决低维的小样本集分类时更为直观。但也存在着这样的情况:彼此差异很大的模糊相似矩阵有可能生成相同的传递闭包,而用相同的模糊等价传递闭包来进行分类,就可能出现不合理现象,这是这一类模糊聚类算法的缺陷。

1.2 传统FCM算法

由Bezdek提出的模糊C均值聚类(FCM),属于一种目标函数法,是模糊聚类算法中运用最广的算法。

(1)算法步骤

假设要将样本空间X分为k个簇,簇中心集合为C=(c1,c2,…,ck),使(1)式所示的目标函数Jm最小(该目标函数是基于类内距离和的),且满足(2)式的约束条件。

其中:U=(μi,j)为模糊隶属矩阵,每个矩阵元素μi,j表示数据xi隶属于中心为Cj的类的隶属度值。m为模糊加权参数,也称为平滑因子,控制模式在模糊类间的分享程度,经验取值范围为[1,5]。

应用拉格朗日乘数法,基于上述约束条件求目标函数的极小值,可得(3)式和(4)式。

其中,Dij是Xi到第j类中心Cj的欧氏距离||Xi-Cj||。

FCM算法的步骤如下:

(1)设定初始参数:m,k,迭代次数s,算法终止误差ε;

(2)设置初值:初始聚类中心C0(c1,c2,…,ck),t=0;

(3)计算隶属度矩阵:根据(3)式计算Us;

(4)计算(4)式计算下一次的簇中心Cs+1;

(5)若||Us+1-Us||<ε,算法结束,否则s=s+1,返回(3)直至迭代结束。

(2)算法缺陷及目前研究

从上述的FCM算法步骤可知,FCM算法本质上是一个反复修改聚类中心和隶属度矩阵的过程,必须事先确定欲聚类的个数、设置初始的聚类中心以及模糊加权参数这些初值。然而,在实际应用中,聚类个数往往很难事先确定;聚类结果对初值过于敏感;FCM是一种迭代优化算法,初值设置不当很容易产生局部而非全局最优解的情况。针对这些问题,许多研究者不断探索改进方法:如基于模拟退火的FCM算法[2];运用人工免疫细胞模型来改进的模糊聚类[3];运用数据加权策略的模糊均值聚类[4]等等。然而上述这些方法,或者因为所设计的目标改进函数过于复杂、收敛速度太慢,或者因改进算法本身需重新设定新的参数初值,或者因为改进算法需有特定的条件等因素,在实际应用中仍受到种种限制。因此许多学者将算法改进的重点放在如何更好地设置合适的参数初值方面。其中,运用分阶段思想的FCM聚类算法尤其受到重视。

本文提出的基于F统计量层次聚类与FCM聚类的组合算法,属于两阶段式FCM聚类算法。该算法无需事先设定聚类个数及中心初值,且仍保持FCM聚类算法的简单性。

2 组合式模糊聚类算法

(1)算法基本思路

该算法分成两个阶段:初值处理阶段和FCM处理阶段。

(1)初值处理阶段:采用基于F-统计量的层次聚类法。

首先用欧氏距离距离法,生成相应的模糊相似矩阵;

然后运用自下而上的层次聚类思想,逐步生成不同聚类个数(建议在2~之间)下的分层聚类树及临时聚类结果;

计算不同结果下的F统计量,获得最大F统计量对应的分类结果,即作为下一阶段的初值(聚类个数及聚类中心初值)。

(2)FCM处理阶段:调用FCM聚类算法。

(2)算法描述

【输入】样本数据集;模糊加权参数m,迭代终止条件ε

【输出】模糊聚类中心;模糊划分矩阵U

【算法】

生成模糊相似矩阵;

循环:while k<t do

计算任意二个簇之间的距离;(初始时每一样本为单独的簇)

合并距离最近的二个簇Ci和Cj,生成新簇Cx;

计算F-统计量(记为Ft):

在所有的F-统计量中,求得最大值(设为Fk)及对应的簇(设为C);

调用FCM算法;

算法结束。

说明:的距离,表示第j类中样本中心,F-统计量遵从自由度为(t-1,n-t)的F-分布,公式中的分子表示类与类间的距离,分母表示了类内样本间的距离,因此F-统计量值越大,类划分的结果越恰当。采用基于F-统计量的层次聚类法获得了聚类数和聚类结果,避免下一步模糊聚类初值的随意性,并能起到快速迭代、提高收敛的效果。

3 实验及分析

为分析基于F统计量层次聚类与FCM聚类组合算法在教学质量评价中的效果,以我院某一年度教师教学整体设计为实验数据库,从中抽取50名教师的平均评价数据为样本集X(见表1)。由于教学评价的数据其量纲和数量级相同,故数据的标准化不必经过标准差变换而直接进行极差变换即可。算法运用MAT-LAB软件实现。

(1)组合式模糊聚类算法测试

设参数m=2;ε=0.000001,则通过基于F统计量层次聚类,可得该样本集生成6个类,聚类中心是C00.6970 0.7955 0.8030 0.7803 0.7121 0.6818 0.81820.5583 0.4778 0.4417 0.4250 0.3917 0.4417 0.49170.1333 0.0667 0.0667 0.1167 0.0667 0 0.13330.6667 0.6667 1.0000 0.3333 0.6667 0 0.33330 0.6667 1.0000 0.3333 0.6667 1.0000 1.00000 0.5000 0.6667 0 0.6667 0 0

以此为初始参数,调用FCM算法,可得6个聚类:

经考察,组合式模糊聚类生成的6类,其对应教师综合评价分布如下:C3类和C2类分别对应[40,50]和[50,60]两个区间;C5对应[68,70]区间(无61-67的得分);C4对应[70,78]区间;C6对应[78,86]区间;C1对应[89,93]区间(无高于93的评价)。

值得注意的是,三位相同综合评价(均为70分)的教师分属于两个不同的类,其中,有第2名教师与与第50名同属C5类,第27名教师属C4类,主要原因是这两类中权重最大的教学内容设计(占30%)差别较大。

(2)FCM算法测试

显然,当初始参数的设定与组合式模糊聚类预处理生成的结果相同时,算法的结果应该是完全相同的。下面分别以相同的初始聚类中心、不同的聚类个数设置来进行相应的测试(m=2;ε=0.0001)。

(1)聚类个数初值K=4:

在该聚类中,C2类对应的综合评价区间是[40,50];C1类对应的综合评价区间是[50,70];C4类对应的综合评价区间是[70,86];C3类对应的综合评价区间是[85,93]。

很显然,设定聚类初值为4不太合理,部分聚类中的数据与现实评价的正常划分不相吻合。

(2)聚类个数初值K=8:

在该聚类中,C3类对应的综合评价区间是[40,50];C2类对应的综合评价区间是[50,60];C4类对应的综合评价区间是[68,70](无61-67的得分);C8类对应的综合评价区间是[70,74];C5类对应的综合评价区间是[76,82];C7类对应的综合评价区间是[82,84];C1类对应的综合评价区间是[90,92];C6类对应的综合评价区间是[85,93]。

显然,当聚类个数为8时,聚类结果与现实评价的划分呈现出或者过于紧致,或者过于疏松的现象,且存在较大的交叉区间(如C1类与C6类)。

(3)聚类效果对比分析

以本文中的教师教学整体设计测试数据样本为例,从聚类结果与综合评价的常规划分对应关系来看,采用基于F统计量层次聚类生成聚类个数及聚类中心的组合式模糊聚类效果明显优于FCM算法的效果。下面再通过聚类有效性指标函数的对比来分析。

聚类有效性指标主要有两类:一是有效性指标仅包含了数据集中数据成员的隶属度,如Bezdek的划分系数和划分熵;二是有效性指标不仅包含了数据成员的隶属度,而且还包含了数据集本身,如Xie-Beni指标和Fukuyama-Sugeno指标。本文采用Xie-Beni指标。

设样本集为X,最终生成的聚类个数为K,聚类中心为C,隶属度矩阵为U,则聚类有效性判别函数值V可用如下的公式计算:

其中,分子用来衡量类内的紧密度,值越小越紧密。分母表示类间的分离度,值越大越好。因此函数值V越小聚类效果越好。组合式模糊聚类与传统FCM聚类的Xie-Beni指标对比值见表2。Xie-Beni指标是一个紧致的、分离的模糊聚类有效性函数,最佳的聚类数对应着最小函数值。

4 结束语

本文针对FCM聚类算法中聚类类别数及初始聚类中心需事先给定这一不足之处,提出基于F统计量层次聚类的组合式模糊聚类方法,并以学院课程教学设计评价为测试数据样本,进行聚类效果测试与分析。实验证明,这种改进的组合式算法其聚类效果要比传统的FCM聚类算法更优。

参考文献

[1]骆洪青,吴小俊.模糊聚类分析的一种新方法研究[J].华东船舶工业学院学报,2000,14(3):24-27.

[2]段林珊,刘培玉,谢方方基于模拟退火的样本加权FCM算法[J].计算机工程与设计,2013,34(6):2004-2008.

[3]王伟,王磊,李玉祥.基于人工免疫细胞模型的模糊聚类算法[J].计算机工程,2011,37(5):13-15.

[4]周世波,徐维祥,柴田.基于数据加权策略的模糊C均值聚类算法[J].系统工程与电子技术,2014,36(11):2314-2318.

统计聚类 篇2

模糊聚类分析是多元统计分析的一种, 也是无监督模式识别的一个重要分支。模糊聚类分析被广泛应用于模式识别、图像处理、知识发现、计算机视觉和模糊控制等许多领域。模糊聚类分析已有很多方法, 在基于目标函数的聚类方法中最具有代表性的是模糊C-均值聚类方法 (Fuzzy C-means, FCM) [1,2], 最初又称ISODATA聚类方法, 它是由Dunn[3]从硬C-均值聚类方法 (Hard C-means, HCM) [4]引出的, 后又经过Bezdek归纳并加以完善。FCM方法是通过对目标函数的迭代优化实现对给定有限样本集的划分[4]。在当前基于目标函数的模糊聚类分析方法研究中, 都是基于这一基本思想而提出的算法。

这里从分析给定样本集合中样本点本身、样本点与聚类中心距离、样本点隶属度和样本点统计特征出发, 提出了基于统计特征加权的模糊C-均值聚类方法 (Weighting Fuzzy C-means, WFCM) , 并将该方法应用于灰度图像的二值化。

1 模糊C-均值聚类方法 (FCM)

对于给定的有限样本集X={x1, x2, …, xk, …, xn}, xk (k=1, 2, …, n) 是第k个样本的特征向量。假如X被分成C类, 则X的模糊划分空间Ef可表示为:

Ef={μik|μik∈[0, 1]};对任意ki=1cμik=1;对任意i0<i=1nμik<n

式中:μik表示样本集X中第k个样本点xk隶属于第i类的隶属程度, 即对于X中的任意样本点xk, 其隶属于第i类的隶属度在区间[0, 1], 并且X中每个样本点xk隶属于C类的隶属度之和为1。设pi (i=1, 2, …, c) 表示样本集中第i类的聚类中心, pi= (pi1, pi2, …, pis) ∈Rc, 则可定义FCM方法的目标函数为:

Jm (U, Ρ) =i=1ck=1nμikm (dik) 2s.t.UEfm[1, +) (1)

式中:U=[μik]c×n是隶属度矩阵;P是聚类中心矩阵;m是模糊加权指数, 又称平滑参数, 用以控制模糊聚类的模糊程度。m越大, 模糊程度越大;m越小, 模糊程度越小。由于m用来控制隶属度在各类之间共享的程度, 所以m越大, 模糊性就越大。引入模糊加权指数m的含义是:如果不对隶属度进行加权, 则从硬聚类目标函数扩展到模糊聚类目标函数就没有什么实际意义。目标函数Jm (U, P) 的值反映了某种差异性定义下的类内紧致性, Jm (U, P) 越小, 聚类越紧致。dik是一种距离范数, 表示样本元素xk与第i类的聚类中心pi之间的距离dik, 是元素点与聚类中心的相似程度, 一般可以表述为:

dik2=xk-piA= (xk-pi) ΤA (xk-pi) (2)

式中:As×s阶的对称正定矩阵;用I表示单位矩阵, 当A=I时, dik表示欧氏距离 (Euclid) ;当AI时, dik表示马氏距离 (Mahalanobis) 。

为了使得模糊聚类的目标函数达到最优解, 可取聚类的准则, 即在极值i=1cμik=1的约束条件下, 使得min[Jm (U, P) ]。因此, 该问题可以理解为带约束条件的最优化问题, 即在隶属度i=1cμik=1的约束条件下, 使得min[i=1cWk (μik) m (dik) 2]。依据最优化计算方法, 可以运用拉格朗日乘数法求解上述最优化问题, 即得到UP。首先利用目标函数Jm (U, P) 和隶属度约束条件来构造拉格朗函数:

Y=i=1c (μikm) (dik) 2+λ (i=1cμik-1) (3)

由∂Jm (U, P) /∂Pi=0, 即可得到聚类中心:

Ρi=k=1n (μikm) xk/k=1n (μikm) (4)

由∂Y/∂μik=0, 即可得到隶属度:

μik=1/j=1c (dik/djk) 2m-1 (5)

根据聚类中心、隶属度和目标函数之间的迭代运算, 即可求得样本集的聚类中心值和各样本点的隶属度值。依据上文叙述, FCM方法的具体步骤如下:

(1) 初始化:取模糊加权指数m, 聚类的类别数c (2≤cn) , n为数据样本点的个数, 迭代停止阈值ε为一小正数, 初始的隶属度值U (0) , 以及迭代次数l=0;选择任一距离内积范数‖·‖;

(2) 由初始化值, 根据公式Ρi (l) =k=1n (μikm) (l) xk/k=1n (μikm) (l) 可得到聚类中心Pi (l) ;

(3) 由聚类中心Pi (l) 可得到隶属度U (l+1) ;

(4) 当|Jm (U, P) (l+1) -Jm (U, P) (l) |≤ε时, 迭代停止;否则l=l+1, 重复步骤 (2) 和步骤 (3) 。

2 基于特征加权的模糊C-均值聚类方法 (WFCM)

本文提出的基于特征加权的FCM方法, 其加权的目标函数主要考虑了4个重要因素:样本点本身的特性、样本与聚类中心的模糊关系、样本点与聚类中心的距离、样本统计特性对模糊聚类的影响程度。现定义加权的FCM目标函数为:

Jm (U, Ρ, W) =i=1ck=1nWkμikm (dik) 2s.t.UEfm[1, +] (6)

式中:Wk为样本元素xk的权系数, 主要作用在于将聚类中心向权值大的样本调整;k=1nWk=1, 当Wk=1/n时, WFCM变为FCM, 即每个样本对任意聚类中心的作用相同。根据FCM方法的求解原理, 其WFCM方法的具体步骤如下:

(1) 初始化:取模糊加权指数m, 聚类的类别数c (2≤cn) , n为数据样本点的个数, 迭代停止阈值ε为一小正数, 初始的隶属度值U (0) , 以及迭代次数l=0;选择任一距离内积范数‖·‖;

(2) 由初始化值, 根据公式:

Ρi (l) =k=1nWk (l) (μikm) (l) xk/k=1nWk (l) (μikm) (l)

可得到聚类中心Pi (l) ;

(3) 由聚类中心Pi (l) 可得到隶属度U (l+1) ;

(4) 当|Jm (U, P, W) (l+1) -Jm (U, P, W) (l) |≤ε时, 迭代停止;否则l=l+1, 重复步骤 (2) 和 (3) 。

3 基于统计特征的权值计算方法

对于给定的有限特征样本集X={x1, x2, …, xk, …, xn}, xk= (xk1, xk2, …, xkt, …, xkm) (k=1, 2, …, n) 是描述第k个样本的m维特征向量。由于样本集中样本点本身的特征向量个数与特征样本点总数之比反映了该样本点在特征样本集合中的统计分布情况, 所以基于统计特征的权值计算方法为:

Wk=xkn (7)

式 (7) 中:Wk值的大小表示特征样本点xk对特征样本集的重要程度。

4 WFCM方法在灰度图像二值化中的应用

文献[5,6,7]给出了基于灰度直方图的图像模糊聚类分割方法。这里依据上文提出方法的思想, 分别给出一维灰度统计特征和二维灰度统计特征两种情况下的加权模糊C-均值聚类算法的图像二值化结果。

4.1 基于一维灰度统计特征加权的WFCM方法应用

设原灰度图像I (i, j) , 其图像大小为M×N (i=1, 2, …, M;j=1, 2, …, N) , 则一维灰度统计特征可定义为:

Η (i) =n (i) / (Μ×Ν) i=0, 1, 2, , 255 (8)

式中:n (i) 是灰度值为i的像素在图像I (i, j) 中出现的次数;H (i) 为概率。此时的权值定义为:Wi=H (i) (i=0, 1, 2, …, 255) 。这时输入算法的特征就是原图像I (i, j) 的一维灰度值, 即xk= (xk1, 0) , xk1=I (i, j) , k=1, 2, …, M×N

4.2 基于二维灰度统计特征加权的WFCM方法应用

由于图像每点像素值与其邻域空间的像素值有很大的相关性, 因此可利用图像的这一特点构建二维灰度统计特性。对原灰度图像I (i, j) , J (i, j) 是I (i, j) 经过二维中值滤波器滤波以后得到的图像。因为中值滤波对干扰脉冲或点状噪声等有良好的抑制作用, 所以利用该滤波器对原图像滤波能取得好的平滑去噪作用。设一个滤波器窗口为A, 尺寸为N= (2k+1) (2k+1) , 则对于图像{Iij, (i, j) ∈Z2} (这里 (i, j) 为取遍Z2的某子集) 的二维中值滤波器有以下定义:

Jij=med{Ii+r, j+s, (r, s) ∈A}

在此, 中值滤波所采用的窗口大小为3×3或5×5, 即以输入图像I (i, j) 各点为中心的3×3或5×5邻域的中值作为输出图像J (i, j) 该点处的像素值, 则[I (i, j) , J (i, j) ]就组成了一个二元特征向量组。此时, 即可定义二维灰度统计特征权值H (s, t) , s是原始图像I (i, j) 的灰度值;tI (i, j) 经过二维中值滤波以后的灰度图像J (i, j) 的灰度值。由此二维灰度统计特征就可定义为:

Η (s, t) =n (s, t) Μ×Νs=0, 1, 2, , 255;t=0, 1, 2, , 255 (9)

式中:n (s, t) 表示灰度值分别为st的像素在图像I (i, j) 和图像J (i, j) 中出现的次数;H (s, t) 为概率。可令带分类样本组成的二元组Ni= (s, t) , (i=0, 1, 2, …, 256×256-1) 。此时权值可定义为Wi=H (s, t) (i=0, 1, 2, …, 256×256-1) , 此时输入算法的特征就是原图像I (i, j) 灰度值和滤波以后的图像J (i, j) 灰度值, 共二维灰度值, 即xk= (xk1, xk2) , xk1=I (i, j) , xk2=J (i, j) , k=1, 2, …, M×N

4.3 实验结果与比较

在提出的算法中, 取m=2, ε=0.01, 距离范数‖·‖为欧式内积。由于是对灰度图像进行二值化分割 (即为2类) , 则c=2。灰度图像的二值化可以看成灰度图像聚成两类[8], 再将两类的中心点值变为{0, 255}。其FCM和WFCM算法收敛后的图像二值化处理过程是先设定隶属度阈值ζ (0.5≤ζ<1) , 则:

xk1={255, μ1kζ0, μ1k<ζk=12, Μ×Ν (10)

式中:μ1kζ表示第k个象素点隶属于第一类的隶属度大于ζ, 则取第k个像素点的灰度值为255, 否则取该点的灰度值为0。

图1是一幅洪水的合成孔径雷达灰度图像及其8种二值化方法处理结果。其原图中含有土地域、水域和浸润域 (土地域与水域的公共域) 共计3个区域单元。下面将本文提出的方法与其他经典二值化方法[9,10,11]的结果进行比较, 图1 (b) 是otsu方法二值化结果, 图1 (c) 是最大交叉熵方法二值化结果;图1 (d) 是最小交叉熵方法二值化结果;图1 (e) 是最大模糊散度方法二值化结果;图1 (f) 是最小模糊散度方法二值化结果;图1 (g) 是FCM方法二值化结果;图1 (h) 是一维统计特征加权WFCM方法二值化结果和图1 (i) 是二维统计特征加权WFCM方法二值化结果。

从以上二值化方法的结果图中可以看出, 采用最大交叉熵方法和最大模糊散度方法不能将原灰度图像中的土地域与水域分割。这与其算法本身以及与原图像中的灰度统计特征分布有关。采用ostu方法以及最大方差方法、最小交叉熵方法、最小模糊散度方法和FCM方法进行图像二值化, 基本上能将土地域与水域分割, 但浸润域仍然存在模糊性。采用一维灰度统计特征和二维灰度统计特征加权的WFCM方法能将土地域与水域分割, 三个区域单元的纹理和交界处都能很好的区分, 并保持了三个区域中内部的连通性和一致性。

上述8种二值化方法所确定的最优分割阈值如表1所示。

从表1可以看出, 给出的两种WFCM方法收敛后所得的聚类中心能较正确地定位聚类中心以及确定每个像素点所属的类别;而其他6种二值化方法所得的最佳阈值不能很好地分割原图像。

从提出的两种方法可以看出, 利用二维灰度统计特征作为权值聚类时, 相当于增加了一维灰度特征, 也就是说利用了图像的两维灰度特征 (原图像的灰度和原图像平滑后的图像灰度) ;利用一维灰度统计特征作为权值, 相当于只利用了图像的一维灰度特征 (原图像的灰度) 。在原图像背景较复杂情况下, 由于图像各区域之间的交界不明显, 存在模糊性, 这时采用二维灰度统计特征加权的WFCM算法能取得很好的二值化分割。在背景较简洁时, 直接采用一维灰度统计特征加权的WFCM算法较方便, 而且一维比二维的实时性要好。

5 结 语

在利用样本点的统计特征, 提出了两种基于统计特征加权的模糊C-均值聚类方法, 并将其应用于图像二值化处理中。在用于图像二值化时, 可以利用图像的一维灰度统计特征和图像的二维灰度统计特征作为权值的WFCM方法。由于在对灰度图像二值化时, 既考虑图像灰度分布, 又考虑邻域相关信息, 因而可以很好地保证图像各区域内部的连通性和一致性。此外, 本文给出的利用一维灰度统计特征和二维灰度统计特征作为权值进行样本集聚类, 这种思想可以拓展到多维情况。本文提出的算法思想可与合成孔径雷达成像算法相结合用于合成孔径雷达的目标定位、检测和识别。

摘要:从传统目标函数聚类方法的思想出发, 在基于样本集统计特征的基础上, 提出基于统计特征加权模糊C-均值聚类方法, 并提出基于统计特征的权值计算方法。分别利用图像的一维灰度特征与一维灰度统计特征加权和二维灰度特征与二维灰度统计特征加权, 将两种特征加权的模糊聚类方法应用于灰度图像二值化, 并将该方法的处理结果与其他二值化方法处理结果进行详细的比较。实验结果表明, 该方法能够有效地实现图像的二值化。

关键词:统计特征,模糊C-均值聚类,图像二值化,权值

参考文献

[1]Fan Jiulun, Zhen Wenzhi, Xie Weixin.Suppressed Fuzzy C-means Clustering Algorithm[J].Pattern RecognitionLetters, 2003, 24:1 607-1 612.

[2]Duda R O, Hart P E, Stork D G.Pattern Classification[M].2版.北京:机械工业出版社, 2004.

[3]张爱华.基于模糊聚类分析的图像分割技术研究[D].武汉:华中科技大学, 2004.

[4]高新波.模糊聚类分析及其应用研究[M].西安:西安电子科技大学出版社, 2004.

[5]刘健庄.基于二维直方图的图像模糊聚类分割方法[J].电子学报, 1992, 20 (9) :40-46.

[6]高新波, 李洁, 姬红兵.基于加权模糊C均值聚类与统计检测指导的多阈值图像自动分割算法[J].电子学报, 2004, 32 (4) :661-664.

[7]甄文智.抑制式模糊聚类算法及其应用[D].西安:西安电子科技大学, 2003.

[8]丁震, 胡钟山.FCM算法用于灰度图像分割的研究[J].电子学报, 1997, 25 (5) :39-43.

[9]赵勇, 吴成茂.基于Itakura Saito散度的图像阈值法[J].现代电子技术, 2006, 29 (15) :88-91.

[10]章毓晋, 图像分割[M].北京:科学出版社, 2001.

[11]王向阳, 王春花.基于特征散度的自适应FCM图像分割算法[J].中国图形图像学报, 2008, 13 (5) :906-910.

统计聚类 篇3

上世纪90年代以来, 循环经济与知识经济一起, 成为国际上两个重要的发展趋势。对于我们这样一个资源和环境容量有限的人口大国, 循环经济更有重大的意义。一直以来循环经济板块增长稳定、估值适中, 往往能够在市场波动时对冲市场风险。概念性投资泡沫消退后, 循环经济企业较高的成长性将逐渐被市场认同, 具有较高的投资价值。证券市场从行业、地域、时间、概念股票等多种角度对股票进行划分, 本文选择对概念板块中的循环经济的38家上市公司进行基本面分析。

2 聚类分析与判别分析方法概述

2.1 聚类分析

聚类分析又称群分析, 是研究对样品或指标进行分类的一种多元统计方法。所谓的聚类, 通俗地说就是相似元素的集合, 即建立一种分类方法, 将一批样本或变量按照它们在性质上的相似、疏远程度进行科学的分类。通常描述样品或变量间相似、疏远程度有两种思路:一是把每个样品看成是P维空间的一个点, 在P维坐标系中, 确定点与点的某种距离;另一种是用某种相似系数来描述变量之间的相似或疏远程度。

本文采用系统聚类方法中的Q型聚类方法, 基本思路为:开始时先将n个样本点各自作为一类, 然后将距离最近的两类合并为一个新类, 再计算新类与其他类的距离, 重复进行两个最近类的合并, 直至所有的样品合并为所需类数为止。Q型系统聚类的方法也有很多种, 主要为:最短距离法、最长距离法、中间距离法、重心法、类平均法和离差平方和法等, 选择不同的方法聚类结果也不同。本文采用离差平方和法 (Ward’method) 。

2.2 判别分析

判别分析就是在研究对象用某种方法分好若干类的情况下, 确定新样品属于已知类别中的哪一类的方法。而本文用判别分析方法主要是对聚类分析的结果进行校验, 同时得到判别函数, 对以后进入该板块的上市公司可以直接判别分类。与聚类分析不同的是, 判别分析是在已知研究对象分成若干类型 (或组别) 并已取得各种类型的一批已知样品观测数据, 在此基础上根据某种准则建立判别函数式, 然后对未知类型的样品进行判别分类。因此判别分析往往同聚类分析方法结合起来运用。

用判别分析方法处理问题时, 通常要给出一个衡量新样品 (样本点) 与已知组别接近程度的描述指标, 即判别函数, 同时也指定一种判别规则, 用来判定新样品的归属, 判别规则可以是统计性的, 决定新样品所属类别时用的是显著性检验;也可以是确定性的, 决定样品的归属时, 只考虑判别函数值的大小。

判别分析的方法主要有距离判别法、Fisher判别法、逐步判别法、贝叶斯 (Bayes) 判别法等。本文采用Fisher判别法。

3 指标的选取和原始数据导入

对上市公司的聚类分析应该本着全面性、科学性、公正性以及可操作性的原则, 这也就要求在制定指标体系和选择数据的时候要尽量能够全面、真实的反映企业的经营状况。本文共采用了每股净资产 (x1) 、每股收益 (x2) 、每股公积金 (x3) 、每股经营现金流 (x4) 、主营业务利润率 (x5) 、净资产收益率 (x6) 、总资产 (x7) 和净利润 (x8) 8个指标。

其中通过主营业务利润率 (x5) 、每股收益 (x2) 、净利润 (x8) 、净资产收益率 (x6) 考察股票的盈利能力;通过总资产 (x7) 考察股票的规模;通过每股净资产 (x1) 、每股公积金 (x3) 考察股本的扩张能力;通过每股经营现金流 (x4) 考察股票的支付能力。所有上市公司的财务数据均选自2011第三季度的财务报表。

4 实证分析

4.1 聚类分析

聚类分析立足于对股票基本面的量化分析, 弥补了定性分析的不足。首先运用SPSS16.0软件对数据进行标准化处理, 对得到的标准化数据进行Q型系统聚类, 聚类方法采用“离差平方和”法, 测量尺度选择“欧式距离的平方”, 得出聚类谱系图, 如图1。

38个样本大体分为4类。第1类:澄星股份、东湖高新、泰达股份、贵糖股份、凯迪电力、创元科技、创业环保、海泰发展、苏州高新、金鹰股份、安源股份、新疆天业、莱钢股份、民和股份、包钢股份、首钢股份、樊钢钒钛、河北钢铁、株冶集团、东华能源、亚泰集团、精诚铜业、铜陵有色共23个样本;第2类:福建水泥、美利纸业、ST甘化、山西焦化、ST鲁北共5个样本;第3类:龙净环保、天原集团、格林美共3个样本;第4类:江西铜业、鞍钢股份、盘江股份、祁连山、五粮液、西山煤电、南海发展共7个样本。

4.2 判别分析

(1) 分类结果。

通过Fisher判别发现, 最终分类结果同聚类结果完全一致。即此分类为完美分类, 如果有新进入的样本, 可以通过此分类进行判别。通过各组的均值及其他指标的分析我们可以得出结论:第1类股票的盈利能力、规模、股本扩张能力和支付能力均处于低等水平;第2类股票的相应指标比第一类表现的较为乐观, 但仍处于较低的水平上;第3类股票的盈利能力、股本的扩张能力较好, 规模和股票的支付能力欠缺;第4类股票属于这些股票中表现最好的一类股票, 盈利能力、规模、股本的扩张能力以及股票的支付能力均较好。

(2) 判别函数。

由表1可知本文预测变量为8个, 类别数为3个, 即判别函数为3个。

(3) 显著性检验。

显著性检验结果见表2, 由Sig.知, 它们存在显著性差异。

(4) Fisher线性判别函数。

由Fisher线性判别函数系数得如下分类函数:

Function 1=-2.246+0.673a+0.272b-3.367c-0.918d-0.592e-1.175f+1.813h-2.706i

Function 2=-9.741-4.736a+3.042b-1.566c-0.353d-2.635e-6.997f+0.185h+03.105i

Function 3=-19.823+3.995a-10.714b+14.162c+2.079d+4.739e+7.766f-9.034h+7.499i

Function 4=-13.891-0.541a+1.526b+6.112c+2.379d+1.795e+5.529f-2.216h+7.895i

运用Fisher判别函数时, 只要将各指标标准化值代入上述4个判别函数, 以函数值的大小来比较, 哪一组的分类函数值大, 就将该观测值判入该组。 (其中a、b、c、d、e、f、g分别为样本的每股净资产、每股收益、每股公积金、每股经营现金流、主营业务利润率、净资产收益率、总资产和净利润的标准化值) 。

参考文献

[1]张树敏, 朱和平, 等.基于基本面的中小企业板上市公司股票投资价值初探[J].商业现代化, 2008, (3) :191-192.

[2]张晓东.沪深两市金融保险行业股票业绩的聚类分析[J].统计与咨询, 2009, (1) :56-57.

[3]于华.上市公司综合评估的聚类与主成分分析[J].西南金融, 2007, (9) :49-50.

[4]李建军, 虞跃.基于主成分分析的股票投资策略[J].长春师范学院学报 (自然科学版) , 2009, (1) :12-14.

上一篇:活学巧用下一篇:宋元时期的档案文书