SOM聚类分析

2024-07-27

SOM聚类分析(共4篇)

SOM聚类分析 篇1

0 引言

近年来,基因数据的分析研究在不断深入,人们也充分意识到了研究基因活动信息的重要性。数据挖掘是指从大量的、不完全的、有噪声的、随机的数据中提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。在生物信息学领域,已有多种数据挖掘技术应用于基因表达数据分析,主要包括:聚类分析、模式识别、神经网络等。聚类的目的是将相似的模式样本划分为一类,而将不相似的分离开来,实现模式样本的类内相似性和类间分离性。目前,基因表达数据分析常用的技术有非负矩阵分解、支持向量机、神经网络方法等。

自组织映射(Self-Organizing Maps,SOM)网络是由芬兰赫尔辛基大学Kohonen教授在1982年提出。该网络聚类分析中广泛应用的一种无监督学习方法的神经网络,由输入层和输出层组成。SOM网络根据其学习规则,对输入模式进行自动分类,通过对输入模式的反复学习,捕捉各个输入模式中所含的模式特征,并对其进行自组织,在竞争层将分类结果表现出来。因此,它的输出是以聚类的方式将相似特征的数据组织在一起,其特点是将大量的高维数据进行聚类划分。但是传统的SOM网络有一些不足之处,在训练过程开始之前需要预先定义映射结构和映射大小。另外,它的拓扑结构也有其固有的限制,必须采取一定数量的训练和测试,从而选择一个合适的网络结构和规模。并且,对于过高维、大量的数据,它相应的网络规模会变得很庞大,因此它的训练时间也会增大。

基因表达数据的特点是:数据维度高、含有大量的“噪音”数据、对象比较少,这使得传统SOM网络的许多缺点暴露出来,分类效果也受到影响。因此,本文提出采用PCA方法,首先对基因表达数据集提取能够反应样本数据综合信息的主分量,降低数据集的维度,再用SOM网络进行聚类分析。实验结果表明,该方法具有较高的分类正确率,可用于基因表达数据的聚类分析。

1 自组织特征映射网络(SOM)

自组织特征映射网络是一种竞争式学习网络,能够无监督地进行自组织学习。它通过自动寻找样本中的内在规律和本质属性,自组织、自适应地改变网络参数和结构,并且能够将任意高维的输入转换到低维输出。SOM网络的基本结构如图1所示,从图中可以看出,网络只有输入层和输出层(竞争层),并且两层之间实现全互连。

输入层接受外界信息,通过权向量将外界信息汇集到输出层各神经元,激发各神经元产生竞争。在竞争层,各神经元通过竞争来获取对输入模式的相应机会,最后仅有一个神经元获胜,并对那些获胜的神经元有关的各权重朝着更有利于它竞争的方向调整,该层主要负责对输入模式进行分析比较,寻找规律,并归类。

SOM学习算法描述:

设输入多维数据集X为n个d维矢量的采样值:X={x1,x2,…,xn},其中xi={x1,x2,…,xin}。输出层神经元对应的权系数向量是wj={wj1,wj2,…,wjn},j=1,2,…,l,l为输出神经元的数目。

步骤1:权值初始化。可令各权向量wj(j=1,2,…l)取小的各不相同的随机数,令迭代次数t=1。

步骤2:在样本集中随机选择一个模式x作为SOM的输入。

步骤3:在时刻t,根据下式的最小欧式距离准则,选择x的最佳匹配神经元j,将它作为获胜神经元,将获胜神经元记为c:

步骤4:确定邻域函数Nc(t)和学习率h(t)。

步骤5:按照公式(2)更新获胜神经元和它的邻域Nc(t)内的神经元,使得更新后的权重矢量更接近输入变量。

h(t)为t时刻的学习率(0

步骤6:若已形成稳定的特征映射,则结束学习,否则令t=t+1,转步骤2,进行下一轮的学习。

2 主分量方法(PCA)

主分量分析(Principal Component Analysis,PCA)是一种特征提取和数据压缩的多变量统计分析技术,广泛应用于统计数据分析、模式识别和图象处理等领域。PCA方法的主要思想是对数据集进行降维,把多指标转化为少数几个综合指标,从而压缩了所处理的数据量,降低了计算的复杂度,并且提取出来的主分量能够提供原有指标的绝大部分信息。

2.1 基本原理

PCA方法是一种数学变换的方法,它把给定的一组相关变量通过线性变换,转换成另一组不相关的变量,这些变量按照方差依次递减的顺序排列。假定有个基因表达数据样本,每个样本共有m个变量,构成一个n×m阶的基因表达数据矩阵,即:

当m较大时,在m维空间中考察问题比较困难。为了克服这一困难,需要进行降维处理。即用较少的几个综合指标代替原来较多的变量指标,且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。

定义:记x1,x2,…,xm为原变量指标或特征属性,z1,z2,…,zp为新变量指标,并且(p

其中L为变换矩阵:

系数lij按下列原则确定:

(1)zi与zj(i≠j,i,j=1,2,…,p)相互独立。

(2)z1是x1,x2,…,xm的一切线性组合中的方差最大者,z2是与z1不相关的x1,x2,…,xm的一切线性组合中的方差最大者。

新变量指标z1,z2,…,zp分别称为原变量指标x1,x2,xm的第1,第2,……,第p个主分量。可见,主分量分析的实质是确定原来变量xj(j=1,2,…,m)在各主分量zi(i=1,2,…,p)的变换系数lij(i=1,2,…,p;j=1,2,…,m)。

2.2 计算步骤

步骤1:原始指标数据集有n个样本,每个样本含有m个变量,对样本矩阵进行如下变换:

其中:珚xj=n,sj2=n-1,得标准化矩阵U。

步骤2:对标准化矩阵U求相关系数矩阵:

步骤3:解样本相关矩阵R的特征方程:

≥0.85确定p值,使信息的利用率达85%以上,对每个lj,j=1,2,…,p,求其特征向量为bj0。

步骤4:将标准化后的指标变量变化为主分量Z,Z={z1,z2,…,zp},zj=uTib0j,j=1,2,…,p

步骤5:对p个主分量加权求和,进行综合评价。

3 实验测试和结果

3.1 基因表达数据来源和实验目的

实验用到的数据库是源于斯坦福大学分子生物系网站上的6 400条酵母基因表达数据。按照相同周期阶段内cDNA表达峰值模式相近或一致的标准,将这些基因分为不同的类。同类基因的表达模式相对类间基因更为接近,所以通过与同类中的已知基因进行比较,聚类技术有助于发现未知功能的调控基因。

3.2 数据预处理

在matlab中用函数strcmp()、isnan()、genevarfilter()、genelowvalfilter()对基因表达数据进行数据清洗及基因过滤,目的是去除表达水平很小的数据,同时处理缺失数据和噪声数据;过滤那些表达水平变化很小的基因,降低数据分析的复杂性,将数据转换为适合聚类的形式。从该数据集中整理出具有代表性的基因614条,每条基因具有7维属性(见表1)。细胞随着时间变化,共分为7个阶段:GSM1(171条)、GSM2(133条)、GSM3(80条)、GSM4(78条)、GSM5(68条)、GSM6(48条)、GSM7(36条)。

3.3 构建SOM网络

在matlab中,用函数newsom()构建自组织特征映射网络,用train()函数来训练该网络,用函数gscatter()来实现聚类。

参数设置如下:

输入层:614*7的基因表达数据矩阵;

输出层:7*1,即根据基因相似特征,分为7个类;

拓扑函数:hextop、六角形;

学习率:0.9;

利用matlab中的仿真函数sim()观察聚类结果,取3次实验结果,对聚类结果准确率进行分析,如表1所示。

3.4 构建PCA-SOM网络

构建PCA-SOM网络时,首先对614条基因进行主分量分析,用函数processpca()调用PCA算法,提取主分量。用函数princomp()计算主分量的值。图2为主分量的分布。在这里提取出7个主分量的特征值和它们的贡献率,如表2所示。

从表2可以看出,前7个特征值的贡献率已经达到100%,包含了原始数据集所反映的信息,所以这7个特征可以作为SOM网络的输入变量。用PCA方法降低了数据集的维度,去掉了一些无用的信息,保留了含信息量高的数据。因此减少了在训练过程中关联度不大的基因的影响,提高了网络的训练速度和聚类的准确率。

先用PCA方法提取主分量,之后再用SOM网络聚类,参数设置和SOM网络相同,同样取3次实验结果对聚类正确率进行分析,如表3所示。

从表1和表3可以看出,采用SOM网络的总的聚类正确率为66.04%,采用PCA-SOM网络的总的聚类正确率为85.09%。所以采用主分量分析(PCA)后再用SOM网络进行聚类分析,聚类的正确率得到了很大提高,平均正确率达到73%以上,总的正确率达到了85%。因此,将PCA运用到聚类分析中取得了一定的效果。图4给出了PCA-SOM网络模型下的聚类结果。

4 结语

本文首先对斯坦福大学生物系网站上提供的基因数据集进行主分量分析,去除一些含信息量不高的数据,对数据集进行降维,在进行数据预处理后,用自组织特征映射网络对其进行聚类分析,并且与单纯使用SOM网络进行聚类的效果进行了比较。实验结果表明,PCA-SOM网络用于基因数据的聚类分析比单纯使用SOM网络进行聚类分析有较高的聚类正确率,是一种行之有效的方法。

参考文献

[1]HAN JIA-WEI,KAMBER M.数据挖掘:概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2007.

[2]曹胜玉,刘来福.非负矩阵分解及其在基因表达数据分析中的应用[J].北京师范大学学报:自然科学版,2007(1).

[3]丁必为,田英杰.基于支持向量机的拟南芥基因表达数据分析[J].运筹学学报,2006(2).

[4]涂晓芝,颜学峰,钱锋.基于SOM网络的基因表达数据聚类分析[J].华东理工大学学报,2006(8).

[5]张玲,伍亚舟,陈军.小波-神经网络方法在基因表达数据分析中的应用研究[J].重庆医学,2010(17).

[6]TOMMYW S CHOW,SIU-YEUNG CHO.Neural networks andcomputing learning algorithms and applications[M].Lodon:Imperi-al College Press,2007.

[7]杨迪,苗夺谦,王睿智.粗糙自组织映射在基因表达数据分析中的应用[J].计算机科学,2008(3).

[8]林玲,伊力亚尔.自组织映射神经网络(SOM)在图像分类中的应用[J].伊犁师范学院学报,2010(1).

[9]朱婵,许龙飞.聚类算法在基因表达数据分析中的应用[J].华侨大学学报,2006(1).

[10]陆媛,杨慧中.基于代表熵的基因表达数据聚类分析方法[J].计算机工程与应用,2008(27).

[11]葛哲学,孙志强.神经网络理论与实现[M].北京:电子工业出版社,2007.

利用SOM网络模型进行聚类研究 篇2

关键词:神经网络,SOM网络模型,聚类

0 引言

脑科学的研究表明, 人类大脑皮层中的细胞群存在着广泛地自组织现象。处于不同区域的神经元具有不同的功能, 它们具有不同特征的输入信息模式, 对不同感官输入模式的输入信号具有敏感性, 从而形成大脑中各种不同的感知路径。并且这种神经元所具有的特性不是完全来自生物遗传, 而是很大程度上依赖于后天的学习和训练。而本文所介绍的自组织特征映射网络 (SOM) 就是根据这种理论而提出的。

自组织映射 (Self-Organizing Feature Maps, SOM) 网络也称为Kohonen网络, 该模型是由芬兰的赫尔辛基大学神经网络专家Teuvo Kohonen于1981年提出, 现在已成为应用最为广泛的自组织神经网络方法。Teuvo Kohonen认为处于空间中不同区域的神经元有不同的分工, 当一个神经网络接受外界输入模式时, 将会分为不同的反应区域, 各区域对输入模式具有不同的响应特征。这种网络模拟大脑神经系统自组织特征映射的功能。它是一种竞争型神经网络, 采用无监督学习算法进行网络训练, 此网络广泛地应用于样本聚类、排序和样本检测等方面。

1 自组织特征映射网络 (SOM)

1.1 SOM 网络结构

从网络结构上来说, SOM网络最大的特点是神经元被放置在一维、二维或者更高维的网格节点上。SOM网络的具体模型为:

最普遍的自组织特征映射二维网格模型如图1所示。

SOM网络的一个典型特性就是可以在一维或二维的处理单元阵列上, 形成输入信号的特征拓扑分布, 因此SOM网络具有抽取输入信号模式特征的能力。SOM网络一般只包含有一维阵列和二维阵列, 但也可以推广到多维处理单元阵列中去。下面只讨论应用较多的二维阵列。

输入层是一维的神经元, 具有N个节点, 竞争层的神经元处于二维平面网格节点上, 构成一个二维节点矩阵, 共有M个节点。输入层与竞争层的神经元之间都通过连接权值进行连接, 竞争层临近的节点之间也存在着局部的互联。SOM网络中具有两种类型的权值, 一种是神经元对外部输入的连接权值, 另一种是神经元之间的互连权值, 它的大小控制着神经元之间相互作用的强弱。在SOM网络中, 竞争层又是输出层。SOM网络通过引入网格形成了自组织特征映射的输出空间, 并且在各个神经元之间建立了拓扑连接关系。神经元之间的联系是由它们在网格上的位置所决定的, 这种联系模拟了人脑中的神经元之间的侧抑制功能, 成为网络实现竞争的基础。

1.2 SOM 网络学习过程

SOM网络的主要目的是将任意维数的输入转换为一维或二维的离散映射, 并且以拓扑有序的方式自适应实现这个过程。

生物学基础实验表明, 外界信息对于神经元的刺激并非是单一的, 而是以某一细胞为中心的一个区域;并且刺激强度有强弱之分, 大脑神经的刺激趋势和强度呈墨西哥草帽形状;神经元受刺激的强度以中心最大, 随着区域半径的增大逐渐减弱;远离中心的神经元相反会受到抑制作用。根据这个原理, 当某类模式输入时, 输出层某节点 (神经元) 得到最大刺激而获胜, 获胜者以及其周围节点的权值会向着输入模式向量的方向进行修正。随着输入模式的变化, 相应获胜神经元也发生变化, 网络即通过自组织的方式在大量样本数据的训练下, 使得输出层特征图能够反映出输入样本数据的分布情况。

SOM网络采用的学习算法为无监督聚类法, 它能将任意模式的输入在输出层映射成为一维或二维离散图形, 并保持其拓扑结构不变。学习过程分为三个主要过程, 分别是:

(1) 竞争:对每个输入模式, 网络中的神经元计算它们各自的判别函数的值。这个判别函数对神经元之间的竞争提供基础。具有判别函数最大值的特定神经元成为获胜者。

(2) 合作:获胜神经元决定兴奋神经元的拓扑邻域的空间位置, 从而提供相邻神经元合作的基础。

(3) 权值调整:兴奋神经元通过对它们突触权值的适当调节以增加关于该输入模式的判别函数值, 从而使得该神经元对以后相似的输入有一个增强的响应。

2 应用 SOM 网络进行聚类算法及程序运行结果

SOM网络广泛地应用于样本聚类、排序和样本检测等方面。当训练过程完成之后, 所有的权值都收敛。可以用下面的算法进行聚类。

下面是对SOM网络聚类的程序分别运行的结果, 如图2、图3、图4所示。

3 结束语

本文介绍了SOM网络的起源以及学习过程, 运用算法进行SOM网络进行分类。最后利用一个程序实例运行出了SOM网络的运行过程。利用图形化的方式显示出了利用SOM网络进行分类的具体过程。

参考文献

[1]秦立龙, 余奇, 王振宇.基于泛化理论的集成神经网络优化算法[J].计算机仿真, 2013.1

[2]金以明.基于DEA和SOM的数字图书馆评价研究[J].情报科学, 2011.1

SOM聚类分析 篇3

采用计算机视觉技术[1]处理LED管芯计数的具体过程是指运用工业摄像机拍摄LED芯片图像,运用视觉算法处理和分析图像以达到计数的目的。目前处理LED管芯计数方法通常采用:Blob分析与亚像素定位算法[2]、图形轮廓识别算法[3]和亚像素精度分割算法[4,5]等。这三种算法通过识别LED管芯大致轮廓来计算管芯数量,在LED管芯轮廓清晰、区分明显的情况下,识别效果较好、效率较高。但在实际工业数字相机拍摄LED芯片时,光源影响或相机曝光等因素会使得LED芯片俯拍图中存在局部LED管芯模糊、相连或畸形区域,导致上述算法在LED管芯识别中存在较大误差,给精确计数带来困难。

近年来,描绘子方法被广泛用来提取图像特征以获得较好的识别结果。Alegre等人[6]建立的基于规则的描绘子通过提取物体表面粗糙度特征来实现区分金属组件的目的。Subrahman-yam等人[7]提出了一种新型描绘子刻画图像关键特征,在图像恢复和目标追踪等应用中取得了良好的效果。Strong等人[8]采用自组织映射(SOM)神经网络聚类算法对海量图片进行了相似度的匹配和分类,Rasti等人[9]将SOM算法运用于图像颜色聚类以降低图像色彩维度。这些实例表明SOM聚类算法可以有效地应用于图像特征的分类,并具有较高的准确率。

本文提出的新型局部区域描绘子算法,采用一种过检测策略提取LED芯片俯拍图中LED管芯所有可能的位置,进而对这些位置的局部区域灰度值进行描绘子提取,以区分LED管芯与图像干扰信号,最后通过SOM聚类,有效地筛选出目标管芯位置并进行有效计数。

1 原理概述

1.1 过检测策略

图1为LED管芯局部区域的灰度3D示意图,图中左图为实际拍摄的双极LED芯片俯拍图,双极LED管芯存在正负两个极点,极点的表现形式为一块边缘灰度突变的黑块区域,如黑色圆圈标定区域。将左图的位置-灰度信息一一映射到右图所示的3D灰度图中,XY轴代表了俯拍图实际的区域位置,Z轴为该区域的灰度值。从图中可以发现每个LED管芯极点的黑色区块都在灰度3D图中对应着一个局部极小值,通过大量试验可以验证局部极小值位置与LED管芯极点的空间位置吻合,据此检测到目标管芯的位置。

本文采用一种过检测策略可以找出俯拍图中黑色管芯极点对应的所有局部极小值点。以像素点(x,y)为中心的 (2N+1)×(2N+1)邻域内,判断(x,y)是否为局部极小值,策略计算公式为:

其中,f(x,y)表示像素点(x,y)的灰度值,flag(x,y) = 1表示像素点(x,y)是局部极小值,flag(x,y) = 0则表示像素点(x,y)不是局部极小值。通过这种检测方法可以完整地筛选出由管芯极点产生的局部极小值点群,增加最终的计数正确率。

图2为使用过检测策略标定局部极小值点前后的效果图。(a)为双极LED管芯极点轮廓模糊,对比度较低的俯拍原图;(b)为单极LED管芯极点部分重叠,连接畸形的俯拍原图;(c)、(d)为经过过检测策略处理后的效果图:红色标记点为局部极小值点群。结果表明基于局部极值的过检测方法,可以有效地识别出所有可能的LED管芯极点位置,该方法也适用于图像质量差、LED管芯模糊或多个管芯极点相连畸形等情况下的管芯位置筛选。

1.2 局部区域描绘子

通过过检测策略筛选出了大量的局部极小值,在完全覆盖所有目标点集的同时也引入了大量噪点信号,为去除这些干扰点,本文提出一种新颖的局部区域描绘子来详细刻画每个管芯的局部区域灰度值特征。这种描绘符具有很强的刻画能力,使得正样本(LED管芯产生的局部极值点)和负样本(噪声信号产生的局部极值点)在描绘子的特征空间内呈现出较一定的特征区别。

对于某个局部极小值点(x,y)及其(4N+1)×(4N+1)邻域组成的局部区域,按如下方法生成5个局部子区域:将该区域分割成以(x,y)、(x-N,y-N)、(x-N,y+N)、(x+N,y-N)、(x+N,y+N)为中心,及其(2N+1)×(2N+1)邻域组成的子区域。以N=1为例,局部区域为5×5的点阵组成,可以划分为以(x,y)、(x-1,y-1)、(x-1,y+1)、(x+1,y-1)、(x+1,y+1)为中心及领域3×3点阵组成的5个子区域,分别标记为1,2,3,4,5。图3为N=1时的局部区域划分示意图。

每个局部子区域的平均灰度值为:

其中f表示灰度值函数,f¯表示平均灰色值函数,X表示该子区域中心横坐标,Y表示该子区域中心纵坐标。

局部区域描绘子的5个分量表示为

其中f¯k表示标记为k(k=1,2,3,4,5)的局部子区域的平均灰度值f¯(X,Y),LRDk表示局部区域描绘子的第k个分量值。局部区域描绘子将极小值区域划分为更为细致的5块区域,对应于5个描绘子分量,能够对区域灰度特征进行更为细致的描绘,方便区分正负样本差异。

图2(c)样本经描绘子计算后结果如图4所示,左图为负样本描绘子直方图,右图为正样本描绘子直方图,横坐标为描绘子分量编号,纵坐标为描绘子分量值。多次试验结果表明正样本和负样本的描绘子分量分布存在较为显著的差异。

1.3 自组织特征映射(SOM)聚类

SOM聚类网络原理为:当某类模式输入时,竞争层某一神经元节点得到最大响应而获胜,获胜节点的领域节点因侧向作用也受到较大刺激而修改相应连接权矢量。当输入模式类发生变化时,获胜节点转移到其他节点进而调整其相应权值。最终网络通过自组织方式对大量样本数据实现聚类分群[10]。

本研究在局部区域描绘子处理后得到了大量具有描绘子分量差异的正负样本,因此需要采用一种有效的聚类算法将样本群分类,筛选出正样本群体。研究最终选择了成熟的SOM聚类算法获得了高效正确的分类结果。具体步骤如下:

1) 输入样本为局部区域描绘子数据集:LRDi = [LRDi 1 ,LRDi2 ,…,LRDi5 ]T,i = 1,2,…,I,I为数据集记录条数;初始的竞争层第j个输出神经元的权矢量随机设定为Wj=[Wj1,Wj2,…,Wj5]T(j=1,2,…,J),J为竞争层神经元个数。将LRDiWj按照下式进行归一化处理后,分别得到LRDi^Wj^

其中X为待归一化处理的参数,X^为归一化处理后的参数,m为参数X的分量个数,xp为参数X的第p个分量。

2) 读入一条描绘子样本记录LRDi^竞争层中各神经元权矢量Wj^(j=1,2,,m)分别与LRDi^进行相似性比较,与LRDi^最接近的权矢量所对应的神经元被判定为竞争获胜神经元j*,其权矢量标记为Wj*^。公式如下:

3) 定义获胜神经元j*的邻域Nj*(t),调整获胜神经元及其邻域中所有输出神经元的连接权值,使它们向LRDi^各分量靠拢,即有:

其中∂(t)为学习率,是时间t的单调递减函数;Nj*(t)随时间单调递减,初始值可设置较大甚至覆盖整个输出平面,尔后逐步收缩直至为零;整个迭代过程中只有获胜神经元及其邻域神经元的连接权值进行修改。

对所有jNj*(t)的Wj(t+1)进行归一化处理,得到Wj(t+1)^

4) 返回步骤2),读入下一条描绘子记录,直至LRDi^数据集完全计算完毕,SOM聚类网络输出自组织分类结果。

图4所示的具有描绘子特征差异的数据集通过SOM聚类后的分类结果如图5(a)所示,图2(b)所示的具有重叠粘连的单极LED图像经过过检测、描绘子、聚类处理后结果如图5(b)所示。红色点阵代表正样本点,蓝色点阵代表负样本点。结合管芯极点原图图2(a)、(b),可以发现红色点阵确为管芯极点位置,而蓝色点阵则为噪声信号。SOM算法可以有效地区分正负样本,进而准确地对管芯定位。

2 实验结果与分析

本方法实验环境为Windows平台下VS2008集成的Qt语言环境,使用的计算机处理器为Intel Core i5 @ 2.60GHz,内存为4GB。数据来源于芯片公司真实拍摄的单、双极LED芯片俯拍图,像素为100万-500万不等。以一张普通单极芯片为例,通常至少分布有近1万粒LED管芯,每个管芯极点需要5×5个像素点群组成的局部区域以用于描绘子刻画。因此一张普通单极芯片图像要被准确识别计数,理论上的图像质量底限为25万像素。分布有1万粒管芯的普通双极芯片由于存在正负双极点,因此最低像素为50万。在实际应用中,考虑到相机拍摄容易受到光照、角度以及管芯间隔等因素的影响,一般采用分辨率100万像素以上的相机对LED芯片进行拍摄。

图6为LED管芯图像经算法识别前后对照图:(a)为芯片计数系统单图界面及局部放大LED俯拍图;(b)为经算法处理后的LED标识图及局部放大的LED标识图,其中每个两端红色的黄色管体代表一个LED管芯。比照原图可以发现算法识别了该区域内的所有管芯,并且无错误结果存在。实验结果表明本算法可以有效识别模糊区域图像,排除噪点干扰信息,对真实LED管芯进行精准定位。

将本算法应用于大批量LED管芯俯拍图片样本进行性能测试。分别对不同类型的LED芯片进行多角度的拍摄,A样本为500万像素的单极二极管图片样本,B为200万像素的双极二极管图片样本,应用本算法进行识别后结果如表1所示:不同角度图片差异度<0.01%,准确率高达99.99%以上,算法稳定性良好、准确率高。

将本算法与常用的Blob分析与亚像素定位算法(以下简称BLOB算法)应用于3种不同类型的管芯进行计数比较,结果如表2所示,C样本为分布均匀的双极二极管图片样本,D为存在一定模糊区域的双极二极管图片样本,E为存在管芯相连的单极二极管图片样本,图像像素均为200万。根据表中数据显示,本算法在获得与BLOB算法接近的准确率基础上,更大程度地缩减了运行时间,耗时减半。分析原因在于本算法通过局部区域描绘子快速捕获图像特征,无需定位LED管芯轮廓,减少了图片扫描次数,进而减少了耗时。对于图像质量较差、LED管芯模糊或者多个管芯相连或畸形的图像情况,BLOB算法计数存在误差,耗时较长,而本研究算法能够良好适应,具有较高的鲁棒性。

3 结 语

为了解决传统算法受模糊图像、噪声干扰等因素干扰导致识别效果较差、计算耗时等问题,本文提出了一种基于局部区域描绘子和SOM聚类的图像识别算法。通过过检测策略有效地筛选出局部极小值位置,运用局部区域描绘子对极小值区域的灰度值特征进行有效刻画,并配合以成熟的SOM聚类算法实现了LED管芯位置的识别和准确计数。实验结果表明本文提出的过检测方法漏检率极低,描绘子在高噪声、大光照等干扰情况下亦能有效地区分正负样本,SOM聚类算法无需教师信号自组织分类,性能稳定良好。整体算法准确率高,耗时短,是一种可适用于大批量密集物体计数的有效算法。

参考文献

[1]Gonzalez R C,Woods R E.Digital Image Processing[M].Englewood Cliffs,NJ:Prentice-Hall,2002.

[2]马瑶,张海宁.Blob分析与亚像素定位算法在LED检测机的机器视觉系统中的应用[J].科技广场,2009,5(4):106-108.

[3]Chen H,Bhanu B.Contour matching for3D ear recognition[C]//7th IEEE Workshop on Applications of Computer Vision(WACV2005),Breckenridge,2005.LOS:IEEE COMPUTER SOC,2005:123-128.

[4]Xue L,Fang J,Huang W,et al.Research on LED Die Geometric Pa-rameter Measurement Based on Shape Recognition and Sub-pixel De-tection[C]//8th World Congress on Intelligent Control and Automa-tion(WCICA),Jinan,2010.IEEE,NEW YORK,2010:6204-6210.

[5]Shi X,Sun Z,Lu S.A Novel Method of Sub-pixel Linear Edge Detec-tion Based on First Derivative Approach[C]//International Conference on Manufacturing Engineering and Automation,Guangzhou,2010.Trans Tech Publications,Laublsrutistr,2011:2107-2111.

[6]Alegre E,Barreiro J,Suarez-Castrillon S A.A new improved Laws-based descriptor for surface roughness evaluation[J].International Journal of Advanced Manufacturing Technology,59(5-8):605-615.

[7]Subrahmanyam M,Maheshwari R P,Balasubramanian R.Local maxi-mum edge binary patterns:A new descriptor for image retrieval and ob-ject tracking[J].Signal Processing,2012,92(6):1467-1479.

[8]Strong G,Gong M.Similarity-based image organization and browsing using multi-resolution self-organizing map[J].Image and Vison Com-puting,2011,29(11):774-786.

[9]Rasti J,Monadjemi A,Vafaei A.Color reduction using a multi-stage Kohonen Self-Organizing Map with redundant features[J].Expert Sys-tems with Applications,2011,38(10):13188-13197.

SOM聚类分析 篇4

城市分类不仅便于我们对各个城市的发展进行评估, 并且为我们制定城市的发展决策提供了依据。然而, 如何能够进行科学的城市分类一直备受关注。而基于近些年来人工神经网络的飞速发展, 它帮助我们解决了许多棘手的难题, 其中的自组织特征映射网络 (SOM) 具有强大的聚类功能, 利用它可以帮助我们根据各个城市的特点从而进行科学分类, 为加速我国城市的发展和城镇化建设有着重要的意义。2005年吴聘奇、黄民生利用SOM网络对福建省城市进行了职能分类, 同年, 刘耀彬、宋学锋又基于SOM人工神经网络对长江三角洲地区城市职能分类做了研究。从而可见, 基于人工神经网络的自组织特征映射网络 (SOM) 在城市的分类问题确实可以发挥强大的作用。

评价一个城市的各个行业的发展, 有许多指标。其中行业就业人口是评价一个城市该行业的发展的基础指标。本文对山东地区城市的分类实证分析中, 对各个城市的各行业就业人口数量进行了采集, 其中包括农林牧渔业, 采矿业, 制造业, 电力、煤气及水的生产和供应业, 建筑业, 交通运输、仓储和邮政业, 信息传输、计算机服务和软件业, 批发和零售业, 房地产业, 住宿和餐饮业, 金融业, 租赁和商务服务业, 水利、环境和公共设施管理业, 居民服务和其他服务业, 教育, 科学研究、技术服务和地质勘查业, 卫生、社会保障和社会福利业, 文化、体育和娱乐业, 公共管理和社会组织等19个行业的从业人员数。然后, 通过MATLAB软件进行编程构建, 成功地将山东省的17个城市进行了分类, 从而说明了SOM网络在城市分类方面的确有优于其他传统方法的优点。

二、SOM网络的基本原理

(一) SOM网络简介

自组织特征映射网络也称Kohonen网络, 或者称为Self-Orgnizing Feature Map (SOM) 网络, 它是由芬兰学者Teuvo Kohonen于1981年提出的。该网络是一个由全连接的神经元阵列组成的无教师自组织、自学习网络。Kohonen认为, 处于空间中不同区域的神经元有不同的分工, 当一个神经网络接受外界输入模式时, 将会分成不同的反应区域, 各区域对输入模式具有不同的响应特征。

SOM网络的一个典型特征就是可以在一维或二维的处理单元阵列上, 形成输入信号的特征拓扑分布, 因此SOM网络具有抽取输入信号模式特征的能力。SOM网络一般只包含有一维阵列和二维阵列, 但也可以推广到多维处理单元阵列中去。

(二) SOM网络学习算法

1、初始化。对N个输入神经元到输出神经元的连接权值赋予较小的权值。选取输出神经元j个“邻接神经元”的集合Sj。其中Sj (0) , 表示时刻t=0的神经元j的“邻接神经元”的集合, Sj (t) 表示时刻t的“邻接神经元”的集合。区域Sj (t) 随着时间的增长而不断缩小。

2、提供新的输入模式X。

3、计算欧式距离dj, 即输入样本与每个输出神经元j之间的距离:并计算出一个具有最小距离的神经元j*, 即确定出某个单元k, 使得对于任意的j, 都由dk=mjin (dj) 。

4、给出一个周围的邻域Sk (t) 。

5、按照下式修正输出神经元j*及其“邻接神经元”的权值:wij (t+1) =wij (t) +η (t) [xi (t) -wij (t) ]。其中, η为一个增益项, 并随时间变化逐渐下降到零, 一般取

6、计算输出其中f (·) 为0-1函数或其他非线性函数。

7、提供新的学习样本来重复上述学习过程。

三、基于SOM网络的城市分类实证分析

城市分类可以便于我们了解各个城市的发展状况, 从而为我们制订城市的发展决策提供依据。现在人工神经网络已经得到了很大的发展, 它为我们研究此类问题提供了一种新的工具和思路。所以基于这个问题, 我们尝试利用SOM网络来进行城市分类。SOM网络是一种具有聚类功能的神经网络, 并且它是无教师训练方式, 我们只需要采集输入样本, 而不必如入目标值就可以得到我们想要的结果, 可见SOM网络使用也十分方便。

(一) 网络样本设计

从山东省统计局网站, 我们得到了山东省17个地级市城市的样本。从中我们看出, 原始指标数据波动较大, 而一般来说, 神经元的输出函数在0-1之间最为灵敏, 为了提高训练的效率, 所以要把数据进行归一化处理。归一化处理方法为:找出每个指标数据中的最大和最小值, 利用 (x-min) / (max-min) 公式把所有数据归一化为0到1之间的数。

(二) 网络设计

本文利用MATLAB R2008进行编程构建。确定网络的输入模式为:

Pk= (P1k, P2k, …pnk) , k=1, 2, …17, n=19

即一共有17组城市样本向量, 每个样本中包括19个元素。

1、首先利用函数newsom创建一个SOM网络。根据实际情况本文创建网络的竞争层分别选用3、4、5、6层的结构。然后经过实验, 分别观察其性能, 从而选取分类效果最好的一组。

2、利用函数train和仿真函数sim对网络进行训练并仿真。仿真的步数大小同样影响网络的聚类性能, 这里我们设置步数为1000。

最后经过分类结果如表1所示。

(三) 实验结果分析

最后经过分析筛选, 发现当这17个城市被划分为6类时和现实情况较为符合。分类情况如表2所示。

第一类:从表中看出, 济南和青岛被归为了一类, 并且在分类数为3、4、5、6时, 济南和青岛都被列为了一类。从表中我们可以看到济南、青岛在各方面都优于其他城市, 尤其是制造业、教育、以及公共管理和社会组织方面。济南是山东省省会, 是全省、文化、经济, 金融, 教育中心, 也是国家批准的沿海开放城市和十五个副省级城市之一。青岛是全国70个大中城市之一, 全国五个计划单列市之一。工业有纺织、机车车辆、机械、化学、石油化工、钢铁、橡胶、家用电器、啤酒、卷烟等。有驰名中外的青岛啤酒、海尔集团、海信集团等大企业集团。并且, 二者都有丰富的教育资源, 全省大多高校均聚集在此。

第二类:淄博、泰安、德州、聊城在发展方面, 各个方面较为均衡, 没有特别显著的特点。四者的制造业、建筑业和教育大约位于全省中间地位。

第三类:枣庄、东营属特殊职能类型城市。两个城市相对其他城市来说, 采矿业较为发达。枣庄境内已探明地下矿藏36种:煤、铁、铜、铝、金、银、锶 (天青石) 、石膏、萤石、水泥原料灰岩等。其中煤、石膏地质储量为15.4亿吨和4.1亿吨。而东营又称“石油之城”, 丰富的石油、天然气资源。但是, 两个城市的制造业相对薄弱, 其他产业大约处于平均水平。

第四类:烟台在此被单独分成了一类, 其具有自身的特色, 并且发展潜力巨大。烟台的制造业和交通运输业位于全省前列。烟台的工业主要以造船、轻纺、机械、建材、电子、冶金、医药等行业为主, 并且还有张裕葡萄酒、三环锁等烟台的传统产品。近年来, 锦纶、白卡纸、电子网目板等技术水平较高的项目相继投产。烟台在地理位置上东连, 西接潍坊, 西南与毗邻, 北濒、, 与对峙, 并与隔海相望, 共同形成拱卫首都的海上门户。所以, 烟台的交通运输业较为发达。另外, 烟台的招远金矿为烟台采矿业也提供了大量了就业机会。

第五类:潍坊、临沂、济宁和菏泽在教育和公共管理和社会组织方面处于全省前列地位, 其他方面稍稍逊色一些。

第六类:威海、日照、莱芜、滨州这四个城市各个方面表现均不太突出, 但是, 这些城市的发展潜力很大。威海、日照属沿海城市, 交通便利, 可以重点发展交通运输业。莱芜、滨州虽地处内陆, 但也可依附内陆的经济中心———济南来发挥特色经济。

四、结论

通过本文的研究, 可以看出利用SOM网络基本可以完成城市的分类研究, 并且可以调整分类类别, 来满足不同的需要。但是, SOM的分类还不够精确, 这主要是采集数据的不完备性。因为信息的不完全, 使SOM的聚类功能并未发挥极致。但是, 利用SOM网络, 操作过程较传统方法方便很多, 只需收集数据, 将其输入网络, 网络就能自行进行学习、训练, 并且是无教师学习方式, 不必输入目标值, 这些优点都是许多其他方法不能比拟的, 相信随着采集数据的完备性和精确性, 这种方法在城市分类方面可以得到广泛的应用和推广。

参考文献

[1]、神经网络理论与MATLAB R2007实现[M].电子工业出版社, 2008.

[2]、吴聘奇, 黄民生.SOM网络在福建省城市职能分类中的应用[J].经济地理, 2005 (1) .

上一篇:电压无功耦合度下一篇:耐缺陷结构