复杂网络的特征谱及其应用(精选3篇)
复杂网络的特征谱及其应用 篇1
复杂网络的特征谱及其应用
网络的特征谱与网络的拓扑密切相关,通过研究特征谱可以更好地了解网络的结构涌现和动力学特性.本文总结了近年来在网络特征谱方面的研究进展,首先介绍了3类重要网络模型邻接矩阵的特征谱密度和网络结构的关系及其在网络中心性和二分性中的应用,接着介绍了谱序列中存在的`标度不变性和结构涌现,然后介绍了网络Laplacian矩阵的特征谱与网络同步之间的关系以及在分析网络社团结构中的应用,最后指出了进一步研究的方向.
作 者:赵永毅 史定华 ZHAO Yong-yi SHI Ding-hua 作者单位:上海大学数学系,上海,44刊 名:复杂系统与复杂性科学 ISTIC英文刊名:COMPLEX SYSTEMS AND COMPLEXITY SCIENCE年,卷(期):3(1)分类号:N94 TP39关键词:复杂网络 特征谱 网络结构 谱序列 网络同步
复杂网络的特征谱及其应用 篇2
关键词:基因芯片,基因表达谱,社区结构,分类信息指数,最小生成树,阈值,复杂网络
癌症起源于正常组织在物理或化学致癌物的诱导下, 基因组发生的突变, 即基因在结构上发生碱基对的组成或排列顺序的改变, 因而改变了基因原来的正常分布 (即所包含基因的种类和各类基因以该基因转录的mRNA的多少来衡量的表达水平) 。所以探讨基因分布的改变与癌症发生之间的关系具有深远的意义。
复杂网络理论是近年来发展起来的一个重要的交叉。对于一个复杂的系统, 很多时候我们不能够单独通过分析系统内元组来反应系统性质。复杂系统是由微观层次上的海量个体所组成, 个体之间存在着作用。把个体抽象为网络节点, 而个体之间的相互作用抽象为节点之间的边, 则复杂系统就可以用一个复杂网络来描述。
本文的实验数据集包含22个正常组织样本和40个结肠癌组织样本, 每个样本包含2000个基因的表达数据。首先对样本数据进行归一化, 另外, 数据的特征维数2000, 远远高于样本个数62。因此, 有必要对数据进行过滤和降维。我们采用了分类信息指数方法 (information index to classification, ⅡC[2], 公式为:
其中, μ1 (i) , μ2 (i) 分别表示第i个基因在正常组织样本和结肠癌组织样本中的中表达水平的均值;σ12 (i) , σ22 (i) 分别为该基因表达水平的标准差。
根据上式计算结肠癌基因表达数据中的2000个基因的分类信息指数, 大部分基因的分类信息指数在0到0.2之间, 仅有少部分基因的大于0.2 (如图1) 。保留指数大于0.2的314个基因用于下一步的分析, 这样就大大缩小了基因选择的特征空间, 剔除掉大量“无关基因”, 大大缩小需要搜索的致癌基因范围。
另外在撰写本文的准备过程中, 我们查阅了大量的有关文献。与已有文献的结果进行比较, 发现所选特征基因中包含了一些已被实验证实的与癌症相关的重要基因, 这些基因在癌症基因调控网络中起关键作用, 一共得到了40个基因 (如表1) 。我们要探寻的结肠癌的特征基因极有可能包含在这40个基因中, 这对我们后续的研究具有重要的参考价值。其中6个基因在我们根据分类信息指数值对数据进行筛选的过程中被剔除了。所以我们选择剩下的34个基因作为我们研究的参考 (如表1) 。
然后分别计算结肠癌样本 (cancer) 和正常样本 (normal) 各个基因间的相似性, 得到相似矩阵。分析这些基因点的联系, 选择一个相似性的阈值来分别建立复杂网络, 用邻接矩阵表示。 (如果相似性大于该阈值的则这两个点相连接, 在邻阶矩阵中用1表示;反之, 如果相似性小于于该阈值的则这两个点不连接, 在邻阶矩阵中用0表示) 。其中关键的步骤是阈值的选取。本文提出的解决策略是, 从关联系数矩阵得到最小生成树作为基因之间关系的骨架, 然后再把文献中发现的相关基因之间的关系考虑进来, 得到客观的阈值。
我们考查结肠癌基因表达数据中筛选出来的314个变化比较明显的基因, 用向量组表示为,
其中T0m, n是第n个基因在第m个样本的基因数据, 其中N=314, M是样本个数, 正常组织样本个数为22, 肿瘤组织样本个数为40。相关系数矩阵为R:
那么基因间的欧几里得距离就可以用以下定义的距离矩阵D定量描述:
最小生成树是图论中的基本概念。我们从距离矩阵中抽取出最小生成树, 用N-1条边连接所有基因节点, 形成一个无圈图。在形成的最小生成树中, 要保证所有基因间的距离之和最小, 也即相关系数之和最大, 且是无圈图。那么, 基因间的其它关系就被过滤掉了。原则上来讲, 真正直接相关的基因之间的关联系数最大, 因此可以认为最小生成树保留了基因之间的真正关系。因为一个基因可以和多个基因直接相关, 所以很多的关系被丢掉。丢掉的关系将在后边的步骤中被找回。我们采用Kruskal算法来生成最小生成树:
我们用筛选后的314个基因数据 (我们对这314个基因重新做了编号, 其与原数据库中的编号的对应表见附表) , 对结肠癌样本、正常样本分别用两种方法得到了最小生成树。两个最小生成树的节点也即基因, 一定是相同的, 且都有314个节点, 313条边。图2给出了正常样本中得到的最小生成树。
如前所述, 最小生成树给出了基因之间的部分连接, 但是很多基因之间的关系被丢掉。另一方面, 文献中发现的结肠癌相关基因, 为我们提供了重要的参考信息, 但是这些信息包含着很大的偶然性, 也就是噪声。在此我们将把这两部分信息整合在一起, 得到一个客观的构建基因关系网络的阈值。
我们首先抽取出如图2所示的生成树。它给我们提供了高可信度的链接, 不足之处是包含的信息不够多, 一些重要的关系被忽略了。我们再根据得病前后两类样本信息变化。然而, 这里也可能产生噪声边。
从上面得到最小生成树出发。整合相关文献中已知的肿瘤致病基因, 我们收集到34个这样的基因。用这34个基因重复上面的过程, 得到阈值, 肿瘤样本的记为DDIImin, 在正常样本的生成树中记为DNIImin建立网络。, 它们之间可能直接相连, 也可能彼此没有直接相连。计算直接相连的节点间的距离。在这个过程中, 我们选取最大的那个作为阈值, 在肿瘤样本生成树中记为DDIImin=0.6239, 在正常样本的生成树中记为DNIImin=0.6995。
我们选取DDIImin, DNIImin作为阈值, 来建立网络。这样在一定程度上减少了一些噪声边的产生, 避免了偶然因素可能引起的阈值选取的不稳定性, 同时也恢复了我们需要的连接。
肿瘤样本网络以及正常样本网络的阈值选定后, 利用我们在数据处理中选定的314个基因建立网络。以肿瘤样本网络为例, 先算出肿瘤样本中这314个基因的相关系数矩阵。当任意两个基因的相关系数大于阈值0.6239时, 我们就认为这两个基因是有相互作用的, 在它们之间画一条边;当任意两个基因的相关系数小于阈值0.6239时, 我们就认为这两个基因是没有相互作用的, 它们之间就没有直接的边相连。这样我们就得到了肿瘤样本的基因相互作用网络。在相关系数矩阵中, 把大于0.6239的值改为1, 小于0.6239的改为0, 主对角线上元素设为0, 这样就由相关系数矩阵得到了邻接矩阵MD。邻接矩阵中的1就表示网络中有连边;邻接矩阵中的0就表示网络中没有连边。
复杂网络的结构是不均匀的, 往往存在很多连接致密的集团, 在这些集团之间只有很少边形成的松散的连接。这些致密的结构往往与功能有着密切的关系, 因此受到普遍的关注。当前普遍采用的划分社区的方法是Newman-Girvan算法。
社区划分反映基因间的功能关系, 而在网络模块中, 可以发现网络发生了明显的改变。首先我们画出正常样本网络, 用Newman-Girvan的划分算法对得到的网络进行分块。当把正常样本网分成14个社区时, 得到的聚类系数最大, 为Q=0.596 (如表2) , 这样就把网络分成了14个大的功能模块。如图3所示, 即为正常样本网络的社区结构 (每种颜色代表一个社区) 。可以看出, 各个社区结构中的节点数目分布并不均匀, 并且存在很多孤立节点。社区内节点间的连接比较紧密, 而不同社区间的连接比较稀疏。
同样用Newman-Girvan的划分算法, 我们画出肿瘤样本的网络, 把肿瘤样本网分成了13社区 (如图4) 。此时得到的聚类系数最大, 为Q=0.630 (如表3) 。可以看出, 肿瘤样本网络的各个社区结构中的节点数目分布也是并不均匀, 并且同样存在很多孤立节点。社区内节点间的连接比较紧密, 而不同社区间的连接比较稀少。
对于两个网络, 我们计算出每个节点的度 (degree) 。我们发现, , 其中DDmax、DNmax分别表示肿瘤样本、正常样本的邻接矩阵中节点的最大度, DDmin、DNmin分别表示肿瘤样本、正常样本的邻接矩阵中节点的最小度。说明网络中的有些点与其他点的相互作用强度发生了明显的变化。反应到网络结构中, 可以用平均度加以粗略说明, 其中肿瘤样本网络的平均度为9.36, 正常样本网络的平均度为5.28。在肿瘤样本网络中每个基因平均与周围9.36个基因有相互作用, 在正常样本网中每个基因平均与周围5.28个基因有相互作用。
分析度的变化。通过两个网络的度序列做差, 我们就能够找到每个节点度的变化情况。表4即为度变化比较大的前十个节点。
同时我们对每个节点度的变化值做平均, 得到度变化的平均值为7.0637。其中大于这个平均变化度的节点有89个, 小于这个平均变化度的节点有255个。
我们认为特征基因在这些度变化比较大的节点中的可能性很大。度变化超过平均值的节点与我们查阅的的文献中得出个34个特征基因相比对, 其中有15个基因是它们所共同拥有的 (如表5) , 我们认为这15个基因应该是对我们寻找结肠癌特征基因非常重要的基因。
接下来对我们得到了15个重要的基因节点, 在网络中分析它们。在上一步过程中, 我们比较了文献中得出的, 且度变化较大的15个重要节点。这15个基因在肿瘤特征过程中起了很重要的作用。注意到我们选取的这15个基因最大的度变化值是33, 但还有7个节点的度变化值超过了33, 却并不在我们查阅的文献的结论中, 我们认为有必要在网络中进一步对这些点进行分析。这7个基因节点分别是 (如表6) :
其中, 度变化是同一节点在肿瘤样本网络与正常样本网络中, 该节点在两个网络中度的变化值;分类信息指数编号是指该信息指数在所有信息指数中从大到小排列时的次序, 我们选取的314个基因是分类信息指数IIC>0.2的基因, 也即分类信息指数编号前314个基因。通过上面的表格我们可以看出, 这些基因的分类信息指数都比较大。通常地, 样本们会去研究IIC大的点, 分类信息指数编号偏后的那些基因极易在分析的过程中被忽略掉。现在我们发现, 这些点在两个网络中度的变化值很大, 也即癌变前后这些基因在网络中与其它基因的相互作用有了很大的变化。接下来, 我们将这7个基因和另外15个基因分别放回正常样本和肿瘤样本的网络中去分析它们的变化。如图5, 图6。
图5为我们找到的15个重要基因在正常样本中的相对位置。不同的颜色表示不同的社区。同时把度变化最大的7个节点 (156, 87, 300, 139, 169, 61, 34) 也放进了网络中。
图6为我们找到的15个重要基因在肿瘤样本中的相对位置。不同的颜色表示不同的社区。同时把度变化最大的7个节点 (156, 87, 300, 139, 169, 61, 34) 也放进了网络中。
从图5中可以观察出, 在正常样本网络中, 度变化最大的7个节点分别分布在4个社区中, 且仅有一个节点与其它节点相连 (节点61—节点68) 。这说明7个节点在正常样本网络中没有明显的相互作用。而通过观察图6, 我们的发现在肿瘤样本网络中, 度变化最大的7个节点同时分布在同一个社区中, 且这7个节点与我们找到的15个重要基因节点中的9个节点 (分别为68、180、155、270、213、198、207、2、297) 也在同一社区中 (图6中蓝色表示的社区) , 并相连。我们有一个大胆的猜想, 结肠癌的特征基因就分布在蓝色所表示的社区中。蓝色社区中的这16个节点所代表的基因分别为M22382, T96873, U09564, H08393, J02854, T62947, M59040, H20709, X62048, 及M94556, T70062, L28010, M37583, H89087, H64807, T65740, 从功能上看, 这些基因对结肠癌的癌变过程发挥了重要的作用。在正常样本网络中, 这些点分布的比较分散, 而在肿瘤样本网络中, 这些点集中到了同一社区中, 说明癌变后这些基因之间的相互作用加强。所以这16个基因就是我们要寻找的结肠癌的特征基因。另外, 除了这些在同一社区的节点之外, 还有一些散节点落在各个不同的社区中, 其中分为两种情况, 一种是该基因位于两个社区的连接点处, 如节点58 (T60155) , 它是主动脉平滑肌肌动蛋白, 而有研究表明肌动蛋白参与DNA转录, 所以T60155是我们所寻找的结肠癌的特征基因。另一种是某社区内部的节点, 如节点83 (T51571) , 130 (H43887) , 219 (L41559) , 248 (M36634) , 参照这些基因的功能对基因的癌变并没有起到决定性的作用。并且这几个点的度变化值也不是很大, 所以, 可能是被误选入的, 应该被排除掉。综上, 本文运用复杂网络的方法, 通过社区模块的划分, 找出17个结肠癌的特征基因。
本文首先通过分类信息指数这一指标对数据做了初步处理, 筛选出314个基因节点, 剔除了大量的无关基因, 对数据进行过滤和降维。并以此分别构建网络模型。生成网络之后, 通过Newman-Girvan方法对我们的网络模型划分社区和评价, 无论是肿瘤样本网络还是正常样本网络都是很好的社区结构。我们利用度变化值和参考我们查阅文献中得出的结论, 挑选出了22个基因, 其中排除掉5个基因后, 得出了我们的结论, 即结肠癌的特征基因有17个。
本文问题研究还有待于进一步加深完善, 比如没有考虑到基因筛选后提出的变化不大的点。另外, 我们对于生物医学方面的专业知识比较欠缺, 在对模块进行分析的时候, 对模块的功能分析不够精确。这需要我们以后的继续努力和学习。
参考文献
[1]程书钧.肿瘤——分子网络病[J].医学研究杂志, 2010 (5) .
[2]LI Yixin, RUAN Xiaogang.Feature selection for cancer classification based on support vector machine[J].Journal of Computer Researchand Development, 2005, 42 (10) :1796-1801.
[3]GUYON I, WESTON J, BARNILL S, et al.Gene selection for cancer classification using support vector machine[J].Machine Learning, 2000, 46 (13) :389-242.
[4]刘全金, 李颖新, 阮晓钢.基于SVM的灵敏度分析方法选取肿瘤特征基因[J].北京工业大学学报, 2007, 33 (9) :954-958.
[5]刘全金, 李颖新, 阮晓钢.基于基因表达谱的结肠癌特征基因选取[J].昆明理工大学学报:理工版, 2006, 31 (1) :89-92.
[6]Xiaosheng Wang and Osamu Gotoh.Microarray-Based Cancer Prediction Using Soft Computing Approach[J].Cancer Informatics, 2009 (7) :123-139.
[7]Xue Wu Zhang, Yee Leng Yap, Dong Wei, et al.Molecular diagnosis of human cancer type by gene expression profiles and independentcomponent analysis[J].European Journal of Human Genetics, 2005 (9) .
[8]李建更, 高志坤, 严志, 等, 基于双基因分析的结肠癌标志基因选择[J].中国生物医学工程学报, 2009, 28 (5) :691-695.
[9]张娅, 饶妮妮, 王敏, 等.一种基于基因表达谱的结肠癌特征提取方法[J].航天医学与医学工程, 2008, 21 (4) :356-360.
复杂网络的特征谱及其应用 篇3
(湖南大学汽车车身先进设计制造国家重点实验室, 湖南 长沙 410082)
引 言
机械设备故障诊断的本质是根据设备运行状态信息进行特征提取和模式识别[1]。在旋转机械的故障中,有30%的故障是由滚动轴承引起的,滚动轴承工作状态的好坏将直接影响到整台机械设备的工作状态,因此轴承故障诊断技术已得到广泛的重视[2]。随着设备的日益复杂,反映设备状态的信息量越来越大,数据维数也越来越高,从而导致一些故障诊断方法(如模糊逻辑[3],神经网络[4],支持向量机等[5,6])的效率迅速下降。研究如何有效地从状态监测数据中提取故障特征,对提高故障监测与诊断的准确性具有重要意义。
谱方法是数学领域里一种经典的分析和代数方法,其在高维数据的低维表示和聚类问题中有着广泛的应用[7,8]。该方法首先根据给定的样本数据集定义一个描述成对数据点相似度的关系矩阵,并计算此矩阵的特征值和特征向量;然后选择合适的特征向量,投影得到数据的低维嵌入。如果相似度矩阵定义在一个给定的图上,比如图上的邻接矩阵、拉普拉斯(Laplacian)矩阵等,则称为谱图方法。近年来,随着谱图方法在流形学习中的深入研究,其应用也越来越广。JIANG等提出了一种新的监督流形学习算法——监督拉普拉斯特征映射(Supervised Laplacian Eigenmap,S-LapEig),用于提取高维故障数据中的内在流形特征[9]。与传统的降维方法主元分析(Principal component analysis,PCA)、线性判别分析 (Linear discriminant analysis,LDA)和Laplacian特征图算法相比,S-LapEig能大大提高分类性能。YU等采用局部保持映射算法提取有效的特征集,进而分别采用多变量统计量和基于高斯混合模型的轴承性能退化评估模型来评估轴承的性能退化,都取得了很好的效果[10,11]。谱图方法的特征提取和维数简约能力在机械故障诊断领域有了一些应用,但在数据故障模式直接分类识别上的应用尚未见研究。
拉普拉斯特征向量相关谱定义为拉普拉斯矩阵特征向量之间夹角余弦的绝对值,通过对拉普拉斯矩阵进行标准正交分解得到,其表示形式是一种对称矩阵,能清晰反映数据在全局范围内的相互关系。由于不同类别故障样本在特征空间的投影方向不同,所以可以用拉普拉斯特征向量相关谱来进行滚动轴承故障的模式识别。本文提出了基于拉普拉斯特征向量相关谱的模式识别方法,并将其应用于滚动轴承故障诊断。应用实例表明,基于拉普拉斯特征向量相关谱可以有效地识别滚动轴承故障,是一种有效可行的滚动轴承故障诊断方法。
1 拉普拉斯特征向量相关谱
1.1 谱图方法简介
谱图方法主要通过图的各种矩阵表示(主要是拉普拉斯矩阵和邻接矩阵)来研究矩阵的谱性质(如特征值和特征向量),从而刻画图中包含的信息,并通过几何、分析和代数的技术在离散空间和连续空间之间建立联系[12,13]。
设G=(V,E)是有n个顶点的简单图(不含环和重边),其中V=(v1,v2,…,vn)表示顶点集合,E=(el,e2,…,em)表示边集合。图G的邻接矩阵定义为一个n×n矩阵A(G)=(aij),其中当vi和vj相邻时aij=1;当vi和vj不相邻时aij=0。令d(vi)表示顶点vi的度,图G的拉普拉斯矩阵定义为
L(G)=D(G)-A(G)
(1)
式中D(G)=diag(d(v1),d(v2),…,d(vn))是图G的度对角矩阵。
拉普拉斯矩是建立在邻接矩阵的基础上,具有邻接矩阵不包含的顶点度信息,能更好地反映图中蕴含在顶点之间的关系。
1.2 拉普拉斯特征向量相关谱
本文在谱图理论的基础上,提出了拉普拉斯特征向量相关谱,定义为拉普拉斯矩阵特征向量间夹角余弦的绝对值。由拉普拉斯特征向量相关谱可构建对称的拉普拉斯特征向量相关谱矩阵,具体计算方法如下:
(1)用已知标号类别和未知标号类别的样本点构建一个近邻图G。总共m个样本点,其中,第i个节点对应样本xi。如果xi与xj足够近,则有边连接,例如,xi是xj的k近邻节点或者xj是xi的k近邻节点,否则,没有边连接;本文取k=m/2。
(2)如果节点i与节点j是连通的,即有边连接,则令(i,j=1,2,…,m)
Sij=exp(-d(xi,xj)2/2σ2)=exp(-d(xi,xj)2/t)
(2)
式中d(xi,xj)为样本xi与xj之间的欧式距离,σ为一个合适的常数,表示热核的宽度,在本文中令
式中t表示所有样本点之间的平均欧式距离;否则,没有边连接,Sij=0。加权矩阵S称为图G的相似矩阵,它用来衡量近邻样本点之间的相似性,描述了数据空间的固有局部几何结构;S中元素的值越大,表明两个样本越相近,越有可能属于同一类,反之,则越有可能属于不同类。
(3)定义单位向量
I=[1,…,1]T
(5)
对角矩阵
D=diag(SI)
(6)
则得到拉普拉斯矩阵矩阵[9]
L=D-S
(7)
其中I为m维单位向量。
(4)对半正定矩阵L求解其特征方程
|L-λI|=0
(8)
根据特征向量的定义(i,j=1,2, …,m)
Lφi=λiφi
(9)
令对角矩阵
γ=diag(λ1,λ2,…,λm)
(10)
正交矩阵
φ=[φ1,φ2,…,φm]
(11)
则可以得到
L=φγφT
(12)
(5)令由特征向量组成的单位正交矩阵
(13)
则将拉普拉斯矩阵标准正交分解为
L=ηTη
(14)
(6)拉普拉斯特征向量相关谱矩阵R第i行j列的元素R(ij)定义为(i,j=1,2,…,m)
(15)
式中ηki为单位正交矩阵的第i个特征向量的第k个元素;R(ij)为第i个样本与第j个样本的相关谱值,其物理意义为第i个样本与第j个样本在特征空间的夹角余弦的绝对值,用以衡量这两个样本间的相似程度。
(7)由于同类样本间的相关谱值远远大于不同类样本间的相关谱值,因此在相关谱矩阵R中定义一个阈值ε,对其进行处理得到优化后的相关谱矩阵R′
(16)
R′(ij)不为零表示第i个样本与第j个样本属于同一类,为零则表示第i个样本与第j个样本不属于同一类。由于相关谱矩阵是对称矩阵且只有有限种状态,因此根据同一行或者同一列的非0元素属于同一类的判别准则,观察矩阵的前若干行或者列就可以识别故障类别。
矩阵的构建和分解在谱图理论中起着很重要的作用,相关谱的表达形式也是一种矩阵,它通过标准正交分解拉普拉斯矩阵得到的特征向量来描叙样本间的相互关系。该方法无需对特征集进行筛选,分类精确度高,并且适用于小样本实验;同时,它将分类问题转化为求特征值问题,不需要迭代计算,具有计算过程简单、运算速度快等特点。相比神经网络而言,该方法不会依赖于使用者的经验知识,不存在考虑网络的稳定性以及泛化能力的问题;相比二分类的支持向量机而言,该方法可以进行多类故障分析,不需要考虑核函数及其参数调整对结果的影响。
由于不同类别故障样本在特征空间的投影方向不同,所以可以通过分析特征向量相关谱矩阵来进行滚动轴承故障的模式识别。
2 故障诊断原理
由以上分析可知,拉普拉斯特征向量相关谱可以对滚动轴承状态进行分类,进而诊断滚动轴承故障,其故障诊断流程见图1所示,该流程主要包括特征提取和模式识别两部分。
图1 故障诊断流程图
2.1 特征提取
当设备出现故障时,时域信号的幅值和概率分布将会发生变化;信号中的频率成分、不同频谱的谱峰位置也将发生变化。因此,通过描述信号时域波形和频域波形分布等特征,可以反映振动信号的时域和频域信息,从而指示故障的出现。为了获取更多的故障信息,用经验模态分解(Empirical mode decomposition,EMD) 方法对每个信号进行分解得到前若干个内敛模态分量(Intrinsic mode function,IMF),然后分别计算每个IMF的能量熵[14]。其能量熵的定义为
(16)
式中pi为第i个IMF的能量占整个信号能量的百分比(i=1,2,…,m)
(17)
式中E为整个信号的能量
(18)
这里综合利用时域、频域和能量熵的特征参数。首先,提取信号的11个时域特征参数(T1~T11)和频域的13个频域特征参数(F1~F13),然后用同样的方法提取Hilbert包络谱的13个频域特征参数,最后,计算IMF分量的能量熵得到6个特征参数,一共得到43个特征参数,其中时域和频域参数如表1所示。
表1 特征参数
2.2 模式识别
在对故障样本进行特征提取后,再利用拉普拉斯特征向量良好的映射能力,对故障数据样本的特征进行相关谱分析,将故障样本特征映射到特征空间蕴涵的几何关系作为分类特征,进而识别故障的类别。基于拉普拉斯特征向量相关谱的滚动轴承故障诊断方法主要步骤为:
(1)将监测对象采集到的数据经信号预处理构成振动信号的样本空间;
(2)分别提取振动信号时域、频域和IMF能量熵的特征,共计43个特征参数,组成特征空间;
(3)计算特征集的拉普拉斯特征向量相关谱,得到相关谱矩阵,组成模式空间;
(4)根据相关谱矩阵分类结果得到诊断信息。
本文方法的最大优点是直接对特征集进行处理,无须再进行故障特征选择,降低了故障诊断的难度。同时,由于故障样本的特征维数在相关谱矩阵中没有体现,从而使得诊断过程和结果直观易理解。
3 应用实例
3.1 滚动轴承故障识别
为了验证本文方法的有效性,用实测滚动轴承故障振动数据进行故障模式识别分析。试验数据采用美国Case Western Reserve University电气工程实验室的滚动轴承试验数据。测试轴承为6205-2RS JEM SKF深沟球轴承,电机负载约为735.5 W,轴承转速为1 772 r/min,试验使用电火花加工技术在轴承上布置单点故障,故障直径为0.355 6 mm,深度为0.279 4 mm,在此情况下采集到正常、内圈单点电蚀、外圈单点电蚀和滚动体单点电蚀4种状态的振动信号,信号采样频率为12 kHz,数据样本长度为2 048。用A,B,C,D四个字母分别代表轴承的正常、滚动体故障、内圈故障、外圈故障四种状态,其代表性振动加速度信号如图2所示。
图2 四种不同状态轴承振动信号的时域波形
由于诊断结果的表示形式是矩阵,所以本文仅分别取A,B,C,D四种状态的样本各5个,共计20个样本进行实验。在四种状态中各取1个样本作为已知样本,其余样本作为测试样本。
样本空间分两部分组成:前4个样本由已知样本按照A,B,C,D顺序排列;其余16个样本由测试样本随机排列,组成20×2 048的样本空间;其次,对其进行特征提取,每个样本提取43个特征,组成20×43的特征空间;最后,根据拉普拉斯特征向量相关谱的计算方法得到20×20相关谱矩阵R。由于R中大部分数值的数量级都在10-8以下,所以令阈值ε=10-8,取两位有效数字,得到优化后的相关谱矩阵R′,如图3所示。
在图3中,左上角的4×4单位矩阵表示4种状态的已知样本。由于相关谱矩阵是对称矩阵且只有4种状态,因此根据同一行或者同一列的非0元素属于同一类的判别准则,观察矩阵的前4列或者前4行即足以识别故障类别。以观察相关谱矩阵的前4列为例:第1列的第6,8,11,17个元素非0,同为A状态;第2列的第5,12,13,18个元素非0,同为B状态;第3列的第7,9,14,20个元素非0,同为C状态;第4列的第10,15,16,29个元素非0,同为D状态,与实际情况一致。可见,本文方法可以有效实现滚动轴承故障的分类识别。
3.2 不同故障程度的内圈故障识别
仍采用美国Case Western Reserve University电气工程实验室的滚动轴承试验数据。在同样的实验设备和条件下,内圈故障试验使用电火花加工技术在轴承内圈上布置单点故障,故障直径分别为0.177 8,0.355 6,0.711 2和1.422 4 mm,在此情况下采集到4种状态的内圈单点电蚀的振动信号,信号采样频率为12 kHz,数据样本长度为2 048。用B1,B2,B3,B4分别代表四种直径的内圈故障状态,其振动加速度信号时域波形如下图4所示。
图3 相关谱矩阵R′
取4种状态的样本各5个,共计20个样本进行不同故障程度的内圈故障识别实验。在4种故障状态中各取1个样本作为已知样本,其余样本作为测试样本。
图4 4种不同故障直径的轴承内圈故障振动信号时域波形
样本空间分两部分组成:前4个样本由已知样本按照B1,B2,B3、B4顺序排列;其余16个样本由测试样本按照故障类别的顺序排列,组成20×2 048的样本空间;其次,对其进行特征提取,每个样本提取43个特征,组成20×43的特征空间;最后,根据拉普拉斯特征向量相关谱的计算方法得到20×20相关谱矩阵RB。由于RB中大部分数值的数量级都在10-11以下,所以令阈值εB=10-11,取两位有效数字,得到优化后的相关谱矩阵RB′,如图5所示。
在图5中,左上角的4×4单位矩阵表示4种状态的已知样本,观察相关谱矩阵的前4列:第1列的第5,6,7,8个元素非0,同为B1状态;第2列的第9,10,11,12个元素非0,同为B2状态;第3列的第13,14,15,16个元素非0,同为B3状态;第4列的第17,18,19,20个元素非0,同为B4状态,与实际情况一致。可见,本文方法可以有效实现不同故障直径的滚动轴承内圈故障的分类识别。
4 讨 论
(1)在相关谱矩阵中任选1列(行)进行分析判断,有以下三种情况
a)该列(行)元素全部小于阈值ε,表明该列(行)不含有故障样本间的相关谱信息,所以不能用于故障的分类识别;
b)该列(行)元素中存在大于阈值ε的元素,但不含有已知样本的指导信息,所以只能进行样本的分类,不能进行样本故障类别的识别;
c)该列(行)元素中存在大于阈值ε的元素,且含有已知样本的指导信息,可用于样本故障类别的识别。
图5 相关谱矩阵RB′
本文滚动轴承故障识别应用实例中,滚动轴承状态类别有4种,因此,只有选取带有已知样本的4列或者4行才能完整地进行故障的分类和识别。
(2)滚动轴承状态特征集是由时域、频域、包络谱和IMF能量熵4部分共计43个特征参数组成。选取不同的特征参数,其分类精度也不同。以a,b,c,d四种特征集进行分析,其中特征集a只提取时域特征;特征集b提取时域和频域特征;特征集c提取时域、频域和包络谱特征;特征集d提取时域、频域、包络谱和IMF能量熵特征。对滚动轴承故障识别应用实例,4种特征集下选取的相关谱矩阵阈值ε如表2所示。
表2 不同特征集下的相关谱矩阵阈值
从表2可以看出,特征集a由于提取的特征太少,相关谱矩阵不能正确进行轴承故障分类;而与特征集b,c,d对应的相关谱矩阵均能正确进行轴承故障分类,且随着特征集提取的特征数的增加,相关谱矩阵分类的阈值相应减小,表明相关谱矩阵的分类精度也逐步提高。
(3)对滚动轴承故障识别应用实例取4个已知样本进行平行试验,其中测试样本分别取4个、8个和12个,分类结果和实际情况完全一致,进一步说明了方法的有效性。
5 结 论
本文提出了拉普拉斯特征向量相关谱,并将其应用于旋转机械故障诊断。该方法通过对原始故障信号进行特征提取,将复杂多维的原始样本空间投影到相互正交的特征空间,根据特征向量的相关谱矩阵进行故障判别与诊断。主要结论如下:
(1)拉普拉斯特征向量相关谱定义为拉普拉斯矩阵特征向量之间夹角余弦的绝对值,它是通过对特征集的拉普拉斯矩阵进行标准正交分解得到的,具有计算过程简单、运算速度快等特点。
(2)基于拉普拉斯特征向量相关谱的滚动轴承故障诊断方法根据相关谱矩阵中已知样本所在的行或列来进行故障的分类识别,随着特征集中特征数的增加,相关谱矩阵的分类精度也相应提高。该方法的特点是将故障模式识别问题转化为求解特征值问题,分类精度高。应用实例验证了该方法的可行性和有效性。
(3)应该指出,拉普拉斯特征向量相关谱的适用性依赖于具体问题,在故障诊断中的应用还存在算法控制参数的有效选择问题,如近邻参数k和热核参数t的选择等。如何自适应地选择最优参数尚需进一步研究。
参考文献:
[1] Diallo D, Benbouzid M E H, Hamad D, et al. Fault detection and diagnosis in an induction machine drive: A pattern recognition approach based on Concordia stator mean current vector[J]. IEEE Trans. Energy Convers, 2005,20(3):512—519.
[2] Beniz R, Sutera A, Vulpiani A. The mechanism of stochastic resonance[J]. The Journal of Physical A, 1981,14(11):4 453—4 572.
[3] HU Qinghua, LIU Jinfu, YU Daren. Mixed feature selection based on granulation and approximation[J]. Knowledge Based Systems, 2008,21(4):294—304.
[4] JACK L B, NANDI A K, MCCORMICK A C. Diagnosis of rolling element bearing faults using radial basis function networks[J]. Applied Signal Processing, 1999,6:25—32.
[5] Hyun Joon Shin. One-class support vector machines-an application in machine fault detection and classification[J]. Computers & Industrial Engineering, 2005,48:395—408.
[6] FEI Shengwei, ZHANG Xiaobin. Fault diagnosis of power transformer based on support vector machine with genetic algorithm[J]. Expert Systems with Applications, 2009,36(8):11 352—11 357.
[7] Andrew Y Ng, Michael Jordan, Yair Weiss. On spectral clustering: analysis and an algorithm[J]. Advances in Neural Information Processing Systems, 2001,14:849—856.
[8] 孔敏,汤进,罗斌.基于拉普拉斯图的谱特征的图像聚类研究[J].中国科学技术大学学报,2007,37(9):1 125—1 129.KONG Min, TANG Jin, LUO Bin. Image clustering based on spectral features of Laplacian graph[J]. Journal of University of Science and Technology of China, 2007,37(9):1 125—1 129.
[9] JIANG Quansheng, JIA Minping, HU Jianzhong, et al. Machinery fault diagnosis using supervised manifold learning[J]. Mechanical Systems and Signal Processing, 2009,23(7):2 301—2 311.
[10] YU Jianbo. Bearing performance degradation assessment using locality preserving projections[J]. Expert Systems with Applications, 2001, 38(6):7 440—7 450.
[11] YU Jianbo, LIU Meifang, WU Hao. Local preserving projections-based feature selection and Gaussian mixture model for machine health assessment[J]. Proceedings of the Institution of Mechanical Engineers, Part C, Journal of Mechanical Engineering Science, 2011,225(7):1 703—1 717.
[12] Chung F R K. Spectral Graph Theory[M]. Fresno: American Mathematical Society, 1997.
[13] Mari C V Nascimento, Andr C P L F De Carvalho. Spectral methods for graph clustering: A survey[J]. European Journal of Operational Research, 2011,211(2):221—231.
【复杂网络的特征谱及其应用】推荐阅读:
复杂社会网络07-24
复杂网络理论08-13
复杂电力网络08-21
复杂网络方法10-28
复杂物流网络12-01
项目管理中的复杂网络05-21
复杂型网络故障07-03
中小企业集群复杂网络09-19
较复杂的分数乘法应用题06-04