在线极限学习机

2024-07-24

在线极限学习机(共3篇)

在线极限学习机 篇1

1 引言

在线顺序极限学习机OS-ELM (online sequential extreme learning machine) 是在2006年由Liang等人提出的[1]。传统的极限学习机不能处理批量数据, 而在实际应用中, 训练数据往往是批量或者一个一个到达的[2]。因此, 必须对极限学习机进行修改, 使它能够在线连续的进行批处理, 在线顺序极限学习机应运而生。它的学习速度比SVM[3]提高了10多倍[4], 因而在很多领域都有应用, 比如数据拟合和分类[5]、预测[6,7]、动态噪声控制[8]等。

虽然OS-ELM的运行速度快, 但其在测试集上的准确率会随着输入数据的不同而变化很大, 稳定性不好。为了改善OS-ELM的不足, 文献[9]提出了集成在线顺序极限学习机EOS-ELM (ensemble of online sequential extreme learning machine) 的概念。集成在线顺序极限学习机是将多个具有相同隐层结点数和相同激励函数的在线顺序极限学习机集成起来, 并且采用某种决策策略, 如文献[9]采用的决策策略是平均值法, 对多个在线顺序极限学习机的输出结果进行仲裁以决定最终的集成结果, 而不是以单一在线顺序极限学习机的分类结果作为最终结果[10]。EOS-ELM的参数主要有OS-ELM个数、输入层结点个数、隐层权重、隐层结点偏置、隐层结点个数、隐层结点的激励函数、初始化时的训练样本数。由于EOS-ELM的参数较多, 传统的EOS-ELM不考虑单个OS-ELM的性能而是对单个OS-ELM设置相同的集成权重, 测试准确率和稳定性虽然比单个的OS-ELM好, 但是测试准确率和稳定性仍然不高。

因此, 本文提出一种新的集成规则。先根据单个OS-ELM在验证集上的分类准确率来选择OS-ELM构成集成系统;再根据被选择的OS-ELM在验证集上的分类准确率来设置集成系统中每个OS-ELM的集成投票权重。这样就构成了含有较少在线顺序极限学习机并且采用加权投票法作为集成决策的集成在线顺序极限学习机。

2 集成在线顺序极限学习机

2.1 在线顺序极限学习机

在线顺序极限学习机在文献[1]中首次被提出。它的主要目的是解决数据的非顺序到达, 能够批量处理数据。在线顺序极限学习机和一般的极限学习机[11]一样可以看成是三层, 包括输入层, 隐层和输出层。在线顺序极限学习机在处理数据时, 首先要设定隐层结点数和激励函数, 随机生成隐层权重和偏置, 然后利用广义逆矩阵的思想求出输出权重[12]。

假设有N个输入样本, 第j个样本设定为{ (xj, tj) xj∈Rn, tj∈Rm, j=1, 2, …, N}, M个隐层结点, 激励函数为G () , 随机生成的隐层权重和偏置分别为ai和bi, 第i个隐层结点的输出权值为βi。其中n为总的输入样本数, m为样本类别。对第j个样本, 第i个隐层结点来说, 隐层输出为G (ai, bi, xj) 。对N个样本, M个隐层结点来说, 输出层的输出结果[9]如下

公式 (1) 可以写成Hβ=T的形式, 其中,

在线顺序极限学习机的训练过程分为两个阶段[9]。具体如下:

初始化阶段:从整个训练集中选取一部分训练数据N0个, 并且N0≥M。

(1) 随机生成隐层权重ai和偏置bi, 计算隐含层输出矩阵H0。

(2) 计算初始输出权值β0=P0H0TT0。其中,

(3) 令k=0, 表明将要训练的数据进入了在线顺序极限学习机。

连续学习阶段:k+1个新数据到达极限学习机, 用Xk+1表示。

(1) 计算隐含层输出矩阵Hk+1。

(2) 计算输出权重βk+1。

其中,

(3) 令k=k+1, 返回连续学习阶段。

2.2 集成在线顺序极限学习机

文献[13]中提到一种实用的肿瘤样本分类软件的基础架构, 对其稍加泛化可以成为集成在线顺序极限学习机的基础框架, 其框架如图1。

其中, L代表在线顺序极限学习机的个数, 每个在线顺序极限学习机之间都具有一定的差异性。集成决策主要解决怎样将每个在线顺序极限学习机的输出结果集成, 可以采用平均值法。由上述框架可以看出, L个在线顺序极限学习机首先在某个数据集上测试, 得到相应的输出结果, 然后, 按照平均值法将输出结果进行集成。

3 本文提出的改进算法

3.1 在线顺序极限学习机的选择

EOS-ELM在所有训练样本上进行训练, 从而影响每个OS-ELM的泛化性能。本文将训练集按一定的比例分成训练集和测试集。集成系统中的单个在线顺序极限学习机必须满足以下两个原则:一是单个在线顺序极限学习机的精确度要高, 二是在线顺序极限学习机之间要具有差异性[14]。差异性在很大程度上影响着集成系统的集成效果。一般情况下, 单个在线顺序极限学习机的输出结果越好、差异性越大, 整个集成系统的输出结果就越好。

设有L个在线顺序极限学习机, 训练过程运行t次, 求出在线顺序极限学习机运行t次后的最大验证准确率, 将这L个最大验证准确率从大到小排列, 选出前L0个验证准确率较大的在线顺序极限学习机来集成系统, L0

通过优选使得集成在线顺序极限学习机的数量减少, 保证了运行时间的减少。另一方面, 算法选取的是验证准确率较高的几个在线顺序极限学习机, 舍弃了验证准确率较低的在线顺序极限学习机, 集成输出结果也会更好。

3.2 集成决策的改进

用N1表示训练样本数, N2表示验证样本数, N3表示测试样本数, m表示样本类别, L0表示集成系统OS-ELM个数, Yi表示OS-ELM在验证集在上的分类准确率。表示第i个OS-ELM在测试集上的输出, 其中i=1, 2, …, L0。通过每个OS-ELM在验证集上的分类准确率来得到该OS-ELM对应的集成投票权重wi, 如下:

那么, 在测试过程结束后, 每个OS-ELM在测试集上的输出TYi就为公式 (12)

集成系统在测试集上的输出就为公式 (13)

这样的集成决策目的是对每个在线顺序极限学习机设置不同的集成投票权重。验证准确率较小的在线顺序极限学习机得到的投票权重较小, 对整个集成系统的性能影响较小;验证准确率较大的在线顺序极限学习机得到的投票权重较大, 对整个集成系统的性能影响较大。

4 实验结果

4.1 数据集

本文共选取了四个benchmark数据集[15]来验证算法的性能。表1对四个数据集进行了相关描述。实验中将训练集按照3:2的比例分为训练集和验证集。

4.2 实验结果与分析

本文采用改进算法对上述四个数据集做了仿真实验, 集成系统在四个数据集上各运行50次, 仿真实验的相关参数[9]如表2。

在上述参数选择下, 本文用提出的改进集成算法对四个数据集做了实验, 得出集成在线顺序极限学习机在四个数据集上的训练准确率, 测试准确率和测试准确率标准差, 并且将改进算法与其他算法做了比较[9], 具体实验结果如表3和图2。从表3可以看出, 在相同的参数下, 本文提出的改进算法在四个数据集上得到的测试准确率较高, 表明本文提出的集成在线顺序极限学习机分类准确率高;测试准确率标准差较小, 表明本文提出的集成系统稳定性好。对Image Segmentation数据来说, 使用本文算法得到的测试准确率, 比用OS-ELM、EOS-ELM、OS-RWELM[12]算法得到的测试准确率都要高。OS-RWELM在Image Segmentation数据集上的测试准确率为94.53%。对Zoo数据来说, 即使隐层结点数和在线顺序极限学习机个数相对较少, 使用本文算法也能得到96.33%的测试准确率。

由图2也可以看出改进的集成系统在Image Segmentation和Satellite Image数据集上每次运行的测试准确率相差不大, 稳定性高, 而在Wine和Zoo数据集上的测试准确率较高, 但变化幅度较大, 稳定性不高。出现这种结果的原因是, Image Segmentation和Satellite Image数据集具有大量的样本, 而Wine和Zoo数据集的样本相对较少。

表4列出了集成系统在Wine、Zoo和Image Segmentation数据集上的测试准确率随在线顺序极限学习机个数和隐层结点数变化的实验结果。由表4可以看出, (1) 即使是在隐层节点数和在线顺序极限学习机的个数相对较少的情况下, 集成系统在三个数据集上的测试准确率也较高。 (2) 在隐层结点数固定的情况下, 测试准确率随着极限学习机个数的减少呈下降趋势。同样, 在极限学习机个数固定的情况下, 测试准确率随着隐层结点数的减少呈下降趋势。

本文依据在线顺序极限学习机在验证集上得到的分类准确率来选取学习机。验证准确率较小的在线顺序极限学习机在测试过程中被舍弃, 只保留验证准确率较大的在线顺序极限学习机。为了验证这样选择出来的在线顺序极限学习机比随机选取的在线顺序极限学习机的集成性能更优, 不失一般性, 本文在Wine、Zoo和Image Segmentation数据集上对两种选择学习机的方法做了比较。通过验证准确率选择出来的OS-ELM和随机选取出来的OS-ELM在三个数据集上各运行30次, 得到的测试准确率分别如图3、图4和图5。由三个图可以看出, 利用本文方法选择的在线顺序极限学习机要比随机选取出来的在线顺序极限学习机得到的平均测试准确率要高。同时, 通过本文方法选择的在线顺序极限学习机得到的测试准确率波动幅度小, 比随机方法选择的在线顺序极限学习机要稳定。

5 结束语

为提高集成在线顺序极限学习机的分类准确率和稳定性, 本文提出一种新的集成算法。先根据在线顺序极限学习机在验证集上的分类准确率来选择在线顺序极限学习机以构成集成系统。再根据集成进来的在线顺序极限学习机在验证集上的分类准确率设置该学习机的集成投票权重, 验证准确率高的在线顺序极限学习机对集成系统的分类准确率影响大, 获得的集成投票权重较大。实验表明, 本文提出的集成在线顺序学习机不仅分类准确率高, 所需在线顺序极限学习机个数少, 同时还具有较好的稳定性。

在线极限学习机 篇2

人工神经网络是生物神经网络的数学模型,简称神经网络。而前馈神经网络是神经网络中一种典型的分层结构,其中单隐层前馈神经网络SLFNs(single hidden layer feedforward networks)因其算法简单、容易实现,且具有强大的非线性辨识能力而受到特别的重视[1]。SLFNs最常用的学习方法是BP算法[2]和支持向量机SVM算法[3],BP算法在应用过程中需要对权重、偏差等大量参数进行设置,并且存在训练速度慢、易陷入局部极值、过拟合等问题,支持向量机尽管较BP神经网络运算时间短、精度高,但是其同样需要进行多参数的选择,如核函数、惩罚系数、误差控制等。

近年来,Huang为SLFNs提出了一种称为极限学习机ELM的学习方法[4-8]:设置合适的隐藏层结点数,为输入权值和隐藏层偏差进行随机赋值,然后通过最小二乘法得到输出层权值。整个过程一次完成,无需迭代,极限学习机在保证网络具有良好泛化性能的同时,极大地提高了学习速度,同时避免了由于梯度下降算法产生的问题,如局部极小、过拟合、学习时间长、需要大量的参数设置等[2,9]

在极限学习机的基础上,Liang等人于2005年提出了一种在线学习的增量算法OS-ELM[10]。该算法可以在新样本到来的时候,通过更新输出权值矩阵来完成网络的更新,而无需重新训练整个网络,具有学习速度快等优点。

在极限学习机的实际应用中,如果在训练网络完成后,发现一些影响网络质量的数据:如“脏数据”、重复数据,需要对其进行剔除,从而优化网络结构。如果直接利用极限学习机重新训练,这会增加很多额外的训练时间。受文献[10]的启发,本文提出了一种在线负增量学习算法,当剔除这些“脏数据”后,不需要再重新训练整个网络,而只需在原有的基础上,通过更新外权矩阵来完成网络的更新,从而减少运算代价,提高执行速度。本文分别从算法复杂性和仿真实验两方面分析验证该负增量算法比传统的极限学习机算法具有更好的执行速度。

1 极限学习机简介

极限学习机是一种基于SLFNs的高效学习算法。对于SLFNs[11],假设有N个样本(xi,ti),

xi=[xi1,xi2,…,xin]T∈Rn,ti=[ti1,ti2,…,tim]T∈Rm则有L个隐藏结点的SLFNs可以表示为:

其中ai=[ai1,ai2,…,ain]T是连接第i个隐藏层结点的输入权值;bi是第i个隐藏层结点的偏差;βi=[βi1,βi2,…,βim]T是连接第i个隐藏层结点的输出权值;ai·xj表示ai和xj的内积,激励函数g(x)可以是任意有界的非常量连续函数。

如果g(x)无限可导,理论上SLFNs能以一个极小的误差逼近N个训练样本[5],且对于任意给定的ai和bi,有:

上述N个方程的矩阵形式可写为:Hβ=T,其中,H是该神经网络隐藏层结点的输出矩阵,β为输出权值矩阵,T为期望输出,具体形式如下:

在极限学习机算法中,隐藏层的输入权值ai和阈值bi可以随机给定,因此只需求出输出权值矩阵β即可完成网络的训练,输出权值矩阵β可由式(4)得到:

2 在线负增量算法及其应用

对于SLFNs,由式(4)可知:,其中H+=(HTH)-1HT,则式(4)可表示为:

现有N=N0+N1个训练样本(xi,ti),i=1,2,…,N,个测试样本,则由极限学习机训练,可得训练样本的隐层结点输出矩阵Htrain,期望输出Ttrain,测试样本的隐层结点输出矩阵Htest,且由式(5)可得输出权值矩阵β(1)=(HTtrainHtrain)-1HTtrainTtrain,从而求得测试样本的实际输出Told=Htestβ(1)。

在训练网络后,如果发现其中有N1个影响网络性能的“脏训练样本”,为了提高网络的质量,则需要剔除这N1个“脏数据”。设N1个“脏数据”的隐层结点输出矩阵是H1,期望输出是T1;剩余的N0个训练样本的隐层结点输出矩阵是H0,期望输出是T0,输出权值矩阵是β(0),则可得:

则由式(5)可得:

令:

则:

可得:

由式(5)、式(12)可得剔除“脏数据”样本后,由文中提出的在线负增量算法得到的输出权值矩阵β(0)表达式:

对应地,如果直接用传统的极限学习机算法重新训练剩余的N0个训练样本,则可得极限学习机得到的输出权值矩阵β(0)表达式:

则由文中在线负增量算法可得个测试样本的实际输出为:

对应地,则由传统的极限学习机算法可得个测试样本的实际输出为:

2.1 算法时间复杂性分析

下面对本文提出的算法与传统的极限学习机算法进行复杂性比较。

对于在线负增量算法:

其中,Told在剔除“脏数据”样本之前已求得,令Tap=Htestk0-1H1T(H1β(1)-T1),则Tnew的计算量与Tap的计算量近似。再令Teq=Htestk0-1H1TH1β(1),显然Teq的计算量大于等于Tap的计算量,进而可得Teq的计算量不小于Tnew的计算量,下面统计Teq的计算量。Teq可以表示如下:

则H1的计算量是:LN1n;

H1TH1的计算量是:L2N1+LN1n;

(HT1H1)β(1)的计算量是:L2m+L2N1+LN1n;

k-10的计算量是:L3;

k0-1((H1TH1)β(1))的计算量是:

Htest(k0-1((H1TH1)β(1)))的计算量是:

即Tnew的最大计算量:

对于极限学习机:

则H0的计算量是:LN0n;

H0TH0的计算量是:L2N0+LN0n;

(HT0H0)-1的计算量是:L3+L2N0+LN0n;

HT0T0的计算量是:LN0m;

(H0TH0)-1H0TT0的计算量是:

Htest((H0TH0)-1(H0TT0))的计算量是:

即Telm的计算量:

则可得:

只要N0>N1+m,则Q2>Q1,即只要剔除“脏训练数据”后的剩余训练数据个数大于剔除样本个数与网络输出维数之和(一般情况下,当训练样本较大时,该条件易满足),就可以得到Tnew计算量小于Telm的计算量,也就是相对于传统的极限学习机算法,本文算法提高了执行速度。

2.2 仿真实验

本文通过仿真实验结果验证在线负增量算法的优良性能。实验的运行环境是Matlab 2013a,CPU主频是2.2 GHz,RAM4.00 GB。神经网络激励函数是“Sigmoid”函数:g(x)=1/(1+exp(-x)),人工数据“Sin C”的表达式如下:

在回归的实验中,用的数据集是:人工数据“Sin C”,UCI数据库中的abalone数据集[12]和wine quality数据集[13];实验数据的输入归一化到[-1,1],实验数据的输出归一化到[0,1]。在分类的实验中,用的数据集是:handwritten digits数据集、satellite image数据集[12]和image segmentation数据集[12];实验数据的输入归一化到[-1,1],数据集具体信息见表1所示。

表1 数据集信息

2.2.1 回归问题

在回归问题的应用中,测试结果包括本文算法和极限学习机求解测试样本的实际输出与期望输出的均方根误差RMSE(root-mean-square error),以及两种算法求解测试样本实际输出所需的时间。在实验中,采用的数据集是:人工数据“Sin C”、abalone数据集[12]和wine quality数据集[13],隐层结点个数均是200,见表1所示,其中人工数据“Sin C”是在区间(-10,10)内随机产生5000个训练样本和2000个测试样本。

当剔除训练样本时,输入权值矩阵和阈值随机产生,且随机进行10次实验并将两种算法平均的RMSE进行统计。从表2可以看出,当剔除相同数量的样本时,两种算法的RMSE近似相等,且均比较小,表明当剔除训练样本后,两种算法都具有较好的泛化性能。图1给出了这两种算法的测试时间,可见本文提出的算法比传统的极限学习机算法所需时间少。

表2 两种算法的测试结果的均方差(RMSE)

图1 两种算法的测试结果所需时间

2.2.2 分类问题

在分类应用中,测试结果包括两种算法求解测试样本实际输出的分类正确率,以及求解测试样本实际输出所需要的时间。实验选用的数据集是:handwritten digits数据集、satellite image数据集[12]和image segmentation数据集[12],隐层结点个数分别是250、500、200,见表1所示。

当剔除训练样本时,输入权值矩阵和阈值随机产生,且随机进行10次实验并将两种算法平均的分类正确率进行统计,见表3所示。从表3可以看出,当剔除相同数量的样本时,两种算法的分类正确率相差无几,并且handwritten digits数据集的分类正确率均在86%以上,satellite image数据集的分类正确率则在88%以上,而image segmentation数据集的分类正确率高达95%以上。图2给出了这两种算法的测试时间,可见本文的在线负增量算法比传统的极限学习机算法所需时间少,执行速度快。

表3 两种算法的测试样本分类正确率(%)

图2 两种算法的测试结果所需时间

3 结语

组合降采样极限学习机 篇3

目前类数据不平衡的实际问题已经越来越受到关注,也有许多解决方法被提出。这些解决方法按操作对象可以大致分为两类:

一是单纯对类数据操作的解决方法:这种方法往往是通过调整输入分类器的多数类、少数类的数量或分布,而尽量使输入的训练样本各类数据是平衡的。最简单的方法就是对数据进行重新采样,如对多数数据进行随机降采样。但这种方法抛弃了一部分负样本,对样本选择的依赖性较强;除降采样外Chawla等人提出了一种对少数数据过采样的方法,即SMOTE(Synthetic Minority Over-sampling Technique)[2]。这种算法通过人工构造少数类样本来增加正类样本的数量,从而减少数据失衡程度。SMOTE常与SVM组合形成SMOTE-SVM。同其它重采样方法相比,SMOTE方法对数据的预处理更为有效。但它也存在一些缺点:SMOTE在过采样时往往是通过在已有少数样本遵照一定规则进行内部差值[3],但这些产生的样本并不是从实际情况中得到的真实样本,重新生成的样本会与实际样本分布情况不符。而且过采样会产生大量的数据,增加了学习的复杂度和耗时。

二是对分类器进行集成的解决方法:这种方法通过集成多个基分类器共同决策,降低单个分类器在处理样本时的偏差。Pilsung Kang等人在2006年提出了一种简单的支持向量机(SVM)组合结构,即EUS SVMs(Ensemble of Under-Sampled SVMs)[4],这种方法将多数类随机采样分成N组,使每组的负样本与已有正样本数量基本平衡。再将每组负样本与所有正样本合并成一组学习样本,分别输入N个SVM分类器中,其结构如图1所示。这种方法的优点是它使用了所有的原始真实样本,组合的分类器功能更加稳定,降低了单个分类器的分类偏差,而且样本数没有增加,学习复杂度没有提高。然而,比起其他机器学习方法,SVM需要消耗大量时间来进行参数调整和训练[5]。而EUS SVMs将几个SVM并联,其学习时间消耗更大。

因此,针对EUS SVMs的不足,本文中将提出一种新的针对不平衡数据集的集成分类器,即组合降采样极限学习机(EUS ELMs)。保留EUS SVMs的分类器级联结构,但采用一种新的学习机———极限学习机(ELM,Extreme Learning Machine)[6]替代SVM,既保持了这种组合结构分类器的分类效果稳定性,又降低了分类的耗时。

1 ELM算法基本原理与组合降采样极限学习机

1.1 ELM的基本原理

ELM是一种起源于BP神经网络的简单学习算法,该算法中隐层节点参数随机选取,无需调节,网络参数的确定过程无需任何迭代步骤,降低了参数调节时间,并克服了传统神经网络容易陷入局部最优的不足。ELM的基本原理如下[7]:

设有一个具有L个隐层神经元的单隐层神经网络,对于N个确定的互异的数据样本(X,T),若单隐层神经网络可以零误差逼近样本数据,G为激励函数,即存在ai,bi(即隐层节点参数)和βi(连接第i个隐层和网络输出之间的外权),使第j个输入样本的输出函数满足下式:

矩阵形式为:

其中,H为神经网络隐层输出矩阵,它的第i列是关于输入x1,x2,…,xN的隐含层节点输出。在实现过程中,由于样本个数远大于隐层节点数,网络很难以零误差逼近样本,因此会有误差E的存在,所以式(2)需改写如下:

由上式可以得到平方损失函数:

因此训练参数的任务变为求解使得J最小的β。在隐层输出矩阵列满秩的情况下,可利用Moore-Penrose广义逆求解出最优外权β。

1.2 EUS ELMs算法

图2为EUS ELMs的结构图。EUS ELMs继承了EUS SVMs的组合降采样结构,它首先对多数样本(FP data)进行随机降采样,分割成N个子样本FPi(i=1,…,N)。再将这N个子样本分别与少数样本TP data组合成N个训练集Traini(i=1,…,N),用这些训练集训练N个ELM学习机。建立起分类模型后,对于一个测试样本,每个ELM学习机都将给出一个分类结果,这时就需要一个决策方案根据这N个结果做出最后决定。

本文中,由于各个分类器的输入训练负样本都是随机选取的,认为这四个分类器重要性相同,投票的权重一致。在实际应用中,不同情况下往往对分类器的效果需求也不同,有时需要分类器各项指标(准确率,灵敏度即正样检出率,特异性即负样检出率)较为平衡,而有时,尤其是在医学应用中,为避免对病灶的漏检,往往需要对阳性样本给予更多关注。本文设计了一种简单的决策阈值方法,设置一个决策值D,对于一个测试样本,第i个学习机投出的结果为Scorei(为正样时记为1,负样时为0),当时,这个样本被认为是一个正样本,否则为一个负样本。通过调节决策值D,可以调整分类器对少数样本(正样)的关注程度,D越小则对正样的关注度越高。

2 实验与分析

本文中将对降采样SVM,SMOTE-SVM,EUS SVMs,和EUS ELMs的性能包括分类准确度、灵敏度和特异性进行比较。测试所用数据为数字乳腺X线图像数据库[8](DDSM:Digital Database for Screening Mammography)中取得的疑似肿瘤样本。共有401个经过医师确诊并标记的肿瘤正样本和1549个负样本,正负样本比例约为1∶4。对这些肿块区域依据文献[9]和文献[10]共提取肿瘤形状、尺寸、纹理等特征34维。随机选取样本中1/4的数据作为测试数据(即100正样本和387负样本),而其余3/4的数据作为训练数据。

在降采样SVM中,直接对负样本进行随机1/4降采样。SMOTE-SVM中,对训练集中少数样本进行最近4邻域内部差值,使正样本数量扩大四倍。再用这个经过调整的训练集对SVM进行训练。

在组合降采样结构中,由于共有四个学习机并联,因此将决策阈值D分别取[1,2,3,4],得出对正样本关注度不同的四组分类结果。文中所有SVM均使用径向基函数作为核函数,损失参数C及核参数gamma通过10折交叉验证网格搜索在[2-5,25]范围内寻找最佳。而ELM仅需要设置隐层节点数。在[10,100]范围内以10为步进并用10折交叉验证搜索最佳节点数。ELM的激励函数选择Sigmoidal函数。

表1-3分别显示了直接在不平衡数据集上使用SVM学习机,在降采样数据集上使用SVM,SMOTE-SVM、EUS SVMs,EUS ELMs的训练及分类时间。主要使用以下几个指标来衡量分类器性能:

耗时=训练时间+测试时间

实例和研究结果表明,在不平衡数据集上直接使用分类器时,分类器会偏向多数样本,导致对少数样本的关注度不足;降采样SVM在分类效果上明显优于在不平衡数据集上使用分类器,但训练分类器时对降采样样本的选择依赖性较大,特别是多数和少数样本比例越悬殊时,降采样多数样本引起的不稳定性就越高;而SMOTE-SVM虽然对少数样本进行了过采样,通过对正样本插值使正样本在数量上与负样本平衡,但从分类表现上来看,SMOTE-SVM的效果只比直接在不平衡样本上使用SVM略有提高,而且低于降采样SVM。这是由于人为产生的正样本很难与实际分布情况相符,并不能大幅度提高分类器的性能。因此在使用SMOTE-SVM时,一定要根据样本的分布设计过采样算法,但样本的分布是很难估计的。此外,由于增加了样本,其分类的耗时也大大增加了。

遵从组合降采样结构的EUS SVMs和EUS ELMs的总体分类效果基本相当。这种结构很好地平衡了分类器对多数和少数样本的关注度。使用了全部的多数样本,避免了改变样本的空间分布。通过调节决策值D可以调节分类器对正样本和负样本的关注度。当D=2,3时,分类效果总体高于前几种分类方法。一般来说,D=N/2时,正样本和负样本获得的关注度相当,灵敏度和特异性比较平衡。而D越小,则对正样本的关注度越高,越将获得更好的灵敏度。在使用这两种分类器时,用户可以根据实际要求,调节决策值D,从而获得不同性能的分类器。

对比EUS SVMs和EUS ELMs,EUS ELMs的各项指标与EUS SVMs相当,但EUS ELMs的耗时只有约为EUS SVMs的1/7,而且少于降采样SVM。由于组合降采样结构需要根据正负样本比例并联不同数量的分类器,当正负样本比例悬殊(正样本远远小于负样本)时,可能需要并联多个分类器,这时分类器的分类效率就十分重要了,这种情况下使用EUS ELMs可以在保证分类效果的同时大大降低耗时,而且参数选择也更加简便。

3 结束语

本文设计了一种组合降采样极限学习机(EUS ELMs)。它继承了组合降采样支持向量机(EUS SVMs)的组合结构,在不平衡数据集上可以达到很好的分类效果。由于ELM在相近的条件下,训练的时间和空间消耗均小于SVM,因而EUS ELMs在运算速度上大大超过EUS SVMs,在正负样本比例悬殊,需要多个训练器并联时,拥有更好的效率优势,而且参数选择简便,因此EUS ELMs在解决不平衡样本分类上拥有更好的应用前景。

参考文献

[1]李勇,刘战东,张海军.不平衡数据的集成分类算法综述[J].计算机应用研究,2014,13(5):1287-1291.

[2]Nitesh V Chawla,Kevin W Bowyer,Lawrence O Hall,et al.SMOTE:Synthetic Minority Over-sampling Technique[J].Journal of Artificial Intelligence Research,2002:321-357.

[3]李江,金辉,刘伟.基于分形SMOTE重采样集成算法圈定区域化探异常[J].计算机应用研究,2012,29(10):3744-3747.

[4]Pilsung Kang,Sungzoon Cho.Ensemble of Under-Sampled SVMs for Data Imbalance Problems[C].International Conference on Neural Information Processing,2006.

[5]蔡磊,程国建,潘华贤.极限学习机在岩性识别中的应用[J].计算机工程与设计,2010,31(9):2010-2012.

[6]Guang-Bin Huang,Lei Chen,Chee-Kheong Siew.Universal Approximation Using Incremental Constructive Feedforward Networks With Random Hidden Nodes[J].IEEE TRANSACTIONS ON NEURAL NETWORKS,2006,17(4):879-892.

[7]王智慧.BP神经网络和ELM算法研究[D].杭州:中国计量学院,2012.

[8]Heath M,Bowyer K,Kopans D.The Digital Database for Screening Mammography[C]∥Proceedings of the Fifth International Workshop on Digital Mammography,Medical Physics Publishing,2001:212-218.

[9]Cascio D,Fauci F,Magro R,et.al.,Mammogram Segmentation by Contour Searching and Mass Lesions Classification With Neural Network[J].IEEE TRANSACTIONS ON NUCLEAR SCIENCE,2006,53(5):2827-2833.

上一篇:深基坑支护与土方开挖下一篇:班主任工作的几点体会