最小支持向量机

2024-09-12

最小支持向量机(精选12篇)

最小支持向量机 篇1

1 引言

近年来,支持向量机(SVM)的优异表现引起了广泛的研究兴趣。其基本思想是,构造一个最优超平面,并用其将两类样本点分开,使得同一类的点尽可能被分到同一侧并且保证分割间距最大。理论证明,这样的最优超平面保证了样本点分类的错误风险最小。常规的SVM需要计算一个二次规划问题,其时间复杂度是O(m3),空间复杂度是O(m2),m是训练样本个数。当样本数很大时无论在时间还是空间上都会达到让人无法忍受的程度。

Tax等[1]对单类数据提出了支持向量域描述(Support Vector Domain Description,即SVDD),SVDD的主要思想是要找到包含一类数据的超球,并且使其半径尽量小。本文我们参考SVDD算法,提出一种基于最小包围球(minimum enclosing ball,即MEB)的超球SVM简化算法。该算法对每一类样本数据单独构造超球,显著的降低了二次规划的复杂程度,所以可以处理的样本规模大、算法的复杂性小。并且对于多分类数据,每一类用一个超球来界定,不同类的数据形成不同的最小超球。当增加新类别的样本数据时,只需要构造新类别对应的超球,具有易于扩充的优势。

论文的其余部分组织如下:第二节介绍SVDD算法及其基本思想,第三节介绍本文提出的最小超球简化支持向量机,第四节给出实验结果。

2 SVDD方法介绍

SVDD方法是针对一类(one-class)问题的支持向量学习方法。该方法是,对于给定训练数据集S={xi}mi=1,其中xi∈Rd,在特征空间中寻找一个超球B(c,R),球心为c,半径为R。并且要使寻找到的超球达到两个目标(1)半径尽可能小;(2)包围所有数据点。则要解决的原问题可以表示如下:

其中ζi是松弛因子,C是惩罚系数,是控制最小包围球半径和错分点的一个折衷。

式(1)对应的对偶问题表示如下:

其中K(xi,xi)是核函数。那么,在此特征空间中,超球球心c和半径R的计算公式表示为:

3 基于最小包围球的支持向量机分类算法

给定数据集S={xi,yi}mi=1,其中xi∈Rd,yi是样本类别。对于每一类,我们可以看作一个SVDD问题,就是寻找一个超球B(c,R),半径尽可能小并且包围尽可能多的数据点,这里对n类问题,就是求n个超球B1(c1,R1),B1(c2,R2),…,Bn(cn,Rn)。传统方法寻找精确包围所有点的最小包围球问题,在维度d>30时,效率低下。因此,我们采用一个快速近似算法,算法返回的是最优化值的一个1+ε(ε>0)的近似解,即一个近似最小包围超球。对于数据集S中的某类样本Bi,包围该类样本所有数据点的最小超球记为MEB(Bi)。对于给定的ε>0,球B(c,(1+ε)R)是MEB(Bi)的一个(1+ε)近似,其中R

3.1 最小包围球求解过程

求解最小包围球的步骤可以简单描述如下:

第一步:初始化。确定圆心和半径。

第二步:检查有没有训练点落在超球外。如果没有,终止。如果有,继续下一步。

第三步:寻找距离超球最远的点,加入超球中。

第四步:更新核集,求超球,转第二步。

下面详细介绍每一步的求解过程。

1)初始化。确定圆心和半径。

好的初始化,会导致较少的更新,本文采用Kumar等[2]人采用的策略,任意取一个点x,然后在训练样本中找出距离x最远的点,记为xα,之后再寻找另一个距离xα最远的样本点,记为xb,初始化核集设为S0={xα,xb},此时核集中有两个点,显然有球心c0=1/2(φ(xα+φ(xb)),半径R0=1/2||φ(xα)+φ(xb)||

2)检查有没有训练点落在超球外。如果没有,终止。如果有,继续下一步。

检查有没有点落在超球外,对所有非核集中的训练样本,需要计算因此有

如果所有点满足||ct-φ(xl)||≤(1+ε)R,即所有样本点都已处于超球中,则终止,否则继续。

实际计算中找出对应的点xl,其为到球心最远的点。然后计算其到球心的距离后和(1+ε)R进行比较。

3)寻找距离超球最远的点,加入超球中。

这一步是寻找处于超球外面的点,处在超球外面的点可能不止一个,可以任选一个加入,这里采用贪婪算法的策略,选择距离超球球心最远的点,即满足

4)更新核集,求超球,转第二步。

每一轮迭代加一个点到核集中,距离球心最远的样本点加入核集后,需要更新St+1=St∪{x},Ct+1=CMEB(St+1),Rt+1=rMEB(St+1)。这时St+1核集中的样本个数远少于S中实际的训练样本个数m。这时在核集中求最小包围球。然后根据求出的MEB更新球半径:||C-φ(xi)||2=R2,其中xi是处于球面上的任意一个点。

3.2 发现最小包围球

在每次迭代的第四步中,我们通过解式(2)这个二次规划问题来寻找最小包围球。因为核集的大小|St|远比每类训练样本的个数S|要小,因此计算每个二次规划子问题的计算复杂度远比计算整个二次规划问题要低的多。另外,在每次迭代过程中,因为每次只有一个样本加入到核集中,SMO[3]算法的执行也是非常高效的。

3.3 子超球问题

对于多类问题,当每一个类别的最小超球确定后,他们之间的位置关系也随之确定。在理想情况下,不同类别对应的超球之间应该彼此独立,但是实际上因为野值、噪声点的存在,超球之间彼此可能会有交集,这时交集重叠区域的样本点有可能会影响算法的分类精度。本文对相互独立和相互重叠是基于这样的概念,即某个训练样本点是不是同时存在于2个以上的超球内(包含两个),对于一对超球来说,如果有样本点到他们球心的距离分别都小于他们的半径,则这两个球的关系是相互重叠有交集。针对这个问题以及参考不同数据集的具体情况,我们提出一种重复迭代的策略。

如果超球没有交集,或者存在交集但是预测准确率在容忍的范围内,那么只需要对每类别样本求一次超球即可。实际中会存在第二种情形,如果出现超球有交集的情况,本文采用多次迭代的方法来解决。其基本思想是,对多类问题按照2.1节的步骤求出每一个类别对应的MEB后,检查是否存在有交集,存在则把交集部分的训练样本标记出来,然后对标记出来的交集样本重复上述四步,求交集部分每个类别对应的MEB,这个过程可以重复直到不同类别样本没有交集或者识别率达到要求为止。对交集部分继续迭代可以求出一对次最小超球,见图1。

对于预测函数,测试过程基本思想是,对一个未知样本,首先计算该样本到各个类别球心的距离,如果在一个球内,其他球外,则类别确定。如果处于不同类别的球的交集中,则用第二轮迭代求出的交集中的超球重复这个判定过程,直到确定类别。

3实验和结论

我们在公共测试数据库Web(8组数据),Heart,breast和German number进行了实验,所用数据集的基本情况见表1。实验给出了所提基于最小超球的支持向量机算法(MEB-SVM)与传统支持向量机(SVM)在训练时间(单位ms)、识别时间(单位ms)和识别率(%上的比较。

实验是在CPU-1.66GHz,内存512MB的机器上进行的。其中传统支持向量机采用LIBSVM软件包(C++代码)[4]。用RBF核函数K(xi,xj)=exp(-γ||xi-xj||)。

对进行实验的每组数据我们使用交叉验证法采用不同的参数r=[24,23,…,2-7,2-8]和C=[2-7,2-6,…,24,25]估计其泛化能力。对于每对(C,γ),我们取其中训练数据的90%进行训练,而用训练数据中剩下的10%作为测试数据。以此为依据确定参数,见表1。

对于Web数据集,进行了一次迭代,见表2。迭代一次时就停止,其识别率已经和传统SVM相当,而且训练时间和识别时间远比传统SVM的时间少,特别随着样本个数的增加,这种优势越发明显,所以对于大规模数据集,本文所提算法MEB-SVM很大有的优势。从统计数据中我们可以看出对于相对规模大的数据,随着训练样本的增多,相对传统SVM,MEB-SVM的SV个数表现出一种稳定的状态,而不像传统的SVM一样随着样本集增大,SV个数和训练时间也增大。MEB-SVM的这种表现是和它的几何特性相适应的。

对于不同应用,如果对识别率要求高,可以继续迭代,直到达到期望的识别率停止。当然这时训练时间和识别时间会有所增加,但是这种增加很有限,因为交集部分的样本数据已经小于训练样本,而且我们的最小超球算法时间效率是线性的而空间效率是不依赖于样本个数的。

对于Heart,Breast,German number这三组数据集,通过观察他们在一次迭代后的情况,其中Heart的SV个数相差不大,MEB-SVM略占优势,而识别率和传统SVM相当,这时只进行一次迭代的训练时间占有绝对优势。而Breast识别率优于传统SVM,而且SV个数和训练时间也远比传统SVM占优势。对于German number我们发现其识别率不如传统SVM,为了提高识别精度,在一次迭代的基础上,有必要继续进行迭代。所以,应用中如果是重识别率,而对时间要求不高的话,这种情况下可以继续迭代,直到满足要求为止。

实验中,我们对两组数据继续迭代。表4给出了Breast和German number的二次迭代结果。

对于表4中的交集一列是进行一次迭代后,一对超球有重叠,其重叠区域的样本个数,进行二次迭代就是在这部分样本上继续进行求次最小超球的工作。SV一列是在一次迭代基础上,进行二次迭代产生的SV个数,也就是交集部分的SV。训练时间是两次迭代的时间和。通过表4的实验结果,Breast的识别率得到进一步的提高,高过了传统SVM,但是识别率的提高是以牺牲训练时间和识别时间为代价。German number的识别率也显著提高,同样以牺牲训练时间和识别时间为代价。虽然这时总的训练时间和识别时间依然低于传统的SVM,SV总的的个数也少于传统SVM。

对于最小超球支持向量机,如何在识别率和训练时间识别时间这之间取得一个折衷,是需要我们进一步思考和研究的。经验上来说,如果要求高识别率,而对时间不敏感,可以考虑多次迭代,直到达到要求为止。

参考文献

[1]Tax D M J,Duin R P W.Support vector domain description[J].Pattern Recognition Letters(S0167-8655),1999,20(11):1191-1199.

[2]Kumar R,Mitchell J S B,Yildirim A.Approximate minimum enclosing balls in high dimensions using core-sets[M].ACM Journal ofexperimental algorithmics,2003.

[3]Platt J.Sequential minimal optimization:A fast algorithm for training support vector machines.Advances in Kernel Methods-SupportVector learning[M].Cambridge,MA:MIT Press,1999.

[4]Chang C C,Lin C J.LIBSVM[CP/OL].http://www.csie.ntu.edu.tw/~cjlin/libsvm/.

最小支持向量机 篇2

支持向量机方法预测离子通道蛋白

讨论一种基于蛋白质结构域的方法预测离子通道蛋白.通过将蛋白质的.结构域转化成为固定长度的向量,使用支持向量机方法进行离子通道蛋白的预测,并将预测结果与线性判别分析以及利用InterPro与GO映射规则进行预测的结果进行了比较.通过留一法交叉验证,取得最好的预测效果,敏感度为95.9%,专一性为98.3%.

作 者:涂白 毕然 作者单位:华中科技大学生命科学与技术学院,武汉,430074刊 名:计算机与数字工程 ISTIC英文刊名:COMPUTER AND DIGITAL ENGINEERING年,卷(期):35(10)分类号:Q816关键词:离子通道 结构域 支持向量机 基因本体

最小支持向量机 篇3

关键词:图像处理;支持向量机;玉米;品种识别

中图分类号: TP391. 41文献标志码: A文章编号:1002-1302(2014)06-0372-03

收稿日期:2013-08-28

基金项目: 山东省自然科学基金(编号:ZR2009GM006)。

作者简介:邓立苗(1978—),女, 山东沂水人,博士,讲师,主要从事图像处理方面研究。Tel:(0532)88030271;E-mail:denglm68@163.com。

通信作者:马文杰,博士,副教授,主要从事农业信息化方面研究。Tel:(0532)88030602;E-mail:wjma@qau.edu.cn。玉米是重要的粮食作物之一,品种众多,不同玉米品种由于受遗传特性影响,生长期间的外观性状表现也有差异。在玉米生长管理和科学研究中,大量的工作须借助形态、颜色和纹理等外观特征判断,而这些特征的提取主要靠人工测量,工作量大且繁琐、主观性强,严重制约了玉米科学研究和生产上先进技术的应用和推广。利用图像处理技术实现不同品种玉米生长期间植株外观性状特征的客观描述,对科学保留不同品种玉米的量化特征信息,建立玉米外观性状特征信息数据库,正确指导玉米生产非常有必要。

图像处理技术已广泛应用于玉米生产管理和品种识别中,主要研究田间杂草识别[1]、病虫害识别[2]、叶面积测定[3]、玉米叶片叶绿素含量测量[4]、种子质量检测与分级[5]。在玉米品种识别方面,研究多定位在籽粒品种识别方面[5-8],而利用玉米生长期间植株特征信息来识别玉米品种的研究未见报道。由于玉米叶片中包含了大量用来区别不同品种的外观特征信息,且存活期长,易于采集。本研究以农业生产中常规栽培的23个玉米品种的叶片作为供试样本,每个品种采集5张样本叶片,对每张叶片采集反射和透射圖像,提取了形态、颜色和纹理共48个统计特征,然后构建了支持向量机模型进行品种识别,并对识别结果进行分析。本研究中特征提取和识别基于Matlab R2008a,分析工具为SPSS 13.0。

1材料与方法

1.1供试材料

供试玉米品种共计23个(表1),均采用大田常规管理方法在试验基地进行统一栽培,目的就是为了保证在完全自然生长状态下实现对不同品种玉米的外观特征量化识别。

编号名称编号名称编号名称1安玉5号9谷育17817农大1082北京德农95810济丰9618农华1013丹玉8611金海5号19齐单1号4德瑞2912金海60420秋乐天泰585登海66213浚单2021三北青贮6登海70114宽城6022中科4号7费玉4号15良玉6623中科11号8丰玉4号16良玉188

1.2图像采集

在玉米的不同生长时期分别对每个品种进行叶片采样,在每个品种的不同单株上采集相同位置的5张叶片,然后用数码相机采集叶片的反射图像和透射图像。由于玉米叶片在自然光照下反光较严重,反射图像采用室内灯光下拍摄,而透射图像则在自制的灯箱(图1)内拍摄,灯箱规格(长×宽×高)为100 cm×75 cm×120 cm。箱体顶部、底部及4个侧面均用双层黑色棉布遮挡,以防止外界光线的射入和光线在箱体内发生漫反射;箱体中间偏下放置厚度4 mm的双面磨砂玻璃载样台,保证采集透射图像时得到均匀的透射光线;箱体底部的照明光源为8支30 W的日光灯管,箱体顶部固定数码相机。反射图像采集使用佳能EOS7D,透射图像采集使用佳能EOS500D。采集的图像如图2所示。

1.3特征提取

为了对叶片图像进行识别分析,对所采集的叶片图像,提取了形态、颜色、纹理共48个外观特征(表2),并将提取的特征保存在Excel文件中。

类别特征形态类

面积、长轴长、短轴长、等面圆直径、椭圆度、凸形面积、伸展度、紧凑度、周长、圆形度、长宽比颜色类

RGB颜色空间的3个分量的均值、方差、偏度和峰度;与HSV颜色空间3个分量的均值、方差、偏度和峰度纹理类

灰度图像均值、方差、平滑度、三阶矩、一致性、熵;包括反映图像灰度值次数分布特点的7个统计不变矩

1.4支持向量机

支持向量机(support vector machine,SVM)是近年来机器学习研究的一项重大成果。它是在统计学习理论、VC维理论和结构风险最小原理基础上建立起来的,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以求获得最好的推广能力。与传统的人工神经网络相比,它不仅结构简单,而且泛化能力明显提高。支持向量机是针对2类模式识别问题的,当解决多类问题时,需要对SVM进行扩展[9]。本研究采用“一对一”的方法,把每类与其余各类分别构成1个2类问题,n个类别共构造C2n个2类SVM。当对一个未知样本进行分类预测时,所有的2类SVM得到C2n识别结果,采用投票法来决定测试样本的类别,出现次数最多的类别即预测为该样本的类别。在本研究中,核函数选用径向基函数,惩罚因子C=128,核参数λ=0.007 812 5,这2个参数由网络化训练得到。

2结果与分析

2.1不类特征识别效果分析

以2011年8月14日采集的23个品种的透射图像作为研究对象,每幅图像提取48个特征,然后进行品种鉴别能力测试,48个特征的整体识别率为89.1%。为了分析不同类别特征对玉米品种识别的影响,分别统计形态、颜色和纹理3类特征的识别率,统计结果如表3所示。同时测试每个特征的识别率,前10个识别率最高的特征及识别率如表4所示。

特征组合的识别效果

类别识别率(%)形态颜色纹理形态61.287.3386.43颜色85.6489.47纹理72.16

由表3和表4可见,形态类、颜色类、纹理类特征的识别率分别为604%、85.64%、72.16%,可见颜色类特征的品种识别率最高,而形态特征的识别率相对较低。形态特征的识别率最低,仅为60%左右,主要是由于玉米叶片的不规则性和不平整,导致特征提取以及识别出现误差。由表3可见,

前10个识别率高的特征

特征名识别率(%)特征名识别率(%)峰度H42紧凑度31标准差G40平均值H30长宽比38标准差B29标准差R37椭圆度28三阶矩36标准差H27

反映形状的特征如紧凑度和长宽比等具有比较高的识别率。颜色类特征识别率比较高,一方面是由于特征数量多达24个,另一方面由单个特征识别结果可见,某些颜色分量(如H分量)具有较高的识别率。对不同类特征组合后,形态+纹理、颜色+纹理和形态+颜色的识别率分别为8643%、8947%、87.33%,而整体识别率仅89.7%。可见当特征达到一定数量时,已经具有较高的识别率,在这种情况下增加特征的数量,识别率也不会有较大的变化。因为特征之间存在一定的冗余信息,特征数量的增加并不能进一步提高识别率。

由以上分析可以看出,提取的特征具有较大的数据冗余度,特征数量太多会增加品种识别的复杂性及效率。为了在不降低识别效果的前提下降低特征维数,减少特征之间的冗余度,提高品种识别效率,对所提取的特征进行主成分分析,前12个主成分贡献率及累积贡献率如图3所示。

仅12个主成分累积贡献率可达到95%以上,在此基础上增加主成分的个数累积贡献率已没有太明显的变化。选用12个主成分进行品种识别可以有效降低特征维数,同时还能尽可能多地反映原来的特征信息,从而提高品种识别效率。

2.2品种数量变化对识别结果的影响分析

为了寻找对品种识别贡献较大的特征,使用SPSS分析工具中的步进式方法进行判别分析,采用Mahalanobis距离作为逐步判别分析方法[10],选取贡献比较大的7个特征:短轴长、V分量均值、B分量均值、B分量方差、H分量均值、纹理方差和不变矩2。对所选择的7个特征,使用支持向量机测试品种数量从1增加到23时的品种识别率,生成的识别率变化曲线如图4所示。

随着品种数量的增加,对23个玉米品种识别率呈下降趋势,在品种数量小于9时,识别率可以达到100%。品种个数大于9时,识别率开始下降,但仍保持比较高的识别率,识别率在87%以上;品种个数达到18时,识别率开始急剧下降至75%,以后一直呈下降趋势;当样本个数达到23时,识别率仅为63%。当品种数量较多时,某些玉米品种会出自同一个父本或者母本,具有比较大的相似性,因此辨别识别率降低。

2.3反射和透射识别分析

对2011年8月14日采集的玉米叶片的反射和透射图像,分别统计不同类特征(形态类、RGB颜色类、HSV颜色类和纹理类)的测试识别率,统计结果如图5所示。

从整体识别效果上看,反射图像和透射图像效果差别不太明显,透射图像稍高一些。对于形状特征,由于形态特征不受光照和拍摄环境的影响,反射和透射的识别结果差别不大。颜色特征中不同的颜色系统具有较大的差别,反射图像RGB颜色特征识别效果较好,而透射图像对HSV颜色特征识别效果较好。对于纹理特征,透射图像的识别效果稍好一些,通过透射使叶片的纹理会变得更加清晰,从而具有较好的识别效果。

3讨论

相对来说,形态特征具有比较低的识别率,一方面,由于玉米叶片的不规则性和叶片不平整,每张叶片只采集1幅二维图像,无法将叶片的形态特征全面描述出来,如果要全面描述玉米叶片形态,须要构建玉米叶片的三维几何模型[11-12];另一方面,在图像采集过程中没有进行标度校准,因此反映大小的特征如面积、周长等特征无法测量实际尺寸,也没有统一的参考标准,从而导致这些特征的识别率较低。为了能够更准确地提取叶片的实际尺寸,需要对所测量的数据进行校准标定,如采用参考物法进行面积等特征的测量[13]。

本研究中由于受采集条件的影响,每个品种的样本数量较少,只有5个,在一定程度上影响了试验结果的准确性和全面性;由于样本数量有限,本研究建立的支持向量机模型仅进行了品种的自我识别,识别率均为样本的自我识别率,没有进行测试识别。在后续的研究中,需要大量增加样本叶片数量。每个品种的样本数量至少要在15以上,以减少同品种玉米叶片的特征提取误差,从而更准确地寻找进行品种识别的关键特征,同时还要结合除叶片之外的其他特征如植株形状、雌雄穗性状等进行综合识别,以此来提高玉米生长期间玉米品种的识别效果。

本研究供试玉米品种数量较多,为23个,从品种数量对识别结果的影响可以看出,当样本数量大于17时,识别率明显下降。由于遗传因素的影响,有些品种可能来自于同一个父本或者母本,从而导致某些外观特征具有很大的相似性,使得品种间的区分度比较小。根据这一特性,在以后的研究过程中可以通过聚类来分析玉米的谱系结构。

4结论

本研究以23个玉米品种的叶片作为研究对象,对每张叶片的图像分别提取了形态、颜色和纹理三大类共48个特征,建立支持向量机模型进行品种识别,并分别从组合特征的识别率、品种数量变化时识别效果及透射和反射图像识别效果3个方面进行分析。相对于神经网络方法来说,支持向量机方法具有比较稳定的识别效果。对不同类别特征,颜色特征具有比较高的识别率,而形态特征识别率比较低。品种的数量越多,由于遗传等因素影响,特征组合的相似性比例越高,识别率越低。不同类别的特征对反射和透射图像的识别效果不同,相对来说,反射图像的RGB颜色特征识别效果稍好些,而透射图像的HSV颜色特征和纹理特征识别效果要好一些。由于采集环境与条件的限制,本研究仅提取了玉米叶片的常规特征进行了品种识别的初步研究与分析。本研究突破了大多数研究仅集中在玉米种子品种识别的局限,虽然仅对玉米叶片品种识别作了初步探讨与研究,但从分析结果可见,使用玉米叶片外观特征进行生长期间玉米品种识别非常有意义,为玉米生长期间品种识别的研究与运用打下基础。

参考文献:

[1]纪寿文,王荣本,陈佳娟,等. 应用计算机图像处理技术识别玉米苗期田間杂草的研究[J]. 农业工程学报,2001,17(2):154-156.

[2]陈丽,王兰英. 概率神经网络在玉米叶部病害识别中的应用[J]. 农机化研究,2011,33(6):145-148.

[3]马彦平,白由路,高祥照,等. 基于数字图像的玉米叶面积测量方法研究[J]. 中国农学通报,2009,25(22):329-334.

[4]朱军伟,张彦娥,王晓敏,等. 基于图像纹理的玉米叶片叶绿素含量分析研究[J]. 微计算机信息,2010,26(10):106-108.

[5]王玉亮. 基于机器视觉的玉米种子品种识别与检测研究[D]. 泰安:山东农业大学,2008:11-12.

[6]闸建文,陈永艳.基于外部特征的玉米品种计算机识别系统[J]. 农业机械学报,2004,35(6):115-118.

[7]史智兴,程洪,李江涛,等. 图像处理识别玉米品种的特征参数研究[J]. 农业工程学报,2008,24(6):193-195.

[8]杨锦忠,郝建平,杜天庆,等. 基于种子图像处理的大数目玉米品种形态识别[J]. 作物学报,2008,34(6):1069-1073.

[9]李晓宇,张新峰,沈兰荪.支持向量机(SVM)的研究进展[J]. 测控技术,2006,25(5):7-12.

[10]林震岩. 多变量分析:SPSS的操作与应用[M]. 北京:北京大学出版社,2007:487-491.

[11]邓旭阳,郭新宇,周淑秋,等. 玉米叶片形态的几何造型研究[J]. 中国图象图形学报,2005,10(5):637-641.

[12]郑文刚,郭新宇,赵春江,等. 玉米叶片几何造型研究[J]. 农业工程学报,2004,20(1):152-154.

最小支持向量机 篇4

支持向量机

支持向量机(Support Vectormachine,SVM)作为一类新型机器学习方法,由Vapnik等人提出的是,这种方法对小样本、非线性及高维等模式识别问题有更好的解决办法。该方法具有良好的泛化能力,因而在模式识别中得到了广泛应用。

1最优分类面

SVM算法是假设有一个两类样本的分类问题,给定训练样本{xi,yi},{xi,yi},i=,1,2∧n,x∈Rn,yi∈{-,1+1},存在一个超平面可以将它划分。支持向量机的基本思路是寻找一个最优超平面,使它的分类间隙最大。

2广义最优分类面

如果一个超平面不能把两类点彻底分开时,可引入松弛变量ξi(ξi≥,0i=,1∧,n),,使超平面wTx+b=0满足:

当0<ξi<1时,可以对样本点进行正确分类。针对包含噪音的数据,导致训练集达到零误差,会影响模型发生过拟合和较差的泛化能力。根据实际情况分析,为解决该问题并允许存在一些样本的错分,目标函数变为:

i1式中c>0为规定常数,为样本的错分上界,也称为损失函数。

在式(2)约束下,求式(1)目标函数的极小值,在线性不可分条件下可以得到最优超平面。线性不可分情况下最优超平面的对偶问题与线性可分情况大致相同,只在条件上有所变化。

3支持向量机的核函数

目前,主要有以下四种常用的核函数形式。

(1)线性核函数

该核函数没有待定参数。

(2)多项式核函数(Polynomial)

d为其待定系数。

(3)径向基形式核函数

其优越性体现在将原有空间中的非线性问题转换为其他特征空间中的线性问题,而且实际涉及的计算又全部在原空间进行。

最小二乘支持向量机

介于SVM在其训练时总能找到全局最优解和良好泛化能力和,其广泛应用在经验建模领域。但其有约束的二次规划问题,导致了训练时间较长,从而不被接受。为提高训练效率,1999年J.A.KSuyken等人提出一种新的最小二乘支持向量机(简称LSSVM)。该方法的训练只需求解一个线性方程组,使SVM容易实现,大幅度提高SVM的训练效率,因此在模式识别领域得到广泛应用。

1构造多类分类最小二乘支持向量机

经典支持向量机和最小二乘支持向量机的基本思想相同,但后者为每个数据点加入一个改正量ei,即把求最优分类超平面问题就转化为求解凸优化问题。

本文把车型分为轿车、货车和客车三类,因此首先要构造多类分类的LS-SVM。

当LS-SVM在多类分类问题应用时,假设给出的c-分类问题训练样本为{yim,xi}i=,1,2∧,n;m=,1∧,c,n为训练样本数,yim为第i个样本,其识别可以表示为求解下面的问题

约束条件:

定义拉格朗日函数,求解得:就可以得到多元分类最小二乘支持向量机的决策函数为:

2分类方法的选取

本文采用的是基于LS-SVM的多类识别。在识别时,常用的有三种方法,本文对这三种方法进行了研究和对比。

(1)一对多方法(OAA法)

该方法基本思想是如果数据有类,则需要构造个k分类器,将第i个分类的样本数据记为正k类,不属于类别i的样本数据记为负类。测试中,对测试数据计算各子分类器的判别函数值,将最大判别函数值所对应的类别做为测试数据的类别。该算法缺点是每个分类函数都要所有的样本参与,训练时间与类别数量成正比,扩展能力差,存在有不可区分的区域。

(2)一对一方法(OAO法)

该方法基本思想是选取2个不同类别构成一个子分类器,总共有k(k-)1/2个子分类器。在构造类别i和类别j的子分类器时,样本数据集选取属于类别i、类别j的样本数据作为训练样本数据,并将属于类别i的数据标记为正,将属于类别i的数据标记为负。该算法可导致过学习问题,而且训练时间随和类别数呈超线性关系。

(3)多对多方法(ECOC法)

该方法的基本思想是按规则构造n个两分类器,要求对每个类的样本两分类器都判断正确,从而得到一个k行n列的编码矩阵。

实验结果及分析

1实验环境

本文采用海康4004HC/B视频监控,Windows XP SP3操作系统,Matlab 2010软件。

2实验步骤

本文将从监控系统中得到的视频图像作为实验数据,采集客车30辆、货车29辆、轿车35辆。

(1)视频图像的背景差分及运算,消除图像中的孤立噪声,确定识别车辆的边界,将识别车辆目标从图像序列中分割出来,得到车辆几何特征。

(2)在提取车辆尺寸和长宽比的基础上引入伪Zernike矩车型特征。

(3)确定LS-SVM的惩罚因子c和径向基核函数参数σ2等参数,进行测试,确定最优的LSSVM分类模型。

3车型分类结果及分析

由实验结果得出,ECOC方法具有较高的分类精度,完成分类的时间最短。

结论

最小支持向量机 篇5

摘要:针对标准支持向量机训练时间过长与参数选择无指导性问题,给出一种通过粒子群优化双支持向量机模型参数的方法。与标准支持向量机不同,该方法的时间复杂度更小,特别适合不均衡的数据样本分类问题,对求解大规模的数据分类问题有很大优势。将该算法与标准的支持向量机分类器在不同的文本数据集上进行仿真实验对比,以验证算法的有效性。结果表明基于粒子群优化的双子支持向量机分类器的分类结果高于标准支持向量机分类结果。

关键词:双子支持向量机(TWSVM);分类算法;粒子群优化算法(PSO)

DOIDOI:10.11907/rjdk.151455

中图分类号:TP312

基金项目:玉林师范学院校级科研项目(YJYB04)

作者简介作者简介:刘建明(1986-),男,广西博白人,硕士,玉林师范学院数学与信息科学学院助教,研究方向为数据挖掘与机器学习。

0 引言

粒子群优化算法[1](Particle Swarm Optimization,PSO)是由美国研究学者Kennedy等人在1995年提出的,PSO算法每一代的种群中的解具有向“他人”学习和“自我”学习的优点,该算法能在较少的迭代次数中找到全局最优解,这一特性被广泛应用于神经网络方法、函数优化问题、数据挖掘、模式识别,工程计算等研究领域。

双子支持向量机(Twin Support Vector Machines, TWSVM)是Jayadeva[23] 基于传统支持向量机在提出来的。TWSVM是从SVM演化而来的,是一种新型的基于统计学习理论的机器学习算法。TWSVM具有SVM优点,同时适合处理像文本自动分类、基因表达、空间信息遥感数据、语音识别等这样的大规模数据分类问题。

针对TWSVM对惩罚参数和核函数参数缺乏指导性问题,本文结合PSO算法的优点,给出一种基于PSO的

算法优化改进策略,对TWSVM分类器进行优化。PSO是一种基于群体智能的全局寻优算法,该算法能在较少的迭代次数中找到全局最优解,通过利用粒子群优化算法对双子支持向量机进行优化后,分类器较之标准支持向量机有更好的分类效果。

1 PSO算法

PSO算法步骤:①初始化粒子群,利用随机函数法给每一个粒子的初始位置和速度赋值;②根据第①步的赋值及初始位置与速度更新每一个粒子新的位置;③利用选定的适应度函数计算每一个粒子的适应度值;④对每一个粒子,对比其个体和群体的适应度值,并找出粒子经过的最好位置的适应度值,如果发现更好的位置及适应度值,那么就更新其位置;⑤根据公式更新每个粒子的速度与位置,如果找到最优的位置或者是到了最大的迭代次数,算法终止,否则转入第3步继续迭代求解。

2 双子支持向量机(TWSVM)

与SVM不同,TWSVM求解的`是一对分类超平面,SVM求解一个QP问题而TWSVM解决的是两个QP问题,而这两个QP问题的求解规模比SVM小很多。传统SVM构造两个平行的超平面,并且使两个超平面之间的距离最大即最大间隔化,TWSVM虽然也是构造超平面,但超平面之间不需要平行。TWSVM对每一个样本都构造一个超平面,每个样本的超平面要最大限度地靠近该类的样本数据点,而同时尽可能地远离另一类样本数据点。新数据样本将会分配给离两个超平面中最近的一个平面。事实上,该算法还可以沿着非平行面聚集,而且样本聚集方式是根据完全不同的公式聚合而成的。实际上,在TWSVM中的两个QP问题与标准SVM的QP问题除了求解约束问题不同外,求解公式是相同的。TWSVM的二分类算法通过求解下面的一对QPP(Quadratic Program Problem)问题进行二次规划优化[5]。

3 基于PSO的TWSVM分类算法

在TWSVM中,与SVM相同,都需要对参数进行确定,TWSVM对每个类均有一个惩罚参数和核函数参数。不同的惩罚参数和核函数参数影响分类的准确率,而PSO算法拥有全局的优化能力,因此,本文将PSO算法引入TWSVM中,解决TWSVM参数的选择问题,PSOTWSVM算法不仅能提高TWSVM的准确率同时又能降低SVM的训练时间,提高训练效率。图2展示了应用PSO算法对TWSVM参数选择的优化流程。

传统SVM是基于二分类提出的,其复杂度为O(n3),其中n为样本数目[2]。然而在TWSVM二分类算法中,设每类样本数据为n/2,因此,求解两个优化问题时间复杂度为:O(2*(n/2)3),所以在二分类问题中的TWSVM时间复杂度为传统SVM的1/4。推广到多分类问题时,可以发现在时间复杂度方面,TWSVM求解优化问题的时间更少。例如样本类别数为k类,那么该样本的时间复杂度为O(k*(n/k)3)。由于TWSVM分类算法对每类都构造一个超平面,因此该算法在处理不平衡数据时,即一类的样本数目比另一类的样本大得多情况时,TWSVM分别实施不同的惩罚因子,TWSVM克服了传统的SVM处理不均衡样本的局限性,这一点非常适用于大规模的不均衡分类问题。 4 算法仿真实验

为验证基于PSO的TWSVM分类算法的有效性,本文利用该算法构建一个文本分类器,运用不同数据集在该分类器上进行实验并与标准支持向量机构建的分类器进行对比仿真实验。

4.1 分类器性能评价

常用的分类器评价方法包括:准确率和召回率。这两个指标广泛应用于文本分类系统的评价标准。准确率(Precision)是指全部分类文本中划分的类别与实际类别相同的文本数量占全部文本的比率。召回率(Recall)是指分类正确的文本数占应有文档数的比率。文本分类输出结果见表1。

4.2 实验结果分析

由表2可知,PSOTWSVM的分类性能比TWSVM要好。因此,基于PSO的TWSVM是一个有效算法。该算法不但比标准的SVM算法训练时间更短,而且比TWSVM有更好的准确率,PSOTWSVM解决了TWSVM的参数选择问题,提高了TWSVM的泛化性。

5 结语

通过基于PSO的TWSVM分类算法与TWSVM算法的分类对比实验可知,应用PSO算法的全局寻优能力提高了TWSVM分类的能力。PSO优化后TWSVM分类器的性能更为优越。基于PSO的TWSVM分类算法比标准的SVM时间复杂度更小,比TWSVM的准确率更高,基于PSO的TWSVM算法在分类问题上较之传统的SVM算法有更大的优越性。

参考文献:

[2]JAYADEVA,R KHEMCHANDAN, S CHANDRA.Twin support vector machines for pattern Classification[J]. IEEE Trans. Pattern and Machine Intelligence,,29(5):905910.

[4]谷文成,柴宝仁,腾艳平. 基于粒子群优化算法的支持向量机研究[J].北京理工大学学报,2014, 34(7):705 709.

[6]王振.基于非平行超平面支持向量机的分类问题研究[D].长春:吉林大学,2014.

最小支持向量机 篇6

【关键词】改进的支持向量机;参数自动寻优;商业银行评级

目前运用支持向量机的研究中,主要用传统的支持向量机,对评级分类器则较少考虑。如果传统支持向量机算法来对银行进行分评级,不考虑评级分类器的优化,则最终的评级效果不会达到最优。

一、SVM原理

支持向量机(SVM)的主要思想有两点:一是针对线性可分的情况来分析,对于线性不可分的情况,通过核函数将低维空间中的线性不可分的样本映射到高维空间使得其线性可分。二是基于结构风险最小化理论,能够求得全局最优解。

(1)假设训练集T={(x1,y1),(x2,y2),…,(xi,yi),…,(xk,yk)}∈(X,Y)k,其中,X=Rn,Y={-1,+1},i=1,2,…,,k为训练样本的数量。(2)用非线性映射G(·)将线性不可分的低维空间X映射到高维线性空间Z中。将优化问题变为:

(1)

通过拉格朗日法,求得(1)的对偶式,再采用对称核函数K(xi,xj)代替点积G(xi)G(xi),(1)式转化成(2)式:

(2)

然后,将训练样本代入式(2),求解出€%Zi、b之后,带入(3),就可用来对新样本数据进行分类。

分类器为=sgn(3)

二、基于改进的SVM企业银行评级分类器

在SVM中,核函数K(xi,x)的作用就是把低維空间中非线性的数据映射到高维空间,它代替了高维空间中的内积运算,不需要映射后的样本在高维空间进行运算。本文运用以下三种函数:多项式核函数:K(x,y)=[(x隯y)+]d;高斯径向基核函数(RBF核函数):K(x,y)=e;神经网络核函数:K(x,y)=tanh(k隯x隯y)。进行组合得到新的组合核函数:

K组合核函数(x,y)=€%d1[(x隯y)+]d+€%d2e+€%d3tanh(k隯x隯y)其中€%di=1并且€%di>0。

三、银行评级分类系统设计与实现

1.系统架构。本文以基于多核函数的SVM,设计和实现了一个能够对银行信用进行评级的系统,系统架构(如图1所示):

2.系统实现。该系统硬件采用Inter Pentium D 3.0GHz CPU,1G内存,软件采用Eclipse3.6,JAVA语言来设计。系统共四个模块,功能和实现方法如下:(1)财务数据读取模块从财务数据集当中随机选取出4/5的数据作为训练数据,1/5的作为待评级数据,并且将读取的数据传到分类器模块。(2)分类器模块采用3.3所示基于改进的SVM企业银行评级算法来进行分类和泛化推广。(3)输出模块打印出训练财务数据类型、训练财务数据数目、训练时间、分类时间、被正确分到某一级的银行、被错误分到某一级的银行、属于某一级,但是被错误分到其它级的银行数目、准确率、召回率、F1值,以及相应的核函数参数。

四、实验结果与分析

(1)实验数据。在本文中,使用的财务数据来自于国泰安数据服务中心提供的企业财务数据数据(http://www.gtarsc.com/p/user/home.aspx)。(2)实验方案及实验结果。设算法I为基于传统的SVM企业银行评级算法,算法II为基于组合核函数的SVM银行评级算法。最后,采用准确率(设为p)、召回率(设为r)、F1指标来评价分类结果。其中,设a为被正确分到某一类的银行数,b为被错误分到某一类的银行数,c为属于某一类但是被错误分到其它类的银行数。则r、p被分别定义为r=,p=。F1指标定义为:F1=。(3)实验结果。从表1可以看出,分类算法II的准确率、召回率和F1值比分类算法I的都要高;从而提高了银行信用评级的准确度。

表1 不同银行评级算法的实验结果

最小支持向量机 篇7

关于电流互感器(current transformer,CT)铁心的磁化曲线拟合问题,国内外学者提出了多种方法,较常用的有拉格朗日插值法,最小二乘拟合法、分段线性插值法。除此之外新兴的方法还包括基于人工神经网络的曲线拟合和支持向量机,其中人工神经网络又包括BP神经网络和径向基函数神经网络,这两钟方法本质上都是利用网络的自学习功能来自动寻找最优的连接权系数,以达到非线性函数拟合的目的[1,2]。优点是选取的样本容量越大,拟合出来的精度越高,但此种方法所形成的网络结构较复杂,需要调节的连接权系数较多,训练过程也较繁琐,一些重要参数的选择不当甚至会导致整个学习过程陷入局部极值的问题;并且最后得到的拟合公式也很复杂。而传统支持向量机(SVM)虽然没有上述问题,但其训练问题是一个二次规划问题或凸规划问题,当样本数目较大时,其训练速度较慢,占用内存较大[3,4,5]。为此本文提出了一种利用最小二乘支持向量机来实现励磁特性曲线拟合的新算法。该算法不仅具有支持向量机在小样本情况下拟合精度高、泛化能力强的优点,同时还具有计算简单、求解速度快,内存需求少的特点。

1 最小二乘支持向量机原理

最小二乘支持向量机[6](Least Squares Support Vector Machines,LS-SVM),是支持向量机的一种改进,将传统支持向量机中的不等式约束改为等式约束,同时把误差平方和损失函数作为训练集的经验损失,将经验风险由偏差的一次方改为二次方,最终将求解二次规划问题转化为求解线性方程组的问题,避免了不敏感损失函数,大大降低了计算复杂度,提高了求解问题的速度和收敛精度。

1.1 具体算法描述

给定一个有N个训练样本的集合{xk,yk},k=1,2,…,N,其中训练样本n维向量xk∈R n,yk∈R。

首先用一个非线性映射φ(·)把原空间样本从Rn映射到特征空间φ(xi),这样就把低维空间的非线性逼近问题转化为高维空间的线性化逼近问题,在这个高维特征空间中构造最优决策函数:

依据结构风险最小化原则,寻找ω,b就是最小化;

根据统计学理论,函数拟合问题就变为求解如下最优化问题:

其中:|ω|2控制模型的复杂度;γ是正规化参数,控制对超出误差样本的惩罚程度;ω为权矢量;ξ为误差变量;b为偏差量;Remp为误差控制函数,也即不敏感损失函数。常用损失函数有线性损失函数,二次损失函数,Huber损失函数,当选取不同的损失函数,可构成不同形式的支持向量机。本文采用的损失函数为误差函数ξ的二次项。

用拉格朗日法求解这个优化问题:

其中:ak,k=1,2,…,N为拉格朗日乘子。根据最优化理论中的KKT(Karush-Kuhn-Tucker)条件可得到:

可推得:

其中:ai=Cξiωϕ(x i)+b+ξi-yi=0。

定义核函数ϕ(x i,yj)=ϕ(x i)iϕ(x j)是满足条件的对称函数。优化问题转化为求解以下线性方程组解的问题。

根据最小二乘法求出a与b,得到非线性拟合模型:

1.2 关于核函数的选取

LS-SVM的非线性拟合能力都是通过“核映射”的方法来实现的,对于一个具体问题,如果核参数取得不合适,LS-SVM就无法达到预期的拟合效果(数据子空间的维数决定了线性分类面能达到的最小经验误差),并且,核函数的类型[7,8]也应根据不同的情况加以正确选择才能达到理想的拟合效果。一般只要满足Mercer条件的函数都是核函数,常用的有以下几种:

如果选取式(1),那么LS-SVM实现的是一个多项式的向量机,参数q由用户自己取值;式(2),每个基函数的中心对应于一个支持向量,得到的是径向基函数向量机;式(3),实现的是一个两层的多层感知器神经网络。本文采用较常用的径向基函数作为核函数,其中:δ为核宽度。

1.3 数据预处理

为了便于后续处理,需要对训练各样本值按式(10)进行标准归一化处理

归一化后的各样本值的范围在(0,1)之间。

2 具体实现步骤

图1中是用Matlab7.0编程实现LS-SVM的结构框图,括号中是相应用到的函数,详细计算步骤如下:

(1)创建输入输出样本,用Load命令加载数据。

(2)将测得的数据样本按照式(10)进行标准归一化处理。

(3)设定最小二乘支持向量机参数gam和相应核函数sig2,type;其中:gam和sig2是最小二乘支持向量机参数,gam是正则化参数,决定适应误差的最小化和平滑程度,sig2是RBF函数的参数。Type中有两种类型:一类是关于分类的是classfication;另一类是用于函数拟合的是function approximation。

(4)用trainlssvm函数建立回归模型,根据数据样本的输入输出和上一步预先设置好的训练参数,对网络进行训练,得到最小二乘支持向量机的支持向量`alpha`和相应的阀值`b`。

(5)读取预估数据的输入,进行数据预处理,得到实际波形。

(6)将各训练后的点进行拟合,查看拟合情况。

(7)如果上步中出现的拟合波形与实际励磁特性曲线相比不能满足实际要求,可利用模型调整部分的函数进行(3)、(4)两部分建立好的回归模型的相应参数的调整,直到符合要求为止。

3 仿真波形验证

表1列出了某种硅钢材料励磁曲线B-H的部分测量数据值,共9组,将各数据依据式(10)进行标准归一化,之后将其按照以上介绍输入Matlab7.0中,经过多次对回归模型参数的调整实验,最终得到比较理想的拟合波形,如图2所示,此时Matlab7.0命令窗口中部分命令如下:

其中:B,H0为测量值;H1为训练后的样本值;%为两者之间的相对误差。

图2中,黑点为训练后的各样本点,实线为实际的励磁特性曲线。从图中可见,经调整参数训练后的各样本点基本都在实际励磁特性曲线上,拟合效果较理想。同时从表1中列出的训练后的样本值与实际值的偏差程度,发现二者之间相差甚小,拟合精度较高,可以满足实际的需要。

4 结语

本文提出使用最小二乘支持向量机来拟合电流互感器励磁特性曲线,为CT铁心饱和特性的建立提供了一种新的算法途径。实验仿真波形验证了该算法在铁心非线性逼近方面的有效性和准确性。此外,该算法除了可以应用于电流互感器的铁心拟合外,同时还可以进一步推广到其它领域的非线性曲线拟合与回归中。

摘要:针对传统支持向量机在电流互感器铁心励磁特性曲线拟合时样本数目较大出现的训练速度慢、占用内存大的问题,提出了一种新的基于最小二乘支持向量机算法。该算法将实测数据由径向基函数把非线性逼近问题转化为线性逼近问题,依据最小二乘法的思想,利用Matlab7.0求一个线性方程组的解,得到拟合曲线的近似表达式。实验结果表明,新算法训练速度快,误差小、拟合精度高。

关键词:电流互感器,最小二乘支持向量机,非线性,径向基函数,曲线拟合

参考文献

[1]施晓秋.BP网络与CMAC用于非线性曲线拟合[J].温州大学学报,2001(1):46-49.

[2]李贵存,刘万顺.用于磁化曲线拟合的高精度混合型径向基函数神经网络[J].电网技术,2001,25(12).

[3]Vapnik V N.The Nature of Statistical Learning Theory[M].New York:Springer,1995.

[4]Drucker H,Burges C J C,Kaufman L.Support vector regression machines[C].//Advances in Neural Informa-tion Processing Systems.Cambridge:MIT Press,1997:155-161.

[5]赵春晖,陈万海,郭春燕.多类支持向量机方法的研究现状与分析[J].智能系统学报,2007,2(4):11-17.ZHAO Chun-hui,CHEN Wan-hai,GUO Chun-yan.Research and analysis of methods formulticlass supportvector machines[J].CAAI Transa on Intellient Systems2007,2(4):11-17.

[6]阎威武,邵惠鹤.支持向量机和最小二乘支持向量机的比较及应用研究[J].控制与决策,2003,18(3):358-360.

[7]郑小霞,钱锋.高斯核支持向量机分类和模型参数选择研究[J].计算机工程与应用,2006,42(1):77-79.

最小支持向量机 篇8

短期负荷预测是电力系统的重要工作之一。准确的负荷预测可以经济合理地安排电网内部发电机组的启动和停止,保持电网运行的安全稳定,减少不必要的旋转储备容量,合理安排机组检修计划,有效地降低发电成本,提高经济效益和社会效益。负荷预测的准确性受气候因素、重大节假日、电价等多种因素的综合影响,而这些因素大部分具有随机性、动态开放性等不确定性特点,使得负荷预测问题变成一个典型的非线性问题,难以用简单的数学模型来描述。随着机器学习理论的发展,一些非线性模型如神经网络模型在短期负荷时间序列预测中已取得比较成功的应用[1,2,3]。但神经网络模型本身存在着难以克服的缺陷,如易陷入局部极小,网络结构难以确定,而且它基于的是经验风险最小化原则,易导致过学习现象的产生。

支持向量机(support vector machine,SVM)是Vapnik等人根据统计学理论提出的一种新的通用学习方法,它是建立在统计学习理论和结构风险最小原理基础上的,能较好地解决小样本、非线性、高维数和局部极小点等实际问题,并成功地应用于分类、回归和时间序列预测等方面[4,5]。最小二乘支持向量机(least squares support vector machine, LSSVM)是标准支持向量机的一种扩展,它是支持向量机在二次损失函数下的一种形式[6,7]。最小二乘支持向量机只求解线性方程,其求解速度快,在函数估计和逼近中得到了广泛的应用[8]。

本文尝试将最小二乘支持向量机方法应用于短期负荷预测中,并以实例验证了其准确性和有效性。

1 最小二乘支持向量机估计算法

用支持向量机来估计回归函数,其基本思想就是通过一个非线性映射,把输入空间的数据映射到一个高维特征空间中去,然后在此特征空间做线性回归。

给定一数据点集G={(xi,yi)}i=1n,xi∈Rd,yi∈R。其中:xi是输入向量;yi是期望值;n是数据点的总数。SVM采用下式来估计函数:

y=f(x)=wφ(x)+b(1)

式中:φ(x)是从输入空间到高维特征空间的非线性映射。利用结构风险最小化原则,系数wb通过最小化下式来估计:

Rreg(f)=γRemp+12w2(2)

式中:γ是惩罚参数;Remp为误差控制函数,也即ε不敏感损失函数。常用的损失函数有线性ε损失函数、二次ε损失函数、Huber损失函数。选取了不同的损失函数,可构造出不同形式的支持向量机。最小二乘支持向量机在优化目标中的损失函数为误差ξi的二次项[4],故优化问题为:

minJLS(w,ξ)=12wΤw+γ12i=1nξi2(3)

约束条件为:

yi[wΤφ(xi)+b]=1-ξi,i=1,2,,n(4)

为了求解这个优化问题,构造相应的Lagrange函数:

L(w,b,ξ,α)=JLS-i=1nαi{yi[wΤφ(xi)+b]-1+ξi}(5)

式中:αi是Lagrange乘子,按照Kuhn-Tucher条件,由于式(5)条件限制是等号的缘故,αi可正可负。

对式(5)求其鞍点,分别对w,b,ξi,αi求导,具体如下:

{Lw=0w=i=1nαiyiφ(xi)Lb=0i=1nαi=0Lξi=0αi=γξiLαi=0yi[wΤφ(xi)+b]-1+ξi=0,i=1,2,,n(6)

将式(6)写成线性系统并消去wγ,上式变为:

[01¯Τ1¯ΖΖΤ+γ-1Ι][bα]=[0y](7)

式中:y=[y1,y2,,yn]Τ,1¯=[1,1,,1],α=[α1,α2,,αn],Ζ=[φ(x1),φ(x2),,φ(xn)]Τ。根据Mercer条件,可以令Ω=ZZT,则Ω矩阵中每一元素可以表示为:

Ωi,j=φ(xi)Τφ(xj)=Κ(xi,xj)(8)

式中:K(xi,xj)称为核函数,核函数的值等于2个向量xixj在其特征空间φ(xi)和φ(xj)中的内积,即K(xi,xj)=φ(xiφ(xj)。常用的核函数有多项式核函数和RBF核函数,其形式分别为多项式核函数:K(xi,xj)=(<xi,xj>+c)p,p∈N,c>0;RBF核函数:Κ(xi,xj)=exp(-xi-xj2δ2)

最后,通过求解式(7)得到用于函数估计的最小二乘支持向量机为:

f(x)=i=1nαiΚ(x,xi)+b(9)

2 基于最小二乘支持向量机的短期负荷时间序列模型

2.1 数据预处理

在使用最小二乘支持向量机模型进行负荷预测前,对历史负荷数据进行标准化处理,即识别并修正异常数据以及对数据进行归一化处理。负荷时间序列数据归一到[-1,1]区间的公式为:

xn=2(x-xmin)xmax-xmin-1(10)

式中:xnx表示归一化前后的序列值;xmax和xmin分别表示原序列x的最大值和最小值。

待模型训练完毕后,利用下式将其返还到原数据区间:

x=0.5(xn+1)*(xmax-xmin)+xmin(11)

2.2 基于最小二乘支持向量机的预测模型的建立

对于给定的负荷时间序列{X(t),t=1,2,…n},假设t时刻的负荷值X(t)可由(t-1,t-2,…,t-m)时刻的历史负荷值X(t-1),X(t-2),…,X(t-m)进行预测,可建立映射:f:RmR。预测模型可表示为:

X(t)=f[X(t-1),X(t-2),…,X(t-m)] (12)

式中:m为嵌入维数。

本节构造出一个多输入单输出的最小二乘支持向量机预测模型,按照表1可以得到该模型的输入向量和输出向量。

2.3 评价指标

为了评价模型的预测性能,采用如下统计量对模型的预测效果进行评估:

日平均相对误差为:ΜAΡE=124t=124|yt-y^tyt|

日均方根误差为:RΜS=124t=124(yt-y^tyt)2

式中:yt为真实负荷值;y^t为预测值。

3 实例分析

本文采用福建省某地区2009年6月1日至2009年6月11日累计264点的负荷数据。以前10天的数据作为训练样本,对最后一天的24 h负荷进行预测。

在利用最小二乘支持向量机进行建模时,核函数采用RBF核,并根据经验取嵌入维数m=8。该模型中有两类参数,即惩罚参数γ和核参数δ2对预测精度影响较大,但目前尚没有比较完善的理论对其进行选取。为此,本文通过对模型参数的试算,最终选取的参数为γ=2 100,δ2=500。

最小二乘支持向量机模型的预测结果如图1所示。

为了与本文所用方法进行比较,建立神经网络模型进行预测试验。其中,神经网络模型采用映射型三层结构,隐层采用11个非线性Tanh神经元,输出层为一个线性神经元,采用稳健的Levenberg-Marquardt算法进行训练。两种模型的预测精度评价指标的计算结果如表2所示。

由表2可以看出,LSSVM模型的预测精度要明显高于神经网络模型,它表明LSSVM模型可以很好地应用于短期负荷时间序列预测,并且具有较高的准确性和有效性。

4 结 语

本文利用最小二乘支持向量机模型对短期负荷时间序列进行预测。实例结果分析表明,该方法具有很高的预测精度和较强的泛化能力,这为短期负荷预测提供了一个新的解决思路。

摘要:支持向量机(SVM)是近年来发展起来的机器学习的新方法,它较好地解决了小样本、非线性、高维数、局部极小点等实际问题。研究了支持向量机的拓展算法——最小二乘支持向量机(LSSVM),并将其应用于电力系统短期负荷时间序列预测。通过实例并与神经网络模型预测结果相比较表明,LSSVM模型的预测精度要明显高于神经网络模型,验证了LSS-VM模型可以很好地应用于短期负荷时间序列预测,并且具有较高的准确性与有效性,这为短期负荷预测提供了一个新的解决思路。

关键词:最小二乘支持向量机,神经网络,短期负荷预测,时间序列预测

参考文献

[1]张颖,高中文.基于时间序列和神经网络的电力系统负荷预测[J].哈尔滨理工大学学报,2003,8(1):30-36.

[2]施应玲,杨红松,庞南生.短期电力负荷预测的自适应混合遗传优化BP算法[J].电力科学与工程,2008,24(9):32-35.

[3]王吉权,赵玉林,马力.组合预测方法研究及其在电力负荷预测中的应用[J].东北农业大学学报,2008,39(4):51-54.

[4]张学工.统计学习理论的本质[M].北京:清华大学出版社,2000.

[5]张林,刘先珊,阴和俊.基于时间序列的支持向量机在负荷预测中的应用[J].电网技术,2004,28(19):38-41.

[6]阎威武,朱宏栋,邵惠鹤.基于最小二乘支持向量机的软测量建模[J].系统仿真学报,2003,15(10):1494-1496.

[7]岑健,危阜胜,张多宏,等.最小二乘支持向量机用于水量预测[J].计算机仿真,2009,26(7):212-215.

[8]王晓兰,康蕾.增量式剪枝最小二乘支持向量机的时间序列预测[J].微型电脑应用,2009,25(6):12-13.

[9]阎啸天,武穆清.基于最小二乘支持向量机的自适应差分进化算法[J].系统仿真学报,2009,21(7):1921-1925.

最小支持向量机 篇9

电力变压器是电力系统中最重要的输变电设备之一,其状态的好坏将直接影响电力系统的安全性与可靠性。长期以来,电力系统主要通过定期维修来实现电力变压器的健康水平和运行状况的判断[1]。然而,如何利用智能的信息处理技术从有限的故障样本中提取有用的特征参量,并将其应用于故障诊断是当今研究的热点问题。

近年来,人们相继提出了RBF神经网络、粗糙集理论[2]、模糊数学[3]、专家系统[4]等多种电力变压器的故障诊断方法。但是,这些传统算法被发现存在精度低、收敛慢、泛化能力差、不具有实际工程意义等缺陷。目前,支持向量机(Support Vector Machine,SVM)在识别小样本、过拟合、非线性、高维模式问题时具有出色的学习泛化能力[5],尤其适用于可采集故障样本数量较少的电力变压器故障诊断[2,3,4]。

本文将最小二乘法与支持向量机相结合,提出了一种基于最小二乘支持向量机(Least Squares Support Vector Machine,LS-SVM)的电力变压器故障诊断方法,将原有的求解非线性问题转化为线性问题,为支持向量机中参数的选择提供了一种更有效的解决方法。实例结果表明,文中提出的方法能够有效提高电力变压器故障诊断的可靠性和准确率。

1 SVM的基本原理

SVM的核心思想为统计学理论,并在此基础上融入了结构风险最小化原则、最优理论与核函数的概念[6]。

SVM的基本原理是:假设一低维空间内存在样本集{(x1,y1),(x2,y2),…,(xi,yi)}∈(x×y)i,其中yi∈[-1,+1],i=1,2,…,n,寻找一个分类超平面,通过非线性映射φ,将低维空间内的样本点(xi,yi)映射到高维特征空间F中,使其在高维特征空间F中线性可分。此时,原低维空间内的线性不可分问题即转换为高维特征空间内的线性可分问题。最优分类超平面能够实现在风险最小的情况下对样本点(xi,yi)完成正确的分类,其表达式为:

其中,w为最优超平面法向量,b为分类阈值。被该平面分离的输入、输出样本向量与平面距离之和为,如图1所示。

基于结构风险最小化原则,确定最优分类超平面的参数(w,b)的问题,即为求解下式的优化问题:

其中,约束条件被定义为所有样本点(xi,yi)到最优分类超平面的距离应大于或等于1。训练时为了允许存在规定范围内的分类误差,引入松弛变量ξi[7]。同时,引入了常数C作为惩罚参数,定义为对样本数据错误分类的惩罚程度。此时,优化问题目标函数变换为:

2 基于LS-SVM的故障诊断方法

2.1 LS-SVM的建模

SVM的训练算法是通过求解式(3)的优化问题实现的,不等式的求解往往存在一定的难度,计算过程繁琐。然而,LS-SVM是在SVM的基础上,采用最小二乘线性系统作为损失函数,将问题转化为求解线性方程组的问题,计算速度快。若选取误差为ei的二范数作为损失函数,则式(3)的优化问题将转化为:

引入拉格朗日乘法算子αi(i=1,2,…,n),可得:

对式(5)中的参数w、b、α、ei求偏导,得到一个线性方程组。消去其中的参数w与ei,并加入核函数K(xi,xj)=[φ(xi),φ(xj)],最终得到LS-SVM的分类模型为:

2.2 核函数的选择

常用的核函数包括线性核函数、多项式核函数、高斯核函数、RBF核函数、张量积[8]。由于高斯核函数具有较高的可分性以及局部性,且参数个数较其他核函数少,只存在一个参数σ需要优化。因此,本文选用高斯核函数,其表达式如下所示:

其中,σ为核函数的宽度系数,表现为样本数据在原始空间内分布的复杂程度,控制了函数的作用范围;∣x-y∣代表了两个向量之间的距离。

2.3 参数的优化

使用LS-SVM进行故障诊断,除了核函数的选择,惩罚参数C的选择同样影响LS-SVM分类器的分类结果。C的值越小,惩罚度越小,但训练误差越大。相反地,C的值越大,训练误差越小。20世纪30年代,出现了交叉验证(Cross Validation,CV)方法,最初应用于模型的性能评估[7],现今CV在机器学习中的应用令人看到了意想不到的效果。常见的CV方法包括:(1)Holdout验证;(2)缺一法交叉验证(Leave-One-Out Cross-Validation,LOO-CV);(3)K组交叉验证(K-Fold CrossValidation,K-CV)。方法(1)将原始数据进行随机分组,最后的分类结果与分组方式有很大的关系,但没有实现真正意义上的交叉。方法(2)计算成本高,过程复杂,所需时间长。本文选用的方法(3)将输入样本划分成了k个独立的子样本,选取其中一个单独的子样本作为验证模型的数据,剩余的k-1个样本用来训练。每个子样本均需验证一次,直至重复完成k次交叉验证。平均k次的结果,最终获得CV的平均分类准确率。该方法的优势在于可以同时重复运用随机产生的子样本进行训练和验证,且每次的结果均被验证一次,使样本数据得到了最大化应用。

经Matlab仿真试验证明,选择不同的参数,SVM的分类准确率会在65%~92%之间波动[8],如表1所示。同时,参数σ与C的值如何组合,对诊断精度也会产生一定的影响。

3 LS-SVM在电力变压器故障诊断中的应用

3.1 训练模型输入、输出量的确定

电力变压器在正常运行的过程中,内部的绝缘油在电和热的作用下,会渐渐老化,分解出少量的H2、CO、CO2、CH4[8]。当变压器发生内部故障时,加剧分解,气体含量会迅速增加。不同类型的故障,气体的种类及其含量均会有对应的变化。研究表明,氢气(H2)可反映变压器内部受潮、局部放电超标或是绝缘电阻下降;乙炔(C2H2)可反映变压器是否有温度异常升高现象;乙烯(C2H4)可反映变压器的潜在低温故障。因此,以变压器油中气体为依据进行故障诊断是有效可靠的。

以某220 k V变电站为例,某日该地区发生强对流天气,造成110 k V同塔架设的A线、B线杆塔折倒,导致110 k V、35 k V数条线路开关跳闸,均重合不成。在两条110 k V线路重合于永久性故障的过程中,2号主变发生内部绝缘故障,最终主变三侧开关跳闸。故障发生后1 h 40 min,对故障主变采油样,获得的油色谱数据如表2所示。

由此可见,通过电力变压器的油色谱试验可以获得H2、CH4、C2H2、C2H4、C2H65种特征气体,来表征故障现象。因此,本文选取这5种特征气体的含量作为LS-SVM分类器的输入样本量。同时,选取了电力变压器在运行过程中较为典型的6种故障类型,如表3所示,并将故障所属类别{f1,f2,f3,f4,f5,f6}作为LS-SVM分类器的输出样本量。

3.2 算法流程介绍

将LS-SVM应用于电力变压器故障诊断算法的具体流程如图2所示。

具体地包括如下步骤。

步骤1:收集以H2、CH4、C2H2、C2H4、C2H6为输入样本的数据,建立数据库。选取正常运行情况下的数据作为训练样本,剩余的作为测试样本。

步骤2:考虑到5种特征气体含量的分散性,利用式(8)对所有的输入样本数据进行归一化处理。

其中,xp为归一化后的数据;xm i n为输入样本中气体含量的最小值;xmax为输入样本中气体含量的最大值;m、n为常数,分别代表了归一化后气体含量的上限与下限。

步骤3:依据诊断模型的输入、输出量,建立LS-SVM训练模型。由于输出样本包含6种不同的类型,任选其一,进行两两组合,即可建立一个LS-SVM预测训练器。因此,一共可获得6×(6-1)/2=15个LS-SVM训练器。

步骤4:选取合适的核参数σ与惩罚参数C。为了保证对训练样本的错误数最小,经过多次比较,确定σ=4.5,C=1。

步骤5:利用训练样本对建立好的LS-SVM训练器进行训练。

步骤6:将测试样本依次输入已经训练好的LS-SVM训练器,得到故障类型的分类结果,并进行分析比对。

3.3 实例结果分析

文中从现场仿真试验及历年电力变压器故障分析报告中收集了共150组数据,其中包括30组正常数据,120组故障数据。因此,训练样本与测试样本的比例按1:4进行分配。试验得到的各种故障类型的诊断准确率如表4所示。从表中数据可以看出,故障诊断率已达到93%。以变压器B、C相相间短路故障为例,故障录波器波形如图3所示。

通过LS-SVM故障诊断的结果与实际情况相符,亦可证明所述方法的准确性。

综上所述,文中提出的方法能够以较快的速度对电力变压器的运行状态进行分类,准确地找出故障信息,具有较高的稳定性与可靠性。

4 结语

与传统的支持向量机相比,LS-SVM将原先的非线性问题转化为求解线性问题,即使在小训练样本的前提下,也能获得更为准确的诊断结果。电力变压器可能发生的故障种类多,但受现场客观条件的限制,采集精度较高、数量较多的故障样本数据仍存在较大的困难。

因此,将LS-SVM应用于电力变压器的故障诊断可以发挥出巨大的优势。是否能够将LS-SVM与其余智能算法相结合,对故障样本数据进行预分类,再通过支持向量机训练获得更为精确的诊断结果是下一阶段的工作目标。

摘要:介绍了一种基于最小二乘支持向量机(LS-SVM)的电力变压器故障诊断方法,将样本数据进行归一化处理,以绝缘油中特征气体种类及其含量为依据建立变压器故障诊断LS-SVM模型,对模型中的核参数σ与惩罚参数C进行优化,并将测试样本输入训练好的LS-SVM模型,得到诊断结果。实例结果分析表明,LS-SVM将原先的非线性问题转化为求解线性问题,即使在小训练样本的前提下,也能获得更为准确的诊断结果。

关键词:电力变压器,故障诊断,最小二乘支持向量机,核函数,气体分析

参考文献

[1]周婧婧.基于故障树分析的电力变压器可靠性评估方法研究[D].重庆:重庆大学,2009.

[2]杨志超,张成龙,吴奕,等.基于粗糙集和RBF神经网络的变压器故障诊断方法研究[J].电测与仪表,2014,51(21):34-39.

[3]张启清.电力变压器故障诊断专家系统的研究[D].重庆:重庆大学,2002.

[4]NELLO Cristianimi,JOHN Shawe-Taylor.An Introduction to Support Vector Machines and Other Kernel-based Learning Methods[M].New York:Cambridge University Press,2000.

[5]武中利.电力变压器故障诊断新方法研究[D].北京:华北电力大学,2013.

[6]尹金良,朱永利.支持向量机参数优化及其在变压器故障诊断中的应用[J].电测与仪表,2012,49(5):11-16.

[7]郑含博.电力变压器状态评估及故障诊断方法研究[D].重庆:重庆大学,2012.

最小支持向量机 篇10

依据我国煤矿瓦斯涌出量分类的统计数据, 高瓦斯矿井占35%, 这些高瓦斯矿严重威胁着采煤工作面的安全。瓦斯涌出量的准确预测对于通风系统的设计、瓦斯防治、安全管理有着重要意义。我国从20世纪50年代就开始进行这方面的研究, 例如矿山统计法、分源预测法、构造单元分源预测法等[2,3]。

随着现代技术的迅速发展, 特别是数学方法和计算机技术的发展, 原有的预测方法和应用范围得到了拓展, 出现了一些新的预测方法, 如瓦斯地质数学模型、速度预测法、灰色系统理论、神经网络等, 但这些方法还在探索阶段。而近年来新兴的支持向量机 (support vector machine, SVM) 可以为瓦斯涌出量预测提供极大地便利[2], 本文首先利用GA对LS-SVM中的相关参数进行优化, 然后利用LS-SVM对瓦斯的影响因子进行训练, 进而对瓦斯涌出量进行预测。对比BP神经网络的预测结果, 基于该方法的瓦斯涌出量预测模型具有较高的预测精度, 为工程应用奠定了基础。

1 遗传算法优化参数的原理

遗传算法是一种借鉴生物界自然选择和自然遗传机制的随机搜索算法, 能够在搜索过程中自动获取和积累有关搜索空间的知识, 并自适应地控制搜索过程以求得最优解。

用遗传算法优化LS-SVM参数过程如下[4,5]:

Step 1:设置初始值, 如遗传算法的初始种群规模、最大遗传代数T、交叉概率、变异概率等。

Step 2:对要优化的参数根据其设定的范围进行二进制编码, 随机产生初始种群。染色体为各参数二进制顺序排列组成, 长度即为各参数二进制长度之和。设置遗传代数计数器t=0。

Step 3:计算种群中各个个体的适应度。这里将最小二乘支持向量机的预测正确率作为目标函数值, 即个体的适应度, 个体对应的参数的预测正确率越高, 则该个体的适应度越大。

Step 4:根据个体适应度, 按照一定规则 (这里采用轮盘赌法) 从当前种群中选出个体进入下一代。

Step 5:选择群体中的两个个体x1、x2作为父体以某个概率 (交叉概率) 进行交叉操作, 产生两个新个体。这里采用单点交叉, 交叉概率设为0.8。

Step 6:随机选择种群中的个体以一定的概率 (变异概率) 进行变异操作, 通过随机改变个体中某些基因而产生新个体。变异概率设为0.05。

Step 7:终止条件判断。若t≤T, 则转到步骤2;若t>T或平均适应度值变化持续小于某一常数超过一定代数, 则所得到的具有最大适应的个体作为最优解输出, 算法终止。

Step 8:对得到的最优解译码, 得到优化的参数。

2 最小二乘支持向量机的预测原理

SVM[6,7,8]是一种全新的和强有力的分类和回归工具, 标准的SVM算法是将一个实际问题转化为一个带不等式约束的二次凸规划问题, 而LS-SVM是将实际问题转化为求解一组线性方程组的问题, 简化了计算, 提高了收敛速度。其具体回归算法如下[6]:

对于给定的训练数据集s={ (x1, y1) , (x2, y2) , ..., (xl, yl) }∈Rn×R, 利用如下高维特征空间的线性函数来拟合样本集:

式中:φ (x) 为输入空间到高维特征空间的非线性映射;w为特征空间权系数向量;b为偏置。根据结构风险最小化原理, LS-SVM回归可以表示为如下约束优化问题:

为了求解上述优化问题, 需将约束优化变为无约束优化。引入拉格朗日函数, 将目标函数的优化问题变换到对偶空间, 则

式中:αi为拉格朗日乘子;λ为常数;根据KKT (Karush-KuhnTucker) 条件, 则L/w=0, L/b=0, L/ei=0, L/αi=0, 即

对于此式, 消去w和ei可得到如下线性方程组:

式中:ei=[1, ..., l]T;α=[α1, ..., αl]T;y=[y1, ..., yl]T;Q=φ (xi) Tφ (xi) ;根据Mercer条件定义核函数k (xi, xj) =φ (xi) Tφ (xi) 。

利用最小二乘法求解上线性方程组, 从而解出a和b, 最后得到LS-SVM回归函数:

从线性方程组可以看出, 只有参数λ是待选的, 这比标准SVM待选的参数少, 不再需要指定收敛判据的精度。所以LS-SVM算法运行简单, 速度快, 精度高。

3 实验仿真

仿真运用的实验平台为Windows 8, 4G内存, 软件为MATLAB (R2013a) 。某煤矿回采工作面瓦斯涌出量与影响因素统计表如表1所示, 其中煤层深度 (m) 、煤层厚度 (m) 、煤层瓦斯含量 (m3·t-1) 、煤层间距 (m) 、日进度 (m·d-1) 、日产量 (t·d-1) 分别表示为x1~x6, x0为瓦斯涌出量。

用前13组数据作训练样本, 其中x1~x6是训练样本集, x0是训练目标集, 则得到基于LS-SVM的瓦斯涌出量预测模型, 模型中的参数用GA优化后, 惩罚系数C=165.63, μ=63.85。最后用第14-18组数据中x1~x6作为测试集, 训练出瓦斯涌出量x0。同时用神经网络预测第14-18组数据中的瓦斯涌出量x0[9,10], 目标收敛趋势如图1所示, 实验预测结果及两类预测值与表1中实际值的绝对误差如表2所示, 二者的平均绝对误差分别是0.1847和0.3040, 则LS-SVM对瓦斯涌出量的预测效果明显比神经网络好。

4 结束语

本文将基于统计学习理论的LS-SVM和GA应用到煤矿瓦斯涌出量的预测研究中, 用GA对LS-SVM的相关参数进行优化, 然后用LS-SVM进行预测。与神经网络预测的结果相比, LS-SVM的预测结果更精确, 与实际值的误差更小, 训练速度更快, 对进一步解决实际工程问题具有很好的应用前景。

参考文献

[1]章立清, 秦玉金, 姜文忠, 等.我国矿井瓦斯涌出量预测方法研究现状及展望[J].煤矿安全, 2007, 393 (8) :58-60.

[2]梁华珍.工作面瓦斯涌出量预测的研究与应用[D].安徽:安徽理工大学, 2007, 06.

[3]王一莉.瓦斯涌出量预测方法及其应用研究[D].南京:南京工业大学, 2005, 05.

[4]雷英杰, 张善文, 李续武, 等.MATLABGA工具箱及其应用[M].西安:西安电子科技大学出版社, 2005.

[5]王克奇, 杨少春, 戴天虹, 等.采用GA优化最小二乘支持向量机参数的方法[J].计算机应用与软件, 2009, 26 (7) :109-111.

[6]王晓兰, 王明伟.基于小波分解和最小二乘支持向量机的短期风速预测[J].电网技术, 2010, 34 (1) :179-184.

[7]朱家元, 杨云, 张恒喜, 等.基于优化最小二乘支持向量机的小样本预测研究[J].航空学报, 2004, 25 (6) :565-568.

[8]叶徐静.基于最小二乘支持向量机的风电功率超短期预测[J].电源学报, 2013 (2) :30-35.

[9]彭望蜀.基于BP神经网络与支持向量机的股票指数预测模型比较[J].金融市场, 2013 (437) :71-73.

最小支持向量机 篇11

关键词:支持向量机;SVM;PRP-SVM;CGM-OC-SVM

中图分类号:TP391文献标识码:A文章编号:1009-3044(2007)15-30814-02

A Algorithm of SVM for any Kernel

TAO Mei, Wushour·Silamu

(School of Information and Engineering Xinjiang University,Wulumuqi 830046, China)

Abstract: Taking support vector machines (SVM) and the traditional statistics classification method as the research object, introduces the classification method theory of SVM algorithms,and based on PRP-SVM,then puts forward the orthogonal adjustment conjugate gradient iteration algorithm of support vector machines (CGM-OC-SVM), meanwhile the CGM-OC-SVM algorithm is carried out by the C programming language,and doing a graphic simulation using Matlab.

Key words: Support vector machine; SVM; PRP-SVM; CGM-OC-SVM

1 引言

数据挖掘中,数据的分类与回归问题是其重要的研究对象。常用于分类和回归的方法,如Bayes 分类、Logistic 回归、神经元网络等在实现机器学习时,都是基于经验风险最小化原则的。然而,一般在有限样本的情况下,经验风险最小不一定意味着期望风险最小,在有些情况下会出现“过学习”和推广性不好等情况,得到的实验结果并不是很理想。

Vapnik 于上世纪90年代初提出的支持向量机(SVM),是数据挖掘中的一项新技术。它是在统计学习理论的基础上,借助于最优化方法解决机器学习问题的新工具。该算法是一个凸优化问题,即局部最优解就是全局最优解,这是其他学习算法所不及的。SVM 基于结构风险最小化原则,能很好地解决有限数量样本的高维模型构造和“过学习”问题,具有良好的推广性和较好的分类精确性,已被应用于人脸识别、医疗诊断等方面。

尽管SVM 的应用领域很广,但其理论研究还相对滞后,其中就包括算法本身改进和算法的实际应用。支持向量机分类器最终可以转化为解决一个二次规划问题,目前的研究大都集中于如何在训练数据较多的情况下来解决这个二次规划问题。现基于改进共轭梯度迭代PRP-SVM 算法的基础,提出一种对任何SVM 核通用的正交校正共轭梯度迭代支持向量机算法(CGM-OC-SVM),并通过程序实现此算法,利用Matlab进行算法结果的图形模拟。

2 支持向量机(SVM)

SVM与传统统计学的大样本量研究方向不同,它最大的特点是遵循“结构风险最小化原则”,尽量提高学习机的泛化能力,即由有限的训练样本集获得小的误差的特性,保证对独立的测试集有小的误差,从而解决了有限样本的“过学习”问题(即机器复杂性越高,则置信范围越大,导致真实风险与经验风险可能的差别越大)。目前,该技术已应用到手写体识别、人脸识别、指纹识别、语音识别、数据挖掘等领域。

SVM的核心理论包括:(1)VC维理论,不仅要使机器学习的经验误差最小,而且应该最小化函数集的VC维,从而控制学习机的结构误差,使SVM分类器具有较强的泛化能力;(2)引入最优超平面概念,使函数的VC维上届达到最小,而最优超平面问题可以转化为二次规划问题;(3)核空间理论,通过非线性映射将输入空间映射到高维特征空间,使低维输入空间线性不可分问题转化为高维特征向量空间线性可分问题,并通过核函数绕过高维空间,使计算在低维输入空间进行,从而不需知道非线性映射的具体形式。

2.1 线性SVM最优分界面

2.1.1 线性可分情况

假定训练数据为 个观测样本(x1,y1),(x2,y2)…(xn,yn),xi∈Rp,yi∈{+1,-1},则存在超平面(w·x)+b=0线性可分,使训练点中的正类输入和负类输入分别位于该超平面的两侧,或者说存在参数对(w,b),使得yi=sgn((w·xi)+b),i=1,…,n这样的超平面通常不止一个,因此,我们的目的是要找到一个最优分类超平面,使分类面经验风险最小(即错分最少),并且推广能力最大(即空白最大)。如图1中(a)、(b)所示:

图1 2-class分类

SVM问题的数学表示为:

2.1.2 线性不可分情况

2.2 非线性SVM最优分界面

在很多情况下,数据是线性完全不可分的,这就属于非线性划分问题。我们可以通过非线性映射将向量x映射到一个高维特征空间Z,在这个高维特征空间中构造最优平面或推广的最优分类超平面。即通过函数Φ:Rn→Z将所有样本点映射到高维空间,将原来的xi·xj变为Φ(xi)·Φ(yi)形式,记核函数K(xi,xj)=Φ(xi)·Φ(yi)。常见的满足Mercer条件的核函数有多项式核函数K(xi,xj)=[(xixj)+1]d和高斯径向基核函数(即RBF核)

该策略的主要思想是对N分类问题构建N个支持向量机,每个支持向量机负责区分本类数据和非本类数据。最后结果由输出离分界面w·b+b距离最大的那个支持向量机决定。

2.3.3 层次策略

该策略的主要思想是对N分类问题构建若干个支持向量机,且它们之间是有层次地连接成一个有向无环图的结构,分类结果根据图经过的若干个支持向量机的判别得到。

3 算法模拟

CGM-OC-SVM算法是用C语言编写的,并选择RBF核作为核函数,现应用该算法分别对平面上两点和多点训练样本点进行分类训练、算法模拟。

(1)设x,y平面上的2个训练样本点为α=(1,1),b=(2,3)

假设训练集为S={(a,-1),(b,1)},其中a是-1类点,b是+1类点。取核参数δ=1,惩罚参数C=2时,采用改进的CGM-OC-SVM算法求解得α*=(1,1),设定x,y平面上的一点为k=(x,y),分类函数为:,

内层迭代次数为1,外层迭代次数为1。利用Matlab分别作其三维、二维模拟图,见图3(a)和(b)。

图3

(2)设x,y平面上的5个训练样本点为a=(3,1),b=(4,2),c=(8,0.3),d=(2,3),e=(3,4)

假定训练集为S={(a,-1),(b,-1),(c,-1),(d,1),(e,1)},其中a,b,c是-1类点,d,e是+1类点。取核参数δ=1,惩罚参数C=2时,采用改进的CGM-OC-SVM算法求解得α*=(0.801222,0.799457,0.799498,1.200462,1.20044),设定x,y平面上的一点为k=(x,y),分类函数为:

内层迭代次数为1,外层迭代次数为1。利用Matlab分别作其三维、二维模拟图,见图4(a)和(b)。

图4

4 结束语

由于支持向量机是建立在统计学习理论的VC维理论和结构风险最小原理的基础上,根据有限样本在学习精度和学习能力之间寻求最佳折衷,因此具有最好的推广能力。提出的CGM-OC-SVM算法改进了PRP-SVM算法只能选择多项式核函数的缺点,具有通用性。

参考文献:

[1] 邓乃扬, 田英杰. 数据挖掘中的新方法——支持向量机[M]. 北京:科学出版社,2004.

[2] 张学工. 关于统计学习理论与支持向量机[J]. 自动化学报,2000,26(1).

[3] 黄琼英. 支持向量机多类分类算法的研究与应用[D]. 河北:河北工业大学,2005.

[4] E.Osuna, R.Freund, and F.Girosi Support Vector Machines: Training and Applications A.I. Memo 1602, MIT Artificial Intelligence Laboratory, 1997.

[5] Zhang Ling, Zhang Bo. Relationship between Support Vector Set and Kernel Functions in SVM, J.Comput.Sci.&Technol,2002,17(5):549.

[6] O Chapelle,V Vapnik et al.Choosing Multiple Parameters for Support Vector Machine[J]. Machine Learning,2002,46:131-159.

最小支持向量机 篇12

由于油库对油罐实行人工管理, 大部分油罐埋在地下, 很难发现油罐故障, 因此一旦出现故障经济损失严重, 容易造成污染环境并产生重大的安全隐患。随着技术的飞速发展, 安全保障已经成为自动控制系统的一个重要部分, 系统中一些微小的故障如果不排除, 就容易出现灾难性的后果。因此, 如何及时地发现油罐故障并报警, 是对油库进行自动化改造中急需解决的问题。

支持向量机 (SVM) 是近几年应用于数据统计的一种新的学习方法, SVM在小样本数据的拟合中获得了很好的效果, 在工程分析中越来越受到重视。随着研究深入, 发现利用它进行非线型回归分析时, 可以比较完满地解决通用性和推广性的问题。因此, 深入研究SVM方法对于故障预测具有重要意义。

1 最小二乘支持向量机 (LS-SVM) 原理

SVM具有良好的泛化能力, 而最小二乘估计作为函数回归最基本的工具之一, 在数据估计中得到广泛的应用。将最小二乘问题转化为SVM形式加以应用, 将保证得到的函数具有最好的泛化能力。Suykens和Vandewalle对Vapnik的标准SVM进行修改, 提出了最小平方支持向量机 (LS-SVM) , 它是将传统的SVM中的不等式约束改为等式约束, 且将误差平方和 (Sum Squares Error) 损失函数作为训练集的经验损失, 这样就把解二次规划问题转化为求解线性方程组问题, 提高了加决问题的速度和收敛精度。其优化函数为:

相应的Lagrange函数表达式为:

其中, αK是Lagrange系数KT条件:

可以表示成下面的线性方程组:

消除w和e后得到 (N+1) (N+1) 的线性系统:

其中:Ωk, j=K (xk, xj) =谆 (xk) T谆 (xj)

可以有很多种方法求 (4) , 这里使用求逆的方法:

其中A=Ω+λ-1I

由此基于LS-SVM的回归预测函数变为:

式 (7) 中ak和b由式 (6) 计算得到, 从而避免了二次规划, 而K (x, xi) =Φ (x) ·Φ (xi) 称为核函数, 它是满足Mercer条件的任何对称的核函数对应于特征空间的点积。核函数种类很多常见的有: (1) 多项式函数:k (x, xi) =[ (x·xi) +1]q; (2) RBF函数:k (x, xi) =exp{-|x-xi|2/2σ2}。

2 最小二乘支持向量机 (LS-SVM) 算法的实现

美国K Pelckmans, J.A.K.Suykens开发的基于Matlab的最小二乘支持向量机的工具箱LS-SVMlab编程简单, 可扩展性强, 算法丰富。

本文将以Matlab7.0为开发环境。基于Matlab的LS-SVMlab工具箱主要包括分类、回归、时间序列预测和无监督学习。针对回归问题一般的设计流程如下:

2.1 训练数据的导入

要使用此工具箱进行训练, 必须准备样本数据, 可以使用两种方法 (1) 直接以矩阵的形式输入M文件中; (2) 创建数据文件, 然后使用函数读取。

2.2 数据预处理

对要训练的输入和输出数据进行一定的预处理, 可以加快训练速度。Matlab提供的数据预处理方法有归一化处理 (把每组数据变为-1到+1之间的数, 正逆使用的函数有premnmx, postmnmx) 标准化处理 (把每组数据化为均值为0, 方差为1的一组数据, 所涉及的函数有prestd, poatstd) 和主成分分析 (进行正交处理, 减少输入数据的维数, 所用函数有prepca) 。当训练输出数据时要反归一化。

2.3 算法的训练和仿真

LS-SVMlab工具箱用于函数回归主要使用以下三个函数:initlssvm模型初始化, trainlssvm训练, simlssvm回归。

2.4 算法存在的问题及改进

利用LS-SVM进行数据拟合要注意的事项有:样本数据标准化后, 根据实际经验或主成分分析选取合适的变量, 正则化参数γ可使用工具箱给的gridsearch函数自动搜索, 但是时间慢, 计算量大。在实际是试验中发现参数尽可能选大就可以。另一个主要方面就是核函数的选择, 在实际应用中大多使用RBF核函数。

由于最小二乘支持向量回归估计将二次规划问题转变成线型方程组的求解, 失去了支持向量解的稀疏性优点, 此外, 冗余信息的噪声被全部拟合到模型参数里, 削弱了模型的鲁棒性, 使辨识参数的推广能力下降。针对上述缺点, 工具箱中有Tunelssvm对此改进。

3 基于最小二乘支持向量机 (LS-SVM) 的油罐故障检测

油罐故障分析从属于油库综合管理系统, 是进行油库安全预警的重要环节。油罐在实际使用过程中, 由于人为操作不当、机械问题或其他外界因素等都会导致故障发生。统计表明, 油罐发生故障时, 油罐内油品的压力变化△P和流量变化△Q都会发生变化, 卧式油罐的常见故障模式主要有无故障、油罐漏油、油罐抽瘪、油罐鼓包四种。油罐漏油时, 液位升高变慢, 下降变快;油罐抽瘪时, 液位下降变慢;油罐鼓包时, 液位升高变慢。因此我们选这两个数据作为特征信号。这些数据具有不同的单位和量级, 所以在输入之前首先要进行归一化处理。表1给出了输入训练向量的9组数据, 它们都是已经归一化后的样本数据。

我们可以定义输出向量由下列形式表示,

无故障: (1, 0, 0, 0)

油罐漏油: (0, 1, 0, 0)

油罐抽瘪: (0, 0, 1, 0)

油罐鼓包: (0, 0, 0, 1)

测试样本, 分别在油罐无故障、油罐漏油、油罐抽瘪、油罐鼓包。

程序部分按照第2部分设计, 读入数据, X是9个二维输入向量, Y是9个四维输出向量。Xt为4个二维的输入样本向量, Yd为输出的4个四维测试样本向量。主要代码有:

输出结果为:[1 0 0 0, 0 1 0 0, 0 0 1 0, 0 0 0 1]

这与实际情况是相符合的, 说明所设计的设备状态分类和算法是合理的, 可以投入实际使用的。我们用神经网络的方法来进行比较:

对这组数据用BP神经网络预测得到的结果如下:

从上面结果可以看出神经网络建立的模型要比LS-SVM好, 但是在预估上, LS-SVM要优于神经网络, 具有较好的泛化能力, 而且训练速度要比神经网络快。

4 结束语

LS-SVM是用等式约束代替传统支持向量机中的不等式约束, 求解过程从解QP问题编程一组等式方程, 提高求解问题的速度和收敛精度。本文针对LS-SVM在回归预测方面的应用, 建立了油罐故障检测模型, 并基于Matlab的最小二乘支持向量机的工具箱LS-SVMlab进行了仿真处理, 结果表明LS-SVM建立的非线性模型是可行有效的, 具有很好的泛化能力, 计算速度快, 并且简化了计算, 为故障预测提供了一个新途径。

参考文献

[1]李方方, 赵英凯, 颜昕.基于Matlab的最小二乘支持向量机的工具箱及其应用[J].计算机应用, 2006 (26) .

[2]李云, 任建平.基于神经网络的油罐故障诊断系统的设计[J]山西电子技术, 2007 (5) .

[3]李关.基于神经网络的油罐故障模糊诊断系统[J].石油化工自动化, 2005 (6) .

[4]郭辉, 刘贺平, 王玲.最小二乘支持向量机参数选择方法及其应用研究[J].系统仿真学报, 2006 (7) .

上一篇:房产管理信息数据库下一篇:财产管理