支持向量机理论研究(共12篇)
支持向量机理论研究 篇1
0 引言
支持向量机(Support Vector Machine,SVM)是借助于最优化方法解决数据挖掘中若干问题的有力工具,是近年发展起来的一种通用机器学习方法。SVM是建立在统计学理论基础之上的一种算法,既有简洁的数学形式、直观的几何解释,又能够较好地解决线性、非线性、小样本、维数灾难、局部极小值和“过学习”等问题。
支持向量机理论是20世纪90年代由Vapnik提出的,在提出以后一直处于飞速发展的阶段。SVM发展到今天,已经形成了支持向量机的理论基础和各种算法的基本框架,并在语音识别、遥感图像分析、故障识别和预测、文本分类、生物信息、时间序列预测、信息安全等众多领域有了成功的应用。
支持向量机最初是解决分类问题(模式识别、判别分析)和回归问题,现在发展出了很多的变形和拓展。支持向量机模型采用结构风险最小化原则和核函数方法来构造分类模型,模型比较简单,解具有唯一性。由于支持向量机理论是把对已有问题的求解转化为对二次规划问题的求解,而二次规划的计算量是很大的,这导致了支持向量机算法的计算量也很大。为了解决计算量大、多分类等问题,于是又提出了最小二乘支持向量机、多类支持向量分类机、中心支持向量分类机、顺序回归机等支持向量机的变形和拓展。
1 理论基础
分类问题(Classification)和回归问题(Regression)是支持向量机最常解决的问题。本文采用C-支持向量分类机来解决分类问题,而采用支持向量回归机来解决回归问题。
1.1 C-支持向量分类机
(1)给定训练集,其中T={(xi,yi,)},i=1,…,l;xi∈Rn,yi∈{1,-1}。
(2)选择适当的惩罚参数(C>0)以及核函数K(x,x')。
(3)构造并求解凸二次规划问题:
求得此凸二次规划的解为α*=(αi*,…,αl*)T。
(4)根据式(3)计算b*,其中求解b*中的yi是0<αj
(5)求得决策函数:
1.2 ε-支持向量回归机
(1)给定训练集,其中T={(xi,yi,)},i=1,…,l;xi∈Rn,yi∈R。
(2)选择适当的惩罚参数C>0、适当的精度
ε>0和适当的核函数K(x,x')。
(3)构造并求解凸二次规划问题:
求得此凸二次规划的解为
(4)计算,其中求解中的yi是(7)或者是(8)中对应的某一个。
或者是
(5)构造决策函数:
2 仿真
本文选取一个回归问题来描述如何使用支持向量机理论来解决问题的方法。本文数据选取为:x1为-2:0.1:2;x2为-2:0.1:2,y为sin(x1)+(x2)2。其中的输入x为二维输入[x1;x2]。
使用台湾大学林智仁博士研发的基于最小二乘支持向量机原理的libsvm工具箱进行仿真。仿真可以得到输出仿真图(图一)和误差绝对值输出仿真图(图二)。
通过图一和图二可以看出,使用支持向量机理论对输出y进行预测,可以得到很好的预测效果,输出y的误差绝对值在0~0.25这一范围内,因而效果比较好。
3 结束语
支持向量机算法的理论与应用都取得了长足的进步,但在有大量训练数据的实际应用中,仍然存在着计算速度和存储容量的问题。而且在求解非线性问题时,核函数的选取工作也没有形成一套很有效的理论,现在主要是依靠经验来选取,这就存在着局限性。这些都是以后需要研究的课题。
摘要:如何解决分类问题和回归问题是支持向量机算法的基本内容。本文研究了使用支持向量机算法解决线性和非线性分类问题和回归问题的原理和方法。
关键词:支持向量机,分类,回归,非线性
参考文献
[1]邓乃扬,田英杰.支持向量机[M].北京:科学出版社,2009.
[2]邓乃扬,田英杰.数据挖掘中的新方法[M].北京:科学出版社,2004.
[3]王书舟.持向量机方法及其应用研究[D].哈尔滨:哈尔滨工业大学,2009.
[4]张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26.
支持向量机理论研究 篇2
支持向量机在大气污染预报中的应用研究
支持向量机是基于统计学习理论的新一代机器学习技术,其非线性回归预测性能优越于传统统计方法.利用前一天该污染物的.日均浓度、前一天地面平均风速等7个预报因子建立了基于RBF核函数支持向量回归法的大气污染预报模型,并利用十重交叉验证和网格搜索法寻找模型最优参数.乌鲁木齐大气预报实例表明:支持向量机显示出小样本时预报精度较高和训练速度快的独特优势,为空气质量预报提供一种全新的模式.
作 者:常涛 Chang Tao 作者单位:新疆气候中心,乌鲁木齐,830002刊 名:气象 ISTIC PKU英文刊名:METEOROLOGICAL MONTHLY年,卷(期):32(12)分类号:P4关键词:大气污染预报 支持向量机(SVM) 交叉验证 网格搜索
支持向量机理论研究 篇3
【关键词】支持向量机 股票价格预测 量化分析
【中图分类号】G64【文献标识码】A 【文章编号】2095-3089(2016)10-0227-01
一、引言
随着金融市场的逐步完善,证券交易所的交易量也在不断的提升,预测未来一段时间内的证券价格成为广大投资者密切关注的问题,同时产生了许多优秀的证券分析预测方法[1],如基本分析和技术分析(K线图、移动平均线和OBV线等)。然而这些方法从本质上来讲只是分析方法,其预测结果不很理想。近年来,国内外学者纷纷采用人工神经网络[2]、支持向量机[3]等方法对证券交易数据,特别是股票市场的数据进行处理,试图揭示证券交易数据背后所蕴含的意义,并对其价格进行预测。目前,国内外关于证券价格预测的方法主要有证券投资分析法、时间序列分析法、人工神经网络法和支持向量机方法[4]等。
自2000年以来,国内外对支持向量机的研究不断地增加,SVM应用于证券价格预测领域的优势可概括为:
(1)SVM具有坚实的数学理论基础,是专门针对小样本学习问题提出的。
(2)从本质上讲,SVM算法是一个凸二次规划问题,可以保证得到的解是全局最优解。
(3)SVM采用核函数方法,有效的解决了复杂计算问题。
(4)SVM应用了结构风险最小化原则,因而具有很好的推广能力。
基于以上优点,我们可以相信SVM在证券价格预测领域将越来越受推崇。
二、支持向量机简介
支持向量机分类的目标是能在某特征空间中学习到一个分类超平面,使得在这个空间中能够将数据线性分开。支持向量机的研究最初是针对模式识别中的二类线性可分问题提出来的。由于股市的数据是非线性的,SVM对数据进行非线性映射,通过映射?覬:X→F ,将数据映射到一个合适的特征空间F中,从而使数据线性可分,然后在F中构造最优超平面。由于优化函数和分类函数都涉及样本空间的内积运算, 因此在变换后的高维特征空间E中需进行内积运算<?覬(xi),?覬(xj)>,根据满足Mercer定理,对应线性变换空间中的内积,<?覬(xi),?覬(xj)>=k(xi,xj)。采用适当的核函数k(xi,xj),就能代替向高维空间中的非线性映射,实现非线性变换后的线性分类。
三、支持向量机在股票价格预测中的应用
(1)支持向量机核函数的选取问题
支持向量机方法是将数据映射到一个Hilbert特征空间中,然后在此特征空间中对数据进行处理,数据分类时选择合适的核函数非常重要。目前的方法大部分是使用一种径向基函数Guass核函数,同样可以作为核函数的还有径向基函数吴函数和Wendland函数,在对径向基函数和Guass核函数做了充分研究的基础上,对支持向量机中的核函数可以进行分析和改进。
(2)将改进的分类方法应用到股票价格预测中
将分类方法应用到股票价格预测中时,要面临以下问题: 一是变量的选取问题, 我们希望在选择尽量少的向量的基础上达到做好的预测效果。 二是变量的处理问题, 目的是不能出现向量被覆盖的问题。
四、总结
随着非线性理论、统计学、系统论、信息论、控制论和人工智能技术的空前发展,证券价格预测也开辟了新思路。支持向量机作为一种新的机器学习方法,它基于严格完备的数学理论,引入结构风险最小化原则,可以得到全局最优解,解决了陷入局部极小点的问题,利用支持向量机对证券时间序列进行预测是目前金融预测领域的最好方法之一。
参考文献:
[1]彭丽芳, 孟志青, 姜华等.基于时间序列的支持向量机在股票预测中的应用[J].计算技术与自动化,2006, 25(3):88-91.
[2]彭望蜀.基于BP神经网络与支持向量机的股票指数预测模型比较[J]. 南方金融, 2013(1):71-72.
[3]克里斯蒂亚尼尼.支持向量机导论[M].电子工业出版社, 2004.
[4]刘道文, 樊明智.基于支持向量机股票价格指数建模及预测[J].统计与决策, 2013(2):76-78.
作者简介:
支持向量机研究现状 篇4
SVM的应用同其理论的发展相对比要滞后许多, 其应用的范围和取得的效果同SVM的优越性很不匹配, 主要原因是算法的限制, 即运行效率低。因为标准SVM运行要消耗大量的时间, 并且随着训练样本数量的增加训练时间也会增加, 尤其对大量数据的处理更为棘手。现实当中所处理的问题一般数据量是非常大的, 所以在很多情况中受到约束。
目前, 对SVM的研究主要集中在以下几个方面:改进训练算法;提高测试速度;核函数的构造、改进以及相应参数的调整;利用SVM解决多类问题。
(一) 支持向量机
支持向量机主要是用来处理二类问题的。在原始数据空间中, 如果存在一个线性函数无错误的把数据分开, 那么称该数据集完全线性可分;如果存在一个线性函数可以以低错误率把数据分开, 则称该数据集是近似线性可分;如果存在非线性函数把数据集分开, 则称该数据集非线性可分。以下将详细介绍支持向量机的分类模型。
1. 线性可分问题
对于给定的一组数据
可以被一个超平面
分开, 如果这个向量集合可以被超平面没有错误的分开, 并且离超平面最近的向量与超平面之间的距离 (margin) 是最大的, 则我们说这个向量集合被这个最优超平面 (或最大间隔超平面) 分开。在超平面上的点称为支持向量 (support vectors) , 如图1所示:
我们用下面的方式来描述分类超平面H2 H3
由于margin越大分类器的泛化能力越强, 要得到最大的margin只需要使|w|最小。可以通过求解以下的最优化问题来得到最优解。
利用Lagrange优化方法可以把上述最优分类面问题转化为其对偶问题即:
解上述问题后得到的最优分类函数是:
2. 线性不可分问题
最大间隔超平面是在线性可分的前提下讨论的, 在线性不可分的情况下, 目标函数w (α) 的值将是无穷大的。可以在约束条件上加入一个松弛变量ξi≥0, 这时的最大间隔超平面称为广义最优分类超平面。
引入ξi的目的就是允许错分的情况出现, C是一个由用户自己选择的惩罚参数, C越大意味着对错误出现进行的惩罚更高, 参数C也可以被认为是一个调整因子。SVM更倾向于在使分类间隔margin最大化的前提下使C最小。C越大出现错分数据的可能性也就越小。
相应的, 广义最优分类超平面可以通过解下面的对偶问题得到:
3. 非线性SVM
对于非线性问题, 可以通过非线性变换转化为某个高维空间中的线性问题, 在变换空间求最优分类面。这种变换可能比较复杂, 因此这种思路在一般情况下都不容易实现, 但是注意到在以上的对偶问题中, 无论寻求最优函数还是分类函数都只涉及到训练样本之间的内积, 这样, 在高维空间实际只需要进行内积运算, 而这种内积运算是可以在原空间中的函数实现的, 甚至没有必要知道变化的形式。即使变换空间的维数增加很多, 在其求解最优分类面的问题中并没有增加多少的计算复杂度。其基本思想如下:支持向量机利用某种事先选择的非线性映射, 将输入向量x映射到一个高维特征空间, 然后在高维空间中求最优分类面。如图2所示。
可得在特征空间中的最优分类如下;
(二) 多分类支持向量机
SVM本身是解决两类分类问题的, 人们在两类算法的基础上, 对多类算法进行了深入的研究。目前处理多类SVM问题的方法主要有一对一方法、一对多方法、有向无环图方法、层次方法和纠错编码方法等。以下主要介绍一对一方法、一对多方法。
1. 一对多的方法 (One-against-the-rest Method)
支持向量机多类分类方法最早使用的算法就是一对多方法, 要构造多类分类器, 通常的方法是构造一系列的两类分类器, 其中的每一个分类器都把其中的一类同余下的各类分开。然后根据此推断输入的向量归属。一对多的方法是对于k类问题构造k个分类器, 在构造某个分类器的时候, 将属于这类的数据样本标记为正类, 不属于此类的样本标记为负类。测试时, 对测试数据分别计算各个子分类器的决策函数值, 选取函数值最大所对应的类别为测试数据的类别。
此种算法一个很明显的优点是只需要训练k个两类分类器, 所以得到的分类函数的个数也比较少, 分类速度也比较快。
这种算法的缺点也是很明显的, 每个分类器的训练都是将全部的样本作为训练样本, 这样就需要求解k个n个变量的二次规划问题, 因为支持向量机的训练时间是随着训练样本数量的增加而增加的, 所以这种方法的训练时间比较长。另外, 此种算法还会出现不对称的问题, 处理这类问题的时候我们通常采用的方法是对不同类别使用不同的惩罚因子。
2. 一对一的方法 (One-against-the rest Method)
这种方法也是基于两类问题的分类方法, 不过这里的两类问题是从原来的多类问题中抽取的。具体做法是:分别选取两个不同类别构成一个子分类器, 这样共有k (k-1) /2个SVM子分类器。在构造类别i和类别j的SVM子分类器时, 在样本数据集中选取属于类别i、类别j的样本数据作为训练数据, 并将属于类别i的数据标记为正, 将属于类别j的数据标记为负。
测试时, 将测试数据对k (k-1) /2个SVM子分类器分别进行测试, 并累计各类别的投票, 选择得分最高者所对应的类别为测试数据。
在一对一的方法中, 需要多个两类的分类器。对k类问题就需要构造k (k-1) /2个两类分类器, 比介绍的一对多的分类方法得到的分类器数目多很多, 但是每个分类器的规模却要小很多。如果k很大就会严重的影响算法的执行速度。
总的来说, 这种方法的优点是其训练速度较一对多方法快, 缺点是分类器的数目k (k-1) /2随分类数k急剧增加, 导致在决策时速度很慢, 且存在不可分区域。
此外还有其它的一些方法, 基于二叉树的多类支持向量机分类方法, 这种方法需要训练的两类支持向量机的数量少, 随着训练的进行, 总共训练样本数和一对多方法相比减少了许多。多级支持向量机方法, 采用先聚类再分类的策略, 不存在明显的不可分区域。因此它的测试精度明显高于上述几种方法, 而且测试速度也较快。但是, 这种方法在处理维数很高的数据时需要构造邻接矩阵, 这就导致训练时间比较长。对于大规模问题, 一对一方法和决策有向无环图方法更适于实际应用。二者所需的训练时间相当, 测试阶段决策有向无环图方法更快一些, 但其结构使实现过程更为复杂。
(三) 支持向量机反问题
对于给定的一组没有决策属性的样本点, 我们可以随机的把其分为两类。此时我们可以利用前面的知识来求出最优分类超平面, 并计算出最大间隔。若划分为两类的样本点线性不可分, 间隔计为0。显然, 间隔的大小取决于对原样本点的随机划分, 支持向量机反问题就是如何对样本点进行划分, 才能使最优分割超平面的间隔达到最大。对支持向量机反问题的研究是源自于设计一种新的决策树生成算法。现有的很多决策树算法如C4.5, 往往得不到好的执行效果, 由于支持向量机中最优超平面的间隔与其推广能力的关系, 具有最大间隔的样本划分, 被认为是生成决策树的新的启发式信息。
支持向量机是一个优化问题, 其数学描述如下:设S={x 1, x 2, ..., xN}为一个包含N个事例的给定数据集合, 且mx∈R, i=1, 2, ..., N,
另外
对于给定的一个函数f∈Ω, 样本集s被划分为两个子集, 并可以计算出相应的间隔 (margin) , 我们用Margin (f) 表示由函数f所决定的间隔 (泛函) , 那么SVM反问题就是要求解如下问题:
由于此优化问题的复杂度随着训练样本个数的增加而呈指数级增长, 枚举出Ω中所有的函数来求最大间隔是不现实的, 而且目前也很难给出一个十分严格的算法, 可以用减少Ω中函数个数的方法来降低其复杂度。
(四) 结论
本文综合介绍了现有的SVM经典训练方法, 说明了各种SVM在处理各类问题上的优缺点, 今后SVM的主要研究方向是确定不同的优化目标, 根据KKT约束优化条件寻找大规模训练样本下的实用算法, 反问题算法的提出扩展了SVM的应用领域, 成为新的研究热点之一。
参考文献
[1]Christopher J.C.Burges.A tutorial on support vector machinesfor pattern recognition[J].Data Mining and Knowledge Discovery, 1998, 2 (2) :121-167.
[2]Danny Roobaert, Marc M.Van Hulle.View-based3d-object recognition with support vector machines.IEEE Neural Networks for Signal Processing Workshop, 1999.
[3]刘胜利.基于SVM的网络入侵检测研究[R].江苏:大连海事大学硕士论文, 2004:4-11.
[4]柳回春, 马树元.支持向量机的研究现状[J].中国图象图形学报, 2002, 7 (6) :619-623.
支持向量机理论研究 篇5
支持向量机(Support Vector Machines)是近年来热门的一种有监督学习的.方法,它广泛的应用于统计分类以及回归分析中.通过SVM模型,考察分析一系列影响因素对高速公路路面质量指标的影响,并对提高高速公路路面质量提出建议.
作 者:陶甄 吴元 梁晓辉 TAO Zhen WU Yuan LIANG Xiao-hui 作者单位:陶甄,TAO Zhen(上海交通大学,金融系,上海,30)
吴元,梁晓辉,WU Yuan,LIANG Xiao-hui(上海交通大学,计算机科学与工程系,上海,40)
支持向量机理论研究 篇6
关键词:生态文明建设;模糊综合评价模型;智能遗传算法;支持向量机;MATLAB
一、引言
从党的十七大第一次提出“建设生态文明”,以此作为全面建设小康社会的一项重要目标开始,我国就踏上了全方位、多角度、省市联动地建设生态文明的新征程。人类发展史的实践表明,生态文明是有别于任何一种文明的崭新文明形态,其产生和发展具有必然的历史演进轨迹。人们所熟知的物质,精神,政治等文明都是伴随人类社会的发展而产生,惟有生态文明是现代工业高度发展阶段的产物。而生态文明也不单单只是生态、环境领域的问题,它是人与自然、发展与环境、经济与社会、人与人之间关系协调、发展平衡、步入良性循环的理论与实践,是人类社会跨入一个新的时代的标志。因此,对于生态文明建设程度的评价体系的研究建立就显得尤为重要了。一个城市或地区可以准确的判断出当地生态文明的建设程度,对于清晰明了之后的发展方向和进度具有深远意义。
二、生态文明建设程度的定量评价
(一)生态文明建设评价指标的选取
为研究我国各省域生态文明建设程度,本文基于我国现有评价指标中国省域生态文明建设评价指标(ECCI),并结合其他指标体系[1],剔除那些对指标体系贡献度不高的指标,选入了一些通过分析认为贡献度较高的指标,如生态经济文明、生态环境文明、生态社会文明和生态意识文明等;并对三级指标进行优化,进而得到本文所使用的指标体系。
(二)研究方法
1、主要指标的选取
由于指标体系中指标过多,若全部分析必会给数据搜集工作带来较大的麻烦,因此本文决定采用层次分析法,从上述指标体系中筛选出权重较大的指标。首先本文根据上述指标体系建立了递阶层次结构,然后根据上下层元素间的隶属关系构造出判断矩阵,其中二级指标间的判断矩阵如下:
A=113141331121421231121
在得到上述模糊判断矩阵之后,对矩阵进行归一化处理,然后求出判断矩阵中各向量的最大特征值。最后通过一致性检验,得到了二、三级指标的权重大小,其中生态文明综合指数对生态经济文明,生态环境文明,生态社会文明,生态意识文明4个二级指标的重视程度分别为:生态环境文明>生态经济文明>生态意识文明>生态社会文明。而三级指标中人均GDP,城镇居民可支配收入,基尼系数,污水处理率,森林覆盖率,SO2排放量,失业率,基本社会保险覆盖率,平均预期寿命,公共生态文明满意度,恩格尔系数,财政性教育经费占GDP比重这12个指标是权重较大的,对评价体系影响较大的指标。
2、模糊综合评价方法
本文采用Matlab72编程,设定种群大小N=100;进化代数为500;交叉概率为05;变异概率为0004 5。其中BP神经网络[5]是三层根据Kolmogorov 定理隐节点数取m=2n+1,其中n 为输入节点数,这里取13 个隐节点,设定均方误差为0000 1,最大进化代数为3 000 次。并按照山西人均GDP年增长率不低于20%,SO2排放量年增长率不高于35%,公共生态文明满意度年增长率不低于5%;甘肃人均GDP年增长率不能低于20%,森林覆盖率年增长率不能低于10%,基本社会保险覆盖率年增长率不能低于1%的条件下进行预测,经计算后分别得到两省未来在上述措施[6]下的生态文明建设程度。最终发现,2014—2023十年间,生态综合约束指数呈现下降趋势,未来发展前景很乐观。
五、结束语
本文在建立新的生态文明评价体系之前,参考查阅了相关资料,仔细研究了已有的比较常用的评价体系,剔除了部分影响不明显、数据不容易收集的指标,转而用影响比例更大的指标进行替换,并对评价体系的整个结构进行了进一步的优化,从而得到了本文中的最终的生态文明评价体系,该体系与之前的体系相比,数据来源更易获得,分析的结果也更加准确。另外,文章的重点研究课题在于利用建立的评价体系,对选出的我国具有代表性的10个城市的生态文明建设程度进行评价并提出改进建议,同时对这10个城市十年之后,是否按照改进建议进行的建设程度分别进行预测,并对预测结果进行比较。研究结果表明,经济条件较好或是先天生态较好的城市,通常生态文明的建设程度都相对高一些,相反地,经济条件落后或者先天环境较差的城市,生态文明建设的程度就会比较落后了;同时,按照改进建议进行建设的数据要明显优于未按照建议改进的建设程度。因此表明,评价体系有效,改进建议也是有效的。(作者单位:1.安徽财经大学金融学院;2.安徽财经大学统计与应用数学学院;3.安徽财经大学管理科学与工程学院)
基金项目:国家级大学生创新创业训练计划项目(201510378050)
参考文献:
[1] 张静,夏海勇.生态文明指标体系的构建与评价方法[J].统计与决策,2009,21:60-63.
[2] 严耕,林震,吴明红.中国省域生态文明建设的进展与评价[J].中国行政管理,2013,10:7-12.
[3] 田智宇,杨宏伟,戴彦德.我国生态文明建设评价指标研究[J].中国能源,2013,11:9-13.
[4] 杨继奎.关于长江水质污染预测的两种数学模型[J].数学理论与应用,2011,03:44-51.
[5] 戴宏亮.基于智能遗传算法与支持向量回归的人口预测[J].计算机工程与应用,2008,21:9-11+40.
支持向量机的数字水印算法研究 篇7
随着网络的普及和多媒体技术的迅速发展, 多媒体在网络传播的过程中受到不法分子的恶意破坏、篡改, 所以如何保证数字多媒体版权问题成为学术界和产业界的共同话题。数字水印作为多媒体版权保护的一种技术手段受到了广大学者和产业届的广泛关注, 并且作为了国际学术界的一个研究热点。
基于Vapnik等人[1]提出的支持向量机 (Support vector machine, SVM) 算法, 笔者提出一种基于支持向量机和离散小波变换的水印嵌入方法。
2 理论基础
2.1 离散小波变换 (DWT)
作为一种数学工具, 小波变换为信号分析、图像处理及其他非线性科学的研究领域带来了革命性的影响。离散小波变换在时域和频域都具有表征信号局部特征的能力, 对图像信号的局部纹理和亮度等局部特征信息都可以保留, 而这对于图像分析和处理也是十分重要的。
对于数字图像中的每一个图像信号的小波变换, 都可以看作是分别对二维信号的列和行进行高通和低通滤波。分解后小波图像具有与原图像不同的特性, 在低频逼近子图中集中了原始图像的绝大部分信息, 中高频细节子图保持了原始图像的垂直边缘细节、水平边缘细节和对角边缘细节, 它们刻画了原始图像的纹理和边缘细节特征。
2.2 支持向量机 (SVM)
SVM据有限样本信息在模型的复杂性和学习能力之间寻求最佳折中, 以期获得最好的泛化能力。
假设训练样本 (x1, y1) , … (xl, yl) , x∈Rn, y∈{+1, -1}图1中, 圆形和矩形分别代表两种样本, H为分类线, 这个分类平面满足, H:g= (w﹒x) -b=0, H1和H2表示和H分类线平行等距离的分类平面:H1:g= (w﹒x) -b=+1;H2:g (w﹒x) -b=-1;
H1和H2之间没有任何数据点, 且在H1和H2之间有最大的间隔 (maximum margin) , 根据点到平面的距离关系, 要使两类样本间隔最大, Margin=2/||w||值最大, 即||w||值最小, ||w||2= (w﹒w) 最小, 即Yi (w﹒xi) -b≥1, i=1, 2, …l。
这个优化问题的解由引入Lagrange常子ai, 得到以下公式:
3 水印算法设计方案
本文原始载体图像I大小采用N*N, 水印图像大小采用M*M, 其中M
Step1, 将原始图像I进行二维DWT, 记Y (x, y) 作为变换后像素的位置, 其中x, y∈[0, N], B (x, y) 和L (x, y) 分别为该位置处的灰度和亮度。Step2, 采集训练样本。选取Step1中三块小波变换的系数作为训练样本。Step3, 进行量化处理。首先确定图像的特征向量, 包括灰度、亮度等信息, 这些特征向量是图像的关键要素也是一张图像和其他图像的区别所在;其次要对图像特征向量进行量化, 得到训练样本集数据库。Step4, 进行SVM训练。将量化后的数据进行训练, 得到训练集, 作为水印嵌入的候选位置。Step5, 嵌入水印, 读取水印图像的像素信息, 将水印嵌入Step4得到的训练集的前M*M个像素中。Step6, 检测并给出结果。将待测图像的特征向量输入后进行SVM训练, 将样本集进行检测, 确定是否含有水印图像。
4 实验结果
为了检验该算法的可行性, 本文采用大小为256*256的lena.bmp图像作为原始载体图像, 采用64*64的watermark.bmp作为水印图像。
为了检测本算法的抗攻击能力, 对含有水印图像的lena.bmp进行了剪切攻击及噪声攻击。进行剪裁后的图像明显受到了破坏, 但是水印仍然能够提取出来, 并且能够清晰辨别出水印。
本文对嵌入水印的图像添加一种较为常见的噪声:椒盐噪声。添加强度为0.01的噪声, 提取出水印的归一化相关系数 (NC) 值为0.913, 添加强度为0.02的椒盐噪声后, 提取出水印的归一化相关系数为0.809。
5 结论
本文结合SVM和DWT特点, 构造出了一种新的数字图像水印方法, 并给出了实现算法。实验表明, 这种方案具有较好的不可见性和安全性, 能很好地抵抗一般的几何攻击, 可用于图像的版权保护领域。
摘要:数字水印技术是版权保护的有效途径, 本文结合DWT和SVM的特点提出了一种基于离散小波变换和支持向量机的数字水印图像的算法。试验表明, 该算法具有很高的可行性, 并且水印具有很好的鲁棒性。
关键词:数字水印,离散小波变换,支持向量机
参考文献
支持向量机的古汉字识别研究 篇8
1 文字识别过程
目前,汉字识别过程分为预处理,特征提取,分类识别,后处理等过程[1],流程如图1所示。特征提取所得到的信息直接送往分类器,分类器的目的主要是加快匹配速度,达到识别的效果。目前较多研究的分类器有:贝叶斯决策、二次判别函数,隐马尔科夫模型、最邻近分类方法,除此之外神经网络与支持向量机(SVM)方法也是基于统计学习方法的分类器。
2 分类识别方法的比较
分类识别方法有,基于结构模式和统计分类方法,其中有代表性的方法有,隐马尔科夫链(HMMs是典型的结构模型的实例)。二次判别函数法、贝叶斯(Bayes)法,神经网络、支持向量机等方法。
Jiang Ying Hu[2]利用隐马尔科夫模型对大字符集进行分类识别,实验显示,大字符集仍是HMM方法在文字识别领域的研究目标。
在设定了高斯密度和相同的先验概率密度情况下,Bayes判别法即类似于二次判别函数(QDF),在处理小字符集时Bayes方法要比神经网络[3]优秀。
Yanfang Li等人,2007年提出的识别系统是基于多特征和平行神经网络计算的,用计算机群构造并连接模型,从而解决传统计算机由于过多的计算机,造成响应时间过长的问题。来达到提高识别速率的目的。其平均响应时间达到3ms远超过原来的7.2ms[4]。
3 SVM方法的文字识别
SVM构造的最优分类平面,其基本原理是在样本空间或特征空间上,使得分类平面与不同类样本集之间的间隔最大化,从而构造最优分类平面,效果如图2所示。为了达到最优的泛化能力,SVM首先把最优分类平面的构造,转换为对二次型问题的最优求解,同时,利用核函数把未变换模式矢量投影到高阶空间,达到在高纬度空间中获得最大间隔超平面,使非线性问题转变为线性问题。
引入SVM的非线性可分分类函数,将非线性的字符集特征向量划分。相应的分类函数可以写成:
在选择输入的支持向量后,讨论核函数及参数选取,以及惩罚因子C的改变对识别效率的影响。核函数如式(2),针对不同的识别对象有多项式核函数、高斯径向基核函数(RBF)、Sigmoid核函数,古汉字是我们实验的识别对象,为了在有限样本情况下,收敛速度更快,识别效率最高,我们对不同核函数、核参数及惩罚因子的调节,构造最优分类面[5]。
实验过程中,细致考虑了核函数的选择的不定性,首先对于相同的函数,采用变换核参数和惩罚因子C,然后变换不用的核函数。对于同一组特征数据,规划最优的训练效果。因此,最终确定在分级分类模型中,选择收敛域广的高斯径向基核函数来进行样本训练和测试。
同时,关于实验环境,利用Matlab环境下的SVM_lib工具箱作为我们实验基础,lib工具箱具有通用SVM软件包,能提供线性、多项式、径向基和S形核函数,从而能有效的检验SVM分类识别方法对古汉字的识别性能,解决多分类的古汉字识别问题。
4 识别系统的应用界面以及应用结果
系统的应用界面如图3所示,其中需要说明的是在识别过程中需要的关键识别特征信息在识别系统中有所显示。其中部件结构特征值的取值范围为1~4,其中1代表独体结构,2代表左右结构,3代表上下结构,4代表内外结构。全局点密度特征的取值范围为0~1。权值1、权值2、权值3、权值4分别固定为0.398,0.316,0.177和0.109。而并行融合特征的8个分量的取值范围为任意值。
图3所示为古汉字图像分类识别系统的实际识别效果图,从中也可以看出本系统的识别结果是正确的。通过大量实际的古汉字图像验证,本系统的对古汉字的识别准确率一般可以维持在96.8%左右[6]。较神经网格等其他的分类识别方法要好一些。不过本系统对高相似度的古汉字图像的识别效果不佳,准确率有待进一步提高。
5 结论
SVM在文字识别的应用中,显现了他在小字符集中的优势,对于古汉字样本不全,字库有限的情况下,能发挥SVM的最优分类面的优势,但并没有达到最优的识别效果。因为该方法在处理有高特征空间要求和非线性问题上海没有通用的解决方案,对识别过程中造成的大量计算和耗费存储资源的问题,进而对大字符集的识别效率,都有需要改进的地方。实验表明,不同的样本库,样本库的规模都对识别效率有很大影响。对于高效快速分类的神经网络和SVM方法,去解决大字符集的研究将是今后文字识别研究的重点。
参考文献
[1]孙华,张航.汉字识别方法综述[J].计算机工程,2010,36(20).
[2]Tong-HuaSu,Tian-Wen Zhang,Zhao-Wen Qiu.Hmm-Based System For Transcribing Chinese Hand writing[C].The 6th InternationalConference of Machine Learning and Cybernetics(ICMLC),2007(6):3412-3417
[3]Dai Ruwei,Liu Cheng lin,Xiao Baihua.Chinese Character Recognition:History,Status And Prospects[J].Frontiers of Computer Sciencein China,2007,1(2):126-136.
[4]Yanfang Li,Huamin Yang,Jing Xu,Wei He.Chinese Character Recognition Method Based on Multi-features and Parallel Neural Net work Computation[J].ICIC,2007:1103-111.
[5]应自炉,李景文,张有为.基于融合的多类支持向量机[J].计算机工程,2009,35(19):187-188,192.
支持向量机理论研究 篇9
入侵检测系统作为一种积极主动的安全防护工具, 提供了对内部攻击、外部攻击和误操作的实时防护, 在计算机网络和系统受到危害之前进行报警、拦截和响应。入侵检测可以看作是一个分类问题, 也就是对给定的审计数据进行分类。但现在流行的入侵检测系统都存在误报、漏报及实时性差等缺点, 特别是需要大量或者完备的审计数据集才能达到比较理想的检测性能, 并且训练学习时间较长。所以就需要寻找一种在小样本的情况下, 能正确提取训练数据特征, 实现入侵检测的方法。
1. 支持向量机
支持向量机 (support vector machines, SVM) 是20世纪90年代由Vapnik等人提出的一种基于统计学习理论的新型机器学习方法。该方法利用有限训练样本进行训练学习, 并得到最优结果。
机器学习问题的本质就是以给定的标注训练样本集找出输入输出之间的函数关系, 使得能够对未知输出作出尽可能准确的预测。因为通常并不能直接得到可以准确地表示这种依赖关系的函数, 所以往往是在一组可能的函数中寻求一个最优解 (Vapnik, 1995) 。一般的, 学习问题表示如下:变量J, 与X存在某一未知依赖关系, 即遵循一定的未知联合概率F (X, Y) =F (x) F (y|x) , 学习的目标就是根据己知的条件即l个独立同分布观测样本
从给定的函数集{f (x, w) }选择出一个能够最好地估计出Y和x之间依赖关系的函数.f (x, Wo) 。其中{f (x, w) }被称为预测函数集, w为函数的广义参数。为了度量f (x, Wo) 对未知依赖的逼近程度, 引入了期望风险的概念, 如式 (1-2) 。从而将学习问题转化成期望风险最小化问题。
其中{f (x, w) }为由于用f (x, w) 对Y进行预测而造成的损失, 不同类型的学习问题有不同形式的损失函数 (Cherkassky, 1997) 。但由于支持向量机在构造最优分类面时所有的样本具有相同的作用, 因此, 当训练样本中含有孤立点和噪声点样本时, 这些含有“异常”信息的样本在特征空间中常常位于分类超平面附近, 导致获得的分类面不是真正的最优分类超平面。
2. 模糊支持向量机
针对以上这种情况, Lin等学者提出了模糊支持向量机方法 (FSVM) , 将模糊技术应用于支持向量机中, 对不同的样本采用不同的惩罚权系数, 使得在构造目标函数时, 不同的样本有不同的贡献, 对含有孤立点和噪音点样本赋予较小的权值, 从而达到消除孤立点和噪音点样本影响的目的。支持向量机的最优超平面主要是由距最优超平面距离最近的点, 即支持向量 (包含于两类样本相对边界向量) 来确定。由于这些支持向量都位于两类样本的相对边界上, 距两类中心点的距离都较远, 如果按照文献提出的减小孤立点作用的方法, 在减小孤立点作用的同时, 也大大减小了支持向量对分类超平面的作用, 其最终结果将会使所获得的分类超平面偏离最优分类超平面, 从而影响了支持向量机的分类性能。
为了降低噪音数据以及孤立点数据对支持向量机的影响, 提出了一种类中心向量方法, 将所要分类的两类样本的中心点引入支持向量机的分类超平面当中。由于支持向量机的最优分类超平面与两类样本的类中心点的关系随着两类样本分布的不同而不同, 而两类样本的分布事先是未知的, 所以, 究竟应当在多大程度上加入两类样本的中心点信息不得而知。因此, 此方法在一定程度上降低了噪音数据以及孤立点数据对支持向量机分类的影响, 同时也加入了选择参数的人为主观因素噪音, 所选择的分类超平面一般情况下都会偏离最优分类超平面。本文中提出了一种基于后验概率加权的FSVM方法, 一方面可以大大减弱孤立点和噪音点对支持向量机最优超分类超平面的影响, 另一方面, 不影响支持向量机对分类超平面的决定作用。
3. 基于后验概率加权的模糊支持向量机算法
步骤1求出训练集的孤立点。
步骤2利用后验概率的经验性方法计算非孤立点的后验概率。
步骤3利用算法1求出每个样本点的隶属度值。
步骤4将求得的隶属度值带人FSVM, 依据训练集进行训练。
仿真实验:
4. 结束语
本文在传统SVM的基础上, 提出了一种基于模糊支持向量机的方法来对入侵特征进行分类, 实验证明在区别噪声点方面明显优于传统SVM的识别能力, 这样不仅解决了少样本分类的难题而且解决了噪声点对小样本的影响, 从而使得入侵检测系统具有更高的准确性和实用性, 但是在样本不断增加更新的情况时, 这种方法就显得比较冗余, 所以改进的目标将是将增量概念加入其中, 以期待更好更完美的识别效果。
摘要:入侵检测系统是任何一个完整的网络安全系统中必不可缺的部分。日益严峻的安全问题对于检测方法提出更高的要求。传统的入侵检测方法存在误报漏报及实时性差等缺点, 将机器学习的技术引人到入侵监测系统之中以有效地提高系统性能具有十分重要的现实意义。支持向量机 (SVM) 是一种建立在统计学习理论 (SLT) 基础之上的机器学习方法。被成功地应用到入侵检测领域中。本文讨论了模糊支持向量机优化算法及其在入侵检测中的应用。实验表明, 基于模糊支持向量机检测入侵的方法能较大地提高入侵检测系统的性能。
关键词:入侵检测,模糊支持向量机,分类
参考文献
[1]魏延基于后验概率加权的模糊支持向量机重庆工学院学报2009.
支持向量机理论研究 篇10
支持向量机基本原理
支持向量机 (Support Vector Machine, SVM) 由Cortes&Vapnik在1995年正式提出, 它以训练误差作为优化问题的约束条件, 以置信范围值最小化作为优化目标, 是一种基于结构风险最小化准则的学习方法。由于SVM的求解最后转化成二次规划问题的求解, 因此SVM的解是全局唯一的最优解, 另外它有效的避免了过学习问题和非线性问题中的维数灾难, 在解决小样本、非线性和高维模式识别中表现出诸多优势。
对于待分类的样本集, 问题可能的情况有三种, 即线性可分、线性不可分和非线性可分, SVM是从线性可分情况下的最优分类面发展而来的, 所谓最优分类面就是要求分类线不但能将两类正确分开 (训练错误率为0) , 而且使分类间隔最大 (保证最好的推广能力) 。问题描述如下:
已知:
求解:
(其中使等号成立的样本点称为支持向量) (3) ;
目标:最优分类面
式 (2) 中w为最优分类面的法向量, ι为样本数目, c>0是一个常数, 它控制对错分样本惩罚的程度, C越大表示对错误的惩罚越重, 式 (3) 、 (4) 为约束, 其中φ为核函数, 对于给定的训练数据不可能建立一个没有分类误差的分类超平面的情况, 设置松弛变量,
已知原问题是凸规划问题, 可以首先定义Lagrange函数, 用lagrange乘子方法解决以上约束优化问题, 解得根据wolf对偶理论, 利用Lagrange函数法可以把原问题的极小值问题转化为对偶问题的极大值问题来求解, 因此我们将原问题转化为其对偶问题, 其对偶问题为:
从而得到最优解在KKT条件 (最优性条件) 的约束下最终求解, 就可以得到最优分类函数:
其中m≤ι为支持向量的个数, 最优分类函数描述的是最优分类面, 该式只包含待分类样本与训练样本中的支持向量的内积运算, 可见, 要解决一个特征空间中的最优线性分类问题, 我们只需要知道这个空间中的内积运算即可。
评价模型
林区路网评价问题模型如下:S是林区路网样本集, 其中k=4是评价级别数, 4个等级由高到低依次是1、2、3、4, ι是样本数目, n=4为样本空间维度, 即评价指标因子个数。我们的目标是准确评价测试样本的等级。
S V M本质上是一个两类分类器, 因此我们要选择合适的SVM多分类算法, 常用的SVM多值分类器构造方法有:一对多方法 (OneAgainst-The-Rest) , 一对一方法 (One-Against-One) , SVM决策树方法 (SVM Decision Tree) 。
综合考虑到算法分类的正确性和分类速度, 我们选择一对多分类算法, 构造四个SVM分类器来构建林区路网评价模型。核函数是决定最终得出最优分类面的决定性技术, 本文选择的核函数是径向基核函数 (R B F) , 其形式为:
林区路网评价模型由4个SVM分类器串联而成, 每个SVM分类器用来确定一个等级。在训练的时候, 首先将等级1的样本作为一类, 类别标识为1, 其他样本作为另一类, 类别标识为0, 训练分类器S V M 1, 再将等级2的样本作为一类, 类别标识为1, 其他样本作为另一类, 类别标识为0, 训练分类器SVM2, 以此类推, 训练四个SVM分类器。在进行测试样本的时候, 将样本输入SVM1, 若输出为1, 则该样本属于等级1, 若输出为0, 则自动将样本输入到SVM2检验, 若输出还是0, 则依次输入到下一级分类器, 直到输出结果为1, 分类结束。
文中采用对支持向量机分类算法目标函数加权的方法, 具体做法为修改目标函数为当某类的样本数目很少时, 设置λi>1, 以提高分类的精度。
实证研究
文中通过调查获取了株洲市24个林区路网的评价指标得分值, 把这24个林区路网作为样本数据, 分别编号为1, 2, 3, …, 24, 在这24个样本中, 编号1-6的是等级为1的样本, 编号为7-12的是等级为2的样本, 编号13-18的是等级为3的样本, 编号为19-24的是等级为4的样本。分别取四个等级的前4个样本, 共16个样本作为训练样本数据, 其余8个样本作为测试样本数据。
为了消除各评价指标间的量级差异, 增加分类器的正确性, 按照对数据进行归一化处理, 使得量化后的指标值范围在0到1之间 (数据处理时四舍五入保留三位小数, 具体数据略) 。
参数选择与SVM分类器训练。
Vpanik等人发现不同的核函数对支持向量机性能的影响不大, 核函数的参数和惩罚因子C才是影响支持向量机性能的关键。因此参数的选定直接影响了分类器的好坏, 林区路网评价模型采用的分类器需要确定的参数是:惩罚因子C和径向基核函数中的参数γ。Duan等人曾将k-fold交叉验证技术运用于分类辨识的领域, 他们认为使用5-fold交叉验证技术来训练样本时, 可以适当的估计出支持向量分类模型的误差, 因此这里采用5-fold交叉验证方法 (cross validation) 来确定γ和C, 实验中利用台湾大学林智仁教授编写的LIBSVM软件包完成参数的优选、样本的分类训练和测试, 设置和的取值范围都是[1 0-2, 102], 步长为1, 最终优选得到参数组合 (C, γ) 为 (8, 1) , 利用得到的参数训练四个SVM分类器模型。
将用于测试的8个样本分别输入到训练好的四个SVM分类模型中测试, 结果如图1示, 另外, 为了检验方法的性能, 设计了一个输入节点数为4输出节点数为1隐藏层节点数为2的BP神经网络进行分类性能对比, 实验在同一台计算机上使用相同的样本进行, 对比结果见图1。
从图1可以看出, 基于SVM算法的林区路网评价模型分类正确率达到了100%, 而BP神经网络的分类出现了偏差, 编号为11的样本被错误的评价为等级三, 实际等级为四, 正确率是87.5%, 训练时间方面, 利用SVM模型进行评价的时间是0.07s, BP神经网络的评价时间是1.08s, 前者比后者快了1.01秒, 由此可见基于SVM算法的林区路网评价模型是较优的。
支持向量机在投资决策中的应用 篇11
[关键词] 支持向量机投资决策统计学习理论
企业进行项目投资可选用内部收益率来作决策,决策规则:设置基准贴现率Ic,当内部收益率IRR>=Ic时则方案可行,否则不行。用这种方法来进行决策比较合理,但计算过程很复杂一般需要一次或多次测算。
支持向量机是Vapnik等人根据统计学习理论提出的一种机器学习方法.由于支持向量机(SVM)出色的学习性能,已成为国际上机器学习领域的研究热点.目前在手写体数字识别、文本分类、人脸检测等模式识别问题以及函数逼近、信息融合等领域中获得了应用.但目前在经济领域的应用还只是尝试,本文做了基于支持向量机的银行客户信用评估系统研究,可见SVM在经济上的应用还是很有前途的。我们知道,应用SVM作入侵检测最好的效果是检测正确率达到88%左右,但是如果在投资经济领域的能大到这样的效果就非常好了,因为这本身就是一个不可确定的结果,即便是经验丰富的人做出的决策结果也存在不确定性,能有88%的正确率,说明可能性已经很大了。因此用SVM做投资决策时是具有经济意义的。
一、支持向量机
1.广义最优分类面假设有一线性可分的样本集(xi,yi),i=1,…,n,x∈Rd,y∈{+1,-1},为了将yi=1和yi=-1两类点尽可能正确地区分开,可构造分离超平面x·w+b=0,使得
归一化得yi[(w·xi+b)]-1≥0,i=1,…,n (1c)
{(xi,yi)}到分类超平面的距离可定义为1/‖w‖,若样本集到该超平面的最小距离最大,则为最优分类面。所以要使x·w+b=0为最优,当且仅当(w,b)是下面优化问题的解:
这个二次规划问题有惟一的极小点,可以用Lagrang乘子法把(2)化成其对偶形式:
i=1可以证明解中只有小部分ai不为0,称对应的xi为支持向量。于是最优超平面方程为: (4a)
最优判别函数为: (4b)
对于线性不可分的情况,可以在条件(式2b)中增加一个松弛项ξi≥0,成为:yi[ω·xi+b]-1+ξ≥0,i=1,…,n 5)
目标函数改为求:
最小,其中C>0是个预先给定的常数,它控制对错分样本惩罚的程度。最优分类面的对偶问题与线性可分情况下几乎完全相同,只是条件(式3c)改为0≤ai≤C,i=1,…,n。
2.支持向量机。对于非线性问题,作非线性映射Φ(x):Rd→F, F是高维内积空间称为特征空间,Φ(x)称为特征映射;然后在F中构造(广义)最优超平面。实际上不用知道Φ(x)的K(xi,xj)满足Mercer条件,它就对应某一变换空间的内积。因此,采用适当的核函数K(xi,xj)就可以实现某一非线性变换后的线性分类,此时最优分类面中目标函数就变为确切表达式,只需在高维空间进行内积计算。根据泛函的有关理论,只要一种核函数:
相应的判别函数也变为:
这就是支持向量机。
简单地说,支持向量机就是首先通过内积核函数将输入空间变换到一个高维空间,然后在这个空间求广义最优分类面。
SVM中不同的内积核函数形成不同的算法,常用的核函数有:
多项式核函数K(xi·xj)=[(xi·xj)+1]q,q是自然数径向基核函数(RBF):
两层神经网络核函数K(xi·xj)=S(a(xi·xj)+t)其中S是sigmoid函数,a,t为常数。
二、SVM在投资决策中的应用
1.可行性分析。对于独立的方案的决策,常用的评价指标是净现值和内部报酬率。一个独立方案的净现值如为正值,说明该方案可实现的报酬率大于所用的贴现率,经济上可行;如净现值为负值,说明该方案可实现的投资报酬率小于要求达到的最底报酬率,经济上不可行。内部报酬率是指用它来对投资方案的现金流入量进行贴现,使所得的总现值恰好与现金流出量的总现值相等,从而使净现值等与零的利率。也就是投资项目本身可以达到的的报酬率。该指标比较合理,但计算很复杂,有时要经过多次的测算。
SVM理论是在统计学习理论的基础上发展起来的。由于统计学习理论和SVM方法对有限样本情况下模式识别中的一些根本性的问题进行了系统的理论研究,很大程度上解决了以往的机器学习中模型的选择与过学习问题、非线性和维数灾难问题、局部极小点问题等,所以它们在20世纪90年代以来受到了很大的重视。
2.支持向量机的构造。根据常用的评价指标选取以下特征向量作为SVM输入向量:输入向量x的属性及含义;对应的输出y为两类:可行与不可行,用1代表可行,-1代表不可行。
输入数据根据用内部收益率指标已经算的结果来给定。例如:原始投资为5500元,净现金量为11000元,残值为500元,折现年数为10年,通过用测算内部投资收益率为0.157,那么所有基准收益率大于0.157方案为不可行,小于等于0.157的方案为可行。这样可以得到许多组输入向量。根据以上方法我用30个数据做实验,用13个做测试。
3.核函数的选取。支持向量机在实际应用中关于参数选择的问题还没有很好的解决,比如多项式学习机器的阶数问题,径向基学习机器中的函数宽度问题,以及Sigmoid机器中函数的宽度和偏移问题等,统计学理论目前对这些问题只是给出了一些建议和解释。笔者采用径向基核函数做试验。
三、训练和测试
根据数据按内部收益率指标的计算,笔者可以的到一组数据。这样笔者采用了30个数据来作为训练数据。部分数据如下图:
经过训练后,用13个数据做测试,得到测试结果(部分数据)如下:
根据试验结果发现用SVM作投资决策,13个测试数据中有11个判断正确,其正确率达84.6%。
四、结论
1.支持向量机是在统计学理论的基础上发展起来的一种新的学习算法,解决了实际问题中样本有限的问题。
2.本文研究了SVM在投资决策的应用,结果表明用支持向量机作投资决策的应用取得了较好的结果。
3.本文的研究的数据虽然具有一定的典型性,但对支持向量机应用于经济领域的研究提供了依据,有很重要的实际意义。
本文存在的不足之处是试验数据具有典型性,因为笔者在编程试验时很难找到真实的数据,只能根据其特征来组合,所以试验结果还不能完全说明SVM会在所有的投资决策应用中显示出明显的效果。但是,此次试验证明了SVM在经济领域里有着广泛的应用前途。
参考文献:
[1]李丽娜侯朝桢:基于支持向量机(SVM)的工业过程辨识.北京理工大学学报,2003年10月
[2]王小平沈玉娣:支持向量机在轴承故障诊断中的应用.机床与液压,2003.No.4
[3]姚奕叶中行:基于支持向量機的银行客户信用评估系统研究,系统仿真学报,2004年4月
[4]姬水旺姬旺田:支持向量机训练算法综述.微机发展,2004年1月
[5]蓝汉民杨修法:管理会计学.长沙:湖南出版社,1993
基于支持向量机的分类器训练研究 篇12
关键词:梯度方向,支持向量,工程车辆,HOG特征
引言
一个完整的模式识别系统应该包括从信息数据的采集、处理、分析到决策的整个过程[1]。而要使机器具有人的智能,相应的必须具备人体所拥有的一些最基本的功能,比如视觉、触觉;而且应该具备大脑一样的分析决策能力。就算一个简单的人的动作让机器来模仿也是相当困难的。如图1给出了一个完整的模式识别系统流程图[2,3]。
从图1中可以看出完整的模式识别所经过的不同的模块。传感器相当于人的感官,主要负责数据信息的采集;特征提取器所提取的特征具有以下性质:同一类别的不同样本特征值非常接近、不同类别的样本的特征值有很大差异、这些特征值对与类别不相关的变换具有不变性;而且特征提取相比分类器更加依赖问题所在的具体领域,所有相应领域的知识能够帮助寻找出更有效的特征[4,5]。分类器是模式识别系统的核心模块,相当于这个系统的大脑,其作用是根据特征提取器得到的特征值来对一个被测样本进行分类标记;同样理想的分类器是不可能得到的,作为解决方案,往往采用确定一个可能类别的概率,根据概率分析结果;后处理是根据分类器给出的结果做出相应的动作,是模式识别系统的输出,也是模式识别最终的目的。
图2给出了分类器训练的流程图,所采用的是有监督学习的方法。数据采集是对于训练样本而言的,是有监督学习的方法。特征的选择需要根据特定领域的具体问题而定,选取具有明显区分意义的和不易被噪声干扰的特征。训练分类器,利用样本的特征数据确定分类器的过程;分类器的训练是一个比较复杂的问题,起码到目前为止没有一个通用的方法可以完美的解决所遇到的所有问题,但采用基于样本的分类器训练方法已得到人们的共识。
1 选择训练样本
训练样本作为训练系统的输入内容,承载了所要识别对象的主要特征信息。机器学习就是去模仿人类的大脑的能力,通过对样本知识的学习去辨别新的问题;然而现有的技术远远达不到人类的水平,学习的能力很难达到需要区分的高度。这样选取的样本对分类器的训练结果起到了决定性的作用。为弥补技术上的不足,通常采取选取与实际环境比较相近的样本、加大样本的数量等方法提高分类器的准确率。用于训练车辆分类器的样本必然使用包含所要识别车辆的图片作为正图像,而且图像的尺寸不宜太大;所有样本变换为同样大小的尺寸。
2 训练分类器
分类器的训练是一个机器学习的过程,根据模式识别的知识可以了解具体的步骤:第一步是选取一定数量的样本;第二步是提取样本的特征信息,本算法采用的特征是梯度方向直方图,用于对图像进行描述,提取样本的信息就是计算样本的梯度方向直方图特性,得到的是一个多维的特征向量;第三步就是对特征信息进行学习最后得到一个能用于检测识别的分类器,为检测的时候方便,在得到分类器之后将其转换成能可以直接用于对图像进行检测的检测算子。如图3所示是样本分类器训练系统的流程图。
计算出所有样本的HOG特征,得到一组2916维度的特征向量;这一组向量作为线性SVM的输入,其中正样本的向量标识为1,负样本的向量标识为0。训练的原理在SVM原理中有所介绍;其过程是根据确定的分类间隔和给出的样本点,不断的对分类函数进行修正,最后求解出分类函数的系数向量;由此得到分类器。分类器作为训练结果,包含的信息可能比较多,而不适合直接用于图像中目标的检测;为检测方便,将分类器转换为检测算子的形式,可以用于任何尺寸图像的目标检测。
3 工程车辆的特征提取
算法选用梯度方向直方图(HOG)作为样本的特征信息。本文将样本图像划分成均匀的小块,每个小块包含8×8的像素,求取每个像素点的边缘(梯度信息);并以每个小块为单位将边缘映射到9个不同的方向块中。每个方向块的范围为20度;8×8像素梯度方向投影到9个方向块内,形成9维的特征向量作为细胞的值。投影是采用加权投票的方式,这个权值是根据该像素点的梯度幅度计算出来的。大块(Block)表示相邻的2×2cell。一个大块(Block)中包含36(4×9)维的特征向量,其中相邻大块之间是相互重叠的,步长按照cell的大小行进。以80×80像素的图像为例,根据步长为8个像素,图像包含9×9个大块,转化为HOG特征描述为一个2916(9×9×36)维的向量。
4 结语
本文主要介绍了基于机器学习的分类器的训练过程。首先对模式识别的相关知识进行介绍,并对分类器的训练进行具体的说明;然后给出了机器学习中最常用的支持向量机(SVM)方法和梯度方向直方图特征描述的相关知识,重点讲述了其原理和计算过程;在此基础上介绍了本文算法的分类器训练过程。
参考文献
[1]李宏东,姚天翔译.Richard O.Duda,Peter E.Hart,David G..Stork,模式分类(第二版)[M].北京:机械工业出版社,2003.
[2]刘丽,匡纲要.图像纹理特征提取方法综述[J].中国图像图形学报,2009(4):622-635.
[3]VAPNIK V.Statistical learning theory[M].New York:Wiley,1998,56-70.
[4]曹翼.基于支持向量机理论的车辆监控技术研究与应用[D].上海:上海交通大学,2010:30-32.