支持向量机的原理

2024-08-18

支持向量机的原理(精选12篇)

支持向量机的原理 篇1

0 引言

语种识别技术是智能信息处理的研究热点问题之一。据统计,中国现有5000多万少数民族人口在使用本民族的语言文字[1],随着通信技术在我国少数民族地区的普及,电话已成为广大民族同胞快捷获取信息的主要方式,而本能的他们希望使用自己的语言交流。由于电话呼入具有跨地区和不可预知性,所以民族语语种识别对于电话信息服务变得尤为重要。当前主流的语种识别方法包括:并行音素识别器结合语言模型(PPRLM),基于混合高斯模型(GMM)和基于支持向量机(SVM)的方法等[2]。总体而言上述方法可以分成两类:一是基于音素识别器的方法, 如PPRLM;二是基于声学模型的方法, 如GMM和SVM。其中, SVM由于其良好的模型区分能力和理论基础,在图像识别、文本、视频处理等领域得到了广泛的应用。针对不断增加的民族语语种识别的需求和电话呼入语音来源的不确定性,考虑到性别对识别性能的影响,设计了从不同数据库中选择相应的民族语和外国语作为实验的语料数据,分别对男女声及其混合声音做了对比实验,研究支持向量机是否能忽略不同数据库以及性别的影响,得到良好的识别效果。实验分别选取了来自少数民族语电话语音数据库中的白语、纳西语和CSLU语音数据库中的英语、日语,以及两个数据库中共有的汉语普通话五种语言作为数据样本,采用SVM作为分类器,对多种声学特征及其特征融合的分类结果进行了比较。实验结果表明支持向量机在采用多种特征融合时对来自不同数据库中的样本具有较好的分类能力。

1 支持向量机

支持向量机(Support Vector Machine,SVM)是Vapnik等1995年提出的一种新型机器学习方法[3],它是专门针对有限样本情况的,根据有限的样本信息在模型的复杂性(即对训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷, 以期获得最好的推广能力[4]。

如果样本点是线性可分的,则直接对样本空间进行操作即可。若样本点不是线性可分,则首先通过一个非线性映射Ф将其投影到一个高维空间(称之为特征空间)使之线性可分,然后在特征空间中对Ф(x)操作。以下假设就用{xi}作为样本点,并设线性可分样本集为 (xi,yi),i=1,…,n,x∈Rd,y∈{+1,-1}是类别标号。SVM选择超平面作为分类函数。在线性可分的情况下,可有多个超平面能将两类样本分开,选择其中能使得两类中离它最近的样本与它的距离最大的那个超平面,称之为最优超平面,如图1所示。

设超平面方程为(w·x)+b=0, (1)

使得

(w·x1)+b=1 (w·x2)+b=-1

[w(x1-x2)]=2

[w(x1-x2)]/‖w‖=2/‖w‖ (2)

分类函数就是g(x)=(w·x)+b。将分类函数归一化,使两类所有样本都满足|g(x)|≥1(只要样本集是线性可分的,就总可以做到),使距分类超平面最近的样本的|g(x)|≥1,这样分类间隔就等于2/‖w‖,因此使间隔最大等价于使‖w‖最小;要求分类线对所有样本正确分类,即满足

yi[(w·xi)+b]-1≥0,i=1,2,…,n (3)

因此,满足上述条件且使‖w‖最小的分类面就是最优分类面[5]。

目前经常使用的核函数主要有3类:

①多项式形式的核函数

Kpoly(x,xi)=[(x·xi)+1]q

其中,q为多项式的阶数;

②径向基形式的核函数:

Krbf(x,xi)=exp{-‖x-xi‖2/2σ2}

③S形核函数:

Ksigm(x,xi)=tanh[v(x×xi)+c]

SVM技术的关键是核函数的选取,不同的核函数对分类结果有很大的影响。上述3类核函数各有利弊,而且其参数选择也很重要,但目前SVM技术尚未得到合适的选取标准。

2 基于支持向量机的语种识别

2.1 语音样本选择

实验所采用的白语和纳西语来自少数民族语电话语音数据库, 该数据库由云南大学信息学院研制[6]。此外, 英语和日语来自语音数据联盟的CSLU语言数据库,而汉语语句有一半来自少数民族语电话语音数据库,一半来自CSLU数据库。这两个数据库中的语音均采用电话语音卡采集, 抽样频率为16kHz, 用16bit量化, 保存为.wav文件。但两个语音库采用的录制设备不一样,电话信道也有所区别。实验中我们对男声,女声和男女混合声音都分别做了实验。在做单独男女声实验的时候,我们对每种语言分别选择了16名男说话人,16名女说话人,而做男女声混合实验的时候,我们分别选取8名男说话人和8名女说话人。每人选10条语句样本, 每条语句样本长度为3秒~4秒, 每种语言共计160句作为样本数据,如表1所示。

2.2 特征参数提取

我们对所输入的语音进行语种识别,主要是通过语音的声学特征来进行的。实验对每个语句进行预处理后,用窗长30ms, 窗移10ms汉明窗进行加窗处理,提取出了MFCC(Mel frequency Cepstral Coefficients), 基音频率,第一共振峰,短时能量,韵律等5类基本声学特征及其派生特征参数。

①基音频率(F0)

基音频率是反映语音激励源的重要参数,是语音信号最重要的参数之一,尤其是对于有声调的语言。实验对预处理后的每个语句采用中心削波的自相关算法逐帧提取基音频率。

②短时能量(En)

语音信号的能量随着时间变化比较明显,一般清音部分的能量比浊音的能量小得多,语音信号的短时能量分析就是用来描述语音幅度变化的方法。

③美尔频率倒谱系数(MFCC)

MFCC考虑了人耳感知频率和音强时具有的非线性特性,被证明具有良好的识别性能和抗噪声能力,已被广泛应用于语音识别和说话人识别中。在本文实验中,对每个试验语句计算MFCC参数,提取其前12维,最后计算所有帧的MFCC平均值。

④第一共振峰(F1)

共振峰是反映声道特性的一个重要参数。实验首先用线性预测法(LPC)求14阶预测系数,然后用预测系数估计出声道特性的频率响应曲线,再用峰值检出法算出各共振峰的频率。

⑤韵律节奏

把每个语句音节数与语句发音时间的比值作为语速特征参数,统计每个语句中有声段和无声段的比例,由此得到2维的韵律特征参数,如表2所示。

2.3 SVM分类器训练与识别测试

针对实验提取的特征参数,选择基于高斯径向基函数的支持向量机,它能够准确的度量数据集上的距离,具有较好的分类效果[7];同时,实验中使用了五种特征参数集及它们的相应组合作为SVM分类器的输入。本文采用10层交叉验证的方法来训练和测试SVM分类器,实验的基本过程是: ①对语音样本集中的各语句样本分别进行特征提取,获得共800组的特征参数集,其中包含白语、纳西语、汉语、英语和日语的各16名说话人,每人采用10句语句样本的特征参数集;②选择不同的特征参数集作为SVM分类器的输入;③对得到的语音样本特征参数集分别进行10次循环训练和测试, 即每次选择15名说话人的语音样本特征参数集作为SVM分类器的训练样本, 余下的1名说话人的语音样本特征参数集作为SVM分类器的测试样本, 在10次循环中16名说话人的语音样本特征参数集依次作为SVM分类器的测试样本, 其余为训练样本。采取这种实验方法的目的是[8]:首先,在语音样本有限的条件下,能够去除系统的随机性, 提高识别系统的鲁棒性;其次,使训练和测试尽可能独立于说话人和语音样本的文本。

3 实验结果及分析

表3给出了基于不同特征及特征融合参数集的3个实验的识别结果。本实验采用的特征不仅分别用了五种单独的特征,还用到了其中两类、三类、四类、五类特征的融合(即将不同的特征同时作为支持向量机的输入)。在实验中,单独特征基音频率的识别率最高,融合特征的最高识别率达到了87.92%(四类特征融合)。从表中我们可以看出,单独特征集进行实验时,男声,女声和混合声三种实验的基音频率参数特征的识别率较其它特征都高,所以,基音频率是进行语种识别一个比较优越的特征。在融合特征中,可以发现并不是特征融合越多性能越好,五类特征融合的识别率比四类特征融合的识别率还要稍微低些,这是由于太多特征组合在一起,造成了特征数据的冗余,反而降低了识别率[9]。另外,混合声音的识别率都明显低于任何一种单独声音的识别率,这是由于男声,女声的特征参数有差异,支持向量机用超平面按语种划分混合声样本空间,比划分单一类声音(男声或女声)的样本空间要困难,因此增加了误识别率。

4 结束语

简要介绍了支持向量机原理,并构造了基于径向基函数的支持向量机用于对来自不同数据库中的语言进行语种识别研究。实验表明,在采用的不同声学特征集中,对于单个特征而言,基音频率在实验中得到最好的识别率,其原因可能是因为基音频率反映的是激励源的信息,对于不同的语种,声调语调对识别的贡献最大,所以它的识别率最高。另外,在本实验中,融合特征的识别率明显高于任意单一特征,其原因是对于语种识别而言,语言的不确定因素很多,至今为止没有找到一种特征能完全区别一种语言,所以多个特征的融合为分类提供了更多的差异信息,使其达到更好的效果。但实验结果也表明并不是融合的特征种类越多越好,融合的特征太多,导致数据冗余,反而降低了识别率。从实验中还可以看出,对于来自不同数据库中的实验数据样本,支持向量机还是可以达到较好的识别效果,但性别特征对其识别性能有一定的影响。

尽管支持向量机追求在现有有限信息的条件下得到最优结果的优点,它还有一些方面存在问题需要解决。比如,核函数中核参数的选取缺乏理论的指导,通常都是通过反复的实验,人工选取出较为满意的解。这些缺点影响了支持向量机的应用领域和效果,拓宽它的应用领域和改善它的应用效果还有待于这一模型自身的发展和完善。另外如果再增加数据库的个数,而且数据库采集的方式不一样,提取的特征参数不一样,其识别效果又会怎样,以及如何减小性别特征对识别效果的影响,这都是在今后的研究中值得探讨的问题。

参考文献

[1]中国少数民族[EB/OL].中国网:http://www.china.com.cn/ch-shaoshu/.

[2]雷文辉,宋彦,戴礼荣.一种基于层次化支持向量机的语种识别方法[J].小型微型计算机系统,2009,4(4):721-725.

[3]统计学习理论的本质[M].张学工,译.北京:清华大学出版杜,2000:96-116.

[4]朱志宇,张冰,刘维亭.基于模糊支持向量机的语音识别方法[J].计算机工程,2006,32(2):180-182.

[5]Bernhard Scholkopf.Support Vector Machines[J].IEEE IntelligentSystems,Trends&Controversies,1998(7-8):18-21.

[6]徐永华,杨鉴,陈江,等.一个面向少数民族语种识别的电话语音数据库[C].第十届全国人机语音通讯学术会议,兰州,2009,8.

[7]Sugiyama M.Automatic Language Recognition Using Acoustic Fea-tures[C].International Conference on Acoustics,Speech and SignalProcessing.Toronto,1991:423-430.

[8]徐翔俊,毕福昆,杨鉴.基于支持向量机的民族语口音识别[J].计算机工程与应用,2008,44(13):71-73.

[9]Bi Fu-kun,Yang Jian,Xu Dan.Automatic Accent Classification U-sing Ensemble Methods[J].Interspeech,2008:755-758.

支持向量机的原理 篇2

基于支持向量机的中长期入库径流预报

采用基于支持向量机的预测模型对水库中长期入库径流进行预报,建立径流预报的SVM模型.预报因子的`优劣决定着预测精度的高低.为了提高预报精度,尝试采用模糊优选法对预报因子进行优选.将所建模型应用于新疆雅马渡站的径流预测中,并与没有进行预报因子优选的SVM模型进行比较.结果表明,进行预报因子优化后的SVM模型明显提高了径流的预报精度,具有更高的应用价值.

作 者:赵红标 吴义斌 ZHAO Hong-biao WU Yi-bin 作者单位:龙滩水电开发有限公司,南宁,530000刊 名:黑龙江水专学报英文刊名:JOURNAL OF HEILONGJIANG HYDRAULIC ENGINEERING年,卷(期):36(3)分类号:P338.2关键词:支持向量机(SVM) 径流预报 预报因子

基于支持向量机的绝缘子图像分割 篇3

信息的来源多种多样,其中图像是比较重要的一种。随着信息中越来越多地出现数字图像,如何对其进行处理成为国际上的研究热点。图像处理过程包含有图像编码、图像增强、图像压缩和图像分割等许多环节。近年来,学者们对图像分割问题给予了极大关注。介绍了支持向量机的概念,将图像分割看做像素分类,将支持向量机用于图像的分割,包括样本的选择、特征的提取,训练支持向量机,最终实现了基于支持向量机的图像分割算法。

绝缘子作为电网线路的重要组成部分有着广泛的应用。它的工作状态直接影响着电力能源的安全供应。提出结合形态学的绝缘子图像边缘检测方法;基于对绝缘子的红外图像实现了对其盘面的提取。图像背景复杂时,单一特征很难做到目标图像准确分割。因此本文提出一种结合颜色特征和形状特征的支持向量机图像分割方法,实现绝缘子的准确分割。

2、特征提取

2.1颜色特征提取

颜色特征是彩色图像最直观、最显著的一种物理特征。其中HSV颜色模型各颜色分量不具有相关性,分别提取出彩色图像的H(色调)、S(饱和度)和V(亮度)信息。将HSV空间中像素的值进行非等间隔量化,并利用颜色一阶矩μ、二阶矩σ和三阶矩s作为彩色图像的颜色特征向量:。

2.2形状特征提取

采用改进的具有自适应迭代阈值的 算子对绝缘子图像进行边缘检测。其中,选用高斯函数滤波后对图像求梯度方向和幅值,并对幅值进行非极大值抑制。本算法中以200为单位,将00到3600等分为18个区间,统计落在每个区间内的边缘像素点个数得到形状特征向量:。

3、实验结果与分析

本文选取以上两种能够代表目标与非目标特征的特征向量集 进行SVM训练,产生相应的分类模型。各选取150个目标与非目标测试样本,然后利用训练好的分类模型对测试样本进行分割,结果如下表所示:

表1 对测试样本的分类分割结果

实验结果表明,本文提出的分割方法,与单一特征分割相比,分割性能有明显的提升,对目标图像能够更有效、更准确的分类分割。

4、结束语

在输电线路巡检中,对于目标的准确分割是自动识别绝缘子运行状态的关键一步。实验结果表明,本文提出的分割方法,对目标图像能够更有效、更准确的分割,具有较强的鲁棒性和普适性。

(作者单位:1.二连浩特供电局,2.华能鹤岗发电有限公司)

作者简介

1.刘永权,1986.7,男,蒙.内蒙古通辽市人,硕士研究生,研究方向:电气自动化.

支持向量机的数字水印算法研究 篇4

随着网络的普及和多媒体技术的迅速发展, 多媒体在网络传播的过程中受到不法分子的恶意破坏、篡改, 所以如何保证数字多媒体版权问题成为学术界和产业界的共同话题。数字水印作为多媒体版权保护的一种技术手段受到了广大学者和产业届的广泛关注, 并且作为了国际学术界的一个研究热点。

基于Vapnik等人[1]提出的支持向量机 (Support vector machine, SVM) 算法, 笔者提出一种基于支持向量机和离散小波变换的水印嵌入方法。

2 理论基础

2.1 离散小波变换 (DWT)

作为一种数学工具, 小波变换为信号分析、图像处理及其他非线性科学的研究领域带来了革命性的影响。离散小波变换在时域和频域都具有表征信号局部特征的能力, 对图像信号的局部纹理和亮度等局部特征信息都可以保留, 而这对于图像分析和处理也是十分重要的。

对于数字图像中的每一个图像信号的小波变换, 都可以看作是分别对二维信号的列和行进行高通和低通滤波。分解后小波图像具有与原图像不同的特性, 在低频逼近子图中集中了原始图像的绝大部分信息, 中高频细节子图保持了原始图像的垂直边缘细节、水平边缘细节和对角边缘细节, 它们刻画了原始图像的纹理和边缘细节特征。

2.2 支持向量机 (SVM)

SVM据有限样本信息在模型的复杂性和学习能力之间寻求最佳折中, 以期获得最好的泛化能力。

假设训练样本 (x1, y1) , … (xl, yl) , x∈Rn, y∈{+1, -1}图1中, 圆形和矩形分别代表两种样本, H为分类线, 这个分类平面满足, H:g= (w﹒x) -b=0, H1和H2表示和H分类线平行等距离的分类平面:H1:g= (w﹒x) -b=+1;H2:g (w﹒x) -b=-1;

H1和H2之间没有任何数据点, 且在H1和H2之间有最大的间隔 (maximum margin) , 根据点到平面的距离关系, 要使两类样本间隔最大, Margin=2/||w||值最大, 即||w||值最小, ||w||2= (w﹒w) 最小, 即Yi (w﹒xi) -b≥1, i=1, 2, …l。

这个优化问题的解由引入Lagrange常子ai, 得到以下公式:

3 水印算法设计方案

本文原始载体图像I大小采用N*N, 水印图像大小采用M*M, 其中M

Step1, 将原始图像I进行二维DWT, 记Y (x, y) 作为变换后像素的位置, 其中x, y∈[0, N], B (x, y) 和L (x, y) 分别为该位置处的灰度和亮度。Step2, 采集训练样本。选取Step1中三块小波变换的系数作为训练样本。Step3, 进行量化处理。首先确定图像的特征向量, 包括灰度、亮度等信息, 这些特征向量是图像的关键要素也是一张图像和其他图像的区别所在;其次要对图像特征向量进行量化, 得到训练样本集数据库。Step4, 进行SVM训练。将量化后的数据进行训练, 得到训练集, 作为水印嵌入的候选位置。Step5, 嵌入水印, 读取水印图像的像素信息, 将水印嵌入Step4得到的训练集的前M*M个像素中。Step6, 检测并给出结果。将待测图像的特征向量输入后进行SVM训练, 将样本集进行检测, 确定是否含有水印图像。

4 实验结果

为了检验该算法的可行性, 本文采用大小为256*256的lena.bmp图像作为原始载体图像, 采用64*64的watermark.bmp作为水印图像。

为了检测本算法的抗攻击能力, 对含有水印图像的lena.bmp进行了剪切攻击及噪声攻击。进行剪裁后的图像明显受到了破坏, 但是水印仍然能够提取出来, 并且能够清晰辨别出水印。

本文对嵌入水印的图像添加一种较为常见的噪声:椒盐噪声。添加强度为0.01的噪声, 提取出水印的归一化相关系数 (NC) 值为0.913, 添加强度为0.02的椒盐噪声后, 提取出水印的归一化相关系数为0.809。

5 结论

本文结合SVM和DWT特点, 构造出了一种新的数字图像水印方法, 并给出了实现算法。实验表明, 这种方案具有较好的不可见性和安全性, 能很好地抵抗一般的几何攻击, 可用于图像的版权保护领域。

摘要:数字水印技术是版权保护的有效途径, 本文结合DWT和SVM的特点提出了一种基于离散小波变换和支持向量机的数字水印图像的算法。试验表明, 该算法具有很高的可行性, 并且水印具有很好的鲁棒性。

关键词:数字水印,离散小波变换,支持向量机

参考文献

支持向量机的原理 篇5

将最小二乘支持向量机(least square support vector machine,LS-SVM)应用于航空发动机气路故障诊断.首先,分析了用于气路故障诊断的巡航偏差数据类别,建立用于进行机器学习的诊断模型训练集,构建基于LS-SVM的.气路故障诊断模型;其次,采用模式搜索法优化LS-SVM建模,获取最优建模参数;最终,通过直接面向地空数据链(aircraft communication addressing and reporting system,ACARS)链路的报文解析组件,实时获取发动机巡航偏差数据集,远程诊断发动机气路故障.航路应用和对比实验表明:最小二乘支持向量机模型具有较高的诊断精度,适用于气路故障的远程诊断.

作 者:王旭辉 黄圣国 舒平Wang Xuhui Huang Shengguo Shu Ping 作者单位:王旭辉,黄圣国,Wang Xuhui,Huang Shengguo(南京航空航天大学,民航学院,南京,210016)

舒平,Shu Ping(中国民用航空总局,安全技术中心,航空安全研究所,北京100028)

支持向量机的原理 篇6

【关键词】支持向量机 股票价格预测 量化分析

【中图分类号】G64【文献标识码】A 【文章编号】2095-3089(2016)10-0227-01

一、引言

随着金融市场的逐步完善,证券交易所的交易量也在不断的提升,预测未来一段时间内的证券价格成为广大投资者密切关注的问题,同时产生了许多优秀的证券分析预测方法[1],如基本分析和技术分析(K线图、移动平均线和OBV线等)。然而这些方法从本质上来讲只是分析方法,其预测结果不很理想。近年来,国内外学者纷纷采用人工神经网络[2]、支持向量机[3]等方法对证券交易数据,特别是股票市场的数据进行处理,试图揭示证券交易数据背后所蕴含的意义,并对其价格进行预测。目前,国内外关于证券价格预测的方法主要有证券投资分析法、时间序列分析法、人工神经网络法和支持向量机方法[4]等。

自2000年以来,国内外对支持向量机的研究不断地增加,SVM应用于证券价格预测领域的优势可概括为:

(1)SVM具有坚实的数学理论基础,是专门针对小样本学习问题提出的。

(2)从本质上讲,SVM算法是一个凸二次规划问题,可以保证得到的解是全局最优解。

(3)SVM采用核函数方法,有效的解决了复杂计算问题。

(4)SVM应用了结构风险最小化原则,因而具有很好的推广能力。

基于以上优点,我们可以相信SVM在证券价格预测领域将越来越受推崇。

二、支持向量机简介

支持向量机分类的目标是能在某特征空间中学习到一个分类超平面,使得在这个空间中能够将数据线性分开。支持向量机的研究最初是针对模式识别中的二类线性可分问题提出来的。由于股市的数据是非线性的,SVM对数据进行非线性映射,通过映射?覬:X→F ,将数据映射到一个合适的特征空间F中,从而使数据线性可分,然后在F中构造最优超平面。由于优化函数和分类函数都涉及样本空间的内积运算, 因此在变换后的高维特征空间E中需进行内积运算<?覬(xi),?覬(xj)>,根据满足Mercer定理,对应线性变换空间中的内积,<?覬(xi),?覬(xj)>=k(xi,xj)。采用适当的核函数k(xi,xj),就能代替向高维空间中的非线性映射,实现非线性变换后的线性分类。

三、支持向量机在股票价格预测中的应用

(1)支持向量机核函数的选取问题

支持向量机方法是将数据映射到一个Hilbert特征空间中,然后在此特征空间中对数据进行处理,数据分类时选择合适的核函数非常重要。目前的方法大部分是使用一种径向基函数Guass核函数,同样可以作为核函数的还有径向基函数吴函数和Wendland函数,在对径向基函数和Guass核函数做了充分研究的基础上,对支持向量机中的核函数可以进行分析和改进。

(2)将改进的分类方法应用到股票价格预测中

将分类方法应用到股票价格预测中时,要面临以下问题: 一是变量的选取问题, 我们希望在选择尽量少的向量的基础上达到做好的预测效果。 二是变量的处理问题, 目的是不能出现向量被覆盖的问题。

四、总结

随着非线性理论、统计学、系统论、信息论、控制论和人工智能技术的空前发展,证券价格预测也开辟了新思路。支持向量机作为一种新的机器学习方法,它基于严格完备的数学理论,引入结构风险最小化原则,可以得到全局最优解,解决了陷入局部极小点的问题,利用支持向量机对证券时间序列进行预测是目前金融预测领域的最好方法之一。

参考文献:

[1]彭丽芳, 孟志青, 姜华等.基于时间序列的支持向量机在股票预测中的应用[J].计算技术与自动化,2006, 25(3):88-91.

[2]彭望蜀.基于BP神经网络与支持向量机的股票指数预测模型比较[J]. 南方金融, 2013(1):71-72.

[3]克里斯蒂亚尼尼.支持向量机导论[M].电子工业出版社, 2004.

[4]刘道文, 樊明智.基于支持向量机股票价格指数建模及预测[J].统计与决策, 2013(2):76-78.

作者简介:

支持向量机的古汉字识别研究 篇7

1 文字识别过程

目前,汉字识别过程分为预处理,特征提取,分类识别,后处理等过程[1],流程如图1所示。特征提取所得到的信息直接送往分类器,分类器的目的主要是加快匹配速度,达到识别的效果。目前较多研究的分类器有:贝叶斯决策、二次判别函数,隐马尔科夫模型、最邻近分类方法,除此之外神经网络与支持向量机(SVM)方法也是基于统计学习方法的分类器。

2 分类识别方法的比较

分类识别方法有,基于结构模式和统计分类方法,其中有代表性的方法有,隐马尔科夫链(HMMs是典型的结构模型的实例)。二次判别函数法、贝叶斯(Bayes)法,神经网络、支持向量机等方法。

Jiang Ying Hu[2]利用隐马尔科夫模型对大字符集进行分类识别,实验显示,大字符集仍是HMM方法在文字识别领域的研究目标。

在设定了高斯密度和相同的先验概率密度情况下,Bayes判别法即类似于二次判别函数(QDF),在处理小字符集时Bayes方法要比神经网络[3]优秀。

Yanfang Li等人,2007年提出的识别系统是基于多特征和平行神经网络计算的,用计算机群构造并连接模型,从而解决传统计算机由于过多的计算机,造成响应时间过长的问题。来达到提高识别速率的目的。其平均响应时间达到3ms远超过原来的7.2ms[4]。

3 SVM方法的文字识别

SVM构造的最优分类平面,其基本原理是在样本空间或特征空间上,使得分类平面与不同类样本集之间的间隔最大化,从而构造最优分类平面,效果如图2所示。为了达到最优的泛化能力,SVM首先把最优分类平面的构造,转换为对二次型问题的最优求解,同时,利用核函数把未变换模式矢量投影到高阶空间,达到在高纬度空间中获得最大间隔超平面,使非线性问题转变为线性问题。

引入SVM的非线性可分分类函数,将非线性的字符集特征向量划分。相应的分类函数可以写成:

在选择输入的支持向量后,讨论核函数及参数选取,以及惩罚因子C的改变对识别效率的影响。核函数如式(2),针对不同的识别对象有多项式核函数、高斯径向基核函数(RBF)、Sigmoid核函数,古汉字是我们实验的识别对象,为了在有限样本情况下,收敛速度更快,识别效率最高,我们对不同核函数、核参数及惩罚因子的调节,构造最优分类面[5]。

实验过程中,细致考虑了核函数的选择的不定性,首先对于相同的函数,采用变换核参数和惩罚因子C,然后变换不用的核函数。对于同一组特征数据,规划最优的训练效果。因此,最终确定在分级分类模型中,选择收敛域广的高斯径向基核函数来进行样本训练和测试。

同时,关于实验环境,利用Matlab环境下的SVM_lib工具箱作为我们实验基础,lib工具箱具有通用SVM软件包,能提供线性、多项式、径向基和S形核函数,从而能有效的检验SVM分类识别方法对古汉字的识别性能,解决多分类的古汉字识别问题。

4 识别系统的应用界面以及应用结果

系统的应用界面如图3所示,其中需要说明的是在识别过程中需要的关键识别特征信息在识别系统中有所显示。其中部件结构特征值的取值范围为1~4,其中1代表独体结构,2代表左右结构,3代表上下结构,4代表内外结构。全局点密度特征的取值范围为0~1。权值1、权值2、权值3、权值4分别固定为0.398,0.316,0.177和0.109。而并行融合特征的8个分量的取值范围为任意值。

图3所示为古汉字图像分类识别系统的实际识别效果图,从中也可以看出本系统的识别结果是正确的。通过大量实际的古汉字图像验证,本系统的对古汉字的识别准确率一般可以维持在96.8%左右[6]。较神经网格等其他的分类识别方法要好一些。不过本系统对高相似度的古汉字图像的识别效果不佳,准确率有待进一步提高。

5 结论

SVM在文字识别的应用中,显现了他在小字符集中的优势,对于古汉字样本不全,字库有限的情况下,能发挥SVM的最优分类面的优势,但并没有达到最优的识别效果。因为该方法在处理有高特征空间要求和非线性问题上海没有通用的解决方案,对识别过程中造成的大量计算和耗费存储资源的问题,进而对大字符集的识别效率,都有需要改进的地方。实验表明,不同的样本库,样本库的规模都对识别效率有很大影响。对于高效快速分类的神经网络和SVM方法,去解决大字符集的研究将是今后文字识别研究的重点。

参考文献

[1]孙华,张航.汉字识别方法综述[J].计算机工程,2010,36(20).

[2]Tong-HuaSu,Tian-Wen Zhang,Zhao-Wen Qiu.Hmm-Based System For Transcribing Chinese Hand writing[C].The 6th InternationalConference of Machine Learning and Cybernetics(ICMLC),2007(6):3412-3417

[3]Dai Ruwei,Liu Cheng lin,Xiao Baihua.Chinese Character Recognition:History,Status And Prospects[J].Frontiers of Computer Sciencein China,2007,1(2):126-136.

[4]Yanfang Li,Huamin Yang,Jing Xu,Wei He.Chinese Character Recognition Method Based on Multi-features and Parallel Neural Net work Computation[J].ICIC,2007:1103-111.

[5]应自炉,李景文,张有为.基于融合的多类支持向量机[J].计算机工程,2009,35(19):187-188,192.

基于支持向量回归机的谐波分析 篇8

现提出基于支持向量回归机SVR(Support Vector Regression machine)的谐波分析算法,对整次谐波进行检测,算法选用一组正交三角函数张成特征空间的内积作为核函数,降低了算法的复杂度,算法最终转化为一个标准二次规划问题,得到全局最优解[5,6,7,8,9,10],该算法稳定性好,有较高的检测精度,且对噪声不敏感。

1 ε-支持向量回归机的谐波分析算法

对离散时间序列t!i,yi"(i=1,2,…,l,l为一个周期的采样点数)的谐波分解成傅里叶级数形式[1]为

式中 ω为角频率;an=Ancosφn,bn=Ansinφn;φn=arctan(bn/an)。

(w为1×2 N维),x是一组正交函数张成的Hilber空间,可以表示为f(x)=+e,其中e是t时刻的模型误差。根据VC(Vapnik-Chervonenkis)维理论,将t通过x映射到高维空间系统变为线性可分,转换后样本集为

求解目标是找出存在的超平面f(x)=+e使yi-f(xi)≤ε,考虑到可能存在一定的误差,因此引入2个松弛变量:ξi,ξi*≥0,i=1,2,…,l。

损失函数采用“ε-不敏感函数”,它的定义为

优化方程为

s.t.f(xi)-yi≤ξi*+ε,yi-f(xi)≤ξi+ε,ξi,ξi*≥0(5)优化式中的第1项使函数更为平坦,从而提高泛化能力,第2项则为减小误差,常数C对两者折衷[11]。ε为一常数,f(xi)与yi的差别小于ε时不计入误差,大于ε时误差计为f(xi)-yi≤-ε。

引入拉格朗日函数:

函数L的极值应满足:

得到:

将式(7)代入到式(6)得到其对偶形式为

最优解算法最终可转化成为一个二次型寻优问题,化成标准凸优化二次规划问题为[4]

其中,D==xi·xjT,i=1,2,…,l;j=1,2,…,l,D为l×l维;为2 l×1维;为2 l×1维;C*、ε*分别是以C、ε为元素的l×1维向量。求解二次规划问题解出(支持向量),根据解出各次谐波的幅值w,达到求解目的。各次谐波的相位为φn=arctan(bn/an)。

2 基于ε-SVR的谐波分析算法步骤

求解步骤归纳如下:

a.设置采样频率,采样得到时间序列值(ti,yi);

b.将时间序列影射到高维空间x;设置ε、C等值;

c.利用二次规划问题求解方法解出支持向量

d.根据求解出各次谐波幅值w,以及各次谐波相位。

3 算例分析

3.1 算例1

给出一周期为0.02 s的锯齿波形(见图1),锯齿波形傅里叶展开式只是正弦级数,实际上锯齿波的级数展开式为

分析其各频率成分,取采样频率2.5 k Hz,ε为0.00001,C为500,得到各次谐波的频谱图如图2所示。其中,n为谐波次数,A为对应的谐波幅值。

3.2 算例2

长期以来阻感负载的整流电路曾一直是应用最广、数量最多的电力电子装置,对阻感负载整流电路交流侧谐波分析是电力电子装置谐波分析的主流工作,以三相桥式为例,忽略换相过程和电流脉动,将电流负、正两半波之间的中点作为时间零点[1],则有a相电流:

其中,Id为等效直流电流。

取采样频率2.5 kHz,ε为0.000 01,C为200,得到a相交流侧电流频谱图,如图3所示,n为谐波次数,λ为相对于基波的各次谐波含量。

基于SVR分析结果与傅里叶分析结果比较如表1所示。由表1可以看出,SVR分析算法检测精度高,其均方根误差MSE(Mean Square Error)为1.27×10-9,加入噪声N(0,0.1)后,MSE为1.45×10-9,与未加噪声前相比变化不大,表明本文的基于ε-SVR谐波分析算法对噪声不敏感。

4 结论

通过对谐波含量的分析来对电力系统的稳定性以及其他要求做出分析,提出相关的措施来降低谐波含量,对于电力系统的安全、经济运行具有重要的意义。采用基于ε-SVR算法对电力系统谐波分析得到以下结论:

a.算法对噪声不敏感,检测精度高,稳定性好,满足电力系统谐波分析要求;

b.采用特定的影射空间,对电力系统谐波分析有较好的实用效果,且支持向量机(SVM)的VC维理论基础决定了不会发生维数灾难;

c.算法最终转化为标准的凸优化的二次规划问题,有全局最优解,精度高;

基于支持向量机的文本分类技术 篇9

文本分类作为信息过滤、信息检索、搜索引擎、网络论坛、数字图书馆等领域的技术基础, 有着广泛的应用前景。如何应用机器学习实现按照文本内容自动分类技术是解决信息准确、快速检索的主要方法之一。

2 文本的向量空间模型表示

向量空间模型是通过权重表示的。传统的权重计算公式

其中ωij表示词项ti在文档Dj中的权重, N表示训练集中总的文档数, ni表示训练集中出现特征项ti的文档数, tfij表示词项ti在文档Dj中的频度 (次数) 。

针对公式的缺陷引出下面的改进措施, 即用方差模型表示词项分布的离散程度。

以下叙述它的数学原理。将词项t在类C1文档集中出现的次数看作一个随机变量X1, 假设Xi, i=1, 2, …, m (m为类别总数) 相互独立, 且服从相同分布, 则Xi, i=1, 2, …, m构成简单随机样本。由统计学可知, 样本方差S2是总体方差σ2的无偏估计, 且总体服从任意分布。于是可以通过文本词项t的样本方差近似代替总体方差D (t) , 而总体方差反映的是词项t在各类中出现次数的波动情况。显然D (t) 越小, 说明分布较均匀。

有了数学模型, 就可以从两个方面改进TFIDF。一方面从词项的类内分布改进, 另一方面从词项的类间分布改进。

首先引入类内分布改进公式。

设类i中的文档总数为m

其中TFij表示词项t在文档j中出现的次数。Du中分母的引入是为了使Du值在0-1之间。Du’的引入是为了统一权重值, 即当一个词项的类间分布比较均匀时 (能很好代表一类) 使Du’值大, 当一个词项的类间分布不均匀时 (不能很好代表一类) 使Du’值小。

其次引入类间分布改进公式。

其中, TFi (t) 表示词项t在类别i中的出现的次数, n表示类表总数。

有了类内分布改进公式和类间分布改进公式, 就得到了总的改进公式。

这里的改进有三处。第一处, 将原来的tfij换成了TFi (t) , 也就是说不再用词项i在文档j中出现次数, 而改用词项i在类t中出现的次数。也就是说在提取特征向量的时候, 同一类中提取出的不同文档的特征向量, 是相同的。实验表明, 这样的处理有助于提高分类准确率。从之前的64%提高到75%。第二处就是加入了类间分布项。第三处是加入了类内分布项。

3 文本特征向量的抽取

建立好文档词矩阵后, 对一类中的词项权值进行排序, 挑出权值大于0.1的词项, 作为该类的特征向量。把所有类的特征向量选出后, 取并集, 作为最终的特征向量。

4 支持向量的调参

本系统采用支持向量机进行文本分类。用支持向量机分类时, 影响分类准确率的一个最重要因素是参数的选择。参数包括, 软间隔最大化中惩罚参数C的选择。以及采用径向基RBF核函数时, 参数γ的选择。本系统采用双线性搜索法进行参数的选择。

首先介绍参数γ的意义。γ是RBF核的唯一参数, 选择不同的, 就相当于把样本向量映射到不同的特征空间, 即γ的不同决定了样本向量的象在特征空间中分布复杂程度的不同 (线性分类面的最大VC维) 。γ过大时, 出现过拟合, 所有的训练样本都会成为支持向量, 这会降低推广能力并造成测试时的计算量过大。γ很小时, 出现欠拟合, SVM分类能力也会变得很差, 几乎会把所有样本判为同一类。其次介绍参数C的意义。惩罚参数C是对错分样本的偏离值的惩罚系数。它的作用是调和分类模型的经验风险 (错分类样本数) 和置信范围 (间隔大小) 的比例, 以使训练得到的模型具有很好的推广能力。SVM的目标是最小化结构风险, 因此必须在减少误分类样本个数 (减小经验风险) 和增大分类间隔 (缩小置信范围) 之间进行折中。C较小时, 误分类惩罚系数小, 机器学习复杂度小, 间隔大, 置信范围小, 误分类样本个数大, 经验风险大。C较大时, 误分类惩罚系数大, 机器学习复杂度大, 间隔小, 置信范围大, 误分类样本个数少, 经验风险小。当C超过一定值后, 再加大C, 也几乎不会再对经验风险和推广能力造成变化。双线性搜索法的基本原理。RBF的参数空间可分为欠训练区, 过训练区, 好区。以log C, logγ作为参数空间的坐标, 学习精度最高的参数组合 (C, γ) 将集中出现在好区中的直线loglog Clog lCog附近log。C其lo中g C是使模型精度lo最g高lo的g C。lo双g C线性搜索法的步骤。

(1) 采用线性核函数, 该核函数只涉及惩罚参数C, 给C一个初始值0.01, 对训练集进行10折交叉验证算出准确率a1。给定一个步进值step=0.01, 使C=C+step, 再进行10折交叉验证算出准确率a2。依次迭代, 直到a2-a1<0时, 停止。取出a1所对应的的C值, 作为最佳参数bestc。

(2) 根据好区直线表达式和已知的bestc即log C, 得到 (C, γ) 值对。具体过程为, 核函数采用RBF, 给C一个初始值0.01, 由直线表达式计算出γ, 对训练集进行10折交叉验证算出准确率a1。给定一个步进值step=0.01, 使C=C+step, 再进行10折交叉验证算出准确率a2。依次迭代, 直到a2-a1<0时, 停止。取出a1所对应的C', '作为最佳的参数对。

5 实验结果分析

5.1 实验语料

训练与测试数据比例列于表3

5.2 实验结果

实验一为传统权重计算公式且没有加入核函数调参的实验结果准确率。实验二为使用改进的权重计算公式以及核函数调参后的分类准确率结果。具体结果见表4

6 结束语

本文通过改进权值计算公式以及调节支持向量机核函数的参数, 使分类准确率有了提高。在小数据上验证的效果较好。后续将通过更大的数据集来检验该方法的性能。

摘要:在文本分类过程中, 影响分类准确率的两个重要因素是特征权重的计算方法, 以及机器学习算法的准确率。针对传统基于支持向量机的文本分类准确率不高的问题, 本文提出修正权重计算公式和采用调整支持向量机核函数参数的方法, 使文本的分类准确率提高了近3个百分点。实验结果表明这两种方法的结合, 确实可以提高文本分类的准确率。

关键词:文本分类,支持向量机,权重计算公式,核函数调参,特征向量权重

参考文献

[1]吕佳.文本分类中基于方差的改进特征提取算法[J].计算机工程与设计, 200724:6039-6041.

[2]王梅.一种改进的核函数参数选择方法.西安科技大学.

[3]宗成庆.统计自然语言处理.清华大学出版社, 2008.

[4]白鹏.支持向量机理论及工程应用实例.西安电子科技大学出版社, 2008.

[5]史峰, 王辉.MATLAB智能算法30个案例分析.北京航空航天大学出版社, 2011.

[6]李航.统计学习基础.清华大学出版社.2012.

[7]崔建明, 刘建明, 廖周宇.基于SVM算法的文本分类技术研究.[J].计算机仿真, 201302:299-302.

基于支持向量机的波达方向估计 篇10

智能天线具有提高移动通信系统容量、质量和减少干扰的功能,其在无线通信、雷达、遥感等领域的应用日益广泛,使得智能天线技术近几年成为人们的研究热点。而其中信号的到达方向估计是智能天线的关键算法之一。关于信号到达方向(DOA)的估计及跟踪方面的研究有很多,主要的DOA算法有最大似然法、传播算子法、MUSIC[1]算法和ESPRIT[2]算法,最近基于神经网络[3]的方法也有效地应用在单源与多源的方向追踪。

本文采用一种基于支持向量机进行DOA估计的方法,该方法用支持向量机来近似一个关于输出信号与入射角度的函数。支持向量机是由Vapnik等开发的机器学习方法[4],其建立在统计学习理论中的VC维理论和结构风险最小原理的基础上。最初支持向量机用于解决模式识别问题,现在已成功地应用于扩频接收机设计,语音识别[5],图像处理,回归问题[6]等领域。

1 DOA估计模型

如图1所示,N个天线阵元等间距d构成直线天线阵,M(M<N)个窄带信号入射天线阵,则等间距线天线阵接收的信号xi(i = 1,…,N)为:

xi=m=1Μsmexp[-j(i-1)Κ0dsinθm]+ni;i=1,…,N (1)

式(1)中Κ0=ωε0μ0是自由空间波数,sm及θm分别为第m个入射信号及其波达角,ni是第i个阵元的噪声,也可将式(1)表达为矩阵形式:

x=As+n (2)

式(2)中

x=[ x1,x2,…,xN]T;

n=[n1,n2,…,nN]T;

S=[s1,s2,…,sM]T;

A=[11e-jΚ0dsinθ1e-jΚ0dsinθΜe-j(Ν-1)Κ0dsinθ1e-j(Ν-1)Κ0dsinθΜ](3)

式(3)中上标T代表矩阵转置。

阵列信号处理算法需计算信号的相关阵:

R=E{xx*}=APA*+σ2I (4)

式(4)中P =E{ss*}为M×M矩阵,I是N×N单位矩阵,*代表共轭转置。

由于相关矩阵R是厄米矩阵,而对角元素又不包含信号方向信息,因此本文仅考虑上三角部分的元素,获得一个向量为:

b=[R12,R13,…,R1N,R23,…,R2N,…,R(N-1)(N-1),R(N-1)N,RNN] (5)

并将b归一化得到SVM的输入数据z

z=bb (6)

式(1)—式(6)代表了一个映射G:θ→z,而波达方向估计问题就是由z反推出θ,即求出未知的映射F:z→θ。

2 支持向量机回归原理

支持向量机回归问题可以表述如下:设已知训练集{(z1,θ1),…,(zm,θm)}。其中z为输入数据,θ为输出数据,m=1,…,L。根据训练集寻找一个函数F(z)=[w,Φ(z)]+b,其中[·,·]代表标量积,Φ(z)是把输入向量z映射到高维空间中的向量,wb分别是权向量和偏置,可通过最小化以下回归风险获得:

Rreg=Ci=1Lc(zi,θi)+12w2 (7)

式(7)中C是常数,c(zi,θi)为不敏感损失函数,定义如下:

c(zi,θi)={0if|θi-F(zi)|ε|θi-F(zi)|-εotherwise(9)

通常并不直接求解上述约束极值问题,而是采用优化方法引入对偶问题,则w可以写为如下形式:

w=i=1L(αi-αi)Φ(zi) (10)

式(10)中αiαi′为未知的系数,将式(10)带入F(z)中可得

F(z)=i=1L(αi-αi)[Φ(zi),Φ(z)]+b=i=1L(αi-αi)ψ(zi,z)+b (11)

通过对对偶问题中的回归风险最小化获得数αiαi′及b,ψ(zi,z)=[Φ(zi),Φ(z)]被称为核函数,常用的核函数有多项式核函数以及径向基函数。

通过应用标准拉格朗日乘子技术,可以获得下式

W(α,α)=-εi=1L(αi+αi)+i=1Lθi(αi-αi)-12i,j=1L(αi+αi)(αi-αi)ψ(zi,zj) (12)

并在0≤αi′,αiC和∑i=1L(αi′-αi)=0的条件下求式(12)的最大值。

3 计算机仿真

采用阵元间距d=λ/4(λ为真空中波长)的8元线阵天线进行仿真。两个不相关的信号入射到天线阵中,设角度分别为θ1和θ2=θ1+Δθ。选用径向基函数ψ(zn,z)=e-γ|zn-z|2为支持向量机核函数。

第一个仿真实验为无噪声情况,选取参数C=256 ,γ=8,ε=0.01,在学习过程中,考虑Δθ=4°的情况,选取均匀分布在[-90°,+90°]的200个样本对支持向量机进行训练。在测试时,选取不在训练集的100个数据进行测试,结果如图2和图3所示。

由图2和图3 可知,支持向量机能准确预测Δθ=4°时的波达方向。

在第二个仿真实验中,加入均值为零,信噪比(SNR)为10 dB的高斯白噪声,选取参数C=256,γ=2,ε=0.01,在训练过程中,取Δθ1=6°,Δθ2=12°,Δθ3=18°,Δθ4=24°,分别选取均匀分布在[-90°,+90°]的300个样本,一共1 200个样本对支持向量机进行训练。测试时取Δθ为15°,仿真结果如图4所示。

如图4可知,估计值非常接近真实值,而且值得注意的一点是测试的Δθ值并未在训练集中出现。

4 结束语

本文讨论了一种波达方向估计的方法,这种方法基于支持向量机回归法得到从天线阵输出信号到入射角度映射的近似。计算机模拟仿真结果证明了这种方法的有效性 。

参考文献

[1] Schmidt R O.Multiple emitter location and signal parameter estima-tion.IEEE Trans.Antennas Propag,1986;34(3):276—280

[2] Roy R,Kailath T.ESPRIT-Estimation of signal parameters viarota-tional invariance techniques.IEEE Trans Acoust Speech SignalProcess,1989;37(7):984—995

[3] El Zooghby A H, Christodoulou C G, Georgiopulos M. Performanceof radial-basis function networks for direction of arrival estimation with antenna Arrays. IEEE Trans. Antennas Propag, 1997;45(11):1611—1617

[4] Vapnik V. Statistical Learning Theory. New York: Wiley,1998

[5] Ganapathiraju A,Hamaker J,Picone J.Applications of support vec-tor machines to speech recognition.IEEE Transactions on SignalPro-cessing,2004;52(8):2348—2355

支持向量机的原理 篇11

关键词:农产品;价格;经验模态分解;支持向量机;短期预测

中图分类号: S11+4;F304.2文献标志码: A文章编号:1002-1302(2014)09-0402-04

收稿日期:2013-12-13

基金项目:江苏省社会科学重点项目(编号:13EYA003)。

作者简介:姚冠新(1961—),男,江苏启东人,教授,博士生导师,研究方向为农产品物流。E-mail:yaogx@ycit.cn。

通信作者:顾晴,硕士研究生,研究方向为农产品价格预测。E-mail:guqing.ujs@foxmail.com。我国农产品价格由于受供求变化、生产资料价格、劳动力成本、流通成本、自然气候以及国际农产品价格等多种因素影响,表现出短期波动大、非平稳、非线性等特点[1]。来自物价部门的信息表明,2004—2012年,国际市场粮价年均波动幅度在20%左右,其中2008年、2012年出现过2次大幅度震荡,全年的波动幅度在40%以上。农产品价格的波动,不仅会影响农业生产的发展、农产品的流通、消费和农民的收入水平,而且会对整个社会经济生活的安定产生重大影响。2013年3月5日,温家宝总理在十二届全国人大一次会议上所作的《政府工作报告》中指出,保持物价总水平基本稳定始终是宏观调控的重要目标。因此,開展农产品价格短期预测,对有效指导农民及时调整生产和规避市场风险,提高政府部门对农产品市场的调控效率、保障农产品市场的有序稳定具有重要意义[2]。

从国内外研究动态来看,学者们在农产品价格短期预测领域提出了多种有效预测方法,如回归分析、指数平滑、自回归移动平均模型(autoregressive integrated moving average,ARIMA)、条件异方差模型(autoregressive conditional heteroskedasticity,ARCH)、神经网络、模糊理论、组合模型等。

刘海清等建立了海南省芒果的价格指数平滑模型,结果表明该模型能够有效地对价格曲线进行拟合和预测[3]。李干琼等基于价格序列数据的ADF检验和ARCH效应检验,结合2008—2009年间的731 d日价格数据分析,利用ARIMA、ARCH、广义条件异方差模型(generalized auotregressive conditional heteroskedasticity,GARCH)等现代时间序列法,分别建立了西红柿日批发价格预测模型,其中GARCH模型在预测中具有更高的精度[4]。董晓霞等通过平稳性、季节性、趋势性以及异方差等一系列检验后,最终选择了3种模型对我国鲜奶零售价格短期预测进行了应用模拟,结果显示ARCH模型预测结果精确度最好,Holt-Winters无季节性模型稳定性最好[5]。李哲敏等根据2000年3月至2009年9月的月度数据,选出4个能够及时、全面获取数据的相关因子作为自变量因子,构建了禽蛋市场价格短期预测模型,并对模型的有效性进行相关检验[6]。罗长寿采用蔬菜市场价格数据分别建立了BP神经网络模型、基于遗传算法的神经网络模型、RBF神经网络模型,结果表明,集成预测模型效果优于单一预测模型[7]。韩延杰提出了一种基于模糊信息粒化和遗传算法的支持向量机(genetic algorithm-support vector machine,GA-SVM)农产品价格预测模型,为提高预测精度,利用遗传算法对支持向量机的参数进行优化,实证分析表明该方法能对农产品价格的变化范围进行有效地预测[8]。刘慧等根据HP和BP滤波方法分析价格波动的特征,利用ARIMA模型预测绿豆价格的短期走势[9]。

综上所述,农产品价格短期预测的研究主要采用计量经济模型,但计量经济模型对于非线性时间序列的预测具有局限性,同时对于数据本身的条件限制较多,造成模型预测结果或多或少存在一些缺憾。由于人工神经网络具有很强的非线性逼近能力,因此被广泛应用到价格短期预测中,但是人工神经网络训练速度慢、容易陷入局部最小点、存在过拟合现象以及泛化能力较差等局限性使其难以达到预期精度[10]。经验模态分解(empirical mode decomposition,EMD)是一种处理非平稳、非线性数据序列的新方法,能够分解出研究对象在不同尺度上的波动信息。该方法从数据自身出发,通过分析本征模态函数(intrinsic mode function,IMF)来揭示数据序列的内在特征。相关研究表明,经验模态分解可以很好地处理非平稳、非线性序列,是提取数据序列趋势的有效方法[11]。

经验模态分解目前已经在地球物理学、生物医学、结构分析、设备诊断等众多自然科学领域得到了应用;经验模态分解在社科领域仅涉及原油价格和股票价格的预测[12]。本研究将经验模态分解方法引入到农产品价格短期预测中,旨在突破农产品价格预测技术,提高预测精度。

1材料与方法

1.1经验模态分解方法

经验模态分解方法的优点是能够对非线性、非平稳过程的数据进行线性化和平稳化处理,分解的最终函数彼此之间是正交的,从而在分解的过程中尽可能地保留了数据本身的特性[13]。其基本思路是用波动上、下包络的平均值去确定“瞬时平衡位置”,进而提取出内在模函数(intrinsic mode function,IMF)[14]。内在模函数,记为I(t),其计算过程主要有以下3个步骤。

nlc202309021928

(1)找出原序列Y(t)的各个局部极大值,为更好保留原序列的特性,局部极大值定义为时间序列中的某个时刻的值,其前一时刻的值不比它大,后一时刻的值也不比它大。然后用三阶样条函数进行插值,得到原序列Y(t)的上包络序列值Ymax(t)。同理,可以得到下包络序列值Ymin(t)。

对于不同的数据序列,h(t)可能是内在模函数,也可能不是。若h(t)中极值点的数目和跨零点的数目相等或至多只差1个,并且各个瞬时平均值m(t)都等于零,则它就是内在模函数;反之,把h(t)当作原序列,重复以上步骤,直至满足内在模函数的定义,求出内在模函数为止。求出了第一个内在模函数I1(t),即从原序列中分解出第1个分量。然后,用原序列减去I1(t),得到剩余值序列r1(t):

r1(t)=Y(t)-I1(t)。(3)

至此,提取第1个内在模函数的过程全部完成。然后,把r1(t)作为一个新的原序列,按照以上步骤,依次提取第 2、第 3,…,直至第N个内在模函数IN(t)。之后,由于rN(t)变成一个单调序列,再也没有内在模函数能被提取出来。如果把分解后的各分量合并起来,就得到原序列Y(t):

1.2支持向量机方法

支持向量机(support vector machine,SVM)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机的基本思想是通过用内积函数定义的非线性变换将输入空间变换到一个高维空间,在这个高维空间中寻找输入变量和输出变量之间的一种非线性关系。SVM有严格的理论基础,是基于结构风险最小化原则的方法,明显优于传统的基于经验风险最小化原则的常规神经网络方法。

给定一数据集G={(xi,di)}ni=1,其中xi是输入向量,di是期望值,n是训练样本个数,需要求解的回归函数如下形式:

1.3EMD-SVM农产品价格预测方法

农产品价格序列具有较强的非线性、非平稳的特点,而常规预测方法在非线性序列上难以取得较好的效果,鉴于EMD分解方法在处理非线性、非平稳数据具有突出优势,因此提出了一种基于EMD-SVM的农产品价格短期预测方法,具体方法如下:

(1)利用EMD方法对农产品价格原始序列进行分解,得到若干个IMF分量Ii(t)和残差项;

(2)分别对归一化處理后的各IMF分量Ii(t)和残差项rN(t) 建立SVM回归模型,选取最佳参数和核函数进行预测;

(3)对预测结果进行反归一化处理,得到各分解序列的预测值;

(4)将各分解序列预测值叠加得到农产品价格的预测值;

(5)与实际值比较,确定误差指标并进行误差分析。

2结果与分析

2.1数据来源说明

本研究选取苹果批发市场价格数据为分析对象,数据来源于商务部的商务预报网站(http://cif.mofcom.gov.cn/),数据类型为周数据。数据周期为2006年7月7日至 2013 年 5月 31 日,共360个样本数据。描述性统计情况见表1,数据分布见图1。

2.2非平稳、非线性检验

由表2可知,t统计量>10% 水平,不能拒绝原假设,即认为苹果批发价格时间序列是非平稳的,进一步验证该序列一阶单整。对一阶差分后的序列作自相关、偏自相关分析,发现自相关系数4阶截尾,偏自相关系数3阶截尾,建立 ARIMA(3,1,4) 模型。剔除不显著变量,得到方程:

支持向量机的原理 篇12

支持向量机基本原理

支持向量机 (Support Vector Machine, SVM) 由Cortes&Vapnik在1995年正式提出, 它以训练误差作为优化问题的约束条件, 以置信范围值最小化作为优化目标, 是一种基于结构风险最小化准则的学习方法。由于SVM的求解最后转化成二次规划问题的求解, 因此SVM的解是全局唯一的最优解, 另外它有效的避免了过学习问题和非线性问题中的维数灾难, 在解决小样本、非线性和高维模式识别中表现出诸多优势。

对于待分类的样本集, 问题可能的情况有三种, 即线性可分、线性不可分和非线性可分, SVM是从线性可分情况下的最优分类面发展而来的, 所谓最优分类面就是要求分类线不但能将两类正确分开 (训练错误率为0) , 而且使分类间隔最大 (保证最好的推广能力) 。问题描述如下:

已知:

求解:

(其中使等号成立的样本点称为支持向量) (3) ;

目标:最优分类面

式 (2) 中w为最优分类面的法向量, ι为样本数目, c>0是一个常数, 它控制对错分样本惩罚的程度, C越大表示对错误的惩罚越重, 式 (3) 、 (4) 为约束, 其中φ为核函数, 对于给定的训练数据不可能建立一个没有分类误差的分类超平面的情况, 设置松弛变量,

已知原问题是凸规划问题, 可以首先定义Lagrange函数, 用lagrange乘子方法解决以上约束优化问题, 解得根据wolf对偶理论, 利用Lagrange函数法可以把原问题的极小值问题转化为对偶问题的极大值问题来求解, 因此我们将原问题转化为其对偶问题, 其对偶问题为:

从而得到最优解在KKT条件 (最优性条件) 的约束下最终求解, 就可以得到最优分类函数:

其中m≤ι为支持向量的个数, 最优分类函数描述的是最优分类面, 该式只包含待分类样本与训练样本中的支持向量的内积运算, 可见, 要解决一个特征空间中的最优线性分类问题, 我们只需要知道这个空间中的内积运算即可。

评价模型

林区路网评价问题模型如下:S是林区路网样本集, 其中k=4是评价级别数, 4个等级由高到低依次是1、2、3、4, ι是样本数目, n=4为样本空间维度, 即评价指标因子个数。我们的目标是准确评价测试样本的等级。

S V M本质上是一个两类分类器, 因此我们要选择合适的SVM多分类算法, 常用的SVM多值分类器构造方法有:一对多方法 (OneAgainst-The-Rest) , 一对一方法 (One-Against-One) , SVM决策树方法 (SVM Decision Tree) 。

综合考虑到算法分类的正确性和分类速度, 我们选择一对多分类算法, 构造四个SVM分类器来构建林区路网评价模型。核函数是决定最终得出最优分类面的决定性技术, 本文选择的核函数是径向基核函数 (R B F) , 其形式为:

林区路网评价模型由4个SVM分类器串联而成, 每个SVM分类器用来确定一个等级。在训练的时候, 首先将等级1的样本作为一类, 类别标识为1, 其他样本作为另一类, 类别标识为0, 训练分类器S V M 1, 再将等级2的样本作为一类, 类别标识为1, 其他样本作为另一类, 类别标识为0, 训练分类器SVM2, 以此类推, 训练四个SVM分类器。在进行测试样本的时候, 将样本输入SVM1, 若输出为1, 则该样本属于等级1, 若输出为0, 则自动将样本输入到SVM2检验, 若输出还是0, 则依次输入到下一级分类器, 直到输出结果为1, 分类结束。

文中采用对支持向量机分类算法目标函数加权的方法, 具体做法为修改目标函数为当某类的样本数目很少时, 设置λi>1, 以提高分类的精度。

实证研究

文中通过调查获取了株洲市24个林区路网的评价指标得分值, 把这24个林区路网作为样本数据, 分别编号为1, 2, 3, …, 24, 在这24个样本中, 编号1-6的是等级为1的样本, 编号为7-12的是等级为2的样本, 编号13-18的是等级为3的样本, 编号为19-24的是等级为4的样本。分别取四个等级的前4个样本, 共16个样本作为训练样本数据, 其余8个样本作为测试样本数据。

为了消除各评价指标间的量级差异, 增加分类器的正确性, 按照对数据进行归一化处理, 使得量化后的指标值范围在0到1之间 (数据处理时四舍五入保留三位小数, 具体数据略) 。

参数选择与SVM分类器训练。

Vpanik等人发现不同的核函数对支持向量机性能的影响不大, 核函数的参数和惩罚因子C才是影响支持向量机性能的关键。因此参数的选定直接影响了分类器的好坏, 林区路网评价模型采用的分类器需要确定的参数是:惩罚因子C和径向基核函数中的参数γ。Duan等人曾将k-fold交叉验证技术运用于分类辨识的领域, 他们认为使用5-fold交叉验证技术来训练样本时, 可以适当的估计出支持向量分类模型的误差, 因此这里采用5-fold交叉验证方法 (cross validation) 来确定γ和C, 实验中利用台湾大学林智仁教授编写的LIBSVM软件包完成参数的优选、样本的分类训练和测试, 设置和的取值范围都是[1 0-2, 102], 步长为1, 最终优选得到参数组合 (C, γ) 为 (8, 1) , 利用得到的参数训练四个SVM分类器模型。

将用于测试的8个样本分别输入到训练好的四个SVM分类模型中测试, 结果如图1示, 另外, 为了检验方法的性能, 设计了一个输入节点数为4输出节点数为1隐藏层节点数为2的BP神经网络进行分类性能对比, 实验在同一台计算机上使用相同的样本进行, 对比结果见图1。

从图1可以看出, 基于SVM算法的林区路网评价模型分类正确率达到了100%, 而BP神经网络的分类出现了偏差, 编号为11的样本被错误的评价为等级三, 实际等级为四, 正确率是87.5%, 训练时间方面, 利用SVM模型进行评价的时间是0.07s, BP神经网络的评价时间是1.08s, 前者比后者快了1.01秒, 由此可见基于SVM算法的林区路网评价模型是较优的。

上一篇:中专药理学下一篇:往复式压缩机故障