SVR模型

2024-09-17

SVR模型(通用7篇)

SVR模型 篇1

摘要:构建了一种基于支持向量回归机(SVR)的开关柜局部放电估计模型,利用开关柜局部放电在线监测系统所测得的超声波和高频脉冲电流数据对SVR模型进行训练,并验证其准确度。Matlab仿真结果为:训练集的均方差为0.015 2,决定系数为0.890,测试集的均方差为0.026 5,决定系数为0.849。该模型有效地对开关柜局部放电量做出了估计,为开关柜出现局部放电提供预警支持。

关键词:局部放电,支持向量回归机,估计模型,高频脉冲电流,超声波信号

局部放电是造成电气设备绝缘劣化和老化的重要因素[1]。目前,局部放电智能算法有模糊理论[2]、神经网络[3]、小波神经网络[4]及支持向量机[5]等。把智能计算引入到电力设备局部放电估计中,改善了电气设备绝缘故障诊断技术,延长了电气设备的运行时间[6,7,8]。文献[9]提出了一种基于最小二乘支持向量机的局部放电模式识别方法。2015年张腾飞等提出了一种基于支持向量机的入侵检测方法,使用该方法对SCADA系统数据进行监测和分类[10]。2014年翁钢民和李凌雁将PSO-SVR模型应用于旅游客流量预测中,验证了该模型是进行旅游客流量预测的有效工具[11]。众多领域的研究人员都认识到了SVR模型在其领域解决问题的适用性,但在局部放电尤其是开关柜局部放电量估计方面,SVR模型的应用还很少。

笔者采用基于SVR的局部放电估计模型对开关柜局部放电量进行分析与估计,选取了开关柜局部放电在线监测系统所测得的超声波和高频脉冲电流数据,仿真出开关柜局部放电量估计值。笔者以云南楚雄35kV腰站变电站作为研究试点,验证了SVR模型的有效性。

1 局部放电监测参量分析(1)

目前,高频脉冲电流法是能够实现局部放电定量测量的方法,也是具有国际标准和国家标准的局部放电检测方法。但在定量测量时也存在一定问题,首先,高频脉冲电流法只能检测试品实际点的放电量,对电力设备内的实际局部放电值无法进行直接测量,而产品绝缘材料老化的主要原因是电力设备内的实际放电量;其次,高频脉冲电流法测量局部放电时,对试验电源和环境有很高的要求,尤其是在线定量检测时还存在诸如电磁干扰的滤除、在线标定与离线标定等效性等问题。这对电力设备内局部放电定量检测来讲,并非是一种完全理想的检测手段。

超声波法测量电力设备内的局部放电时,超声波振幅与局部放电的真实放电量呈线性关系;检测灵敏度不随试品电容的变化而变化,同时超声波法还具有操作简单、不受现场电磁干扰、在线测量结果与离线测量结果相同的特点。如果能够利用超声波信号对开关柜局部放电进行放电量的估计,不仅是高频脉冲电流法定量检测局部放电的一种有力补充,同时也将大幅拓宽超声波法检测局部放电的应用领域。

2 基于SVR的开关柜局部放电估计模型

通过超声波传感器和高频脉冲传感器可以检测到开关柜是否存在局部放电,但是无法检测局部放电的视在放电值;基于SVR的开关柜局部放电估计模型可以通过所检测的参量(高频脉冲电流、超声波信号)找出其中的规律,并训练出估计模型来估计开关柜局部放电量。SVR估计模型算法流程如图1所示。

开关柜局部放电估计模型是以所测得的各个局放值所对应的高频脉冲电流传感器和超声波传感器的原始数据为基础,按照需要对数据进行预处理作为输入样本训练集的数据,通过训练数据选择合适的核函数和模型参数,构造估计模型,输入测试数据来估计未来时段的开关柜局部放电量。

利用libsvm软件包中的函数svmpredict可以实现SVR回归模型的仿真测试,返回的第一个参数为对应的估计值,第二个参数中记录了测试集的均方差E和决定系数R2,具体的计算公式如下:

核函数类型和模型参数对模型性能的影响较大,因此需要选择较佳的核函数类型和参数组合。笔者采用默认的RBF核函数,利用交叉验证方法寻找最佳的参数c(惩罚因子)和g(RBF核函数中的方差)。

利用最佳参数训练模型,SVR模型训练完成后,利用函数svmpredict进行仿真测试,训练集仿真结果如图2所示。

可以看出,训练集的均方差为0.015 2,决定系数达到0.890。利用交叉验证方法寻找到的最佳参数c和g分别为2.828 4和1 024。放电量跟超声波传感器和高频脉冲电流传感器具有很强的相关性。

3 开关柜局部放电估计模型性能评价

在对放电量测试集估计之前,需对测试集数据进行归一化预处理。经过处理后结合测试集对模型进行性能评价,仿真结果如图3所示。

运用式(1)、(2)中给出的均方差和决定系数的计算方法得出均方差为0.026 5,决定系数为0.849,估计值与实际值的曲线趋势基本一致。

根据云南楚雄35kV腰站变电站的实际情况,选取了1#开关柜所测得的超声波与高频脉冲电流数值进行数据处理和分析,图4、5是1#开关柜在2014年9-20~11-21所采集到的63个超声波和高频脉冲电流传感器的数据曲线。

利用以上所训练的SVR建立开关柜局部放电估计模型,将超声波与高频脉冲电流传感器所测得的原始数据作为一个输入量,利用函数svmpredict对开关柜局部放电量进行仿真估计,仿真估计值如图6所示。

对传感器原始数据进行分析,不仅可以掌握开关柜局部放电的变化情况,而且可以对局部放电量进行估计,并可进一步判断开关柜绝缘异常状况,为保证开关柜绝缘安全提供了一种新的思路和方法。

4 结束语

研究了局部放电量的估计方法,从工程实践中的实际需要和有限条件出发,以云南楚雄35kV腰站变电站开关柜为研究对象,利用回归型支持向量机模型为实现途径,构建了基于SVR的开关柜局部放电估计模型,选取了开关柜局部放电在线监测系统所测得的超声波和高频脉冲电流数据,输入已经建立的SVR估计模型,仿真出开关柜局部放电量估计值。结合回归型支持向量机模型对数据进行模拟分析,得出该模型能够有效地估计开关柜局部真实视在放电量,对电力安全生产和供电可靠性起到决定性的作用,也提供了一种有效的局部放电量估计方法。

参考文献

[1]李锰,张盈利,陈蕾,等.固体绝缘气隙局部放电模型构建与仿真研究[J].电瓷避雷器,2013,(2):31~34.

[2]庞骁刚.开关柜局部放电原因分析与处理[J].云南电力技术,2011,39(4):56~57.

[3]徐焰.开关柜局部放电暂态对地电压检测技术[J].供用电,2011,28(1):62~64.

[4]贾勇勇,姚林朋,黄成军.应用于局部放电检测的高速实时数据传输系统的设计与实现[J].电气自动化,2011,33(2):82~85.

[5]任先文,薛雷,宋阳,等.基于分形特征的最小二乘支持向量机局部放电模式识别[J].电力系统保护与控制,2011,39(14):143~147.

[6]曾雄杰,江健武,侯俊.TEV和UHF在10k V开关柜带电检测中的应用[J].高压电器,2012,48(1):41~47.

[7]陶诗洋,冯义,曹佳楣,等.高频传感器在10k V电缆带电检测中的应用[J].中国电力,2011,44(3):27~30.

[8]王俊波,章涛,李国伟.在线检测10k V开关柜局部放电方法研究[J].绝缘材料,2011,44(6):60~64.

[9]弓艳朋,刘有为,吴立远.采用分形和支持向量机的气体绝缘组合电器局部放电类型识别[J].电网技术,2011,35(3):135~139.

[10]张腾飞,范启富,刘伟.基于支持向量机的SCADA系统入侵检测[J].化工自动化及仪表,2015,42(2):153~156.

[11]翁钢民,李凌雁.旅游客流量预测:基于季节调整的PSO-SVR模型研究[J].计算机应用研究,2014,31(3):692~695.

SVR模型 篇2

1 煤炭物流及运输现状

煤炭物流是一个系统物流, 它存在于煤炭产品的开发准备、生产过程和销售活动的全过程之中, 是生产煤炭产品以及组织煤炭销售等一系列物料实体的运送搬运等动态流转过程。如图1所示的煤炭物流网络体系结构模型。由图1[1]可知, 煤炭物流是集生产地、中转地和消费地为一体, 物流、信息流、资金流等贯穿其中, 多主体、多结点、多通道、跨地区的动态性复杂网络体系。煤炭集散、转运和配送中心作为三类重要物流节点, 是实施煤炭物流管理的重要平台。由于煤炭属于散装货物具有体积大, 污染环境等特性, 以及我国煤炭的分布与消费的地理差距的制约, 所以在集散、转运和配送过程中的主要技术在运输方面。

煤炭的运输可分为铁路运输、公路运输、水路运输三种主要运输方式。三者的区别见表1。由表1知, 我国的煤炭60%以上依靠铁路运送。虽然我国在铁路运输的生产效率指标上处于领先地位, 但由于缺乏及时的沟通交流和明确的统筹规划, 缺乏相应的投入与建设, 使得煤炭运输体系存在很多的问题, 如铁路运输通道建设严重滞后, 煤炭需求与铁路运能之间存在着结构性矛盾, 需求大的东南地区缺少运力, 而运力比较充足的西北地区相对缺少需求。通过对煤炭铁路货运量主要影响因素的有效把握, 借助于定性和定量的分析手段预测比较精确的需求量, 为政府提供制定铁路煤炭通道发展规划的重要依据。

2 煤炭铁路物流需求预测指标选取

目前, 关于物流需求一般认为包括质和量两个方面, 即物流需求质量指标 (物流时间, 物流成本, 物流效率等) 和物流需求规模指标, 在定量预测中基本上没有使用物流需求质量指标。多数学者用货运量、社会物流总费用、物流成本占GDP比例三种数据中的一种来衡量物流需求规模[3]。我国由于现阶段并没有物流的具体统计数据和专门的统计渠道, 因此在实际预测过程中, 一般把货运量作为进行物流量分析的类比指标[4]来进行物流需求的预测与分析。虽然煤炭货运量只是煤炭物流需求量中的一部分, 但煤炭的运输贯穿于煤炭物流活动的始终, 是联系其他物流服务功能的纽带。据统计, 每年的货运量占物流总成本的一半以上, 因此, 煤炭铁路货运量在一定程度上也是能够反映煤炭铁路物流需求规模变化的。

煤炭铁路货运量不仅受国民经济因素, 如国民经济发展水平、产业结构等方面的影响, 还受煤炭需求因素, 如煤炭消费量、能源结构, 此外, 与铁路自身供给因素, 如铁路货车拥有量, 货车平均静载重等因素也有关系。各因素对煤炭铁路货运量影响程度不同并且随时间发生变化, 这种错综复杂的关系决定煤炭铁路货运量与各影响因素之间存在着复杂的非线性关系, 难以用精确的数学模型进行描述。

目前, 对于预测问题可以建立回归模型或时间序列模型予以解决, 这是两类使用广泛的定量预测方法, 以数学理论和假设为基础, 通过演绎推理建立数学模型, 但是很难全面、本质地揭示数据的内在结构和复杂特性。近年来神经网络作为一种非线性系统模型, 具有良好的自学习、自适应能力和泛化容错能力, 能够较好地解释因变量与影响因素之间复杂的非线性关系, 因而被用于能源需求预测[5]和货运量预测中[6]。由于神经网络本身固有的缺陷, 实际应用中常常发生收敛速度慢、训练时间长、极易陷入局部极小值、过拟合和“维数灾难”等问题。支持向量机 (SVM) 以统计学中的VC维理论为基础, 综合考虑经验风险和置信风险, 遵循结构风险最小化原则, 适用于小样本、非线性、高维数、局部极小等问题, 在有限数据样本情况下, 其泛化能力的提高, 能取得较好的预测效果[7,8]。因此, 本文选定支持向量回归机模型对煤炭铁路货运量进行预测。

3 基本原理介绍

3.1 支持向量回归机算法

设定数据训练集为T={ (x1, y1) , … (xi, yi) }∈ (X×Y) l, xi∈X=Rn, yi∈Y=R, i=1, 2, …l。N维的系统输入向量, 其中xi为输入矢量, yi为相应的目标值。其基本基本思想就是通过非线性映射, 将输入空间X的样本数据xi映射到某一高维空间 (Hilbert空间) 中, 从而将输入空间X中的非线性函数估计问题, 转化为高维空间的线性函数估计问题[9]。

标准ε-SVR算法的原始最优化问题为:

约束条件为

引入Lagrange算子α和α*, 分别对ω, b, ξ, ξ*求偏导, 并令其为0, 将 (4) 的优化问题转化为对偶形式进行求解:

约束条件为

求解规划 (3) 最终确定回归函数为:

K (xi, x) 称为核函数, 本文选取K (xi, x) =exp{-‖xk-xt‖2/2σ2}作为SVM模型的核函数。将其带入 (4) 经过等价代换得:

式 (5) 中:αk是支持向量所对应的参数值, xk是训练年份输入向量, xt是预测年份输入向量, f (x) 为输出向量集合, 由式 (5) 计算得出αk和b, 即可得煤炭铁路货运量预测模型[8]。

3.2 标准微粒群算法

PSO是由Kenney等人[10]于1995年提出的一种全局优化进化算法, 假设在一个D维的目标搜索空间中, 有N个粒子组成一个群落, 每个粒子代表解空间的一个候选解, 解的优劣程度由适应度函数决定, 其中适应度函数根据优化目标定义。每个粒子还有一个速度决定其飞翔的方向和距离, 然后粒子们就追随当前的最优粒子在解空间中搜索个体极值和全局极值。在找到这两个最优值时, 粒子根据如下的式 (6) 和式 (7) 来更新自己的速度和位置[11]:

式中, vidk+1是第i个粒子在k+1代的飞行速度, vid∈[-vmax, vmax], vmax是常数。ω为惯性权重, i=1, 2, …, N, d=1, 2, …, D;c1, c2为非负常数, 称为加速因子, 根据经验, 通常c1=c2=2, 后来也有理论说明c1和c2不应该相等, 所以在编程实现时设定为不相等。r1和r2是介于[0, 1]之间的随机数。

4 PSO-SVR模型

在目前对于SVR参数的选择中, 没有一个统一的方法, 主要有经验确定和网格搜索。但经验确定法要求使用者有深厚的SVR理论基础;而网格搜索法的计算量较大, 因此两种方法并不能保证找到全局最优解。并且相较于其他一些成熟的智能优化算法如遗传算法, PSO在编码和优化策略上更加简单、高效, 因此本文采用PSO对SVR参数进行优化。

需要对SVM的惩罚系数C、高斯径向基核参数σ、不敏感损失系数ε进行优化。首先设置参数ε较小的初始值, 利用PSO对模型参数进行优选, 寻求均方误差最小的参数对, 逐步提高参数ε值, 一直到满意为止。

PSO-SVR模型的工作流程图如下:

5 PSO-SVR的煤炭铁路货运量预测模型的构建

5.1 影响因素的选取

选取1995—2011年我国煤炭铁路货运量为系统特征行为序列, 各影响因素为相关因素序列, 为确定各因素对货运量的影响大小, 本文通过灰色关联分析法[12]确定煤炭铁路货运量Y及影响因素之间的关系, 从而选取主要影响因素。各类影响因素的划分详见表2。

煤炭铁路货运量及影响因素的数量级别差异较大, 需要先通过灰色序列算子对各个数据序列进行适当预处理, 将其转化为数量级别大体相近的无量纲数据。这里选择初值化算子进行数据预处理, 分别得到煤炭铁路货运量及其影响因素初值像, 然后根据关联系数计算式 (8) 和关联度计算式 (9) 计算煤炭铁路货运量 (X0) 与各影响因素 (Xi) 之间的关联度γ0i, 并在此基础上得出灰色关联序[13]。

计算关联度及关联序时, 需确定分辩系数ξ。取ξ=0.5, 铁路货运量及其影响因素灰色关联分析结果见表3。

根据对Y关联度的大小, 最终选定排名前7的影响因素, 分别是:铁路货运周转量X1 (亿吨公里) , 煤炭消费总量 (万吨) X2, 城镇化率 (%) X3, 铁路货车拥有量 (量) X4, 货车平均静载重 (吨) X5, 产业结构 (%) X6, 能源结构 (%) X7。

5.2 煤炭铁路货运量预测模型的构建

将1995—2011年的煤炭铁路货运量影响因素和货运量数据组成样本集, 具体数据如表4所示:

注:数据来源于中国统计年鉴 (1996—2012年)

1) 选择合适的学习样本是SVR预测模型的基础。将学习样本分为训练样本和测试样本两部分, 先用训练样本学习训练, 再用测试样本验证模型的有效性。本文选取1995—2008年的煤炭铁路货运量及其影响因素为训练样本, 2009—2011年的数据为测试样本。

2) 对样本集中的数据按照公式进行归一化

3) 用PSO对模型参数进行优选[12]。初始化粒子群, 群体数量取30, 学习因子c1=1.2, c2=1, 惯性权重均取1, 最大迭代次数取200。随机产生一组参数 (C, σ) 作为粒子的初始位置和速度, 选用5折交叉验证误差最小作为SVR参数选择的目标值, 设置参数ε较小的初始值, 按照式 (9) 和式 (10) 更新粒子最优位置, 判断终止条件, 逐步提高参数ε的值, 最终得到最佳参数值分别为C=97.1572, σ=0.01, ε=0.01, 交叉验证均方误差为0.016103。

4) 利用优化参数创建SVR模型, 可得f (x) 表达式, 即为煤炭铁路货运量预测模型。

6 结果分析与比较

为了评价模型的预测性能, 本文选择预测误差Error、平均误差EME、均方根误差RMSE、预测准确度A作为性能指标, 来评价模型函数的拟合能力和误差[14]。具体定义为:

1) 预测误差:

2) 平均误差:

3) 均方根误差:

4) 预测准确度:

其中yi*为预测值, yi为实际值, n为样本数量。

为了更好的对比预测效果本文采用平均相对误差表示预测有效性, 另外建立BP神经网络预测模型, 输入层取7个神经元, 隐含层取10个, 输出层取1个, 同样采用PSO-SVR模型中划分的学习样本进行预测分析。各预测模型的拟合结果见图4。

各模型预测值与真实值之间的比较如表5所示。

通过预测结果对比表明PSO-SVR煤炭铁路货运量预测模型的预测精度要优于BP神经网络, 其预测准确率可达97.937%, 能够有效的预测煤炭铁路货运量的未来值。

7 结语

SVR模型 篇3

关键词:焦炉煤气,集合经验模态分解,支持向量回归机,自回归滑动平均模型,组合模型

0引言

焦炉煤气 (COG) 是钢铁企业炼焦工序的副产品, 也是铁区各生产工序所需的重要点火燃料。焦炉煤气是钢铁企业生产钢铁产品时产生的重要二次能源, 它的热值高, 是“三气”中使用价值最高的煤气, 但是由于副产煤气自身产生和消耗不稳定的特点, 研究钢铁企业副产煤气的优化调度很困难, 因此, 焦炉煤气受入量的准确预测, 不仅能够节约成本、降低副产煤气放散率, 也对钢铁企业二次能源的优化利用具有重要意义。

目前, 副产煤气受入量的预测方法有很多。文献[1]通过分析煤气产生和消耗的变化特点, 采用最小二乘支持向量机的方法建立预测模型, 并用梯度网格搜索算法优选模型参数, 该方法建模耗时短, 但对多煤气柜同时运行在煤气管网时预测精度难以把握。文献[2]采用灰色关联度分析了高炉煤气产消量的影响因素, 基于BP神经网络建立预测模型, 该算法预测精度高、误差小, 但收敛速度慢, 容易出现局部极小化问题。文献[3]采用粒子群算法优化BP神经网络中的初始权值和阈值, 建立的预测模型误差小, 粒子群算法容易陷入局部最优, 对模型精度有一定影响。

针对上述情况, 以包含炼焦实际生产系统运行规律的焦炉煤气受入量的生产数据为基础, 采用集合经验模态分解法将焦炉煤气受入量数据分为多个固有模态函数 (IMF) 分量和一个剩余分量, 然后采用支持向量回归机和自回归滑动平均算法对各个分量分别建立预测模型, 最后将各个序列的预测结果进行叠加, 得到焦炉煤气的预测模型。

1 预测原理与算法

1.1 集合经验模态分解 (EEMD) 理论

传统的经验模态分解 (EMD) 算法按照一定的筛分条件, 将信号波从高频到低频分解成固有模态函数 (IMF) 分量, 在时间尺度跳跃变化和脉冲扰动等情况下, EMD算法在进行噪声辅助信号处理的过程中会出现的模态混叠现象, 因此, 美籍华人Wu和Huang又提出了一种改进的方法, 集合经验模态分解 (EEMD) 方法。EEMD方法的核心是加入分布均匀的高斯白噪声和经验模态分解 (EMD) , 首先确定分解的IMF的个数和总的分解次数, 然后在所输入的信号中加入高斯白噪声序列, 对加入白噪声的信号进行归一化处理, 最后对归一化信号进行多次分解, 得到多个IMF分量和一个剩余分量[4,5]:

i=1....M=1....Nj , , r (t) 是余项。

1.2 自回归滑动平均模型 (ARMA)

ARMA模型是美国统计学家Jen Kins和Box在20世纪70年代提出的一种时间序列分析方法[6,7]。是自回归 (AR) 和滑动平均项 (MA) 的组合模型。通常模型记为ARMA (p, q) 模型, p阶自回归模型是用自己的过去和现在的随机干扰表Xt, 其形式为:

at是白噪声序列。

q阶滑动平均模型是用现在和过去的随机干扰表Xt, 其形式为:

P阶自回归和q阶滑动平均模型是自己的过去及过去和现在的随机干扰表Xt, 其形式为:

主要建模步骤是:将时间序列进行无均值平稳化处理;逐级添加模型的阶数;模型适应性检验, 建立最有预测模型。

1.3 支持向量回归机理论

支持向量回归机的基础是e不敏感函数和核函数算法, 非线性支持向量回归机的基本思想是:根据事先确定的非线性映射, 把输入向量映射到一个高维的Hilbert空间中, 然后在这个高维空间中再进行线性回归运算, 最终能够取得与原空间非线性回归算法的相同效果[8,9]。首先将输入量x通过映射Φ:Rn→H映射到高维特征空间H中用函数:f (x) =ω·Φ (x) +b拟合数据 (xi, yj) , i=1, 2, …, n则二次规划目标函数为:

式 (6) 中涉及高斯特征空间点积运算:, 支持向量机中只考虑高维特征空间的点积运算:, 而不直接使用函数Φ, 称K (xi, xj) 为核函数, 本文选取的核函数为高斯核函数:, 因此式 (6) 变成:

得到非线性拟合函数的表达式为:

2 基于EEMD-ARMA-SVR的焦炉煤气受入量预测模型的建立

结合时间序列分析和支持向量回归机的优势, 本文采用集合经验模态分解原理, 把焦炉煤气序列分解成4个固有模态函数序列和1个剩余分量序列, 利用ARMA和SVR对序列进行建模并预测, 预测过程如图1所示。

3 仿真实验及结果分析

3.1 焦炉煤气受入量预测的仿真过程

在焦炉煤气受入量的历史数据中按时间序列选取250个点进行分析, 运用集合经验模态分解的方法自适应分解成一系列不同尺度的IMF序列, 使原始序列平稳化, 如图2所示, 第一行为焦炉煤气受入量的原始数据, 第二行到第五行为分解后的IMF1到IMF4序列, 第六行为剩余序列, IMF1到IMF4序列是从高频到低频不同尺度的焦炉煤气受入量波动特征, 波动性较大, 采用SVR进行预测, 而剩余序列波动较小, 则采用ARMA进行预测, 最后将预测结果进行求和, 得到组合模型的预测结果, 如图3所示。

为验证焦炉煤气受入量组合预测的有效性, 分别单独采用SVR和ARMA对焦炉煤气的受入量进行预测, 图4为只采用SVR对焦炉煤气受入量进行预测的结果, 图5为只采用ARMA对焦炉煤气受入量进行预测的结果。

3.2 结果分析

本文从平均绝对误差 (MAE) ;平均相对误差 (MRE) ;平均绝对百分比误差为 (MAPE) 三个角度来科学合理地评价预测结果的性能[10], 从图中焦炉煤气受入量的50点的预测结果可以明显看出, 组合模型的预测结果的MAE要小于单独采用SVR法和单独采用ARMA法, 从MAPE和MRE的指标看, 组合模型的效果也是相对较好的, 其预测误差分别为2.62%和1.98%。

4 结论

影响焦炉煤气的受入量的因素众多, 如果详细的考虑每种因素既不现实也没有必要, 由于单一的预测方法难以满足焦炉煤气调度的要求, 本文采用集合经验模态分解法对焦炉煤气受入量的时间序列进行从高频到低频的分解, 在此基础上还采用时间序列和支持向量回归机的方法进行组合预测, 有效地提高了焦炉煤气受入量的预测精度, 为焦炉煤气的优化调度提供了支持。

参考文献

[1]张晓平, 赵珺, 王伟, 等.基于最小二乘支持向量机的焦炉煤气柜位预测模型及应用[J].控制与决策, 2010, (8) :1178-1183.

[2]张琦, 谷延良, 提威, 等.钢铁企业高炉煤气供需预测模型及应用[J].东北大学学报:自然科学版, 2010, (12) .

[3]魏津瑜, 张玮, 李欣.基于PSO-BP神经网络的高炉煤气柜位预测模型及应用[J].中南大学学报:自然科学版, 2013.

[4]Lei Y, Zuo M J.Fault diagnosis of rotating machinery using an improved HHT based on EEMD and sensitive IMFs[J].Measurement Science and Technology, 2009, 20 (12) :125701.

[5]时世晨, 单佩韦.基于EEMD的信号处理方法分析和实现[J].现代电子技术, 2011, (1) :88-90.

[6]Stedinger J, R S J, Stedinger J R.Multisite ARMA (1, 1) and Disaggregation Models for Annual Streamflow Generation[J].Water Resources Research, 1985, 21:497-509.

[7]邹柏贤, 刘强.基于ARMA模型的网络流量预测[J].计算机研究与发展, 2002, 39 (12) .

[8]杨玫, 刘瑜, 孔波.SVR模型参数选择方法的研究[J].计算机时代, 2009, (11) .

[9]Loosli G, G L, Loosli G, et al.Regularization Paths forν-SVM andν-SVR[J].Lecture Notes in Computer Science, 2007:486-496.

SVR模型 篇4

我国高危行业企业是指参与高危行业运营的企业或组织,如煤矿、非煤矿山、建筑施工行业、危险化学品行业等企业,该类企业为实现安全生产,必须进行安全投入,以降低安全事故带来的损失。然而,由于我国高危行业企业普遍存在安全投入决策不科学、结构不合理等现象,使得有限的安全投入并未得到充分利用,在造成资源浪费的同时也增加了安全隐患及事故发生概率,导致事故损失成本激增,为企业带来了沉重的经济负担。因此,如何优化高危行业企业安全投入结构,降低事故损失,减少安全生产成本的投入成为亟待解决的现实问题。

对此,已有学者进行了相关研究。陆宁等[1]针对建筑施工企业的特点,分析了影响该类企业安全水平的重要投入指标,并建立了安全投入指标综合重要度评价模型;Wang等[2]采用DEA(数据包络分析)方法综合评价了煤矿安全投入产出效率;李广龙等[3]结合我国历年投入产出数据构建DEA模型,并采用Malmquist指数(全要素生产力指数)对煤矿安全投入效率进行了深入分析;Tong等[4]提出了煤矿生产、安全投资系数以及事故消耗系数的计算方法并建立了煤矿安全动态投入产出模型;董大旻[5]等采用因子分析法提炼出建筑企业投入6要素,并结合EFQM(业务卓越模型)构建了建筑企业安全投入绩效评价结构方程模型(SEM);丁日佳等[6]分析了煤炭生产与安全水平间的影响关系,根据多项式回归拟合分析,构建了煤炭安全生产模型;任海芝等[7]将安全投入准则层分为预防性和损失性两部分,根据C-D生产函数拟合安全总投入与各指标间的关系,建立了以安全总投入最小化为目标的优化模型。

现有关于安全投入的研究多集中在指标评价、效率优化等方面,已有的涉及到安全投入优化的研究,其模型中目标函数的构建多采用多项式回归、逻辑回归等方法,该类方法通常隐含着线性关系的假设,而高危行业领域数据收集困难、数据量小,且数据间具有模糊复杂的非线性关系[8]。因此,采用常规方法分析安全投入优化问题存在一定的局限性。

综上,本文提出了一种高危行业企业安全投入优化的改进模型。采用支持向量回归机(SVR)拟合变量间复杂的作用关系。SVR是一种机器学习方法,它在解决小样本、非线性、高维和局部极小点等实际问题中有着独特优势[9]。借助SVR的特点构建的安全投入优化模型能够更好地解释小样本数据间的非线性规律。针对模型的求解,作者将采用粒子群优化算法(PSO)寻找模型最优解,与其他进化算法相比,PSO具有精度高、易实现等优势[10]。同时,为保证全局收敛性,引入捕食搜索策略及自适应控制对该算法进行改进。最后,通过实证分析了该方法的可行性及有效性。

1 基于SVR的事故损失模型分析

企业安全成本包括安全投入及事故损失两部分。其中,安全事故损失与企业当年的安全投入规模和结构密切相关,在探究它们之间的作用关系时,为克服传统方法的不足,可采用SVR构建安全事故损失模型,为后续构建安全投入优化模型提供基础。

1.1 SVR理论描述

当支持向量机用于回归估计时称为支持向量回归机(SVR),其基本思想是:对于训练样本集(xiyi)(其中i=1,2,3,…,l;xi∈Rm为输入变量;yi∈R为对应的输出值),寻找一个输入空间到输出空间的非线性映射φ,并通过将数据x映射到一个高维特征空间F来求解最优回归函数。SVR回归模型可表述为:

式中:αi,αi*∈[0,c]为拉格朗日乘子;c为惩罚系数,c越大表示对拟合的精度要求越高,当c过大时,易导致过拟合现象的发生,要合理选择;xi为训练样本输入数据向量;xj为分析样本输入数据向量;K(xi,xj)为核函数。

根据Mercer条件可定义核函数,本文选用径向基核函数(RBF):

其中,g为核函数参数,其控制着核函数的径向作用范围,数值大小影响着模型的泛化能力。

由SVR原理可知,适当的选取惩罚系数c和核函数参数g对回归模型的效果起重要作用。

1.2 基于SVR的事故损失模型构建

有鉴于高危行业企业生产作业的特殊性,事故隐患伴随其生产过程的始终。为改善安全生产状态,遏制事故发生减少事故损失,企业往往进行必要的安全投入。

由于各安全投入要素与事故损失间存在模糊、复杂的非线性关系,因此,在研究它们之间的作用机理时,为克服传统方法的不足,可以采用SVR构建安全事故损失模型L=f(x1,x2,…,xn)。

以煤炭生产企业为例。由于煤炭生产过程复杂,环境特殊,由人员操作失误、设备损坏、管理疏忽等原因易导致安全事故的发生[11]。因此,煤炭生产企业更加重视对安全的投入。根据各投入要素功能的差异,可将安全投入分为人员素质x1、机械设备x2、环境改善x3、安全管理x4、应急预防x5五方面内容[12]。

不同煤炭生产企业的安全水平有所区别,但影响安全生产的重要因素与安全生产间的作用规律是一致的。正是由于企业间存在安全状态的差异,更有利于从中找出影响安全生产的制约因素。因此,本文从大样本中随机挑选15家中小型煤炭生产企业在2013~2015年间的安全投入情况作为输入变量,事故损失情况作为输出变量,共获得45组样本数据,随机选出40组作为训练样本,其余5组作为测试样本验证模型的有效性。采用LIBSVM工具箱中回归与参数寻优功能构建基于SVR的事故损失模型,并将预测样本的输出结果与传统C-D函数拟合结果作对比,验证模型的推广能力。具体流程如图1所示。

(1)为获得更好的SVR拟合效果,将样本数据进行归一化处理。同时,由1.1节可知,在运用支持向量机进行回归分析时,参数c、g的选择至关重要。因此,在使用LIBSVM工具箱建模前,需要采用网格搜索进行参数寻优,关键编程语言如下:

其中,Y表示损失值数据集,X表示安全投入数据集。经过参数寻优过程得到参数c、g的值分别为6.519,24.949。

将参数c、g代入式(1)、(2)经过支持向量机回归训练,得到基于SVR的事故损失模型,如下:

式中:αi,αi*∈[0,6.519],b=0.441,系数αi-αi*=(0.966,-0.089,-0.153,-0.168,0.005,0.048,-0.051,-0.117,-0.292,-0.633,0.066,-0.052,-0.334,-0.087,0.055,-0.139,-2.114,-0.160,0.068,0.293,-1.486,-0.086,-0.017,-0.105,-0.162,3.094,-0.159,0.153,0.239,0.287,0.273,-0.073,-0.198,0.334,0.487,-0.114,-0.580,-1.469,0.174,0.723)。

(2)传统的事故损失模型采用C-D函数拟合安全投入与事故损失间的作用关系,表示形式如下:

对上式左右两边同时取对数,可转化为如下形式:

将训练样本取对数,采用MINITAB软件进行多元线性回归,可得事故损失与各分项安全投入之间的函数关系,见式(6)。

利用均方误差RMSE和平方相关系数R2可以评价两种模型的拟合性能,SVR模型和C-D模型的拟合误差如表1所示。

为进一步验证模型的推广能力,将5组测试样本分别代入两种模型,预测曲线见图2。

由表1可以看出,两种方法的平方相关系数R2基本相同,但C-D函数拟合的均方误差值明显大于SVR模型的对应值,表明基于SVR参数寻优方法对事故损失额与安全投入两者间的拟合效果要优于C-D函数的拟合效果。而且,从图2的预测曲线对比图中可以观察到,采用SVR模型的预测效果更接近于真实值。

进一步分析,对C-D函数取对数后发现变量间呈现线性关系,且拟合式中并未体现出变量之间的交互作用,因此,采用C-D函数来解释数据间隐含的复杂关系时,会出现拟合效果和预测效果不佳的情况。

基于此,本文将基于SVR拟合所得式(3)作为确定安全成本中事故损失值的计算模型,为安全投入优化模型中目标函数的构建提供依据。

2 安全投入优化模型的构建

以上述SVR拟合模型为基础确定安全投入与安全总成本之间的函数关系,并以总成本最小化为原则构建安全投入优化模型,为高危行业企业优化安全投入结构提供方法支持。

2.1 目标函数的确定

高危行业企业为实现安全生产,会投入必要的安全成本,同时,期望用最小的安全成本获得最大的安全效益。企业安全成本既包括为保障安全生产所进行的安全投入,还包括事故发生后所造成的事故损失[13]。以安全成本投入G最小化为模型的目标函数:

式中:L≥0为事故损失值,其表达式为(3),万元;C为各项安全投入总和,,万元;xi(i=1,2,…,n)为各项安全指标投入量,万元。

2.2 约束条件的确定

企业为追求利益的最大化,不会无限增加安全投入,企业能够承担的最大安全投入规模即安全投入上限U。

此外,受到行业制度规范的约束,企业必须承担的最小安全投入规模即安全投入下限D,即:

安全投入优化的前提条件是保证各项指标的最低要求得到满足,以防止由于投入不足造成的安全隐患。同时,考虑到某些指标间具有相互联系、相互影响的关系,在设定投入下限时,需要综合考虑某几项指标间的投入情况,即:

综上,可将安全投入优化模型表述为:

3 基于IPSO的安全投入优化模型求解

采用SVR拟合事故损失和安全投入间的作用关系,进而构建安全投入优化模型,能够提高模型的推广能力,但同时也加大了模型的复杂程度,而利用传统的求解方法很难寻找到最优解,因此,可采用基于捕食搜索策略的粒子群(PS-PSO)求解模型最优值,同时为防止粒子搜索时出现越过最优解的现象,引入自适应控制对该方法进行改善,得到改进的PS-PSO算法,也即IPSO算法。

3.1 PS-PSO算法

捕食搜索是一种模仿动物捕食搜索行为的空间搜索算法。采用捕食搜索算法寻优时,首先需要在搜索空间整体范围内进行全局搜索,找到较优解,然后在较优解周围进行局部搜索,若未找到更优解则选择放弃在该区域的搜索工作,并返回全局搜索步骤,继续寻找较优解。如此循环直至搜索到最优解(或接近最优解)后停止搜索。

基于捕食搜索的PSO算法是对标准PSO算法中粒子搜索方式进行改善。对于粒子在n维搜索空间中第i个粒子的飞行速度Vi=(vi1,vi2,…,viD)和距离Pi=(pi1,pi2,…,piD)的计算公式不作改变,见式(11)、(12)。

式中:i=1,2,…,m;c1、c2为非负常数;ξ、η是介于[0,1]之间的随机数;w为惯性权重,是介于[0,1]之间的常数;k为迭代次数;Vk+1i∈[-Vmax,Vmax]。

需要说明的是:在粒子群寻优过程中,每个粒子的位置代表一个潜在解,初始粒子需要在不断的迭代中完成寻优任务,在此过程中,第i个粒子在n维搜索空间的位置为Xi=(xi1,xi2,…,xiD),计算第i个粒子的适应度值,并与两类“极值”作比较,即局部极值Pi(也即Pbest)和Pg全局极值(也即Gbest),进而完成对自身位置的更新。

3.2 改进PS-PSO算法(IPSO)

捕食搜索可以通过控制搜索空间范围大小,完成全局搜索与局部搜索之间的相互转换,具备良好的局部集中搜索和跳出局部最优的能力,这正是标准PSO算法所欠缺的。然而,当解决复杂非线性寻优问题时,由于搜索范围随机生成,固定的搜索速度易导致粒子搜索时越过最优解,从而陷入局部最优。

因此,本文在常规PS-PSO基础上引入自适应控制策略,对粒子速度进行变异,即对式(12)进行如下调整:

式中:δ为调节参数;j为范围限制,每个范围限制下进行c次重复搜索;i为当前迭代次数;maxi为各范围限制对应的最大迭代次数。

当粒子在较大的范围限制内进行搜索时,粒子速度较快,使算法能够快速寻找到较优解,接着,粒子将以此较优解为中心进行小范围的搜索,受到算法的约束,粒子速度逐渐变缓,以保证在较优解周围寻找更优解的搜索精度。由于粒子搜索速度受到当前迭代次数的影响,因此,可以使粒子速度得到有效的调节。为防止陷入局部最优,算法将在无法找到更优解时重新生成范围限制对全局进行搜索。

结合以上对IPSO算法的描述,可以得到安全投入优化模型求解的具体过程为:

步骤1:根据实际要求确定安全投入优化模型的目标函数及约束条件,构建安全投入优化模型;

步骤2:初始化设置,随机产生种群和速度,计算初始最优解Gbest;

步骤3:将改进的(13)式替代(12)式作为标准PSO算法中的位置更新公式。以当前最优解为中心,在当前限制L下重新随机初始化粒子,进行迭代寻优,得到一个历史最优解Pg,若Pg<Gbest,则Gbest=Pg,重复此步骤;

步骤4:若在当前限制L下重复c次搜索后,无较优解,则在限制L+1的基础上重新初始化粒子进行搜索,若得到更优解则转至步骤3,否则重复本步骤;

步骤5:在对所有限制区域完成搜索后,输出最优结果,对应的最佳粒子位置向量即安全投入的最终优化方案。

4 实证分析———以煤炭生产企业为例

本文选取某煤业集团下属煤炭生产企业Y为实证对象,以检验模型的可行性及有效性。Y企业生产能力为60万吨/年,根据国家安全生产监督管理总局颁发的《企业安全生产费用提取和使用管理办法》[14]中相应费用的规定,当煤矿年产量为60万吨时,煤矿的安全资源投入最低应为D=300万元。该企业在2015年的安全总成本为630万元,计划要将2016年的安全成本控制在U=600万元以内,包括事故损失投入和安全投入(人员素质x1、机械设备x2、环境改善x3、安全管理x4以及应急预防x5)。

考虑到安全投入的某些指标间具有相互联系、相互影响的关系,结合该企业实际,构建安全投入优化模型:

其中,式(14)表示安全投入成本最小,L≥0为事故损失值,其表达式是由1.2节中基于SVR拟合所得式(3)构成;式(15)表示总体安全投入的上限和下限;式(16)表示人力与设备是煤矿生产的关键生产要素,其投入不仅要满足生产要求,还要满足最低安全投入要求;式(17)表示对人为安全因素的外部约束,包括设备、环境及管理约束;式(18)式表示为保证事故发生后的应急环节正常运转需要满足的最低安全投入要求。

本文利用Matlab编程实现对上述模型的求解。首先需要进行参数设置,标准PSO算法中常规参数包括[15]:惯性权重w,常数系数c1、c2。

当引入改进PSO算法后,需要进一步根据反复实验的结果确定调节参数δ,重复搜索限制c,最大迭代限制maxi,以保证粒子具有较好的搜索能力,具体参数设置如表2所示。

其次,分别采用常规PS-PSO和改进粒子群算法(IPSO)对安全投入优化模型进行求解,可以得到寻优对比结果,见表3。

由表3可知,本文提出的IPSO算法的计算结果优于PS-PSO的计算结果。由于在PS-PSO的基础上,引入了捕食搜索及自适应控制算法,很好地克服了PS-PSO算法在搜索过程中易出现越过最优解的问题,从而保证计算结果达到了全局最优。

最后,根据最佳粒子位置确定该企业在2016年的安全投入优化方案为xT=(80.3,106.7,58.8,120.3,60.8)万元,对应的安全总成本为509.3万元,与2015年相比降低了19.2%。

5 结论

本文针对传统安全投入模型的局限性,提出了安全投入优化改进模型,以解决高危行业企业的安全投入问题。采用SVR能够克服了传统方法在拟合时隐含线性关系假设的不足,提升了模型中目标函数的推广能力,但同时也增加了目标函数的复杂程度。因此,在对模型进行求解时,为保证全局收敛性,本文引入自适应控制算法对常规PS-PSO进行了改进。

结果表明,该模型能够较准确地描述安全投入与安全成本间的非线性作用关系,并通过粒子群算法寻优得到具备可行性的全局最优解,以期为高危行业企业制定安全投入优化策略提供更加准确的理论依据。

摘要:传统的安全投入模型对解决高危行业领域中模糊复杂的安全投入问题具有一定局限性,尤其当建立目标函数时,采用隐含线性关系假设的函数进行拟合会影响模型的推广能力。基于此,本文首先采用支持向量回归机(SVR)建立事故损失模型,与传统C-D函数拟合结果相比,该模型具有更好的预测能力;然后,以实际安全投入要求为约束,以安全总成本最小化为原则建立企业安全投入优化模型;最后,采用基于捕食搜索策略的粒子群算法对模型进行求解,同时,为保证全局收敛性,引入自适应控制策略对算法进行了改进。结果表明:该模型能够更加准确地描述安全投入与安全成本间的非线性作用关系,并通过粒子群寻优得到具备可行性的全局最优解,为高危行业企业安全投入结构优化提供新的决策思路。

基于SVR的武器装备费用预测 篇5

由于样本限制, 装备费用预测问题是小样本学习问题。支持向量机 (Support Vector Machine, SVM) 是由统计学习理论发展起来的一种新型学习机器, 它以结构风险最小化原理为理论基础, 具有逼近复杂非线性系统、较强的学习泛化能力和良好的分类性能, 同时所需要样本数量少、建模方便、计算简单、学习训练时间短、泛化能力强。SVM最初是用来解决模式识别问题, 随着Vapnik的ε不敏感损失函数的引入, SVM已经扩展到解决非线性回归问题。

1 支持向量机回归模型

支持向量机回归 (SVR) 的基本思想是:基于Mercer核展开定理, 通过非线性映射, 把样本空间映射到一个高维特征空间, 在这个空间中构造最优决策函数。在构造最优决策函数时应用结构风险最小化原则, 并利用原空间的核函数取代高维特征空间中的点积运算, 把寻找最优线性回归超平面的算法归结为求解一个凸约束条件下的一个凸规划问题。

对线性规划, 设训练样本集 (xi, yi) , i=1, 2, …, n具有ε相似性, 即, i=1, 2, …, n。该最优问题可作如下描述:

其中C为惩罚因子, 实现经验风险和置信范围的折中;ξi, ξi*为松弛因子, ε为损失函数, 采用ε不敏感 (insensitive) 损失函数, 用于控制回归逼近误差和泛化能力。

在求解上式时, 一般采用对偶理论, 把它转化成二次规划问题。建立拉格朗日方程:

在极值处, 上式对w, b, ξi, ξi*求偏导为零, 得:

化简后, 可得原约束表达式的对偶式:

对于非线性问题, 将原数据集通过一非线性映射, 映射到一高维特征空间, 在高维特征空间中进行线性回归, 则此时约束表达式为:

定义K (xi, xj) = (Φ (xi) ·Φ (xj) ) =ΦT (xj) Φ (xi) 为核函数。

根据Karush-Kuhn-Tucker定理, 可求得αi, αi*, b, 最终可得SVM回归函数为:

2 支持向量机预测装备费用的方法和步骤

基于支持向量机回归的装备费用预测的方法和步骤如下:

(1) 确定样本量。

武器装备的费用受多方面因素的影响, 如果只从单独的一个方面对武器装备费用进行考察评估, 就不可能对装备费用有正确的反映。一般选取对费用较为敏感的若干个主要物理与性能参数 (如质量、体积、射程、探测距离、平均故障间隔时间等) 。对于单一费用的预测, 其样本量可以选择前阶段该项费用作为样本量。

(2) 数据的预处理。

支持向量机没有对数据量纲的要求, 这就可能造成两个数量级相差很大的数据一起作为训练样本, 造成模型训练费时, 误差较大。因此对训练样本要进行数据的缩放处理。一般归一化采用下式实现:

式中, xM表示归一化后的数据, xmax, xmin是原始变量x的最大和最小值。

(3) 选择核函数, 进行学习训练。

常用的核函数有线性核函数, 多项式核函数, 径向基核函数, 高斯核函数。支持向量机回归常用的核函数是径向基核函数, 表示为:

选择参数C, ε以及核函数中σ2的合理取值, 一般按经验选取, 以所确定的模型的拟合精度作为标准。

(4) 确定模型, 用于预测。

将新的参数数据输入到模型中进行预测。

摘要:武器装备的费用是影响装备发展的首要问题。在装备寿命周期的各个阶段, 开展装备费用的预测研究, 对于促进装备可靠性和维修性的提高, 加强装备使用和维修的科学管理有着十分重要的意义。

SVR模型 篇6

目前,国内常用的泄漏定位方法有人工直接检测法、压力梯度法、负压波法、互相关分析法、BP神经网络法等。第一种方法最为普遍,但其耗时大,对工作人员的经验依赖度高,往往不能快速确定泄漏源;另外几种方法在实际的泄漏定位过程中存在对泄漏条件要求过高、定位结果偏差大等问题。支持向量机(SVM)基于统计学习理论(SLT)发展起来,是一种针对有限样本进行机器学习的算法。作为近年来非常热门的一种机器学习方法,支持向量机有着优秀的分类与回归估计能力。支持向量机回归(SVR)已经在短时交通流预测、话务量预测、火灾预测、人员疏散等众多方面有着成功的研究应用,但在管道泄漏方面,支持向量机主要应用在泄漏检测上,如江志伟提出用支持向量机实现对泄漏信号的有效识别。

笔者考虑用一种基于改进网格搜索法参数优化的SVR来进行燃气管道泄漏定位,并将该定位技术应用于实验室的模拟燃气管道泄漏实验装置中,以期能够准确定位管道泄漏,及时控制泄漏事故。

1 基本理论

1.1 ε-SVR原理

Vapnik等通过引入ε不敏感损失函数将SVM推广到非线性系统的回归估计,建立了支持向量机回归(SVR)。采用ε-SVR对管道泄漏进行训练和定位的基本思想是:在线性不可分的输入变量情况下,首先选取合适的非线性映射Φ 将其映射到一个高维特征空间,然后在这个高维特征空间当中采用线性回归函数来进行估计,进而获取在原空间的非线性回归效果。

设定待回归的数据集为{(x1,y1),(x2,y2),…,(xl,yl)]。其中,xl∈Rd,yl∈R,l为样本数目,则支持向量回归机的非线性决策函数,如式(1)所示。

式中:Φ(x)为非线性映射,把数据从输入空间映射到高维空间;w为权重向量;b为偏置量。

求解最小w的问题可以表示为式(2)。

式中:C为误差惩罚因子;Lε为损失函数。

选用的ε不敏感损失函数,如式(3)所示。

当误差超过ε时,实际误差减去ε为误差值;反之可忽略不计。按照结构风险最小化的原则,并采用ε不敏感损失函数作为估计问题,引入松弛变量ξi、ξi*,则最优回归方程,如式(4)、式(5)所示。

引入Lagrange函数转化上述二次规划问题,变为对偶优化问题,如式(6)、式(7)所示。

求解可得到支持向量机回归函数,如式(8)所示。

考虑径向基(RBF)核函数在目前所有核函数中应用最广泛,学习性能较好,并且偏差小,采用RBF核函数,其表达式如式(9)所示。

1.2改进网格搜索法

核函数参数g和惩罚系数C的选择对ε-SVR算法性能十分重要,将直接影响到计算结果的准确度。粒子群优化算法(PSO)、遗传算法(GA)和网格搜索法是比较常用的3种参数寻优方法。前两种算法属于启发式算法,不仅操作复杂而且容易陷入局部最优。

传统的网格搜索法对SVR模型的参数优化选择是通过让参数C和g在一定的范围进行网格划分,然后遍历所有的网格进行取值,把得出的所有参数组合C、g进行交叉验证并计算其预测误差,将验证准确度最高的一组参数组合C、g作为最优参数值。这种传统的网格搜索方法有很明显的缺点,就是不仅耗费的时间长,而且一旦搜索步距偏大,往往就不能搜索到最优的那一组参数组合。改进的网格搜索法参数优化,就是把搜索步长和搜索范围加以改变来搜索最优参数。首先设定好参数C、g的取值范围,然后先采用大步距做一个粗略搜索,挑出预测准确度最高的一组参数组合,即局部最优参数,在这组参数组合附近确立一个小区间,对这组参数用传统方法的小步距作二次寻优,确定最终的最优参数组合。

2 模型建立

根据燃气管道泄漏定位的基本原理,采用如下基于支持向量回归机的城市燃气管道泄漏定位模型:

假设xi∈Rn为管道泄漏时的声发射系统的检测变量,yi为泄漏点的定位值。基于SVR的泄漏定位模型即寻找xi、yi之间的关联,如式(10)所示。

采集到的泄漏信号数据与之前已知发生过泄漏的采集数据有着绝对的关联,通过数据集里已有的泄漏数据来估计当前发生泄漏的位置。设定xi泄漏采集信号为输入值,yi即为泄漏位置。

基于改进网格法SVR的燃气管道泄漏定位具体流程图,如图1所示。

3 实验验证

3.1 实验设计

实验按照相似理论搭建城市燃气管道泄漏模拟实验平台,并在此实验平台上验证上述泄漏定位技术的有效性,装置示意图如图2所示。该模拟装置由数据采集及处理、管道储运和测量仪器仪表3个单元组成,测试仪器是PCI-Ⅱ声发射卡,S/N2462026504放大器,R15单端宽频带声发射传感器,管道总长55m。

实验数据采集过程如下:空气压缩机为管道提供空气模拟燃气管道,管道上共有6个泄漏阀,分别在3.40、11.12、21.05、28.76、38.70、45.41m处,分别编号1~6。单独打开每个泄漏阀来模拟管道泄漏,采集到的数据信号的特征提取用小波分析法,根据特征参数的一般选取规则,分别获得上升时间、持续时间、幅度、振铃计数和绝对能量5个基本特征参数。由该5种参数组成管道泄漏样本数据集的影响变量,对应的管道泄漏点位置为因变量。每个泄漏点采集50组训练样本,10组测试样本,共计训练样本300组,测试样本60组。

3.2 泄漏定位步骤

按如下步骤对燃气管道泄漏进行定位:

(1)训练样本数据归一化,设定归一化区间为[-1,1],归一化公式如式(11)所示。

式中:x为实际值;min(x)和max(x)分别为最小值和最大值;y为归一化之后的输出值;

(2)设置参数C、g的搜索范围和搜索步距。C的初始范围为[2-10,28],g的初始范围为[2-10,25],搜索步距为1;

(3)用交叉验证对训练样本集合进行测试,获得局部最优参数,在其附近区间采用步距0.1进行二次寻优,获得最佳参数组合(0.014,67);

(4)根据样本集和最优参数组合,建立基于改进网格搜索法的支持向量机回归燃气管道泄漏定位模型;

(5)用建好的模型进行泄漏定位。

3.3 实验结果及分析

运用林智仁的libsvm支持向量机工具箱。对每个泄漏阀的预测值,如表1所示。采用绝对误差和相对误差作为评价指标,可以看出基于改进的网格搜索法参数优化的SVR对燃气管道泄漏定位结果精度高达94.03%。

支持向量机的参数寻优的方法有很多种,另两种常用的参数优化方法是PSO算法和GA算法,现将此改进网格算法与这两种算法以及常规网格算法进行对照比较。4种不同优化算法应用在泄漏定位模型下所得出的预测结果,如表2 所示。由表2 可以看出,由于PSO-SVR容易得出局部最优解,精度和稳定性比改进网格搜索法略差;遗传算法在计算中并未出现过早收敛现象,总体预测效果良好,但其运算时间远比此算法的长;常规的网格搜索法由于得出的参数组合不是最优解,精度较差。在实际管道泄漏定位中,GA-SVR实现比较复杂,收敛速度慢,运算耗费的时间长,而此算法速度快,精度高,稳定性强,能及时准确地定位泄漏源,对控制泄漏事故预防灾害发生有着更直接的意义。

为了证明该模型在燃气管道泄漏定位的优越性,选取BP网络以及传统的SVR这两种管道泄漏定位方法进行对照比较,定位结果见表3所示。

通过表3 可知,笔者的研究方法预测精度最高,BP网络的效果要比传统SVR好,该方法容易陷入局部极值,不能很好地预测每个泄漏点位置,如在5号泄漏阀的预测上相对误差只有2.37%,但在4号泄漏阀的预测上相对误差却达到11.26%,即该方法预测准确度的波动性大;传统的SVR在寻找最优的参数方面存在不足,预测准确度较差,需要依靠多次实验来获得理想的结果,但其运算速度比其他两种方法都要快;笔者的算法是凭借改变搜索步距和搜索范围,精确获得最优参数组合进行泄漏位置的预测,有效提高了算法的准确性能,使得最终的预测结果更加准确、可靠,最小误差不足1%,最大误差也不到6%。

4 结束语

采用一种改进网格搜索法参数优选的SVR模型,实现了对燃气管道泄漏源的定位。实验结果分析表明改进的网格搜索法能准确迅速地找出最优参数组合,建立定位模型并准确地定位泄漏源,其定位精度和稳定性都要高于其他几种算法,且运算速度快,是一种在线定位燃气管道泄漏的有效方法。

摘要:为解决城市燃气管道泄漏定位问题,提出将支持向量机回归(SVR)应用于实验室的管道系统泄漏定位研究中,用一种改进网格搜索法优化SVR参数,建立定位模型对管道泄漏进行定位,将该定位模型与BP神经网络和传统SVR定位模型进行比较。用粒子群优化算法(PSO)、遗传算法(GA)和常规网格算法优化SVR参数来与改进网格算法比较泄漏定位结果。研究结果 表明:用改进网格搜索法参数优化后的SVR能够迅速定位泄漏点,定位精度达到94.03%,其精度和稳定性优于其他方法。

SVR模型 篇7

支持向量回归机[1](SVR)作为以统计学习理论为基础的非线性预测方法,具有训练过程始终具有全局最优值、泛化能力较强、解空间具有稀疏性、收敛速度较快和小样本条件下预测性能较好的优点,但是其理论优势得以实现的前提是要选取到合适的回归参数(包括不敏感损失系数ε、惩罚系数C、核函数及其参数等),至今还未形成有效通用的理论指导原则和方法[2]。传统的参数选取多是采用反复实验的方法确定,盲目性大、效率低。近年来,在SVR参数选择上,智能算法作为强大的非线性寻优手段成为一种新思路[3,4,5]。因此,本文在分析SVR各参数对其性能影响的基础上,提出了基于磷虾群算法[6]的SVR参数选取方法,并用于研究滚动预测下一时段的交通流量。

2 支持向量回归机及其参数分析

支持向量回归机的基本思想[7]是对给定的训练样本集,通过非线性映射φ(·)把数据映射到高维的特征空间,并在该空间中进行线性回归。设回归函数(或决策函数)为:

式中,w∈Rn,b∈R,w和b表示回归因子。

SVR依据结构风险最小化原则,将学习过程转化为优化问题,本文采用e-支持向量回归机(即e-SVR),表示为:

式中,C是一个正常数,为惩罚因子;ξi和ξi*为松弛变量;ε>0是回归允许最大误差,用于定义ε-线性不敏感损失函数,即:

通过引入Lagrange函数,并用满足Mercer条件的核函数K(xi,xj)=(φ(xi),φ(xj))替换特征空间中的内积运算,可以导出优化问题式(2)的对偶问题:

其中,αi和αi*为Lagrange乘子,本文采用RBF核函数:

式中,σ为常数,表示高斯函数的覆盖宽度。由于SVR的稀疏性,二次规划式(4)只有少量样本的系数(αi*-αi)不为0,所对应的样本(xi,xj)就是支持向量。于是w的表达式为:

根据最优化的充要条件(即Karush-Kuhn-Tucker条件,简称KKT条件)可知,在最优点,拉格朗日乘子与约束的乘积为0,进而可得b的计算式如下:

进而,回归函数f(x)的表达式为

参数(ε,C,σ)及其相互关系对SVR学习能力和推广能力都有很大的影响[2]。一般地,ε控制着回归函数对样本数据的不敏感区域的宽度。ε过大,支持向量数就少,可能导致学习精度不够;ε过小,回归精度较高,但可能得不到好的推广能力。C反映了算法对超出ε管道的样本数据的惩罚程度。C过小,对超出ε管道的样本数据惩罚就小,训练误差变大;C过大,学习精度相应提高,但泛化能力变差。σ反映了支持向量之间的相关程度。σ过小,支持向量间的联系比较松弛,推广能力得不到保证;σ过大,支持向量间的影响过强,难以达到足够的精度。可见,若能选取到合适的参数(ε,C,σ),就能得到比较精确、稳定的回归模型。因此,本文同时综合考虑参数(ε,C,σ),提出磷虾群算法实现SVR参数的优化选择。

3 基于磷虾群算法的SVR参数选取方法

3.1 磷虾群算法基本原理

磷虾群优化算法是由Gandomi和Alavi于2012年通过模拟磷虾的生态行为提出的一种仿生集群智能算法[6,8]。每个磷虾都会受到一定范围内每个相邻磷虾的吸引或排斥,从而进行局部寻优。而由所有磷虾的适应度所决定的食物中心,则引导磷虾进行全局寻优。该算法模型比较简单,易于实现。同时,由于其采用了拉格朗日模型,故算法性能要优于其他的仿生优化算法。其算法的具体流程如下:

(1)确定磷虾群的拉格朗日模型:

其中,Xi表示磷虾的状态,Ni表示受诱导运动的速度矢量,Fi表示觅食行为的速度矢量,Di表示随机扩散的速度矢量,下标i表示第i只磷虾;

(2)受诱导运动:

其中,Nmax=0.01m/s为受诱导运动的最大速度,ωn∈(0,1)为受诱导运动的惯性权值,Niold为上一次受诱导运动的速度矢量,αilocal为相邻磷虾的局部影响,可以表示为:

其中,Ki表示第i个磷虾的适应度,Kj表示其第j个相邻磷虾的适应度,Kbest和Kworst分别为最优及最差适应度,Xi表示第i个磷虾的状态,Xj表示其第j个相邻磷虾的状态,ε为避免奇异的很小正数,NN为相邻磷虾的只数,可以由每个磷虾的感知距离di来决定,而di可以表示为:

其中,N表示磷虾总只数;

αitarget为最优磷虾的影响,可以表示为:

其中,rand表示0,1之间均匀分布的随机数,I为当前迭代次数,Imax为最大迭代次数;

(3)觅食行为:

其中,Vf=0.02m/s为觅食行为的速度,ωf∈(0,1)为觅食行为的惯性权值,Fiold为上一次觅食行为的速度矢量,βifood为食物对第i只磷虾的影响,其可以表示为:

βibest为第i只磷虾迄今为止适应度最优的状态,对当前第i只磷虾所造成的影响,可以表示为:

(4)随机扩散:

其中,Dmax∈(0.002,0.01)m/s为随机扩散的最大速度,δ为每个变量服从(-1,1)均匀分布的方向矢量。

(5)状态更新:

其中,△t为时间间隔,必须根据实际问题进行选择。

3.2 适应度函数定义

在SVR的训练中,泛化均方误差GMSE能直接反映SVR的回归性能,定义为:

其中,n是测试样本数,yi和分别是测试样本的实际值和估计值。

适应度函数值是通过在训练样本集上采用k-折交叉验证的方法来确定,即把训练样本集分成k个互不相交且样本数大致相同的子集,取1子集作为测试样本,其余k-1个子集的和集作为训练样本,应用SMO算法[9]进行训练;重复k次,然后把k次得到的GMSEi(i=1,…,k)取平均值:

以其倒数作为适应度函数值:

3.3 磷虾群算法优选SVR参数的步骤

综合3.1-3.2节,本文提出的磷虾群算法优选SVR参数(ε,C,σ)的步骤为:

Step1:设置参数,读取样本数据,初始化种群;

Step2:对种群中的每只磷虾训练SVR,并计算适应度,记下当前最优解;

Step3:根据式(10)~式(20)依次计算每一只磷虾受诱导运动、觅食行为以及随机扩散的速度向量;

Step4:通过式(21)得到每只磷虾的状态更新值;

Step5:判断是否满足终止条件,若满足,则转入Step6,否则,转入Step3;

Step6:输出最优解,结束。

4 实例分析

4.1 交叉口交通流量预测模型结构

研究表明,城市交通路网中交通路段上某时刻的交通流量不仅与本路段前几个时段的交通流量有着必然的联系,而且还受到上下游路段交通状况的影响。因此,可以利用某路段前几个时段的交通流量以及上下游路段前几个时段交通流量来预测该路段的当前时段交通流量[10]。于是,本文以交通路网中两相邻交叉口(如图1)为例,建立交通流量预测模型结构。

其中,表示上游交叉口时刻t的交通流量,qf(t)为预测点t时刻的交通流量。

交通流量数据是典型的时间序列数据。由于数据空间上的相关性,上游交叉口各个入口在t-1时刻的交通流量对下游路口在预测点t时刻的交通流量qf(t)产生一定的影响;同时,由于数据在时间上具有一定的相关性,在预测点上时刻t的交通流量必然与前若干个时段(取前三个时刻:t-1、t-2、t-3)的交通流量存在比较紧密关系。因此,将[,qf(t-1),qf(t-2),qf(t-3)]作为t时刻的输入向量x,qf(t)作为相应的输出y,则建立x与y之间的一一映射关系:

4.2 数据源及预处理

实验数据来自文献[11],记录了如图1所示交叉口2005年7月20日7:30至16:00的交通流量,统计间隔为5分钟,共103组实测值,记为

首先,需要对交通流数据进行标准化处理。对某一个变量s,设其最大值为smax,最小值为smin,则本文采用的极值标准化为:

这样每个变量的取值范围都在[0,1]之间,皆是具有相同尺度的无量纲量。

然后,由式(25)或式(26)得到SVR的输入输出模式样本集:

4.3 滚动预测机制

滚动预测机制的主要思想是保持数据长度不变,滚动地补充新数据,剔除旧数据,以更好地能够反映系统目前的特征[12]。具体来说,对于式(28)表示的模式样本集,取当前时段t=13及待预测样本qf(14),由X1=(x4,x5,…,x13)T及Y1=(y4,y5,…,y13)T经计算得到qf(14)的预测值;若当前时段t从13变为14,则待预测样本变为qf(15),X1变X2=(x5,x6,…,x14)T,Y1变成Y2=(y5,y6,…,y14)T,同样得到qf(15)的预测值;同理,t依次变为15、16、…、102,便依次得到,从而实现交通流量的滚动预测。

4.4 评价指标

为了评价各方法的预测性能,本文使用如下2个性能指标[13]:

①平均绝对相对误差MARE

②均等系数EC

4.5 参数设置

在MATLAB2015环境下编程进行实验。磷虾群算法的参数设置:种群规模为100,最大迭代次数为50,ωn=ωf=0.9,Dmax=0.005m/s,αitarget=0.01m/s,βibest=0.02m/s,Ct=0.5,ε=0.00001;SVR参数的搜索空间:ε∈[0,0.2]、C∈[0.5,15]、σ∈[0.01,2.0];SVR训练使用5-折交叉验证。

4.6 结果分析

本文测试比较三个方法:经验估计法、遗传算法及磷虾群算法;经计算得到的性能指标结果(MARE和EC)见表1,预测值与实测值之间的结果比较分别如图2至图4所示(纵轴的交通流量是预测结果反归一化后得到的,即。

由表1可见:①经验估计法的平均相对百分比误差(即MARE值)最大,为15.44%,大致为磷虾群算法的MARE值(8.28%)的2倍,表明采用智能算法(遗传算法和磷虾群算法)优化SVR参数进行交通流预测的效果明显优于经验估计法,可以有效避免人为选择参数的盲目性、随意性;②与遗传算法相比,由磷虾群算法得到的SVR模型的平均相对误差最小(8.28%),拟合程度最好(0.9442),具有较强的推广预测能力,同时也说明磷虾群算法的搜索能力得到进一步提高。从而表明本文方法优化SVR模型参数的可行性和优越性,具有交通流量预测准确度高的优点,而且能够较好地适应交通流量滚动预测的要求。

5 结束语

【SVR模型】推荐阅读:

模型组织07-14

提升模型07-15

稳态模型07-17

演示模型07-17

机翼模型07-18

接头模型07-18

农户模型07-19

平均模型05-08

供需模型05-09

应激模型05-09

上一篇:聚焦业主维权下一篇:渠道衬砌