径流预测

2024-09-23

径流预测(精选7篇)

径流预测 篇1

1 引言

径流是水循环的基本环节, 而径流预报是建立在掌握客观水文规律的基础上, 预见未来水情变化的一项科学情报工作, 是实现水资源科学调度的前提。

针对径流预测, 目前已有模糊分析[1]、人工神经网络[2~3]等多种预测方法。然而径流要素受气候、流域自然地理及人类活动等多种因素影响, 其变化特性和规律错综复杂, 表现出随机性、非线性等复杂特征, 因此各种预测方法难以用于实际径流预测过程。本文针对其径流预测的误差分析, 提出径流预测修正问题, 可为实际工作中的径流预测提供一定的参考。

2 径流预测误差分析

径流过程作为一个随机的复杂的水文过程, 其影响因素包括地形地貌、降水、气候、人类活动等, 且其受外界的干扰大, 因此, 难以运用准确的数学模型对其进行分析, 只能采用随机的统计理论对其进行研究, 从而使得确定的径流过程带有明显的随机性。

在国内外对径流过程的大量研究中, 特定的径流模型在特定的流域内取得了较好的分析结果, 然而河流流域的特定性, 使得确定的径流模型难以具有普遍适用性。随着人类活动的影响、气候的变化以及自然特征的改变, 也会使得原适合的确定模型不再适用。

3 径流模型适用分析

3.1 径流数据采集

径流数据作为径流规律分析、径流模型建立的基础性数据, 对于模型的准确性具有重要作用, 由于径流规律的随机性, 当径流资料长度较小时, 其分布规律具有较大的随机性, 难以对其进行统计分析, 因此, 保证径流资料的长度是对径流进行统计、建立模型的重要影响因素。

对于小流域地区, 其由于历史、社会、地理因素, 其往往缺乏相应的水文观测资料, 或径流资料相对较短, 为补充径流资料长度, 应充分利用当地的建立较早、设备完善的大型水文站, 利用其径流资料, 通过地理地貌情况, 建立其径流相连关系, 由已知径流规律推求该处的径流资料, 作为径流分析的资料。当径流资料过短时, 也可以通过水文插补延长的方法取得其径流分布情况。

在径流资料充分的地区, 也可以根据当地其它水文站对径流资料的准确性进行复验, 剔除明显错误的径流资料, 利用水文关联近似取得其径流资料, 以保证径流资料的准确性、可用性。

3.2 径流模型适用性分析

由于径流规律的特定性, 即便为经典的径流模型也是在特定的条件下才能达到好的效果, 因此, 在径流模型的建立时, 应充分考虑其流域情况, 在对其流域地理地貌、人类社会活动影响、气候变化的影响等资料的收集汇总, 建立其内部的物理联系模型, 以此为基础, 建立流域内的合适的径流模型。针对该流域的特定性, 建立基础模型的修正模型, 确定其修正量, 并以该流域的实际径流资料, 对修正量进行分析率定, 从而可确定适合该流域特性的新的模型。也可根据流域的特殊情况, 对两种模型进行连结改进, 或建立新的适用模型。

3.3 径流模型修正分析

由于径流过程为一个随机不确定问题, 其建立在数学统计概率的基础上, 因此, 当实际径流过程与径流模型不一致时, 应对模型进行必要的修正, 以建立更符合实际情况的新模型。

在径流预测过程中, 当径流实际值与预测值出现偏差时, 根据实际值对模型进行必要的修正, 从而建立其新的预测模型。其修正可分为两种, 一种是通过该预测时段同历年实测值对比, 进行纵向修正, 一种死通过该预测时段同该年以往时段进行对比, 进行横向修正, 通过不断的引入新的实测数据, 更新预测模型, 其预测模型效果越好。

4 结语

本文通过对径流模型的误差来源进行分析研究, 针对径流的随机性, 提出了径流模型的使用和修正, 为实际工程中的径流预测提供一定的参考。

摘要:针对径流预测模型与实际径流资料的误差问题, 分析预测模型与实测结果的误差来源, 针对径流资料的强随机性及流域模型的特定性, 提出使用径流预测模型时的径流资料收集、径流模型适用性分析及径流模型的修正方法, 可为工程实际中的径流预测提供一定的参考。

关键词:径流预测,数据采集,适用性,模型修正

参考文献

[1]陈守煜.中长期水文预报综合分析理论模式与方法[J].水利学报.1997 (8) :15-21

[2]徐中民, 蓝永超, 程国栋.人工神经网络方法在径流预报中的应用[J].冰川冻土.2000, 22 (4) :372-375

[3]Naehimuthu Kamnanithi, WilliamJ.Grenney, Member, ASCE, Darrell Whitley, Ken Bovee.Neural network for river flow prediction[J].Journal of computing in civil engineering.April, 1994:201-220

径流预测 篇2

目前,Copula函数广泛应用于变量频率分析计算。在水文水资源领域,Copula函数在洪水频率分析[1]、干旱特征分析[2]及水文随机模拟[3]等方面均取得了很好的应用成果,但在预测问题上的应用相对较少。目前常见的水文预测模型有神经网络[4]、组合模型[5]、分布式模型[6]等,本文将Copula函数应用于预测研究,提出Copula预测方法。通过Copula函数构建自变量和因变量的联合分布函数,分析自变量和因变量的相关程度和相关模式;在此基础上,结合样本值已知的自变量概率分布特点,细致研究样本值未知的因变量概率分布与联合分布的关系,对因变量未知值进行预测。对新疆开都河年径流预测的结果表明:该方法原理明晰、计算简便、预测精度较高。

1 Copula方法介绍

1.1 Copula函数

二元Copula函数C(·,·),是定义域为[0,1]2,有零基面且二维递增,对任意变量u、v∈[0,1]满足C(u,1)=u和C(1,v)=v的函数。即C(·,·)是一个边缘分布服从[0,1]均匀分布的二元分布函数,且对于定义域内任意一点(u,v)均有0≤C(u,v)≤l。根据Sklar定理[7],令H(·,·)为具有边缘分布F(·)和G(·)的联合分布函数,则存在一个Copula函数C(·,·),满足

若F(·)和G(·)连续,则C(·,·)唯一确定;反之,若F(·)和G(·)为一元分布函数,C(·,·)为相应的Copula函数,则由式(1)定义的函数H(·,·)是具有边缘分布F(·)和G(·)的联合分布函数。

同时,二元Copula函数的密度函数c(·,·)与联合分布函数H(·,·)的密度函数h(·,·)满足

由此可见,Copula函数的Sklar定理为求取联合分布函数及其密度函数、分析变量之间相关结构提供了一条便捷的新途径。

Copula函数C(·,·)的具体形式多样,其中阿基米德Copula函数是最为常用的一类,即

式中ф(·)———阿基米德Copula函数的生成元

(generator),满足ф+ф(v)≤ф(0),且有ф(1)=0,ф'(·)<0,ф″(·)>0,即生成元ф(·)是一个凸的减函数;

ф-1(·)———生成元ф(·)的逆函数,在[0,∞)区间完全单调。

阿基米德Copula函数由其生成元唯一确定,其分布函数和密度函数分别为

式中u、v———意义同前;

τ为Kendall秩相关系数:

式中Cn2———组合数,n是变量的样本长度;

xi、xj、yi、yj———样本取值,当(xi-xj)(yi-yj)>0时sign=1,当(xi-xj)(yi-yj)<0时sign=-1,当(xi-xj)(yi-yj)=0时sign=0。

检验Copula函数是否能够正确刻画变量的联合分布,可以通过经验相关函数和Copula函数的曲线拟合情况进行判断[8]。经验相关函数Cemp(·,·)是直观反映样本空间分布特点的函数,表达式为

一般采用离差平方和准则(OLS)对拟合情况进行量化评价,OLS值越小拟合越好:

式中Cemp,i、Cc1,i———在曲线拟合图中经验相关函数和Copula函数的对应取值。

1.2 Copula预测方法基本思路

假定随机变量X为自变量,随机变量Y为因变量,Copula预测方法的基本思路如下:首先,运用Copula函数对随机变量X和Y的边缘分布函数进行连接,构建随机变量X和Y的联合分布函数;其次,在己知t+1时变量X的实测值或估计值xt+1条件下,基于Copula函数建立变量Y的边缘分布和联合分布的联系,结合相关分析建立变量Y的边缘分布与联合分布的关系表达达式式;;最最后后,,根根据据关关系系式式对对变变量量YY的的tt++11时时值值yyii++11进进行预测。

1.3 Copula预测方法的步骤

a.根据初始样本组分别确定变量X和Y的边缘分布函数u=F(x)和v=G(y)。

b.由式(4)和式(6)计算出Clayton Copula函数,即构造变量X和Y的联合分布函数Cc1=H(x,y)=Cc1(F(x),G(y)),并由式(5)计算联合密度函数Cc1(F(x),G(y))。

c.已知变量X在t+1时的样本值xt+1,则相应的边缘分布概率为F(xt+1),将F(xt+1)代入式(4),可得

d.将a和b中计算得到的数对进行多项式拟合,得到Cc1和v的近似关系式:

式中a1、a2、…、am+1———多项式系数,m取值视拟合情况而定。

式(10)从另一角度表示Y的边缘分布与X和Y的联合分布之间的联系。

e.联立式(9)和式(10),求解得到v*,则变量Y在t+1时的预测值为

式中G-1(·)———边缘分布函数G(·)的逆函数。

2 模型应用

开都河位于新疆焉耆盆地内,河流发源于天山中部的依连哈比尔尕山南坡,多年平均径流量为35.18亿m3。河流出山口处至下游分别设有大山口水文站与焉耆水文站。本文根据大山口水文站(出山口处)与焉耆水文站(下游)1956—2012年的年径流资料(见图1、图2),令大山口水文站年径流为自变量X、焉耆水文站年径流为因变量Y,以预测2006—2012年焉耆水文站年径流yt+1为例介绍模型的应用。选取1956—2005年径流资料为建模样本(n=50),2006—2012年径流资料为预测样本(n=7)。

采用P-Ⅲ型分布描述变量X与Y的概率分布[9,10],由矩法估计得到变量X的均值、变差系数Cv及偏态系数Cs分别为35.27亿m3、0.178与0.373;同理,得到变量Y的均值、变差系数Cv及偏态系数Cs分别为25.37亿m3、0.265与0.615。根据Clayton Copula函数构造变量X和Y的联合分布函数H(x,y)=Ccl(F(x),G(y)),其中Kendall秩τ=0.757、参数θ=14.122。

通过对Clayton Copula函数与经验相关函数拟合,得到模型OLS值为0.045,可见计算分布与经验点据拟合较好,说明基于Copula函数构建联合分布的方法是可行和可靠的。

已知2006年开都河大山口水文站年径流量xt+1为40.3亿m3,其分布概率F(xt+1)=0.823,带入式(9)可得:

根据式(10),将数对进行线性拟合,得

联立求解式(12)和式(13),得v*=0.833。由式(11)和P-Ⅲ型分布G(y)的逆函数得

式中Cs≠0时,

;Cs=0时,Φp=norminv(v*,0,1);其中gaminv表示伽马分布累积函数的逆函数,norminv表示正态分布累积函数的逆函数。

由式(14)最终得到焉耆水文站2006年的年径流预测值。同理以1956—2006年径流资料为建模样本对2007年焉耆水文站年径流进行预测。依此类推,逐一预测焉耆水文站2008—2012年的年径流,结果见下表。

为对比分析,分别采用线性回归模型、径向基函数神经网络(RBFNN)模型预测焉耆水文站2006—2012年径流量。

线性回归模型是通过建立回归方程式Y=a+b X,由X预测Y。根据1956—2005年开都河大山口水文站和焉耆水文站的年径流资料可求得a=-4.4378,b=0.8652,据此由大山口水文站2006—2012年径流量可计算得焉耆水文站同期年径流量,成果见上表。

RBFNN是以高斯函数为隐层节点激励函数的一种三层前馈人工神经网络[11]。大山口水文站、焉耆水文站的年径流分别为变量X和Y,以两变量1956—2005年径流系列为学习样本,对模型进行训练,由最近邻聚类学习算法完成迭代,确定高斯函数的均方差、隐层节点数以及各隐层节点到输出节点的权重。在此基础上,输入X变量(2006—2012年的径流量),对Y变量同期值进行预测,成果见上表。

计算各模型的平均相对误差和合格率(以相对误差小于20%作为合格),统计各模型最大相对误差(见上表)。相比之下,Copula预测方法预测精度更高更稳定。线性回归模型原理简单、计算便捷,但由于仅为线性拟合,不能深入分析变量间的相关关系,故应用有较大局限,这也是导致该模型在本实例分析中预测误差偏大的原因。而RBFNN模型具有运算速度快、能有效避免局部极小值出现等优点,但模型本身更适用于多影响因子的预测,故对单因子的情况而言尚有一定局限。

3 结语

Copula函数将联合分布的构建分为确定边缘分布和分析相关性结构两部分,能够有力地捕捉变量间的非线性、非对称以及尾部相关关系,更加充分地利用已有信息,分析结果实用,是一种有效的构造联合分布函数、研究变量相关关系的方法。

径流预测 篇3

径流量预测是水文系统分析的重要内容。径流量复杂多变,且处于动态变化中,每年差异很大,基于经验的传统预测方法已无法满足客观现实需求,由定量分析的数学预测模型是未来径流量预测发展的方向。常用的径流量预测模型很多,其中运用模糊聚类的方法对径流预测,可以克服径流影响因素不稳定条件下的应用范围[1]。这正是本文工作的出发点。常见的模糊聚类模型对径流预测应用有:利用模糊聚类对不同时间分布类型的降雨序列进行分析,可研究人类活动对径流变化趋势的影响[2];在运用交叉组合预测模型中,利用模糊聚类与小波神经网络相结合的方式可对径流预测[3],也可将径流预报因子进行小波分解后代入模糊聚类的方式,构建类别变量特征值与径流预测之间的回归方程来进行预测[4];又可在模糊聚类循环迭代模型的基础上结合离散函数曲线的方法确定最佳聚类数,从而对流域年径流规律进行研究[5];面对自变量较多的数据时,利用聚类分析递阶结合偏最小二乘回归来建立线性模型,对径流量的拟合能力更强[6]。

本文在可变模糊ISODATA预测模型的基础上,引入最佳模糊集划分理论,通过构造拉格朗日约束函数确定最佳聚类数。通过对变系数模型参数滤定和年径流量数值模拟,求取满足精度要求的类别变量特征值与预测对象之间的线性回归方程,并对年径流量进行预报。并以沱沱河站年径流量为例进行预测分析,结果表明该模型较以往传统模糊ISODA-TA预测模型具有更高的预测精度。

1 预报因子最佳模糊集划分

1.1 最佳模糊集划分理论分析

径流量预测模型的对象是气温、降水、流量组成的复杂系统,因此对径流预测是多准则、多层次的综合预测问题,具有一定的不确定性和模糊性,选用模糊数学模糊聚类的方法对年径流量预测具有一定的合理性。

由于影响因素对径流变化的敏感度较高。因此,对年平均相对湿度、年降雨量、年平均气温、年日照时数和年蒸发量五项观测数据在时间尺度上进行模糊聚类,即表示样本属于各个类别的不确定性的模糊程度,建立样本对于类别的不确定性的描述,能客观地反映五项影响因素对径流量的作用[7]。在聚类模型中直接引入聚类指标的权重,建立模糊聚类循环迭代模型,在没有确定指标标准的样本分类情况下,克服模糊评价和模糊识别模型中只能应用有评价标准识别的局限。

1.2 最佳聚类数求解步骤

①待聚类的m个样本,用n个指标特征值向量对其进行聚类,则待聚类的样本可用m×n阶指标特征值矩阵表示为:

其中,aij为聚类样本j指标i的特征值,即

②由于m个聚类指标特征值量纲不同,在进行聚类时要先消除量纲的影响,对指标特征值进行规范化。在模糊聚类中通常有三类指标:

越大越优效益型指标:

中间适度型:

,其中

越小越优成本型指标:

将矩阵A规范化,得到相对隶属度矩阵:

③设样本n依据m个指标特征值按照c个类别进行聚类,其模糊聚类矩阵为:

满足约束条件:。其中,uhj为样本j隶属于类别h的相对隶属度;h=1,2,…,c,j=1,2,…,n。

④类别h的m个指标特征值为h类的聚类中心,则c个类别的聚类中心可用m×c阶聚类中心矩阵表示为:

其中,sih为类别h指标i的聚类中心规范化数;0≤sih≤1,i=1,2,…,m,h=1,2,…,c。

⑤考虑不同指标对聚类的影响不同,引入初始指标权重向量:w=(w1,w2,…,wm),满足:,0≤wi≤1。初始指标权重由历年径流实测样本与变量之间相关系数的绝对值归一化来确定:

⑥样本j与类别h之间的差异用广义指标欧式权距离表示为:

⑦样本j隶属于类别h的相对隶属度为uhj,则加权广义欧式距离:

⑧样本j与c个类别的差异综合权衡度量为:

样本与c个类别的差异综合权衡度量为:

其中,α为优化准则参数,p为距离参数。

⑨建立目标函数

构造拉格朗日函数:

满足约束条件

本文首先假设类别数是逐渐增加的,目标函数F是随着类别数的增加而逐步递减,当样本集表现出个很集中的类别时(即最佳聚类个数),目标函数F从1类到类而迅速减少,当聚类数再继续增加时,就是对原本较模糊的群再分开,此时,目标函数F继续减少,但速度非常缓慢,直至C=n(n为样本数),目标函数最小,即F=0。做一条F-C曲线。可变模糊循环迭代分别计算聚类数C从1类到n(n为样本数)。作出F-C关系曲线,若F-C曲线存在拐点,其拐点对应的类别即最佳聚类数。

2 可变模糊ISODATA模型构建

2.1 可变模糊ISODATA模型

可变模糊集理论认为模糊集之间存在相对可变,将可拓集合考虑到模糊迭代中,构造出可变模糊聚类循环迭代模型[8,9,10]。

①可变模糊聚类循环迭代模型变为如下形式:

②通过参数p与α取值的不同组合,公式(5)-(7)组成一个可变的模糊聚类循环迭代模型。设置4种预测模型,如表1所示。

相对于每一个组合可以有不同的迭代结果,通过这些结果的对比可以对模型的稳定性进行评估。

2.2 模型求解步骤

①构造F-C曲线确定最佳聚类数c及给定迭代计算精度ε1、ε2、ε3。

②设初始权重矩阵W(0)=(wi(0))、初始模糊聚类矩阵U(0)=(uh(j0))、初始模糊聚类中心矩阵S(0)=(s(0)ih)。

③将不同参数组合代入公式(7)-(9)运用梯度下降迭代算法分别计算w(l+1)i、u(l+1)hj、s(l+1)ih。

④如果满足对i,j,h≥0,满足:

则迭代结束,输出结果(w(l+1)i)(c)、(u(l+1)hj)(c)、(s(l+1)ih)(c)分别为最优指标权重矩阵W*(c)、最优模糊聚类矩阵U*(c)、最优模糊聚类中心矩阵S*(c),否则令l+1=l,转入步骤③继续迭代。其中c为最佳聚类数,分别对应相应的模型。

⑤计算级别特征值H(k):

其中,H(k)分别对应四种模型的级别特征向量。

⑥构造回归方程:

其中,δy、分别为Y、Hk的均方差

⑦实测样本数据对变系数回归方程进行参数滤定,即对四种模型进行选择。

⑧最后样本实测数据对模拟值进行精度评价。

3 沱沱河站年径流量预测实证分析

3.1 研究区概况

沱沱河被认为是长江源头,发源于青海与西藏边境唐古拉山脉主峰格拉丹东西南侧姜根迪如冰川,冰川海拔5500米。约30条冰川融水交汇后,形成了沱沱河。沱沱河全长358km,流域总面积1.7万km2,流域深居青藏高原腹地,雪线高达5800米,属于高空西风带控制区,气候干寒,多风少雨,天气多变,终年低温。沱沱河流域处于西风带内,沱沱河出唐古拉山区姜根迪如冰川发源后首先向北流,并汇聚其它冰川小溪,在上流处山地里形成一些相当深的河谷,截开祖尔肯乌拉山较低的山岗,流至囊极巴陇附近,部分地方可以达20米深。在葫芦湖附近开始转向东,这一段大约有130千米长,在沱沱河终点已形成深3m,宽20m~60m的大河。青海省沱沱河气象站位于海拔4700多米的唐古拉山麓,是世界上海拔最高的气象观测站。年均降水量283.1mm,年均径流深51.9mm,年均气温-3.2℃~-4.8℃。径流补给来源以大气降水和冰雪融水为主,径流年内分布不均匀。

3.2 数据来源

沱沱河水文站研究资料选取1978-2001年度,根据可变模糊循环迭代理论所必要的数据量,并考虑预测识别模型的需要,将前15个年度数据用于确定模型循环迭代最佳聚类数,后6个年度数据用于模型参数识别检验,最后3个年度数据用于误差精度评价。则预报因子分别为:1978-1992年度15a用于确定模型循环迭代最佳聚类数,各年降水量x1,年平均气温x2,年平均相对湿度x3,年相对日照时数x4,年蒸发量x5。y为1978-1992年15a逐年径流量,选取1993-1998年6a资料用于建立预测模型,1999-2001年3a资料用于检验预测模型精度。各指标实测数据如表2所示。

注:数据节选沱沱河站1958-2001年实地调查资料

3.3 最佳聚类数确定

根据公式(3),计算各预报因子的相关系数:ρ1=0.79,ρ2=0.87,ρ3=0.23,ρ4=0.71,ρ5=0.79。由表2可得预报因子的指标特征矩阵A=(aij)15×5,对于五个指标的权重确定,根据公式(4)结合因子相关度确定初始指标权重W(0)=(0.14,0.16,0.02,0.12,0.01),用公式(5)-(6)对四种模型初始模糊指标权重矩阵w,初始模糊聚类矩阵u,初始模糊聚类中心矩阵s进行循环迭代,收敛精度均设定为εi=0.0001,(i=1,2,3),聚类数从1类到9类,运用拉格朗日约束函数的方法,借助MATLAB计算最佳聚类数实现上述算法,进行最佳聚类数分析,得出结果如表3所示。由图1可以分析得出类别数为c=4时,其位于拐点左右,类别数4应该为最佳聚类数,故根据五个预报因子,对1978-1992年15a资料的沱沱河站预报因子在时间尺度上的划分为4个类别。

3.4 模型预测结果及分析

由公式(1),进行规范化处理,确定得相对隶属度矩阵R,根据公式(2),指标特征值归一化矩阵,得指标特征值归一化矩阵U*

运用公式(7)~(9)确定四种模型最优模糊矩阵W,最优模糊聚类矩阵U,最优模糊聚类中心矩阵S。结合公式(10)得到变系数四种模型级别特征值向量:

H1=(8.325,9.329,8.467,14.831,16.973,17.235)

H2=(15.346,18.378,36.433,28.467,35.378,39.047)

H3=(32.436,40.356,41.842,37.830,31.605,46.930)

H4=(12.213,9.024,11.324,12.486,10.346,19.401)

由级别特征值向量,运用公式(11)构造四种参数条件下类别变量特征值与年径流量之间线性回归方程,将沱沱河站1993-1998年6a的径流量实测数据与各回归方程计算数值拟合效果对比,进而对预测模型进行识别选择。并以均方误差MSE、平均相对误差绝对值MPE以及最大相对误差作为衡量模型精度的评价指标,其值越小,预测模型描述样本数据则越精确。如表4所示。

由表3可看出,四种模型的拟合效果有明显的差别,可见针对沱沱河径流量预测选择可变模糊ISODATA模型选择模型4拟合效果最好,即可变系数α=2,p=2。结合模型4(2-2)的样本特征值和级别特征值的相关系数ρ4*=0.880,满足要求。即构造符合相关性要求的回归方程:

利用上述参数滤定后的变系数模糊ISODATA模型2(2-2)以及传统模糊ISODATA模型,对沱沱河站进行年径流量预测,结果如表5所示。

分析表5可以得到以下结论:

①从整体MSE和MPE、最大相对误差、预测精度和拟合精度上看,可变模糊ISODATA模型(2-2)精度均高于模糊ISODATA模型。可见,可变模糊ISODATA模型是提高预测精度的有效方法。基于模型4(2-2)的沱沱河站年径流量预测结果更趋稳定,结果显示1999-2001年3a的年径流量预测的误差率均低于10%。依据《水文预报规范SL250-2000》评定标准[11],径流预报以实测值的20%作为许可误差,在预测可接受范围内。

②可变模糊ISODATA预测模型在确定最佳聚类数后,通过调整参数少,不易陷入局部极值等优点,可以快速预测,具有较大的计算优势。改进后的可变模糊ISODATA模型预测精度较高,难点是如何确定最佳聚类数和各类参数,本文的可变模糊ISO-DATA模型所确定的结构和参数理论上仅仅是较佳,而非最佳。

4 结束语

本文将可变模糊ISODATA模型与最佳模糊集划分理论相结合,提出了两者有机结合的预测模型。其显著特点是利用最佳模糊集划分理论,通过拉格朗日约束函数确定可变系数的模糊ISODATA模型最佳聚类数。在对变系数模型参数滤定和年径流量数值模拟后,求取符合精度要求的类别变量特征值与预测对象之间的回归方程进行预测。整个模型原理简单,有效地融合了影响年径流量变化因素,具有计算快捷和实用价值,也是对可变模糊ISODATA预测模型的进一步发展。最后以沱沱河站为例进行了验证,计算结果表明该模型预测结果较传统ISODA-TA预测模型准确率高,对短期内的年径流量预测有一定参考价值。

参考文献

[1]刘利平,陈健,张礼平.应用模糊聚类方法制作韩江洪水预测[J].水文,2006,26(1):60-62.

[2]李慧赟,等.基于模糊聚类的丰满上游流域降雨径流变化趋势分析[J].水文,2009,29(3):28-31.

[3]徐谨,等.模糊聚类分析的小波神经网络模型在径流预测中的应用[J].数学的时间与认识,2012,42(18):88-95.

[4]彭勇,王国利.小波、模糊与统计相关结合的径流预测方法研究[J].南水北调与水利科技,2011,9(4):47-50.

[5]李亚伟,等.模糊聚类在流域年径流规律研究中的应用[J].水资源与水工程学报,2005,16(1):28-30.

[6]周鑫,印凡成.基于新偏最小二乘回归法的系列水文资料分析[J].人民长江,2010,41(9):95-97.

[7]孔令燕,夏乐天.混合型模糊聚类分析在洪水分类中的应用[J].人民黄河,2011,1(1):31-34.

[8]陈守煜.可变模糊集理论的哲学基础[J].大连理工大学学报:社会科学版,2005,26(1):53-57.

[9]陈守煜.可变模糊集理论与可变模型集[J].数学的实践与认识,2008,38(18):146-153.

[10]陈守煜.可变模糊聚类迭代模型合理性分析与应用检验[J].大连理工大学学报,2009,49(6):932-936.

LS-SVM在径流预测中的应用 篇4

受气象因素、自然地理因素、流域特性因素等多因素的综合影响,径流的变化具有随机性、模糊性、灰色性等多种不确定性,是一个复杂的高度非线性系统。目前国内外常用的径流预测方法可大致分为成因分析方法和统计方法,这些方法从总体上说都是成功的,但模拟精度大都不高。随着系统科学、人工智能等学科的发展,神经网络等智能方法被引入到水科学中,并且取得了很大的进展。但是神经网络建模时也存在较多不足:训练速度慢,训练过程中易陷入局部极值点,训练样本需求量大,隐层数不易确定,易产生过学习问题等。

支持向量机(Support Vector Machines,简称SVM)是近年来发展的一种全新的机器学习算法,它根据Vapnick的结构风险最小化原则,尽量提高学习机的泛化能力,不过份地依赖样本的数量和质量,由有限的训练样本集得到最小的误差,比基于经验风险最小化原则的神经网络理论具有更坚实的理论依据和更强的泛化性能[1]。SVM的学习算法是一个二次优化问题,能保证找到的解是全局最优解,较好地解决了小样本、非线性、高维数等实际问题。最小二乘支持向量机(Least Square SVM,简称LS-SVM)是标准SVM的一种改进算法,它采用等式约束代替标准SVM的不等式约束,将二次规划问题转化为线性方程组求解,有效地降低了计算的复杂性,加快了求解速度,增强了抗干扰能力,在模式识别和非线性预测方面取得了较好的应用效果[3,4,5]。本文尝试将LS-SVM的回归算法应用到径流预测中,经过检验,LS-SVM算法的预测精度较高,模型可靠。

1 模型原理

1.1 支持向量机(SVM)[6]

目前SVM算法常用于分类及回归分析,本文主要利用了后者。已知训练样本为(xi,yi)(i=1,2,…,k),xiRn,yiR;xin维系统输入向量,yi为相应的输出值。假设所有训练样本都可以在精度ε下用函数f(x)=<w,ϕ(x)>+b拟合;<,>表示内积函数,ϕ(·)为从原空间Rn到高维特征空间的非线性映射,w为权值向量,b为偏置。根据Vapnick结构风险最小化原理,利用SVM预测的关键就是寻找适当的f(x),使式(1)中的结构风险R最小。考虑到存在拟合误差,引入松弛因子ξi≥0,ξ*i≥0,则:

minR=12w2+Ci=1k(ξi+ξi*)s.t.{yi-<w,ϕ(xi)>-bε+ξi<w,ϕ(xi)>+b-yiε+ξi*ξi0ξi*0(1)

式中:Ci=1k(ξi+ξi*)为经验风险;12w2为正规化部分;C为调节常数,它能够在训练误差和模型复杂度之间取一个折中以便使所求的函数具有较好的泛化能力,通常称为正规化参数。

利用对偶原理和Lagrange乘子法即可得上述优化问题的对偶形式:

maxW=-12i,j=1k(ai+ai*)(aj+aj*)<ϕ(xi),ϕ(xj)>-εi=1k(ai+ai*)+i,j=1kyi(ai-ai*)s.t.{i=1k(ai-ai*)=00ai,ai*Ci=1,2,,k(2)

式中:ai(i=1,2,…,k)为Lagrange乘子,(ai-a*i)不为零时对应的训练样本就是支持向量。

解上述二次规划问题,可求得标准SVM拟合函数:

f(x)=<w,ϕ(x)>+b=i=1k(ai-ai*)<ϕ(xi),ϕ(x)>+b(3)

1.2 最小二乘支持向量机(LS-SVM)

Suykens J A K于1999年提出了一种新型支持向量机-最小二乘支持向量机(LS-SVM)[7]。LS-SVM是标准SVM的一种扩展,LS-SVM利用结构风险原则时,在优化目标中选取了不同的损失函数,即误差ξi(松弛因子)的二次项,把不等式约束变为了等式约束,这使得LS-SVM的优化问题为:

minR=12w2+12Ci=1kξi2styi-<w,ϕ(xi)>-b=ξi(4)

a=[a1,a2,…,ak]T,通过(4)式的对偶形式,建立Lagrange函数:

L(w,ξ,a,b)=12w2+12Ci=1kξi2-i=1kai[<w,ϕ(xi)>+b+ξi-yi](5)

为求出参数ab的最优解,由库恩-塔克(KKT)条件建立如下方程:

{Lw=0w=i=1kaiϕ(xi)Lξ=0ai=CξiLa=0<w,ϕ(xi)>+b+ξi-yi=0Lb=0i=1kai=0(6)

消去(6)式中的wξ,方程转化为:

[0EΤEΩ+C-1Ι][ba]=[0y](7)

式中:y=[y1,y2,…,yk]T,E=[1,…,1]T,Ω为一个方阵,其第i行第j列元素Ωij=<ϕ(xi)·ϕ(xj)>。最优的参数ab通过上式便可解出。

考虑到高维空间的“维数灾”和非线性映射ϕ(·)的具体形式未知等问题,在LS-SVM的求解过程中,用原输入空间的一个核函数代替了内积函数,即K(xi,x)=<ϕ(xi) ϕ(x)>,最终得到LS-SVM拟合函数为:

f(x)=i=1kaiΚ(x,xi)+b(8)

核函数K(xi,x)是满足Mercer条件的任意对称函数,常见的核函数有线性函数K(xi,x)=xix,多项式函数K(xi,x)=(xix+1)d和径向基函数K(xi,x)=exp(-‖x-xi‖2/σ2)。

2 基于LS-SVM径流预测模型的构建

假设有k组模型训练样本数据(xi,yi)(i=1,2,…,k),xiRn为影响径流量的n个预测因子,yiR表示实测径流量。具体的建模步骤为:

(1)构建模型训练样本集(xi,yi)。

(2)选择适当的核函数及参数,用LS-SVM回归算法对样本集进行训练,求得(7)式相应线性方程组中的ab,建立相应的LS-SVM预测模型。

(3)把预测样本的xi及影响径流量的n个预测因子,输入到已经构建好的预测模型中,输出yi,即预测出的径流量。

(4)选择一定的误差评价指标对预测结果进行分析评价,如yi不满足精度要求,转到步骤(2)重新进行训练,直到满足要求为止。

3 实例分析

本文采用文献[2]中新疆伊犁河雅马渡站23年实测年径流及其相应的4个预测因子资料,预测因子x1为前1年11月至当年3月伊犁气象站的总降雨量,预测因子x2为前1年8月欧亚地区月平均纬向环流指数,预测因子x3为前1年5月欧亚地区月平均经向环流指数,预测因子x4为前1年6月2 800 MHz太阳射电流量。取前17年实测资料作为模型训练样本,建立基于LS-SVM的径流预测模型,后6年资料作为预测检验样本。

3.1 核函数及参数的选择

在样本训练中,采用不同的核函数进行训练预测试验,并以平均相对误差MAPE作为精度评价指标,结果如图1~4。平均相对误差MAPE的计算公式为:

ΜAΡE=1ni=1n|yif-yimyif|×100%(9)

式中:yif为模型预测值;yim为实际值;n为样本数量。

由图1可以看出,采用线性函数作为核函数时,随着正规化参数C的变化,平均相对误差基本保持在10.5%左右。当采用多项式核函数时,影响参数有Cd,其中参数C的变化对预测精度的影响不大。由图2可以看出,当固定C=200时,核参数d的取值对预测精度的影响较大,预测的最小平均相对误差为10.4%。而采用径向基核函数时,从图3和图4可以看出,预测的最小平均相对误差仅为8.5%,精度高于线性核函数和多项式核函数。因此本文在建立预测模型时,选用径向基核函数exp(-‖x-xi‖2/σ2)。

在采用径向基核函数的预测模型中,正规化参数C和核参数σ2的选择对算法性能有很大影响。本文利用交叉验证方法先确定出最优参数的大概范围,然后进行试算,最终确定采用(C,σ2)=(200,2.25)作为模型参数。从图3可以看出当固定σ2=2.25时,参数C的变化对预测精度影响较小,在C=100~350的范围内均有较高的精度;当固定C=200时,σ2的变化对预测精度的影响比较显著。

3.2 预测成果分析

根据已经确定的LS-SVM径流预测模型,对文献[2]中后6年的年径流量进行预测,一次预测的相对误差小于20%时,认为该次预测合格,合格预测次数与预测总次数之比为检验合格率,成果如表1所示。为验证LS-SVM模型预测的可靠性和精度,表1同时列出了文献[2]中用同样资料建立的支持向量机(SVM)模型的预测效果。

由表1可知,LS-SVM模型预测的合格率、平均相对误差与最大相对误差均优于SVM模型。选定参数后,在CPU为Pentium 4,内存为256 M的电脑上进行本次样本的训练预测,所需时间仅为0.1 s。可见,LS-SVM算法运算简单,求解速度较快,预测精度较高,将其用于径流预测是合理可行的。

4 结 语

本文研究了LS-SVM算法在径流预测中的应用。利用文献[2]中新疆伊犁河雅马渡站的资料,分析了采用不同核函数对预测精度的影响,并利用交叉验证的方法进行LS-SVM相关参数的选取,预测结果精度较高。

研究表明,LS-SVM算法能够比较准确地描述径流影响因素和径流量之间的非线性关系,同时又具有较快的训练预测速度和较强的泛化能力,适用于小样本情况并能得到全局最优解,为径流预测提供了一个新的途径,在水文水资源系统中的应用具有良好的前景。在今后的研究中,可以进一步分析各种因素对径流量的影响,建立更精确的预测模型。

参考文献

[1]Vapnik V N.统计学习理论的本质[M].张学工译.北京:清华大学出版社,2000.

[2]廖杰,王文圣,李跃清,等.支持向量机及其在径流预测中的应用[J].四川大学学报(工程科学版),2006,(6):24-28.

[3]吴德会,虞耀君.基于LS-SVM的小水电站年发电量智能预测模型[J].中国农村水利水电,2007,(2):93-95.

[4]贾嵘,蔡振华,康睿.基于最小二乘支持向量机的系统边际电价预测[J].高电压技术,2006,32(11):145-148.

[5]宋志宇,李俊杰.最小二乘支持向量机在大坝变形预测中的应用[J].水电能源科学,2006,24(6):49-52.

[6]张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42.

径流预测 篇5

1 年径流预测的G-SPA模型

1. 1 模型原理

集对分析( SPA) 是一种新的不确定性分析途径[7],其基础是集对。集对由存在一定联系的一对集合构成,其中一个集合用A表示,另一个集合用B表示,则集对可表示为H( A,B) 。集对也可以用几何形式表示[8]: 一个向量表示集合A,另一个向量表示集合B,则下图( 以二维向量为例) 表示一个集对H,这样就可以从向量角度来研究集合之间的相似性,以几何形式表示集对的集对分析就是G-SPA模型。用G-SPA模型进行径流预测时,首先需要确定A与B之间的相似性指标,然后用这些指标构成对应集合的指标集合A'、B',即把集合A'、B' 作为一个集对进行处理,用联系度表达式来描述:

式中,N为指标集合的元素总数; S为指标集合中处于同一状态的元素个数; P为指标集合中处于对立状态的元素个数; F为指标集合中处于差异状态的元素个数; i为差异性系数,在( - 1,1) 区间取值,或者作为差异性标志符号; j为对立性系数,在计算中j = - 1,或者作为对立性标志符号。

令a = S/N,b = F/N,c = P/N,则式( 1) 可简化为

式中,a表示两指标集合的同一性程度,称为同一度; b表示两指标集合的差异性程度,称为差异度; c表示两指标集合的对立性,称为对立度; a + b + c = 1。可以通过联系度的大小来确定指标集合的相似性,进而确定对应径流集合的相似性,之后根据相似性对年径流进行预测。

1. 2 模型集合构造

G-SPA预测模型的理念是依据历史径流状态预测未来的径流状态[9]。已知时间序列( xt) ( t = m + 1,m +2,…,n + 1) 与前m个相邻历史值( x1,x2,…,xm)存在相依性; 将时间序列滑动生成容量为m的集合,可将其看作m维向量,并将这些集合记为( A1,A2,…,An - m) ,称为历史集合; 确定评价相似性的k个指标,这些指标组成新的集合,记为( A'1,A'2,…,A'n - m) ,称为指标集合。每个历史集合Ap( p = 1,2,…,n - m) 对应着一个xp + m,称xp + m为后续值[10],同时也对应着一个指标集合A'p,也即历史集合Ap、后续值xp + m、指标集合A'p三者是一一对应的。若要对某一后续值进行预测,则需要构造其当前集合B = ( xn - m +1,xn - m +2,…,xn) 以及其指标集合B',然后在( A1',A2',…,A'n-m) 中寻找与B' 最相似的集合A'1。A'1的后续值x1 + m即为xn +1的预测值。

1. 3 模型关键技术

G-SPA模型的核心是如何在历史集合中确定B的相似集合。相似性选择有两个关键: 一是相似性指标的选取,二是如何将这些指标进行量化。对于相似性指标的选择,笔者从年径流变化特性考虑两个集合的相似性,从而确定以下相似性指标:向量之间的夹角;向量之间的相关系数;向量之间的欧氏距离;向量的模。前两个指标的物理意义是径流变化的趋势是否相似,后两个指标的物理意义是径流大小是否相似。由于指标的量化并没有相应的标准,因此对量化标准系数进行率定后再使用。

1. 4 模型计算步骤

a. 已知年径流序列( x1,x2,…,xm) ,构造历史集合、指标集合、当前集合及其对应的后续值。考虑到年径流序列的弱相依性,m值一般选4 ~ 6。

b. 将指标集合按均值离差法划分为三级,对于落入一、二、三级标准区间的元素,分别记为“Ⅰ”“Ⅱ”“Ⅲ”。

c. 对量化后的当前指标集合与历史指标集合进行同一性、差异性、对立性分析,确定其联系数,按联系数最大原则确定最相似集合,将其后续值或后续值的加权值作为预测值。

d. 不断调整各集合量化标准系数,重复步骤b、c,求出不同标准下的平均相对误差,将平均相对误差最小时对应的量化标准系数作为率定后的量化标准系数。

e. 用上述率定后的量化标准系数,按步骤a ~ c应用于检验阶段的径流预测,得到预测值。

2 模型应用

黄水沟位于新疆和静县境内,为雨雪混合型河流。河流出山口( 黄水沟水文站) 以上流域面积4311km2,多年平均径流量2. 87 亿m3( 1956—2013 年系列) 。黄水沟是和静县经济社会发展的主要水源,也是下游博斯腾湖重要补给源,对区域经济社会发展和生态环境起着不可忽视的作用。本文取弱相依性系数m为5,以1956—2005 年的径流量资料率定量化标准系数,以2006—2013 年为径流预测检验阶段。为了更全面地利用资料信息,量化标准系数的率定阶段和检验阶段均采用实时校正的方式进行计算。

指标集合的4 个指标分别为:向量之间的夹角,指各历史集合向量A与当前集合向量B之间的夹角;向量之间的相关系数,指各历史集合向量A与当前集合向量B之间的相关系数;向量之间的欧氏距离,指各历史集合向量A与当前集合向量B之间的欧氏距离;向量的模,指各历史集合向量A的模和当前集合向量B的模。对指标集合进行符号量化处理。计算指标集合第j0个指标的平均值、平均绝对离差dj0,对径流指标集合进行量化( 本文取a ∈[0. 1,1]、步长为0. 01 进行循环试算) ,将集合的元素分为 Ⅰ、Ⅱ、Ⅲ 三类。平均值及平均绝对离差dj0的计算公式分别为

式中,i0———历史集合与当前集合的集合数之和。

得出率定后的量化标准系数a'为0. 488,以a' =0. 488 为量化标准系数对2006—2013 年的年均流量进行预测,预测值与实测值的对比见表1,其平均相对误差为7. 42% ,e( e为各年份年径流预测相对误差的绝对值) < 10% 的合格率为75% ,e < 20% 的合格率为100% 。从表1 和表2 可以看出,误差较大的年份为2011 年、2013 年,原因是这两年的径流量较小,处于历史序列的低值边缘; G-SPA模型的预测结果优于GRNN神经网络模型和AR( 2) 模型的计算结果。

3 结语

本文提出了以几何形式表示集对的G-SPA年径流预测模型,从径流大小和变化趋势两方面考虑,建立了向量之间的夹角、向量之间的相关系数、向量之间的欧氏距离、向量的模4 个评价径流集合相似性的指标。实例分析结果表明G-SPA模型有较好的预测精度、实用性及合理性。今后可进一步研究各指标对相似性影响的权重问题,以提高预测精度。需要指出的是,该模型没有考虑影响径流的外在因素,难以预测未来出现的超出历史径流资料范围的径流。

参考文献

[1]赵克勤.集对分析及其初步应用[M].杭州:浙江科技出版社,2000.

[2]王红芳,黄伟军,王文圣.集对分析法在长江寸滩站年径流预测中的应用[J].黑龙江水专学报,2006,33(4):3-5.

[3]欧源,张琼,王文圣.基于秩次集对分析的年径流预测模型[J].人民长江,2009,40(3):63-65.

[4]王延亭,王建群,张玉杰,等.基于加权秩次集对分析法的年径流预报模型[J].水电能源科学,2012,30(3):17-19.

[5]王强,赵军.近50年气候变化对托什干河径流产生的影响[J].水利建设与管理,2007(4):73-75,72.

[6]努尔买买提·居买.和田河源流地表径流特征分析[J].水资源开发与管理,2015(3):29-33,25.

[7]卢敏,张展羽,石月珍.集对分析法在水安全评价中的应用研究[J].河海大学学报(自然科学版),2006,34(5):505-508.

[8]王红芳,丁晶,王文圣.集对分析在频率曲线拟合度定量评价中的应用[J].水利水电技术,2007,38(4):1-3.

[9]覃光华,宋克超,周泽江.基于WA-GRNN模型的年径流预测[J].四川大学学报(工程科学版),2013,45(6):39-46.

径流预测 篇6

1 模型理论介绍

1.1 L?M算法与UGO算法的1stOpt曲线拟合

L-M算法是一种利用数值优化技术的快速算法, 它是梯度下降法与高斯牛顿法的结合, 是高斯牛顿法的改进形式。它既有高斯牛顿法的局部收敛性, 又具有梯度下降法的全局特性, 主要用于误差平方和最小化方面的计算[4]。以下对L-M算法简要说明[5]。

设wk是k次迭代的权值和阈值所组成的向量, 则新的权值和阈值所组成的向量为wk+1=wk+Δw。L-M算法中权值增量Δw计算公式如下:

式中:I为单位矩阵;J (w) 是Jacobian行列式, 如式 (2) 所示:

L-M算法过程描述如下:

(1) 给出训练误差值ε, 常数μ0和β (0<β<1) 并且初始化权值和阈值, 令k=0, μ=μ0。

(2) 计算网络输出误差值及误差指标函数E (wk) ;

(3) 计算Jacobian矩阵J (wk) ;

(4) 计算Δw;

(5) 若E (wk) <ε, 转到 (7) ;

(6) 以wk+1=wk+Δw为权值和阈值向量计算误差指标函数E (wk+1) , 若E (wk+1)

(7) 算法结束。

虽然L-M算法与以往优化迭代算法相比已经有了很大的改进, 但是在求解问题时还会陷入局部最优值, 基于此, 1stOpt软件在进行非线性曲线拟合时融入了其独特的通用全局优化算法 (UGO) , 该算法目前已经被广泛应用于水利水电工程[6]、能源和环境[7]等众多领域, 并且取得了非常好的拟合预测结果, 但考虑到软件的独家享有权, 该算法目前还未被公布。笔者利用两种算法相结合的方式进行了径流影响因子的相关度拟合排序。

1.2 利用L?M改进的BP神经网络

L-M算法改进的BP神经网络学习算法由正向传播和反向传播组成。正向传播时输入信号是输入层、隐含层传向输出层, 如果输出层得到了期望的输出, 则学习算法结束;否则, 转至反向传播, 网络流程图如图1所示。以下对算法进行简要说明。

对第n次迭代时输入层与隐含层、隐含层与输出层之间的权值向量wij (1) (n) 、wij (2) (n) 分别赋予随机非零值。对于输入的第K组样本Xk, 前向计算BP网络的隐含层第i节点输出:

输出层第i个节点输出为:

第n次迭代时第i个输出, 节点的平方误差定义:

K组样本的均方差为:

式中:f是激励函数, 采用sigmoid型;θi (1) 和θi (2) 分别为输入层和隐含层的阈值;L是输出层节点数。

按式 (7) ~式 (10) 计算权值修正量, 并修正权值。

式 (6) ~式 (9) 中:μ为标量, 0≤μ≤1;I是单位向量;Dij (1) 、Dij (2) 分别为第n次迭代时隐含层和输出层梯度;H为Hessian矩阵;公式分别如下:

式中:J是雅可比矩阵, 它的元素是网络误差对权值和阈值的一阶导数, 是网络的误差向量。

运用上述改进BP网络可对本文挑选出的关键影响因子进行径流的有效拟合和预测。

2 应用实例

2.1 河流概况

本文选取实例河流位于西北部, 该地区由于砍伐现象严重加之位于黄土区河流泥沙含量较多, 在此基础上取得该地区1983-2003年年均降雨量、采伐面积、采伐面积4个因子以及21年内的河流径流量。表1是该河21年的实测资料, 其后3年的资料留作模拟预测使用。

2.2 1stOpt因子选取与曲线拟合

由于影响河流年均径流量Q的因素众多, 本文所测的相关影响因子年均降雨量X1、树木采伐面积X2、树木采伐量X3和年均含沙量X4为根据当地情况分析所测影响因子, 下面笔者介绍利用1stOpt进行关键因子选取和非线性拟合的步骤。

步骤1:将所测影响因子分成4组即{X1, Q}、{X2, Q}、{X3, Q}、{X4, Q};

步骤2:对四组单径流影响因子分别利用基于L-M算法和UGO算法的1stOpt快速二维拟合功能进行拟合, 得出4个相关影响因子的相关系数R1、R2、R3、R4;

步骤3:根据相关系数的大小选取两个关键影响因子;

步骤4:考虑到1stOpt变量上限为3, 利用所选出的两个关键影响因子运用快速三维拟合功能进行径流拟合, 得出最终相关系数R与拟合的非线性公式。

最终得出各影响因子Xi与年均径流Q的相关系数分别为:R1=0.986 10, R2=0.599 95, R3=0.669 63, R4=0.789 08从而R1>R4>R3>R2, 选取关键影响因子R1, R4, 进行上述步骤4, 最终得到18a拟合相关系数为R=0.990 11, 并得到曲线拟合公式如下:

式 (15) 中系数矩阵为:

得出1stOpt非线性曲线径流拟合预测值见表2。

2.2 组合模型拟合预测

利用1stOpt筛选出的关键因子避免了所建模型预测的估计量偏差, 提高了BP神经网络的泛化能力, 确保了预测精度[9];前文已给出了基于L-M算法BP神经网络模型的机理, 笔者将前18年数据分成3组进行训练, 后3年数据作为分析研究。

采用三层前向反馈神经网络, 已知输入层节点数8, 隐含层节点数取为输入层的75%[10], 得出18年的年径流预测值见表2。

2.3 年均径流预测与结果分析

笔者利用后3年实测数据利用上述两个模型进行径流的预测结果见表3。

根据计算得出的结果, 可以看到运用1stOpt的非线性拟合得到的年均径流拟合值与实测值平均相对误差为1.816 9%, 预测值相对误差为2.770 5%;组合模型则分别为1.460 7%与1.442 9%, 二者拟合预测的精度均较高, 而利用1stOpt所提取的关键因子的BP神经网络模型则精度更高。

3 结语

(1) 根据所得结果说明该地区树木采伐严重, 水土流失也严重, 需加强相关环境生态方面的保护;

(2) 1stOpt拟合预测值精度已经较高, 而利用1stOpt选取关键因子, 并利用基于L-M算法的BP神经网络组合模型的精度更高, 为年均径流量预测拟合提供了一个新的方法;

(3) 由于影响年均径流的因子众多, 本文仅选择典型地区的部分相关因子做预测, 更多复杂因子还有待进一步研究, 另外若有逐月段数据也可用该模型进行检验。

摘要:针对年均径流预测问题, 首先利用1stOpt软件进行逐个影响因子拟合, 得到相关影响因子的主次顺序, 提取关键因子在基于L-M算法和UGO算法下对年均径流进行多元非线性曲线拟合;另外结合基于L-M算法的改进BP神经网络利用所提取的关键因子进行径流预测, 以北方某河流径流实例进行计算, 两种方法效果均优于传统模型, 且在多影响因子的情况下, 组合模型精度和效果更好, 为径流预测提供了一个新的更实用的方法。

关键词:径流预测,1stOpt,L-M算法,UGO算法,BP神经网络

参考文献

[1]詹道江.工程水文学[M].4版.北京:中国水利水电出版社, 2010:104.

[2]王红芳, 黄伟军.集对分析法在长江寸滩站年径流预测中的应用[J].黑龙江水专学报, 2006, 33 (4) :3.

[3]岳东杰.灰关联模型GM (1, N) 及其在安全监测中的应用[J].河海大学学报, 2000, 28 (3) :34-38.

[4]梁斌梅, 曹雪兰.基于L-M算法的中国高教投资供给规模预测[J].广西大学学报, 2009, 34 (5) :635.

[5]汤嘉立.基于Levenberg-Marquardt神经网络的复合材料力学性能预测[J].计算机工程与科学, 2010, 32 (5) :106.

[6]张耀庭, 李宏健.全预应力混凝土梁动力性能试验研究[J].工程力学, 2008, 25 (增刊1) :71-75.

[7]HUANG Cai-jin.Models predicting calorific value of straw from the ash content[J].International Journal of Green Energy, 2008, 5 (Sup 6) :533-539.

[8]万星, 丁晶.水库流域年均径流模型的灰色神经网络分析[J].水力发电, 2005, 31 (4) :20.

[9]戚丹, 包腾飞.基于逐步回归-BP神经网络的大坝变形监测模型[J].水电能源科学, 2013, 31 (8) :110.

径流预测 篇7

时间序列资料数据在观测、收集和模拟过程中不可避免的会产生误差[4]。利用奇异谱分析法(Singular Sepctrum Analysis,SSA)对实测资料进行预处理,能从它包含噪声的有限长度的观测序列中提取尽可能多的可靠信息(特别是适合于研究有周期振荡的系统),并依据它们 建立预报 模型[5]。时间序列 预测中的经典模型有自回归滑动平均模型(ARIMA),但该方法 对非平稳和非正态分 布的径流 序列处理 效果不够 好,而SSA不存在这些问题,因为它不依赖于任何参数模型来模拟趋势或周期,分析过程 中针对信 号或噪声 成分也不 做任何统 计假定[6]。因此,本文基于青弋江干流控制站西河镇站1970-2010年逐月径流量作为研究时间序列,将SSA和ARIMA相结合, 采用SSA分析技术对数据进行预处理,利用ARIMA模型建立各主要分序列的径流预测模型进行径流预测,对各分序列预测结果之和进行校正,并SSA-ARIMA模型的径流预测精度进行检验。

1方法与模型

1.1奇异谱分析法[7]

奇异谱分析是一种广义的功率谱分析,能有效识别时间序列中的周期信号并强化显示。给定间隔为1,样本量为NT,均值为0的时间序列xi=x(t)。给定嵌套空间维数m(通常取m ≤NT/2),则可将原时间序列xi排列成m×n的时滞矩阵:

式中:n=NT-m+1。

矩阵X的滞后自协方差为一个m×m的矩阵,表达式为:

式中:j为时间滞后步长,j=1,2,…,m;Sij是Toplitz矩阵。

计算出S矩阵的特征值λk和特征向量φkk。则滞后步长为j的时间函数x(i+j)的展开式为:

则时间主分量为:

式中:i=1,2,…,NT-m+1;j=1,2,…,m。φjk为时间的特征向量(T-EOF);tki为时间主分量(T-PC)。由第k个T-EOF和T-PC重建xi的成分记为xik,基于最小二乘意义下,最接近原序列的状态向量上的投影,公式为:

使Q达到最小值,方程的解为:

选取前n个贡献度大的成分来近似表示原序列,称为重构序列,即对主要的 重构序列 (RC,Reconstructed series)进行趋势成分和周期成分分析,可以获取时间 序列的趋势项和周期项,便于预测。

1.2 ARIMA模型

自回归滑动平均模型(Auto Regressive Integrated Moving Average Model,ARIMA)是研究时间序列的重要方法,目前该模型被广泛应用于水文预报当中。Salas等人[8]对模型的结构和适用条件给予了介绍。这里对ARIMA模型进行简单说明, 该模型通常记为ARIMA(p,d,q),数学描述为:

式中:ytd表示yt经d次差分后转换的序列;εt是t时刻的随机误差,属相互独立的白噪声序列,εt~N(0,σ2);фi和θj是待估参数;p和q是模型阶数。

1.3 SSA?ARIMA模型

张强[9]提出了奇异谱分解预测校正模型,即SSA-ARIMA模型,他将上述两种方法结合起来,采用SSA对原始数据进行信息提取处理后,对各分序列建立ARIMA模型并进行径流分序列预测,将预测结果加和后进行误差校正。本文拟在提取分序列的基础上,对各分序列进一步进行划分重构,划分为趋势重构项,多年径流重构项,年际径流重构项和年内径流重构项, 之后再分别进行ARIMA参数估计,建立模型后对重构分序列预测结果之和进行校正。模型示意图见图1所示。

2评价指标

本文模型性能评价指 标:相关系数(R)、均方根相 对误差 (RMSRE)、合格率 (QR)。 根据水文 情报预报 规范 (SL 2502000)[10],中长期径流预报以实测值的20%作为许可误差,QR值越大,说明模型精度越高。

式中:xi为预测值;yi为实测值;x分别为预测序列和实测序列的均值;n为合格预报次数;m预报总次数。

3实例应用

本文采用青弋江流 域西河镇 站1970-2010年月径流 序列,38a(1970-2007年)的月径流量作为学习样本构建模型, 样本点为456个,并对2008-2010年的逐月径流进行预测。

3.1序列重构

嵌套窗口长度m选取将直接影响到SSA分解结果。从信息量角度选取m,m越大,涵盖的数据信息量也就越大,从统计可信度角度选取m,m越小,则统计可信度越高[7]。因此选择适中的m较为适宜。本文通过 大量试验 发现,该站选取m= 120作为嵌套窗口较为适宜。

通过SSA对1970-2007年逐月径流序列进行分解,获得各周期特征向量所对应的特征值,并由大到小排列进行方差贡献率统计 (图2),结果发现 前19项累计方 差贡献率 达到80.4%。因此,可将前19项T-PC看作原序列的显著振荡周期, 其余的101项看作噪声。各T-PC对应的振荡周期见表1。根据奇异谱重构原则,采用第1组重构趋势成分,第2、3组重构年际径流变化序列,第4、5组,6、7、8、9组,14、15组重构多年径流变化序列,10、11、12、13组,16、17、18、19组重构年内径流序列。结果见图3,由(a)可得:青弋江径流1970-1999年呈现波动上升的趋势,2000-2007年呈现下降趋势;由(b)、(c)、(d) 可得:多年变化振荡过程2000年之后振幅呈现减小趋势,年际变化振荡过程相对比较稳定,具有显著的周期性,而年内振荡变化过程也具有显著的周期振荡特性,在2000年之后振幅也呈现出减小趋势。

3.2 ARIMA径流模拟

根据AIC准则[11]分别采用原始序列和消噪重构后的径流分量序列构建ARIMA模型,并对西河镇站2008-2010年逐月径流进行预测并检验。其中SSA-ARIMA模型选取的最优模型参数见表2,结果显示其叠加后残差序列为白噪声,因此不用进行校正,对各振荡周期尺度的重构序列进行叠加后的获得重构径流序列见图4。传统ARIMA模型选取的最优模型参数为ARIMA(4,0,19),图5为两种方法逐月预测值与实测值的对比图,表3为两种方 法的误差 比较结果,结果显示20082010年逐月径流预测的合格率SSA-ARIMA模型相较采用原始序列的ARIMA模型的预测精度,从56.3% 提高到88.9%提高幅度较为明显,但其在径流峰值预测时,误差偏差较大,主要发生在7-9月,2010年7月实测最大为17.1亿m3,SSAARIMA模拟预测值为13.99亿m3,相对误差为18.2%在预报可接受范围内。

4结语

以青弋江1970-2007年逐月径流量 作为训练 样本,在考虑到自回归滑动平均模型对非平稳和非正态分布的径流序列处理的不足,采用奇异谱分解法对原始数据进行处理后,提取了趋势、多年、年际、年内的振 荡变化信 息后,进行序列 重构。 采用消噪重构后的径流序列,构建自回归滑动平均模型进行模拟预测2008-2010年的逐月 径流量 ,结果显示SSA-ARIMA相对于传统ARIMA模型的月径流预测精度有所提高,预报合格率从56.3%提升至88.9%,SSA-ARIMA模型可作为青弋江流域中长期径流预测参考工具。

摘要:传统自回归滑动平均模型对非平稳和非正态分布的径流时间序列处理能力有限,很大程度限制了该方法在径流预测中的应用。基于青弋江西河镇站1970-2010年的逐月径流资料,利用奇异谱分析技术对1970-2007年逐月径流量进行分解,提取径流显著振荡的时间主分量序列,重构趋势序列、多年变化序列、年际变化序列和年内变化序列,运用ARIMA模型对各显著分量序列进行模拟预测,在对所有分量进行序列重构时,进行误差校正,同时利用传统ARIMA模型进行预测,将两者结果与实测值进行比较,检验其精度。结果表明:奇异谱分析技术能有效地从原始序列提取可靠的信息,通过分序列ARIMA模型预测重构后的径流序列与实测值更为接近,提高了传统ARIMA模型的预报精度。

关键词:自回归滑动平均模型,奇异谱分析,预测,青弋江

参考文献

[1]于国荣,夏自强.混沌时间序列支持向量机模型及其在径流预测中应用[J].水科学进展,2008,19(1):117-123.

[2]姜翔程.水文时间序列的混沌特性及预测方法[M].北京:中国水利水电出版社,2011.

[3]张楠,夏自强,江红.基于多因子量化指标的支持向量机径流预测[J].水利学报,2010,41(11):1 318-1 323.

[4]汪芸,郭生练,李响.奇异谱分析在中长期径流预测中的应用研究[J].人民长江,2011,42(9):4-7.

[5]吴洪宝,吴蕾.气候变率诊断和预测方法[M].北京:气象出版社,2005.

[6]陈莹,陈兴伟.基于奇异谱分析的闽江流域径流长期预报研究[J].水资源与水工程学报,2011,22(5):16-19.

[7]魏凤英.现代气候统计诊断与预测技术[M].北京:气象出版社,2007.

[8]Salas J D,Delleur J W,Yevjevich V,et al.Applied modeling of Hyrologic time series[M].Littleton:Water Resources,1980.

[9]Q.Zhang,Ben-De Wang,B He,et al.Singular Spectrum Analysis and ARIMA Hybrid Model for Annual Runoff Forecasting[J].Water Resource Manage,2011,25:2 683-2 703.

[10]SL250-2000,水文情报预报规范[S].

上一篇:房地产的经典广告下一篇:城市交通