时序数据挖掘

2025-01-14

时序数据挖掘(通用7篇)

时序数据挖掘 篇1

0引言

以往对于舰机活动数据的处理,多注重于实时系统,反映实时情况,利用信息的实效性。而对于保存的大量此类数据却再无他用,但活动目标规律如关联规律、时间序列规则恰恰隐藏在一段时期内的数据中,而单独凭借人脑来发现这些规律是不现实的。将数据挖掘技术应用到该领域中,运用统计学原理以及数据挖掘算法对一定时期的舰机活动数据进行分析、处理,从而挖掘出舰船与舰船、飞机与飞机、舰船与飞机间协同活动的关联关系及时序规则,有效支持辅助决策。

1数据挖掘概念及应用

所谓数据挖掘是指从大量、不完全、有噪声、模糊、随机的数据中,通过设置一定的学习算法,提取隐含在其中的、人们事先不知道但又是潜在有用的信息的过程。

数据挖掘一开始就是面向应用的,将数据挖掘技术应用到海空活动目标数据中是数据挖掘一个新的应用。通过应用数据挖掘,发现大量信息背后隐藏的有价值信息,是一种新的尝试。

本文涉及到的数据挖掘处理与流程如图1所示,介绍2种主要应用技术。

1.1关联规律

1.1.1 单维布尔关联规则

在舰机数据中应用此技术,一种飞机与另一种飞机相继出现就反映了一种关联规律。可以针对感兴趣的地域,综合考察目标间活动的关联关系,从而得到有意义的目标间关联规律。关联规律概念及算法如下:

给定一组项目I={I1,I2,I3…,Im}和一个事务数据库D={t1,t2,…,tn},其中ti={Ii1,Ii2,Ii3,…,Iik}并且Iij∈I,关联规则是形如X=>Y的蕴涵式,其中X,Y∈I是2个项目集合,称为项目集并且X∩Y=Φ。

关联规则X=>Y的支持度(s)是数据库中包含X∪Y的事务占库中所有事务的百分比。

关联规则X=>Y的置信度或强度(a)是包含X∪Y的事务数与包含X的事务数的比值。

1.1.2 关联规律典型的算法——Aprior算法

Aprior算法将发现关联规则的过程分为2个步骤:第1步通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于设定的阈值的项集;第2步利用频繁项集构造出满足最小信任度的规则。其中,挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。

1.1.3 多维关联规则

对于许多应用,在低层或原始层的数据项之间很难找出强关联规则。在较高的概念层发现的强关联规则可能提供普遍意义的知识。在对活动目标数据进行关联挖掘时,在数据预处理阶段对数据的某些字段进行抽象分层,得到相应的关联规则也就是多个层次上海空目标活动的规律,例如单纯从飞机型号上分析目标间的关联规律结果并不理想,但将相应的型号划分到高一层次的概念中,如战斗机、民航用机和运输机,再进行挖掘可能会得到感兴趣的结果。

1.2时序规则

时间序列挖掘是指挖掘相对时间或其他模式出现频率高的规则。一个时序挖掘的例子是“9个月以前购买奔腾PC的客户很有可能在1个月内订购新的CPU芯片”。将其应用到目标活动数据中,对于空中目标数据,介于其活动周期比较短的特性,以天为周期,可以挖掘出每天的空中目标间先后出现的规则模式,结合地域、时间段的划分,挖掘结果会更具有实际意义。

关联规律挖掘中采用的Aprior特性可用于时间序列模式的挖掘,因此时间序列挖掘的大部分算法都采用了类Aprior的变种。序列规则也用支持度与置信度2个参数来表示规则的出现频度。

2数据预处理

数据预处理首先针对数据字段中存在的表意不明、取值越界和表意不规范等做最基本的初始化处理,再根据挖掘目的不同,以及对已有挖掘结果的分析相应取舍字段,添加字段,丰富挖掘结果知识表示,或去除多余字段使挖掘结果更加明朗。具体做法有:

归一化:对一些意义相同但表示不同的字段进行归一化处理,比如“第四联队”,“第4联队”,“4联队”,他们的意义相同,但表示不同,可以一并归一到“第四联队”。

分割:对一些信息含量较多的字段进行分割,比如对于时间字段,将其拆分成年,月,日,年月,月日字段,以备后用。

合并:合并某些意义不足的字段,比如将国家地区与舰机型合并在一起,比如“伊F16”,将更方便地反映挖掘意义。

转换:通过计算或其他方法转换某些字段的表现形式,比如计算时间所对应的星期作为新的字段,对于挖掘周期性很有帮助。又比如取不同精度的经纬度。

平滑:剔除字段中阈值外的异常数据或将某些字段中取平均值,降低数据的稀疏性,比如时间字段中小时数值不在0~24之间,又比如位置经度超出360°,位置纬度超出90°的信息行。

3数据分析

统计分对数据字段进行统计,掌握数据质量及

饱和程度,并对字段的取值范围或字段间的关系作比较详尽地了解,也是为数据泛化及描述做准备。

数据泛化:从一个相对低层概念到更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个过程,与概要描述配合使用,丰富挖掘结果。例如将海上目标舰船型号(小鹰号、海神号等)提升到舰船类型(如运输船、战舰等)。

概要描述:在同一个层次上对概念进行整合或分离,以便更好地服务于挖掘结果的语义表示。可与数据泛化配合反复使用,直到得到感兴趣结果。例如将空中目标的隶属单位与目标起点整合在一起作为一个属性,更利于挖掘结果的知识解释。数据分析流程如图2所示。

4挖掘结果评价

挖掘结果显示的规律并不都是我们感兴趣的,有些已经在挖掘过程中不能满足最初支持度,置信度最小值而被筛掉了,除此之外,本文采用2种策略用来发现感兴趣的挖掘结果。

4.1对比筛选

如果就一年内的数据做挖掘实验,目的是为了得到每月的舰机活动规律。首先保证每个月的数据量大致相同,每个月单独做一次规律挖掘,得到12组舰机活动规律集合,再依次每2个月,每3个月以此类推做挖掘实验,得到的若干组活动规律集合,取所有集合中规律的交集,也就将剔除了那些偶尔出现在某月的特殊规律。当然,剔除的规则可作为某些月份的异常情况予以考虑。

4.2阈值筛选

以每月舰机活动规律为挖掘周期。每月单独做挖掘实验。

首先制定筛选系数δ(0<δ<1)。浮动阈值用来筛选每个月每条规律是否在浮动值之内浮动变化,筛选系数用来定义一条规则符合浮动要求出现次数与实验次数(此处为12)的比值。再根据制定的筛选系数得到的支持度,置信度的浮动变化值制定支持度,置信度的浮动阈值,如果定义δ为80%,也就表示一年内如果有10次满足支持度,置信度的浮动要求就认定该条规则为合理,予以保留。

上述筛选方案针对挖掘出的大量规则做了比较基本的筛选,能够剔除部分不合理规则。

试验证明上述两种方案能够筛选出活动目标普遍存在的关联,序列规律。如果再结合应用知识及经验,挖掘结果的筛选会更加精确。

5结束语

本文介绍了利用数据挖掘技术来分析舰机活动数据中存在的关联规律及序列规则的完整过程,从最初的数据处理、数据分析到挖掘模型的建立、评估,最终到挖掘结果的评价。从一定程度上有效利用了存储的舰机活动数据,发掘其蕴含的可利用信息。试验证明,该方法行之有效,是该领域数据挖掘应用的有益尝试。

摘要:随着信息采集技术的不断发展,采集手段不断多样化,导致大量舰机活动数据存放在计算机中,人们关注的往往是其蕴含信息的实时性,而数据的累计价值无法得到再次利用。如何有效、充分地利用这些数据成为一个迫切需要解决的问题。提出一种将数据挖掘应用到舰机活动数据的实用技术,包括关联规律数据挖掘和序列数据挖掘。通过挖掘不但可以有效缩减数据库的存储数据量,更可以根据挖掘结果建立挖掘知识库,通过长时间的累计,将能有效区分普遍规律及异常,从而充分利用海空活动目标数据的价值,提高辅助决策能力,为活动目标数据处理提出了新的方向。

关键词:舰机活动数据,数据挖掘,关联,时序

参考文献

[1]焦健,王祥.数据挖掘在美国本土安全中的应用[J].舰船电子工程,2006(1):3-4.

[2]左爱文,郭宏武,王保保.气象时间序列规则发现及其应用[J].陕西气象,2006(6):2-3.

[3]尚威,尚宁,覃明贵,等.交通事故的多维关联规则分析[J].计算机应用软件,2006(2):2-5.

[4]PYLE D.业务建模与数据挖掘[M].北京:机械工业出版社,2005.

基于时序数据的学生分层算法研究 篇2

随着高校的课程改革, 绝大部分课程的课时都有所压缩;同时伴随着高校的扩招, 学生的整体素质有所下滑, 一个班上学生情况参差不齐;分层教学一时成为了教育工作者的研究热点问题。分层次教学模式是要在现代教育思想、教学理论指导下, 从学生的知识层次、认知水平和个性差异出发, 因材施教, 发挥个性特长, 真正体现了学生的自主选择, 使层次不同的学生分别掌握适合他们的知识技能, 同时更注重开发不同学生的潜能和创造性思维, 真正做到面向学生, 使学生的素质得到提高[1]。高校的教学通常是一个老师承担一、二门课程, 传统的方法教师对学生了解基本是课程快要结束, 才真正掌握学生分层情况。快速获得学生的分层信息是很重要和必需的事情。现今网络已经十分发达, 教师与学生通过网络交流, 布置作业, 上交作业普遍使用;在这些行为下产生了大量值得挖掘的信息, 通过这些信息的研究, 快速找出学生分层信息。

1 时序数据

通过网络进行教师与学生开展的教学活动系统如图1.1。Stdent→Server, 上传自己的作业, 发布自己留言信息;

Server→Student, 学生从服务器上下载自己或他人的作业, 查看教师布置作业, 浏览其他同学的留言;

Server→teacher, 教师从服务器上获得学生上交的作业以及学生上交、下载作业的日志文件。teacher→Server, 教师布置作业, 上传资料到服务器。通过图1.1的系统获得网络日志文件, 其信息格式如下:Info (Time, Down/up, Filename, Ip) ;还获得文件File (Filename, Time, count) , 信息格式有时间的因素, 因此是时序数据。

2 数据洗涤

在获得的时序数据中, 可以获得一些很有价值的信息, 比如学生抄袭作业的足迹、学生完成作业所需的时间分布、作业质量与时间的关系等。获得这些信息的算法如下:

(1) 按时间排序学生所交文件;

(2) 保存服务器的日志文件;

(3) 挖掘可能出现的抄袭的学生;

(a) 集中每个i p的记录, 有下载 (down) 作业的ip重点关注;

(b) 下载的作业与上传的作业的关系:如果上传时间<下载时间, 那么上传作业与下载的作业无关;如果上传时间>下载时间, 且上传作业==下载作业, 如果下载作业是完全正确的, 设作业的抄袭系数A;如果下载作业有严重错, 则抄袭的可能性极大, 设抄袭系数B;根据上交作业的时间和下载作业的比较, 给各个ip设置抄袭系数;

(4) 对所交作业进行分析;

(5) 学生的作业情况分类:作业 (交作业的时间, 作业质量, 抄袭系数) 。

3 学生分层的BP神经网络模型

3.1 BP神经网络

BP神经网络已经被广泛的应用各行业的预测中, 例如参考文献[2]、[3]、[4]、[5涉及数据挖掘、金融预测等。BP神经网络是利用BP算法的多层前馈网络, BP算法已经很成熟, 被广泛使用, 其网络结构不复杂, 突出的优点是具有较强的非线性映射能力, 传统的BP算法基本思想是最小二乘法, 是一种有监督的学习算法, 改进的BP算法的实质是求解误差函数的最小值。BP算法包含输入数据样本集和输出数据样本集, 利用误差反向传递原理对网络进行训练, BP算法学习过程包含2个, 分别是信息的正向传播过程和误差的反向传播过程, 反复运用这两个过程, 在相对误差函数梯度下降的方向上不间断地对网络权值和偏差的变化进行计算、修正, 逐渐逼近真实目标。典型的BP神经网络由一个输入层、一个或多个隐层以及一个输出层组成。一个典型的三层BP神经网络结构如图3.1。

3.2 BP算法

BP神经网络设有一个输入集和一个输出集, 设一个输出y, Oi为任一节点i的输入, 如果存在N个样本 (xk, yk) (k=1, 2, …N) , 表示网络输出yk时输入为xk, 那么Oik为节点i的输出, 节点j的输入表示如下:

平方误差函数公式如下:

公式 (2) 中y’k为网络的实际输出, 可以如下:

BP算法流程图如图3.2。

3.3 BP神经网络学生分层过程

本文利用BP神经网络基于学生交作业的先后顺序以及作业的质量, 对学生的成绩进行预测具体预测过程如下:

(1) 构建影响学习成绩的指标集;

(2) 由于各个指标数据集取值范围不同, 为了避免不同量纲数据对网络造成影响, 本文采用时序数据以及以往学生成绩对各指标集进行了归一化处理;

(3) 利用训练集 (曾经学生的成绩与曾经学生交作业的时间关系、作业质量) 对BP神经网络进行训练;

(4) 利用BP神经网络自适应学习能力, 速率动量梯度下降反向传播算法, 找出时间与成绩间的阈值, 对BP网络进行优化;

(5) 利用优化后的网络对测试集进行测试;

(6) 将网络输出数据进行反归一化处理, 得到学生成绩对学生进行分层。

4 结语

使用已有成绩和这些成绩交作业的数据进行多次实验, 通过BP神经网络进行学习, 获得成绩以交作业的质量和交作业的时间间的阈值, 通过某次作业信息, 对这次作业学生成绩进行预测, 将预测结果与学生期末成绩进行比对, 发现该预测结果与成绩十分接近。

本文将人工智能引入学生分层算法的研究, 利用BP神经网络自适应学习速率动量梯度下降反向传播算法, 获得作业质量、作业上交时间与成绩间的阈值, 利用BP神经网络, 通过某次学生所交作业信息对成绩进行预测, 预测值与实际值的拟合度很高, 达到了预期效果。

摘要:随着高校的课程改革, 课程的课时大幅压缩, 快速对班上学生分层, 从而进行因材施教就很有意义;本文基于网络辅助教学的情况下, 对学生利用网络上交作业信息进行挖掘分析, 利用BP神经网络的自适应学习特点, 于上交作业时间与上交作业的质量为基础, 挖掘出与成绩的关系。

关键词:时序数据,BP神经网络,BP算法

参考文献

[1]刘欣欣.“大学计算机应用基础”课程局部交叉分层次教学模式初探[J].教学园地, 2009, 7:80-83

[2]肖国荣.BP神经网络在基金价格预测中的应用研究[J].计算机仿真, 2011, 3:373-376

[3]穆肇南, 张健.数据挖掘技术在经济预测中的应用[J].计算机仿真, 2012, 6:347-350

[4]周序生, 王志明.粗糙集和神经网络方法在数据挖掘中的应用[J].计算机工程与应用, 2009, 7:147:149

基于遗传神经网络的时序数据预测 篇3

天气预报可看作是典型的时序数据预测,在传统的天气预报中,一般是根据现有资料,建立数学模型来进行预测,但是由于天气预报涉及到很多气象要素,且相互之间存在着复杂的非线性关系,要建立一个完善的模型是很困难的。

BP神经网络能够以任意精度模拟复杂的非线性关系,因此在天气预报中的应用越来越广泛,但BP神经网络全局搜索能力差、收敛速度慢,结果易陷入局部极值,单独使用BP神经网络效果不是很理想。

针对BP神经网络的不足,本文提出了用擅长全局搜索的遗传算法寻优与神经网络学习相结合的天气预报模型,结合两者的优点,先利用遗传算法在解空间进行全局搜索,然后在遗传算法搜索到的最优区间内用神经网络学习找到最优解。最后以空军某场站气象台2002年的气象观测数据为对象,建立了该局部地区基于遗传神经网络的天气预报模型,取得了很好的预报效果。

1 遗传神经网络

遗传算法优化神经网络的基本思想是:改变BP算法依赖梯度信息的指导来调整网络权值、阈值的方法,利用遗传算法全局性搜索的特点,寻找对于特定应用或数据集最为合适的网络参数和网络结构。

1.1 遗传个体编码

常用的遗传算法编码方案有二进制编码、实数编码等。二进制编码应用是最早和最广泛的,几乎任何问题都可以用二进制编码来表达,但对一些多维、高精度连续函数优化问题,二进制编码较长会使搜索空间急剧扩大,计算量大,占用内存多,导致运行性能差,甚至无法运行。实数编码主要适用于求解多维、精度要求较高的连续函数优化问题。神经网络的优化设计问题属于高维连续的寻优问题,所以本文选择实数编码。

理论上已经证明:具有偏差(bias)和至少一个S型隐含层加上一个线性输出层的网络,能够逼近任何有理函数。因此本算法采用只有一个隐含层的神经网络。而输入层、输出层节点的个数由建模样本决定,所以在优化BP网络结构时主要是优化它的隐节点的个数。一般确定隐节点数的经验公式为:

式中h、i、o和α分别为隐节点数、输入节点数、输出节点数和1-10间常数。

本算法同时对网络结构和权值、阈值进行编码。因此个体码串由三部分组成:隐节点数及其与各隐含层节点相连的权值、阈值。依据式(1)来确定个体的隐含层节点数的取值范围。由于隐含层节点数也作为一个遗传基因,而它的变化会导致神经网络权值个数的变化,即编码长度是变化的,这为遗传操作带来了不便。因此,为保持个体长度的一致性,保证交叉、变异子代个体的完整性,取码串的最大可能长度作为个体编码的长度,即先确定隐含层节点数的最大可能值hmax:

然后将个体编码长度统一为l,满足下式:

设BP网络输入层、隐含层、输入层节点个数分别为i、j、k,则需要优化的参数如下所示:

在这里值得注意的是,隐含层节点数j也是需要优化的参数,它同上述参数一同编码优化。编码以隐含层节点为中心,将隐含层节点数放在第一位,与同一个隐含层节点所连接的权值及其阈值排在一起,当删除或增加隐含层节点时,方便操作,其组成如图1所示:

由式(3)可得,个体码串总长度为l。而在选取权值、阈值进行计算时,只选取与隐含层实际节点数j相对应的权值和阈值,有效码串长度为1+(i+k)j+(j+k)。这样码串就包含了网络结构及权值、阈值的信息。

1.2 适应度函数

本算法采用均方误差(Mean Square Error,MSE)的倒数作为适应度函数,具体定义见式(4)。

其中yt(n),^yt(n)分别表示第n个样本输入时,第t个输出节点的期望输出与实际输出。

1.3 遗传算子

(1)选择算子

为提高个体的多样性和计算效率,同时保证算法能够收敛,本算法采用最优个体保留策略和轮盘赌选择法相结合的策略,即保留种群中适应度最高的个体,它不参与交叉和变异运算,而直接将其复制到下一代,对种群中其它个体采用轮盘赌选择法进行选择操作。

(2)交叉算子

交叉操作是按一定的交叉概率PC选择参与交叉的父代染色体,本算法随机选用算术交叉或基于方向的交叉。

(1)算术交叉:

(2)基于方向的交叉:

式中v1,v2为个体编码向量,α为[0,1]之间的随机数。算术交叉可以保证产生的后代位于两个父代染色体之间,而基于方向的交叉则可以有效扩展搜索空间[5],这对遗传算法的初始迭代尤为重要。

(3)变异算子

本算法采用文献[6]提出的自适应变异算子,对变异率进行动态自适应调整。其目的是自适应调整搜索区域,提高其搜索能力,改善收敛性能,提高遗传算法的收敛速度。

2 实验仿真

本实验用上文提出的遗传神经网络与传统的BP神经网络进行对比实验,为方便起见,二者采用相同的网络结构,即都采用三层网络结构且后者取前者优化过的隐含层节点数,只比较优化过的权值、阈值和未优化过的权值、阈值对预测精度的影响。

2.1 实验样本

本文提出的预测模型用于气象要素预报,在这里以温度预报为例进行实验。实验随机选取的是2002年1月1日至2月28日每日9时的温度数据进行实验仿真,共59个数据,其中前50个数据用于训练,后9个数据用于验证预测结果。从第1天开始,以连续4天的温度来预报第5天的温度。由于样本数据值的大小往往相差很大,因此,在进行仿真之前,必须对样本数据进行预处理,即归一化处理,避免较大的值对误差产生过大影响。最后得到的训练样本(部分)如表1所示。

2.2 样本训练

本文所提出的遗传神经网络模型是在Matlab7.7环境下实现的。通过训练,得到最优的隐含层节点个数为4,权值和阈值参数如表2所示。

2.3 仿真结果

利用上文提出的遗传神经网络的对2月20日至28日每日9时的温度进行预报,并同传统BP神经网络进行预报得出的结果进行比较,BP神经网络隐含层节点数取4,初始权值、阈值随机生成,具体的预报结果如表3所示。通过比较我们可以看出通过遗传神经网络方法预测的温度值误差在1°C以内,而传统的BP神经网络预测的温度值误差将近2°C,前者比后者的预测精度提高了将近7%。

3 结束语

本文针对神经网络和遗传算法的优缺点,将两者有机地结合起来,提出了一种优化确定BP神经网络结构和参数的方法,并将其应用到天气预报中去。通过对实验和统计结果的分析,可以看出遗传神经网络法在预测精度上比BP神经网络法提高了很多。结果表明,本文给出的预测方法是可行的,可以作为天气预报的一种手段。

摘要:针对机场短时局地天气预报这一特定的时序数据预测问题,提出用遗传算法同时优化神经网络的连接权值、阈值和网络结构,建立了基于遗传神经网络的天气预报模型,并利用某气象站的实际观测数据进行了实验。仿真结果表明,相对于单独使用BP神经网络,运用该方法可以有效提高预测精度。

关键词:遗传算法,神经网络,天气预报,时序数据预测

参考文献

[1]钟颖,汪秉文.基于遗传算法的BP神经网络时间序列预测模型[J].系统工程与电子技术,2002(4).

[2]张超群,郑建国,钱洁.遗传算法编码方案比较[J].计算机应用研究,2011(3).

[3]康建红.基于遗传算法的前馈神经网络优化设计[D].秦皇岛:燕山大学,2005.

[4]吴永明,吴晟.改进的遗传算法在神经网络结构优化中的应用[J].微型机与应用,2011(3).

[5]刘威,李小平,毛慧欧,等.基于实数编码遗传算法的神经网络成本预测模型及其应用[J].控制理论与应用,2004(3).

时序数据挖掘 篇4

时间序列就是将某一指标在不同时间上的不同数值按照时间的先后顺序排列而成的数列。时间序列数据挖掘是数据挖掘中的一个重要分支,有着广泛的应用价值,就是要从大量的时间序列数据中提取人们事先不知道的,但又是潜在有用的、与时间属性相关的信息和知识,并用于短期、中期或长期预测。时间序列挖掘的一个重要应用就是预测,即根据已知时间序列中数据的变化特征和趋势,预测未来属性值。

常用的时间序列数据挖掘算法有:自回归移动平均法,指数平滑法,多元回归预测法,灰色预测法等。其中灰色预测法由于对时间序列短,统计数据少,信息不完备系统的建模与分析具有独特的功效,能够在原始数据比较少的情况下得到很高的预测精确度,所以在各领域得到了广泛应用。

本文主要在研究时序挖掘算法灰色预测模型的基础上,利用Matlab软件平台以陕西苹果年产量预测为例,介绍怎样通过Matlab实现灰色预测挖掘算法,并通过对已有苹果年产量数据的挖掘分析,获取有价值的信息,帮助果农制定出科学合理的生产规划。

1 灰色理论预测算法分析

灰色理论[1]是我国华中科技大学邓聚龙教授于1982年提出的,采用对数列建立微分方程的办法,对无规则的原始灰色数列进行分析和预测。

GM(1,1)预测模型[2,3]是灰色预测的基本模型,其建模过程如下:

设有非负原始时间序列

(1)由于原始数据序列是随机的,离散性很大,不能直接建立模型。因此,对原始时间序列数据作一次累加生成序列x(1)。

x(1)x(1)(1), x(1)(2), x(1)(3), , x(1)(n),其中

则称:

为GM(1,1)模型的原始形式。

(2)GM(1,1)建模是基于灰数白化理论,其基本形式是以平均的观念对数据序列的发展进行分析,即用x(1)的紧邻均值生成序列值,即用白化背景值z(1)(k) 0.5( x(1)(k) x(1)(k 1))来代替x(1)(k) ,由此得到GM(1,1)模型的基本形式及其白化微分方程

式中的模型参数a和b的值可由最小二乘法进行估计:

( 3 ) 根据模型参数值求解微分方程, 在初始条件x(1)(1) x(0)(1) 下,即可得方程解为:

(4)累减还原,确定模型预测值。

(5)模型精度检验。

灰色预测检验一般包括残差检验、关联度检验和后验差检验。残差检验是按点检

验,检验预测值与实际值的相符性。关联度检验是建立的模型与制定函数之间近似性的检验,后验差检验是残差分析统计特性的检验。常用的有残差检验和后验差检验。

①残差检验。残差大小检验,即对模型值和实际值的残差进行逐点检验。计算原始序列x(0)(i) 与预测序列的绝对误差序列与相对误差序列。

计算平均相对残差:

②后验差检验。即对残差分布的统计特性进行检验。

计算原始序列的平均值:

计算原始序列的标准差:

计算残差的平均值:

计算绝对误差序列的标准差:

计算方差比:

计算小误差概率:

若相对误差、后验差检验在允许精度的范围内,则可以用所建的模型进行预测。

2 灰色理论预测算法的实现

灰色预测模型在建模时,需要进行复杂的矩阵运算,Matlab是美国Mathworks公司研发的矩阵分析软件,可以很方便的对矩阵进行运算,是矩阵运算的最佳平台。用Matlab实现GM(1,1)模型的编程和预测,并将编制的灰色预测模型函数以m文件格式保存在Matlabwork子目录中,以便调用。函数主要的编辑程序如下:

(1)对原始时间序列数据作一次累加生成序列。

(2)由最小二乘法估计模型参数a和b的值。

(3)累加模型的预测结果及还原后的预测结果。

3 灰色理论预测算法的应用

苹果产业是陕西农村经济的支柱产业和特色优势产业。陕西苹果产业经过多年建设,已具有一定的规模优势和发展水平。但是长期以来,由于果农盲目扩大生产,苹果价格下降,果农收入增长缓慢甚至出现下滑,这已经严重影响了果农的生产积极性。

本文以陕西省2003—2014 年的苹果年产量为原始数据序列建立灰色预测模型,预测2015 年及以后苹果的年产量,为果农提供有价值的生产信息,帮助果农科学生产。数据来自于中国经济与社会发展统计数据库(中国统计年鉴)。

通过Matlab建立的灰色预测模型函数得到陕西省苹果年产量预测数据,如表2 所示。

参照灰色预测模型的精度检验等级表有:平均相对误差为0.035,小于0.05,预测精度为一级(优);后验差比值C=0.1139<0.35,预测精度为一级(优);小误差概率> 0.95,预测精度为一级(优)。因此,基于灰色GM(1,1)模型的苹果产量预测精度很高,适用于苹果的中、短期预测,为果农科学生产提供了理论依据。

4 总结

(1)时间序列数据挖掘就是从时间序列数据中提取信息和知识,主要用于预测。而灰色预测模型有其他预测模型所不具备的优势,就是以贫信息的小样本为研究对象。

(2)灰色预测模型为苹果产量预测提供了科学有效的理论方法,消除了果农生产的盲目性,为果农科学生产提供了依据。

(3)在Matlab下实现的灰色预测模型,除了可对苹果产量进行预测外,只要模型误差在允许范围内,也可对其它农产品产量进行预测,而且该模型简单,容易实现。

(4)此预测方法也有它的局限性,可通过进一步对算法的改进来提高此预测方法的精度和广泛性。

参考文献

[1]邓聚龙.灰色系统理论教程[M].华中理工大学出版社,1992.

[2]杨克磊,张振宇,和美.应用灰色GM(1,1)模型的粮食产量预测研究[J].重庆理工大学学报(自然科学),2015.

[3]李朝阳,魏毅.基于MATLAB灰色GM(1,1)模型的大气污染物浓度预测[J].环境科学与管理,2012.

[4]潘光江,冯幼贵,刑著荣等.基于GM(1,1)模型的EXCEL/VBA二次开发[J].北京测绘,2015.

时序数据挖掘 篇5

矿井瓦斯长期以来一直是困扰煤矿安全生产的一个非常棘手而又亟待解决的难点问题,准确地把握矿井瓦斯涌出的规律,对预防煤层瓦斯突出、瓦斯积聚超限和发生瓦斯爆炸等煤矿恶性事故,保证煤矿的安全生产,具有重要意义。为此,不少研究者及煤矿工程技术人员做了大量的工作,通过各种途径,从不同的角度对矿井瓦斯涌出规律进行研究,取得了一定的成效,但不甚理想。根据矿井瓦斯涌出各子系统的特点,本文将分形理论中的R/S分析方法引入该系统的研究,借助这一方法,分析瓦斯涌出量的变化趋势,并在给出变异点的基础上进行该时间序列的变异诊断。

1 R/S分析方法

一般来说,对于某个依时间变化而变化的物理量ε,设在时刻t1,t2,t3,…,ti处取得的相应值为ε1,ε2,ε3,…,εi。该时间序列的时间跨度为τ=ti-t1,在时间τ内,该时间序列的平均值为:

ε¯=1Νi=1Νεi (1)

t=ti时刻,物理量ε相对于平均值的累积偏差为X(tj,N)。

X(tj,Ν)=i=1j{εi-ε¯Ν} (2)

同一个N值所对应的最大X(t,N)值和最小X(t,N)值之差称为域,记为R

R(tΝ-t1)=R(τ)=maxdττΝX(t,Ν)-mindττΝX(t,Ν) (3)

霍斯特利用ε(t)的标准偏差S:

S=(1τi=1Ν{εi-ε¯Ν}2)1/2 (4)

对于εi,i=1,2,…,N是相互独立、方差有限的随机序列,即布朗运动,霍斯特和费勒证明了如下结果:

R(τ)/S(τ)=(πτ/2)H (5)

其中,H为霍斯特指数,H=1/2。

对于εi,i=1,2,…,N不是相互独立的分数布朗运动,可以证明:

R(τ)/S(τ)=()H (6)

由于一维布朗样本函数的霍斯特指数H与其分形维数D0之间有如下关系:

D0=2-H (7)

在求任意的一维布朗运动样本函数的分维值D0时,可以先对其数据用上述方法进行R/S分析,用线性回归方法从下式中算出H:

ln(R(τ)/S(τ))=Hlnc+Hlnτ (8)

进而由式(7)求出D0。分维值D0表示运动轨迹的不平滑和运动的激烈程度,所以对于一维布朗样本函数,随着H的减小,D0的增大,其运动轨迹的平滑程度越差,变化越激烈。可见,霍斯特指数H与分式布朗运动的分维密切相关,它表示分式布朗运动的持久性(或者反持久性),这从一个侧面阐明了霍斯特指数的意义[4]。霍斯特的研究表明,许多具有统计相关性质的时间序列具有自相似性,霍斯特指数H约为0.72,相应的分形维数D0约为1.28。而变量间不具有相关性的独立时间序列的H=0.5,D0=1.5。

2 应用分析

本文以我国北方某矿的掘进工作面的瓦斯涌出实测数据数为样本时间序列作为分式布朗函数的取值,εi(i=1,2,…,46)。

对所给序列进行R/S分析,并进行直线拟合,得到各时段瓦斯涌出分式布朗运动模型。样本的回归方程为:

R/S=0.936 5τ0.551 2 (9)

于是得到H=0.551 2,由于H>1/2,因此,该瓦斯涌出时间序列作为分式布朗运动的轨迹表现出持久性,用平均的观点看,表明瓦斯涌出数过去的一个增长趋势意味着将来的一个增长趋势,过去的一个减少趋势意味着将来的一个减少趋势。同时也暗示瓦斯涌出统计数据表现出了一定的非高斯性(非随机性)。

分形研究的是具有特定特征的无序系统,当分形的制约因素发生变化、分形发生变化,分维值也随之发生变化,由于HD0的直线关系,H的变化反映D0的变化,故H值发生较大变化处,即为制约系统的因素发生变异,此处就称为变异点。为此,我们分别以εi(i=10,11,…,N-10)为分界点将原始数据分为两部分(即以此点为前一部分的结束点和后一部分的起始点),对这两部分分别进行R/S分析,相应的指数H记为H1和H2,然后求出H1与H2之差的绝对值ΔH=|H1-H2|,逐个比较,找出ΔH值最大的那一点,则视该点为变异最大点,相应便可诊断出变异的年份。这一变异最大点是与所分析的其他样本点相比较而言的,因而是相对的。

在序号8对应的点处,|H1-H2|最大,即该瓦斯涌出时间序列变异点。同时,我们发现序号6,7,19变异性也较大。以诊断变异点8所对应的数据作为分段点,分别对前段数据和后段数据进行R/S分析并分段拟合,前段数据的指数H=0.759 1,其回归方程为:

R/S=0.701 1τ0.759 1 (10)

后段数据的指数H=0.598 2,回归方程为:

为进一步验证诊断结果的可靠性,将瓦斯涌出高峰期数据的分析结果与之比较,两者非常相似。这一点也同时说明瓦斯涌出高峰期的数据变化趋势基本上反映了瓦斯涌出数的变化趋势。

3结语

瓦斯涌出时间序列既不同于确定性时间序列,也相异于随机性时间序列。为了掌握瓦斯涌出在空间上的演变特性,更可靠地预测其发生趋势,选用相应的分析方法是非常重要的。本文首次将分形理论中的R/S分析方法应用于瓦斯涌出时间序列演变的趋势分析、变异诊断研究,丰富了我国瓦斯涌出控制研究的新途径,并实证表明该方法是可行的。

摘要:选取我国北方某矿掘进工作面的瓦斯涌出实测数据为样本,应用基于R/S分析的时序趋势方法和变异点诊断方法,分析了该时序数据的分形特征,并对其进行了变异点的识别,从而由一个新的角度研究了矿井瓦斯涌出的动态变化特征。

关键词:瓦斯,时间序列,分形,R/S分析,变异性

参考文献

[1]谢和平,薛秀谦.分形应用中的数学基础与方法[M].北京:科学出版社,1997.

[2]李水根,吴纪桃.分形与小波[M].北京:科学出版社,2002.

[3]马军海,盛昭瀚.基于非线性混沌时序的系统重构、预测技术及其应用[J].管理科学与系统科学研究新进展,2001(5):8.

时序数据挖掘 篇6

我国钢铁行业自全面发展循环经济以来的十多年时间里取得了显著成绩,但钢铁行业未来的资源、 能源与环境压力只增不减,钢铁行业的循环经济也将面临更为严峻的挑战,因此,对钢铁行业循环经济综合发展水平及发展趋势进行科学客观地评价与分析,将对政府相关政策的制定、行业循环经济着力点的确定具有十分重要的意义。

出于历史纵向及横向比较的需要,关于各类事物/现象的综合评价研究逐渐兴起,而综合发展指数的建立研究则是这一研究领域的一大分支。指数的概念最早源于物价指数的编制,用于度量物价的变化情况,随后被引入各个领域,其涵义与内容都发生了变化。就涵义而言,广义的指数是任何两个数值对比形式的相对数; 狭义的指数则是用来测定所有变量在不同时间 ( 或者空间) 条件下的综合变动情况,是一种特殊的相对数。按照指数所反映的内容的不同,可将其分为数量指数与质量指数,前者反映数量的变动水平,如产量指数,后者反映事物内涵数量的变动水平,如价格指数[1]。

目前学术界从构建指数的角度来综合评价行业循环经济发展状况的研究尚不多见。指数能够以最简洁的方式反映变量的相对变动情况,是一个凝练的评价值,易于被政府和大众所接受[2]。因此,本文拟通过构建钢铁行业循环经济发展指数 ( Steel Industry Circular Economy Development Index, 简称ISCEDI) ,对中国钢铁行业循环经济发展状况进行综合评价研究。ISCEDI是狭义概念上的质量指数,是在循环经济发展理论基础上,结合钢铁行业循环经济实践,通过对影响其发展的关键因素的有机整合, 来揭示钢铁行业循环经济发展状况与趋势的综合指标。

2 ISCEDI的构成指标设计

2. 1指标体系框架的设计思路

钢铁行业循环经济是一个复杂系统,对其不同特征进行全面考察需要考虑诸多因素,所以在确定评价内容与指标体系的层次结构时,既要考虑系统整体的复杂性,又要考虑系统要素的个性,同时也要明确评价的意义与评价结果的分析难易程度等。 钢铁行业循环经济评价内容应当重点突出以下几点:

( 1) 有明确的总体评价目标。无论钢铁行业循环经济系统的子系统如何划分、分别具有哪些特征, 对系统整体的评价目的都是为了考察现在或过去一段时间里系统的总体发展情况,该总体情况就是钢铁行业循环经济评价的最终结果。通过纵向对比不同年份的发展情况,可以总结出一般规律并可做进一步的分析。本文在确定钢铁行业循环经济评价指标体系时,用钢铁行业循环经济发展指数 ( ISCEDI) 来代表总体目标层次。

( 2) 关注循环经济的长期性。循环经济绩效的实现不是一蹴而就的,投资沉淀性、效益滞后性是循环经济的重要特征,因此,考察钢铁行业循环经济发展状况既要有对现有能力水平的考察,又要有对潜在的、能够影响未来循环经济发展水平的能力的考察,即发展潜力的考察。这正是对总体目标的分解,使得总体目标的实现思路更加清晰。将分解后的一级子目标统一定义为准则层,并用能力指数与潜力指数分别来表示。

( 3) 充分体现循环经济的原则与核心内涵。基于已有研究,本文认为钢铁行业发展循环经济不仅要遵循基本的 “3R” ( Reduce减量化、Reuse再利用、Recycle再循环) 原则,还应当包括无害化原则。循环经济的核心内涵则是可持续性。为了体现循环经济原则与核心内涵,有必要对能力指数与潜力指数的评价指标进一步细分,而 “3R”原则代表的减量化、再利用、再循环再加上无害化正能体现发展的能力,可持续则可体现发展的潜力,这里将它们定义为要素层。

( 4) 以钢铁行业循环经济现有研究及实践经验为基础。具体评价指标的确定除了要遵循指标选取的基本原则外,还需参考现有钢铁行业循环经济研究成果,尽量选取出现频次较高的指标,同时还要切实结合钢铁行业循环经济实践经验。

基于上述分析思路,搭建ISCEDI的指标体系框架,如图1所示。

2. 2指标选取

根据对现有文献研究和相关资料的分析及总结, 遵循指标选取与确定的原则,首先选择文献和资料中出现频次较高的指标确定了初步指标体系,然后咨询专家意见,对该指标体系进行增加或删减。经过反复调整与修正,ISCEDI的最终指标体系如表1所示。

3我国ISCEDI的测算

3. 1数据收集与处理

由于早些年中国的环境问题没有得到足够的重视,钢铁行业相关统计也较少,所以上述指标体系中个别指标缺少较早年份的统计数据,因此本文仅选取了2001—2012年的数据来考察中国钢铁行业连续12年的循环经济发展情况。数据主要来源于 《中国钢铁工业环保统计 ( 2006—2012年) 》、 《冶金大中型企业财务年报汇编 ( 2001—2012年) 》、 《中国钢铁统计 ( 2001—2012年) 》、2001—2012年历年12月的 《中国钢铁工业统计月报》、《钢铁工业统计年报 ( 2001—2012年) 》 等; 另外,也有极少的数据是来自网络搜索、文献查询。原始数据如表2所示。

3. 2权重确定

现有的行业循环经济评价研究中权重的确定方法主要有: 模糊层次分析法、专家咨询法、投影寻踪、主成分分析法等[3,4,5,6,7],这些方法或者主观性较强,或者对样本量有很高的要求。考虑本文的研究目的与数据特征,本文借鉴王道平[7]、穆瑞欣等[8]的研究,采用层次分析法与熵值法相结合的主客观综合赋权的方式确定指标权重。

3. 2. 1层次分析法赋权

层次分析 法 ( AHP, Analytical Hierarchy Process) 是由美国运筹学家Saaty等人在20世纪70年代提出的一种多目标、多准则决策方法,是一种主观赋权的方法。AHP法的计算步骤如下:

( 1) 建立层次分析结构模型。将决策问题分为3个或多个层次,层次的数量依决策问题的难易度以及元素的数量而定,一般遵循每个层次中的元素个数不超过9的原则。

( 2) 构造判断矩阵U = ( uij) n × n。对元素进行相对重要性比较,即本层元素对上层某一元素的相对重要性的两两比较。判断矩阵的形式如下:

在判断矩阵中,标度及含义如表3所示。

( 3) 层次单排序: 1) 计算判断矩阵中各行元素的乘积,即m) ; 3 ) 对方根进行归一化处理,得主特征向量W也就是相应元素单排序的权值; 4) 计算判断矩阵U的最大特征根 λmax,即5) 检验判断矩阵的一致性,判断矩阵的一致性由随机一致性比率来反映,其中,C. I. 为一致性指标,计算公式为n是矩阵阶数) ,R. I. 随机一致性指标,可通过查表获得,随机一致性指标取值如表4所示。

当CR < 0. 10时,认为判断矩阵U的一致性可以接受; 当CR≥0. 10时,认为U不符合一致性的要求,需对其进行重新调整,直到获得满意的一致性为止。

( 4) 层次总排序。层次总排序是指本层次所有元素相对于上一层元素的优劣排序。假定上一层所有元素A1,A2,…,Am的总排序已经确定,权值分别为a1,a2,…,am,与a1所对应的本层次元素B1,B2,…,Bn的单排序为 [bi1,bi2,…,bin],那么层次总排序如表5所示。

显然,。对层次总排序也要进行类似于层次单排序的一致性检验,即这里,C. I. 为与ai对应的B层次中的一致性指标,计算公式为与ai对应的B层次中的随 机一致性 指标, 计算公式R. I.=。当CR < 0. 10时,认为层次总排序的计算结果有满意的一致性,否则就需要对本层次的各判断矩阵进行重新调整,直至获得满意的一致性。

首先,确定层次分析结构,本文的层次分析结构如图2所示。

其次,构造判断矩阵。根据层次分析法的原理, 通过问卷和访谈的形式征询专家意见构造判断矩阵, 计算层次单排序、层次总排序。各层次单排序的随机一致性指标CR均小于0. 10,所以都具有满意的有效一致性。结果如表6所示。

计算CRT检验层次总排序的一致性,计算公式为:

经计算,CRT= 0. 0625 < 0. 10,因此层次总排序的计算结果也具有满意的一致性,即采用AHP法确定的指标权重是合理有效的。

3. 2. 2熵值法赋权

熵值法 ( Entropy Method) 是一种客观赋权方法。熵的概念最早源于热力学,后来被引入到控制论、天体物理、信息论等领域。在信息论中,信息熵则是系统无序程度的度量,其计算公式为H( x)其中p( xi) 为离散随机事件发生的概率。一个信息系统越是有序,其信息熵就越小; 反之,一个信息系统越是混乱,信息熵就越大。

熵值法正是运用信息熵工具,根据指标的相对变化程度对系统整体的影响来确定指标的权重。某项指标的熵值越小,说明其指标值的变异程度越大, 携带的信息量就越大,相应的,其权重就越大; 反之则相反。熵值法的计算步骤如下:

( 1) 原始数据的收集与整理。假设有m个评价对象和n项评价指标,形成原始数据矩阵: X = ( xij)m × n,即:

其中xij为第i个评价对象的第j项指标的数值。

( 2) 数据标准化处理。将xij进行标准化处理, 形成标准化后的矩阵为:

对于正向指标,取

对于逆向指标,取

( 3) 计算第j项指标的第i个评价对象的指标值的比重pij,即:,构建比重矩阵P = ( pij)m × n。

( 4) 计算第j项指标的熵值ej与信息效用值dj,即:

其中,k = ( lnm)- 1是与样本量m相关的一个常数,ej≥0。第j项指标的信息效用值dj= 1 - ej。

( 5) 计算第j项指标的权重1,2,…,n) 。

首先,本文样本量m = 12,于是k = ( lnm)- 1= ( ln 12)- 1= 0. 4024。

其次,按照熵值法的计算过程,根据计算公式求得各指标的信息熵值ej、信息效用值dj以及权重wj,结果如表7所示。

3. 2. 3组合赋权

由前文描述可知,AHP法在确定指标权重时更为方便,对特殊的评价目标也更具针对性,但由于层次分析法涉及专家打分,难免产生一定的主观性, 这时,用熵值法确定权重就显得更为客观。由于熵值法根据指标值的变异程度来计算指标权重,变异越大,该指标所赋权重就也越大,因此,在一些重要指标的指标值变异较小、非重要指标的指标值变异较大的情况下容易出现重要指标权重小、非重要指标权重大的不合理现象。基于以上两点考虑,本文采用两种方法相结合的赋权方法,主客观相结合会得到更加合理与精确的指标权重。

假设由层次分析法得到的第h项指标的权重为w(hA),由熵值法得到的第h项指标的信息效用值为d(hE),通过信息效用值对w(hA)进行调整,得到一个新的权重w(hT),计算公式为: w(hT)= w(hA)* d(kE),其中h = 1,2,…,n; 再将w(hT)进行归一化处理,得到最终组合赋权公式:其中h = 1,2,…,n。

用熵值法求得的信息效用值D( E)对AHP法确定的权重W( A)进行调整,求得各指标最终权重W( T), 结果如表8所示。

4评价结果与分析

4. 1指标权重分析

由钢铁行业循环经济发展指标权重可以得出: 减量化依然是钢铁行业发展循环经济的首要任务, 钢铁行业循环经济发展的可持续性也应得到足够重视。

从三级指标权重看,排名前5的指标中有4个指标对应要素层的减量化,另外1个指标对应要素层的可持续,其中可持续中的吨钢环保投入权重最高。这与循环经济研究领域中的统一观点———减量化是实现循环经济的前提相一致; 此外,尽管我国钢铁行业近些年在资源能源消耗方面取得了显著成绩,但与国际先进水平相比依然有很大差距,加之我国钢铁企业之间在装备、技术与管理等方面也是优劣并存,那些依然以落后设备为主的企业根本不可能真正实现循环经济,所以其余指标权重也就相对较低。

据了解,发达国家钢铁企业每年都在环保设施改造方面有较大投资,例如,日本、韩国的部分钢铁企业吨钢环保投入近70元,同时,每生产1吨钢还要增加130. 7 ~ 156. 5元的环保设施运行成本。比较而言,我国钢铁行业环保投入显然十分低; 如果再考虑到部分企业将环保相关补贴用于扩产,我国钢铁行业吨钢环保投入将更少。而环保投入是未来循环经济持续发展所必须的,这也是在采用AHP法确定指标权重时专家一致认为该项指标对钢铁行业循环经济发展有至关重要影响的原因。

4. 2指数结果分析

由于钢铁行业循环经济发展指数 ( ISCEDI) 反映的是一种各元素相互组合产生的效果,所以本文采用线性加权的数学模型对其进行测算,计算公式为:

其中,ISCEDI'i是第i年的钢铁行业循环经济发展指数值,rij是原始数据xij经标准化处理后的数据, wj*是采用组合赋权法获得的第j个指标的权重,n为指标层指标个数。

另外,为了更直观地了解我国钢铁行业循环经济发展的水平与趋势,把2001年钢铁行业循环经济发展指数值ISCEDI'2001作为基数,定义其指数为100, 以后各年的指数计算方法如下:

其中,g = 2002,2003,…,2011

基于数据标准化后的结果及最终权重,测算中国钢铁行业2001—2011年的ISCEDI与单项指数, 结果如表9、图3、图4所示。

由上述结果可知:

( 1) 我国的ISCEDI在研究期内呈波动式增长趋势,说明2001—2012年中国钢铁行业循环经济发展水平整体状况良好。

20世纪90年代后,我国钢铁行业日渐重视环保问题,开始重视环保投入、环保技术的应用和环保项目的实施,环保水平大幅提升,同时涌现出一批环保先进企业样板。进入21世纪后,钢铁行业环保要求提高、设备更新、技术进步、人员素质提升等使得行业循环经济发展水平进一步提升,表现为本研究中的ISCEDI呈逐年增加趋势。

2006年与2010年的ISCEDI较前一年下降,这与钢铁行业固定资产投资不无关系。统计资料显示, 2001—2005年间,我国钢铁行业固定资产投资为7 147. 3亿元,而仅2006年1年就为2 246. 5亿元; 此外,为了应对2008年的金融危机,我国政府实施了一系列的刺激经济增长的措施,投资总额增加4万亿元,这使得国内市场对钢材的需求量大增,进一步促使钢铁行业固定资产投资增加,2008年为3 920. 8亿元。这些投资催生了很多中小型钢铁企业, 而这些企业的新增生产能力中相当一部分属于落后装备,这些企业造成的能源损失、环境污染在一定程度上拉低了整个钢铁行业的循环经济发展水平。

( 2) 从发展能力角度分析,钢铁行业循环经济能力指数一直是上升趋势,与ISCEDI态势一致。值得注意的是,指数是个相对数,也就是说尽管十多年来我国钢铁行业循环经济发展能力显著提升,但倘若与国外各类节能、减排、降耗、再利用、再循环等指标进行比较,我国钢铁行业依然有一定差距, 发展能力依然有较大提升空间。

( 3) 从发展潜力角度分析,发展潜力在2001— 2006年为上升趋势,2006年后在波动中呈下降趋势。其中,2012年潜力指数较2011年有大幅下降, 这使得2012年的未能持续上升。中国钢协统计数据显示,2011年大中型钢铁企业亏损面达11. 69% , 2012年钢铁行业更是进入了全行业亏损状态。在这种情况下,尽管环保压力愈来愈大,但钢铁企业在环保方面的投入亦是尽可能压缩。结合前面对ISCEDI的分析,不难理解发展潜力为何有上述表现。但可预见的是,随着未来环保重视度的提升,符合 《钢铁行业规范条件》的钢铁企业名单的逐步公示, 部分钢铁企业为了自身的发展,将自愿或者不自愿地加大环保投入,再考虑到落后产能的淘汰、技术的进步等因素,潜力指数定会持续增加。

( 4) 伴随着公众环保意识的增强,以及我国环保法律法规、执法、监管的进一步到位,钢铁企业可钻的环保 “空子”会越来越少; 再加上钢铁行业产能严重过剩,钢铁企业也普遍进入了微利状态, 对这些企业而言,如果环保工作再出问题,那么就只有退出市场。由此可以推测,未来的ISCEDI、能力指数与潜力指数都将继续增加,并且会持续上升较长时间。

要素层指标计算结果如表10、图5所示。

由表9、图5可知,近些年中国钢铁行业在减量化、再利用两方面的水平一直在提升,其中减量化提升更为显著; 再循环在2002年之后基本呈下降趋势,2008年之后才缓慢增长; 可持续在2006年后基本呈下降趋势; 无害化则没有明显变化。首先,这一结果符合循环经济 “3R原则”的排序顺序,即减量化———再利用———再循环,今后在再利用、再循环方面可提升空间依然很大; 其次,可持续的趋势可能与前面ISCEDI的2006年、2010年的变化原因有关。可以预测,未来可持续的发展会是上升趋势。

5讨论与展望

时序数据挖掘 篇7

1 基于GEP的时间序列模型的建立

时间序列分为弱时间序列和强时间序列。其定义为对于时间序列{Xt}, ρk是其自相关系数, 如果对于任意的k小于阈值m (一般为15) 时, 总有ρk, ≥0.5, 则称{Xt}是关于m的弱变化时间序列, 否则为强时间序列[6~7]。弱变化时间序列的变化幅度较小, 可以利用Fibonacci加权平均滑动窗口预测法在对数据进行滤波后再预测;而强变化时间序列变化起伏较大, 可以利用差分平均预测法, 用n步相关序列来确定嵌入维, 可使预测结果表现更好。

2 应用实例

本文所采用的工程实例数据来源于石武客运专线 (郑州东站) SSZD-NO.2标段内的变形监测数据。本文选取了标段内路基填料期内20期的监测点数据, 把前10期数据作为训练数据, 后10期数据作为测试数据用于比较。选择基于绝对误差的适应度函数为变形数据的适应度函数。

从计算得到的标段内变形数据的自相关系数看, 该时间序列属于强时间序列, 因而可采用差分平均预测法对变形进行预测分析。为了更好地反应预测的效果, 本次试验分别采用传统滑动窗口预测法与差分平均预测法求解预测值, 以验证差分平均预测法的优势。在Matlab中试验两种算法, 将最后得到的两种方法预测结果与原始观测值的实验结果进行对比分析, 从图1可以看出实际观测值与传统滑动窗口预测值及差分平均预测值, 使用差分平均预测法与传统滑动窗口预测法在经过相同的进化代数进化后, 差分平均预测法的预测精度更高, 优势更明显。

3 结论

作为新一代的遗传算法, GEP可以针对时间序列的特性, 建立对时间序列的预测模型, 且依靠GEP强大的函数挖掘优势, 使时间序列预测的精度更高, 速度更快。本文借助基于GEP的时间序列预测模型对变形数据进行了处理, 从而验证了GEP在时序变形数据处理上应用的可行性和有效性。当然, 任何算法都存在着不足, 且面对动态变化的时间序列, 如何对GEP时间序列预测模型进行改进, 并与其它较优秀的预测模型进行比较, 将是下一步继续进行的工作。

参考文献

[1]林勋.时间序列分析在建筑物变形监测中的应用[D].吉林:吉林大学, 2005.

[2]袁昌茂.基于混沌时间序列的变形分析和预测[D].云南:桂林理工大学, 2010.

[3]周红斌.基于时间序列分析的地铁基坑变形监测数据处理方法研究[D].辽宁:东北大学, 2008.

[4]元昌安.基于GEP函数发现的智能模型库关键技术研究[D].四川:四川大学, 2006.

[5]梅红, 岳东杰.时间序列分析在变形监测数据处理中的应用[J].现代测绘, 2005 (6) :14-16.

[6]史玉峰, 孙保琪.时间序列分析及其在变形数据分析中的应用[J].金属矿山, 2004 (8) :13-15.

【时序数据挖掘】推荐阅读:

时序政策05-14

建筑时序05-15

时序模拟05-27

建设时序08-17

时序特征08-24

时序网络09-03

实现时序09-10

时序规划11-07

时序关系11-07

时序优化12-09

上一篇:铁路干部下一篇:网上投稿