大数据预测模型

2024-12-14

大数据预测模型(精选12篇)

大数据预测模型 篇1

摘要:对电能损耗进行预测的过程中,传统的预测方法,由于影响电能损耗的因素之间具有非常复杂的非线性与强相关性,导致很难得到高精度的预测结果。提出一种基于大数据分析的电能损耗预测模型,建立电能损耗预测单元模型,分析发电器模型、变电器模型和输电器模型建立的过程,引入灰色综合关联度对大数据进行分析,对各个组成区域序列累加得到整体区域电能损耗情况,并进行微分处理,通过GM(1,1)的转换实现对整体电能损耗预测模型的构建。仿真实验结果表明,所提模型具有较高的预测精度,能够很好地避免非线性因素对模型的干扰,为电力企业制定合理的电能损耗计划提供可靠依据。

关键词:大数据分析,电能损耗预测,灰度关联,仿真实验

0 引言

近年来,随着人们物质条件的逐渐发展,能源越来越紧缺,减少电能损耗成为亟需解决的问题[1⁃2]。随着电网运行管理的智能化,电能损耗计算对算法的精确程度要求越来越高,如何有效准确地进行电能损耗预测,对电网企业开展降损节能工作具有重要意义,其已经成为相关学者研究的重点课题[3⁃5]。目前,针对电能损耗的预测方法主要包括潮流方法、神经网络方法和支持向量机方法等,相关研究也取得了一定的成果。文献[6]提出一种基于BP神经网络的电能损耗预测模型,通过神经网络对电能损耗进行预测,但该方法存在局部收敛、收敛效率低以及隐含层神经元选择复杂等弊端,而且该预测模型还需要大样本容量。文献[7]提出一种基于潮流计算的电能损耗预测模型,该模型可在历史数据不多的前提下,获取电能损耗预测量的内在规律,但该模型仅在电力系统生产技术条件变化不大和影响电力系统电能损耗的因素不产生很大变化的前提下适用。文献[8]提出一种基于聚类分析和线性回归的电能损耗预测模型,通过K均值聚类将电损数据依据不同的特征进行分类,针对各数据类分别进行线性回归,通过线性回归模型实现电能损耗的预测,但该模型存在训练时间长的弊端。文献[9]提出一种基于粒子群算法和支持向量机的电能损耗预测模型,通过粒子群算法对支持向量机进行参数寻优,构建电能损耗预测模型,但该模型存在易陷于局部极小点的缺陷。文献[10]提出一种基于改进核心向量机的电能损耗预测模型,该模型将能耗的计算抽象成回归分析问题进行求解,将历史电损值构成样本集,将其作为源数据进行训练,从而实现电能损耗的预测,但该模型存在网络结构复杂的弊端,预测精度偏低。

本文提出一种基于大数据分析的电能损耗预测模型,对相关数据进行预处理,利用灰色综合关联度获取关键因素,得到该电网电能损耗变化的规律,通过GM(1,1)实现对电能损耗的预测。经实验验证,本文模型具有较高的预测精度,能够很好地避免非线性因素对模型的干扰。

1 电能损耗区域的原因分析

在电能损耗的计算过程中,发电器、变电器、输电器是产生电能损耗的主要部件;因此,对三个电器的电能损耗进行合理的分析,可以为下一步的预测工作打下较好的基础。

1.1 发电器电能损耗分析

发电器电能损耗是电能损耗的根本,其模型可通过惯性环节进行模拟,因为调制波的频率明显高于电网频率,在发电过程中产生一定的电能损耗情况,所以惯性延迟时间常数很小,变电器模型如图1 所示。

1.2 变电器电能损耗分析

变电器必须快速跟随参考电流的瞬态变化,其响应速度比输电器高得多,将输电器形成的电流看作是基准I ,通过一系列阶段,对变电器的电流进行控制,也就是形成参考电压U 。通过dp坐标的转换将参考电压U变成逆变器所需的参考电压Udp_ref,形成触发脉冲。所以,可分析变电器电能损耗的情况,变电器的损耗区如图2所示。发电机P1产生的电流为I2,电压为U2的电源,通过升压变压器处理形成电流为I12,电压为U12的电源,在电流不变的情况下经过电阻R把电压降至U2通过一定的降压变压器处理形成流为I3,电压变为U用,最终变为用户可用的安全电源。但在升压和降压时产生大量的电能损耗。

1.3 输电器电能损耗分析

输电器也是产生损耗的一个关键部件。由于变电器电能损耗预测模型的响应速度较慢,所以,在对输电器进行能耗分析的过程中,首先需完成对变电器电能损耗原理的分析。通过一阶惯性环节等效变电器的特性,将其称作是等效变电器,传递函数Geq(s) 是电流的等效,用于电压的控制回路中,完成变电器模型的等效处理,但是在等效过程中要充分考虑其电能损耗情况。则输电器电能损耗区域如图3 所示。

2 基于大数据分析的电能损耗预测模型

在得到以上3 个区域的能耗分析的基础上,提出一种基于灰度关联的大数据分析电能损耗预测模型,对整体的电能损耗情况进行预测建模,从数据演化过程、数据关联的角度实现对电能损耗的预测。

电网结构复杂,但是电能损耗是由第1 节中的3 个区域决定的,主要包括的参数有:线路电缆化率、绝缘化率、环网化率、线路截面、长度标准化率,配变、线路平均负载率和平均功率因素等。其中,只有部分因素对电能损耗起关键作用,利用灰色综合关联度(Gray Compre⁃hensive Relationship,GCR)对得到的大数据进行分析,得到该数据变化的规律,实现对电能损耗的预测模型的构建。灰色关联分析主要适用于对系统主行为特征序列数据和影响因素序列数据进行灰关联排序。本文中,通过电能损耗历史统计数据组成的系统主行为特征序列,得到与之对应的3 个区域参数等组成的影响因素可描述成:

式中,n用于描述序列中元素的数量。在进行灰色关联分析之前,首先需完成X0,Xi的一致性及等时距处理。如果影响因素序列Xi和主行为特征序列X0呈负相关,则需通过逆化算子Di对Xi进行操作,如果序列X(也就是X0或Xi)每一对相邻观测数据之间的时距全部一致,则将X称作等时距序列。通常影响因素确定的情况下,需要对电能损耗参数灰色关联进行分析。

灰色综合关联分析主要包括经典灰色关联度分析、灰色绝对关联度分析和灰色相对关联度分析。经典灰色关联度主要依据序列曲线间几何形状的相似程度获取关联度,随着曲线的逐渐接近,对应序列之间的关联度也逐渐增加。灰色绝对关联度只取决于序列的几何形状,不受其空间相对位置的影响。灰色相对关联度是序列相对于始点的变化速率的体现,二者变化速率越接近则关联度越大,相对关联度不仅能够在很大程度上避免环境的干扰,而且还凸显了因素间动态变化的相似性。

综上所述,经典灰关联泛化了电能损耗情况的关联共性;绝对关联反映了电能损耗的折线相似度;相对关联反映了电能损耗情况相对于始点的变化速率的接近程度。灰色综合关联度综合了上述特性,能够更加客观、充分地体现出以上3 个区域电能损耗关联关系。其表达式如下所示:

在上述计算的基础上,通过GM(1,1)对电能的损耗情况进行预测模型构建,模型构建的详细过程如下:

(1)对关联后的3 个区域电能损耗数据进行累加生成一阶线损率数据序列X(1)= x(1)(1),x(1)(2),⋯,x(1)(n) ,得到整体电能损耗数据。

(2)微分处理。最小二乘法就是通过最小化误差的平方和寻找数据的最佳函数,可以简便地求出未知的数据,并使得这些求出的数据与实际数据之间误差平方和最小。本文利用最小二乘法对整体电能损耗数据进行微分处理。

(3) 将微分处理后得到的电能损耗数据,通过GM(1,1)转换为电能损耗预测值,实现对电能损耗预测模型的建立,表达式如下所示:

3 仿真实验分析

为了验证本文提出的基于大数据分析的电能损耗预测模型的有效性,需要进行相关的实验分析。本文将神经网络模型作为对比,通过Matlab 7.0 进行仿真,将2003—2009 年某地的统计数据构建模型,用2010 年和2011 年的数据对模型进行检验。

如表1 所示为实验电网2003—2011 年的输入变量值及相应的实际线损率。

依据表1 描述的数据,输入2010 年和2011 年的相关参数,分别采用本文模型和神经网络模型对这两年的电能损耗进行预测,得到预测结果,同时和当年实际电能损耗结果进行比较,得到的结果如表2 所示。

分析表2 可知,采用本文模型拟合2003—2009 年某电网电能损耗的精度比传统神经网络模型的拟合精度更高,并且本文模型2010 年、2011 年度电能损耗预测结果与真实值非常接近,平均预测误差只有1.81%,远远小于传统神经网络的20.94%,说明本文模型更能满足实际需要,预测结果非常精确,验证了本文模型的有效性。为了进一步验证本文模型的有效性,对本文模型和神经网络模型的适应能力进行比较,得到的结果见图4。

分析图4 可以看出,本文模型和神经网络模型的适应度曲线均未和最佳适应度曲线完全吻合,但与传统神经网络模型相比,本文模型适应度曲线和最佳适应度曲线的整体趋势更加接近,说明本文模型具有更高的适应能力。而且本文模型在迭代次数为40 次时即趋于平缓,而神经网络模型在迭代次数为50 次时才逐渐趋于稳定,说明本文模型全局收敛能力强,进一步验证了本文模型的有效性。

4 结语

本文提出一种基于大数据分析的电能损耗预测模型,对相关数据进行预处理,给出数据间经典灰色关联度分析、灰色绝对关联度分析和灰色相对关联度分析。综合上述特性,利用灰色综合关联度获取关键因素,得到电能损耗变化规律,在此基础上,通过GM(1,1)灰色预测模型,依据往年电能损耗数据实现对未来电能损耗的预测。仿真实验结果表明,所提模型具有较高的预测精度,能够很好的避免非线性因素对模型的干扰,为电力企业制定合理的电能损耗计划提供可靠依据。

参考文献

[1]胡巧玲,茹金平.基于大数据分析的人口迁移量预测模型仿真[J].计算机仿真,2014,31(10):246-249.

[2]张勤,周步祥,林楠,等.基于灰色模型与神经网络组合的线损率预测[J].电力系统及其自动化学报,2013,25(5):162-166.

[3]周红艳,田丽,钱兆刚,等.基于连续隐Markov模型的理论线损率预测研究[J].南阳理工学院学报,2014(6):38-41.

[4]王静,田丽,夏坤,等.基于PSO-SVM模型的理论线损率预测研究[J].重庆工商大学学报(自然科学版),2013,30(8):55-58.

[5]艾解清,徐晖,魏理豪,等.基于最小二乘支持向量机算法的配电网线损自动计算模型[J].电力科学与工程,2014,30(z1):43-46.

[6]张光瑞.线损分析预测在供电管理中的应用[J].科技资讯,2013(22):164.

[7]王欣,张海岩,季崇军.线损分析预测在供电管理中的应用研究[J].大科技,2013(15):103.

[8]王艳丽.探讨线损分析预测在供电管理中的应用[J].科技风,2015(2):113.

[9]李滨,杜孟远,韦维,等.基于准实时数据的智能配电网理论线损计算[J].电力自动化设备,2014,34(11):122-128.

[10]王李,王宝,李泓泽.配电线路年理论线损率及其降损分析[J].陕西电力,2015,43(1):50-54.

大数据预测模型 篇2

此次双方合作的《2016十一出行预测大数据报告》在方向和深度上均超过以往,从国民假期出行最关心的“避堵”、“旅游”等问题入手,在三个核心领域进行多维度预测:出行路况全览、出行目的及趋势分析、人群画像描摹。双方利用各自优势,以资源整合、开放共享、大数据处理分析为重点,采取标准化及热点性服务,在往年基础问题预测的基础上,根据今年受众关注点进行其他条目预测,为受众假期出行提供全面指导。

人民网副总编辑董盟君表示,人民网长期关注国家大数据战略,推动数据资源开放共享,促进互联网大数据研究成果惠及人民群众。此次联合百度地图共同发布的《2016十一出行预测大数据报告》是开发利用大数据实用成果的又一次尝试。这份报告在研究舆论风向、民众心理变化的基础上,为广大群众提供了科学权威精准的出行参考,能够捕捉城市拥堵的规律,为未来公众交通出行政府决策提供有价值的参考。

百度地图开放平台总经理李志堂致辞道,百度与人民网此次联合发布的大数据报告,基于百度地图海量底层大数据,运用人工智能技术,为用户提供智慧出行的解决方案。百度地图作为用户最好的“智能出行管家”,力争通过更丰富多元的技术手段,为用户提供更完备的出行服务,彻底改变人们的旅行方式,提高人们的出行品质。

国庆出行高峰 返程高速拥堵最长7小时

十一出行时间呈现出规律性的集中现象。百度地图大数据显示,假期头尾两天均十分拥堵,假期中间时段路况相对较好。细化到具体时间节点,10月1日8点和10月7日16点的道路拥堵程度最高,建议大家错峰出行。

而作为省际、城际主要出行方式的高速公路方面,报告预测广州、四川、京津冀的高速公路或将最为拥堵,出城拥堵时段涵盖全天白天,返程拥堵时段集中在15点到22点。另外,收费站方面,京津冀收费站出城方向和江浙沪地区收费站返程方向预计拥堵程度或将最高,其中,上海徐泾收费站为拥堵之最。

公共交通方面依然保持节庆期间客流增大的常态。不过,郑州、南京、西安火车站本次黄金周期间客运量将会大幅增高。十一期间,郑州火车站、杭州东站、广州南站的客流较大,其中郑州火车站和西安站假期客流增长率将明显高于其他枢纽。

十一旅游热 古镇或遇冷 自然景观受追捧

大数据报告通过丰富海量的定位数据、行为数据、搜索数据的精确分析,对全国不同区域的人群做了出游目的地偏好统计,精准呈现了出行人群画像。北上广深依然是最热门的旅行目的地,而在全国热门景区Top20城市中,北京占比最高,可见国民对“帝都”的向往最甚。

数据显示,近年来火热的古镇游今年热度或将有所减退,与此同时,自然景观景点更受追捧,自驾游目的地也多以自然风光密集的西南地区为主,其中,九寨沟、稻城亚丁、西藏林芝、敦煌等位列自驾游最受欢迎的目的`地,青海湖、长白山、黄果树等大自然景观热度同样不低。

此外,大数据报告还针对各地饮食偏好进行了分析,通过对北京、上海、成都、西安等重点城市排位最靠前的特色餐饮类别比较得出,日本料理和川菜在多个城市中成为最受欢迎的餐饮类别,而在重点城市餐饮品牌的定位热度中,连锁品牌海底捞、外婆家表现突出,大量本土连锁餐饮品牌兴起。

纵观大数据报告对用户出行趋势的分析,相对于传统的把5A景区作出游首选,国民如今更倾向于特色深度游,深入旅行目的地的人文风俗当中。而在休闲娱乐活动方面,密室逃脱、油画体验等类型的休闲娱乐项目,热度上升。

百度大数据价值释放,助力国民智慧出行

《十一出行预测大数据报告》除了现象的全面描述和规律的准确提取之外,百度地图还专门针对大数据预测到的问题提供智慧化解决方案。比如,在国庆期间爆满的景区,用户常常会遇到景区厕所成“网红”、停车场停车难、当地美食难觅踪影等问题。为此,百度地图针对景区厕所排队问题,专门为用户标记附近的城市公厕、快餐店、商场等以解燃眉之急;针对景区停车问题,及时更新路况和车位信息,提供“附近停车定位+步行至景区”路线规划。

百度地图开放平台不仅可以提供海量数据来源,实现更精确的到店识别、基础位置描述、高室内精准定位、周边POI检索等服务,同时,数据结合云计算、图像识别等人工智能技术,二者合力驱动新一代的路况服务,也会产生更为精准和更加广泛的路况信息,客观产出有关于交通拥堵和人群出行特征的交通分析,为受众出行及政府部门社会研究提供了素材和指导意见。

大数据预测模型 篇3

摘要:针对当前城市道路行程时间的预测多限于单源数据且预测精度不高的问题,构建了基于浮动车GPS数据、微波检测器交通数据的行程时间预测融合模型.利用遗传算法优化小波神经网络,解决了小波神经网络初始参数选取时盲目与随机性问题,大大提高了网络搜索效率与训练速度.预测行程时间与视频观测数据吻合良好,表明该模型是有效的和可靠的.

关键词:数据融合;行程时间;预测模型;小波神经网络;遗传算法

中图分类号:U121 文献标识码:A

在交通运营与管理中,高效的出行信息与路径诱导系统将发挥越来越重要的作用[1].行程时间作为其中的关键参数,能够为交通状态估计和城市路网拥堵情况的发布提供数据参考[2].同时,行程时间是衡量路段通行效率和延误的重要依据,是反映路段交通状态的直接指标,在智能交通系统中有着广泛应用[3].目前,行程时间的预测研究大都局限于单一交通数据源,由于单源交通数据受采集仪器的精度、采集方法、样本量、人为误差等影响,因而预测精度不稳定.而多源交通数据的融合,可以弥补单源数据的诸多不足,提高预测精度.本文提出利用GPS浮动车数据与微波检测器交通数据进行融合,建立行程时间数据融合模型.

目前,数据融合方法主要有以下几种[4]:加权平均法、卡尔曼滤波、Bayes方法、统计决策理论、选举决策法、模糊集理论、神经网络等.其中,神经网络具有较强的学习能力,其内部结构本质上是并行的,与数据融合的结构一致,因此具有较大的优势.

本文拟采用小波神经网络建立数据融合预测模型,同BP神经网络相比,小波神经网络具有更强的信息提取、非线性逼近和容错能力[5],但它存在初始参数随机选取的盲目性、易形成局部极小值而得不到整体最优值等问题[6].遗传算法可以用来优化小波神经网络的初始网络参数,弥补小波神经网络自身的不足.遗传算法与神经网络的有机结合[7],将其用于数据融合可以提高模型的收敛速度与泛化能力.

3)视频数据

视频数据调查时,将两台摄像机分别置于实验路段起迄点,同时开始拍摄.调查后同时在计算机上播放两测点的录像,从起点视频中记下车型、车牌、外廓、颜色等特征及车辆通过起点断面的时间,然后在终点视频中寻找该车,并同时记录车辆通过终点断面的播放时间,前后时间差即为该车通过调查路段的行程时间.

1.2数据的时空匹配及方法

1)时间匹配

本文采集的出租车GPS数据、微波数据及视频数据虽是同一天的交通流数据,但微波检测与视频数据采集的是早晚高峰时间段内的数据,而出租车GPS数据都是全天候的交通流数据,所以有必要依据微波与视频数据的调查时间挑选出对应时段的出租车GPS数据,这样多源数据反映的就是同一时间段的交通流信息.由于每条GPS数据记录都有接收的时间,通过excel筛选可以很方便进行时间匹配.

2)空间匹配

空间匹配是指多源交通流数据必须反映的是同一地点的交通流信息,这样进行融合才有意义.空间匹配原则是以视频与微波数据的采集现场来筛选相应道路的出租车GPS数据.首先确定视频与微波数据的采集路段的经纬度范围,如图1所示,然后用excel筛选出与采集路段相匹配的出租车GPS数据.

从图5中可以看出,GPS出租车得到的行程时间与视频观测值相比偏低,误差超过了目标阈值15%的范围.原因在于出租车频繁超车,车速高于路段车流.而微波检测器得到的行程时间大于视频观测值,误差超过15%的范围.究其原因在于实验路段大客车、大货车较多,遮挡了车流中部分小汽车,造成小汽车数据漏检.而融合后的行程时间与视频观测数据吻合性良好,误差在8%以内,满足目标阈值15%的要求.相比GPS出租车数据或微波检测器数据,融合后的行程时间在准确度和稳定性方面都有了很大提高.

4结语

本文提出了基于交通数据融合技术的行程时间预测模型,弥补了单源交通数据预测行程时间精度不高的缺陷.利用遗传算法优化小波神经网络的权值、平移因子、伸缩因子,解决了小波神经网络初始参数选取时盲目与随机性问题,大大提高了小波神经网络搜索效率与训练速度.融合后的行程时间与视频观测数据吻合性良好,表明行程时间预测的数据融合模型是有效可靠的.

参考文献

[1]邹亮,徐建闽,朱玲湘,等.基于浮动车移动检测与感应线圈融合技术的行程时间估计模型[J].公路交通科技,2007,24(6):114-117.

[2]聂庆慧,夏井新,张韦华.基于多源ITS数据的行程时间预测体系框架及核心技术[J].东南大学学报:自然科学版,2011,41(1):199-204.

[3]徐天东,孙立军,郝媛.城市快速路实时交通状态估计和行程时间预测[J].同济大学学报:自然科学版,2008,36(10):253-260.

[4]石章松.目标跟踪与数据融合理论及方法[M].北京:国防工业出版社,2010.

[5]张冬至,胡国清.基于遗传优化小波神经网络逆模型的油水测量[J].光学精密仪器,2011,19(7):183-189.

[6]宋清昆,王建双,王慕坤.基于遗传算法的小波神经网络控制器设计[J].电机与控制学报,2010,14(4):102-108.

[7]周昌能,余雪丽.基于BP网络的权值更新快速收敛算法[J].计算机应用,2006,26(8):1940-1942.

[8]王楠,李成文,李岩.基于神经网络的数据融合方法[J].光机电信息,2010,27(3):36-39.

[9]宗刚,刘文芝,张超,等.基于家庭决策的出行方式选择非集计模型[J].湖南大学学报:自然科学版,2013,40(4):100-103.

[10]巩敦卫.交互式遗传算法原理及其应用[M]. 北京:国防工业出版社,2007.

[11]SRINIVAS M,PATNAIK L M. Adaptive probabilities of crossover and mutation in genetic algorithms[J]. IEEE,1994,24(4):656-657.

[12]HOLM P, TOMICH D, SLOBODEN J, et al. Traffic analysis toolbox volum IV: guidelines for applying CORSIM, microsimulation modeling software[M]. Washington D C: Federal Highway Administration, 2007:117-216.

摘要:针对当前城市道路行程时间的预测多限于单源数据且预测精度不高的问题,构建了基于浮动车GPS数据、微波检测器交通数据的行程时间预测融合模型.利用遗传算法优化小波神经网络,解决了小波神经网络初始参数选取时盲目与随机性问题,大大提高了网络搜索效率与训练速度.预测行程时间与视频观测数据吻合良好,表明该模型是有效的和可靠的.

关键词:数据融合;行程时间;预测模型;小波神经网络;遗传算法

中图分类号:U121 文献标识码:A

在交通运营与管理中,高效的出行信息与路径诱导系统将发挥越来越重要的作用[1].行程时间作为其中的关键参数,能够为交通状态估计和城市路网拥堵情况的发布提供数据参考[2].同时,行程时间是衡量路段通行效率和延误的重要依据,是反映路段交通状态的直接指标,在智能交通系统中有着广泛应用[3].目前,行程时间的预测研究大都局限于单一交通数据源,由于单源交通数据受采集仪器的精度、采集方法、样本量、人为误差等影响,因而预测精度不稳定.而多源交通数据的融合,可以弥补单源数据的诸多不足,提高预测精度.本文提出利用GPS浮动车数据与微波检测器交通数据进行融合,建立行程时间数据融合模型.

目前,数据融合方法主要有以下几种[4]:加权平均法、卡尔曼滤波、Bayes方法、统计决策理论、选举决策法、模糊集理论、神经网络等.其中,神经网络具有较强的学习能力,其内部结构本质上是并行的,与数据融合的结构一致,因此具有较大的优势.

本文拟采用小波神经网络建立数据融合预测模型,同BP神经网络相比,小波神经网络具有更强的信息提取、非线性逼近和容错能力[5],但它存在初始参数随机选取的盲目性、易形成局部极小值而得不到整体最优值等问题[6].遗传算法可以用来优化小波神经网络的初始网络参数,弥补小波神经网络自身的不足.遗传算法与神经网络的有机结合[7],将其用于数据融合可以提高模型的收敛速度与泛化能力.

3)视频数据

视频数据调查时,将两台摄像机分别置于实验路段起迄点,同时开始拍摄.调查后同时在计算机上播放两测点的录像,从起点视频中记下车型、车牌、外廓、颜色等特征及车辆通过起点断面的时间,然后在终点视频中寻找该车,并同时记录车辆通过终点断面的播放时间,前后时间差即为该车通过调查路段的行程时间.

1.2数据的时空匹配及方法

1)时间匹配

本文采集的出租车GPS数据、微波数据及视频数据虽是同一天的交通流数据,但微波检测与视频数据采集的是早晚高峰时间段内的数据,而出租车GPS数据都是全天候的交通流数据,所以有必要依据微波与视频数据的调查时间挑选出对应时段的出租车GPS数据,这样多源数据反映的就是同一时间段的交通流信息.由于每条GPS数据记录都有接收的时间,通过excel筛选可以很方便进行时间匹配.

2)空间匹配

空间匹配是指多源交通流数据必须反映的是同一地点的交通流信息,这样进行融合才有意义.空间匹配原则是以视频与微波数据的采集现场来筛选相应道路的出租车GPS数据.首先确定视频与微波数据的采集路段的经纬度范围,如图1所示,然后用excel筛选出与采集路段相匹配的出租车GPS数据.

从图5中可以看出,GPS出租车得到的行程时间与视频观测值相比偏低,误差超过了目标阈值15%的范围.原因在于出租车频繁超车,车速高于路段车流.而微波检测器得到的行程时间大于视频观测值,误差超过15%的范围.究其原因在于实验路段大客车、大货车较多,遮挡了车流中部分小汽车,造成小汽车数据漏检.而融合后的行程时间与视频观测数据吻合性良好,误差在8%以内,满足目标阈值15%的要求.相比GPS出租车数据或微波检测器数据,融合后的行程时间在准确度和稳定性方面都有了很大提高.

4结语

本文提出了基于交通数据融合技术的行程时间预测模型,弥补了单源交通数据预测行程时间精度不高的缺陷.利用遗传算法优化小波神经网络的权值、平移因子、伸缩因子,解决了小波神经网络初始参数选取时盲目与随机性问题,大大提高了小波神经网络搜索效率与训练速度.融合后的行程时间与视频观测数据吻合性良好,表明行程时间预测的数据融合模型是有效可靠的.

参考文献

[1]邹亮,徐建闽,朱玲湘,等.基于浮动车移动检测与感应线圈融合技术的行程时间估计模型[J].公路交通科技,2007,24(6):114-117.

[2]聂庆慧,夏井新,张韦华.基于多源ITS数据的行程时间预测体系框架及核心技术[J].东南大学学报:自然科学版,2011,41(1):199-204.

[3]徐天东,孙立军,郝媛.城市快速路实时交通状态估计和行程时间预测[J].同济大学学报:自然科学版,2008,36(10):253-260.

[4]石章松.目标跟踪与数据融合理论及方法[M].北京:国防工业出版社,2010.

[5]张冬至,胡国清.基于遗传优化小波神经网络逆模型的油水测量[J].光学精密仪器,2011,19(7):183-189.

[6]宋清昆,王建双,王慕坤.基于遗传算法的小波神经网络控制器设计[J].电机与控制学报,2010,14(4):102-108.

[7]周昌能,余雪丽.基于BP网络的权值更新快速收敛算法[J].计算机应用,2006,26(8):1940-1942.

[8]王楠,李成文,李岩.基于神经网络的数据融合方法[J].光机电信息,2010,27(3):36-39.

[9]宗刚,刘文芝,张超,等.基于家庭决策的出行方式选择非集计模型[J].湖南大学学报:自然科学版,2013,40(4):100-103.

[10]巩敦卫.交互式遗传算法原理及其应用[M]. 北京:国防工业出版社,2007.

[11]SRINIVAS M,PATNAIK L M. Adaptive probabilities of crossover and mutation in genetic algorithms[J]. IEEE,1994,24(4):656-657.

[12]HOLM P, TOMICH D, SLOBODEN J, et al. Traffic analysis toolbox volum IV: guidelines for applying CORSIM, microsimulation modeling software[M]. Washington D C: Federal Highway Administration, 2007:117-216.

摘要:针对当前城市道路行程时间的预测多限于单源数据且预测精度不高的问题,构建了基于浮动车GPS数据、微波检测器交通数据的行程时间预测融合模型.利用遗传算法优化小波神经网络,解决了小波神经网络初始参数选取时盲目与随机性问题,大大提高了网络搜索效率与训练速度.预测行程时间与视频观测数据吻合良好,表明该模型是有效的和可靠的.

关键词:数据融合;行程时间;预测模型;小波神经网络;遗传算法

中图分类号:U121 文献标识码:A

在交通运营与管理中,高效的出行信息与路径诱导系统将发挥越来越重要的作用[1].行程时间作为其中的关键参数,能够为交通状态估计和城市路网拥堵情况的发布提供数据参考[2].同时,行程时间是衡量路段通行效率和延误的重要依据,是反映路段交通状态的直接指标,在智能交通系统中有着广泛应用[3].目前,行程时间的预测研究大都局限于单一交通数据源,由于单源交通数据受采集仪器的精度、采集方法、样本量、人为误差等影响,因而预测精度不稳定.而多源交通数据的融合,可以弥补单源数据的诸多不足,提高预测精度.本文提出利用GPS浮动车数据与微波检测器交通数据进行融合,建立行程时间数据融合模型.

目前,数据融合方法主要有以下几种[4]:加权平均法、卡尔曼滤波、Bayes方法、统计决策理论、选举决策法、模糊集理论、神经网络等.其中,神经网络具有较强的学习能力,其内部结构本质上是并行的,与数据融合的结构一致,因此具有较大的优势.

本文拟采用小波神经网络建立数据融合预测模型,同BP神经网络相比,小波神经网络具有更强的信息提取、非线性逼近和容错能力[5],但它存在初始参数随机选取的盲目性、易形成局部极小值而得不到整体最优值等问题[6].遗传算法可以用来优化小波神经网络的初始网络参数,弥补小波神经网络自身的不足.遗传算法与神经网络的有机结合[7],将其用于数据融合可以提高模型的收敛速度与泛化能力.

3)视频数据

视频数据调查时,将两台摄像机分别置于实验路段起迄点,同时开始拍摄.调查后同时在计算机上播放两测点的录像,从起点视频中记下车型、车牌、外廓、颜色等特征及车辆通过起点断面的时间,然后在终点视频中寻找该车,并同时记录车辆通过终点断面的播放时间,前后时间差即为该车通过调查路段的行程时间.

1.2数据的时空匹配及方法

1)时间匹配

本文采集的出租车GPS数据、微波数据及视频数据虽是同一天的交通流数据,但微波检测与视频数据采集的是早晚高峰时间段内的数据,而出租车GPS数据都是全天候的交通流数据,所以有必要依据微波与视频数据的调查时间挑选出对应时段的出租车GPS数据,这样多源数据反映的就是同一时间段的交通流信息.由于每条GPS数据记录都有接收的时间,通过excel筛选可以很方便进行时间匹配.

2)空间匹配

空间匹配是指多源交通流数据必须反映的是同一地点的交通流信息,这样进行融合才有意义.空间匹配原则是以视频与微波数据的采集现场来筛选相应道路的出租车GPS数据.首先确定视频与微波数据的采集路段的经纬度范围,如图1所示,然后用excel筛选出与采集路段相匹配的出租车GPS数据.

从图5中可以看出,GPS出租车得到的行程时间与视频观测值相比偏低,误差超过了目标阈值15%的范围.原因在于出租车频繁超车,车速高于路段车流.而微波检测器得到的行程时间大于视频观测值,误差超过15%的范围.究其原因在于实验路段大客车、大货车较多,遮挡了车流中部分小汽车,造成小汽车数据漏检.而融合后的行程时间与视频观测数据吻合性良好,误差在8%以内,满足目标阈值15%的要求.相比GPS出租车数据或微波检测器数据,融合后的行程时间在准确度和稳定性方面都有了很大提高.

4结语

本文提出了基于交通数据融合技术的行程时间预测模型,弥补了单源交通数据预测行程时间精度不高的缺陷.利用遗传算法优化小波神经网络的权值、平移因子、伸缩因子,解决了小波神经网络初始参数选取时盲目与随机性问题,大大提高了小波神经网络搜索效率与训练速度.融合后的行程时间与视频观测数据吻合性良好,表明行程时间预测的数据融合模型是有效可靠的.

参考文献

[1]邹亮,徐建闽,朱玲湘,等.基于浮动车移动检测与感应线圈融合技术的行程时间估计模型[J].公路交通科技,2007,24(6):114-117.

[2]聂庆慧,夏井新,张韦华.基于多源ITS数据的行程时间预测体系框架及核心技术[J].东南大学学报:自然科学版,2011,41(1):199-204.

[3]徐天东,孙立军,郝媛.城市快速路实时交通状态估计和行程时间预测[J].同济大学学报:自然科学版,2008,36(10):253-260.

[4]石章松.目标跟踪与数据融合理论及方法[M].北京:国防工业出版社,2010.

[5]张冬至,胡国清.基于遗传优化小波神经网络逆模型的油水测量[J].光学精密仪器,2011,19(7):183-189.

[6]宋清昆,王建双,王慕坤.基于遗传算法的小波神经网络控制器设计[J].电机与控制学报,2010,14(4):102-108.

[7]周昌能,余雪丽.基于BP网络的权值更新快速收敛算法[J].计算机应用,2006,26(8):1940-1942.

[8]王楠,李成文,李岩.基于神经网络的数据融合方法[J].光机电信息,2010,27(3):36-39.

[9]宗刚,刘文芝,张超,等.基于家庭决策的出行方式选择非集计模型[J].湖南大学学报:自然科学版,2013,40(4):100-103.

[10]巩敦卫.交互式遗传算法原理及其应用[M]. 北京:国防工业出版社,2007.

[11]SRINIVAS M,PATNAIK L M. Adaptive probabilities of crossover and mutation in genetic algorithms[J]. IEEE,1994,24(4):656-657.

大数据预测模型 篇4

电力工业是我国的基础性能源产业,也是关系到国计民生的基础产业。随着社会经济的快速发展,各行各业对于电力资源的需求与日俱增。目前,智能电网系统已经成为电力企业的“中枢神经”,支撑着新一代电力生产和管理的发展。其中对电力资源的合理调度与分配的重要性不言而喻,这就需要对电力需求进行预测以满足日益增长的需求。

针对电力数据的时序性特点,时间序列预测的方法成为了首选,而根据电力大数据中大工业用电量呈现出季节性变化的这一特点,相应地就需要选择时间序列分析中常用的Holt-Winters方法来实现预测任务。

1 时间序列

时间序列分析不仅可以从数量上揭示某一现象的发展规律,还可以从动态的角度刻画某一现象与其他现象之间的内在数量关系及其变化规律,并且,时间序列分析通过运用时序模型可以预测和控制现象的未来行为,从而修正或重新设计系统以达到利用和改造客观世界的目的。

一般把时间序列分为系统性部分和非系统性部分。系统性部分一般由三种成分构成:水平、趋势和季节性。非系统性成分即为噪声部分,或者称为不规则变动(又称随机扰动),它是由测量误差或者其他无法解释的因素引起的。任何时间序列在某种程度上都有噪声因素。

系统性部分是时间序列的规律性部分,可以通过分析来获取,因此是可以预测的。而噪声部分是无规律的,它是由突发或偶然事件引起的变动,因此不规则变动是无法进行预测的。水平是指时间序列的平均值。趋势性成分是指时间序列在一个长时期内受基本因素的影响随时间变化而增大或减小的趋势。季节性成分是指时间序列在一个长时期内重复出现的波动。每一个时间序列都具有水平这一成分,但不是所有的时间序列都具有趋势或者季节性。

2 Holt-Winters模型

Holt-Winters模型的基本思想是将具有线性趋势、季节变动和随机变动的时间序列进行分解,并与指数平滑法相结合,分别对长期趋势、趋势的增量和季节变动做出估计,然后建立预测模型并外推预测值。

2.1 模型构建原理

Holt-Winters模型(三次指数平滑)适用于带有趋势和季节性的时间序列预测。Holt-Winters加法模型和乘法模型分别如下:

(1)加法模型:

(2)乘法模型:

式中,α、β、γ分别为水平平滑系数、趋势平滑系数、季节性平滑;k为外推预测时期数;p为周期长度。

其中,0≤β≤1,0≤γ≤1。

加法模型适合于季节性变化处于比较稳定的情况,而乘法模型则适用于季节性变换呈现出成比例变化特点的情况。

2.2 初始化参数的确定

(1)初始化水平值:

(2)初始化趋势值:

(3)初始化季节性值:先计算出所给时间序列包含的周期数,然后计算出相应周期内时间序列值的平均值。对于加法模型,需要将时间序列各个时刻对应的实际值减去相应周期内的平均值得到每个时刻的差值,而对于乘法模型,需要将时间序列各个时刻对应实际值除以相应周期内的平均值得到每个时刻的比值,再将计算得到的每个周期内对应同一个时刻的差值或比值进行平均得到第一个周期的初始化季节性值。

2.3 算法流程图

算法流程如图1所示。

3 数据分析与预测

以东莞市2012年1月—2016年7月大工业历史月用电量为基础,对2014—2016年期间的大工业月用电量进行预测。

从定性的角度分析,依据大工业用电量的走势来看,可以很直观地看到预测的效果。从图2中可以得知,实际数据与预测数据拟合程度较好,由此可以推断出预测结果具有一定的预测价值。

从定量的角度分析,依据大工业用电量的预测值与实际值的相对误差来看,相对误差平均值在0.07%左右,如表1所示,由此可以说明预测结果具有一定的应用价值。

值得说明的是,使用Holt-Winters预测出的结果,其拟合程度的优劣还跟历史数据变化是否稳定有关。通常情况下,若历史数据的变化呈现出一定的规律,该预测方法往往能捕捉到这一规律,否则会出现误差较大的情况。

4 结语

通过使用MATLAB语言实现了对Holt-Winters算法的编程,并使用简化后的“穷举法”以最小均方误差作为选取标准得到最优的平滑系数组合,而在此应用实例中计算出的水平平滑系数为0.1,趋势平滑系数为0.1,季节性平滑系数为0.9。预测结果的相对误差均值保持在0.07左右,表明该时间预测模型具有较好的预测精度和应用价值。

摘要:针对电力大数据中大工业用电量呈现出季节性变化的特点,先选择Holt-Winters方法建立时间序列预测模型,然后选取最优的平滑系数组合以确保预测的精度,再使用相对误差来估计建立的预测模型在大工业用电量预测中的性能,最后通过具体的应用实例说明该时间序列预测模型具有较好的预测精度和应用价值。

关键词:电力,时间序列,Holt-Winters模型,算法,预测

参考文献

[1]格雷特,李洪成.时间序列预测实践教程[M].北京:清华大学出版社,2012.

[2]张琼,张爱华.霍尔特指数平滑法在商品销量预测中的应用[J].市场论坛,2012(3):70-71.

[3]张明光,张钰,陈晓婧,等.基于Holt-Winter超短期负荷预测的配电网状态估计算法[J].兰州理工大学学报,2016,42(2):92-96.

[4]孔令杰.Matlab在心电信号时间序列分析中的应用[J].高师理科学刊,2014,34(6):32-34.

大数据预测模型 篇5

系统的设计关键在于海量数据的实时采集获取、统计分析处理和存储,目的在于实现统计信息资源的共享。基于Hadoop的层次化统计分析模型如图2所示,自上而下包括云平台应用层、逻辑与接口层、计算层、文件系统管理层、物理资源层。

图2基于Hadoop的层次化统计分析模型 物理资源层:负责管理平台的基础设施,为平台提供物理设施,除包含分布式集群、数据采集终端、基础网络外,还包括围绕应用相关的基础组件。

文件系统管理层:主要用于存储数据文件和日志文件,同时具备高可用数据备份功能。该层主要采用HDFS分布式存储,提供很强的数据吞吐能力。针对不同的数据统计终端,该层设计使用不同的操作系统,以便于数据的统一性。

计算层是该统计模型的核心层,所有的运算机制和数据处理任务都在该层完成。其基础框架是基于Hadoop MapReduce并行计算框架,采用对数据 “分而治之”的方法来完成并行化的大数据统计分析工作,用Map和Reduce函数提供两个高层的并行编程抽象模型和接口,工作人员只需要实现这两个基本接口即可快速完成并行化数据处理程序设计。此外该层还包含了Hadoop平台的流数据处理storm和实时处理spark,用于对数据源的实时分析处理和更新,以满足统计部门的高效快速响应要求。

大数据:把预测从艺术变成科学 篇6

中国是数据生产的大国,也将是可以从大数据中受益最多的国家之一。还是IDC提供的数据,截止到2012年6月,中国有近3.9亿的移动客户、5.3亿的互联网客户。在一个中等规模的智能城市中,每个季度就可能产生出200PB的视频数据(如果以一个笔记本电脑存储200GB,那就是100万台笔记本电脑所能够存储的数据)。不过,其中究竟蕴藏着多少宝藏,还有待人们利用大数据相关技术来挖掘。这也正是大数据的魅力所在。

大数据的魅力

引发大数据热的根本原因是它能为我们开启一个新的可能,简单地说,就是让我们认识所不认识的、了解我们从未了解的,从而让我们从此前模糊的决策,变成有理有据的科学决策。多少年来,由于技术手段的限制,我们对世界的认识都是采用抽样方法,然而大数据却为我们提供了一种新的方法,让我们可以进行全样本研究。

现实中,越来越多的用户正在从大数据技术中受益。比如,北京百分点信息科技有限公司(以下称百分点)推出了一种名为个性化搜索引擎的工具,库巴等电子商务公司利用它来分析访客的点击行为,找出访客的偏好、进行产品推荐。还有,可口可乐正在通过大数据技术处理其销售数据,来分析世界各地对各种口味的饮料的偏好,从而对各种饮料进行生产资料规划,以及新产品研发。更为人们熟知的案例是奥巴马在新一任美国总统大选中利用大数据技术随时了解选民的倾向,从而开展针对性的工作,帮助他最终胜选。

未来,还有更多的大数据案例会不断涌现。与此同时,“大数据是大忽悠、大谎言”的说法也不绝于耳,甚至也引来科学界的质疑,在互联网广为流传的《大数据的诅咒(The curse of big data)》引发了业界关于“大数据好还是小数据好”的讨论。

然而这些疑问挡不住厂商们的热情。传统的IT大佬们纷纷在大数据领域投入巨资:大数据已经成为IBM今年最主要的市场战略,IBM推出拥有4大核心能力的大数据平台,即Hadoop系统、流计算(Stream Computing)、数据仓库和信息整合与治理;甲骨文推出了软硬一体的大数据库机,其中内置了Cloudera版的Hadoop;SAP以其HANA为切入点,试图在大数据市场分一杯羹;微软推出了自己的Hadoop发行版本。另外,Intel、EMC等很多厂商也都在大数据方面有不小的投入。今年年初,EMC把其Greenplum等大数据业务独立,与VMware的从事应用开发的部分合并,成立了Pivotal公司,专门针对大数据市场。

除了传统IT大佬之外,市场还有很多难以计数的初创公司,尽管这些公司不大,也许持续时间不长,但专注于大数据业务,对于大数据市场而言,它们同样也是不可或缺的一部分。

从BI到大数据

在大数据概念出现之前,在市场也有一个类似的概念红极一时,至今长盛不衰,这就是商业智能,而眼下显然大数据的风头要胜过商业智能。实际上,这两者是一脉相承的。因为大数据是以海量数据的处理和分析,发现数据背后的本质,增加企业洞察力为目的而诞生的,而这与商业智能的目的基本一致,从这个意义上说,两者之间就存在着必然的联系。毕竟,获得洞察才是我们的目标。

业内专家的建议,可以把大数据看成是传统数据库、数据仓库以及商业智能这些概念的外延和扩展可能,特别是把大数据应用到传统企业中,这一点可能更为明显。因为大数据的长处在于处理非结构化数据,而商业智能则擅长结构化数据。目前,绝大部分传统企业的商业分析已经投资于商业智能,对于结构化数据的分析和建模都相对熟悉,而对非结构化数据的分析则陌生一些,因此非结构化的数据想要被充分认知和分析,转化为结构化数据之后处理不失为一种有效方法。比如,将大数据以及聚合数据输入传统商业智能系统中去做分析与展现,最终形成报告,出分析结果。这也是传统IT厂商最推荐的一个应用方法。

当然,也并非都必须如此,比如,那些率先引入大数据技术的互联网企业就很少使用这些方法,这些缺乏传统商业智能基础的企业从一开始就将自己的解决方案完全架构在Hadoop等大数据技术上,直接从Hadoop中提出数据,利用自己定制的MapReduce,完成数据的分析和展现。

大数据落地不容易

尽管大数据市场目前看起来很美,但从整体上说这个大数据市场才刚刚起步,整个市场的腾飞还有待时日,还存在诸多因素困扰大数据落地,人才瓶颈就是之一,特别是既懂得Hadoop相关技术同时还了解企业业务的人才。比如,金融企业在对数据进行分析和处理时就非常需要那些有统计学背景、了解银行业务的专业人才,尤其需要懂得将统计学的知识应用到业务上并与之相结合。

在国外已经出现了“数据科学家”(有的称其为“数据分析师”或者“数据工程师”)的新职位。他们知道企业的数据在哪里、如何拿到它们,以及什么数据是关键、它们如何生成,并懂得构建相应的业务流程。其理想的候选人是对复杂的算法、分析和市场营销都非常熟悉,此外,最好还能懂超高速计算、数据挖掘、统计甚至人工智能。

用户可能面临的另一个挑战来自于Hadoop本身的技术和生态系统还有待完善。Hadoop是开源软件,本身还处于不断完善之中。同时,虽然有很多厂商围绕Hadoop提供了一些服务和技术支持,而真正能提供全面技术支持的厂商却很少,用户所需要的技术支持大部分还来自于社区。而技术支持这一点对于金融、银行这样的客户是非常重要的。

值得庆幸的是,这些随着Hadoop的普及正在慢慢改观,市场上逐步涌现出更多专业的工具和专业的服务,假以时日大数据必将为我们了解和认识我们所在的这个世界打开一扇新的大门。

在一个中等规模的智能城市中,每个季度就可能产生出200PB的视频数据。如果以一个笔记本电脑存储200GB,那就是100万台笔记本电脑所能够存储的数据。

一种基于云模型的数据预测算法 篇7

在数据预测的研究领域, 我们经常需要利用已知几种条件随机事件的数据分布来预测与它们相关的某种结论随机事件的数据分布。该问题的结论数据通常有与之具备前后因果关系一种或多种前置条件数据。前置条件数据集中于某些不同的值呈典型分布时, 结论数据分布也典型集中于某些不同的值, 即形成了数个条件规则。因此进行此结论数据的数据预测时, 找出待预测的前置条件数据隶属程度[1]最高的条件规则, 即可据此条件规则中的结论数据进行结论预测。例如某网上购物平台对于客户的消费水平进行预测[2]时, 可以将客户的年龄、月收入、在线时间等数据作为其消费水平的条件数据, 通过数据分析和人工经验, 得出类似“青年人、月收入中等、在线时间长, 则消费水平中等”、“中年人、月收入较高、在线时间中等, 则消费水平较高”等条件规则。当需要对新客户进行消费水平预测时, 依照算法将其年龄、月收入、在线时间数据与已知的条件规则进行匹配, 找出其隶属程度最高的条件规则, 并分析该条件规则相应的消费水平结论数据, 即可得到对该新用户的消费水平的预测。

1 研究背景

对于前置条件数据及结论数据的典型分布, 如果呈离散分布且分布值数量有限, 我们容易判断其隶属于某条件规则。如“某人的性别”数据只有“男”、“女”两种条件规则, “某交通信号灯的颜色”数据只有“红”、“黄”、“绿”三种条件规则等。但如果条件数据在一定范围内连续分布, 则条件规则的边界将变得模糊。在引言的例子中, 我们看到在条件规则里出现了“青年”、“中年”、“较高”、“中等”等概念。这些概念从条件数据的分布中得出, 描述了不同条件规则间的区别, 符合人们的认知。实际上, 对条件数据在一定范围内连续分布情形下的条件型数据进行数据预测的情形也更加普遍。但如何量化这些模糊的概念[3], 形成量化的条件规则, 并找到具体数值对这些概念的隶属度计算方法是我们需要解决的问题。在最普遍的情况下, 人们对这些模糊概念的认识体现为正态的量化分布[4], 据此本文选取擅长对这种分布情形进行模糊判定的云模型, 将前置条件数据与结论数据中的模糊概念量化为具体的数据分布 (条件云与结论云) , 形成量化条件规则。同时, 依据云模型中隶属度计算函数也可以设计出待预测的前置条件数据对上述条件规则的隶属程度的计算方法。得到了量化的条件规则及前置条件数据对于条件规则的隶属度计算方法, 即可据此计算待预测的条件数据对所有条件规则的隶属度, 找出隶属度最高的条件规则中的结论云, 从而得出所需的结论数据预测结果。

因此, 本文的研究情形确定为已知某种连续分布的结论数据及它的某几种连续分布的前置条件数据, 预测新的前置条件数据可能得出的结论数据分布。研究方法确定为采用云模型量化条件规则并设计前置条件数据对于条件规则的隶属度计算方法, 据此实现对具前置条件数据的结论数据的数据预测。

2 云模型简介

2.1 云模型相关的定义

云模型 (Cloud Model) [5]是中国工程院李德毅院士提出的一种处理定性概念与定量描述的不确定性转换模型。随着不确定性研究的深入, 越来越多的科学家相信, 不确定性是这个世界的魅力所在, 只有不确定性本身才是确定的。在众多的不确定性中, 随机性和模糊性是最基本的。针对概率论和模糊数学在处理不确定性方面的不足, 1995 年我国工程院院士李德毅教授在概率论和模糊数学的基础上提出了云的概念, 并研究了模糊性和随机性及两者之间的关联性。自李德毅院士等人提出云模型至今, 云模型已成功的应用到自然语言处理、数据挖掘、决策分析、智能控制、图像处理等众多领域。

定义1 (云和云滴) :设U是一个用数值表示的定量论域, C是U上的定性概念, 若定量值x∈U是定性概念C的一次随机实现, x对C的确定度 μ (x) ∈[0, 1]是有稳定倾向的随机数, μ:U→[0, 1], ∀x∈U, x→μ (x) , 则x在论域U上的分布称为云, 记为C (X) 。每一个x称为一个云滴。如果概念对应的论域是n维空间, 那么可以拓广至n维云。

云模型所表达的概念可以用云的数字特征来体现。云的数字特征为期望Ex (Expected value) 、熵En (Entropy) 、超熵He (Hyper entropy) 构成。Ex是在论域空间最能够代表定性概念的点, 或者说是这个概念量化的最典型样本。熵En代表定性概念的可度量粒度, 熵越大, 通常概念越宏观, 也是定性概念不确定性的度量, 由概念的随机性和模糊性共同决定。一方面, En是定性概念随机性的度量, 反映能够代表这个定性概念的云滴的离散程度;另一方面, 又是定性概念亦此亦彼性的度量, 反映了在论域空间可以被概念接受的云滴的取值范围。依据正态分布的3En原则, 其分布值99%落在Ex3En范围内。超熵He是熵的不确定性度量, 即熵的熵, 由熵的随机性和模糊性共同决定。

定义2 (正态云模型) :设U是一个用精确数值量表示的定量论域, C是U上的定性概念, 若定量值x∈U, 且x是定性概念C的一次随机实现, 若x满足:x~N (Ex, En′2) , 其中, En′~ N (En, He2) , 且x对C的确定度满足。则x在论域U上的分布称为正态云。

正态分布是概率理论中最基本的分布, 大量社会和自然科学中定性知识的期望曲线都近似服从正态分布, 具有普适性。一维正态云是在正态分布的基础上建立起来的一种最基本的云模型, 也是应用最广泛的云模型。

2.2 云发生器及其相关算法

云发生器 (Cloud Generator, CG) 是指被软件模块化或硬件固化的一维正态云模型生成算法。根据输入输出变量的不同, 可将其分为正向云发生器、逆向云发生器、X条件云发生器和Y条件云发生器。本文主要运用正向云发生器和逆向云发生器。

2.2.1 正向云发生器

正向云发生器将云的数字特征转化指定数量的云滴, 算法如下:

输入:云的数字特征 (Ex, En, He) 。

输出:N个云滴drop (x1, μ1) , drop (x2, μ2) , …, drop (xn, μn) 。

算法步骤:

步骤1:生成以En为期望值, He2为方差的一个正态随机数=NORM (En, He2) 。

步骤2:生成以Ex为期望值, 为方差的一个正态随机数xi=NORM (Ex, ) 。

步骤3:计算。

步骤4:坐标为 (μi, xi) 的点成为数域中的一个云滴drop (μi, xi) 。

步骤5:重复步骤1~4, 直到产生N个云滴。

2.2.2 逆向云发生器

逆向云发生器将指定数量的云滴转化云的数字特征。算法如下:

输入:N个云滴的定量值xi。

输出:N个云滴表示的云的数字特征 (Ex, En, He) 。

步骤1:由xi计算这组数据的样本均值, 一阶中心样本矩, 样本方差。

步骤2:由1 可得期望。

步骤3:同时由样本均值可得熵。

步骤4:由1 中的样本方差和3 中的熵可得超熵。

3 基于云模型的数据预测算法

本算法通过人工经验和简单数据分析条件型数据的历史数据, 构造条件云、结论云、条件规则, 然后据此对待预测的新条件数据进行条件规则匹配和结果数据分析, 最终输出该条件型数据的预测结果[6,7,8,9]。设该条件型数据的条件数据共有Q种, 结论数据为1 种。算法输入为条件型数据的历史条件数据及对应的结论数据、待预测的新条件数据, 输出为新条件数据的预测结果, 每种数据取N个数值。

步骤1:从Q种历史条件数据中, 依据人工经验及简单数据分析, 选取前后因果特征明显的典型的P组条件数据分布与结论数据分布, 依次将第p个 (p1~P) 条件规则中的Q种条件数据分布及1 种结论数据分布转化为第p个条件规则的Q个条件云Capq (Expq, Enpq, Hepq) 及1 个结论云Cbp (Exp, Enp, Hep) , 形成P个条件规则。

步骤2:对于步骤1 中的P个条件规则 (每条Q个条件云) , 依次取第p条规则的第q个条件云的熵Enpq和超熵Hepq, 产生一个符合正态分布NORM (Enpq, ) 的随机值, 共产生P组 (每组Q个) 。

步骤3:设待预测的Q种 (每种1 个) 新条件数据为xq (q1~Q) 。依次将Q种xq与第p个条件规则的Q种Expq及Q种代入公式可得xq对第p个条件规则中Q种条件云的Q个隶属度 μpq。共得到P组 (每组Q种) μpq。

步骤4:依次求出P组 μpq的样本均值。返回步骤2, 重复M次, 可得P组每组M个的。

步骤5:分别求出上述P组中每组M个的样本均值, 找出最大的一个值记为, 并记该对应的条件规则的结论云为Cbmax (Exmax, Enmax, Hemax) 。

步骤6:将Cbmax (Exmax, Enmax, Hemax) 输入正向云发生器生成1 个结论云滴drop (μi, xi) , 当 μi>时选取该xi。重复本步骤至选取N个xi。

步骤7:使用逆向云发生器将上述N个xi转化为最终我们需要的结论云Cbfinal (Exfinal, Enfinal, Hefinal) 。其中Exfinal为预期结论的期望, Enfinal为预期结论的量化范围, Hefinal为预期结论的聚散程度。

4 仿真实验及分析

笔者通过C语言编程实现了该算法的测试程序。实验数据模拟了某仿真系统C的一种状态数据C及它的两种前置状态数据A和B。三种数据均为0 至100 间的浮点数值。研究三种数据的几种典型分布, 通过人工经验及简单数学分析, 我们得出如下的9 个条件规则:

据此, 对 (A=15.0, B=15.0) 、 (A=60.0, B=50.0) 、 (A=80.0, B=30.0) 三种情形下C的运行状态进行预测。将条件规则输入程序后, 依次将上述三种情形的数据输入程序, 运算得三情形对各条件规则的隶属度均值计算如下 (取计算次数M=100) :

如实验结果所示, 情形 (A=15.0, B=15.0) 对条件规则9 隶属度最高为0.478250。因此依照算法, 选取条件规则9 中的结论云C9 (10.0, 5.0, 1.4) 输入正向云生成器, 取其生成云滴中隶属度大于0.478250 的N=200 个云滴输入逆向云生成器, 得到所需的预测结论云Cb1 (10.03, 3.38.2.37) , 表明 (A=15.0, B=15.0) 情形下预测结论数据集中于10.03, 分布范围为10.033*3.38, 离散程度为2.37;同理, 情形 (A=60.0, B=50.0) 对条件规则6 隶属度最高为0.710910, 得到的预测结论云为Cb2 (69.97, 2.07, 1.24) , 表明 (A=60.0, B=50.0) 情形下预测结论数据集中于69.97, 分布范围为69.973*2.07, 离散程度为1.24;情形 (A=85.0, B=30.0) 对条件规则8 隶属度最高为0.504232, 得到的预测结论云为Cb3 (29.79, 3.04, 2.02) , 表明 (A=85.0, B=30.0) 情形下预测结论数据集中于29.79, 分布范围为29.793*3.04, 离散程度为2.02。

简要分析以上结果可知, 情形 (A=60.0, B=50.0) 与条件规则6 的条件云CA6 (64.5, 4.7, 0.1) 、CB6 (55.8, 8.7, 1.2) 所描述情形均非常相似, 计算所得的综合隶属度也明显高于其它条件规则, 所以预测结论云Cb2 (69.97, 2.07, 1.24) 的熵2.07 较小, 表明其预测结论的变化范围较小;而情形 (A=15.0, B=15.0) 虽然对条件规则9 隶属度最高, 但观察条件规则9 的条件云CA9 (97.2, 6.8, 0.7) 、CB9 (16.5, 7.1, 1.7) 可知A=15.0 对条件云CA9相似程度较低而B=15.0 对条件云CB9相似程度较高, 因此其预测结论云Cb1 (10.03, 3.38.2.37) 的熵3.38 较大, 表明其预测结论的变化范围较大;情形 (A=85.0, B=30.0) 则对条件规则2 与条件规则8 的隶属度排名前2 且非常接近, 观察条件规则2 的条件云CA2 (20.5, 4.5, 0.1) 、CB2 (30.4, 2.5, 1.5) 与条件规则8 的条件云CA8 (86.5, 3.7, 0.8) 、CB8 (21.3, 4.0, 1.0) 可知A=85.0 对条件云CA8的相似程度较高, 而B=30.0 对条件云CB2的相似程度较高, 虽然最终选择了隶属度最高的条件规则8, 但其预测结论云Cb3 (29.79, 3.04, 2.02) 的熵3.04 较大, 表明其预测结论的变化范围的范围较大。

5 结论与展望

本文提出了一种基于云模型的条件型数据预测算法。该算法能够将条件型数据具前后因果关系的典型分布量化为条件规则, 并据此对待预测的条件型数据进行隶属度计算, 分析隶属度最高的条件规则对应的结论数据, 即可得到所需的预测结果。从仿真实验的结果看来, 本算法能够反映待预测的条件型数据与各条件规则的匹配程度, 所得到的结果也呈一组分布值, 能够体现数据预测的模糊性。

但从实验结果中也能看出, 如果待预测的条件型数据仅与条件规则中的部分条件相匹配, 则给出的预测结果分布域较大, 这要求我们选取足够的条件规则来覆盖多种可能性[10,11]。另外, 算法中进行综合隶属度计算时采用取各条件云隶属度样本均值的方法, 这样相当于为所有条件赋予相等的权值, 如能依据条件型数据的条件对结论影响能力为各条件云赋予不同权值[12], 则得出的预测结果将更贴近实际。

摘要:本文针对具前置条件的结论数据所具备的条件分布典型、条件规则模糊的特点, 构造一种基于云模型的数据预测方法。云模型擅长处理模糊判断, 因此本文采用云模型量化条件规则并设计前置条件数据对于各条件的隶属度的计算方法。步骤为先依据历史数据和人工经验量化出此结论数据的条件云、结论云及条件规则, 然后将待预测前置条件数据代入条件云中, 依照算法匹配隶属程度最高的条件规则, 再通过分析该条件规则相应的结论云, 即可得到相应的预测结果。

关键词:数据预测,具前置条件的结论数据,云模型,条件规则

参考文献

[1]杨宏伟, 岳勇, 杨学强.一种新的一维正态云概念隶属度判定算法.计算机集成制造系统.2012年9月, 第18卷, 第9期.

[2]王守信, 张莉, 李鹤松.一种基于云模型的主观信任评价方法.Journal of Software, Vol.21, No.6, June 2010, pp.1341-1352.

[3]李德毅.知识表示中的不确定性.中国工程科学.2000年10月, 第2卷, 第10期.

[4]李德毅, 刘常昱.论正态云模型的普适性.中国工程科学.2004年8月, 第6卷, 第8期.

[5]张光卫, 何锐, 刘禹, 李德毅, 陈桂生.基于云模型的进化算法.计算机学报.2008年7月, 第31卷, 第7期.

[6]杨朝晖, 李德毅.二维云模型及其在预测中的应用.计算机学报.1998年, 第21卷, 第11期.

[7]蒋涛, 周傲英, 高云君, 等.不确定数据查询处理[J].新型工业化, 2013, 3 (5) :83-101.

[8]卓广平.高效数据挖掘算法在大规模数据集中的应用研究[J].软件, 2014, 35 (8) :72-74

[9]黄文秀.粒子群优化算法的发展研究[J].软件, 2014, 35 (4) :73-77

[10]何锐, 张刚, 田甜.基于TMS320DM6446的嵌入式视频系统硬件设计及算法优化[J].新型工业化, 2011, 1 (2) :13-19.

[11]王正也, 李书芳.一种基于Hive日志分析的大数据存储优化方法[J].软件, 2014, 35 (11) :94-100

基于数据挖掘的分类预测模型研究 篇8

数据挖掘技术产生十几年来得到了较为广泛的应用, 并取得了显著的经济及社会效益, 但该技术在医学领域的应用目前处于起步阶段。电子病历 (CPR) 作为医院信息系统 (HIS) 的一个重要组成部分, 它是将传统的纸质病历电子化, 并超越纸质病历的管理模式, 提供查询、统计分析、信息交换等功能。随着电子病历数据库系统中病历数据量急剧增长, 如何从海量的数据中发现有价值的信息或知识也已经成为目前电子病历系统研究的热点问题。因此积极探索数据挖掘技术在电子病历系统中的应用, 具有重要的实用价值和广阔的发展前景。

本文采用分类算法, 检测属性与胃癌早期预警相关的属性, 构建较为适合的预测模型, 探讨是否有助于提高胃癌早期预警或诊断的正确率及联合检测对胃癌辅助诊断的意义, 以实现胃癌早期预警、诊断和分类的自动化, 为高危人群的筛查和临床胃癌诊断提供有价值的参考资料。

二、方法

(一) 数据来源

本文的数据是通过在监控、流行病学和最终结果 (SEER) 网站上申请的1973-2009登记的确诊病例。SEER项目是美国国家癌症研究所监控研究项目的一部分, 它将这些数据免费提供给以分析研究为目的的机构和实验室。

(二) 数据预处理

数据预处理几乎是数据挖掘过程中最重要的一步。SEER数据包含9个文本文件, 每个文件代表某个具体解剖位点的癌症。

SEER的DIGOTHR.TXT包含308155条记录。由于本文只考虑胃癌的生存预测, 因此需要对数据进行初步的筛选。由于较多属性适用范围是1988年以后, 为了预测模型的准确性, 选取1998-2002年的数据。

1. 数据清理

数据清理主要是清除掉与挖掘主题无关的属性和冗余属性、光滑噪声数据、填充空缺值和识别删除孤立点。本文原始数据中存在空缺值, 数据格式不一致等现象, 清除掉一些跟挖掘主题无关的属性, 如“诊断年份”、“注册ID”等。

2. 数据集成

数据集成主要是将多文件或多数据库运行环境中的异构数据进行合并处理, 数据集成还可能产生数据重复等冗余问题。由于本文数据都来自SEER, 数据集成这一部分的工作较少。

3. 数据变换

数据变换主要是找到数据的特征表示, 用维变换或转换方法减少有效变量的数目或找到数据的不变式。初始数据共有134个属性, 本文属性选择的标准是信息增益率。

经过数据预处理以后得到的数据集包括9个变量 (8个条件属性和1个决策属性) 和1806条记录。决策变量是一个二元分类变量, 0代表没有存活, 1代表存活。预分类考虑三个变量:Survival Time Recode (STR) , Vital Status Recode (VSR) , and Cause of Death (COD) , 步骤如下:

(1) 如果STR大于等于60个月并且VSR是1, 则属于“survived”, 标记为1

(2) 如果STR小于60个月并且COD是21020, 则属于“not survived”, 标记为0

预分类的结果为not survived有1225个, 占总数据的67.8%, survived有581条, 占32.2%。

(三) 运行环境

软硬件环境:AMD A6-3400M1.40GHz安装内存6.00GB操作系统:Windows 7旗舰版建模环境:Clementine 12.0。

(四) 预测模型

本文使用了三种不容类型的分类模型:C5.0、BP人工神经网络和支持向量机。

(五) 评估模型精确度的方法

本文采用的模型评价参数是精确性、敏感性和特异性。

三、结果与分析

三种模型的精确性、敏感性和特异性结果如表1所示:

从表1可以看出, TAN贝叶斯网络的精确度最高, 敏感性均最好, C5.0算法的特异性最好, 而BP-人工神经网络的精确度和特异性都是最差。整体而言, 三种算法的特异性均比敏感性要好, 这可能是由于样本数据分布不均匀导致的。

四、结论

本文运用实例对C5.0、BP-人工神经网络和TAN贝叶斯网络进行了比较研究, 针对本文预测精度不高的不足, 以后的工作将围绕一些新的并且更有前景的算法, 如支持向量机和模糊集等, 以进一步提高预测准确度。具体存活时间的预测也是今后的研究方向。

摘要:数据挖掘技术己经引起了信息产业界的广泛关注。分类预测是其中一个主要的研究方向, 有着广泛的应用价值。对数据挖掘中的三种分类预测挖掘算法 (C5.0、BP-人工神经网络和TAN贝叶斯网络) 进行了研究和探讨, 并通过一个实际例子对三种算法做了分析和比较, 三种算法的精确度分别为87.26%、85.71%和88.7%。TAN贝叶斯网络的精确度和敏感性均最高, C5.0算法的特异性最好。

大数据预测模型 篇9

针对钢铁企业的用电特点, 许多学者提出了大量新型电力负荷预测的方法。基于历史负荷的时序预测模型为有效预测负荷趋势提供了新的思路[3]。如减少电力负荷预测模型训练计算量的回声状态网络 ( ESN) , 广义卡尔曼滤波, 径向基神经网络 ( RBF) [4], 小波分析[5], 支持向量机[6]等。径向基神经网络, Elman网络, evolino神经网络, 回声状态网络对负荷数据采样精度较高的数据预测效果较好, 而对数据残缺或者样本受污染的数据预测效果不佳[7]。广义卡尔曼滤波虽然能够对“污染数据”进行去杂处理, 但处理过程较慢, 且需要大量内存空间。2007 年牛东晓提出了基于熵权法改善误差指标的组合预测模式, 用以避免单一预测模型拟合震荡剧烈, 伪周期性负荷波动的不足, 但是却忽略了生产工艺情况。建立基于数理统计的负荷预测方法虽能一定程度结合工艺生产状况, 但因描述此类负荷预测问题的非线性函数复杂, 模型求解困难, 推广受到一定限制。

为解决工业企业负荷数据失真, 不同工序段负荷震荡剧烈、波动较大等问题, 本文针对钢铁企业的实际日用电量预测问题, 在项目研究中提出了一种新方法在模型训练过程中, 以日生产实绩、检修计划和日用电量的历史记录作为训练样本, 采用NNLS, ESN, LS-SVM结合特征选择方法得到多个预测子模型。采用多个子模型输出的融合得到日用电量的择优预测值。经过大量的实验测试, 这一新方法可以得到较理想的预测效果, 确保算法的实用性与先进性。

1 日用电量特征分析

大型钢铁企业, 针对生产、检修等环节, 需要电量预测模型[8]。假设检修方案共有m种, 针对某检修日所对应的检修种类为Ti ( d) ; i ∈ { 1, 2, 3, …, m} 若特定的检修日未采用第i种检修方案, 则Ti ( d) 。检修日d的计划方案[9]约定为[T1 ( d) T2 ( d) T3 ( d) … Tm ( d) ]T。又假设企业共有n种产品 ( 包括中间产品) , 则对于检修日d , 产品的计划产量为Qj ( d) , j ∈ {1, 2, 3, …, n} , 则这一日的产量计划可以表示[Q1 ( d) Q2 ( d) Q3 ( d) …Qm ( d) ]T。

电量预测的输入特征选择问题, 是一个复杂的大规模组合优化问题[9], 采用前向的贪婪搜索算法 ( greedy search) 对生产, 检修计划, 进行特征选取。这种方法的思想实际上类似连续问题优化的最速下降方法, 对于有多个局部极小的问题来说, 很有可能使问题陷入局部极小。为避免进入局部极小, 当确定新的特征子集的时候, 首先进行所有测试子集的性能排序, 在性能较好的前k个子集中随机选择一个。

1. 1 特征选择

1. 1. 1 OO ( ordinal optimaztion) 方法

当确定新的特征子集的时候, 不是进行所有测试子集的性能的严格排序, 而是按照OO的思想, 进行粗略排序, 在前k个子集中选取最好一个。从而节省了计算时间。

1. 1. 2 随机近似贪婪搜索RAGS

其求解过程如图1 所示。这种改进的思想就是本项研究中所采用的随机近似贪婪搜RAGS ( ran-dom approxiated greedy search) 进行特征选取方法的基础。对未来一段时间 ( 如一个月) 的用电情况进行预测, 而日用电量预测的准确性至关重要, 预测日用电量就是要寻求各环节的生产量与用电量之间的关系, 并且在企业的日生产计划和检修计划中得到较好的反映。因此, 在能够得到检修计划和产量计划的前提下, 预测钢铁企业日用电量的过程就变成了寻找产量计划、检修计划与日用电量内部关系的过程。

1. 2 Bagging技术

由于RAGS方法并非全局收敛算法, 一般来说, 每次的运行结果均不相同, 也就是说可以得到多组的特征子集。如果能充分利用这些信息, 可以提高预测的稳定性和精度, 采用Bagging技术来进行多个模型的融合。训练之后可得到一个预测函数序列, 最终的预测函数对分类特征采用统计投票的方式进行判别。

2 基于生产检修计划的的多模型融合预测框架

在实际预测中, 某些输入因素可能会出现缺失或异常等情况, 一般来说解决的办法是采用某种措施进行数据的补齐或者校正。钢铁企业负荷预测框架要求能够适应这种情况, 在数据缺失的情况下, 继续能够利用现有信息、可用模型进行预测, 给出预测结果。为此提出了自适应数据质量的多模型择优预测框架。

2. 1 非负最小二乘

对于钢铁企业, 检修计划和产量计划一般提前一个月制定, 所以可以根据这些信息进行电量预测, 构造日用电量和检修计划、产量计划之间的线性回归表达式如下:

式 ( 1) 中: S ( d) 为日期d的日用电量, { a0a1a2…am +n} 为回归系数。若设

满足ai≥ 0 , i ∈ {0, 1, 2, 3, …, m, …, m + n} 。则式 ( 1) 可以表示为S ( d) = w ( d) Ta ( 3) 式 ( 3) 表示检修时间长度Ti ( d) 与用电量S ( d) 之间成反比例关系, 计划产量Qj ( d) 与用电量S ( d) 之间成正比例关系。

为了对回归系数a进行估计, 收集历史日用电量和相应的生产及检修计划, { ( w ( d) , S ( d) ) , d =1, 2, …, D} 其中D为样本集合的大小。回归系数a可以通过在样本集合上求解下面的优化问题得到

式 ( 4) 利用非负最小二乘问题 ( nonnegative leastsquares, NNLS) 进行求解。

2. 2 LS-SVM模型

提出一种根据生产计划和设备检修计划, 以LS-SVM函数估计算法的基本形式作为出发点, 通过适当的假设条件在LS-SVM框架下求解样本点, 然后再由LS-SVM函数估计算法对样本点进行求解, 在保证精度的前提下, 预估电量变化趋势的负荷预测方案。

对于给定的样本{xi, yi}; ( i = 1, 2, …, N) , 其中xi∈ R为输入数据 ( 即通过特征选择的择优生产, 检修数据) , yi∈ R为输出数据 ( 即日用电量实绩数据) 。LS-SVM的函数估计算法的目的就是得到一个y关于x的对应关系: y ( x) = ωTφ ( x) + b 。

在LS-SVM框架下, 将上述问题转化为求解如下优化问题

式 ( 5) 中 γ ∈ R+, b ∈ R, ω ∈ Rh, φ ( ·) : R → Rh是特征映射, h是特征空间的维数。建立如下拉格朗日函数

其中拉格朗日乘子 αi∈ R 。然后根据Karush-Kuhn-Tucker ( KKT) 优化条件得到如下等式

通过消去 ω 和ei, 整理得到如下方程组

其中1N= [1, 1, …, 1]T∈RN, α = [α1, α2…, αN]T∈ RN, y = [y1, y2…, yN]T∈ RN, IN是单位矩阵。

Ω ∈ RN ×N为满足Mercer条件的核函数矩阵, 其中 Ωij= Ω ( i, j) = K ( xi, xj) = φ ( xi) Tφ ( xj) 。

通过求解方程组得到 α 和b , 进而求得 ω , 从而得到函数估计表达式

K ( x, y) = φ ( x) Tφ ( y) 为核函数, 下面对其偏导数进行定义

本文中选取高斯径向基核函数 ( RBF) , 即

2. 3 ESN时序预测建模方法

ESN是一种新型的递归神经网络结构, 其内部有一个大的动态储备池 ( dynamical reservoir, DR) , 非线性系统的动态特性由DR产生。DR包含大量随机生成且稀疏连接的神经元。应用时间序列预测的思想, 建立钢铁企业日用电量回声状态网络 ( ESN) 时间序列预测模型, 从而预测出未来时刻数据变化的趋势[11]。采用的方法是首先建立ESN单步预测器, 然后经过多次迭代操作实现对不同预测时域的预测[12]。算法实现如下: 假设当前为第t0天, 该日用电量表示为s ( t0) , 当前时刻前一天的用电量表示为s ( t0- 1) , 从当前时刻起向前取500 个受入量的值形成500 对训练样本{ [u (1) , y (1) ], …, [u (500) , y (500) ]} 。

模型参数如下表1。

ESN时序预测思路如下:

Step1 初始化储备池DR, 即确定Win、W 、Wback, 使网络具有回声特性;

Step2 将经过特征选择的特征样本代入训练网络, 网络更新采用公式 ( 8) 和式 ( 9) ;

Step3 选择T0 ( T0< T) 作为网络初始化时间, 收集T0- T时刻教师输入状态向量和储备池中神经元状态向量和储备神经元状态向量[u ( n) , x ( n) ]形成状态矩阵M[13];

Step4 利用公式 (Wout) T= M-1T , 计算输出权值矩阵, 利用该模型, 输入u ( 1001) = [s ( t0- 99) s ( t0- 98) … s ( t0) ]T, 采用网络更新公式 ( 8) 和式 ( 9) , 可以预测出t0+ 1 时刻的发生量y ( 1001) =s ( t0+ 1) 。获得新的样本序列, 利用这组数据样本序列采用和上面相同的方法[14], 可以获得t0+ 2 时刻的日用电量预测信息。

2. 4 自适应数据质量的多模型择优预测框架

采用上文所示的输入变量特征选择和预测模型分析, 钢铁企业用电预测采用多择优预测框架进行预测, 其预测过程如下:

Step1 基于RAGS对输入样本进行特征选择;

Step2采用交叉验证选择较好的特征子集;

Step3 分别采用NNLS, ESN网络, LS-SVM模型对电量消耗进行预测, 给出预测结果;

Step4 本文在所得到的所有可进行预测的模型中, 采用“前一日预测效果最好”的择优准则进行模型择优, 日用电量负荷预测整体框架图如图2 所示;

Step5 设置一个预测误差限值, 一旦误差越限, 就提示模型需要更新;

Step6 检测预测误差变化趋势, 如果误差随着预测时间的推移, 持续变大, 则提示更新模型。

3 仿真实例分析

从前面的分析可知, 系统得到负荷预测值可以有多种方案。这就需要在这些结果中选择最优的预测结果, 作为最终输出结果。通过这种方式, 系统的预测精度得到进一步的提高。在这种情况下, 对多个方案预测结果的择优判据尤为重要。通过调研发现, 钢铁企业的负荷值在相邻时间内的相关性较大, 所以, 采用对于预测方案的预测历史精度进行评价, 采用在最近的预测周期内预测精度最高的预测方案, 作为当前预测周期采用的预测方案。具体来说, 对预测系统中的模型, 在预测出指定时段的同时, 预测出与指定的起始日期间隔一天的前n天的负荷值, n为正整数。由于前n天的实际负荷值已经可以得到, 所以通过计算前n天的误差指标即可作为择优判据。通过n取不同的值, 可得不同的择优判据。

下面通过例子来检验各择优判据的择优效果。算例的预测时间2013 年4 月1 日~ 2013 年5 月1日。其中, 总负荷的预测值由表2 中列出的各方案得到, 共6 种方案。表3 列出当前的择优判据:

为验证本文所建立电力负荷预测模型的实用性, 分别采用经典SVM, 非负最小二乘, 及ESN网络与本文所提方案进行对比预测分析, 选择2013 年1月1 日~ 5 月30 日的生产, 检修计划, 日用电数据作为训练样本, 以2013 年6 月1 日~6 月15 日的生产, 检修计划作为输入信号。仿真效果拟选用三种评价准则进行综合分析, 评价公式如下 ( 1) 平均绝对百分比误差:

( 2) 归一化均方根误差

( 3) 均方误差

式中yreal ( i) 表征负荷验证真实数据, ypre ( i) 为预测点, q表征负荷预测天数, 不同模型预测效果见表4。

由表4 预测对比结果可知, 本文提出的自适应数据质量的多模型择优预测对宝钢电力系统进行日用电量预测时, 不同的评价准则的预测效果均优于其他几种模型。ESN虽然输出波动不大, 但预测精度不高, 原因可能是由于其网络结构固定, 性能易受储备池神经元选择影响。径向基网络因为其学习过程易形成局部极值点, 因此导致模型预测效果不够理想。SVM模型输出波动最大, 性能易受核函数选择影响, 预测精度最低, 但运算速度上具有明显优势 ( 0. 309 11 s) , 且适合于小样本处理 ( 数据点数小于4 000) 。

表5 列出在10 月1 日~10 月15 日预测结果上做出的择优方案序列以及性能评价。其中, 性能评价采用的有三个指标: 平均绝对百分误差 ( MAPE) 、平均绝对百分误差的标准差、平均绝对百分误差的最大值。

通过表5 可以发现: 以择优判据1 作为判据得到的性能指标最佳。同时, 注意到被选中的方案大都在方案4 ~6 中, 这说明对大冲击负荷采用择优方案的智能算法建模要优于常规时序模型对总负荷建模的预测方案。

4 结论

( 1) 自适应数据质量的多模型择优预测框架进行电力日负荷预测的误差是3. 644 0%, 远搞于采用单一预测模型的预测精度。

( 2) 采用样本交叉融合, 提高样本特征的泛化性能。

( 3) 随机近似贪婪搜索RAGS对生产, 检修因素进行特征选择, 有效降低了模型复杂度, 缩短了预测时间, 提高了模型的工程实用性。

基于大数据的设备故障预测 篇10

三网融合推动了广电基础网络设施的改造, 但是与电信运营商相比广电运营商的设备运维和管理水平相对落后。因此, 搭建网络设备管理平台实时监控设备状态, 并针对告警信息快速响应, 已成为广电运营商保障设备安全、确保服务质量的迫切需求[1]本文利用有线运营商所采集到的网络设备性能指标及告警信息, 采用决策树方法[2,3]构建设备故障预测模型, 帮助运维人员预测设备告警级别, 在设备出现故障之前能够迅速、准确地定位问题并排除故障, 达到实时、智能监控网络设备运行状态的目的。该模型配套可视化界面, 作为大数据运营分析系统的一部分, 方便运维人员对网络设备的管理。

2 基于大数据的设备故障预测建模方法

2.1 建立模型的数据基础

广电有线运营商通过对设备性能指标的实时监控, 已采集了大量的设备性能指标及告警信息。其中设备性能指标包括CPU使用率、内存使用率、温度、端口流量、端口丢包率以及信噪比等。比如某地有线运营商对全网设备进行实时监控, 每隔半小时采集设备实时性能, 同时上传告警状态信息。其中网络设备涉及:CMTS (Cable Modem Terminal Systems, 电缆调制解调器终端系统) 、OLT (Optical Line Terminal, 光线路终端) 、ONU

(Optical Network Unit, 光网络单元) 以及Eo C (Ethernet over Cable, 基于有线电视同轴电缆网使用以太网协议的接入技术) 等。

有线运营商所采集到的网络设备性能指标及告警信息, 为设备故障预测模型的建立提供了大数据基础。

2.2 设备故障预测的定义

设备故障预测是故障诊断技术的重要组成部分, 是指通过对历史和当前的设备故障特征值进行分析, 预测出未来的故障特征值, 从而预测出设备在未来一段时间内的运行状态、预测设备可能出现的故障, 并且依据这些特征值, 判断设备的故障级别, 提前掌握设备故障的发展趋势, 为提早预防和修复故障提供依据, 具有重要的理论研究价值和工程实践意义。

2.3 设备故障预测的数据分析

本研究以某地有线运营商在2015年7月25日~11月27日期间, 采集到的90台CMTS设备的15753条告警信息以及告警时刻各设备的性能指标值, 作为建立故障预测模型的数据基础。其中, 性能指标如表1所示, 所采集到的设备性能及告警信息的统计结果如表2所示。

从表2的统计分析结果可以看出, 每台设备每天平均报警次数约为4次, 这从侧面说明网络运维人员对设备性能进行实时监控的重要性, 迫切需要通过设备故障预测提前预警, 及时调整作业, 避免设备过载宕机, 保证生产系统稳定运行。

2.4 设备故障预测模型

设备故障预测, 即基于已有的设备运行状态数据, 通过选用合适的数学模型或方法来预测设备未来的运行情况, 从而作出科学的预警判断。因此故障预测流程可以归纳如图1所示。

(1) 数据源

主要包括性能指标和告警信息, 其中性能指标包括采集时刻设备的CPU使用率、内存使用率以及温度等;告警信息可以简单地分为告警和正常, 当然也可以分为不同的告警级别。

(2) 数据采集

数据采集模块将各设备的性能指标和告警信息汇总, 并通过ETL工具存储至Impala数据库。

(3) 特征提取

由于数据采集系统采集到的设备性能指标类型及数量繁多, 但不全都有利于故障预测, 因此在构建预测模型之前需要筛选出有价值的设备性能指标, 即特征提取。比如, 本文预测CMTS设备性能采用的设备性能指标仅为CPU使用率、内存使用率以及温度。

(4) 预测模型

利用提取出的特征构建故障预测模型, 以此预测设备在不同性能指标状态下的告警级别。本文采用决策树的方法构建设备故障预测模型, 接下来将进行详细介绍。

决策树 (Decision Tree) 是一种简单但是有效而且使用广泛的分类器, 利用历史数据构建决策树, 可以高效地对未知的数据进行分类。其优点包括:一方面可读性好, 有助于人工分析;另一方面效率高, 一次构建, 反复使用, 每次预测的最大计算次数不超过树的深度。表3给出了4组设备的CPU和内存使用率及对应的告警信息, 所构建的决策树如图2所示。

从图2的示例中, 可以归纳出决策树构建的基本步骤如下:初始条件下, 将所有记录数据看作一个节点;遍历每一个变量 (如CPU和内存使用率) 的每一种分割方式, 找到最好的分割点;将父节点中包含的记录数据分割成两个节点集合;对第3步中的节点集合分别执行第2、3步, 直到每个节点足够“纯”为止。

其中“纯度”可以用Gini不纯度、熵 (Entropy) 以及错误率来进行量化, 假设记录中共有n个类别, 节点中第i类记录所占的比例为:

p (i) =第i类的数目/总数目

那么三种“不纯度”量化计算方法可以分别表示为:

(1) Gini不纯度

(2) 熵 (Entropy)

(3) 错误率

以上三个公式均是值越大, 表示越“不纯”;值越小, 表示越“纯”。

因此, 确定“纯度”计算方法后, 可以利用分割后子节点与父节点之间的纯度差来选择分割方式, 即最好的分割方式是使得“不纯度”减小速度最快的那一种。本文采用信息熵计算各节点的“不纯度”值, 以此为每一次分割选择最合适的方式, 最终构建决策树, 作为设备故障预测模型。

3 设备故障预测实验结果

实验的性能指标包括CPU使用率、内存使用率、温度、端口信噪比、端口速率等。通过实验发现, CPU使用率、内存使用率以及温度与设备告警之间的关联度较大, 因此, 本文在构建设备故障预测模型过程中主要选择这3个指标生成决策树。具体的可视化效果如图3所示, 测试准确率为71%。

4 结论和展望

本文基于广电有线运营商所采集到的设备性能指标及告警信息, 采用决策树构建设备故障预测模型, 做到设备故障实时预警, 为运维人员争取更多的作业调度时间, 并及时调整设备负载策略, 避免设备宕机, 保证业务不间断地运行。该模型在某地有线运营商提供的真实数据上得到了较好的实验结果, 能够达到71%的准确率, 对设备故障预测具有极大的实用性。

为了进一步提高预测的精度, 本文作者将在后续研究工作中, 一方面通过采集更多的设备性能指标, 提升决策树模型预测结果的准确性;另一方面将试用更多的预测方法, 对比不同方法所构建模型的准确性, 选择最合适的方法, 以满足广电有线运营商对设备故障实时监控的需求。

摘要:针对有线电视网络设备的运维和管理, 基于有线运营商采集到的大体量的设备性能指标及告警信息, 采用决策树构建设备故障预测模型, 从而根据设备当前的性能值, 预测设备故障告警级别。该模型在运营商提供的真实数据上得到了较好的实验结果, 对设备故障预测具有极大的实用性。

关键词:大数据,故障预测模型,决策树

参考文献

[1]蒋永平, 张慎, 赵晓光.智能化分布式机房环境动力监控系统[J].有线电视技术, 2009, 16 (8) :81-82.

[2]Quinlan J R.Induction of decision trees[J].Machine learning, 1986, 1 (1) :81-106.

大数据预测模型 篇11

[关键词] 客户流失数据挖掘分类

一、前言

以前,人们往往很长时间内(甚至是一生)都选用同一家公司的产品,但现在情况已经改变了。随着经济的全球化、多样化,公司之间的竞争日趋激烈,客户选择产品及产家的余地越来越大,同时越来越注重服务等附加值,客户流失正日益成为全球企业面临的一个普遍性问题。据统计,赢得一个新客户所花费的成本是保留住一个老客户的5~6倍,如何保持老客户,控制高价值客户的流失必将成为企业提高竞争力,在激烈竞争中致胜的关键。企业必须将战略重心从优化内部流程、提高运营效率转移到满足客户需求、稳定和扩大客户群上,实践以客户为中心、以市场为导向的经营理念。

二、客户流失简介

客户流失是指客户停止使用原有的产品或服务,或转而使用竞争对手的产品或服务。企业客户流失有三种表现形式:公司内客户转移,客户被动流失,客户主动流失。以电信业为例,(1)公司内客户转移表现为客户转移至本电信公司的不同网络或不同业务。例如,电信企业增加新业务,或者资费调整引发的业务转移,或者从普通的固定电话转至IP电话等。在这种情况下,虽然就某个业务单独统计来看存在客户流失,但对公司整体而言客户没有流失,当然公司内客户转移也会影响公司的收入。(2)客户被动流失表现为电信运营商由于客户欺诈或恶意欠费等行为而主动终止客户使用网络和业务。这是由于电信运营商在客户开发的过程中忽视了客户质量造成的。(3)客户主动流失分为两种情况,一种是客户不再使用任何一家电信运营商的电信业务,另一种是客户选择了另一家运营商,即所谓的“客户跳网”。后者的原因主要是客户认为公司不能提供他所期待的价值,即公司为客户提供的客户让利价值低于另一家电信运营商。这可能是客户对电信公司的业务或服务不满意,也可能是客户仅仅想尝试一下别家公司提供而本公司未提供的新业务。这种客户流失形式往往是研究的主要内容。

三、数据挖掘产生的背景及主要分析方法

研究哪些客户即将流失,实质上是一个分类问题,即将现有客户分为流失和不流失两类。传统的分类方法一般是基于经验的分类方法或基于统计的简单划分方法。前者一般由决策者根据以往的经验对客户进行类别划分,因此具有较强的主观性;后者一般是根据对客户属性特征的简单统计来划分客户类别。虽然这些划分对企业的客户管理也是很有意義的,但却无法满足一些复杂的分析需求,例如:客户流失的概率如何;哪些因素造成了客户流失;不同类别之间客户的流失情况有什么差别;如果某个客户将要流失,他会在多长时间内流失等。另一方面,数据库技术的成熟应用已使企业积累了大量的数据,管理层希望摆脱经验,从这些数据矿藏里提炼出有价值的“知识”,利用这些“知识”建立起有效的客户流失预测模型。但是传统的数据库管理系统是面向应用的,只处理日常的经营业务,不具备智能数据处理的功能,如何获得这些“知识”就促成了数据挖掘技术的产生。概括地讲,数据挖掘是指从数据仓库中提取人们感兴趣的,事先未知的,有用的或潜在有用的信息。

数据挖掘的主要方法有:概念/类描述,关联分析,分类和预测,聚类分析,孤立点分析和演变分析。在客户流失预测模型中主要用到的是分类算法。分类是一种有监督的学习方法,它通过在一个包含了已知流失和未流失的客户样本集上进行模型训练,得到一个能够预测客户是否会流失的分类器,然后去预测客户未来的流失倾向。目前运用最广泛的是基于决策树的分类算法,如ID3、C4.5、C5.0、CART等。决策树算法建模简单,分类准确率高,而且能导出简明易懂的诸如If-Then形式的分类规则,十分适合客户流失预测问题。但是,决策树算法很难确定分类概率,即难以计算出客户流失的概率。Logistic回归、人工神经网络虽然能得出流失概率,但是这两种模型的内在表示是隐含的,不能像决策树那样可以得到一个If-Then形式的分类规则,而且神经网络容易出现局部最小化和“过拟和”问题,预测性能不佳。

以上的数据挖掘方法都要求有较多的训练样本,对于小样本集,训练结果最好的模型不一定是预测能力做好的模型。因此,如何从小样本集出发,得到预测能力最好的模型,就成为数据挖掘研究领域内的一个难题。即所谓“小样本难题”。支持向量机(SVM)是数据挖掘中的一项新技术,最初于20世纪90年代有Vapnik提出,它从严格的数学理论出发,论证和实现了在小样本情况下能最大限度地提高预测可靠性的方法。近年来,SVM在解决分类问题方面得到了广泛的应用。

四、结束语

在整个数据挖掘流程中最关键,工作量最大,也最容易被忽视的一个步骤是数据准备,即通过数据清理、数据集成和变换、数据规约建立起训练样本集和测试样本集。无论算法多先进,如果数据不准确或不完整,结果都是错误的,正所谓“垃圾进,垃圾出”。如何提供干净、正确、完整的数据,这有待于进一步的研究。

参考文献:

[1]Jiawei Han:数据挖掘概念与技术.机械工业出版社,2002. 9 出版

[2]Alex Berson:构建面向CRM的数据挖掘应用.人民邮电出版社,2001.8 出版

大数据预测模型 篇12

从20世纪90年代英国学者Pyle与Deadman利用计量经济学模型分析英国自二战结束后50年间的犯罪率发展趋势开始[1,2], 犯罪预测开始成为国内外犯罪学领域与警察技术领域关注的一个重要研究方向。在具体的研究内容方面, 基于长期趋势的犯罪数量预测是目前的主要方向, 例如王仲伸利用长期趋势预测模型、相关-回归预测模型以及德尔菲法对北京市崇文区犯罪活动进行了5年期预测[3], 并根据预测结果提出了行动对策;刘小娟、于子建等人则利用灰色理论模型对某城市重大案件发案数量和某地区的青少年犯罪数据分别进行了模型的构建[4,5], 并预测了未来几年内犯罪活动的变化情况;屈茂辉等人利用时间序列建模技术对我国1986-2010年间全国侵财犯罪人数进行了预测分析[6]。从结果的应用上来看, 犯罪长期预测主要适用于宏观治安形势的判断和政策的调整, 然而从具体的公安工作来看, 当前公安实战部门所实行的扁平化指挥以及情报动态研判和警力动态投送机制对犯罪活动在短期内的变化情况具有更大的需求。而在犯罪活动的短期预测方面, Chen与Gorr等人分别采用了ARIMA模型和指

数平滑法对犯罪数据进行了周和月的短期预测分析[7,8]。从这两种方法的比较来看, ARIMA模型对随机性较强的数据序列的适应性更好, 而指数平滑法则在捕捉数据序列的趋势方面有着较好的性能, 但是在超短期预测方面这两种方法的适用性还未得到印证。为此, 本文利用廊坊地区的110治安案件警情的天时序数据, 分别利用ARIMA模型和指数平滑模型进行了犯罪活动的数据建模研究, 并对模型的拟合与预测结果进行比较分析, 为犯罪活动的短期预测提供方法性指导。

一、时间序列模型的基本原理

1.1 ARIMA模型。ARIMA模型是时间序列分析中的经典方法之一。该模型由于考虑了时间序列数据的随机性特点而能够适用于复杂性较强的数据建模, 因此近年来被普遍应用于119警情[9]、GDP短期预测以及灾害预测的建模分析[10,11]。

ARIMA模型全称为自回归滑动平均模型, 该模型实际上是由三个模型组成, 分别为自回归模型AR, 移动平均模型MA, 自回归移动平均模型ARMA, ARMA模型[9]。

自回归模型AR (n) 的表达式为:

移动平均模型MA (m) 的表达式为:

自回归移动平均模型ARMA (n, m) 的表达式为:

ARIMA模型的构建过程主要分为如下四个步骤:

(1) 数据预处理。数据的预处理主要是对数据的时间序列进行平稳化检验和去季节性等, 其中平稳化检验是数据预处理最重要的工作。如数据序列为平稳可直接进行建模, 若数据序列不平稳则需要对数据序列进行一阶或高阶差分。其中序列的平稳性检验一般采用单位根检验的方式如ADF (Augmented Dickey-Fuller Test) [6]。

(2) 模型识别与定阶。ARIMA模型的结构和阶数主要通过数据序列的自相关和偏自相关性来确定 (式 (4) - (5) ) 。其判别标准为:如果自相关函数为q步截尾且偏自相关函数呈指数或正弦衰减, 则模型为MA (q) ;如果偏自相关函数为p步截尾且自相关函数呈指数或正弦衰减, 则模型为AR (p) ;若自相关函数与偏自相关函数皆不截尾, 但均收敛至0, 则模型为ARMA (p, q) 。

(3) 模型的参数估计。用于参数估计的算法主要有矩估计法、极大似然估计法、最小二乘估计法等。其中矩估计法由于方法简单但精度较差而很少采用, 一般多采用极大似然估计法或最小二乘估计法[9]。

(4) 适应性检验。ARIMA模型建立后需要进一步对模型的可靠性与适应性进行检验。主要检验的是模型的参数显著性以及残差的随机性。模型的参数通过假设检验来实现, 而残差的检验则可通过直方图、LM统计检验等方法来实现, 若残差序列经过检验证明为白噪声序列则表明模型具有较高的适应性, 否则需要重新进行建模以及参数估计, 直至检验通过为止。

1.2指数平滑模型。指数平滑模型是一种常用的时间序列分析方法, 其基本原理是利用历史信息来逼近下一个周期的数值。在具体的历史信息选择上指数平滑法采取了逐渐递减的权重的方法, 即距离当前越远的历史信息权重越低, 距离当前越近的历史信息权重越大。指数平滑模型的评价主要是比较输出结果方差的大小, 方差越小, 则模型的拟合效果和预测效果就越好。

指数平滑模型可分为一次指数平滑、二次指数平滑和三次指数平滑。其中一次指数平滑适用于线性趋势不明显的数据序列, 而其中具有代表性的则是Simple指数平滑模型。该模型的表达式为:

其中xt为实际观测值, yt为预测值, 参数α的取值需要根据模型拟合和预测的趋势来进行判断, α的取值范围为0-1。

二、廊坊市110治安案件警情分析

廊坊市110治安案件警情数据为2012年的110接警数据, 主要为人身伤害类案件, 包括打架、纠纷等。全年共发生治安类警情3616起, 日均发生9.8起, 最高日发生19起, 最低日发生1起, 标准差为3.47起。

图1所示为110治安案件接警数据的日序列图。从图中可见廊坊地区的治安案件日发生数量具有较大的波动性和随机性, 其中发案率最低的时间点出现在春节和国庆期间, 这段时间由于属于重要节日, 当地居民大多返乡省亲或阖家团聚, 室外的活动频率降低, 减少了人与人之间接触的机会, 减小了发生治安案件的可能性。相比之下, 发案率最高的时间点则集中出现在4月、6月和7月期间, 这段时间分别处于春季和夏季, 正处于气温回升, 天气回暖的时节, 按照犯罪学中的日常活动理论, “气温的上升使人们的户外活动频率增加, 无形中增大了人们之间发生冲突的次数”[12]。

三、时间序列建模分析

3.1 ARIMA数据建模。对该数据序列采用EVIEWS5.0与SPSS软件进行建模分析。首先, 按照ARIMA模型的建模原理, 对案件数据进行平稳性分析。采用ADF检验对数据序列的单位根进行验证, 检验结果发现ADF统计量的检验值为-0.81, 均大于1%和5%置信水平下的临界值 (表1) , 表明该数据序列数非平稳的, 需要进行平稳化处理。为此, 对该数据序列进行一次差分, 并对差分后的数据序列再次进行ADF检验, 检验结果发现ADF检验值变为-12.23, 均小于1%和5%置信水平下的临界值, 表明差分后的数据序列已经平稳。

对差分后的数据序列分别求延迟16阶的自相关与偏自相关系数, 结果如图2所示。从图中可见, 数据序列的自相关系数在1阶之后就小于2倍标准差, 呈现出截尾的性质, 而偏自相关系数则在4阶之后便小于2倍标准差, 虽然随后有所增加, 但整体趋势呈现为负指数递减, 因此可以判断出为4阶截尾。因此, 综合模型的基本原理可判断出数据序列符合的模型为ARIMA (4, 1, 1) 。

采用最小二乘估计法求模型参数, 并对结果进行统计检验, 检验结果显示出在模型参数的估计结果中, AR (2) 与AR (3) 项的系数统计检验p值均大于0.05, 未能显示出统计上的显著性, 而AR (1) 与MA (1) 项的系数统计检验p值均小于0.001, AR (4) 项的系数统计检验p值则小于0.05, 因此需要舍弃AR (2) 与AR (3) 项重新进行参数估计, 最终结果如表2所示。从结果可以看到AR (1) 、AR (4) 、MA (1) 的系数均呈现为统计显著, 并且模型的拟合优度R2为0.431, 调整后的拟合优度变化为0.428, 表明模型对数据序列的拟合良好;DW统计量 (Durbin-Waston stat) 为2.0010, 十分接近于2, 反映出模型的残差序列不存在自相关关系[6]。因此综合模型参数的统计检验结果, 最终确定出模型的表达式为:

3.2 Simple指数平滑建模分析。对数据序列进行指数平滑建模则采用拟合方差进行比较的方式。对数据序列, 分别求取α从0.1至1之间不同参数下的拟合方差, 并对方差随α的变化趋势作图如图4所示。从图中可见, 随着参数α逐渐从0.1增加至1, 模型的拟合方差呈指数增长, 最小值出现在α=0.1, 因此, 对廊坊市治安案件数据的时间序列指数平滑模型即为:

四、模型评价

将治安案件的日序列数据与ARIMA模型和Simple指数平滑模型的拟合结果进行比较, 比较结果如图4所示。通过图中观察可以发现, 由于案件序列具有较强的随机性特征, ARIMA模型和Simple指数平滑模型均是以捕捉数据序列的波动趋势为主。其中ARIMA模型的拟合数据曲线基本上能够比较充分地反映出案件数据的波动性, 而Simple指数平滑模型则在反映数据序列的短期趋势上表现的更好。进一步通过对比ARIMA模型和Simple指数平滑模型的数据拟合结果方差可以发现, ARIMA模型的拟合方差为4206.2, 而Simple指数平滑模型的拟合方差则达到了4384.2, 因此从模型的拟合效果来看, ARIMA模型要明显优于指数平滑模型。

分别利用ARIMA模型与指数平滑模型对该数据序列的下一个日期进行短期预测, 当天实际发生警情数量为8起。预测结果如表3中所示, 可见在预测精度方面ARMIA模型的表现要好于指数平滑模型。

五、结论

在公安情报分析工作中, 犯罪活动的短期预测无论是在情报研判、警力投送还是提高扁平化指挥效能方面都具有十分重要的作用。通过对廊坊市治安案件的110警情日序列数据进行时间序列建模分析, 进一步验证了犯罪数据在小时间尺度上所具有的随机性, 体现出了与犯罪长期趋势截然不同的复杂性特点。通过具体的数据建模分析, 可以发现, ARIMA模型能够适应复杂数据序列的建模分析, 因而在随机性较强的犯罪短期预测中具有比较好的性能, 而指数平滑模型由于注重通过对数据序列的波动性进行平滑来提取短期趋势信息, 因而在复杂数据建模的适应性上要略逊于ARIMA模型, 因此, ARIMA模型要更加适合于犯罪活动的短期预测。

参考文献

[1]Pyle D J, Deadman D.Crime and the business cycle in post-war Britain.British Journal of Criminology, 1994, 34:339-357.

[2]Deadman D, Pyle D J.Forecasting Recorded Property Crime Using a Time-Series Econometric Model.British Journal of Criminology, 1997, 37 (3) :437-445.

[3]王仲伸.未来五年崇文区犯罪增长趋势预测和行动对策[J].北京人民警察学院学报, 2006, 19 (1) :88-95.

[4]于子建, 王洪革, 张澍.基于灰色理论的青少年犯罪预测模型及其应用[J].吉林高等公安专科学校学报, 2005, 20 (5) :72-75.

[5]刘小娟, 高连生.灰色系统理论在犯罪动态预测中的应用[J].中国人民公安大学学报 (自然科学版) .2005, 10 (1) :44-48.

[6]屈茂辉, 郝士铭.基于ARIMA模型的我国财产类犯罪人数预测研究[J].中国刑事法杂志, 2013, 23 (4) :100-106.

[7]Chen Peng, Yuan Hongyong, Shu Xueming. (2008) .Forecasting Crime Using the ARIMA Model.Proceeding of the 5th International Conference on Fuzzy System and Knowledge Discovery.Jinan, China, IEEE Publisher, 2008, 465-470.

[8]Gorr W, Olligschlaeger A, Thompson Y.Short-term forecasting of crime.International Journal of Forecasting, 2003, 19 (4) :579-594.

[9]仝艳时, 陈鹏, 疏学明, 等.时间序列模型在火警短期预测中的应用[J].火灾科学, 2008, 17 (4) :216-221.

[10]王龙兵, 陈希镇, 王利.基于ARIMA模型的我国GDP短期预测[J].科学技术与工程, 2012, 12 (8) :1981-1985.

[11]孙光林.基于ARIMA模型的滑坡动力预测研究[J].科学技术与工程.2014, 14 (36) :17-21.

上一篇:试点经验下一篇:讨论思考