时间序列

2024-08-22

时间序列(精选12篇)

时间序列 篇1

时间序列分析是一种动态数据处理的统计方法, 该方法基于随机过程理论和数理统计学方法, 研究随机数据序列所遵从的统计规律, 以此来解决实际问题。该方法根据系统观测得到的时间序列数据, 通过曲线拟合和参数估计来建立数学模型的理论和方法。

社会消费品零售总额反映各行业通过多种商品流通渠道向居民和社会集团供应的生活消费品总量, 是研究国内零售市场变动情况、反映经济景气程度的重要指标, 对其历史数据进行分析, 能从发展中预见到未来的发展, 及时采取相应的对策, 对国家政策的制定以及投资等具有指导性作用。

通过上网查找资料选取了1997年1月~2014年9月共213组月度社会消费品零售总额的数据, 通过Matlab得到其时间序列图, 为了进行模型预测结果精确程度的分析, 将1997年~2013年的作为模型拟合数据, 2014年9个月的数据作为检验数据。对于月度社会消费品零售总额数据, 其具有增长趋势、周期性和季节性等性质, 在本文中利用混合模型的时间序列方法对其拟合分析, 先是通过乘积加法模型xt=St× (Tt+It) 对原始数据进行拟合, 该方法能够很好拟合曲线的趋势, 但缺点是未能将序列的相关性完全的提取出来, 这时则利用乘积季节模型ARIMA (p, d, q) 来对乘法加法模型得到的残差序列进行拟合, 提取出序列的相关性。

1 模型构建与计算

乘法加法模型是对序列的综合分析, 即对既有趋势起伏变动又有季节效应的复杂序列的分析方法, 对于社会消费品零售总额时间序列, 本文采用乘积加法模型xt=St× (Tt+It) 进行拟合和预测, Tt代表序列的长期趋势序列波动, St代表季节性 (周期性) 变化, It代表随机波动。

利用最小二乘估计方法拟合参数, 得到趋势函数为:

首先确定要进行ARIMA模型分析的序列为乘法加法模型xt=St× (Tt+It) 得到残差序列It, 通过log运算来消除方差非齐性。通过平稳非白噪声序列的ACF和PACF图来判断ARIMA模型的p, q值。

通过Matlab利用极大似然估计法得到下列估计结果:

通过检验, 得到残差序列为白噪声序列, 说明相关信息都已被提取出来。考察参数的显著性, 显著明显。所以该模型合理。利用拟合的ARIMA (1, 0, 1) × (0, 0, 1) 12模型, 预测得到2014年的残差序列值It, 根据预测得到的趋势项序列值Tt以及季节指数, 就可以得到所预测的2014年最终的序列值。

2 结论

从最终预测的表中结果来看, 使用该方法所得到的相对误差平均值为0.015477388, 单利用乘法加法模型得到预测结果的相对误差为0.023824132, 而单利用ARIMA乘积季节模型得到预测结果的相对误差为0.016141425, 从理论以及实验结果上都得出本文的混合模型相对于乘法加法模型和乘积季节模型的预测效果显著, 不仅能够较好地拟合序列的曲线趋势, 又提取时间序列的相关性。

摘要:社会消费品零售总额代表着宏观经济的发展现状, 对其历史数据分析对我国宏观经济未来的发展具有重要意义。本文选取了19972014年的我国月度社会消费品零售总额的时间序列数据, 通过乘法加法和乘积季节的混合模型来对该序列进行拟合分析, 不仅能提取数据之间的相关性, 还能够很精确的拟合序列趋势, 预测效果显著。

关键词:经济时间序列,ARIMA模型,混合模型

参考文献

[1]王燕.应用时间序列分析[M].第三版.北京:中国人民大学出版社, 2012.

[2]赵爽.经济时间序列的趋势分析和实证研究[D].北京:首都经济贸易大学.

[3]唐功爽.时间序列分析在经济预测中的应用[J].统计与信息论坛, 2005, 9 (20) :6.

[4]鲍尔曼, 奥康奈尔.预测与时间序列[M].北京:机器工业出版社, 2003.

时间序列 篇2

全国社会消费品零售总额的时间序列分析

全国社会消费品零售总额的时间序列分析

摘要

时间序列分析是经济领域研究的重要工具之一,它描述历史数据随时间变化的规律,并用于预测经济变量值。市场经济中,政府对市场变化的即时反应是各国经济工作的重点。在我国,随着市场经济的日益成熟,各级政府逐渐认识到短期计划的重要性。在要求减少对市场干预的同时,政府在经济中的作用主要体现在保证经济运行的正常轨道,由于社会消费品零售总额反映了经济运行中的一个重要环节———消费,尤其是目前我国市场上的消费需求不足现象,使我国经济发展受到外需与内需两方的困扰。因此对于社会消费品零售总额预测中的研究一直具有积极意义。

本文就以以我国1952年至2011年我国社会消费品零售总额为研究对象,做时间序列分析。首先,对全国60多年来社会消费品零售总额的发展变化规律,运用SAS软件进行分析其发展趋势。再则,通过检验说明模型拟合效果的好坏,再利用模型对下一年进行预测。最后,从国家经济、政策和社会消费品零售市场发展等方面对社会消费品零售总额变化规律及未来走势进行分析。

关键字:社会消费品零售总额   SAS软件   时间序列分析  预测

一.引言

社会消费品零售总额是指各种经济类型的批发零售业、贸易业、餐饮业、制造业和其他行业对城乡居民和社会集团的消费品零售额和农民对非农民居民零售额的总和。这个指标能够反映通过各种商品流通渠道向居民和社会集团供应生活消费品来满足他们生活需求的情况,是研究人民生活、社会消费品购买力、货币流通等问题的重要指标。随着消费环境的逐步改善,人们的消费能力不断增强,人们消费能力的增强直接带动了社会消费品零售总额的发展,“十一五”期间,面对复杂多变的国内外形势,特别是为应对国际金融危机的冲击,国家出台了一系列扩大内需、促进消费等政策措施,消费品市场的稳定发展对我国缓冲金融危机起到了明显的积极作用,消费需求已经成为经济增长的重要组成部分。

中国社会消费品零售业的发展将进入参与国际化竞争的新阶段,可靠准确的数据体系有利于政府的宏观决策,而零售总额的数据受多种因素的影响。因此对我国社会消费品零售总额进行预测是有积极意义的。

本文利用时间序列分析方法对我国社会消费品零售总额进行分析和预测。时间序列分析是根据动态数据揭示系统动态结构的规律的统计方法。其基本思想是根据系统的有限长度的运行记录(观察数据),建立能够比较准确地反映时间序列中所包含的动态依存关系的数学模型,并借以对系统的未来行为进行预报

二.问题重述

1.1问题背景

社会消费品零售总额指企业(单位、个体户)通过交易直接售给个人、社会集团非生产、非经营用的实物商品金额,以及提供餐饮服务所取得的收入金额。个人包括城乡居民和入境人员,社会集团包括机关、社会团体、部队、学校、企事业单位、居委会或村委会等。

社会消费品零售总额由社会商品供给和有支付能力的商品需求的规模所决定,是研究居民生活水平、社会零售商品购买力、社会生产、货币流通和物价的发展变化趋势的重要资料。反映一定时期内人民物质文化生活水平的提高情况,反映社会商品购买力的实现程度,以及零售市场的规模状况。

1.2问题的提出

时间序列是指同一种现象在不同时间上的相继连续的观察值排列而成的一组数字序列。时间序列预测方法的基本思想是:预测一个现象的未来变化时,用该现象的过去行为来预测未来。即通过时间序列的历史数据就可以揭示现象随时间变化的规律,将这种规律延伸到未来的一段时间,从而对该现象的未来做出预测。对此希望建立相关的社会消费品零售总额的数学模型并来预测居民消费价格指数未来年间的走势。

社会消费品零售总额是一个具有滞后性的数据,根据社会消费品零售总额的这一个特点,我们可以运用时间序列分析的方法对我国社会消费品零售总额进行

合理拟合,但不排除有误差的存在,从而对未来的社会消费品零售总额走势做出合理的预测。

三、时间序列模型

3.1模型介绍

对于短的或简单的时间序列,可用趋势模型和季节模型加上误差来进行拟合。对于平稳时间序列,可用通用ARIMA模型及其特殊情况的自回归模型、滑动平均模型或组合-ARIMA模型等来进行拟合。所谓的ARIMA模型是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及最忌误差项的现值和滞后值进行回归所建立模型。ARIMA模型根据原来的时间序列是否平稳和回归中包含部分的不同,分为了几个类别:MA(移动平均过程)、AR(自回归过程)、ARMA(自回归移动平均过程)、ARIMA过程。当观测值多于50个时候一般都采用ARIMA模型来进行拟合。本文社会消费品零售总额收集到的数据为60个,因此采用ARIMA模型进行拟合和趋势的预测。

求和自回归移动平均(AutoRegressive Integrated Moving Average,ARIMA)模型是以序列不同时期内的相关度量为基础,进行的一种精确度较高的短期预测分析方法。该法由美国学者Box和英国统计学者Jenkins于1976年提出来的,故又被称之为Box-Jenkins模型。

在ARIMA模型中,变量的未来取值可以表达为过去若干个取值和随机误差的线性函数式中:

其中B是后移算子,εt为各期的随机扰动或随机误差,d为差分阶数,p和q分别表示自回归阶数和移动平均阶数,Xt为各期的观察值(t=1,2,„,k)。

3.2模型的建立步骤

对于非平稳时间序列则要先将观测到的时间序列进行差分运算,并化为平稳时间序列后,再用适当的模型去拟合这个差分序列。通常情况下,求和自回归移动平均模型的建模过程分为以下几个步骤:

(1)

对原序列进行平稳性检验,若原序列为非平稳序列则通过差分消除趋势;

(2)判断序列是否具有季节性,若具有季节性的波动,则通过季节差分来消除季节性;

(3)

进行模型识别

(4)

进行模型定阶;

(5)

对模型的参数进行估计;

(6)

对模型的适合性进行检验,即对残差序列进行白噪声检验,判断是否是白噪声序列;

(7)

给出模型的预测结果,并画出趋势预测图。

3.3ARIMA(p,d,q)模型

在ARIMA模型的识别过程中,我们主要用到两个工具:自相关函数(ACF),偏自相关函数(PACF)以及它们各自的相关图。对于一个序列{Xt}来说,它的第i阶自相关系数定义为它的i阶自协方差除以它的方差,它是关于i的函数,因此我们也称之为自相关函数,通常记ACF(i)。偏自相关函数PACF(i)度量了消除中间滞后项影响后两滞后变量之间的相关关系。

自相关系数和偏自相关系数这两个统计量来识别ARIMA(p,d,q)模型的系数特点和模型的阶数。并用游程检验经过处理的序列是否为平稳化的序列。

可以利用平稳性检验、自相关函数ACF(i)和偏自相关函数PACF(i),可识别ARIMA(p,d,q)模型。具体步骤如下:

第一步,利用平稳性检验确定d的值。可运用前面学过的平稳性检验方法,检验序列是否平稳。如果不是,通过几次差分才能得到平稳序列。若经过1次差分就可实现平稳,则d就等于1,若经过2次差分就可实现平稳,则d就等于2,如此类推。

第二步,利用ACF和PACF来确定p和q的值。一般规则是:

(1)如果序列的ACF是截尾的,即过了某一滞后项值(设为q)后,ACF变得不显著,接近于零,并且PACF是拖尾的,则可把序列设为MA(q)过程;

(2)如果序列的PACF是截尾的,即过了某一滞后项值(设为p)后,PACF变得不显著,接近于零,并且ACF是拖尾的,则可把序列设为AR(p)过程;

(3)如果序列的ACF和PACF都是拖尾的,则可把该序列设为ARMA(p,q)过程,而关于p和q的值需要不断地从低阶试探,并使信息准则达到最小。

四、时间序列模型建立与拟合4.1.数据的录入

根据中国国家统计局网站发布的社会消费品零售总额时间序列数据,经整理得到了历年社会消费品零售总额(1952~2011)(单位:亿元)。

我国社会消费品零售总额

我将这些数据编写了SAS的程序(附录1),进行了下列的检验和预测。

4.2.数据分析

4.2.1 根据原始数据画出时序图

图2.1.1  时间序列图

有上图可知在1952-2011年我国社会消费品零售总额波动趋势总体上是持续上升的,我们可以看出该时间序列图显示这是一个典型的非平稳序列,因为具有明显的趋势性。

4.2.2 一阶差分处理

对于该非平稳社会消费品零售总额的时间序列,首先可以利用SAS软件对数据进行一阶季节性差分的处理,以便消除其具有的强烈的趋势性,来观察数据是否大致趋于平稳。因此得到的一阶差分时间序列图如下:

从图2.2.1中可以看出社会消费品零售总额时间序列的趋势性得到了一定的消除,序列围绕均值为零的一个小区间内震荡,且方差明显有界。但是很明显在1995-2000年这段时间波动比较大,影响这个波动较大的因素是由于在1997年的亚洲金融危机的冲击下,国内的消费需求不振,从而导致我国的经济陷入衰退,出现了通货紧缩的情况,社会消费品零售总额开始出现回落。2007年是由于美国次贷危机的影响,有小幅度的波动,2008年的社会消费品零售总额略有下降,但是国家政府为了促进经济的增长,采取了一系列的宏观调控政策。如宽松的货币政策和财政政策,使得经济复苏,从而使得社会消费品零售总额稳中有降。此时季节性性因素对社会消费品零售总额的影响表现出来。

2.3 平稳性检验

为了进一步判断其平稳性,考察差分序列的自相关图,如图2.3.1所示,自相关图显示延迟3阶之后,自相关系数都落入2倍标准差范围以内,而且自相关系数向零衰减的速度非常快,延迟在16阶以后自相关系数即在零值附近波动,从而判断该序列有很强的短期相关性,所以可以初步认为一阶差分后序列平稳。自相关函数与偏自相关函数图如下:

4.2.4纯随机性检验

对平稳的差分序列进行白噪声检验.编程运行结果为图2.4.1:

从图2.4.1可以看出,在显著水平为0.01的条件下,检验统计量的p值显著小于0.01,所以该序列是平稳非白噪声序列,我们可以利用ARIMA(p,d,q)模型进行建模.4.2.5ARIMA(p,d,q)模型拟合用ARIMA(p,d,q)模型对我国社会消费品零售总额进行建模拟合及预测并进行了平稳化处理,因此直接对差分后平稳序列{}进行建模.利用SAS软件进行编程拟合分析:

根据图2.3.1,自相关函数为3阶截尾,再根据图 2.3.2确定偏自相关函数为1阶截尾,可以初步选择ARMA(3,1)模型进行拟合。再由BIC准则确定模型的阶数,BIC值如下:

从图2.5.1可知,p=1,q=2时 BIC(1,2)=12.27375最小,因此选择模型ARMA(1,2)。然后对模型ARMA(1,2)进行参数估计和显著性检验,由SAS程序运行结果如图2.5.2:

图2.5.2参数估计及检验

从图2.3.3知,参数估计显著,得到模型为:

4.2.6 残差检验

模型检验主要是检验模型对原时间序列的拟和效果,就是检验整个模型对信息的提取是否充分,即检验残差序列是否为白噪声序列。如果拟合模型通不过检验,即残差序列不是为白噪声序列,那么要重新选择模型进行拟合。如残差序列是白噪声序列,就认为拟合模型是有效的。对拟合好的模型的残差序列作白噪声检验,观察模型残差的自相关和偏自相关图,可以直观地看到,几乎95%的系数值全部落在2σ之间,说明残差之间没有相关性,即信息提取充分,模型建立良好。

对模型进行残差检验,应用SAS程序运行结果如图2.3.4所示,显然,残差序列为白噪声序列,说明模型提取信息充分,说明ARIMA(1,1,0)对该序列来说是适应的。

图2.6.1残差检验

4.2.7运用模型ARIMA(1,1,0)进行预测与分析

(1)预测

由上图可知,残差为白噪声序列,序列信息提取充分,不需要继续建模,通过模型对未来5期进行预测并做出原始序列的预测图,结果如下:

图2.7.1  2012—2016年社会消费品零售总额预测结果

图2.7.1  2012—2016年社会消费品零售总额预测结果

(2)分析

根据图2.7.1和图2.7.2可以看出在未来的时间居民消费价格指数还会有有所上涨,但是涨幅不会偏大。2007-2010年期间趋势波动较大,是因为全球金融市场进入剧烈波动的“多事之秋”。再加上 2007年次贷危机使美国房地产衰退雪上加霜,并将推迟其复苏时间。虽然相对美欧金融业而言,亚洲及中国遭受的直接影响还相对较小。但是美次贷危机对国际金融市场和世界经济产生“溢出效应”,可能通过其广泛的投资者、衍生品及影响市场预期和实体经济运行等多个渠道,对亚洲及中国经济产生间接的影响。不过美国次贷危机和金融机构面临困难也为亚洲经济体提供一些机遇。就像是我们中国的一句老话:“塞翁失马焉知非福 ”。在图中也可以看出2007年美国次贷危机对我国经济也造成了一定的影响,使之造成了一定通货膨胀。使其后两年的消费品零售总额有所下降。

4.2.8模型的局限性。

(1)

ARIMA模型的短期预测效果要优于长期预测。原因在于本模型均是基于过去时间序列数据建立的,并没有考虑预测期相应时间内突发情况等因素,随着预测期的增长,预测效果自然会变得比较差。

(2)

针对于模型预测误差的产生原因,除了上述模型本身的问题外,笔者认为还有人为因素的干扰。

五.总结

在利用时间序列ARIMA模型进行分析、预测时需要对数列进行预处理,以检验数列拟合ARIMA模型是否合适。通过对1952年至2011年我国社会消费品零售总额的建模分析,本文建立了ARIMA模型,并得到了较好的拟合效果。而对2012年到2016年的我国社会消费品零售总额进行预测,从预测结果看,在2012年到2016年间我国社会消费品零售月度总额将会有较大的增速。因此,政府可以参考预测结果制定相应政策来调控宏观经济,可以从以下两个方面进行分析。了解与建议:

(一)导致我国消费品零售总额增加的原因主要有以下几方面。

1.国家政策措施效果明显。为了应对国际金融危机的不利影响,我国及时出台了一系列扩内需、促消费的政策措施,成为消费品零售总额保持平稳较快增长的首要因素。主要表现为直接提高居民特别是低收入群体的收入,增强了城乡居民消费能力;加强民生工程建设,从一定程度上解除了居民消费的后顾之忧;稳定大宗商品和热点消费品价格,有力地促进了相关商品销售。这些政策措施的实施,提高了城乡居民实际消费能力和消费意愿,从而有效地阻止了我国消费品市场趋冷的走势。

2.生产经营单位积极应对危机。为应对国际金融危机影响,商家普遍开展了长时间、大范围、多形式的促销活动,一些外贸企业为缓解外需不足,也通过举办外贸大集等形式大力开辟国内市场。

(二)保持消费品市场持续增长的建议

投资与消费对GDP的贡献一般是此消彼长的关系,在研究GDP的相关问题时常选取社会消费品零售总额代表经济的消费需求成分。根据预测,我国经济目前处于一种稳定增长的态势,那么在逐渐提高效率和品质的供给能力支持下,驱动我国经济发展的主要动力来自国内外的稳定需求增长。因此,在制定我国宏观经济调控政策时的一个基本导向是:利用供给管理政策保证长期经济增长,利用需求管理政策兼顾短期经济波动。在经济增长已经进入以累积需求为主导的发展阶段时,能否有效地启动消费需求和保持消费需求水平,是促进增长型经济周期形成的关键。具体做法有以下几点。

1.大力开拓农村市场,挖掘农村消费潜力。

2.继续发挥投资对消费的拉动作用。加强基础设施建设,加快城市化建设步伐,增加有效需求,刺激市场发展。

3.健全社会保障机制,提高居民消费水平。消费要有收入作基础,收入是消费的来源,是影响消费需求最重要的因素,只有全面提高居民人均可支配收入,保障低收入家庭的收入,才能使人们放心大胆地进行消费。

4.进一步整顿和规范市场秩序。加强市场的监管力度,严把商品质量关,加大对市场上商品的抽查力度,充分保障消费者的合法权益,增强消费者的信心,努力扩大消费。

六.参考文献

【1】中华人民共和国国家统计局数据库

【2】肖枝洪,郭月明    《时间序列分析与SAS应用》(第二版)武汉大学出版社

【3】张瑛,雷毅雄    《SAS软件实用教程》   科学出版社

【4】王燕

《应用时间序列分析》(第三版)中国人民出版社

【5】百度文库

七.附录

附录一: SAS程序如下

data curriculum_design;input x@@;difx=dif(x);

time=intnx('year','01jan1952'd,_n_-1);format time date.;cards;

276.8      348       381.1      392.2       461       474.2     548

638        696.96    607.7      604         604.5     638.2     670.3

732.8      770.5     737.3      801.5       858      929.2    1023.3

1106.7    1163.6    1271.1     1339.4      1432.8    1558.6   1800.0

2140.0    2350.0     2570.0    2849.4      3376.4     4305.0   4950.0

5820.0    7440.0     8101.4    8300.1      9415.6    10993.7  14270.4

18622.9   23613.8   28360.2    31252.9    33378.1    35647.9  39105.7

43055.4   48135.9   52,516.3   59,501.0   68352.6    79145.2  93571.6

114830.1  132678.4  156998.4   183918.6

proc gplot;

plot x*time difx*time;

symbol c=black v=star i=join;proc arima;

identify var=x(1)nlag=22;estimate p=1 noint;

forecast lesd=5 id=time;

run;

proc arima data=curriculum_design;

identify var=x nlag=22 minic p=(0:5)q=(0:5);estimate p=1;

forecast lead=5 id=time out=results;

run;

proc gplot data=results;

plot x*time=1 forecast*time=2 l95*time=3 u95*time=3/overlay;symbol1 c=black i=none v=star;symbol2 c=red i=join v=none;

symbol3 c=green i=join v=none l=32;

时间序列 篇3

关键词:教育基尼系数 ARMA模型 预测

中图分类号:G420 文献标识码:A 文章编号:1673-9795(2012)11(b)-0127-01为了衡量中国教育平等状况,国内学者提出了不同的测量指标。其中,教育基尼系数具有标准差、极差、差异系数等指标所不具备的优势。正因如此,在2000年世界银行公布的研究报告中,Vinod Thomas等人即是利用教育基尼系数测量了各国的教育不平等状况。在衡量过去教育平等状况的同时,我们更加关心未来我国教育平等状况的演变趋势,以便制定相应的公共政策,保证教育公平的实现。基于此,本文利用教育基尼系数时间序列数据建立ARMA(p,q)模型,对我国教育平等状况进行预测。

1 数据来源及预处理

本文选取的中国教育基尼系数来源于姚继军(2009)的研究成果,他计算了中国1949-2006年教育基尼系数,为本文的时间序列分析提供了较长的样本容量。中国教育基尼系数的变化趋势如图1所示,总体而言,1949至2006年,中国教育基尼系数一直呈不断下降的趋势,且下降幅度巨大。这表明,中国的教育平等状况已得到了极大的改善。(如图1)

教育基尼系数是非平稳的,为建立ARMA (p,q)模型,必须进行平稳化处理。教育基尼系数具有明显的时间趋势,我们可以通过进行一阶差分,将其平稳化。本文通过ADF单位根检验检验教育基尼系数一阶差分在1%的显著性水平下是平稳的,可以进行时间序列分析。

2 ARMA模型的建立与预测

我国教育基尼系数一阶差分序列的自相关系数和偏相关系数在滞后阶数等于1时显著不为零,滞后阶数大于1时基本处于滞信带内,可以判断p=1,q=1。但对于自相关系数和偏相关系数的拖尾性或截尾性不能明确地进行判断,因此我們建立AR(1)、MA(1)、ARMA(1,1)三个模型进行分析。

本文选用非线性最小二乘法(NLS法)进行参数的估计。估计结果如下表所示:从表1可以看出,ARMA(1,1)模型除了截距项外,其它系数并未通过显著性检验,说明该模型并不适用于我们的时间序列数据。AR(1)和MA(1)模型通过了显著性检验,并且两个模型的AIC和SBC值都非常接近,此外AR(1)满足平稳性条件,MA(1)满足可逆性条件。(如表2)

接着,本文对所得模型的残差序列e进行平稳性和随机性检验。如果残差序列是白噪音,可以接受这个具体的拟合;如果不是,那么残差序列可能还存在有用信息没被提取,需要进一步改进模型。由于AR(1)和MA(1)模型均是理想的,因此,我们对这两个模型的残差序列进行检验,Eviews6.0软件的检验结果显示这两个模型的残差序列均是白噪声序列,因此可以进行教育基尼系数的预测。

本文利用2006年的数据进行预测。2006年我国教育基尼系数的实际值是0.2374,AR(1)模型的预测值是0.2346,预测相对误差为-1.1794%,MA(1)模型的预测值是0.2343,相对误差是-1.3058%。预测结果表明,本文所建立的AR(1)和MA(1)模型能够对我国教育基尼系数的过去信息进行很好的拟合,同时预测效果也比较理想。

参考文献

区域气候的时间序列数据研究 篇4

全球变暖在近二十年来越来越多地引起人们的关注, 关于全球变暖现象的起因、发展趋势、人类在其中扮演的角色, 以及该现象是否存在, 都是研究的焦点问题。这些问题的答案会直接影响很多国家在能源、工业等方面重要政策上的选择。今天, 全球变暖的观点已经被大多数的研究者所接受。

在所有对全球变暖的研究当中, 大多数是基于历史数据, 通过全球平均气温变化以及各地区平均气温变化来找到全球变暖的趋势。而另一方面, 全球变暖如果存在, 将会在每一个局部地区造成影响, 使得地区原有的气候体系被破坏重组, 基于这一点本文将研究的重点定位为:能否通过找到并且分析地区气候结构演变的趋势, 来证明全球变暖的存在?本文中的数据、数学模型以及实验方法都是以这一问题为出发点所选择的。

在用来描述复杂网络的基本方法中图模型是一种基本的表达信息的方式, 在生物学、社会科学以及其他很多不同领域中, 所研究的对象都是一组个体, 例如生物学中的分子或者社会学当中的个人, 以及这些个体之间的某种关系, 例如不同分子之间的物理相互作用或功能相互作用, 以及个体之间的合作或者交流关系。本文使用相关图的概念来描述地区气候结构, 以处于不同地理位置的气象观测站为相关图中的点, 图中的边代表两点之间的气候具有相似的特性。这样就可以通过相关图演变的趋势来分析各个时期不同地区气候结构的演变趋势。为此选择的数据是过去一百年美国各地的观测站气温观测值。

为了从每个气象站的气温序列中得到相关图, 本文首先对每个气温序列做了预处理, 使用周期分解的方法消除了由于日照角度变化引起的周期信号。接下来使用了针对时间序列改进过的高斯—马尔可夫随机场模型, 从时间序列数据中拟合出不同气温序列之间的统计相关性, 以此构建得到相关图。

最后本文对不同时期得到的相关图, 结合观测站实际的地理位置进行了分析和对比, 并以此为根据对全球变暖的存在性给出了正面的回答。

1 数据处理

1.1 数据来源

本文的数据来自于美国国家气象数据中心NCDC (National Climate Data Center) , 其中包含了来自分布在全球各地气象站的历史气温、气压以及降水量数据。因为衡量全球变暖的一个最重要指标就是温度, 所以文中仅仅使用温度数据作为研究对象。

由于美国地区的观察站覆盖密度最大, 且记录保持最为完整。同时美国是较早完成工业化的国家, 在20世纪中受人类活动引起的局部气候改变相对较小, 因此本文中的温度数据都是来自美国地区的。

出于简化模型的目的, 本文选择了1906-2005这100年的气温数据, 并按照10年的周期将这段时期的数据划分为10组。美国地区有802个观测站的数据覆盖了这段时期, 为了后期进行时间按序列的分析, 将每组数据以月为单位划分成120个时间区间, 所以最后的数据是10组802×120的矩阵。

1.2 数据特征

由于本文的基本数据表示的是每月平均温度, 在对这类时间序列数据的研究中需要着重对以下几个部分进行分析:

1) 周期性时间序列数据 这类数据主要是由于某些周期性因素引起, 文中主要是指日照角度的周期性改变。

2) 定态与非定态时间序列数据 当且仅当

P (Y (t1) , …, Y (tn) ) =P (Y (t1-k) , …, Y (tn-k) ) (1)

对于所有的t1, …, tn以及k都成立, 则该数据是定态的, 其中Y (ti) 是时间序列中对应的点。

3) 数据的变化趋势 从定态时间序列的定义可以得到, 定态时间序列平均值的数学期望随时间不变。但实际数据平均值通常具有随时间改变的趋势, 所以可以将时间序列中非定态部分的平均值的变化情况当成是该时间序列的变化趋势。

4) 时间序列的分解 将复杂的时间按序列分解成为具有周期性的时间序列数据以及代表变化趋势的数据, 并且假设他们之间是线性关系。

其次影响气温的自然因素有很多, 包括太阳光照、地表特征、大气环流以及人类工业活动, 而太阳光照是一个主要因素, 但是由于太阳光照的周期性, 相对其他因素它对区域性气温的变化趋势并没有太多影响。所以在对文中的时间序列数据进行分解时会将这类以12个月为周期的因素分解出来, 仅仅把注意力集中在剩余的影响因素中。

1.3 数据分解

对数据运用STL (Seasonal-Trend Decomposition Procedure Based on Loess) 算法[1]进行分解, 它的作用是将一个时间序列分解为周期信号、趋势以及剩余项三部分的叠加, 形式如下:

Y (v) =T (v) +S (v) +R (v) (2)

其中T (v) 是原始时间序列中具有低变化率, 以及长期非定态的趋势项;S (v) 是满足一定周期的周期变化项;R (v) 是数据中随机变化项, 可以用高斯白噪声表示。该算法的本质是从数据中将特定变化频率附近的数据提取出来, 在具体的分解过程中需要使用MA模型保证趋势的连续性, MA模型的这个特性使得数据具有时间上的前后依赖性, 这对相关图构建有很多影响。

在对温度数据进行分解时, 设定周期长度为12, 同时对每个观察站100年内的时间序列数据进行STL分解, 图1为1906到1915内数据的分解情况。

2 模型构建

2.1 相关性模型

经过处理的数据集是10组802×120大小的矩阵, 代表802个观测站的120个月份中进行周期分解后的温度数值。由于温度数据是典型的多元分布数据, 该部分将通过马尔可夫随机场模型对多变量相关性问题进行建模。

马尔可夫随机场[2]假设每个观测站的数据都是满足高斯分布的, 如此假设的原因在于高斯分布是对满足固定期望方差的未知数据可以建立的最简单模型, 其次高斯分布拥有很多适合数值计算的特征, 此问题进一步变成多元高斯分布上的变量相关性问题。

从多元高斯分布的概率密度函数表达式:

π (x) = (2π) -n/2|∑|-1/2exp[- (x-μ) T∑-1 (x-μ) /2] (3)

可以发现, 逆协方差矩阵∑就是这个概率分布的“自然参数”, 它具有一个重要属性:任意两个变量, 如果它们对应的逆协方差矩阵中元素为零, 那么在给定其余变量的情况下, 这两个变量是条件独立的。而各观测站的测量温度之间也具有这样的条件独立性, 所以本文将运用逆协方差矩阵来描述各个观测站的数据之间的相关性。

2.2 模型分析与参数确定

在研究气温数据这样的多元数据中每对变量之间的相关性时, 最直观的方法是从数据中求出协方差矩阵, 并通过矩阵中的 (i, j) 的值来评价变量i, j之间的关系, 这种方法的缺陷在于造成需要拟合的参数数目过大, 对于固定大小的样本数n, 参数个数相对于样本个数的平均值按照p/2+1的速度随变量个数p增长, 对于文中的数据相当于用120个样本去估计802×401个参数。从统计学的角度, 这样的估计结果是没有意义的, 所以减少参数个数是首要要求[3]。

运用上一节中描述的马尔可夫随机场的重要属性就可以解决这个问题。首先给定了n个两两之间独立并满足p维高斯分布的随机变量的样本y (1) , …, y (n) 近似服从正态分布N (μ, ∑) , 目标是用该样本来拟合逆协方差矩阵∑-1, 同时要求估计的参数个数尽量少, 这里先根据样本数据求出经验协方差矩阵S:

S= (∑k=1, …, n (yk-μ) ( yk-μ) T) /n (4)

然后使用如下形式来拟合逆协方差矩阵:

∑-1=argmax (log (det (X) ) -trace (SX) -λX║) (5)

这里的║X║是X中所有元素绝对值之和, 即X的一阶范式。使用一阶范式作为拟合的惩罚项的作用是控制拟合的逆协方差矩阵中零元素的个数。当λ= 0时, 式 (5) 就是传统的最大似然拟合方法, 而引进惩罚项后λ将直接控制拟合结果中的非零元素的个数, 更大的λ将得到更加稀疏的矩阵。

由于拟合的逆协方差矩阵中的非零元素是用来表征相关变量之间的条件相关性, 所以需要解决如何选择λ以及非零元素的统计置信程度两个问题, 根据文献[4], 设α是一个[0, 1]的置信区间, 那么λ赋予如下值:

这时拟合的逆协方差矩阵中会以α的概率错误地得到一个非零元素, 其中各个变量的具体含义在文献[4]中有具体说明, 本文设置α=0.05。

按照式 (5) 和式 (6) 来拟合逆协方差矩阵既减少需要估计的参数个数也保证非零元素的可信度。反映在温度数据中即:可以用α控制网络中不必要的关联度, 另一方面也保证了每个具有关联性的变量之间的可信度, 不会因为过于简化关联性而失掉了模型的真实性。

2.3 时间序列的独立性问题

前文的讨论中假设数据样本满足一致独立分布的性质。但气候结构随时间的变化会明显地影响各时期气温数据的分布情况, 但是包括随机场模型的其他基于图模型的统计推理模型都对数据做了一致独立分布的假设。

本文根据文献[9]中描述的方法来解决这个问题, 即将一致独立分布假设替换成一个相对较弱的假设:虽然时间序列中的数据来自不同的概率分布, 但假定这一系列概率分布是随时间平滑改变的, 具体而言, 所有观测站的连续两个月的数据的逆协方差矩阵会有差异, 但差异不明显。由此可以用局部似然度加权的方法, 使用每个数据点在时间轴上附近的数据集合来拟合该时间点的模型, 拟合算法 (5) 改进为:

Minθ{l (θ, Dn) +λnθ║} θRp (7)

其中的损失函数变成了加权形式:

l (θ, Dn) =-∑t (ωtγ (θ;xt) ) tTn (8)

加权函数ωt是一个随距离衰竭的核函数, 新的损失函数仍然可以利用原来的凸优化的方法进行有效计算。

至此, 得到了一套完整的用来拟合多元时间序列数据当中不同变量之间关系的模型。

3 实验结果与分析

3.1 相关图构建

基于第一节的数据, 现在运用第二节中介绍的模型来进行相关图的构造。由于相关图模型对每个周期的数据需要确定一个固定时间点, 所以用十年周期的中心点来描述数据特征, 同时对式 (8) 中的核函数进行修改, 使得十年周期之外的数据权值均为零。

本文以Graphic Lasso算法[6]为基础, 并将该算法扩展使得可以适用于非独立同分布的数据集, 从而对气候数据进行处理得到每个周期内的相关图, 由于式 (7) 中需要提供的参数只有λ, 为了使得最后构造的相关图达到足够的统计置信度, 这里取α为0.05, 从而得到每十年周期内λ的值如表1所示。

3.2 相关图的对比

通过对比这10组相关图之间边数的变化情况来研究全球变暖对局部地区的影响情况, 由于在第二节已经确定了拟合的逆协方差矩阵的统计置信程度, 因此直接对比边数的方法是合理的, 图2是10个周期中相关图中边数的变化情况, 图3是历史全球平均气温变化曲线。

从图2中可以发现, 在1905-1955这段时间内, 相关图中边的个数在保持着稳定下降, 而之后的四个周期中则没有统一的趋势, 但是整体上比前三个时期有明显的上升。值得注意的一点是这两个变化行为不同的阶段, 在时间上恰好对应了图3中全球变暖趋势出现之前和之后的情况, 说明区域的气候数据也可以反映全球变暖的趋势。

3.3 区域性偏差分析

相关图中边数减少可以得到的直接结论是不同地区之间的相关性在降低, 即不同地区的气候越来越不满足相同的规律。这种多样性在1905-1955年稳定地保持着, 而在1955之后开始出现相反的趋势, 这正好反映了全球变暖正在消除各个地域性的气候差异的事实, 但是由于模型是用每个周期内总的边数来进行对比, 并能完全真实地反映每个周期内不同地域的观察数据的变化情况。

为了研究每个周期内边的变化是集中在局部还是整体的普遍趋势, 本文将先对每个周期内的数据进行聚类[7], 然后再对不同周期相关图的聚类结果, 例如类的大小、个数, 以及聚类系数进行对比分析。

综合了图的规模, 聚类的精确性以及算法复杂度, 本文将运用文献[7]中提出的快速聚类算法对10个周期的相关图进行处理。在给定聚类系数的情况下, 聚类的结果:是前6个周期出现了3个大类, 第7和10个周期出现了规模在10以内的小类, 可以将这些小类当成噪声处理。

这里值得注意的是为了衡量聚类系数的合理性, 本文采用了两种指标来验证聚类结果。一种是文献[7]中提到的Q分数, Q分数是各类中出现的边数与同样大小随机图中出现边数之差的期望值, Q=0时, 表明在给定类划分下, 这个图并不比随机图更具有聚类趋势, 更大的Q则表示更显著的聚类程度, 在之前得到的相关图上计算Q分数的结果如图4所示。

另一种是聚类系数C分数[8], C分数是一种与特定聚类结果无关的描述聚类程度的统计量, 图5是各个相关图的C分数变化曲线, 对比图4和5就可以发现, 两种聚类系数的变化趋势基本相同。

通过对比图2, 3, 4, 5可以发现一个规律:图中边的数量的改变趋势与图的聚类程度改变总是朝着相反方向进行的, 也就是说当边的数目增加时图中的聚类程度反而下降。由此可以简单推论:增加或减少的边都更多地出现在原先图中已有的一些聚类群体之间, 而不是它们内部。

如果结合数据的真实背景可以初步得出以下规律:在20世纪前半段, 即全球气候变暖之前, 不同观测站之间的相关性在不断减少, 其中减少的边多数是图中不同聚类群体之间的边, 这代表不同区域之间的气温模型趋异;20世纪后期, 整体趋势是边数增加以及聚类程度下降, 代表不同区域之间的气温模型开始趋同, 地域间多样性开始减少, 而全球变暖恰好出现在这两个阶段的分界点上, 所以很有可能是这种改变背后的决定性因素。

4 结论与展望

本文通过历史气象数据对比不同时期之间的气候结构, 从中分析这类结构的演化方式, 并寻找全球变暖在其中可能的影响。这个目的来自于这样的假设:全球变暖会使得地区气温结构发生改变重组, 一些原先气候不同的地区在全球变暖的影响下变得相同。

最后对结果的分析表明, 十组相关图整体上先后出现了两种完全不同的趋势, 具体表现为边数目的变化以及聚类程度的变化, 即在20世纪前半段不同地区的相关性在稳定下降, 在后半段不稳定上升, 而全球变暖出现在20世纪50年代, 这种时间和现象上的符合一定程度证明了上面的假设。

最后本文还有很多进一步改进的方面, 比如可以考虑更多的气候信息, 也可以更具体地寻找造成图中某个局部群体变化的气候因素, 同时也应该考虑一些基于置换检验的更严格的统计学验证方法来验证相关图的一些统计量。

参考文献

[1] Cleveland R B, Cleveland W S, Mcrae J E, et al.STL:A Seasonal-Trend Decomposition Procedure Based on Loess[J].Journal of Official Statistics, 1990, 6 (1) :3-73.

[2]Rue H, Held L.Gaussian Markov Random Fields:Theory and Applica-tions[M].Monographs on Statistics and Applied Probability, vol.104.London:Chapman&Hall, 2005.

[3] Dempster A P.Covariance Selection[J].Biometrics, 1972, 28:157-175.

[4]Meinshausen N, Buhlmann P.High-dimensional graphs and variable se-lection with the Lasso[J].Annals of statistics, 2006, 34 (3) :1436.

[5]Peterson T, Vose R, Schmoyer R, et al.Global Historical ClimatologyNetwork (GHCN) quality control of monthly temperature data[J].In-ternational Journal of Climatology, 1998, 18 (11) .

[6] Friedman J, Hastie T, Tibshirani R.Sparse inverse covariance estimation with the graphical lasso[J].J.Biostatistics, 2008, 9 (3) :432-441.

[7]Newman M.Detecting community structure in networks[J].The Euro-pean Physical Journal B-Condensed Matter and Complex Systems, 2004, 38 (2) :321-330.

[8] Albert R, Barabasi A.Statistical Mechanics of Complex Networks[J].Reviews of Modern Physics, 2002, 74:47.

时间序列 篇5

文献综述报告

基于股票时间序列数据的关联规则挖掘研究

Study on Mining Association Rules from Stock Time Series Data

别: 计算机科学与技术系 专

业: 计算机应用技术 研究方向: 人工智能 研 究 生: 汪廷华 导

师: 程从从(教授)

2005年03月

一.引言

随着计算机信息系统的日益普及,大容量存储技术的发展以及条形码等数据获取技术的广泛应用,人们在日常事务处理和科学研究中积累了大量的各种类型的数据。在这些数据中,有很大一部分是呈现时间序列(time series)类型的数据。所谓时间序列数据就是按时间先后顺序排列各个观测记录的数据集[1],如金融证券市场中每天的股票价格变化;商业零售行业中,某项商品每天的销售额;气象预报研究中,某一地区的每天气温与气压的读数;以及在生物医学中,某一症状病人在每个时刻的心跳变化等等。然而,我们应该注意到:时间序列数据不仅仅是历史事件的记录,更重要的是蕴藏这些数据其中不显现的、有趣的模式。随着时间推移和时间序列数据的大规模增长,如何对这些海量数据进行分析处理,挖掘其背后蕴藏的价值信息,对于我们揭示事物发展规律变化的内部规律,发现不同事物之间的相互关系,为人们正确认识事物和科学决策提供依据具有重要的实际意义。

时间序列数据分析按照不同的任务有各种不同的方法,一般包括趋势分析、相似性搜索、与时间有关数据的序列模式挖掘、周期模式挖掘等[2]。本综述是针对证券业中股票时间序列分析的,试图通过列举、分析有关证券业中股票时间序列数据分析的原理、方法与技术,着重探讨数据挖掘中基于股票时间序列数据的关联规则挖掘的概念、原理技术、实施过程及存在的障碍和问题,以期能有新的发现和领悟。

二.股票时间序列传统研究方法概述

随着我国市场经济建设的发展,人们的金融意识和投资意识日益增强。股票市场作为市场经济的重要组成部分,正越来越多地受到投资者的关注。目前股票投资已经是众多个人理财中的一种重要方式。不言而喻,如果投资者能正确预测股票价格、选准买卖时机,无疑会给投资者带来丰厚的收益。于是,在股票的预测和分析方面出现了大量的决策分析方法和工具,以期能有效地指导投资者的投资决策。目前,我国股市用得较多的方法概括起来有两类[3]:一类是基本分析和技术分析,另一类是经济统计分析。1.基本分析和技术分析

在股票市场上,当投资者考虑是否投资于股票或购买什么股票时,一般可以运用基本分析的方法对股市和股票进行分析;而在买卖股票的时机把握上,一般可以运用技术分析的方法[4]。

基本分析指的是通过对影响股票市场供求关系的基本因素(如宏观政治经济形势、金融政策、行业变动、公司运营财务状况等)进行分析,来确定股票的真正价值,判断未来股市走势,是长期投资者不可或缺的有效分析手段。

技术分析是完全根据股市行情变化而加以分析的方法,它通过对历史资料(成交价和成交量)进行分析,来判断大盘和个股价格的未来变化趋势,探讨股市里投资行为的可能转折,从而给投资者买卖股票的信号,适合于投资者作短期投资。目前技术分析常用的工具是各种各样的走势图(K线图、分时图)和技术指标(MA、RSI、OBV等)。2.经济统计学分析

主要针对时间序列数据进行数学建模和分析。传统的时间序列数据分析已经是一个发展得相当成熟的学科,有着一整套分析理论和工具,是目前时间序列数据分析的主要方法,它主要用经济统计学的理论和方法对经济变量进行描述、分析和推算。传统时间序列数据分析的研究目的在于[5]:

●分析特定的数据集合,建立数学模型,进行模式结构分析和实证研究; ●预测时间序列的未来发展情况。

传统的时间序列数据分析最基本的理论是40年代分别由Norbor Wiener和Andrei Kolmogomor提出的。20世纪70年代,G.P.Box和G.M.Jenkins发表专著《时间序列分析:预测和控制》,对平稳时间序列数据提出了自回归滑动平均模型(ARMA),以及一整套的建模、估计、检验和控制方法,使得时序数据分析得以广泛运用于各种工程领域。其基本思想是根据各随机变量间的依存关系或自相关性,从而由时间序列的过去值及现在值来预测出未来的值。该模型以证券市场为非有效市场为前提,当期的股票价格变化不仅受当期随机因素的冲击,而且受前期影响。换句话说,就是历史信息会对当前的股票价格产生一定程度的影响。采用的方 1 法一般是在连续的时间流中截取一个时间窗口(一个时间段),窗口内的数据作为一个数据单元,然后让这个时间窗口在时间流上滑动,以获得建立模型所需要的训练集[6]。

[7]基于股票时间序列是一种混沌时间序列的认知,提出一种新颖的非线性时间序列预测模型,即滑动窗口二次自回归(MWDAR)模型,该模型使用部分的历史数据及其二次项构造自回归模型,模型参数用最小二乘法估计。其基本理论基础是:一个线性模型不能描述混沌时间序列的全局性特征,但在一个小的时间间隔内,系统的行为却可以用某种线性模型近似。[8]则提出了一种基于嵌入理论和确定集上的预测误差的混沌时间序列预测方法,并探讨了在股票价格预测上的应用。

可以看出,经济统计学为问题的探索解决方案提供了有用而实际的框架;模型是经济统计学的核心,模型的选择和计算往往被认为是次要的,是建立模型的枝节。经济统计学本质上是从事“确定性”分析的,可以说统计方法是“目标驱动”的。但是,在大量数据集中往往存在一些未被人们预期到但又具有价值的信息,人们为发现大量数据中隐藏的规律和模式,就需要新的具有“探索性”的分析工具。显然,数据挖掘就是这样的一门工具。

三.数据挖掘技术应用于股票时间序列分析的研究现状

数据挖掘(DM,Data Mining),也称为数据库中的知识发现(KDD,Knowledge Discovery in Database)是数据库技术和机器学习等人工智能技术相结合的产物,是一门新兴的数据智能分析技术[9]。20世纪80年代末,随着数据库、互联网技术的迅速发展以及管理信息系统(MIS)和网络数据中心(IDC)的推广应用,数据的存取、查询、描述统计等技术已日臻完善,但高层次的决策分析、知识发现等实用技术还很不成熟,导致了“信息爆炸”但“知识贫乏”的现象。到了90年代,人们提出在数据库基础上建立数据仓库,应用机器学习和统计分析相结合的方法处理数据,这两者的结合促成了数据挖掘技术的诞生。

所谓数据挖掘,简单地说,就是从大量数据中提取或挖掘知识[2];详细一点可以描述为主要利用某些特定的知识发现算法,在一定的运算效率的限制下,从大量的数据中抽取出潜在的、有价值的知识(模型、规则和趋势)的过程。挖掘算法的好坏直接影响到知识发现的质量和效率,因此目前大多数研究都集中于数据挖掘算法及其应用上。1.相关技术介绍(1)关联规则挖掘

关联规则是美国IBM Almaden Research Center的 Rakesh Agrawal等人于1993年首先提出来的KDD研究的一个重要课题[10]。关联规则挖掘本质是从大量的数据中或对象间抽取关联性,它可以揭示数据间的依赖关系,根据这种关联性就可以从某一数据对象的信息来推断另一对象的信息。它可以做如下形式化定义:

设I = {i1,i2,...,im}是一组项的集合(例如一个商场的物品),D是一组事务集(称之为事务数据库)。D中的每个事务T是项的集合,且满足TI。称事务T支持物品集X,如果XT。关联规则是如下形式的一种蕴含式:X→Y,其中XI,YI,且X∩Y= 。

(1)称关联规则X→Y在事务数据库D中具有大小为s的支持度,如果物品集X∪Y的支持度为s%,即support(X→Y)=P(X U Y)。

(2)称规则X→Y在事务数据库D中具有大小为c的可信度,如果D中支持物品集X的事务中有c%的事务同时也支持物品集Y,即confidence(X→Y)=P(Y|X)。

从语义的角度来分析,规则的可信度表示这条规则的正确程度;支持度表示用这条规则可以推出百分之几的目标,即这一规则对于整体数据的重要程度。用户可以定义二个阈值,要求数据挖掘系统所生成的规则的支持度和可信度都不小于给定的阈值。这样,就用蕴含式、支持度和可信度唯一标识了每一个挖掘出来的关联规则。

已知事物数据库D,关联规则的挖掘问题就是产生支持度与置信度分别大于用户给定的最小阈值的所有关联规则。该问题分两步来求解:第一步是找出事务数据库D中所有满足条件的具有用户指定最小支持度的项目集。具有最小支持度的项目集称为频繁项集。第二步是从频繁项集中构造可信度不低于用户要求的规则。形式地,对于每一个频繁项目集A,找出A的所有非空子集a,如果比率support(A)/support(a)≥min_conf 2(可信度),就生成关联规则a→(A-a)。

识别或发现所有的频繁项集是关联规则挖掘算法的核心,也是计算量最大的部分。目前已有不少挖掘频繁项集的方法,其中最著名的是R.Agrawal和R.Srikant提出的Apriori算法[11],其核心是利用这样一个性质:频繁项集的所有非空子集都是频繁的。基于这样的先验知识,Apriori使用一种“逐层搜索“的迭代方法,k-项集用于探索(k+1)项集。首先找出频繁1-项集,记作L1;用L1找频繁2-项集L2;而L2用于找L3,如此下去,直到不能找到频繁k-项集。

虽然Apriori算法能最终挖掘出所有的关联规则,但由于处理的数据量非常大,因而算法的效率显得十分重要。后来的一些研究人员对算法的连接和剪枝过程进行各种优化。

如[12]提出了称为AprioriTid的改进算法,该算法提出了在每一步(第一步除外)计算候选频繁项集的支持度时不需要浏览整个事务数据库。它认为不包含任何k-项集的事务不可能包含任何k+1项集,这样,这种事务在其后的考虑时,可以加上标记或删除,因为为产生j-项集(j>k),扫描数据库时不再需要它们。该算法的本质是压缩进一步迭代扫描的事务数。

而[13]提出的AprioriPro算法,其基本思想与AprioriTid是一致的,也是减少对数据集的扫描,不同的是AprioriPro算法是通过在原有的数据集上增加一个属性,通过这个属性的取值来减少对某些事务的扫描。

[14]是结合Apriori和AprioriTid两种算法,提出了一种混合挖掘算法AprioriHybrid,其基本思想是在扫描的早期使用Apriori算法,当候选模式集中记录条数小到可以放进内存时就转向AprioriTid算法。

这些改进算法虽然比Apriori算法在挖掘效率上有一些提高,但本质上没有什么区别,都要在挖掘过程中生成大量的候选模式集。

“有没有这样的算法,挖掘全部的频繁项集而不产生候选?” 1999年Han等人提出FP-Growth算法[15],以及 Agrawal等人提出的树-投影(Tree Project)[16]关联规则挖掘算法就是这样的算法,它们在性能上均获得了突破,与Apriori算法相比,挖掘效率有了数量级的提高。利用FP-Tree 可以压缩事务数据集,压缩有的达到100多倍;而树-投影方法从原理上讲是适应任何数据集的,无论其据量多大该算法都能有效运行,从而使得关联规则挖掘可以应用于海量数据的挖掘和稠密数据集的挖掘。

除了上述关联规则挖掘的经典算法之外,人们着重在以下几个方面对关联规则进行了研究。

(1)继续通过各种手段提高挖掘效率。这方面包括对原有算法的进一步改进[17,18];提出一些并行挖掘算法[19,20]、增量算法[21]以及带约束的关联规则挖掘策略(元规则制导关联规则挖掘)[22,23]。

(2)不同形式关联规则的研究。关联规则最早是由购物篮分析开始的,但是随着研究的扩展和深入,关联规则的应用范围不断扩大,因此出现了多种形式关联规则的研究。由最简单的单维、单层、布尔关联规则逐渐向复杂形式扩展。在基本关联规则的基础上提出了布尔型加权关联规则和广义模糊型加权关联规则算法[24],由单层的关联规则扩展为多层次关联规则的研究[25]等等。关联规则形式的多样化,反映了人们从不同角度认识同一事物的不同视点,加深了对关联规则的认识与研究。

(3)结合其它理论(如软计算理论)对关联规则进行研究。引入粗糙集概念,使关联规则发现的模式具有较高的解释能力和精确度[26];通过引入神经网络的概念,提出用相互激活与竞争网络来进行数据库中的关联规则的发现[27];还有基于遗传算法的多维关联规则挖掘[28]等。可以看出通过引入其他领域的先进理论,丰富了关联规则研究的内容,提高了算法的有效性。

(4)关联规则的价值评判标准研究。如[29]分别讨论了关联规则的客观评价指标(支持度、可信度和相关强度)和主观评价指标(新颖性、用户感兴趣性和简洁性),在此基础上给出了一种关联规则的综合自动评价方法。

(5)关联规则的应用研究。理论从实践中来,但最终是为了指导实践。关联规则自提出以来,经过无数学者的研究努力,广泛应用于社会生产和科研的各个方面,产生了巨大的效益[30,31,32,33]。(2)序列模式挖掘

序列模式(Sequential Pattern)挖掘最早也是由R.Agrawal首先提出来的[34]。设有一个交易数据库D,每个顾客可在不同时间购买不同物品,每次购买活动称为交易(Transaction)。这里,顾客、交易时间和 3 所购物品分别以Customer_ID、Transaction_Time和Itemset标识。如果以Customer_ID为第一关键字,Transaction_Time为第二关键字对数据库D排序,那么,对每一顾客而言,他进行的所有交易是以交易时间的升序排列的,从而构成一个序列,称这种序列为顾客序列CS(Customer Sequence)。一般地,令某顾客的各次交易时间为t1,t2,t3,„,tn,该顾客在交易时间ti购买的物品集记为itemset(i),于是该顾客的CS序列为itemset(t1), itemset(t2), itemset(t3),„, itemset(tn)。相应地,可以认为上述交易数据库D已转换为顾客序列数据库。如果某序列s包含在某顾客的CS序列中,那么称该顾客支持(Support)该序列s。某序列的支持度为支持该序列的顾客数与顾客序列数据库中顾客总数之比。序列模式就是在上述顾客序列数据库中满足用户指定最小支持度的最长序列。

序列模式的问题定义与关联规则很相似,它们之间的区别可以用下列例子描述,关联规则描述的是在一次购物中所购买物品之间的关联关系,而序贯模式则是描述同一顾客在不同次购物所购物品之间可能存在的某种关联关系。换句话说,关联规则仅仅发现事务内部(intra-transaction)的模式,而序列模式则是发现事务之间(inter-transaction)的模式。

序列模式的发现方法与关联规则的发现方法大致相同,R.Agrawal在Apriori算法的基础上提出了三个 序列模式的挖掘算法AprioriAll、AprioriSome和DynamicSome[34]。AprioriAll算法采用哈希树储存候选序列,将所有的候选序列均储存在哈希树的叶子节点中;将候选序列的记数划分为向前及向后两阶段:向前阶段跳跃性地产生所有特定长度的频繁序列,而向后阶段找出在向前阶段未考虑的频繁序列。

在[35][36]中提出了挖掘具有概念分层、滑动时间窗口及最大和最小时间约束的 GSP(Generalized Sequential Patterns)算法。该算法也采用哈希树存储候选序列,仍将候选序列的记数分为向前及向后阶段,但此法划分向前阶段与向后阶段的目的与实现均与 AprioriAll 算法不同。

PSP(Perfectly Sequential Patterns)算法在[37]中提出,该算法采用了前缀树结构(而非哈希树)存储候选序列,从而导致该算法的候选序列集的产生和记数均不同与GSP算法; 同时,由于前缀树的每个节点只 存储事务中的一项,故与哈希树结构相比较大的节省了内存空间。(3)软计算方法

软计算(Soft Computing)是方法论的集合,这些方法集互相协作,并以一种形式或其它某种形式为现实中的模糊情况提供灵活信息处理功能[38]。它的目的是为了获得易处理的、粗糙的、低成本的解决方法而对不确定的数据进行处理。遵从的原则是以追求近似解决模糊/精确问题,并低成本地设计解决方案。软计算方法主要包括模糊逻辑、Rough集、遗传算法、神经网络等。模糊逻辑是处理不确定性概念及其推理机制的过程,Rough集和神经网络常被用来分类和规则抽取,遗传算法包括最优解和搜索过程,像问题最优解和样本选择。针对时间序列挖掘,软计算方法的应用研究简要介绍如下:

模糊逻辑是最早、应用最广泛的软计算方法,模糊逻辑的发展导致了软计算方法的出现。[39]在挖掘时间序列数据时使用了模糊语言概化;[40]针对商业销售的智能分析需求,提出了一种基于模糊集合的数据挖掘时间序列模式算法。

神经网络是一个黑箱问题,它先前被认为不适合应用于数据挖掘,且在符号格式中,它并不能获得有用信息,但却适合进行解释。近年来,挖掘训练过的网络中的嵌入知识,已广泛地应用于数据挖掘中。它对属性或逐个或合并地进行判别,这对于决策或分类是非常重要的。它对数据挖掘的贡献是在规则提取和自组织性上。

遗传算法是可调节的、鲁棒的、有效率的搜索方法,它适应于搜索大空间集。它相对数据挖掘的标准来优化功能,并达到搜索最优解的目的。[41]提出了一个基于小生境遗传算法和模式缓存的时间序列中频繁结构模式的发现算法,该算法具有轻便、灵活、可扩展性好的特点,可根据实际情况合理配置计算时间和所占用的内存资源,可实现挖掘结果的实时动态更新输出,并通过在在实际时间序列数据上的实验证明了该算法的有效性。

Rough集理论由波兰逻辑学家Pawlak教授在20世纪80年代提出,是一种处理含糊和不确定问题的新型数学工具,其出发点是根据目前已有的对给定问题的知识将问题的论域进行划分,然后对划分的每一部分确定其对某一概念的支持程度:即肯定支持此概念,肯定不支持此概念和可能支持此概念,并分别用三个近似 4 集合来表示为正域、负域和边界。它能有效地分析不精确、不一致、不完整等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识和潜在的规律。同时,Rough集理论在处理大数据量,消除冗余信息等方面有着良好的效果,因此广泛应用于数据挖掘的数据预处理(数据约简)、规则生成等方面[42,43]。2股票时间序列挖掘

股票市场高风险和高收益并存,因此对于股票数据知识发现的研究一直受到人们的关注。目前对股票时间序列的数据挖掘方法大致集中在以下三个方面。(1)相似性的研究。

该方法是在时间序列数据库中找出与给定查询序列最接近的数据序列,它包含了全序列匹配和子序列匹配两种问题。子序列匹配就是找出与给定模式序列相似的所有子序列,而全序列匹配就是找出彼此间相似的序列。具体的操作时将时间窗口在时间序列上滑动,通过距离计算从一个时间序列和多个时间序列中寻找相似的时间序列模式进行聚类形成相似组群,当有一个新的时间序列需要分析时,可以从相似组群中寻找与它最相似的类来匹配。一般有两个研究方向,一种是将时间序列从时间域(time domain)到频率域(frequency domain)后在进行相似性匹配。至于为什么要进行这种数据变换,主要是基于许多信号分析技术(如离散傅立叶变换DFT和离散小波变换DWT)需要数据来自频率域[2]。另一种则是直接在时间域上研究。主要应用是从股票数据中识别具有相似变化趋势的模式,以预测新数据在未来的发展行为。在时间序列相似性方面的研究文献有[44,45,46,47]。(2)趋势分析与值预测研究。

趋势分析研究时间序列的变化趋势,其理论基础是将时间序列视为一个动力系统,认为在其过去的波动中蕴涵有可用于预测未来的信息。给定一组值(Y1,Y2,Y3,„),确定数据趋势的方法通常有两种[2]:一种是N阶的移动平均值,即(i1Yi)/n,(i2Yi)/n,(i3Yi)/n,„。移动平均可以降低数据集中的变化

d,其中偏差或误差di是指点(xi,yi)i1in2nn1n2总量,用移动平均替代时序,可以减少不希望出现的波动,故它也称为时序的平滑。另一种是最小二乘法,即以最好的拟合曲线C作为最小二乘曲线,即曲线具有最小的的值yi与对应曲线C的值之间的差值。

趋势分析可以用来值预测,除此之外,用得较多的是神经网络[48,49]。这种预测方法由于是基于时间序列的具体数值,而这些数据往往含有许多干扰数据,因此该值预测方法的抗干扰能力较弱。(3)时间序列中关联规则的抽取。

Gautam Das等对从时间序列中发现关联规则进行了研究[50],这里规则是对时间序列中不同模式间关系的一种描述,[50]的主要贡献在于给出了一个将原始时间序列转换成有各个模式表示符组成的符号序列的一般方案,该方案由三部分组成,即分割,聚类和符号替换。然后采用序列模式发现算法实现了符号序列中规则的发现。

针对股票时间序列的特殊性,许多学者在经典关联规则挖掘算法的基础上,又提出了许多新的算法。1996年R.Strikant给出了关系数据库中数量关联规则的挖掘算法[51];1998年H.Lu对股票变动的预测以及内联相关性分析进行了研究[52];1999年M.Garofalakis提出了具有约束限制的时序数据挖掘[53];2002年 Y.Chen对时序数据库的多维回归分析进行了研究[54]。国内学者在这方面也做了相当的研究,[55]对股票时间序列的挖掘,分别探讨了一维和二维关联规则的发现;[56]通过一个具体的实例描述了从股票时间序列中挖掘一维关联规则的方法;[57]提出了延迟关联规则的概念,并在股票时间序列上实现挖掘该规则的算法;[58]在时间序列中引入多重时间粒度,以模糊规则的形式给出数据挖掘的结果。

Rough集理论在数据挖掘领域的应用主要体现在数据约简和关联规则的抽取上,这方面的研究已经有了少量的文献。[59]提出的一种基于Rough集的时间序列数据挖掘策略,显然适用于股票时间序列的挖掘;[60]则提出将正则化神经网络与Rough集理论相结合应用于股票时间序列数据库的挖掘。该方法融合了正则神经网络优良的泛化性能和Rough集理论的规则生成能力,充分展示了软计算方法应用于时间序列数据分析的新颖性。

四.总结与展望

从大的方面来说,时间序列数据的挖掘技术可分为统计分析法和数据挖掘。众所周知,统计学是数据挖掘的三大支柱之一(另两种是数据库和人工智能);同时,数据挖掘在统计学的基础上另有扩充和发展,这使得数据挖掘技术成为一种更具优势性的研究方法。统计学为问题的探索解决方案提供了有用而实际的框架;模型是现代统计学的核心,模型的选择和计算往往被认为是次要的,是建立模型的枝节。统计学本质上是从事“确定性”分析的,可以说统计方法是“目标驱动”的。但数据挖掘却不同,它的核心是算法,当然也考虑模型和可解释性问题,但算法及可实现性是第一位的。它所强调的首先是发现,其次才是解释。数据挖掘,作为很多学科交叉的结果,继承了机器学习的“冒险”态度,比统计学更强调实践性、探索性和灵活性。

证券市场是国民经济的晴雨表,是政府主管部门、券商和广大投资者的兴趣中心。长期以来各券商的交易系统一直走在IT技术应用革新的前沿,同时也积累了大量的数据;挖掘、开发和利用这些数据一方面可以有效指导证券投资者的投资,另一方面可以使证券公司进行最适合的定位,从而使企业长期的积累得以充分发挥,树立竞争优势。作为数据挖掘的主要组成部分之一,关联规则挖掘获得了广泛的研究,但从关联规则的角度进行股票时间序列分析,从学术上来说具有一定的新颖性,其终极目标是以极大的概率预测股价的未来走势。股票的涨跌不是各自互不影响的,传统意义上的“板块联动”就是极好的证明。考察股票价格之间的涨跌关系,如能在传统分析方法的基础上,采用先进的数据挖掘技术,挖掘出股票之间的价格联动关联规则,显然具有十分重要的意义。

Rough集理论是一种处理含糊和不精确性问题的新型数学工具,是采用精确的数学方法分析不精确系统的一种理想方法。大量文献已经说明Rough集理论是从数据集中提取关联规则的有效方法,其中主要的原因应归功于Rough集理论强大的数据约简能力。应用Rough集理论对股票时间序列数据进行建模、约简、规则抽取,显然又是一个极具新颖和创新的研究领域。

参考文献

[1] 安鸿志,陈兆国,杜金观,潘一民.时间序列的分析与应用.科学出版社 1983.[2] Jiawei Han,Micheline Kamber.数据挖掘: 概念与技术.北京:机械工业出版社2001.3~6、278~285.[3] 贝政新,陈瑛.证券投资通论.上海:复旦大学出版社,1998.[4] 安妮.股票投资技术方法与应用.深圳:海天出版社,1995.[5] 王耀动,张德远,张海雄.经济时间序列分析.上海财经大学出版社 1996.[6] 李民,邵建中,李俊平等.用ARMA模型预测深沪股市.长沙铁道学院学报,2002,18(1):78~84.[7] 李爱国,覃征.滑动窗口二次自回归模型预测非线性时间序列.计算机学报,第27卷,第7期2004年7月.[8] 孙宏义,朱梅.混沌时间序列预测及在股票市场中的应用.安徽工程科技学院学报,第18卷,第4期2003年12月.[9] 李菁菁,邵培基,黄亦潇.数据挖掘在中国的现状和发展研究.管理工程学报 2004年第3期.[10] R.Agrawal, T.Imielinski, A.Swami.Mining Association Rules Between Sets of Items in Large Databases[C].Proceedings of ACM SIGMOD Int’1 Conf.Management of Data, Washington D.C., 1993.207~216.[11] R.Agrawal, R.Srikant.Fast Algorithms for Mining Association Rules[J].VLDB94, Santiago, Chile,1994:478~499.[12] Mannila H, Toivonen, Inkeri Verkamo A.Efficient algorithms for discovery association rules.In Proceedings of AAAI Workshop on Knowledge Discovery in database.July 1994.181~192.[13] Hannu Toivonen, Mika Klemettinen, Pirjo Ronkaine etal.Pruning and grouping discovered association rules.In Mlnet workshop on Statistics, Maching Learning and Discovery in Database.Heraklion, Rete.April 1995.[14] Agrawal R, Srikant R.Fast Discovery of Association Rules.In Fayyad.Ⅱ 1996.[15] J.Han, J.Pei.Mining Frequent Patterns Without Candidate Generation.In Proc.2000 ACM-SIGMOD Intl.Conf.on Management of Data(SIGMOD’2000)Dallas TX 2000,1~12.[16] R.Agarwal, C.Aggarwal, V.Prasad.A Tree Projection Algorithm for Generation of Frequent Itemsets.Journal of Parallel and Distributed Computing Special Issue on High Performance Data Mining 2001,350-371.[17] 倪旻,徐晓飞,邓胜春,赵政.基于频繁项目对支持矩阵的Apriori优化算法.小型微型计算机系统.Vol.25 No.5, May 2004.[18] 邓砚谷,王丽珍.对FP-Tree头表节点数据结构的改进.计算机工程与应用.2004,25.[19] R.Agrawal, J.Shafer.Parallel Mining of Association Rules.IEEE Trans.On Knowledge and Data Engineer 1996,962~969.[20] 张兆功,李建中,张艳秋.海量数据上挖掘关联规则的并行算法.哈尔滨工业大学学报,2004年05期.[21] 朱红蕾,李明.一种高效维护关联规则的增量算法.计算机应用研究,2004年09期.[22] M.Kamber, J.Han, J.Y.Chiang.Metarule-Guided Mining of Multi-Demensional Association Rules Using Data Cubes In Proc.1997 Intl.Conf.Knowledge Discovery and Data Minin KDD’1997

Newport Beach CA.1997,207-210.[23] 程继华,郭建生,施鹏飞.元规则指导的知识发现方法研究.计算机工程与应用,1999年第10期.[24] 陆建江.数据库中布尔型及广义模糊型加权关联规则的挖掘[J].系统工程理论与实践,2002,2:28~32.[25] 程继华,施鹏飞.多层次关联规则的有效挖掘算法[J].软件学报,1998,9(12):937~941.[26] 程 岩,黄梯云.粗糙集中定量关联规则的发现及其规则约简的方法研究[J].管理工程学报,2001,15(3):73~77.[27] 倪志伟,蔡庆生,方瑾.用神经网络来挖掘数据库中的关联规则[J].系统仿真学报,2000,12(6):685~687.[28] 高坚.基于免疫遗传算法的多维关联规则挖掘.计算机工程与应用.2003年32期.[29] 苏占东,游福成,杨炳儒.关联规则的综合评价方法研究与实例验证计算机应用.2004年10期.[30] 李虹,蔡之华.关联规则在医疗数据分析中的应用.微机发展.2003年06期.[31] 胥桂仙,高旭,于绍娜.关联规则算法在中文文本挖掘中的应用研究.中央民族大学学报(自然科学版).2004年04期.[32] 姜南,唐晓青.应用关联规则构建质量活动链模型.北京航空航天大学学报,2004年05期.[33] 普杰信,薛冰冰.加权关联规则在网络入侵检测系统中的应用.信息技术.2004年04期.[34] Agrawal R, Srikant R.Mining Sequential Patterns.In Proc.95 Int’1 Conf Data Engineering, Taibei,Taiwan.March,5,1995.[35] Tamakrishnan Srikant, Rakesh Agrawal.Mining Sequential Patterns: Generalizations and 7

时间设计、设计时间 篇6

展览沿用之前在米兰展览的展品,并特别加设新主题项目,展出中国设计师与艺术家的作品。展品类型广泛,涉及装置、影像、架上等,共同探讨着:“时间是如何度量的?”、“如何表现时间的流逝?”、“如何感受时间的存在?”……展品以时间流逝、时间演进、物换星移为主题,手法讽刺且诗意,引人深思。绘画、电影、摄影等艺术形式经过长年发展,早已成为反映时间概念的极佳方式,惟在设计上,人们往往只追求时间的准确度、量度方式及功能性。时间与设计应该有着密不可分的关系,无论从审美角度或是功能角度评鉴,都足以让人眼界大开,心有所感。

展览的参观路线有两个截然不同的模式,分别从“正常”入口和“特快”入口进场。“特快”的概念源自机场体验,是一条“特快通道”,但放到展览之中,却可以变得有些矛盾。“特快”的“特权”体验在展览上完全颠倒,参观者虽然可在展览中快速前进,却只能欣赏部分展品,无法饱览整个展览。选择走“特快”路线的参观者不能欣赏全部展品,而是快速看个概况。现代人不断“与时间竞赛”,务求赶上社会中所有诉求,而这条“特快”路线的设置本身就是时间在现代人心中的真实写照。

英国当代艺术家达明安·赫斯特(Damien Hirst)为此次展览特别创作两件作品,均沿用旋转绘画手法,并利用沛纳海的表盘和家用亮光漆在帆布上绘制而成,分别命名为:《Beautiful Sunflower Panerai Painting》和《Beautiful FractionalSunflower Panerai Painting》。

达明安·赫斯特在创作时说:“我很喜爱沛纳海,他们的腕表设计经典隽永。我绘画这幅旋转画时,将没装上指针的黑色沛纳海表盘当作向日葵的种子,排列在花芯上。我希望这幅画会让大家想到我们来这里享受了一段美好的时光,而不是耗费了一段冗长的时间。”

股票盈利率的时间序列分析 篇7

市盈率是某种股票每股市价与每股盈利的比率,是很具参考价值的股市指针,许多学者对于影响市盈率的因素做了很多研究,李晓丽等认为影响股票市盈率最主要的因素是股价和公司经营业绩.吴世农和吴育辉指出影响市盈率上午三大因素为:企业发展前景、未来收益、风险.臧苏渝指出,多种因素影响市盈率,最重要的是企业以所在行业所处地区的经济发展潜力和市场利率水平.但大多数学者仅阐释了影响市盈率的因素,很少有实证分析,本文直接从市盈率指标对股票决策做出短期时间序列分析,建立时间序列模型,对股票市盈率做短期预测分析.

2 时间序列模型

2.1 ARMA模型

ARMA(Auto-Regressive and Moving Average Model)模型,自回归滑动平均模型是研究时间序列的重要方法,由自回归模型(简称AR模型)与滑动平均模型(简称MA模型)为基础“混合”构成,分为以下三种:

则称时间序列yt为服从p阶的自回归模型

自回归模型的平稳条件为滞后算子多项式

2.2 自回归滑动平均模型ARMA(p,q)

如果时间序列yt满足:

则称时间序列yt为服从(p,q)阶自回归滑动平均混合模型。

3 ARMA模型对单只股票市盈率建模的分析与预测

股票市盈率一般为该股票每日的收盘价格除以对应每股的税后收益率,数据的获得相对容易,本论文在新浪财经网上获得相关数据。以中国银2015.10-2016.3数据作为分析对象,并截取部分数据计算出相应的市盈率。

4 模型平稳性检验

由单位根检验得知,说明序列是非平稳的。通过一阶差分,得到折线图,再进行单位根检验,如图2。

从图像和ADF检验的结果看出,折线图可视为是平稳的,本值分别小于于1%,5%,10%的显著水平下的临界值,说明序列是平稳的。

5 模型参数估计

首先从样本数据的自相关和偏自相关函数出发,即图2中国银行股票市盈率的自相关和偏自相关函数,可以看出偏自相关系数(k=1)时明显异于0,当(k>1)以后。且由于一般的经济系统中没有季节因素情况下,其自回归的阶数一般不超过5阶,移动平均不超过2阶[5].从估计方程中可以看出,常数项显著为0,AR(1)都显著地不为0,切调整的拟合优度为0.203194,模型拟合的较好。

6 参数估计ARMA(p,d,q)模型

由二阶差分后的自相关和偏自相关函数建立ARIMA(p,d,q)模型,首先模型是二阶差分得到的,故d=2,根据图8得到的自相关和偏自相关图可以看对于自相关系数,当k≥1以后,样本自相关函数的rk都落在了95%的置信区间[-0.156,0.156]的内部,因此在5%的显著性水平下不拒绝从滞后1期开始ρk=0的假设,故认为q=1,同样,当k≥2以后样本偏自相关函数的rk*都落在了95%的置信区间[-0.156,0.156]的内部,因此在5%的显著性水平下不拒绝从滞后2期开始ρk*=0的假设,故认为p=2,建立ARMA(2,2,1)模型,由估计方程看出,ARIMA(1,1,1)模型通过显著性检验,拟合优度相对于建立的AR(1)模型有所提高,DW统计量为1.99,无序列相关,给出相应残差的自相关图和偏自相关图,可知p值都大于0.05,所以残差为白噪声序列。因此ARIMA(1,1,1)模型为最拟合模型。

7 模型预测

根据建立的两个模型得到的方程,分别对2016年6月12日的数据做相应的预测,并得到相对误差。见表2

一般认为如果平均绝对百分误差的值低于10,则认为预测精度较高,所以两者的预测结果都相对精确,不过ARIMA(1,1,1)预测值更加接近真实值,拟合的更好。

8 结论

将时间序列分析中ARIMA模型应用到单支股票的市盈率的短期预测中,并对中国银行股票的市盈率做实证分析,发现是有规律的,故将时间序列模型用于短期预测是有意义的,故对投资者进行短期投资存在一定的经济价值。

摘要:本文从市盈率数据出发,利用时间序列分析对中国银行股票的市盈率方法进行建模,并对其进行短期分析和预测。

关键词:市盈率,时间序列分析,ARMA

参考文献

[1]李晓丽,杨建平.对股票市盈率的思考[J].西南农业大学学报,2005(3).

[2]吴世农,吴育辉.CEO财务分析与决策[M].北京:北京大学出版社,2008.

[3]臧苏渝.对中国证券市场市盈率的再认识[J].重庆工学院学报,2004(3).

基于时间序列的精准扶贫研究综述 篇8

消除贫困, 改善民生, 实现共同富裕, 是人类孜孜以求的理想。我国自1986年扶贫开发以来, 通过近30年的不懈努力, 取得了举世瞩目的成就。但是, 贫困地区人们的生活水平仍然较低, 发展水平滞后的现象并没有根本改观。其中一个重要原因是目前我国的扶贫策略是粗放式的, 对于“谁是贫困居民”、“致贫贫困何在”、“如何针对性帮扶”等问题并没有确切的界定。针对目前扶贫工作中存在的这一突出问题, 2014年1月25号中共中央办公厅、国务院办公厅印发的《关于创新机制扎实推进农村扶贫开发工作的意见》 (中办发[2013]25号中明确提出了建立精准扶贫机制的要求。

精准扶贫理念起源于我国, 因此, 考究其起源、发展、演变历程须从我国的文献库中寻找其证据才更具说服力, 中国知网 (CNKI) 作为我国公认的权威中文文献数据库是本研究采有的数据检索来源 (如不作特别说明, 以下研究文献相关信息均来自中国知网检索结果) 。本研究采用“精准扶贫”关键字, 以“篇名”字段进行模糊搜索, 按年份梳理出以下研究结果 (数据来源时间截止2016年10月22日24点) 。

数据来源:中国知网

2 精准扶贫思想的萌发 (2006-2010年)

据中国知网的搜索结果数据 (表1) 可知, 最早见于报端的是2006年江毅等人一稿多“名”的文章, 之后时隔近9个月才有吴睿鸫的关于扶贫的“精准性”的第4篇文献, 再之后, 将近3年的时间里《新疆畜牧业》才刊出了一篇关于农牧区扶贫资金使用的精准性的文章。这些早期的文献发表的刊物等级不高, 其中3篇甚至还不能称之为论文 (报纸上刊发的社论短文) , 被引用次数不多 (最多的一篇被引次数为6、最少的为0) , 下载次数最多的也仅为305次、最少的仅8次, 这6篇文献全部没有基金资助。

作为精准扶贫的思想的萌芽, 其必是从实践中诞生的。在中国知网可检索的文献中, 江毅和姚润丰在其2006的论著中首次将“精准”与“扶贫”联系起来, 这是有文献记载的最早的关于扶贫精准性的论述文献。当然, 由于作者的局限性, 在其文献中, 对于扶贫的精准性的论述还相当粗糙。

2007年初, 《中国社会报》刊出了吴睿鸫的《富县戴“穷帽”根在扶贫政策“精准度”不够》一文, 他对当时扶贫实践中富县戴“穷帽”的怪现象进行了深入的剖析, 明确指出这一问题的症结所在是由于扶贫政策的精准度不够所造成的, 解决此类问题必须从提升扶贫对象的识别程度着手。张兴堂与孙丽在同年10月发表的《扶贫资金使用应提高“精准度”》文章中从扶贫资金使用角度出发, 提出提高扶贫资金的利用效率的方法途经, 其中, 关键是精准识别最需要资金的组织和个人。

此后的二年 (2008、2009年) 中, 没有人再就扶贫的精准性问题发表过公开可查的学术性论述, 扶贫的精准性研究一度归于沉寂。直到2010年, 龚春银再度就扶贫资金使用中不科学、不规范的种种不正常现象展开探讨, 他们认为传统的大水漫灌式的资金分配是对扶贫资金的极大浪费, 已不适合扶贫新形式的要求, 强调必须提升扶贫资金的精准性。

在以上的三个年度里仅有的6篇文献虽都意识到扶贫精准性的重要, 但囿于时代的局限性, 他们研究大都较为肤浅, 要么就事论事, 要么泛泛而谈、浅尝辄止, 没有系统化、层次化的深入研究, 但他们的研究为之后的精准扶贫理论的确立奠定了基础。

3 精准扶贫理念的明确提出 (2013年)

在2013年, 检索得到16篇精准扶贫相关文献 (见图1) , 尽管这个年度的相关文献数量不多, 但刊物的级别却很高, 人民日报刊出时任湖南省省委副书记、省长杜家毫的《加强分类指导实施精准扶贫》政论文章, 光明日报刊文记者精准扶贫特稿。通过数据整理得知该年度12篇文章均出自中央、地方各大报社, 发表时间多在12月份左右 (据知网数据) 。

注:由于作图限制, 显示10家刊物, 另有4家刊物名未显示数据来源:中国知网

据图2文献的机构来源分布, 可看出, 其中3篇来自湖南省相关党政机构, 另外13篇个人署名文章的作者多是当地权威报刊记者或扶贫部门工作人员 (据知网数据) 。

数据来源:中国知网

这一时期的文献以政论文章为主, 多从政策层面强调扶贫工作精准性的重要, 动员各方力量开展精准扶贫事业。

《老区建设》分别在其9月、11月的期刊上上刊出水木与邵猷芬、黄斌琼与程国伙结合所在县域的精准扶贫文章, 两篇文章都提到了扶贫开发需要新思路新途径, 创新扶贫举措, 实现扶贫开发方式由“大水漫灌”到“精准滴灌”的转变, 通过精准扶持、帮扶到户, 提前实现脱贫目标。

值得一提的是本期16篇文献或多或少都提及了党的十八大的新要求:坚持把国家基础设施建设和社会事业发展重点放在农村, 深入推进新农村建设和扶贫开发, 全面改善农村生活生产条件。党的十八届三中全会要求:“让广大农民平等参与现代化进程, 共同分享现代化成果。”援引了习近平总书记关于精准扶贫的讲话精神。在2013年, 习近平总书记在湘西视察扶贫工作时首次公开提出精准扶贫的理念, 他强调“必须切实抓好脱贫致富这个战略性任务。”“要分类指导, 把工作做细, 精准扶贫。”“扶贫要实事求是, 因地制宜。要精准扶贫, 切忌喊口号, 也不要定好高骛远的目标。”

习近平总书记在湘西视察扶贫攻坚的系列讲话被学术界公认为是我国精准扶贫理念的正式确立。自此后, 我国的扶贫事业由此前的粗放式帮扶转入了精细化减贫阶段。

4 精准扶贫研究的兴起 (2014年)

2014年度知网检索结果与精准扶贫篇名直接相关文献715篇, 较上期的16篇有了显著增长, 故称之为精准扶贫研究的兴起阶段。据图3, 可知有被引记录的文献43篇, 其中被引10次及以上的6篇、7次的1篇、7次以下与1次之间的36篇, 另有672篇0次引用, 这43篇被引用文献的平均引用次数为7次、没有基金支持。

因当下学术界普遍认为被引用次数代表了文章的影响力, 故接下来着重分析本年度这43篇有引用记录的文献的相关情况。《老区建设》接着上一年度2篇的被引记录、本期以10篇文献有被引记录而继续排名被引榜榜首 (见图4) , 占年度被引文献刊出量的23.3%, 可见该刊在精准扶贫领域的影响力非同一般。《中国乡村发现》以2篇文献的被引用量继续出现在2014年度精准扶贫研究文献来源刊物分布图中, 而其它刊物刊出被引文献的情况则变化较大。综上分析, 联系图4刊物的期刊定位, 我们可推断出由于上述两刊办刊宗旨为解决中国农村的民生问题、老少边穷地区的贫困问题, 故他们对精准扶贫相关文章的刊出量较多, 在扶贫领域具有先发优势。

数据来源:中国知网

据图5可知, 对精准扶贫的研究的机构分布大多集中在老少边穷地区或相关职能机构。中共湖北恩施州委和中南财经政法大学隶属地同为湖北省, 该省部分地区为少数民族聚居区, 自然条件较差, 经济社会发展水平低下, 是我国精准扶贫工程实施的重点推进区域之一。贵州省的情况与湖北省类似, 在此不再赘述。

注:由于作图限制, 显示7家刊物, 其它被引量少的刊物名未显示数据来源:中国知网

注:由于作图限制, 显示7家刊物, 其它被引量少的刊物名未显示数据来源:中国知网

被下载记录前二名分别是邓维杰发表于《农村经济》上的《精准扶贫的难点、对策与路径选择》、张笑芸与唐燕刊登在《资源开发与市场》的《创新扶贫方式, 实现精准扶贫》一文, 下载次数分别为18399、6655, 被引次数83、39, 均大大领先于之后的文献。据上述统计分析数据, 我们需对以上二篇文献重点关注。四川农业大学旅游学院的邓维杰凭借四川省扶贫和移民工作局委托课题“扶贫到户机制调研”的成果论文《精准扶贫的难点、对策与路径选择》成为本年度关注度最高的文献, 他认为当前精准扶贫的实际执行效果并不令人满意的主要原因, 在于精准扶贫中出现了对贫困户的排斥现象, 要真正实现精准扶贫, 应该尽早开展国家级和省级的贫困普查, 此外, 再通过独立第三方社会服务来协助和监督整个过程。在关注度排名第二的文献中, 西南交通大学外国语系张笑芸与四川省政府政务服务和公共资源交易服务中心的唐燕针对四川省扶贫工作存在的扶贫对象不清晰、措施针对性不强等问题, 提出了精准扶贫的具体措施, 包括创新考评机制、转变政府职能等举措。

从以上两篇关注度最高的文献所研究的内容可看出, 他们均是综合性精准扶贫文献, 针对面较广, 涉及扶贫的多个环节, 多从宏观政策视角出发分析问题, 对扶贫对象的精准识别问题、精准帮扶、扶贫绩效的精准考核多有探讨, 故能获得较多的关注度。此两篇文献代表了同时期一大批的类似研究, 但精准扶贫的推广实施不仅要有宏观政策层面的指导, 更重要的是要有战术细节的研究, 尤其是如何保证扶贫实施过程的“精准”性。

一些基层扶贫实践的参与者通过当地的精准扶贫活动, 尝试归纳总结了如何保证扶贫精准性的方法措施。辽宁省扶贫统计监测中心的沈新忠在其《辽宁省建档立卡精准扶贫措施探讨》一文中指出开展对贫困人口的建档立卡工作、实行动态管理, 具有一定效果, 文献进一步强调扶贫要到户到人, 排查摸底要精准针对贫困农户不贫困问题。

5 精准扶贫理论与实践的研究大发展 (2015年之后)

本阶段研究的问题逐步细化, 理论问题与实践问题交织。因2014年度作为精准扶贫的实施开局之年, 在上一年度, 在实践中出现了很多新问题, 急需理论指导, 由于理论研究的时滞效应, 因而在本年度相关研究文献出现了井喷, 从2014年的715篇猛增至2015年的6009篇、2016年的8089篇 (截至2016年10月21日知网数据) , 相关研究作品数量比2014年基期增长9倍左右。这一时期关于精准扶贫的文献不仅数量众多, 而且质量也很高, 称之为精准扶贫理论与实践研究的大发展实至名归。

5.1 理论研究为主的文献

5.1.1 政论性文献

时任广西壮族自治区党委书记、自治区人大常委会主任的彭清华在《攻坚五年圆梦小康举全区之力打赢精准扶贫攻坚战》的文章中强调精准扶贫的是保证广西贫困群众到2020脱贫, 实现全面小康的方法途径保证。国务院扶贫开发领导小组专家咨询委员会委员、中国农业大学教授李小云撰文《精准扶贫才能精准脱贫》指出我国从自2014年开始建立精准扶贫工作机制经实践证明是适合我国当前发展阶段新特征的扶贫方式, 是实现7000多万贫困人口全部脱贫的有效举措。《中国社会科学报》记者张春海等在《精准扶贫凸显全面小康价值》一文中通过解读《中共中央国务院关于打赢脱贫攻坚战的决定》这一文件, 援引2015年6月18日习近平总书记在贵州召开的部分省区市党委主要负责同志座谈会时的讲话, 强调扶贫开发贵在精准, 重在精准, 他们认为《中共中央国务院关于打赢脱贫攻坚战的决定》的颁布标志着我国扶贫工作走向了精细化、准确化, 实现了“大水漫灌”向“精准滴灌”的转变。

5.1.2 扶贫理论学术研究性文献

(1) 关于我国扶贫困境的探讨

中国人民大学的汪三贵和郭子豪在《贵州社会科学》上刊文认为我国在精准扶贫方面的困难体现在精准识别、精准扶持和精准考核三个方面, 对此, 应从改革贫困标准的制定方法, 完善精准识别机制, 完善精准扶贫考核机制, 探索和建立贫困户的受益机制, 改革扶贫资金管理体制和加强资金整合及在金融方面创新到户机制等方面创新精准扶贫工作机制。中国国际扶贫中心黄承伟与广西大学公共管理学院覃志敏发表在《开发研究》上的《我国农村贫困治理体系演进与精准扶贫》一文指出当前精准扶贫实践中存在帮扶资源供给与扶贫需求未能最优匹配, 帮扶资源动员非制度化, 社会组织等其他社会力量参与精准帮扶的制度供给不足等突出问题, 需要通过不断完善精准扶贫工作制度加以解决。江西农业大学郑瑞强与曹国庆在其《基于大数据思维的精准扶贫机制研究》一文基于大数据视角, 认为经济新常态下扶贫开发速度趋缓与扶贫资源边际效益递减现象明显, 资源投入和瞄准效率是影响扶贫效果的两大因素。

(2) 精准扶贫的创新与成效评价研究

四川农业大学庄天慧与其合作者在《广西民族研究》上登出的《精准扶贫主体行为逻辑与作用机制研究》的文章中对我国精准扶贫历史演进和理论依据进行系统梳理的基础上, 对精准扶贫主体结构和行为动机、角色定位进行了探讨, 提出"政府―市场―社会―社区―农户"五位一体的贫困治理模式。中国农业大学人文与发展学院的左停在其文《精准扶贫战略的多层面解读》中肯定了我国的精准扶贫事业的成绩。

5.2 实践研究为主的文献

本综述对该研究领域较为有影响力的文献摘取4篇, 研究者来源中3篇的一作为中国农业大学学者, 其中《贵州社会科学》一家独刊两篇。中国农业大学的唐丽霞等在《精准扶贫机制实施的政策和实践困境》文章中指出精准扶贫的实践, 必须考虑到精确瞄准本身所产生的组织、技术、人力资金和政治成本等, 并且还要兼顾不同群体对扶贫政策的态度和反应。中国农业大学的葛志军等在《精准扶贫:内涵、实践困境及其原因阐释——基于宁夏银川两个村庄的调查》调查报告中纵览我国精准扶贫机制的地方实践, 发现面临多方面的困境:贫困户参与不足, 帮扶政策缺乏差异性和灵活性, 扶贫工作遭遇上访困扰, 扶贫资金有限, 驻村扶贫工作队效果较差。中国人民银行武威市中心支行的徐玉鹏]在《甘肃金融》上发表的《金融支持精准扶贫的实践与探索——以古浪县为例》文章剖析了当前金融支持精准扶贫面临的困难和问题, 提出了金融支持精准扶贫的对策与建议。中国农业大学的李博发表在《北京社会科学》的《项目制扶贫的运作逻辑与地方性实践——以精准扶贫视角看A县竞争性扶贫项目》一文中通过对国家级贫困县A县竞争性扶贫项目运作逻辑的探析发现, 扶贫项目在地方实践中的非均衡分配规制了贫困地区脱贫的步伐, 面对扶贫项目存在的一系列问题, 需要进一步加强项目执行的监管力度, 提高基层政府的精准扶贫治理能力。

5.3 理论与实践并重的文献

在本分类中影响比较显著的文献有三篇, 华中师范大学中国农村研究院的李鵾等在《福建行政学院学报》上刊出的《农村精准扶贫:理论基础与实践情势探析——兼论复合型扶贫治理体系的建构》文献指出当下我国精准扶贫面临五大实施困境, 对此, 必须通过机制创新构建复合型扶贫治理体系, 该研究者在其另一篇《论精准扶贫的理论意涵、实践经验与路径优化——基于对广东省和湖北恩施的调查比较》文章中重新界定了精准扶贫, 认为其是在农村扶贫开发中实施精确识别、联动帮扶、分类管理、动态考核以及相关配套措施的扶贫、治贫方式。中国农业大学王宇等在《贵州社会科学》上发表的《精准扶贫的理论导向与实践逻辑——基于精细社会理论的视角》文章中从精细社会的理论视角分析了精准扶贫的理论与实践的相关问题, 他们认为, 精准扶贫需要从制度设计、政策运行、扶贫治理体系构建以及人的精细化等方面来探索精准扶贫的理论导向。通过加强政策运行的规范化与可行性及探索精准扶贫的乡土逻辑来确保扶贫的落实, 以期实现整个扶贫治理体系与治理能力的精准化。

6 研究述评总结

上述的政策方针和相关的新闻报道都为精准扶贫的研究提供了理论指导和实践经验, 相关研究成果颇多, 具有一定的理论意义与实践意义。但鉴于政策方针的宏观性、新闻报道的信息不完整、不平衡、不客观等局限性, 对于精准扶贫的研究还存在一些不足之处, 还需要我们通过具体的调研实践, 进一步完善。现有研究的局限性大体可归纳为以下二点:

(1) 精准扶贫理念的诞生过短, 实践问题甚多, 相关理论研究还不太成熟, 以政府推动为主, 著名学府的著名学者占据了过多的话语权。来自一线的扶贫工作者的相关研究较少, 仅有的研究也只是停留在就事论事程度, 上升到理论高度的较少。精准扶贫的精准性要求在具体实践过程中实施难度较大, 由于某些贫困因素的难以准确识别度量, 导致衍生出一系列问题。

(2) 扶贫的主要目标聚焦还停留在乡村层面, 忽视了其他的广大贫困群体。改革开放以来我国城市化进程明显加快, 但我国的扶贫政策由于历史原因和现实考量, 扶贫目标的瞄准依旧以农村为主。游离于扶贫政策边缘的部分城市贫困者的生活比农村贫困人群有过之而无不及, 他们由于没有土地资源, 不可能像农村贫困者那样进行农业种植、畜牧养殖等养活自己及其家人, 一旦由于某种原因不能工作, 将面临生存问题, 且由于城市居住成本高昂, 没有农村低成本的宅基地等资源, 导致某些城市极度贫困者生活十分窘迫。

时间序列的混沌识别方法研究 篇9

在计算机技术快速发展和应用普及的今天,大量的时间序列数据被存储在计算机上,使得我们拥有海量的时间序列数据。时间序列按其性态可分为:

(1)有确定性规律,即可用某个函数或方程描述的;

(2)完全随机的;

(3)具有一种分数维的无穷嵌套自相似结构的,即混沌的。

对于确定性系统,由于描述它的运动方程是确定性方程,容易建模,因此它的行为是可以预测的。对于完全随机的时间序列,虽然采用概率统计方法从理论上可以对其运动行为进行预测,但由于系统参量数目庞大,因此实际上很难准确对其进行测量。混沌时间序列是由一个低维的具有非线性和确定性的动态系统产生的外表像随机信号但并非是随机信号的的时间序列,这些序列中存在着一些与产生该序列的非线性动力学系统相关的固有的确定性和一些几何拓扑不变性,由于这些相关性使得系统似乎有着某种记忆能力,因而具有一定的可预测性,其可预测时间尺度的长短与系统的复杂性有关。

分析观测时间序列的演变规律是掌握系统动力学特性的重要手段。自从20世纪60年代以来,来自天文、水文、气象等领域如太阳黑子、径流量、降雨量等时间序列都被发现含有混沌特性。事实上,自然界中开放的、远离平衡的系统,非线性相互作用的系统都可能出现混沌现象。

确认时间序列是否来自混沌系统,即是否有混沌吸引子存在,一般从混沌吸引子的两个基本特征来判断[1]:

(1)系统相空间中的吸引子是否具有自相似结构的分形维特征;

(2)系统对于初始条件是否具有敏感性。

如果所研究的吸引子具备这两个特征,那么,我们就可以认为该吸引子是混沌吸引子,系统的行为是混沌的。一般从定性、定量两个途径来进行时间序列性质的鉴别,定性分析方法有:相图法、功率谱法(频谱分析法)、Poincare映象法、替代数据法;定量分析方法有:饱和关联维数法(分数维方法)、lyapunov指数法和K熵法。

1 定性分析方法

实际系统中,常常同时存在随机性成分和确定性成分,所以要绝对区分序列是混沌的、周期的还是随机的不太可能。定性分析方法主要是根据观测序列在时域或频域内表现出的特殊性质对序列的主要特性进行粗略分析。常用的有相图法、功率谱法、庞加莱截面法和代替数据法等。

1.1 相图法

相图可以描述系统状态在全部时间内的变化,反映系统吸引子的空间结构。若系统的相空间轨迹通常表现为在有限空间内不断伸长和折叠形成的回复性永不相交的非周期运动,不同于毫无规律的随机运动,但也不是周期函数的重复性运动,此时可以判断系统可能存在奇怪吸引子,该系统是混沌的。这是观察混沌运动的最简单最直观的方法,但不精确可靠[2]。

1.2 频谱分析法

对于实际测量得到的时间序列B(t)可以求得该变量的功率谱密度函数S(ω)。首先求得变量的频谱为[3]:

相应的功率谱密度函数为

由此可得该变量的功率谱图,各种运动对应的功率谱图是不一样的。当变量为周期运动或拟周期运动时,其相应的功率谱图为一条垂直的直线或一个很窄的尖脉冲;当变量为白噪声时,功率谱为一条连续的曲线;当变量的运动为混沌运动时,功率谱为一条连续的曲线,但不是水平线。因此,可以用功率谱来判断系统是否为混沌系统。周期运动的功率谱是离散的,仅包括基频和其谐波或分频。随机白噪声和混沌的功率谱则是连续的,混沌序列的功率谱具有连续性和宽峰特征。但在实际工作中,对于受到噪声(尤其是有色噪声)影响,或者周期很长但数据有限的序列,很难从谱特征上区分其运动模式。

1.3 庞加莱映象法

庞加莱截面法是法国数学家庞加莱(Poincare)利用几何的观点,对非线性动力学系统进行了深入地研究,总结出了该方法。

在相空间中适当选取一截面(要有利于观察系统的运动特征和变化,如截面不能和轨线相切,更不能包含轨线),称此截面为Poincare截面,相空间的连续轨迹与Poincare截面的交点称为截点。设记录得到的庞加莱点为:B0,B1,…Bn,…。这样,就在Poincare截面上让系统连续运动,降为低维的离散点之间的映射

上述T称为庞加莱映射[4]。

当系统的运动为周期运动时,在Poincare截面上简化为n个点(称为周期n运动);当系统的运动为准周期运动时,在Poincare截面上是一条闭曲线;当系统的运动为非周期的混沌运动时,在Poincare截面上是一些成片的具有分形结构的密集点。

因此Poincare映射可用来判断一个系统是否为混沌系统。显然,它是一种比较直观的方法。庞加莱映射常常在已知动力学系统的条件下,作为区分周期、准周期与混沌的判据;但在不知动力学系统的条件下,由于吸引子的相空间重构较困难且时间序列的嵌入维也难以确定,因此,仅由单一时间序列只能绘制出吸引子的二维庞加莱截面。此时,庞加莱映射一般只能给出时间序列相空间轨道的某一截面的直观描述,而不能区别混沌和完全随机的运动。

1.4 代替数据法

假设(称虚假设,Null hypothesis)测得的时间序列数据是线性的,以适当的方式把此数据打乱(随机化),但又保持与原有数据有相同的一些性质,我们称这样经过随机化得到的数据是原数据的代替数据(surrogate data)。如果虚假设成立,由于两数据有相同的一些性质,它们的特征量取值应很接近。如果原数据服从确定性的非线性规律,则虚假设不成立,由两数据算得特征量的值应该有较大的差别。所以只要比较原数据与代替数据特征量取值的差别大小,即可判断原数据是否服从确定性的非线性规律。如果特征量是分维,而且原数据的分维值是较小(如小于3)的非整数,由代替数据计算出来的分维值却与之相差很大,则可认为原数据是低维混沌。反之,若两者分维值都较大而且相差不多,则原数据很可能就是噪声[4]。

2 定量分析方法

描述混沌系统的重要特性指标包括最大Lyapunov指数、Kolmogorov熵、关联维数等。系统是否发生混沌运动,则可用这些特性指标定量分析,从而进行混沌识别。

2.1 lya punov指数法

混沌运动的基本特点是运动对初始条件极为敏感,即从两个相邻点出发的轨道,经过一段时间后,系统按指数级迅速分离,Lyapunov指数就是定量描述这一现象的量。Lyapunov指数的定义如下[5]:

对n维相空间中的连续动力学系统,考虑一个为xn为中心,ε(xn)为半径的n维无穷小超球面的长时间演变行为,其中ε(x0)≠0。随着时间的变化,由于流形的局部变形的本质,球面会逐渐演化成为一个超椭球面。按椭球第i个主轴的长度εi(t)可定义系统的第i个李雅普诺夫指数为或定义为

当Lyapunov指数为正,则相邻轨道随着时间演化分离,长时间行为对初始条件敏感,运动呈混沌状态;当Lyapunov指数为负,相邻轨道随着时间演化靠拢,相体积收缩,运动稳定,且对初始条件不敏感;当Lyapunov指数为零,则随着时间演化相邻轨道距离保持不变,对应于稳定边界,属于一种临界情况。

混沌系统相邻的轨道是以指数形式分离的,而Lyapunov指数的个数一般与重构相空间的维数相同。但混沌系统的维数是未知的,因此计算Lyapunov指数是基于相空间的重构的。在实际应用中,一般是计算最大Lyapunov指数。然而单一时间序列计算Lyapunov指数却较困难,一般的方法有小数据量法[5]、Wolf方法[6]、jacobian法[7]等。由于最大Lyapunov指数的计算结果并不是直接得到的,而是从曲线图形中拟合直线部分得到,这种分析结果往往具有很大的变化幅度。

2.2 Kolmogorov熵

Kolmogrov熵(简称K熵)是刻画混沌系统的一个重要量。K熵代表了系统信息产生的频率,描述了系统运动的混乱或无规则的程度,可以用于混沌特征的识别及混沌程度的整体度量。K熵定义如下[8]:

设动力系统奇怪吸引子在d维相空间上轨道为x(t)={x1(t),x2(t),…xd(t)},把相空间划分为n个尺寸为ε的单元,则有单元序列b1*…bi*…bn*。以在时间间隔τ观察系统的状态,设pi是x(iτ)落在第i个单元bi中的概率,根据香农公式:

它正比于以精度ε确定系统在特殊轨道b1*…bi*…bn*所需要的信息。因此,如果已知系统先前处于b1*…bi*…bn*,则(Kn+1-Kn+1)表示要预报系统将会处于单元b*n+1中所需要的附加信息,这意味着(Kn+1-Kn+1)度量了系统从时间(n-1)ε到nε的信息损失。

K熵定义为信息的平均损失率:

由于信息是描述系统不确定程度的物理量,信息量越大则信息的损失速率越大,其不确定程度也就越大。所以,在不同类型的动力学系统中,K熵的数值是不同的。K熵的数值可以用来区分规则运动、混沌运动和随机运动。对于确定性系统规则运动(包括不动点、极限环、环面),系统表现周期性,不产生新的信息,K熵为0;对于随机运动,其K熵趋于无穷;在混沌运动系统中,K为正常数,且K熵越大,那么信息的损失速率越大,系统的混沌程度越大或者说系统越复杂。

目前,有关从时间序列来计算K熵数值的文献很少,已经报导的计算方法主要有两种:一种是Schouten等人提出的最大似然算法[9];另一种是关联积分算法[10]。

2.3 关联维数法

关联维数法考察关联维数随嵌入维数增加的关联积分图形。混沌时间序列的关联积分是呈指数衰减的,其关联维数作为关联积分的幂指数,随嵌入维数的增加逐渐趋于一个定值,当达到某个特定的嵌入维数后,基本不再增大。而噪声时间序列不是指数衰减的,所以可以通过考察关联积分的图形来判断是混沌或是噪声序列。

考察m维相空间中的一对相点:

设它们之间的距离,即欧氏模为rij(m),显然rij(m)是相空间维数m的函数,即:

给定一临界距离r,距离小于r的点对数在所有点对中所占比例记为关联积分C(r,m):

式中,N为总相点数,H(.)为Heaviside函数,定义如下:

关联维数的定义为[11]:

关联维数是对相空间中吸引子复杂程度的度量,同时也是混沌识别的一种方法。对于随机序列,随着嵌入维数的升高,关联维数沿对角线不断增大;而对于混沌序列,随着嵌入维数的升高,关联维数会出现饱和现象。因而可以根据关联维数是否具有饱和现象来区分混沌与随机序列,此方法即为饱和关联维数法。

Grassberger和Procaccia利用嵌入理论和重构相空间技术,提出了从时间序列直接计算关联维数的算法[11]。关联维数也是一种分形维,它具有保守性、计算简洁性和稳定性等特点。但是G-P算法也存在一些缺点,如要求数据量很大且数据不含有噪声,而实验数据或多或少都含有噪声,因此利用G-P算法得到的关联维数存在较大的误差。到目前为止,研究者们已经达成共识:混沌动力系统的分形维数越大,所需要的数据量就越多。对于高维系统,G-P算法受计算代价的限制将难以实际应用[12]。

3 结论

判断给定的时间序列是混沌还是随机信号,对于正确认识事物的规律性具有重要的意义。但是由于观测方法和观测手段等不可避免的误差,使得噪声与混沌往往并存,一个时间序列中既有确定性成分也有随机性成分。因此,时间序列性质的鉴别或混沌性识别主要指在某一置信度下判断时间序列以何种成分为主或研究时间序列是否为混沌序列。

围绕混沌系统可以由混沌吸引子的存在诊断的特点,从定量和定性两个方面讨论了一些时间序列的混沌识别方法。从文中简要介绍中可看出,上述方法基本都是从某一个方面判别时间序列是否为混沌序列的必要条件,而非充分条件,因此需要采用尽可能多的方法相互补充和印证,从不同方面进行鉴别。此外还有一些基本方法,如主分量分析(PCA)法、局部可变神经网络法、C-C方法、频闪法等,这里不做介绍,具体可参见文献[3,4,13,14]。

摘要:对于貌似无规则变化的复杂的时间序列,要鉴别它究竟是混沌的还是随机的,是一件非常有意义的工作。混沌系统通常可以由混沌吸引子的存在诊断,围绕这个特点,讨论了一些时间序列的混沌识别方法。

混沌时间序列的平均周期计算方法 篇10

在研究制造质量信息系统的混沌特性时, 使用小数据量法计算时间序列的Lyapunov指数。首先对时间序列{x(t),t=1,2,…,N}以嵌入维数m进行相空间重构,重构后的相空间为:

X(t)={x(t),x(t+1),,x(t+(m-1))},t=1,2,,Μ,Μ=Ν-(m-1)(1)

在限制短暂分离的基础上,找出重构相空间每个点X(j)的最邻近点X(j^),并要求这对最邻近点之间的距离要大于时间序列的平均周期Tm:

dj(0)=minX(j)-X(j^),|j-j^|>Τm(2)

混沌时间序列的平均周期可以通过快速傅立叶变换FFT将时间序列由时域变换到频域,并根据变换后序列的频率信息计算原混沌时间序列的平均周期Tm. 但是在计算混沌时间序列平均周期Tm的具体方法上,文献[1]、文献[2]、文献[3]所提供的方法是通过FFT变换后的能量光谱平均频率的倒数进行估计。

但是在制造质量信息系统的混沌时间序列的计算过程中,发现通过这种算法得到的平均周期的结果不可信。因此,需要对平均周期的算法进行详细研究,找出可行的计算平均周期的算法, 以支持小数据量法, 完成最大Lyapunov指数的计算。

1 平均周期计算方法

对时间序列{x(t),t=1,2,…,N}进行FFT变换后,得到:

F(k)=n=1Νx(n)e-j2π(k-1)n-1Ν(3)

变换中所用到的频率为:

fn=2πn-1Ν,n=1,2,,Ν(4)

在此基础上,综合文献中对平均周期的算法,及对混沌时间序列的平均周期的理解,得到以下六种平均周期的计算方法:

①以平均频率的倒数来对平均周期Tm进行估计[1,2,3]:

首先计算能量光谱的平均频率:

fnm=n=1ΝfnΝ=2πn=1Ν(n-1)Ν2(5)

由此估计出的平均周期为:

Τm1=1fnm=Ν22πn=1Ν(n-1)=Ν(Ν-1)π(6)

②以各频率对应周期的平均值计算平均周期:

Τm2=n=2ΝΤnΝ=n=2Ν1fnΝ=n=2ΝΝn-12πΝ=12πn=2Ν1n-1(7)

③以FFT变换的最大振幅所对应的频率的倒数作为平均周期:

Τm3=1F(k),F(k)=max(F(1),F(2),,F(Ν))(8)

④以幅值对频率加权并求加权平均,并以其倒数估计平均周期[4]:

Τm4=n=1ΝF(n)n=1ΝfnF(n)(9)

⑤以幅值对周期加权并求加权平均,计算平均周期:

Τm5=n=2ΝF(n)fnn=2ΝF(n)(10)

⑥以功率对周期加权并求加权平均,计算平均周期[5,6,7]

Τm6=n=2ΝF2(n)fnn=2ΝF2(n)(11)

在以上六种方法中,由于F(1)对应的数字频率为0,所以在计算中要首先将F(1)对应的数字频率与幅值去掉。

对以上六种平均周期的计算方法进行分析,每种方法与时间序列长度及变换得到的幅值、及与幅值紧密相关的功率之间的关系列于表1。

注: √表示相关; ×表示无关。

2 混沌时间序列的构建实例

2.1 实际生产数据

为了研究制造质量信息系统的混沌特性,本文采集了华南智信微控制公司(简称华南智信)2006年12月28日至2009年7月20日的每日生产产品的生产数量与不合格数量,通过计算得到每日生产产品合格率,以每日生产产品合格率作为研究混沌时间序列的平均周期的原始数据。经过计算得到这个时间序列的Lyapunov指数为正,所以这个时间序列是一组混沌时间序列。

2.2 Lorenz系统

为了使平均周期的计算方式更具一般性,同时以最为著名的混沌系统Lorenz系统作为研究对象,其方程如下:

{x˙=-a(x-y)y˙=-xz+cx-yz˙=xy-bz(12)

与文献[8]相一致,将Lorenz系统的参数确定为:a=16.0,b=4.0,c=45.92,在这样的参数下, Lorenz系统是一个混沌的系统。采样间隔τs=0.01时,采集3000个点,并以第一个变量构建混沌时间序列,用作混沌时间序列平均周期计算的原始数据。

3 平均周期计算结果及讨论

使用Matlab对Lorenz系统及华南智信的每日产品合格率这两个混沌时间序列,计算以上所定义的六个平均周期,得到的六个平均周期的值列于表2。

在研究制造质量信息系统时,根据文献[1]、文献[2]、文献[3]所述的方法得到的结果是Tm1值,也就是0.31893天,这显然是不具有实际意义的一个平均周期。这也是本文所研究问题的来源。

对表2进行详细分析,首先可以看出,对于六种平均周期在两个混沌时间序列之间的变化来说,相对变化具有一致性。

其次,从总体上分析两种混沌时间序列的平均周期计算结果,可以看出:

Tm1对两个混沌时间序列计算得到基本接近的平均周期,再加上这种平均周期只与序列的长度有关,与时间序列的具体值无关,显然这种平均周期不可信;

Tm2对两个混沌时间序列计算得到基本相差不大的平均周期,而且这种平均周期的计算方法只与序列长度有关,与时间序列的具体值无关,所以这种平均周期也不可信;

Tm4虽然经过幅值加权处理,但是这种平均周期对两个完全不同的混沌时间序列得到相同的平均周期,所以这种平均周期也不可信。

第三,从Tm3的公式来看,它所使用的周期是相对于变换后的幅值最大的那个频率对应的周期值,如果以此为平均周期,它只是时间序列小部分数据的平均周期,而对于大多数数据来说,这个平均周期是没有可参照性的,所以Tm3也不是可信的平均周期。由表2中的两个混沌时间序列的仿真计算结果来看,其值对两个时间序列都偏大。

对于Tm5和Tm6,由于Tm6以功率加权得到的平均周期,所以其对时间序列的依赖性更大,所以从理论上来说,Tm6是更好的选择。

而从由华南智信时间序列平均周期的计算结果来看,由于在构建时间序列时将大部分周六与周日的时间间隔去掉,所以Tm6的值基本接近一周的时间,所以以此为平均周期,具有实际的物理意义,所以这种平均周期是可信的。而Tm5对数据的依赖性没有Tm6强,华南智信的时间序列计算结果也表明Tm5物理意义不如Tm6明显。

在使用小数据量法计算Lyapunov指数时,在相差不多的情况下,要优先选择平均周期值较大者。所以以功率加权计算得到的Tm6作为平均周期时,可以得到更可信的结果,所以使用小数据量法计算Lyapunov指数时计算平均周期的最佳计算方法是以功率加权的Tm6.

4 结论

本文针对在使用小数据量法计算法计算Lyapunov指数的过程中,以混沌时间序列平均频率的倒数计算混沌时间序列的平均周期的过程中出现的平均周期不可信的问题,找出六种计算混沌时间序列平均周期的计算方法。通过对六种平均频率计算方法的理论比较,及以Lorenz系统混沌时间序列和华南智信日生产产品合格率数据为原始数据,对六种平均周期计算结果的分析。计算与分析的结果表明:由于Tm6更能体现时间序列平均周期的物理意义,及Tm6对时间序列有更强的依赖性,所以以功率加权的Tm6是使用小数据量法计算Lyapunov指数时的最佳平均周期计算方法。

参考文献

[1]Rosenstein M T,et al.A practical method forcalculating largest Lyapunov exponents from smalldata sets[J].Physica D,1993,65:117~134.

[2]韩敏.混沌时间序列预测理论与方法[M].北京:中国水利水电出版社,2007:55~57.

[3]吕金虎,陆君安,陈士华.混沌时间序列分析及其应用[J].武汉:武汉大学出版社,2002:85~88.

[4]刘海龙等.基于非线性参数的意识任务分类[J].西安交通大学学报,2005,39(8):900~903.

[5]Rathje E M,et al.Simplified frequency contentestimates of earthquake ground motions[J].Journal of Geotechnical Engineering,1998,124(2):150~159.

[6]Rathje E M,et al.Empirical relationships forfrequency content parameters of earthquake groundmotions[J].Earthquake Apectra,2004,20(1):119~144.

[7]杨迪雄,王伟.近断层地震的频谱周期参数和非平衡特征分析[J].地震工程与工程振动,2009,29(10):26~35.

[8]Kim H S,et al.Nonlinear dynamics,delay times,and embedding windows[J].Physica D,1999,127:48~60.

[9]王福来,达庆利.基于混沌时间序列的误差纠错预测模型[J].系统管理学报,2007,16(5):487~491.

时间序列 篇11

关键词:国房景气指数;时间序列分析;ARIMA模型

中图分类号:F293文献标识码:A文章编号:1671-864X(2015)11-0119-01

一、文章背景

房地产业是国民经济的重要支柱产业,对于拉动钢铁、建材及家电家居用品等产业发展举足轻重,对金融业稳定和发展至关重要,对于推动居民消费结构升级、改善民生具有重要作用。

“国房景气指数”是全国房地产开发业综合景气指数的简称。它是对房地产业发展变化趋势和变化程度的量化反映,由8个分类指数合成运算出综合指数,并用百分制表示。其中,综合指数值100为景气线,100以上为景气空间,100以下为不景气空间。通过对景气所处空间、景气值波动幅度、趋势的评估发布,可为国家宏观调控提供决策依据,也为社会提供统计信息,引导中国房地产业健康、有序发展。“国房景气指数”是反映房地产市场景气变化趋势和程度的综合指数,其数据资料来源于国家统计局房地产统计机构进行的全面调查,而且数据资料可以月月更新,保证“国房景气指数”按月发布。同时,“国房景气指数”是由政府统计部门编制,是代表国家行使统计监督职能的政府行为,因此,具有及时性、综合性和权威性等特点。

二、研究数据

从国家统计局发布的数据资料里搜集了我国2004年1月至2009年8月共68个月度的国房景气指数月度数据用以实验分析,并用之后五个月的月度数据进行对比分析,观察模型的预测值和真实值之间的差距来评价模型的优劣程度。

三、对数据的处理

(一)平稳性检验。

通过时序图对序列的平稳性进行直观的观察,并通过自相关图和偏相关图进一步分析进而得出结论。

若序列自相关系数滞后几阶之后全部落入两倍标准差范围内,且趋近于零的速度比较快,则可以判断序列平稳,进而不需要进行差分处理。若序列为非平稳序列则需要进行差分处理使序列变成平稳序列。

由时序图可以观察到序列基本平稳,但还要通过自相关图进一步观察分析。

如图自相关图出现了缓慢衰减的的情况,说明序列存在趋势性,需要进行差分处理。

对数据进行一阶差分处理,差分后序列没有明显的趋势,观察值围绕中轴在一定范围内上下波动,可以粗略认为差分后序列平稳,还要观察差分后序列自相关图和偏相关图。

由差分后序列自相关图可以看出样本自相关系数在滞后3阶后就全部落入两倍标准差范围内,因此认为差分后序列平稳。而且偏相关系数除了延迟一阶显著大于2倍标准差之外,其他偏相关系数都在2倍标准差范围内随机波动,而且由非零相关系数衰减为小值波动非常突然,所以该偏相关系数可视为1阶截尾。

(二)白噪声检验。

纯随机时间序列又名白噪声序列,在纯时间序列中各序列值之间不具有相关性,即时间序列中过去的行为对未来没有任何影响,因此不具有建模的价值。

对于延迟6步和12步来说,若P{Pr>ChiSq}<0.05则序列为非白噪声序列,即该序列中隐含有效的信息,可继续对此序列进行分析。

上述数据差分后序列白噪声检验结果显示P<0.0001,则可以判断序列为平稳非白噪声序列。

(三)模型拟合。

观察样本序列的自相关图和偏相关图,若自相关系数拖尾、偏相关系数截尾则对序列拟合AR模型,若自相关系数截尾、偏相关系数拖尾则对序列拟合MA模型。并选取BIC信息量最小的模型对序列进行拟合。

样本自相关图显示出样本自相关系数拖尾的性质,可以采用AR模型进行模型拟合,通过自相关图和偏相关图综合分析发现,序列1阶和2阶相关系数较为显著,故采用疏系数模型AR(12)。

(四)模型检验。

1.参数显著性检验。模型各参数P值均小于0.05,故各参数显著。

2.残差序列白噪声检验。各阶值均大于0.05,所以模型残差通过白噪声检验,故残差序列为白噪声序列,不能再提取相关信息,序列中有价值的信息已提取充分,从而认为模型拟合良好。

模型具体形式为:Factor 1:1-1.62606 B**(1)+0.65297 B**(2)

四、模型预测

运用模型预测之后5期的国房景气指数

结果如下:

序列观察值和序列拟合曲线很接近,这表明模型拟合良好。95%的置信上限和置信下限曲线随着预测期数增加有向外扩张的的趋势,这是由于随着预测步长的增加,预测方差变大的缘故。

五、结论分析

由房屋景气指数时序图可以观察到,最近几年房屋景气指数出现下降的趋势,这是由于,一方面,近几年调控房地产的新政不断出台,虽然一直没有形成明显的效果,但这些政策并没有取消,反而在不断地细化、调整和落实。另一方面,地价、房价不断飙升,本身也是影响市场成交的主要原因。因为当房价上升到大多数消费者购买不起、少数投资性买家也无利可图时,就会出现物极必反的现象。在过旺的投资需求被抑制后,在增加住房有效供应的情况下,我国房地产市场迎来降价“拐点”。

作者简介:刘哲言(1990-),女,汉族,河北保定人,硕士研究生,经济学硕士,河北大学研究生院,研究方向:宏观经济统计分析。

经济时间序列中差分的历史研究 篇12

一 早期的简单差分思想

如前所述,差分方法有着悠久的历史,但若立足于时间序列的角度探究差分思想,则其早期发展主要涉及以下三个方面:

(一) 格朗特差分思想的萌芽

17世纪,格朗特(John Graunt)在他的经典之作《关于死亡公报的自然和政治观察》中使用一阶差分对病态年[4]。

(二) 金融期刊中的差分

到19世纪中叶,商业资本让步于工业资本,而金融资本又使工业资本相形见绌,如果说17世纪的资本主义仅限于三分法和金融交易,则19世纪的商业贸易和科学观察等现代文明需要更动态的思考方法,以及更能体现时间变化的新算法,此时的资本主义开始密切关注金融期刊,计算和比较数量的增减变化,捕捉价格和产量的变化,并有计划地决定下一步的行动。

当时比较著名的金融期刊主要有《经济学人》(The Economist)、《商业和金融年鉴》(The Commercial and Financial Chronicle)、 《统计学者》(The statist)等[5],它们的每一期几乎都有数页表格,涉及商品价格、借贷利率、进出口数量以及政府财政等诸多内容,根据表格很容易对这些数值进行直接比较。当然,不同期刊的比较方式略有差异,如对于早期的《经济学人》,多数表格只显示原始数值,然后用语言文字总结增减变化,1860年后,开始添加相对于以前时间的增减变化栏,而且增减变化分属两栏;著名经济学家纽马奇(William Newmarch)创刊的《经济学人的商业史增刊》(Commercial History Supplement of The Economist),不仅列出了增减栏,而且包含了百分数的变化和价格指数;吉芬(Robert Giffen)编辑的期刊《统计学者》则充分利用了试验平均数、百分数变化和价格指数;《商业和金融年鉴》经历了与《经济学人》类似的发展过程,这也是当时讨论变化的一种常用模式,但该刊物突破了从绝对变化栏到相对变化栏的转变。

需要说明,虽然部分期刊也经常通过表格显示数值的百分数变化,但这一时期的主要比较仍限于绝对数值的增加和减少,因此,正是商人对净变化的密切关注和追寻,启发了经济学家简单、朴素的直接比较思想,引导了一阶差分的具体应用。除此之外,银行每周公布的借贷、储蓄和储户数量的变化情况,也是对差分的一个应用,而且在金融领域中占据着重要地位,以至于整个统计学领域也随处可见有关这些金融数据的差分运算。

(三)描述性统计中的差分

19世纪末和20世纪初,一些著名的经济学家和统计学家如吉芬、纽马奇、杰文斯(William Stanlay Jevons)、尤尔等,都是身兼多职,同时担任多个期刊的编辑工作,因此,这些期刊间经常相互转载、引用对方的文章,不仅导致了金融贸易与数学的定量推理密切关联,而且把政治算术和试验调查也逐步引入到数学领域。因为杰文斯的重要成果是应用指数和滑动平均研究了商品的进口问题,而尤尔发展的变量差分方法更接近于现代数学,所以本阶段重点阐述吉芬和纽马奇的工作。

吉芬指出,金融贸易中商人使用的数据大多数是针对于某一专门领域,短期数据较多,而基于讨论和决定政治政策的需要,政治领域偏重于更具一般性和长期性的统计数据,吉芬细致研究了二者的区别,虽然仍借助于表格讨论一阶差分,但他把数据汇集到更长的序列中,使时间序列数据的长度即时间周期增大,以便于探寻经济变化的真实周期和最佳模式[6]。吉芬迈出的关键一步是把调查结果进一步应用于对政策问题的研究,他试图根据商品平均价格的变动确定市场变化规律,通过对税收和股票交易等金融数据的调查分析经济波动趋势,进而为政策和法规的制定提供理论依据,甚至为皇家委员会处理金融事件提供决策。

纽马奇的最大成就在于把根据金融贸易提炼的理论应用到政治经济学中,又借助于统计学的平台把政治经济反馈到真实生活中。通过对一阶差分和百分数变化的研究,纽马奇总结了自己的经典思想:商业贸易活动中的日常变化可以被总结、抽象到人类自然法则中。

必须强调,无论是与皇家统计学会、皇家经济学会交流,还是在其论著中,吉芬和纽马奇都只是借助于简单的表格和文本的描述,而避免使用任何方程、几何图形和数学理论,比较的方式也仅仅限于除法和减法,根本没有逾越三分法,没有涉及平均数的计算以及对平均数的偏差等。因此,以吉芬和纽马奇为标志的政治算术阶段只能属于描述性统计,和以尤尔为代表的严格数学统计之间有着严重的分歧,他们无法理解尤尔的最小二乘回归等思想。但无论怎样,这些崭新的差分技术很大程度上鼓舞着金融算术和政治算术的发展,当然,反过来说,这两个领域对差分的使用和讨论,也直接引导着差分进入试验调查阶段。

二 试验调查阶段的差分

由于一阶差分比初始的绝对数值更有助于讨论系统变化和分析波动真相,对于特别注重科学性的统计学家来说,他们比经济学家和政治人更偏爱差分工具。若对不同商品的绝对数量进行直接比较,也许毫无意义,但对变化值却截然不同,通过绝对或相对变化可以把较短的不相关序列修补成较长的相容序列。由于减少了趋势和长期变化的影响,差分后的序列更可能在常数均值的一定范围内振荡,更可能趋向于稳定序列,解释短项波动更为直观和清晰,所以,变化值通常比绝对水平值更易于统计处理。统计学家克莱因(Judy L.Klein)在其专著(文献[5]66页)中列举了经济学和气象学中对一阶差分的关键研究,见表1,下面以此为线索,具体探讨试验调查和严格统计理论阶段差分的发展状况。

(一) 诺顿的“季节差分”

诺顿(John Norton)是统计分析中使用序列差分的第一人,他的博士论文以及在此基础上出版的专著,首先利用一阶差分研究1879~1900年纽约钱币市场每周的结余、储蓄和贷款数据,具体探讨资金流动和温度之间的季节性关系和偏差,可称为相对时间框架中经济和气象相联系的一个典型解释。他的研究非常复杂[7],首先在资金流动波动图中插入实心上斜线,并定义为生长轴。为理解结余、贷款和对应季节的周期,诺顿创建图表和频率折线表示一年的52个周,并根据22年内记录的每周观察值所形成的时间序列数据,从生长轴出发作出趋势线,根据各自的趋势线计算百分数偏差,作为真实值和生长轴代数差分的比率,然后对每周数据值的百分数变差进行一阶差分,计算偏差的平均周变化,并在相对时间中进行分析,讨论一阶差分的相关性。在诺顿的相对时间图上,横轴顺次表示某特定年的52个周,竖轴表示增减的数量或相对周的净变化值,这样他在年循环的相对时间框架中把一阶差分重新安排到52个截痕样本中,在讨论贷款和结余的季节相关模式时,通过一些代数方法处理数据,采取适当的步骤减少趋势和商业循环的影响,强调典型的季节变化。

可以看出,与早期的差分方法不同,诺顿强调的是对于生长轴偏差的一阶差分,他提出去除序列的“生长元素”,引用现代术语,即是消除序列的趋势项。虽然诺顿最终未能明确提出“消除趋势”和“季节差分”的概念,但他的萌芽思想不容忽视。而且诺顿自信如此详细的分析清楚地揭露了偏差的年周期,也许一些经济学家根据长期的经验对此也早已耳熟能详,但诺顿第一个把它形成理论,并确信引入一阶差分后的理论化研究搭建了商业直觉和科学观察之间的桥梁,引导着金融领域逐步归结为精确科学。

(二)凯夫的一阶差分相关性

1905年,凯夫(Cave-Browne-Cave,F.E.)在研究全球不同地区气压间的相关问题时[8],首次引入了序列相关,并讨论了一阶差分的相关性。有趣的是,一阶差分和自相关只是凯夫研究气压问题的附属产品,但该研究在差分的早期应用中却举足轻重,并被皮尔逊(Karl Pearson)呈送给皇家学会,这也是我们在研究差分的历史时必须提到凯夫的原因。

对气压相关问题的研究最早可以追溯到皮尔逊和李(Alice Lee)。1897年,他们根据所观察到的13年数据,讨论了英伦列岛不同地区气压的相关性;1902年凯夫和皮尔逊根据挪威北方到欧洲、非洲西部海岸线的观察数据,进行了类似的研究并推断:英伦列岛不同地区间的相关系数较高,但同步相关不是最佳预报方法。

在此基础上,三年后,凯夫再次讨论气压相关问题。为了尽可能地减少一阶差分相关的复杂性,凯夫使用不同地区20年间一天内的2个气压值,这也是历史上最早公开的涉及数据自相关的时间序列样本。凯夫借助滞后测量,根据不同地区较早的气压读数进行预报,目的是借助于“相关系数能够达到最高正值”这一标准,最终决定天气预报中适当的空间和时间间隔。为此,她首次提出把数据分成春分到秋分的两个部分处理季节性偏差,并倡导用时间滞后内插相关系数曲线,以便气象学家在灵活的度量方式下估计最佳间隔。凯夫最经典的核心结论是,按照目前的度量方式和已给定的日常记录,最佳气压预报间隔是加拿大新斯科舍省哈利法克斯(Halifax,Nova Scotia)比美利坚北卡罗来纳州威尔明顿(Wilmington,North Carolina)早26个小时,用数学公式可表示为yt=f(yt-1)+e,其中t为时间和地区,t-1为另一地区和26小时前的时刻。这样,凯夫不仅证实了不同地区不同间隔之间气压增减变化的相关性,而且借助一阶差分的相关性解释预报间隔,当然要比绝对数值的相关性高效、准确。而且为了简捷地估计一阶差分的相关性,凯夫对每一个地区分别展示了连续数天气压的序列相关性,虽然没能清晰地讨论自回归问题,但为统计学家创建自回归随机过程的概念打下了良好的基础,这种时间和空间上关系的结合也正是尤尔统计序列公式的主导思想。

(三)马驰的研究

1905年,马驰(Lucien March)根据对1885~1903年法国银行金银和储蓄等金融序列的讨论,以及婚姻率、出生率间的相互依赖性,也阐述了序列一阶差分的相关性。马驰的意义在于,他独立地提出一阶差分的相关可用于刻画非周期变量短项变化的相关问题,第一个较为系统地讨论了序列分解概念,利用年度数据从年度变化相关的年份中去除不相关的年份,而且根据序列中的年度数量分配净相关,决定时间滞后等。

(四) 胡克差分思想的发展

胡克(Reginald Hawthorn Hooker)认为,虽然差分对所有涉及时间的科学分支都非常有效,但由于使用差分可以从缓慢的、长期的变化中,分离出较小的、快速的变化因素,所以差分特别适宜于处理经济问题。1901年,胡克试图根据柏林、芝加哥和利物浦三个市场内相同的谷物价格,讨论1897~1899年德国议会对商品期货市场的延期,是否会影响谷物的平均价格和价格的稳定性,以及芝加哥和利物浦市场对柏林现货交易市场的影响等。在对后者的调查中,胡克计算了每年每日绝对数值的相关系数,发现相关系数值通常较低,他意识到这是由于“趋势”的影响,于是胡克不仅首次引入了“趋势”一词,并且使用9年的瞬时平均(滑动平均)消除贸易循环,揭露趋势性或长期的变化,最后得出结论:差分的相关性才更适合刻画两个市场间的波动关系[9]。

这是胡克首次提出一阶差分的相关性,但他当时没有解决这个问题,直到4年后才向皇家统计学会介绍了这种处理时间序列数据相关问题的新方法[10]。胡克计算了三个市场内所有谷物价格序列每日数值差分的相关性,得到1892~1899年每年每日差分值的相关系数。通过对这些相关系数的比较和分析,胡克推断,柏林现货交易的谷物价格2年内和全球其他市场是独立的;消除趋势和强调循环的瞬时平均方法只适用于周期性序列,但对每日数值样本作用不明显;当探究具有较大周期的序列间关系时,最合适的检验是绝对数值的相关性,但当试图探究周期性不显著,或周期较短、变化迅速的序列间关系时,或者对个别序列无法保证可以始终观察到其正常值时,差分的相关性是最有力的处理工具。

至此,胡克利用谷物价格一例说明了一阶差分相关性的应用,斯图登(Student=William Sealy Gosset)给予他较高的评价:自从胡克发表了他的论文,那些必须从统计角度处理经济或社会问题的人开始频繁使用差分方法。这标志着一阶差分相关性被普遍接受,金融领域开始广泛使用日变化和周变化等差分去探究短项变化,社会科学关注的焦点也从绝对数值逐渐转向变化值。

强调一句,这些统计学家在根据科学试验探究差分及相关性问题时,虽然研究时间比较接近,都集中于20世纪初,但他们的调查对象不同,研究方法也各有侧重,除了胡克可能注意到了凯夫的研究外,其余应用都是彼此独立的。并且,从总体上看,与早期的差分思想相比,本阶段对差分的应用和发展与统计理论联系更密切,更注重科学性。

三 现代差分理论

(一)变量差分方法的初步形成

1914年《生物统计杂志》(Biometrika)第10期刊登了标题完全相同的两篇文章,作者分别为斯图登和安德森,他们分别介绍了各自精心完成的时间序列差分相关方法,核心思想是消除由于时间或空间引发的伪相关[11][12]。他们的观点是,只有当变量和时间是线性关系时,一阶差分方法才有效,他们试图使用新技术把胡克的差分方法一般化,为此提出把随机变量x、y表示成关于时间的多项式与随机残差的和

x=X+b.t+c.t2+d.t3+…

y=X+b′.t+c′.t2+d′.t3+…

其中,X、Y是随机残差,为了减少时间t的分量,并判断随机残差是否相关,只有进行高阶差分,直到x、yn阶差分的相关与n+1阶差分的相关相等,则x、yn阶差分的相关与残差X、Yn阶差分的相关相等,从而也和X、Y本身的相关相等。

显然,他们开创了相关的新观点,在统计界引起较大的反响,凯夫[13],尤尔指出,以凯夫、马驰和胡克 为首的一方与以安德森、斯图登、凯夫(B.Cave)和皮尔逊为首的另一方之间存在着巨大的沟壑。早期的统计学家认为,时间序列相关的困难主要在于不同持续时间振荡的分离问题,而变量差分方法的提倡者认为,变量是时间的函数并和时间相关,时间本身是一个因果因素,时间相关是“伪相关”,其解决思路是消除所有时间函数的分支,寻求独立残差间的相关性。尤尔对分离随机残差的合理性提出质疑,并证实某些情况下变量差分方法趋向于给定两年振荡的相关。1926年,尤尔从一串随机序列开始,整理出新序列,并计算其相关系数,最终推证:相关的分布特别依赖于一阶差分的相关性,而不是序列本身的相关性,差分本身也是连接序列的,连接序列是二元分析中特别易于导致错误推断的“危险”序列,即产生无意义相关的序列[14]。以此为基础,1927年,尤尔经过对单摆运动和太阳黑子序列的调和分析,逐步形成自己的新观点:时间序列的许多问题中,变量不是和时间相关,而是和同一序列中的滞后变量相关,且观察值的差分也是和滞后变量的差分相关[15]。

安德森对变量差分方法的后续发展主要集中于序列分解和识别平稳时间序列[16]。1927年,安德森指出,变量差分方法只用于说明一维模型的情形,序列可分解为确定性部分和随机部分,残差属于随机部分,对序列进行高阶差分,直到其标准差停止变化而收敛于稳定值,通过研究单个序列的标准差,可识别系统的性质。安德森为差分方法打下了坚实的基础,直到博克斯和詹金斯等把差分序列应用于非平稳序列,这些方法已融入现行时间序列分析课程,将另文论述。

四 结 语

上一篇:小学体育课中的有效性下一篇:投资集团公司