金融数据序列

2024-10-18

金融数据序列(共7篇)

金融数据序列 篇1

经济增长与金融的关系至今未有定论。R·W·Goldsmith提出金融结构的变化决定金融发展道路,能加速经济的增长。Edward S Shaw和R.I.Mckinnon提出并论证了金融抑制对经济增长的阻碍作用。King和Levine利用IMF提供的77个国家1960-1989年的数据,对金融中介与长期经济增长之间的关系进行了检验。结论是,金融发展与经济增长、资本形成和经济效率之间具有强正相关关系,并且金融中介效率的提高对经济增长的作用具有一阶滞后性。

谈儒勇认为中国金融中介体发展和经济增长之间有显著的、很强的正相关关系,但股票市场发展和经济增长之间有不显著的负相关关系。陈刚等人利用1979—2003年的省级面板数据,以银行贷款总额占同期GDP的比重作为衡量金融发展水平的指标,检验了我国金融发展对经济增长的影响,结果显示金融发展对经济增长具有显著的正向影响,但金融部门和实体经济部门之间并不存在良性互动的关系。而韩廷春实证分析的结论则有所不同,他认为技术进步和制度创新是经济增长的关键因素,金融发展对经济增长的促进作用极其有限。

一、时间序列和面板数据的实证模型

中国典型的“二元经济”特征为研究金融发展与经济增长关系的区域差异提供了一个很好的样本。

假设某地区的生产函数为一次齐次CD生产函数,则其形式为:(1)

其中y表示人均产出,A表示人均资本的边际生产率,k表示人均资本的投入数量。在方程(1)两边对时间t取微分,得:

在方程(2)两边同除以y,则可得经济增长率方程:

方程(3)表示地区经济增长率等于资本边际生产率和投资率的乘积。而投资来自储蓄,金融中介是把储蓄转化为投资的唯一途径。所以,当金融市场处于均衡时,储蓄完全转化为投资;当金融市场非均衡时,只有部分储蓄能够有效转化为投资。则假定储蓄转化为投资的比率为R,则方程(3)可以表示为:

方程(4)两边同时取自然对数,

其中,s表示储蓄率。从方程(4)易知,金融发展影响经济增长的途径为:

1.提高资本的边际生产率A

金融发展通过多种渠道提高资本的边际生产率:(l)金融体系通过对投资项目进行评估和甄别,将资金使用到收益率高和具有创新性的项目;(2)金融体系对企业和投资项目进行监督,提高了企业的资源配置效率;(3)通过二级市场金融资产的交易引导资源向收益率高的项目和创新项目集中,提高资本边际生产率;(4)为家庭提供融资,促进了人力资本积累。

2.提高储蓄投资转化的比率R

1-R表示资金从储蓄者转移到投资者的交易成本和信息成本,包括金融部门的经营成本和利润,金融部门承担的风险升水以及其它一部分资源漏损(如垄断效率损失、寻租、金融腐败等)。随着金融部门经营效率的提高、金融市场竞争程度的上升以及金融工具和产品的创新,金融交易成本下降,储蓄-投资转化比率将上升,从而提高经济增长率。

3.影响储蓄率

由于替代效应和财富效应,金融发展对储蓄率的影响不确定。金融部门不断推出的高收益率、低风险的金融产品和理财工具以及资产组合管理能够提高居民的储蓄愿望和储蓄率。另一方面高收益率的资产提高了居民的收入水平,由此产生的财富效应将提高当前消费并降低储蓄。另外,资产组合管理降低了居民持有金融资产的风险,从而降低了预防性储蓄。开放经济中,金融发展还可以有利于吸引外资流入,弥补国内储蓄的不足,从而促进经济增长。

基于以上的分析和数据的可获得性,我们确定估计模型为:

其中,影响的指标有:

(1)金融相关指标FIR(Financial Interrelation s Ratio):麦金农(1973)使用货币存量(M2)与国民生产总值的比重作为标尺,认为“货币负债对国民生产总值的比率是经济中货币体系的重要性和‘实际规模’的最简单标尺”。通常,人们一般将其简化为,以衡量一国的经济货币化程度。由于中国的主要金融资产集中在银行,而银行的最主要资产也是存款和贷款,所以利用存贷款的数据,基本可以揭示出中国金融发展的状况。即

中S表示存款,L表示贷款

(2)存贷比:存贷比是一个地区一定时期存款额与贷款额的比率,它反映一个地区信贷资金的自给程度。若超过其信贷资金来源(存款额扣除上缴存款准备金部分),则信贷资金不能自给,反之,则信贷资金自给有余。其计算公式为:储蓄-投资转化率R=L/Ss=S/GDP

二、实证检验

(一)时间序列检验:上海市52-07年数据

采用1952年至2007年上海市的国内生产总值,存贷款数据进行实证检验。为了具有可比性,都采用增长率的形式进行检验。SHGR为上海市的国内生产总值增长率,SHDR表示存款增长率,SHCR表示贷款增长率,SHDCBG表示存贷款之和与上海市的国内生产总值的比率,SHDBG表示存款与上海国内生产总值的比率,SHDBC表示存贷款比率,CHGR表示中国的国内生产总值增长率。估计方程为:

其中time79,time98为79年和98年的虚拟变量。

(二)面板数据:全国21个省、市、自治区52-07年数据

为了进一步说明问题,本文还采用了全国21个省、市、自治区从52年到07年的面板数据进行对模型检验。

其中,GDP表示各省、市、自治区的GDP增长率,rdep,rcre,dbc,dbg,cbg,time78,time98分别表示各省、市、自治区的存款增长率,贷款增长率,存贷比增长率,存款占国内生产总值增长率,贷款占国内生产总值增长率,以及虚拟变量1978年和1998年。使用LS方法进行估计。

三、研究结论分析

在上海市样本中,time79变量的系数为-2.700923,说明在改革开放初期,上海的发展受到国家存贷款资源的宏观调控,广东等地已成为国家政策的“重点照顾”地区。Time98的系数为-0.387179,与国家重新开始重视上海的浦东建设有关。存款增长率shdr的系数为93.57760,存贷款之和与国内生产总值的比例shdcbg的系数为-17.41660,但是统计上不显著,说明金融相关比率与经济发展关系不强。存款占贷款的比率shdbc的系数为15.96335,与经济发展正相关,存款转化为贷款的自力更生能力在上海的经济发展中具有很重要的地位。

贷款增长率的系数为31.67983,而且统计上在1%的显著性水平上也非常显著。这个有力的证明了贷款增长在上海经济发展中的关键核心作用。作为衡量其他所有外生变量的代表变量CHGR,它的系数是0.887225,而且统计上即使在1%的显著性水平上也非常显著。这是因为上海经济受到周边地区及宏观经济的影响较大。整个模型的R-squared为0.912335,模型拟和能力较好。

在全国样本中,存款增长率也是正相关,且统计上显著。可能原因是各省市自治区的经济发展依赖于自身的存款积累以及金融机构把存款转化为贷款的能力;贷款增长率为正值,不显著;存款与贷款比率,贷款占国内生产总值比率都为负值,说明全国贷款应用效率太低,不如上海。Tim78在10%的显著性水平上是显著的,而time98统计上不显著,说明改革开放对于经济发展的影响是巨大的,而98年的深化改革措施还没有完全成功。

四、政策建议

通过样本对比,上海与全国共性少于显著差异,与实际相符。共性是都依赖于存款的增长,即存款转化为贷款在经济发展中有明显作用。说明我国还处在市场经济发展的初级阶段,金融机构的其他信息传递、甄别功能还没有欧美国家完善。金融机构还是局限于基本的存贷款业务。造成差异的可能原因是,上海地区市场化程度和经济发展水平均高于全国,市场机制在资源配置中已发挥明显作用,经济与金融之间的关系比较密切。Patrick(1966)的供给导向模式和需求跟进模式都得到体现。而对于全国而言,贷款使用效率较低,生产技术落后,吸纳生产性投资的能力还差。国家资金多数集中在基础设施领域,对生产性领域投入依然较少,这种投资结构也决定了金融对经济作用速度较慢。

因此,针对以上问题及当前的金融体制改革,提出如下政策建议:

1.大力推进中国金融的区域化发展战略,在东、西部实施有差别的金融政策。如果在东、西部采用“大一统”的“一刀切”的金融政策,事实上会造成东部对西部金融资源的掠夺,对西部经济的发展是极为不利的。具体而言,国家在货币供应量的调控及利率、信贷等相关金融政策的制定及执行时必须正视东西部差异,做到差别对待。

2.重视金融与经济发展关系的协调,构建经济与金融的良性互动机制。当务之急,要改革西部经济增长方式,由基础设施建设为中心逐步转向基础设施建设与产业发展并重的发展模式;要大力发展具有比较优势的西部产业群;推进以“自生能力”建设为中心的企业改革,增强西部经济对金融资本的吸引力。营造西部金融与西部经济协调发展的宏观制度环境。但值得注意的是,由于西部地区金融发展与经济增长之间无明显的短期因果关系,因此,西部地区经济与金融体制改革的绩效在短期内可能并不明显,经济与金融协调发展机制的形成是一个长期过程。

3.要进一步深化经济金融体制改革,建立东西部经济金融协调发展机制研究结论清楚表明,无论是东部还是西部,从长期来看,金融发展对经济增长都具有明显促进作用。

摘要:金融发展在完善市场经济体系中是经济增长的发动机。分别运用上海市52-07年的时间序列数据以及中国21个省、1952-2007年的面板数据,通过5个金融发展指标,检验了金融发展对经济增长的影响。各指标在上海样本与全国样本中存在明显差别,只有贷款增长率显著促进经济增长,说明中国经济还是严重依赖于金融系统的贷款,金融系统配置资源等其他职能还未能发挥作用。

关键词:金融发展,经济增长,地区差异

参考文献

[1]Goldsmith,R..“Financial Structure and Economic Development”[M],New Haven:Yale University Press.1969.155-213

[2]Mckinnon,R.I..“Money and Capital in Economic Development”[M],Brooking Instition,Washington,DC.1973.121-145.

[3]Show,E.S..“Financial Deepening in Economic Growth”[M],Oxford University Press,NY..1973.211-278

[4]Levine,Ross.“Financial Development and Economic Growth:Views and Agenda”[J],Journal of Economic Literature,1997(5):688-726

[5]Patrick,H.T..“Financial Development and Economic Growth in Developing Countries”[J],Economic and Cultural Change,1966.14(2):174-189

[6]谈儒勇.《中国金融发展和经济增长关系的实证研究》[J],经济研究,1999,(10):53-61

[7]韩廷春.《金融发展与经济增长——理论、实证与政策》[M],北京:清华大学出版社,2002

[8]陈刚潘杨.《中国的金融发展、分税制改革与经济增长》[J],金融研究,2006,(2),99-109

金融数据序列 篇2

期货市场的主要作用可概括如下:提供分散、转移价格风险的工具;有效锁定生产成本,实现预期利润;利用期货价格信号,组织安排现货生产;拓展现货销售和采购渠道;促使企业关注产品质量问题,更为重要的是有助于企业争夺国际定价权,提高国际影响力与竞争力。而其由收盘价等数据形成的时间序列,即金融时间序列即是其规律特征的真实体现。

金融时间序列挖掘方法主要包括:关联分析、序列分析、聚类分析、相似性查找、异常检测等。具体应用体现在以下几个方面。

1.1 监控可疑金融交易

金融交易数据中存在的,包含丰富属性信息的表和关系,数据量巨大,故其中蕴含着丰富的关联规则。充分发现这些关联规则,可以用于反洗钱工作中的可疑金融交易识别等,为有效开展可疑金融交易识别提供有益参考。

1.2 识别市场操纵行为

通过分析市场操作行为序列识别市场操纵行为在数据挖掘的框架下成为了可能。

1.3 金融市场特征分析

金融市场运行的内在规律可通过数据挖掘显现,主要为潜在的规律和投资者感兴趣的模式,在多序列中找到有相似波动规律的时间序列等。

1.4 上市公司分析

从大量的金融数据中挖掘规律及潜在的联系,使用户可以对公司之间的相似关系有较深的了解,从而帮助用户做出正确的投资决定。

1.5 特殊投资机会发掘

异常的存在极可能影响到后续产生的数据,从而导致一波异常数据的发生,并从根本上改变未来数据的趋势。而异常数据往往涵盖了重要的有价值的投资信息。

2 辩证角度下期货市场数据挖掘

第一,变化是永恒的,没有统一适用模型,在时间纵向和个体品种横向上都有体现。市场不会做数学模型的“乖孩子”,用单纯的一种方法或思想本质上无法达到良好的挖掘效果。且对于永恒变化的期货类金融市场,单纯的数理统计方法也无法诠释出理想的类似对经济时间序列的研究效果。例如金融市场并不具有类似于经济时间序列的典型的整体周期性。同样的数据挖掘方法对不同的期货品种适应性也有所不同,对于不同种类的品种,例如金属及农产品,相差较大,而对于同种类的品种,如金属中的铜、银等,挖掘结果虽具有相似性,但仍存在个性化差异。

第二,变与不变二分或对立,有不变因素与自身规律,可表示、可预测,而变化则体现在预测要适应变化,跟随学习。在变化的基础上把握住“变中不变”的特征规律,是切实有效的研究方法。期货市场价格波动纷繁复杂,而单边模式及震荡情形却可从较高层次对其进行概括,此即为其“不变”的特性。而在此基础上,单边模式的趋势、深度、序列组合等却时刻处在变化之中。

第三,区分可知与不可知,不是什么都可预测的,也不是什么时候都可预测。数据挖掘的理论方法虽已在众多领域有极大的建树,但金融市场的多变性使得其在应用数据挖掘方法时,存在可知与不可知的问题。例如,不是所有的内容均可通过各类挖掘算法得出预测结果,比如市场精确的价格。但却可以选取恰当的方法,结合实际进行改进,对单边运行的趋势方向及深度等进行预测,如利用基于支持向量机的方法建模等。

3 结 语

金融市场是一个受多种因素影响的、庞大的系统,具有非常复杂的运动规律,金融时间序列中必定蕴含了金融系统诸多客观规律信息。采用辩证的观点诠释金融市场的特征,将为后续金融时间序列挖掘起到良好的数据处理作用,提高后续金融时间序列挖掘的效率。同时,采用辩证的观点诠释典型的金融市场——期货市场的特性,可以客观充分还原期货市场的运行特征,为后续对期货市场的规律发现起到真实的约束作用,提高实用价值。

摘要:金融市场的重要组成部分之一期货市场,其规避风险及价格发现的功能,发展至今,对企业健康、持续发展起到了举足轻重的作用。本文将创新性的提出辩证角度下对金融时间序列数据挖掘的研究思想。

关键词:金融时间序列,数据挖掘,辩证

参考文献

[1]周勇.时间序列时序关联规则挖掘研究[D].成都:西南财经大学,2008.

[2]胡晓青,王波.基于数据挖掘的金融时序频繁模式的快速发现[J].上海理工大学学报,2006(4).

金融数据序列 篇3

关键词:金融时间序列,加权支持向量机 (WSVM) ,再加权支持向量机

一、研究背景及意义

Vapnik于20世纪90年代提出的支持向量机 (Support Vector Machine, SVM) 是一种基于小样本统计学习理论机器学习方法, 近年来由于其在诸多领域所表现出的出色性能, 已经成为了机器学习的研究热点。金融数据绝大多数是时间序列 (Time Series) 数据。传统的金融时间序列预测技术包括统计回归、神经网络等方法。文献采用神经网络来预测股票市场涨跌, 文献采用径向基函数 (Radial basisfunction, RBF) 神经网络对股票市场进行预测和建模。文献将支持向量机应用到时间序列的预测中。

近些年来, 国内外学者对加权支持向量机的理论及应用进行了大量的研究, 也产生了不少优秀的成果。文献认为早期的样本重要性要低于后期样本的重要性, 对每个样本的惩罚参数C用线性插值方法进行加权, 而文献对每个样本的惩罚参数C的权重用指数函数进行表示。本文通过计算每个样本点收盘价与两类样本中心点收盘价的欧氏距离来衡量不同样本的重要性。

二、改进算法

加权支持向量机的最优化问题为:

由于对收盘价预测的目的主要是确定其涨跌, 并且预测其数值具有很差的可信度, 故本文利用用改进的SVC模型根据收盘价的涨跌对其进行正负分类, 并对以后收盘价的涨跌情况进行预测。一则预测相对容易;二则不失实际意义;三则相对降低了复杂度。

如图一所示, 金融时间序列数据有随机性、含有噪声、有较强的非线性等特点, 根据机器学习中, “与训练样本空间距离越小的测试样本重要性 (误差要求) 远高于空间距离大的测试样本”的原则, 本文提出一种改进的SVC模型。通过计算测试样本与类中心点的欧式距离来衡量不同测试样本的重要性, 建立了用于收盘价增量时间序列预测的模型。

针对上证指数随机性强, 影响因素多等特点, 假定收盘价是由前一天的开盘价, 收盘价, 最高价, 最低价, 交易量 (股) , 交易额 (元) 所决定的。为方便分类, 通过考虑自变量的增量来预测收盘价的涨跌情况 (图二) 。

对于每个时间点的数据, 用它减去即可得到该时间点处样本的增量xi。根据中收盘价增量的正负可以分为两类点, 将两类点分别相加并除以各自的个数就可以得到两类样本的中心点。每个样本点的权值是根据样本点与所有类别的类中心点的距离决定的。样本xi和第i类样本类中心点的欧氏距离定义为:

式中, pi是第i类样本的中心点, 是样本向量xj的第k维分量, 为样本类中心点pi的第k维分量, n为样本的维数。可以用下式作为样本权值的估计

由式中可以看出, 当样本远离所属类别中心并且靠近另外一个类别中心时, 估计值逐渐趋近于0, 而在同时远离两个类别中心时, 估计值逐渐趋近于0。5, 并且可以满足的条件。

三、数值实验与结果分析

本文实验的核函数选用性能较好的高斯核函数 (RBF)

对上证指数日线2012/11/30—2013/5/7的100个数据进行十折交叉验证训练, 得出最优参数C和δ, 再对2013/5/7—2013/6/7的23个数据进行检验, 并将其与标准的SVC预测和根据时间的远期近期进行线性加权的方法WSVC进行对比, 试验结果如表1。

由表1可得出如下结论:传统的SVM算法对金融时间序列进行分类预测时, 由于对所有的样本采用相同的惩罚参数, 导致分类精度降低。数值试验结果表明, 本文提出的改进的加权算法确实很好地解决了上述传统的SVM算法存在问题。未来的工作是进一步改进算法, 提升它的稳定性, 提高分类精度, 并实现参数优化。

参考文献

[1]V.N.Vapnik.The Nature of Statistical LearningTheory[M].Springer, New York, second edition, 2000

[2]LeanYu, ShouyangWang, Kin KeungLai.A neural-networkbased nonlinear metamodeling approach to financial time series forecasting[J].Applied Soft Computing, Volume 9, Issue 2, March 2009, Pages 563–574

[3]Ricardo de A.Araújo.Swarm-based translation-invariant morphological prediction method for financial time series forecastingInformation Sciences[J].Volume 180, Issue 24, 15December 2010, Pages 4784–4805

[4]Chi-Jie Lu, Tian-Shyug Lee, Chih-Chou Chiu.Financial time series forecasting using independent component analysis and support vector regression[J].Decision Support Systems, Volume 47, Issue 2, May 2009, Pages 115–125

[5]YANG Lu.GAO Ziyou.A kind of self feedback neural network in time series forecasting[J].Forecasting, 1998, 17 (6) :41–43

[6]孙延风, 梁艳春, 姜静清.金融时间序列预测中的神经网络方法[J].吉林大学学报, 2004.22 (1) :49—51

[7]郑丕谔, 马艳华.基于径向基函数的证券市场建模和预测[J].天津大学学报, 2000, 33 (4) :483—486

[8]CAO Lijuan, Tay F E H.Financial forecasting using support vector machines[J]Neural Computing&Applications, 2001, 10 (2) :184—192

[9]范听炜, 杜树新, 吴铁军.可补偿类别差异的加权支持向量机算法[J]中国图像图形学报, 2003, 8 (9) :1037-1042

[10]赵晖, 荣莉莉.支持向量机组合分类及其在文本分类中的应用[J].小型微型计算机系统, 2005, 26 (10) :1816-1820

[11]LIN Chun-fu, WANG Sheng-de.Fuzzy supportvectormachines[J].IEEE Trans on Neural Networks, 2002, 13 (2) :464—471

金融时间序列的涨跌持续性分析 篇4

关键词:金融时间序列,持续性,算法,实证分析

1 金融时间序列的涨跌持续度

金融时间序列是对某一金融变量按时间顺序进行观测而得到的观测值序列, 简称金融时序。金融时间序列作为时间序列的一种, 有着不同于一般时间序列的特点和研究方法, 它是人们研究金融变量的媒介和工具。常见的金融变量有:股价、股指、汇率、期货价格、收益率、利率、增长率、成交量以及成交额等。

由于金融时间序列的取值具有不确定性, 因此, 金融时间序列常被看成是随机变量序列的一组观测值。那么金融时间序列是否有规律可言, 人们通过对金融时间序列的长期观察和研究中发现, 金融时间序列具有异常值、波动持续性、长记忆性、均值回复性、波动率聚类性以及持续期聚类性等特征。除此之外, 金融时间序列是否具有涨跌持续性也是一个问题, 所谓涨跌持续性是金融时间序列一连上涨或者下跌几天的特性。下面就具体分析研究金融时序的这一特性。

定义1:设{xi丨i=1, 2, …, n}为金融时间序列,

其中sign () 为符号函数, 则称{bi丨i=1, 2, …, n-2}为金融时间序列的一步涨跌逻辑值时序;

则称pc为金融时间序列的一步涨跌持续性测度, 简称一步涨跌持续度。

定义2:设{xi丨i=1, 2, …, n}为金融时间序列,

则称{ri丨i=1, 2, …, n-1}为一步简单收益率时序;

其中sign () 为符号函数, 则称{bim丨i=1, 2, …, n-2}为金融时间序列的m步涨跌逻辑值时序;

则称pcm为金融时间序列的m步涨跌持续度。

由定义可知:对于毫无涨跌持续性的金融时间序列而言, 它的涨跌持续度恰好是随机事件{下一观测值与当前观测值同涨跌}发生频率, 根据科尔莫格洛夫大数定律可知, 随机事件发生频率依概率收敛于随机事件发生概率。而随机事件{下一观测值与当前观测值同涨跌}发生概率为0.5, 因此可知, 当金融时间序列的涨跌持续度约等于0.5时, 认为金融时间序列毫无涨跌持续性;当金融时间序列的涨跌持续度大于0.5时, 认为金融时间序列具有涨跌持续性;当金融时间序列的涨跌持续度小于0.5时, 认为金融时间序列具有反涨跌持续性。在实际问题中, 可以据此来判断金融时间序列是否具有涨跌持续性, 以及金融时序涨跌持续性的强弱。

2 金融时间序列的涨跌持续度的计算

计算金融时序的m步涨跌持续度pcm的算法流程设计如下:

(1) 获取金融时序数据{xi丨i=1, 2, …, n};

(2) 计算一步简单收益率时序{ri丨i=1, 2, …, n-1};

(3) 计算符号值时序{si=sign (ri) , i=1, 2, …, n-1};

(4) 计算金融时序的m步涨跌逻辑值时序

(5) 计算金融时间序列的m步涨跌持续度,

3 股票价格时序的涨跌持续性分析

下面以沪深300指数2005年4月8日到2014年1月28日的收盘指数为试验数据, 分别计算它们的1至6步涨跌持续度。结果如下:

从结果来看, 沪深300收盘指数1至6步的涨跌持续度都非常接近0.5, 这表明收盘指数时序虽然不是毫无涨跌持续性可言的纯随机时序, 但是它表现出来的涨跌持续性却极其微弱。

金融时间序列受政治、经济、心理等诸多方面因素影响, 且各个因素之间的相互作用是非线性的、时变的, 具有内在的噪声和随机性。在金融时间序列中通常会存在噪声数据, 它们往往会淹没金融时序中蕴含的某种模式, 也会影响金融时序的涨跌持续性, 因此, 在对金融时序进行建模分析和预测之前, 有必要对金融时序进行去噪处理, 排除噪声数据对模式数据的干扰。

由于股指 (股价) 的收盘指 (收盘价) 受短时因素影响较大, 收盘指时序会存在较多噪声数据。为了降低噪声数据的干扰, 下面以沪深300指数2005年4月8日到2014年1月28日的最高指数和最低指数的均值时序为试验数据, 分别计算它们的1至6步涨跌持续度。结果如下:

对比两次计算结果, 可以清楚看到最高指数和最低指数的均值时序的涨跌持续性要明显强于收盘指数时序, 这是因为均值时序较好地排除了股指 (股价) 在一天内的短时波动对涨跌持续性的干扰。

为了进一步降低噪声数据对金融时序涨跌持续性的影响, 下面利用小波分解的方法对金融时序进行去噪处理。首先, 对2005年4月8日到2014年1月28日的沪深300最高指数和最低指数的均值时序进行8层小波分解, 之后对各层小波时序分别计算1步涨跌持续度。结果如下:

从结果可以看出, 除了第2层小波时序几乎无涨跌持续性外, 其他各层小波时序都具有明显的涨跌持续性。因此, 可以通过去掉第2层小波时序来达到去噪目的。但是实践表明, 第1层小波时序的持续性与第3至8层小波时序的持续性总是方向相反, 即第1层小波时序与第3至8层小波时序叠加之后, 会极大降低叠加时序的涨跌持续性。因此, 选择去掉第1层和第2层小波时序后的时序数据作为去噪时序进行涨跌持续性分析。

接下来, 对2005年4月8日到2014年1月28日的沪深300最高指数和最低指数的均值时序进行小波去噪, 之后再对去噪时序分别计算1至6步的涨跌持续度。结果如下:

收盘价时序、均值时序和均值去噪时序的1至6步涨跌持续度的对比图如图1所示:

从结果可以看出, 去噪后的沪深300指数具有4天左右的涨跌持续性。沪深300指数的这一特征在股市中普遍存在。实践表明, 股市中的金融时序, 去噪后都具有4天左右的涨跌持续性。这不仅是否定有效市场假说的有力证据, 而且使得利用金融时序的内在模式对金融时序进行建模预测成为可能。

4 结语

金融时序的涨跌持续度实际上可以看成是金融时序下一观测值与当前观测值同涨跌概率的近似值, 因此, 可以根据金融时序的当前状况以及金融时序的涨跌持续度, 预测金融时序未来状况以及走势。

参考文献

[1]李兴绪, 崔建福.MATLAB在金融时间序列分析及建模中的应用[J].计算机工程与科学, 2004 (7) :100-104.

[2]胡晓青, 王波.基于数据挖掘的金融时序频繁模式的快速发现[J].上海理工大学学报, 2006 (4) :381-385.

[3]杨虎, 李强.金融时序中异常数据挖掘算法设计及实证分析[J].中国管理科学, 2004 (3) :7-11.

[4]李守伟, 钱省三.面向金融时间序列相关性的网络模型研究[J].商业研究, 2006 (15) :5-8.

[5]时晶晶, 李汉东.深证成指日收益率波动的实证研究[J].北京师范大学学报 (自然科学版) , 2006 (6) :646-648.

[6]张世英, 李汉东, 樊智.金融风险的持续性及其规避策略[J].系统工程理论与实践, 2002 (5) :31-36.

[7]樊智, 张世英.金融波动持续性的研究[J].预测, 2003 (1) :33-37.

序列数据的监督学习方法综述 篇5

传统的监督学习的基本假设认为数据是独立同分布的,没有充分考虑到数据之间的相关性。在一些应用场景中,例如单词的词性标注,Web中的信息抽取以及生物数据的处理等,这些数据具有很强的相关性,这种相关性对分类预测的准确性有很大影响。

(1)序列数据及其基本特征

序列数据是关系数据的一个特例,这种类型的数据往往呈现局部相关性,这种局部相关性能帮助提高预测的精确度。例如一个句子的各个单词看以看成一个序列数据,在不同时间点记录的天气也是一个序列数据。在序列数据中i位置的数据往往对i+1位置的数据是有影响的。

(2)序列数据的监督学习

定义[1]:{(Xi,Yi)}Ni=1为N个训练样本,每个样本是一个偶对(Xi,Yi),Xi=,Yi=。学习的目标是构建一个分类器h,当给定一个新的输入序列X,h能正确地预测一个新的标签序列Y=h(X)。

2 有向图模型与无向图模型

图模型往往被用于表示概率分布簇。图模型的基本思想是将一个大量随机变量的分布表示多个局部函数的乘积,而每个函数只与一部分随机变量相关。序列数据的监督学习方法主要有两种图模型:有向图模型和无向图模型。

(1)有向图模型[2,3]

有向图模型是一个非循环的有向图G=(V,E)。V是顶点集合,顶点与随机变量一一对应,E是有向边的集合。有向图模型表示一个全体变量的联合概率分布。为了有效地计算联合概率分布,G中的每个结点被假设只与它的父结点相关(条件独立性假设),从而使得联合概率分布可以分解成一组局部函数的乘积,每个局部函数只与V的一个子集相关。若每个结点关联一个函数fi(vi,vπi),vπi是vi的父结点集合。则.如果这个局部函数用条件概率来描述,即fi(vi,vπi)=p(vi|vπi),则联合概率分布可表示为。

(2)无向图模型(马尔科夫随机场)[2,3]

无向图模型是一个无向的循环图G=(V,E)。V是顶点集合,表示一组连续或离散的随机变量,E是无向边的集合。由于是无向图,所有的结点根据它们的依赖情况被分成多个Clique而不是像有向图那样只考虑父结点,每个Clique,c,被定义了一个潜在函数ψVc(vc)。为了保证概率和为1,一个规范化因子Z被引入,,联合概率分布可以表示为。

3 监督学习相关方法

(1)隐藏的马尔科夫模型(HMM)[1,2,3]

HMM用于建模观测值序列x和标签序列y的联合概率p(x,y)。HMM定义了两个概率分布:状态转换分布P(yt|yt-1),用于表示相邻的状态的相关性;观察分布P(x|y),用于表示观察到的x与隐藏的y值的相关性。这两个分布基于两个基本假设:每一个状态yt仅仅依赖于它的直接前驱yt-1,独立于它的祖先y1,y2,…,yt-2。每一个被观察的变量xt仅仅依赖当前的状态yt。联合概率分布被建模为:

(2)最大熵马尔科夫模型(MEMMs)[1,3]

HMM试图解释观测值x是如何被产生的,而MEMM是根据x的值去预测y的值,其松弛了HMM的条件独立性假设。在MEMM中,t时刻的状态yt依赖于其前一个状态yt-1和当前的观测值xt。

MEMM存在标签偏移问题。

(3)条件随机场(CRF)[1,2,3,4,5,6]

CRF是一个无向图模型,其被引入以解决MEMM的标签偏移问题。CRF把相邻的状态偶对(yt-1,yt)建模成以输入x为条件的马尔科夫随机场,即相邻的状态之间的相互影响是由输入特征决定的。

条件随机场是一个无向图模型,给定一组加好标签的观测序列,其能描述标签序列的一个联合概率分布。

fα是整个观测序列x和位置为t-1,t处的标签的一个转移特征函数,gβ为位置t处的标签和观测序列的一个状态特征函数。

CRF计算条件概率:

CRF松弛了HMM的独立性假设,克服了MEMM的标签偏移问题。

4 CRF的一些应用

CRF方法得到了较广泛的应用,其从2001年提出,到现在已经被引用了2 777次。下面是其在几个方面的应用总结。

(1)信息抽取

文献[7]将信息抽取作为不确定数据库的数据源,使用CRF方法进行信息抽取操作,可以基于CRF模型进行Top-k的推演操作。文献[8]建议了一个二维的CRF,其被用于从Web中自动地抽取对象信息。

(2)Web信息检索

文献[9]讨论了查询分类的问题,其将一个用户的连续查询关键字看作一个序列数据,然后采用CRF对用户提出的新查询进行分类,通过前后查询关键字的相关性来避免二义性,使搜索引擎提供更高的查询准确率。在文献[10]中,用户对查询结果的点击情况被看成是一个顺序事件,然后基于用户的点击数据借助CRF进行全局排序。

(3)其他

文献[11]将支持向量机(SVM)和CRF相结合,利用SVM最大间隔的分类优势和CRF能够对相邻数据的相关性进行建模的特点学习一个顺序的分类器。SVM被用于预测单一输入序列数据项的标签,CRF被用于预测所有输出标签的顺序,SVM的输出作为CRF的输入。

5 结论

序列数据的应用场景目前主要集中在生物数据、文本处理、信息抽取等环境中。对于序列数据的处理,实际上有两方面的内容,第一个就是数据本身具有顺序性,例如由单词构成的句子,第二个就是到达数据的路径可以看成序列数据,例如用于查询XML内容的XPath。下一步的工作是试图将这种表达路径信息的序列数据与CRF相结合,以找出某一特定数据的路径特征,从而根据路径特征进行数据抽取。

参考文献

[1]Thomas G.Dietterich.Machine Learning for Sequential Data:A Review[EB/OL].http://www.cs.orst.edu,2002.

[2]Charles Sutton and Andrew McCallum.An Introduction to Conditional Random Fields for Relational Learning[EB/OL].http://www.cs.umass.edu,2001.

[3]Hanna Wallach.Efficient Training of Conditional Random Fields[Z].2002.

[4]Fei Sha and Fernando Pereira.Shallow Parsing with Con ditional Random Fields[R].Association for Computa tional Linguistics2003.

[5]John Lafferty,Andrew McCallum,and Fernando Pereira.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[R].Bib liometrics Data Bibliometrics2001.

[6]Hanna M.Wallach.Conditional Random Fields:An Intro duction[R].Technical Report MS-CIS-04-212004.

[7]D.Z.Wang,et al..Probabilistic Declarative Information Extraction[A].ICDE2010.

[8]J.Zhu,et al.2D Conditional Random Fields for Web In formation Extraction[A].ICML2005.

[9]Huanhuan Cao,et al..Context-Aware Query Classifica tion[A].SIGIR’09.

[10]Shihao Ji,et al..Global Ranking by Exploiting User Clicks[A].SIGIR’09.

时间序列数据挖掘关键问题分析 篇6

关键词:数据挖掘,时间序列,数据库

在数据库技术迅猛发展和数据库管理系统日臻完善的今天,数据库的规模与日俱增,数量不断增多,并且这些激增的数据中包含着非常重要的信息,所以传统的数据库存储和查询方法已经无法满足人们对数据中隐含知识的渴求。而时间序列数据挖掘技术则可以有效地解决上述问题,并且可以在确保数据挖掘可靠性和准确性的基础上大大降低运行成本。因此,对于时间序列数据挖掘在实践应用中的关键问题进行分析和探究具有非常重要的意义。

1 时间序列数据挖掘概述

1. 1 时间序列数据挖掘的含义

通常而言,各个数据单元均可以由一个数据变量和时间变量所组成的二元组来加以表示,比如股票价格和商品的销售金额等,所以可以将这些数据按照时间的顺序加以排列,这样就构成了所谓的时间序列数据库。在这些时间序列数据中包含着许多未知的有用信息,具有很高的挖掘价值。而时间序列数据挖掘就是从这些大型的时间序列数据库中找到人们所需要的各种有用数据。

1. 2 时间序列数据挖掘的内容

在对当前国内外就时间序列数据挖掘方面的研究进行分析,可以将其归纳为时间序列数据变换、时间序列数据可视化、时间序列数据库相似搜索、时间序列聚类分类分析、时间序列预测以及时间序列分割与模式发现等几个主要的组成部分。其中的时间序列数据变换实际上就是将原始状态下所对应的时间序列在某个特征空间下的映像时间序列来对最初的原始时间序列进行描述,其可以有效地减少计算所花费的成本,并且实际的数据压缩率更高; 时间序列数据可视化则是将那些繁杂的时间序列在数据挖掘技术、虚拟现实技术以及图形图像技术等先进技术的应用下而变得直观化、形象化,以便于人们更好地理解; 时间序列聚类和分类分析则是根据时间粒度和模式长度的不同而将待处理的序列数据进行适当的分割和聚类处理,以便于更好地进行分析; 时间序列数据库相似搜索则是遵循相应的搜索算法来对于那些相似性时间序列数据库进行搜索,以避免出现漏报问题; 时间序列分割与模式发现主要用于时间序列的分割算法应用中以及系统模型变化的检测中,其已经成为当前我国在时间序列数据挖掘研究中的重要课题,具有很高的研究价值。

2 时间序列数据挖掘中若干关键问题的分析

2. 1 传统时间序列数据挖掘的过程和分类分析

首先,从数据挖掘的过程来讲,传统时间序列数据挖掘过程可以主要分成以下几个步骤: 数据准备、数据挖掘、结果分析和知识同化。其次,从数据挖掘的分类来讲,时间序列数据挖掘的主要任务就是从庞大的数据库中找寻到用户所需的数据。根据数据挖掘作用模式的不同,可以将其分成分类模式、偏差分析和序列模式等预测性模式和关联模式、聚类模式等描述型模式,并且描述型模式一般不能直接应用于预测。而就具体的时间序列数据挖掘的分类而言,其主要包括分类模式、关联规则、聚类模式偏差分析、序列模式和回归模式等几个部分,下面就这几个部分的主要内容进行详细的阐述。

第一,序列模式。序列模式是数据挖掘中一个非常重要的研究课题,其已经广泛应用于各行各业中,比如疾病诊断、DNA序列分析、自然灾害预测、Web访问模式的预测等,并且该种模式与管理规则之间比较类似,其也是重点把握数据间的联系。但是为了发现序列模式,相关人员必须要确定事件有无发生以及事件发生的时间。比如,在购买彩色电视的人群中,有50% 的人群会选择在半年内购买影碟机。

第二,关联规则。关联规则又被称为管理模式,其实际上就是形如X→Y的逻辑关系式,并且其中的X和Y分别代表数据库中属性取值的判断。在当前的管理规则算法中,常用的关联规则算法策略是将其分解成两个主要的子任务,即频繁项集的产生和规则的产生。

第三,分类模式。分类的概念实际上就是在已有训练集或者数据集的基础上来构造一个分类模型或者分类函数,并将其应用于实际的数据预测中来确保数据的挖掘的质量。

第四,回归模式。与分类模式类似,回归模式的函数定义也是借助相应的数学集合模型来表示,但是其预测值是连续的,这点与分类模式预测值的离散性是相互区别的。

第五,偏差分析。在时间序列数据库中不可避免地会出现一些异常的记录,找出这些异常记录在确保数据挖掘质量方面具有重要的意义。偏差包含许多潜在的知识,比如分类中不规则的特例、反常实例或者偏差预测值过大的模型等。

第六,聚类模式。所谓的聚类实际上就是将一组时间序列数据按照差异性和相似性规程来进行合适的分类,以尽可能地减小同类别数据间的差异性,增强他们之间的相似性,提高数据挖掘的质量。

2. 2 传统时间序列数据挖掘的方法分析

理论上来讲,传统时间序列数据挖掘方法主要包括决策树方法、神经网络方法、粗集方法、遗传算法、模糊集方法、统计分析方法、概念树方法、可视化技术和贝叶斯网络等几种常用的数据挖掘方法。比如其中的神经网络方法具有自适应性、自组织性和鲁棒性好的优势,非常适合用于解决数据挖掘中存在的各种问题,是近些年人们关注度比较大的一种方式,并且其更加适合于当前我国市场数据库的建模与分析; 概念树方法则是对时间序列数据库中记录的属性字段按照归类的方法进行抽象所得到的层次结构,这点与我国所指定的省市县地区结构分布类似; 可视化技术则大大拓宽了我国传统图表所具有的功能,可以使人们更加清楚地剖析时间序列数据,同时也可以更好地归纳数据中存在的规律性;粗集方法则是一种研究不确定、不精确数学知识的工具,其具有操作简便、算法简单等优点,所以是当前常用的一种方法。

2. 3 传统时间序列数据挖掘的局限性

通常而言,建模是时间序列数据挖掘的前提和基础,但是所建模型大都局限于常参数、平稳的单变量CARMA模型或ARMA模型,所以实际的数据挖掘过程中可能存在一定的误差,准确性和可靠性无法得以保证。另外,其局限性还表现为以下几个方面: 建模方法所采用的非线性最小二乘法或者最大似然法的计算量非常大,并且计算的可靠性比较低;没有考虑到噪声污染所对应的时间序列,即数据的滤波问题没有得到有效地估计处理; 实际所用的分析方法主要为谱分析法( 或频域方法) 等,所以为了确保结果的可靠性和准确性,就必须要对这些局限性问题进行切实解决。而现代时间序列数据挖掘方式则可以有效地突破上述传统时间序列数据挖掘中存在的种种局限点,不仅可以简化建模及其计算的方法,也可以用新型的新息方法和状态空间方法来取代传统时间序列,还可以有效地应用自校正和自适应预测原理来分析现代时间序列,同时也可以有效地提升时间序列挖掘的质量。因此,在实际的应用中,相关人员必须要不断发展、改造和创新时间序列的分析方式和手段。

总之,随着数据收集技术和存储技术的快速发展以及数据库管理系统的日臻完善,人们所积累的数据也越来越多,同时这些与日俱增的数据背后也涵盖了大量的重要数据信息,但是传统的时间序列数据挖掘手段却无法深入分析这些数据。因此,相关人员必须要采用现代时间序列数据挖掘手段,同时要不断完善和创造新的方法,从而更好地使用当前与日倶增的时间序列数据。

参考文献

[1]刘劲松.数据挖掘中的现代时间序列分析方法[J].信息技术,2014,11(7):100-102.

[2]贾澎涛.时间序列数据挖掘综述[J].计算机应用研究,2015,24(11):15-17.

金融数据序列 篇7

网络通信时代的到来, 给人们享受便利时, 各种安全问题也渐渐暴露出来, 特别在关系数据库信息方面, 非法拷贝与恶意篡改行为屡屡发生, 给关系数据库拥有者造成巨大的损失, 同时关系数据库的版权问题也越来越值得重视。近十年兴起的关系数据库水印技术可以较好地保护数据库信息, 实现关系数据库的版权保护。

从查阅的资料来看, 国内外对关系数据库水印算法的研究已经取得很多成果。IBM Almaden研究所中心的Agrawal[1]等人提出的通过修改数值型属性的LSB来实现水印信息的嵌入, 为水印能在数据库中的嵌入指出了方法;Purdue大学的Sion[2]等人将数据库元组排序和划分集合后再嵌入水印, 该方法有较好的鲁棒性;我国的牛夏牧[3]等人提出了将有意义的水印信息嵌入到关系数据库中的算法, 便于验证版权信息;蒙应杰[4]等人提出关系数据库零水印算法, 确保了数据库的完整性。本文采用基于混沌序列的关系数据库水印算法, 利用混沌序列对版权图像进行加密和选择元组嵌入水印。Logistic混沌序列具有对初值敏感性、随机性、相关性和复杂性的特点, 用Logistic混沌序列对版权图像进行加密处理和选取嵌入元组, 可增强水印的保密性和抗攻击的能力。本文只对关系数据库水印进行研究, 文中数据库均为关系数据库。

一、混沌序列

混沌序列具有对初值的敏感性以及复杂性, 适合用于加密水印信息。本文采用Logistic映射生成混沌序列。Logistic映射为:

二、水印图像预处理

以往不少学者直接利用给出的初值得到混沌序列, 再与二值图像进行异或变换, 将得到的加密序列嵌入到数据库中。这种方法运算复杂, 特别是得到的水印数据量较大, 对数据库冗余度要求高, 实际意义不强。本文将混沌序列按照一定的顺序进行排序, 记录每个元素原来序列的编号, 形成索引集合, 按索引集合中的索引值对一维变换图像对应位置的像素进行置乱, 得到加密的水印图像信息[6]。

假设二值版权图像的大小为M×N。

I’ (i) 为得到的水印图像预处理信息。

三、数据库水印嵌入技术

鉴于大多数关系数据库是数值型, 本文讨论对关系数据库数值属性的嵌入问题。在数据库中能够嵌入水印需要一个前提:数据库中属性数据 (候选属性) 的微小变动不会影响数据库的使用, 对候选属性中数值能作微小变动的数位称为最不重要位 (least significant bit, LSB) 。数据库水印是把水印信息嵌入到特定元组的属性的LSB, 达到版权保护的目的。提取水印是需要找到嵌入水印的元组, 需要对元组进行标记, 即对每一个元组赋予一个作用类似于身份证号的标记ID[7]。本文采用单向Hash函数对元组进行标记, 单向Hash函数具有输入一定长度的消息, 能生成固定长度的Hash值, 并且正向计算容易, 反向计算则困难的特点, 增强了水印的安全性。由于数据库主键不能随便改变, 攻击者得到数据库也不会修改主键, 不然将会影响数据库的使用。所以本文以主键的Hash值对元组进行标记, 即标记, 为用户密钥。为了防止攻击者对数据库采取列攻击, 我们同样需要对候选属性进行标记, 即, 为用户所拥有的密钥, 为候选属性的取值范围由属性控制因子决定, 如果数据库属性较少则取全部属性, 否则选取个属性进行嵌入。根据数据库特点, 选取比较重要的属性, 有效避免了属性被删除带来的破坏。

选择关系数据库元组嵌入水印的传统方法是通过嵌入因子 (嵌入水印的元组占总元组数的比例) 的方式选择元组, 即判断元组标记是否被整除, 整除则嵌入水印, 否则计算下一元组[8]。此方法简单但易受到攻击。本文利用混沌序列与主键的Hash值的匹配关系选择嵌入水印的元组, 即=

混沌由初值得到。这种方法提高了水印抗攻击能力, 增强水印的鲁棒性。

设数据库关系为, 其为主键, 为第个数值属性。算法需要用到的参数及意义如表1所示。

水印嵌入算法为:

四、水印检测算法

提取水印时, 用户只需要提供哈希密钥、混沌映射密钥和水印长度等参数。对元组进行标记, 由混沌序列和提供的参数得到嵌入了水印的属性。根据水印的嵌入位利用多数选举法得到嵌入序列, 由混沌序列解预处理得到水印图像信息。由于数据库可能被攻击, 或者在没有水印的位置检测到水印, 因此检测出的水印并不是完全正确。利用多数选取法, 可以得到较准确的水印信息位, 提高了水印检测的成功率。

水印检测算法为:

五、水印攻击试验及结果

在2.0GHz CPU和2G内存运行Windows 7计算机上进行实验。实验环境为MATLAB 7.13, 版权图像采用64×64的二值图像。为不失一般性, 假设属性允许修改最多位数为3位, 即=3。实验的数据集的大小是30000, 用MD5作为单向散列函数, 分别对数据库进行子集选择攻击、子集变更和子集添加攻击。从图1可以看出, 子集修改对数据库破坏较大, 但通过此算法即使修改率达到40%, 水印仍可以提取80%。

六、结束语

本文借鉴图像数字水印技术, 设计了一种基于混沌变换的数据库水印算法。该算法利用混沌序列对版权图像加密生成水印, 以混沌序列为标准选择元组进行水印嵌入, 大大提高了水印的鲁棒性和隐蔽性。实验证明该算法具有较强的抗攻击能力。下一步针对非数值属性嵌入水印算法进行研究, 提高算法的应用范围和发展前景。

摘要:混沌序列具有对初值条件极其敏感性、混合性和扩散性等与密码学相似的特性, 为密码学的发展提供了新的思路与手段。水印作为一种新的加密方式越来越多地应用在多媒体数据和关系数据库中。将具有版权标记的图像进行混沌序列变换, 生成版权水印, 再由混沌序列选取关系数据库元组, 将水印嵌入到这些元组的候选属性中, 以实现对数据库版权信息的保护, 有效提高了抗攻击的能力。

关键词:混沌序列,水印,关系数据库

参考文献

[1]Rakesh Agrawal, Jerry Kiernan.Watermarking relational databases[C].In:Proc of the 28th VLDB conference, Hongkong, China, 2002:155-166.

[2]Sion R, Atallah M, Sunil Prabhakar.Watermarking relational databases[R].Indiana:the Center for Education and Research in Information Assurance and Security of Purdue University, 2002.

[3]牛夏牧, 赵亮, 黄文军.利用数字水印技术实现数据库的版权保护[J].电子学报, 2003, 31 (12A) :2050-2053.

[4]蒙应杰, 吴超, 张文.关系数据库零水印注册方案的研究[J].计算机工程, 2007, 33 (2) :133-135, 138.

[5]周飞, 赵怀勋.基于混沌的DCT域关系数据库水印算法[J].计算机应用研究, 2012, 29 (2) :786-788.

[6]何冰.一种基于混沌理论的数字图像置乱新算法[J].渭南师范学院学报, 2014, 29 (7) :16-19.

[7]薛媛媛.一种利用数据库字段有效位数实现的数字水印技术[J].青海大学学报 (自然科学版) , 2014, 32 (1) :1-4, 16.

上一篇:舞蹈编创教学下一篇:经济危机与技术创新