大数据交易

2024-09-03

大数据交易(精选11篇)

大数据交易 篇1

全国首个大数据交易所——贵阳大数据交易所日前正式挂牌运营并完成首批大数据交易。贵阳大数据交易所面向全国提供数据交易服务,旨在促进数据流通,规范数据交易行为,维护数据交易市场秩序,保护数据交易各方合法权益,向社会提供完善的数据交易、结算、交付、安全保障、数据资产管理和融资等综合配套服务。交易的数据是基于底层数据,通过数据的清洗、分析、建模、可视化后的结果。此次完成的首批数据交易卖方为深圳市腾讯计算机系统有限公司、广东省数字广东研究院,买方为京东云平台、中金数据系统有限公司。首批交易的完成,标志着全国首个大数据交易所正式投入运营。▲

大数据交易 篇2

大投入: 中国出版界开始争购海内外名家名社作品,打响了版权争购战、作家“转会”潮;大制作:中国出版界开始加大包装营销等制作投入,筑高市场进入门槛,形成了图书注意力大战;大产出: 中国出版界开始意识到构筑自身的核心竞争力,实现图书销售的同时更注重品牌的增值。

以习惯了计划经济和教材双重保障的中国出版社为主体打响的这三“大”战役,表明中国出版已经进入一个新的时期,原有的出版格局会在这样的背景下分化、改组。不管结局如何,可以肯定的是,中国出版业将会更加强大、自信。

大投入:积累能够开出“天文数字”的版权资源

作为一项内容产业,出版产业主要成本是版权购买。在全球化大潮袭来的今天,出版社版权交易的范围已经拓及全球。

显而易见,无论是发现培养本土作家、就近引进香港台湾地区版权,还是直接引进国外版权与世界同步,只要是那些市场前景明朗的名家名社经典之作,版权费用都维持在相对高的水平上。比较而言,版权引进作品的成本总体上大于本土原创作品。电子工业出版社世纪波公司刘露明介绍说,从国外引进版权的作品,成本主要有两项:一是翻译费,有时候翻译费数额与本土作者的稿费相当;二是版税,引进作品的版税普遍要高于本土作者,有的版权引进图书还要预付金。此外,引进图书编辑成本也比本土原创作品要高。总体来看,引进版权作品成本约为本土原创作品的两倍。在本土原创作品中,由于简繁体等文化差异,港台作品需要计算一定的改编费用。初步估算,内地本土作品、港台作品和国外作品三者的版权成本比例约为1:1.2:2。

既然版权引进成本总体高于本土作品,为什么版权引进依然成为不少出版社的集体选择,像《哈利・波特》这样海外名家、名社、名作者的作品,甚至引得国内数家大社抢、逼、围,这笔帐怎么算?

辽宁教育出版社社长俞晓群指出,国外图书市场比较成熟,引进那些经过市场检验的作品,相对而言成功的把握更大一些。也就是说,较高的版权引进成本实际买来了更高的成功系数。

清华大学出版社有选择地引进一些经典的、前沿的甚至超前的外版书,并且合作对象都是微软、剑桥、哈佛等名社。科海电子出版社负责人以电脑图书为例说,由于高端电脑类图书大多是欧美出版社先出版,因为这些技术是最先进最新的,本土作者的理解和消化需要一定的时间,短期内还形不成本土的创作力量。对这类高端电脑出版物,走版权引进的道路能够减少时间差。科学出版社一位编辑也表明了同样的观点,科学出版社版权引进最大宗的是医学和生物类教材、教辅。国外在这些领域较国内是相对领先的,并且国外教科书的编写形成了自己的特色,语言、体例都非常吸引读者。据悉,科学出版社引进版科技图书销量平均都在5000册以上。

与此同时,一些千锤百炼的作品即使版权成本高一些也是物超所值的。辽宁教育出版社引进的《国家地理摄影经典》,每张照片都可以说是千里挑一,算得上张张精品,国内不可能这样去做。据介绍,有的国外作者报酬甚至按工作小时来支付,写上三五千字,报酬高达三五千元。从这个角度来说,相对昂贵的版权引进成本买到了时间和品质,仔细算算其实并不贵。

版权成本高的不仅仅是海外作品,成功的本土原创作品,特别是名家作品,版权成本也开始爬升到接近引进图书的水平,金庸作品由三联花落别家,原因之一正是因为三联没有就金庸开出的12%的版税达成一致。而近期成功的本土原创文学作品,如余秋雨、池莉、崔永元等,他们的版税水平也并不比国外引进作品低多少,当然,最终都成为大投入-大制作-大产出的出版典范。

大投入才能积累起出版社核心竞争力,国外出版商正是把握着这类版权资源才能够从版权交易中源源不断地获取财富。据中国少年儿童出版总社海飞社长透露,当初中少社与比利时埃尔热基金会联系购买丁丁作品时,对方曾经开出一整套包括丁丁电视卡通片、形象、玩具等涉及多个产业的版权、生产权、开发权引进方案,其总金额是“天文数字”。

中国出版社现在是到了积累足以开出天文数字的版权资源的时候了。当然,并不是每一家出版社都有实力参与对这些高成本的版权项目的竞争,对不少出版社而言,是心有余而力不足。

大制作:出版中国图书“大片”

不少业内人士都认为,出版已经进入了微利时代:图书品种和数量攀升,而单种图书发行量却在萎缩,规模上不去,成本自然居高不下。如何让图书更容易地从每年十多万种的出版物中脱颖而出?在内地魔法般复制了《哈利・波特》畅销奇迹的人民文学出版社社长聂震宁说:“图书市场的创新、培育与宣传可以说是畅销书的武器。”

破局数据交易 篇3

2015年8月31日,国务院印发《促进大数据发展行动纲要》(以下简称《纲要》),明确了我国全面发展大数据应用与发展的目标与主要任务,彰显了我国加快建设数据强国的决心与思路。大数据的应用与发展已经受到国家层面及产业各界的高度重视。大数据的应用发展以体量庞大、类型丰富、来源多样的数据资源为基础,而在现阶段的实际应用中,宝贵的数据资源往往难以获取,数据资源有如一潭潭相互隔离的死水,尚未形成有效的流动互通,缺乏生机。为了促进数据资源的有效配置,打破数据的孤岛效应,将数据作为一种商品进行买卖的构想在业内被广泛提出,数据交易作为一个新兴领域,吸引了来自各界的目光。

1 数据交易开展的现状

1.1 发达国家由企业主导探索,政府侧重隐私与安全保护

欧美等发达国家在大数据的发展方面已经有了多年积累,在数据的收集整合、分析应用、开放共享方面走在世界前列,在数据交易领域也诞生了一些成功案例,如专注交通领域的数据公司Inrix将从汽车制造商、用户手机软件上收集到的数据进行加工并出售,数据提供商LOTAME可收集并出售跨终端的用户行为数据,美国企业Factual向各领域用户出售地点与位置数据等。

发达国家在政府层面主要负责政府数据的整合开放、法律法规的制定、强调信息安全与隐私保护、规范数据信息的流通,而在实际的交易方面,则以企业为主导实施。这样的模式下,数据交易的形式较为灵活,数据的整合流通更加规范,而企业也普遍选择聚焦特定领域开展数据交易,实施难度较低,但难以形成规模。

1.2 国家层面高度重视,明确提出试点交易健全体制

我国对于大数据在经济、社会层面的重要意义已经有了比较清晰、明确的认识,信息孤岛的现象也受到了高度的关注。《纲要》中明确将加快政府数据开放共享,推动资源整合作为大数据应用发展的一项主要任务。而针对数据交易,《纲要》提出了将引导培育大数据交易市场,开展面向应用的数据交易市场试点,探索开展大数据衍生产品交易,鼓励产业链各环节的市场主体进行数据交换和交易,促进数据资源流通,建立健全数据资源交易机制和定价机制,规范交易行为等一系列健全市场发展机制的思路与举措。数据交易作为一种新兴业态,在政策法规、体制机制方面还存在许多盲点与不足,整体发展还处于“摸着石头过河”的探索阶段,需要国家层面的监督与引导。国家层面的重视与支持,将对数据交易的未来发展起到重要的保障与促进作用。

1.3 多方布局试点数据交易,模式尚在探索

数据交易作为大数据产业链上的一个新兴环节,其中的商机与价值还未得到充分发掘。近年来,多方抢占先机,在数据交易领域动作频频,既有数据拥有者出售数据直接进行交易,又有一系列大数据交易平台如雨后春笋般不断涌现, 以“ 数据中间商”的角色间接试点数据交易。2014年,中关村(000931,股吧)数海大数据交易平台、北京大数据交易服务平台相继上线,北京作为全国科技创新中心率先展开数据交易实践。2015年,由贵州阳光产权交易所、九次方大数据、富士康郑州迅捷等多方联合组建的贵阳大数据交易所正式挂牌运营,并推出《2015年中国大数据交易白皮书》和《贵阳大数据交易所702公约》,首次展现了对数据交易在理论层面的阐述与研究成果。此外,数据魔方、数据堂等各类平台的出现进一步丰富了数据交易的形式与内涵。目前,我国的数据交易仍处在初期探索阶段,参与交易的数据资源存量、交易规模、涉足领域、客户数量都比较有限,成熟的模式与成功的案例较少。

2 数据交易面临三大难题

2.1 数据资源整合难

数据交易发展的一大制约因素就是数据资源的整合困难。各个领域的数据门类繁杂,来源广泛,即便聚焦特定领域,也存在数据拥有主体众多,一些参与者数据分享意愿不强、数据格式不统一等问题。作为数据交易的撮合者,数据交易平台商不仅要找到相关领域的数据拥有者,还要协调说服数据拥有者参与交易、提供数据。而随着数据的价值逐渐显现,部分数据拥有者将数据牢牢握在自己手中,缺乏流通变现的意识。此外,相关法规的缺失令数据拥有者在数据提供方面颇有顾虑, 举足不前。技术层面的问题尚好解决,但数据整合实际过程中面临的操作难、协商难等问题,才是限制数据整合的关键。数据资源若不能充分整合汇聚,数据交易就缺少必要的基础材料,数据交易作为以一种业态就无法实现持续发展。

2.2 数据资源定价难

商品交易离不开价格的评估,而数据本身的特殊属性注定其难以像其他商品一样“明码标价”。首先,数据的生成方式各不相同,数据的采集方式也多种多样,数据内蕴含的价值与数据的生成方式并无直接关联,数据的价格无法按照生产投入成本进行计算。其次,购买来的数据往往不是作为最终产品的组成部分,而是通过其他方式发挥作用,如数据使用者通过购买并分析数据改善了产品或业务流程,最终实现收入增长,但其中数据究竟起到多大作用,价值如何核算量化,从财务或技术角度都难以有明确的衡量办法,导致数据价值难以核算。

此外,数据价值几何取决于数据使用者而非数据本身,不同的数据使用者,不同的分析方法,不同的应用场景,数据所展现的商业价值也会千差万别,不存在所谓“绝对公平”的价值判定。因此,若采取价格与价值相挂钩的模式,则无法形成统一、标准的定价,数据交易双方也难以达成一致。数据的定价难,直接影响了买卖双方的交易意愿,制约了单笔交易的可复制性,限制了数据交易的大规模开展。

2.3 数据交易监管难

目前, 我国针对信息数据流通的法律法规仍处于空白状态。数据的分级标准、所属权、使用权、流通范围、流通方式等关键问题没有清晰的界定与规范,导致数据的交易无规可循,交易的监管无法可依。一方面,数据标准的缺失,特别是敏感度分级标准的缺少,导致不同敏感程度的数据信息难以区分,增加了隐私或机密信息泄露的风险,不利于数据交易的安全开展;另一方面,数据归属权、使用权、使用范围的不明确,增加了买卖双方参与交易的风险,打击了交易主体的积极性,并可能滋生出利用市场信息的不对称,将所购数据进行转售获利、恶意分发等不良现象,对正常的数据交易市场秩序形成破坏,也增加了交易监管的难度。数据交易的监管困难,为数据交易市场笼上一层阴影,没有公平、公正、阳光的市场环境,数据交易也就难以持续、健康发展。

nlc202309081641

3 数据交易破局之道

3.1 尽快制定数据相关法规标准

想要进一步推进数据交易,当务之急就是尽快制定数据质量、数据安全、数据开放共享和交易等方面的法规标准,明确数据的分级标准、归属权、使用权、使用范围等关键问题,形成完整的大数据标准体系。这不仅能够为数据交易的市场监管提供依据,也为数据交易的实施提供指导,通过营造规范、阳光的数据交易市场环境,为数据交易的参与者提供指引与保障。目前,在工信部的主导下,《大数据产业“十三五”发展规划》《大数据标准化白皮书》正在制定过程中,相关标准的出台,将对数据交易的开展起到巨大的鼓励与促进作用。

3.2 多种交易形式并用解决定价难题

目前来看, 数据的价值难以有统一的判定模型,但通过交易形式的创新,有望为数据交易双方提供更多的价格选择, 增加交易成功的可能性。数据交易平台可扮演数据价值评定者的角色,协调行业专家资源,设计定价模型, 以中立第三方的身份对数据价值进行评估, 拟定数据价格,推动交易进行。对于难以评估的数据,平台可协调撮合买卖双方进行当面谈判,或效仿股票交易,设计交易报价系统,由买卖双方分别报价,当买方报价等于或高于卖方报价时撮合成交。此外,对于大量、分散、价值不清晰的数据,交易平台可充分扮演“数据中间商”的角色,广泛购买收集各领域多渠道数据,形成海量数据资源池,再定价向需求者转售。或采取单组数据不定价,多组数据集合评估方式,对数据资源池中的数据进行整体评估,再通过收取一定“会员费”的形式,由数据需求方对平台上数据进行选择获取。交易形式的创新使得数据定价的方式更加灵活,在保证公平的同时,大幅提高效率,有助于数据交易市场的繁荣发展。

3.3 提升产业水平增强市场活力

除了法律法规的保障及交易本身产生的获利,数据交易的推进仍需要依托于大数据产业的发展。这将帮助数据买卖双方获得更多切实的利益数据,增强交易主体参与的积极性,最终提高数据交易市场的活跃程度。对于数据购买者,大数据产业的发展、分析技术的进步、应用模式的丰富使其所购数据有望挖掘出更大的价值,提高其购买数据的积极性,刺激整体市场对数据的需求。对于数据的提供者,大数据产业的发展给予了令其数据“变废为宝”的机会,也帮助其参与进入大数据产业生态,与生态内的其他参与者一起,共同发掘新的价值与商机。未来,每一个数据交易的参与者将既有购买数据的需求,也有出售数据的愿望,数据交易各个主体之间将呈现循环互动,营造健全繁荣的数据交易市场环境。数据交易市场的繁荣将助力大数据产业的腾飞,而产业的发展又将进一步推进数据交易的持续开展,实现良性循环。

作为一种新兴业态,数据交易未来的发展应当不拘一格、百花齐放。破解数据交易困局,将帮助实现对数据资源的合理、高效配置作用,真正促进大数据的应用与发展。

大数据交易 篇4

1. 研究目的

利用商品期货数据, 建立一个可实现盈利的模型, 并通过量化, 使得模型可通过程序来实现, 即能够实现自动交易。本文研究各种可行性方法来使模型具有较强适用性, 同时进一步推广, 使得模型可以用于各种投资产品, 包括股票和期货等, 最终能得到一个盈利多适用性强、抗风险能力强的金融模型。

2. 研究意义

近年来, 世界大宗商品价格波动幅度很大, 给我国期货市场带来了巨大的市场风险, 我国商品期货市场中也发生了一系列影响重大的风险事件, 这些风险事件的发生的原因主要有两个, 一方面是因为期货市场本身是一个利用小资金做大买卖的风险市场, 呈现处天然的高风险性, 期货市场“杠杆效应”十分明显, 即高风险与高收益并存。另一方面源于我国期货市场制度建设尚不完善, 盲目发展的势头与大户操纵等恶劣行为所致。这类事件的出现极大的挫伤了投资者的信心, 但这也使得我国市场存在不少的套利机。

本模型的意义在于建立起一个适应中国当前商品期货发展状况的模型, 使投资者可以大大避免投资过程中存在的非系统性风险, 从而获得利润。而且, 通过模型可避免投资者情绪影响盈利的情况, 使得投资人的行为更理性, 从而在其中获得更多利润。同时, 中国大部分投资人对于期货的了解并不深, 他们对于投资市场机会的把握能力较差, 一个比较合适的金融模型可以弥补他们专业知识上的欠缺, 从而使得投资人获利机会增加。

二、重要指标

1. MACD

(1) 简介及计算方法

MACD又称指数平滑移动平均线, 由快速移动平均线与慢速移动平均线作差求得。MACD在应用上应先行计算出快速 (一般选12日) 移动平均值与慢速 (一般选26日) 移动平均值。以这两个数值作为测量两者 (快速与慢速线) 间的"差离值"依据。即差离值 (DIF) , 用12日EMA数值减去26日EMA数值。因此, 在持续的涨势中, 12日EMA在26日EMA之上。其间的正差离值 (+DIF) 会愈来愈大。反之在跌势中, 差离值可能变负 (-DIF) , 也愈来愈大。至于行情开始回转, 正或负差离值要缩小到怎样的程度, 才真正是行情反转的信号。MACD的反转信号界定为"差离值"的9日移动平均值 (9日EMA) 。在MACD的指数平滑移动平均线计算公式中, 都分别加T+1交易日的份量权值, 以现在流行的参数12和26为例, 其公式如下:

12日EMA的计算:EMA12=昨日EMA12 X 11/13+今日收盘价X 2/13

26日EMA的计算:EMA26=昨日EMA26 X 25/27+今日收盘价X 2/27

差离值 (DIF) 的计算:DIF=EMA12-EMA26

根据离差值计算其9日的EMA, 即离差平均值, 是所求的MACD值。

九日DIF平均值 (DEA) =最近9日的DIF之和/9

(2) 判别方法

当MACD由负转正, 表示买入信号;当MACD由正转负, 表示卖出信号。MACD变化幅度较大时, 表示市场存在大趋势转变。

(3) 指标存在的问题

①MACD属于中长线指标, 因而买入、卖出信号点与最低价、最高价间的价差比较大。当行情变化幅度过小时, 按照MACD指示买入后随即又卖出, 期间利润空间较少, 同时手续费的成本也较高。

②由于MACD的移动速度较慢, 当遇到短时间内的较大涨幅时, MACD无法作出及时的反应。而在进行行情比较时需要考虑时间差, 因此一旦出现行情有较大幅度的波动, MACD不能立刻产生信号。

2. KDJ

(1) 简介及计算方法

KDJ指标又称随机指标, 以特定周期内的最高价、最低价、最后一个计算周期的收盘价及这三者之间的比例关系为基础, 计算最后一个计算周期的未成熟随机值RSV, 同时根据平滑移动平均线的方法来计算K、D与J的数值, 并生成图像来判断股票走势。K、D、J的数值计算过程中首先计算周期的RSV值, 再计算K、D、J值。以日K、D、J数值的计算为例, 其计算公式为:

(n日)

公式中, 为第n日收盘价;为n日内最低价;为n日内最高价。

当日K值=2/3×前一日K值+1/3×当日

当日D值=2/3×前一日D值+1/3×当日K值

当日J值=3×当日K值-2×当日D值

(2) 判别方法

①K与D值永远介于0到100之间。D大于70时, 行情呈现超买现象。D小于30时, 行情呈现超卖现象。

②K大于D时, 显示趋势是向上涨, 因此K线突破D线时, 为买进信号。当D值大于K值时, 趋势下跌, K线跌破D线时为卖出信号。

③KD指标不仅能反映出市场的超买超卖程度, 还能通过交叉突破发出买卖信号。

(3) 指标存在的问题

3. RSI

(1) 简介及计算方法

相对强弱指数是基于一定时期内上涨、下跌幅度之和的比率而产生的一种技术曲线, 与市场在该段时期内是否景气有密切关系, 其计算公式如下:

RSI=n日收盘价涨数平均值÷ (n日收盘价涨数平均值+n日收盘价跌数平均值) ×100

(2) 判别方法

①股市经历一轮下跌后, RSI从高位跌至30以下, 若由低位向上突破60, 则表明多头力量重占上锋;

②股市经历一轮上涨后, RSI从低位涨至80以上, 若由高位向下跌破40, 则表明空头力量重占上锋;

③盘整时RSI值在40~60之间, 若市场走强, RSI值高于80;反之, 市场不景气时, RSI值低于20。

(3) 指标存在的问题

①发生单边行情时, RSI在高位或低位时出现钝化, 导致过早的卖出或买入;

②RSI的买入、卖出信号无明显规则, 当处于高位时, 仅能说明行情很有可能反转, 但无法明确其时点;

③超买、超卖容易导致RSI钝化, 进而容易发出错误的操作信号。

4. OBV

(1) 简介及计算方法

OBV通过统计成交量变动的趋势来推测股价趋势, 以某日为基期, 逐日累计每日上市股票总成交量。

(2) 判别方法

①当股价上升而OBV下降时, 是卖出的信号;

②股价下降时而OBV线上升, 表示股价可能将止跌回升;

③OBV缓慢上升, 而股价也同时上涨, 为买入信号;

④OBV急速上升, 应在高位卖出;

⑤OBV缓慢下降而股价也同时下跌时, 应卖出或持币观望;

⑥OBV急速下跌, 应持币观望;

⑦OBV的值由正转负时, 是卖出信号, 反之为买入信号。

(3) 指标存在的问题

①OBV指标基于国外成熟市场上的经验总结, 而在中国不一定能完全适应。

②涨跌停板的限制会导致OBV失真。

5. BIAS

(1) 简介及计算方法

乖离率主要用来预警金价的暴涨和暴跌引发的行情逆转, 即当金价在上方远离移动平均线时, 就可以卖出;当金价在下方远离移动平均线时, 就可以买进。其计算公式如下:

BIAS= (收盘价-收盘价的N日简单平均) /收盘价的N日简单平均×100

(2) 判别方法

①BIAS指标表示收盘价与移动平均线之间的差距。当股价的正乖离扩大到一定极限时, 表示短期获利越大, 则获利回吐的可能性越高;当股价的负乖离扩大到一定极限时, 则空头回补的可能性越高

②乖离率包含正、负值, 若股价比平均线高, 判定为正值;若股价比平均线低, 则判定为负值;若股价等于平均线, 则值为零。若乖离率为正, 其值越大, 短期超买则越大, 从而增大见顶的机率;若乖离率为负, 其值越大, 短期超卖的可能性越越大, 进而增大了见底的机率。

③在多头行情中, 会出现许多高价, 过早卖出会错失一段行情, 可于先前高价的正乖离率点卖出;在空头市场时, 亦会使负乖离率加大, 可于先前低价的负乖离点买进。

(3) 指标存在的问题

买卖信号过于频繁, 波动频繁, 稳定性差。

三、模型建立与求解

1. 构建五个指标的指标线

模型的目的是盈利, 即低买高卖, 因此关键是判断价位高低的时机判断, 本文将量化出可以判断高低价的公式, 通过技术分析并选出上述5个指标建立信号灯来判断价位的高低, 使得模型更有推广性。

结合大连a9888.csv数据, 得到了收盘价和所有的指标, 作图如下:

由上图可得, 收盘价的波动较频繁, 而每个指标的波动也很频繁。因此需结合收盘价进行分析, 得到较好的结果。

2. 运用信号灯进行操作判断

通过上述5个指标得到5对信号灯, 其中有5个买入信号灯和5个卖出信号灯, 根据所给的信号灯, 我们得到信号指标判断最终的结果, 通过上述所给信号指标, 通过MATLAB进行实现, 得到最终的结果如下图所示:

由上图可得, 交易较为频繁, 由于模型适用于短期交易, 可估算5-20天的高低价位, 直接导致交易次数的增多。其次, 通过收益曲线的分析可得收益率维持在较高水平, 而且大致上是一条上升的曲线, 证明了模型的可盈利性。同时, 最大回撤率总体小于23%, 而大部分是小于10%, 说明模型带来了较小的投资风险。

四、结果分析和模型检验

1. 上期zn888数据测试结果

上文已运用模型对大连a9888.csv数据进行分析并得到满意的结果, 为了检验模型的通用性, 本文运用上期zn888.csv数据和郑州TA888.csv数据对模型进行检验。上期zn888.csv数据检验结果如下图所示:

2. 郑州TA888数据测试结果

显然, 模型可保证较高的收益率, 唯一的不足就是最大回撤会比较大, 即风险相对较大, 而郑州TA888.csv数据检验结果如下图所示:

从上图可得, 通过模型运算得到的结果具有较高的收益率, 风险较小, 因此模型具有较强的实用性和推广性。

摘要:本文围绕商品期货交易的问题建立盈利的量化交易模型, 通过对主要的技术指标进行分析, 并设计指标算法的实现, 最后利用MATLAB实现了对问题的求解。

关键词:量化,技术指标,信号指示灯

参考文献

[1]邓留保, 李柏年, 杨桂元.Matlab与金融模型分析[M].合肥:合肥工业大学出版社, 2007.

[2]顾京.中国股指期货市场功能实证研究与优化对策[D].上海:华东师范大学, 2013.

[3]郭苗苗.中国股指期货市场与股票市场周期互动关系的谱分析[D].上海:华东师范大学, 2012.

欧洲大交易 篇5

欧洲正在遭遇的经济衰退,对中国的资本来说是否意味着新的海外投资时间窗口打开?此前,面对来自东方的中国,欧洲一直在徘徊犹疑,文化的冲突、游戏规则的碰撞,令部分国家对中国投资者心存芥蒂。

而今,一些微妙的变化开始发生:中国人手上有欧洲渴望的资金,欧洲市场有中国企业期待的技术、经验。不断的接触、碰撞中,双方开始学会用更理性的方式来把握共赢的机会。三峡集团收购葡萄牙电力(EDP)公司21.35%股份,潍柴集团并购意大利法拉帝集团,都被双方看作双赢的典范。

然而,对于真正有心进行海外收购的中国企业而言,当下却可能更需要眼光、谨慎和耐心。收购只是第一步,以后的经营和运作更为重要。在利用欧债危机所创造的投资机遇时也不能忽视所面临的障碍和风险。

更重要的是,经历了多年的高增长之后,在当前形势下,中国企业更需要适度抑制过于激进的投资冲动,以免因现金流量和资产负债结构恶化等原因而遭遇倾覆风险。

无论如何,随着更多的中资企业陆续“落子”欧洲,也许在未来的某一天,当欧债危机阴云消散之后,人们会突然发现,欧洲与中国两大经济体之间将呈现与今日完全不同的联系。

网络交易数据挖掘分析系统设计 篇6

1 设计构思

1.1 网络数据挖掘技术

数据挖掘是在海量数据中发现隐含的数据规则, 网络数据挖掘是将网络资源中的数据根据数据内容、数据结构和日志信息进行数据挖掘。根据网络数据内容进行数据挖掘是将网页页面内容中包含的数据信息进行采集、分析和处理, 在网页数据中有文档形式的数据信息, 也有图像、音频、视频等形式的数据信息, 因此, 在进行网页数据采集时, 可根据数据形式的不同进行分类采集, 对于文档形式的数据信息可直接利用信息采集技术进行采集, 对于图像、音频、视频等形式的数据信息采用数据库技术, 将采集到的信息转化为结构化数据再进行数据挖掘。根据网络数据结构进行数据挖掘是对不同结构的网页、站点等进行结构分析, 找出数据规则,发现有价值的网页页面。根据网络日志信息进行数据挖掘是对用户访问网络所产生的访问日志信息进行挖掘, 这些信息包括用户的登录信息、注册信息、回话信息、Cookie等, 该挖掘方法可对用户的网络使用习惯、偏好等进行分析, 便于针对用户制定个性化服务。

1.2 系统功能分析

在此设计的网络交易数据挖掘分析系统主要包括3大功能, 即: 数据采集功能、数据分析功能和系统管理功能, 数据采集功能可对网络交易中的交易平台信息、行业信息、商品信息、销量信息、 交易记录等进行采集, 数据分析功能可对网络交易中的商品评价、商品查询记录、交易双方的基本信息、网络销售记录等进行分析, 系统管理功能是对系统的用户、功能、系统模块等进行管理, 同时可对系统的工作流程进行分析、定义和管理。

1.3 爬虫技术

爬虫技术是根据既定规则对网络中的数据进行采集, 爬虫技术的应用流程是: 首先, 对初始的网页进行采集和分析,在海量的网络数据中, 将符合既定规则的数据抽取出来, 直到符合抽取条件采集终止。根据爬虫技术的体系结构和技术类型大体可分为通用型网络爬虫技术、聚焦型网络爬虫技术、增量式爬虫技术、深层网络爬虫技术。 通用型网络爬虫技术立足于整个网络, 其采集类型广泛, 抓取内容全面, 但是其不适用于随机变换网页内容的网页进行采集, 聚焦型网络爬虫技术是根据既定好的采集主题进行专向采集, 该种方式节省采集时间, 适用于特定需求的采集, 增量式网络爬虫技术是在通用型网络爬虫技术的基础上增加随机性网页内容采集,深层网络爬虫技术是对深层网页进行数据采集, 此采集方式可对普通采集技术难以采集到的内容进行挖掘。

2 系统设计

2.1 系统结构

系统采用B/S三层结构进行设计, 分为应用层、业务层和数据层。用户层提供用户友好界面, 通过Web浏览器直接访问系统平台, 调用数据库数据, 系统层次结构设计如图1所示。

用户通过应用层进行数据的输入与输出, 业务层是数据挖掘系统各项功能的实现层, 其通过模块的方式实现应用层与数据层之间的衔接, 数据层进行数据存储。

2.2 系统模块

网络交易数据挖掘系统模块主要分为数据采集模块和数据分析模块。数据采集模块首先对网络交易涉及的网页进行一个模拟浏览器的操作, 然后通过给定的URL来分析网页的结构, 对于普通页面 , 采用基本 的Http Client方式获取 , 特殊页面要进一步地进行判定, 是否为动态加载页面或者是需要进一步地交互获得数据的页面。对于动态二次加载信息的页面, 针对Java Script, Htmlunit提供了Web Client.get Options() .set Java Script Enabled() 方法来对Java Script脚本进行 解析。针对Ajax, 也提供了Web Client.set Ajax Controller() 方法对Ajax进行支持。因此, 对于动态二次加载信息的页面, Htmlunit可以直接对其进行解析。一些网站需要提交表单才能获取到网页信息, 而一些网站则需要登录等行为才能查看页面获取数据信息, 对于这两种页面, 在数据采集的过程中需要向服务器提交数据进行交互性的操作。对于这两种情况, 一般采用Http的GET方法 , 通过提交自定义的URL字符串进入登录状态, 但是对于带有验证码的等高级验证方式的Web网页则很难处理。Htmlunit可以很好的处理这类问题, 他通过模拟登录, 可以较为容易地获得这种需要交互才能获得网页信息的页面。

分析模块是对采集模块所采集到的数据进行分析, 系统用户在浏览器页面输入信息, JSP页面通过Request/Response响应, 首先对配置文件进行查询, 并依据配置文件的内容调用控制层的Command类, Command类则调用与数据库直接交互的类DAO, 通过对数据库的查询, 将查询到的内容依次通过DAO层返还给Command层, 下一步将内容返回到浏览器,这样用户就可以查看到所查询的信息。

2.3 数据库

网络交易数据挖掘系统数据库设计需具有良好的可用性和可靠性, 数据库可分为数据采集数据库、数据分析数据库和数据管理数据库。数据采集数据库中存放网络交易对象的基本信息、网络销售总额、 网络商品交易信息等, 数据分析数据库中存放行业信息、商品类别信息、品牌信息等, 数据管理数据库中包括用户姓名、职务、联系方式、访问日志等。

数据库的查询过程可以分成3个阶段: SQL语法语义的分析, Execute查询, 数据的提取。对于数据量较大的表来说,加快搜索与查询的效率则比较重要。首先, 合理地创建和使用数据库索引, 对于数据库中的表来说, 索引是必不可少的,同时索引的添加方式也深深地影响这数据的查询速度。合理的索引创建方式应该具有以下的特点: 主键与外键必须创建索引; 经常以其他表连接的表需创建索引; 对经常查询且重复值比较高的字段建立复合索引; 索引数量不宜太多。其次,对经常查询的数据建立视图, 对于经常使用而且不会对其进行插入和删除的数据, 建立视图, 从视图中查询频繁使用的数据, 减少了查询的复杂度, 查询效率较高。第三, 对于复杂的查询使用存储过程, 对于复杂的查询过程, 多个表相互连接并且设计多重循环的查询, 查询效率低, 可以使用存储过程减少其时间复杂度, 加快查询的速度。

3 系统实现

3.1 网络交易数据采集

网络交易数据采集可分别对网络店铺信息采集、商品信息采集、交易记录采集、行业信息采集等。 网络交易数据采集实现步骤主要包括对网页结构及内容分析, 找出可行的采集规则, 一般采集网店基本信息、商品列表URL、交易记录等内容。

3.2 网络交易数据分析

在对网络交易数据分析中, 商品推荐功能是对已经采集出来的商品, 根据某一准评价标准, 得出其受欢迎程度, 并将受欢迎的产品推荐给用户的过程。商品推荐可以说是网上交易的数据挖掘系统中对用户最为重要的功能之一, 在这里用户可以获得第一手的受欢迎商品的具体情况, 并结合自身的需要, 选购适合自己的商品。网上交易的数据挖掘和数据分析系统的分析模块实现的另外一种比较重要的功能是商品的查询, 为了适应不同的查询条件, 我们根据用户大部分的使用习惯, 采用了商品名称查询和网店名称查询两种 方式。由于用户的需求不同, 我们可以根据查询条件来进行商品的选择。一种方法是采用输入商品名称的方法, 将输入的商品名称与后台数据库中的商品进行对比, 做一个模糊的查询操作, 点击查询后, 查询出所需要的商品; 另一种方式为按照店铺查询, 当用户对某一个店铺特别感兴趣时, 可以对该店铺进行一个单独的查询, 在文本框内输入要查询的网店名称,系统自动与数据库中的数据进行匹配, 检索出采集到的该网店的所有商品信息, 并用Grid视图的方式呈现给用户。

3.3 网络交易数据挖掘

网上交易的数据挖掘分析系统中的交易数据挖掘主要针对的是网上商品的销售趋势进行挖掘和分析, 其采用一个折线图的形式表达, 它是对以往采集的数据信息做的一个汇总分析。对于用户来说, 对某一个商品的销售趋势的了解, 可以让他们对网上交易进行一个基本的了解, 获得一个准确的评价。显然, 对于销售额持续上升而且销售量巨大的 商品 ,用户对其的信誉评价更高。网上交易的数据挖掘分析系统就是针对用户的这种消费心里, 为用户提供查询商品网上交易趋势的功能, 用户在文本框中输入要查询的商品名称, 点击查询, 则下面的折线图显示的是自该系统开始运行时起, 每隔30天的月销售总额变化趋势。

4 结语

网络交易数据挖掘系统对于消费趋向、消费水平、产品市场、消费人群等具有良好的调查于分析能力, 本文所设计的系统选择网络爬虫技术对网络交易数据进行采集, 建立数据采集模块、数据分析模块, 通过B/S层级架构实现系统功能, 为广大企业经营者、金融机构、数据分析机构等提供网(下转第58页)络交易数据挖掘的精准服务

摘要:信息技术发展使人们的生活进入了数据时代,电子商务是近几年迅速发展的新型贸易和经济活动的方式,并逐渐在各行各业中渗透,网络交易越来越频繁,由此形成了海量的交易数据。通过对网络交易数据的挖掘分析可以获得重要的市场信息,帮助企业制定销售计划。设计一套网络交易数据挖掘分析系统,采用B/S三层架构模式,设计数据采集、数据分析模块,实现依据用户需求进行数据采集、分析和挖掘。

基于数据挖掘的异常交易检测方法 篇7

电子商务的蓬勃发展离不开互联网技术的进步,而在众多的互联网技术中,网上支付技术又成为了支撑电子商务的关键技术。2006年,网上支付在我国所有的电子支付交易中所占比例为96%[1]。随着智能终端的普及和运营商网络设施的完善,移动支付作为一种新兴的网上支付方式也有了一定的发展。可以预见,技术的完善和人们消费模式的转变会使得网上支付越来越普及。

另一方面,网上支付所带来的便利性和信用卡用户的不断增加,也为犯罪分子进行金融欺诈等犯罪提供了更多的机会[3]。由于网上支付使得用户的敏感信息越来越多地在公用的互联网上传输和存储,用户账户信息的机密性面临更大的威胁。如2005年美国信用卡信息泄露事件中,约4000万用户账户信息被盗;而2011年索尼PlayStation Network遭受攻击,涉及大约7700万用户隐私泄露,其中有些PSN账号还绑定了信用卡信息。这些因素结合在一起就构成了巨大的金融风险,需要银行等金融机构采取一定的措施来予以控制。

异常交易大致可以分为两类:一类是不满足交易系统对于正常交易的流程、格式等规定的交易,比如重复交易或者被篡改的交易;另一类是满足系统对于正常交易的规定,但其本质具有一定的欺诈特性,比如攻击者利用盗取的合法用户信息进行的交易,或者合法用户进行的恶意透支行为等。

一般来说,根据一个支付系统具体的实现机制,其自身具有能力检测第一种异常交易,并阻止这种交易的执行。第二种异常交易由于其流程和提供的认证信息一般都符合支付系统的规定,因此支付系统自身难以对这类异常交易进行检测。而允许第二种异常交易的执行无疑会给用户和金融机构带来巨大的风险,因此就需要额外的机制来对这种异常交易进行检测。下文中我们所描述的异常交易也主要针对这一类交易。

1 异常交易检测技术

异常交易检测通常基于以下两个假设:一是异常交易与正常交易存在较大的差别;另一个是异常交易在所有交易中所占的比例很小。按照检测原理的不同,异常交易检测技术主要包括:基于统计的方法、基于偏差的方法、基于距离的方法和基于密度的方法。

基于统计的方法首先用某个分布(如正态分布、泊松分布等)对数据点进行建模,然后用不一致检验确定异常。这种方法的局限性在于现实中的数据分布往往不符合任何一种已知的理想分布;另外大多数测试都是针对单个属性的,对于多维数据中的异常检测效果并不理想。

基于偏差的方法通过对一组对象特征进行检查来识别异常数据,与给出的描述偏离的对象就被定义为异常。采用这种方法的技术主要是序列异常技术,模仿人类的思维模式,从一组连续序列中发现与大多数数据不同的元素。

基于距离的方法将孤立的(没有足够多邻居)数据作为异常,比如文献[2]中的Knorr算法规定,与点p的距离小于d的点的个数不超过k,则p是相对于dk的异常。基于距离的方法只能检测出全局的异常数据,不适合具有多种密度的数据集,因此不能很好地检测出局部的异常。

基于密度的方法引入了局部异常因子LOF(Local Outlier Factor)的概念,度量一个对象关于周围邻居的异常程度,能够检测出局部异常的数据。

2 基于数据挖掘的异常交易检测方法

2.1 设计原理

我们认为一个正常用户的消费行为以及操作行为在一段较长的时间内会维持某种固定的特征,而恶意用户,比如窃取了他人信用卡信息的攻击者,一般需要在尽可能短的时间内充分利用非法获取的信息来谋求利益,因此无论在业务层面还是操作层面都会与正常用户的行为存在较大的差异。我们的方法就是结合了业务和操作这两个层面检测消费交易中的异常,以期在提高检测准确率的同时降低对正常交易的误报。

用户的消费行为会受到其工作种类、收入情况、消费习惯、生活环境等因素的影响,呈现出某种模式,虽然由于突发事件或者习惯的改变会出现一定的波动,但是总体来说不会是一种随机的行为[3]。比如,一个中低收入的用户的消费行为可能大多发生在每个月的最后一个星期(可能由于工资发放或者定期的房租等因素),而每笔的交易金额也可能比较小,在这种情况下,如果该用户的账户在一个月的中旬连续出现大额交易就可以被认为是一种异常。

此外,每个人在进行消费时,也会保持一定的操作习惯。比如某些人习惯在消费之前或者之后进行余额查询的操作,某些人在进行消费之前可能会再次确认商品信息等,或者某些用户在使用信用卡消费后会马上进行相应的还款操作等。另外,操作行为还能在一定程度上用来检测交易流程是否符合系统规定,比如在一个支付系统中用户需要向商户请求订单后才会提交支付请求,因此对于用户操作记录的检查就能判断是否符合系统的规定。最后,操作行为检测还能发现某些已知的异常行为,这些异常的行为很少会出现在正常用户的操作记录中,比如连续的登录操作可能代表了口令猜测的攻击。

2.2 设计架构

我们提出的方法对于异常交易的检测主要是通过将当前交易与用户以往交易记录的对比而进行的,主要思路是通过用户当前提交的消费交易以及其近期的操作记录来综合判断用户的交易是否出现了异常。这个方法主要包括两个阶段:部署和检测。部署阶段主要是对用户以往交易和操作情况的分析,以及分类器的学习等过程;而检测阶段则是当检测到一笔消费交易后,启动分类器和序列比对器对该交易进行异常检测的过程,该部分最后会分别给出当前交易在业务层面和操作层面的可信因子,并综合这两个因素判断交易是否出现了异常。我们选择消费交易来触发异常检测功能主要是因为消费交易是一个用户涉及到资金流动的交易中最频繁的交易,相对于其他交易而言也更加重要,而如果对于所有的交易都进行异常检测无疑会导致整个支付系统性能的降低。

在业务层面的异常检测中,我们采用了贝叶斯信念网络BBN(Bayesian Belief Network)来对当前交易进行分类,对于某个用户的每一笔交易,我们选取交易时间、交易位置、交易金额以及商户类型作为特征向量。另外为了便于实现,我们还采用了k-means算法对交易位置和交易金额的取值进行了离散化。在部署阶段,假定数据库中已经保存了每个用户正常的消费交易记录和常见的异常消费交易记录,我们提取每一个用户的消费交易记录以及异常交易记录构建贝叶斯信念网络并对网络进行训练;在检测阶段,当前消费交易的用户ID以及交易的特征值作为输入提交给BBN分类器,分类器根据用户ID查找到相应的网络结构并对当前交易进行分类,最终BBN分类器得到当前交易属于正常交易的概率,这个概率即为当前用户业务层面的可信因子TS。当TS低于某个阈值时,我们就认为当前交易在业务层面出现了异常。

在操作层面的异常检测中,我们采用了BLAST-SSAHA算法,将用户当前的消费操作,以及之前的N-1次操作构造成一个长度为N的操作序列,并将这个序列作为BLAST-SSAHA算法的查询序列,与数据库中用户以往的正常操作序列进行比对,再与数据库中已知异常操作序列进行比对,判断其与这些序列的相似度。为了简便,每一次操作仅由其操作类型代表。最终BLAST-SSAHA算法得到查询序列与正常序列和异常序列的相似度,这两个相似度的差即为当前用户在操作层面的可信因子OS。当OS低于某一阈值时,就认为检测到一段异常操作,该用户在操作层面出现了异常。

最终一笔交易是否异常需要综合考虑TSOS来决定,以上算法及其实现细节我们会在下文中详细介绍。图1展示了我们异常交易检测方法的架构图。

3 业务层面的异常检测

3.1 k-means聚类算法

在我们提出的方法中,k-means算法用来将每笔交易中交易位置和交易金额的取值离散化,以便于贝叶斯信念网络分类器使用。

k-means算法可以根据数据集中样本之间的距离将所有样本划分成k个分类,k的值由用户事先指定。该算法的核心思想是使得所有分类中的点到所属分类中心点的距离之和最小。设p表示某个分类中的一个点,Ci表示第i个分类,mi表示Ci的中心点,函数D(p,m_i)表示点p与点mi之间的距离,这个距离通常使用欧氏距离来计算。则k-means算法将找到一种划分方式,使得平方误差E最小:

E=∑i=1kpciD(p,mi)2 (1)

算法开始时随机选取k个点分别作为每个分类的中心点,然后开始迭代,每一次迭代由以下两步组成:

① 对每个非中心点进行聚类,每个点将被划分到与其距离最近的中心点所代表的分类中。

② 对分好的k个分类重新计算中心点,一般采用计算平均值的方法,选取与平均值距离最近的点作为新的中心点。

当在一次迭代中没有任何一个非中心点所属的分类发生改变,或者达到了预先设定的次数,迭代过程结束。这时,数据集就被划分成了k个分类。

3.2 贝叶斯信念网络分类器

在我们提出的方法中,BBN算法被用来对用户当前消费交易进行分类,计算其属于正常交易的后验概率。

BBN分类算法的原理是在给定一个观测值后,计算当前样本在该观测值的条件下属于每一个分类的后验概率,并选择得到最大后验概率的类别作为当前样本的分类结果,可以看作是对朴素贝叶斯分类算法的改进。

设一个样本S可以由〈F,C〉表示,其中F是一个由n个随机变量构成的特征向量(F1,F2,…,Fn),C是S所属的类别,这样一个样本就可以表示成一个n+1维的向量。一个样本的观测值,就是特征向量F的取值。那么,在出现某一观测值(f1,f2,…,fn)的条件下,当前样本属于分类ci的概率为:

P(C=ci|F1=f1,F2=f2,…,Fn=fn) (2)

对于每种分类,分别计算上述概率,使得结果最大的分类就作为当前样本的分类。而根据贝叶斯定理:

Ρ(C=ci|F1=f1,F2=f2,,Fn=fn)=Ρ(F1=f1,F2=f2,,Fn=fnC=ci)Ρ(F1=f1,F2=f2,,Fn=fn)=Ρ(F1=f1,F2=f2,,Fn=fn|C=ci)Ρ(C=ci)Ρ(F1=f1,F2=f2,,Fn=fn)(3)

在式(3)中,P(F1=f1,F2=f2,…,Fn=fn)是一个常量,因此问题就转化为找出使得P(F1=f1,F2=f2,…,Fn=fn|C=ci)P(C=ci)最大化的ci。其中P(C=ci)可以用训练数据集中属于ci的样本出现的频率来表示,而对于P(F1=f1,F2=f2,…,Fn=fn|C=ci)的计算,朴素贝叶斯算法假定所有特征之间相互独立,因此:

Ρ(F1=f1,F2=f2,,Fn=fn|C=ci)=Πt=1nΡ(Ft=ft|C=ci)(4)

P(Ft=ft|C=ci)可以事先由训练数据集中统计得出,这虽然简化了计算,但是所有特征之间相互独立的假设太强,现实情况中很难满足,因此无法体现出各个特征之间的依赖关系。

贝叶斯信念网络利用随机变量的条件独立性对朴素贝叶斯算法进行了改进。给定三个随机变量X,YZ,当XYZ满足以下等式时,就称XY关于Z条件独立:

P(X|Y,Z)=P(X|Z) (5)

贝叶斯信念网络由两部分组成,第一部分是一个有向无环图G(V,E),其中G的每个点代表特征向量中的一个随机变量;一条从点X到点Y的边表示Y的取值依赖于X,且X称为Y的父节点,Y的所有父节点构成的集合记为parent(Y)。BBN假定每个随机变量在给定了所有父节点后条件独立于其他节点。另一部分是每个随机变量的条件概率表CPT(Conditional Probability Table),CPT给出了相应随机变量关于其所有父节点的条件概率,对于没有父节点的变量,条件概率就退化为先验概率。给定了BBN的网络结构和相应的CPT,则任意一个样本出现的概率可以表示为:

Ρ(F1=f1,F2=f2,,Fn=fn,C=ci)=Ρ(ci|parent(C))Πt=1nΡ(ft|parent(Ft))(6)

这样,对于BBN分类器,能使得以下后验概率最大的分类就是当前样本的分类:

Ρ(C=ci|F1=f1,F2=f2,,Fn=fn)=Ρ(C=ci|parent(C))Πt=1nΡ(Ft=ft|parent(Ft))Ρ(F1=f1,F2=f2,,Fn=fn)(7)

也就是找到使得P(C=ci|parent(C))Πt=1nP(Ft=ft|parent(Ft))最大的ci即可,其中每个随机变量的条件概率可通过查询相应的CPT得到。

通过训练数据构造一个贝叶斯信念网络主要包含两个步骤,一是确定网络结构,也就是各个随机变量之间的依赖关系;二是计算每个随机变量的CPT。网络结构可以由经验给出,也可以通过一定的算法来确定;当不存在隐藏变量的时候,CPT的值可以通过统计训练数据中相应样本出现的频率得到,当存在隐藏变量时,CPT的值可以通过梯度训练或者EM等算法得到。在我们设计的检测方法中,我们假设训练数据中不存在缺失数据,因此CPT的计算就较为简单了,下面我们着重介绍如何确定BBN的网络结构。

确定BBN网络结构可以利用依赖性分析或者全局最优等算法进行,比如文献[4]中提出的STAGE算法就是一种全局最优的算法。在我们的实现中,我们将使用文献[5]中描述的依赖性分析算法来确定BBN网络的结构。

我们使用该算法的简化版本来计算BBN网络的结构:假定所有随机变量的顺序已经确定。所谓随机变量的顺序就是这样一个序列,在这个序列中较晚出现的变量不能先于其之前的变量发生,也不能是其之前变量发生的原因。这个序列是由经验知识给出的。

下面给出几个关键的定义。

定义1 通路 在不考虑有向无环图中各边方向的情况下,如果两个节点之间存在一条连通的路径,就称该路径为这两个节点之间的一条通路。

定义2 碰撞点 在一条通路上,如果有两条边的方向指向同一个节点,则该节点就称为对于该通路的碰撞点。一个节点对于一条通路可能是碰撞点,而对于另一条通路可能是非碰撞点。

定义3 开放通路 当一条通路上不存在碰撞点,就称之为开放通路。

定义4 d分隔 给定有向无环图G中的两个点X,Y,以及一个不包含XY的点集C;如果XY之间不存在这样一条通路P,使得P上所有的碰撞点或者碰撞点的子节点都在C中,而P上其他节点都不在C中,则称给定C,XYG中是d分隔的,C称为一个割集。反之,则称XYd连通的。

定义5 互信息 两个随机变量XY的互信息I(X,Y)反映出一个随机变量能提供的关于另一个随机变量的信息,即两个变量的依赖程度,可由以下公式得到:

Ι(X,Y)=x,yΡ(x,y)logΡ(x,y)Ρ(x)Ρ(y)(8)

定义6 给定点集C,随机变量XY的条件互信息I(X,Y|C)定义为:

Ι(X,Y|C)=x,y,cΡ(x,y,c)logΡ(x,y|c)Ρ(x|c)Ρ(y|c)(9)

I(X,Y|C)小于某一阈值,就可以认为XY关于C条件独立。

给定训练数据集以及特征向量中各随机变量的顺序,依赖性分析算法通过以下三个步骤来确定BBN网络的结构:

① 初始状态下,G(V,E)中仅包含了代表各随机变量的点,E为空集。对任意两个不相同的随机变量XY,计算其互信息I(X,Y),记录所有互信息超过给定阈值ε的随机变量对,并按照其互信息从大到小进行排序,排好序的随机变量对被保存在链表L中。遍历链表L,先从中取出第一对随机变量,在E中添加一条相应的边连接这两个变量,边的方向则由变量的顺序决定,从先出现的变量指向后出现的变量,然后在L中删除该变量对。继续从L中取出下一对随机变量,如果当前这对随机变量之间不存在一条开放通路,则在它们之间添加一条相应的边,并从L中删除这对变量。如此直到遍历完L中所有的随机变量对。这一步结束以后,相对于实际情况而言,G中可能存在缺失的边,也可能存在多余的边,即可能两个相互依赖的变量之间没有边,也可能两个条件独立的变量之间出现了一条边。

② 从头开始遍历L中剩下的变量对,对于每一对随机变量,在当前的G中寻找其最小割集,并计算这对随机变量在给定割集下的条件互信息。如果这两个随机变量关于给定的割集条件独立,则继续遍历L中的下一对变量,否则,在E中添加一条连接这两个变量的边。如此直到遍历完L中所有的随机变量对。这一步结束以后,G中不存在缺失的边,但仍有可能存在多余的边。

③ 对于E中的每一条边e,如果e连接的两个节点除了e之外还有其他的通路,则暂时从E中将e删除,并在G中寻找这两个节点的一个最小割集,如果这两个节点关于割集条件独立,则将e永久删除,否则,将e重新添加到E中。

至此,贝叶斯信念网络的结构就已经确定。关于此算法的证明过程比较复杂,而且超出了本文的讨论范围,因此在这里就不再介绍了。当得出了BBN的网络结构后,每个随机变量的父节点就已经确定,之后就可以通过训练数据计算每个节点的CPT。完成CPT的计算后,我们就得到了一个训练好的BBN分类器。

3.3 特征选取

假定支付系统的数据库中保存了每个用户的消费交易记录,以及常见的异常消费交易记录。对于每条消费记录,我们选取以下四个特征来构成特征向量:

1) 交易时间 当前消费交易的提交时间。

2) 交易位置 提交当前消费交易时用户所在的位置。

3) 交易金额 当前消费涉及的金额。

4) 商户类型 当前消费涉及的商户类型。

这样,一笔消费交易就由一个特征向量和一个分类标签构成的5维向量表示。下面我们解释一下选择这些特征的依据。

首先,由于每个用户消费习惯的不同,交易时间与相应的交易金额会呈现特定的模式[6];而当给定交易时间,交易位置的取值也会存在一定的规律,比如对于一个在异地上学的学生来说,寒暑假时间的交易通常会在家中进行,而其余时间的交易大多应该在学校所在城市进行。随着移动支付技术的发展与普及,交易位置的获取会更加精确,比如移动支付系统的客户端可以通过GPS或基站定位的方式,获取用户在进行交易时所处的位置。而且对于移动支付交易来说,交易位置信息也更加能体现用户的消费习惯,比如移动支付的用户可能会更多的选择在没有计算机或者有线网络的地方使用移动支付系统。同时,交易金额对于反映一个用户的消费习惯也非常重要,因为交易金额一般会受到用户收入、消费理念等因素的影响,而这些因素一般不会轻易改变。比如对于信用卡用户来说,信用额度会被限制在一定的范围内,而且正常用户平时的交易金额一般都会远小于自己总的额度。最后,用户对于品牌的偏好、消费习惯的不同以及生活环境的限制等因素也在一定程度上决定了用户对于商户的选择。比如电子商务还不普及的地区的用户一般会选择与实体卖家进行交易等。此外,给定了交易所涉及的商户,交易金额也会有一定的规律可循,比如销售数码产品的商户与销售食品的商户所涉及的交易金额一般会有较大的不同。综上所述,我们选取了这四个特征,以期较为完整地体现用户的消费习惯。下面介绍一下每个特征的取值。

对于交易时间,为了全面体现用户的习惯,我们将取值范围设定在一年以内,同时为了缩小向量空间和提高算法的效率,我们将交易时间的具体取值进行划分,每个交易时间由三个部分组成。首先是其所在的季度,在我们的方法中一年被平均划分为4个季度;其次是其所在月份的星期编号,我们把一个月划分为4个星期,每个月从1号到21号按照每周7天划分为3个星期,而从22号开始均算作第4个星期;最后是所在日期的属性,每个日期有工作日和周末2种可能的属性。这样交易时间随机变量就一共有4×4×2=32种可能的取值。

对于交易位置,如果是移动支付系统,那么系统可以获取用户比较精确的地理位置;而如果是传统的网上支付系统,则可以用IP地址所属区域等信息表示。我们选取一个参照位置,交易位置的取值用发生消费的地点与参照位置的距离来表示。根据不同的支付系统对于用户位置信息的掌握程度,这个参照位置可能是用户的居住地点、手机号码的归属城市,或者用户常住城市等。对于每个用户的训练数据集,我们使用k-means算法将发生消费的位置与参照位置的距离离散化为4个可能的等级:Local、Near、Remote以及Global,以此作为交易位置的取值。

对于交易金额,与交易位置类似的,对于每个用户的训练数据集,我们同样使用k-means算法将其离散化为3个等级:Low、Medium以及High,以此作为交易金额的取值。

对于商户类型这个特征,主要希望通过它来反映用户当前购买的商品类别。这里不能直接使用商品类别,因为在很多支付系统中,订单信息并不包含商品的详情,即系统可能并不知道用户所买的商品是什么。但要完成支付,支付系统必须了解所涉及的商户编号或者名称等。因此就可以通过商户类型反映商品的种类。在异常交易检测时,将商户划分为:生活品、电器、娱乐、出行、混杂这5种类型。

3.4 部署阶段

在部署阶段,读取数据库中用户的消费记录和常见异常交易记录来构建贝叶斯信念网络。将用户已有的消费记录标记为正常,而将常见的异常交易记录标记为异常。对于每个用户,k-means算法被用来将交易位置和交易金额的取值离散化。

如前文所述,构造BBN网络包括确定网络结构和计算每个变量的CPT。由于网络结构反映的是各随机变量之间的依赖关系,因此为了便于实现,假定对于所有用户的消费交易,其各个随机变量的依赖关系是相同的。这样,我们的依赖性分析算法只要运行一次,针对所有消费交易记录构造一个统一的网络结构就可以了。比如,根据经验知识给定以下的随机变量顺序:分类、交易时间、交易位置、商户类别、交易金额,图2表示了一种可能的依赖关系。

在确定了网络结构以后,就可以分别为每个用户计算各个随机变量的CPT,完成之后,就为每个用户建好了一个结构相同、而CPT的值反映了其自身消费习惯的贝叶斯信念网络。

3.5 检测阶段

当检测到一笔消费交易,就提取该交易的用户ID以及特征向量提交给BBN分类器,分类器根据用户ID查询相应的CPT,并计算当前交易属于正常交易的后验概率。这个后验概率即为该交易业务层面可信因子TS,若TS小于某一阈值,则标记当前交易在业务层面出现异常。

4 操作层面的异常检测

4.1 BLAST-SSAHA算法

操作层面的异常检测我们以用户近期的操作序列作为查询序列,与数据库中保存的该用户正常操作序列记录进行比对,再与常见的异常操作序列进行比对,如果查询序列与正常序列相似度较小而与异常序列相似度较高,就可以认为查询序列出现了异常。可以看出,通过增加查询序列与异常操作序列的比对,降低了由于突发事件或者用户操作模式短时间内改变引起的误报。

使用文献[7]中提出的BLAST-SSAHA算法(或称之为BLAH算法)做序列比对,该算法是BLAST[8]和SSAHA[9]算法的结合。下面给出几个关键的定义。

定义7 k元组 给定一个长度为n的序列S=〈s1,s2,…,sn〉,S中任意连续的k个元素构成S的一个k元组。则S中k元组的个数为n-k+1,每个元组被赋予一定的权重。

定义8 元组偏移 在序列S中,某个k元组开始的位置称为元组偏移。

定义9 序列基数 序列S中每个位置可能的取值个数称为S的序列基数。

用从0到Sequence Base-1的整数来表示S中所有可能出现的元素,若序列基数为ω,一个k元组〈t1,t2,…,tk〉的权重W记为:

W=i=1kω(k-1)×ti(10)

假定数据库D中有若干个序列,SSAHA算法将每一个长度为n的序列划分成n-k+1个k元组,并在内存中生成一张k元组表KT。KT中的每一条记录对应D中的一个k元组,并由以下元素组成:<元组权重,所在序列编号,元组偏移>。其中元组权重用来在KT上建立一个聚类索引,由W的计算可知,对于给定的kω,一共有ωk种权重,每种权重对应一种k元组。而通过所在序列编号和元组偏移就可以确定当前的k元组在D中的位置。

得到KT之后,对于一个查询序列,我们现在就可以通过BLAST算法将其与D中的序列进行比对了。具体过程为:

① 将查询序列也划分为若干个k元组。

② 依次将查询序列中的k元组与KT进行比较,若KT中也存在一个相同的k元组,则称为发生了一次命中,记录下该k元组在D中的位置,即其所在序列编号和元组偏移。若某个k元组在KT中不存在,则称为发生了一次偏离。

③ 利用②中的记录,将D中的序列按照其包含查询序列不同k元组的个数进行排序,可以看出,包含查询序列中不同k元组越多的序列,与查询序列的相似程度就越大。

通过一定的阈值,在D中选取前n个与查询序列最相似的序列。将查询序列与D中序列发生命中的片段双向扩展,进一步比较查询序列与该序列的相似程度,并最终确定与查询序列最为相似的序列。

4.2 序列构成

理论上,用户每一次操作的多种属性都可以用来构成一条序列,并反映出用户的某种固定习惯,比如消费交易中的交易时间、交易金额等。但由于我们在业务层面的异常交易检测中已经对这些主要的属性进行了分析,也为了便于实现,因此在这里只使用用户操作的类型来构成我们的操作序列。

如我们之前所分析的,用户的操作序列记录可以反映出其特有的使用习惯,而且可以用来判断是否出现了某些已知的异常操作以及是否满足系统对于交易流程的规定。根据一个支付系统实现方式、以及所提供的功能的不同,一个用户可以执行的操作可能有不同的类别。如比较常见的有:登录、余额查询、消费、转账、还款等等。因此在我们的方法中不需要对用户可能的操作类别事先进行限定,只要针对需要保护的支付系统进行一定的配置就可以了。

4.3 部署阶段

假设数据库中已经保存了每个用户正常的操作序列的记录,而且保存了已知异常操作序列的记录。对于每个用户的操作序列,可以按照时间划分成多个子序列,比如每条序列代表了用户在一个月内的操作记录。而对于已知异常操作序列,则可以按照异常的不同类型划分成多个子序列。

在部署阶段,我们使用SSAHA算法为异常操作序列构建k元组表AKT,并为每个用户分别构造k元组表NKT。对于k的选择,由于我们的方法主要是针对消费交易进行异常检测,因此k至少应该等于用户完成一次消费交易所需的操作次数。

4.4 检测阶段

在检测阶段,当用户提交一笔消费交易后,我们提取用户ID,并在数据库中查询其之前的N-1次操作,连同当前的消费操作,组成一个长度为N的查询序列,将该查询序列以及用户ID一起作为输入提交给BLAST算法。BLAST算法根据用户ID查找相应的NKT,并与查询序列进行比对。在此,我们对BLAST算法进行一定的简化。定义出现一次命中的得分为δ,出现一次偏离的得分为γ。假定查询序列中出现了L次命中,那么其与用户正常操作序列的相似度HS为:

HS=L×δ-(N-Lγ (11)

然后,我们将查询序列中出现偏离的片段按顺序组合成一条偏离序列,其长度为N-L。将偏离序列与AKT进行比对,假设在比对过程中出现了M次命中,那么类似的,可以得到偏离序列与异常操作序列的相似度DS为:

DS=M×δ-(N-L-Mγ (12)

最终,通过计算HS-DS得到操作层面的可信因子OS。当OS低于某一阈值时,就表示用户在操作层面出现了异常。

5 最终判断

根据TSOS来综合判断当前交易的异常情况,表1列出了我们的判断方法。

首先值得注意的是,业务层面的异常检测是针对当前单笔交易的,而操作层面的异常检测会涉及多次的操作,因此操作层面的异常与当前交易是否异常可能相关也可能不相关。下面简要说明一下我们最终判断异常交易的依据。

对于业务层面和操作层面都正常或者都异常的情况的处理比较简单,只需将相应的交易标记为正常或异常即可。对于业务层面异常但操作层面正常的交易,通过TS+OS的值来决定交易是否异常。这样做的依据是,当一笔交易在业务层面异常时,其TS值较小,但如果当前操作序列与正常操作序列非常吻合(OS较大),那么当前交易很可能是由于用户遇到突发事件或者消费习惯短期改变导致的,这时该交易仍然可能被归为正常交易。可以看出这种方法减小了检测方法的误报率。

对于业务层面正常但操作层面异常的交易,我们认为需要额外的人工审计来决定是否为异常交易。因为导致操作序列异常的操作可能与本次交易相关,也可能与本次交易无关。如果与本次交易相关,则应该认为本次交易异常;否则,就应该认为本次交易正常,但检测到了其他的异常情况。可以看出这种方法减小了检测方法的漏报率。

6 结 语

本文中,我们提出了一种用于银行等金融机构的异常交易检测方法。我们的方法主要针对用户的消费交易进行异常检测,并通过数据挖掘在业务层面和操作层面分别对当前交易进行分析,最终综合考虑业务层面和操作层面的分析结果来决定当前交易是否出现了异常。通过我们的分析可以看出,结合两个层面的分析方法能够更加全面的发现支付系统中的异常情况,有利于降低检测的误报率和漏报率,提高对于异常交易检测的准确性。

在后续的工作中,我们将研究在训练数据集中存在一定异常交易情况下的检测方法,这种训练数据不纯净的情况在现实中经常出现。此外,我们还将研究在没有标准的异常交易记录的情况下,如何对异常交易进行检测。这种情况可能是因为某些异常交易并没有固定的模式,或者标准异常交易记录并不适合与所有用户的正常交易记录一起作为训练集对分类器进行训练。

参考文献

[1] Zhang Yifei. Research on Online Payment Pattern and Security Strategy of E-commerce[J].IEEE Internet Technology and Applications,2010.

[2] Knorr E M, NG R T. Algorithms for Mining Distance-based Outliers in Large Datasets[C]//Proceedings of 24th International Conference on Very Large Data Bases, 1998.

[3]Sherly K K,Nedunchezhian R.BOAT Adaptive Credit Card Fraud De-tection System[C]//IEEE International Conference on ComputationalIntelligence and Computing Research,2010.

[4]Boyan J A.Learning Evaluation Functions for Global Optimization andBoolean Satisfiability[C]//The Association for the Advancement of Ar-tificial Intelligence,1998.

[5]Cheng Jie,David Bell,Liu Weiru.Learning Bayesian Networks fromData:An Efficient Approach Based on Information Theory[C]//Pro-ceedings of ACM CIKM,1997.

[6]Wheat R,Morrison D G.Estimating Purchase Regularity with Two In-terpurchase Times[J].Marketing Research,1990,27(1):87-93.

[7] Amlan Kundu, Suvasini Panigrahi, Shamik Sural, et al. Majumdar. BLAST-SSAHA Hybridization for Credit Card Fraud Detection[J].IEEE Transactions on Dependable and Secure Computing,2009,6(4).

[8] Altschul S F, Gish W, Miller W, et al. Basic local alignment search tool[J].Mol. Biol,1990,215:403-410.

大数据交易 篇8

1 数据交换模式的优势与缺点

1.1 数据交换模式的优点显而易见

1.1.1 沟通迅捷, 时间成本很低

利用数据交换模式进行交易的双方借助网络或者手机等无线通讯工具, 几乎可以在同一时间的不同地点同时获取资讯, 并进行相互间点对点的信息交流, 从而大大提高了沟通的效率, 在这一点上传统交易模式存在明显劣势。由于在时间成本上节约了大量资源, 从而可以使交易双方将更多的精力放在生产和创新方面, 间接提高了全社会的生产效率。

1.1.2 技术依赖成本趋于低廉

以数据交换模式进行商业运作的交易主体, 其主要的交易成本是网络费和通讯费, 而根据目前各国发展的实际来看, 这两项费用都呈现下降趋势。尽管我国目前的资费水平相对发达国家而言是比较高的, 但是伴随技术的更新换代、国家反垄断执法的深入实施以及普通民众的权利保护意识的增强, 这些资费水平将会进入一个快速下降的通道, 这无疑会大大节省交易成本, 从而间接提高交易效率。

1.2 数据交换模式的缺点分析

1.2.1 亲和力较差

作为一种信息的载体, 无论是网络还是通信, 在技术上都表现为一种特殊的数据语言, 即不同于我们所看到的和读得懂的语言, 因而使交易表面上看上去变得更为复杂和模糊。由于技术本身的专业特点和相当“难度”, 使得有关此类交易的民众亲和力大大下降, 因而人们会比较排斥或者不信任此类交易, 再加上市场主体本身对自己所不熟悉的事务通常会选择避而远之, 结果自然是导致人们放弃此种方式的交易, 转而选择传统的交易模式。

1.2.2 对第三方依赖性大

一般的交易只需要双方之间直接达成交易即可, 并不需要借助第三方的力量, 但是在数据交易模式中, 第三方是不可或缺的, 即交易双方必须借助于第三方提供的设备以及服务支持方能实现交易, 因而使交易双方对该交易的实际控制力较传统交易模式有所下降。

1.2.3 证据的留存难度加大

由于在电子数据传输背景下会遇到很多意外情况, 比如断电、浸水、技术操作失误以及病毒攻击等等, 这些情形都将导致传输数据的丢失或者被恶意串改, 因而使得交易双方无法获取甚至保存对自己有利的证据资料, 从而使交易行为所产生的实际效力变得不够确定, 大大增加了交易风险。

此外还有诸如交易人本身的诚信状况如何考量、协议达成后的附加服务如何实现等等问题, 这些都在一定程度上阻碍着我国电子商务的发展速度。虽然以数据交换方式进行商业运作的模式并不是完美无暇的, 但是综合来看, 我仍然认为数据交换模式具有市场经济所应具有的最根本的特点, 是目前我们能预见到的最有效率的商业运作模式。

2 我国电子商务交易发展的现状及其问题

2.1 制度建设严重滞后于实际发展速度

根据我国公布的已知的数据, 截至2009年4月我国的网名数量已经达到3.16亿, 仍然保持全球网民人数最多的国家位置。且拥有6.7亿移动用户, 其中有1.176亿手机上网网民, 增长率达133%。仅2008年电子商务市场规模已经达到3万亿元人民币。[1]如此庞大的网民数量所蕴含的网络商机和潜在的交易需求和供给冲动, 已经远远超越了现实生活。而有关网络安全和网络交易的立法却寥寥无几, 没有实质性的立法出台, 这在一定程度上加剧了网络环境的恶化, 并使人们对网络交易的安全性更加表示怀疑。

2.2 网络安全是制约电子商务发展的瓶颈

根据2009年5月, 《中国经营报》和数字100市场研究公司所做的调查显示, 阻碍电子商务发展的前三位因素分别是:网上交易的安全问题 (60.7%) , 网络信用问题 (51.4%) , 电子合同的法律问题 (46.9%) 。[2]有鉴于此, 尽管各大交易网站一直强调自身平台的交易安全, 但仍然无法保证交易环境的优化, 显然目前的网络环境和通讯环境的真实状况距离人们心里理想的安全标准可能还相差很远。

2.3 现行制度缺乏可操作性

目前我国已经有了诸如2004年颁布的《中华人民共和国电子签名法》、2005年国务院颁布的《国务院办公厅关于加快电子商务发展的若干意见》 (国办发[2005]2号) 、《国务院关于促进流通业发展的若干意见》 (国发[2005]19号) 、2007年颁布的《国家发展改革委、国务院信息办关于印发电子商务发展“十一五”规划的通知》 (发改高技[2007]1194号) 、《商务部关于促进电子商务规范发展的意见》 (商改发[2007]490号) 等一系列规范性文件, 为我国电子商务的发展奠定了一定的政策基础和制度基础, 但是基于操作层面的立法仍然没有任何进展, 既有的法律制度体系都是针对传统的纸质化交易进行制度设计的, 有些规定完全无法适用于网络环境, 因此, 当务之急是要制定切实适合网络环境下商业交易活动的规则。

3 推广数据交易模式的制度建构

3.1 明确方向, 效率第一, 安全第二

有关安全与效率的关系一直是我国改革发展中时时考虑的问题, 放在本议题下, 我认为应当优先考虑效率原则。作为一种促进流转的手段, 电子数据模式比传统交易模式所花费的时间成本大幅降低, 特别是对于在空间上距离很远的交易双方而言, 这种价值是无法被其他手段超越和替代的, 而这也使潜在的交易对象和交易范围变得更广泛, 大大促进了商业活动的活力。因此, 无论怎样都应当优先发展电子商务, 引导人们选择此种交易模式进行相应的商事行为无疑是正确的。

3.2 政府牵头, 以身作则

电子数据业务模式要成为主流交易模式, 仅仅依靠民众和几个中间服务提供商的力量恐怕是远远不够的。因为这种交易模式需要借助相当的技术和设备, 需要有一个技术支持空间, 比如它有可能需要借助卫星通信技术、需要铺设光纤电缆、需要设置地面接收服务器等等, 这些投入都是非常大的, 因而如果政府在这一领域表现消极或者干脆不作为, 则根本不可能实现推广应用。另一方面, 如何运用和使用这些技术, 比如计算机的应用、网络的使用、手机的操作等等, 尽管对于很多年轻人来说这根本不是问题, 其本身技术难度也不大, 但是对于年龄在40岁以上、居住地点相对固定, 特别是占我国人口绝大多数的普通农民来说, 仍然需要政府给予一定的培训和教育, 否则是无法普及相应技术的。因此, 作为政府应当积极地履行相应的资金投入和教育培训义务, 从而为推广科技的应用扫清障碍。

3.3 建立专业服务机构, 专事中间服务

目前我国的电子数据业务发展的主要目标是提供一个信息资讯的交流平台, 网络服务提供商的盈利模式是依靠点击率的多少获取商业广告利益, 而通信技术服务提供商则是通过收取通信费来赚取利润。在趋利原则的指引下, 中间商对于信息的真实性和合法性缺乏必要的审核和关注, 因而才会出现网络色情服务、虚假欺骗网站以及信息冲突矛盾等问题屡禁不止的现象。所以, 我认为只有将中间业务独立出来, 由专业机构负责, 才能从根本上解决上述问题。只有有人愿意对所提供的信息的真实性负责, 并切实的承担起法律上的义务, 才能真正打消人们对数据交易模式的疑虑, 进而选择此种方式进行交易。而阿里巴巴之所以成功的原因, 就是因为它们提供了安全的服务中介职能, 承担起了中间人的安全保证责任。

目前我国中间业务的发展模式主要呈现两种:一是以行业为基本区分, 采取自营方式, 比如我们前面提到淘宝网、还有电信运营商以及银行都是采用此种方式。2008年2月国家在湖南启动移动电子商务试点示范工程, 明确试点业务主要包括移动交易、移动农业电子商务、移动公共交通缴费和移动公用事业缴费, 预计该工程中国移动将会投入108亿元。[3]此外, 目前文化娱乐业已有浙江泛亚、上海朵云轩、杭州草根三家电子商务有限公司获准开展互联网上的音乐美术娱乐产品的经营活动等。[4]另一种方式是以具有政府依托背景的独立第三方的方式进行运营, 如中国国际电子商务中心, 目前它正在向区域化发展推进, 并取得了一定的成效。以福建为例, 2008年5月, 我国福建建立了首个地区电子商务交易平台, [5]根据报道, 自2009年以来, 企业通过该平台发布产品信息7556条, 同比增长29.7%;平台共审核贸易机会信息10409条, 同比增长43.9%;平台会员推送贸易机会信息48612条, 同比增长267.4%;平台会员提供10543家采购商信息, 同比增长208%;平台日均上线企业2395家, 同比增长531.9%;国外日均访问量5.63万次, 同比增长157.1%。[6]这些数据都显示出有更多的企业正在选择电子数据交易模式进行交易, 电子商务的交易优势正在逐渐显现。

4 遏制垄断, 提升民众的参与度

尽管我国已经颁布了反垄断法, 但是有关反垄断法的适用案例屈指可数, 然而面对我国这样一个特殊的经济类型, 反垄断法的价值是绝不能被低估的。从现有的电子数据业务的发展来看, 在通信技术领域和网络服务提供领域都存在趋于集中的特点, 如果把潜在的并购意愿考虑进来的话, 各类服务的提供商会更加集中, 其发展路径会不断趋近垄断, 这对于需要借助此项中间服务方能完成交易的双方当事人而言无疑是危险的, 他们有可能因此被“挟持”从而丧失选择权。因此, 从制度建构的一开始, 就应当允许民众参与“游戏规则”的制定, 以确保经营者不会滥用优势地位侵害当事人的合法权益。比如有关电信资费的收取标准、网络包月的资费标准等都或多或少存在着垄断的情况, 普通民众往往没有选择权。

另一方面, 我们还必须警惕另一种类型的垄断即行政垄断, 由于我国特殊的经济类型, 决定了我国大中型企业或者说国有企业和政府在本质上具有同一性, 即两者实际上是利益共同体。因而从某种角度上说政府在处理上述业务时并不是中立的, 而政府依据法律却拥有绝对的行政执行强制力, 这也就意味着一旦政府成为上述企业的代言人, 则相对交易方将完全丧失自主权, 处在任人宰割的境地。因此, 这种来自与政府结合的力量所带来的危险远比企业自身所形成的垄断更加可怕, 更加让人无法接受。因此, 我们除了要对企业自身形成的垄断行为加以规制意外, 对于可能存在的行政垄断行为更要予以关注, 并应当借助制度的建构防止此类垄断的出现, 最大限度的保护市场经济主体的合法权益, 保护交易利益。

5 加强立法, 完善制度, 明晰权责

从既有的制度来看, 与数据交换模式有关的制度涉及物权法、合同法、证据法、诉讼法、知识产权法等内容, 其制度建构相对比较复杂, 是一个系统工程。有鉴于此, 进行电子商务立法的时候必须依循电子数据交易的基本技术特点进行有针对性的立法才能真正解决问题, 不能希求用已有的制度去解决所有发生在网络虚拟世界中的行为。围绕电子商务的安全、信用和合同等问题, 笔者提出以下基本建议。

(1) 尽快颁布网上交易管理办法, 特别是对参与各方的权利义务边界作出明确的指引。

(2) 尽快颁布网上商业数据保护办法, 明确数据来源、流转以及消失的各个环节, 参与各方的基本权利义务。尤其是对前述我们提到的诸如黑客攻击、技术失误、断电、浸水等原因导致的数据灭失和更改, 应当由谁来承担责任, 以及承担何种责任进行明确的约定。对于网络电子数据的保存期限、保存方式等都应当有别于现行民法的规定, 选择更适合为网络交易的规则。

(3) 完善电子合同的相关立法, 对电子合同的形式、效力、违约责任、证明责任等作出明确的规范。督促建立独立第三方的证明机构, 以确保交易双方均可以获得公平的保护。

(4) 建立和完善全体公民、法人以及经济组织的征信制度, 以间接提高网络交易参与主体的责任意识, 并建立起相应的惩戒机制。

(5) 完善电子数据交易的保证制度建构, 比如网上银行的建立和维护, 有数据显示当前国内有近一亿网民使用过网上银行专业版, 占我国网民总数的33.4%;[7]再如网上个人信息和交易信息的保密制度、网上信息征信系统的建立和制度完善、网络信息传输服务标准及其责任界定等等。

6 完善与电子商务推广和发展紧密相连的税收制度, 关键是税收优惠制度

尽管目前各界普遍认为电子数据交易模式的应用, 使得税务机关无法真实了解商户信息, 因而导致税收收入的实质减少, 且对于采用传统交易模式进行商业运营的企业来说存在明显的税负不公。笔者认为出于优先发展电子商务交易模式的要求, 政府首先应当制定针对电子商务的税收激励措施, 而不是选择严苛课税措施, 因为对于处在起步期的电子商务来讲还十分脆弱, 并没有实现规模化运营, 因此扶住和鼓励才是首要任务。而税务主管机关应当致力于电子数据交易模式下税收制度设计的研究, 即如何确定虚拟交易环境下交易主体的真实身份, 如何核定具体的税基, 如何选择征税环节以及税种和税率等问题。就目前我个人的意见来看, 通过独立第三方进行交易的课税行为是比较好追踪税源并加以管理的。但是对于大量的以个人名义进行的相互交易行为, 往往不容易被跟踪, 而且容易被规避, 所以, 我认为针对此类交易行为, 应考虑借助现有的个人所得税法, 将其全部纳入个人所得税进行管理, 规定来自电子数据交易所获得利益作为个人所得范围, 并结合实名注册制度和个人财产申报制度, 共同实现规制。由于其对收入来源不作性质上的区分, 而使核定课税行为相对容易, 从社会总收入与实际税负的角度讲, 纳税人和国家都能够有效地履行自己的义务和职责, 而执行成本缺相对低廉, 不失为一种更优的选择。

电子商务的发展在目前的金融危机下显示出极大的优势, 因此, 近几年将会是电子商务蓬勃发展的重要机遇期, 加快推进制度建设、强化政府和企业资金的投入, 建立和培养一批高端人才将是眼下最重要的工作。

参考文献

[1]奚国华.中国网民数量达到3.16亿[EB/OL].网易科技, http://tech.163.com/09/0418/09/57626KA4000915BF.html, 2009-04-18.

[2]电子商务立法呼声渐高国家层面破题临近[EB/OL].自中国经营报, http://tech.qq.com/a/20090607/000031.htm.

[3]国家移动电子商务试点示范工程在湖南启动[EB/OL].中国网http://www.china.com.cn/economic/txt/2008-02/23/content_10531149.htm, 2008-02-23.

[4]自北大法律信息网[EB/OL].http://vip.chinalawinfo.com/NewLaw2002/chl/index.asp.

[5]福建开通国内首个区域性电子商务平台[EB/OL].新华网, http://ciecc.ec.com.cn/article/ecmeitibd/200805/616640_1.html, 2008-05-27.

[6]轻点鼠标接订单, 电子商务成我省企业应对危机有效手段[N].福建日报, 2009-04-13.

大数据交易 篇9

随着数据库技术的迅速发展以及数据库管理系统的广泛应用, 人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息, 人们希望能够对其进行更高层次的分析, 以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能, 但无法发现数据中存在的关系和规则, 无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段, 导致了“数据爆炸但知识贫乏”的现象。

网上银行作为银行功能的网上实现, 必然接受大量的用户数据, 比如用户的登录信息、用户的各类帐户信息以及转帐信息、等等。如何有效地利用这些信息来促进银行的发展或者发现异常, 是一个很重要的问题。数据挖掘满足了银行的这一需求。

2. 数据挖掘

2.1 概念

简单地说, 数据挖掘是从大量数据中提取或“挖掘”有价值的知识。更详细的定义是:数据挖掘是从数据库中抽取隐含的、以前未知的、具有潜在应用价值的信息的过程。也有一些文献把数据挖掘 (data m i n i n g) 称为知识抽取 (k n o w l e d g e extraction) , 数据考古学 (data archeology) , 数据捕捞 (data dredging) 等等[1]。

数据挖掘与传统数据分析工具的主要区别在于它们探索数据关系时所使用的方法不同, 传统数据分析工具使用基于验证的方法, 即用户首先对特定的数据关系作出假设, 然后使用分析工具来确认或否定这些假设。这种方法的有效性受到许多因素的限制, 如提出的问题和预先假设是否合适等。与分析工具相反, 数据挖掘使用基于发现的方法, 运用模式匹配和其他算法决定数据之间的重要联系。

2.2 数据挖掘的分类

数据挖掘是一个交叉学科领域, 受多个学科影响, 包括数据库系统、统计学、机器学习、可视化和信息、科学。此外, 依赖于所用的数据挖掘方法, 以及可以使用的其他学科的技术, 如神经网络、模糊和粗糙集理论、知识表示、归纳逻辑程序设计或高性能计算。根据不同的标准, 数据挖掘系统可以分类如下:

(1) 根据挖掘的数据库类型分类:如果根据数据模型分类, 可以有关系的、事务的、面向对象的、对象一关系的或数据仓库的数据挖掘系统。若根据所处理的数据类型分类, 有空间的、时间序列的、文本的或多媒体的数据挖掘系统。

(2) 根据挖掘的知识类型分类:即根据挖掘的功能, 如特征化、区分、关联、分类聚类、孤立点分析和演变分析、类似性分析等分类。

(3) 根据所用的技术分类;如根据分析方法分为采用面向数据库或数据仓库的技术、机器学习、统计学、可视化、模式识别、神经网络等技术的不同分类。

(4) 根据应用分类:如有些挖掘系统特别适合金融、电信、股票市场、e-mail, 等等。

3. BIRCH算法的优化

BIRCH算法[2]正是分析数据库中海量数据的一种有效方法。针对Birch算法在聚类精度和效率方面存在的不足, 在原有算法的基础上进行了改进, 提出了可变多阈值聚类特征树方法, 实现了基于该方法的聚类分析器。

Birch算法充分考虑到数据分布的不均衡性, 利用簇对数据对象进行分划, 并且使用聚类特征对簇进行描述, 将对数据对象的聚类转变为对簇的聚类, 从而大大减少了聚类算法的空间复杂度和时间复杂度。但是Birch算法在聚类过程中忽略了簇与簇之间的关联性, 即忽略了有可能存在的簇与簇之间体积的不一致性。另外这种方法只能对近似球形的簇进行聚类, 而无法对任意形状的簇进行聚类。

为了弥补原B i r c h算法中存在的缺陷, 这里提出了多阈值B i r c h算法。原Birch算法中对体积相差较大的簇的聚类结果较差, 主要包括两个方面:一方面Birch算法只考虑到簇内各数据对象之间的关系, 为叶子节点中的簇设定统一阈值, 在数据对象插入时, 根据数据对象与簇之间的距离而决定数据对象的插入位置, 这种方式具有极大的局限性, 它忽略了簇与簇之间的关系;另一方面, 原算法在对节点进行分裂时, 首先在要划分的节点中选取两个距离最远的聚类特征, 然后其他聚类特征按照与两个聚类特征之间的距离分别划分到两个节点当中, 完成分裂。该方式虽然能够依照簇之间的最大差异将节点划分开来, 但往往会造成处于该节点中心部位部分聚类特征划分到不同的节点当中, 减弱了聚类特征的代表性[3]。

综合考虑数据对象与簇的中心点的距离和簇的阈值, 作者提出针对多阈值Birch聚类算法的插入算法和分裂算法:

插入算法:将聚类特征CF插入到聚类特征树CF-tree中:

(1) 初始化根结点为插入结点。

(2) 确定CF的插入位置

(i) 当插入结点类型为非叶子结点时, 循环:

如果CF与插入结点包含的各Entry中的CF之间的距离小于相应Entry的阈值, 分别转入该Entry对应的子结点;否则, 转入与CF距离最近的Entry的子结点;

(ii) 当插入结点类型为叶子结点时:

如果CF与插入结点包含的各Entry中的CF之间的距离小于相应Entry的阈值, 选择阈值T最小的Entry, 采用合并算法将CF与该Entry的CF合并, 这时称CF被某结点吸收;否则, 称CF无法被结点吸收。

(3) 修改聚类特征树。的程序框架为:

viceProvider objRSA

)

技术应用的不断深入, 信中的密钥分配、安输及电子商务系统中发挥越来越重要的作

如果插入的CF被某结点的Entry吸收, 自下而上修改相应结点中E n t r y的CF;如果CF无法被结点吸收, 新建Entry并赋值为C F, 按B+树的插入算法将该Entry插入到原树中距离CF最近的Entry后, 并相应修改聚类特证树的结构。

分裂算法:假定结点中包含N个Entry, 插入无法被Entry吸收的CF:

(1) 将CF作为一个Entry, 计算N+1个Entry的中心点;

(2) 根据各Entry距该中心点的距离对N+1个Entry进行排序。

选择分割因子P%, 即N+1个Entry中的P0, b个Entry作为新结点, 与新结点距离最远的Entry作为另一个结点, 剩余结点根据与两结点的距离依次插入, 最终将N十1个Entry分化为两个结点, 并向树的根结点传递修改的聚类特证信息。

4. 结论

对个人网上银行数据仓库的数据处理中使用了Birch算法。Birch算法充分考虑到数据分布的不均衡性, 利用簇对数据对象进行划分, 将对数据对象的聚类转变为对簇的聚类, 给出了Birch算法的改进算法, 并将其应用在个人网上银行数据仓库的数据处理中, 论证了其在处理海量数据时显著的优越性。

参考文献

[1]伍军, 齐亚莉.网络银行与传统很行的比较研究[[J]财经论丛.2004, (25) .3

[2]龚明华.金融信息化、电子支付及网络银行[J]北京中国人民大学学报.2004, 45-48

大蓝筹频现溢价交易 篇10

大宗交易市场上,五一节前一周和节后一周,即4月28日-5月8日,7个交易日里沪深两市共计发生大宗交易164笔,其中深市成交123笔,沪市仅成交41笔,总成交量4.36亿元,成交金额41.14亿元。

从单笔成交金额来看,金额最多的为晋亿实业(601002),5月8日,晋亿实业成交一笔2000万股的大宗交易,成交折价率为4.47%,成交金额1.71亿元,卖出营业部为华泰证券上海西藏南路营业部,买方为银河证券青岛广西路营业部;成交金额排在第二和第三位的分别为珠江啤酒(002461)和金通灵(300091),成交金额分别为1.55亿元和1.49亿元。

这些交易中,折价率最高的为18.21%,该笔交易发生在5月7日成交的高盟新材(300200)上。当日高盟新材成交100万股,成交金额925万元,卖方营业部为东方证券广州平月路营业部;买方营业部为中信建投证券广州天河路营业部。此外,折价率超过10%的股票超过20只,包括猛狮科技、伊立浦、冠福家用、豫金刚石、阳煤化工、帝龙新材、新开源、大华股份、四方达、聚光科技、华声股份、益生股份、林州重机和金通灵等。

此外,本周仅有一只ST股发生大宗交易,为*ST中富(000659),5月8日*ST中富发生1500万股,成交额3315万元,成交折价率4.74%,卖方营业部银河证券珠海景山路营业部,买方营业部为中山证券杭州杨公堤营业部。

这些交易中,以下交易值得关注:

9家公司发生溢价交易:大宗交易一般都是折价交易,溢价成交的屈指可数,在统计期内,有9家公司发生溢价交易,这9家公司分别为东北证券、大秦铁路、光大银行、广州发展、中国平安、中国神华、广安爱众、华能国际和招商银行。其中不少个股都属大盘蓝筹股。

上述交易中,溢价率最高的为东北证券,4月28日东北证券成交275万股,成交金额2230.25万元,成交溢价率为9.89%;溢价率最低的为招商银行,5月6日招商银行成交594.66万股,成交金额5887.13万元,成交溢价率0.30%。

值得注意的是,上述9起溢价交易中,买卖双方营业部较为集中,其中卖出席位中中信证券北京紫竹院路营业部出现3次,华安证券深圳深南西路营业部出现4次,此外,机构专用和华西证券杭州学院路营业部各出现1次;而在买入席位中,中信证券总部(非营业场所)出现3次,长江证券西宁东大街营业部出现4次,此外,光大证券成都武成大街营业部和银河证券杭州新塘路营业部各出现1次。

目前上证指数在2000点位置踌躇不前,各方观望情绪浓厚,这些蓝筹股现密集溢价大宗交易疑为机构调仓所致。

大数据交易 篇11

1. 程序化交易背景

程序化交易, 是一种将交易策略交给计算机进行处理、判断并执行的交易方式。随着当今时代计算机技术和网络信息技术的高速发展, 金融体系决策的制定及管理办法不断发展, 量化交易、算法交易等交易方法都不断得到了新的发展, 利用计算机技术发展而来的各种新型交易方式都统称在程序化交易的模式之中。

程序化交易的最大优势, 在于一定程度上能够避免人为的主观性判断, 并显著地分散投资风险。在全球金融交易系统中, 程序化交易使用的普遍度也在不断增高。

当然, 避免主观性的人为交易判断的同时, 这也可能带来问题, 比如在进行期货交易时, 由于利润的获取很大程度上取决于交易员所采取的方案和策略, 优秀的交易员能够带来巨大的利益。这些收益就是证明人为判断价值的最好证据。

程序化交易由于其系统性的安全构建, 可以采取分散资金的方式, 在一定程度上避免黑天鹅事件的影响。并且, 人工所无法完成的多品种多笔交易的同时操作, 由设定好的计算机程序却可以快速高效地完成, 稳定地降低交易风险。

2. 程序化交易技术

程序化交易首先需要搭建或使用现有的程序化交易平台, 其次需要交易模型, 即设定交易策略、数据回测、参数优化、连接外部端口获取行情/建立交易等功能于一体。可见, 程序化交易技术的核心即为交易平台及策略模型。

目前国内使用较多的程序化交易平台包括:文华财经, TB交易开拓者, 金字塔决策交易系统, 和MultiCharts。

通常使用该类平台可以通过高级语言自主创建交易系统, 一些面向客户范围更广的平台则允许通过简单的拖拽创建交易系统。平台通常具备连接各种交易市场的历史和实时行情数据, 便于模型的回测、数据优化和交易决策, 并能将各类数据以可视化图表的方式进行显示, 以便于后续观测和调整。

随着全球金融市场的成熟与发展, 金融交易系统日益增加的交易品种、交易量带来了更为密集的交易数据信息, 也对交易系统的要求与日俱增。而程序化交易技术在全球资本市场内应用范围的增长, 也对于金融交易技术有了新的挑战。

二、技术变革引领发展

随着数据时代的来临, 数据分析、机器学习技术不断兴起, 交易平台为追求更快的数据处理数量和速度, 通常选择采用分布式存储及处理方式。在交易策略的选择上, 还可以应用数据挖掘、深度学习及人工智能技术进行策略的制定、验证和参数优化。

1. 大数据

随着社会化网络、金融体系和监管的不断完善, 交易及行情数据都在快速增长, 数据来源的渠道也不断增多, 如何从大量体量巨大、类型繁多的数据中筛选和分析数据并进行进一步处理成为交易系统需要处理的第一个问题。

大数据在带来巨大技术挑战的同时, 也带来了巨大的创新空间。基于分析和挖掘大数据的行情信息和数据信息, 可以显著提升交易系统的的准确性乃至经济效益, 进一步提升金融行业的数据分析和交易处理能力。

在金融交易行业领域内, 新的技术带来的变革会引发更多的思考, 需要计算技术人员, 数据分析人员和具备专业知识的淋雨专家共同配合、协调进行金融、计算机产业的融合研究, 来提供更好的解决方案。需要寻找算法降低计算的复杂度, 保证计算精度的情况下优化完成数据处理的步骤, 并行化处理大数据将其在一个大规模的分布式数据存储和并行计算平台上完成数据并行化处理过程。

2. 并行处理

在金融交易系统中, 市场的交易规则和瞬息万变的交易特性使得瞬间的高并发数据处理能力成为交易系统必备的重要能力之一。

巨大的数据量使得传统的计算技术和系统无法应对和满足计算需求, 巨大的数据量会带来巨大的时间开销, 很多在小规模数据时可以轻松完成的任务变得难以估量。超大的数据量和计算量给原有的处理器和并行计算技术带来巨大挑战。

目前处于风口浪尖的云计算, 正是建立在批量的服务器组成的大规模集群进行并行计算和存储, 能够大大降低大量数据的吞吐, 并降低事件复杂度, 能够有效降低时间复杂性和相应事件, 提高交易系统处理能力和性能。

3. 机器学习

传统的金融交易模型的建立和策略的制定依旧是在策略部门与量化技术部门的协作下, 分别完成人工制定再投入量化策略的编程实现。而机器学习的发展则为计算、金融等领域都带来了全新的解决方案。

机器学习技术能够教会系统如何认识数据, 识别模式, 并寻找出处理方案获得收益。带“学习“功能的计算系统可以通过读取系统的输入和输出数据, 自动实现该系统内的内部算法, 并举一反三地泛化到不在训练样本中的其他数据中去, 其完成训练后的过程是全程独立运作, 不需要人工进行设计或修改算法的系统。

目前伊利诺伊理工大学已能实现使用深度学习神经网络预测5分钟后大宗商品和外汇期货的价格, 且测试结果的整体准确率达到42%。而斯坦福大学则实现根据谷歌趋势和市场数据预测标普500指数的波动性。伦敦帝国学院的Sirignano成功基于2014年~2015年纳斯达克股票的交易数据, 实现了“空间神经网络”模型, 用以预测买卖双方的报价情况。

由此可见, 机器学习技术及其方向上的发展对于创新金融技术应用领域的可拓展空间较大。

4. 深度学习

深度学习的过程是普通机器学习的进阶版, 对于计算机而言, 是深度学习训练后的产物, 即, 机器利用所有数据不断认识自身的错误并改正错误的过程。

不同于普通金融交易系统中多区块的模型, 深度学习应用在交易系统中可以实现如同人脑般的多层次思维过程, 而这样多处理层计算模型应用在金融交易系统的搭建上, 可以更好地完成普通交易系统无法实现的任务, 让计算机具备思维思考, 完善和改建策略的功能。

目前, 应用深度学习的程序化交易系统案例还不多, 其中有一些被命名为智能投资顾问系统的交易系统, 可以为用用户提供自动化投资组合资产配置服务。例如, 美国的Wealthfront, Betterment和Personal Capital公司, 以及国内的其他企业。深度学习在这些服务产品中就发挥了核心作用, 用在其中的数据处理、量化交易分析、投资组合优化、波动性预测等等多方面, 最终实现为用户提供多样化的智能服务系统。

相对于传统的数据处理而言, 深度学习可以给程序化交易带来可观的性能提升, 对于复杂问题的处理和优化能够更为准确便捷, 目前该领域的研究还存在很大的可探索性。

三、结论与前景

现在, 程序化交易随着数据时代的来临而迅速发展。在本文中仅对于部分数据存储、数据处理技术、即并行计算和机器学习方面在程序化交易中的应用进行了分析和探讨。

数据技术创新对于交易系统的性能提升和功能改变会是巨大的, 对于未来的挑战也是巨大的。

过去难以想象的数据能够在转瞬间被新一代交易程序轻松地存储和吞吐。高性能的集群处理和高智能化的交易核心系统所能实现的统计预测和分析技术可以更好的对金融资源进行配置和利润获取。

随着国内金融市场的不断成熟和交易品种进一步的多样化, 程序化交易可以进行操作和发挥交易功能的空间会随之继续变大。更大的空间也意味着更大的创新和空白带来的危险, 微乎其微的数据错误和决策指令的方向性影响都可能掀起资本市场上的波动, 甚至引发连锁效应。国内外金融市场上都曾发生过因程序设置缺陷而导致的市场短时间内巨幅波动事件, 可见程序化交易的风险控制如果不当, 引发的弊端则轻易会对于资本市场产生巨大影响。

因此, 在今后计算技术继续稳步发展的基础上, 如何综合金融理论和计算技术进行风险控制及安全监管也将是进一步值得探索的课题。

参考文献

[1]柯蒂斯·费思.《海龟交易法则》ISBN:9787508610078.

[2]埃德加·E·彼得斯, 《资本市场的混沌与秩序》ISBN:9787505814486.

[3]尤安·辛克莱.《波动率交易》ISBN:978-7-313-09508-4.

[4]黄宜花《深入理解大数据:大数据处理与编程实践》ISBN:978-7-111-47325-1.

上一篇:相关组织下一篇:直观教具