大数据(精选12篇)
大数据 篇1
0 引言
现代产业与信息技术的发展使数据资源成为越来越重要的生产要素。爆炸式增长的数据量对多源、异构、高维、分布、非确定性的数据及流数据的采集、存储、处理及知识提取提出了挑战。大数据思维就是此环境中的产物,它并不局限于传统的基于因果关系的逻辑推理研究,甚至更多地通过统计型数据的搜索、分类、比较、聚类、关联等的分析和归纳,关注数据集内隐藏的相关性(支持度、可信度、关注度)。图灵奖得主吉姆·格雷将这种数据密集型的研究范式从理论科学、计算科学、实验科学中分离出来,成为“第四范式”[1]。
2008年《Nature》推出Big Data专刊[2]后不久,文献[3]将大数据计算称为商务、科学和社会领域的革命性突破。2011 年,《Science》的Dealing with Data专刊阐述了大数据对科学研究的重要性[4]。同年,麦肯锡公司发布关于大数据的竞争力、创新力和生产力的调研报告[5],分析了大数据的影响、关键技术及应用领域,进一步燃起学术界和产业界对讨论大数据的热情。美国政府于2013年3月宣布投资2亿美元启动“大数据研究和发展计划”[6],将其上升为国家战略。大数据被认为是继物联网、云计算之后,IT行业又一次颠覆性的技术变革。
云计算是利用互联网实现随时、随地、按需、便捷地访问共享资源池(如计算设施、应用程序、存储设备等)的计算模式[7],关注计算能力,并与关注知识提取的大数据技术相得益彰。
电力是社会发展的重要基础。随着全球能源形势的日益严峻,各国大力开展了智能电网的研究和实践[8,9]。其目标是建设一个覆盖整个电力生产过程,包括发电、输电、变电、配电、用电及调度等环节的实时系统,以支撑电网的安全、自愈、绿色、坚强及可靠运行[10]。而其基础则是电网广域全景实时数据的采集、传输、存储、分析及决策支持。
而愿景中的电网则是网架坚强、广泛互联、高度智能、开放互动的智能电网。文献[11]分析了智能电网大数据的产生与特点,指出已有的数据处理技术在智能电网的数据存储、处理和展示等方面所面临的挑战,已成为智能化发展的制约因素。 文献[12]探索了基于云计算的智能电网信息平台的可靠存储和高效管理。文献[13]研究了用户侧电力消费的大数据,从中挖掘其用电行为,以改进需求响应系统。
以电为核心的大能源体系正在成为全球能源的发展战略[14]:一次能源的清洁替代与终端能源的电能替代都必须依靠电网的输送才能大规模地实现。文献[15]指出,电力可靠性问题的顶层设计应该以大能源观为指导,不能局限于电力系统自身,还要分析其与一次能源、外界环境、管理政策、用户需求与方式变化间的交互,研究广义阻塞对电力系统安全性与充裕度的影响。
电力、能源及广义环境的多源、多态及异构数据的数量呈指数级增长,需要有相应的广域采集、高效存储和快速处理技术予以支撑。而从这些数据中挖掘知识及价值应用则使电力大数据的话题融入大数据的研究热潮。本文及其续文是笔者关于如何将电力大数据的思维应用到电力的广义可靠性、大能源安全及环境安全方面的思考。
1 大数据概念的演绎
1.1 定义
对“大数据”还没有统一的定义,通常指量大、多源、异构、复杂、增长迅速,无法用常规的方法处理的数据集合[16]。许多数据往往只在统计学观点上具有某种相关性,而不一定像传统应用的数据那样具有严谨的因果关系。对这样的统计关系型数据,只有当反映一个真实问题的数据量达到能在一定程度的统计意义上描述其真实面貌时,才能有效地提取知识,支持决策。而对于常规的因果关系型数据来说,数量的大小往往仅影响到计算资源,而与提取知识的方法关系不大。
因此,大数据与小数据之间并无绝对的界限,而是相对于目标问题而言的。大规模的数据量只是大数据概念的特征之一,也不应该用海量的规模作为大数据的必要条件。
大数据技术涵盖了从信息产生、采集、存储、转换、集成、挖掘、分析、计算、展示、应用及维护等数据全生命周期管理过程[17],需要具备从不同类型的多源异构数据中,快速提炼出有价值信息的能力。
1.2 基本特征
数据是以编码形式对自然现象、社会现象、试验仿真结果及经验的记录,包括数字、文字、图像、声音等形式。与传统数据相比,大数据具有四大显著特征4V,即量(Volume)、类(Variety)、速(Velocity)、值(Value)[18]。“量”是指数据容量足够大;“类”是指数据种类呈现多源多态特性;“速”是指实时性要求高;“值”是指数据价值密度相对较低。在数月的监控视频中,可能仅1~2s的画面有用,但通过关联数据的挖掘、分析和提取,却可能获得很高的信息价值。
一般认为,数据规模或复杂程度超出了常用技术按照合理的成本和时限来处理的能力,就可称为大数据。笔者认为如果统计型数据量对于具体目标问题来说,已经具有统计意义,就可以用大数据思维来处理。若为大数据设立数百TB的阈值,必将大数据思维束之高阁,扼杀了其广泛应用的生命力。
除了从因果、统计及博弈等数据关系的视角来对数据类型分类外,还可以按数据结构的视角将其分为三种类型:①结构化数据,即可以用二维表结构来逻辑表达的行数据,关系型数据库是其有效处理工具;②非结构化数据,是一类不能用有限规则完全表征与刻画的异构性数据,如图像、音频和视频等信息,它们之间不存在直接的因果关系,存在不相容性及认知的不一致性;③半结构化数据,介于上述两种结构之间的数据,可以用树、图等模型表达,如Web、办公文档及电子邮件等信息。据统计,随着社交网络、传感物联及移动计算等新技术、新渠道的不断涌现,企业中的半结构化或非结构化数据占比越来越大,有的已达80%。
1.3 思维方式
大数据技术的思维方式是:将采集到的经验与现象实现数据化与规律化,在继承传统的统计学、计算数学、人工智能、数据挖掘等方法的基础上,从单一维度转向多维度统筹融合,开发知识处理的新方法,从更深刻的视角,以更高的时效发掘多源异构数据,从而发现新知识和新规律,并实际应用的方法学。
若可以用简单的表达式直接描述某问题的结果与变量之间的关系,那么即使其数据量很大,也不一定属于大数据思维。当数据之间没有或还不能严格描述其因果关系,而数据集已相对地具备统计意义,就需要并可以采用大数据思维来处理。例如:对于一个市场调查的数据集,如果仅仅求取人群对某种商品的需求分布,那么思维方法并不会因为数据集是否海量,而改变常规的数据处理思维。但如果要从人群对该商品众多技术、经济、全程服务特性等各方面要求中提炼出有助于提高企业竞争能力的决策支持,那就需要有新的思维方法,包括信息挖掘与利用的思维、模式及方法,以帮助人类获得更深刻的洞察力。
关注统计关系的思维方法,同样可以应用于有限数据集上[19],只是其结论的可信度可能受到影响。
1.4 大数据技术的挑战
1.4.1 大数据的采集与集成
利用各种传感器及终端,采集反映物理世界、市场经济与人类行为等现象的静态/动态的异构数据,成为人、机、物三元世界的信息纽带[20]。其挑战主要体现在:①从结构化数据为主,向结构化、半结构化与非结构化的三者融合的变革;②数据来源的多样化,特别是移动终端的广泛应用,使大量数据需要同时带有时间与空间的标志;③有用信息被淹没在大量无关或弱相关的数据中,或需要处理低质量及局部缺损的数据。
1.4.2 大数据的存储
大量多态异构数据的高效、可靠、低成本存储模式是大数据的关键技术之一,对多源多态数据流之间的交互索引与转换效率影响很大。
数据压缩技术可以减少数据传输量及提高存储效率,但也增加了数据处理环节及计算负担[21]。分布式存储要权衡对存储空间及实时性的影响:对实时数据采用实时数据库或内存数据库;对核心业务数据采用传统的并行数据仓库系统;对大量的历史和非结构化数据采用分布式文件系统。
算法在处理复杂结构数据时相对低效,故希望事先为复杂结构的数据建立索引结构来帮助搜索,并合理地将非结构型数据结构化。
1.4.3 大数据的分析
需要关注大数据的形态描述、基本运行规律及其可控性。其中,最复杂的是人类社会行为信息,其决策行为必须与物理系统及信息系统相结合。
目标领域的信息若能与关联领域的信息相结合,则不但知识量得以增加,而且更有可能揭示综合性、交叉学科的未知知识,甚至从统计型数据中发现其(准)因果关系。知识的涌现性反映在模式、行为和智慧上。例如:将提高风机效率的研究与气象信息、电网信息联系,其效果将大大提升。大数据与云计算为之提供了数据资产的保管、搜索的技术,但也不是数据越多越好,而信息的提炼与知识的发现一般很难通过直观方式的分析和解读来获取。
数据驱动的分析方法包括:聚类、判别、回归、识别、隐变量、主因分析、时间序列。需要处理大规模的不定解问题,及必要时信息的补充问题,利用特征的相关性来发展统计学,有效地表达高维随机变量函数的联合概率分布。
用以发现知识的技术有:遗传算法、神经网络、数据挖掘、专家识别、回归分析、聚类分析、关联分析、数据融合、机器学习、自然语言处理、情感分析、空间分析、时间序列分析及其他计量学方法。一个例子是Google采用机器学习和神经网络来分析服务器群的数据,掌握大量变量之间的交互。神经网络在无显式编程下自适应学习,大大提高服务器群的效率,发现普通人注意不到的复杂互动关系。
随着大数据的应用从离线走向在线,甚至实时,所面临的系统复杂性、数据复杂性和计算复杂性挑战更为严峻。目前虽然出现了一些较为有效的方法,如流处理模式、批处理模式,及两者的融合[22],但仍未有一个相对普适的(准)实时的分析处理框架,在合理精确性的前提下实现快速的随机优化。
1.4.4 大数据的易用性
易用性应该贯穿在大数据的集成、存储、计算、分析,乃至展现等整个业务流程[23]。从技术层面看,可视化、人机交互及数据起源技术都可有效提升易用性,但仍存在元数据的高效管理的难点。元数据是关于数据的组织、数据域及其关系的信息,是描述信息资源的重要工具。
1.4.5 大数据的安全性
数据可靠性和通信网络安全性至关重要。必须研究各种广域量测数据和仿真数据的完备性、适时性和价值的评估技术,研究在广域信息不完全条件下的分析、控制技术。
“8·14”大停电前的几个月,北美电力可靠性委员会(NERC)警告说,随着电力业务的复杂化,越来越多的电力公司不遵循2002年发布的非强制性的安全导则,致使一些数据采集与监控(SCADA)网络被蠕虫破坏。大数据安全是一项包括技术层面、管理层面、法律层面的社会系统工程,其保障体系的框架由组织管理、技术保障、基础设施、产业支撑、人才培养、环境建设组成。应该研究数据源和传输的可靠性,研究信息系统故障或受到攻击时的行为,以及信息的阻塞、淹没、丢失和出错对大能源可靠性的影响。
移动互联时代中,人们在不同场合产生各种数据足迹;大数据技术将大量行为信息聚集在一起,就很可能暴露其隐私。由于尽可能地获取信息本来就是应用大数据技术的目的,故与隐私权的保护存在着矛盾。如何协调共享与隐私,需要制度与监管的保证。
现有的数据安全保护技术主要针对静态数据集[24],包括开放与防御的平衡,防止数据被窃取或篡改。但仍需要解决动态信息的安全性问题。
1.4.6 大数据的应用
大数据学科的兴起与人类需求密切相关,其中的信息挖掘及知识提炼环节必须与待求解问题紧密结合,而应用环节则是大数据技术发展的动力与归宿。因此,大数据研究应该遵循问题导向、需求牵引及数据共享的原则。必须结合具体的目标问题,将采集到的低价值的大数据加工成高价值的思想或知识,大数据技术才有生命力。若没有应用企业的深度参与,若不能按照商品的规律运行,大数据技术就难以真正取得收效。此外,若没有各管理部门对数据共享的落实,大数据技术也只能是纸上谈兵。
知识作为资源,需要像物质资源那样分配及流通。为此,需要对知识产品定价,并从数据使用的视角揭示信息流与科学活动的内在规律。
目前对大数据应用的关注,主要集中在商业与服务业这些以统计关系为主的领域[25],较少涉及具有较强因果关系的领域,如电力系统及能源市场等领域。笔者认为,是否能成功地将统计关系、博弈关系与因果关系取长补短,是大数据技术能否扩大应用领域的一个关键。
2 电力大数据
2.1 问题的提出
从能源系统看,它包括电网和非电的能源网两部分;电力系统应该在能源的清洁替代与电能替代中有效地承上(一次能源)启下(终端能源),兼顾左右(与其他二次能源协调)。
从信息系统看,它包括专用通信网与互联网(Internet)两部分。专用网用于对信息安全性或实时性要求高处,但由于非开放式的接入,故不适合与广泛用户的互动;互联网用于开放场合,但信息安全及实时性差。显然,两者对于信息系统来说都不可或缺。
能源革命需要的是能源系统的全部组分与信息系统的全部组分的深度融合[26],即大能源系统与大信息系统组成的信息能源系统,而不是局限于它们的某个子集之间。但是,智能电网的研究范畴基本上局限于能源系统中的电力系统与通信系统中的专用网[27],因此其信息物理融合的概念也就局限于“电力生产信息+电力系统”。作为能源革命重要环节的“一次能源系统及终端能源系统”,以及作为信息革命重要环节的“网络金融及需求侧参与信息”却并没有得到应有的重视。
显然,目前的智能电网框架中的专用通信网的功能需要从电力系统扩展,不但涉及各种非电的能源环节,而且涉及相关的非能源环节,以更好地支持对电力可靠性及经济性的研究,并支撑综合能源安全、能源经济安全及环境安全。另一方面,开放的网络经济及广泛的用户参与都需要互联网的支持,互联网数据的管理与挖掘成为非常重要的任务。
整个能源行业在转型发展中面临的机遇和挑战,来自一次能源的压力、环境安全的紧迫性、电力系统内外复杂性的增加、运行环境及扰动事件的不确定性与风险的增大、经济与技术的发展、市场改革的要求。为了应对上述挑战,必须提高数据的及时性、完整性、一致性及信息安全防御能力,提高对数据的管控能力,消除数据壁垒、存储无序且不一致的现象,完善对外部环境、基础设施及人才队伍的掌控。
从传统的电力数据演变为电力大数据,跨领域的时空扩展将电力系统的界面条件从确定性变为时变性,同时也增加了多时间尺度的动态复杂性[28]。涉及各类数据的采集、集成、存储、管理、知识挖掘、决策支持、可视展现等技术,也反映了电力及综合能源数据的管理、知识的挖掘和应用等一系列推进能源生产、转换、输送、消费方式的创新思维。其中的互联网数据大多为传统数据库不支持的非结构化类型,包括图片、视频、音频、地理位置信息、网络日志、博弈行为、金融动态、政策法规。数据的在线或实时处理,往往呈现出突发及涌现等非线性状态演变现象,难以预测。
为此,信息创新必须与能源革命在更高层次上深度融合,特别是在一次能源中的清洁替代及终端能源中的电能替代上,不但将协调优化的概念提升到综合能源流的范畴,而且推动电能更主动发挥在一次能源与终端能源之间的核心纽带作用,实现能源生产模式与消费模式的革命。
但是,将大数据技术局限于互联网数据也是片面的。通过专用网或仿真网获取的数据,包括智能电网概念中已涉及者,以及有待外拓的非电能源领域与非能源领域中的数据问题,同样存在大量的挑战。既然讨论的是信息物理融合问题,那么其框架就更不应该在信息系统内部或能源系统的内部设立藩篱。
当前的研究都在一定程度上受限于物理系统中的藩篱或信息系统中的孤岛。例如:①稳定性与经济性的研究都针对给定的边界条件,不能真实反映上下游环节的变化对电力系统的影响;②充裕性问题被粗犷处理为固定比率的备用容量,无法适应大规模不确定性的可再生能源及充放电用户的入网;③决策过程基本无法考虑博弈行为的影响;④忽视了信息系统本身可靠性的影响;⑤缺乏对电力系统外部环节的自适应能力。
要突破上述藩篱与孤岛,就必须遵循以电力系统为核心环节的大能源系统在大数据时代下的发展理念,顺应管理体制及技术路线的变革。
2.2 电力大数据的特征
一方面,电力大数据具有大数据的共性,包括目标领域向其他相关领域的扩展,以及数据类型向非结构型及非因果型数据扩展,时间维度向多尺度的流数据扩展。由此形成大量的异构异质数据,包括数字、文本、图形、图像、音频、视频等静态和不同时间尺度的动态数据,以及大量统计关系与博弈关系的数据,都需要快速处理。
另一方面,电力大数据必然继承了能源行业数据的特征,包括大量的因果关系数据、高维的时空数据,广域的监测控制,快速的时间响应及实时控制数据。除了电力系统的状态外,还需要获取并分析相关领域的数据,并处理部分数据缺失时的不确定性。
运行工况或故障场景都会影响系统的稳定性和控制策略。中国的电网现在已普遍实现了在线的量化分析功能,按实测工况和典型故障来指导预防控制,并向自适应的紧急控制与系统保护发展[29]。但若要有效地应对极端自然灾害环境,则还需要采集并处理大量非结构型的视频、语音、图片,并与电力系统分析功能有机结合。大规模间歇性可再生能源(RES)与电动汽车(EV)的入网对电力充裕性与备用调度提出挑战,要求大大提高对风电、太阳能发电及EV充放电的预测精度,这就需要处理大量非结构型的地理及交通动态数据。为了应对相继故障,基于常规因果关系型数据的分析算法也应该解决多米诺效应的演化路径及实时评估的经典难题。
2.3 电力大数据的类型
除了按数据结构等大数据概念来划分电力(能源)系统大数据,还存在其他视角,列举如下。
1)按业务领域,电力大数据可分为:①规划运行类,包括电力规划、电能生产、运行监控、设备检修等数据;② 企业运营类,包括企业发策、运营、电力市场、用户信息等数据;③企业管理类,包括人财物资、资本运作、企业资源计划(ERP)管理、协同办公等数据;④非电的能源类,包括各种一次能源、非电的二次能源、终端能源使用模式等数据;⑤非能源类,包括气象、环境、碳资产、宏观经济政策等数据。
2)按时间维度可分为:①背景及法规数据;②历史数据;③调查及预测数据;④在线实测数据;⑤仿真推演数据。
3)按数据采集来源可分为:①书本及文档;②专用网数据;③互联网数据;④问卷及调查;⑤交互博弈及仿真结果。
2.4 电力系统的数据量
常规SCADA系统按采样间隔3~4s计算,10 000个遥测点每年将产生1.03 TB数据(12B/帧×0.3帧/s×86 400s/d×365d×10 000遥测点);广域相量测量系统的采样率为100次/s,10 000 个遥测点每年将产生495 TB数据。美国PGE公司每个月从900万个智能电表中收集超过3TB的数据。国家电网公司的2.4亿块智能电表,年产生数据量约为200TB,而整个国家电网公司信息系统灾备中心的数据总量,接近15 PB。 以2004年山东系统(97台机、462条母线、702条支路)为例,设在线每5min对220kV以上线路的三相永久故障分析一次暂态稳定性,仿真时长10s,仿真步长0.01s,则一年内将产生1 092TB的数据量。当大规模的间歇性分布式可再生能源入网后,发电侧计及气象数据的实时监控的数据量比传统发电成倍增加。智能配电、智能电表、电动汽车和用电技术的发展也大大增加了需求侧的数据量。电力企业的精细化管理,与一次能源、环境、交通、市政等外部系统的联系日益深化,对数据量的依存度也越来越高。
2.5 电力大数据对电力可靠性的支撑
整合各种广域系统采集的静态和动态数据,包括雷电场、台风风力场、山火场等非结构型数据与常规的电力数据及仿真信息相结合,从所获的现场实测或仿真得到的时间响应曲线中提取深层知识。以支持稳定性与充裕性的量化分析及自适应控制,协调故障前的预防型博弈,故障后瞬时的故障隔离和预测型紧急控制,检测到违约症状后的校正控制,以及系统崩溃后的恢复控制。在此基础上,综合防御框架还应该实现多道防线的时空协调,通过协同各道防线和各种控制手段,最大限度地减少大停电的风险。
信息的可靠性是分析和决策的物质基础;机理分析和量化分析则通过数据挖掘来深刻掌握电网的行为特性[30];正确的决策是为了能以最小的风险代价来最大限度地满足电力需求。互为补充的相量测量单元(PMU)、远方终端设备(RTU)和仿真数据共同满足系统在空间中和时间上的可观性和可控性[31]。需要研究在不完备数据下,如何将信息论和系统论相结合,从数据中挖掘深层信息。
在电力的长期可靠性分析与控制方面,需要考虑社会、经济、科技、能源与政策等发展的不确定性,以及各种博弈行为的影响,将目前依靠主观判断的方式逐步提升为基于混合仿真推演的方式。
3 信息能源系统的大数据平台
3.1 电力(能源)系统运行数据的采集
关系数据库强调完整性及一致性,云计算强调可扩展性,但难以保证实时性。Internet的TCP/IP协议在流量控制和数据纠错时会产生10ms量级的时延,难以满足实时控制,特别是紧急控制的要求。
RTU和SCADA系统可以用低成本采集大量的广域数据,并满足静态可观性,但没有统一时标,采样周期长、时延大,只能抽取慢速动态特征。故障录波和保护信息系统就地记录大量暂态信息,可支持故障的事后分析,但上传的滞后时间长,难以实时应用。
PMU数据不依赖于系统模型和参数,可在统一时标下快速采样,提供系统实际的时间响应曲线,用来校核仿真模型和参数,并提供仿真的初值。但受价格限制较难满足高可观性。
20年来的研究热点之一是将PMU用于实时稳定性分析及开环控制,根据受扰后短期实测数据预估稳定性,并在失稳前选择并执行控制措施,但至今未能用于稳定分析和开环控制。文献[32]明确指出,在非自治因素下单纯依靠轨迹的外推来预测并不可靠,并且即使在没有时间约束的离线环境下,要对有数学模型的仿真曲线进行稳定性量化分析也非易事。若在计算已有轨迹的稳定裕度时没有模型参数可用,其量化分析就更难。更重要的是,只有通过仿真才能在措施实施前确认其效果。不与仿真工具结合,就难以按合理的保守性来确保控制的充分性。其根本原因是:在事前,PMU无法观察到控制措施的效果,也无法在不依靠系统模型及参数的前提下求取实测轨迹(特别是稳定轨迹)的稳定裕度。PMU在应用上的这个瓶颈是本质性的,不可能真正突破。
现场伪量测是对广域数据加工中挖掘出来的数据;仿真伪量测是在仿真中产生的数据。它们的正确性受到模型、参数、初值和算法等的限制。
3.2 电力(能源)系统的大数据平台
随着数据采集环节的质量提高、成本降低,以及各种广域数据采集系统的数据共享,可以通过更多数据来全面掌控电力与能源。为此,需要将各种广域监测系统和数值仿真系统置于统一的平台中,有助于数据挖掘,识别相继故障的先兆特征、临界条件和传播模式,从而提高预警水平,增强防御停电灾难和事后分析的能力。
由硬件资源、基础软件、网络通信、数据集成、计算支撑、应用支撑、安全管控等环节构成的大数据平台支持多源多渠道异构数据的即插即用、融合与管理,支撑各种开发、应用及信息展示功能的即插即用。通过基于数学模型的因果型数据、无因果关系的统计型数据以及参与者博弈行为的融合,管理各类能量的生产、转换、输送及使用,调度与仿真数据的集成与管理。
4 结语
虽然当前关于大数据的应用案例大多发生在互联网企业中,但传统的电力及能源企业也在思考如何从关于大数据的空泛介绍走向实际应用。特别是除了直接依赖互联网的电力金融业务及面向消费的个性化服务以外,在基于传统数据的系统分析与控制领域中,如何融合电力及能源的统计关系数据、因果关系数据及博弈行为数据,发挥大数据的价值。例如:间歇性能源及负荷预测,引导需求响应及节能减排,降低停电风险,反窃电,堵塞经营漏洞,优化资产全寿命周期管理等方面。特别是:如何使企业决策从当前基于常规数据及主观经验的模式,发展为基于数学模型、参与者及多代理模型的混合仿真的沙盘推演模式。其中的多代理模型就需要大数据技术的支撑。这关系到电力大数据技术是否能进入到通常由因果关系数据一统天下的物理系统分析领域。为此,思维方式需要重大变革。
摘要:大能源思维将电力视为能源生产与消费全流程中的枢纽环节,藉此推动上游一次能源的清洁替代与下游终端能源的电能替代,支撑能源的可持续发展。大数据思维将各种数据资源从简单的处理对象转变为生产的基础要素。这两种思维的融合,使电力大数据成为大能源系统广泛互联、开放互动及高度智能的支撑,包括:广域多时间尺度的能源数据及相关领域数据的采集、传输和存储,以及从这些大量多源异构数据中快速提炼出深层知识并发挥其应用价值。作为两篇论文中的开篇,在演绎大数据基本概念、结构类型及本质特征的基础上,归纳电力大数据的特点。针对综合能源,通过基于数学模型的因果型数据、无因果关系的统计型数据以及参与者博弈型数据的融合,构建信息能源系统的知识挖掘平台。其续篇将讨论信息能源系统,并通过若干案例,反映大数据思维对提高大能源经济性与可靠性的贡献。
关键词:信息能源系统,能源互联,因果型数据,统计型数据,博弈型数据,非结构型数据,知识提取
大数据 篇2
--读《大数据时代》有感
施佳驰
不知从什么时候开始,“大数据”这个词悄然成为了我们的常用词汇;我们也不知从什么时候开始,迈进了“大数据时代”.那么,大数据时代究竟是一个怎样的时代?英国“大数据时代的预言家”维克托迈尔·舍恩伯格和肯尼思 库克耶的《大数据时代》对此有着详细而深刻的洞见。
一、什么是大数据?
根据《大数据时代》中所说,“大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的认知、创造新的价值的源泉,大数据还为改变市场、组织机构以及政府与公民关系服务。”、“大数据即一种新型的能力:以一种前所未有的方式,通过对海量 数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。” 大数据有两层含义,第一层含义,大数据是一个总结性的概念,是对海量数据的总称;第二层含义即书本中所指出的,是一种新型的能力与方式。区别于小规模数据时代的抽样分析,大数据时代,分析的样本不再需要经过抽样,直接将全体数据进行更快更准确地分析。
二、大数据的核心是什么?
大数据的核心应当是减少冗余,提高资源配置效率。根据收集到的数据分析、挖掘出庞大数据库独有的价值,以便进行干预或提供相应的资源与服务。自古以来,人类社会的发展便是资源配置不断优化的过程,大数据作为一种新型的生产工具,它能让我们通过分析海量的数据,得知该如何更有效地分配稀缺的资源。
如医院通过对某个病人病史、生活习惯、衣食住行、工作娱乐情况等进行全方位分析,便可以准确了解病人的生活情况与生活环境,精确地指出症结引起原因所在,只要建议病人针对引起病源的因素做出调整或进行医学干预,便可以了,避免了对病人过多的用药与过大范围的盲目干预。
同样的道理,如果银行通过分析某一申请人的家庭情况、消费历史、生活习惯、财务习惯、网页浏览记录等各方面的数据,便可以清晰了解此申请人各方面的情况,甚至可推测其内心的真实想法与将要采取的做法,从而判断申请人的贷款申请资格,决定该不该授信,授信多少等内容,所有的信息在大数据时代,能在系统中搜索一下,几分钟便能全部收集完成。相比以前,()申请人申请后,银行得派出两名客户经理上门进行访问、调查、收集电信、征信等多方面的信息,再进行人工分析、鉴别等过程,耗费的时间多不说,风险也相对更高。
可见,大数据的运用不但提高了工作效率,节省了机构与申请人的时间,更能基于精确的信息,确保风险可控,且保证了授信给该申请人的正确性,将有限的资金用在刀刃上,提高资源配置质量。
三、什么是大数据思维?
书中指出,大数据思维是一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。大数据与三个重大的思维转变有关:首先,要分析与某事物相关的所有数据,而不再依靠分析少量的样本;其次,乐于接受数据的纷繁复杂,而不再追求精确度;最后,我们的思维不再探求难以捉摸的因果关系,转而关注事物的相关关系。
大数据思维应当是一种意识,认识到大数据的无穷威力,并积极拥抱这个繁荣的时代;世界上的一切都是信息,都是可以量化分析的信息。如果将相关的信息进行交互分析,便能获得“上帝的视觉”——窥视知道分析对象的一切,包括所思所想;获得的信息可以通过类比,准确推测分析对象的想法以及未来行为;根据推测出来的内容进行干预或服务,从而获得商业机会;在一切均有记忆、一切均能收集、能更加准确预测未来的时代,我们或许受困于过去的行为;在这个时代,对隐私权、公平与正义的探讨上升至一个新的语境。
四、新的时代,我们该怎么办?
老子说,无为而治。因此,我们还是该吃饭就吃饭,该逛街就逛街,想吃甜点便吃甜点,过自己的生活,努力自己的工作。大数据是一种意识,更是一种工具,所有的工具最终都是为了让我们生活得更加方便、更加如意,而作为最高智慧生物的我们,要做的,便是习学如何通过这新的工具,改造世界,创造生活。
从金融大数据到大数据金融 篇3
不管你恐惧还是欣喜,大数据金融时代已经来临。
如何理解由技术创新逐渐引领的金融创新?何谓大数据金融?我们选取三个最有代表性的例子来解答。
何谓大数据?大数据没有严格定义,顾名思义就是“很多数据”。可以从三个层面来解析这个特别的称谓——
从生产来看,不需要特别的采集过程,因为监管要求、业务逻辑或者技术便利,具有“自生产”特征,比如搜索数据、交易数据等;从存储来看,相对于传统数据库的数据规模,量变引起质变,需要新的数据库技术来支持存储和访问;从使用来看,分析方法从基于概率论的抽样理论过渡到人工智能、统计学习等讲求高维、高效率分析技术。
从行业细分角度,大数据金融业主要有大数据银行金融和大数据证券金融,分别和银行业务、证券业务相关。当然,保险业天然就和大数据相关。
信用卡自動授信是典型的大数据银行金融。从银行角度是否应该对申请者授信、发授多少信用额度,是个重要问题。传统方式是人工审核申请资料,然后根据大致的档位发放额度或拒绝申请。但是当银行积累了足够多的用卡客户数据,可以把是否违约,违约概率,有效使用额度等指标作为被评价对象,然后调用与此相关的各种客户信息建立统计模型,自动计算授信结果。
机器人投资是大数据证券金融的代表形式,股票价格波动受各种因素影响,传统的投资方式一般人工收集信息,手动交易。机器人投资可以建立多因素模型,自动选择股票或寻找交易时机,在适当的风控模型下建立机器人投资云交易模式。
再如,连接银行和证券的大数据不良资产评估。2005年,某国有不良资产管理公司开始尝试在海量数据基础上进行不良资产评估。原本银行信贷资产的评估都是基于会计模型,但是不良资产基本没有会计特征,很难用传统方法评估。因此,收集已处置资产和待处置资产样本进行对比,建立数据挖掘模型,可以方便评估待处置资产的价格。
了解了大数据和大数据金融的几个应用实例,我们总结一下何谓大数据金融。
金融业积累的大数据就是金融大数据,根据银行金融和证券金融本身的不同,这些数据也分成银行金融大数据和证券金融大数据。积累数据过程中,产生了数据采集、存储、使用的相关工作和企业,这样就完成了金融大数据的产业链,但总体依然是信息技术产业链。
大数据应用促进大数据产业落地 篇4
关键词:大数据,大数据应用,大数据产业,大数据价值
1 研究背景
2012 年1 月30 日,美国华尔街日报发表了一篇题名为 《科技引领的繁荣即将到来》的文章,文中阐述了人类正面临的三大技术变革,其中第一个谈到的就是大数据[1]。从数据量来看,国际调研机构IDC预测,到2020 年,全球数据量将达到35. 2ZB,如此庞大的数据量和快速增长的速度将有效推动数据产业的发展。
谈到大数据,牛津大学教授、大数据权威专家维克托迈尔·舍恩伯格[2]在其著作Big Data: A Revolution That Will Transform How We Live,Work,and Think中阐述了这样的观点: 在科学技术还没有办法处理海量级数据的时候,科学研究通过抽样的办法对样本数据进行处理,从而预测全局数据的情况,但样本数据的绝对随机性是无法完全把握的,所以在通过小样本来预测全局的时候往往会出现大的偏差。随着云计算技术的发展,数据竞争的压力以及互联网环境下社交网络、移动设备等产生的海量数据的冲击,造就了今天大数据的兴盛,同时数据处理技术的发展为全样本数据的处理提供了可能,通过大数据处理技术可以对更多的和更完备的数据进行科学处理,从而提高了数据分析的科学性、准确性和精确度。可以说,技术的发展是大数据产业发展的主要驱动力。
大数据产业的发展源于大数据应用,近几年随着大数据的持续火热发展,大数据应用冲击着各个行业,为全社会带来了新的思考。大数据产业作为一个新兴产业正席卷而来,并创造出了巨大的价值,成为了当今企业和学者关注的热点问题。本文主要阐述了大数据在国内外各个领域的应用,在此基础上对大数据产业的发展、社会定位以及价值实现途径进行探索,最后针对国内大数据产业的发展给出了若干建议。
2 大数据应用
到目前为止,对于 “大数据” 有多种定义,IBM、IDC、Gartner等机构都对大数据进行了不同程度的定义。不同的定义取决于行业的差别,但多数定义都反映了那种不断增长的捕捉、聚合与处理数据的技术能力,而这个数据集在数量、速率与种类上持续扩大[3]。或许目前对于大数据概念的清晰鉴定不必过分苛刻,只需满足大数据的 “3V” 或“4V”特征即可,重要的是大数据能做什么,也就是大数据应用。
大数据的价值体现在大数据的应用上。对大数据的应用最早可追溯到2000 年6 月Google公司为应对庞大的信息检索而建立的覆盖数十亿网页的索引库,这是大数据应用的起点。此后,有很多通过大数据应用受益的经典案例,如google流感趋势( Google Flu Trends) 利用搜索关键词预测禽流感的散布; 美国沃尔玛连锁超市通过对消费者购买行为数据的研究得出 “啤酒+ 尿布”和 “蛋挞+ 飓风用品”的关联销售; 此外,基于语料库的智能翻译系统、基于大量消费者购买行为数据的电子商务自动推荐系统、基于CDR ( Call Detail Record) 的用户位置分析等,都是典型的大数据应用。随着数据价值的日益凸显,数据的开源以及数据的相互关联,大数据应用必将在未来带来全行业翻天覆地的变化。
2. 1 大数据在推动经济发展方面的应用
大数据是事关全球经济的重大技术革新。美国的大数据产业链生态已经初步形成,部分大型互联网公司已经开始品尝到了大数据带来的甘甜,一个典型的案例就是美国奈飞公司翻拍的 《纸牌屋》大获成功,其背后在演员选择、情节发展、播放方式上就是通过对3 000 万人次的观影行为、400 万次的影评和300 万次的搜索请求进行分析确定的,包括播放量、用户的重合度、用户群、用户的访问深度等[4]。我国的大数据发展也开始步入了实际操作的阶段,北京、天津、上海、重庆、陕西、湖北等地都在积极部署地方大数据产业战略。具体在推动经济发展上,大数据应用主要涵盖了以下方面:
( 1) 金融。金融机构通过大数据应用平台Hadoop来分析信息,应用于诈骗侦测、风险管理、效率优化、产品优化、客户流失分析、客户体验分析等方面。如银行通过对交易数据的分析来模拟市场行为,进而对用户进行评估; 此外,通过对客户消费行为的事件关联性分析来提高客户的转化率等。但与此同时,随着互联网金融的发展,其对传统银行业也带来了巨大的冲击,如阿里巴巴利用大数据分析技术,从淘宝网的交易数据中筛选出财务健康和诚信的中小企业,使得阿里巴巴小额不良贷款率为1. 02% ,信用贷款坏账率为0. 3% ,远远要低于传统商业银行[5]。
( 2) 电子商务. 淘宝、京东、一号店等大型电子商务交易平台利用大数据技术对网络交易数据进行挖掘和分析来发现大量有价值的信息,进而优化交易活动,精准推荐,促进商品销售。例如,基于大数据相关性分析的亚马逊图书推荐系统根据用户的付费购买行为和用户浏览行为为用户推荐书目,进而来刺激消费,就是典型的大数据应用。
( 3) 网络通信、中国联通,中国移动,中国电信 “三驾马车”都在积极布置大数据应用架构,为客户提供更加丰富和有针对性的信息化产品及解决方案,依托自身的核心业务来实现利润的最大化。中国联通在大数据的投入上多达数百亿; 中国移动则构建了多个大数据应用平台,如BC - PDM&ETL、BI - PAAS等; 中国电信利用大数据技术深入IDC服务及智慧城市建设。
( 4) 零售业。大数据同样给零售业带来了新的春天。通过对顾客数据的分析来判断客户级别并提供个性化销售服务,进而有效地进行客户关系管理;通过对商品数据的分析来确定商品组合、库存、定价、促销等; 通过对供应链数据的分析来优化物流、现金流,确定供应商等。比如沃尔玛超市通过使用客户的Facebook好友喜好和Twitter发布的内容来进行数据分析,从而发现顾客的爱好、生日等有价值的信息,进行礼品推荐,实现智能销售。
2. 2 大数据在改善医疗卫生方面的应用
健康始终是人类关心的话题,也许大数据的到来可以在治疗人类疾病、改善人类健康、延长人类寿命方面作出积极的贡献。美国已经在基因组学大数据应用、精神卫生大数据应用等方面取得了不错的成绩。2010 年起美国实施 “蓝纽扣”计划,允许消费者安全地获取他们的健康数据,从而可以使其更好地管理自己的健康,这使得越来越多的美国人开始从中受益[6]。此外,斯坦福大学把所有医院的电子病历都转换成了斯坦福大学数据中心的数据,通过有效挖掘和利用,可以更加全面地了解病人的各种需求。在英国的医疗行业中,英国拥有着完备的医疗服务系统,并存放着庞大的英国医疗数据,英国数据战略委员会已经通过大数据技术对数据进行了整理和分类开放[7]。在我国,大数据在医疗行业的应用主要包含以下两个方面: 一是居民健康档案的数据管理和服务,对海量的医疗及健康数据进行统计和分析,为管理决策、监管实施等提供更为科学的依据; 二是医院的大数据管理和服务,主要集中在临床诊断和临床科研,并且为医院管理层的决策支持提供实时有效的数据服务。
2. 3 大数据在优化学生教育方面的应用
大数据时代的来临同样给教育行业带来了一场新的变革,大数据将会使教育管理和服务变得更加个性化。美国开放了大规模的开放网络课堂,利用大数据技术对平台上的数据进行跟踪,通过对学生学习情况进行研究,来揭示什么类型的课程最受学生欢迎,进而来提升教学质量、优化学生教育。此外,亚利桑那州州立大学开发了Knewton系统,通过观察学生们的上课、做作业和考试等数据的情况来判断学生是否选对了专业,并给予指导和帮助[8]。同样,我国清华大学苏州研究院大数据处理中心正在致力于智慧教育的研究,开发出的自动测评数据平台在把握学生学习和作业的全量数据采集的基础上,实现了与学校同步教学的主客观题的自动批改与测试,并将后台数据库中大量的相关信息精准推送给学生、教师和家长。同时大数据在对教师数据进行教师评估、对学生数据进行学生评估方面也将发挥着便捷有效的作用。在科技发展的当下,大数据正变成实现教育产业革命的动力和工具。
2. 4 大数据在保障国家安全方面的应用
美国、欧盟、日本等都已经把大数据提升到了国家战略的层面,不仅仅是因为大数据推动了经济变革,而且还在于大数据已经深刻影响到了国家安全。安全问题始终是各国高度关注的问题。美国国土安全部、美国国防部利用大数据技术,在打击恐怖分子,跟踪、监控、阻止犯罪活动等方面取得了显著的作用,如2012 年5 月美国击毙本·拉登就是通过对一系列的海量侦测数据进行分析判断带来的结果。对我国而言,我国不仅是一个人口大国,同时也是一个网络大国、数据大国,网络的安全和数据的安全将直接影响到国家的安全,习近平主席也曾提出,“没有网络安全就没有国家安全,没有信息化就没有现代化”。当前,网络安全和数据安全已经上升为国家安全的重要组成部分,我国应充分利用大数据所带来的优势,通过大数据分析技术积极开展反暴反恐等侦测识别工作,同时切实加强对数据安全的保护。
2. 5 大数据在节能和环保方面的应用
在能源日益宝贵,环境污染日益严峻的今天,大数据在节约能源和改善环境方面也将发挥出巨大的作用。2012 年,美国政府与电力行业推出了 “绿纽扣”计划,该计划可以让美国家庭和企业获得他们的能源使用情况,以更好地掌握能源消耗,帮助节约资源。在我国,近些年来经济高速发展的同时也引发了一系列的能源和环境问题,当前大数据处理技术的发展在为我们解决这些难题方面提供了一些可能,如我国电力行业通过大数据分析技术,基于海量的历史用电数据、用电人口数据、区域面积等数据进行用电量的预测、规划和用电负荷的预测,在此基础上来优化用电、节约用电,同时为电网调度、电网安全提供辅助决策[9]。此外,未来大数据也将在环保方面作出积极的贡献,如通过收集水质、大气环境等方面的完整数据,并利用大数据处理技术进行深度分析,来预测水质健康和环境气象的变化,并据此制定环境保护策略。
2. 6 大数据在便利社会管理方面的应用
当前,大数据在政府进行社会管理的诸多方面正发挥着积极的作用。如美国印第安纳大学通过对金融危机以来的用户发帖和留言进行挖掘,进而来分析用户的心情,借此研究和判断2008 年金融危机带来的社会影响; 2014 年,美国国税局将纳税人近3 年的数据加以共享,这使得纳税人在抵押、贷款等事物中变得更加便捷; 新加坡通过手机信号探知城市人流和热点地区,动态安排城市服务人员; 西班牙电信通过手机用户全天活动的位置地图,辅助政府制定停车场计划; 法国Orange Business Services公司通过每天监测法国高速公路产生的数据并进行分析,可以为行驶于高速公路上的车辆提供准确及时的路况信息,大大提高了道路通行率。此外,我国政府通过收集微博、微信、QQ等社交网络产生的大量数据,并对这些社会言论进行分析,以此更好地发现社会问题,进行舆情监测,从而改进社会管理。
总之,大数据的应用存在于社会的方方面面,未来的应用领域可能会更多。不难看出,现阶段大数据应用通过整合行业内外数据,在推动社会发展中创造了巨大的价值,重点表现在大数据的分析和预测价值上。总体上,互联网行业是大数据产业的发起者和领跑者,也是大数据应用最深入的领域,金融、电信、交通、公共管理、医疗卫生等领域正在积极尝试大数据应用,从当前的发展来看,全球的大数据产业生态正在逐渐形成。
3 大数据产业的定位和价值实现途径
中国工程院院士倪光南认为,大数据从数据挖掘、商业智能发展而来,是信息技术发展的必然产物,因此大数据产业其本身属于第三产业; 同时他认为大数据产业不能一蹴而就,必须遵循科学的方法循序渐进。
大数据产业的发展需要数据科学的支撑,数据科学横跨多个学科领域,要形成对数据的洞察,在数据源及属性的选取、数据模型的选择、所采用的分析及验证方法都需要系统、科学的理论指导和方法论。图1 为大数据实施的方法论[10]236。
首先是业务需求定义阶段,要充分认识到其中蕴藏的机遇和挑战以及大数据在其中能发挥的作用和价值; 其次是大数据的应用分析,在这一过程中需对大数据的方方面面做全面的考察和度量,并与业界标杆进行比较,然后紧接着是大数据技术应用架构的设计; 再次是大数据技术切入和实施,根据不同的应用场景,选择不同的技术切入模式,如表1 所示[10]240; 最后是大数据的试用、评估以及对成功应用的推广,最终形成一个强大的大数据应用平台。现阶段,新兴的大数据产业通过大数据技术对数据的高速捕获和处理,进而对大量的、类型众多的数据进行分析,以获取信息的价值,提供更优质的服务,在未来大数据产业的价值将得到进一步凸显。
在大数据产业链中,天然具备海量数据的公司是数据拥有方,通常是政府机构、电网、石油公司等; 能提供大数据环境下数据处理能力及解决方案的公司是技术提供商,通常是咨询公司、技术供应商等; 能有效整合数据资源、提供面向行业分析的服务公司是数据服务方,通常是数据分析服务机构;能有效挖掘数据、利用数据并形成新的商业模式和商业服务的公司是数据应用方,通常是基于模式创新思维的公司。上述四者共同构成了大数据的产业生态链[11]。大数据产业的关键在于产业实践中的生产要素的数据化,并做到数据的准确、全量、实时和互联互通。
4 对我国大数据产业发展的建议
图2 为国内大数据产业链现状。首先,在大数据产业应用领域,国内的许多互联网公司已经处于比较好的国际水平,如国内的阿里巴巴、百度、腾讯、当当、京东等互联网企业,其在大数据应用领域已经开始崭露头角。其次,在大数据产业的技术领域和服务领域,我国企业要明显落后于很多国际企业,比如在提供网络基础设施与终端的企业里,我国的优秀企业以华为为主,在国际上比较有影响力的包括苹果、CISCO、三星等诸多知名公司; 在计算和存储方面,国际知名厂商包括Intel、IBM、EMC、Oracle、HP、微软等,而国内同类企业在此方面却要相差很远。此外,在大数据产业的发展上,我国还面临着大数据人才匮乏、关键技术依赖、创新动力不足等一系列问题。基于此,我国应在大数据人才的培养和储备、关键技术的开发和突破、创新体制的开放和优化等方面着重着力,以加快对大数据产业的布局,完善大数据产业发展环境,尽快抢占大数据产业的先机,更好更快推动我国经济在未来的发展。同时,我们也有理由期待,在众多国际厂商越来越重视我国数据市场的同时,我国的大数据市场也将很快产生本土化的大数据创新型解决方案和创新产品。
4. 1 大数据人才的培养和储备
大数据产业的发展离不开数据人才的参与,现阶段数据人才已然成为了各行各业的佼佼者,数据科学家将成为未来最重要的人才之一,因此数据人才的培养和储备就变得尤为重要。美国各大高校纷纷开设了数据科学专业及相应的课程,同时美国政府推出的面向高级工程专业等优秀人才的移民政策吸引了世界上一大批优秀人才。我国也应该在数据科学相关专业人才的政策引导方面进一步加强,同时加大国内相关人才的培养,如在高校的专业设置、课程设置、师资力量建设等方面进一步加强和优化;此外,我国相关机构包括企业在内等更是要创造良好的数据人才培训环境,助力大数据产业的发展。
4. 2 关键技术的开发和研究
大数据技术同样是大数据产业发展的重中之重,尤其是在核心技术的开发上,其将成为决定未来大数据产业发展地位的重要因素。当前盛行的大数据技术是以Hadoop + MapReduce为主的开源技术,其中Hadoop的分布式文件处理系统( HDFS) 是大数据存储框架,而分布式计算框架MapReduce是大数据处理的框架。开源技术在大数据产业中占据了主导地位,同时也对大数据行业作出了巨大的贡献,但基于开源技术带来的挑战是技术门槛降低和激烈的竞争,当前诸如谷歌、IBM、微软、Intel、Oracle等许多国际互联网公司纷纷推出了基于Hadoop的大数据集成产品,而我国企业在这一方面还存在不小的差距,因此在大数据行业中,还是要开发出企业自己的核心关键技术,这就需要加大技术研发投入和技术开发力度,并且要加强技术运营、技术维护及技术服务,争取在大数据技术市场中占领一席之地。
4. 3 创新体制的开放和优化
大数据产业的发展要求开源、开放的数据、标准和平台,形成开放的实践和创新体制,因此为使大数据产业更好更快发展,应创建良好的创新体制,鼓励创新、激励创新,不断优化和完善现有的创新体制,形成开放的创新文化。开放的创新文化和优秀的创新体制是保障大数据产业发展的动力和源泉,其可集众人之智、采众人之长,创新新技术、新产品、新模式、新服务,以此来促进大数据产业的创新和良性发展。
5 结束语
就目前来看,全球的大数据产业还处于发展初期,我国的大数据产业才刚刚起步。虽然大数据可以创造出巨大的价值,但大数据也有不完美的地方。首先是数据的质量。数据量大并不等同于数据价值大,反而可能会有更多的噪音数据和垃圾数据[12]。中国工程院院士汪应洛也认为,数据质量是大数据产业这座大厦的基础,如果数据质量不高、基础不牢靠,大数据产业就可能岌岌可危,甚至根本无从发展[13]。其次是对个人隐私保护的挑战。大数据时代需要更加完备的个人数据保护模式和保护机制。再次是样本的代表性。在调用大数据时,要注意样本和应用场景的适用性,切实解决实际问题。
大数据 篇5
【百度大数据交响乐 揭秘百度大数据的来历】近日,百度推出大数据奏鸣曲,运用百度指数平台分析20热搜事件的涨跌态势,科学绘制大数据生成一条年度热搜事件曲线,并由专业音乐家整理、谱写成曲。据了解,在过去的一年里,百度平均每天接收到超过50亿次搜索需求,用户的每一次搜索点击都成为这首奏鸣曲的音符,13亿人共同奏响了2015时代之音。
这首宏大的年度交响乐曲特别邀请国家著名作曲人张朝谱曲,中国国家交响乐乐团担纲演奏。据了解,这个乐团与新中国共同成长,曾演绎过《梁祝》、《黄河钢琴协奏曲》等经典作品,代表着中国交响乐的最高水平,这也是中国交响乐团首次与百度跨界合作。
这部奏鸣曲信息量庞大,通过艺术的形式把原本冰冷的搜索数据多元化地展现出来。整部乐曲共分为五大部分,第一乐章,2015,从回家开始;第二乐章,重新出发;第三乐章,离别和考验;第四乐章,跋涉中的荣耀;以及第五乐章,永不止步。
乐曲根据搜索指数的曲线抑扬顿挫、婉转起伏,让我们随着音乐不自觉回想起2015共同经历的时代记忆。 过去的2015,我们在行走中探索,在探索中改变,在改变中创新。科技的发展,让原本的绝无仅有逐渐变为生活中的习以为常。
大数据,大侦探 篇6
当时为银行服务的多是一些国外的风控机构,它们的数据来源更为广泛,而国内的数据往往集中在金融、电商等少数领域。经常和数据打交道的蒋韬发现,如果只拥有单一领域的数据,判断的维度有所局限,并且大多是在欺诈事件发生后才能列出黑名单。如果能搜集到全行业的数据,就有可能预判出嫌疑人。但国内的机构通常不愿意共享数据,哪怕是互联网巨头,要收集到自身领域之外的数据也并不容易。因为其他行业的巨头也会担心,现在看似毫无关联的公司,在未来很难说不会成为对手。
蒋韬想让数据流动起来。假如有一家机构不做电商、信贷、P2P等,并能在所有机构间承担风险共享风险传递的作用,那么价值会非常大。“这样就可以打破割裂形成的数据孤岛。如果各行业的数据能打通,不诚信、欺诈的行为就没有这么容易了。而要打通这些数据,实现风险的共享,只能够靠第三方的中立机构去完成。”蒋韬告诉《第一财经周刊》。如果能打通全行业的数据做建模,就能建立多个指标和维度,不仅可以发现诸如卡被盗刷的风险,还可以预先发现风险,提前拦截。
想明白了要做全行业的数据生意,2013年,他从阿里巴巴离职后创办了同盾科技。
这个想法让有着多年电商从业经验、明了欺诈给企业带来的困扰的吴海燕动了心。吴海燕明白,电商、互联网金融和O2O领域,是需要反欺诈服务的重点行业。她后来成为了华创资本的管理合伙人。2013年年初,互联网金融才刚兴起,国内还没有第三方风控出现,她判断这个事能做,于是和IDG一起,给了同盾科技千万级的天使投资。
2013年成立之后,这家总部位于杭州的公司在不到3年间,接入了超过5000家客户,完成4轮融资。目前,它主要服务金融领域,同时也涵盖航旅、电商和游戏等多各行业客户。
普通用户可能每天都在使用它的服务,也感知不到这家做风险识别和预判机构的存在。只有接入它们后台大数据的B端企业,才可能从每天变化的数据中去发现拦截建议的效果,继而更好地服务用户。根据不同场景,拦截建议不仅是在事后列出黑名单,更会在欺诈分子行骗之前,就把他们找出来。比如揪出羊毛党、锁定盗你卡的目标对象、挖出总是给你发送垃圾内容的供应商、鉴别电商中的虚假交 易等。
同盾科技总部背景电视上跳动的数字,或许能更清晰地解释这家公司目前在做什么。这块找不到任何开关或按钮,只能由专人登录安全系统来打开的电视上,显示的是一张中国地图。若存在安全风险,在地图上就会跳出红色的小圆点。你能很容易地根据小红点的数量,以及各类指标的跳动,监控当下的欺诈事件,并给出预警。不过蒋韬对这个每5分钟刷新一次的系统并不满意,他希望下一代的更迭能精确到实时。
有数据就能鉴别是谁在使坏,这件听上去很复杂的事情就是同盾科技目前在做的大数据风控—利用跨行业多维度的数据,为企业建立风控模型,然后为它们解决信贷风险和欺诈风险。用更直白的话来说,就是用数据来分析预判你是好人还是坏人,然后告诉企业你安不安全。
目前推出的“智信分”系统可以识别用户有多“好”,比如在申请一笔银行贷款时,背后就有这套模型给出的建议,根据用户行为判定信用等级,判断放贷或是拒绝。“反欺诈并不是将行骗者绳之以法,而是在欺诈行为发生之前就将其制止。”蒋韬说。目前,同盾科技鉴别刷单行为的准确率已经高达90%以上。当然,这些建议仅仅是给最终放贷的机构做参考,最终的决策权在使用同盾科技服务的机构手上。
要做到这些,关键在于数据和建模,而建模的基础是海量数据的收集。可是真正要做到基于公有云的数据收集,同盾科技内部的管理团队,纠结了一年多。
因为同盾创始团队来自阿里巴巴、PayPal等大公司,不少客户看中他们的技术能力,希望同盾科技能为它们做技术外包,也叫作私有云服务。比如开发一套软件连接到客户的数据库中,做后台分析。这些客户带着能帮助早期创业公司活下去的资金找上门,但条件是数据不能共享,因为它们多在金融领域,对数据“共享”极为敏感。同盾科技的目标却是打通数据做公有云平台,因此需要海量数据建立模型来监测欺诈分子的行为,然后鉴别并抓住他们,这才是实现大数据风控的基础。
蒋韬和他的管理团队知道资金对于一个创业公司有多重要。以一个二三十人的团队为例,最初融资到的千万级种子轮,在半年的时间就可以烧完。有了资金,意味着可以招更多更优秀的工程师优化模型,可以有现金流,甚至估值能更高。可私有云的方向和同盾科技想做公有云的方向背道而驰,并且,私有云尽管能挣钱,但是可复制性不高,每做一个项目都要投入大量的人力。
同盾科技的选择是两条腿走路,先把自己养活了,同时兼做数据储备工作。这也意味着它的数据收集之路并不容易。蒋韬和创始团队没有放弃公有云,它和私有云同时开发。
团队最初的订单几乎都来自蒋韬的朋友圈。靠着朋友介绍,同盾科技做了不少私有云软件外包。不过迫于无奈的生存也无意中锻炼出了研发团队的战斗力。最初的几笔订单,从技术产出、上线到客户认可,帮助团队完成了最初商业上的闭环,团队也学会了去和现在依然是主要客户的金融机构打交道。另一方面蒋韬也承认,如果一开始没有私有云,客户很难对同盾科技有信任感。2013年10月成立的同盾科技最初只有不到6人的团队,5个月后这个数据扩大到了近40人。
nlc202309091415
“免费”和“见效慢”是那时的关键词,只能从测试优化模型,通过时间积累数据,因此出现在蒋韬口中最多的词成了“优化”和“积累”。他把同盾科技的风控分为三大块:名单、异常分析和交叉验证。名单即最初的基础数据,基本只能靠网上公开抓取,比如把法院的公开信息列入数据库。而异常分析则不需要数据,可以自己做技术研发,比如通过浏览器来跟踪鼠标的轨迹和分析键盘的键入偏好等,这相对容易追踪。最难的是交叉验证,雪球需要滚起来才能变大,意味着只有接入数据的机构足够多,效果才能好。
“如果现在的效果是10,早期可能只有1,所以我们都是免费给公司安装试用。”蒋韬说,尽管早期的客户也并不愿意开放数据,不过在熟人+免费的双通道下,还是有公司愿意尝试。
有了数据后,接下来就丢给机器去学习。“你也不知道欺诈分子会干些什么,不知道具体的欺诈模式是怎样的,只能从一大堆用户行为数据中去分析。”蒋韬说。输入各种变量和维度,比如地点、登录的时间、所用的终端、刷卡的金额后,建模人员就能教会机器发现异常。以一个盗卡的模型为例,它的细分变量多达3000个。发现异常后,机器根据建模的维度综合打分,最后判断是否存在风险。数据的增长和团队研发能力的增强,让揪出欺诈分子的概率增加,误判优质客户的概率减少。
直到签下第一家大客户捷信后,同盾科技才第一次有了底气。当时为了说服这家总部在捷克、注册在天津、中国首批持牌机构之一的消费金融公司,蒋韬的团队花了10个月。
“测,只能硬测。”蒋韬回忆,整个过程就是不断测试调整,最后看测试的效果说话。目前,同盾科技和蚂蚁金服一起,是捷信在中国的战略合作伙伴。所谓测试,就是把同盾科技给出的风控结果和捷信自有风控的结果去对比,看预判和误判的成功率。比如判定结果为“拒绝贷款”的客户,在另一套模型中通过了贷款,并且在约定时间内还款正常,就是一个误判的结果。把同盾科技的数据模型和捷信的模型比对,如果预判和误判相减后的数字能够带来更多正向的收益,就是一个好的效果。
“捷信的风控其实已经做得非常好了,但我们的数据模型不是去跑赢它们,而是相互补充,有交集但是绝不交叉。这就是联防和协防的价值。”蒋韬说。
签下大客户,其他客户的拓展就容易多了,更多公司愿意尝试同盾的服务。和之前一样,同盾也是让它们先测试,看效果付费。得益于2015年互联网金融的集中爆发,同盾科技在这一年的销售数据涨了近7倍。蒋韬认为客户选择同盾科技的原因是,风控和反欺诈的服务让和用户贴近的普惠金融变得更便宜,能解决人员成本和征信成本居高不下的难题。
客户和数据的积累也进一步提升了效果的准确度。同类型的公司在不同的业务中,模型的建立也不同。比如汽车金融,买一手车是消费分期,二手车就是抵押贷款,并且每个客户要求的数据审批率都不同。汽车金融公司的审批率原先的自动化率只有约30%,其余都要靠人力审批,在不断修正数据后,现在可以提高到50%。“你首先要摸清这个行业业务的流程,甚至成为专业人士,才能根据反馈去建立模型。”蒋韬说。
作为一名创业者,蒋韬自己感觉到更多的是同盾科技的慢和纠结,他对同盾科技的发展速度并不满意。不过吴海燕认为“同盾发展得非常顺利”。今年4月,同盾科技又获得由尚珹资本领投、元禾重元跟投的3200万B+轮融资,距离上一轮3000万美元的B轮融资还不足一年,并且前期的启明创投、宽带资本、华创资本、IDG资本、线性资本等投资方均再次参与。
今年,蒋韬的目标是在5000家客户的基础上,在未来的3年内每年保持3至5倍的高速增长。在他看来,未来的发展空间还很大。毕竟,金融的核心是风控,把风控降低1至2个点,对于金融机构的获利相差甚大。而风控的核心是数据和建模分析,有了基础数据的积累,同盾科技的产品效果才会更好。
大数据 篇7
我理解的应用意识包括两个方面:一是有意识地利用数学概念、原理和方法解释现实世界中的现象,解决现实世界中的问题;二是认识到现实生活中的实际问题,并能用数学的方法予以解决。在整个数学教育的过程中都应该培养学生的应用意识,同时这些意识的培养应该从义务教育阶段做起,贯穿数学教育的始终。
现在我们正大步地走向“互联网+”时代,从为社会培养合适的人才的角度出发,必须从义务教育阶段进行培养和引导,现将大数据与初中数学涉及的概率统计部分相互联系起来,尤其对于数据收集的相关知识,我谈谈自己的认识与感悟。
一、关于普查与抽样调查的选择
在北师大版数学七年级上册第六章,数据的收集与整理第二节“普查和抽样调查”中给出普查和抽样调查这两种数据收集方式的概念,并通过具体例子说明了普查和抽样调查的特点,以及抽样调查时应该注意的问题。
课本在引入普查时,写到“为了准确了解全国人口状况,我国每10年进行一次人口普查”,这一点充分肯定了普查的准确性。在以往,普查需要大量的人力、物力、财力,而现在在大数据背景下,普查就变得更加容易。比如,我们可以较为轻松地统计出“双十一”当天,淘宝、天猫的各项消费数据,也可以在播放春节联欢会的时候,通过微信摇一摇等方式,准确地统计出参加春晚互动的人数,甚至是春晚收视率等问题。这些改变和便捷来自于大数据包括的4V里面的volume(数据量大)。在大数据背景下,原来一些实现起来比较困难的普查现在变得容易多了,同时因为这样的转变来自于生活,在教学时学生也就更容易理解。
书上在“想一想”中说明了抽样调查的优点,其优点是调查范围小,节省时间、人力、物力和财力,但其调查结果往往不如普查得到的结果准确。在教学时,教师应当肯定抽样调查的优点,并举例让学生感受和体会其优点。以春晚收视率为例,学生很容易就能想到应该选择抽样调查,但是在教学时,要拓展学生的思维,让他们知道对于这个问题,在大数据背景下是可以实现普查的。与此同时,教师也要避免另一种现象,就是学生一味地以为在大数据背景下所有的问题都可以选择普查来实现,而忽视了抽样调查。本节内容有这样两个例子:调查一批电视机的寿命和调查某种灯泡的使用寿命。针对这样的调查,我想即使是在大数据时代下,也应该选择抽样调查。
二、大样本一定能保证调查结论准确吗
在上面提到的普查和抽样调查一节中,书上的“读一读”以“大样本一定能保证调查结论准确吗”为题进行延伸阅读。以大数据的观念来看,普查是大数据下数据收集的方式,而大数据正是减少了抽样调查,才导致调查才结论的误差。
但是“大样本一定能保证调查结论的准确吗”,在延伸阅读中,学生可以了解到抽样调查时既要关注样本的大小,又要关注样本的代表性。一般来说,在样本具有代表性的情况下,样本增大,所得结果误差会减小,但是当样本达到一定程度之后,再增加样本,精确度的增加却很微小。这个问题同样存在于大数据背景下的数据收集方式,大数据背景下帮助我们完成普查,使得到的结论更具有准确性,进而更有效地做出相关决策。通过云计算等计算机技术的不断完善,大样本实现起来已经越来越容易,但是针对某些问题,其代表性是否会有所欠缺。例如,利用物联网来统计农民种植的蔬菜和水果的销路问题,大部分农村现在都可以完成网络覆盖,但是对于一些更加落后的地方,依靠相对传统的买卖方式的地方,是否在“互联网+”的统计背景下就有可能被遗漏,部分农户就没有被调查到,使得收集的数据在某方面失去了代表性。
大数据 篇8
一、高校学生管理大数据的内涵
(一)大数据的内涵
全球最具权威的IT研究与顾问咨询公司高德纳将大数据定义为需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产(2001)。麦肯锡环球研究院在其《大数据:创新、竞争和生产力的下一个前沿》报告中指出,“大数据”是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集(2011)。而《大数据时代》的作者维克托迈尔·舍恩伯格(2012)认为,大数据是人们获得新认知、创造新价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。
(二)高校学生管理大数据的内涵
信息技术的其普及与广泛应用,不仅推动了高等教育信息化的发展,同时也带来了学生学习、交流与生活方面的各种结构化的或碎片数据,大量数据的产生无疑将高校学生教育管理带入了大数据时代。高校学生管理大数据就是要整合校园信息资源,主动收集学生学习、生活和网络使用数据,充分利用大数据及其技术,分析和研究数据中蕴含的价值,进而促进高校学生教育管理工作创新。从这个观点出发,发展高校学生管理大数据,从揭示大学生学习、行为规律和高校学生教育管理规律,对推动高校学生教育管理工作创新与发展、丰富教育大数据理论研究具有重要意义。
二、高校学生管理大数据主要组成
目前,我国教育信息化从基础设施、数字资源、人才培训、关键技术及标准等方面都有了长足的发展。大部分高校在数字化校园建设的基础上,建设完成了完备的应用系统。信息技术的发展及其普及与广泛应用,不仅推动了高等教育信息化的发展,同时也带来了大学生学习、交流与生活方面的各种结构化的或者碎片数据,大量数据的产生无疑将高校学生教育管理带入了大数据时代,为高校学生管理大数据建设打下了坚实基础。
当前,大多数高校通过数字校园建设,形成了诸如学生行为管理系统、教务管理系统、图书借阅系统、校园财务系统、学生自主选学系统、精品课程平台、学生上网认证系统、校园门禁系统、学生校园消费查询系统等应用系统,在高校人才培养和学生健康成长方面发挥了重要作用。经过多年的运行,这些系统产生了大量数据,构成了高校学生教育管理大数据的主体。同时,学生在互联网和微信、微博等新媒体上产生的数据,也是高校学生教育管理大数据不可忽视的组成部分。根据笔者对这些数据的分析和研究,从数据的归属角度,把其初步分为下面几个方面:
(一)基础数据
这些数据主要涉及大量与学生相关的基本情况,诸如学生的基本信息、兴趣爱好、政治面貌、家庭情况、所属院系专业、入校成绩、是否外宿等数据。这些数据,往往反映了学生的学习基础、家庭背景等信息,掌握这些信息,将有利于针对性地开展学生教育管理和帮扶工作。
(二)学习数据
学校教务管理系统、精品课程学习平台等系统包括了学生选课数据、学生自主选学数据、学生课堂考勤数据、考试成绩、教师上课评价数据、学生参与讲座和学术报告的情况等有效信息,是学生学习行为的全面反映。图书借阅系统储存了学生所有借书信息,学生实践平台则记录了学生参与课外实践的数据。这部分学习数据蕴含了学生的学习兴趣和学习状态,可以成为学习推荐服务的重要参考。
(三)行为数据
高校学生管理系统是高校开展学生教育管理的主要信息化平台,其中蕴含了学生奖励信息、学生违纪信息等数据资源,这些结构化数据中蕴含了大量学生行为特征信息,可以作为学生行为分析的重要数据来源。
(四)资助数据
学生资助管理系统能够充分反映学生在校期间受资助的情况,学校财务系统则能够反映学生的缴费情况、勤工助学酬劳等信息,学生校园消费查询系统则能基本反映出学生在一定时期的就餐和其他消费情况,是分析学生家庭经济困难状况的很好参考。
(五)健康数据
校园网认证系统包含了学生经过学校校园网出口访问的所有网页信息,分析学生上网的目标网页内容,不仅能够反映出学生的兴趣爱好,同时也能够发现一些人格方面的缺陷。而学生心理健康管理系统等能够直接反映学生心理健康状况,为制定心理健康服务计划,帮助学生健康成长具有重要价值。
(六)社交数据
随着信息技术的普及,学生对使用网络和新媒体开展社交产生了浓厚兴趣。每天在QQ、微信、微博、传统的BBS等平台产生大量数据,这些数据不仅包含了学生交流的信息,也能够充分反映校园舆情,对掌握学生思想、心理等具有很重要的价值。
三、高校学生管理大数据建设思路
目前,对高校学生管理大数据建设的研究还很少,更多地是就高校大数据集成和典型应用方面的探讨。笔者认为,大数据时代运用大数据支持管理服务决策毋庸置疑。高校学生教育管理工作必须紧跟形势,运用好信息化技术和大数据这个方法论,全面更新理念,进一步树立数据意识,从顶层设计着手,认真组建专业挖掘团队,全面整合校内外数据资源,在健全安全机制的基础上,积极发展学生管理大数据,合理运用大数据的分析结果为工作决策提供数据支持。
从技术的角度讲,高校校园网中各个应用系统往往各自独立运行,加上互联网和微信、微博等数据的碎片化特征,要形成真正的大数据,还需要进一步制定政策,运用技术手段开展数据整合工作,通过全面整合,打通数据之间的壁垒,使沉睡的数据被重新激活,形成更大的价值。目前互联网技术已经非常成熟,加上近年来日益发展的云计算、云存储、NoS ql以及网络爬虫技术的发展,为高校大数据整合提供了技术基础。
从人才的角度,这些技术的应用,必须要有专门的团队支持。目前高校学生教育管理队伍难以满足数据驱动需求。因此要及时成立高校教育管理大数据工作领导小组,组建专门的数据收集团队和分析挖掘团队。运用计算机技术开展数据采集和数据融合,运用数学、统计学的原理开展数据挖掘与建模,形成预测和决策的数据可视化成果。把这些成果应用到高校人才培养中,实现个性化推荐学习资源、为学生量身定制学业计划、及时分析校园舆情影响、实时预测学生思想动态,将会有效提升高校学生教育管理的有效性。
从安全的角度讲,大数据时代如果不能确保数据安全,将会造成“大数据就是大风险”的可怕后果。高校教育大数据不仅整合了高校师生信息,也包括大量学生学习、生活和社交以及校园舆情方面的数据,将这些海量数据集中存储,虽然方便了数据分析和挖掘,但如果由于安全管理不到位造成数据丢失和损坏,则将引发毁灭性的灾难。同时黑客攻击或不当层面的数据公开,将会导致师生信息的泄露,给师生人身安全和校园声誉带来不良影响。因此,高校要在发展教育管理大数据的同时,切实加强制度建设,形成数据规范化管理,要明确数据管理的职能部门,制定严格的工作方案和预案,对什么数据可以公开,什么数据在一定层面公开,什么数据必须保密做出规定。同时也要对可能出现的风险建立防控预案,保障数据安全的同时,维护好师生和高校利益。
四、高校学生管理大数据的应用建议
笔者在总结现有研究的基础上,认为高校学生管理大数据主要在以下方面具有重要应用。一是建立教学资源推荐系统。通过整合学生基础数据和自主选学平台、图书借阅系统等数据,可以深入分析学生兴趣爱好与教学资源的关联关系,主动开展推送服务,不仅可以满足学生的学习需求,同时可以有效提升教学资源的利用率。二是建立学生行为预警系统。通过整合学生管理系统和教务管理系统,可以深入挖掘学生行为和学业之间的关联关系,建立相应的预测模型,对学生学业和行为进行预警,可以在问题发生之前采取相应措施,确保学生健康成长,顺利完成学业。三是建立学生心理健康预警与服务系统。通过整合学生基本数据和健康数据,可以及时筛查问题学生,主动开展心理健康疏导服务,把心理健康教育做到无形。四是构建资助认定与服务系统。通过整合学生基础数据、资助数据、行为数据等方面的信息,通过数据分析支持学生家庭经济困难认定,及时挖掘学生消费等信息,为学生资助服务提供数据支撑。五是建立校园舆情监测系统。通过整合学生社交数据,及时分析校园舆情影响、实时预测学生思想动态,将会有效提升高校学生教育管理的有效性。
参考文献
[1]维克托·迈尔-舍恩伯格.大数据时代[M].浙江人民出版社,2013
[2]邱启照,孙鹏.大数据时代高校思想政治教育的机遇和挑战[J].教育理论与实践,2016(9)
[3]梁家峰,亓振华.适应与创新:大数据时代的高校思想政治教育工作[J].思想教育研究,2013(6)
[4]“信息社会发展研究”课题组,张新红.中国信息社会发展报告2015[J].电子政务,2015(6)
[5]李怀杰,夏虎.大数据时代高校思想政治教育模式创新探究[J].思想教育研究,2015(5)
[6]胡晶君.大数据时代高校学生工作创新探究[J].太原大学教育学院学报,2015(4)
[7]桑庆兵.大数据在高校的应用与思考[J].南通纺织职业技术学院学报,2013(2)
[8]胡树祥,谢玉进.大数据时代的网络思想政治教育[J].思想教育研究,2013(6)
[9]张燕南,胡继岳.关于大数据应用于教育的思考[J].中国电力教育,2013(32)
大数据带来大突变 篇9
美国政府通过大数据研发计划提升美国在科学发现、环境与生物医药研究、教育和国家安全等方面的能力。
中国已将大数据引入金融、军事等重要领域。大数据时代, 将世界万事万物通过数据化, 让人们在数据利用中优化现实操作和行为, 令全球系统的运行更为高效。
从物质世界到数据世界, 这是一个广阔的天地。
大数据时代的核心是什么?大数据时代的核心词是开放与融合, 以及“一切皆可数据化”的思维。现在很多公司讲得更多的是“数据大”而不是大数据。大数据应该是完整、综合开放的。
政府通过大数据网络“Datagov”, 公开了数以十万计的开放数据库, 建立了Y76几十个国家参与的开放政府联盟, 将社会公共数据对任何第三方开放。这将成为一种潮流。大数据是大趋势, 无论个人、企业还是政府都会被卷入。
大数据时代, 需要新的逻辑和思维, 需要想象力。现代信息技术已证明;一切皆可数据化, 小到“上帝粒子”大到整个宇宙, 都是由数据化的信息构成。人类社会的各种行为也可以数据化, 几乎所有的问题都能通过数据化的方法解决。
值得指出的是, 大数据时代的成本, 绝大部分已沉淀在历史中, 并分解于整个社会系统。甚至在工业社会之前, 世界就带有大量的数据。进入互联网时代更是积累了数据的收集、存储和分析处理的各种能力。现在大数据仍处于萌芽的状态, 未来对实体经济和商业的变革将显著发生在以下几个领域:
首先是医疗健康领域。以往的标准化平均值治疗, 将向精确化、数字化医疗转变。通过数据化及传感设备, 可以进行精确的治疗, 甚至器官再生。
其次是制造业。以目前3D打印为代表的数据化制造, 是种个性化的、全新的制造法。不需要模具, 就能够做到不同材料的无缝对接。甚至以往难以制造的东西 (比如人体器官) , 也可以通过数据化方式还原制造。这种新兴的数据化制造, 从数据到实用的转化都会进入低成本、大规模、打破时空界限的全新历史阶段。
三是金融、航空等行业将完全电子化, 比如依托大数据, 可以准确预测机票价格的走势。
大数据 篇10
近年来, 大数据成为全球关注的热点, 是国内外学术界、产业界和应用行业普遍关注的热点研究领域, 且已经在国内外掀起了一个空前的研究热潮。在2015贵阳国际大数据产业博览会上, 国内首个大数据领域专业科技期刊《大数据》 (Big Data Research, BDR) 正式首发。
《大数据》编委会主任委员、CCF理事长郑纬民, 《大数据》编委会副主任委员、中国科学院计算技术研究所所长助理程学旗, 《大数据》编委会副主任委员、人民邮电出版社总编王晓丹, 贵阳市市长助理、大数据战略重点实验室主任、《大数据》编委会委员、贵阳市工业和信息化委员会副主任冯守明, 及《大数据》期刊编委、北京信通传媒有限责任公司代表、业界专家及媒体等出席了创刊仪式。
据王晓丹介绍, 《大数据》杂志全面聚焦大数据产业, 关注和反映全球大数据的发展趋势, 展现大数据的脉络, 及时报告国内外的大数据研究成果, 为业界提供一个开放的大数据研究和交流平台, 以开放创新的姿态拥抱大数据时代的到来。
《大数据》双月刊是中国国家新闻出版广电总局审批通过的大数据领域的首批科技期刊。《大数据》由中华人民共和国工业和信息化部主管, 人民邮电出版社主办, 中国计算机学会大数据专家委员会学术指导, 北京信通传媒有限责任公司出版, 数博会秘书处协办的科技期刊, 面向国内外公开发行。主要栏目包括聚焦、专题、研究、应用、论坛和动态等。
“大数据”显大身手 篇11
据了解,自2012年以来,海珠区检察院就逐步探索在自侦办案中运用大数据构建可视化交互系统,随着可视化交互系统的深入应用,“一体化”办案工作效率有较大提升,3年来共查办职务犯罪案件253件273人,其中窝串案占立案总数的60%以上、大要案占立案总数的50%以上。 “办案人员外出侦查活动时携带这种交互终端,能实时将现场的高清语音、视频数据传输回检察交互系统 ,指挥员坐在办公室中可以同时对审讯、侦查等多个传输信号进行浏览、研判,还能发出远程指令,就跟现场指挥没什么区别。”该院反贪局副局长徐秋华介绍。
据悉,该院积极利用“大数据”建设探索新路径。整合2010年以来的案件信息、开庭、接访等数据近50个类目4万多项纪录,在全面掌握各类犯罪的案件信息基础上,对数据呈现集中的行业和领域及时作出风险预警,提出准确的犯罪预防对策,精准、有效服务社会管理大局。
该院综合预防科科长陈菲影介绍,“依托大数据系统,我们对近年来查办的广东省内70多件科技信息系统贿赂案件数据进行量化、统计、模型等分析,撰写《惩治和预防科技信息领域执法犯罪专项报告》,由于数据应用的全面、准确、针对性强,专项报告受到相关部门的高度重视,推动了科研资金管理制度改革”。
大数据 篇12
大会重点解析了全球调研白皮书《《分析:价值的蓝图》。作为IBM商业价值学院迄今为止最为全面的大数据与分析商业行为调研,该白皮书揭示了“分析为要”的大数据成功实践之道,以众多行业案例阐述:企业如何从大数据中获得商业价值和转型动能。作为结论性成果,白皮书指明了提升大数据实践成果的“三大要素”:战略、技术和组织。
IBM大中华区大数据和分析及新市场总经理,全球企业咨询服务部合伙人、副总裁Jason Kelley先生表示:“经过过去几年的认知和探索阶段,企业已经逐步明确数据作为二十一世纪新自然资源的巨大价值。大数据与分析成为提升企业竞争力的绝对优势,进行转型和创新的巨大动力,和构筑‘智慧的企业’的坚实基础。作为大数据领域的领导者,IBM端到端大数据与分析能力业已帮助全球超过30,000家客户获取更大的商业回报。2014年,IBM将持续升级在大数据方面的投入,一方面继续深入在金融、电信、医疗、零售、制造等各行业的实践,另一方面增强大数据与分析与云计算、移动、社交等热点趋势的融合,以及实现认知分析与大数据应用的不断融合。”
战略、技术、组织——“三大要素”
5年来,IBM一直将“了解如何从数据中创造价值”作为分析研究的重点,并在该领域不断获得突破性成果:从2009年将分析技术定义为战略资产,到2011年实施分析、掌握分析,到2012年阐述大数据基本原理,再到此次调研白皮书《分析:价值的蓝图》,正式揭示了企业如何从数据和分析中提取价值,获得显著回报。
通过对全球70个国家各种规模组织的900位业务和IT主管进行采访,报告提出了“提升大数据实践成果的三大要素”:“战略”、“技术”、“组织”。报告表明:分析实施战略要有助于实现组织的业务目标;现有技术要支持分析战略;不断发展的企业文化要让员工能够利用技术采取行动,并与战略保持一致。正确协调这三大关键要素,才能创造有形的价值,并取得基于结果的成效。
IBM全球企业咨询服务部战略与分析服务副合伙人段仰圣先生表示:“创建分析蓝图是发掘数据和分析洞察的第一步,通过一致的战略、技术和组织结构,企业可以培养目的感、构建面向未来的技术架构、激励成员快速采取行动,进一步发掘大数据分析所提供的巨大潜能。此外,为了充分发挥大数据的价值,企业需要像首席数据官和首席分析官这样的新角色帮助公司建立企业范围内的数据战略,以此增加竞争优势。”
“分析”为要、立足“需求”
据IDC预测,2014年大数据市场价值将达到161亿美元,比整个IT市场的发展速度快6倍。应对大数据、利用大数据成为企业重要需求。“分析”作为实现大数据价值的核心,成为企业获取价值、赢得竞争的决定性抓手。IBM在业界最全面的分析能力基础上,有力融合认知计算基因,能够涵盖所有数据类型和关键业务流程,帮助企业更加高效的打造大数据价值蓝图。
同时,企业业务层对于大数据的认知正在不断攀升,以业务目标为基础构筑大数据与分析蓝图对于企业而言愈加重要。《分析:价值的蓝图》调研结果显示:四分之一的CEO和COO提倡使用大数据分析(24%),该比例从2012年起增长了10%。基于多年来持续不断的研究和实践,IBM针对企业真实需求,提出实现大数据战略的“六大要务”:通过洞察客户和定制营销、建立新的业务模式、革新财务流程、管理风险、优化运营规避欺诈和降低IT成本——这六大要务也将同时成为企业利用大数据分析实现价值的重要途径。
IBM大中华区大数据中心总监王晓梅女士指出:“在未来的大数据与分析实践中,IBM将进一步帮助企业把分析注入关键业务流程,从‘六大要务’角度解析业务需求,并导出对应的大数据与分析战略蓝图。当前,我们将重点推行该六大要务中对于客户洞察和流程革新的指导,帮助企业通过使用社交媒体分析等进行客户关系管理、市场营销决策,通过利用预测性维护、实时预警等进行财务等运营流程的优化。”
IBM软件集团大中华区大数据及智慧地球解决方案总监李永财先生在大会上详细解析了IBM在全球和亚太市场针对零售、公共事业、金融等行业的实践经验,李永财先生表示:“作为业界唯一集咨询、服务、软硬件等综合能力于一体的厂商,IBM将成为中国企业值得信赖的合作伙伴,帮助各行业客户在大数据与分析技术和理念支持下实践六大要务,获得可观收益。”
IBM大数据与分析能力再升级
伴随大数据而来的是认知计算的时代。在认知运算时代,商务的新视野将是“智慧的企业”,企业目标从“以最低成本做产品”,转向“对客户最大化的价值”。认知计算系统能够通过辅助(Assistance)、理解(Understanding)、决策(Decision)、洞察与发现(Discovery),帮助企业更快的发现新问题、新机遇和新价值,实现以客户为中心的智慧转型。2014年初,IBM投入10亿美元组建独立的Watson部门,率先于业界步入前瞻认知计算实践。
本次发布会上,IBM正式宣布推出强大的大数据与分析平台Watson Foundations。作为IBM大数据与分析能力的全面整合,Watson Foundations在原有的IBM大数据平台上进行了至关重要的提升。其最为显著的增强特性包括:1)能够基于SoftLayer部署,将IBM大数据分析能力升至云端;2)将IBM独有的大数据整合及治理能力延展至社交、移动和云计算等领域,3)让企业能够利用Watson分析技术快速、独立的发掘新洞察。作为IBM大数据与分析领域的一大技术创新,Watson Foundations将帮助企业实现阶段性的大数据能力部署,为企业打造迈入认知计算的通途。
此外,IBM正在不断增强大数据与分析能力。截止目前,IBM在大数据的投入已经超过240亿美元,拥有超过1万名数据分析咨询师,400多名数学家,数千项专利。从2005年开始,IBM并购了35家以上相关领域的公司,其中包括最新收购的高速大数据传输工具Aspera、客户行为分析工具The Now Factory,以及备受瞩目的DaaS (数据库即服务)供应商Cloudant。
【大数据】推荐阅读:
大数据推荐数据模型08-27
大数据与数据挖掘10-15
大数据时代的数据观05-14
大数据大财务10-22
大数据和数据化思考05-21
大数据时代数据库技术09-10
大数据时代的数据挖掘09-26
大数据时代的数据管理11-09
数据分析师和大数据10-18
大数据推动大物流09-19