大数据与数据挖掘(共12篇)
大数据与数据挖掘 篇1
0 引言
现代产业与信息技术的发展使数据资源成为越来越重要的生产要素。爆炸式增长的数据量对多源、异构、高维、分布、非确定性的数据及流数据的采集、存储、处理及知识提取提出了挑战。大数据思维就是此环境中的产物,它并不局限于传统的基于因果关系的逻辑推理研究,甚至更多地通过统计型数据的搜索、分类、比较、聚类、关联等的分析和归纳,关注数据集内隐藏的相关性(支持度、可信度、关注度)。图灵奖得主吉姆·格雷将这种数据密集型的研究范式从理论科学、计算科学、实验科学中分离出来,成为“第四范式”[1]。
2008年《Nature》推出Big Data专刊[2]后不久,文献[3]将大数据计算称为商务、科学和社会领域的革命性突破。2011 年,《Science》的Dealing with Data专刊阐述了大数据对科学研究的重要性[4]。同年,麦肯锡公司发布关于大数据的竞争力、创新力和生产力的调研报告[5],分析了大数据的影响、关键技术及应用领域,进一步燃起学术界和产业界对讨论大数据的热情。美国政府于2013年3月宣布投资2亿美元启动“大数据研究和发展计划”[6],将其上升为国家战略。大数据被认为是继物联网、云计算之后,IT行业又一次颠覆性的技术变革。
云计算是利用互联网实现随时、随地、按需、便捷地访问共享资源池(如计算设施、应用程序、存储设备等)的计算模式[7],关注计算能力,并与关注知识提取的大数据技术相得益彰。
电力是社会发展的重要基础。随着全球能源形势的日益严峻,各国大力开展了智能电网的研究和实践[8,9]。其目标是建设一个覆盖整个电力生产过程,包括发电、输电、变电、配电、用电及调度等环节的实时系统,以支撑电网的安全、自愈、绿色、坚强及可靠运行[10]。而其基础则是电网广域全景实时数据的采集、传输、存储、分析及决策支持。
而愿景中的电网则是网架坚强、广泛互联、高度智能、开放互动的智能电网。文献[11]分析了智能电网大数据的产生与特点,指出已有的数据处理技术在智能电网的数据存储、处理和展示等方面所面临的挑战,已成为智能化发展的制约因素。 文献[12]探索了基于云计算的智能电网信息平台的可靠存储和高效管理。文献[13]研究了用户侧电力消费的大数据,从中挖掘其用电行为,以改进需求响应系统。
以电为核心的大能源体系正在成为全球能源的发展战略[14]:一次能源的清洁替代与终端能源的电能替代都必须依靠电网的输送才能大规模地实现。文献[15]指出,电力可靠性问题的顶层设计应该以大能源观为指导,不能局限于电力系统自身,还要分析其与一次能源、外界环境、管理政策、用户需求与方式变化间的交互,研究广义阻塞对电力系统安全性与充裕度的影响。
电力、能源及广义环境的多源、多态及异构数据的数量呈指数级增长,需要有相应的广域采集、高效存储和快速处理技术予以支撑。而从这些数据中挖掘知识及价值应用则使电力大数据的话题融入大数据的研究热潮。本文及其续文是笔者关于如何将电力大数据的思维应用到电力的广义可靠性、大能源安全及环境安全方面的思考。
1 大数据概念的演绎
1.1 定义
对“大数据”还没有统一的定义,通常指量大、多源、异构、复杂、增长迅速,无法用常规的方法处理的数据集合[16]。许多数据往往只在统计学观点上具有某种相关性,而不一定像传统应用的数据那样具有严谨的因果关系。对这样的统计关系型数据,只有当反映一个真实问题的数据量达到能在一定程度的统计意义上描述其真实面貌时,才能有效地提取知识,支持决策。而对于常规的因果关系型数据来说,数量的大小往往仅影响到计算资源,而与提取知识的方法关系不大。
因此,大数据与小数据之间并无绝对的界限,而是相对于目标问题而言的。大规模的数据量只是大数据概念的特征之一,也不应该用海量的规模作为大数据的必要条件。
大数据技术涵盖了从信息产生、采集、存储、转换、集成、挖掘、分析、计算、展示、应用及维护等数据全生命周期管理过程[17],需要具备从不同类型的多源异构数据中,快速提炼出有价值信息的能力。
1.2 基本特征
数据是以编码形式对自然现象、社会现象、试验仿真结果及经验的记录,包括数字、文字、图像、声音等形式。与传统数据相比,大数据具有四大显著特征4V,即量(Volume)、类(Variety)、速(Velocity)、值(Value)[18]。“量”是指数据容量足够大;“类”是指数据种类呈现多源多态特性;“速”是指实时性要求高;“值”是指数据价值密度相对较低。在数月的监控视频中,可能仅1~2s的画面有用,但通过关联数据的挖掘、分析和提取,却可能获得很高的信息价值。
一般认为,数据规模或复杂程度超出了常用技术按照合理的成本和时限来处理的能力,就可称为大数据。笔者认为如果统计型数据量对于具体目标问题来说,已经具有统计意义,就可以用大数据思维来处理。若为大数据设立数百TB的阈值,必将大数据思维束之高阁,扼杀了其广泛应用的生命力。
除了从因果、统计及博弈等数据关系的视角来对数据类型分类外,还可以按数据结构的视角将其分为三种类型:①结构化数据,即可以用二维表结构来逻辑表达的行数据,关系型数据库是其有效处理工具;②非结构化数据,是一类不能用有限规则完全表征与刻画的异构性数据,如图像、音频和视频等信息,它们之间不存在直接的因果关系,存在不相容性及认知的不一致性;③半结构化数据,介于上述两种结构之间的数据,可以用树、图等模型表达,如Web、办公文档及电子邮件等信息。据统计,随着社交网络、传感物联及移动计算等新技术、新渠道的不断涌现,企业中的半结构化或非结构化数据占比越来越大,有的已达80%。
1.3 思维方式
大数据技术的思维方式是:将采集到的经验与现象实现数据化与规律化,在继承传统的统计学、计算数学、人工智能、数据挖掘等方法的基础上,从单一维度转向多维度统筹融合,开发知识处理的新方法,从更深刻的视角,以更高的时效发掘多源异构数据,从而发现新知识和新规律,并实际应用的方法学。
若可以用简单的表达式直接描述某问题的结果与变量之间的关系,那么即使其数据量很大,也不一定属于大数据思维。当数据之间没有或还不能严格描述其因果关系,而数据集已相对地具备统计意义,就需要并可以采用大数据思维来处理。例如:对于一个市场调查的数据集,如果仅仅求取人群对某种商品的需求分布,那么思维方法并不会因为数据集是否海量,而改变常规的数据处理思维。但如果要从人群对该商品众多技术、经济、全程服务特性等各方面要求中提炼出有助于提高企业竞争能力的决策支持,那就需要有新的思维方法,包括信息挖掘与利用的思维、模式及方法,以帮助人类获得更深刻的洞察力。
关注统计关系的思维方法,同样可以应用于有限数据集上[19],只是其结论的可信度可能受到影响。
1.4 大数据技术的挑战
1.4.1 大数据的采集与集成
利用各种传感器及终端,采集反映物理世界、市场经济与人类行为等现象的静态/动态的异构数据,成为人、机、物三元世界的信息纽带[20]。其挑战主要体现在:①从结构化数据为主,向结构化、半结构化与非结构化的三者融合的变革;②数据来源的多样化,特别是移动终端的广泛应用,使大量数据需要同时带有时间与空间的标志;③有用信息被淹没在大量无关或弱相关的数据中,或需要处理低质量及局部缺损的数据。
1.4.2 大数据的存储
大量多态异构数据的高效、可靠、低成本存储模式是大数据的关键技术之一,对多源多态数据流之间的交互索引与转换效率影响很大。
数据压缩技术可以减少数据传输量及提高存储效率,但也增加了数据处理环节及计算负担[21]。分布式存储要权衡对存储空间及实时性的影响:对实时数据采用实时数据库或内存数据库;对核心业务数据采用传统的并行数据仓库系统;对大量的历史和非结构化数据采用分布式文件系统。
算法在处理复杂结构数据时相对低效,故希望事先为复杂结构的数据建立索引结构来帮助搜索,并合理地将非结构型数据结构化。
1.4.3 大数据的分析
需要关注大数据的形态描述、基本运行规律及其可控性。其中,最复杂的是人类社会行为信息,其决策行为必须与物理系统及信息系统相结合。
目标领域的信息若能与关联领域的信息相结合,则不但知识量得以增加,而且更有可能揭示综合性、交叉学科的未知知识,甚至从统计型数据中发现其(准)因果关系。知识的涌现性反映在模式、行为和智慧上。例如:将提高风机效率的研究与气象信息、电网信息联系,其效果将大大提升。大数据与云计算为之提供了数据资产的保管、搜索的技术,但也不是数据越多越好,而信息的提炼与知识的发现一般很难通过直观方式的分析和解读来获取。
数据驱动的分析方法包括:聚类、判别、回归、识别、隐变量、主因分析、时间序列。需要处理大规模的不定解问题,及必要时信息的补充问题,利用特征的相关性来发展统计学,有效地表达高维随机变量函数的联合概率分布。
用以发现知识的技术有:遗传算法、神经网络、数据挖掘、专家识别、回归分析、聚类分析、关联分析、数据融合、机器学习、自然语言处理、情感分析、空间分析、时间序列分析及其他计量学方法。一个例子是Google采用机器学习和神经网络来分析服务器群的数据,掌握大量变量之间的交互。神经网络在无显式编程下自适应学习,大大提高服务器群的效率,发现普通人注意不到的复杂互动关系。
随着大数据的应用从离线走向在线,甚至实时,所面临的系统复杂性、数据复杂性和计算复杂性挑战更为严峻。目前虽然出现了一些较为有效的方法,如流处理模式、批处理模式,及两者的融合[22],但仍未有一个相对普适的(准)实时的分析处理框架,在合理精确性的前提下实现快速的随机优化。
1.4.4 大数据的易用性
易用性应该贯穿在大数据的集成、存储、计算、分析,乃至展现等整个业务流程[23]。从技术层面看,可视化、人机交互及数据起源技术都可有效提升易用性,但仍存在元数据的高效管理的难点。元数据是关于数据的组织、数据域及其关系的信息,是描述信息资源的重要工具。
1.4.5 大数据的安全性
数据可靠性和通信网络安全性至关重要。必须研究各种广域量测数据和仿真数据的完备性、适时性和价值的评估技术,研究在广域信息不完全条件下的分析、控制技术。
“8·14”大停电前的几个月,北美电力可靠性委员会(NERC)警告说,随着电力业务的复杂化,越来越多的电力公司不遵循2002年发布的非强制性的安全导则,致使一些数据采集与监控(SCADA)网络被蠕虫破坏。大数据安全是一项包括技术层面、管理层面、法律层面的社会系统工程,其保障体系的框架由组织管理、技术保障、基础设施、产业支撑、人才培养、环境建设组成。应该研究数据源和传输的可靠性,研究信息系统故障或受到攻击时的行为,以及信息的阻塞、淹没、丢失和出错对大能源可靠性的影响。
移动互联时代中,人们在不同场合产生各种数据足迹;大数据技术将大量行为信息聚集在一起,就很可能暴露其隐私。由于尽可能地获取信息本来就是应用大数据技术的目的,故与隐私权的保护存在着矛盾。如何协调共享与隐私,需要制度与监管的保证。
现有的数据安全保护技术主要针对静态数据集[24],包括开放与防御的平衡,防止数据被窃取或篡改。但仍需要解决动态信息的安全性问题。
1.4.6 大数据的应用
大数据学科的兴起与人类需求密切相关,其中的信息挖掘及知识提炼环节必须与待求解问题紧密结合,而应用环节则是大数据技术发展的动力与归宿。因此,大数据研究应该遵循问题导向、需求牵引及数据共享的原则。必须结合具体的目标问题,将采集到的低价值的大数据加工成高价值的思想或知识,大数据技术才有生命力。若没有应用企业的深度参与,若不能按照商品的规律运行,大数据技术就难以真正取得收效。此外,若没有各管理部门对数据共享的落实,大数据技术也只能是纸上谈兵。
知识作为资源,需要像物质资源那样分配及流通。为此,需要对知识产品定价,并从数据使用的视角揭示信息流与科学活动的内在规律。
目前对大数据应用的关注,主要集中在商业与服务业这些以统计关系为主的领域[25],较少涉及具有较强因果关系的领域,如电力系统及能源市场等领域。笔者认为,是否能成功地将统计关系、博弈关系与因果关系取长补短,是大数据技术能否扩大应用领域的一个关键。
2 电力大数据
2.1 问题的提出
从能源系统看,它包括电网和非电的能源网两部分;电力系统应该在能源的清洁替代与电能替代中有效地承上(一次能源)启下(终端能源),兼顾左右(与其他二次能源协调)。
从信息系统看,它包括专用通信网与互联网(Internet)两部分。专用网用于对信息安全性或实时性要求高处,但由于非开放式的接入,故不适合与广泛用户的互动;互联网用于开放场合,但信息安全及实时性差。显然,两者对于信息系统来说都不可或缺。
能源革命需要的是能源系统的全部组分与信息系统的全部组分的深度融合[26],即大能源系统与大信息系统组成的信息能源系统,而不是局限于它们的某个子集之间。但是,智能电网的研究范畴基本上局限于能源系统中的电力系统与通信系统中的专用网[27],因此其信息物理融合的概念也就局限于“电力生产信息+电力系统”。作为能源革命重要环节的“一次能源系统及终端能源系统”,以及作为信息革命重要环节的“网络金融及需求侧参与信息”却并没有得到应有的重视。
显然,目前的智能电网框架中的专用通信网的功能需要从电力系统扩展,不但涉及各种非电的能源环节,而且涉及相关的非能源环节,以更好地支持对电力可靠性及经济性的研究,并支撑综合能源安全、能源经济安全及环境安全。另一方面,开放的网络经济及广泛的用户参与都需要互联网的支持,互联网数据的管理与挖掘成为非常重要的任务。
整个能源行业在转型发展中面临的机遇和挑战,来自一次能源的压力、环境安全的紧迫性、电力系统内外复杂性的增加、运行环境及扰动事件的不确定性与风险的增大、经济与技术的发展、市场改革的要求。为了应对上述挑战,必须提高数据的及时性、完整性、一致性及信息安全防御能力,提高对数据的管控能力,消除数据壁垒、存储无序且不一致的现象,完善对外部环境、基础设施及人才队伍的掌控。
从传统的电力数据演变为电力大数据,跨领域的时空扩展将电力系统的界面条件从确定性变为时变性,同时也增加了多时间尺度的动态复杂性[28]。涉及各类数据的采集、集成、存储、管理、知识挖掘、决策支持、可视展现等技术,也反映了电力及综合能源数据的管理、知识的挖掘和应用等一系列推进能源生产、转换、输送、消费方式的创新思维。其中的互联网数据大多为传统数据库不支持的非结构化类型,包括图片、视频、音频、地理位置信息、网络日志、博弈行为、金融动态、政策法规。数据的在线或实时处理,往往呈现出突发及涌现等非线性状态演变现象,难以预测。
为此,信息创新必须与能源革命在更高层次上深度融合,特别是在一次能源中的清洁替代及终端能源中的电能替代上,不但将协调优化的概念提升到综合能源流的范畴,而且推动电能更主动发挥在一次能源与终端能源之间的核心纽带作用,实现能源生产模式与消费模式的革命。
但是,将大数据技术局限于互联网数据也是片面的。通过专用网或仿真网获取的数据,包括智能电网概念中已涉及者,以及有待外拓的非电能源领域与非能源领域中的数据问题,同样存在大量的挑战。既然讨论的是信息物理融合问题,那么其框架就更不应该在信息系统内部或能源系统的内部设立藩篱。
当前的研究都在一定程度上受限于物理系统中的藩篱或信息系统中的孤岛。例如:①稳定性与经济性的研究都针对给定的边界条件,不能真实反映上下游环节的变化对电力系统的影响;②充裕性问题被粗犷处理为固定比率的备用容量,无法适应大规模不确定性的可再生能源及充放电用户的入网;③决策过程基本无法考虑博弈行为的影响;④忽视了信息系统本身可靠性的影响;⑤缺乏对电力系统外部环节的自适应能力。
要突破上述藩篱与孤岛,就必须遵循以电力系统为核心环节的大能源系统在大数据时代下的发展理念,顺应管理体制及技术路线的变革。
2.2 电力大数据的特征
一方面,电力大数据具有大数据的共性,包括目标领域向其他相关领域的扩展,以及数据类型向非结构型及非因果型数据扩展,时间维度向多尺度的流数据扩展。由此形成大量的异构异质数据,包括数字、文本、图形、图像、音频、视频等静态和不同时间尺度的动态数据,以及大量统计关系与博弈关系的数据,都需要快速处理。
另一方面,电力大数据必然继承了能源行业数据的特征,包括大量的因果关系数据、高维的时空数据,广域的监测控制,快速的时间响应及实时控制数据。除了电力系统的状态外,还需要获取并分析相关领域的数据,并处理部分数据缺失时的不确定性。
运行工况或故障场景都会影响系统的稳定性和控制策略。中国的电网现在已普遍实现了在线的量化分析功能,按实测工况和典型故障来指导预防控制,并向自适应的紧急控制与系统保护发展[29]。但若要有效地应对极端自然灾害环境,则还需要采集并处理大量非结构型的视频、语音、图片,并与电力系统分析功能有机结合。大规模间歇性可再生能源(RES)与电动汽车(EV)的入网对电力充裕性与备用调度提出挑战,要求大大提高对风电、太阳能发电及EV充放电的预测精度,这就需要处理大量非结构型的地理及交通动态数据。为了应对相继故障,基于常规因果关系型数据的分析算法也应该解决多米诺效应的演化路径及实时评估的经典难题。
2.3 电力大数据的类型
除了按数据结构等大数据概念来划分电力(能源)系统大数据,还存在其他视角,列举如下。
1)按业务领域,电力大数据可分为:①规划运行类,包括电力规划、电能生产、运行监控、设备检修等数据;② 企业运营类,包括企业发策、运营、电力市场、用户信息等数据;③企业管理类,包括人财物资、资本运作、企业资源计划(ERP)管理、协同办公等数据;④非电的能源类,包括各种一次能源、非电的二次能源、终端能源使用模式等数据;⑤非能源类,包括气象、环境、碳资产、宏观经济政策等数据。
2)按时间维度可分为:①背景及法规数据;②历史数据;③调查及预测数据;④在线实测数据;⑤仿真推演数据。
3)按数据采集来源可分为:①书本及文档;②专用网数据;③互联网数据;④问卷及调查;⑤交互博弈及仿真结果。
2.4 电力系统的数据量
常规SCADA系统按采样间隔3~4s计算,10 000个遥测点每年将产生1.03 TB数据(12B/帧×0.3帧/s×86 400s/d×365d×10 000遥测点);广域相量测量系统的采样率为100次/s,10 000 个遥测点每年将产生495 TB数据。美国PGE公司每个月从900万个智能电表中收集超过3TB的数据。国家电网公司的2.4亿块智能电表,年产生数据量约为200TB,而整个国家电网公司信息系统灾备中心的数据总量,接近15 PB。 以2004年山东系统(97台机、462条母线、702条支路)为例,设在线每5min对220kV以上线路的三相永久故障分析一次暂态稳定性,仿真时长10s,仿真步长0.01s,则一年内将产生1 092TB的数据量。当大规模的间歇性分布式可再生能源入网后,发电侧计及气象数据的实时监控的数据量比传统发电成倍增加。智能配电、智能电表、电动汽车和用电技术的发展也大大增加了需求侧的数据量。电力企业的精细化管理,与一次能源、环境、交通、市政等外部系统的联系日益深化,对数据量的依存度也越来越高。
2.5 电力大数据对电力可靠性的支撑
整合各种广域系统采集的静态和动态数据,包括雷电场、台风风力场、山火场等非结构型数据与常规的电力数据及仿真信息相结合,从所获的现场实测或仿真得到的时间响应曲线中提取深层知识。以支持稳定性与充裕性的量化分析及自适应控制,协调故障前的预防型博弈,故障后瞬时的故障隔离和预测型紧急控制,检测到违约症状后的校正控制,以及系统崩溃后的恢复控制。在此基础上,综合防御框架还应该实现多道防线的时空协调,通过协同各道防线和各种控制手段,最大限度地减少大停电的风险。
信息的可靠性是分析和决策的物质基础;机理分析和量化分析则通过数据挖掘来深刻掌握电网的行为特性[30];正确的决策是为了能以最小的风险代价来最大限度地满足电力需求。互为补充的相量测量单元(PMU)、远方终端设备(RTU)和仿真数据共同满足系统在空间中和时间上的可观性和可控性[31]。需要研究在不完备数据下,如何将信息论和系统论相结合,从数据中挖掘深层信息。
在电力的长期可靠性分析与控制方面,需要考虑社会、经济、科技、能源与政策等发展的不确定性,以及各种博弈行为的影响,将目前依靠主观判断的方式逐步提升为基于混合仿真推演的方式。
3 信息能源系统的大数据平台
3.1 电力(能源)系统运行数据的采集
关系数据库强调完整性及一致性,云计算强调可扩展性,但难以保证实时性。Internet的TCP/IP协议在流量控制和数据纠错时会产生10ms量级的时延,难以满足实时控制,特别是紧急控制的要求。
RTU和SCADA系统可以用低成本采集大量的广域数据,并满足静态可观性,但没有统一时标,采样周期长、时延大,只能抽取慢速动态特征。故障录波和保护信息系统就地记录大量暂态信息,可支持故障的事后分析,但上传的滞后时间长,难以实时应用。
PMU数据不依赖于系统模型和参数,可在统一时标下快速采样,提供系统实际的时间响应曲线,用来校核仿真模型和参数,并提供仿真的初值。但受价格限制较难满足高可观性。
20年来的研究热点之一是将PMU用于实时稳定性分析及开环控制,根据受扰后短期实测数据预估稳定性,并在失稳前选择并执行控制措施,但至今未能用于稳定分析和开环控制。文献[32]明确指出,在非自治因素下单纯依靠轨迹的外推来预测并不可靠,并且即使在没有时间约束的离线环境下,要对有数学模型的仿真曲线进行稳定性量化分析也非易事。若在计算已有轨迹的稳定裕度时没有模型参数可用,其量化分析就更难。更重要的是,只有通过仿真才能在措施实施前确认其效果。不与仿真工具结合,就难以按合理的保守性来确保控制的充分性。其根本原因是:在事前,PMU无法观察到控制措施的效果,也无法在不依靠系统模型及参数的前提下求取实测轨迹(特别是稳定轨迹)的稳定裕度。PMU在应用上的这个瓶颈是本质性的,不可能真正突破。
现场伪量测是对广域数据加工中挖掘出来的数据;仿真伪量测是在仿真中产生的数据。它们的正确性受到模型、参数、初值和算法等的限制。
3.2 电力(能源)系统的大数据平台
随着数据采集环节的质量提高、成本降低,以及各种广域数据采集系统的数据共享,可以通过更多数据来全面掌控电力与能源。为此,需要将各种广域监测系统和数值仿真系统置于统一的平台中,有助于数据挖掘,识别相继故障的先兆特征、临界条件和传播模式,从而提高预警水平,增强防御停电灾难和事后分析的能力。
由硬件资源、基础软件、网络通信、数据集成、计算支撑、应用支撑、安全管控等环节构成的大数据平台支持多源多渠道异构数据的即插即用、融合与管理,支撑各种开发、应用及信息展示功能的即插即用。通过基于数学模型的因果型数据、无因果关系的统计型数据以及参与者博弈行为的融合,管理各类能量的生产、转换、输送及使用,调度与仿真数据的集成与管理。
4 结语
虽然当前关于大数据的应用案例大多发生在互联网企业中,但传统的电力及能源企业也在思考如何从关于大数据的空泛介绍走向实际应用。特别是除了直接依赖互联网的电力金融业务及面向消费的个性化服务以外,在基于传统数据的系统分析与控制领域中,如何融合电力及能源的统计关系数据、因果关系数据及博弈行为数据,发挥大数据的价值。例如:间歇性能源及负荷预测,引导需求响应及节能减排,降低停电风险,反窃电,堵塞经营漏洞,优化资产全寿命周期管理等方面。特别是:如何使企业决策从当前基于常规数据及主观经验的模式,发展为基于数学模型、参与者及多代理模型的混合仿真的沙盘推演模式。其中的多代理模型就需要大数据技术的支撑。这关系到电力大数据技术是否能进入到通常由因果关系数据一统天下的物理系统分析领域。为此,思维方式需要重大变革。
摘要:大能源思维将电力视为能源生产与消费全流程中的枢纽环节,藉此推动上游一次能源的清洁替代与下游终端能源的电能替代,支撑能源的可持续发展。大数据思维将各种数据资源从简单的处理对象转变为生产的基础要素。这两种思维的融合,使电力大数据成为大能源系统广泛互联、开放互动及高度智能的支撑,包括:广域多时间尺度的能源数据及相关领域数据的采集、传输和存储,以及从这些大量多源异构数据中快速提炼出深层知识并发挥其应用价值。作为两篇论文中的开篇,在演绎大数据基本概念、结构类型及本质特征的基础上,归纳电力大数据的特点。针对综合能源,通过基于数学模型的因果型数据、无因果关系的统计型数据以及参与者博弈型数据的融合,构建信息能源系统的知识挖掘平台。其续篇将讨论信息能源系统,并通过若干案例,反映大数据思维对提高大能源经济性与可靠性的贡献。
关键词:信息能源系统,能源互联,因果型数据,统计型数据,博弈型数据,非结构型数据,知识提取
大数据与数据挖掘 篇2
【摘要】人类进入信息化时代以后,短短的数年时间,积累了大量的数据,步入了大数据时代,数据技术也就应运而生,成为了一种新的主流技术。而研究数据挖掘技术的理念、方法以及应用领域,将对我国各个领域的未来带来更多的机遇和挑战。本文就大数据时代下数据挖掘技术与应用进行探究。
【关键词】大数据,数据挖掘,互联网
数据挖掘是一门新兴的学科,它诞生于20世纪80年代,主要面向商业应用的人工只能研究领域。从技术角度来看,数据挖掘就是从大量的复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值和知识的过程。从商业角度来说,数据挖掘就是从庞大的数据库中抽取、转换、分析一些潜在规律和价值,从中获取辅助商业决策的关键信息和有用知识。
1.数据挖掘的基本分析方法
分析方法是数据挖掘的核心工作,通过科学可靠的算法才能实现数据的挖掘,找出数据中潜在的规律,通过不同的分析方法,将解决不同类型的问题。目前常用的方法有聚类分析、特征数据分析法、关联性分析等。
1.1聚类分析法。简单来说聚类分析就是通过将数据对象进行聚类分组,然后形成板块,将毫无逻辑的数据变成了有联系性的分组数据,然后从其中获取具有一定价值的数据内容进行进一步的利用。由于这种分析方法不能够较好的就数据类别、属性进行分类,所以聚类分析法一般都运用心理学、统计学、数据识别等方面。
1.2特征性数据分析法。网络数据随着信息时代的到来变成了数据爆炸式,其数据资源十分广泛并且得到了一定的普及,如何就网络爆炸式数据进行关于特性的分类就成为了当下数据整理分类的主要内容。此外还有很多方法都是通过计算机来进行虚拟数据的分类,寻找数据之间存在的普遍规律性完成数据的特性分析从而进行进一步分类。
1.3关联性分析法。有时数据本身存在一定的隐蔽性使得很难通过普通的数据分析法进行数据挖掘和利用,这就需要通过关联性分析法完成对于数据信息的关联性识别,来帮助人力完成对于数据分辨的任务,这种数据分析方法通常是带着某种目的性进行的,因此比较适用于对数据精准度相对较高的信息管理工作。
2.数据挖掘技术的应用
数据挖掘技术的具体流程就是先通过对于海量数据的保存,然后就已有数据中进行分析、整理、选择、转换等,数据的准备工作是数据挖掘技术的前提,也是决定数据挖掘技术效率及质量的主要因素。在完成数据准备工作后进一步对数据进行挖掘,然后对数据进行评估,最后实现运用。因此,数据挖掘能够运用到很多方面。如数据量巨大的互联网行业、天文学、气象学、生物技术,以及医疗保健、教育教学、银行、金融、零售等行业。通过数据挖掘技术将大数据融合在各种社会应用中,数据挖掘的结果参与到政府、企业、个人的决策中,发挥数据挖掘的社会价值,改变人们的生活方式,最大化数据挖掘的积极作用。以教育行业为例,探究数据挖掘技术在高校教育教学活动中的应用。
2.1在高校管理中的应用。数据挖掘技术在高校管理的内容主要包括:高校招生录取工作、贫困生选定以及优秀生评定等。高校每年的招生工作是学校可持续发展的重要环节,直接影响到高校教学质量以及发展情况。比如数据挖掘技术在高校管理中的应用主要是对学生高考成绩、志愿填报、以及生源来源地等多方面信息进行整理分类汇总。具体步骤是通过进行数据的收集和预处理,建立相关数据模型,采用分类算法,提取和挖掘对用户有用的信息,然后进行数据挖掘的数据存储形式。目前高校数据挖掘技术应用的范围比较广泛,由于高校管理内容比较复杂,因此在其管理内容的每个小部分也开始利用数据挖掘技术进行管理,比如学生成绩管理,课堂教学评价系统等。
2.2在高校课堂教学评价中的应用。数据挖掘技术在高校课堂教学评价系统中的应用主要也是利用关联分析法。首先先对数据进行预处理工作,数据的预处理是数据挖掘技术的关键步骤,并且直接影响着数据挖掘技术的应用效率。数据预处中要将教师的基本信息、教师教授课程以及教师的职称、学历、学生信息以及学生课表相关信息进行数据初始记录。对于教师的评价内容根据高校自身的条件和需求而定,学校教学评价管理部门登录学校教务系统后,将学生所选择的选项对应转换为教师的分值,通过计算机计算总分后得出教师的学期得分。学生对于教师教学的评价在一定程度上也反映了自己的学习情况,如对教师的评价为零分,则说明学生也否定了自己的学习效果。2.3在高校学生信息管理系统中的应用。高校学生信息管理系统中管理要素主要是学校的领导、任课教师、学生以及家长。系统的功能要包括:对不同的用户设置不同的使用权限;对学生的基本信息以及学生浏览管理网站的记录要做到明确记录;各个学院不同专业的学生课程要能准确公布并允许学生根据实际情况修改;成绩管理要能实现大批量添加及修改;还有比如评优活动、党务管理等具体功能。数据挖掘技术在高校学生信息管理系统中的应用主要是利用决策树的方法。学生信息管理的基本数据就是学生入学时填写的基本信息表,内容包括学生的姓名、学号、考勤以及学习成绩等,这些都是学生特有的属性,学生信息管理利用决策树方法就是将学生的这些属性作为决策元素,监理不同的决策节点,实现对学生全方位的考核和评价,完整的了解到每位学生的具体信息。
2.4高校图书馆信息系统中的应用。数据挖掘技术最基本的应用就是通过对现有的数据进行分析来了解学校图书馆现有资源利用情况,为图书馆的未来建设提供可靠数据。数据挖掘技术能够使图书馆资源得到极大程度的优化整合。比如数据挖掘技术可以对检索记录进行整理,将手工数据转变为电子数据记录。其最大的优势就是利用数据挖掘技术更加全面的分析总结数据库资源,帮助图书馆管理人员对于图书馆信息的补充和调整,还能够为高校图书馆的馆藏工作建设提供有效的引导。数据挖掘还能应用于图书馆的多媒体数字资源,多媒体数据挖掘技术能够更为快捷和准确的为读者提供相应的服务。
3.结语
数据挖掘技术是近几年新产生的网络技术,可是它的广泛应用性受到了很多公司以及研究人员的喜爱。这些年来,伴随着时间的推移以及网络技术的不断发展大数据挖掘技术不断的被更新,开发,而且在金融、管理、教学等行业中都得到了广泛的应用。我相信随着网络技术的不断发展,大数据挖掘技术的应用面将会越来越广。
【参考文献】
大数据与数据挖掘 篇3
关键字:大数据;数据仓库;教育决策
中图分类号:TP393 文献标志码:A 文章编号:1673-8454(2015)01-0014-02
一、教育的大数据时代
在大数据的时代,各行各业都在谈大数据,它的影响辐射各行各业,并且已经开始在信息产业、交通运输、医疗卫生、食品安全等领域中发挥出重要作用。与此同时,作为面向社会公众的教育行业,无论从教育数据资源的情况,还是对大数据的分析应用需求看,亦进入了大数据时代。
教育管理信息化是《国家中长期教育改革和发展规划纲要(2010-2020年)》和《教育信息化十年发展规划(2011-2020年)》所确定的教育信息化建设核心任务之一,对支持教育宏观决策、加强教育监管、提高各级教育行政部门和学校的管理水平、全面提升教育公共服务能力具有不可或缺的重要作用。教育改革发展涉及面广、难度大,越来越需要准确全面的数据分析和服务作为教育科学决策的支撑。建设国家教育管理信息系统,就是建立涵盖学生、教师、学校资产及办学条件的教育管理信息系统和基础数据库,并以此为基础建立数据分析与科学预测的教育决策服务系统,已成为支持教育改革与宏观决策的现实需求。国家教育管理信息系统的建设,也为教育大数据的积累奠定了基础。
二、教育大数据仓库与数据服务支撑平台
教育大数据仓库与数据服务支撑平台是基于教育服务与监管基本宗旨,统筹考虑教育事业全局,以适应大数据时代教育数据新特征和支撑教育监管和决策的数据分析为出发点,集成大数据思路和传统数据仓库架构,构建纵向覆盖各级教育机构,横向覆盖教育各业务领域的、统一的教育数据信息资源中心,将合适的教育数据资源及时、有效地提供给合适的教育管理、决策者进行教育主题研究分析、评价和预测,促进教育监管与决策更加合理性、准确性、科学化以及智能化,服务于教育事业的改革创新,支撑教育事业智慧化的发展趋势。
1.总体架构
平台的总体架构以教育系统全局为视角,以应用为驱动,基于SOA的理念,运用柔性架构设计思想和分层体系架构,以“满足当前应用、扩展未来需求”为目标,综合考虑大数据时代下新的技术思路和传统数据仓库的优势,采用组件化、服务化的方式,灵活适应功能、分析内容的动态追加和变更,满足系统未来变化的需要。架构的主要内容以及相互之间的逻辑关系如图1所示。
2.主要内容
(1)数据集成整合系统:是将各种数据源中的各种类型的数据按照教育数据资源中心的数据规范要求进行清洗、转换等操作,将符合教育数据资源标准体系要求的数据整合、加载到教育数据资源中心,为后续的统计、分析、挖掘业务提供高质量、规范化的数据资源;
(2)数据管控系统:是对数据资源的集中管控,保证数据的准确性、完备性和安全性。主要建设元数据管理、数据质量管理和数据安全管理,从而达到对教育数据资源中心中数据的管控;
(3)数据治理体系:是对教育数据资产管理行使权力和控制的活动集合,是建立教育数据管理制度、指导教育系统执行数据规划、数据环境建设、数据安全管理、元数据管理、数据质量管理等其他数据管理活动的持续改进过程和管控机制;
(4)数据服务调度管理系统:是整个平台的“发动机”,以教育管理各级行政单位、各级各类学校、科研院所以及社会公众等不同团体在监管、决策、研究分析以及公众数据服务等应用为驱动,将教育数据资源中心数据按照一定的规则,运用合适的智能分析技术,以组件化、模块化、服务性的方式及时、准确、合理地推送给数据分析应用中心,从而直观、友好地展现给不同的监管者、决策者、研究分析人员以及社会公众;
(5)智能分析系统:主要是利用教育数据资源中的数据,通过即席查询、统计报表、多维查询、数据挖掘等技术手段,进行多种教育主题的综合分析以及通过大量数据信息挖掘潜在信息,实现教育的评价与预测等,然后以一种合适的、直观可视化的、有好的方式及时、准确地提供给相关教育监管、决策、研究分析人员以及社会公众,从而实现教育监管、决策以及研究分析的科学化、智能化。
3.预期目标
(1)汇集不同来源的各种教育数据资源,建立起统一、规范的教育数据信息视图,形成覆盖教育各领域的、综合的、面向各种教育主题的教育数据资源中心,实现统一的教育数据管控、治理机制;
(2)形成面向不同主体的、特定领域的教育应用主题的数据集合,按照不同的教育主题进行组织、汇总、管理数据,满足政府(教育行政单位及国家其他行政单位)、学校、社会公众、国际教育团体等不同教育数据应用主体对数据进行分析解读、评价和预测的需求;
(3)建立柔性化的分析性数据应用服务的统一出口,通过灵活的组件化方式,将特定的数据集以合适的数据展示形式及时地、直观地提供给各种不同的教育数据应用领域,满足教育监管与决策的数据服务需求;
(4)建立国家、省两级教育大数据仓库与数据服务支撑平台体系,既实现不同教育级别不同类型教育数据资源的整合与集成,同时又能够满足国家和省级不同的应用需求;
(5)构建一套全面的、标准化的、可操作性的教育数据资源服务保障体系,形成一种长久有效的教育数据资源服务保障机制,可持续性地为教育监管与决策服务。
总之,国家教育大数据仓库和数据服务平台的建设实施,将全面、有效地支撑各级各类教育数据资源的分析,并且使教育监管与决策智能化的能力得到逐步提升。
三、结语
当今各行各业都在大谈大数据的时代,大数据的开发应用已经被许多国家提到国家战略的高度来进行研究。今年初李克强总理所做的政府工作报告中明确提出要设立新兴产业创业创新平台,在大数据等方面赶超先进,引领未来产业发展。作为国家公共管理部门,教育如何适应大数据时代,并利用大数据的开发应用推动教育事业的发展、改革与创新,支撑教育事业智慧化的发展趋势,是当前所有教育同仁共同思考的话题。并且随着国家教育信息化战略的实施,大数据的开发应用需求更加迫切,所以我们应当适应大数据潮流,把握机遇,充分利用大数据,结合教育信息化建设现状,构建教育大数据资源中心,有效支撑教育的监管和决策,推动教育的智慧化,从而实现教育的变革。
参考文献:
[1]张春艳.大数据时代的公共安全治理[J].国家行政学院学报,2014(9).
[2]沈菲飞.基于数据仓库的高校学生管理预警与支持系统[J].巢湖学院学报,2007,9(5).
[3](英)Viktor,Kenneth著,盛杨艳,周涛译.大数据时代-生活、工作与工作思维的大变革[M].浙江:浙江人民出版社,2013.
[4]韩蕊.大数据让数据仓库更具有价值[J].互联网周刊,2014(3).
[5]俞燕萍,丁荣涛.基于数据仓库技术的学生就业趋势分析系统设计[J].中国科技信息,2008(7).
数据之舞:大数据与数据挖掘 篇4
2005年6月至2007年12月海洋表面洋流示意图。数据源:海面高度数据来自美国航空航天局 (NASA) 的Topex/Poseidon卫星、Jason-1卫星, 以及海形图任务/Jason-2卫星测高仪;重力数据来自NASA/德国航空航天中心的重力恢复及气候实验任务;表面风压数据来自NASA的Quik Scat任务;海平面温度数据来自NASA/日本宇宙航空研究开发机构的先进微波扫描辐射计——地球观测系统;海冰浓度和速度数据来自被动微波辐射计;温度和咸度分布来自船载、系泊式测量仪器, 以及国际Argo海洋观测系统
泄密者爱德华·斯诺登 (Edward Snowden) 还在寻求容身之所的时候, 美国国家安全局 (NSA) 全方位收集电话和电子邮件记录之事经过他的披露, 已经引发了不安和愤怒。
奥巴马当局声称, 监听数据带来了安全, 然而左翼和右翼都在谴责这种窥探行为是对隐私的侵犯。
数据不是信息, 而是有待理解的原材料。但有一件事是确定无疑的:当NSA为了从其海量数据中“挖掘”出信息, 耗资数十亿改善新手段时, 它正受益于陡然降落的计算机存储和处理价格。
数据挖掘这一术语含义广泛, 指代一些通常由软件实现的机制, 目的是从巨量数据中提取出信息。数据挖掘往往又被称作算法。
威斯康星探索学院主任大卫·克拉考尔 (David Krakauer) 说, 数据量的增长——以及提取信息的能力的提高——也在影响着科学。“计算机的处理能力和存储空间在呈指数增长, 成本却在指数级下降。从这个意义上来讲, 很多科学研究如今也遵循摩尔定律。”
在2005年, 一块1TB的硬盘价格大约为1, 000美元, “但是现在一枚不到100美元的U盘就有那么大的容量。”研究智能演化的克拉考尔说。现下关于大数据和数据挖掘的讨论“之所以发生是因为我们正处于惊天动地的变革当中, 而且我们正以前所未有的方式感知它。”克拉劳尔说。
随着我们通过电话、信用卡、电子商务、互联网和电子邮件留下更多的生活痕迹, 大数据不断增长的商业影响也在如下时刻表现出来:
·你搜索一条飞往塔斯卡鲁萨的航班, 然后便看到网站上出现了塔斯卡鲁萨的宾馆打折信息
·你观赏的电影采用了以几十万G数据为基础的计算机图形图像技术
·你光顾的商店在对顾客行为进行数据挖掘的基础上获取最大化的利润
·用算法预测人们购票需求, 航空公司以不可预知的方式调整价格
·智能手机的应用识别到你的位置, 因此你收到附近餐厅的服务信息
大数据在看着你吗?
除了安全和商业, 大数据和数据挖掘在科研领域也正在风起云涌。越来越多的设备带着更加精密的传感器, 传回愈发难以驾驭的数据流, 于是人们需要日益强大的分析能力。在气象学、石油勘探和天文学等领域, 数据量的井喷式增长对更高层次的分析和洞察提供了支持, 甚至提出了要求。
这幅2005年6月至2007年12月海洋表面洋流的示意图集成了带有数值模型的卫星数据。漩涡和窄洋流在海洋中传送热量和碳。海洋环流和气候评估项目提供了所有深度的洋流, 但这里仅仅使用了表层洋流。这些示意图用来测量海洋在全球碳循环中的作用, 并监测地球系统的不同部分内部及之间的热量、水和化学交换。
在医学领域, 2003年算是大数据涌现过程中的一个里程碑。那一年第一例人类基因组完成了测序。那次突破性的进展之后, 数以千计人类、灵长类、老鼠和细菌的基因组扩充着人们所掌握的数据。每个基因组上有几十亿个“字母”, 计算时出现纰漏的危险, 催生了生物信息学。这一学科借助软件、硬件以及复杂算法之力, 支撑着新的科学类型。
另一例生物信息学的应用来自美国国家癌症研究所。该所的苏珊·霍尔贝克 (Susan Holbeck) 在60种细胞系上测试了5000对美国食品和药品管理局批准的抗癌药品。经过30万次试验之后, 霍尔贝克说:“我们知道每种细胞系里面每一条基因的RNA表达水平。我们掌握了序列数据、蛋白质数据, 以及微观RNA表达的数据。我们可以取用所有这些数据进行数据挖掘, 看一看为什么一种细胞系对混合药剂有良好的反应, 而另一种没有。我们可以抽取一对观察结果, 开发出合适的靶向药品, 并在临床测试。”
互联网上的火眼金睛
当医学家忙于应对癌症、细菌和病毒之时, 互联网上的政治言论已呈燎原之势。整个推特圈上每天要出现超过5亿条推文, 其政治影响力与日俱增, 使廉洁政府团体面临着数据挖掘技术带来的巨大挑战。
印第安纳大学Truthy (意:可信) 项目的目标是从这种每日的信息泛滥中发掘出深层意义, 博士后研究员埃米利奥·费拉拉 (Emilio Ferrara) 说。“Truthy是一种能让研究者研究推特上信息扩散的工具。通过识别关键词以及追踪在线用户的活动, 我们研究正在进行的讨论。”
Truthy是由印第安纳研究者菲尔·孟泽 (Fil Menczer) 和亚力桑德罗·弗拉米尼 (Alessandro Flammini) 开发的。每一天, 该项目的计算机过滤多达5千万条推文, 试图找出其中蕴含的模式。
一个主要的兴趣点是“水军”, 费拉拉说:协调一致的造势运动本应来自草根阶层, 但实际上是由“热衷传播虚假信息的个人和组织”发起的。
2012年美国大选期间, 一系列推文声称共和党总统候选人米特·罗姆尼 (Mitt Romney) 在脸谱网上获得了可疑的大批粉丝。“调查者发现共和党人和民主党人皆与此事无关。”费拉拉说, “幕后另有主使。这是一次旨在令人们相信罗姆尼在买粉从而抹黑他的造势运动。”
水军的造势运动通常很有特点, 费拉拉说。“要想发起一场大规模的抹黑运动, 你需要很多推特账号, ”包括由程序自动运行、反复发布选定信息的假账号。“我们通过分析推文的特征, 能够辨别出这种自动行为。”
推文的数量年复一年地倍增, 有什么能够保证线上政治的透明呢?“我们这个项目的目的是让技术掌握一点这样的信息。”费拉拉说, “找到一切是不可能的, 但哪怕我们能够发现一点, 也比没有强。”
头脑里的大数据
人脑是终极的计算机器, 也是终极的大数据困境, 因为在独立的神经元之间有无数可能的连接。人类连接组项目是一项雄心勃勃地试图绘制出不同脑区之间相互作用的计划。
除了连接组, 还有很多充满数据的“组”:
·基因组:由DNA编码的, 或者由RNA编码的 (比如病毒) ——全部基因信息
·转录组:由一个有机体的DNA产生的全套RNA“读数”
精神障碍通常是具体病例具体分析, 但是一项对150万名病人病例的研究表明, 相当多的病人患有超过同一种疾病。芝加哥大学的西尔维奥·康特中心利用数据挖掘理解神经精神障碍的成因以及之间的关系。“好几个 (研究) 团队都在致力于这个问题的解决。”中心主任安德烈·柴斯基 (Andrey Rzhetsky) 说, “我们正试图把它们全部纳入模型, 统一分析那些数据类型……寻找可能的环境因素。”图片来源:Andrey Rzhetsky, 芝加哥大学
大数据盯着“bigdata” (意为大数据) 。这些是在推特上发布过“bigdata”的用户之间的连接, 用户图标的尺寸代表了其粉丝数多寡。蓝线表示一次回复或者提及, 绿线表示一个用户是另一个的粉丝。图片来源:Marc Smith
20名健康人类受试者处于休息状态下接受核磁共振扫描, 得到的大脑皮层不同区域间新陈代谢活动的关联关系, 并用不同的颜色表现出来。黄色和红色区域在功能上与右半脑顶叶中的“种子”位置 (右上角黄斑) 相关。绿色和蓝色区域则与之关联较弱或者根本没有关联。图片来源:M.F.Glasser and S.M.Smith
这是星系动物园志愿者们发现的差不多2000个背光星系之一。它被其后方的另一个星系照亮。来自背后的光令前景星系中的尘埃清晰可辨。星际尘埃在恒星的形成中扮演了关键的角色, 但它本身也是由恒星制造的, 因此检测其数量和位置对于了解星系的历史至关重要。图片来源:WIYN望远镜, Anna Manning, Chris Lintott, William Keel
随着数据及通讯价格持续下跌, 新的思路和方法应运而生。如果你想了解你家中每一件设备消耗了多少水和能量, 麦克阿瑟奖获得者西瓦塔克·帕特尔 (Shwetak Patel) 有个解决方案:用无线传感器识别每一台设备的唯一数字签名。帕特尔的智能算法配合外挂传感器, 以低廉的成本找到耗电多的电器。位于加利福尼亚州海沃德市的这个家庭惊讶地得知, 录像机消耗了他们家11%的电力。图片来源:Peter Menzel/The Human Face of Big Data
·蛋白质组:所有可以用基因表达的蛋白质
·代谢组:一个有机体新陈代谢过程中的所有小分子, 包括中间产物和最终产物
连接组项目的目标是“从1, 200位神经健康的人身上收集先进的神经影像数据, 以及认知、行为和人口数据”, 圣路易斯市华盛顿大学的连接组项目办事处的信息学主任丹尼尔·马库斯 (Daniel Marcus) 说。
项目使用三种磁共振造影观察脑的结构、功能和连接。根据马库斯的预期, 两年之后数据收集工作完成之时, 连接组研究人员将埋首于大约100万G数据。
绘制脑区分布图的“分区”是一项关键的任务, 这些脑区最早于两到三世纪之前通过对少量大脑染色被识别出来。“我们将拥有1, 200个人的数据, ”马库斯说, “因此我们可以观察个人之间脑区分布的差别, 以及脑区之间是如何关联的。”
为了识别脑区之间的连接, 马库斯说, “我们在受试者休息时获取的扫描图中, 观察脑中的自发活动在不同区域之间有何关联。”比如, 如果区域A和区域B自发地以每秒18个周期的频率产生脑波, “这就说明它们处于同一网络中。”马库斯说。“我们将利用整个大脑中的这些关联数据创建一个表现出脑中的每一个点如何与其他每一个点关联的矩阵。” (这些点将比磁共振成像无法“看到”的细胞大得多。)
星系动物园:把天空转包给大众
星系动物园项目打破了大数据的规矩:它没有对数据进行大规模的计算机数据挖掘, 而是把图像交给活跃的志愿者, 由他们对星系做基础性的分类。该项目2007年启动于英国牛津, 当时天文学家凯文·沙文斯基 (Kevin Schawinski) 刚刚蹬着眼睛瞧完了斯隆数字巡天计划拍摄的5万张图片。
阿拉巴马大学天文学教授、星系动物园科学团队成员威廉·基尔 (William Keel) 说, 沙文斯基的导师建议他完成95万张图像。“他的眼睛累得快要掉出眼窝了, 便去了一家酒馆。他在那里遇到了克里斯·林托特 (Chris Lintott) 。两人以经典的方式, 在一张餐巾的背面画出了星系动物园的网络结构。”
星系是一个经典的大数据问题:一台最先进的望远镜扫描整个天空, 可能会看到2000亿个这样的恒星世界。然而, “一系列与宇宙学和星系统计学相关的问题可以通过让许多人做相当简单的分类工作得以解决。”基尔说, “五分钟的辅导过后, 分类便是一项琐碎的工作, 直到今日也并不适合以算法实现。”
星系动物园的启动相当成功, 用户流量让一台服务器瘫痪了, 基尔说。
斯隆巡天的全部95万张图片平均每张被看过60次之后, 动物园的管理者们转向了更大规模的巡天数据。科学受益匪浅, 基尔说。“我的很多重要成果都来自人们发现的奇怪物体, ”包括背光星系。
星系动物园依赖统计学、众多观察者以及处理、检查数据的逻辑。假如观察某个特定星系的人增加时, 而认为它是椭圆星系的人数比例保持不变, 这个星系就不必再被观察了。
然而, 对一些稀有的物体, 基尔说, “你可能需要40至50名观察者。”
大众科学正在发展自己的法则, 基尔补充道。志愿者们的工作“已经对一个真实存在的重大问题做出了贡献, 是现存的任何软件都无法实现的。鼠标的点击不该被浪费。”
这种动物园方法在zooniverse.org网站上得到了复制和优化。这是一个运行着大约20项目的机构, 这些项目的处理对象包括热带气旋、火星表面和船只航行日志上的气象数据。
最终, 软件可能会取代志愿者, 基尔说。但是计算机和人类之间的界线是可互换的。比如说超新星动物园项目在软件学会了任务之后就关闭了。
我们惊讶地得知志愿者们积累的庞大数据是计算机学习分类的理想材料。“一些星系动物园用户真的很反感这一点。”基尔说, “他们对于自己的点击被用来训练软件表达出明显的怨恨。但是我们说, 不要浪费点击。如果某人带来了同样有效的新算法, 人们就不必做那些事情了。”
学习的渴望
人们长久以来改进对图像和语音的模式识别的努力已经受益于更多的训练, 威斯康星大学麦迪逊分校的克拉考尔说。“它不仅仅是有所改善, 更是有了实际的效果。5到10年之前, i Phone上的Siri是个想都不敢想的点子, 语音识别一塌糊涂。现在我们拥有了这样一批庞大的数据来训练算法, 忽然之间它们就管用了。”
等到处理能力一次相对较小的改变令结果出现突破性的进展, 克拉考尔补充道, 大数据的应用可能会经历一次“相变”。
“大数据”是一个相对的说法, 不是绝对的, 克拉考尔指出。“大数据可以被视作一种比率—我们能计算的数据比上我们必须计算的数据。大数据一直存在。如果你想一下收集行星位置数据的丹麦天文学家第谷·布拉赫 (Tycho Brahe, 1546-1601) , 当时还没有解释行星运动的开普勒理论, 因此这个比率是歪曲的。这是那个年代的大数据。”
大数据成为问题“是在技术允许我们收集和存储的数据超过了我们对系统精推细研的能力之后。”克拉考尔说。
我们好奇, 当软件继续在大到无法想象的数据库上执行复杂计算, 以此为基础在科学、商业和安全领域制定决策, 我们是不是把过多的权力交给了机器。在我们无法觑探之处, 决策在没人理解输入与输出、数据与决策之间的关系的情况下被自动做出。“这正是我所从事的领域, ”克拉考尔回应道, “我的研究对象是宇宙中的智能演化, 从大爆炸到大脑。我毫不怀疑你说的。” (本文编译自:The Why Files, Data Dance, Big Data and Data Mining;原创人员:编辑/Terry Devitt;设计制图/S.V.Medaris;项目助理/Yilang Peng;专题作者/David J.Tenen Baum;内容制作总监/Amy Toburen)
知识链接
“大数据” (Big data) 作为时下最火热的IT行业的词汇, 随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。
早在1980年, 著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中, 将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过, 大约从2009年开始, “大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出, 互联网上的数据每年将增长50%, 每两年便将翻一番, 而目前世界上90%以上的数据是最近几年才产生的。此外, 数据又并非单纯指人们在互联网上发布的信息, 全世界的工业设备、汽车、电表上有着无数的数码传感器, 随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化, 也产生了海量的数据信息。大数据技术的战略意义不在于掌握庞大的数据信息, 而在于对这些含有意义的数据进行专业化处理。换言之, 如果把大数据比作一种产业, 那么这种产业实现盈利的关键, 在于提高对数据的“加工能力”, 通过“加工”实现数据的“增值”。且中国物联网校企联盟认为, 物联网的发展离不开大数据, 依靠大数据可以提供足够有利的资源。
随着云时代的来临, 大数据也吸引了越来越多的关注。《著云台》的分析师团队认为, 大数据通常用来形容一个公司创造的大量非结构化和半结构化数据, 这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起, 因为实时的大型数据集分析需要像Map Reduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据分析相比于传统的数据仓库应用, 具有数据量大、查询分析复杂等特点。《计算机学报》刊登的“架构大数据:挑战、现状与展望”一文列举了大数据分析平台需要具备的几个重要特性, 对当前的主流实现平台——并行数据库、Map Reduce及基于两者的混合架构进行了分析归纳, 指出了各自的优势及不足, 同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍, 对未来研究做了展望。
大数据与数据挖掘 篇5
《爆发:大数据时代预见未来的新思维》
作者:(美)艾伯特-拉斯洛巴拉巴西
中国人民大学出版社
6月
定价:59.90元
□书评人 胡澈
著名的科幻小说《三体》讲述了这样的剧情:整个宇宙中有许多人类尚未了解的文明,直到一位地球人与三体人进行了通讯。至此之后,三体文明开始了解地球文明,并试图用“心理崩溃”的方式控制科学家,实现阻止地球文明进步的野心如果当时三体文明中产生巴拉巴西,复杂网络研究的权威,也许就不用费尽周折,便能知道如何洞察地球人的行为。
在巴拉巴西(Albert-László Barabási)的新书《爆发:大数据时代预见未来的新思维》中,他试图回答了这样一个问题:人类的行为是否可以被预测?这位美国物理学院的院士巧妙地把历史和数学结合起来,有趣地回答了这一问题:
“在人类漫长的历史中,人类的行为并不是随机的,并不是泊松分布的,而是存在一定的规则。通过对大数据的分析,可以看到人类的行为规则是基于优先级排布的问题。每个人都有自己的任务列表,而如何按照优先级排列顺序则产生了不同的影响。”
换句话说,当你有紧急的事情,需要联系一个人的时候,你认为如何联系对方可以最好地实现你的目标?电话、短信、微博或者是微信?在巴拉巴西的眼里,想要预测对方的行为,最好的方式就是判断各种任务对于他的优先级,挑选最高的那一项即可。因为人类会不自觉地列出一个优先级列表,并在一段时间内优先完成最需要完成的任务。
这看似简单,却不是作者的梦呓,在《爆发》一书中,巴拉巴西像个历史小说家,道出一段段历史情节,层层递进,让人深陷其中,一口气“爆发”着读完此书。
全书逻辑缜密,并在每一篇的开头都以一个历史故事开篇,形象生动地描述着人类行为“爆发”现象的前因后果,并指出人类行为不是按照泊松分布,而是幂律而人类行为在幂律分布中呈现出一种“爆发”的现象。
读完这本书后,我第一反应是三体的故事,第二反应则是计算机科学家杰伦拉尼尔(Jaron Lanier)对于后Web2.0时代描绘的一种场景:互联网巨头掌握着数据和“云”,将群体的智慧吸收,并影响着群体。随着大数据时代的来临,越来越多的数据被掌握在互联网巨头之中。如果真的可以通过大数据进行分析和挖掘,每一位用户的行为都有可能被掌握。
人工智能之父阿兰图灵曾提出一种判断机器人的原则:
被测试的有一个人,另一个是声称自己有人类智力的机器。测试人与被测试人是分开的,测试人只有通过一些装置向被测试人问一些问题,如果测试人能够正确地分出谁是人谁是机器,那机器就没有通过图灵测试,如果测试人没有分出谁是机器谁是人,那这个机器就具有人类智能。
这就是著名的图灵测试。
假设巴拉巴西的理论可以结合大数据运用于此,人工智能机器通过获取测试人的行为分布数据,在快速运算下,是否可以通过图灵测试?
我认为是可能的,虽然机器在语义方面的理解依然处于一个研究阶段,但用户“爆发”行为的分析可以提供一种精确的方法去模仿人类在此方面,国内的互联网巨头已经积极开始行动。
虽然听起来似乎恐惧,但就我个人来看,我们应该乐观。因为人类仅仅有意识地分享出了一部分的信息。在后续发展中,人们积极地分享自身的数据亦有其好处比如心脏突发类疾病、肥胖症等疾病可以有效地预判。
不管如何,巴拉巴西向我们展示了一种新的世界观。在大数据时代来临之际,我们可以更好地利用数据引导自身的发展,积极地利用“爆发”的幂律帮助自己更好地生活。
(原标题:大数据时代的人类行为预测)
黄历与大数据 篇6
怎么才能确定哪天是黄道吉日呢?
这要从中国古代历法说起,也就是从农历说起。古人用十天干与十二地支记录年、月、日、时,通过观察和总结太阳和月亮的位置变化的规律,古人发现两个朔望月约是59天的概念,12个朔望月大体上是354天多(与一个回归年的长度相近似),古人因此就得到了一年有12个月的概念,同时古人进一步通过记录和总结星体位置变化和地面气候演变的规律,将全年划分为二十四节气七十二候。中国几千年来一直按照农历进行生活和耕种,春雨惊春清谷天,夏满芒夏暑相连,秋处露秋寒霜降,冬雪雪冬小大寒,离了阴历农夫便不能耕种,这是为什么呢?因为农历本来就是劳动人民通过多年观察总结出来的。
接着要说说星宿的概念了。经过长期观测和总结,古人先后选择了黄道赤道附近的二十八个星宿作为坐标。因为它们环列在日、月、五星的四方,很像日、月、五星栖宿的场所,所以称作二十八宿。早期二十八星宿主要是用于观测天文和气象,根据星宿位置的变化记录气象的变化,从而对农业生产进行指导。
那么怎么从农历、星宿等概念中推出黄道吉日呢?通过长期观测和总结,古人认为宇宙中日、月、星辰之间的互动,蕴藏着万物消长的规律,这些规律又对人类活动产生着各种正面或负面的影响,正面的影响称为吉,负面的影响称为凶,为了让生产活动更加顺利,人类优先选择正面的影响。通过长期观测和总结,人们根据经验按照复杂的推算方法,将日子分为黄道吉日和黄道黑日。
说到这里,您可能就明白了,这不就是大数据么。是的,这就是最初的大数据,我们不得不佩服古人的高超智慧,没有炫丽的词汇,没有高端的机器,有的只是一代人又一代人的观测和总结。
大数据与数据挖掘 篇7
1 Web数据集成与挖掘
1.1 数据抽取与集成
因为Web数据具有多种特性, 比如具备多主体互动、跨媒体关联和强实时关联等, 让其在数据抽取与集成方面, 尤其是当前大数据背景下面临新的问题。伴随对网络应用的深入开发, 信息时代使得数据来源非常广泛, 并且使得Web数据的结构和类型变得多样化。大数据的复杂性令人难以想象, 而对其处理的第一步要能够科学合理的对这些数据实施抽取, 经过计算提取出有用的实体与关系。第二步就是要对数据进行集成, 在聚合与关联的双重作用下, 就可以应用统一的结构形式来规范存储的数据。
1.2 数据分析
大数据下的Web数据集成与挖掘最为基础的就是数据分析, 获得大数据就必须要对其进行分析, 否则这些数据就是一些垃圾信息, 因此可以说数据分析是大数据处理的关键点, 而大数据的实际价值往往取决于数据分析的过程, 数据分析涉及到多种因素, 比如算法, 这是信息时代实现大数据本身价值的重点。传统意义上的数据分析是对获取的海量的数据进行有目的和组织的收集、分析, 通过各种逻辑运算使其变为有用的信息的过程。
2 大数据背景下Web数据集成与挖掘的现状
2.1 极速增长的数据规模性
Web大数据时代遇到最大的挑战在于数据规模性极速增长, 如此巨量的数据规模使得数据抽取和集成、数据的分析和解释过程中遭遇巨大的困难, 一方面因为数据量过于巨大, 另一方面是因为其高度复杂性。这里说的复杂性主要指复杂的数据对象, 也指模式与类型的复杂性, 以及关联关系的错综复杂和质量的高低不同。此外大数据与其存储设备之间也发生了巨大的矛盾与挑战, 主要是过去数据库都是规定数据的高度一致性以及拥有相应的容错性, 这就造成了扩展性不强和系统适应性不足, 在当前大数据背景下在对音视频这些非结构化与半结构化的数据实施存储的过程中经常出现错误。成倍增长的数据规模性给传统存储造成了巨大的压力, 如果不能应对这一挑战, 那么必将不能适应时代的发展, 因此设计科学高效的分层分布存储成为了关键。
2.2 数据类型的多样性
当前伴随数据量成本的增长, 数据类型也开始从结构化数据不断向前进行创新和改革, 数据类型的多样性是当前发展的必然规律。一般主要方向为结构化、半结构化和非结构化这三种类型, 这三种数据类型对过去数据分析平台提出了更高的要求, 必须要进行变革。通常用数据库的角度观察, 挖掘算法的高效性与弹性, 这是能够完成数据挖掘目的的重要方式, 可是现在的算法依然仅符合常驻内存的小数据集, 这对之前的数据量来说比较符合, 但是对于当前更为重要的大型数据库中的数据来说要让其导入内存是一件非常难的事情, 伴随数据规模不断的扩大, 尤其是数据类型的多样性使得高效率的算法开始变为当前数据分析流程的主要问题。
2.3 大数据背景下Web数据处理的时效性
因为硬件因素的影响和数据规模的不断增大使得数据处理的时间变得特别长, 可是当前时代的快节奏性要求对数据处理的时效性越来越高。面对当前大数据时代信息量的不断增大, 要做到数据实时处理难度非常大, 而且要求数据流能够实现速度快以及能够适应数据量规模巨大的特性, 基于以上事实一般不会对所有数据实施永久性存储, 另一方面因为数据环境也处在持续变化过程中, 系统如果想要把握数据的全貌是一件非常难以实现的事情。数据流在大数据时代其理论研究和技术创新有着重要意义。
2.4 隐私保护
因为网络的普及和个人终端的快速发展, 公民个人信息和多种活动轨迹在网络中越来越多, Web数据的价值逐渐变的重要, 在这种背景下也给不法分子以可乘空间, 应用网络来窃取公民的个人重要信息或者侵害公民和国家的利益。大数据时代使得Web数据的安全越来越重要。面对网络大数据时代下公民个人隐私的保护, 成为当前人们的一个巨大挑战, 需要解决多种挑战和问题。
3 结束语
信息时代的到来给人类带来了巨大的便利, 也带来了巨大的挑战, 如何处理好大数据下的Web数据集成与挖掘, 成为当前人们节约时间、高效率工作的关键因素。大数据背景下深入研究和分析Web数据集成, 应对各项新的挑战, 让Web数据集成符合时代发展的规律。Web数据挖掘工作成为当前人们关注的热点, 但是要彻底迎接Web大数据的数据集成与挖掘依然有很远的路要走。
摘要:伴随技术的进步和互联网的不断发展, Web数据呈火箭爆发式增长, 在大数据时代Web数据集成与挖掘成为人们广泛关注的话题。本文讨论了如何应对当前大数据下Web数据在集成与挖掘方面数据规模、数据多样性、数据时效性以及数据的隐私保护方面的问题。
关键词:大数据,Web数据,集成与挖掘
参考文献
大数据与数据挖掘 篇8
鉴于大数据的海量, 复杂多样, 信息的维度多, 颗粒度细, 信息更非结构化等特性, 使得大数据环境的构建颇为复杂。大数据时代数据的收集问题不再成为我们的困扰, 采集全量的数据成为现实。全量数据带给我们视角上的宏观与高远, 这将使我们可以站在更高的层级全貌看待问题, 看见曾经被淹没的数据价值, 发现藏匿在整体中有趣的细节。因为拥有全部或几乎全部的数据, 就能使我们获得从不同的角度更细致更全面的观察研究数据的可能性, 从而使得大数据的分析过程成为惊喜的发现过程和问题域的拓展过程。很多人自始至终都认为数据是越多越好, 那么理想中的大数据是更多的数据, 还是由各种算法构成智能处理技术。
大数据的理想形态是不用构建算法模型, 也可以说已经构建了完整的统计模型, 不用根据具体的问题再单独建立模型, 数据自身会从数据特性, 规律去进行统计分析, 人们只需要将所有数据输入, 计算机就能利用完整的统计模型, 决策出哪些数据适用哪个模型, 解决了哪些数据的问题。最后大数据的输出成果将不是一份报告, 而是一个完整的体系, 给出了在各种条件下的结论的体系。这个体系没有一份报告能容纳如此多的结果。大数据给出的体系具有普遍性, 客观性, 解决了人们片面的使用数学模型, 得出片面结果的问题。
当然, 这是一种理想的智能环境模式。智能环境的理想状态就是, 计算机能够自己的进行推理, 能够自适应数据的维度、结构。到了那个时候, 更多的数据将胜过更好的算法, 因为那时候已经没有了算法, 没有什么是不能计算的。
但现实是, 我们目前的大数据离理想中的大数据形态还有很远的距离。首先, 模型本身就是大数据的一部分, 各种不同模型都有各自的适用范围;其次, 已有的模型可能不适合新的数据, 那么就要构建新的模型, 这都给大数据环境的架构带来很大的困难。
数据分析员总是习惯带着预先设定的结论去分析, 这是统计学随机样本检测的特点, 随机样本带给我们的只能是事先预设问题的答案。他们会不自觉地以对自己有利的方式对这些数据进行分析和解释, 即使这些方式很可能与这些数据所代表的客观现实不相吻合。出于各种原因, 数据分析员很难从干扰他们的噪声中分辨出有用的信号, 甚至会无视这些真实有用的信号。
于是, 数据展示给他们的通常都是他们想要的结果, 而且他们通常也能确保这些数据令大家皆大欢喜。同时, 我们有时天真的相信各种预测分析模型, 却没有人认真地去验证这些模型是否科学合理, 是否与事实相符, 也许这些模型在进行架设选择时根本不堪一击。这种缺乏延展性的结果, 无疑会使我们错失更多的问题域。
大数据时代, 算法不再受限于传统的思维模式和先验的假定, 数据会为我们呈现出新的深刻洞见和释放出巨大的价值, 只有更好的使数据和算法融合, 才能在随时接收着来自数据的同时做出快速的决策, 这样效率会大大提升, 大数据的价值也正是在于将及时的信息及时的传递给需要的人手中并及时的做出决策。
笔者认为数据只是基础, 而更多的是如何建构起有效的算法、模型, 这比数据本身更重要, 网络中有时更多的数据意味着更多的噪声。信号是真相, 噪声却使我们离真相越来越远。
目前的大数据与理想中的大数据形态的距离并不在于数据源的多少上, 数据源从来不是问题, 问题是在于我们如何去构建一个科学合理的分析模型, 并坚信分析模式的输出结果。通过不断地修正、累积各种正确的分析模型, 我们将不断接近理想形态。
我们以为自己需要更多的信息, 但其实我们真正需要的是知识, 需要的是更多的解决问题的模型。所以, 大数据是一种理想的智能环境, 目前我们只是站在一个很长过程的起点上。
参考文献
[1]Big data[EB/OL].[2012-10-02].http://en.wikipedia.org/wiki/Big_data.
[2]王元卓, 靳小龙, 程学旗.网络大数据:现状与展望.计算机学报, 2013 (6) :1125-1138.
大数据与数据挖掘 篇9
关键词:大数据,数据治国,数据强国,大数据国家战略
数据治国
美国政府前助理信息官、纽约大学法学院教授贝丝·诺维克 (Beth Noveck) 在她的《维基政府——运用互联网技术提高政府管理能力》一书中阐述了如何在数字化背景下, 运用网络和大数据建立民主和高效的政府。“数据开放可以让体制内外的人一起参与进来, 解决政府无法完成的以及棘手的问题。”
诺维克以感染率数据为例说明开放数据的作用。美国的医疗部门收集了全美几乎所有医院的感染率, 但是政府并没有足够的能力把这些数据转化为有价值的信息。可是, 当这些数据被放在data.gov网站上以后, 微软和谷歌却能够运用自己强大的技术能力制作出数据地图。不管是研究机构还是普通患者, 都能够运用搜索引擎查找任何一家医院的感染率, 从而决定是否住院。
自2009年上任以来, 奥巴马就希望把他的这届政府打造成历史上最开放的政府, 并致力于推动政府信息向公众开放。他签署了政府信息开放令。根据开放令内容, 大多数联邦机构对他们拥有的数据资源必须开放, 范围包括医疗、教育、能源以及公共安全等, 让公众能够“容易发现、获取并使用”这些数据资源。
为什么选择开放?
将政府信息开放不光是为了让公众知道政府在干什么, 一个更重要的目的是为了软件开发商能够利用这些数据, 通过开发出商业的App或者服务, 从而给经济增长带来积极的效果。
奥巴马在白宫网站上的声明中这样写道:
“从今天开始, 我们让更多的政府数据、信息在网络上开放, 这将帮助产生更多的创业公司……并且, 我们让公众更容易地找到、使用它 (数据) , 这样能够让企业家制造出他们未曾料想到的产品和服务。”
从政治层面来讲, 大数据可以帮助政府实现以下三大价值:
第一, 透明的政府。大数据最核心的理念就是要建设开放的政府, 这是大数据对于政府最核心的价值。
第二, 智慧的政府。中国政府一直在努力提升对公众的服务水平。大数据可以帮助政府更好地了解公众在想什么, 需求什么。通过让政府变得更加智慧, 从而提升执政水平。
第三, 负责任的政府。通过为社会公众提供更好的服务, 真正做到“权为民所用, 利为民所谋”, 树立更好的政府形象。
大数据时代, 政府要为公众创造价值, 有两点很重要:首先, 要精准地感知。政府要了解互联网中到底发生了什么, 政府要和公众走得更近。其次, 在精准感知公众的需求和体验之后, 要有效地反馈。从服务的供给到信息的投放, 就像做广告一样, 政府要把数字资源投放到老百姓需要的地方——公众在微博上, 政府就把它投放到微博上;公众在微信上, 政府就把它投放到微信上。把这两点有机地组合在一起, 政府未来在互联网上一定会和公众之间形成和睦和谐的互动, 创造一个更美好的治理环境。
数据强国
过去30年里, 中国在工业化、信息化和网络化方面都取得了不俗的成绩。但是也要看到经济高速发展所带来的问题, 包括基础设施建设、环境保护、食品安全等方面的挑战, 都需要使用大数据这种创新方式提供更好的解决方案。巨大的需求客观上为中国大数据的研究提供了许多实践机会。
中国的人口和经济规模决定了中国大数据的规模为全球最大, 可为大数据研究提供许多创新角度, 同时也意味着中国大数据分析的解决方案将同样适用于其他国家, 这将为从“中国制造”向“中国创造”转变提供难得的机遇。
目前全世界都缺乏大数据领域的技术人才和商业人才, 而中国在大数据开发和应用方面的广阔平台有利于迅速培养这一领域的领军人物, 同时推动产生一批围绕大数据形成的创业型企业, 通过企业、科研院所和高等学校之间的合作, 中国有望站在大数据领域的技术最前沿。
大数据在推动中国经济转型方面也将发挥重要作用。其一, 通过大数据的分析可以帮助解决中国城镇化发展中面临的住房、教育、交通等难题。例如, 通过对交通流量数据的实时采集和分析, 可以指导驾驶者选择最佳路线, 改善城市交通状况。其二, 通过大数据的研究有助于推动钢铁、零售等传统产业升级, 向价值链高端发展。其三, 大数据的应用可以帮助中国在发展战略性新兴产业方面迅速站稳脚跟, 巩固并提升竞争优势。
同时, 云计算、大数据和物联网等新概念的兴起, 必然会带来一次深刻的产业革命。如果说前两次产业革命, 中国因为历史的原因, 都处于落后的阶段, 那么以大数据为代表的第三次产业革命必然是中国真正实现经济强国的历史契机。事实上, 全世界都还没有准备好迎接这场革命, 尚不了解数据的类别、品质和价值如何界定, 也不知道数据的隐私、安全和版权如何保障, 没有建立良好的数据产业生态环境, 也没有针对大数据的教育和训练。这种不清晰给了我们更多的机会, 而我国独特的体制允许我们在世界其他国家不可能想象的尺度上“办大事, 办好事”。政府、企业界、学术界、投资界和媒体需要齐心协力推动这次可能深刻改变我们社会和经济的变革。
面临大数据时代, 社会经济需要适应现代化的发展, 实现新的转型, 这就要求深刻考量中国的经济社会特征, 发现中国在新一轮现代科技革命中面临的短板。
打破社会结构的“马赛克化”
改革开放打开了中国的大门, 成为近几十年来中国经济飞速发展的重要原因。民族的繁荣强盛与其开放程度息息相关, 而中国的内部开放则刚刚起步。社会的内部开放重在社会流动和社会沟通, 中国城市化进程的加快和互联网的发展是社会内部开放的具体体现, 但还处于消极的不合理状态, 需要逐渐朝着合理的方向转型, 真正打破社会结构的“马赛克化”现象。
所谓社会结构“马赛克化”, 指的是社会中的群体以政治、文化、经济等各种要素被分割成不同的单元, 不同单元的个体形成一个个特殊的利益和价值群落, 享受着不同的经济社会政策, 促成了他们与单元外的人相互割裂和对立。社会结构“马赛克化”是信息封闭的产物。封闭的信息使人们无法与外界沟通, 继而形成“马赛克化”的社会结构格局。
中国的社会转型呈现多元复合特征。这种多元复合转型表现为八个方面:从乡村社会向城市社会的转型, 从计划经济向市场经济的转型, 从农业社会向工业社会、知识经济社会的转型, 从封闭社会向开放社会的转型, 从立体、科层社会向扁平、网络社会的转型, 从产业追随向产业创新的转型, 从线性经济向循环经济的转型, 从生存文化向发展文化的转型。这八个方面的转型互为前提, 交互渗透, 交织难解。在社会多元复合转型的关键时期, 任何政策和体系都应具有系统集成、顶层设计的特点, 旧制度已不能再适应社会经济发展的需求, 在发展过程中许多问题和矛盾已经开始凸显, 如收入差距拉大、环境不断恶化等, 必将成为社会转型中的障碍, 探寻新的制度创新已经成为时代发展的必然。
人的需求是丰富多彩的。21世纪以来, 在知识资本和人力资本快速流动的全球化背景下, 世界进入了协同发展的轨道。如何利用大数据的力量有效激发技术创新和文化进步, 不仅要改革创新, 还要外拓, 所以打破社会僵滞状态尤为重要。
创新是中国发展进入到知识经济时代的主题词。简单依靠自上而下的创新模式已然无法适应信息高度个性化的时代要求了。在大数据时代, 创新的力量正在向普通大众流动。
以英美为代表的大数据国家里, 相继推出了新的执政纲领, 就是要把权力从中央下放到地方, 从地方下放到社区, 从政治家下放到大众, 让大众承担起更多的责任, 从而建立一个“更大、更强、更好”的社会。应该说这种去中心化的模式是符合大数据特征的, 信息的流动, 层级的减少, 使得个体力量得到前所未有的强化, 从而形成一个强有力的网状社会。
网状社会的最大特点是适应了个体创新能力的组织要求, 从一个点可以辐射到整个网络, 既繁荣了创新, 又降低了创新成本。
打破“马赛克化”, 还可以改变中国社会长久以来数据意识单薄的现象。虽然中国在信息化和数据化方面落后于欧美, 但是中国的网络发展速度却是世界第一。我们拥有了数据流通的渠道, 缺少的是采集数据的意识。
数目字管理的基础是实事求是, 未来中国的持续进步, 依赖于实现这种实事求是的精确管理体系。
我国大数据产业:尚属雏形
2012年中国大数据的产值达到120亿美元。随着从事数据的机构和相关企业的增多, 今后国内数据采集成本也会降低。比如, 基因数据库分析的相关数据, 5年前100万美元才可以买到, 现在只要1000美元就足够了。
整体来看, 如果说美国宣称自己尚处于大数据开发的初级阶段的话, 那么中国的大数据则处于雏形阶段。目前来说, 我国的大数据开发以及应用还仅仅局限在商业领域中, 尤其以百度、阿里巴巴、腾讯、新浪为首的互联网公司为代表。他们可以利用多年来积累的数据优势进行自主开发。
制造业的代表海尔集团这两年也在强调大数据的应用, 快速响应客户, 感知客户需求。
一些产业在大数据领域已经取得一定的进展, 尤其是零售行业, 通过RFID、供应链、会员卡上的海量数据, 挖掘出更多有价值的信息, 帮助商场更好地运营和盈利。
从概念的层面讲, 中国的商业领域里都对大数据有了一个模糊的认识, 但是从他们对概念的描述以及自身模式的定位来看, 也许连雏形都还算不上。
政府在数据开放和数据应用上比商业组织落后, 需要迎头赶上。
中国的大数据开发主要有以下几股力量:
政府的力量。以工信部为代表的政府部委开始了广泛的行业性讨论, 以求可以给大数据一个标准的定义。
公司的力量。这里面有两种:一种是自身具有开发优势的, 比如百度这样的技术型公司;一种是要借助数据外包公司进行开发的, 这一种是目前中国商业里的主流模式。
投资者的力量。以宽带资本为代表的投资基金主动连横产学研各方面资源, 推动成立中关村数据产业联盟, 中关村成为中国大数据一个重要的战略基地。
在人才储备上, 专业的数据分析人员的角色并没有形成气候, 和走在前边的英美国家相比, 中国的专业人才储备不足。
除了技术和资本方面, 大数据更重要的是意识革命。它要求打破小数据时代的结构性样本分析的局限, 完全颠覆存在数百年的因果理念, 转而寻求大数据海洋里的相关性。这种意识的革命对于中国政府和商业都是一时间难以消化的。比如政府部门认为掌握公众的信息就是大数据, 而忽略了透明和公开。企业认为, 用户行为就是大数据, 但是对于如何开发更有价值的信息不得而知。
中国的大数据尚处于星火燎原的阶段, 产业链中各个环节的企业缺乏沟通、协同发展的理念, 并且对于行业用户的需求缺乏深入了解。这不仅使得我国大数据产业中的企业无法形成合力, 而且大数据相关产品和解决方案也缺乏行业应用基础。
以下是Intel发布的大数据在中国的分布图:
大数据短板
第一, 大数据的重要前提是数据的海量性, 中国独一无二的优势是人口数量带来的用户行为的数据海量性。但海量性仅仅是大数据的诸多前提之一, 我国在数据的开放性、流动性、交互性上还远远不足。
第二, 中国目前在数据处理上的技术仍然不成熟, 没有做好迎接大数据时代的准备。移动互联网的发展, 导致移动性与社交性融合, 使时空定位于社会情境。这样的趋势带来了很多价值, 例如融合了移动和社交的应用会影响用户消费决策。但与此同时, 出现的海量数据给精准的目标分析造成困难, 国内目前的数据分析技术还不足以更好地利用这些数据。
移动互联网是不可阻挡的大趋势。在中国和美国, 使用移动终端访问互联网的人数都已经超过了PC互联网。
第三, 从政府层面来讲, 信息公开也是政府利用大数据治国的一个必要条件, 在这方面中国和美国尚有差距。美国1967年就通过了《信息自由法》, 中国社会在2008年前后才制定了《政府信息公开条例》, 而且实施4年以来, 总体情况并不理想。
除了起步晚, 各方面制约的力量都很大。信息公开是一件非常难的事情, 难就难在没有人愿意主动公开!虽然一谈到透明和公开, 大多数人都会认可这是正确的价值观, 但一旦要自己透明、要自己公开, 那透明和公开就会立刻转化为一种威胁, 让某些机构却步不前。
第四, 数据的真实性在中国也有可能会成为阻碍大数据时代的一块暗礁。社会上常见的利用数据弄虚作假的问题, 可以总结为以下几个方面:一是一叶障目, 片面解释一个数据, 这其中也可能是故意为之;二是人为控制数据的收集和统计过程, 使结果产生扭曲和偏差;三是暗箱操作、修改数据;四是无中生有、“创造”数据, 这是最糟糕的, 因为假数据比没数据对社会的危害还要大。
第五, 非结构数据的不足。企业的数据越是非结构化、杂乱无章, 大数据的作用越能发挥得淋漓尽致。以银行为例, 由于银行产生的数据更有组织更结构化, 因此银行反而不是大数据的先锋。而社交网站可以成为用户展示个人的多媒体地带, 拥有大量的非结构性数据, 可以弥补电子商务网站在这方面的缺失。恐怕这也是阿里入股新浪微博的原因之一。
制定大数据国家战略
理性和开放是迎接大数据浪潮的必备素质, 无论对于政府、公司还是个人。要避免成为信息孤岛, 避免不再错失这次产业革命, 就要从顶层设计入手, 在软件、硬件和信息沟通机制三个层面做好准备。
中国制定国家大数据战略的主要内容包括:构建大数据研究平台, 即国家顶层规划, 整合创新资源, 实施“专项计划”, 突破关键技术;构建大数据良性生态环境, 制定支持政策、形成行业联盟、制定行业标准;构建大数据产业链, 促进创新链与产业链有效嫁接。
由于大数据的去中心化和非结构性特点, 自上而下和自下而上就显得不是那么泾渭分明了。政府一定要开放心态, 打开数据之墙, 让公众可以真切地参与到执政过程中, 做到真正的政府公开, 科学执政。
同时, 用户隐私权会成为大数据时代一个极具争议的话题。大数据从本质上要求信息开放, 而信息开放是一个复杂问题, 有些涉及行业内部竞争, 受到商业因素影响, 企业不愿意开放;有些涉及个人或者行业本身的隐私或机密, 无法开放。在大数据应用的过程中, 对互联网用户隐私权和数据的保护, 是开放信息时的重要考虑因素。
在思考这一问题时, 国家应该具体问题具体分析。政府应该审慎分析哪些领域的数据能开放, 考虑开放共享后数据的管理、数据的质量、数据的隐私和数据的保护等问题。
挖掘大数据的价值, 推动大数据的发展, 政府需要发挥作用。大数据是一个众多关键行业关注的问题, 从国家角度来看, 大数据是一种重要的战略资源。
同时, 学术界要和产业界共同支持和鼓励大数据的发展。只有学术和产业价值融合, 才能真正发挥大数据的应用价值。虽然学术界和产业界关注的价值点并不完全一致, 但仍存在一些共性。发现和利用其中的共性, 对解决发展大数据战略中出现的问题很重要。
大数据给中国发展带来了新的机遇。抓住生产方式转变这一关键, 才能解决发展方式转变的深层次矛盾。面向未来, 大数据将激发巨大的内需增量, 建设智慧城乡, 密切政府和民众的联系, 促进民主与社会进步。大数据产业将形成新的增长点, 数据业务主营化带来各行各业转型升级。借大数据的东风, 用信息生产力与先进生产方式带动发展方式和经济运行机制的转变, 可以为中国带来“数字红利”, 提高“新四化”建设的现代化水平。
未来以政府以及电信、教育、医疗、金融、石油石化和电力等行业为重点的大数据应用将直接拉动整个社会的应用规模。大数据将带来一个始料未及的变革性影响, 将使数据业务成为各行各业的主营业务, 围绕大数据, 企业将向分析即服务升级转型, 从而改变各行各业的业态。广义的分析即服务, 包含一切以大数据为基础的高附加值的创造性服务, 例如基于咨询数据平台的生活方式设计师服务、基于统计数据挖掘的商业分析服务、基于设计平台的创意服务, 还有基于大数据的设计服务、管理服务、教育服务、翻译服务以及基于行业或价值模块细分的服务, 等等。
大数据与数据挖掘 篇10
大会重点解析了全球调研白皮书《《分析:价值的蓝图》。作为IBM商业价值学院迄今为止最为全面的大数据与分析商业行为调研,该白皮书揭示了“分析为要”的大数据成功实践之道,以众多行业案例阐述:企业如何从大数据中获得商业价值和转型动能。作为结论性成果,白皮书指明了提升大数据实践成果的“三大要素”:战略、技术和组织。
IBM大中华区大数据和分析及新市场总经理,全球企业咨询服务部合伙人、副总裁Jason Kelley先生表示:“经过过去几年的认知和探索阶段,企业已经逐步明确数据作为二十一世纪新自然资源的巨大价值。大数据与分析成为提升企业竞争力的绝对优势,进行转型和创新的巨大动力,和构筑‘智慧的企业’的坚实基础。作为大数据领域的领导者,IBM端到端大数据与分析能力业已帮助全球超过30,000家客户获取更大的商业回报。2014年,IBM将持续升级在大数据方面的投入,一方面继续深入在金融、电信、医疗、零售、制造等各行业的实践,另一方面增强大数据与分析与云计算、移动、社交等热点趋势的融合,以及实现认知分析与大数据应用的不断融合。”
战略、技术、组织——“三大要素”
5年来,IBM一直将“了解如何从数据中创造价值”作为分析研究的重点,并在该领域不断获得突破性成果:从2009年将分析技术定义为战略资产,到2011年实施分析、掌握分析,到2012年阐述大数据基本原理,再到此次调研白皮书《分析:价值的蓝图》,正式揭示了企业如何从数据和分析中提取价值,获得显著回报。
通过对全球70个国家各种规模组织的900位业务和IT主管进行采访,报告提出了“提升大数据实践成果的三大要素”:“战略”、“技术”、“组织”。报告表明:分析实施战略要有助于实现组织的业务目标;现有技术要支持分析战略;不断发展的企业文化要让员工能够利用技术采取行动,并与战略保持一致。正确协调这三大关键要素,才能创造有形的价值,并取得基于结果的成效。
IBM全球企业咨询服务部战略与分析服务副合伙人段仰圣先生表示:“创建分析蓝图是发掘数据和分析洞察的第一步,通过一致的战略、技术和组织结构,企业可以培养目的感、构建面向未来的技术架构、激励成员快速采取行动,进一步发掘大数据分析所提供的巨大潜能。此外,为了充分发挥大数据的价值,企业需要像首席数据官和首席分析官这样的新角色帮助公司建立企业范围内的数据战略,以此增加竞争优势。”
“分析”为要、立足“需求”
据IDC预测,2014年大数据市场价值将达到161亿美元,比整个IT市场的发展速度快6倍。应对大数据、利用大数据成为企业重要需求。“分析”作为实现大数据价值的核心,成为企业获取价值、赢得竞争的决定性抓手。IBM在业界最全面的分析能力基础上,有力融合认知计算基因,能够涵盖所有数据类型和关键业务流程,帮助企业更加高效的打造大数据价值蓝图。
同时,企业业务层对于大数据的认知正在不断攀升,以业务目标为基础构筑大数据与分析蓝图对于企业而言愈加重要。《分析:价值的蓝图》调研结果显示:四分之一的CEO和COO提倡使用大数据分析(24%),该比例从2012年起增长了10%。基于多年来持续不断的研究和实践,IBM针对企业真实需求,提出实现大数据战略的“六大要务”:通过洞察客户和定制营销、建立新的业务模式、革新财务流程、管理风险、优化运营规避欺诈和降低IT成本——这六大要务也将同时成为企业利用大数据分析实现价值的重要途径。
IBM大中华区大数据中心总监王晓梅女士指出:“在未来的大数据与分析实践中,IBM将进一步帮助企业把分析注入关键业务流程,从‘六大要务’角度解析业务需求,并导出对应的大数据与分析战略蓝图。当前,我们将重点推行该六大要务中对于客户洞察和流程革新的指导,帮助企业通过使用社交媒体分析等进行客户关系管理、市场营销决策,通过利用预测性维护、实时预警等进行财务等运营流程的优化。”
IBM软件集团大中华区大数据及智慧地球解决方案总监李永财先生在大会上详细解析了IBM在全球和亚太市场针对零售、公共事业、金融等行业的实践经验,李永财先生表示:“作为业界唯一集咨询、服务、软硬件等综合能力于一体的厂商,IBM将成为中国企业值得信赖的合作伙伴,帮助各行业客户在大数据与分析技术和理念支持下实践六大要务,获得可观收益。”
IBM大数据与分析能力再升级
伴随大数据而来的是认知计算的时代。在认知运算时代,商务的新视野将是“智慧的企业”,企业目标从“以最低成本做产品”,转向“对客户最大化的价值”。认知计算系统能够通过辅助(Assistance)、理解(Understanding)、决策(Decision)、洞察与发现(Discovery),帮助企业更快的发现新问题、新机遇和新价值,实现以客户为中心的智慧转型。2014年初,IBM投入10亿美元组建独立的Watson部门,率先于业界步入前瞻认知计算实践。
本次发布会上,IBM正式宣布推出强大的大数据与分析平台Watson Foundations。作为IBM大数据与分析能力的全面整合,Watson Foundations在原有的IBM大数据平台上进行了至关重要的提升。其最为显著的增强特性包括:1)能够基于SoftLayer部署,将IBM大数据分析能力升至云端;2)将IBM独有的大数据整合及治理能力延展至社交、移动和云计算等领域,3)让企业能够利用Watson分析技术快速、独立的发掘新洞察。作为IBM大数据与分析领域的一大技术创新,Watson Foundations将帮助企业实现阶段性的大数据能力部署,为企业打造迈入认知计算的通途。
此外,IBM正在不断增强大数据与分析能力。截止目前,IBM在大数据的投入已经超过240亿美元,拥有超过1万名数据分析咨询师,400多名数学家,数千项专利。从2005年开始,IBM并购了35家以上相关领域的公司,其中包括最新收购的高速大数据传输工具Aspera、客户行为分析工具The Now Factory,以及备受瞩目的DaaS (数据库即服务)供应商Cloudant。
印刷与大数据 篇11
有人提出疑问,印刷厂要积累大数据,是不是需要经营许许多多的“C”才能够收集到足够的客户信息,组成大数据呢?
有人认为,假以时日,今天的印刷电商就能够用大数据来为自己的印刷生意服务。
大数据的应用发展已经有一段历史了。大家熟悉的电商或软件公司,因为有许多注册用户或服务、软件的使用者留下了个人信息,积累下来,才有了大数据。
我们做印刷生意多年,也收集了许多客户的个人信息,甚至了解他们需要什么样的印刷品。根据这些成千上万的客户数据去做营销活动,利用直邮或邮件通知他们优惠活动的内容,算不算大数据的应用?
其实,这还只是传统的营销。是否通过网络或是数据量到底要多大才算大数据都不是问题的重点。
2002年,Samuel J. Palmisano接掌IBM公司CEO,他的任务就是要让IBM公司的框架超越普通电脑销售公司的框架。于是,他一口气并购了25家精于数据挖掘和分析的软件公司和企业经营顾问公司,帮助企业或国家单位找出网络大数据,或是为企业内部数据建立各种模型,让客户利用数据技术来对企业进行改造,应付未来的竞争。
Samuel J. Palmisano于2012年交棒给下一任CEO之前,励精图治让IBM公司成功转型,从一家电脑销售公司成为一家高营收又具有创新潜力的服务型公司,其最独具特色的服务就是帮助客户开发大数据的应用。
那么,客户请IBM公司来对企业进行改造以前就必须有自己的大数据吗?当然不是,否则IBM公司哪有生意可做。
我们常常收到会说出自己名字的广告、邮件或者电话,然后质疑对方如何知道我们的个人信息,如果对方回答“大数据”,我们就骂不出口了。原来早在没有手机以前就有人开始收集数据了,以前想做广告自然就会去找可提供个人数据的地下供应商,现在大数据却堂而皇之地上了台面。
在没有能力做数据挖掘和分析的年代,数据量越大越好,散弹打鸟,误打误中总比没有好。但是在移动网络时代,大部分数据都关联了个人信息,数据挖掘和分析技术就有了用武之地,大数据渐渐进入人们的视野。
数据的买卖自古有之,今天收集数据更简单。一家生产婴儿奶粉的新公司刚成立,还来不及收集大数据便去做营销,就需要全国或某地区有婴儿的家庭信息。其实这些数据早就在某家公司的电脑里面了。
世界知名的IT制造产业界大亨郭台铭在贵州山洞里建立了国内第一个数据交换中心,用来服务应用大数据的客户。许多公司都已经用网络做生意,各自收集了不同的数据,可以在数据交换中心和别人交换,卖数据给别人,也可以买自己需要的数据。
下面,我们来看一个大数据的应用案例:2014年3月,俄罗斯阿尔法银行找来软件公司,开发了一个APP,取名为“Activity”,并和3家运动手环公司合作,只要存款户每天徒步超过一万步,其存款利息就会被调整到6%。阿尔法银行在电视上大做营销广告“健康才是真正的财富”。广告强调“没有其他途径可能取得如此高的利息,6%还只是字面上的意义而已”,暗示“健康利息比财富更贵重”。
银行不做网络生意,不懂收集大数据,只拥有自己客户的数据而已。运动手环便宜卖,客户越多,收集的数据量就越可观。另外,还有软件公司设计APP、广告公司设计营销活动。因为对大家都有利,只要有人撮合这样一个营销活动,各方的数据就都被应用了,也同时被收集了。
数据不一定要在ERP数据库里,有数据交换中心呀!印刷一样能够应用大数据,只要你想得出题目。
印刷厂如果有跨业合作的机会,大数据就粉墨登场了。例如,婴儿产品市场大,为了吸引潜在客户,在营销活动中可能会赠送一本有婴儿照片的育婴知识大全,这就得找印刷厂来配合,印刷厂就应用上了大数据。
大数据有买有卖,就看你如何应用了。
今天许多生意都有从大数据中挖掘价值的机会和可能,印刷商品还是最合适的创意之一。
没有ERP的印刷厂就没有数字管理,有ERP却无法管理生产的印刷厂,如果订单数量增加,人员数量就会增加,这样管理印刷厂就落伍了。
印刷或许不是未来大数据应用的主角,但是未来如果遇到跨业合作的大数据营销机会,落伍的印刷厂可能连跑龙套的机会都没有。
大数据与数据挖掘 篇12
关键词:大数据,“数据新闻”,发展现状
近年, 新闻实践领域在大数据背景下逐渐衍生了“数据新闻”这一概念, 其理念也逐步渗入全球各国的传统媒体、新兴网站和独立新闻机构内部, 包括中国在内的新闻界为此也展开了相应的实践与尝试。然而, 学术界关于“数据新闻”的研究仍存在明显不足的现象。笔者尝试对大数据时代“数据新闻”的现状及其对新闻领域的影响进行了分析, 以为“数据新闻”在中国得到更好的发展提供理论参考。
一、“数据新闻”的产生与发展
(一) 数据新闻的产生
为用户提供信息服务的Every Block的创始人阿德里安·哈罗瓦提于2006年首次提出了“数据新闻”这一概念。而目前最为流行的关于“数据新闻”的研究主要来自一本名为《数据新闻手册》的小册子, 该书中对“数据新闻”的概念作出了阐述。简而言之, 在海量数据中借助数据挖掘、数据分析、数据统计等技术手段发现新闻线索, 并通过可视化技术将新闻故事呈现于大众面前的新闻报道方式被称之为“数据新闻”。“数据新闻”又称为“数据驱动新闻”, 简洁明了、准确真实均为其特点, 如笔者在新华网浏览的题为《藏人看藏——达瓦眼中的西藏5年》就是一篇“数据新闻”。作为新闻界的舶来品, “数据新闻”在中国的实践必然与国外存在一定的差异, 如主创媒体差异、信源渠道差异、呈现形式差异等。对此, 我国政府及各类媒体需正视我国新闻业存在的问题, 积极完善信息公开法律, 为新闻媒体提供更多的信息获取渠道, 尽快摆脱“数据新闻”表现形式单一的问题。
(二) “数据新闻”的发展
大数据时代背景下, “数据新闻”的产生和发展与以下因素有着密不可分的关系:
第一, 互联网技术的迅猛发展以及信息时代的到来, 使各类新媒体日益成熟, 大量信息的产生在一定程度上为大数据时代的到来奠定了基础。
第二, 大数据时代的到来使大数据处理技术日益成熟, 其在各个领域的应用也越来越广泛, 这无疑为“数据新闻”的产生提供了有利的前提与基础。
第三, 计算机数据分析技术的发展使信息管理更为系统化与条理化, 这一优势使其在新闻业得到了充分的应用, 并最终成为“数据新闻”产生和发展的重要推动力。
二、“数据新闻”对新闻业的影响
“数据新闻”的产生与发展, 必然会对新闻的采编、生产和发布流程带来一场变革。下文笔者将从“数据新闻”独特的呈现方式和生产流程两方面进行分析:
(一) “数据新闻”独特的呈现方式对新闻业的影响
数据的可视化、图解新闻、数据地图均属于“数据新闻”转变的呈现方式。借助图形化手段进行信息的传达与沟通的方式称之为“数据可视化”。从某种程度上来讲, 图解新闻也是广义上的数据可视化, 区别在于数据可视化更加侧重于统计与呈现数字信息, 而图解新闻往往是揭示传统新闻报道的精华浓缩和事物间的关系。以电子地图为背景, 并将多种信息整合其中的称之为“数据地图”, 常被用于地震、海啸等灾难报道。无论是何种表现形式, “数据新闻”的生产均离不开数据挖掘、统计分析以及视觉化表现等一系列工作。新闻故事的发展脉络将借助大量数据的统计和分析, 这种互动式的呈现方式将带动读者更加直观地了解新闻事件与自身存在的关联性。
(二) “数据新闻”生产的流程再造对新闻业的影响
以前, 新闻生产需经历记者发现线索、前往采访或远程联系、撰稿发文或编辑播出等一系列复杂的过程。大数据时代的到来使记者获取信息的渠道越来越多, 而信息获取成本却在不断降低甚至接近于零, 网络上的只言片语、政府或企业公开发布的文件, 或是各大网站服务器的用户网络行为统计等多种多样的数据, 均可成为“数据新闻”可利用的海量数据基数, “数据新闻”的巨大发展潜力由此可见。对于新闻业界, “数据新闻”的推行必将引发新闻生产流程的变革。保罗·布拉德肖在《数据新闻的倒金字塔结构》中提出了“双金字塔模型”, 即以包括数据汇编、数据整理、了解数据和数据整合四个部分在内的倒金字塔来表示数据处理的过程, 而完成数据的可视化并实现有效传播正是数据处理的最终目的。“数据新闻”传播时则以包括可视化、叙事化、社会化、人性化、个人订制化和使用等六个步骤在内的正金字塔结构进行。较之数据记者米尔科·洛伦兹及《泰晤士报》新视觉新闻团所提出的“数据新闻”步骤, 双金字塔模型更加全面地揭示了数据在新闻质量及传播上的变化。
三、对大数据时代下“数据新闻”的反思
毋庸置疑, “数据新闻”的发展为新闻业带来了新的机遇和活力, 必然会为新闻业带来巨大的发展潜力。在“数据新闻”的带动下, 跨越一定时间和空间的综合报道也有了新的报道方式, 新闻体裁也将更为丰富, 更为严谨、科学的资料获取与分析的方法必然会促进新闻报道真实性与科学性的提升。不容忽视的是, “数据新闻”在给新闻业带来一定机遇的同时, 也给新闻业带来了较多的挑战, 如数据新闻对新闻从业者的专业素养提出了更高的要求, 记者除需具备基本的采写编评的基础专业技能外, 还需具有较高水平的数据分析能力和可视化技术运用能力, 具备与时俱进的“数据新闻”意识十分有必要。此外, “数据新闻”还要求整个新闻业逐渐转变传统新闻单一线性的生产理念, 逐步树立起数据意识、统计意识和整体意识。
综上所述, 日趋成熟的互联网技术、大数据处理技术及各类新媒体推动着“数据新闻”的产生与发展, 其从产生之初就为新闻业拓展了新的发展领域和方向。相较于传统新闻类型, 其呈现方式更为独特, 生产流程也有了较大的突破。针对“数据新闻”对新闻业所带来的机遇与挑战, 新闻业需积极转变新闻生产理念, 牢固树立起数据意识、统计意识和整体意识。
参考文献
【大数据与数据挖掘】推荐阅读:
大数据与电力企业10-27
大数据时代与经济新闻07-21
大数据与出版业06-20
大数据与科技管理07-31
大数据与推荐系统论文11-08
大数据与智慧酒店管理08-10
大数据安全与隐私保护08-31
大数据与图书馆发展09-19
大数据与语料库建设07-22
大数据与云计算论文09-08