大数据的功罪

2024-09-28

大数据的功罪(共9篇)

大数据的功罪 篇1

0 引言

现代产业与信息技术的发展使数据资源成为越来越重要的生产要素。爆炸式增长的数据量对多源、异构、高维、分布、非确定性的数据及流数据的采集、存储、处理及知识提取提出了挑战。大数据思维就是此环境中的产物,它并不局限于传统的基于因果关系的逻辑推理研究,甚至更多地通过统计型数据的搜索、分类、比较、聚类、关联等的分析和归纳,关注数据集内隐藏的相关性(支持度、可信度、关注度)。图灵奖得主吉姆·格雷将这种数据密集型的研究范式从理论科学、计算科学、实验科学中分离出来,成为“第四范式”[1]。

2008年《Nature》推出Big Data专刊[2]后不久,文献[3]将大数据计算称为商务、科学和社会领域的革命性突破。2011 年,《Science》的Dealing with Data专刊阐述了大数据对科学研究的重要性[4]。同年,麦肯锡公司发布关于大数据的竞争力、创新力和生产力的调研报告[5],分析了大数据的影响、关键技术及应用领域,进一步燃起学术界和产业界对讨论大数据的热情。美国政府于2013年3月宣布投资2亿美元启动“大数据研究和发展计划”[6],将其上升为国家战略。大数据被认为是继物联网、云计算之后,IT行业又一次颠覆性的技术变革。

云计算是利用互联网实现随时、随地、按需、便捷地访问共享资源池(如计算设施、应用程序、存储设备等)的计算模式[7],关注计算能力,并与关注知识提取的大数据技术相得益彰。

电力是社会发展的重要基础。随着全球能源形势的日益严峻,各国大力开展了智能电网的研究和实践[8,9]。其目标是建设一个覆盖整个电力生产过程,包括发电、输电、变电、配电、用电及调度等环节的实时系统,以支撑电网的安全、自愈、绿色、坚强及可靠运行[10]。而其基础则是电网广域全景实时数据的采集、传输、存储、分析及决策支持。

而愿景中的电网则是网架坚强、广泛互联、高度智能、开放互动的智能电网。文献[11]分析了智能电网大数据的产生与特点,指出已有的数据处理技术在智能电网的数据存储、处理和展示等方面所面临的挑战,已成为智能化发展的制约因素。 文献[12]探索了基于云计算的智能电网信息平台的可靠存储和高效管理。文献[13]研究了用户侧电力消费的大数据,从中挖掘其用电行为,以改进需求响应系统。

以电为核心的大能源体系正在成为全球能源的发展战略[14]:一次能源的清洁替代与终端能源的电能替代都必须依靠电网的输送才能大规模地实现。文献[15]指出,电力可靠性问题的顶层设计应该以大能源观为指导,不能局限于电力系统自身,还要分析其与一次能源、外界环境、管理政策、用户需求与方式变化间的交互,研究广义阻塞对电力系统安全性与充裕度的影响。

电力、能源及广义环境的多源、多态及异构数据的数量呈指数级增长,需要有相应的广域采集、高效存储和快速处理技术予以支撑。而从这些数据中挖掘知识及价值应用则使电力大数据的话题融入大数据的研究热潮。本文及其续文是笔者关于如何将电力大数据的思维应用到电力的广义可靠性、大能源安全及环境安全方面的思考。

1 大数据概念的演绎

1.1 定义

对“大数据”还没有统一的定义,通常指量大、多源、异构、复杂、增长迅速,无法用常规的方法处理的数据集合[16]。许多数据往往只在统计学观点上具有某种相关性,而不一定像传统应用的数据那样具有严谨的因果关系。对这样的统计关系型数据,只有当反映一个真实问题的数据量达到能在一定程度的统计意义上描述其真实面貌时,才能有效地提取知识,支持决策。而对于常规的因果关系型数据来说,数量的大小往往仅影响到计算资源,而与提取知识的方法关系不大。

因此,大数据与小数据之间并无绝对的界限,而是相对于目标问题而言的。大规模的数据量只是大数据概念的特征之一,也不应该用海量的规模作为大数据的必要条件。

大数据技术涵盖了从信息产生、采集、存储、转换、集成、挖掘、分析、计算、展示、应用及维护等数据全生命周期管理过程[17],需要具备从不同类型的多源异构数据中,快速提炼出有价值信息的能力。

1.2 基本特征

数据是以编码形式对自然现象、社会现象、试验仿真结果及经验的记录,包括数字、文字、图像、声音等形式。与传统数据相比,大数据具有四大显著特征4V,即量(Volume)、类(Variety)、速(Velocity)、值(Value)[18]。“量”是指数据容量足够大;“类”是指数据种类呈现多源多态特性;“速”是指实时性要求高;“值”是指数据价值密度相对较低。在数月的监控视频中,可能仅1~2s的画面有用,但通过关联数据的挖掘、分析和提取,却可能获得很高的信息价值。

一般认为,数据规模或复杂程度超出了常用技术按照合理的成本和时限来处理的能力,就可称为大数据。笔者认为如果统计型数据量对于具体目标问题来说,已经具有统计意义,就可以用大数据思维来处理。若为大数据设立数百TB的阈值,必将大数据思维束之高阁,扼杀了其广泛应用的生命力。

除了从因果、统计及博弈等数据关系的视角来对数据类型分类外,还可以按数据结构的视角将其分为三种类型:①结构化数据,即可以用二维表结构来逻辑表达的行数据,关系型数据库是其有效处理工具;②非结构化数据,是一类不能用有限规则完全表征与刻画的异构性数据,如图像、音频和视频等信息,它们之间不存在直接的因果关系,存在不相容性及认知的不一致性;③半结构化数据,介于上述两种结构之间的数据,可以用树、图等模型表达,如Web、办公文档及电子邮件等信息。据统计,随着社交网络、传感物联及移动计算等新技术、新渠道的不断涌现,企业中的半结构化或非结构化数据占比越来越大,有的已达80%。

1.3 思维方式

大数据技术的思维方式是:将采集到的经验与现象实现数据化与规律化,在继承传统的统计学、计算数学、人工智能、数据挖掘等方法的基础上,从单一维度转向多维度统筹融合,开发知识处理的新方法,从更深刻的视角,以更高的时效发掘多源异构数据,从而发现新知识和新规律,并实际应用的方法学。

若可以用简单的表达式直接描述某问题的结果与变量之间的关系,那么即使其数据量很大,也不一定属于大数据思维。当数据之间没有或还不能严格描述其因果关系,而数据集已相对地具备统计意义,就需要并可以采用大数据思维来处理。例如:对于一个市场调查的数据集,如果仅仅求取人群对某种商品的需求分布,那么思维方法并不会因为数据集是否海量,而改变常规的数据处理思维。但如果要从人群对该商品众多技术、经济、全程服务特性等各方面要求中提炼出有助于提高企业竞争能力的决策支持,那就需要有新的思维方法,包括信息挖掘与利用的思维、模式及方法,以帮助人类获得更深刻的洞察力。

关注统计关系的思维方法,同样可以应用于有限数据集上[19],只是其结论的可信度可能受到影响。

1.4 大数据技术的挑战

1.4.1 大数据的采集与集成

利用各种传感器及终端,采集反映物理世界、市场经济与人类行为等现象的静态/动态的异构数据,成为人、机、物三元世界的信息纽带[20]。其挑战主要体现在:①从结构化数据为主,向结构化、半结构化与非结构化的三者融合的变革;②数据来源的多样化,特别是移动终端的广泛应用,使大量数据需要同时带有时间与空间的标志;③有用信息被淹没在大量无关或弱相关的数据中,或需要处理低质量及局部缺损的数据。

1.4.2 大数据的存储

大量多态异构数据的高效、可靠、低成本存储模式是大数据的关键技术之一,对多源多态数据流之间的交互索引与转换效率影响很大。

数据压缩技术可以减少数据传输量及提高存储效率,但也增加了数据处理环节及计算负担[21]。分布式存储要权衡对存储空间及实时性的影响:对实时数据采用实时数据库或内存数据库;对核心业务数据采用传统的并行数据仓库系统;对大量的历史和非结构化数据采用分布式文件系统。

算法在处理复杂结构数据时相对低效,故希望事先为复杂结构的数据建立索引结构来帮助搜索,并合理地将非结构型数据结构化。

1.4.3 大数据的分析

需要关注大数据的形态描述、基本运行规律及其可控性。其中,最复杂的是人类社会行为信息,其决策行为必须与物理系统及信息系统相结合。

目标领域的信息若能与关联领域的信息相结合,则不但知识量得以增加,而且更有可能揭示综合性、交叉学科的未知知识,甚至从统计型数据中发现其(准)因果关系。知识的涌现性反映在模式、行为和智慧上。例如:将提高风机效率的研究与气象信息、电网信息联系,其效果将大大提升。大数据与云计算为之提供了数据资产的保管、搜索的技术,但也不是数据越多越好,而信息的提炼与知识的发现一般很难通过直观方式的分析和解读来获取。

数据驱动的分析方法包括:聚类、判别、回归、识别、隐变量、主因分析、时间序列。需要处理大规模的不定解问题,及必要时信息的补充问题,利用特征的相关性来发展统计学,有效地表达高维随机变量函数的联合概率分布。

用以发现知识的技术有:遗传算法、神经网络、数据挖掘、专家识别、回归分析、聚类分析、关联分析、数据融合、机器学习、自然语言处理、情感分析、空间分析、时间序列分析及其他计量学方法。一个例子是Google采用机器学习和神经网络来分析服务器群的数据,掌握大量变量之间的交互。神经网络在无显式编程下自适应学习,大大提高服务器群的效率,发现普通人注意不到的复杂互动关系。

随着大数据的应用从离线走向在线,甚至实时,所面临的系统复杂性、数据复杂性和计算复杂性挑战更为严峻。目前虽然出现了一些较为有效的方法,如流处理模式、批处理模式,及两者的融合[22],但仍未有一个相对普适的(准)实时的分析处理框架,在合理精确性的前提下实现快速的随机优化。

1.4.4 大数据的易用性

易用性应该贯穿在大数据的集成、存储、计算、分析,乃至展现等整个业务流程[23]。从技术层面看,可视化、人机交互及数据起源技术都可有效提升易用性,但仍存在元数据的高效管理的难点。元数据是关于数据的组织、数据域及其关系的信息,是描述信息资源的重要工具。

1.4.5 大数据的安全性

数据可靠性和通信网络安全性至关重要。必须研究各种广域量测数据和仿真数据的完备性、适时性和价值的评估技术,研究在广域信息不完全条件下的分析、控制技术。

“8·14”大停电前的几个月,北美电力可靠性委员会(NERC)警告说,随着电力业务的复杂化,越来越多的电力公司不遵循2002年发布的非强制性的安全导则,致使一些数据采集与监控(SCADA)网络被蠕虫破坏。大数据安全是一项包括技术层面、管理层面、法律层面的社会系统工程,其保障体系的框架由组织管理、技术保障、基础设施、产业支撑、人才培养、环境建设组成。应该研究数据源和传输的可靠性,研究信息系统故障或受到攻击时的行为,以及信息的阻塞、淹没、丢失和出错对大能源可靠性的影响。

移动互联时代中,人们在不同场合产生各种数据足迹;大数据技术将大量行为信息聚集在一起,就很可能暴露其隐私。由于尽可能地获取信息本来就是应用大数据技术的目的,故与隐私权的保护存在着矛盾。如何协调共享与隐私,需要制度与监管的保证。

现有的数据安全保护技术主要针对静态数据集[24],包括开放与防御的平衡,防止数据被窃取或篡改。但仍需要解决动态信息的安全性问题。

1.4.6 大数据的应用

大数据学科的兴起与人类需求密切相关,其中的信息挖掘及知识提炼环节必须与待求解问题紧密结合,而应用环节则是大数据技术发展的动力与归宿。因此,大数据研究应该遵循问题导向、需求牵引及数据共享的原则。必须结合具体的目标问题,将采集到的低价值的大数据加工成高价值的思想或知识,大数据技术才有生命力。若没有应用企业的深度参与,若不能按照商品的规律运行,大数据技术就难以真正取得收效。此外,若没有各管理部门对数据共享的落实,大数据技术也只能是纸上谈兵。

知识作为资源,需要像物质资源那样分配及流通。为此,需要对知识产品定价,并从数据使用的视角揭示信息流与科学活动的内在规律。

目前对大数据应用的关注,主要集中在商业与服务业这些以统计关系为主的领域[25],较少涉及具有较强因果关系的领域,如电力系统及能源市场等领域。笔者认为,是否能成功地将统计关系、博弈关系与因果关系取长补短,是大数据技术能否扩大应用领域的一个关键。

2 电力大数据

2.1 问题的提出

从能源系统看,它包括电网和非电的能源网两部分;电力系统应该在能源的清洁替代与电能替代中有效地承上(一次能源)启下(终端能源),兼顾左右(与其他二次能源协调)。

从信息系统看,它包括专用通信网与互联网(Internet)两部分。专用网用于对信息安全性或实时性要求高处,但由于非开放式的接入,故不适合与广泛用户的互动;互联网用于开放场合,但信息安全及实时性差。显然,两者对于信息系统来说都不可或缺。

能源革命需要的是能源系统的全部组分与信息系统的全部组分的深度融合[26],即大能源系统与大信息系统组成的信息能源系统,而不是局限于它们的某个子集之间。但是,智能电网的研究范畴基本上局限于能源系统中的电力系统与通信系统中的专用网[27],因此其信息物理融合的概念也就局限于“电力生产信息+电力系统”。作为能源革命重要环节的“一次能源系统及终端能源系统”,以及作为信息革命重要环节的“网络金融及需求侧参与信息”却并没有得到应有的重视。

显然,目前的智能电网框架中的专用通信网的功能需要从电力系统扩展,不但涉及各种非电的能源环节,而且涉及相关的非能源环节,以更好地支持对电力可靠性及经济性的研究,并支撑综合能源安全、能源经济安全及环境安全。另一方面,开放的网络经济及广泛的用户参与都需要互联网的支持,互联网数据的管理与挖掘成为非常重要的任务。

整个能源行业在转型发展中面临的机遇和挑战,来自一次能源的压力、环境安全的紧迫性、电力系统内外复杂性的增加、运行环境及扰动事件的不确定性与风险的增大、经济与技术的发展、市场改革的要求。为了应对上述挑战,必须提高数据的及时性、完整性、一致性及信息安全防御能力,提高对数据的管控能力,消除数据壁垒、存储无序且不一致的现象,完善对外部环境、基础设施及人才队伍的掌控。

从传统的电力数据演变为电力大数据,跨领域的时空扩展将电力系统的界面条件从确定性变为时变性,同时也增加了多时间尺度的动态复杂性[28]。涉及各类数据的采集、集成、存储、管理、知识挖掘、决策支持、可视展现等技术,也反映了电力及综合能源数据的管理、知识的挖掘和应用等一系列推进能源生产、转换、输送、消费方式的创新思维。其中的互联网数据大多为传统数据库不支持的非结构化类型,包括图片、视频、音频、地理位置信息、网络日志、博弈行为、金融动态、政策法规。数据的在线或实时处理,往往呈现出突发及涌现等非线性状态演变现象,难以预测。

为此,信息创新必须与能源革命在更高层次上深度融合,特别是在一次能源中的清洁替代及终端能源中的电能替代上,不但将协调优化的概念提升到综合能源流的范畴,而且推动电能更主动发挥在一次能源与终端能源之间的核心纽带作用,实现能源生产模式与消费模式的革命。

但是,将大数据技术局限于互联网数据也是片面的。通过专用网或仿真网获取的数据,包括智能电网概念中已涉及者,以及有待外拓的非电能源领域与非能源领域中的数据问题,同样存在大量的挑战。既然讨论的是信息物理融合问题,那么其框架就更不应该在信息系统内部或能源系统的内部设立藩篱。

当前的研究都在一定程度上受限于物理系统中的藩篱或信息系统中的孤岛。例如:①稳定性与经济性的研究都针对给定的边界条件,不能真实反映上下游环节的变化对电力系统的影响;②充裕性问题被粗犷处理为固定比率的备用容量,无法适应大规模不确定性的可再生能源及充放电用户的入网;③决策过程基本无法考虑博弈行为的影响;④忽视了信息系统本身可靠性的影响;⑤缺乏对电力系统外部环节的自适应能力。

要突破上述藩篱与孤岛,就必须遵循以电力系统为核心环节的大能源系统在大数据时代下的发展理念,顺应管理体制及技术路线的变革。

2.2 电力大数据的特征

一方面,电力大数据具有大数据的共性,包括目标领域向其他相关领域的扩展,以及数据类型向非结构型及非因果型数据扩展,时间维度向多尺度的流数据扩展。由此形成大量的异构异质数据,包括数字、文本、图形、图像、音频、视频等静态和不同时间尺度的动态数据,以及大量统计关系与博弈关系的数据,都需要快速处理。

另一方面,电力大数据必然继承了能源行业数据的特征,包括大量的因果关系数据、高维的时空数据,广域的监测控制,快速的时间响应及实时控制数据。除了电力系统的状态外,还需要获取并分析相关领域的数据,并处理部分数据缺失时的不确定性。

运行工况或故障场景都会影响系统的稳定性和控制策略。中国的电网现在已普遍实现了在线的量化分析功能,按实测工况和典型故障来指导预防控制,并向自适应的紧急控制与系统保护发展[29]。但若要有效地应对极端自然灾害环境,则还需要采集并处理大量非结构型的视频、语音、图片,并与电力系统分析功能有机结合。大规模间歇性可再生能源(RES)与电动汽车(EV)的入网对电力充裕性与备用调度提出挑战,要求大大提高对风电、太阳能发电及EV充放电的预测精度,这就需要处理大量非结构型的地理及交通动态数据。为了应对相继故障,基于常规因果关系型数据的分析算法也应该解决多米诺效应的演化路径及实时评估的经典难题。

2.3 电力大数据的类型

除了按数据结构等大数据概念来划分电力(能源)系统大数据,还存在其他视角,列举如下。

1)按业务领域,电力大数据可分为:①规划运行类,包括电力规划、电能生产、运行监控、设备检修等数据;② 企业运营类,包括企业发策、运营、电力市场、用户信息等数据;③企业管理类,包括人财物资、资本运作、企业资源计划(ERP)管理、协同办公等数据;④非电的能源类,包括各种一次能源、非电的二次能源、终端能源使用模式等数据;⑤非能源类,包括气象、环境、碳资产、宏观经济政策等数据。

2)按时间维度可分为:①背景及法规数据;②历史数据;③调查及预测数据;④在线实测数据;⑤仿真推演数据。

3)按数据采集来源可分为:①书本及文档;②专用网数据;③互联网数据;④问卷及调查;⑤交互博弈及仿真结果。

2.4 电力系统的数据量

常规SCADA系统按采样间隔3~4s计算,10 000个遥测点每年将产生1.03 TB数据(12B/帧×0.3帧/s×86 400s/d×365d×10 000遥测点);广域相量测量系统的采样率为100次/s,10 000 个遥测点每年将产生495 TB数据。美国PGE公司每个月从900万个智能电表中收集超过3TB的数据。国家电网公司的2.4亿块智能电表,年产生数据量约为200TB,而整个国家电网公司信息系统灾备中心的数据总量,接近15 PB。 以2004年山东系统(97台机、462条母线、702条支路)为例,设在线每5min对220kV以上线路的三相永久故障分析一次暂态稳定性,仿真时长10s,仿真步长0.01s,则一年内将产生1 092TB的数据量。当大规模的间歇性分布式可再生能源入网后,发电侧计及气象数据的实时监控的数据量比传统发电成倍增加。智能配电、智能电表、电动汽车和用电技术的发展也大大增加了需求侧的数据量。电力企业的精细化管理,与一次能源、环境、交通、市政等外部系统的联系日益深化,对数据量的依存度也越来越高。

2.5 电力大数据对电力可靠性的支撑

整合各种广域系统采集的静态和动态数据,包括雷电场、台风风力场、山火场等非结构型数据与常规的电力数据及仿真信息相结合,从所获的现场实测或仿真得到的时间响应曲线中提取深层知识。以支持稳定性与充裕性的量化分析及自适应控制,协调故障前的预防型博弈,故障后瞬时的故障隔离和预测型紧急控制,检测到违约症状后的校正控制,以及系统崩溃后的恢复控制。在此基础上,综合防御框架还应该实现多道防线的时空协调,通过协同各道防线和各种控制手段,最大限度地减少大停电的风险。

信息的可靠性是分析和决策的物质基础;机理分析和量化分析则通过数据挖掘来深刻掌握电网的行为特性[30];正确的决策是为了能以最小的风险代价来最大限度地满足电力需求。互为补充的相量测量单元(PMU)、远方终端设备(RTU)和仿真数据共同满足系统在空间中和时间上的可观性和可控性[31]。需要研究在不完备数据下,如何将信息论和系统论相结合,从数据中挖掘深层信息。

在电力的长期可靠性分析与控制方面,需要考虑社会、经济、科技、能源与政策等发展的不确定性,以及各种博弈行为的影响,将目前依靠主观判断的方式逐步提升为基于混合仿真推演的方式。

3 信息能源系统的大数据平台

3.1 电力(能源)系统运行数据的采集

关系数据库强调完整性及一致性,云计算强调可扩展性,但难以保证实时性。Internet的TCP/IP协议在流量控制和数据纠错时会产生10ms量级的时延,难以满足实时控制,特别是紧急控制的要求。

RTU和SCADA系统可以用低成本采集大量的广域数据,并满足静态可观性,但没有统一时标,采样周期长、时延大,只能抽取慢速动态特征。故障录波和保护信息系统就地记录大量暂态信息,可支持故障的事后分析,但上传的滞后时间长,难以实时应用。

PMU数据不依赖于系统模型和参数,可在统一时标下快速采样,提供系统实际的时间响应曲线,用来校核仿真模型和参数,并提供仿真的初值。但受价格限制较难满足高可观性。

20年来的研究热点之一是将PMU用于实时稳定性分析及开环控制,根据受扰后短期实测数据预估稳定性,并在失稳前选择并执行控制措施,但至今未能用于稳定分析和开环控制。文献[32]明确指出,在非自治因素下单纯依靠轨迹的外推来预测并不可靠,并且即使在没有时间约束的离线环境下,要对有数学模型的仿真曲线进行稳定性量化分析也非易事。若在计算已有轨迹的稳定裕度时没有模型参数可用,其量化分析就更难。更重要的是,只有通过仿真才能在措施实施前确认其效果。不与仿真工具结合,就难以按合理的保守性来确保控制的充分性。其根本原因是:在事前,PMU无法观察到控制措施的效果,也无法在不依靠系统模型及参数的前提下求取实测轨迹(特别是稳定轨迹)的稳定裕度。PMU在应用上的这个瓶颈是本质性的,不可能真正突破。

现场伪量测是对广域数据加工中挖掘出来的数据;仿真伪量测是在仿真中产生的数据。它们的正确性受到模型、参数、初值和算法等的限制。

3.2 电力(能源)系统的大数据平台

随着数据采集环节的质量提高、成本降低,以及各种广域数据采集系统的数据共享,可以通过更多数据来全面掌控电力与能源。为此,需要将各种广域监测系统和数值仿真系统置于统一的平台中,有助于数据挖掘,识别相继故障的先兆特征、临界条件和传播模式,从而提高预警水平,增强防御停电灾难和事后分析的能力。

由硬件资源、基础软件、网络通信、数据集成、计算支撑、应用支撑、安全管控等环节构成的大数据平台支持多源多渠道异构数据的即插即用、融合与管理,支撑各种开发、应用及信息展示功能的即插即用。通过基于数学模型的因果型数据、无因果关系的统计型数据以及参与者博弈行为的融合,管理各类能量的生产、转换、输送及使用,调度与仿真数据的集成与管理。

4 结语

虽然当前关于大数据的应用案例大多发生在互联网企业中,但传统的电力及能源企业也在思考如何从关于大数据的空泛介绍走向实际应用。特别是除了直接依赖互联网的电力金融业务及面向消费的个性化服务以外,在基于传统数据的系统分析与控制领域中,如何融合电力及能源的统计关系数据、因果关系数据及博弈行为数据,发挥大数据的价值。例如:间歇性能源及负荷预测,引导需求响应及节能减排,降低停电风险,反窃电,堵塞经营漏洞,优化资产全寿命周期管理等方面。特别是:如何使企业决策从当前基于常规数据及主观经验的模式,发展为基于数学模型、参与者及多代理模型的混合仿真的沙盘推演模式。其中的多代理模型就需要大数据技术的支撑。这关系到电力大数据技术是否能进入到通常由因果关系数据一统天下的物理系统分析领域。为此,思维方式需要重大变革。

摘要:大能源思维将电力视为能源生产与消费全流程中的枢纽环节,藉此推动上游一次能源的清洁替代与下游终端能源的电能替代,支撑能源的可持续发展。大数据思维将各种数据资源从简单的处理对象转变为生产的基础要素。这两种思维的融合,使电力大数据成为大能源系统广泛互联、开放互动及高度智能的支撑,包括:广域多时间尺度的能源数据及相关领域数据的采集、传输和存储,以及从这些大量多源异构数据中快速提炼出深层知识并发挥其应用价值。作为两篇论文中的开篇,在演绎大数据基本概念、结构类型及本质特征的基础上,归纳电力大数据的特点。针对综合能源,通过基于数学模型的因果型数据、无因果关系的统计型数据以及参与者博弈型数据的融合,构建信息能源系统的知识挖掘平台。其续篇将讨论信息能源系统,并通过若干案例,反映大数据思维对提高大能源经济性与可靠性的贡献。

关键词:信息能源系统,能源互联,因果型数据,统计型数据,博弈型数据,非结构型数据,知识提取

大数据的功罪 篇2

信息技术作为时代不断发展的象征,不管是在我国行业的发展中,还是在人们的日常生活,都起到了重要作用。同时,在信息技术不断发展的过程中,大数据时代的应用范围也在不断的扩大,其来源渠道也非常多,数量也在不断增加。在这种情况下,大数据时代的大数据信息管理就显的尤为重要。由于大数据的数量不断增加,现有的管理形式已经无法满足大数据时代的发展,并且在利用计算机对大数据进行全面分析和处理的过程中,也受到了严重的影响,因此,要想有效的对大数据进行充分利用,就要对大数据管理形式给予高度重视,采取有效的措施,不断加强大数据的管理形式,最终实现有效、便捷、安全等管理性能,这也为对我国信息技术提供了重要的发展方向。

大数据的功罪 篇3

对大数据合理地进行确认和计量;正确地进行会计处理;公允地体现在会计报表上,这是大数据作为一项新型企业资产研究的课题。站在大数据逐步产业化的层面,立足于雨后春笋般诞生的众多大数据企业和大数据研究机构的角度,让大数据资产走进大数据企业会计报表具有现实意义和深远的影响。

一、大数据资产的确认

1. 大数据资产确认的操作方法。

数字不是数据,数据也不是大量数字,大量数据也尚不能界定为大数据。当企业针对某个领域、某个事项、某种目标进行前期调查、调研、抽样、统计等研究时,或者针对基础资料进行筛选、整理、分类、分析等后期系统加工处理开发时;再或者企业支付对价购买取得数据基础资料时,将归集的对象化了的成本费用确认为“研发成本”,非对象化的确认为期间费用。

在“研发成本”的基础之上,能够使大数据以研究报告等现实产品形式对外提供给大数据使用者时;或者能够使大数据在虚拟空间里供大数据使用者随时使用时,将“研发成本”确认为“无形资产”。

2. 大数据资产确认的背景培育。

尽管独立的数字、零散的数据尚不能界定为大数据,但是它们却是形成大数据产品的基础原料。原料的价格相对于产品而言自然是低廉一些,特别是对于大数据产品这样的无形资产,其原料更是低廉得可怜。比如几千元钱购买了一个城市的企业注册信息;再比如几百元钱、甚至是几个电话或者几句好话就能换取无数个各类样本。

的确有些样本取得是简单且价格低廉的,但有些基础原料却是前期花费高额成本的。比如人口普查、经济调查等等前期都花费了大量的人力、物力、财力。只是目前这些基础样本的持有者没有法律的约束;没有或者法律意识淡薄忽视了这些基础样本的价值所在。伴随着人们“数据资料信息本身是有价值”意识的增强,就会逐渐形成一个市场,形成一个数据原材料、大数据设备、大数据人才、大数据产品市场。这些都将逐渐形成大数据确认的背景培育土壤。

二、大数据资产的计量

1. 大数据资产计量的操作方法。

大数据资产一旦作为企业的一项新型资产,自然也要遵循货币计量的假设和历史成本的原则。企业在大数据资产研究阶段和大数据资产开发阶段,以其实际发生的工资薪金、设备折旧、购买大数据资产支付的对价、投资者投入的大数据资产公允价在内等各项成本费用额度,分别将归集的对象化了的成本费用计入“研发成本—研究费”和“研发成本—开发费”,非对象化地计入期间费用。

在“研发成本”的基础之上,能够使大数据以研究报告等现实产品形式对外提供给大数据使用者时;或者能够使大数据在虚拟空间里供大数据使用者随时使用时,将“研发成本”的账面价值结转到“无形资产”。

2. 大数据资产计量的技术支持。

关于大数据资产的计量,从理论上来讲并不复杂。但是实际操作过程中,需要太多的技术支持,或者说需要太多账务处理的合法依据。购买大数据资产支付的价格是否合理,这不能停留在供求双方的合同、协议上,不管是由供方提供发票,还是由需方到税务机关代开发票,其发票的金额应当在对应合同协议的基础上,税务机关应该制定最低计税标准,或者借助大数据资产评估机构的评估值。还有投资者投入的大数据资产是否公允价,也存在类似的问题。

发票可以是增值税普通发票,也可以是增值税专用发票。但是只有开具发票税务机关才能掌控大数据资产的交易流转税;供方企业或自然人才能从源头上缴纳增值税及其附加;需方企业才能获得合法的企业所得税税前扣除依据。

对于评估而言,首先,是完善大数据资产的资产评估准则、细则、操作指南;其次,是培养大数据资产评估专业人才和培养、提高资产评估师的大数据资产评估技能;再者,是有胜任能力的评估师事务所增加大数据资产评估业务范围,同时建立大数据资产登记确权、价值评估、交易服务公共平台。不仅让大数据资产走进企业的会计报表提供合理合法的可能,也为企业将来的大数据资产抵押贷款、资产证券化的等价支付、有序流动,最终形成大数据产业和产业链奠定基础。

对于税务机关而言,首先是应该将大数据资产交易列入增值税细目,确定大数据企业的征收率和税率;其次是制定大数据资产的最低摊销年限;再者是壮大针对日益繁荣大数据企业稽查队伍或者人员。

三、大数据资产的会计处理

1. 大数据资产的会计处理方法。

大数据资产将以存货的形式或无形资产的形式,存在于“研发成本”或“无形资产”账户。因此,大数据资产的会计处理关键工作就是摊销。其摊销的流向应该是和大数据企业“主营业务收入”对应的“主营业务成本”。也就是说摊销时,借记“主营业务成本”,贷记“累计摊销”。

针对大数据资产的特性,其不适应一般无形资产五五摊销和分次摊销的直线平均法。应当采用收益百分比法或者年数总和加速摊销法。目前大数据资产的计量标准尚待完善,收益百分比法的实施还有一定难度。当前可以将固定资产计提折旧的年数总和法引入大数据资产的摊销。具体的使用年限可以参考最低使用年限。

对于大数据资产取得的会计处理,在前面确认和计量环节已经涉及。大数据资产的期末计量,在上述税务机关制定的最低摊销年限指导下也就变得非常简单。在此不再赘述。

2. 大数据资产的会计报表列示。

大数据资产在资产负债表上的列示位置,依据对会计准则理解因该是存货项目或无形资产项目。针对大数据资产的特性,对于账面价值需要研究两个问题:第一,大数据是轻资产类型的资产,所以不能仅仅从资产额度上判定大数据企业是小企业或中企业,那么能不能采用高价卖出,平价买入,并交纳交易环节税费的形式抬高资产额度;能不能评估增值补交税费入账。第二,大数据资产列示在无形资产项下,无疑是一种长期资产,这在某种程度上会影响大数据企业的流动比率实质。因此可否考虑将一年内摊销完成的部分价值,列示在一年到期的其他流动资产。

大数据的功罪 篇4

现在的世界是大数据的世界,日常购物,出行,娱乐,无处不体现着大数据的身影。淘宝的今日推荐、全年最受欢迎的旅游胜地、性格测试等等等等,都是大数据在悄无声息的发挥着它的作用,给我们带来便利。随着移动互联网的发展和科技进步,大数据会更加深入渗透到生活的方方面面。

大家在享受大数据带给我们生活便利的同时,对于大数据的作用还不是很清楚,接下来由陕西华信智原来为大家详细解读学习大数据的作用,并着重分析大数据的就业前景。

学习大数据有什么用?

1.疾病医疗:

大数据可以帮助医疗机构建立患者的疾病风险跟踪机制,帮助医药企业提升药品的临床使用效果,帮助艾滋病研究机构为患者提供定制的药物;

2.出行旅游:

大数据帮助航空公司节省运营成本,帮助旅游网站为旅游者提供心仪的旅游路线。

3.电商购物:

大数据可以帮助电商公司向用户推荐商品和服务,帮助二手市场的买卖双方找到最合适的交易目标,帮助用户找到最合适的商品购买时期、商家和最优惠价格;

4.企业营销:

大数据可以帮助企业提升营销的针对性,降低物流和库存的成本,减少投资的风险,以及帮助企业提升广告投放精准度;

以上几个方面,基本涵盖了人们日常生活的绝大部分应用场景,这些还远远不够,未来大数据的身影应该无处不在,只要发展脚步在继续,因大数据而产生的变革浪潮将很快淹没地球的每一个角落。

大数据的就业前景好吗?

随着云的能力不断提升,在DT时代,绝大多数的计算与数据服务都会在云端完成。面对这一发展趋势,除了需要在技术上不断将计算能力提升之外,云计算、大数据方面的专业人才缺失,也成为了整个生态面临的严峻挑战!全球顶尖管理咨询公司麦肯锡(McKinsey)出具的一份详细分析报告显示:预计到2018年,大数据或者数据工作者的岗位需求将激增,其中大数据科学家的缺口在14万到19万之间,对于懂得如何利用大数据做决策的分析师和经理的岗位缺口则将达到150万!

在陕西华信智原学习大数据的同学们,已经成功在这些岗位高薪就业。

1.数据分析师 数据分析师是数据师的一种,指的是不同行业中,专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。在工作中通过运用工具,提取、分析、呈现数据,实现数据的商业意义。

平均薪资:8000元

2.数据架构师

数据架构师是负责平台的整体数据架构设计,完成从业务模型到数据模型的设计工作,根据业务功能、业务模型,进行数据库建模设计,完成各种面向业务目标的数据分析模型的定义和应用开发,平台数据提取、数据挖掘及数据分析。

平均薪资:7000元

3.数据挖掘工程师

一般是指从大量的数据中通过算法搜索隐藏于其中知识的工程技术专业人员。这些知识可用使企业决策智能化,自动化,从而使企业提高工作效率,减少错误决策的可能性,以在激烈的竞争中处于不败之地。

平均薪资:7500元

4.数据算法工程师

在企业中负责大数据产品数据挖掘算法与模型部分的设计,将业务场景与模型算法进行融合等;深入研究数据挖掘模型,参与数据挖掘模型的构建、维护、部署和评估,支持产品研发团队模型算法构建,整合等;制定数据建模、数据处理和数据安全等架构规范并落地实施。

平均薪资:8000元

5.数据产品经理

数据平台建设及维护,客户端数据的分析,进行数据统计协助,数据化运营整理、提炼已有的数据报告,发现数据变化,进行深度专题分析,形成结论,撰写报告;负责公司数据产品的设计及开发实施,并保证业务目标的实现;进行数据产品开发。

平均薪资:8000元

大数据是资源,和大油田、大煤矿一样,可以源源不断挖出大财富。和一般资源不一样,它是可再生的,是越挖越多、越挖越值钱的,这是反自然规律的。对企业如此,对行业、对国家也是这样,对人同样如此。未来是属于大数据的时代,谁掌握了大数据技术,谁就掌握了发展先机。

大数据的功罪 篇5

大数据的概念目前没有统一的界定。维基百科对大数据定义如下:大数据由巨型数据集构成, 这些数据所占空间大小是现在使用软件在可接受时间下难以合理处理的。Floridi指出, 大数据是指由工具、传感器、网络处理器、电子邮件、视频、点击流产生的大量、多样、复杂、分布的数据集或者由其他现在或将来能获取的数字化资源构成的。大数据是有相对性的, 是针对目前计算机处理的能力而言的。IDC (International Data Corporation) 界定了大数据具有的“4V”特征:Variety、Volume、Velocity和Vitality, 即多样性、大容量、高速度及时效性。目前, 由于网络发展迅速、范围更加深入, 使得各种数据拥有了更大范围、更低消费的集散场所。只需用很低的成本, 这些自动生成的数据即可做到存储与传送。可以说, 基础的资料和技术已经准备就绪, 大数据商业情报的时代已经到来。

2 新时代的情报变化

在大数据时代已经到来的时代背景下, 通过成熟的网络条件, 合作伙伴能够在闭合供应链企业间实现快速分享有利信息, 但是另一方面, 无处不在的智能设备却将周围环境中的情报有意或无意地上传、发布到开放的网际空间中。这之中可能存在大量的企业成员独自的私有情报, 他人能够通过大数据手段十分轻易地拥有这些之前难以或不可能获取的私有情报。这就说明, 在当代的商业活动中, 情报泄密、流失已经成为了不可避免的现实。因此, 闭环供应链中企业为提高自身利润, 不得不使用大量的智能设备进行监控以防止私有情报泄露。与此同时, 闭环供应链中这个成员企业也可以借助大数据分析手段收集、获取、分析其他企业的私有情报以获得私利, 原有的闭环供应链间契约平衡关系就被破坏了, 旧的情报网络体系将不复存在, 更新的竞合关系由此而生。这说明, 这种商业的合作是非常矛盾的, 但是迫于形势又必须要合作。

在大数据时代背景下, 情报信息组成成分也与之前变得与众不同, 其中对情报内容的语义单一、内容零碎、互相联系也迫使情报的组织方式亟待更新。在情报构成时, 数据挖掘、关联计算及做出可视图的情形日益普遍, 情报学已经从以往的收集后计算演变为更加科学可靠的计算机数学处理。通过大数据手段而诞生的新型情报组织内容有判断、储存、定义规范及其保安措施。因为情报学涵盖了各类与众不同的信息, 而大数据的揭示与组织的方法能够有效对零散的、看似无关的信息进行分析处理, 通过计算实现信息集成为一条一条完整有价值的情报。因此, 大数据技术可以有效迅速的帮助情报获取。

对于商业情报, 以前一家独占的场景几乎不可能再现。因为当前海量的数据已经不是个体能够消化的, 而且在当今各种智能设备的应用也使得保密难上加难所以, 为了情报的充分使用, 必须要进行合作, 而这个合作关系一旦形成, 便不再允许发生任何变动, 于是就形成了闭环供应链。闭环供应链中需求方不用知道这些繁重的数据是如何进入这条链中的, 只需要完成自己一环得到的任务——通知这个供应链自己需要什么, 剩下的事情交给这条供应链的管理者即可。假如有的企业成员不怀好意, 泄露了链中的关键情报, 系统也能够及时检查并发现。这样闭环供应链中的企业成员既拥有了自己已经就有的私有情报, 又从合作伙伴的情报分析中得到有用信息, 可谓一举两得。系统既保证成员个体情报的安全, 又使企业提高了生产效率, 而且供应链成员得到自身利益后更加乐意去合作, 整个闭环供应链得到良性循环发展。

3 闭环供应链的作用

闭环供应链整体情报系统在大数据中获得供应链中的制造商、消费者有用信息, 分析得到一件商品的工艺流程和用户偏好情况。将这些信息整合后交给制造商, 制造商只管“埋头苦干”即可。因为有反竞争情报系统, 生产者与代理商得到的只是用户和物流公司的供需信息, 所以限制了零售商与物流方面在运输、销售等方面偷取供应链中其他成员的应得利益。处于供应链中的负责销售的企业得到足够的用户需求后, 做到有的放矢。这样, 各个企业无需再为没有足够的情报资源而苦恼, 之后像过去那般进行情报战。不仅减少了企业之间的内耗, 而且成员企业可以更放心的把全部精力用于各司其职, 对整个经济发展是有很大好处的。

利用大数据的技术力量, 提供整条供应链都需要的信息进行获取和分析, 不断生成更加符合当前环境的情报体系, 将供应链变得更加强壮。同时, 一条一条闭环供应链的稳定发展又带来了再制造企业的崛起, 从而带动整个经济的发展。

4 结语

面对新的情报形式, 我们需要对此有清醒的认识:机遇与挑战并存。虽然时代变革, 情报获取的方式与情报拥有者早已与近代大相径庭。我们应该把握时代趋势, 具体情况具体分析, 这样才能做到保护我们的请保安全, 让自身更具有竞争力。

参考文献

[1]曾建勋, 魏来.大数据时代的情报学变革[J].情报学报, 2015 (1) .

[2]全小珍.论情报机构如何开展企业信息情报服务[J].企业科技与发展, 2012 (10) :1674-0688.

[3]程刚.可制造闭环供应链经济性分析及价值补偿机制研究[D].天津:天津大学, 2011.

大数据的功罪 篇6

关键词:数据红利,信息数据,法律属性,类型化

作为大数据产业的逻辑起点, 大数据权属一直在学界、商界及政府相关部门的探讨中, 直至2015 年4 月贵阳大数据交易平台第一笔交易完成, 接踵而来的上千笔交易陆续达成, 大数据权属归属这个问题仍是未决问题。承载着交易价值的大数据被赋予了产权, 而产权归谁还未知, 带着逻辑起点问题还模糊不清的产权运作, 会有什么样的后果?用一句通俗的话来说, 会是“也许他们很晚才发现, 他们侵了很多权、浪费了很多钱”。

数据采集开发方和买受方都紧锣密鼓地吸取着权属未定的大数据红利, 红利建立在大数据产权法律未醒之时, 而这种“未醒”, 不是未觉察, 而是在民事立法体系的上位法框架未定、政策产业推进导向激进及国外立法各取所需的纷繁状况中还未厘清思路, 还未达成共识并定格下来。

2015 年世界互联网大会上吴晓灵强调, “明晰产权是建立数据流通规则和秩序的前提条件。”大数据时代, 数据的确权成为产业关注的核心问题。2016 年1 月15日《贵州省大数据发展应用促进条例 (草案) 》正式出炉, 这是中国首部大数据地方法规, 但对大数据权属仍未能明确。为突破大数据交易和商业化的瓶颈, 使数据红利交易成本早日清晰化, 也从而促使交易规则更严谨制衡, 笔者立足于法律视角, 兼顾当下国情及大数据产业发展趋势, 对大数据权属力图作一梳理。

一、与无关因素的剥离

(一) 无关于产业政策、市场、交易

尽管数据权属的讨论, 因数据产业、数据交易而起, 并日益成为不可绕开的核心问题, 但对数据权属的确认, 应无关于市场和交易。对数据权属归属的分析和认定, 既不应受政府公共数据平台开发、数据开放共享政策的影响, 也不应受互联网大型企业的社会影响力和市场占有力的利益遮蔽, 从而失去其应有的内在机理。

(二) 无关于大数据收集、处理、运用等规则设计

大数据权属是产业天然内生的, 只是需要我们拨开复杂现象去找到它, 而不是为了现有和未来一定时期的大数据收集、运用、交易而去定位大数据属于谁, 也不能因为其中的利益博弈驱使我们去创设一个数据权属的特别安排。尽管数据抓取、收集、交易是数据价值实现的重要和生动环节, 但都是数据权属起点问题的后续逻辑。

(三) 无关于数据的巨量与脱敏

产业意义上的数据, 本质上是信息, 是关于社会特定主体的有价值的信息。当然这种特定, 在海量大数据中显得不特定, 同时这种价值在不同的开发商眼里, 会有不同呈现, 但作为有价值的产业数据, 一定是针对有某类特征的群体, 或是年龄上, 或是性别上, 或是职业上, 或是履历、兴趣爱好或活动区域、行为习惯及模式等, 在信息产生时其本身就天生附有特定主体的标签, 与人格权相连。数据量再大, 也无法否认信息最初采集环节是数据产业的第一环, 无法否认最初被记录人的人格特性。通常说的数据清洗 (Data cleansing) 不能实现数据与人格的分离功能, 数据清洗的任务是过滤那些不符合要求的数据, 它是数据进行重新审查和校验的过程, 目的在于删除重复信息、纠正存在的错误, 并提供数据一致性。那么, 数据脱敏呢?对某些敏感信息通过脱敏规则进行数据的变形, 这样就可以在开发、测试和其他非生产环境以及外包环境中安全地使用脱敏后的真实数据集。但是, 在大数据的处理和分析阶段, 企业一直致力于身份识别, 匿名化技术与大数据身份识别技术在相互较量中不断发展。例如, 美国在线曾公布了3 个月间65.7 万用户的2000 万条搜索记录, 整个数据库做过精心的匿名化处理, 将用户名称和地址等个人信息代之以数字符号。但《纽约时报》还是在几天内通过几个关键词准确定位到了某个人。美国白宫大数据研究报告《大数据:抓住机遇、坚守价值》中也提出, “数据的模糊化处理作为保护个人隐私的一种手段, 其作用也是有限的。事实上, 收集数据并进行模糊化处理是基于相关公司不回复数据的承诺与相对应安保措施之上的解决方案。但有目的的模糊化处理可能使数据丧失其实用性并确保其出处及相应责任的能力, 此外, 也很难预测再识别技术将如何演变以应对看似匿名的数据。”譹) 笔者认为, 大数据企业目前规避风险的底线, 是“不触碰和销售底层数据”, 但后期结果的风险规避不应对前期的侵权行为风险产生豁免效应。

(四) 与国家主权、公共安全无关

大数据发展上升到国家战略资源高度, 直至成为国家商贸、能源、环境、国防等领域的直接竞争力, 我们对大数据主权的呼声日益强烈。但这是一个信息主权问题, 而非国内法视野中的数据信息权。信息主权指一个国家对其政权管辖地域范围内任何信息的制造、传播和交易活动以及相关的组织和制度拥有的最高权力, 是国家主权的一方面表现。大数据权属于国家主权的关联性主要体现在, 个人、企业和相关组织拥有数据权利的前提下, 当牵涉到国家利益、国家安全时, 国家是否拥有保护和处理这些数据的权力?至于公共安全, 也如同此理。当数据信息权涉及公共安全或秩序时, 数据权利人的权利是否有必要让位于公共安全与公共利益, 这是大数据权属行使中的延伸问题。我们不能以国际交易、国防安全中的国家利益保护意图移换所讨论的大数据权益归属焦点。至多属于压力下的倒逼机制而已, 不能影响大数据权属原本应有的判认。个人数据权属的法律认定, 应在权源上私法先行, 在公共安全、公共利益等公法情境下考虑许可 (主动或被动) 使用, 却不先前相关所有权。

二、大数据的法律属性

(一) 数据的信息属性

数据是世界客观事物性质、状态的反映, 是客观信息的记录, 不是物。数据的价值也是其记录的内容, 所以数据应首先是归属于被记录方。被记录方可以是个人、法人和其他组织。出于公共行政管理需要而纳入公权力系统的政务、法务等相关信息, 是有条件的无偿采集和共享, 并非数据所有权就属于政府。政府也不应成为无偿采集数据的代言人。政府采集信息的附条件是指不侵犯个人隐私、不侵犯商业秘密和国家机密, 无偿采集但应是经被记录人同意, 程序上应完备明示或默示方式, 至于共享是否无偿还不能一概而论, 目前政府开放共享数据的政策和规则仍在探索阶段。我们不能认为, 数据客观存在, 就是“谁收集就属于谁”。因为, 以任何形式收集数据, 都只是信息的载体, 如同无形的知识产权, 载体可以多样和变换, 核心内容只有一个。如果多个公司都来对同一信息作采集, 都有享有数据所有权, 就丧失了所有权的唯一性, 在行使当中, 丧失了独占性的所有权, 有也等于没有, 因为没有丝毫权属对抗力。因此, 数据所有权归收集人是没有大格局上的产权意义的。

(二) 个人数据的人格权属性

个人信息权应属于独立的人格权, 这与隐私权有所不同。一直有观点认为, 个人信息大数据, 一旦隐私脱敏, 就不存在侵权问题, 但我们可以且不谈隐私标准的把控是在权利人手中而非采集交易人手中, 仅就不侵犯隐私就不侵权来看, 就不能成立。个人信息权是存在的, 它是一种积极的权利, 它的行使方式应在事前, 在未经许可收集、利用其个人信息时, 权利人有权请求行为人更改或者删除, 以排除他人非法利用行为或者使其个人信息恢复到正确的状态。 (2) 当然, 如果允许使用, 信息权人也还有事后的撤回权。

当然有个非常微妙的前提, 是对于个人信息权, 尽管目前民法并没有给予设立。但我国个人信息保护目前已形成多部门监管状态, 如工业和信息化部的《电信和互联网用户个人信息保护规定》《信息安全技术公共及商用服务信息系统个人信息保护指南》, 工商总局的《网络交易管理办法》等。此外, 公安部、商务部、中国人民银行、银监会、保监会、证监会等都有相应个人信息监管及保护的法律规范。不少地方基于本地实际情况还出台了相关地方性法律条例, 如《深圳经济特区互联网信息服务安全条例》等。我国已出台了《民法典草案》, 其中对个人信息的保护已有具体规定, 在未来的民法典人格权编中确定个人信息权将更有利于尽快建立个人信息保护体系。个人信息不仅仅关系到个人利益, 还有可能涉及公共利益、公共安全, 与更多地涉及个人的隐私相比, 对个人信息的保护势必超越私法保护。

(三) 大数据的创作行为

数据的分析挖掘服务是大数据产业的核心, 是最具商业价值的部分, 是大数据产业的产品, 这样的产品是在原生态数据上附加了创作性知识产权的。因为从数据的生命周期来看, 可以将大数据产业分为数据的采集、整理、存储、分析挖掘和数据应用这几个部分, 应用中还包括数据的可视化。在这样的生命周期里, 每个方面都会涉及相应拥有著作权或专利权的软件、硬件开发和创新服务。所以, 大数据产业在原始信息记录的基础上还有创作行为, 也正是这些创作行为使数据信息具有了产业价值。在数据财产利益链条上, 首先是信息被记录者的所有权利益, 然后才是大数据企业创作性利益, 这种利益建立在原始数据权利人的所有权之上。

三、大数据权属的类型化分析

数据根据信息内容参与方不同, 可以分为单方数据和交互性数据, 有些情形下, 数据抓取平台作为交互的一方, 有时作为第三方。根据大数据企业抓取平台参与信息的角色不同, 我们可以把大数据所有权权属分为两类作考察。

(一) 被记录方单方信息数据, 所有权归数据被记录者

个人数据兼有人身权与财产权属性, 是大数据价值的基础和素材。个人信息未经权利人同意, 不允许非法交易。信息产业部于2000 年发布的《互联网电子公告服务管理规定》中提及“电子公告服务提供者应当对上网用户的个人信息保密, 未经上网用户同意, 不得向他人泄露”, 给上网用户造成损害或者损失的, 依法承担法律责任。这项规定将有偿交易包括其中。2009 年通过的刑法修正案 (七) 也明确规定, 国家机关或者金融、电信、交通、教育、医疗等单位的工作人员, 违反国家规定, 将本单位在履行职责或提供服务过程中获得的公民个人信息, 出售或非法提供给他人, 情节严重的, 处三年以下有期徒刑或者拘役, 并处或单处罚金。单位也可以成立犯罪主体。

可见, 个人信息权属于个人, 不允许窃取或以其他方法非法获取, 但目前我国法律环境下, 并不禁止个人售卖自己的信息。在美国, 有个人将自己信息在网站成功拍卖的实例。个人信息的市场价值可以货币化, 那么, 建立在个人信息抓取上的大数据, 势必是应为抓取这类素材支付成本, 而且这种支付应是指向被记录者的。至于支付成本的方式, 可以在意思表示和对价两个层面进一步探索。

个人数据抓取的方式有很多, 除人工收集外, 大量数据是通过互联网使用平台抓取的。如个人身份信息、住址、医疗记录、个人日程安排、电子邮件内容、社交网络上交流的信息等, 以及我们使用AWS、阿里云、百度云盘、手机助手等来储存和备份自己的数据, 也不能避免这些信息在互联网中被检测到, 进而被采集、利用。随着测量设备和软件的改善, 信息还可以通过生物识别和生理测量抓取, 如可以利用眼球追踪技术获取及生成有用的诊断信息, 以帮助理解一个项目、网站或广告有没有成功引起用户注意或注册某些消息或图像。用皮肤电反应、眼睛的瞳孔扩张、心脏率、脑电波测量、面部情绪识别等记录人们的反应和情绪, 如有趣或令人兴奋等, 这些都可能成为进入人的灵魂的门户, 并发挥干预效能. (3) 那么, 被记录方对之应有知悉和同意权。

在欧美, “通知+ 同意”规则是数据保护立法的核心性规则, 是对所有权归属于数据信息被记录者的社会认可及法律认同, 是指数据控制者和处理者在收集、处理数据时须事先告知用户, 并得到用户的明示或者默示的许可。在我国, 个人隐私保护呼声日益高涨, 采“通知+同意”模式, 是权利人行使隐私权的有效操作, 因为只有权利人才有权利决定信息使用是否涉及个案隐私, 同时也是其他与数据相关的人格权被允许商业使用的有效形式。当然, 通知的内容需真实和全面, 否则视为欺诈或未通知。同意可以视具体情形选择明示或默示, 但在法律没有明确规定之前, 必须是双方认可的形式。只是需要避免“用户同意”与“平台使用权”捆绑条款。

(二) 数据抓取平台参与的合同行为信息数据, 所有权归参与方共享

人们会提出这么一个问题:用户使用网络服务产生的行为数据, 属于用户还是网络服务提供者?用户使用网络服务, 这种使用行为是以用户与网络平台缔结服务合同关系为基础, 网络购物、移动支付、邮件使用、点击流量、智慧医疗、网络教育、互联网保险等用户与网络服务平台交互作用产生的数据, 都是合同履行行为的记录, 合同参与方有时是双方, 有时是多方, 这类行为信息数据应属于合同参与方共同共有。作为合同一方的数据平台, 为提升自身业务管理和拓展市场潜力, 抓取用户的消费行为数据, 进而作后期整合、建模、处理, 这种信息使用意图和路径应告知并经用户同意, 用户作为信息共有人, 可以同意, 也可以拒绝, 但目前会存在隐私数据 (身份信息、指纹等) 及隐私信息使用与平台消费方式捆绑的常态, 其性质应属消费格式条款, 作有利于用户一方利益的解释和效力认定。至于数据服务平台收集交易数据, 加以分析处理, 以便向用户提供更好的服务或用以提高公司内部管理, 都是数据应用效益层面的问题, 并不能改变信息取得环节的所有权归属。

随着大数据市场的发展, 出现专业第三方大数据平台, 纯粹处于互联网消费服务合同当事人之外, 为专业数据分析者和数据经纪人。他们收集多处信息源数据, 将数据汇总、建模、分析, 并共享这些信息以及派生出来的信息。这样的第三方平台, 不享有数据所有权, 只拥有在数据信息源基础上再创的数据作品的所有权, 亦即数据产品的所有权, 但对数据源权利的取得和使用, 还是需要作出合法性解释, 履行相应的法律程序, 承担相应的法律义务和法律责任的。

四、结语

无论是数据信息用于商业、公益或政府管理, 信息被记录人都拥有最原始信息的所有权。数据所有权的行使形式, 应包括提供、处理 (整合与脱敏、撤回) 、利用, 涵盖所有权的占有、使用、收益、处分几项权能。程序上, 首先是应由权利人知悉, 经权利人同意, 收益问题, 笔者倾向的方案是, 除了有书面协议约定收益外, 可参照著作权使用费的模式, 由平台主办方简单地按固定比例或固定金额, 把使用费划拨政府指定的部门或基金, 这部分经费用于政府公共服务项目及数据侵权赔偿基金。

注释

11) 李海英.大数据发展的立法挑战[EB/OL].http://www.infseclaw.net/news/html/1171.html/2015-08-30。

大数据的功罪 篇7

作为一部科普著作,维克托·迈尔-舍恩伯格(Viktor Mayer-Schonberger)和肯尼思·库克耶(Kenneth Cukier)的《大数据时代:生活、工作与思维的大变革》(以下简称“该书”)为我们提供了关于大数据的丰富的精神食粮。该书详细阐述大数据给我们的生活、工作和思维三个方面带来的深刻影响。其论点通过大量的案例和故事来佐证,读起来很有趣味,同时又使我们充分理解其中的观点和思想。从总体上看,这本书资料详实,案例丰富,对历史知识的掌握也很充分,论证过程也很有说服力。说它是最好的科普书籍一点也不为过。

该书主要分三大块:即大数据的价值、大数据带来的风险及其防范、大数据思维。其中大数据思维是全书最核心和最重要的内容。笔者围绕这三个方面写这篇文章的目的不仅在于推荐这本著作,更在于深化对大数据的认识,特别是对该书中值得推敲的几个命题或观点作进一步的讨论。

一、大数据的价值

大数据的价值是普遍性的,它不仅被应用于互联网和信息技术行业,而且在零售行业,金融行业,医疗卫生领域,以及科学研究领域都有非常重要的意义。在这里,我们主要强调如下两个方面:即大数据在商业领域的价值和在国家治理或社会治理领域的价值。

现实中我们会看到这样一种现象,即那些高新技术企业的账面价值与其市场价值相差悬殊。为什呢?因为企业的账面价值反映的基本上都是有形资产的价值,而企业的市场价值除了这部分有形资产的价值外,还包括大量的无形资产的价值,比如数据、品牌、人才、知识等。而这些价值实际上都很难衡量。在大数据时代,在知识社会,这些无形资产的价值相对于有形资产的价值而言都是巨量的。这就是为什么诸如Facebook,Google和阿里巴巴这样的企业的有形资产不是很高而其市场价值却很高的原因。大量的数据在商业中之所以成为一种无形资产,成为企业“取之不尽、用之不竭”的价值源泉在于,凭借大数据分析的结论,企业能够做出相对更加客观和更加有效的战略或营销决策,这在某种情况下,相对于传统的直觉性决策更加科学。但是,这也不是绝对的,比如史蒂夫·乔布斯就常常使用直觉性判断。

在国家治理或社会治理方面,不仅可以通过大数据分析来预防犯罪、指挥交通,预防和控制传染性疾病的扩散,还可以通过大数据分析预防和控制环境污染,甚至预测地震,从而减少社会损失,挽救更多人的生命。比如,Google通过人们在网上搜索的大量记录预测流感的传播,他们能比疾病控制中心提前一两周就预测出来,而且还能判断出流感是从哪里传播出来的。这一两周的时间能够防止更多的人感染流感,而且知道流感传播的具体的范围,就能更好地采取措施防止其扩散。但是,大数据要发挥作用,前提是要有大量的相关数据存在。美国联邦政府2009年推出数据开放门户网站Data.Gov,英国政府2010年也紧随其后推出自己的数据开放网站。2011年7月,美国、英国、挪威、墨西哥、巴西、印度尼西亚、菲律宾、南非等国家发起“开放政府联盟”,并于同年9月发布《开放政府宣言》。这些活动都旨在进一步开发大数据的价值。在这方面,我们也不应该落后,应该加紧数据开放政策方面的研究,尽快出台相关的政策和法律,将那些不涉密的可以公开的数据向社会开放。

二、大数据带来的风险及其防范

同其他事物一样,大数据也有两面性,虽然它能给经济和社会发展带来积极的作用,但同时也可能带来不利的影响。这可以从个人层面和国家层面来看。就个人层面而言,首先,大数据威胁到个人隐私。正如该书所说,“大数据促进了数据内容的交叉检验”[1],使得“不管是告知与许可、模糊化、还是匿名化,这三大隐私保护策略都失效了。”[2]其次,人们可能把大数据分析的相关关系结论当作因果关系来用,滥用大数据分析的结果可能带来严重的负面问题。比如,经过大量的交通事故数据分析,发现红色汽车发生交通意外的情况非常少,于是大家都去买红色的汽车,这实际上就是把相关关系当成了因果关系,从而做出不科学也不合理的决策。但不管怎么说,大数据本身是中立的,问题在于拥有大数据和使用大数据的人或组织。因此,加强研究和颁布合理使用大数据的法律法规是当务之急。在这个方面的一个突出的例子就是,欧盟委员会于2012年1月25日公布了《关于涉及个人数据处理的个人保护以及此类数据自由流动的第2012/72、73号草案》。该草案提出的“数据主体应享有‘被遗忘的权利’(Right to be forgotten)”的主张对诸如Google这样的大数据开发企业已经形成强有力的约束。因为“被遗忘权”超越了过去的隐私保护概念,一些关于个人的可能算不上隐私的数据,在数据主体要求删除的情况下,也将不得不被删除。关于数据和信息的法律法规如何在个人利益和公共利益之间找到合适的平衡点还需要更深入的研究。

除了上述的个人层面,大数据还可能在国家层面带来不利影响。首先,发达国家可能会通过各种渠道获取其他国家国民的大量数据,然后借助这些数据分析某个民族国家国民的社会心理状况;其次,发达国家还可能通过大量的数据分析,获得其他国家的科技、政治甚至军事方面的情报;再次,发达国家对大数据处理技术的垄断会使上述情况变得更为严峻。所有这些方面都对国家主权和安全带来巨大的挑战。面对这样的挑战,我们不仅要在数据的开放和保密方面做出新的调整,还要开发自己的大数据处理技术。特别是从国家层面介入大数据处理技术的开发,而不是仅仅让民间的企业去做。

三、大数据思维

在大数据时代,重视大数据的作用,拥有大数据思维是不言而喻的。该书指出:“大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。”[3]在某些情况下,的确如此。另外,大数据思维还给我们带来一种观察世界和审视现实的新视角,这就是,“将世界看作信息,看作可以理解的数据的海洋。”[4]在一定程度上说世界是由信息构成的,一点没错。

尽管笔者很赞同上述这些观点,但是笔者对该书提出的下面三个命题或观点在一定程度上持有异议。该书提出这样三个命题:[5]

首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。

其次,我们乐于接受数据的纷繁复杂,而不再追求精确性。

最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。

可以说这三个命题是该书最富启发意义和最闪光的观点,其简化形式分别是:不是随机样本,而是全体数据,即样本=总体;不是精确性,而是混杂性;不是因果关系,而是相关关系。就这三个命题或观点而言,它们在某种程度上都是正确的,但是,为了更好地理解大数据及其作用,必须以更加科学和严谨的态度来审视它们。

首先,“样本=总体”这个命题从不那么严格的意义上讲是正确的。但严格一点的话,说“样本≈总体”似乎更恰当一些。尽管在大数据分析过程中使用了大量的数据,但并不能说这些数据样本就是总体,它们只是在某种程度上非常接近总体而已。况且,在允许数据存在混杂的情况下,难保数据没有遗漏没有错误,既然有可能有遗漏和错误,就不能绝对地说样本=总体。

其次,“我们乐于接受数据的纷繁复杂,而不再追求精确性”这个命题容易让人产生歧义。更好的说法应该是“我们允许数据存在混杂性,而不再苛刻要求数据的精确性。”首先,就精确性而言,要区分两个方面:其一是用于分析的数据的精确性,其二是分析结果的精确性。对于前者而言,在大数据情况下允许数据的混杂,对于后者而言,当然是越精确越好。笼统地说不要精确性是不对的。其次,就数据的精确性而言,允许混杂但并不意味着放弃精确性,在某些情况下,如果能使数据更精确,无疑是更好的选择。在大数据情况下,之所以允许数据混杂,是因为数据清洗一方面可能是做不到,另一方面可能是没有这个必要。因为在大数据中,细微的或少量的错误和混杂对分析结果的影响微不足道甚至可以忽略。而在小数据情况下,之所以要进行数据清洗,是因为错误的或混杂的数据对分析结果会造成重大的影响。最后,的确如该书所指出的那样,大数据分析“就像捕鱼一样,开始时你不知道是否能捕到鱼,也不知道会捕到什么鱼。”[6]因此,大数据分析的结果不仅可能使我们毫无所获,也可能让我们得到意外的收获。特别是在数据混杂的情况下更是如此。因此,允许数据混杂和放弃数据的精确性都不是绝对的,但是追求数据分析结果的精确性,即使在大数据时代也不能放弃。

最后,第三个命题“我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系”也不完全正确。如果把相关关系比作一个盒子,那么因果关系就是这个盒子里的东西。这即是说因果关系是相关关系的子集,两个事物之间的因果关系必然是相关关系,但是如果两个事物之间存在相关关系但却不一定存在因果关系,比如“啤酒和尿布”的例子就是这种情况。因此,因果关系比相关关系更难找。的确,大数据分析的结果几乎都是相关关系而不是因果关系,但也不排除在某些个别的案例中存在因果关系的可能。如果在不需要因果关系的情况下,仅就找到的相关关系就足够我们解决实际问题时,可以不再进一步寻求因果关系。但是,这并不意味着就放弃因果关系。如果大数据分析结论有助于进一步找到因果关系,而且实际上也能够找到的话,又为何不找呢?因此,可以根据实际情况确定要不要在得到相关关系的情况下进一步寻求因果关系。在现实中,有时候把因果关系考虑进来的确会使问题复杂化,会使我们形成某种错觉,甚至会掩盖相关关系提供给我们的新视角,但是,也不能因噎废食。因此,笼统地说“要相关不要因果”是不对的。在大数据时代,之所以强调相关就是为了防止任何时候都用僵化的因果关系思维看问题,但是也要防止只要相关关系,认为相关关系足以解决所有问题,如果这样就大错特错了。《连线》杂志主编克里斯·安德森(Chris Anderson)所说的大量的数据从某种程度上意味着“理论的终结”[7]是不靠谱的。尽管大数据有很重要的作用,但是它并不能解决所有的问题,它只是为一些过去难以解决的问题找到一种新的思路,它只是开启智慧之门的众多钥匙中的一把钥匙而已。

四、结语

大数据的功罪 篇8

1 大数据时代特征分析

大数据时代的到来,标志着人类对计算机互联网技术的应用实现了实质性进步,与以往时代所不同的是,大数据时代具有自身特征,其主要表现为:首先,其整体数据量极大,与以往信息时代不同的是,大数据应用的前提就是收集庞大的数据信息,因此,其存储数据的计算量远超过了当前的计量,其基本上使用的都是P/E/Z做计量单位,起码存储在1000T以上,甚至高达10亿T。

其次,其特征主要表现为种类繁多、内容多样。尤其是整个大数据体系中不仅包含了各个行业的信息,同时其收集形式也极为多样,从文字、图片到音频、视频等等,基本上囊括了整个时代的各个信息链条和内涵。正是数据信息的多样化和多元化决定了我们可以通过使用大数据实现对整个数据资源的体系化认知,同时这也从根本上提升了我们对数据的处理和应用能力,使得整个数据分析更有参考价值和意义。

此外,随着当前大数据应用不断成熟,如今数据价值密度相对较低,尤其是在物联网广泛应用影响下,信息感知应用极为广泛。虽然当前大数据时代,整个数据量大,但是有价值的数据较少,其整体价值密度不大,因此如何才能有效完善数据筛选,优化其价值应用,就是当前利用大数据平台过程中所不可忽视的内容。

最后,我们应该认识到大数据时代的重要特征还表现为数据处理深度快,且对数据处理有较高的时效性要求。正是高速的数据处理速度和处理时间要求,决定了当前大数据开发应用不同于传统数据筛选应用。但是我们应该辩证看待大数据平台的优缺点,尤其是当前我们所具备的技术和设施已经无法满足海量信息数据的处理,可以说正是快速发展的时代要求决定了我们必须优化信息数据利用方式,构建完善的数据应用平台和机制。

2 当前大数据分析平台应用内涵及具体状况分析

想要对大数据分析平台应用要求进行体系化认知,就必须清楚大数据分析的定义内涵、应用过程中存在的问题和不足以及其具体的解决对策。只有对其形成体系化了解,才能从根本上服务大数据分析平台建设、应用。

2.1 大数据分析的定义

结合大数据结构复杂,数据更新速度快、价值密度低、整体数据量大等一系列特点,当前我们在应用大数据时,存在较大难度,而全面应用大数据的关键就是实施大数据分析,通过完善大数据分析的具体定义认知,从而构建合理的大数据分析平台。实际上,大数据分析指的是在数据密集的环境下,通过使用科学分析的方法,对数据应用进行重新思考,并完善构建全新数据分析应用模式。大数据分析认为其分析应用过程并非技术上的应用,而是一种具体的使用策略,其核心内涵指的是通过使用一种相对以往更有效分析方式来管理、获取海量数据的方式,并且在这一过程中获取有价值的信息。结合当前大数据应用实际状况,我们可以认为,大数据分析指的是:依据数据生成理论,通过构建大数据分析模型,从而结合集成化大数据分析平台,使用云计算技术完善分析数据资源,并且最终探究出大数据模式背后规律的过程。

2.2 大数据分析方法阐述

目前大数据分析的重要内容是可视化分析,通过集成交互可视化和自动化分析,从而提升大数据分析方法的应用效果。从大数据分析系统架构层面看,整个大数据分析具有9层架构体系,尤其是其中的复杂结构处理技术、平台应用标准规范和虚拟化接入技术以及其知识服务交易模型和大数据知识服务质量评价体系等共同组成了大数据分析服务的关键技术应用机制。在传统数据分析过程中,其更多针对的是原始数据进行抽样、过滤,并结合数据样本分析,从而探究其中存在的具体规律和特点。因此,其中最重要的特点在于通过使用复杂算法能够从体系化的数据中寻找到更多有价值的数据信息。在当前计算水平和存储能力大大提升过程中,大数据分析所面临的对象是整个动态变化的数据群体,而不是客观不变的数据样本,因此其大数据分析的应用重点从高效解决收集到的信息入手,只有提升数据运算的准确性,才能够没满足大数据分析的应用要求。

2.3 大数据分析过程中存在的问题阐述

正是因为当前大数据时代的迅猛发展,整个大数据分析过程中存在着一系列问题和不足,其大大制约了大数据分析的应用效果,其问题集中反映为:首先,想要实现精准的大数据分析,需要解决其大数据存储问题,与以往相比,大数据时代,其整体数据存储远远超过了传统数据时代,而想要实现其数据分析目的,就必须完善数据存储。而目前在大数据时代,整个数据存储并不是静态的,而是动态发展的,因此只有探索完善适应大数据存储的具体机制,才能实现其最终目的。其次,大数据质量不高,分析利用难度大。因此,需要探究增强数据可用性的方法。此外,大数据分析的核心在与数据建模。但是当前由于建模水平较差,暂时很难结合大数据时代特征,完善建模应用。最后,缺乏专业的大数据分析工具。在传统数据分析过程中,经常使用SPSS等软件进行数据分析,但是在大数据时代,缺乏能够完善有效的数据分析工具。因此,结合大数据时代特征,构建大数据分析平台,对于整个大数据时代应用发展来说,极为必要。

3 构建研发大数据分析平台的具体策略

在大数据分析过程中,最需要探究的就是其分析方法。分析方法的好坏直接关系到大数据分析应用的具体结果是否合理有效,同时也关系到其数据分析结果是否切实有用。而不同类型的大数据则需要截然不同的分析方法。而在构建大数据分析平台过程中,需要从以下方面入手:

首先,要结合大数据分析应用的具体要求,完善数据存储技术。当前增速惊人的大数据决定了我们想要实现大数据分析目的,就必须探索完善的数据存储方式。通过应用云存储技术,能够确保其存储容量以及数据整体的可用性和安全性等等,从而解决大数据分析平台的数据存储问题。而通过提升大数据分析存储技术,必然也能够有效提升其具体应用技术。同时优化数据存储,能够有效提升大数据的应用效果,实现大数据分析的良好效果。

其次,大数据分析是大数据应用的核心,而实施大数据分析模式则需要针对当前类型多样、迅速增长的信息数据进行分析,并且通过合理分析,从庞大的数据体系中寻找到有价值的信息内涵,进而为整个决策活动提供相关依据的模式。在大数据分析过程中,数据库、知识库和模拟库是整个数据分析模型构建的主要要素,通过在构建现有知识库和数据库模型基础上,进行数据分析,其得到相应结果,一方面优化模型构造,另一方面也实现对数据的具体应用。通过优化数据模型应用,能够有效提升大数据分析能力和应用实效。

最后,大数据分析系统作为当前数据平台应用的核心,其主要应用功能在于为数据挖掘应用提供完善基础,同时使用分布式存储法和并行计算体系,通过使用多重分布计算,从而实现对各类信息资源进行有效计算和分析,通过提供关联、分类、预算等一系列方法,结合各种数据挖掘分析机制的应用,从而实现整个大数据平台价值效用的体系化发挥。

4 结语

在当前互联网技术对各行各业发展的具体影响推动下,通过使用大数据技术,能够为各行业发展奠定重要基础,尤其是大数据分析的科学性,能够为企业发展提供重要决策依据。而对各企业来说,寻找大数据应用与企业自身经营的结合点,则能够从根本上提升大数据应用效率。而想要构建符合实际经营需要的大数据分析平台,就必须从大数据时代特征分析入手,通过具体了解和体系化融入,从而实现大数据分析平台的具体研发。而构建大数据分析平台将从根本上发挥大数据技术优势。

摘要:随着互联网技术应用日益成熟,如今大数据应用已经成为互联网技术带给整个时代的便利。而想要体系化应用大数据,就必须针对大数据时代的具体特征,完善其应用需求,从根本上探究构建大数据分析平台的具体策略。该文拟从大数据时代特征分析入手,结合当前大数据分析平台应用要求,从而分析构建研发大数据分析平台的具体策略。

关键词:大数据,时代特征,研发大数据,分析平台,具体策略

参考文献

[1]马新莉.面向服务的大数据分析平台解决方案[J].科技创业,2013(10):72-74.

[2]韩晶晶.大数据时代下数据分析理念的辨析[J].管理信息,2014(5):33-35.

[3]程开明.大数据分析研究现状、问题与对策[J].经济理论与管理,2014(13):79-83.

大数据时代的档案数据整合研究 篇9

随着网络技术和计算机软件技术的快速发展, 越来越多的行业引入了云概念, 将传统的单一独立系统变成可以数据集成共享的统一系统, 在云计算系统中, 云计算成为当前研究的热点, 其通过海量的信息将数据的量变转换为系统的质变, 从而解决日常生产运营的各类问题, 相关文献将其成为“ 大数据”。 随着大数据时代的到来, 商业、 工业以及其他国民经济领域将逐渐依赖于大数据的分析和决策。 大数据时代的档案数据的整合也成为档案管理部门研究的热点和关键点。 档案数据的整合包括数据的存储、 数据的挖掘以及数据的保护。 档案管理将通过档案数据整合实现大数据的处理。 本文将结合实际工作经验, 对大数据时代的档案数据整合进行分析和研究。

二、 大数据时代的档案数据整合

( 一) 相关概念及技术应用

当前大数据渗透到人们生活的各个方面, 而在档案管理方面其甚至突破了原来的简单衔接实现的资源共享和工作协同, 而是将现有的大数据视角下的所有与档案相关的数据信息资源进行整合, 通过大数据、档案信息以及整合进行集成方面的剖析。 在大数据时代的档案数据整合通过对网络技术、 计算机技术以及数学算法运算等技术手段, 借助社会组织单元之间的协同合作, 将分布零散在不同的领域, 不同的行业的大数据资源通过一定的规则进行联接, 实现了一个具有程序化、 一体化和科学合理化的管理整体。 因此, 大数据时代的档案数据整合应用的技术主要包括: 系统集成技术; 计算机网络信息安全技术; 数据分类、 检索和索引技术; 数据存储与数据压缩技术。

( 二) 大数据时代的档案数据整合实务

我国自引入档案大数据整合以来, 各地对档案信息化进行了颇有成果的探索, 构建了一定规模的技术设备和管理系统, 而当前由于体制方面的、 管理方面的不够成熟还存在着各自开发、 各自成系统的情况, 这导致数据接口不一、 数据共享难, 对于大数据时代来说, 单一的共享原则上不算共享。 而如上所述, 由于技术应用环境的不同, 当前多数信息系统处于一个无统一管理、 无全共享的环境。 后台数据库更是由于开发者的独立开发和数据接口设计的不一导致数据库的数据结构等技术方面共享出现难题。 实际工作中, 我们更愿意将其联接成一个可以简单、快捷的数据库群, 实现大数据的自由、 高效的流动与交互, 从而实现系统的有序化和统一化。 从这一点上来讲, 大数据时代的档案数据整合必须实现技术上的信息整合。

与技术整合相对应的是管理方面的整合, 这也是档案数据整合的核心部分。 大数据时代的档案数据整合工程是一个复杂的管理工程, 不仅需要档案资源整合技术的支持也需要科学管理方面的整合, 营造与其相匹配的管理环境。 因此实践中必须有统一的管理协调单位对整个整合工作进行统一调配和管理, 并与此同时实现整个数据整合工程的监督管理体系的监理, 对工程的实施进行监督。 最后树立合理的数据整合观念意识, 实现对数据整合工作的智力支持, 与此同时, 制定相应的规章制度, 促进相关组织单元的互相交流和学习。

最后, 面对当前越来越严峻的网络安全隐患, 档案数据的整合在大数据时代也有其自我的要求。 此处的网络数据安全方面的考虑也可以称为安全整合。 安全整合在于对档案馆 ( 室) 内部所已整合的、 待整合的、 正整合的大数据进行有效的保护, 使其不容易从外部进行非法的篡改、 破坏和泄露, 确保相应数据的完整性、 机密性和真实性。 另一方面必须确保档案信息的完整性, 对身份认证、 信息加密以及访问控制等软件信息完整性进行有效整合, 确保档案数据的资源不被篡改和盗窃。

( 三) 大数据时代的档案数据整合模式

按照当前大数据的具体需要和相关规范标准, 当前大数据时代的档案数据整合必须解决三个主要问题, 分别是数据采集与处理、 数据基础技术问题和数据分析应用问题。 因此, 大数据时代的档案数据整合模式可以通过设计相应的三个层次进行实践设计, 一是数据融合处理; 二是平台融合; 三是服务融合。 数据融合通过统一的数据接口标准对当前存在的档案信息系统及其相关的信息系统进行异构异地数据的存取和开放。 因此, 数据的接口标准及相关开放规范是数据资源融合的基础和关键。 这个过程是一个较为统一的管理过程, 相关管理部门在权衡数据资源利益与开放资源收益方面必须有较好的处理方式, 相关文献指出解决大数据利用带来的价值分配问题需要法律及相关的行业标准和制度依据。 再之, 数据融合归根到底必须构建一个能够统一管理、 具有层次化的数据中心管理平台, 对来自包括档案信息系统在内的各个数据主体和行业数据进行统一管理和价值分配。

其次, 对于平台融合而言, 基础设施是上述大数据管理的基础, 也是数据融合的重要手段。 大数据时代的档案数据融合也是一种信息技术问题, 其必须在实际工作中解决包括数据采集、 数据处理、 数据分析、 数据安全以及数据存储共享等多个现代信息技术关键问题。 因此平台融合讲到底还是技术融合, 如何利用现有的网络技术、 计算机技术、数据库技术、 数据挖掘技术、 机器学习技术、 云技术等多种新技术进行数字资源平台的搭建是平台融合的关键问题, 也是大数据时代档案数据整合的核心所在。

最后, 大数据的利用和开发目的在于为决策者、 管理者以及其他服务享受者提供一站式综合服务, 因此服务融合的主要目标在于如何对现有大数据的分析和利用。 实践中, 服务融合更多指的是以大数据和平台为实现基础, 进行数据采集、 分析和共享等, 为特定的用户提供特定的服务, 实现最终数字资源融合。

三、 结束语

档案数据作为采集具有历史价值和实现现有价值的数据信息, 其为社会经济发展提供了较好的基础数据和生产要素支持。 大数据时代下的信息化建设也是我国当前信息化建设的一个重要组成部分, 因此, 大数据时代下的档案数据整合是具有较强实践意义的一个工程, 既是大数据时代信息化的实质要求也是当前档案信息化建设的重要内容。 因此, 我们必须利用当前的关键技术, 在大数据时代的环境下抓住机遇, 挖掘大数据背景下的数据资源, 对档案信息进行整合, 使档案数据能够安全、 便捷面向大众, 促进自我价值的提升和行业的进步。

参考文献

[1]孙玉玲.大数据时代数字出版产业的发展趋势[J].出版发行研究, 2013.

[2]马建光, 姜巍.大数据的概念, 特征及其应用[J].国防科技, 2013.

上一篇:整理活动下一篇:自动控制方案