大数据技术发展

2024-05-31

大数据技术发展(共12篇)

大数据技术发展 篇1

0 引言

随着互联网、物联网、云计算、三网融合等IT与通信新技术的迅速发展,人类社会的数据规模和种类正以史无前例的速度扩张,大数据时代正式来临。大数据规模大、类型多样、生成快速,且具有潜在价值,对科技进步和人类社会发展具有重大意义。

1 大数据概念

目前,虽然大数据的重要性已经得到各界的一致认同,但大数据是一个比较抽象的概念,关于大数据的定义尚未形成统一定论。一般意义上,大数据是指无法在有限时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合[1]。具体定义有:1全球最大的电子商务公司亚马逊的大数据科学家John Rauser认为:大数据是任何超过了一台计算机处理能力的数据量[2];2Informatica中国区首席产品顾问但彬认为:“大数据”是“海量数据”+复杂类型的数据[3];3维基百科将大数据定义为:利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集[4];4全球著名咨询机构麦肯锡公司在报告《Big data:The next frontier for innovation,competition,and productivity》中给出的大数据定义是:大数据是指其大小超出常规的数据库工具获取、存储、管理和分析能力的数据集[2]。但同时也指出,所谓的大数据,并不是说其数据集要一定超过特定TB值;5IDC(国际数据公司)在发布的报告中将大数据定义为:大数据技术描述了新一代的技术和架构体系,通过高速采集、发现或分析,提取各种各样的大量数据的经济价值[2]。

第5种定义中总结了大数据的4V特征:

(1)Volume(体量浩大)。在数据爆炸时代,数据单位已无法用传统的TB来衡量,而是用PB、EB或者ZB作为大数据的计量单位。导致数据激增的原因很多,主要是互联网络的广泛使用使人类快速进入信息时代,数据疯狂增长,必然使得数据处理量显著增多。

(2)Variety(类型繁多)。以往的数据尽管体量巨大,但一般都是比较容易处理的结构化数据。当前,随着互联网络与传感器的飞速发展,不仅包含传统的结构化数据,还包括音频、视频、网页、文本等半结构和非结构化数据。

(3)Velocity(生成快速)。数据量的疯狂增长,使得数据处理的速度加快,这也是大数据区别于以往海量数据处理的重要特征。面临各种信息,如何把握数据的时效性,快速地从各种数据类型中获取高价值的信息,是大数据时代处理的基本要求。

(4)Value(价值巨大但密度很低)。大数据为了获得事物的全部细节,会直接采用原始数据,导致存在大量的无用信息,使得人们获取有用信息的难度加大,就像沙子淘金。

目前,对于大数据的4V定义是目前较为统一的认识。其特有的4种特征使得大数据的概念与以往“海量数据”和“超大规模数据”有着本质区别,除了用来描述数据之“大”,还指出了大数据的意义和必要性,即如何从体量巨大、类型繁多、生成快速的数据集中挖掘价值。

2 大数据研究现状

尽管大数据的概念没有一个统一的定论,但并不影响各领域对大数据的研究。国际上,就学术界而言,《Nature》于2008年推出“big data”专刊,从互联网技术、超级计算、生物医学等方面对大数据进行了研究[5];《Science》于2011年推出专刊“Dealing with data”,讨论了大数据时代所面临的机遇与挑战及大数据研究的重要性[6];欧洲信息学与数学研究协会会刊ERCIM News于2012年4月推出专刊“Big Data”,讨论了大数据时代下关于数据管理、数据密集型研究的创新技术等问题[7]。就IT产业界而言,IBM、Google、亚马逊、Facebook等国际知名企业相继推出了各自的大数据产品,为企业赢得了巨大的经济效益,是大数据的主要推动者。就政府方面,美国于2012年3月公布了旨在提高和改进人们从海量信息数据中获取信息能力的“大数据研发计划”,并认为其是“未来发展的新石油”[8]。在此之后,英国、日本及欧盟等国家也积极研究和发展大数据并有了相应的战略举措。纵观国际形势,对大数据的研究与应用已成为各国政府和企业的研究重点及重要战略布局方向,在未来世界,竞争核心必将转为大数据的竞争。

客观来讲,国内大数据的研究水平与国外尚存在一定差距。在学术界,香山科学会议在2012年5月组织的主题为“大数据科学与工程———一门新兴的交叉学科”的会议中,通过对大数据关系网络的研究而全面地研究了大数据[9]。中国计算机学会青年计算机科技论坛(CCF YOC-SEF)在2012年6月举办了学术报告会“大数据时代,智谋未来”[8],会议中分别就大数据时代的数据挖掘、大数据体系架构理论、大数据基础、大数据安全、大数据平台开发和大数据现实案例应用,分层次展开了讨论。在IT产业界,国内企业百度、阿里巴巴、腾讯等已从不同角度进行数据挖掘,以此改善自身服务,创造更大的商业价值,成为国内大数据企业的代表。政府方面,我国于2012年批复了总投资额为几百亿的“十二·五国家政务信息化建设工程规划”,且同年国务院在广东、上海、北京等地启动了大数据研发进程,构建了大数据产业链,以此来推动商业企业加快信息基础设施演进升级。2014年下半年起,总理李克强也屡次提出了“大数据观”,提倡在疾病防治、灾害预防、社会保障、电子政务等领域开展大数据应用示范[10]。

目前,大数据已在通信、医疗、农业、金融、气象、交通等方面广泛应用,并带来了巨大的社会价值和产业空间。总体而言,大数据背后隐藏着巨大价值,使得大数据研究成为社会发展和技术进步的迫切需要。

3 大数据关键技术

为了高效实时地处理巨大的数据问题,大数据技术的发展应运而生。所谓大数据技术,即针对数据集合来进行一系列收集、存储、管理、处理、分析、共享和可视化等操作的技术[11]。目前,大数据技术涉及大数据采集、大数据存储与管理、大数据计算模式与系统、大数据分析与挖掘和大数据隐私与安全等方面[12,13,14]。

3.1 大数据采集

大数据具有规模大和数据源多样化等特点,为获取高质量数据,可将大数据采集过程分为数据清洗、数据转换和数据集成3个环节。数据清洗是指通过检测除去数据中的明显错误和不一致来达到减少人工干预和用户编程量的目的;数据转换是指按照已经设计好的规则对清洗后的数据进行转换来达到统一异构数据格式的目的;数据集成是指为后继流程提供统一且高质量的数据集合来达到解决“信息孤岛”现象的目的。目前常用的数据采集方法有传感器收取、手机电子渠道、传统搜索引擎如百度和谷歌等,以及条形码技术等。

3.2 大数据存储与管理

针对大数据的规模性,为了降低存储成本,并行地处理数据,提高数据处理能力,采用分布式数据存储管理技术,主要存储模式为冗余存储模式,即将文件块复制存储在几个不同的存储节点上。比较有名的分布式存储技术是Google的GFS[15](google File System)和Hadoop的HDFS[16](Hadoop Distributed File System),其中,HDFS是GFS的开源实现。为了达到方便管理数据的目的,大数据不再采用传统的单表数据存储结构,而是采用由多维表组成的按列存储的分布式实时数据管理系统来组织和管理数据,比较有代表性的是Google的Big Table和Hadoop的HBase,其中,Big Table基于GFS,HBase基于HDFS。

3.3 大数据计算模式与系统

大数据计算模式指根据大数据的不同数据特征和计算特征,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象或模型[17]。大数据计算模式多而复杂,比如流式计算、批处理计算、迭代计算和图计算等[13],其中,由于批处理计算的MapReduce技术具有扩展性和可用性,适合海量且多种类型数据的混合处理,因此,大数据计算通常采用此技术。MapReduce[18,19]采用“分而治之”的思想,首先将一个大而重的数据任务分解为一系列小而轻且相互独立的子任务,然后将这些子任务分发到平台的各节点并行执行,最后将各节点的执行结果汇总得到最终结果,完成对海量数据的并行计算。

3.4 大数据分析与挖掘

为了从体量巨大、类型繁多、生成快速的大数据集中寻找出更高的价值,需要大数据分析与挖掘技术帮助理解数据的语义,来提高数据的质量和可信度。由于大数据时代数据的复杂特征,传统的数据分析技术如数据挖掘、机器学习、统计分析已无法满足大数据分析需求,有待进一步研究改进。目前,关键的大数据分析和挖掘技术是云计算技术[20]和可视化技术[21]。云计算技术中的分布式文件系统为大数据底层存储架构提供支撑,基于分布式文件系统构建的分布式数据库通过快捷管理数据的方式来提高数据的访问速度,同时,通过各种并行分析技术在一个开源平台上处理复杂数据,最终通过采用各种可视化技术将数据处理结果直观清晰地呈现出来,帮助用户更简单方便地从复杂的数据中得到新的发现和收获。

3.5 大数据与隐私安全

大数据潜在的巨大价值,吸引着无数潜在的攻击者,同时在社交网络的快速发展下,人们的隐私安全更是受到威胁,甚至影响到国家安全。鉴于此,各界人士着手大数据安全与隐私保护技术研究并取得了一定成果。现有的大数据安全与隐私保护技术有能对数据所有者进行匿名化的数据发布匿名保护技术、能隐藏用户信息和用户间关系的社交网络匿名保护技术、能确定数据来源的数据溯源技术、能够实现用户授权和简化权限管理的角色挖掘技术和将标识信息嵌入数据载体内部的数据水印技术等[22,23]。

4 大数据面临的问题及应对策略

随着大数据研究的深入,其将面临各种问题,如何解决这些问题是大数据面临的进一步挑战和机遇。目前,大数据研究中面临的主要问题如下:

(1)数据采集问题。数据全部采用原始数据,存在大量无用或者直接错误的信息,使得在众多量大且种类繁多的数据中进行数据清洗,数据转换工作变得繁琐,数据采集效率低下。同时,在采集过程中可能会因为进行访问和操作的用户人数过多使得并发的访问量在峰值时达到上百万,进而使得采集端需要部署大量的数据库作为支撑。

(2)数据存储问题。数据量的不断增大以及数据类型的多样性,要求数据存储设备必须具备很强的扩展性和可用性。然而,目前针对类型复杂的数据如视频、音频等半结构化数据和非结构化数据还无法实现有效存储,其存储能力极差,远远不及数据增长能力。

(3)数据处理问题。数据规模的不断增大,使得数据分析处理的能力减弱,不满足大数据时代对信息处理的时效性。同时,数据格式的不同使得数据分析处理的方法不同,给大数据时代对信息的处理带来了一定挑战。

(4)数据安全问题。尽管已有相关安全技术来保护数据的安全性,但数据泄露问题仍然不可避免,存在很大安全隐患。同时,随着潜在攻击者的不断钻研探索,其技术水平的不断提高也将对数据安全造成很大威胁。

(5)人才匮乏问题。大数据知识涉及面广,对人才的要求高,基本包含各领域的高级专业人才。2014年12月,在我国大数据产业发展调查中有专家表示,我国大数据行业不但缺乏高端人才,而且缺乏从事基础性工作的人才。由此可见,在未来发展中,大数据人才紧缺问题会尤为突出。

解决大数据研究中的问题,需采取以下应对策略:1注重人才培养,为适应大数据时代提供创新型复合型优秀专业人员,进一步完善大数据人才体系;2注重大数据基础科学研究,建立科研平台,形成大数据共享联盟,吸引各界人才积极参与进来,共同为大数据研究提供理论支持和技术支持;3注重新技术研发,积极探索研究大数据领域中的新型技术从而保障信息安全,巩固国家安全保障体系;4注重健全法律体系,针对大数据领域设立特有法律,通过法律效力来保障大数据研究中遇到的相关问题。

5 结语

大数据时代的来临给人们的世界带来了巨大变化,大数据已经成为当今各领域研究的热点,大数据技术的发展也使得人们的生活更加便捷优质。但其同时也带来了诸多问题,尽管已经有相应措施,但不够完善,还待进一步深入研究解决。在对大数据的不断探索研究下,未来大数据必将带来更多价值。

摘要:在介绍大数据基本概念及特征的基础上,分析了大数据国内外研究现状及大数据技术,并针对大数据面临的相关问题提出了应对策略。最后,对大数据技术发展进行了总结与展望。

关键词:大数据,大数据技术,数据挖掘

大数据技术发展 篇2

作者:市场部-陈笑、叶荔

7月2日,由中国卫生信息与健康医疗大数据学会、中国企业联合会、中国老年保健医学研究会共同主办,济南市政府承办的国家健康医疗大数据北方中心产业合作对接洽谈会在济南召开,吸引了130余家企业、43家机构约500人参会。

中国企业联合会、中国企业家协会会长王忠禹,中国卫生信息与健康医疗大数据学会会长金小桃,省委常委、市委书记王忠林,十一届省政协副主席雷建国,市委副书记、市长孙述涛,中国老年保健医学研究会会长高松柏,市委常委、秘书长蒋晓光,市委常委、副市长卢江分别出席会议。中国卫生信息学会健康医疗大数据老年保健专业委员会副会长、金豆数据CEO火立龙参与会议,并在会议上做重要汇报。

金豆数据CEO火立龙在会上做企业介绍

今年4月,山东省和济南市签约成为我国首个启动国家健康医疗大数据中心建设的试点省市,国家健康医疗大数据北方中心正式落户济南。此次洽谈会旨在加强企业和机构之间的合作联系、项目对接,进一步推动和促进国家健康医疗大数据北方中心建设。

中国卫生信息与健康医疗大数据学会会长金小桃在致辞中表示,健康医疗大数据是促进健康事业、健康产业乃至整个国民经济发展的新动能、新模式、新生态。抓住机遇乘势而上,必将对山东省及济南市的新旧动能转换、经济发展带来广泛而深远的影响。希望参会企业能积极参与到国家健康医疗大数据北方中心建设发展中来,实现互利共赢,促进共同发展。

济南市委副书记、市长孙述涛在致辞中指出,大数据像土地、石油一样是新产业、新业态的支撑基础,是取之不尽用之不竭的富集金矿。济南要把国家健康医疗大数据北方中心作为建设医疗康养名城的支撑平台,把健康医疗大数据产业作为新一轮经济发展的支撑产业,不断促进济南市健康医疗事业和产业加快发展、高质量发展。

会议签约仪式现场

签约仪式上,火立龙代表金豆数据与济南市政府以及济南国际医学科学中心进行战略合作意向签约,其中重要一项便是“DRG收付费及绩效评价综合管理项目”。此合作将按照国家试点工程规划落地要求,落实国家试点工程应用,形成健康医疗服务新模式、新业态,提高人民群众健康医疗服务的获得感。

大数据技术发展 篇3

“‘电子商务这个词语可能很快就被淘汰,从明天开始,阿里巴巴将不再提‘电子商务这一说。”马云10月13日出席云栖大会时表示,电子商务并没有冲击传统产业,它只是把握互联网的技术,真正需要担心的是“我们昨天的思想、依赖”,是“我们对改变过去的恐惧”。他指出,以往20年是技术革新,未来30年将是应用革命,人类将迎来五大革新,每人也有发展的机会。

马云所说的五大革新,包括新零售、新制造、新金融、新技术、新能源。其中,通过线下、线上、物流结合的是“新零售”模式。新金融即通过支持那80%没有被触及的中小企业,来产生普惠金融。至于新能源,过去的发展是建基于石油和煤炭,未来的技术发展则将基于大数据。

要为世界注入创新基因

“我们要为世界注入创新的基因。”马云认为,互联网带动第三次技术革命,未来整个世界将由知识驱动走向智慧驱动。他提到,未来机器一定会比人聪明,因为机器没有情绪和价值观,但机器不会统治人类。他认为,人类比机器更厉害的是对文化的把握,对愿景的思考、创新。

廿年后服务全球廿亿人

马云在股东信内指出,8年前开始对阿里云作出战略部署,目前,阿里云承载中国35%的网站,提供云计算和大数据服务。他续说,希望阿里巴巴20年后,能服务全球20亿消费者,赋能1000万家企业,并创造1亿个就业机会。

另外,张勇亦在股东信内表示,集团对未来商业趋势进行了判断和布局,其中,随着商业的不断变革,越来越依托于新技术的创新,阿里巴巴将把人工智能、AR、VR、IoT(物联网)为代表的新一代技术引进应用场景之中,继而推动新的商业模式的产生。此外,张勇提到,阿里开始组织创新,引入更多年轻管理层,目前,有超过52%均是“80后”出生的管理层。

利用数据分析疏导路面

阿里巴巴集团技术委员会主席王坚表示,“杭州城市数据大脑”通过数据来指挥交通信号灯,除了解决车流量的问题,更重要的,是数据开始为社会产生价值。阿里云首席科学家周靖人认为,一个智慧城市背后,均有一个数据智能的大脑在进行掌控,对城市进行全面的量心,营造数据的生态。在杭州的试点中,利用数据分析来疏导路面,提高车流量,部分路段的车流量提升超过一成。另外,王坚提到,人工智能AlphaGo成功击败围棋冠军九段,早于20年前,IBM的机器人“深蓝”亦打败世界象棋冠军。他指出,“深蓝”是通过人类教导下棋,而AlphaGo则是通过数据来致胜,其计算能力是当年约2至3万倍。

机器人ET也有失误时

阿里巴巴旗下阿里云在两个月前发布人工智能“ET”,继在北京亮相后,昨日又在杭州云栖大会派用场。今次“ET”把声音经过数据分析即时转化成文字,为现场宾客提供即时字幕。不过,圣人都有错,更何况ET是机器!

常被戏称为外星人的阿里巴巴主席马云,昨日打头阵为云栖大会作主题演讲,他一边说,两旁的大屏幕随即附有即时字幕,这正是阿里云旗下机器人ET的杰作。正当大家聚焦马云演讲之际,有看到字幕的观众开始发笑,连马云的演讲也被打断片刻,难道马云真的与外星人太相似,大家忍俊不禁?谜底很快便解开,原来是机器人ET令即时字幕出错,例如把“机器”二字译成“嬉戏”、把“记录”错译成“基佬”。毕竟它只是一台机器,再强大也有失误之时。

郭台铭:大数据能撼动大象

智能电网大数据技术发展研究 篇4

1.1 智能电网大数据的概念

智能电网即以计算机和信息技术为基础, 所实现的电网智能化, 又可以称为电网2.0[1]。通过对先进技术的应用以及对设备的更新, 电网运行的安全性与可靠性得到了极大的提高, 不仅能够有效满足当前用户的用电要求, 同时也能够容许不同发电形式的接入, 提高了电网的运行效率。受用户用电量增加等方面因素的影响, 目前智能电网所需要处理的数据量开始逐渐增多, 同时规模以及种类也随之扩大, 智能电网大数据由此产生。

1.2 智能电网大数据的特点

智能电网大数据的特点主要体现在规模大、速度高以及多样化三方面[2]。

首先, 数据规模大主要由电网负荷量的逐渐增大所引起, 目前我国智能电网的数据存储已经达到了PB量级。

其次, 为实现对大规模数据的及时处理, 发电侧必须实时跟踪负荷的变化, 并对其加以分析, 这样才能提出更加具有针对性的应对策略。这就对其速度以及效率提出了要求。除此之外, 在智能电网下, 故障也极容易发生, 及时发现, 并对其加以解决, 是保证电网运行稳定性的基础。在上述两方面因素的作用下, 智能电网必须不断提高自身的数据处理速度, 这样才能为电力系统的可靠与安全运行提供保证。

最后, 当前我国电网数据的来源正在逐渐增多, 甚至存在处理来源于外网的数据的需要, 数据存储的类型逐渐增多, 与此同时, 来源于营销等系统的语音数据, 也使得数据类型更加多样化, 这是智能电网大数据特点的主要体现。

2 智能电网大数据技术的发展

就目前的情况看, 智能电网大数据技术已经得到了一定程度的发展, 大数据技术也已经被应用到了电力领域当中, 为该领域数据采集效率的提高以及电网管理水平的改善带来了保障, 具体体现在源网荷协同调度以及负荷波动与新能源出力预测等方面:

2.1 源网荷协同调度

根据可持续发展理念的要求, 应将新能源应用到各个领域当中, 以实现人与自然的和谐发展。本着上述原则, 电力领域对新能源的使用水平也开始逐渐提高, 如何对新能源进行准确的预测, 成为了电力领域关注的重点问题。对调度方法的合理应用是解决该问题的途径。在过去很长一段时间内, 电力领域一直采取传统的调度方法, 通过增加系统的旋转备用解决问题, 即从供给侧入手, 提高电力资源应用的平衡性。但随着社会的不断发展, 目前调度出发点已经从供给侧转为了需求侧, 即通过市场调节的手段, 从电力用户的角度出发, 以调节其用电负荷的方法, 达到提高电力资源应用平衡性的目的, 实现网源荷协同调度。上述目的的达成要求电力领域必须保证具有大量的信息作为辅助, 其中新能源出力波动便属于非常重要的一点信息。智能电网大数据技术的应用能够实现对数据的存储、出力以及调度, 因此也就能够为电力领域提供所需要的辅助信息使得电力资源的优化调度能够更加顺利的实现。这是该技术发展的主要体现。

2.2 负荷波动与新能源出力预测

电力用户的用电量会影响到电力负荷, 而电力负荷的波动, 则会影响到电力系统的运行情况。目前, 对负荷波动的预测已经得到了重视。减小预测波动值与实际波动值之间的误差, 能够使作出的电网管理决策更加合理, 反之, 则极容易导致电网运行产生风险。当前我国电力领域负荷预测主要采用的是通过对历史负荷数据的观察, 以相似日法为基础, 实现预测的方法。上述方法的实现所需要的历史数据量相对较大。智能电网大数据技术的应用, 能够为其提供大量的历史数据, 同时还能够保证数据的多样性, 这对于负荷波动预测准确性的提高能够起到极大的促进作用。

除此之外, 对新能源出力预测也十分重要。传统能源的使用具有一定的平稳性, 这是其主要优势。相对而言, 新能源应用的优势则在于更加符合可持续发展理念的要求, 但其却具有一定的波动性。对其进行合理预测, 能够使电网企业及时做好用电规划, 是保证其稳定运行的基础。新能源接入受制因素主要包括网架结构脆弱以及预测误差两大方面, 前者主要由新能源的位置决定, 其往往位于电网末端, 因此结构相对脆弱。大数据技术的应用可以提高预测准确度, 以IBM大数据解决方案为例, 其能够较为准确的实现对风力发电情况的预测[3]。

2.3 网架发展规划

电网的发展正处于过渡阶段, 智能电网处于建设过程中, 与互联网的结合, 是未来智能电网发展的主要方向[4]。另外, 电转气技术目前也正在研究过程中, 理念在于将不宜存储的电能, 转化为天然气进行存储, 这不仅能够达到资源高效利用的目的, 同时也能够直接促使天然气量的增加。在上述情境下, 应用大数据技术进行电能的预测, 并将其合理、适度的转换为天然气, 是提高网架发展规划水平的主要途径, 同时也是该技术应用的主要体现, 是其发展的主要方向。

其次, 科学技术的发展使得电动汽车成为了汽车领域的主要研究方向, 电动汽车改变了以往汽车通过燃油获得动力的特点, 使得汽车的行驶可以靠电能的应用来实现。在此基础上, 加油站也必定会向充电站转化, 该种类型汽车的普及是一种主要趋势。因此, 必须采用大数据技术, 实现对电能的分布式管理, 以确保电动汽车能够普及, 减轻受汽车尾气影响带来的环境污染问题。

3 智能电网大数据技术解决方案

为提高智能电网大数据技术水平, 应提出相应的解决方案。根据大数据技术的特点及其需要实现的功能, 应首先保证其能够实现对数据的存储, 继而实现数据的甄别功能。在此基础上, 实现对数据的挖掘与输出, 进而为智能电网负荷预测以及新能源出力预测等功能的实现提供保证[5]。对系统软件的设计以及对种种算法的应用能够有效保证上述目的达成。鉴于当前电网数据的多样性, 为提高数据存储水平, 必须重点考虑应用分类存储的方式, 即根据数据的类型, 将同种数据存储在一起, 以提高利用效率。基于Paxo算法的分布式计算模型的建立, 是大数据技术功能发挥的主要依据[6]。

结论:

综上所述, 智能电网的建设是电力领域发展的必然, 将大数据技术应用其中, 与时代发展的趋势相符合。在电网数据量以及数据类型不断增加的今天, 采用大数据技术, 实现对负荷的预测以及对新能源出力等的预测, 可以使预测准确度得到提高。据此, 便可以提出更加具有针对性的、更加合理的电力管理措施, 这对于电力能源的优化调度以及合理转化都能够起到重要的促进作用。

参考文献

[1]曹军威, 万宇鑫, 涂国煜, 张树卿, 夏艾瑄, 刘小非, 陈震, 陆超.智能电网信息系统体系结构研究[J].计算机学报, 2013, 01:143-167.

[2]宋亚奇, 周国亮, 朱永利.智能电网大数据处理技术现状与挑战[J].电网技术, 2013, 04:927-935.

中国大数据发展报告 篇5

该指数由政策环境、人才状况、网民信心等6个一级指标、11个二级指标构成。测评结果显示,全国大数据发展指数平均仅为47.15,总体仍处于起步阶段。在指数分项中,贵州的政策环境与网民信心指数分别为77.93和90.00,均居全国第一。

报告发布全国十大最具影响力的地方大数据政府机构,贵州有贵州省大数据局、贵州省发改委、贵州省经信委、贵州省信息中心、贵州省科技厅5家机构上榜,分别排名第一、第二、第四、第五、第七。此外,报告评选出最具影响力的十大大数据企业家,贵阳大数据交易所执行总裁王叁寿以新闻媒体影响力6.87、自媒体影响力7.77、综合得分7.32的成绩位居第四。

据统计,20,全国各地积极部署大数据项目,政府投资大数据项目数量整体呈攀升态势,保持较高增速。在这份榜单中,贵州表现突出,以7.74%的占比排名第三。各地都依托产业园促进大数据发展。近年来,贵州抢抓机遇,凭借高海拔、低气温、低电价等天然优势和财税政策优惠发展大数据产业,关注度排名前二十的大数据产业园中,贵州就占3个,分别是贵阳经开大数据产业园、贵阳市大数据呼叫中心产业基地、贵州(乌当)大数据智慧产业基地,与江苏、四川在数量上并列第一。此外,全国各大国家级新区积极布局大数据产业,吸引大批优质大数据项目进驻,其中,贵安新区以87.59的高关注度遥遥领先,位居第一。

用大数据来了解大数据

这份报告全面汇聚了国家发改委互联网大数据分析中心、国家信息中心、“一带一路”大数据中心所掌握的30多个种类,总计40多亿条相关数据,综合运用多种大数据分析方法,对我国大数据产业发展进行了全面分析。所以,称得上是用大数据来了解大数据。

北京、广东、上海大数据发展位居前三

报告显示,我国大数据发展总体处于起步阶段。但是从地域上看,就有意思了。

国家信息中心信息化研究部副主任、南海大数据应用研究院院长于施洋指出:“从地域分布,从各个省来说,北京排第一,这个不足为怪,东部沿海地区这些省份排在前面,大家也都能够想象。但是在西南地区,四川、重庆、贵州这三个地方异军突起,是我们大数据发展的第二个增长极。”

产业落后是地方大数据发展的突出短板

具体来看,各省份大数据发展指数的排名中,贵州、重庆、四川,紧随东部沿海省份,全部排进了前十名,领先任何一个中部省份。分析认为,这主要是地方政策引领的结果。这三个西部省市,早早都把大数据产业的发展作为重点工程来打造。对于这种“弯道超车”现象,国家行政学院教授汪玉凯建议,这些地方下一步可以重点考虑产业落地问题:“它们是首先抓住了一个概念,然后占了一个先机。但是相对能够落地的产业应用还是比较少的,这是它们的软肋。所以我认为,你们一定要注意应用,要打造你的优势。”

人才短缺问题日益突出

报告指出,数据管理环节漏洞较多,是大数据发展面临的首要问题,包括由此引发的运营成本过高、资源利用率低、应用部署过于复杂等难点。而于施洋更关注的是另一大问题。

于施洋:“我们会发现,大数据领域里数据是有了,但是能驾驭这些数据的人是极其匮乏的。比如说大数据的专业人才方面,现在分析类的人才,市场是供不应求,缺口非常大,而项目管理类的`人才,供给又远远大于需求,所以结构上还不平衡。高端的人才奇缺,这是最突出的问题。”

大数据投资热度持续攀升

报告还披露,年各地政府投资大数据项目数量整体呈攀升态势。但是,在这些政府投资项目中,超过七成都是大数据平台和基础设施建设,应用层面的软件开发不到5%,“重建设、轻应用”的问题比较明显。这也再次引发了对大数据建设过剩甚至泡沫的担忧,不过,国家信息中心主任程晓波认为,作为新事物,大数据出现这样的问题是正常的。

程晓波:“正如前后,“互联网泡沫”第一次破灭,经过短暂调整后反而催生了互联网行业新一轮理性快速健康发展,所以说,我们认为,当前大数据发展不管面临什么问题,应该是一个行业初生阶段所必经的过程,也是一个‘理性回归’的过程。”

央广短评:发展大数据 要谨防人才“眼高手低”

大数据的核心就是数据的抓取与分析,而分析环节,目前离不开人工设置变量,建立模型。所谓“差之毫厘,谬之千里”,大数据分析对人才的要求很高。但首份大数据发展报告却揭示,我国大数据人才能搞管理的不少,真正能做分析的却远远不够,这是典型的“眼高手低”,势必伤害大数据产业的长远发展。人才短板可以从教育方面着手弥补,探索新的人才培养模式。比如,将高校大数据系列课程分为理论教学和技术教学两方面,增加大数据技术实践课程,重点提高学生的动手能力等。

关键词:大数据;报告;问题;北上广

大数据告诉你:情人节的正确打开方式

五年大数据,见证“奔跑吧德州”

,德州市第十四次党代会召开以后,德州跨进了新跑道,德州市上下接好接力棒,奋发有为,使得德州市综合实力明显增强。尤其是建设协同发展示范区以来,更为德州的发展注入了强心剂,多项经济数据快速增长。

大数据勾勒山东人形象:山东人表情符使用率全国第二

大数据助推北京创新发展 篇6

现在,人们多是把大数据当成一个客观现实或者扑面而来的潮流,而没有看到这更应该是人们的一种主观欲求和战略管理的历史性需求。

2012年,美国已经制定了“大数据研发计划”,而中国目前还没有大数据计划。在这种背景下,北京应该发挥带头和引领作用。在城市层面,如何研究和制定北京的大数据计划,就更是一个充满挑战性的工作,当然也是十分有趣或有意义的工作。

北京要建设国家创新中心,以及培育战略性新兴产业,尤其是科技成果的转化和产业化,都特别需要大数据和大数据处理。北京要研究和创制一种使用某种分析方法的“基础架构”,能够让“大数据”更好地使北京率先做到:从经济社会发展需求中找准科技创新主攻方向,又要把科技成果迅速转化为现实生产力。北京亟需开发城市和大区一级的大数据管理体系架构。科技北京或具有中国特色的世界城市的建设,应该把眼光放到这个问题上。

在这种大背景下,面对扑面而来的大数据潮流,北京应如何制定具有北京特色的《大数据计划》?我认为应注意以下几点。

一是将大数据用来考虑科技研发与成果转化,再用最先进技术来落实最先进的思想和理念。

二是北京建设国家创新中心,也需要这么走。目前只是欠缺思路或顶层设计。

三是北京已经实施“祥云”计划,但主要是基础建设,有多种朝向,并未重点朝向或研究解决科技的新式研发与成果转化问题。数据本身是资产,这是大家目前达成的共识。云计算为数据资产提供了保管、访问的场所和渠道。如何盘活数据资产?使其为国家治理、城市功能升级和企业决策乃至个人生活服务?这是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。

众所周知,北京正在实施“祥云计划”,到2015年,形成2000亿元产业规模,建成亚洲最大超云服务器生产基地;上海正在实施“云海计划”,到2012年,培育10家年销售额超亿元的云计算企业,带动信息服务业新增经营收入1000亿元,打造“亚太云计算中心”;重庆,正在实施“云端计划”,到2015年,建成云集上百万台服务器、上千亿元规模的“云计算”基地,成为全球数据开发和处理中心;广州正在实施“天云计划”,到2015年,云计算应用水平将达到国内领先水平,构建世界级的云计算产业基地。但却没有一个城市颁布和实施大数据计划。这样讲,并不是赶时髦,而是因为云计划固然与大数据存在密切联系,甚至我们所说的大数据处理本身就应该是在云端进行的,但云计划却代替不了大数据计划。

云计划主要是基地建设和设备集聚、要素堆积的工业经济概念,相对于提高城市创新发展能力的大数据计划来说,云计划主要可以被看作是一个基础设施甚至硬件条件,至于一个城市如何根据其经济社会发展规划和在区域乃至国家和世界中的战略定位,来提供城市的整体功能水平,使城市智能化,还是云工程性计划中所不能覆盖的。另外,云计划也主要是一个IT范畴的工作,而且是一个工程概念。

相对来讲,大数据计划就可能要丰富、立体和复杂得多。北京建设自主创新能力,建设中国特色的世界城市,一定要以世界一流的数据抓取、管理与处理或分析加工能力为基础和主要朝向的。这个抓取和处理能力所涉及的必然是世界范围。

四是“大数据”作为一个较新的概念,目前尚未直接以专有名词被我国政府提出来给予政策支持。北京应该奋勇争先,一定要在建设国家创新中心、建设自主创新示范区的战略进程中,把大数据的科学研究和工程计划制定出来并快速予以实施。因此,大数据计划应该被补充到科技北京建设的规划和行动计划之中。

基于智能电网大数据技术发展研究 篇7

1 智能电网与大数据技术的特点

不论智能电网, 还是大数据技术都是近些年新兴产物, 是随着计算机技术、通信技术、网络技术、数字技术的普及而发展起来的高新技术。智能电网与大数据技术为经济发展和社会进步带来了新机遇。下面通过几点来分析智能电网与大数据技术的特点。

1.1 智能电网

智能电网是电网的智能化, 指利用大量智能装置接入电力系统来实现智能化、自动化电网运行, 是二十一世纪的新兴产物。在智能电网中, 融入了传感技术、决策支持系统技术、智能自动化控制技术、测量技术, 基于多项通信网络来实现。其核心系统构成是:智能变电站、智能配电网、智能调度系统、智能电能表等。通过智能电网能降低电网运行成本, 提高电网坚强度, 减小电网损耗, 实现电网的经济、安全、可靠运行。且智能电网容许多种发电形式的接入, 为新能源利用提供了便利, 并具有一定自愈功能和攻击抵御能力, 有效降低了电网故障率。智能电网最早出现于二零零五年, 现如今智能电网已成为现代电网建设的主流方向, 我国已投入五千亿进行智能电网建设。

1.2 大数据技术

二十一世纪人类社会已经进入信息时代, 信息技术被融入到各个领域, 社会活动中产生的数据量越来越大。大数据最早由麦克锡提出, 他认为信息社会中工业经济正在逐步向知识经济转变。在这一大背景下, 谁能拥有信息资源, 谁就拥有市场、拥有优势, 大数据时代已经到来, 经济活动、商务活动以及其他领域的一切社会活动都离不开数据信息。二零一二年后, 大数据技术得到重视, 被开始被应用。大数据技术下的数据信息类型多, 数据量大, 传输速度快、实效高, 信息来源广, 计量单位最少是P, 信息传播形式以双向或多向传播为主, 数据类型即可是音频、编码、也可以是影像图片, 且可以实现异构数据传输, 数据受众群体非常庞大, 但信息价值密度会下降, 需要进行数据提纯。

2 智能电网对数据传输及通信的需求

显然智能电网与传统电网工作模式不同, 对数据通信技术要求较高, 具有一定特殊性, 若通信质量不能得到保障, 必然会给电网系统造成负面影响。智能电网的安全、高效运行离不开通信网络的支持。在电网运行过程中需要对电能生产、输送、调度、消费等相关信息技术高效、及时的处理、控制、传输, 所以要求通信网络满足稳定性、高效性、实时性、双向性, 涉及数据业务和图形业务及特殊业务三大类。根据传输速率及信息类型不同, 具体可分为: 骨干通信网络和终端接入网络, 网络结构可能分为:树型和线型。智能电网对通信质量有着较高要求, 通信编码错误, 可能会引起系统误动、错误操作等问题, 造成电网波动, 甚至导致非计划性停电, 影响供电稳定性与可靠性。电力通信数据数据流量大, 流向变化多, 通信节点繁杂, 业务量非常大, 非常适合应用大数据技术。大数据技术的融入, 增强了业务联系性, 降低了系统控制难度, 提高了系统稳定性与数据传输速率, 很好的改善了网络脆弱性问题, 避免某一节点的故障引起通信故障。

3 基于智能电网大数据技术发展

通过前文对智能电网对数据传输及通信的需求, 可以知道智能电网对通信和数据传输有着较高的要求, 传统数据技术显然已不能满足通信需求, 其局限性越来越明显。而大数据技术的融入, 则增强了智能电网运行安全性、稳定性、可靠性, 解决了智能电网通信问题。传统数据通信技术下, 智能电网通信由静态路由算法, 这种通信方式具有一定滞后性, 网络扩充时需要进行更新, 所以通信速度慢, 多节点通信中路由表数据非常庞大, 将直接影响寻址速度, 造成通信速度下降。大数据技术则融入了动态多径路由算法, 优化了寻址方式, 在大数据、多节点通信中, 依然可以快速寻址, 采用了混合驱动寻址模式, 降低了寻址延迟性。另一方面, 由于智能电网涉及节点多, 单一系统结构易造成整个网络的故障。而大数据技术下, 运用多层技术, 对转接点、交换点、端节点进行了数据整合, 通过多层次数据整合来满足电力信息交换任务要求, 优化主干线路和节点。另一方面, 大数据技术下, 寻址策略发生了变化, 融入了极坐标寻址技术。寻址策略影响着寻址速度和数据交换速度, 电力数据传输中大节点设置非常复杂, 设计到编址和编码。大数据技术中利用物理寻址作为寻址依据, 大大降低了寻址难度, 减小冗余节点数量, 有效解决了电力通信中拥堵问题。毫无疑问, 大数据技术为电力工业发展提供了新技术支持, 非常值得推广和应用。

4 结束语

智能电网是现代电力发展的主流, 而传统通信与数据交换技术并不能满足智能电网发展的需求, 应积极融入大数据技术。利用大数据技术来提高通信质量、数据交换速度, 增强路由寻址能力, 保障智能电网的高速、高效运行, 解决传统网络脆弱性问题。

参考文献

[1]彭小圣, 邓迪元, 程时杰, 文劲宇, 李朝晖, 牛林.面向智能电网应用的电力大数据关键技术[J].中国电机工程学报, 2015 (03) :503-511.

[2]李振元, 李宝聚, 王泽一.大数据技术对我国电网未来发展的影响研究[J].吉林电力, 2014 (01) :10-13.

大数据技术发展 篇8

1 大数据的意义

大数据顾名思义就是庞大的数据, 大到无法通过传统工具进行计算、收集、处理、管理等为社会所应用的信息。它是在物联网、云计算之后出现的一个更加热门的话题, 因为它具有不可估量的价值。大数据不仅是容纳了海量的数据, 还包含了处理数据的高速。大数据是一个很抽象的概念, 因为现有的数据库处理系统与大数据的结构不匹配, 所以必须通过与大数据并行的数据处理平台才可以从大数据中获得有价值的信息。

2 大数据测试技术的特点

大数据具备数据量大、速度快、多样性、价值高等特点。下面对大数据的具体特点进行详细分析:

2.1 数据量大, 是指不仅计算量大而且存储量也很大, 数据存储可以扩大到ZB, 可以大大提高数据加工的技术, 还有各种社交网络技术的发展, 马云创造的淘宝使得每天的交易量剧增, 还有Google通过云计算产生的大量数据, 都需要有强大的数据平台和全新的数据处理技术进行统计、分析、实时处理庞大的数据, 然而大数据技术就可以满足这么多平台网站大数据处理的需求。

2.2 速度快, 表现在大数据的移动性, 也就是我们说的实时性, 随着很多移动网络的使用, 人们都希望能够在第一时间就获取最新的信息, 比如出行前通过手机客户端看天气预报;或是通过手机软件阅读最新资讯等;而且还可以在大量数据同时输入时将没有用的数据排除在外, 从而得出结果, 以供大家参考。

2.3 多样性, 是指可以从多个渠道获得的有关联和没关联的数据, 互联网时代把各种设备连成了一个整体, 人们可以享受资源实时共享, 让广大受众成了信息的需求者以及传播者, 这个时候就会产生大量的数据而且种类繁杂, 通过运用的数据库把我们需要的信息进行保留, 舍弃与我们无关信息, 并且可以及时将有关联数据进行分析、加工, 使之成为有用信息。

2.4 价值高, 大数据的价值高体现在可以从海量的不为发现的事物中找到一个十分稀缺的信息, 哪怕是再难找到的, 都逃不出大数据的法眼, 所以被它发掘出来的信息都是十分有价值且罕见, 对未来很多行业发展以及趋势都可以进行预测, 将收获的数据与人工智能方法或数据挖掘方法加以深度分析, 就可以被运用于多个领域, 比如医学行业金融行业等, 让它们社会创造更大的价值。

3 大数据将带来的实际价值

大数据拥有强大的集中信息并获得有效数据的能力, 通过这些数据可以为社会创造出不可估量的价值。第一, 大数据将将带动计算机技术解决大量的数据分析、处理数据的多样化以及数据处理的时效性等问题, 使得人工智能化、数据挖掘分析以及信息通讯等不断有新的突破技术涌现出来;第二, 大数据在各大行业都将开发出创新模式, 可以带动很多不想不相关的行业进行融合, 从而使行业获得最大化效益, 这种新模式的产生有利于社会经济的发展;同时大数据还将服务于人们生活的各个方面, 比如智能管家帮忙理财、去商场购物商家可以根据每个人的喜好和消费观念通过无线互联网就我们需要的信息发给我们、在外就餐通过车载语音会帮助我们找到我们想去的餐厅及路上车况还有停车位的情况, 都会实时反馈给我们, 大大方便了我们的日常生活。

4 大数据测试特点的发展趋势

4.1 大数据与云计算的结合

大数据需要配合相应的计算平台, 才能发挥出它的实用价值, 当多样行的大数据需要被处理的时候云计算可以发挥协调的作用, 为大数据提供可靠地廉价的有用资源。不过应对复杂高难度的大数据时, 云计算还是缺乏一定的准确性和效率不高的现象, 由于大数据技术本身不具备处理大规模数据的存储资源和计算资源的能力, 所以需要借助与之相协调的大数据存储与计算平台, 大数据需要云计算对其数据进行处理以后得到高效的服务, 大数据技术是通过描述数据构成, 从而对数据进行更新和索引, 然而云计算则是对大数据分布式服务模式进行按需索取, 这两者都是为了满足巨量数据的集中和管理要求, 大数据为云计算提够了应用背景, 而云计算为大数据提供了存储和计算资源, 两者相互促进, 相互依存。

4.2 大数据与物联网的结合

物联网带动了所有智能服务的兴起, 互联网运用到物联网中, 极大地推动了大数据的发展, 通过互联网信息传递可以将物联网中的实物连接起来, 从而做到智能识别。首先, 大数据与物联网的结合是一大机遇, 使得数据平台丰富化, 把原本的电脑拓展成智能手机、平板电脑等, 满足了感知层多样化数据的呈现, 目前用的比较广泛的感知器就有红外线技术以及蓝牙技术等, 不过再好的感知性能, 也满足不了不断增长的数据, 所以还是要对感知技术进行不断地改进和创新;其次, 物联网还没有比较健全的标准体系, 主要表现在传感器的发送存在距离限制, 在大数据进行传输的过程中, 物联网技术还不能满足大数据对外部传输的要求。

4.3 大数据与数据空间

由于很多数据库管理系统都不能满足大数据的需求, 所以引入一种新的信息管理概念来适应大数据的广泛、海量的数据管理系统, 那么它就是数据空间技术, 关于它的研究目前在只个人数据空间方面有所成就。我国已经广泛开展对数据空间技术的运用, 但是都还只是处在研究阶段, 它存在一定的弊端, 就是通过使用系统用户不可以进行自定义搜索的功能。

5 结论

在不断前行的社会, 数据的数量、速度以及多样化都在不断地变化中, 数据与数据之间进行相互联系, 需要大数据提供相应的管理和服务, 为了能够满足社会发展的需求, 必须对这些庞大的数据进行处理, 数据的管理和整理是对大数据时代的考验, 希望可以在不断的更新中, 创造出更先进的数据库技术, 来满足人们的需求, 更好的服务于社会。

摘要:互联网环境下, 大数据的分析处理已经成为当前信息技术领域研究的重点内容, 在对大数据分析平台研究的基础上, 分析大数据具有的特征以及指出大数据与云计算、物联网和数据空间相结合的发展趋势。

关键词:大数据,测试技术,发展趋势

参考文献

[1]孟小峰, 慈祥.大数据的管理:概念、技术与挑战[J].计算机研究与发展, 2013 (1) .

[2]王涛, 余顺争.基于机器学习的网络流量分类研究进展[J].小型微型计算机系统, 2012 (5) .

大数据技术发展 篇9

1.1 大数据的概念

随着科技的不断发展, 继云计算物联网之后, 大数据成为全球关注的焦点问题, 大数据凭借自身巨大的潜在价值, 备受社会各界的认可和关注。从2009年开始, 在互联网上开始流行大数据, 专家和学者们分别从不同的角度对大数据进行定义。由于大数据本身抽象性比较强, 进而在一定程度上增加对其定义进行统一的难度。

对于大数据, 在内涵方面, 一方面大数据包含海量数据和大规模数据, 另一方面大数据包含各种复杂的数据类型;在处理数据方面, 大数据的响应时间比较迅速, 并且由传统的周、天、小时等逐渐向分、秒转变, 借助云计算物联网技术, 数据处理成本不断降低, 同时数据处理速度不断提高。

1.2 大数据的特征

对于大数据来说, 通常情况下, 是指规模超过10TB的数据集, 规模性、多样性、高速性和价值性是大数据的主要特征。

1.2.1 规模性

随着经济的发展, 科学技术的进步, 数据信息出现爆长, 社交网络、移动网络、智能终端等逐渐成为人们掌握数据信息的来源, 据相关统计显示, 近4亿的淘宝网会员每天产生约20TB的商品交易信息;约10亿的Facebook用户每天产生超过300TB的日志信息;Google通过云计算平台每天处理超过13.4PB的数据。在数据大爆炸时代, 人们在智能算法, 数据处理平台, 以及先进的处理技术方面都提出了更高的要求, 进一步对大规模的数据进行统计分析和预测, 以便做出实时处理。

1.2.2 多样性

由于产生数据的应用系统和设备存在差异, 进而在一定程度上决定了大数据形式的多样性, 其多样性主要体现为:一是财务系统数据、信息管理系统数据、医疗系统数据等结构化数据, 这些数据的特点存在较强的因果关系;二是视频、图片、音频等非结构化数据, 该数据的特点是数据之间不存在因果关系;三是HTML文档、邮件、网页等半结构化数据, 这些数据的特点是数据之间存在比较弱的因果关系。

1.2.3 高速性

与海量数据相比, 大数据的区别, 主要体现在:一是在数据规模方面, 大数据的规模更大;二是在数据处理的响应速度方面, 大数据的要求更为严格, 并且都是对数据进行实时分析, 而不是所谓的批量分析, 对于数据来说, 输入、处理、丢弃等都是立刻见效, 根本不存在延迟现象, 对于大数据来说, 其高速性主要体现在数据的增长速度和处理速度两个方面。

1.2.4 价值性

有价值的数据在大数据中只占很小的比例。从大量不相关的数据中, 对未来趋势与模式预测分析有价值的数据进行挖掘, 这是大数据价值性的重要体现, 对这些有价值的数据, 通过机器学习方法、人工智能方法或数据挖掘方法等进行深度分析, 进而广泛运用于农业、金融、医疗等领域, 以便创造更大的价值。

2 微小型数据库技术

随着科学技术的不断进步, 在微小型数据库系统需求方面, 嵌入式操作系统为数据库技术开辟了新的空间。目前, 微小型数据库技术逐渐从研究领域延伸到应用领域。对于微小型数据库系统来说, 通常情况下, 可以将其定义为:数据库系统的内核仅需一个很小的内存就可以支持。在微小型数据库系统中, 对于便携式设备来说, 其内存空间一般只有2MB, 对于掌上设备或者其他手持设备来说, 其内存空间通常只有50KB。内存空间的大小在一定程度上影响和制约着微小型数据库系统的运行速度。根据占用内存的大小, 可以将微小型数据库系统分为:超微DBMS (pico-DBMS) 、微小DBMS (micro-DBMS) 和嵌入式DBMS。

在各种智能型嵌入设备或移动设备上, 通过将微小型数据库系统与操作系统进行集成, 进而确保设备的征程运行。目前, 微小型数据库技术逐渐从研究领域延伸到应用领域, 同时涌现出各种微小型数据库产品。在各种智能设备中, 随着移动数据处理和管理需求的不断提高, 在学术界、工业界、军事领域和民用部门等给予了嵌入式移动数据库技术高度重视, 并且不断实用化。

3 微小型数据库的发展

随着科技的发展, 对数据管理提出新的要求和挑战, 研究和开发工作出现一片繁忙的景象。研究的重点依然是更高的性能, 以及更为复杂、多样的数据。

3.1 面向云平台的数据管理技术

通过对计算、存储、网络等硬件资源进行整合, 云平台为用户提供了虚拟化技术, 进而在一定程度上为用户使用这些资源提供了便利性, 同时确保了经济性。对于云计算来说, 虚拟化和动态伸缩性是其主要的特点。在管理面向操作型应用数据、分析型应用数据的过程中, 采用云平台还需面对许多的挑战, 例如, 在具有动态伸缩性的云平台上, 如何支持事务处理, 如何在云平台上部署新的存储模型, 如何放置数据, 如何对数据进行容错, 以及如何将新的索引结构部署到云平台上等, 以及如何在云平台上将数据库当作一个服务进行部署, 随着时代的不断发展, 上述问题需要继续进行深入研究分析。节能、隐私保护和安全等关键问题还需要面向云平台的数据管理进行解决和处理, 进而赢得用户的信任, 进一步实现产业化。

3.2 大数据统一处理平台

通过对上文进行分析, 围绕RDBMS和Hadoop技术分别产生了一个分析生态系统, 以及正在产生一个分析生态系统。在某些方面这两个系统是重叠的, 在这种情况下, 能否采取相应的措施, 将两项技术和生态系统融合到一起?在理论界、工业界的共同努力下, 一定会形成一个统一的大数据处理框架以及生态系统。但是需要深入的研究某些问题, 例如, 如何在一个存储层上 (数据组织方式) 上整合多类型的数据;如何采取措施建立智能的存储层;如何改进和优化查询的调度算法, 以及执行算法等, 进而在一定程度上与多核、GPU、异构环境等相应的硬件环境相互适应, 并且在云平台上能够正常运行;如何确保服务和功能超越SQL, 对编程和应用接口进行扩展, 针对普通用户、高级用户、统计学家, 以及数学家等不同类型的用户, 进而提供个性化的数据分析环境和分析工具;如何对大数据的处理结果进行可视化。

4 结论

随着时代的不断发展, 大数据时代正在向我们走来, 数据管理技术研究逐渐进入新的阶段。本文通过对技术进步的历史思路进行分析, 同时对数据管理技术的发展进程进行阐述, 并展开当今数据管理技术新画卷。

参考文献

[1]李斌.大数据及其发展趋势研究[J].广西教育, 2013 (09) .

[2]覃雄派, 王会举, 杜小勇, 王珊.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报, 2012, 23 (1) :32.

[3]林子雨, 赖永炫, 林琛, 谢怡, 邹权.云数据库研究[J].软件学报, 2012, 23 (5) :1148.

大数据与档案行业发展的技术应用 篇10

档案大数据背景下, 通过一定的技术方法对关键信息进行提取和挖掘。只有满足不同档案用户的信息需求, 数据挖掘技术才会发挥巨大作用。在海量的档案信息挖掘中主要采用文本数据挖掘技术, 这相当于文字分析, 一般指文本处理过程中产生高质量的信息。可以把对文本数据的分类、融合、压缩、摘要以及从文本中抽取发现知识与信息都看做是文本数据挖掘, 缩小搜索数据范围, 从而提高其效率和准确度。在档案信息化领域, 知识管理的发展主要包括认知、信息积累、知识挖掘、知识运用、规范化发展5个步骤。通过信息检索、分析及挖掘技术, 将信息进行分类及抽取或形成一组问答序列, 形成解决某一问题域的数据集, 挖掘出一定的专门知识, 作为决策的依据。因此, 档案大数据系统平台总体架构应按照实际内容的应用流程实现, 即数据的采集、智能处理、数据挖掘与智能搜索应用平台。通过多类型数据采集平台进行数据采集, 在智能数据处理平台上对这些非结构化信息、多媒体信息和用户信息进行分析, 最后在应用平台上提供数据挖掘结果的搜索平台和多媒体自动编研平台。

大数据与图书馆发展 篇11

关键词:大数据  图书馆工作  思维方式  评论

中图分类号:G25 文献标识码:A 文章编号:1674-098X(2014)10(c)-0181-01

1992年,美国政府公布了“信息基础建设与科技法案”,1994年9月,“数字图书馆首创计划”一期工程,在美国国家基金立项共投入2440万美元,并与次年成立国家数字图书馆联盟。1998年,美国图书馆协会制定了学生的信息素养标准,2009年10月1日,为了强调公民信息素养的作用,白宫发布了总统签署的公文,将每年10月定为全民信息素养意识月。2012年3月29日,为了提高从大数据的分析和利用能力,转变学习方式,加快科技创新,美国总统宣布启动“大数据研究与开发计划”。

高校图书馆除了为师生服务,还要为科研和企业服务、更重要的是为决策部门的知识支持服务。不仅仅是文献信息的提供中心和为教学、科研服务的学术性机构,逐步向学习研究中心,校园文化建设的主阵地职责倾斜。高校图书馆工作是一个较为复杂的系统工程,其工作内容既有行政和业务,又有思想政治工作;工作对象既包括广大读者,又包括本馆职工。随着数据信息量的空前丰富和交流技术手段的突飞猛进,如何利用数据信息增强组织机构的竞争力,如何了解世界、产业的发展动向,如何支持战略性的创新和研发活动,以及传统的业务(如科技查新、竞争情报等)如何转型,对于图书馆情报界而言,既是一个严峻的挑战,也是一次发展的机遇。具体来说,就是要紧紧围绕全面提高高等教育的质量这一主题,进行变革、拓展、传承,探讨大学图书馆面对不断变幻的信息环境,面对不断变化的用户需求,如何通过技术革新、服务创新、管理变革等谋求发展,图书馆在做好传统的文献支撑工作的同时,在大学生信息素质、知识产权意识、创新意识培养方面承担更多的责任,践行文化育人的职能;充分适应教育信息化,向社会进一步开放;新形势下不断拓展新服务,更好地为学校教学、科研、战略发展提供高质量服务。

全面系统的研究高校图书馆各项工作的过去、现在和未来,明确新时期图书馆工作任务之际,张福俊于2014年2月在中国时代经济出版社,出版了《大数据时代高校图书馆工作研究》,仔细读来给人豁然开朗的感觉。

该书第一章主要回顾了图书馆学发展历程,综述了大数据的相关研究,展望了大数据为图书馆带来的契机与影响,指出数据正在成为组织最重要的资产,数据分析能力正在成为组织的核心竞争力。第二章主要介绍了大数据时代图书馆资源建设,作者认为馆藏资源建设经历了从藏书建设到文献资源建设再到信息资源建设的过程,随着大数据时代的来临,非结构化读者互动数据也成为高校图书馆的重要建设资源,图书馆的资源建设将过渡到数据监护时代。本章主要研究了大数据时代文献资源建设和数字化电子资源建设和各种来自读者的非结构化数据收集,比如:用户借阅流通数据,馆藏书目数据和电子数据库,数据库利用数据,各种评论数据,读者自行分类和TAG数据,入馆读者数据,在线咨询数据,文献传递数据,科技查新数据,无线射频识别数据、社交网络交互数据、移动互联数据及各种传感器数据等。第三章,大数据时代读者工作,主要阐述了读者分析特别是读者行为分析的方法,介绍了大数据时代图书宣传与阅读指导的工作特点和工作范式,研究了基于读者大数据的个性化推荐系统和虚拟参考咨询以及文献传递工作。第四章主要研究了大数据时代信息素质内在结构体系的构建和信息素质教育课程模式及实施组织模式;第五章主要介绍了图书馆开展基于决策支持的竞争情报工作的方法,不但论述了理念、理论,还结合多年的工作实践举例说明,特别值得一提的是,指出了科技查新服务工作向基于大数据、基于知识的情报咨询服务转型问题,比如书中给出了FTO检索案例和基于单位和竞争单位的内生增长研究报告以及基于学科或行业发展研究报告的做法。第六章,基于大数据的信息化建设,是本书的重点,特别是云数据中心搭建部分,从架构到设备配置介绍的比较详细,但未见述及横计算和万物互联等时代前沿问题。综合布线、安防系统、自动化集成系统、第五代Wi-Fi无线网络系统的应用部分理念也比较先进,介绍的也比较详细,图书馆资源数字化及服务系统部分详述了资源数字化的方法及存储设计,资源管理服务系统部分只研究了规划,理念还不够先进,有待于著者进一步研究,比如基于大数据的移动应用问题。第七章图书馆管理工作部分,研究了大数据时代高校图书馆人力资源配置和管理办法,创新性的把图书馆工作划分为简单工作岗位和复杂工作岗位,并提出了划分标准,即把无法清楚地描述目标任务和岗位责任的工作岗位划为复杂工作岗位,并科学地提出这部分岗位的闭环目视考核管理办法,有一定的现实价值和借鉴意义。

总之,《大数据时代高校图书馆工作研究》全面系统地阐述了现今时代高校图书馆工作的理论与实践,对做好图书馆工作有一定的指导意义,是图书情报工作人员和大学生学习提高的教材。全书内容总体比较新颖,能够注重理论联系实际,总结了图书馆工作与管理的卓有成效的实践经验,对各类图书馆的工作均有一定的参考价值。

参考文献

[1] Fu-jun Zhang.The application of ElGamal encryption technology to the information security of digital library[J].Telkomnika,2013(11):1801-1807.

[2] 張福俊.基于SCI论文引证的学术期刊信息服务[J].山东科技大学学报(自然科学版),2013(5):107-110.

[3] 韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013(1):121-122.

[4] 张福俊,刘桂仁,刘谦,等.山东省国内专利文献计量学分析[J].科技管理研究,2013(1):60-63.

[5] 张福俊.大数据时代高校图书馆工作研究[M].中国时代经济出版社,2014.

[6] 樊伟红,李晨晖,张兴旺,等.图书馆需要怎样的“大数据”[J].图书馆杂志,2012(11):63-68,77.

大数据技术发展 篇12

1 大数据技术与大数据应用

1.1 大数据技术

大数据分析就是在信息网络技术以及科学技术的基础上, 经过多元化的渠道与途径, 对大量的数据进行收集、归纳、整理, 进而形成具有庞大信息数据的体系。随着社会经济的快速发展, 科学技术的不断创新, 大数据与传统的数据分析存在明显的差异, 这主要表现在数据信息量、数据结构、数据分析的方式等几个方面, 数据的储存量变大了, 传统的数据存储空间已经不能满足现在信息量, 在数据信息量增加的过程中, 数据处理模式也在不断地变化中, 将大量的数据作为新的资源来源方式, 大数据分析具有更强的灵活性, 可以因时而变。

1.2 大数据特点

大数据具有较强的规模性、数据处理速度高、处理方式多样等特点, 迅速成为信息领域颠覆性技术之一。数据处理量大、数据种类多、价值密度低、数据处理速度快是大数据分析的主要优点, 这不仅改变了人们生活以及工作的方式, 也推动了各行各业的发展。大数据时代有三大转变:

(1) 可以分析更多的数据, 可以处理和某个特别现象相关的所有数据, 通过更高的精确性能够发现更多的细节。

(2) 大量的数据分析处理, 适当忽略微观层面的精确度, 能够带来更佳的分析结果和更大的利益价值。

(3) 无需挖掘因果关系, 而是更注重事物之间的相关关系。大数据打破了传统数据的边界, 改变了以往大多数依靠行业内部业务数据的局面, 充分利用了数据资源, 不仅包括企业内部数据, 也包括企业外部数据, 尤其是和消费者相关的数据。

2 大数据在石油行业的应用场景

在石油行业的上游和中游应用大数据分析结构化及非结构化数据具有十分重要的意义。对石油开采过程中产生的数据多维度的深入分析, 将有助于快速发现石油、降低生产成本、提高钻井安全性、增大产量等。大数据将在下列石油生产领域应用发挥巨大作用。

勘探:通过应用先进的数据, 比如模式识别, 在地震采集过程中得到一个更全面的数据集, 地质学家可以识别在使用大数据之前可能被忽略了的潜在的富有成效的地震数据。

开发:大数据分析可以帮助石油天然气公司评估生产过程。这些分析涉及到地理空间信息、信息推送、油气信息报道等可以让集团可以更智能的开发油气水井、更富有竞争力的领域发挥大数据分析的作用。

钻井:除了基于有限的数据来进行监控和告警, 大数据分析可以使用真正的实时“钻井大数据”来基于多个条件异常或预测钻井成功的可能性。

生产作业:提高采收率是很多石油天然气生产公司的目标。大数据可以同时使用地震、钻井和生产数据, 将储层的变化情况实时的提供给储层分析工程师, 为生产人员提供举升方法改造方案。大数据也可以用来引导页岩气压裂。

维护:预测性维护对于油气田公司来说已经不是一个新的概念了。但是它并没有得到应有的关注和预算。在上游生产过程中, 如果压力、体积、温度可以被一起采集和分析, 并且与以往的设备损坏历史数据进行比较, 那么预测就是可以自动化的。在中游输油管道的情况也是类似的。这种方法在需要探测故障, 尤其是故障会影响健康, 安全和环境的时候显得尤为必要。

3 典型应用

3.1 智能化井场

在井口部署单井综合测控柜和压力、温度等多种传感器, 实现单井生产参数的采集以及对抽油机的远程启停及变频控制。井场所有数据上传至中心控制室的采集服务器显示、存储及应用, 从而实现对单井生产全过程、全天候的远程管理, 实现无人值守, 井场只需要定期巡检。单井综合测控柜主要针对油井、气井、水井等目标实施智能监测和远程控制。本产品主要实现油井采集示功图、载荷、回压、井口温度、电流、电压有效值、有功功率、无功功率、功率因数、上下冲程最大电流值、上下冲程功率、平衡率、日用电量、累计电量、冲次、系统状态与采集时间等数据;远程控制抽油机的启停。另外, 在每座井场内边缘树立监控杆, 杆上安装红外一体化摄像机和无线传输设备, 实现井场视频图像的采集;监控中心通过视频服务器实现井场视频图像的远程监视、管理、储存和控制。

3.2 油气生产物联网

油气生产物联网是通过部署井场数据采集、远程控制、智能视频监控系统, 实现对各类生产井、站、管线的全过程、全天候、全业务、全覆盖, 达到对井场自动感知、无人值守、重点巡查、组织维修的效果, 实现提高劳动生产效率和安全生产的目标;对参与油气生产的各类资源 (人员、设备、仪表等) 形成实时管控;构建扁平化综合管理平台, 减少管理层级, 应用先进、综合技术手段提高管理实效。目前, 华北油田油气生产物联网已建成了近2000口油井的数字油田;在山西晋城成功建成了我国第一个数字化、规模化煤层气田;在长庆苏里格气田建成了新一代天然气生产自动化测控系统, 实现了远程24小时不间断对各类井站进行可视化监控、生产数据自动录入、远程设备控制、报表自动生成、远程批量启停单井、自动巡井等一系列操作及管理。

随着信息通信技术发展积极累至今, 大数据作为新发明和新资源, 正通过不断的技术创新和发展, 让我们有机会更加深入走进信息社会, 正在逐渐改变我们的生活方式和思维模式, 其所带来的巨大价值正被人们认可, 而且在社会整体建设中的信息孤岛现象将大幅消减, 数据共享将成为可能, 大数据的发展, 有利于提高科学决策能力, 有利于管理模式的改变, 有利于节约社会资源和成本, 提升公共服务保障能力。

摘要:智慧油田是在数字油田的基础上, 以大数据技术为核心, 以降低成本, 安全、环保地提升油气产量为目标, 实现油田的勘探开发、油气生产、资产管理、流程再造等环节的科学化、透明化及智能化。

关键词:智慧油田,大数据,应用

参考文献

[1]李金诺.浅谈石油行业大数据的发展趋势[J].价值工程, 2013 (29) .

[2]宋亚奇, 周国亮, 朱水利.智能电网大数据处理技术现状与挑战[J].电网技术, 2013 (04) :927-935.

上一篇:实验项目和方法下一篇:宗教艺术的宗教批判