大数据及可信技术

2024-10-27

大数据及可信技术(精选12篇)

大数据及可信技术 篇1

0 引言

随着互联网、物联网、云计算、三网融合等IT与通信新技术的迅速发展,人类社会的数据规模和种类正以史无前例的速度扩张,大数据时代正式来临。大数据规模大、类型多样、生成快速,且具有潜在价值,对科技进步和人类社会发展具有重大意义。

1 大数据概念

目前,虽然大数据的重要性已经得到各界的一致认同,但大数据是一个比较抽象的概念,关于大数据的定义尚未形成统一定论。一般意义上,大数据是指无法在有限时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合[1]。具体定义有:1全球最大的电子商务公司亚马逊的大数据科学家John Rauser认为:大数据是任何超过了一台计算机处理能力的数据量[2];2Informatica中国区首席产品顾问但彬认为:“大数据”是“海量数据”+复杂类型的数据[3];3维基百科将大数据定义为:利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集[4];4全球著名咨询机构麦肯锡公司在报告《Big data:The next frontier for innovation,competition,and productivity》中给出的大数据定义是:大数据是指其大小超出常规的数据库工具获取、存储、管理和分析能力的数据集[2]。但同时也指出,所谓的大数据,并不是说其数据集要一定超过特定TB值;5IDC(国际数据公司)在发布的报告中将大数据定义为:大数据技术描述了新一代的技术和架构体系,通过高速采集、发现或分析,提取各种各样的大量数据的经济价值[2]。

第5种定义中总结了大数据的4V特征:

(1)Volume(体量浩大)。在数据爆炸时代,数据单位已无法用传统的TB来衡量,而是用PB、EB或者ZB作为大数据的计量单位。导致数据激增的原因很多,主要是互联网络的广泛使用使人类快速进入信息时代,数据疯狂增长,必然使得数据处理量显著增多。

(2)Variety(类型繁多)。以往的数据尽管体量巨大,但一般都是比较容易处理的结构化数据。当前,随着互联网络与传感器的飞速发展,不仅包含传统的结构化数据,还包括音频、视频、网页、文本等半结构和非结构化数据。

(3)Velocity(生成快速)。数据量的疯狂增长,使得数据处理的速度加快,这也是大数据区别于以往海量数据处理的重要特征。面临各种信息,如何把握数据的时效性,快速地从各种数据类型中获取高价值的信息,是大数据时代处理的基本要求。

(4)Value(价值巨大但密度很低)。大数据为了获得事物的全部细节,会直接采用原始数据,导致存在大量的无用信息,使得人们获取有用信息的难度加大,就像沙子淘金。

目前,对于大数据的4V定义是目前较为统一的认识。其特有的4种特征使得大数据的概念与以往“海量数据”和“超大规模数据”有着本质区别,除了用来描述数据之“大”,还指出了大数据的意义和必要性,即如何从体量巨大、类型繁多、生成快速的数据集中挖掘价值。

2 大数据研究现状

尽管大数据的概念没有一个统一的定论,但并不影响各领域对大数据的研究。国际上,就学术界而言,《Nature》于2008年推出“big data”专刊,从互联网技术、超级计算、生物医学等方面对大数据进行了研究[5];《Science》于2011年推出专刊“Dealing with data”,讨论了大数据时代所面临的机遇与挑战及大数据研究的重要性[6];欧洲信息学与数学研究协会会刊ERCIM News于2012年4月推出专刊“Big Data”,讨论了大数据时代下关于数据管理、数据密集型研究的创新技术等问题[7]。就IT产业界而言,IBM、Google、亚马逊、Facebook等国际知名企业相继推出了各自的大数据产品,为企业赢得了巨大的经济效益,是大数据的主要推动者。就政府方面,美国于2012年3月公布了旨在提高和改进人们从海量信息数据中获取信息能力的“大数据研发计划”,并认为其是“未来发展的新石油”[8]。在此之后,英国、日本及欧盟等国家也积极研究和发展大数据并有了相应的战略举措。纵观国际形势,对大数据的研究与应用已成为各国政府和企业的研究重点及重要战略布局方向,在未来世界,竞争核心必将转为大数据的竞争。

客观来讲,国内大数据的研究水平与国外尚存在一定差距。在学术界,香山科学会议在2012年5月组织的主题为“大数据科学与工程———一门新兴的交叉学科”的会议中,通过对大数据关系网络的研究而全面地研究了大数据[9]。中国计算机学会青年计算机科技论坛(CCF YOC-SEF)在2012年6月举办了学术报告会“大数据时代,智谋未来”[8],会议中分别就大数据时代的数据挖掘、大数据体系架构理论、大数据基础、大数据安全、大数据平台开发和大数据现实案例应用,分层次展开了讨论。在IT产业界,国内企业百度、阿里巴巴、腾讯等已从不同角度进行数据挖掘,以此改善自身服务,创造更大的商业价值,成为国内大数据企业的代表。政府方面,我国于2012年批复了总投资额为几百亿的“十二·五国家政务信息化建设工程规划”,且同年国务院在广东、上海、北京等地启动了大数据研发进程,构建了大数据产业链,以此来推动商业企业加快信息基础设施演进升级。2014年下半年起,总理李克强也屡次提出了“大数据观”,提倡在疾病防治、灾害预防、社会保障、电子政务等领域开展大数据应用示范[10]。

目前,大数据已在通信、医疗、农业、金融、气象、交通等方面广泛应用,并带来了巨大的社会价值和产业空间。总体而言,大数据背后隐藏着巨大价值,使得大数据研究成为社会发展和技术进步的迫切需要。

3 大数据关键技术

为了高效实时地处理巨大的数据问题,大数据技术的发展应运而生。所谓大数据技术,即针对数据集合来进行一系列收集、存储、管理、处理、分析、共享和可视化等操作的技术[11]。目前,大数据技术涉及大数据采集、大数据存储与管理、大数据计算模式与系统、大数据分析与挖掘和大数据隐私与安全等方面[12,13,14]。

3.1 大数据采集

大数据具有规模大和数据源多样化等特点,为获取高质量数据,可将大数据采集过程分为数据清洗、数据转换和数据集成3个环节。数据清洗是指通过检测除去数据中的明显错误和不一致来达到减少人工干预和用户编程量的目的;数据转换是指按照已经设计好的规则对清洗后的数据进行转换来达到统一异构数据格式的目的;数据集成是指为后继流程提供统一且高质量的数据集合来达到解决“信息孤岛”现象的目的。目前常用的数据采集方法有传感器收取、手机电子渠道、传统搜索引擎如百度和谷歌等,以及条形码技术等。

3.2 大数据存储与管理

针对大数据的规模性,为了降低存储成本,并行地处理数据,提高数据处理能力,采用分布式数据存储管理技术,主要存储模式为冗余存储模式,即将文件块复制存储在几个不同的存储节点上。比较有名的分布式存储技术是Google的GFS[15](google File System)和Hadoop的HDFS[16](Hadoop Distributed File System),其中,HDFS是GFS的开源实现。为了达到方便管理数据的目的,大数据不再采用传统的单表数据存储结构,而是采用由多维表组成的按列存储的分布式实时数据管理系统来组织和管理数据,比较有代表性的是Google的Big Table和Hadoop的HBase,其中,Big Table基于GFS,HBase基于HDFS。

3.3 大数据计算模式与系统

大数据计算模式指根据大数据的不同数据特征和计算特征,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象或模型[17]。大数据计算模式多而复杂,比如流式计算、批处理计算、迭代计算和图计算等[13],其中,由于批处理计算的MapReduce技术具有扩展性和可用性,适合海量且多种类型数据的混合处理,因此,大数据计算通常采用此技术。MapReduce[18,19]采用“分而治之”的思想,首先将一个大而重的数据任务分解为一系列小而轻且相互独立的子任务,然后将这些子任务分发到平台的各节点并行执行,最后将各节点的执行结果汇总得到最终结果,完成对海量数据的并行计算。

3.4 大数据分析与挖掘

为了从体量巨大、类型繁多、生成快速的大数据集中寻找出更高的价值,需要大数据分析与挖掘技术帮助理解数据的语义,来提高数据的质量和可信度。由于大数据时代数据的复杂特征,传统的数据分析技术如数据挖掘、机器学习、统计分析已无法满足大数据分析需求,有待进一步研究改进。目前,关键的大数据分析和挖掘技术是云计算技术[20]和可视化技术[21]。云计算技术中的分布式文件系统为大数据底层存储架构提供支撑,基于分布式文件系统构建的分布式数据库通过快捷管理数据的方式来提高数据的访问速度,同时,通过各种并行分析技术在一个开源平台上处理复杂数据,最终通过采用各种可视化技术将数据处理结果直观清晰地呈现出来,帮助用户更简单方便地从复杂的数据中得到新的发现和收获。

3.5 大数据与隐私安全

大数据潜在的巨大价值,吸引着无数潜在的攻击者,同时在社交网络的快速发展下,人们的隐私安全更是受到威胁,甚至影响到国家安全。鉴于此,各界人士着手大数据安全与隐私保护技术研究并取得了一定成果。现有的大数据安全与隐私保护技术有能对数据所有者进行匿名化的数据发布匿名保护技术、能隐藏用户信息和用户间关系的社交网络匿名保护技术、能确定数据来源的数据溯源技术、能够实现用户授权和简化权限管理的角色挖掘技术和将标识信息嵌入数据载体内部的数据水印技术等[22,23]。

4 大数据面临的问题及应对策略

随着大数据研究的深入,其将面临各种问题,如何解决这些问题是大数据面临的进一步挑战和机遇。目前,大数据研究中面临的主要问题如下:

(1)数据采集问题。数据全部采用原始数据,存在大量无用或者直接错误的信息,使得在众多量大且种类繁多的数据中进行数据清洗,数据转换工作变得繁琐,数据采集效率低下。同时,在采集过程中可能会因为进行访问和操作的用户人数过多使得并发的访问量在峰值时达到上百万,进而使得采集端需要部署大量的数据库作为支撑。

(2)数据存储问题。数据量的不断增大以及数据类型的多样性,要求数据存储设备必须具备很强的扩展性和可用性。然而,目前针对类型复杂的数据如视频、音频等半结构化数据和非结构化数据还无法实现有效存储,其存储能力极差,远远不及数据增长能力。

(3)数据处理问题。数据规模的不断增大,使得数据分析处理的能力减弱,不满足大数据时代对信息处理的时效性。同时,数据格式的不同使得数据分析处理的方法不同,给大数据时代对信息的处理带来了一定挑战。

(4)数据安全问题。尽管已有相关安全技术来保护数据的安全性,但数据泄露问题仍然不可避免,存在很大安全隐患。同时,随着潜在攻击者的不断钻研探索,其技术水平的不断提高也将对数据安全造成很大威胁。

(5)人才匮乏问题。大数据知识涉及面广,对人才的要求高,基本包含各领域的高级专业人才。2014年12月,在我国大数据产业发展调查中有专家表示,我国大数据行业不但缺乏高端人才,而且缺乏从事基础性工作的人才。由此可见,在未来发展中,大数据人才紧缺问题会尤为突出。

解决大数据研究中的问题,需采取以下应对策略:1注重人才培养,为适应大数据时代提供创新型复合型优秀专业人员,进一步完善大数据人才体系;2注重大数据基础科学研究,建立科研平台,形成大数据共享联盟,吸引各界人才积极参与进来,共同为大数据研究提供理论支持和技术支持;3注重新技术研发,积极探索研究大数据领域中的新型技术从而保障信息安全,巩固国家安全保障体系;4注重健全法律体系,针对大数据领域设立特有法律,通过法律效力来保障大数据研究中遇到的相关问题。

5 结语

大数据时代的来临给人们的世界带来了巨大变化,大数据已经成为当今各领域研究的热点,大数据技术的发展也使得人们的生活更加便捷优质。但其同时也带来了诸多问题,尽管已经有相应措施,但不够完善,还待进一步深入研究解决。在对大数据的不断探索研究下,未来大数据必将带来更多价值。

摘要:在介绍大数据基本概念及特征的基础上,分析了大数据国内外研究现状及大数据技术,并针对大数据面临的相关问题提出了应对策略。最后,对大数据技术发展进行了总结与展望。

关键词:大数据,大数据技术,数据挖掘

大数据及可信技术 篇2

大数据和移动互联网技术的应用已渗透到人们生活的方方面面,极大地改变了人们的思维方式和商业模式,从而对政治、经济、社会、科技等各个层面产生了深远影响,因此大数据才会被著名预言家维克托·迈尔-舍恩伯格称为“又一次开启时代转型的重大技术革命”。

大数据及移动互联网技术在我国电力行业的应用研究起步较晚,但是目前已初见成效,其应用成果电费回收工作中表现尤为突出。一方面,互联网的应用促进了用户电量“掌上查询”、“线上交费”等活动的实现,在一定程度上打破了电费回收的时空界限。另一方面,大数据应用,为电网企业建立用户属性匹配的信息传递机制和风险防范机制提供了重要技术支撑。

电费回收存在的问题作为电力发、输、配、售、用供应链中输配电环节的首要载体,电网企业在发电企业和用户间起着重要的桥梁作用,而电费回收作为电网企业首要的利润来源,关系着电网企业的运营状况和经营风险。当前电费回收管理工作聚焦在客户服务、用户本身、电量电费核算、财务账面核算等维度,对行业属性、区域特性、经济周期及气候、地理环境等维度的考虑甚少,从而导致电费回收预测、回收措施、风险预警等各项工作计算不精确、实施不到位,造成电费回收工作遭遇重重困难、举步维艰的局面。目前,电费回收管理工作存在着一些亟待解决的问题。

一是当前电网企业对电力用户的分析局限于用户自身属性、电量电费计算、财务核算等微观层面,对于行业特性、区域经济等中观层面和经济周期规律、国家政策、气候环境等宏观层面缺乏全面调研和深入分析,进而导致电网企业对用户属性及其用电风险了解不全面、把握不准确。体现在电费回收上,就是电网企业常常不能准确预测某些潜在用户欠费或故意延迟交费的风险,从而不能形成辐射全网的风险防范预案。

二是部分地区电网营业厅网点数量少,电费回收互联化水平不高,尚未形成覆盖全网的信息连接机制,用户缴费不便。省、地、县各级电网企业间缺乏电费回收纵向一体化管控平台,部分电网公司数据传输不到位,难以为电费回收管理工作的整体规划和应急调整提供决策参考。此外,部分偏远地区信息传递不到位,用户未能及时了解自身用电情况及欠费信息,从而忽略了电费的及时交纳,影响自身信用。

三是“互联网+”的`服务模式和“先交费、后用电”的预付费理念需要进一步做大做强。目前“互联网+”的服务模式和“先交费、后用电”应用虽然取得了一定的成效,但是基于省电网公司企业用户数量众多、属性复杂,供电区域大范围广、部分区域信息闭塞、互联网化程度低等特征,需要电网公司进一步推进“互联网+”服务模式的区域辐射面,扩大此模式的业务覆盖范围,对部分用户加强“先交费、后用电”模式的实施力度。四是征信系统平台建设目前局限于电网企业内部,缺乏与银行等外部单位的协同开发和深化研究。对此,电网公司应积极探索加强外部协作的有效方式,抓住“电网企业、银行、电力用户”三方合作的契机,及时推进征信服务平台试点工作的深化和完善。

推进电费回收信息化管理一是基于大数据分析技术,建立电费回收风险预警机制。加快电费回收管理工作的信息化建设,推进省、地、县各级电网公司电费回收管理工作的信息互联,加强对电费回收工作的整体把控。建立电网公司与用户的信息联通,实时掌握用户的电费交纳情况和欠费情况。在客户内外部信息采集上,通过采集客户身份、用电情况、电力合同容量、用电负荷类型、出账周期、缴费情况、违章用电历史以及罚款资金等用电相关的业务信息,和采集包括客户的银行贷款信息、纳税信息、企业法人的个人征信信息等外部数据。

客户欠费数据分析模型制定,使用大数据分布式计算技术,通过先对历史和现在电费回收风险客户进行分析,归纳总结电费回收风险客户的特征信息,并以此建立电费回收风险预测模型,建立电费回收风险提示预警系统,对可能存在电费回收风险的客户提前进行标识,反馈至电网工作人员。

客户欠费风险预案制定方面,对不同类型和特性的客户提前采取差异化的电费回收策略和预防措施,保障电网企业的电费回收,有效控制电网企业的经营风险。同时电网企业应主动了解客户困难,发挥专业优势,通过为客户提供节能改造、能效管理等节能服务,指导客户合理降低用电成本,降低电网企业电费回收风险。利用“大云物移”技术构建供电服务新模式电网公司在将“互联网+”思维与电力营销深度融合的基础上,结合“大云物移”技术,探索构建供电服务和电费回收管理新模式。

首先,拓展多元化的缴费网点。电网企业可尝试与商场、电信营业厅等实体缴费网点合作,让客户可以在合作商家的网点缴纳电费,提高客户现场缴费效率。

其次,拓展移动客户端的缴费渠道。拓展掌上电力宝、手机微信客户端、电力APP、电力公众号、支付宝等电子化服务渠道,为全网用户提供方便快捷的在线查阅等服务,满足客户电费缴纳、用电报装申请、电量查询等相关业务在线办理的需求,保证客户可以随时随地享受规范高效的服务。同时应注意加强对在线服务和业务办理的保密措施,防止客户信息泄露,对客户造成伤害,并给电力公司声誉带来负面影响。

“互联网+ 电费回收管理”推行客户预购电制度建立并推行客户预购电制度。基于信息化电力服务,在省域范围内向用户推广并执行“先交费、后用电”的预付费理念和制度,全面推行高压预购电方式,积极推广低压远程费控应用。

基于互联网和大数据,研究对客户用电信息的自动采集和综合分析技术,实现抄表、收费、监控三位一体,通过流量监测和数据分析,及时发现偷电漏电和违章用电现象,合理规避电量风险,确保电费“颗粒归仓”。

同时,电力企业应创新外部协作管理模式,将全网用户交费信息记录纳入相关银行征信系统,利用大数据分析技术对电力用户信用进行综合分析,科学评级,打造电力用户电费征信服务平台。

利用电力用户电费征信服务平台,电网企业可对电费回收工作进行统筹规划和重点布局,针对电力“老赖”用户,应当提前研究和强化相关电费征收措施,针对信用等级较高的用户,应对其增加信息推送服务和其他增值服务,促成供用双赢局面。

以统计独立保证数据可信 篇3

第一季度GDP数据公布之后,一如既往,海外对此数据的真实性颇有质疑。就在这个当口,监察部、人力资源和社会保障部和国家统计局三部门联合公布《统计违法违纪行为处分规定》。此规定旨在确保统计数据的真实性,但这恐怕只能算治标之策。

恐怕不得不承认,目前国内外舆论对各级政府官方公布的统计数据的怀疑。不是技术性的,而是一种制度性不信任。国内外经济学家与国内普通民众普遍认为,中国目前的统计制度设计存在的缺陷,导致其内部缺乏一种保证数据真实性的机制,诱导统计造假的力量倒是十分强大。问题的根源是在设计制度时,没有弄清统计的性质,甚至更糟糕,扭曲了统计的性质。

从理论上说,统计工作是政府所有工作中最为特殊的。其他部门,包括立法、司法或行政部门,或者是针对民众做某些事情,或者要求、禁止民众干某些事,或者为民众做某些好事。唯独统计工作不需要民众做任何事情,也不给民众带来任何好处,它只是试图了解社会的现状是什么样的。统计机构是社会的旁观者,它站在社会之外,试图测量经济、文化、社会等各方面的状态。

从这个角度看,统计更像一个学术机构,像一个数据调查机构。事实上,在法治、市场体制相对健全的国家,统计部门尽管是由立法机构通过制定专门法律设立的,但一般都属于政府中比较特殊的一种机构类型——“独立机构(agency)”。法律保障它们的独立性,它们的日常工作不受立法、行政等部门的干预。它们自己独立地编制指标,采集数据,计算数据,公布数据。向全社会公开而不只是向政府提供。对于这样的统计部门来说,唯一的职责就是发布可信的数据,它们也没有动机去造假。这种制度让人们对它们公布出来的数据保持信赖。

反观中国,统计部门恰恰缺乏相对于行政权力的独立性。中国各级统计机关本身就是各级政府行政部门的一个分支机构,而不被当成一个独立的专业机构对待。它的负责人由行政首长来任命,其工作人员也被当成一般官员、公务员对待。其他部门的官员会被派遣到统计机关,统计机关的官员、公务员也有希望升迁到更有权力的其他部门。

更糟糕的是,当代中国实行一种指标治国制度,也即,上级政府通常会根据统计数字来衡量下级地方、部门负责官员的政绩,一般是看一个地方、部门的GDP增长速度或税收增長速度或招商引资成绩,最近几年也增加了其他一些量化指标。这样,在中国,统计数字的功能就不再只是衡量经济社会现状,而具有了极为重要的政治功能,即所谓“数字出官”。由此也就诱导出“官出数字”现象:地方官员不得不十分重视统计数字,而他恰好又有权通过种种途径干预自己管辖下的统计机关。

在这种制度环境下,统计数字弄虚作假几乎就是不可避免的了。从50年代的大跃进,到今天各地GDP统计数字总是大大高于全国汇总后的GDP增长速度,可以说,地方各级政府的虚假统计数字一直困扰着决策部门,也困扰着上级统计部门。难怪海内外研究人员、国内民众对官方公布的数字无法给予充分信赖,而国家统计部门也不得不再三出面解释。至于惩罚统计违纪行为,也不可能从根本上解决问题。

依据政治理论及各国经验,提高中国统计数字可信度之唯一办法是增强统计机关相对于行政负责人的独立性。为此,首先需要考虑一点:是否需要自上而下在各级政府内部统统设立统计机关?比如,市级政府、县级政府设立统计机关,有多大用处?这些层级的政府根本不需要制定宏观经济政策,企业所需要的数据由民间调查机构搜集整理即可满足。

即便要在全国各地设立统计机关,也需要改变其设立原则,从目前的统计机关地方化,转型为统计机关中央化。目前的地方统计机关受制于地方政府,其统计数据生产过程是地方化的,这是统计造假的制度根源。从其性质来看,统计工作完全可以集中在中央政府层面来进行。由国家统计局统辖若干区域和行业性、专业性统计调查中心,即可完成全国经济社会数据的调查、统计任务。它不必追求指标体系的大而全,能够在重要指标上保持可信度、连续性,就足够了。

大数据的概念、技术及应用 篇4

关键词:大数据,信息技术,数据处理

大大数数据据的的概概念念、技术及应用

20世纪中叶计算机的诞生标志着电子时代正式开始, 从此人类社会开始生产并存储各类型的数据。经过数次计算机技术革命, 单位面积所能存储的数据量大大提高。近年来, 由于WEB2.0应用的全面爆发, 网络参与者同时也成了网络信息的制造者, 由WEB2.0带来的大规模非结构化数据开始呈现出几何增长。因此, 麦肯锡公司在2011年的报告《Big Data:the Next Frontier for Innovation》[1]中, 对这种密集型数据爆炸的现象成为“大数据”时代的到来。

1 大数据的概念

大数据的概念并不是凭空出现的, 它的前身是海量数据。但两者之间有所区别。海量数据强调了数据量的规模之大, 并没有对其特性进行定义。而大数据的概念包含了大数据的体积、传播速率、特征等内容。虽然截至目前还没有对大数据有统一的定义, 但被广泛接受的定义为:大数据是无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合[2]。大数据的特点一般归纳为四点:一是数据总量大, 目前大数据的最小单位一般被认为是10~20TB的量级;二是数据类型多, 包括了结构化、非结构化和半结构化数据;三是数据的价值密度很低;四是数据产生和处理的速度非常快。这四个特点又被称作大数据的4 V理念, 即:Volume, Variety, Value, Velocity[3]。

2 大数据的技术

依据大数据生命周期的不同阶段, 可以将与大数据处理相关的技术分为相应的三个方面:

2.1 大数据存储

从海量数据时代开始, 大规模数据的长期保存、数据迁移一直都是研究的重点。从20世纪90年代末至今, 数据存储始终是依据数据量大小的不断变化和不断优化向前发展的。其中主要有:DAS (Direct Attached Storage) , 直接外挂存储;NAS (Network Attached Storage) , 网络附加存储;SAN (Storage Area Network) , 存储域网络和SAN IP等存储方式[4]。这几种存储方式虽然是不同时代的产物, 但各自的优缺点都十分鲜明, 数据中心往往是根据自身的服务器数量和要处理的数据对象进行选择。

此外, 这两年数据存储的虚拟化从研究走向现实。所谓虚拟化, 就是将原有的服务器进行软件虚拟化, 将其划分为若干个独立的服务空间, 如此可以在一台服务器上提供多种存储服务, 大大提高了存储效率, 节约存储成本, 是异构数据平台的最佳选择。从技术角度来讲, 虚拟化可以分为存储虚拟化和网络虚拟化, 网络虚拟化是存储虚拟化的辅助, 能够大幅度提升数据中心的网络利用率和传输速率。目前IBM、浪潮、思科等公司纷纷发力虚拟化市场, 可以预见虚拟化会成为未来大数据存储的一个主流技术。

2.2 大数据挖掘

在大数据的处理技术中, 超大规模的数据挖掘一直是难点, 也是重点。面对上百TB, 甚至PB级别的异构数据, 常规的处理工具往往难以担当重任。需要考虑到的是大数据是个不断生长的有机体, 因此在挖掘过程中还要考虑到未来数据继续增长所带来的影响。

因此, 大数据的挖掘需要采用分布式挖掘和云计算技术。Google公司一直是分布式挖掘技术的领导者, 它研发了Map Reduce分布式挖掘工具[5], 英特尔公司在此基础上开发了Hadoop分布式挖掘工具。这两个工具都具有高效、高扩展、高可靠性和高容错率的特点, 并提供免费版本, 适用于各种类型的大数据挖掘。

2.3 大数据分析

从内容来说, 大数据的分析分为技术和方法两种类型。从技术上讲, 主要是分布式的数据分析和非结构化数据处理等。从方法上讲, 主要是利用常用的数理统计方法来进行数据分析, 例如使用可视化的数据分析工具。但两者是一个有机的整体。大数据处理的最终目的是为了将数据之间的关系以可视化的方式呈现在用户面前, 包括了处理的全部过程和展现的过程。在数据分析过程中, 不仅仅是需要计算机进行自动化的分析, 更需要人工进行数据选择和参数的设定, 两个是辩证的关系。

随着大数据行业的兴起, 产生了一个新的职业, 被称作数据科学, 而从事该行业的人员被称作数据科学家。这类科学家的一个特点就是能够艺术性地将数据进行可视化分析, 简单明了而且能够展现出数据之间的关联关系。

3 大数据的应用

麦肯锡在大数据的研究报告中指出, 大数据的应用已经渗透到每一个行业和业务职能领域, 逐渐成为了重要的生产因素[6]。按照专业领域划分, 信息技术、互联网行业、商业、遥感探测已经开始应用大数据技术来进行研究和生产效益;生物信息技术、科研情报所、图书情报领域已经对大数据展开了研究, 并进行了规划;其他专业和行业对大数据可能仍处于了解阶段, 但大数据的浪潮很快就会波及大部分的行业领域。

从大数据的应用效果来看, 总体趋势与上述的三类专业呈现出一致性。百度、淘宝等公司作为信息技术、互联网和商业领域的杰出代表, 已经对大数据开始了深度应用, 马云在卸任阿里巴巴CEO时更是阐述了大数据时代将改变互联网商业的面貌, 谁提前开始大数据的应用, 就可以获得未来行业发展的优势。大数据的普及需要一个过程, 首先从重点应用行业开始, 例如信息技术领域行业, 逐渐扩展到其他行业。美国已经由白宫颁布了大数据开发与利用的国家级战略, 由美国国防部和国土安全局牵头开展全面推广大数据的应用。我国目前对大数据的研究并不多, 应用更是缺乏。如果要推动大数据的应用, 应当由国家层面进行大数据的平台建设。在今年的国家自然科学基金和社会科学基金的课题指南中, 已经提出了很多设计大数据的课题, 相信在未来几年内国家会对大数据的研究、开发与利用提供政策和资金支持。

总而言之, 大数据的技术与应用还是处于起步阶段, 其应用的前景不可估量。各个行业应当把握时代脉搏, 充分认识到大数据所能带来的革命性改变, 只有这样才能够保持创新与进步, 从而站在行业的

参考文献

[1]Manyika J, McKinsey Global Insti tute, Chui M, et al.Big data:The next fron tier for innovation, competition, and produc tivity[M].McKinsey Global Institute, 2011.

[2]卢胜军, 王忠军, 栗琳.赛博空间与大数据双重视角下的钱学森情报思想[J].情报理论与实践, 2013, 36 (004) :1-5.

[3]Hirt C W, Nichols B D.Volume of fluid (VOF) method for the dynamics of free boundaries[J].Journal of computational physics, 1981, 39 (1) :201-225.

[4]Chirillo J, Blaul S.Storage Security:Protecting, SANs, NAS and DAS[M].John Wiley&Sons, Inc., 2002.

[5]Dean J, Ghemawat S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM, 2008, 51 (1) :107-113.

大数据关键技术 篇5

大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。

大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。

一、大数据采集技术

数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型,开发数据质量技术。

大数据采集一般分为大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层:提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。

二、大数据预处理技术

主要完成对已接收数据的辨析、抽取、清洗等操作。1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。

三、大数据存储及管理技术

大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。

开发新型数据库技术,数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中,非关系型数据库主要指的是NoSQL数据库,分为:键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。

开发大数据安全技术。改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。

四、大数据分析及挖掘技术

大数据分析技术。改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘涉及的技术方法很多,有多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。

从挖掘任务和挖掘方法的角度,着重突破:1.可视化分析。数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。2.数据挖掘算法。图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据,挖掘价值。这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。3.预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。4.语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。5.数据质量和数据管理。数据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。

六、大数据展现与应用技术

大数据: 不是技术难题 篇6

90%以上的企业可以用他们90%的现有需求和技术、 工具来解决现在的大数据问题。 企业并不是缺乏解决这些大数据难题的工具、 技术甚至人才 , 他们真正面临的问题是, 如何在公司建立一个和大数据相匹配的文化与流程。

虽然眼下十分火热, 然而 “大数据” 概念并没有明确的范畴, 对大数据的定义只是相对于当前可用的技术和资源而言的,因此, 某一个企业或行业所认为的大数据, 可能对于另一个企业或行业就不再是大数据, 对于大的电子商务企业, 它们眼中的大数据要比小厂商眼里的大数据 “大”得多; 同时, 大数据也会持续地演进, 现在被我们认为庞大和恐怖的数据在10年之后只是小事一桩, 但那时候将会有那个时代的新数据源。 然而, 面对这些源源不断出现的 “大数据” , 哪些事情是希望从中发掘机会的企业需要注意的?

新数据源是核心

我认为, 大数据的三个 “V” 特征,即Volume (规模) , Variety (种类) , 和Velocity (高速度) , 这些只是大数据的第二位要素。 大数据真正重要的 “V” 是Value(价值) 。

那么是什么带来了 大数据的价值?

答案是新的数据源。

过去, 获取网络浏览数据的技术门槛和成本都很高, 而现在获取这些数据已经很容易, 企业可以通过了解消费者浏览数据中展示的偏好以及未来购买倾向, 来给他们推出最合适的折扣优惠。这都是新数据源的力量,这才是大数据的价值核心。

但在我和客户的沟通实践中, 常常发现: 大多数时候, 人们都将精力投注在如何在 “大数据” 时代优化处理模型, 或者升级技术装备以希求能提升分析的效果。

但是我认为, 真正能提升分析效果的方式, 是搜集并加入完全崭新的信息源。一旦新的、 和从前不同的数据源出现并且能够被收集, 你最好将自己的注意力转到这些新的数据上去——比起你将精力放在模型优化上, 新的数据源将能带来更大的收获。 因此, 在大数据时代, 我的建议就是, 将你的精力放到不断寻求新的数据源上吧。 如今很多企业都会有很多新的数据源, 如果正确使用的话, 它们会带给企业非常有竞争力的优势。

小步快跑式

对大数据的另一个误解是, “大数据其实就是一个技术问题” 。

事实上90%以上的企业可以用他们90%的现有需求和技术、 工具来解决现在的大数据问题。 企业并不是缺乏解决这些大数据难题的工具、 技术甚至人才, 他们真正面临的问题是, 如何在公司建立一个和大数据相匹配的文化与流程, 是缺乏对技术做投资的公司文化, 他们的挑战是做出一个商业案例来证明技术升级是有价值的。

为了促进公司文化的转变, 我更建议一种 “小步快跑” 的运作方式, 即在处理新数据源的过程中, 企业内部的分析专家们应该积极寻找代价小、 见效快的方法,不断向企业展示一些有价值的东西, 来让人们保持对新数据源处理过程的兴趣。 一个跨部门的大数据团队一定不能在组建一年之后, 还对外宣称他们 “正在试图搞明白” , 要不时地迸发出想法, 不管这一想法多么微小, 然后迅速采取行动。

另外一个建议是, 建立类似“创新中心” 这样的地方, 就是公司内部拿出少量的预算、 人力资源、 技术资源来做一些有一定未知风险的小实验, 以小预算做试点, 便于企业快速出击。

大数据及可信技术 篇7

随着互联网技术高速发展,大数据云计算在各行各业的广泛应用,信息数据急剧增长,信息存储容量扩大,数据存储遇到的风险加大。虽然人们对信息数据、数据库安全高度重视,但是一旦系统遭受房屋损坏、火灾、停电故障、系统破坏等灾难,就会产生严重后果。人们普遍认为只要做好数据安全备份,就能保证数据安全,保障系统正常运行。然而只有数据备份并不能达到应对灾难的效果,备份好的数据还可能会因灾难造成数据的损坏,所以应该考虑如何利用灾备技术来提升数据容灾能力,抵抗潜在不安全因素。

2 数据灾备的内涵

数据灾备技术是一项对信息数据、数据库信息进行备份、复制、镜像的综合技术。通常研究的数据灾备是针对数据库而言,当一个数据库在某一时间运行时,同时还保障有另一个数据库在其他地方运行,并且实时同步当前运行数据库的数据。当一个数据中心中数据库有故障或灾难时,其他数据中心数据库可以正常运行并对系统业务实现接管,达到互为备份作用。而传统的备份把备份的数据还是集中在原来机房中,只要机房遭受灾难,备份的数据就会毁坏,达不到保护数据安全的效果。所以数据灾备要改变传统备份的劣势,能够在遭遇灾难时及时快速恢复整个系统。

3 常用技术

常见数据灾备技术主要有冷备、暖备、热备、双活(多活)等,但是冷备技术并不是一种真正意义上的灾备技术,因为冷备基本上就是数据中心从未考虑数据中心出现故障的情况,对于故障毫无预知和提前投入,已不能满足数据中心备份的高要求,成为一种落后的技术。在这里主要分析暖备、热备、双活(多活)等技术。

3.1 暖备技术

暖备技术需要两个数据中心,分为一主一备,其中暖备应用在备用数据中心。系统运行主数据中心数据,当主数据中心遭遇灾难而导致系统业务瘫痪时,要在正常规定的RTO(Recover Time Objective,即灾难发生后,信息系统从停顿到恢复正常的时间要求)时间范围之内,实现数据中心的整体切换。实际应用时,需要配置两套完全一样的系统网络主备数据中心,但不对外发布备用数据中心路由。当主、备数据中心进行切换时,首先切断主数据中心路由链路,让系统连接在备用数据中心路由上,确保只运行一个数据中心。

3.2 热备技术

热备技术相比暖备而言,就是在暖备基础上多使用一项软件,能够让系统自动完成系统数据的完整切换。这个软件能够自动感知数据中心故障,实现系统业务的自动切换,当数据中心出现问题而导致系统业务不能正常使用时,要在正常规定的RTO时间范围之内,将系统自动切换到备用数据中心。热备数据中心主要通过GTM技术实现自动主备数据中心切换。

3.3 双活技术

双活技术要求主、备数据中心都能够对外提供系统服务,并且可以同时运行,主、备两个数据中心没有主备之分,其中系统可相互分担任务,在一个数据中心遭遇灾难的时候,系统任务将由另外一个数据中心运行。可以实时检测服务器的运行状态、服务器负载均衡的情况,灵活分配数据中心的使用。双活不会造成数据中心资源的浪费,数据中心都承载着系统运行。相比双活技术而言,多活技术就是同时运行多个数据中心保障系统业务,如果有一个或多个数据中心遭遇问题的时候,另外的数据中心能够实现自动接管,使得所有系统业务正常运行。

4 数据灾备方案

为了提升数据存储系统性能及安全,实现可靠存储媒体的有效管理和自动化数据存储管理,确保数据的万无一失,结合数据灾备技术、系统业务主要集中在一地和有限预算的实际情况,可以考虑设计同城灾难备份方案,实现大数据中网络数据集中存储管理,保障数据备份与恢复快捷。

4.1 建设目标

该灾备系统的建设旨在确保数据的安全稳定,能够及时恢复灾后系统业务,保证在数据遭遇灾难后,备份中心在第一时间内接替主数据中心的数据,实现系统业务服务正常运行,保证数据的高度完整和数据零丢失,提高系统运行的灾难抵御能力,减少灾难打击造成的经济损失和社会影响。

4.2 建设方案

同城灾难备份需要在方案设计时,在同城区域地点内考虑建立两个数据中心,其中有负责日常数据运行的数据中心,还有负责在遭遇灾难后的保障系统运行的灾难备份中心。如图1所示。

本方案主要由服务器、交换机和存储备份系统几部分构成。为了保证系统业务访问的稳定、快速响应,数据中心中需要配备两套数据库服务器,而其中一套企业级存储系统主要存储系统运行的数据。而灾备存储中心与数据存储中心的两套磁盘存储系统之间建立了磁盘镜像复制关系,通过磁盘数据同步/异步复制技术将数据复制到同城灾备中心的存储系统上,从而确保了系统核心数据的可恢复性。

4.3 系统作用

该灾备系统能够完成硬件设备故障、数据丢失和人为错误出现后的系统业务恢复,当数据存储中心的磁盘系统遭遇灾难发生故障的时候,因为在灾备中心保存了数据中心的磁盘镜像,可以让操作系统自动转向对灾备中心的数据磁盘进行访问。另外可以生成不同时间点的数据拷贝,用于软件测试、查询与备份使用,还可以采用集成的容灾备份管理和全图形化的容灾备份系统操作界面,简化容灾备份系统管理。

5 结语

由于火灾、断电故障、房屋损坏以及因黑客、病毒、操作失误引起系统破坏等灾难,都有可能让系统核心数据遭到破坏,导致系统业务崩溃。如果我们不能及时有效采取措施应对风险,将会造成巨大的损失。所以只要采用有效的数据灾备解决方案,确保数据处理的高效以及系统业务连续运转,就可减少发生这种情况。随着集中式架构向分布式架构的转换以及大数据、云计算的实施,在未来海量系统的运维模式下,对于灾备系统的要求越来越高,灾备技术的应用将成为未来发展的方向。

摘要:随着信息技术的发展,大数据和云计算已经深入到各个行业。人们在享受信息化带来快捷的服务决策和方便管理的同时,也面临着数据丢失带来的巨大风险。分析了数据灾备的内涵意义,并剖析了3种常见数据灾备技术,设计了有效的同城灾备方案,探索提升数据安全的可行性。

关键词:数据灾备,方案设计,数据安全

参考文献

[1]秦君.基于企业信息系统的数据灾备研究与应用[J].数字技术与应用,2016,(8).

[2]姜可.浅析企业数据灾备系统的建设[J].计算机光盘软件与应用,2013,(18).

可信网络及技术探究 篇8

关键词:可信网络,可生存性,体系结构,网络安全

一、可信网络的提出背景

作为现代社会最重要的信息基础设施之一, 现有互联网经历几十年高速发展后, 当前面临大量的网络安全问题, 如恶意攻击、网络计算机病毒等。现有的网络安全技术主要有防火墙、入侵检测等, 在目的、功能上孤立单一, 只能对抗已知的攻击, 对新的、未知的攻击是束手无策的。一方面, 这些技术在体系结构上多是附加在系统上进行被动的防御, 无法从本质上解决问题, 且安全系统自身的安全与可靠难以得到保证。另一方面, 网络攻击方式日益呈现出智能化、系统化、综合化的趋势, 新的攻击方式不断涌现, 造成当前的安全系统规则膨胀, 误报率增多, 导致安全投入不断增加, 维护与管理日益复杂甚至难以实施, 大大降低了信息系统的使用效率。以上问题不但制约了互联网自身的发展, 同时也阻碍了社会信息化进程。因此在当前这种情况下构建一个安全、可生存和可控的可信网络正逐渐成为人们关注的焦点。

国外的一些研究机构对可信网络进行了相关的研究, 包括面向服务失效后的恢复、利用入侵检测提供网络的可信性等方面。不过, 国内起步较晚, 现在更多的是跟踪国外的研究动态。但是, “可信网络”目前已受到了国家和研究学者的越来越多的重视。“高可信网络”已被正式写进中国国务院公布的《国家中长期科学和技术发展规划纲要 (2006~2020 年) 》 (以下简称《纲要》) 。《纲要》明确指出:“以发展高可信网络为重点, 开发网络信息安全技术及相关产品, 建立信息安全技术保障体系, 防范各种信息安全突发事件”。同时提出了“重点研究网络安全与可信可控的信息安全理论”、“建立可信的网络管理体系”、“开发高效可信的超级计算机系统”以及重点研究开发支撑现代服务业领域发展所需的“高可信网络软件平台及大型应用支撑软件”, 从基础理论、支撑网络、IT 设施和应用软件等全方位推动“高可信” 网络基础环境相关的科研工作。

二、可信网络的概念及内涵

由于对可信网络的探索开始不久, 目前业界内对可信网络的定义还没有完全统一。较有代表性的可信网络的定义是:一个可信的网络应该是网络和用户的行为及其结果总是可预期与可管理的, 能够做到行为状态可监测, 行为结果可评估, 异常行为可管理。

“可信”是一个相对的概念, 一般来说可信任关系, 涉及到如下问题:即网络间相互收发信息可信和收发信息内容的可信。网络主体A 对另一个主体B 的行为是否符合主体A 按照某种原则所给予的期望, 从安全的角度考虑就是主体B 的行为是否对主体所要保护的资源有威胁以及威胁的程度, 而这个威胁以及威胁的程度是由主体A 来判断的。这是一种可信方式;除此而外, 网络中各计算机主体之间还需要对其所关注的事件或信息内容的真假程度进行判断, 以确定这些信息是否可信。这就是说, 信任关系涉及到主体之间、主体与客体 (信息载体及信息内容) 之间的信任关系, 而这种信任关系的判断是单向、相对的, 是局限在一定范围内, 而且是由关注者 (主体) 根据某种原则, 来对其关注的主体行为及客体内容是否满足其对他们的期望所做出的对信任度的判断, 并据此建立“信任关系”。显然, 主体之间的这种能够信任的关系是暂时的 (可以说是具体的“就事论事”, 主体A 在某一个关注问题上对主体B 信任, 而在另一件事情、另一个时间或地点就可能对主体B 的行为不信任) 。

从上面的讨论可知, 要讨论可信, 做可信领域的事情, 必须明确如下几个重要的问题:一是要关注的问题?即行为的发起者、信息内容、应用流程等;二是谁关注这些问题?即信任关系的判定者。不同信任关系的判定者对于信任关系可信程度的判断依据是完全不同的, 都是根据各自关注的目标、利益与处理事情的原则所决定的;三是采用什么样的机制来判断与保持可信任的关系?依据对可信的理解不同, 从不同的角度提供解决方案, 即对信任模型的研究。

三、可信网络基本属性

具体而言, 网络的可信性应该包括一组属性, 从用户的角度需要保障服务的安全性和可生存性, 从设计的角度则需要提供网络的可控性。不同于安全性、可生存性和可控性在传统意义上分散、孤立的概念内涵, 可信网络将在网络可信的目标下融合这3个基本属性, 形成一个有机整体。

可信网络与传统网络安全意义上最大不同是这3个属性, 围绕着可信这个总体目标, 互相融合形成一个有机的整体, 每个属性都不是孤立存在的。具体到可信网络的研究内容则包括如下部分: 网络服务提供者的可信、网络信息传输的可信和终端用户的可信。

(一) 安全性。

安全性, 指网络数据和网络服务的安全性, 包括了数据的完整性、不可否认性和保密性等。互联网设计之初对网络安全问题考虑不足, Internet早期的网络协议很少考虑体系结构的安全性, 目前互联网的脆弱性导致了它是不可完全信任的。传统的网络体系结构着重于提高数据传输的效率, 形成了核心简单, 边缘复杂的Internet 模型。这种体系结构易于扩充新应用, 但是难以检测出应用层出现的问题。目前的网络安全设计也很少触及体系结构的核心内容, 大都采用“堵漏洞, 筑高墙, 防外攻” 的模式, 在网络边缘对信息进行访问控制, 网络安全系统变得日益复杂和臃肿, 严重降低了网络性能。可信网络的体系结构设计应从目前的复杂异构的网络体系结构现状出发, 提供符合安全标准的安全核心体系结构。

(二) 可生存性 ( Survivability ) 。

目前网络的可生存性还没有统一的定义, 不过影响最大的是以ELLison 等为代表的CMU/SEI研究小组给出的如下定义:可生存性是指在遭受攻击、故障或意外事故时, 系统能够及时完成其关键任务的能力。这里的“系统”包括网络系统及其它的大规模系统。可生存性的关键特征是即使在遭受入侵攻击、故障或意外事故时, 系统依然能够完成任务, 并在一定的时间内修复被损坏的服务的能力。系统在完成基本服务的同时仍然保持其基本属性, 如数据完整性、机密性和可用性等。为了保证完成关键服务的能力, 系统应该具备如下四个关键属性: 抵抗攻击、识别攻击、服务恢复、自适应。另外, 响应时间也是可生存性的一个非常重要的因素。

可生存性研究包括: 定量评估问题, 涉及建立包括网络的脆弱性分析、用户攻击行为描述在内的合理故障模型理论和定量评估的方法; 保证可生存性的机制和策略问题, 从单纯容错到同时考虑容错、容侵; 从同构网络环境下的单种技术到异构网络下的层次化、协同可生存性技术。目前这些问题都是没有解决的热点问题。

(三) 可控性。

可控性, 指网络在某种程度上可以被监控和管理, 并对网络异常行为进行控制和预警。互联网络发展至今, 已成为一个庞大的非线性复杂系统, 如系统规模和用户数量巨大且不断增长, 协议体系庞杂, 业务种类繁多, 异质网络融合发展等等。这远远超过了当初设计的考虑, 现有的一些控制手段相对显得很薄弱, 产生了许多的安全隐患。边缘论和面向非连接的设计思想保障了网络的高效互通, 逐跳存储转发的分组传送方式简单灵活, 无需在中间节点维护过多的状态信息, 核心网络的工作集中于路由转发。这些机制的优点是设计简单, 可扩展性强等, 然而却造成了分组传输路径的不可控, 网络中间节点对传输数据包的来源不验证、不审计, 导致地址假冒、垃圾信息泛滥, 大量的入侵和攻击行为无法跟踪。所以对网络可管和可控目前依然是一个研究难题。

四、可信网络需要解决的关键问题

可信网络需要解决的关键问题主要有以下几个方面:

(一) 体系结构。

互联网在设计之初对安全问题考虑不足是当前网络存在众多安全漏洞的一个重要因素。一段时间以来网络体系结构的研究过度集中于如何提高数据传输的效率, 如今形成了一个核心简单、边缘复杂的Internet 体系模型, 复杂的功能由终端来保证。这种体系结构的简单性方便了新业务的部署, 但同时造成核心网络对业务过于透明, 基本不存在特定的运行模式, 难以检测到应用业务层面出现的问题, 更难将攻击行为和新业务区分开来。此外, 网络安全已经超出传统信息安全的内涵, 服务的安全作为一个整体属性为用户所感知的趋势日益凸现。然而目前的网络安全设计基本上很少触及体系结构的核心内容, 大多是单一的防御和打补丁附加的机制, 在外围对非法用户和越权访问进行封堵, 以达到防止外部攻击的目的。在攻击方式日益复合交织的趋势下, 当前的安全系统变得越来越臃肿, 严重降低了网络性能, 甚至破坏了系统设计开放性、简单性的原则。并且, 安全系统自身在设计、实施和管理各个环节上也不可避免地存在着脆弱性, 严重影响了其功效的发挥。因此基于这些附加的、被动防御安全机制上的网络安全是不可信的。另一方面, 网络安全研究的理念已经从被动防御转向了积极防御, 需要从访问源端就开始进行安全分析, 尽可能地将不信任的访问操作控制在源端, 因此, 可信网络的研究必须重新审视互联网的体系结构设计, 减少系统脆弱性并提供系统的安全服务。目前广泛使用的协议也缺乏完整的安全参考模型, 更不能在实现网络可信这一目标下, 融合安全性、可生存性和可控性。开放系统互联应该是可信网络体系结构研究需要遵从的一个原则。

可信网络体系结构的研究必须充分认识到网络的复杂异构性, 从系统的角度保障安全服务的一致性。现实的互联网涵盖了不同类型的传输技术, 如有线和无线, 存在着不同属性的业务, 如数据、图像、语音和视频。这些差异可能会形成对网络可信性威胁因素的不同关注, 然而来自用户的安全服务要求却是明确的, 并不会因某个业务需要跨越几个无线和有线的传输路径而改变, 当然也不会关心提供安全服务的具体技术细节。

(二) 可信模型。

建立包括网络的脆弱性分析以及用户攻击行为描述等内容的可信模型理论, 是进行可信性评估, 区分网络是否被正常使用的基础, 也是对抗攻击的前提。可信模型要能抽象而准确地描述系统的可信需求且不涉及到具体实现细节, 并可通过数学模型的分析方法找到系统在安全上的漏洞。可信模型的形式化描述、验证能够提高网络系统安全的可信度。现时的网络已经演变成为一个庞大的非线性复杂系统, 网络节点间的协议交互以及用户之间的合作与竞争, 使网络行为呈现出相当的复杂性, 而且攻击和破坏行为也呈现出多样的特点, 从而难以预测、分析和研究。另一方面, 传统理论方法建立描述网络和用户行为的可信模型是比较困难的。这需要借助现有的基础理论和创建新的理论、开发新的研究方法才能逐步解决。已有的基于规则的脆弱性分析方法中规则的生成是十分关键的。对于单个的系统组件, 生成规则并不困难, 但是对于一个庞大复杂的网络系统, 需要对大量系统组件的交互关系相当了解才可能归纳出所需要的规则, 这在操作上是相当困难的。此外, 基于规

则的方法只能描述已知攻击方式的行为, 难以应对攻击方式繁多的状况。基于模型的脆弱性方法为整个系统建立模型, 通过模型可获得系统所有可能的行为和状态, 利用模型分析工具对系统整体的可信性进行评估。模型的建立比规则的抽取简单, 而且能够发现未知的攻击模式和系统脆弱性, 因而适合于对系统进行整体评估。基于模型的方法的关键之处在于模型的建立。如果模型太简单, 不能清晰描述系统可能的行为, 则会导致评估结果不全面。相反如果模型太复杂, 则可能导致评估十分困难。尽管使用模型来定量地评估计算机系统的可靠性, 在理论和技术上已经有了较长的发展历史, 如组合方法、马尔可夫回报模型、离散事件仿真等, 但是网络系统的安全评估大多还是采用形式化方法对整体设计的局部进行分析, 缺乏定量的评估模型。

(三) 网络的可控性。

网络的可控性是可信网络在设计上的一个重要属性, 主要目标是在网络的关键部分增加认证、授权等控制机制使网络更可信, 在不同的层次上实施对网络的监管, 提供采集和传输网络组件信任信息以及检测网络运行状态的机制, 并提供异常行为控制和攻击预警的快速算法。此外, 网络攻击和破坏行为的综合化, 客观上要求对抗机制也要综合化, 因此可信网络的可控性设计必须建立内在关联的监控体系, 完成对网络节点的监测以及信任信息的采集, 并根据信任分析决策的结果实施具体的访问接纳和攻击预警等行为控制手段, 使得多样的监控机制能够融合在一个可信的平台下并发挥效用。

五、结语

计算机网络系统由网络协议将终端、服务器和各种网络设备连接在一起, 构成了一个复杂的系统。随着技术的研究与发展, 对该系统的信息安全防护由对网络中某一单元或某一元素的防护发展到对整个网络的体系的防护。传统的网络安全技术已经不能满足网络发展的需要, 基于可信计算的可信网络正在成为网络安全发展的新趋势。随着可信计算和可信网络研究的不断深入, 网络安全研究将进入一个更好的发展时期。一旦可信计算技术和产品成熟, 可以预料网络安全领域将会掀起一场新的革命。

参考文献

[1].林闯, 任丰源.可控可信可扩展的新一代互联网[J].软件学报, 2004

[2].林闯, 彭雪海.可信网络研究[J].计算机学报, 2005

[3].Casadcm, Garf inel T, Akellaa, et al.SANE:A protection architecture for enterprise networks[C].MProceeding s of15th USENIX.

[4].ecurity Symposium.July31-Aug.4.2006, Vancouver, Ga-nada, 2006

[5].in Chuang, Peng Xuehai.Research on network architecture withtrustworthiness and controllability.Journal of Computer Sci-ence and Technology, 2006

[6].吴琨.可信网络访问控制关键技术研究[D].北京邮电大学, 2012

大数据及可信技术 篇9

近年来,电子商务的蓬勃发展推动了物流行业的突飞猛进,使得物流渗透到生活的许多方面,进而导致物流系统的数据呈现爆炸式增长。随着云计算、物联网和互联网+时代的到来,大数据已经成为物流行业变革的中心,国内外许多物流企业积极通过大数据分析来提升物流服务水平。如:DHL应用大数据加快反应速度,分析客户数据做精准服务;UPS通过大数据调整配送策略,节省了大量燃油成本;顺丰利用大数据布局O2O业务,有针对性地建店(嘿客)和上架商品。

本文开展物流大数据分析平台架构、关键技术及其应用的研究,以期能够为智能物流的建设和物流大数据时代的来临提供理论支撑和技术积累。

2 物流大数据

2.1 大数据及其特点

“大数据”一词起源于Apache软件基金会的开源项目Nutch,指为了对网络搜索索引进行更新而需要批量处理或分析的大量数据集[1]。

目前,大数据尚处于早期研究和初级认知阶段,对于大数据的概念也没有统一、确切的定义。通常认为大数据是一种非结构化数据,具有数据量十分大,数据形式多样化的表现形式。其主要特点有以下四点:

2.1.1 数据量大(Volume)

大数据时代,各种智能设备产生的数据量呈指数级迅猛增长,其计量单位可以是PB级、ZB级甚至更大的计量单位。据估计,全球的数据量在2017年将达到8ZB[1]。

2.1.2 类型多样(Variety)

通常情况下,大数据既包括结构化的表单,也包括半结构的文本、视频、图像、语音以及非结构化的文件。据统计,全球总数据量中非结构化数据约占80%[1]。

2.1.3 运算高效(Velocity)

基于云计算、深度学习等技术,可以实现分布式运行系统以流的形式提供高传输率来访问数据,满足“1秒定律”,即在秒级时间范围内给出分析结果。

2.1.4 产生价值(Value)

产生价值是大数据的终极目的。虽然许多数据段或者数据集在很多情况下看起来是毫无价值的,但是将这些数据段或数据集与其他的数据相结合,往往能获得许多有价值的信息。

2.2 物流大数据及其特点

在庞大的物流系统中,涉及到多种类型、多用用途和多种功能的大数据,这些大数据包括了物流系统中的揽件、登记、路径规划、派件等各环节过程中产生的各种结构化、半结构化以及非结构化的数据。可以看出,物流系统是最复杂的系统之一,不仅包括货物的流通,还涉及到资金、信息的流通,具有涉及人员多、数据实时更新、信息类型多样等特点,这导致物流大数据的数据数量大、增长快速、类型丰富。

物流大数据中的相关数据既关系到个人的敏感信息,也关系到资金、货运等敏感信息,在研究物流大数据的时候,就要特别重视其特点,由此可以看出,物流大数据除具有大数据的4V共性特点外,还具有以下特点:

2.2.1 安全要求高

当前,物流公司成为继电信运营商、互联网巨头之后拥有用户个人真实信息量(如,收发货双方的姓名、地址、电话号码、快递物品等)最多的角色之一,其数据敏感度更强,具有更高的安全防护要求。大数据给物流行业带来极大的经济价值和社会价值的同时,也对用户隐私保护、安全存储、合理使用等方面的信息安全提出了更高的要求。

2.2.2 涉及面广

物流系统在揽件、分拣、打包、仓储、运输、派送等各环节都会产生不同类型的数据,所涉及的数据量极大。从不同行业的大量数据中挖掘物流信息、传输物流信息,并根据物流数据信息来支持物流管理和决策是物流大数据的重要研究内容[2]。

3 物流大数据分析平台架构

目前,国内外研究机构和学者已经提出了一些大数据分析平台架构,但是这些架构有的是通用的大数据分析平台,有的是针对特定应用场景而设计的分析平台,没有考虑物流大数据的特殊性、信息的敏感性。

为便捷、高效地对物流大数据进行分析,本文提出了物流大数据分析平台的架构,如图1所示。该平台是以物流大数据存储和物流大数据处理为核心,包含大数据访问、大数据调度、数据仓库、数据管理、备份与恢复等功能,平台各部分介绍如下:

●服务器、虚拟机、操作系统是平台的基础,可以采用通用的服务器、虚拟机、操作系统,这样既可以充分利用现有设备、降低建设成本,还可以提高平台的扩展性。

●物流大数据存储框架基于Hadoop架构,以分布式文件处理技术为基础,实现PB、ZB级数据的收集、清洗、存储等。

●物流大数据处理框架采用基于M ap Reduce架构,以分布式计算技术为基础,实现PB、ZB级数据的查询、计算等。

●物流大数据访问框架通过网络层与大数据存储框架和大数据处理框架相连,包含P ig、Hive和Sqoop等模块,实现对数据(存储系统或数据仓库)的访问。

●物流大数据调度框架包含Hbase、Avro、Flume、Zoo Keeper等模块,实现对数据的组织和调度。

●物流企业应用是面向物流企业的应用接口,可以实现信息统计、报表生成等功能。

●备份与恢复、安全性、数据管理是分析平台的安全防护子系统,实现对物流数据的管理和保护。

物流大数据的分析是在软硬件工具辅助下,首先对数据进行采集、汇聚、清洗、存储,然后利用分析算法对数据进行计算来获取有价值的信息,并通过图、文、报表等形式展现给用户[3]。

4 物流大数据关键技术

基于以上分析,物流大数据分析平台的关键技术如下。

4.1 数据集成管理技术

物流大数据集成管理技术是把从不同系统中采集到的不同格式、特点和性质的数据进行集中,采用一系列清洗算法清洗出其中的冗余数据、无效数据、错误数据等,从而形成一个集成的、稳定的、真实的数据集合。物流大数据的数据集成管理技术具体包含数据抽取技术、数据清洗技术、数据融合技术、数据库技术等。

4.2 分布式存储技术

分布式存储技术是将分散在不同物理位置的存储设备组成一个虚拟的存储设备,根据各位置存储资源及系统需求将数据存储在最佳的位置,以提高平台的可用性、存取效率和扩展性[4]。HDFS系统是当前常用的分布式存储系统,该系统中普通数据的存储采用D AS模式,而通过Hadoop计算而获得的分析结果、高质量数据和重要文件的存储采用NAS和SAN模式。

4.3 分布式计算技术

分布式计算是将多类型、海量数据的复杂计算分给多个闲置计算机来运算、处理,然后再对各计算机计算结果进行综合来获取最终计算结果,以满足大数据对计算能力的需求,并合理利用诸多闲置的计算机资源。目前常用的分布式计算模式是Map Reduce,通过协同工作、资源共享和数据交换实现对上千并发任务的处理。

4.4 实时流式计算处理技术

实时流式计算是以高速数据流的方式获取实时性信息(路口、天气等),然后对其进行低延迟、高吞吐量的处理,以快速、正确地获取计算结果,从而提高决策效率、降低风险。其流程包括复杂分布式事件计算、数据流捕捉和内容筛选等。目前常用的实时流式计算框架主要有Twitter的Storm和Yahoo的S4等[5]。

4.5 物流大数据安全防护技术

物流大数据涉及许多例如仓储、人员、运输等内容的企业隐私信息(仓储位置、工作人员姓名、工作人员电话等)和用户隐私信息(姓名、单位、地址、联系方式等),这些信息关系到企业和用户的经济利益、个人隐私及人身安全,所有这些信息的敏感性对物流大数据分析平台的信息安全也提出了更高的要求。

常用的物流大数据安全防护技术主要有:用户访问控制、用户隐私保护、多租户安全管理和数据隔离等。

5 物流大数据的应用及研究现状

电子商务的高速发展给物流行业带了机遇和挑战,一方面电子商务促进了物流行业的繁荣发展,另一方面也给物流行业带来了巨大压力。例如,最近几年的“6.18”、“双11”等电商活动时,由于订单过多且物流资源有限,用户往往难以及时收到自己的物品,影响了用户对物流企业的服务体验。

物流大数据是面向日益增长的物流需求,能够实现缓解紧张的物流资源并减少物流资源浪费的有效手段之一。目前,许多研究者针对物流大数据的应用进行了广泛、深入的研究。

5.1 基于物流大数据的物流中心选址

物流中心的选址会影响到物流企业的运营成本和包裹派送的时效性。当前,许多物流中心都是根据行政区域来选址的,没有考虑自身企业的特点、交通状况、天气状况等因素,往往会导致运营成本增加。利用物流大数据,就可以通过历史数据获取顾客分布、包裹类型、天气变化规律等信息,从而可以综合考虑这些因素来选址物流中心位置。

5.2 基于物流大数据的仓库储位优化

仓库储位优化是指在仓库或者配送中心将包裹的储位位置放置在最有效率的位置,仓库储位优不仅影响仓库负荷还影响包裹拣选效率。利用物流大数据,可以获取包裹的体积、重量、储位大小等参数,还可以预测出已到达包裹的存储时间、新包裹的到达时间、新包裹的数量等,从而可以分析出不同包裹的最佳储位。这样一方面,可以将合适的包裹放置在合适大小的储位,释放大量的体积空间以供他用,以免爆仓;另一方面,可以将相似包裹尽可能地分开放置,降低拣选错误的概率。

5.3 基于物流大数据的配送线路优化

配送线路的选择不仅关系到物流企业的配送成本还影响着配送效率。目前,许多配送人员往往根据个人喜好或经验来选择配送线路,无法及时适应天气、交通状况等因素的影响。利用物流大数据,可以实时分析配送车辆、天气、包裹信息、用户喜好、送货可选路线等数据,实时计算最优路线。例如,美国联合包裹速递服务公司(United Parcel Service,UPS)就利用大数据分析技术来对末端配送路径进行最优化分析,不仅可以节省5千万/年的燃油成本,而且还将配送能力提高了35万个包裹。

6 结束语

随着大数据技术在物流领域的快速发展,大数据已经成为物流系统中的核心资源,大数据技术对于建设智慧物流具有着重要的战略意义。本文提出了物流大数据分析平台架构,同时阐述了物流大数据关键技术以及典型应用场景,以在理论上丰富和拓展物流大数据理论,为我国建设智慧物流提供必要的实践指导。

参考文献

[1]Gartne.“Top ten strategic technology trend for2012”[EB/OL].(2011-11-05).http://www.gartner.com.

[2]吴青.我国物流信息化发展的措施[J].武汉理工大学学报:信息与管理工程版,2004,26(2):142-145

[3]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.

[4]李存琛.海量数据分布式存储技术的研究与应用[D].北京:北京邮电大学,2013.

大数据及可信技术 篇10

近几年, 电力行业信息化也得到了长足的发展, 我国电力企业信息化起源于20世纪60年代, 从初始电力生产自动化到80年代以财务电算化为代表的管理信息化建设, 再到近年大规模的企业信息化建设, 特别伴随着下一代智能化电网的全面建设, 以物联网和云计算为代表的新一代IT技术在电力行业中的广泛应用, 电力数据资源开始急剧增长并形成了一定的规模。从长远来看, 作为中国经济社会发展的“晴雨表”, 电力数据以其与经济发展紧密而广泛的联系, 将会呈现出无以伦比的正外部性, 对我国经济社会发展以至人类社会进步也将形成更为强大的推动力[1,2]。

随着供电企业信息化持续建设与深化应用, 供电企业各项业务已与信息化初步融合, 信息系统内业务数据的数量和种类的逐步增多, 数据共享需求迫切。而数据质量和数据共享利用水平不高, 一是数据对分析决策支持度低, 同一数据存在多个数多源、统计口径不一致; 二是数据对运营管理的支持度有待提高, 数据质量参差不齐, 部分数据无业务系统支持, 缺乏统一的规范、标准和明确的数据问责;三是一线人员数据录入工作量巨大, 数据重复录入, 业务功能重复;四是数据质量管控滞后, 管控工作片面化, 没有形成一个完整性的数据质量管控体系和全面有效的数据质量保障机制, 制约数据价值的深度挖掘。因此, 有必要围绕企业数据生命周期, 紧密结合公司推进管理体制和工作机制创新的要求, 基于运营监测 (控) 中心信息支撑系统建设与应用现状, 借鉴公司数据治理管理经验, 实现对供电企业数据的全过程质量管理, 夯实数据基础, 提升数据质量, 保障数据的准确、及时、有效和可信, 为数据的集成和挖掘应用提供有力保障。

本文根据文献研究成果, 围绕运营监测 (控) 中心数据质量管理所面临的问题与挑战, 研究电力大数据数据质量管理规范, 构建以业务系统为依托的数据监控体系、质量评价体系[3], 设计面向电力大数据的元数据模型[4]、数据质量监控规则、数据质量评价指标, 通过运用标准化的数据质量规范, 实时监控, 在线考评, 强化数据质量事中控制, 事后评价, 问题整改, 提升决策分析依据的准确性和实用性。

1电力大数据质量评价模型及动态探查监控技术研究与应用

1.1电力大数据的数据质量评价指标、大数据质量评价模型研究

围绕电力大数据环境下开展数据质量评价所面临的问题与挑战, 研究设计面向电力大数据的数据质量评价指标体系, 包括质量评价指标、质量评价模型[5,6]及评价方法。具体包括:

(1) 开展大数据下的数据质量评价指标设计研究, 分析大数据环境下数据质量的主要影响因素, 按数据质量的数据的一致性、数据的准确性、数据的完整性、数据的及时性4个关键特性建立数据质量评价指标, 以指导并考核大数据下系统数据质量水平。

(2) 研究建立大数据下的数据质量评价模型, 实现质量指标计算、统计分析和综合评价的实时、自动处理, 满足系统动态、实时进行数据质量好坏量化诊断和评价的要求, 主要包括数据质量指标定义模型、数据质量评估算法或规则及数据质量诊断与评价结果, 其中, 数据质量指标定义模型, 主要研究数据质量层级评价指标树设计、指标权重设计及指标分值计算等;数据质量评估算法或规则研究, 主要研究通过一定的数据算法与计算规则建立评估模型, 实现对指标权重、指标分数自动计算与分析, 并生成诊断与评估结果。

1.2电力大数据质量快速动态探查检测方法与关键技术研究

在大数据质量评价指标、大数据质量评价模型的基础上, 研究大数据质量探查检测[7,8]的关键技术。

(1) 针对大数据质量探查检测数据访问量大和大数据本身的“海量化”特性, 研究满足质量探查检测需要的大数据访问、采集技术。包括分布式存储访问优化算法研究;动态智能缓存技术研究。

(2) 针对大数据“快速化”的特性, 研究大数据质量分析与处理技术。包括适用于大数据质量探查检测的流计算、基于内存计算的高性能分析、实时数据质量分析的研究。

(3) 针对大数据“多样化”的特性, 研究大数据质量探查检测中大数据的自动识别技术:研究基于神经网络的数据识别技术及血缘分析技术。研究基于网格的数据关联性评估技术, 实现数据的卡片化、地图化展现与管理。

(4) 针对大数据来源众多, 形式多样, 研究实时数据调度技术, 主要研究基于事件流的复杂事件处理 (CEP) 技术、并行算法、工作流技术为主的数据调度技术, 满足大数据质量快速动态探查检测的要求。

1.3电力大数据质量快速动态探查检测方法与关键技术研究

在电力大数据相关技术研究基础上, 结合电力大数据质量实时监控需求与面临的挑战, 研究大数据质量实时监控相关技术。

(1) 研究基于Storm的流式数据质量技术实现数据传输过程不落地进行实时数据质量监控的方法及应用策略, 在数据传输过程中, 结合Key-Value内存数据库, 通过规则库在Storm不同节点的使用分析, 达到实时监控的功能。

(2) 研究实时大数据捕获及同步技术, 在同步主通道开发旁路数据通道, 以支持数据质量实时监控的需求。

(3) 研究接口信息实时采集技术, 研究通过API代理调用、日志分析、数据库表记录分析、旁路监听等手段采集基础信息, 实现实时数据接口监控;进而实现数据的关联链接和数据血统分析及影响分析。

(4) 研究数据质量监控结果闭环自我提升技术。 在数据质量实时监控及接口信息实时监控的基础上, 研究基于实时事件触发的数据质量异动处理流程及接口异动处理流程技术。

1.4电力大数据环境下的外部数据准入机制及关键技术研究

结合电力大数据环境下的外部数据应用需求, 研究制定公司大数据背景下外部数据管理目标, 建立外部数据准入机制, 对外部数据进行分类、分级, 并根据外部数据的来源与类型选择不同的管理策略和控制策略。研究完备的外部数据准入机制及关键技术, 主要研究外部数据接入检测机制和外部数据接入机制。

(1) 研究外部数据接入检测机制, 主要包括数据安全性检测、数据规范性检测、数据身份认证等。数据安全性检测主要检测数据来源, 数据规范性检测主要检测数据类型、数据结构、数据规模等方面。

(2) 研究外部数据接入机制, 主要包括安全管理机制、数据等级评定、数据接入应急机制、数据回退机制、 数据测试管理机制。

(3) 研究外部数据接入关键技术, 主要包括数据接入异常检测技术、数据流量控制技术、数据等级保护技术、数据库网关技术、数据复制技术研究等。研究电力大数据环境下外部数据接入的数据清洗转换、数据加载、数据接入服务等关键技术。

1.5实现电力大数据质量检测与监控系统开发及示范应用

该系统原型分为5个层次:数据资源台账管理、数据传输及调度、接口监控、数据质量监测、展现及应用, 如图1所示。

数据资源台账管理:模型信息、台账、系统信息等基础信息管理。

数据传输及调度:完成实时、非实时通用数据传输功能;各系统间数据调度功能。

接口监控:进行接口监控:ETL监控、OGG监控、模型监控、Web Service监控等。

数据质量监测:核心数据质量监测功能, 包括规则管理, 质量监测功能及评价通报体系。

展现及应用:在质量监测的结果上, 形成各种报表, 实现异动数据动态反馈功能。

依据原型系统, 结合省电力有限公司数据质量专项治理应用需求, 完成示范应用。

2结语

本课题重点研究电力大数据的数据质量评价指标, 研究电力大数据质量评价模型;研究电力大数据质量快速动态探查检测方法与关键技术;研究电力大数据质量实时监控方法与关键技术;研究电力大数据环境下的外部数据准入机制及关键技术。完成对符合电力大数据特征的公司典型系统数据质量情况的研究与分析, 设计电力大数据质量评价指标与模型, 形成对电力大数据质量检测、监控、外部数据准入的相关方法与要求, 完成相关关键技术研究与有效性验证, 为系统提升大数据质量提供统一技术支撑。

参考文献

[1]李皎.大数据时代到来对电力行业发展提出新要求[J].华北电业, 2012 (4) :82-83.

[2]孟小峰, 慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展, 2013, 50 (1) :146-149.

[3]匡红刚, 王涛, 唐融, 等.数据质量闭环管控框架数据估值的应用研究大数据时代[J].华东电力, 2013, 41 (3) :547-549.

[4]郭莉.共享数据工程体系结构及元数据服务研究[D].郑州:中国人民解放军信息工程大学, 2007.

[5]黄心宇.数据质量评价模型的建立和实现[J].商场现代化, 2008 (8) :396-397.

[6]张磊.油田数据质量监督与控制模型研究[D].大庆:东北石油大学, 2010.

[7]鲁均云, 李星毅.基于内码序值聚类的相似重复记录检测方法[J].计算机应用研究, 2010, 27 (3) :874-878.

浅谈大数据技术发展趋势 篇11

关键词:大数据;云计算;大数据技术;数据挖掘

中图分类号:TP311.13

随着互联网技术和应用模式的快速发展,人们生活方式在不断改变的同时也产生了巨大的数据资源。预计到2020年,全球的数据总量将远远超过人类有史以来所有印刷材料的数据总量,大数据时代即将到来。现阶段关于大数据有多种不同的定义,研究机构Gartner认为大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;维基百科上大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯;而麦肯锡则认为大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。无论哪种定义,我们可以看出,大数据并不是一种新的产品也不是一种新的技术,就如同本世纪初提出的“海量数据”概念一样,大数据只是数字化时代出现的一种现象。

数据量的剧增、国家和企业间竞争的加剧,要求政府和企业能更准确、快速、个性化的为客户和公众提供产品和公共服务。通过大规模掌握用户的细节数据,政府和企业可以分析出通过传统数据分析手段无法获知的价值和模式,做出更为迅速、科学、准确的决策和预测。由此可见,大数据技术是预测分析、数据挖掘、统计分析、人工智能、自然语言处理、并行计算、数据存储等技术的综合运用。

1 大数据特点

从计算科学发展历程来看,物联网的兴起对数据存储和分析产生了更高层次的需求,云计算则进一步拓展了计算机的计算能力。在以上二者的共同推动之下,大数据的概念应运而生,同时也标志着计算科学进入到一个崭新的时代。大数据有着不同于传统数据对象的特点。目前的研究认为,大数据具有以下主要特征:数据规模大、数据种类多、数据要求处理速度快、数据价值密度低以及数据真实性。数据规模大体现在大数据的数据量是以PB,EB和ZB来进行衡量的;数据种类多体现在大数据的数据类型不仅是结构化数据,还包括物联网数据、社交网络数据和位置数据等数据,更多的是半结构和异构数据,数据的复杂性高;数据处理速度快体现在对静态数据和动态实时数据处理的速度与时效要求高;数据价值密度低主要体现在大数据数据量巨大但由于数据结构分散导致数据价值密度低,需要进行数据分析和推理实现价值提纯;数据真实性体现在只有真实而准确的数据才能使大数据的分析、推理和管理有意义。

2 大数据技术发展趋势

2.1 人工智能技术的结合

大数据分析的目的是挖掘大数据中有价值的信息,是从大数据中获取更准确、更深层次的知识,而不是对数据的简单统计分析。要达到这一目标,需要提高计算机的智能计算能力,让系统具备对数据的分析、推理和决策,人工智能是实现以上能力的核心技术。近年来,人工智能的研究成为学术界和企业界的研究熱点,一方面得益于计算机硬件性能的提升,另一方面得益于以云计算、大数据为代表的计算技术的快速发展,使得信息处理的速度和质量大为提高,能够快速、并行地处理海量数据。

2.2 基于数据科学的多学科融合

在大数据时代,许多学科的研究内容从表面上看存在很大的区别,但是从数据研究的视角来看,其实是有共通点的。随着数字化时代的到来,越来越多的学科在数据层面趋于一致,可以采用相似的思想来进行统一的研究。但数据科学的基础问题体系尚不明朗,其自身的发展尚未形成体系成为制约多学科融合的关键问题。

2.3 与网络技术领域的交叉融合

未来大数据将与物联网、移动互联网、云计算等热点技术领域相互交叉融合,产生更多融合不同行业数据的综合性应用。近年来计算机和信息技术发展的趋势是:前端更加简单丰富,后端更加智能快速。物联网与移动互联网促进了物理世界和人的融合,大数据和云计算提升了后端的数据存储管理和计算能力。今后,这几个热点技术领域将相互交叉融合,产生很多跨行业和跨领域的综合性应用。

2.4 大数据安全与隐私

过去几年大数据安全和隐私问题是国内外的研究热点,未来大数据的安全和隐私问题依然将是学术界和企业界研究与探讨的热点。大数据及其相关核心资源涉及企业商业机密和国家主权,引发了社会各界人士的广泛关注,因此如何保护大数据的安全以及用户的隐私成为一个亟待解决的社会热点问题。但大数据应用所产生的隐私问题、大数据系统和体系存在的安全防范方面还没有实质性的进展和突破。毫无疑问,未来大数据安全和隐私问题依然是热点趋势。

2.5 基于大数据的深度学习和众包计算

最近几年深度学习大热,在很多领域发挥了巨大的作用,成为人工智能和大数据领域研究的热门学科,未来基于大数据的深度学习还将是各大研究机构和企业的研究重点。

基于物理资源分散式的应用场景,比如以前常用的P2P技术等对于深度学习这种需要物理资源相对集中的计算方式则会有局限,而众包计算这种物理资源分散式的分布式计算平台则可以有效避免这个问题。因此基于大数据的众包计算也是未来大数据分析与应用领域的研究热点和发展趋势。

2.6 大数据技术课程体系建设和人才培养

大数据技术的快速发展和行业应用需求的快速增长,使得目前技术市场上高素质大数据技术人才严重短缺。因此,政府、高等院校和科研院所将加快建立大数据技术人才教育和培养体系,发展数据科学和工程专业,梳理和构建跨学科和领域交叉的大数据课程体系,融合计算机、数学分析统计、应用相关的学科,推动交叉学科数据分析技术的发展以及人才的培养。只有在体系建设和人才培养方面与市场需求同步,大数据技术才有不断向前发展的基石和动力,因此这也是未来大数据技术行业的发展趋势。

3 结束语

大数据技术是我们利用计算技术对大数据进行分析和推理并挖掘其潜在价值的技术,具有重要的研究意义和实际价值。本文从大数据的概念展开讨论,详细分析了大数据技术研究目前面临的一些问题以及未来的研究热点和发展趋势。尽管目前大数据技术研究已经取得了一些研究成果,但在学科基础、应用广泛性、系统支撑基础、生态环境、人才底蕴等方面仍然存在一些亟需解决的问题,需要政府、企业高等院校和研究机构等共同努力,推动国家在该领域的技术水平走到世界前沿。

参考文献:

[1]王元卓,靳小龙,程学旗.网络大数据:现状与挑战[J].计算机学报,2013(06):1-15.

[2]陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013(25):142-146.

[3]Thomas H.Davenport,Paul Barth,Randy Bean.How'BigData'is Different[J].MIT Sloan Management Review, 2012,54(01):22-24.

[4]Victor Mayer-Schonberger,Kenneth Cukier.大数据时代[M].杭州:浙江人民出版社,2013:193-232.

作者简介:刘琳(1981-),女,四川泸州人,讲师,本科,研究方向:计算机网络、多媒体技术。

大数据及可信技术 篇12

1 智慧水厂定义

智慧水厂是基于物联网技术、采集外部互联网资讯、根据水厂运行规律, 通过大数据、机器人等来调整各种生产资料的调配而实现企业全面高效管理的一种水厂运作模式。

在自来水行业, 打造智慧水网不仅局限于对管网的调度控制方面, 也包括自来水制造业终端——自来水厂。如果用“二八定律”来分析自来水行业, 在不计算漏损率的前提下, 自来水成本 (包括管理成本) 的80%都是生产成本, 可见智慧水厂对企业降本增效、升级产能结构、提高企业市场竞争力、甚至整个水网走向智慧化都有着战略意义。

1.1 物联网

物联网是可将物与物、人与人、人与物相互关联, 实现智能控制的一种网络技术。就是利用局部网络或互联网等通信技术把自来水厂既有的传感控制器、机器、人员等通过新的方式联在一起, 实现信息化、远程管控和智能化的网络。

1.2 大数据

大数据技术可将水厂内一系列的数据库集成化, 抽取挖掘数据信息, 并转换成指导企业生产管理的有效信息。大数据, 主要就是指数据量巨大、种类多、产生速度快、有创造价值潜力的数据库。被誉为“大数据时代的预言家”的牛津大学维克托·迈尔-舍恩伯格教授解释:大数据分析就是分析全体数据不要抽样数据, 要接受数据的复杂多样性不要追求个别类型数据的精确, 要事物相关关系不要难以捉摸的因果关系[2]。

1.3 机器人

传统一线工人是通过对设备的看、触、听、嗅、测等感观进行巡视判断。而设备巡检机器人一旦投运, 将不受环境影响, 实现24小时不间断高强度的自动巡检, 甚至还可以将每次巡检的内容上传大数据库进行储存, 方便以后查阅。

2 面向智慧水厂的大数据管理理论

对于智慧水厂而言, 其大数据往往是从各种复杂系统中得到的, 每一个系统都有着独立的数据集和分散的链接, 数据的共性和网络的整体特征隐藏在这些数据网络的集合中, 但通过大数据可以将这些反映相互关系的链接整合起来, 构成一张完整的大数据关系网。分析大数据也就是分析大数据后面的网络, 大数据面临的科学问题本质上可能就是网络科学问题, 一些网络参数和性质也许能刻画大数据背后网络的共性[5]。

智慧水厂部分大数据及这些数据之间可能的联系, 其中包含了来自水厂自身、调度及外部的诸多数据, 这些不同数据之间彼此关联、交织成网, 以一种现阶段看来无比混杂并且难以准确描述的方式支撑和推动着配水厂的运行与发展。

3 面向智慧水厂的大数据分析前景

基于以上大数据的发展技术和自来水行业现状, 建议对大数据战略进行有步骤的战略路线设计, 以便循序渐进, 逐层推进。其主要分为大数据采集平台构建阶段、大数据分类预处理平台构建阶段、大数据分析平台构建阶段以及大数据框架下的决策支持系统最终完成阶段。通过阶段性的建设, 可逐步实现大数据管理方式的平滑过渡, 也可在逐步推进的过程中培养管理运行团队的思想准备和专业能力, 最终实现水厂的无人化。智慧水厂大数据战略应用路线图如图1所示。

参考文献

[1][德]乌尔里希·森德勒.工业4.0[M].北京:机械工业出版社, 1994:221.

[2][英]维克托·迈尔-舍恩伯格, [英]肯尼思·库克耶.大数据时代[M].盛杨燕, 周涛, 译.杭州:浙江人民出版社, 2013.

[3]覃雄派, 王会举, 杜小勇, 等.大数据分析——RDBMS与Map Reduce的竞争与共生[J].软件学报, 2012 (1) :33.

[4]赵腾, 张焰, 张东霞.智能配电网大数据应用技术与前景分析[J].电网技术, 2014 (12) :3306-3307.

上一篇:形成语感下一篇:死亡风险评估论文