大数据存储解决方案论文(共11篇)
大数据存储解决方案论文 篇1
数据保护和大数据管理领域厂商昆腾公司 (NYSE:QTM) 近日宣布, 通过将优化目标存储技术集成到新的分层存储和管理产品中, 它将扩大自身在管理大数据内容方面的领导地位。这些新产品将使关注大数据内容和分析的客户应对长期以来维护及保护其磁盘上数据的当前挑战。
大数据应用程序的增长速度超过传统磁盘架构功能
PB级信息存储越来越被那些用户, 视为业务优势或任务价值的关键资源。例如:利用客户采购历史数据, 用以开发新产品的制造商, 或者那些知道今天所收集的数据可能成为未来救命信息的基因组学研究人员, 大数据客户因此希望以确保其完整性、最优成本回报的方式来永远保存所有数据。然而, 传统磁盘架构不能满足这些与数据资产相关的, 长期可用、可访问, 或者可负担的需求。例如:
●随着每个磁盘、每个存储通道、每个存储系统的数据密度不断增加, 数据中断的风险以及由此产生的负面业务影响将提高。
●由于内容归档增加至PB级以上, 集成新处理器或磁盘技术以实现更大性价比或规模———这需要有计划的中断或“叉车式升级”。
●这些问题带来了随数据增长而增长的运营和管理风险。
提供更好的解决方案
借鉴其在数据管理和长期数据保存方面的专长, 昆腾通过将Amplidata的优化目标存储技术与昆腾基于政策的分层和数据管理软件集成到一个新磁盘解决方案系列产品中, 从而解决传统磁盘架构的缺点。
昆腾总裁兼首席执行官Jon Gacek表示:“许多全球最大数据内容的拥有者, 比如政府、媒体与娱乐、能源以及生命科学领域企业, 都依赖昆腾的Stor Next软件和应用程序来分层并长期管理大数据内容。将这项新技术的独特功能纳入更广泛的数据解决方案是我们在向客户提供存储技术方面长期领导地位的自然延伸, 这些技术提供无与伦比的价值和可扩展性, 以及数据生命周期上所需的性能和管理功能。”
这些新的昆腾磁盘解决方案将使客户能够显著提高长期内容的可用性和可访问性, 同时还能以更高的成本效益更轻松地管理这些内容:●Amplidata的基础技术包括可在更长内容生命周期上提供100%数据可访问性的分散数据算法。这种即使在磁盘故障、整个站点断电, 或者客户想要升级到更新、更密集或更强大的技术时也能持续访问内容的能力可显著节约成本。
●由于该算法提供一种内置数据缩减形式, 昆腾新解决方案的成本效益将比分布式文件复制方式高得多, 它是基于“支持互联网上非常大的数据量”的概念而出现的。
●通过将该技术集成到更广泛的分层存储解决方案中, 昆腾将让客户能够无缝管理并保护各种大数据应用程序上 (内容和分析) 和完整信息生命周期上的内容。
●昆腾的新解决方案将提供双重价值:1) 公司当前在大数据内容市场传输数据产品背后的一层。2) 打包或认证其它市场领先的解决方案, 在大数据分析环境中提供完整的管理解决方案。
昆腾计划在今年晚些时候推出首个新磁盘解决方案, 还打算在这些解决方案的基础上提供云服务产品组合。
昆腾Filesystem与归档高级副总裁Janae Stow Lee表示:“今天宣布的创新技术反映了昆腾不断致力于将创新技术整合到优化存储解决方案中, 帮助客户以最优成本效益轻松转变其数据管理和保护战略, 从而驱动更大的商业价值。”
大数据与云存储 篇2
大数据到底有多大
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP,Massively,Paralblle Processing)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。可以说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”随着云时代的来临,大数据(BIGdata)也吸引了越来越多的关注。
大数据具有规模大、价值高、交叉复用、全息可见四大特征。特别是,最后两个特征体现了大数据不仅仅有“规模更大的数据”这种量上的进步,还具有不同于以前数据组织和应用形式的质的飞跃。大数据是信息通信技术发展积累至今,按照自身技术发展逻辑,从提高生产效率向更高级智能阶段的自然生长。
大数据能做些什么
大数据的应用示例包括了大科学、RFID(Radio Frequency ID entification)、传感设备网络、天文学、大气学、基因组学、生物学、大社会数据分析、互联网文件处理、制作互联网搜索引擎索引、通信记录明细、军事侦察、社交网络、通勤时间预测、医疗记录、照片图像和图像封存、大规模的电子商务等。
仅仅十余年,很多企业爬过M B(megabyte)时代,走过G B(gigabyte)时代,现在正被赶着跑过TB(terabyte)时代,去迎接PB(petabyte)时代。事实上,如中国移动、联通、电信这样的移动通信运营商,如谷歌、百度、新浪、腾迅这样的大型互联网公司,如国家电网、交通运输部这样的职能部门,每天数据的更新量已经接近或达到了PB量级。
现在越来越多的政府、企业等组织机构意识到数据正在成为组织最重要的资产,数据分析能力正在成为组织的核心竞争力。
大数据不仅是一种海量的数据状态及其相应的数据处理技术,更是一种思维方式,一项重要的基础设施。这或是明天我们治理交通拥堵、雾霾天气、看病难、食品安全等“城市病”的利器,也会为政府打开了解社情民意的更大窗口。
众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及大数据,而这些大数据的属性,包括数量,速度,多样性等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。
云计算和大数据
人说云计算和大数据是双胞胎,两个是不同的个体,互相依赖又相辅相成,也有人说大数据是来搅局的。
从技术层面上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据无法用单台的计算机进行处理,必须采用分布式计算架构。它的特点在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。
云计算与大数据的不同之处在于应用的不同,主要在两个方面:
第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营。
第二,大数据和云计算的目标受众不同,云计算是卖给CIO(chief inform ation officer)的技术和产品,是一个进阶的IT解决方案。而大数据是卖给CEO(chief financeofficer)、卖给业务层的产品,大数据的决策者是业务层。由于他们能直接感受到来自市场竞争的压力,必须在业务上以更有竞争力的方式战胜对手。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。
对大数据的常见误解
一、数据不等于信息
经常有人把数据和信息作为同义词,但并非如此。数据指的是一个原始的数据点(无论是通过数字,文字,图片还是视频等),信息则直接与内容挂钩,需要有资讯性。数据越多,不一定就能代表信息越多。例如:
备份。很多人如今已经会定期的对自己的硬盘进行备份。这个没什么好解释的,每次备份都会创造出一组新的数据,但信息量并没有增多。
二、信息不等于智慧
现在我们去除了数据中的所有重复部分,也整合了类似内容的数据,剩下的全是信息了,这对我们就一定有用吗?不一定,信息要能转化成智慧。
云存储是存储器吗
云存储是在云计算(c bud com puting)概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。
nlc202309051139
云存储不是存储,而是服务。就如同云状的广域网和互联网一样,云存储对使用者来讲,不是指某一个具体的设备,而是指一个由许许多多个存储设备和服务器所构成的集合体。使用者使用云存储,并不是使用某一个存储设备,而是使用整个云存储系统带来的一种数据访问服务。所以严格来讲,云存储不是存储,而是一种服务。
云存储的核心是应用软件与存储设备相结合,通过应用软件来实现存储设备向存储服务的转变。
云存储的概念与云计算类似,它是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的—个系统。
云存储是通过网络提供可配置的虚拟化的存储及相关数据的服务。云存储的内涵是存储虚拟化和存储自动化。
云存储这项服务乃通过w eb服务应用程序接口(Aplapp lication program ming intetrace),或是通过Web化的用户界面来访问。
云存储安全吗
“云”这个概念被提出之后,安全性就是人们首先关注的要点。对于绝大多数的用户来说,他们并不希望自己的云存储变成公共资源平台,更不希望自己的隐私成为大众新闻,所以云存储的供应商也一直在不遗余力地宣传着自己的产品安全性。
云计算,特别是云存储,已经有些年月了。我们目睹了Nirvanix公司的消亡,斯诺登揭露美国国家安全局的棱镜项目,以及美国主要电信服务运营商涉嫌勾结。由于棱镜计划的曝光,我们将看到更多非美国企业会停止将其数据托管在美国。安全已经成为处理数据的企业的头号关注问题。
对于云存储产品而言,除了安全和方便,容量也是决定其发展前景的重要元素。
在线资源的即时分享与互动已成为我们日常生活必不可少的一部分,云存储产品的出现,能够实现手机、平板电脑、台式电脑等智能终端设备的多屏合一、数据共享,极大方便了消费者的生活。越来越多的服务商向个人、各种企业用户推出了包括存储在内的云计算服务。D C(internetdata center)更是将新兴的云存储行业比作是“圈地运动”,并且将其视作早期竞争对手抢占SaaS(softw are as a service)和云存储市场高地的机会。网盘作为云存储的一种应用模式,更是成为当下百度、金山、腾讯、360、阿里等互联网大佬们的“必争之地”。
不过,有云也意味着有“雨”。云存储并不总像看起来那样“美”——将数据迁移至云中致使用户在数据安全性和可用性方面高度受制于其云存储服务器供应商,可以说,对安全性和可用性的担忧是企业和个人走向云存储模式的重要影响因素。
随着云存储技术的日益成熟,云存储逐渐开始应用在智慧城市建设方面,未来必将给各行各业带来更多的服务。
云存储已经成为未来存储发展的一种趋势。但随着云存储技术的发展,各类搜索、应用技术和云存储相结合的应用,还需从安全性、便携性及数据访问等角度进行改进。
TIPS 名词解释
云计算
云计算(cloud cornputing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。
《大数据时代》
《大数据时代》是国外大数据研究的先河之作,本书作者维克托·迈尔·舍恩伯格被誉为“大数据商业应用第一人”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历,早在2010年就在《经济学人》上发表了长达14页对大数据应用的前瞻性研究成果。
安全性
IDC的报告显示,在未来四年内,全球云服务市场规模将增长到442亿美元,其中云存储的市场比例将从目前的9%增长到14%,其规模将接近62亿美元,存储市场是增长最快的云计算服务,这也正是各路厂商钟情网盘服务的一个重要原因。
大数据存储解决方案论文 篇3
广域存储解决方案的好处
Lattus旨在解决应对基于RAID架构的解决方案中的固有挑战, 该架构在数字媒体、科学研究、监测和能源勘探等行业已发展到并超越了PB级数据。Lattus产品采用下一代对象存储技术, 并进行了优化, 以便无限管理不断增长的大数据库, 从而让客户能够在数据的整个生命周期都能提取其最大价值, 其它好处包括:
●无与伦比的可扩展性, 以支持灵活的大数据增长;
●自我修复, 并带有最高至99.999999999999999% (小数点后15个9) 的耐用性, 以确保数据永不丢失;
●自我迁移, 以便无缝升级到新的存储技术;
●本地HTTP REST支持网络和云接入;
●在全球各地进行高成本效益企业归档的能力。
最初的Lattus产品
Lattus-X能够对容量以半PB开始的磁盘归档提供灵活的NAS访问, 并支持每个系统无限制的可扩展性。这是那些必须以高成本效益共享并归档大型数据文件, 并保持快速采集和可预测检索时间的多站点企业的理想之选。除了本地HTTP REST访问, Lattus-X还为用户和应用程序提供CIFS/NFS访问。
昆腾的第二款Lattus产品:Lattus-M, 将充分利用Stor Next Storage ManagerTM强大的基于政策的好处。计划于2013年上半年推出的Lattus-M将让客户能够以长期存储的价格拥有新的二级存储层选项, 新存储层提供比磁带更低的延迟和更加可预见的恢复时间。除了向传统磁盘和磁带提供基于政策的分层, Stor还将能够自动将数据迁移到基于Lattus的磁盘归档中。
2013年, 昆腾与合作伙伴计划联合推出一套基于Lattus的服务, 该服务将支持共享的多用户、加密存储, 并将NAS、Stor Next和本地云界面整合为云中的第二层或第三层。
定价和销售情况
大数据存储解决方案论文 篇4
管理设备及技术贸易展览会
(Data Center +Data Storage + Big Data Management)
一,展览时间:2018年5月09日-11日(每年一届)
二,展览地点:日本
东京有明国际展示中心
三,展品内容:
此展是当今世界专业的国际数据中心,数据存储及大数据管理技术设备贸易展览会,专业性极强。
主题展览一:Data Center Expo(第10届)数据中心设施相关商品:服务器、服务器机夹、重力装置/不间断电源、运营管理解决方案:私人发电机、隔离结构 防火解决方案:抗震装置
安全解决方案:进出入管理、生物认登设备、监控摄像机、多层次访问控制、临时安全防护服务等 LED灯:布线方案
节能解决方案:绿色IT解决方案、能源管理系统、冷却系统(空调系统/风扇)、能源效率解决方案、BEMS、网络设备:集线器、分析仪、路由器、链接器、分接头、开关、负载均衡器、网路监视解决方案/商品、安全设备解决方案/商品、VPN、电子布线方案。
数据中心服务/解决方案:数据中心、集装箱式数据中心、主机、主机托管、数据中心投资宣传、数据中心建设、其它数据中心相关商品/服务 主题展览二: Data Storage Expo(第20届)网络储存:SAN、NAS、iSCSl。
磁带/驱动器:DAT、DDS、8mm盒式数据盘、LTO、LTO Ultrium、磁带驱动器。
可移动媒体/驱动:蓝光光盘Hi-MD、超级存储、iVRD、DVD(-ROM,-R,-RW,+R,+RW,-RAM)磁盘/驱动器:SSD/磁盘/驱动器、RAID磁盘/驱动器、MAID。光机通道
虚拟化解决方案:虚拟化服务器/储存、虚拟机/软体、虚拟OS.灾难恢复相关服务:备份系统建设、远程数据备份服务、系统操作/监视服务、咨询服务。运营管理软体:备份软件、储存资源管理软体、系统管理软体、储存管理软体。
LIM(信息生命周期管理)解决方案、咨询/系统集成服务、其它数据储存相关商品。通用技术
累积/处理:DWH工具、NOSQL、CEP、Hadoop、MDM、内存数据库、高速数据处理引擎、数据储存、数据删除。
分析:非构造分析、数据挖掘、文本/档案挖掘、数据分析工具。活用:BI工具、OLAP工具、虚拟化工具/方案、推写系统。大数据管理解决方案 零售分销业理:购买活动/POS数据分析、客户情报分析、市场/宣传分析、销售预测/分析、SNS/Buzz分析。
制造业:需求预测/分析、库存控制、商品规划、供应链。
金融业:贸易分析、未授权使用防护、市场数据分析、股票分析。
公共服务:天气数据分析、能源消耗分析、灾害风险分析、GPS数据管理。医药业:诊疗数据分析、临床实验分析、疗法分析。
四,展览会数据:(每年一届)2017届
数据中心设备、数据存储设备及大数据管理设备及技术专业展是日本IT周的其中一个子展: 2017届数据中心展展商数量:385家展商(80%以上展商都是连续数届参展)
(此专业主题展同期举办日本最大的云技术设备、信息安全、软件发展、嵌入式系统、网络数据市场、移动解决方案、IOT、电子商务等专业主题展,2017届日本IT周的总展商数量为1,654家展商,观众数量超过98,285人次)
五,展览会介绍:
此展由当今世界英国著名的励展展览公司举办,励展公司已经将日本本主题展办成了极致,此展是当今世界最大、最专业的大数据中心技术设备纯贸易展览会之一,自创办以来,每年一届,每届的展会面积展商数量和观众人数都以35%的比率上涨,已经发展成为东亚乃至世界最著名的专业展览会之一。
该数据中心主题展览会于2017年才正式引入中国,是中国相关企业开拓日本及全球市场,扩大出口的绝佳平台。展会聚集了来自世界众多国家的优秀数据中心(存储、管理等)技术设备的供应商,展览会只针对专业观众开放,专业观众数量也是逐届高比率上涨,展览同期还举办其他相关IT主题展会及专业论坛会议。历届展商有:Rittal、Dell、ABB、FUJI ELECTRIC、Emerson、日本电报电话公司NTT、PANASONIC、Huawei华为、SONY等等众多行业内的国际知名公司参展。
当时世界上的贸易展览会都在向更专业化的方向发展,只有展览会在行业具有极强的专业性,对于展商来说才会有更好的实效性,保证展商和观众的绝对专业性,实现卖家与买家间的直接对接,保证贸易的成功率,(至于参加那些巨大型的综合类展览会的意义已经成为仅仅是凑人气和图热闹了)。
我们的这个展览会正是符合了极强的专业性这个关键点,非常适合这个产业内的积极企业参展。联系人: 曹力
***
大数据时代下的融合存储 篇5
存储需要敏捷和效率
在日前召开的“惠普融合存储新品发布会”上,《计算机世界》报总编辑许传朝在主持“话题讨论”时表示,数据已经成为企业生产力的重要组成部分,未来企业或商业变革就是基于数据的价值挖掘和商业模式创新。伴随而来的是数据给存储、处理和应用等信息系统带来的压力和挑战。
惠普亚太和日本地区副总裁、存储产品部总经理Mike Prieto认为,目前许多用户的存储系统都是按照10年甚至20年前的需求而设计的,并且主要是针对结构化数据而设计。但今天,数据量发生了天翻地覆的变化,带宽也增大了,虚拟化、私有云、公共云等纷纷出现,尽管原有的存储系统增加了许多功能,但这不足以应对我们面临的挑战。
Mike Prieto认为,这些新的变化要求系统具有全新的架构。对于存储来说,除了需要高性能外,另外两个因素也非常重要,那就是敏捷和效率。敏捷就是能够应对那些意料之外的高峰或低谷,同时应对不确定性,处理不同的和突发的工作负载,快速供给,提供适当的、动态的服务水平;效率就是指提高资源利用率,同时降低运维消耗。
这些都要通过整合服务器、存储以及网络来实现,为此,惠普提出了自己的解决方案:融合存储。
什么是融合存储?惠普的权威解释就是,融合存储是基于工业标准产品架构构建,利用先进的横向扩展存储软件,与跨越整个IT框架的通用管理工具相整合。惠普全新的融合存储架构从根本上改变了数据访问的方式,这是通过整合横向扩展存储软件、融合服务器和存储的硬件平台实现的。
融合存储产品新扩展
在惠普融合存储新品发布会上,全新的惠普P10000 3PAR存储系统正式亮相,这是3PAR投入惠普大家庭之后发布的首款新品,所以备受关注。而一款目前可应用于3PAR系统和LeftHand系统的联合存储软件Peer Motion更是引起了大家的兴趣。惠普存储产品部产品总监孙钢介绍说,Peer Motion软件具有业界首个点对点存储联合功能,支持从虚拟SAN到中高端存储系统,能帮助用户确保稳定的生产效率,并无中断地重新分配工作负载,通过联合工作负载均衡,来应对不可预测的环境;联合自动精简配置功能,可提高投资回报,并将应用数据转移到可用容量系统,并实现过程透明监控,降低未来的存储采购需求;联合资产管理,能够把数据无中断地从隐退阵列转移到新系统中,从而提高生产率,在存储资产更新过程中消除了宕机或服务中断。
惠普P10000 3PAR存储系统包含V400和V800(HP 3PAR V系列)两种型号。3PAR V系列是功能强大的关键业务存储系统,能够在单个高性能阵列上支持混合的、无法预测的多租户工作负载,也是惠普VirtualSystem和CloudSystem解决方案的核心技术,它集成了硬件、软件和服务,从而加快部署并帮助企业顺利迈入开放、混合的云环境。
链接
3PAR应用案例
成立于1835年的中山大学附属第二医院(也叫孙逸仙纪念医院)坐落在美丽的珠江旁,是中国最古老的西医医院。目前医院有本部、南院区、增城院区、南校区门诊部四个院区,开放床位2000张,每年门、急诊量220多万人次,手术台数3万台。目前,医院正处于高速发展时期,计划到2013年还将增加1000张床位。
业务的增长以及信息化的发展,在使医院的信息系统不断完善的同时,信息量也增长很快,每天产生的数据量经过压缩后达到十几GB,同时,这些数据需要保存的时间长,一般需要30年,同时安全性要求高。这些都使得该院的存储系统面临着严峻的挑战。
大数据时代数据存储安全对策探析 篇6
伴随着大数据时代的不断进步和发展,互联网技术、云计算、云存储以及各种网络平台的运用技术逐渐变得成熟,在这样的背景烘托下,我们对数据平台的安全技术要求也变得越来越高,大数据时代中的数据存储安全问题的重要性也变的越来越高。在目前的信息时代中,人们能利用网络方便的记载和浏览各种自己需要的信息。在保存、浏览、记录的过程中会产生如文字、音频、视频、图片等各种大量数据。然而在存储数据的过程中,会由于各种外界因素或者操作不当等造成数据的泄露,从而危及信息存储的安全,给使用者造成了经济损失。所以,数据存储的安全问题成为了大数据时代的主流探讨问题。为了确保在利用大数据时代给我们带来便利的同时避免它所产生的各种弊端,我们必须采取各种措施,不仅要在技术上,而且还要在意识上不断进行革新,进而迎接数据网络时代给我们带来的挑战。
1 大数据时代简介
大数据在各种学科例如物理学、生物学、生态学等以及各种行业例如军事、经济、信息通讯等已经发展了很长时间。目前由于互联网时代与信息时代的双层冲击下大数据平台更加受到了人们的广泛关注。传统的数据处理往往是单一的数据搜集以及整理归纳,而大数据时代中的数据处理更加注重的是对各种数据信息进行合理的搜集、分配、采集、整理并对各种信息进行高效率、高准确性、高质量的处理。随着云计算、智慧城市以及物联网等高科技技术的不断发展,大数据正在以惊人的速度不断的增长。当今时代下的各种智能手机、PC机、平板电脑的产生为大数据的到来更是准备了大量的数据信息。由此可见,大数据不仅是信息技术产业的革命,也将成为经济金融领域的霸头。以大数据时代作为依托的当代信息企业管理模式以及转型后的政府管理模式更是给人们的生活带来了便利。因而成为了社会各行各业利益驱使下的竞争地。大数据时代具有高数据存储量、高数据处理速度、多数据类型、低数据价值“密度”的特征。这使得相关的硬件设备以及软件技术都有很大的进步。大数据功能简图如下:
2 大数据时代给我们带来的存储安全问题
为了给技术工业革命以及经济社会的发展带来福音,我们需要克服伴随大数据时代而来的一些难以预知的各种风险因素。我们将从以下几个方面来探讨大数据存储安全问题:(1)数据存储成为了信息安全攻击的对象。由于现有的安全防护措施的不完善,使得一些隐藏在大数据终端的木马病毒有机可乘给企事业单位及数据服务商带来了巨大的安全危急。隐藏在信息中的木马病毒会进入工厂的安全服务系统,进而提取相关信息从而干预工厂的安全生产。这种安全信息存储的泄露使得大量有价值的信息外传,造成了很大的经济损失。(2)个人信息的泄露。大数据时代给我们带来了很多生活便利,比如购物。不仅商家可以通过网络这一销售手段进行盈利,消费者也多了更多的渠道进行购物。这种“O2O”的模式使得商家大大的降低了销售成本,对资源的合理配置更是有很大的帮助。但是在买家与卖家的交易过程中会形成很多关于资金、个人资料等的信息。这些信息都存储于大型的数据库中。一旦发生数据存储上的漏洞使得个人信息泄露,就会给消费者及商家带来不便,并引发相应的财产损失。(3)网络设施的漏洞。网络的安全性直接关乎了数据存储的安全性。软件本身的漏洞以及网站管理者的自身疏忽都会造成网络漏洞。一些由大数据时代带来的各路黑客会利用这些漏洞对信息数据进行攻击,从而造成相应的安全威胁。
3 大数据存储安全对策
面对各种安全问题的突发,制定相应的对策至关重要。
3.1 技术方面
数据安全存储问题的频发首先是大数据技术的不完善。建立一个健全的大数据安全管理体系势在必行。这种标准化的管理体系能有效的提高信息安全的管理水平以及降低信息安全的风险。面对大数据时代带来的巨大的数据量,我们必须要制定一个最优化的方案来对数据进行快捷有效的处理。开发更多的安全工具来保障系统对数据进行全方位的开发和维护。同时,我们需要不断完善网络漏洞侦查系统,对网络漏洞以及终端的信息存储漏洞进行实时监测,以便于预防信息的外漏。无论是企业单位还是事业单位的信息安全存储管理系统都必须具有高度的安全性作为保障,这样才能更加全面的执行好本单位的任务,产生良好的经济效益。比如,我们可以在公司的信息系统内增加恶意软件的拦截功能。这样可以对日常办公过程中不经意下载的恶心软件进行有效的拦截,从而避免后续安全事故的发生,有效的制止数据的泄露,保护了公司的信息财产安全。
3.2 意识方面
我们需要增强自我信息安全保护意识,注重保护自己的信息不被窃取。在进行日常的网络浏览时,对一些潜在的危机要有一定的认知,防患于未然。政府也应该对一些敏感数据进行相应的监督,加强数据平台的管理力度,避免信息泄露的风暴。同时,媒体作为大众关注的对象,应起到教育指导的作用,对信息存储泄露的危害要不断的宣传,从而帮助公民增强安全保护意识。使得人人都有网络信息安全的意识,进而减少信息存储泄露的现象。
3.3 法律方面
大数据时代的到来使得各种数据被频繁盗出,严重影响了我们的正常生活。从法律层面上来规范各种不正当的行为极为重要。我们需要从法律层面上规范个人隐私的范围,规定相应的个人信息安全尺度,避免例如盗取个人社交网络密码以及跟风的对某事件人物的搜索、曝光。这些都给当事人造成了心理上、生理上的攻击。因此,我们需要建立一套关于数据存储安全的法律体系,对于一些违法盗窃信息危害他人人身财产安全的行为进行严厉的处罚。从而为信息存储提供有力的安全保障。
4 结语
由上述分析我们得出,大数据时代的到来给当代的网络技术产业等带来革新的同时也使得公众的生活更加的便利快捷。我们在庆幸这些大数据优势的同时也要摆脱它所带来威胁。清楚的分析信息存储安全的各种问题,及时的解决各种突发事件十分重要。我们要从公民自身出发、从政府出发、从大众媒体出发不断的提高信息存储安全意识,增加信息存储安全法律知识。不断的进行技术的革新以便适应时代发展的需要,建立正规完整的法律体系对违法行为进行严厉惩处。这样才更有利于我们受益于大数据,不断的发展大数据。
参考文献
[1]王倩,朱宏峰,刘天华.大数据安全的现状与发展J.计算机与网络,2013.
[2]何国锋.电信运营商在大数据时代的信息安全挑战和机遇探J.互联网天地,2014.
[3]施恋林.当大数据邂逅网络信息安全J.通信企业管理,2015.
大数据环境下云存储数据安全探析 篇7
在云计算应用发展之前, 人们需要进行各种信息的记录, 不论是最平常的文字, 还是富有动态的视频, 都需要由储存设备来对其进行保存记录, 就算是日常最普通的消费或是网络搜索的记录都是需要管理保存的, 然而随着时代的更新, 人们的生活水平也在不断地提升, 这就使人们的数据量不断增加, 导致存储的信息量也在不断增加。
2 云存储概念
想要在大数据环境下, 有效的保证云存储的数据安全, 首先一定要了解云存储的概念, 只有这样, 才能保证在足够了解云存储的情况下, 对其进行完善与创新, 从而使其能够更加符合大数据时代的发展特点, 保证其能够被更好的应用在数据的存储过程中, 完成海量数据的存储工作, 这无论对于用户体验的增强以及整个电子领域的发展方面, 都具有十分重要的作用。
在了解云储存的概念之前, 需要理解什么是云计算。所谓的云计算是将计算处理程序通过网络分拆成子程序, 分拆后的子程序比较小而且数量众多, 再之后需要将处理结果传回给用户, 处理工具是一种由许多服务器共同工作而组成的系统, 在得出具体结果之前, 是需要各个服务器详细计算之后再得出结果。
而对于云存储概念的理解, 与云计算相类似, 云储存指的是将网络中许多不同种类的存储设备集合起来一同工作, 主要是应用一定的软件进行工作, 利用云储存的各种系统功能进行数据的处理, 能够很好地提供数据存储的功能, 并且还能够表现出业务访问的功能。以下介绍的是云存储的三个不同分类。
2.1 公共云存储
公共云存储作为云存储分类中的一种, 在云存储中占据着十分重要的地位, 同时, 就目前的情况看, 这一存储形式也比较受社会各界的重视, 社会及各大企业对其应用也较为广泛。公共云存储之所以如此受欢迎与其独特的存储特点及其相对于其他存储方式的优点是分不开的, 一个公司可以很好地对云储存进行拥有以及基础架构的控制和应用的部署, 能够使储存独立并且私有, 比如有些公司是可以在降低成本的情况下, 对文件存储方面所提供的服务能够满足绝大多数人的日常应用。还有一些公司的公共云存储发展比较好, 例如现在网络中比较流行的各种企业的网盘, 都是在公共云储存方面做得比较突出的。正是因为公共云存储中可以有一部分被划出来作为私有云存储, 所以通常情况下私有云存储在各大企业数据中心的相关设施上都有较好的利用价值。
2.2 内部云存储
除了公共云存储之外, 内部云存储也是云存储中十分重要的一部分, 所谓的内部云存储是相似于私有云存储的, 然而内部云储存是存在于企业的防火墙之内的, 这一点是与私有云储存不同的。做好内部云存储工作能够有效的提高云存储的隐秘性, 使得企业内部具有权限的员工才能对存储的资料进行查询及使用, 而不具备使用权限的员工则无法获取存储中的资料, 这对于企业内部资料的保护以及企业隐私的保护都是非常重要的, 因此目前市场上的很多企业也非常重视这一存储形式, 并在具体的存储过程中, 对其进行了广泛的应用。
2.3 混合云存储
继公共云存储与内部云存储之后, 混合云存储在云存储中的地位也十分重要, 混合云储存顾名思义就是将上述两种方式结合起来, 最大的特点就是可以在临时配置容量时按照客户要求的访问将公共云储存上划出容量, 配置给私有云存储或内部云存储, 这样可以降低系统的负载量, 保证其正常运行。由此可见, 相对于上述两种云存储方式来讲, 混合云存储在结合了两种云存储方式的优点的基础上, 又对自身的存储方式进行了创新, 这无论对于整个云存储状况的创新及改善还是对于用户使用云存储的便利性的提高都是非常有利的。
3 简析云存储系统结构模型以及分析技术应用
在大数据环境下, 做好云存储工作, 保证云存储数据的安全性对于数据安全的保证具有非常重要的作用, 因此相关人员一定要加大力度对有关云存储的一系列问题进行创新。在对云存储进行创新方面主要包括两点内容, 分别是对云存储系统结构模型的分析以及对云存储相关技术的应用, 以下文章主要就这两方面进行了详细的分析。
3.1 云存储系统结构模型
(1) 存储层。存储层可以说是云存储系统结构的基础。广域网、互联网或者FC光纤通道网络是不同的储存设备之间的联系沟通方式, 而且储存设备多而杂, 分布也比较广泛。
(2) 基础管理。为了实现较高的数据访问性能, 利用基础管理层可以将多种储存设备在这种服务上共同工作。
(3) 应用接口。云存储运营单位有多种类型, 如果能够调整多种不同类型, 就可以广泛提供各种服务, 这样一来, 应用范围更广, 也就是说开发不同应用接口可以提供更多服务。
3.2 云存储关键技术
云存储的关键技术主要包括存储虚拟化技术、重复数据删除技术、分布式存储技术、数据备份技术、内容分发网络技术以及存储加密技术等几种, 想要对云存储技术进行详细的分析, 就一定要注意的对上述几种技术进行了解。
(1) 存储虚拟化技术。可以利用这种技术将各种储存设备进行相互关联, 只有这样才能够拥有统一的存储资源池。利于资源的集中利用, 也能够为云储存提供更便利的技术服务。
(2) 重复数据删除技术。这种技术能够很大程度地降低存储容量, 并且还能够增加储存设备的可用存储空间, 这样一来, 就会有效地增加传输的数据量, 能够很好地为网络传输提供更多的数据。
(3) 分布式存储技术。分布式存储技术是一项涉及多种技术, 能够将不一样的存储设备以及不同的应用方式, 甚至是不一样的服务协同起来共同工作的一种存储技术。
(4) 数据备份技术。数据备份技术是防止存储设备错误地将数据删除或者恶意对数据进行处理时失去原有重要数据, 数据备份技术顾名思义就是系统及时将数据备份, 也就是说用户可以及时恢复数据, 能够保证数据可以不在意外情况下丢失后不对重要事务造成影响。
(5) 内容分发网络技术。内容分发网络能够很好地将互联网上的弊端降低, 其技术应用思想就是稳定网络传输, 同时保证数据传输时的速度, 防止网络弊端对数据传输造成不良影响。内容分发网络技术极大程度地提升数据传输的速度以及稳定性。
(6) 存储加密技术。该技术能够及时有效地对即将写进存储设备的数据, 或者是刚从前端服务器输出的数据做加密处理, 这样一来, 就只有授权用户可以读取, 很好地保护了数据, 同时也能够为授权者提供便利。
4 云存储数据安全状况分析
云存储数据的安全能否得到保证关系着云存储使用者的隐私能否被泄露, 用户的隐私一旦泄露, 无论对于整个云存储的信誉与形象或是对于客户计划的正常实施来讲都是非常不利的, 尤其是在大数据环境下, 保护云存储数据的安全性更是极为重要, 因此, 相关人员一定要通过对一系列的技术手段的应用, 去保证云存储数据的安全。所谓云存储数据安全, 就是保证数据在完整的情况下不被他人非法利用, 还能够为真正授权用户提供最可靠的数据。在保证云存储安全的过程中, 是需要存储设备各项功能的协同配合才能完成的。随着现代科技的发展, 人们对于存储设备的使用要求越来越高, 对于存储信息或者数据的安全问题也越来越关注, 不光是利用传统的方式保证信息安全, 云存储还包含其特殊的技术来对相应信息进行加密, 这是技术时代的发展趋势, 也是现代人对高科技设备的必要要求。
5 云存储数据安全策略
云存储数据安全策略主要包括多副本策略、秘钥策略以及数据的差异性保存三种, 想要有效的保证数据的安全, 就一定要分别对这三方面的策略进行分析, 从而使相关人员及云存储用户能够在对云存储的使用过程中, 最大程度的保证数据的安全。
5.1 多副本策略
由于设备的硬件故障对数据造成的损失通常是不可恢复的, 然而云存储的多副本设计就是针对这个问题对信息进行保护。云存储能够利用物理存储资源, 将存储的数据信息进行备份, 这样就可以有效保证数据的安全性, 即使是硬件故障也可以保证信息完整。
5.2 密钥策略
可以说密钥策略对于加密存储信息来说, 是保护数据的核心, 保护数据不光是要保护存取和访问, 更要防止数据被不法分子利用或盗取。密钥管理就是对被保护资源进行访问控制, 能够严格控制他人轻易拿取。
5.3 数据的差异性保存
按照数据的差异性进行保护对于数据的保密工作来说是必不可少的。通常情况下, 数据是属于自己的服务区所有的, 然而在云存储出来之后, 就应当按照数据重要性划分轻重缓急进行保护。
结语
在如今的大数据环境下, 安全使用云储存设备是现代人必要的要求, 能够很好地将云储存设备的安全性提升也是我国云计算应用技术的提升, 只有这样, 我国的云储存设备才能在大数据时代茁壮成长。通过上文分析, 了解云储存安全性能的同时还了解了相应的改善措施, 使读者对云储存的真正使用价值有了更深的认识, 这也是国家技术进步的一大体现。
摘要:随着社会的不断进步, 整个电子企业技术也在不断进步, 现在已经处于大数据时代, 也就是在这种时代的驱使下, 云存储已经逐渐走进人们的生活。然而一项技术的出现必定会带来一定的局限, 对于云储存来说, 最主要的局限性就是数据的安全受到限制。本文主要介绍的是云储存系统的结构模型和关键技术, 通过对其分析得出相应的安全策略。
关键词:大数据,云存储,数据安全
参考文献
大数据环境下的存储挑战 篇8
大数据时代, 企业数据量和数据种类出现飞速增长。大数据时代, 全球应用数量从几年前的以十万为单位计算, 到了以百万为单位计算。10年前, IT从业人员只是以百万计算, 数据生成来源也比较单一, 但现在, IT服务使用者已经上升到十几亿的消费者, 数据生成来源更为丰富, 是名副其实的大数据时代。同时, IT资源的配置和管理要满足高度虚拟化或集群IT架构的需求。企业应用部署效率、业务稳定服务性能, 以及动态有效满足O LTP和O LA P性能要求, 直接决定着企业核心竞争力。企业要求存储更灵活、更动态、性能更稳定, 以支撑大量用户对各种IT服务交付的能力。此外, 大数据时代还需要集中、统一和自动化管理的功能。
中桥2013年7月完成的中国大数据市场调查结果显示了, 中国市场针对大数据的需求所面临的典型的存储挑战, 就此我们看看此次EM C在米兰发布的技术是如何解决这些大数据存储挑战的。
(1) .业务关键型性能:就“存储是否能满足目前业务关键应用性能”的调查结果显示, 接受调查人员 (总计455名受访者) 中28.1%表示在未来12个月考虑部署新型存储。36.5%用户在未来12-24个月考虑部署新存储。大数据时代, 应用使用者的快速增加, 对存储并行处理能力提出了更高要求。此外, 生产应用虚拟化产生大量随机读取, 这就对传统IO Ps和时间延迟提出了挑战。
EM C米兰发布的M C x技术让用户可以通过多核并行处理方式, 经济地提高大数据时代存储对并行处理能力的需求。相对于通过增加控制器和磁盘形式提高存储IO Ps, 这种多核动态优化技术更为经济, 且不会增加管理强度和开支。此外, M C x结合灵活闪存技术, 可以满足大数据环境下不同应用对IO Ps或M B Ps的性能需求, 并降低时间延迟。
(2) 存储利用率:大数据时代数据量快速增加。如何通过存储容量优化, 降低存储容量和网络资源需求, 降低数据保护过程对生产环境的性能影响, 是控制大数据存储新增开支的关键。
EM C的V N X产品支持压缩和重复数据删除, 不仅降低存储容量需求。同时, 也降低数据传输过程中对网络资源的需求。
(3) 容量优化系统性能:为了提高存储资源利用率和业务连续性, 存储厂商近年纷纷推出各种企业级功能。为了降低存储管理强度, 中端以上存储具有多种工作负载性能监控、动态资源配置和自动化端对端管理功能。然而, 传统存储控制器处理能力有限, 启动这些企业级功能需要消耗存储控制器资源。用户往往要在存储资源优化和生产性能之间做取舍。
EM C米兰发布的M C x通过多核并行处理, 让控制器具有更强大的处理能力, 保证启用企业级功能不影响业务性能, 实现优化和高性能并举。此外, 通过控制信息和数据通道分流, 彻底解决了控制信息和数据流资源争用导致的性能问题。保证大数据时代, 在不同业务发展阶段下应用性能稳定性的需求。
(4) 在大数据时代如何利用各种已有存储资源, 为大数据时代的业务发展提供高可扩展和业务连续性是关键。传统存储下, 不同厂商的存储之间无法实现快照、复制、备份和恢复, 由此带来数据保护的大量开支。同时, 带来存储资源浪费。
EM C的V i PR多种标准A PI, 可部署在V i PR支持的任何文件存储系统上, 这种支持多种平台的战略和开放的可扩展性能够充分为大数据环境的跨平台、资源灵活性和开源平台提供IT支撑。用户不仅可以在V i PR框架下支持第三方存储设备, 同时可以支撑开源技术。让用户可以利用服务器存储、直连存储、第三方网络存储, 甚至是标配磁盘技术, 满足大数据演进过程的存储需求。
大数据存储技术和标准化 篇9
大数据作为信息化时代的战略新兴产业, 以一种前所未有的方式高速发展, 通过对海量数据进行分析, 可以获得有巨大价值的产品和服务, 但是不断产生的海量数据对数据存储提出了巨大的挑战。目前国际上尚未出现针对大数据的数据存储接口标准, 而且国内也未出现比较成熟的此类服务, 需要根据国内的实际情况, 并适当参考国际上现有的服务接口, 建立大数据存储的标准化体系, 形成大数据存储的基础性标准, 为产业发展提供有力保障。
2 大数据存储技术发展概述
大数据的出现以及结构数据的改变使常规技术的数据存储和管理面临新的挑战。
2.1 三种类型的大数据存储技术
针对不同类型的海量数据, 业界提出了不同的存储技术, 主要有以下三种:
(1) 存储海量非结构化数据的分布式文件系统
比较代表性的是Google的GFS和开源的HDFS (Hadoop Distributed File System) 。HDFS对应用程序的数据提供高吞吐量, 适用于那些大数据集应用程序。HDFS开放了一些POSIX的必须接口, 容许流式访问文件系统的数据。HDFS是主/从结构, 由一个名字结点和多个数据结点组成。HDFS将大规模数据分割为多个64 MByte的数据块, 存储在多个数据节点组成的分布式集群中。随着数据规模的不断增长, HDFS只需要在集群中增加更多的数据节点即可, 具有很强的可扩展性;同时每个数据块会在不同的节点中存储三个副本, 具有高容错性;数据的分布式存储可以提供高吞吐量的数据访问能力, 在海量数据批处理方面有很强的性能表现。
(2) 存储海量无模式的半结构化数据的No SQL数据库
传统关系型数据库在处理数据密集型应用方面显得力不从心, 主要表现在灵活性差、扩展性差、性能差等方面。在这样的背景下, No SQL数据库应运而生, 作为对关系型SQL数据系统的补充。由于No SQL数据库能够极大的适应云计算的需求, 因此各种No SQL数据库如雨后春笋般涌现, 当前主要有四种类型的No SQL数据库。
●键值 (Key-Value) 存储数据库
此类数据库主要会使用到一个哈希表, 这个表中有一个特定的键和一个指针指向特定的数据。Key-Value模型对于IT系统来说, 其优势在于简单、易部署, 见表1。
●列存储数据库
此类数据库通常用来应对分布式存储的海量数据。键仍然存在, 但是它们的特点是指向了多个列, 这些列是由列簇来安排的, 见表2。
●文档型数据库
文档型数据库同第一种键值存储相类似。该类型的数据模型是版本化的文档, 半结构化的文档以特定的格式存储, 比如JSON。文档型数据库可以看作是键值数据库的升级版, 允许之间嵌套键值, 而且文档型数据库比键值数据库的查询效率更高, 见表3。
●图形数据库
图形结构的数据库同其他行列以及刚性结构的SQL数据库不同, 它是使用灵活的图形模型, 并且能够扩展到多个服务器上, 见表4。No SQL数据库没有标准的查询语言 (SQL) , 因此进行数据库查询需要制定数据模型。许多No SQL数据库都有REST式的数据接口或者查询API。
(3) 存储海量结构化数据的分布式并行数据库系统
Greenplum是基于Postgre SQL开发的一款海量并行处理架构的、无共享的分布式并行数据库系统。采用Master/Slave架构, Master只存储元数据, 真正的用户数据被散列存储在多台Slave服务器上, 并且所有的数据都在其他Slave节点上存有副本, 从而提高了系统可用性。
2.2 大数据与云存储
上述存储技术能够针对某一类型的数据进行存储, 但是大数据类型往往是结构化、非结构化数据并存的, 大数据存储系统须能同时支持各种类型的数据统一存储。在这样的背景下, 云存储成为大数据存储的必然选择。在存储资源获取接口上, 云存储和传统存储在功能上并无差异, 二者的区别体现在云存储可以按需提供易管理、高可扩展、高性价比的存储资源。根据存储的数据类型不同和应用需求不同, 云存储系统可以分为以下四种类型:基于块存储、基于文件存储、基于对象存储以及基于表存储。
云存储的四类服务接口上, 块存储和文件存储接口方面, 已有的标准协议已经非常成熟, 这里着重介绍下基于对象的云存储和基于表的云存储。
(1) 基于对象的云存储系统
Amazon S3 (Amazon Simple Storage Service) 采用桶和对象的两层结构来存储数据, 支持REST和SOAP两种访问协议, 可与多种网络开发工具集成工作。作为最早的云存储服务, 基于客户应用实践的积累, S3在对象存储的功能丰富方面也走在业界前列, 如对于超大数据 (数据容量5 TB) 存储、BT方式下载以及第三方支付的功能支持等。由于针对S3应用开发的广泛性, 围绕S3有一些开源项目, 使S3的编程工作变得更加简单, 方便非HTTP编程开发者使用。
(2) 基于表存储的云存储系统
表结构存储是一种结构化数据存储, 与传统数据库相比, 它提供的表空间访问功能受限, 但更强调系统的可扩展性。提供表存储的云存储系统的特征就是同时提高并发的数据访问性能和可伸缩的存储和计算架构。
提供表存储的云存储系统有两类接口访问方式。一类是标准的XDBC、SQL数据库接口, 一类是Map Reduce的数据仓库应用处理接口。分布式数据仓库一般采用MPP (Massive Parallel Processing) 架构实现海量数据存储和处理以及高并发数据读写能力, 它实现了SQL到Map Reduce的翻译、优化、执行和结果收集, 具有良好的扩展能力。分布式数据仓库的代表系统有商业软件Green Plum、中国移动Huge Table、开源Hive等。
3 大数据存储标准研究
目前国内外对于大数据存储技术标准的研究刚刚开始, 很多存储方面的标准化组织也开展了一些相关工作。
SNIA在2012年4月成立了大数据分析技术委员会 (ADBC) 致力于大数据分析的市场培育和发展, 并注重和大数据分析相关的产业主体的合作, 共同推动大数据的市场拓展和教育。ADBC技术委员会在大数据分析方面的工作侧重于存储和存储网络的使用。云标准客户委员会 (CSCC) 新成立大数据工作组致力于大数据标准的研究和培育。
此外, ITU-T、NIST、OASIS也纷纷展开大数据方面的标准研究工作。
云存储作为大数据存储下一步的重点发展方向, 其在标准化方面的工作值得大数据存储借鉴。因此, 本文以基于对象的云存储为例, 介绍其在存储接口方面的工作, 以供大数据存储标准的制定借鉴。
3.1 大数据存储参考模型
CDMI (Cloud Data Management Interface) 标准是由SNIA于2010年4月12日推出的首个云存储标准, 主要面向存储即服务 (Daa S) , 属于对象存储的范畴。CDMI给出了整个云存储参考模型, 如图1所示。按照存储系统提供存储资源接口的不同, 云存储的接口可分为四类:块存储 (如i SCSI) 、文件存储 (如POSIX) 、基于对象的存储 (如CDMI和适配器转换方式XAM) , 以及基于表的存储。
3.2 数据模型
SNIA的CDMI借鉴了Amazon S3中对象和桶的两层架构, 并且进一步采用五类对象进行数据存储管理和访问操作, 包括容器对象、数据对象、域对象、能力对象和队列对象, 其中后三个可以看做特殊的容器对象。每个对象通过多个Key-Value数据进行元数据描述。元数据包括安全和数据存储管理方面的元数据、用户自定义元数据等。
3.3 接口协议
SNIA的CDMI支持REST接口协议, 并在HTTP标准基础上进行了扩展。
3.4 操作能力
CDMI除了对能力对象仅仅提供读操作以外, 其他对象均支持增删改查四种操作。CDMI还支持对域对象、队列对象和能力对象的操作能力。
3.5 服务使用方式
目前用户使用基于对象的云存储服务, 主要有以下三种方式:
(1) 直接采用REST或HTTP接口, 编程实现与云存储系统的交互。
(2) 通过与特定编程语言绑定的API开发包。这种方式通过在REST接口之上封装一层, 可以提高特定语言开发者的编程效率。
(3) 通过云存储运营商管理门户 (Portal) 或第三方管理软件实现。用户无需编程, 直接通过图形界面使用, 或直接使用管理软件, 由管理软件调用REST接口实现存储的管理。这种方式下, 用户对后台的控制能力受到Portal或第三方管理软件的限制。
不同的支持方式可以服务于开发者、最终用户等不同需求的云存储用户。
3.6 大数据存储标准化方面的建议
从以上分析可以看出, 云存储标准与大数据的存储标准需求在架构模型、数据模型、接口协议、操作模式以及服务使用方式上十分类似, 但大数据存储本身还有许多特殊的需求, 与大数据分析关系比较密切。因此, 大数据存储标准可以在现有云存储标准上进行扩展, 以适应大数据存储的需求。
4 结语
大数据存储解决方案论文 篇10
[关键词]大数据;非均匀存储访问;线程调度
[中图分类号]C37 [文献标识码]A [文章编号]1672-5158(2013)06-0031-02
引言
在当今时代,互联网迅猛发展,各行各业数据量猛增。数据种类繁多,数据量巨大,大数据时代来临。随着大数据的来临,大数据处理成为越来越有价值的工作,而大数据的高性能处理则至关重要。
目前大数据处理大都采用多处理器系统,而多处理器系统中的非均匀存储访问架构为进行大数据高性能处理的主流体系结构之一。
1 非均匀存储访问技术特点
1.1 多处理器系统模式
在多处理器系统中,比较流行的有三种模式,即对称多处理模式、大规模并行处理模式、非均匀存储访问模式。对称多处理模式是在一个主存上连接着两个或两个以上的处理器,这些处理器共享一个主存,也被称为均匀性存储访问系统。大规模并行处理模式是分布式存储器模式,可扩展性比较好,但是需要并行编程和并行编译,在软件系统构建上比较复杂,使用不便。非均匀存储访问架构是将若干个单元通过专门的互联设备联结在一起组成分布式和共享内存系统。每一个处理器可以访问自己单元的存储器,也可以访问其他单元的存储器,所有访存有远近、时延长短之分,称为非均匀存储访问。
1.2 非均匀存储访问架构的性能优势
非均匀存储访问架构的性能优势主要体现在以下几个方面:第一,非均匀存储访问处理器访问同一单元上的内存的速度比一般对称多处理模式超出一倍。第二,非均匀存储访问的突破性技术彻底摆脱了传统的超大总线对多处理结构的束缚,它大大增强单一操作系统可管理的处理器、内存和I/O插槽。最后,非均匀存储访问系统提供内存互联的硬件结构,这种技术可以开发新型动态的分区系统。系统分区可以允许系统管理员根据用户工作负荷的要求,简单地管理和使用CPU和内存资源,从而达到最高的资源利用率和最佳的性能。正因为以上的原因,非均匀存储访问架构得到越来越广泛的应用。
2 非均匀存储访问技术线程访问时间研究
非均匀存储访问系统的基本特征是具有多个CPU模块,每个CPU模块由多个核(如6个)组成,并且具有独立的本地内存、I/O槽口等。由于其节点之间可以通过互联模块进行连接和信息交互,因此每个CPU可以访问整个系统的内存。但是线程访问远近程存储器的时间是不一样的。
我们使用的非均匀存储访问系统是四个主频为2.2GHZ的双核AMD opteron多处理器,每个处理器有2x1GB DDR400 DRAM内存。如(图1)所示。四个处理器由coherent HyperTransport(相关性超传输)总线连接,每个处理器有一条双向HyperTransport(超传输)总线和I/O连接,两条双向相关性超传输总线分别和另外两个双核处理器连接。每个双向超传输总线的数据传输带宽为4 GB/s。系统有4个节点NO,N1,N2,N3。每个节点有自己的内存控制器(MCT),连接着本节点的内存。每个节点有2个核CO,c1,两个核连接着一个系统需求接口(sRI),系统中间有一个交叉设备XBar,SRI、内存控制器、各种各样的超传输总线都和XBar连接。
在非均匀存储访问系统中,内存需要可以来自于本节点的核,也可以通过超传输总线来自于其它节点的核。前者叫做本地访问,对内存的访问要求从核到SRI,到XBAR,再到MCT;后者叫做远程访问,内存访问要求的路线是从远程节点的核通过超传输总线到达XBAR,从XBAR再到MCT。每个节点的SRI、XBAR、MCT都有缓冲区,缓冲区用来存放需要传送的数据包。
在非均匀存储访问系统里,影响应用程序处理大数据的性能主要有以下几个方面:
①远程内存访问。处理器访问远程存储器的次数多少会直接影响一个应用程序的性能。提高非均匀存储访问系统性能的策略之一就是减少远程访问的次数。要尽可能地让进程在本节点执行。
②相互连接的超传输总线带宽的影响。
③内存竞争的影响。当许多处理器在同一时刻访问一个内存单元的时候就会出现内存竞争,内存竞争会增加内存响应时间,降低程序的执行效率。恰当的数据分配策略会减少内存竞争。
④内存带宽的影响。
⑤缓冲区影响。在非均匀存储访问多处理器系统中,缓冲区在性能上发挥着重要的作用。如果处理器在本地缓冲区中没有找到需要的数据,就会访问远程的存储器。
⑥系统中各种各样缓冲区可容纳缓冲队列长度的影响。
2.1 远近程内存访问的时间差别
线程本地存储器访问和远程存储器访问时间究竟有多大的差别呢?我们先用一个例子来研究远近程内存访问的时间差别。
我们得到处理器所记录的当前时间的方法是使用时钟周期数TSC的值乘以CPU的时钟周期cycle来得到。就是在每次处理器启动的时候把TSC的值清零,然后每个时钟周期TSC的值都加1,这样要得到代码执行的周期数就在一段固定代码执行前后分别读取TSC的值即可。用下列公式可以计算代码执行时间:
T=(TSC1-TSC2)·cycle
当线程运行和访问内存都在同一个节点时,就叫做本地访问或0-跳访问。当线程运行在一个节点,访问内存却在其他节点,就叫做远程访问。在远程访问中,如果线程运行的节点和内存访问的节点是彼此直接连接的,就叫做1-跳访问。如果线程运行的节点和内存访问的节点不是直接连接的,就叫做2-跳访问。如图1中,线程在节点0运行,则其对于节点1、2、3的访问即为远程存储器访问,对节点1、2的内存访问叫做1-跳访问,对节点3的内存访问叫做2-跳访问。
我们采取了一段串行程序使用一个线程向不同节点存储区域写入5M相同大小数据量的方法来测试访问的时间,并且,每次实验我们重复了2000次。统计结果表明,本地存储区域的访问时间是最短的,平均为2166μs;而对于远程存储区域的访问则需要较长的时间,其中1、2节点的访问时间平均达2445μs,而节点3,访问距离最远,访问时间也最长,平均达3032μS。
由此实验可见,在非均匀存储访问系统中,访问远程内存的速度要慢于访问本地内存的速度。在本例中,1-跳距离的存储访问时间是本地存储访问的1.13倍,2-跳距离的存储访问时间是本地存储访问的1.4倍。访问远程数据的距离越远,付出的时间代价越高。我们在应用程序中,尽量保持数据在节点内部访问。
2.2 单线程只读和只写远近程存储器的研究
如果对内存的访问为只读或只写,本地访问和远程访问时间有什么差别呢?我们用下面的例子来研究只读和只写访问远近程存储器的影响。
我们采取一段串行程序使用一个线程向不同节点存储区域分别连续读出和写入60M相同大小数据量,读写入的大小要远远大于缓冲区大小。线程运行在节点O的C0上。并且整个系统只有这一个线程运行。线程的数据访问分为以下几种:
*线程本地访问节点0内存。(0-跳)
*线程远程访问节点1内存。(1-跳)
*线程远程访问节点2内存。(1-跳)
*线程远程访问节点3内存。(2-跳)
访问时间结果表明,随着访问距离的增加,读写访问的访问时间都增加了。每种情况,写访问的时间都大于读访问的时间,因为写操作会生产出更多的内存带宽负载。但是读写访问的访问时间都随着访问内存距离的增加而增加。
2.3 节点间和节点内线程调度访问研究
如果是多线程,通过节点调度多线程有以下几个制约因素:
*系统是否空闲,也就是系统有没有其它负载;
*多线程是否访问各自私有的数据。
*多线程是否访问共享的数据。
我们先来研究系统空闲下线程只访问本节点私有的数据。
我们使用2个线程进行写操作,每个线程都写)260M的数据,都访问本节点的内存。第一种方法是节点间调度,即一个线程在节点0的核0运行,另一个线程在节点1的核0运行;第二种方法是节点内调度,即2个线程分别在节点0的核0和核1上运行。比较两个线程运行的总时间。结果表明,节点间调度线程的执行时间比较少。
随后我们又使用8-CPU非均匀存储访问系统工作站(AMDOpteron 6168 1.9GHz processor,64G RAM,48 core,8节点,每个节点6个核)实验环境,使用6个线程进行写操作。都访问本节点内存,分上述两种情况,即第一种方法是节点间调度,每个线程分别在6个节点的核0运行,第二种方法是节点内调度,6个线程都在节点0的每个核运行。结果为,第一种情况执行时间比较少。
在非均匀存储访问系统中,在空闲执行环境下访问私有的数据,我们应尽量避免使用第二种情况来调度线程。从负载平衡的角度来说,如果某一个节点负载过多,而其他节点空闲,必然会导致一个节点内的资源产生竞争,从而影响应用程序的执行效率。
如果在空闲执行环境下,各线程之间的数据共享,我们使用2个线程和6个线程在2种环境下分别进行了测试。线程都访问本节点内存,第一种方法是节点间调度,一个线程在节点0的核0运行,另一个线程在节点1的核0运行;第二种方法是节点内调度,2个线程分别在节点0的核0和核1上运行。6个线程写60M数据的两种方法,第一种方法是节点间调度,每个线程分别在6个节点的核0运行,第二种方法是节点内调度,6个线程都在节点0的每个核运行。结果表明,在节点内调度线程的执行时间比较少。因为各线程之间数据共享,访问内存数据的距离越短,时间越少。所以我们在空闲环境下进行线程调度,各线程间数据共享,优先从节点内进行调度,一个节点调度为完毕,再从另一个节点进行调度。
对于上述实验,我们在系统有少量负载的情况下也做了相应的实验,取得了类似的结果。
由此可知,在非均匀存储访问系统中,在系统空闲的情况下,或者少量负载的情况下,对应用程序进行大数据处理提出如下建议:
*如果线程仅访问本节点私有的数据,优先从节点间调度线程;
*如果线程间数据共享,优先从节点内调度线程,一个节点饱和后再从另一个节点进行调度;
*如果线程需要访问的既有独立数据又有共享数据,但私有数据远远大于共享数据,优先从节点间调度线程。
3 结束语
当今,在互联网及各行各业都存在着大量数据需要高性能处理,本文通过实验对非均匀存储访问技术进行研究,发现了读写内存、不同访问距离等各种情况下线程内存访问的性能特点。得出了应用程序在线程调度中的重要结论,对大数据的高性能处理有重要的指导意义。
参考文献
[1]都志辉,高性能计算并行编程技术-MPI并行程序设计,清华大学出版社,2001
大数据分布式存储的冗余研究 篇11
关键词:数据库,大数据,分布式存储,HDFS
近年来,在大数据的环境下,数据的存储出现了许多新的需求,关于数据的可靠性已经越来越被受到重视,所以数据的冗余已经成为研究的热点。现在的系统都是大规模并且需要时长时间稳定运行的,而信息的数量和可靠性正是现在大多是企业所要面临的问题和挑战,这就需要对系统的数据冗余程度的可靠性进行详细的分析和研究。而冗余的策略中备份数据的数目和系统的可靠性密切相关,如果设置太少,就会发生在突发情况下数据的丢失和不易恢复,如果备份设置太多,就会造成存储成本的提高和资源的利用不合理。将分布式存储系统建立模型,然后分析HDFS的冗余机制,在保证系统的可靠性的前提下,得出一个合理的备份数目。
1 分布式存储系统冗余模型
分布式存储的可靠性是通过数据的冗余和存储节点的协作来保证的。分布式存储系统中的冗余机制可以调高数据的可靠性和系统的高可用性。是把同一数据存储在多不同的节点实现数据的可用性,就算是个别节点的数据丢失,剩余其他的节点也可以重构原有数据,其原理如图1所示。
复制是最简单的数据冗余策略。是将一个文件复制成多个备份然后分别存储到系统其他不同节点,一旦发生数据丢失,只要其中一个节点有备份,就可以完整的得到数据。一般来说,如果文件的复制的备份数目越多,数据的可用性和可靠性就越高。但是往往随着备份的数目的增加,会造成硬盘利用率的下降,由于增加了数据的备份,也间接的调高了读写效率[1]。备份数目对系统的可用性影响很大,如果创建的太少就会发生数据丢失并且会造成数据热点,如果设置的太多则会造成存储成本的提高和磁盘空间的浪费。HDFS复制的默认数据备份数是3份,即在数据写入的时候,系统就会默认的复制成三份,然后根据一个备份机制分别存在不同的节点[2]。关于备份数目的影响因素:可以手动调整备份数目;备份所在节点存储空间不够就会发生备份块的丢失;如果备份的默认数目是3,但是节点数目低于3,就会发生数据快的备份数目不够的情况,一般来说,HDFS的三份备份需要得三个节点。
分布式存储复制冗余的数据的结构与数据修复过程如图所示,图1中文件复制成S个备份,图2则显示即使有S-1个节点的数据失效,也能重构原文件。
所有的数据按照固定大小(默认的是64M或者是128M)划分成block,称为基本块,然后各节点会自动的再进行备份,得到的数据称为备份块。
图3就是HDFS分布式存储系统的一个基本框架,图中绿色的数据块表示基本块,白色的数据块表示备份块,客户端1在读取数据块1的时候,会优先请求节点1提供的1的基本块,只有在读取失败后才会委托节点1提取在节点2,3,4中的备份块。客户端2写入文件2,首先会在节点3写入基本块3,由节点3将基本块复制将备份存储在其他节点上。分布式存储系统包含许多能复制数据的存储节点,如果这些节点都是足够可靠,则整个系统就是可靠的[3]。而使用的HDFS就是默认的有三个备份,但是系统某些节点总会发生意外,出现故障,会从集群中撤离。对于撤离的节点,系统不再能从这些节点获得任何数据,如果只是一台发生故障,还不会影响整个集群,但是同时有多台服务器发生故障[4],就可能发生数据丢失的后果。一般来说,如果我们要对系统升级,一般会滚动重启,要么也是逐个节点数据转移下线,然后升级再上线[5]。
集群的节点一般有三种状态,即在线、离线和死亡,分别用状态1、状态2和状态3表示,用包含这三种状态的马尔可夫链来模拟整个集群。假设单个节点都是从状态1开始,一般都是状态1和状态2的互相转换,最坏的状态是状态3。状态变换图如图4所示:
节点的在线时间t,离线时间tˉ都满足指数分布[6]。
使用马尔可夫链模拟[7]整个系统。假设在某个时间点,总共有n个备份,有k个可用备份,而剩下的n-k个备份是需要修复的。如果此时的系统有k个可用备份块,定义此时的系统状态为k,若k个可用备份中任何一个失效则系统转为状态k-1,如果n-k个待修复备份中任何一个被修复则系统转为状态k+1。
以下的图5模型是一个连续马尔可夫链,此时的系统有n个备份,定义系统节点是小的概率是kλ,定义系统节点修复的概率是(n-k)。状态0为起始态,表明没有任何可用备份,系统失效。
假定分布式存储系统节点数目是i个,那么i个节点上的备份全部失效的概率Ui(也就是系统完全失效的概率):
得到了i个副本全部失效的情况下系统失效的概率公式,这也是从理论上分析了系统的失效率。
2 实验验证
为进一步验证数据备份的数目和系统的高可靠性和高可用性之间的关系,文中使用分布式系统HDFS进行仿真实验。实验的主要参数如表1所示:
用HDFS做一个简单实验,默认情况下HDFS存在三个备份,冗余度为3,上传一个文件128M*16,也就是说这个文件分成了16个块,存放在集群上。假设如果有任意一个节点能ping到该节点则表示它在线,反之则表示它离线。现在开始研究备份数目和节点失效率这两个因素对系统的可靠性的影响。分别在节点宕机率为0.01和0.05和0.1的情况下,用副本数目分别是2、3、4来测试集群的失效率,表2是数据的失效率与备份的数目和单机大宕机率之间的关系。
从表中发现,备份得数目比较多的时,数据的可靠性就会大一点,目前大家把e-10作为一个界限,当系统的失效率低于这个值时,就是可以接受的,所有在宕机率一般为0.05左右,三份备份数据就是一个合理的备份,这也是HDFS默认的备份数目是3的原因。如果备份太多,就会造成硬盘的浪费,所以选取合适的备份数目,才能在保证系统的可靠性的基础上保证系统的可用性。
3 总结
为了权衡系统的高可用性和高可靠性,就要对分布式存储的冗余策略做一个详细的分析和研究。文中使用马尔可夫链模拟分布式系统的集群状态,然后使用数学手段计算推导系统的失效率。使用HDFS来测试节点的宕机率与数据的失效率成正比,数据的备份数与数据的失效率成反比,一般来说,数据备份数目3是一个合理的值。
参考文献
[1]TOM White Hadoop权威指南[M].清华大学出版社,2015.
[2]http://www.e-gov.org.cn/xinxihua/news08/201311/145690.html
[3]Jing Tian,Zhi Yang and Yafei Dai,A Data Placement Scheme with Time-Related Model for P2P Storages,Proceed-ing of Seventh International Conference on Peer-to-Peer Com-puting,2007.
[4]马延辉,HBase企业应用开发实践[M].机械工业出版社,2014.
[5]Lars George HBase权威指南[M].人民邮电出版社,2013.
[6]Weatherspoon H,Chun Byung-Gon,So Chiu Wah,et al.Long-term data maintenance in wide-area storage systems:a quantitative approach[R].Berkeley USA:University of Cal-ifornia,2005.