云存储模型架构(精选6篇)
云存储模型架构 篇1
云计算是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序, 再交由多部服务器所组成的庞大系统经计算分析之后将处理结果回传给用户。云存储的概念与云计算类似, 它是指通过集群应用、网格技术或分布式文件系统等功能, 将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作, 共同对外提供数据存储和业务访问功能的系统。可以说云储存是在云计算的概念上延伸和发展出来的一个新的概念。
1 云存储的技术原理
与传统的存储设备相比, 云存储不仅仅是一个硬件, 而是一个网络设备、存储设备、服务器、应用软件、公用访问接口、接入网和客户端程序等多个部分组成的系统。云存储提供的是存储服务, 存储服务通过网络将本地数据存放在存储服务提供商 (SSP) 提供的在线存储空间。需要存储服务的用户不再需要建立自己的数据中心, 只需向SSP申请存储服务, 从而避免了存储平台的重复建设, 节约了昂贵的软硬件基础设施投资。
与传统存储技术相比较, 云存储具有三点不同:⑴传统存储系统主要是高性能计算、事务处理等的应用, 而云存储则是面向互联网的在线存储服务。⑵云存储主要是数据安全、可靠、效率等指标的技术挑战。⑶云存储要提供传统文件访问和支持海量数据管理公共服务支撑功能。
2 云存储面临的安全问题
2.1 云储存恶意程序日益增多以及对云的不良使用
根据e Marketer调查, 2012年美国智能手机市场占有率达47.7%。继“Dropbox”、“i Cioud”推出后, 许多厂商相继推出云储存, 该类型服务成为市场新兴潮流。由此可知, 在现今科学技术高速发达的社会, 云储存在各行各业的运用已经普及。越来越多的人把个人隐私资料存储在云上, 但近年来云储存恶意程序日渐增多, 许多黑客开始锁定这个目标盗取存储在云上的人们的个人隐私。若用户下载了附加恶意程序的App或使用病毒软件时, 在云上的个人隐私或企业机密就会黑客盗用, 给用户造成各种各样的损失。
为了降低成本, 许多服务供应商引进了便利性设备, 通过设备让多人共用一个云储存。虽然给用户带来了便利性, 但安全隐患也随之增加。当恶意程序感染云储存的时候, 会给多人造成危害。
2.2 数据不安全
数据不安全主要包括数据传输不安全、数据隔离不安全、数据残留不安全三种。数据传输不安全主要不是采用加密算法带来的, 而是通过采用加密数据和使用非安全传输协议造成的数据流失。由于目前还无法实现数据全加密, 而供应商又不可能提供单租户专用数据平台, 所以我们只能用公共云储存。而公共云储存又有很多程序疏漏, 这就是造成数据隔离不安全的因素。用户在删除云储存中的信息时很可能被别人重建, 造成信息流失。
2.3 应用不安全, 虚拟化不安全
2.4 恶意的内部人员
除此之外, 还有账户或服务劫持、未知风险等等, 在此就不一一说明了。
3 针对这些安全问题提出解决方案
3.1 映射技术
映射技术是一种事件触发应用, 还包括磁盘容量的扩展、缩小、损坏维修、饱和和填充。若引进映射技术, 云储存中的处理程序和管理设备之间就会形成映射关系, 它的功能有两种:⑴数据自动保存、复制、黏贴和删除。防止电脑死机等多种因素造成用户信息流失, 当云储存里的恶意程序遭到入侵时, 这种技术会通过程序的互相映射对恶意程序进行删除。⑵备份的透明替换。主要是先建立一个云储存, 在这个云储存里建立多个备份, 并在建立备份的过程中建立多个副本, 防止云储存无法复原。
3.2 缓存技术
缓存技术就是指通过准确的计算, 将缓存有效的应用到数据校对、恢复中。主要包括磁盘饱和计算和异地数据恢复计算。
3.3 磁盘技术
磁盘技术是利用客户端的代理程序将相关数据存到数据块中, 并将之备份。如果客户遗忘解密钥匙, 这种技术将给客户提供正确的相关信息帮助客户更新解密。磁盘技术防止客户既能云储存中的信息流失又能防止内部恶意人员, 为客户带来了双赢局面。
4 结束语
本文根据云储存和云计算的关系, 分析了云储存在运用过程中存在的数据不安全, 移动设备存在恶意程序, 数据应用不安全, 虚拟化不安全等因素做了分析, 并相对提出了技术解决方案, 分析了云储存架构安全技术的应用, 教云储存的用户如何安全的用云储存技术。
摘要:随着互联网技术的不断发展, “云”这一概念被提出, 云存储作为其延伸和发展也得到了广泛的关注和支持。但云存储自身所面临的安全问题阻碍了它的推广和应用, 云存储的安全问题也不仅仅是传统安全能够完全解决的。本文主要探讨了云存储的技术原理、云存储的技术使它面临的安全问题和针对这些安全问题提出的方案。
关键词:云储存,云计算,安全隐患,技术处理
参考文献
[1]朱源, 闻剑锋.云计算安全浅析[J].中国电信股份有限公司上海研究院, 2010, 51-55.[1]朱源, 闻剑锋.云计算安全浅析[J].中国电信股份有限公司上海研究院, 2010, 51-55.
[2]洪枚.移动云储存之现况与问题[J].行业视点, 2012, [15], 22-23.[2]洪枚.移动云储存之现况与问题[J].行业视点, 2012, [15], 22-23.
[3]杨晓峰.浅谈云存储环境下的容灾关键技术[J].计算机光盘软件与应用, 2012, [5], 155-157.[3]杨晓峰.浅谈云存储环境下的容灾关键技术[J].计算机光盘软件与应用, 2012, [5], 155-157.
基于云计算的数据存储架构研究 篇2
数据存储是实现信息技术的必备环节, 传统方式是将各种数据资源存储在本地进行数据交换。每当企业要建立一套专属的IT软件系统就不仅要购买一定的软件, 还要购买相应的硬件资源实现运行和存储, 而且还要聘请专业的IT人员对所存储的数据进行维护, 特别地对于重要数据还要妥善完成保留存档工作。当今, 随着企业的进一步发展, 企业就可能要面对硬件资源的升级以及海量数据的存储, 这就导致企业必须投入大量的人力和物力以满足企业发展所形成的现实需求。
随着计算机技术、网络技术和信息处理技术的发展, 云计算技术应运而生, 甫一出现, 企业即无需再如以前投入大量的人力和物力来购买硬件资源, 具体则包括存储设备以及相关的海量数据在内, 而是只需向云中心的服务人员申请所需的资源, 再由云中心的服务人员为企业用户分配相应的资源, 还可以对用户的申请进行动态分配资源, 这就大大降低了企业的运维成本, 使企业更加专注于自己的核心业务。云计算的出现, 宣告了低成本提供超级计算时代的到来, 即可为使用网络提供了几乎无限多的可能, 为存储数据提供了几乎无限量的空间, 也为各种应用提供了几乎无限大的计算能力。在众多有利态势的高效推动之下, 云计算作为未来IT的发展趋势已经不容质疑[1]。
1 云存储
云计算是一种新的计算模式, 其目的是通过网络将资源整合在一起, 使资源得到最大化的优质利用。高性能的存储是构建云计算的基础, 云存储可以向用户提供高性能的存储服务, 企业将不再需要购买自己的存储服务器。而是只需要付出少许费用就可以从云服务提供商处获得高品质的云存储服务, 企业只要专注于核心业务创新能力的提升, 由此则进一步强化了企业的核心竞争力[2]。
2 云存储体系架构
在云环境中, 存储是由许多存储设备通过集群技术整合在一起的共享存储中心。这些设备可以是相同的, 也可能是异构的。数据中心通过将这些异构的文件系统整合构建为一个高效的、高可扩展性的整体向用户提供了云存储服务[3]。云计算环境中数据存储体系架构如图1所示。
2.1 数据中心
数据中心是存储体系的基础, 其中包括各种各样的存储设备, 还包括着存放在这些设备上的文件系统。文件系统是存储体系的核心, 分布式文件系统可以实现多个存储设备之间的相互协同工作, 使网络上不同位置的文件就像在本地一样供服务器按需调用[4], 即对外提供一种服务, 也就是通过接口提供了更为强大的数据访问能力。
云存储文件系统的设计受到负载和技术的影响, 而根据存储文件系统的特点和要求可以推知, 文件系统的技术功能主要包括:安全性管理、一致性管理、文件命名系统、通信管理和容错管理。现在对其重点功能开展如下论述。
数据的可靠性是衡量存储文件系统的最重要指标。在云计算环境中, 会有成千上万个节点在参与运算, 某一时刻, 必然会有某些节点处于故障状态, 此时此刻, 数据的可靠性就显得尤为重要。所以在文件系统的设计时就需要考虑以下几个方面的问题:
(1) 可用性原则, 即系统中节点为用户提供服务的能力。
(2) 可持续性原则, 即系统可以持续无故障为用户提供服务的能力。
(3) 安全性原则, 即系统中节点在出现故障的情况下, 数据能够安全恢复的能力。
(4) 易维护性原则, 即系统在运行过程中减少工作人员的工作量的能力[5]。
文件系统的另一个重要的功能就是进程间的通信, 进程的通信都是通过底层网络进行数据交换的。网络进程间的通信协议也是文件系统的重要基础, 不能因为存储模式的不同即导致存储产生较高的延迟和缓慢的响应。在云平台中, 数据的存储和备份都需要较快的响应速度。
云平台数据的安全性也是云计算中人们普遍关注、却亟待解决的另一核心关键问题。在云计算中, 用户数据存储在共享空间当中, 无论用户还是云服务提供商, 都需要这些存储的数据能够得到完善保护, 不会出现恶意泄露以及盗窃。云服务提供商更需要对用户的敏感数据提供妥帖的安全保护, 这也成为云服务提供商的首要任务[6]。
若要提高数据中心的安全性, 就要根据云平台中的系统文件可能存在的安全威胁来确立相应的安全策略和保护机制。在云平台数据中心存储数据的访问都是基于信任机制的, 这通常都是由应用程序来实施管理, 在云平台中, 多数虚拟机是共享内存和CPU等公共资源的[7], 如何防止这些数据不被错误的虚拟机访问和破坏, 就需要考虑以下两个方面的因素:通道安全问题和权限授权问题。其中, 通道安全问题主要就是进程或者线程之间通信的安全性问题。通信安全主要涉及数据加密、身份安全认证、数据的完整性和可靠性以及数字签名等安全性方面的相关问题。而授权问题则主要是在通信安全的前提下, 对数据中心内部某些资源的可访问性的一种赋权, 这可归类于资源访问控制方面的问题。
2.2 服务接口
不同的云服务提供商, 提供的应用程序服务也是不同的, 但通过服务接口的设置却屏蔽了底层服务商的差异性, 即用户可以通过接口实现对数据中心内部数据的操作和访问, 而无需考虑底层服务商的具体差异, 服务商对用户只是根据资源的访问权限来进行分配和控制, 如此即保证了云平台中存储系统的灵活性和可扩展性的要求[8]。
2.3 服务等级
云服务等级是用户享受云服务商提供云服务的级别, 也是云平台中存储服务的一个重要指标。用户所享受的云服务等级与用户向云服务缴纳的费用有关, 用户缴纳的费用越高, 用户的服务等级就越高, 反之, 就越低。用户的服务等级越高, 用户就能更为快速地享受到定制服务[9]。合理的服务等级收费对用户来说非常重要。
2.4 云用户
享受云服务的用户既包括个人, 也包括企业等。云用户不需要很大开销就可以得到高性能的计算资源和存储资源, 更重要的是这些资源也不需要额外费用来运营和维护。用户只要通过终端设备如手机, 平板电脑或者笔记本就可以连到数据中心享受各类服务。企业是云服务的最大收益者, 以前企业建立自己的IT系统需要投入大量的人力、物力和财力, 而今企业只需要配置软件就可以获得与之前同样的现实效果。
3 云存储架构实现的关键技术
云存储系统是一个统一整体, 包含多应用、多设备和多服务等众多方面的协同合作。云储存系统的实现既需要由各种结构差异的终端来共同协作, 也需要相对成熟的各项技术的通力配合。其中网络带宽等基础设施必须能够提供充足保证, 也就是能够屏蔽各种底层硬件基础设施的差异, 向用户提供统一的服务。而且, 云存储系统作为一个协作的整体, 更是集成技术、网格技术以及分布式文件系统的统一整合, 由此可使多个设备之间协同工作, 并通过将各种闲散的资源集结成群, 使服务器具有更加强大的计算能力和存储能力。实现云存储的另一基础就是虚拟化技术, 具体来说就是, 用户是看不到各种设备之间差异的, 并且用户之间的数据也互不影响[10], 用户不必担心计算资源或者存储资源等细节问题, 而这些都是由管理员来进行统一管理和调配的。另外需要指出的是, 一定的数据加密技术也是保证用户及系统安全的必备利器。
云存储系统的结构模型可分为四层, 分别是存储层、基础管理层、应用接口层和访问层, 具体如图2所示。
3.1 存储层
云存储系统最基础的部分就是存储层。在云存储系统中, 各种存储设备比较分散, 并且数量众多, 这些设备之间均是通过局域网、广域网、Internet或者光纤等连接在一起, 再由存储设备管理系统来对这些品种繁多, 结构各异, 而且分布广泛的设备实现统一管理。针对这些设备, 该系统可以实现冗余管理、容错管理和虚拟化的管理, 同时也可以对设备的状态进行监控和故障的维护。
3.2 基础管理层
存储层系统最核心的部分就是基础管理层。管理层是集群技术、网格技术以及分布式文件系统技术的有机结合体。通过这些技术可以屏蔽底层硬件的差异, 使多个不同的设备实现协同工作, 从而对外提供统一的服务, 以及具备强大的数据访问能力。
3.3 应用接口层
存储层系统最灵活多变的部分就是应用接口层。这一层主要是根据用户的不同需求, 向外提供多样化的服务。并且根据应用程序的不同, 也需要提供不同的接口。例如:要为视频监控提供合适的接口, 为网络硬盘程序提供适合网络硬盘的接口、为视频点播程序提供有关的应用接口等。
3.4 访问层
普通的用户可以根据服务提供商允许的授权, 输入指定信息登录到服务提供商的云存储系统平台中, 并根据费用享受相应等级的云服务。而且, 由于服务提供商的不同, 所提供的访问策略和访问方式也必将有所不同。
4 企业对策
随着信息技术的发展, 云计算技术也越发成熟。为适应这一形势变化, 无论中小企业还是大型企业也都必将发生一场深刻的变革。中小企业为了降低运营成本, 企业的传统数据中心则必将会向云数据中心迁移, 而大型企业也必将因应时势而建立自己的私有云数据中心。因而在云计算发展的过程中, 不同的企业也将随之出台不同的对策[11,12]。
4.1 向服务商租用计算资源和存储资源
云计算的提出, 对于中小企业来说是一场时代机遇, 构建自己的私有云平台, 无疑给企业的发展带来了巨大的经济负担。当前中小企业的最佳对策就是向云服务提供商租用计算资源和存储资源, 这样中小企业就不需要再支取巨额费用来购买硬件资源, 也不需要专门聘请IT管理人员进行设备的维护工作, 企业就可以专注于自己核心业务的拓展, 从而降低了企业的运营成本, 提高了企业在实际市场上的核心竞争力。
4.2 构建私有云
虽然现在很多服务商都已提供了大型的云平台, 但是对于经济实力雄厚的大型企业来说, 鉴于公有云平台的安全性和不确定性, 并出于数据的安全和保密的考虑, 这些企业所做出的选择通常是构建自己的私有云平台, 以增强自身的IT业务处理能力, 降低企业的运营成本, 并进一步提高企业的综合竞争实力。这样, 大型企业既享受到了云计算技术带来的好处, 同时也保证了企业核心数据的安全问题, 进而又增强了自身的创新能力, 由此可使企业在市场竞争中立于持续不败之地。私有云平台结构如图3所示。
5 结束语
云计算的提出给企业的发展带来了巨大的变革, 得到了越来越多企业的重视和青睐。云计算让更多的资源实现了共享, 不仅是计算资源, 也包括着存储资源, 这就使资源得到了最大化的利用。但是, 由于目前的云计算仍未建立一个开放的公共标准, 对于云计算服务转移的弹性相应地也就很低。如果一个垄断了用户云计算的公司, 出现倒闭或被吞并的情形, 那么对用户就将产生非常严重的后果。要使用户能自由地进行信息共享, 就必须形成开放的云计算公共标准。此外, 虽然云计算的数据对外具有较高的安全性, 但用户在使用云计算服务时, 用户并不清楚自己的数据的储存位置, 以及云计算存储公司是否遵循了当地的隐私协议。因而, 如何提供有效机制保证数据的安全性对于云计算的发展和应用则有着重要的理论价值和实际意义。
摘要:随着云计算技术的发展, 如何实现云环境中数据的高效存储是云计算提供服务的基本要求, 本文详细讨论了云计算环境下数据的存储体系结构, 为行业打造自己的数据中心提供了一个可靠的、高可用的、可扩展性的、可灵活管理和安全的参考方案, 最后也对不同的企业在云计算中的不同的角色, 给出了不同的发展策略。
关键词:云计算,云存储,数据存储架构
参考文献
[1]袁国骏.浅谈云计算及其发展应用[J].实验室科学, 2009 (2) :103-105.
[2]赵勇军.OPC架构之上的公共数据平台技术探讨[J].数字技术与应用, 2013 (6) :222.
[3]张桂刚, 李超, 张勇, 等.云环境下海量数据资源管理框架[J].系统工程理论与实践, 2011 (S2) :28-32.
[4]朱团结, 艾丽蓉.基于共享内存的Xen虚拟机间通信的研究[J].计算机技术与发展, 2011 (7) :5-8, 12.
[5]赵又霖, 邓仲华, 黎春兰.云服务等级协议的生命周期管理研究[J].图书与情报, 2013 (1) :51-57.
[6]张峰.云计算应用服务模式探讨[J].信息技术与信息化, 2012 (2) :81-83.
[7]李大勇.私有云计算技术在石油行业的应用[J].信息系统工程, 2012 (9) :92-94.
[8]王德政, 申山宏, 周宁宁.云计算环境下的数据存储[J].计算机技术与发展, 2011, 4 (21) :82-83.
[9]陈康, 郑纬民.云计算系统实例与研究现状[J].软件学报, 2009 (5) :1340-1342.
[10]赵勇军.基于数据库属性基础上的自主安全防护分析[J].无线互联科技, 2013 (6) :135.
[11]张慧, 邢培振.云计算环境下信息安全分析[J].计算机技术与发展, 2011, 12 (21) :165-167.
云存储模型架构 篇3
移动云计算是一种提供一组共享的计算资源的方法, 用户可以通过连接的智能移动设备访问在云端的应用程序。云端拥有大规模的数据中心, 计算资源如果可以动态总署并共享, 可以显著实现节能高效的规模经济。当前, 云计算的应用主要体现在客户可以直接从“云”里 (服务器端) 获得计算能力, 并按照使用情况付费。为了满足民生领域的信息化服务需求, 智慧城市建设中需要集成居民生活、生产、生活和管理的信息环节, 大量数据需要存储、访问。云数据通信中心主要依靠云存储区域网络来达到云存储设施之间的数据传输。提出动态云的智慧城市移动应用平台架构, 将尝试将一些客户端纳入云中, 通过虚拟化客户端资源, 提高云存储网络的安全性, 可用性和有效性和扩容性来达到数据访问的同时保护数据的安全, 将云中心的部分数据存储压力合理转移, 减少中心建设的成本, 是本文讨论的关键。
1 云计算在智慧城市中应用现状介绍
“智慧城市”是指能够充分运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息, 从而对于包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能的响应, 为人类创造更美好的城市生活。智慧城市的发展, 从技术的角度来讲, 应该是用最小的资源实现需要的功能, 满足用户真正的具体需要来达到目的。城市是一个高速的物流、人流、信息流、资金, 人通过信息流来控制城市的运转。城市建设中需要将人与人、人与物、物与物的关联, 通过物联网及智能感知手段关联起来。我们的物理基础建设, 如机场、公路, 水电气相关设置等与我们的宽带、个人电脑, 数据中心是分开建设的。如何有效的规划、管理, 以改善我们现有的管理运营生态, 从局部应用上升到更多层面, 需要理性的思考和审慎的决策。
智慧城市建设中的基于云服务的医疗服务, 可建立庞大的医疗、医药云, 实现用户的实时问诊;基于云服务的地理信息服务, 以云服务的方式向移动智能终端设备提供有关地理位置、拥堵情况、道路选择、公里测算等智能化的应用服务;另外, 当移动云服务与物联网互联时, 用户使用移动智能终端将能够拥有非凡的用户体验, 如用户可以随时随地的与家中的任何设备进行通信联系, 建立自己的云档案, 实现智能家庭、智能办公、智能健康等。
2 智慧城市建设中的云存储
智慧城市建设面临海量信息数据如何存储的问题, 而云存储可以在网络上方便快捷的存储处理这些信息。云存储实际上是在云计算机概念上延伸和发展出来的一个新的概念。它是指通过集群应用、网格技术或分布式文件系统等功能, 将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作, 共同对外提供数据存储和业务访问功能的一个系统。云存储不仅仅是一个硬件, 而是一个网络设备、存储设备、服务器、应用软件、公用访问接口、接入网和客户端程序等多个部分组成的复杂系统。各部分以存储设备为核心, 通过应用软件来对外提供数据存储和业务访问服务。云存储有两个不同层面的含义, 一个层面是指借助于云计算理念和技术提供存储服务, 如google的picassoweb在线照片存储服务;另一层面则为实现云计算机系统提供存储技术和支撑, 如网络文件系统、分布式文件系统和高性能并发文件系统 (HFPS) 等技术。
云存储的两个层面是作为云计算支撑的存储计算, 主要涉及分布式存储 (如分布式文件系统、IPSAN、数据同步、复制) 、数据存储 (如重数据删除、数据压缩、数据编码) 和数据保护 (如RAID、CDP、快照、备份与容灾) 等技术领域。和云安全技术一样, 云存储技术也需要利用现有的所有存储技术对平台进行分层架构, 同时对架构中的各个环节采用适当的存储技术, 才能取得最佳效果。
3 智慧城市动态云架构
数据存储在任何IT机构中一直是关键的问题。存储是复杂和昂贵的。在动态云环境中, 云存储是一种将存储抽象为定义良好接口的技术, 可以以自助服务的方式管理。智慧城市的动态云架构涉及客户端数据动态存储、客户端数据动态处理和客户端资源虚拟化三个方面。
数据动态存储是将企业客户端的数据存储能力结合到数据中心, 在用户使用时, 作业服务提供给其他客户使用, 包括用户或者其他第三方企业。智慧城市移动云架构如果是强数据中心, 弱客户端的架构, 那么, 如图1, 最终用户都是和云中心互动, 所有数据都需要汇集到云中心平台处理。而如果采用动态云架构, 那么, 如图2所示, 最终用户似乎都是和云中心互动, 实际是云中心只提供中转, 具体数据存储或处理可以到第三方企业终端调取, 弱化了云中心的存储和处理数据的能力。对于用户来说, 没有感觉到明显变化, 因为用户无需了解云中心的具体架构。在不需要和用户交互时候, 该架构可以从图2收缩成图1;需要和用户交互时, 又恢复到图2架构, 实现动态云架构。
4 智慧城市移动云存储平台建设原则
平台是战略的基础, 建设智慧城市, 提供各种便民应用服务, 涉及到国情民生和各职能部门, 必须谨慎, 充分考虑可管理性, 可成长性, 可扩充性, 需要一个成熟高效的数据存储平台作为支撑, 这个面向未来的的智慧城市移动服务存储平台框架, 需要充分考虑各方数据的融合处理, 还要考虑业务流程的处理, 尽可能减少在后期因为需求和技术变化而产生的重复性投入。
4.1 依托整体的战略规划部署应用
信息建设的发展需要高速的宽带网络和智能平台的支撑。智慧城市建设的重点是消除信息孤岛和利益壁垒。城市的公共研究设施资源、公共数据资源、公共服务资源需要统一建设, 真正实现信息共享, 系统共生, 为了更好的为各种智慧应用服务, 统一的的规划和部署显得尤为重要。
4.2. 依托统一的技术标准拓展应用
建立智慧城市移动应用信息化架构标准, 有助于协调各方资源, 实现包括公共安全、政务、医疗、交通、文化教育、旅游、农业、园区、环保、物流等诸多城市公共系统的信息共通共享, 实现跨系统应用集成, 跨部门信息共享, 最大限度的开发、整合和利用各类信息资源, 实现移动应用集成化, 进一步将智慧城市移动应用推向更高的深度和广度发展, 进一步丰富服务民生的各个应用。
5 云存储平台体系架构设计
5.1 平台的体系架构
智慧城市动态云存储平台体系设计以“统一架构、统一支撑、统一管理”为基本思路。通过整合现有数据资源, 重视移动应用信息的共享和业务的协调, 逐步实现各类信息的整合集中与共享, 避免重复建设。智慧城市移动云存储服务平台整体体系着眼于提升政府服务效率、节约政府管理成本, 在需求最迫切、最易实现的领域开展移动应用项目建设, 以点带面, 重点推进, 同时加强安全意识, 保证信息安全。
智慧城市移动应用云存储平台的体系框架以标准规范体系为保障, 分为数据服务层、数据管理层、数据存储层、用户访问层共四层 (如下图所示) 。
数据存储层提供智慧城市移动应用领域的数据支撑。存储设备可以是FC光纤通道存储设备, 或是NAS和ISCSI等IP存储设备, 或是SCSI或SAS等DAS存储设备。云存储中的存储设备数量庞大, 分布区域多, 彼此通过网络连接, 存储设备之上是一个统一存储设备的管理系统, 通过存储设备的虚拟化和多链路冗余管理, 以及硬件设备的状态监控和故障维护等, 实现云存储的基础部分。
数据管理层通过集群、分布式文件系统和网格计算等技术, 实现多存储设备之间的协同工作, 提供更强更好的数据访问性能, 通过DDN内容分发系统, 数据加密技术数据安全, 数据备份和容灾技术可以保证数据不会丢失。考虑用户信息安全, 实现各类信息的整合与集中, 聚合业务数据并具备副本数据服务二次封装整合的集成能力。
数据服务层提供了对用户、对设备、对应用的综合管理服务, 并在此基础上提供统一应用、内容发布、接入控制、用户验证等关键服务接口, 为智慧城市移动应用打造完善全面的移动数据服务体系。
用户访问层解决用户对数据的访问问题, 如个人空间服务、运营商空间租赁等。企业单位访问数据归档, 视频等。根据智慧城市移动应用领域的业务需求, 为政府、企业和市民提供精细化、智能化的数据访问和信息推送服务。移动数据访问应用包括政务、公共安全、能源、交通、文化教育、农业、企业等领域, 面向政府人员、企业人员, 普通市民主要实现移动办公和现场移动作业等。移动服务应用主要面向市民和企业, 提供对外客户服务, 延伸政府及企业服务窗口, 借助先进的移动互联网技术, 为市民和企业提供全面快捷的社会服务。
5.2 平台的存储方法
移动云存储平台的云中心, 涉到大海量的数据的管理, 为了满足不断变化的存储需求, 云存储平台的存储管理方法有三种。
直接连接存储 (DAS) :存储设备在本地总线上完成, 存储设备可能是计算机内部的硬盘存储器, 或是外部驱动器, 或者可能是在服务器上或专用服务器上共享的网络资源。多台机器可以共享存储, 但DAS通常不能被其他服务器直接访问, 在DAS的布置中, 一般不能共享数据, 但可以让一组用户访问。
存储区域网络 (SAN) :存储设备互相连接的高速网络。这些存储设备可以是服务器、光盘驱动器或其他存储介质。用户的局域网或广域网上的所有设备都可以访问那里的所有存储设备。它需要大量的配置和安装支持。
网络可寻址存储 (NAS) :NAS通常被构造为特殊的计算机, 被连接到网络上, 为其他计算机提供基于文件的存储。它是一种采用直接与网络介质相连的特殊设备实现数据存储的机制, 它容易安装, 并提供了可靠的文件级数据整合。NAS在数据必须长距离传送的环境中可以很好地发挥作用, 但没有SAN高速。如果对数据管理程度要求较高;网络中有异构平台就可以考虑NAS。
6 结论
智慧城市的发展离不开各种新技术和新模式的应用, 构建一体化移动应用数据资源中心, 需要政府和企业不断协调和规划, 尽管商业化的云存储平台像如亚马逊等, 能够提供成熟的解决方案, 在具体的部署数据规划时, 仍然需要考虑哪些应用和数据出于保密和安全的考虑存储在政府或企业内部, 哪些存储在公共云中, 而只有公共云部分才能考虑运用动态云技术。运用动态云, 将智慧城市建设中第三方企业终端是否纳入云中心来实现云存储平台动态的扩展和伸缩, 实现处理和资源化, 可以减少硬件成本, 降低网络性能要求, 它是值得考虑和研究的问题, 如何提高访问速度和效率, 真正实现城市信息资源数据共享应用, 是智慧城市移动应用建设始终要面对的问题。移动云存储平台仍然需要围绕各个架构层面以及用户、设备等, 以硬件加密和安全证书等安全措施为系统安全基石来规范智慧城市移动信息化建设。
摘要:智慧城市建设一般采用“云—端”模式, 架构采用强数据中心 (服务端) , 瘦 (弱) 客户端模式。本文从减轻云数据中心的数据存储、数据处理、资源配置等压力出发, 考虑动态云的智慧城市移动云存储平台架构, 考虑将一定存储能力和处理数据能力的企业客户端, 根据需要, 结合到云数据中心, 使云中心动态的扩大或缩小, 同时讨论了基于动态云的智慧城市移动云存储平台的架构设计及存储管理方法, 该架构具有一定的应用意义。
关键词:动态云,智慧城市,移动应用,平台
参考文献
[1]John W.rittinghouse James F.Ransome云计算实现、管理与安全[M], 机械工业出版社, 2010.5
[2]周洪波云计算技术、应用、标准和商业模式[M], 电子工业出版社, 2011.06
云存储模型架构 篇4
1 云存储系统的主要内容
1.1 对于云存储系统来说, 其结构由多个系统组成。
其中包括服务器、存储设备、应用软件设备、客户端的程序和网络设备等。云存储的结构体系根据不同的技术要求答题分为四个基本层次, 如下文所示:第一、存储层。对于云存储技术来说, 其存储功能是最为基础的内容, 因此, 存储层也是该项技术最为基础的一部分。主要的构成包括网络设备以及存储设备两大系统构成。第二、基础管理层。云存储技术的管理层面是整个系统中重中之重的内容, 其首先保证了云存储系统的可用功能, 其次对于系统运行稳定性进行有效控制, 并同时完成对于数据信息的加密及备份功能。第三、应用接口层。云存储技术的开发工作也是其功能发挥的主要核心内容, 该层的主要意义作为系统的应用程序开发。第四、访问层。云存储技术功能的应用才是其最终的作用体现, 用户将通过访问层进行云存储应用程序的进入端, 将云存储里面的数据信息进行广为分享。
1.2 安全问题对于云存储系统的影响。
对于云存储技术来说, 安全问题对其中所涉及的数据信息产生一定的威胁, 特别是其所运行的网络环境存在一定的不安全因素, 其最终的结果将会导致数据信息的丢失会泄露, 因此, 云存储技术的安全性问题需要及时的解决。下文将对可能产生的安全问题进行一一的列举及说明。
1.2.1 安全域的划分延用传统的模式, 不能保证云存储的安全问题。
对于云存储来说, 其服务的性能没有局限性, 具有一定的延展性。外部是无法准确的了解内部的运营的, 直接的冲突会使云存储技术的安全是无法确定边界的。最终会导致云存储技术的安全问题是传统安全域划分所无法企及的。
1.2.2 在将数据信息的传输到云存储的过程中, 无法保证其安全性。
我们都知道, 想要将数据信息传输到云存储中, 必须借助于网络的平台, 网络的安全性将直接影响着云存储数据的传输。其中会发生数据泄露及丢失等问题, 在无法抵挡恶意攻击来说, 将会造成数据被篡改等安全威胁。
1.2.3 云存储中所包含的数据信息将会面临着如何安全防护等些许问题。
将数据安全的传输到云存储设备之中, 安全防护又会是新的问题所在, 其不仅仅包含内部数据的安全完整性, 同时也包括将数据进行分散放置等。对于系统的加密备份等功能, 其仅仅是在传输过程中比较有利, 对于后期的安全防护缺少一定的保护措施。
1.2.4 云存储系统中的数据面临着一定的安全可靠性及经济适用性。
在进行数据信息的传输存储时, 无法避免的一些不能预料的灾难将直接影响着数据的破坏, 比如服务器的突然中断以及数据的介质的突变, 这些所谓的灾难对于云存储系统来说, 还不能从根本上解决, 因此其可恢复性、容错性及完整性是不可忽略的重点内容。
2 将云存储作为核心内容的在线分布式存储系统的安全架构简介
我们可以采用这样一种以云存储为核心的在线分布存储系统, 该系统有效结合数据分散存储管理技术以及数据自动恢复技术, 来更好的保证云存储数据的安全性。
2.1 将应用入口到访问层的设计程序进行优化及加强。
为了有效提高云存储系统的安全性, 需要采用访问控制、身份认证以及SSL加密技术来对云存储的数据进行保护, 使数据在网络传输中能有效避免各种安全威胁。同时通过实现云存储服务器与用户之间的相互认证, 对双方的身份进行有效鉴别后用户代理通过安全应用程序接口来和云存储服务器建立通信连接, 然后进行数据存储服务。
2.2 优化云存储技术的基础管理层设计。
在进行基础管理层的设计时可以利用分片器把存储的数据信息进行分片处理, 从而使这些完整的数据变成一系列的数据片段, 这样就不能被那些没有得到认证的系统识别, 从而可以有效提高云储存数据的安全性。
2.3 优化云存储技术的存储层设计。
为了保证数据存储的安全, 可以有效利用数据分散存储技术来满足用户大量的存储数据的要求。因为随着存储系统存储容量的增加, 存储数据的出错率就会相应的增加。而数据分散存储技术能有效确保云存储数据的可靠性和可用性, 从而可以有效提高设备的存储利用率及其容错能力。
2.4 简单的对于在线分布式云存储的数据存取过程进行剖析。
在线分布式云存储的数据存取过程是这样的, 当用户进行数据存储时, 云存储系统使用分片器将带存取的数据进行分片处理, 然后再把这些数据片在线传给分布在不同地方的存储介质中去存储。当用户进行数据读取时, 通过云存储服务器的身份验证后, 用户通过分布在不同地方的存储管理器提供的虚拟视图, 来完成数据的读取操作。
3 妥善的解决云存储数据的安全保护问题
3.1 提高云存储系统的健壮性。
提高云存储系统的健壮性是确保云存储服务安全运行的重要前提。提高云存储系统的健壮性需要做到如下两点:第一、有效利用密码学的加密技术确保云存储数据的安全。第二、有效提高云存储系统自身以及其应用程序的完整性以及安全风险防御能力, 保证系统服务器和应用程序的安全性。
3.2 提高云存储系统的容灾性能。
由于云存储是一种基于互联网的可以实现动态调整的数据存储解技术, 用户可以应用程序接口以及相关的通用协议通过网络访问云存储数据, 并且可以根据实际需要来增加存储容量。云存储系统特有的这种存储和备份技术可以用来提高云存储系统的容灾性能, 通过提高云存储系统的容灾性能来有效的保护云存储数据的安全。
结束语
对于云存储技术来说, 其实用性切实的为使用者带来了不可忽视的重要作用, 无论是数据的存储及备份都为使用者提供了方便, 当然其安全问题也是用户一直所关心的重点, 本文以云存储作为核心内容的在线分布式存储系统的安全架构进行全面剖析, 将系统的安全性能进行全方面的优化设计, 以及提出了一系列解决云存储数据的安全保护问题的方式方法, 在未来的使用过程中, 希望云存储技术的安全问题逐步的被完善, 使用户真正的无后顾之忧的进行数据信息的存储。
摘要:随着我国经济建设的稳定发展, 信息技术的发展呈现质的飞跃。数据信息的存储已然成为人类所关心的话题。云存储技术的出现解决了人们对于数据存储的需求, 虽然人们对其性能认知较为安全可靠, 但其安全问题仍然是需要加强及优化的, 本文将对于云储存技术进行具体的剖析, 对其系统构架进行研究, 从未达到安全保护数据信息的目的。
关键词:云存储技术,数据存储,优化加强,安全保护
参考文献
[1]马小婷.数字图书馆云存储系统安全架构与安全策略研究[J].现代情报, 2011 (05) .
云存储模型架构 篇5
一直以来创新都是国内外各行各业在场竞争中关注的重点之一,我国更是将科技创新作为国家的基本战略。其中,建立创新平台对创新知识进行全社会共享是促进创新发展过程中一个必不可少的环节。创新知识[1]的复杂性以及其量级带来的是计算的复杂性和服务的动态性要求,这正与云计算的特性相契合。因此将云计算的概念引入到创新知识平台的建设也是一种必然的发展要求。
创新知识云平台旨在帮助创新设计人员解决创新过程中的问题。其结构主要包含对创新知识的收集积累、加工整合和知识再利用等过程。该平台由一个创新知识云平台总站和多个创新基地组成。创新基地是知识产生的地方,也是运用创新知识的地方。创新平台总站负责所有基地数据的加工,整理和元数据提取,然后将具有逻辑关系的高实用性知识分发到各个基地,从而提高知识的可达性实现创新知识的社会共享。如图1 所示。
应当注意创新知识数据的一些独特特性。首先是创新知识的多元性。创造发明的内在规律和原理必须通过大量的数据支撑才能体现其价值,而这些数据必然是多样性的,且数据之间的联系也是复杂多变的。其次,创新知识条目众多但是每条知识的数据量较小。发明创新的过程需要大量的思考和时间,但是其结论表达往往归纳为少量的文字或图像。然而创新领域中各种奇妙的解决思路纷繁复杂,数量可观。最后,这些创新知识的运用过程中必然要求有清晰可用的工具能够让用户了解自身真实需求,进而以准确知识推理为用户呈现有启发思维作用的创新知识。所以,创新平台必然要解决的问题就是对创新知识的有效关联管理及大数据量高效存取。因此本文在优化和改进HDFS小文件存储和单点故障问题的基础上,将其引入到创新知识云平台的存储系统。
1 相关工作
Hadoop[2]是在大数据需求下产生的一种对海量数据存储和计算的分布式云计算系统基础架构。HDFS[3]作为Hadoop系统下的文件存储服务,因其稳定性和高效性而得到广泛应用。文献[4]将其应用到医学影像存储领域,文献[5]将其应用到Map GIS K9 瓦片地图集数据存储,文献[6]则在其基础上建立了云数据备份系统。同时,许多学者也对HDFS本身进行了研究,如HDFS的安全问题[7]、下载效率[8]以及集群的节能问题[9]等。因此本文基于较新的Hadoop 2. 2. 0 版本,为创新知识云平台搭建了高容错、高吞吐的基础存储架构。但由于创新知识表达具有的特性及创新知识存取方式的特性,必须对HDFS的适用性作出改进。
对于HDFS对存储大量小文件时表现出的性能上的不足[10],文献[11]在Sequence File的基础上实现小文件的合并存储,文献[12]则结合格雷码实现了海量音乐特征数据管理。这些解决方案或多或少都是针对特定的数据解决方案,难以推广应用。Hadoop本身提供了Har、Sequence File和Map File三种整合存储的结构,但是Sequence File和Map File是Append Only,也就是只能对添加新的数据而不能对已有的数据进行更新或删除,而Har甚至是完全只读的,也就是创建文件之后便不能再做任何改变。Hadoop自身在其2. 0 版本中引入YARN ( Yet Another Resource Negotiator) 和HDFS Federation,以改进现有的不足并适应新的需求。其中用于解决Nanenode内存问题的HDFS Federation只是对命名空间进行了拆分,并不能完全解决性能问题。本文提出了一种较为通用的具有可改写能力的方案。该方案在保留原始存储方式的基础上添加了灵活的包文件存储形式,用户自行在两者之间选择。其中包文件存储形式可以大量减少存储小文件时Namenode的内存压力,提升存储性能。
同时由于Namenode单点设计会降低整个集群的可用性问题上,也有很多文献进行了改进优化。其中文献[13]中介绍了多种优化方案,并指出它们在数据丢失、故障恢复时间和自动恢复等方面的不足。同时给出了一种改进方案,但是这种改进方案没有考虑到对新版本中多命名空间的适应,可能会造成大量的计算资源浪费。文献[14]中也比较了多种优化方案,指出这些方案以及Hadoop本身提出的HA方案的不足。在其给出的解决方案中采用了扁平化的命名空间设计,以方便将metadata均匀的分布到命名节点中。但是这种方式无法完成层次结构化的文件定位。本文在解决Namenode单点问题时,借鉴了Hadoop 2. 0的高可用方案,引入Zookeeper[15]管理的备份集群,但是没有引入外部存储可能带来的新的缺陷,同时充分考虑了HDFS Federation特性,实现了资源利用率更高的自动故障恢复功能。
本文基于实际项目需求,在HDFS的小文件存储问题和主节点高可用问题上给出了新的解决思路,从而搭建了更加高效高可靠的云存储平台。需要指出的是文中的优化策略虽然是为满足创新知识云平台的需求而设计的,但是解决方案具有很强的通用性,可以方便地运用到其他云存储设计当中。
2 系统优化方法及实现
2. 1 小文件存储优化
在HDFS的主从结构设计中命名结点内存中存储了所有的命名空间元数据。由于HDFS主要被设计用于存储超大文件,因此在系统内部将文件分割为多个Block文件( 默认为64 MB,新版本中为128 MB) ,Namenode直接管理这些Block信息。所以,当系统中存在大量小文件的时候Namenode的内存压力变成了整个系统的瓶颈。HDFS Federation的引入在一定程度上使该问题得到了缓解,但是创新知识以大量小文件形式存在,小文件存储问题仍然需要解决。
本文主要采用了将小文件合并存储的策略,将小文件合并成一个或多个包文件,以减小命名结点内存压力; 同时为了解决合并带来的读取性能问题,引入了索引策略及索引服务从而提高文件的存取效率。整体结构如图2 所示。
首先在客户端( Client) API中添加了小文件存储服务( Small File Storing Service) 及读取服务( Small FileRetrieve Service)分别处理小文件的写入和读取任务,辅助原有HDFS的API完成更高效的存储服务。在Namenode中的小文件部署服务( Small File Locating Service) 主要负责添加小文件时包文件所在数据块的创建、增加和定位,以及包文件块中的数据重新排布工作的协调。在Datanode中新增了两个新的服务: 小文件索引服务( Small File Indexing Service) 为小文件读取提供索引; 小文件附加服务( Small File Appending Service) 在小文件附加删除修改等操作的时候修改索引文件及配合小文件部署服务更新数据块。索引文件及索引服务都是在数据结点上的,因此可以将大量的命名服务分散到数量较多的数据结点上,从而大幅减少命名结点的压力。
在HDFS文件处理过程中主要包含了读、写和修改三个操作。其中写操作相当于将小文件合并( 采用的HDFS的Append操作) 到指定的包文件中,因此其基本步骤与Append操作流程相同,如图3 所示。
需要注意以下三点:
1) 客户端需要指定文件是否需要存储到包文件中,在不指定的情况下,小文件也可以存储为单独的文件。
2) 包文件的建立时间设定在Namenode在查找目的块的时候。此时Namenode先检查命名空间中是否存在该包文件。如果不存在则先新建该包文件,Datanode在建立相应的块文件和块元数据文件时调用小文件附加服务一并建立索引文件。
3) 数据结点附加操作完成后,需要调用小文件附加服务更新相应的索引文件。
索引文件主要记录对应块文件中小文件的路径及文件结束位置,其结构示意如下:
实例数据表示exampl1. jpg的数据位置为0 ~ 7150,而exampl2. jpg的数据位置为7151 ~ 12 540。写文件时,读取上一个文件的位置再加上当前文件大小可得当前文件结束位置。
下面介绍小文件读取过程,如图4 所示。改进后的文件读取操作与原有的文件读取操作相比,在服务器数据交互数量上是相同的,区别是改进的过程同时读取多个数据结点以真正取得所需文件。客户端并行的向所有目的块所在的Datanode发送读请求。只有包含该文件的Datanode返回文件数据,其他的返回查找失败,客户端选择最先返回的文件数据接收,并终止其他线程。
对于小文件的修改和删除操作来说,直接进行数据块的修改会造成性能的急剧下降。因此引入标识位的方式避免频繁的数据修改。在文件修改或删除的时候,首先和读取操作相似确定数据块的位置,并通过小文件附加服务修改索引文件的< status > 标识位以标识该文件当前的状态。当文件读取的时候,小文件索引服务会将已经标识为删除的文件忽略,返回索引失败。
标志位方式的引入会造成大量的无用文件保存在集群中。所以在命名结点中设计的小文件部署服务以定期任务的方式( 管理员也可以手动调用) ,将包文件块中的数据重新排布并更新索引文件。当新文件写入时,Namenode中的小文件部署服务会根据适配算法将文件适配到合适的包文件数据块中,以充分利用数据块。
2. 2 Namenode单点问题改进
Hadoop之前的主要结构中Master主机中运行着所有MapReduce的Job Tracker同时维护着所有Datanode的Meta数据。因此当Master结点出现问题,整个集群将处于一种不可用的状态。这种问题被称为Master结点的单点问题,也称高可用问题即High Availability。Hadoop 2. 0 对该现象有所改善。首先引入YARN后Master的计算压力会降低很多,同时HDFS Federation可以分担Namenode上保存所有Datanode的Meta数据所造成的主节点压力。但是每个Federation中的Namenode还是存在单点问题。
本文引入一种备份集群的概念,将所有的备份服务器集中管理以获得更高的资源利用率。命名空间NS中存在两种角色: 活动结点AN和备份结点SNN。整个Namenode Federation使用同一个备份集群进行热备份,运用Zookeeper[16]作为一致性协调处理和自动故障恢复工具。结构如图5 所示。本文将备份结点设计为虚拟服务以增加灵活性,即备份服务可以运行在单独服务器上,也可以和其他Namenode甚至Datanode共用一台服务器。
Namenode中需要备份的数据包括文件系统元数据和数据块分布信息。其中文件系统元数据是Namenode内存中维护其命名空间的数据结构,但是为了保证数据的可持久性,Namenode将这些数据以FSImage文件的形式序列化到硬盘或其他可持久化的存储介质上。为防止文件系统元数据的每次修改都直接改写FSImage文件,HDFS引入了Edit Log日志文件,将每次修改都记录到日志文件中,等到一定时机再将Edit Log和FSImage文件进行合并。块分布信息是由每次Datanode的心跳数据实时维护的数据结构,主要是为了对Datanode中数据块信息的实时监控和查询。因此需要对这三种数据进行热备份,过程如下:
1) 初始化。集群启动时先进行一次FSImage文件同步操作。如果Namenode尚未格式化,则在先进行格式化再同步。设定Namenode写Edit Log的目录为备份集群路径。
2) Edit Log写入所有备份结点。利用Zookeeper服务处理Edit Log一致性写入问题,即只有集群中所有备份服务全部写入成功,该操作才生效,否则返回错误并回滚。
3) FSImage与Edit Log合并。该任务由备份集群处理。合并操作被触发后,备份集群先选择一个备份结点开始合并任务,该服务器通知相应Namenode建立检查点,然后该结点开始进行合并任务。合并完成后,将新的FSImage文件同步到相应的Namenode和其他备份结点中,并通知它们进行FSImage文件替换和已合并Edit Log文件删除的操作。
4) 心跳数据管理。为了保持所有数据块分布信息实时同步,以便故障恢复时及时使用,所有的Datanode的心跳数据报不仅要向所有Namenode汇报还要向备份集群汇报。汇报数据由Zookeeper服务统一的一致性的记录到备份集群中。
解决单点故障的第二个阶段是故障恢复。当Namenode出现故障的时候,Zookeeper便会监测到它的心跳数据的异常,在超时策略下判定其是否出现故障,如果出现故障则开始故障恢复过程:
1) 首先,Zookeeper直接将故障信息发布到该命名空间的其他Namenode。同时,在Datanode进行心跳包的返回数据中通知所有的数据节点当前的故障信息,以便其将相应的块池设定为故障恢复状态。
2) 然后,通过Zookeeper的选举算法,在当前备份集群中可用的服务器中选举出一台代替故障服务器的主机。通知该主机将FSImage及数据块分布信息加载到内存中,设置为等待状态。
3) 最后,通过Zookeeper通知集群中所有Namenode代替主机的产生,以调整新的集群拓扑结构。同时在Datanode的心跳回复信息中通知它们将对应故障恢复状态的块池绑定到新的Namenode。相关Datanode尝试联系新的Namenode,如果连接成功则将状态转换为正常状态。否则,通知Zookeeper集群新主机失败,Zookeeper会将这台主机标注为失败,再次启动故障恢复流程。
需要注意的是,当一个Namenode被备份集群判定为出现故障之后,它可能处于没有完全停止或只是无法与其他Namenode联系等状态而继续提供服务,此时会出现两个Namenode管理同一个命名空间,这种可能引起混乱现象被称为“脑裂”现象。为解决该问题,当备份集群在判定Namenode失败之后会在内部标识其状态为宕机状态,拒绝处于宕机状态的结点对日志的操作,从而防止命名空间错误改动。同时在判定Namenode失败后尝试向其发送停机命令,以防止错误读取。
为实现命名结点动态拓展,在备份集群中引入动态添加Namenode的功能。新加入的Namenode向当前集群发送初始化请求,备份集群收到请求后通知所有Namenode新节点的加入,然后初始化该结点并使之共同担负备份集群的任务。这样新的命名结点或者先前出现故障的Namenode都可以很轻松地加入到集群当中,实现命名结点的动态拓展。
3 系统实现及验证
为测试以上两个方面改进后对HDFS的海量创新知识存取效率和服务可用性的提升,将其作为基础存储服务应用到创新知识云平台的设计中,结构如图6 所示。
3. 1 系统配置
系统中包含一台Web服务器用于向用户提供基于创新知识服务; 一台关系数据库服务器用于提供简单的关系数据存储服务; 三台Namenode节点组建的备份集群,其中两台提供命名服务,一台仅提供备份服务; 四台Datanode节点。服务器间以1000 Mbps交换机连接。其中各主机采用双核2. 1 GHz的CPU,以及3 GB的内存。
3. 2 小文件存储优化
为了排除不相关因素的影响,先将测试结构简化,只使用一台Namenode和四台Datanode。用随机产生的50 KB左右的大量小文件进行实验。写入文件前先记录Namenode和各Datanode内存占用量,然后将一定数量的小文件顺序写入集群,分别记录写入总时间、Namenode和各Datanode内存占用量。接着连续读取这些文件记录总时间。多次试验最后,计算出Namenode内存平均增加量,Datanode内存平均增加量,平均写入时间和平均读取时间。具体的统计数据如图7、图8 所示。
当采用包文件策略后,数据块数量大大减少,估算值为( 默认数据块体积/文件平均大小= 64 MB/50 KB≈1310) ,测试数据显示为1200 倍左右,与预期基本相符。Datanode的内存下降应该与Namenode相似,但是引入的小文件索引服务会占用部分内存,所以整体内存占用容量减少比例较低,约为20% 。而存取时间因为受到内存占用、索引等多方面影响,所以效率有所提升,文件量小的时候提升不明显,由于需要计算一次包内定位,所以效率可能会有所降低,但是文件量大的情况下有较好的表现。
3. 3 高可用性
配置好三个Namenode组成的备份集群,其中两台提供命名服务和备份服务,另一台只提供备份服务。选择其中一台命名服务器将其主进程结束,并记录时间。此时访问该命名空间的资源出现不可用的状态,而另一个命名空间的服务依然可以访问。连续尝试访问失败的命名空间,直至资源可以重新访问,记录时间。试验集群中文件数量不同的情况,数据统计如表1所示。
数据表明,该方案实现了集群的故障热备份及自动恢复,同时故障恢复的时间与文件数量相关,主要原因在于文件恢复时需要将FSImage文件读取到相应命名结点的内存结构。但是由于小文件存储中大大减少了命名空间数据量,因此恢复时间受到的影响较小在系统可接受的范围。而且恢复期间其他命名空间访问不受影响,可以提供部分命名服务。
4 结语
随着创新知识数量上不断膨胀,应用需求不断增加的情况下,构建海量数据的创新知识云平台的重要性日益凸显。本文提出了包文件结构的概念使得命名节点的内存占用大大减少进而提升HDFS的存储效率。在此基础上引入的备份集群为集群带来热备份及自动恢复特性的同时提高了系统可用性。通过整体系统的设计与实现可以看出,优化工作基本满足预期效果,可以为创新知识云平台提供良好的分布式存储服务。
摘要:针对现有存储结构无法满足海量创新知识带来的存储及服务需求的问题,提出一种改进的HDFS(Hadoop Distributed File System)分布式存储系统并应用到创新知识云平台。首先引入包文件及分布式索引服务,改进HDFS小文件存储的效率问题,然后通过优化HDFS的命名空间备份及故障恢复服务,实现可用性更强、资源利用率更高的HDFS高可用架构。通过系统的设计和实现证明优化工作大大降低了命名节点的内存压力,提高了集群的可用性,并且改进的HDFS存储系统可以满足创新知识云平台的存储需求。
云存储安全模型研究 篇6
云计算是一种将可伸缩、弹性的共享物理和虚拟资源池通过网络以按需自服务的方式供应和管理的模式。云存储是在云计算概念上延伸和发展出来的一个新的概念。云存储系统通过集群应用、网格技术或分布式文件系统等功能, 将网络中大量不同类型的存储设备通过应用软件集合起来协同工作, 共同对外提供数据存储和业务访问服务。目前云存储服务已经得到广泛应用, 诸如网络硬盘、在线存储、在线备份及在线归档等各种形式的服务都属于云存储服务的范畴。同时, 随着各种云存储服务的推广和使用, 一些数据安全方面的问题, 如数据篡改、数据窃取、数据丢失等也受到越来越多的关注。
2 云存储模型
云存储系统是一个由网络设备、存储设备、服务器、应用软件、公共访问接口、接入网和客户端程序等多个部分组成的复杂系统。在云存储系统中, 各个部分以存储设备为核心, 通过应用软件对外提供数据存储和业务访问服务。云存储对使用者来讲, 不是指某一个具体的设备, 而是指一个由许多个存储设备和其他资源构成的资源池集合体。用户使用云存储, 也不是使用某一个存储设备, 而是使用整个云存储系统提供的一种数据访问服务, 所以云存储从严格意义上来讲是一种服务。云存储的核心是存储设备和应用软件的集合, 通过应用软件实现存储设备向存储服务的转变。
云存储系统与传统存储系统相比, 具有以下不同:第一, 从功能需求方面来看, 云存储系统面向多种类型的网络在线存储服务, 而传统存储系统则面向如高性能计算、事务处理等应用;第二, 从性能需求方面来看, 云存储服务首先要考虑数据的安全、可靠、效率等指标, 而且由于服务范围广、用户规模大和网络环境复杂多变等特点, 实现高质量的云存储服务必将面临更大的技术挑战;第三, 从数据管理方面来看, 云存储系统不仅要提供传统文件访问, 还要能够支持海量数据管理并提供公共服务支持功能, 以方便云存储系统后台数据的管理和维护。基于上述特点, 我们提出了云存储系统的结构模型, 主要由四层组成, 如图1所示。
(1) 数据存储层
数据存储层是云存储系统最基础的部分, 它将不同类型的存储设备互联起来实现海量数据的统一管理, 同时实现对存储设备的集中管理、状态监控以及容量的动态扩展等, 实质是一种面向服务的分布式存储系统。云存储中的存储设备可以是FC (Fibre Channel, 光纤通道) 存储设备, 也可以是i SCSI (Internet Small Computer System Interface, 小型计算机系统接口) 和NAS (Network Attached Storage, 连接式存储) 等IP存储设备, 往往数量庞大且分布于不同地域, 彼此间通过广域网、互联网或者光纤通道网络连接在一起。云存储系统中各种服务的数据统一存放在其中, 形成一个海量数据池。
(2) 基础管理层
基础管理层是云存储系统最关键的部分, 它为上层提供不同服务间的公共管理的统一视图, 其通过集群、分布式文件系统和网格计算等技术, 实现云存储中多个存储设备间的协同工作, 以更好的性能对外提供多种服务。
在该层可以通过接入内容分发系统、采用数据加密技术等, 以及云存储中数据访问的安全性;同时, 也可以通过各种数据备份、容灾技术等保证云存储中的数据不会丢失, 以及云存储系统自身的安全和稳定。
(3) 应用服务层
该层是云存储系统中可以灵活扩展、直接面向用户、与实际应用交互的部分。该层可以根据用户需求开发出不同的应用服务接口, 提供不同的应用服务, 如在线归档服务、在线备份服务和网络硬盘服务等。
(4) 用户访问层
通过用户访问层, 任何一个具有相应权限的用户都可以在任何地方, 使用一台联网的终端设备, 按照标准的公共应用接口访问云存储系统和使用云存储服务。
3 云存储的安全性
3.1 云存储系统的安全等级划分
在云计算时代, 个人和企业的大量数据往往已经不再存储在自己的硬盘中, 大部分数据通过网络存储在云计算操作系统或云存储系统中, 数据的安全性和可靠性则必然成为用户非常关心的问题。由于同一个云计算系统中不同用户的支付能力不同, 对自身数据的安全性和可靠性的要求程度也不同, 因此云计算系统或云存储系统应该为不同的用户提供不同级别的数据安全保障。云存储系统的安全分解方法按照数据的存储方式和用户的不同要求从低到高分为如下四个级别:单机级、跨服务器级、跨集群级和跨数据中心级。其中, 单机级指的是每个数据块只存储在一台服务器上, 当存储在文件数据块的服务器失效时, 会导致文件破坏。跨服务器级是指存储的每个数据块会在不同的服务器上做备份, 当其中一个服务器失效时则自动将存储服务访问转移至其他的备份数据库, 保证数据的完整性。跨集群级就是将每个数据块在不同的集群间 (一个集群包含分布在同一机柜或不同机柜中的多台服务器) 做备份, 以防止集群失效后数据被破坏。同时, 由于集群内的服务器往往公用网络交换设备, 跨集群级云存储系统能够克服一旦网络交换设备出现故障而无法获取数据的问题, 能够进一步提高数据的安全性。跨数据中心级就是数据块副本存储在不同地区的数据中心, 两个数据中心的物理距离可能达到数千里, 这种安全级别的文件在遇到重大灾难和事故时也能够保证数据的完整性和可靠性, 这种安全级别的数据存储往往应用于电信、金融等核心关键数据存储应用。
在云存储系统安全级别的划分结构中, 不同安全级别之间一般是向下继承的, 即跨数据中心级的安全策略同时也可以实现跨集群级、跨服务器级的安全策略。云存储系统安全级别越高, 相应的代价和费用也越高, 云存储系统中的用户可以根据自己的实际应用情况和需求定制不同安全级别的存储服务。
3.2 云存储安全技术
在云存储系统中, 存储于“云”端的用户数据的安全性和可靠性面临更为严峻的挑战, 主要表现在: (1) 云存储提供可伸缩的数据服务, 无法清晰定义安全边界及保护设备, 给制定云存储的安全保护措施增加了难度; (2) 云存储通过IP网络传输数据, 因此传统网络上的安全威胁也存在于云存储系统上, 如数据破坏、数据窃取、数据篡改、拒绝服务等, 影响了数据的安全存储; (3) 数据存储的安全性包括静态存储安全和动态存储安全, 静态存储安全是确保云存储系统上最终存储数据的存放安全, 动态存储安全是确保在数据传输时的完整性和保密性, 而云存储中数据的动态安全保障存在诸多风险; (4) 云存储需要保证数据的容错性、可恢复性和完整性, 在灾难发生时如何避免数据服务中断及数据丢失等问题; (5) 云存储系统作为一个公共数据中心, 具有多客户连接、高交互性、数据安全保障要求高等特点, 对入侵、攻击、病毒和恶意软件十分敏感, 有必要对云存储中的数据流进行实时主动的检测和防御。
云存储中的存储安全技术有以下几种:
(1) 虚拟安全技术。虚拟技术是实现云计算的关键核心技术, 使用虚拟技术的云存储平台上的存储资源提供者必须向其用户提供安全性和隔离保证。已有的研究提出了诸如基于虚拟机技术实现的Grid环境下的隔离执行机技术、基于缓存层次可感知的核心分配与缓存划分的页染色方法实现的性能与安全隔离技术等, 从而在基础资源层面保障了云存储系统中数据的安全性和可靠性。
(2) 数据隐私保护。云存储中数据的隐私保护涉及数据生命周期的每个阶段。现有的诸多技术, 如K匿名、图匿名以及数据预处理技术, 或通过将集中信息流控制和差分隐私保护技术融入云中的数据生成和计算阶段保障用户数据隐私的方案等, 都可用于云存储系统中保证用户数据的安全性和可靠性。
(3) 数据加密存储。对指定的目录和文件进行加密后保存。加密存储主要包括两个方面:用户密钥的产生和管理、利用密钥对数据的加密存储和解密读取。通过有效的数据加密存储手段, 能够保证敏感数据存储和传输过程中的机密性保护。
(4) 数据恢复。指通过对大的关键数据进行分布式的分块存储并作多个备份, 当某一数据块发生故障时, 能及时恢复该数据块并能很快完成与其他数据块的整合, 使用户感觉不到故障的发生。数据恢复能够保证云存储系统中数据的可靠性。
(5) 访问控制。在云存储系统中, 各个应用属于不同的安全管理域, 每个安全管理域都管理着本地的资源和用户。当用户跨域访问资源时, 需在域边界设置认证服务, 对访问特定资源的用户进行统一的身份认证管理。在跨多个域进行资源访问的实践中, 各个域都有自己的访问控制策略, 在进行资源访问和保护时必须对共享资源制定一个公共的、双方都认同的访问控制策略。有效的访问控制策略能够维护用户数据的安全性和可靠性。
(6) 认证服务。认证服务实现云存储中用户身份认证, 防止非法访问和越权访问等。在云存储系统的身份鉴别中, 只需要用户向云存储服务器证明自己的身份即可。传统的身份认证方式往往直接将口令这样的身份秘密暴露出来, 在传输过程中很容易受到第三方的攻击。在云存储系统中, 可以使用挑战-应答式的身份验证方式, 使用户无需发送身份秘密就可以证明自己的身份, 提高了用户数据的安全性。
(7) 安全日志和审计。用于记录用户和云存储系统与安全相关的主要活动事件, 为系统管理员监控系统和用户的相关活动提供必要的审计信息, 能够在应用服务级别对用户数据的安全性和可靠性提供一定的保障。
3.3 云存储安全模型
基于3.2中提出的各种云存储安全技术, 本文针对云存储结构模型提出了一个云存储安全模型, 如图2所示。其中, 在数据存储层通过使用虚拟安全技术、物理安全技术等在物理存储资源层次上保证云存储中数据的安全性和可靠性;在基础管理层, 通过诸如数据隐私保护、数据加密存储、数据恢复技术等构建对于云存储系统中数据的安全性和可靠性的保障;而在应用服务层, 我们可以通过访问控制、认证服务、安全日志和审计等技术实现在云存储中各种数据在应用层方面的安全性和可靠性保障。
本文提出的云存储安全模型在实践中有着广泛的应用。浪潮微盘是浪潮集团针对内部员工提供的在线云存储服务, 具有大容量、安全、低成本、高可靠的特点, 其参考本文提出的云存储安全模型实现, 采用虚拟安全技术、物理安全技术、数据加密存储与恢复技术、访问控制及安全日志和审计技术等分别在微盘的数据存储层、基础管理层和应用服务层等层次构建并实现了全系统的数据安全性和可靠性保障。作为本文提出的云存储安全模型的应用实例, 实践证明其数据安全性能和可靠性能有了较大提升。因此, 本文提出的云存储安全模型能够很好的满足云存储系统中数据安全性和可靠性的要求。
4 结语
云存储是当前发展十分迅速的新兴产业, 具有广阔的发展前景, 但同时其所面临的安全技术挑战也是前所未有的, 需要信息安全领域的研究者共同探索解决之道。本文提出了一个云存储安全模型, 能够在一定程度上保证用户数据的安全性和可靠性。但同时, 我们也要注意到云存储安全并不仅仅是技术问题, 它还涉及监管模式、标准化、法律法规等诸多方面。因此, 对于解决云存储的安全问题, 不能仅仅从技术角度出发, 还更多地需要产业界、学术界及政府部门的共同努力才能实现。
摘要:针对云存储服务对传统存储技术在数据安全性、可靠性、易管理性等方面提出的新挑战, 在分析云存储的基本概念、结构和特点的基础上, 研究了云存储的安全性;同时, 针对云存储系统各个结构层次的特点, 讨论了云存储的安全技术, 并构建了云存储安全模型, 保证了云存储系统的安全性和可靠性。
关键词:云存储,安全模型,数据存储,访问控制
参考文献
[1]LAPLANTE P A, ZHANG J, VOAS J.What's in a Name?Distinguishing Between Saa S and SOA[J].IT Professional, 2008, 10 (03) :46-50.
[2]LIN G, DASMALCHI G, ZHU J.Cloud Computing and IT as a Service:Opportunities and Challenges[C]//Proceedings of the IEEE 6th International Conference on Web Services (ICWS'08) , Los Alamitos, CA.USA:IEEE Computer Society, 2008:58-65.
[3]王鹏.云计算的关键技术与应用实例[M].北京:人民邮电出版社, 2009.
[4]吴吉义, 平玲娣.云计算:从概念到平台[J].电信科学, 2009 (12) :23-30.