网络数据存储技术(共12篇)
网络数据存储技术 篇1
0 引言
21世纪,信息化在供电企业中的应用越来越广泛,处理的业务越来越全面。目前在用的信息管理系统有用电营销管理系统、办公自动化系统、负荷管理系统、物资管理系统、财务管理系统、两票系统、线路变电巡检系统、安全监察管理系统、信息网管理系统及数据上传、各专业报表系统等,信息系统的应用几乎遍及了企业所有工作的所有环节。
《国家电网信息系统数据备份与管理规定》中指出:“数据是信息系统的基础,是电力企业的重要财富。事实上,如何安全、高效地实现数据存储、数据恢复以及数据容灾问题,已成为目前网络数据时代的一个热点技术,同时也掀起了继互联网热之后的又一次技术浪潮,它把网络带入了以数据为中心的时代。
1 网络存储技术分析
随着企业网络应用工作的持续开展,应用数据量不断增加,企业管理者都普遍感觉自己企业的存储容量、存储性能滞后于网络应用的发展。在这种需求背景下,为满足当前不同层次应用需求的存储方案产生了,这方面的技术方案有:DAS (直连存储) 、N AS(附加网存储)、SAN(存储区域网)。
1.1 直连存储—一DAS
DAS存储技术,是指将存储设备 (磁盘阵列) 通过SCSI接口或光纤通道直接连接到网络系统的服务器上。DAS方案主要在早期的服务器上使用,由于当时数据的存储容量要求不大,单个服务器的存储能力就可以满足日常的存储需求。但存储方案中的存储设备直接挂在服务器上,随着需求的不断扩大,越来越多的存储和服务器被增加进来,导致服务器和存储孤岛的增加,资源利用率低下,在该环境下存储结构和可扩展性较差,存储的传输速率不高,它适用于小型网络中使用。
1.2 附加网存——NAS
N AS存储技术,是指存储设备通过现有的L AN,连接到一群计算机上,这种数据存储不再是服务器的附属,而作为独立网络节点存于网络之中,可由所有的网络用户共享。
在这种存储方案中,由于存储设备不是直接与服务器相连,所以存储容量很容易扩展,可达到即插即用的作用,具有较好的灵活性和可用性。它的主要缺点是:增加了网络流量,容易给数据传输造成瓶颈。
1.3 存储区域网——SAN
SAN区域存储网络,是一种类似于普通局域网的高速存储网络,提供了一种与现有L AN连接的简易方法,允许网络独立地增加存储容量,并使网络性能不受数据访问的影响。这种独立的专有网络存储方式具有扩展性高、可管理性好和容错能力强等优点。
采用DAS、N AS2种传统的存储的企业,在实际应用中存在着物理部署和数据存储分散、运维的成本提高和运维效能低下、数据存储缺乏异地容灾功能、存储容量的可扩展性差等问题。而SAN技术则可以有效克服前2个系统存在的主要功能缺陷,实现企业数据存储的高可靠性、高扩展性和高度集中。基于上述原因,选择SAN作为企业网络数据存储已成必然趋势。
2 对SAN的2种存储技术选用分析
SAN主要包括F C SAN(光纤通道的)存储方式和IP SAN(传统IP协议)存储方式。2种存储网络最大的区别是作为网络的核心连接设备不同。F C SAN使用光纤交换机,通过光纤 (或者铜缆) 连接主机和存储设备,网络中的协议是F C;IP SAN使用以太网交换机,通过IP连接主机和存储设备,网络中的协议是T CP/IP。
目前,F C SAN、IP SAN是应用于存储区域网吉比特速率的2种主要技术(见表1)。
可以看出,F C SAN在具体应用中也存在着不足,如:建设成本高、存储距离受限、维护管理不便等缺点,相对于数据存储业务在企业中的重要地位,供电企业更需要它的高性能和高稳定性,所以F C SU N是很好的选择。
3 某公司SAN技术应用的设计总体架构
3.1 实际应用
某公司于2008年5月进行存储项目的安装布署,在此之前,公司的所有在用系统,大多采用一个应用一台服务器方式,没有独立的存储区域网,在实际应用中存在如下问题:
(1)部署分散。由于各应用系统是逐步建立的,大多采用服务器和存储设备直连的方式;
(2)管理复杂。公司同时管理着50台以上的服务器,服务端设备多以PC服务器为主,覆盖了多个品牌厂商、各类档次的设备,管理的复杂度直接增加了人力的投入和运维的成本;
(3)数据分散。物理硬件的分散部署直接导致了各类数据的分散性,增加了数据管理的复杂度,同时由于历史原因,各地市采用的数据库系统包括O R ACL E、M S SQ L SE R V E R等,且涵盖各数据库不同时期的版本。数据不集中管理,综合利用率不高,同时维护人员工作强度加大;
(4)系统缺乏异地容灾功能。不能防范来自非计算机系统因素的隐患,如火灾、地震等灾难;
(5)存储容量的可扩展性差。
3.2 SAN方案
考虑公司数据存储的内在需求,结合存储系统所承受的网络负荷实际,选择了应用SAN的方案。具体做法如下:
(1)网络环境组成。目前,公司主机房面积达到140m2,机房建设规范达到国家电网机房建设规范B类标准,机房内分为:系统区、应用区、网络区、存储区。首先在主机房内进行SAN存储区域网络技术来构建主机房数据存储系统。
(2)主要设备配置。光纤交换机:采用2套32口Cisco 9134交换机组成一个冗余的SAN网络,辅助机房采用2套16口(全部激活)Cisco9124交换机组成一个冗余的SAN网络。所有SAN交换机的端口速率都为4G b/s。磁盘阵列:主存储系统选用N etapp的F AS3020C磁盘阵列,每套主存储都配置了42块146G B 15K R PM的光纤硬盘,提供6T B的存储容量。每套F AS3020C最大支持168块硬盘,并支持各类硬盘的混合使用,最大支持容量可以达到84TB。配置了一套和主存储配置一致的存储系统N etapp F AS3020C放置在容灾机房。光纤链路:每套存储8根网线,4根网线用于存储系统内连接,4根用于与核心交换连接,4个IP地址。放置光纤12芯,8芯用于主备光纤交换机互连,2芯用于管理交换机互连,2芯用于windows系统服务器空间划分(用snapdrive软件)。软件:在主存储和次级存储系统上都配置了N etapp的远程数据同步软件Snapmirror,通过该软件,在2套磁盘阵列之间实现基于阵列的数据同步,把业务数据从主存储容灾到次级存储系统上进行保护。
本次数据容灾设计利用成熟的主数据中心和备援数据中心之间的数据备份技术,基于SAN的远程复制(镜像),即通过光纤通道F C,把2个SAN连接起来,进行远程镜像(复制)。当灾难发生时,由备援数据中心替代主数据中心保证系统工作的连续性。当主存储系统恢复正常后,可以利用Snapmirror的反向增量同步功能,把主存储失效的这段时间内所有业务数据的变化从次级存储以增量方式同步到主存储上,实现2套存储数据的一致性。关键应用系统数据迁移至存储系统上,
(3)数据存储系统方案非常简单,实际上是一种以存储为中心的扁平F C SAN拓扑设计。设计还拥有冗余的路径设置,即便单个H BA、链路、交换端口、交换元件或存储端口连接失败,存储事务仍能照常进行(见图1)。
4 SAN实际运用的若干技术环节分析
4.1 利用内置的管理系统对SAN网络与存储进行全面管理
Cisco SAN交换机都内置了基于浏览器界面的SAN网管系统,通过该系统,可以实现对SAN网络的管理。
每套F AS3020C都内置了一套基于浏览器界面的存储系统管理系统(F ilerview),可以对存储系统进行全面的管理、配置和监控。
4.2 将SnapshotTM技术用于每日联机备份以防止数据丢失
Snap R estoreTM软件,用于将文件系统恢复为以前某个状态,利用Snapshot功能,系统管理员可以对整个文件系统进行全天候(而非仅在夜间或周末)联机备份,以防止数据丢失。只要从Snapshot目录复制所需的文件,用户或系统管理员就可以恢复丢失的文件。Snapshot可对意外删除的文件进行快速恢复,整个过程由用户启动。
4.3 利用SnapMirror软件将文件从一个主机房存储设备镜像到备用机房存储设备上,从而实现了在备用机房的集中式备份管理
Snap M irror软件可进行从源F iler到目标F iler的自动文件系统复制。Snap M irror软件可以全天候传输增量更新,以保持镜像内容与源F iler之间基本同步。源站点出现故障或问题时,即可访问目标站点镜像的关键业务数据,从而确保业务不会中断。Snap M irror软件将长备份和恢复时间的需求降到最低,可实现快速灾难恢复。
4.4 利用SnapRestore软件可在数秒内以最少的宕机时间将整个文件系统恢复为原先存储的快照副本
Snap R estore软件将恢复文件系统,而F iler可供整个生产过程使用。该软件可用于从损坏的数据库、应用程序或损坏的文件系统中进行恢复。
4.5 利用光纤通道及千兆位以太网磁带SAN解决方案有多种优势
磁带可以共享访问以及资源的在线分配;数据的备份过程对网络服务器的影响最低;磁带可热插拔;可进行动态磁带配置更改;无须关闭F iler等。
4.6 进行数据分类,对关键业务数据的保护加大
根据数据的相对优先级及在发生灾难时各种数据类型所需的恢复速度,按对企业的重要程度进行数据分类。使系统管理员可以根据恢复要求设计灵活的数据保护策略,将文件系统整理到多个卷和配额树中,从而优化数据保护措施。
可以看出,SAN技术应用是一套非常有效的解决方案。首先,它避免了出现单点故障,大到主机、存储设备,小到光纤适配器,所有部件均是冗余容错的;第二,无论主机还是存储设备出现故障,均可通过主/备份中心的光纤交换机连接来保证通信和数据的完整性;第三,万一主数据中心出现意外灾难,系统可以自动切换到备份数据中心,从而保证系统的最高可用性。
5 应用效果分析
SAN存储系统的建立,为公司信息系统提供坚实可靠的数据存储基础架构。所有应用数据可在这数据存储基础架构上进行集中控制和统一管理;通过简化管理和集中备份可降低总体存储成本;通过提高存储利用率可更有效的实现资产利用;通过灾难恢复功能(例远程镜像、即时复制)可有效降低数据丢失的风险。
建立在SAN基础上的数据容灾方案的实施,从根本上将数据库管理人员解放出来,保证了整个业务系统连续不断地运行。该系统可以做到在正常计划性停机以外的其余时间内的高可用性,这也正是电力业务本身所要求的。整个系统的设备虽然很多,但不论是主机系统、存储设备,还是光纤交换机、光纤卡等,均能通过一台工作站进行集中管理和监控,大大节省了人力资源,提高了工作效率。
网络数据存储技术 篇2
一、存储安全的服务
存储系统提供的存储安全服务主要包括认证和授权、可用性、机密性和完整性、密钥共享和密钥管理 施、审计和人侵检测以及可使用性、可管理性和性能等方面。
二、当前存储一系统安全研究
网络存储是网络时代最佳的存储解决方案。NAS(Network AttachedStorage)和SAN(Storage Area Network)是常用的2种网络存储技术,不同于直接连接存储DAS(Direct Attached Storage)的是网络存储 直接与网络连接,为整个网络提供集中、共享的存储服务。
网络连接存储,简称NAS是一种可以提供文件级服务的存储设备。其特点是可以直接挂到网络上向用 户提供文件级服务。此外。它有自己简化的实时操作系统,并将硬件和软件有效地集合在一起,用以提 供文件服务NAS存储系统的特点是通过基于IP网络的网络文件协议向多种客户端提供文件级I/O服务,客户端可以在NAS存储设备提供的目录或设备中进行文件级操作当用户或应用程序试图访问文件时,经过解 释的I/O请求被重定向到网络传输路径这螳经过解释的I/O请求经过IP网络传输到NAS服务器端,由NAS服务器端的网络文件协议接收,之后,进行解包,同时处理客户端和块设备的映射关系,最后,将正常的 I/O操作请求交给服务器上的文件系统处理。
SAN是一种以数据存储为中心且面向网络的存储结构。SAN技术采用可扩展的网络拓扑结构连接存储设 备和服务器,是一种面向服务器提供数据存储服务,并将数据的存储和管理集中在相对独立的专用网络中的存储技术.在SAN技术中,由于服务器和存储设备之间的多路可选择的数据交换,因此,以往存储结 构中存在的可扩展性和数据共享方面的局限性被消除了,SAN中通过协议映射,存储设备的磁盘或磁带表 现为服务器节点上的“网络磁盘”在服务器操作系统看来,网络盘与本地盘相同,服务器节点操作网络盘就像操作本地硬盘一样对其发送命令,命令通过相关协议的封装后,由服务器发送到SAN网络,并由存储设备接收并执行服务器节点可以对“网络磁盘”进行各种块操作和文件操作,
三、网络存储系统安全技术分析所需解决的问题
(一)SAN安全机制
SAN交换机、HBA(Host—Bus Adapters)和存储阵列等SAN设备层的配置都与其安全特性有关。 SAN的安全机制包括交换机端口类型配置、分区和LUN(Logical Unit Number)屏蔽。WWN(World Wide Name)是光纤通道中用于标识节点和端口的64位惟一注册标识符。分区的作用类似于VLAN,基于WWN的软 分区由于存在WWN的盗用,因此安全性较低。硬件分区根据交换机端口WWN的组合划分,分区的访问限制 不能突破,因而具有更高的安全性。应是首选的分区方法。逻辑单元号LUN是一种对存储设备的划分。LUN屏蔽是一种比分区粒度更细的访问控制方法,它可以控制服务器对不同逻辑单元的访问。
(二)NAS文件系统安全机制
NAS使用CIFS和NFS来实现网络文件共享,其安全机制建立在CIFS和NFS的基础上。CIFS提供认证和授 权这2种安全机制,其中认证又包括共享级认证和用户级认证。在共享级认证方式下,整个共享点只有一 个单一的口令用于共享访问,提供的安全保障有限,只能用于对安全性要求不高的公共资源共享或临时资源共享等场合。用户级认证方式为不同用户提供不同的用户名,因此能提供高于共享级认证的安全性,但用户名和口令是以明文方式传送,因此也存在被监听的威胁。
四、总结
云端数据存储安全技术分析 篇3
因此清楚了解各种数据的安全需求,透彻的分析现行云存储方面的关键技术,了解其不足,才能明确未来技术的攻克方向,以最快速度走出云端数据存储的“魔障”。
【关键词】云存储 数据加密 密文访问控制 完整性审计 重复删除
一、云存储发展现状
随着网络的普及和技术的发展,我们已经进入海量数据时代,云计算应运而生,云存储是在云计算的基础上发展而来的新兴存储形态,因其容量大、可以不受时间和地域的限制对资料进行上传下载,而且还可以按需购买等优点受到许多企业、组织或是个人的青睐。很多公司都租用了用于企业内部小范围的私有企业云,便于数据分析处理,节省数据管理方面的开支,降低了企业成本,而像华为、OPPO、vivo等很多做移动终端的大型企业也都向用户提供云服务,当然还有很多专门做云存储空间租用的企业,像我们经常用到的百度云、SaaS、360云盘等。据相关调查数据显示,全球公有云市场规模正逐年递增,云端数据存储正在得到越来越多的企业关注,同时吸引了大批资金用于开发与研究新的数据存储安全技术。
虽然云存储解决了很多难题,但是此起彼伏的数据存储安全事故也不断挑弄着我们的神经,例如2010年6月,苹果公司发生Ipad用户隐私数据泄露,2015年4月多省社保信息遭泄露,数千万个人隐私泄密等等,它让我们清楚的认识到在云端数据存储这种模式下,数据资料被上传至虚拟空间,使数据脱离了我们的实际操控范围,在数据的上传下载的过程中极有可能会被恶意改写或是盗取等引起数据安全事故,带来无法挽回的损失,这引起了用户对云存储提供商可靠性以及数据安全性的担忧[1]。基于此,我们大多数是采用数据加密的方式将数据放置云端,但是这样一来又使很多功能如数据检索、运算等难以实现,带来很多技术难题。
二、云存储关键技术
为了保证云端数据的完整性、机密性与可用性,打消用户的使用疑虑,促云计算快速发展,国内外企业和学者做了大量研究,其中一些技术已经比较成熟或是提出了相应的技术模型,较好的解决了目前的一些问题。
(一)数据加密技术
加密无疑是保护云中存储的数据的安全性和隐私性的重要方法之一[2],目前比较好的加密技术就是收敛加密与基于属性的数据加密技术。
收敛加密即相同的数据资料经过加密后生成相同的密文,有利于重复数据的冗余删除,提升空间利用率;另一方面由于密钥的生成方式与明文的散列值密切相关,这样一来可以利用生成的密钥来检验明文的完整性;用户访问权限被撤销后,不是马上重新加密数据,而是采用特定事件触发加密,待数据修改时同时生成新的密钥,减少了密钥的生成、分发与管理。
基于属性的加密机制(attribute-based encryption,ABE)是一种控制接受者对加密数据的解密能力的密码机制,只要用户拥有的属性满足一定的介入策略时就可以解密信息[3]。根据属性加密,不需了解属性所属方,这样就不会侵犯用户的隐私;只有私钥具备解密数据属性时才可以解密明文,并且在这个过程中,不同的用户之间私钥不可以联合,保证的数据的安全性;还可以实现灵活的访问控制。
(二)数据销毁
云计算提供商通过计算资源租用和存储资源租用的方式对外提供服务,那么对同一租户的相同数据进行重复数据删除,在结束租用期限时,清空该租户的所有信息,释放空间,使利益最大化,用户可以基于自身需求,及时清除失去存储意义的数据等一系列数据销毁技术是保护数据安全与隐私的另一重要方法。
1、基于密文的重复数据删除技术
由于同一明文经过不同的密钥加密后会产生不同的密文,因此系统对这些重复数据无法有效识别和删除,所以目前只能依赖特殊的加密方法即收敛加密,使相同的明文生成相同的密文,这样便可以进行重复数据删除操作,但是这种加密方法针对性强,无法适应海量数据的加密趋势,因此,支持删冗的一般性加密方法是一大技术挑战。
2、数据的可信删除
存储在云端的数据都会经过加密,因此,对此部分数据的删除只需要所有人都无法解密明文即可,这样就转换成为密钥的删除技术。2007年Perlman等人在文献中首次提出了可信删除(assured delete)的机制[4],即通过建立第三方可信机制,将时间或是用户的某项特定操作作为删除的触发条件,使其可以在规定的时间后将密钥删除,这与张逢喆等人提出的基于可信计算数据销毁机制本质是一样的。
三、技术挑战与重点突破方向
(一)公开审计数据安全难以保障
数据的公开审计需要提供相关内容进行检测,这期间重要数据,隐私内容就需要公开或是提供给第三方,数据安全控制难以保障。另一方面如何根据云端数据的时时更新,进行动态审计,也是技术的攻克难点。
(二)数据残留问题难以解决
如何实现数据的有效删除,是空间释放中面临的安全问题,无论是将数据放进垃圾箱还是交给专门的第三方处理,都可能会导致信息泄露;另外租赁到期必然要进行空间回收,数据是否有效删除直接带来了上一位与下一位租户数据之间能否有效隔离开来以及数据隐私方面的问题。
(三)针对海量数据的加解密技术
目前的数据加解密技术不具有一般性特点,复杂度较高,针对海量数据的加解密必然会带来用时长、效率低、查询处理等多方面的问题。
四、总结
云计算异军突起,云存储作为云计算的技术支撑,其地位必然不必多说,从云端数据安全存储的总体发展情况来看,一些加解密技术已日渐成熟,但是还缺乏一般性;当前一些技术领域方面的研究如加解密、数据销毁、完整性审计等大多还是分开展开研究的,缺乏联合性;一些技术研究长期停留在实验和模型阶段,缺乏有效的实践。从发展方向来看,基于云端数据存储的自由特性,需要我们在保证数据安全的前提下,尽可能的提高数据加解密的效率,降低时间复杂度,使密文搜索、空间回收、数据处理等操作成为可能,当然这需要政府、社会各界以及我们每个人的共同努力,我相信在不久的将来,我们一定可以将云端数据存储的优势更好的发挥出来,给大家带来更好的用户体验。
[]张浩,赵磊,冯博,余荣威,刘维杰.CACDP:适用于云存储动态策略的密文访问控制方法[J].计算机研究与发展,2014,51 (7): 1424-1435
[]冯朝胜. 云数据安全存储技术[J]. 计算机学报,2015,38(1):151-163.
[]李晖,孙文海,李凤华,王博洋.公共云存储服务数据安全及隐私保护技术综述[J]. 计算机研究与发展,2014,51 (7): 1397-1409
网络数据存储技术 篇4
随着计算机技术、网络技术和数据库技术的快速发展,智能的、自动化的数据采集、存储技术,已经成为许多人研究的对象,智能网络安全可靠的运行,需要动态采集数据信息,实时地针对智能网络运行数据进行查询和监控,实现高效数据传输和共享。但是,智能网络数量众多,分布范围广泛,面对海量的、动态的、分布式的多源异构网络数据, 传统存储模式已经无法满足实时性可靠性的需求。因此,寻求一种适合现代海量网络数据存储的模型,已经成为许多学者研究的热点。海量数据存储系统中,许多数据长期不用,部分数据高频次使用比如最新采集的数据在一段时间内会被经常性地访问随着时间的推移, 该部分数据访问频率将会大大地下降。因此,针对海量数据采用智能分级存储系统,可以有效地缩短数据访问和传输时延, 提高数据的查询准确度,保证网络数据存储的安全性和可靠性,确保网络数据能够更好地为人们提供服务。
2 智能分级存储系统
海量网络数据智能分级存储系统可以采用直连式存储DAS或网络连接存储NAS构建分级存储。DAS存储设备可以使用光缆直连网络数据服务器,用户的读写请求可以直接发送到相关的网络存储设备上,能够有效支撑多存储设备的操作系统均可以采取DAS进行智能分级存储。NAS通常应用于数据共享过程中,能够基于网络实现文件级锁定,为智能分级存储系统提供高级的并发访问保护功能,实现异构环境共享数据文件。
海量网络数据智能分级存储系统的各个存储硬件设备使用NAS或DAS方式连接在一起,存储网络可以将用户的读写请求发送给关联的存储设备,存储设备完成数据操作,并且将结果反馈给请求程序。另外,智能分级存储系统根据文件的活跃程度,可以实现不同级别的数据在各个存储设备之间的自动化迁移。
3 智能分级存储关键技术
智能分级存储系统可以实现海量网络数据的自动化、分层化管理,实现数据的高效访问和存取,提高存储系统的资源利用率。智能分级存储系统的关键技术包括数据分类、数据放置和数据迁移等,这些技术可以有效地保证智能分级存储系统的访问有效性、存储可靠性和数据的准确性。
3.1 数据分类技术
数据分类可以定义海量网络数据的访问属性,根据不同的用户逻辑业务主题,参考数据的重要程度,对海量数据进行分类,实现智能分级存储,其是数据迁移的基础。
目前,网络数据分类没有统一的标准,可以根据网络数据的实际应用环境和用途,将数据分为硬件系统运行数据、软件系统运营数据等;可以根据数据自身的原始类型,将其分为非结构化、半结构化、结构化数据;根据数据的访问读写频次,将数据分为热点数据和非热点数据;根据数据的访问顺序,将数据分为周期性访问、顺序访问和只读数据。随着数据分类方法的研究,为了提高数据分类的精准程度和有效性,目前数据分类常用的策略包括基于知识、基于专家系统、基于案例等,数据分类实现方法可以包括静态分类、人工经验分类、动态分类等。基于人工经验分类方法需要数据操作人员熟练掌握网络运营数据内容,需要长时间积累数据管理和分类经验,因而一定程度上无法准确把握数据分类的合理性和准确性;静态分类是指存储系统构建完成后,预先设置数据分类主题和规则,设置完成后无法再改变,不能适应现代电力运营数据的多样化需求,存在较大的局限性;动态分类可以有效满足数据分类的各种需求,不断地适应业务需求的变化, 具有很强的灵活性和适应性,并且不需要人工干预,使用数据挖掘、模式识别、机器学习、统计方法和自动控制理论等智能化数据分类,降低数据管理的复杂度。
3.2 数据放置技术
海量网络数据智能分级存储系统中,网络数据放置可以采取相关的原则,将存储系统中新添加的数据或是被迁移的数据存储在某一个特定的位置上。网络数据放置采用方法是否科学,直接影响智能分级存储系统的访问速度,制约网络数据的实时性,形成网络数据访问瓶颈等。在智能分级存储系统研究过程中,网络数据放置是一个非常常见的问题,已经得到了广泛的研究,常见的数据放置技术包括RAID、Stripe等。
由于海量网络数据智能分级存储系统具有多种存储介质,并且网络数据具有实时性、多元性特点,智能分级存储出现了许多新的需求, 放置问题变得更加复杂化,比如数据放置的位置存在多种选择,每一种选择方案都对智能分级存储系统产生复杂的影响。为了解决上述问题,数据放置需要解决两个问题:一是数据放置在什么类型的存储介质上;二是数据采用放置形式,比如随机放置、文件分割放置、顺序放置等。目前,海量网络数据智能分级存储系统中数据放置的力度也发生了很大的变化,本文从块级别进行考虑,使用元数据属性,从文件块大小考虑放置策略, 既改善了系统访问的效率也降低了系统的硬件成本。
3.3 数据迁移技术
在海量网络数据智能分级存储系统中,网络数据的访问频次、服务质量等需求是动态变化的,需要使网络数据和存储设备实现动态匹配,相同级别或者不同级别之间的网络数据需要进行迁移,因此网络数据迁移是智能分级存储系统的核心技术之一。传统网络数据迁移是指根据软硬件环境升级的需要,将网络数据迁移到新的环境。在智能分级存储系统中,网络数据迁移通常包括同级迁移和异级迁移两种模式。同级迁移模式通常出现在存储系统硬件配置发生变化过程中,其主要目的是均衡各个存储设备的负载;异级迁移模式是智能分级存储系统经常发生的事件, 其可以更好地优化存储系统,迁移过程中是自动化的,异级迁移过程可以是高性能存储设备向低性能存储设备迁移,也可以相反迁移。
网络数据迁移方法包括离线迁移和在线迁移,离线迁移实现简单,效率较低;在线迁移实现复杂,但是其适用于复杂业务处理,因此本文智能存储系统采用在线迁移,合理制定数据迁移计划和实施流程,降低数据迁移对带宽、CPU等资源占用率, 并且有效提高数据访问综合性能。
4 结束语
网络数据存储技术 篇5
1.云计算与云存储的概述
云计算是指通过互联网进行动态的扩展且为虚拟化的资源,随着互联网相关服务的增加,按使用量付费的模式。网络的数据传输功能发展迅速,使得计算机逐渐组成了一个相互关联的集群,并且由统一的数据处理中心进行资源的调配和处理。其具有规模大、形式虚拟、兼容性强等特点。云计算中的关键环节在于云存储,其具有集群应用和分布式文件系统等功能,将网络中不同类型的存储设备通过应用软件进行组合工作,为用户提供业务访问等服务的系统,属于云计算衍生出的新兴的网络存储技术。当云计算系统需要存储和管理大量数据时,系统需要配置存储设备,此时,云存储成为主要进行数据存储和管理的核心云计算系统,方便用户随时随地,通过任何可联网的装置进行信息数据的存取。
2.云数据存储结构
云计算环境下数据存储结构利用了先进的互联网技术,实现了按照用户的网络需求来分配资源。与传统的数据存储结构比较,从服务和实际应用的角度分析,云数据存储是一个硬件的同时还是由客户端程序、访问接口、软件、服务器等设备组成的存储系统。
云数据存储结构通过云计算系统中的应用软件为用户提供数据存储及业务访问等服务,其中,存储层是云数据存储结构的最基层,其主要内容包含存储管理和虚拟化设备,存储层中的存储管理系统用于对硬件设施的维护和升级等功能。管理层是云数据存储结构的核心层,其通过分布式文件系统和集群管理技术进行内容分布和数据备份,具有良好的拓展性,还可以完成云存储系统中的数据加密等任务,符合用户对信息可用性及存储功能的需求。接口层属于云数据存储结构中的重要组成部分,其应有与云计算系统的结构开发与应用,供应商包括网络接入、身份论证、权限管控、应用软件接口等部分,供应商通过接口层为用户设置统一的编程,方便用户自主开发应用程序。云数据存储结构的顶层为访问层,其主要是系统应用程序的入口,用户通过访问层进入云计算系统,实现系统中的资源共享。
3.云计算环境下数据存储安全及其关键内容
3.1 云计算环境下数据存储安全
云计算在其实际应用中存在用户信息遭泄露等不安全问题,因此,云计算环境下数据存储安全问题是当前计算机技术发展过程中面临的挑战。为了降低企业中事务的使用成本,减少繁琐的工作程序,就需要在云数据存储的过程中,确保其安全可靠性,使的云计算系统提供优质的服务。在云计算技术的背景下,通过服务式的操作和存储数据,保证数据的稳定性。虽然个体用户使用的数据由提供商管理,用户存储和使用数据是借助网络服务的,但其数据的安全性也需要由云计算系统统一负责。可以将计算机的使用过程看成一个节点,当这些节点出现安全隐患问题时,就需要采取不同的手段对其进行访问和使用,即保证云计算中的安全存储与数据的传输、恢复联系起来,并且得以稳定的发展。
3.2 云计算环境下数据安全的关键内容
云数据安全的关键内容包括数据传输安全,其主要指在云计算的服务下,用户将数据传输给云计算系统服务商,由服务商进行数据的处理工作。其间,云计算需要确保用户的数据在传输过程中被加密,保证不被泄露。服务商获取用户数据后,按照行业要求进行保存,服务商还需要做到对用户进行权限认证之后再给予访问数据的权利,访问的对象只能访问自身的数据。云数据安全的关键内容包括数据存储安全,其主要指实现系统中存储数据资源共享的模式,在云计算系统服务下,服务商采取必要的手段隔离不同的数据。当用户准确知道其数据存放位置的情况下,服务商还需要保证对用户托管的数据进行了有效的备份,以防出现突发状况时,数据的丢失,云计算服务商需要最大限度地保护用户的数据,使其恢复到初始状态。在系统中,数据的残留极易泄露用户的信息,因此,云计算服务商需要保证为用户提供数据的安全性。云数据安全的关键内容还包括数据审计安全,通过云计算的服务模式,服务商为用户提供必要的信息支持,并且不对其他用户的数据造成威胁。云计算的服务费为保证数据的安全,需要协助第三方机构准确地对数据安全进行审计,保证用户的信息安全性,同时也促进云计算服务系统的健康长远发展。
4.基于云计算的数据存储安全技术
云计算环境下数据存储在保证数据运算效率的同时还需要确保其安全性,因此,服务商在为用户提供云存储服务时,需要对其信息进行加密保护,保证用户的数据出现在任一存储空间中,非授权用户看到的是无序的乱码,确保用户的个人信息不被泄露。在保证云计算服务商真实可信的前提下,需要将提高云计算的系统运算效率和安全性作为主要任务,探宄出适合互联网信息技术发展的数据存储安全技术。
4.1 数据加密技术
目前我国的云存储系统保护隐私数据的能力有限,为保证云存储数据的完整性,用户在使用互联网的同时也需要对自身信息进行有效的加密。云计算系统用户需要提高信息安全意识,加强数据的密钥管理,通过科学的数据加密技术保障云存储系统数据的安全性,提高其使用效率。用户在进行数据加密的过程前,对应的加密算法公钥需要用户端从密匙库中提取,之后应用对称加密的算法,形成具有校验信息的密钥。其中具备校验信息的密钥可以通过非对称的加密算法进行处理,确保其安全性,最后处理好的信息数据作为数据包储存于云端中。在重复加密过程中,保证所有的数据包完成数据加密的行为,方可截止,形成数据加密的全过程。
4.2 数据隔离技术
在云计算模式的背景下,用户将随意摆放系统中的数据存储结构,因此,会出现多个用户将数据存储于同一个虚拟服务器中的现象。出现此类情况时,用户需要使用数据隔离技术,将自身的信息与其他用户的信息有效的隔离开,保证云计算环境下数据存储的安全性。
4.3 访问权限控制
当用户将数据上传至云计算数据存储系统后,云计算系统的提供商将享有访问该数据的优先权。如果用户需要限制服务商的访问权限,在上传个人数据的同时,需要将该数据的访问优先级别设置为自己,以此确保自身数据在云计算环境下数据存储的安全性。
4.4 数据加密传输
各类数据在云计算系统中的传输是必不可少的,因此,其在传输过程中的安全性是当前面临的大考验。数据的加密传输是指在数据的传输过程中在网络链路层、传输层等区域使用加密技术,以此确保用户数据的可用性和完整性。在数据传输的前期,通过加密协议为用户的数据传输提供加密通道,在数据传输的后期,则采用必要手段防治非法用户对数据的窃取,进而维护用户的数据安全,保证云计算环境下的数据加密传输。
5.结语
Raid技术在数据存储中的应用 篇6
关键词:Raid技术 磁盘阵列 数据存储
中图分类号:TP333文献标识码:A文章编号:1674-098X(2014)09(a)-0046-01
1 数据存储的背景
世界上第一台计算机问世,计算机存储就是计算机重要的组成部分,经过几个时期计算机的飞速发展,计算机存储技术变得成熟,应用也越来越重要。当前,在Internet普及应用的时代,互联网信息的存储发生了很大的变化,网络信息量开始膨胀发展,极大的促进了存储技术地进步,当今的时代,云技术及物联网技术的发展,用户对各类数据的使用不再受时间和空间的限制,用户应用信息量变大,可靠性要求变高,数据传输速度要求要快,因此,对服务器存储技术的要求越来越高。
随着通信技术及互联网的发展,信息变得敏感而重要,大多数的网络使用者对数据存储容量的要求越来越大,更注重数据安全和数据的完整。计算机网络的应用是极其广泛的,例如,在线视频或物联网监控内容的存储都要求有足够大的存储空間支持,目前主要使用磁盘阵列、磁带库和光盘塔等进行数据存储。
1.1 磁盘阵列
磁盘阵列在存取数据时要求既要保证读取速度的同时,能够确保某些磁盘失效不能读取数据得阵列能够根据Raid技术有效地防止数据丢失。磁盘阵列可以最大限度的为网络数据提供存储容量。另外,磁盘阵列最大的优势可以为数据存取提供特别快的速度。它将数据存储在不同的磁盘上,提高了数据的吞吐量并避免了数据丢失所带来的灾难性后果。
1.2 磁带库
磁带库与磁盘阵列相比有自身的技术特点,它可以将数据进行基本的自动备份,当数据出现故障时,磁带库可以自动进行数据恢复。另外,磁带库可以提供可连续的大容量存储,可以减少数据存储过程中的人工干涉。
1.3 光盘塔
当前时代,面对海量信息的存储,磁盘阵列和磁带库的成本要求是很高的,所以光盘体积小、制作成本低、存储容量大占据了很大的优势,其在数据存储中的使用是毋庸置疑的,对于大容量的数据存放,可以将几十、几百张光盘组合使用。
2 数据保护的重要性
通信技术的发展,使网络快速的进入了人们的生活,在这个信息爆炸的时代,信息就是财富,信息就是资本,所以对于每个用户或企业来说,不论网络或存储技术如何发展,保证数据的安全和可靠是最重要的。伴随着中国经济的飞速发展,对于通讯,医疗,银行,电子商务等信息量较大的行业来讲,每天都会有大量的数据需要及时的处理,现阶段网络环境的安全性是令人堪忧的,如果运行中的数据中断或数据丢失,那么对于运营商来讲,所造成的后果是不可估量的,因此,对在线数据的存储保护就成了企业们的生命线,他们会花费大量的资金去搭建自己的数据存储平台保证数据的安全性,同时带动其他行业提高自己的数据存储需求,为网络数据存储带来光明的市场前景。
在我们的现实生活中,信息丢失或损毁的事例很多,例如,设备突然出现故障,使用时间过久设备老化,设备管理人员操作不当或者人为的蓄意破坏都会造成数据的丢失,不管这些损失是人为造成还是突发事件,对于数据的丢失或被破坏所造成的损失对于用户或者企业来说后果都是不可估量的,甚至是无法弥补的。
存储技术在发展过程中,无论单机数据安全,还是网络数据安全,数据保护一直是人们研究的内容。当前,对数据保护技术很多,例如数据备份技术、服务器容错技术以及灾难恢复技术,无论采用哪种技术进行数据保护,目的都是当用户的数据遭到破坏时,能够将数据进行恢复或者使灾难的损失降低,但是我们也不能全部依赖存储设备及存储技术,还要提高管理人员的操作能力,保证用户数据的安全性及可靠性。
3 Raid技术的应用
随着云计算及物联网应用技术的不断发展,用户对数据存储容量的需求越来越大,由于物联网的出现,网络监控视频已大面积的出现在我们的生活中,如何提升数据的安全性而且降低整体的成本,这就对我们的存储设备提出了更高的要求。
在视频监控中Raid技术可以避免由于硬盘故障带来的数据灾难还可以防止业务的中断,在实际应用中,硬盘在使用中因为部分问题导致数据读写异常,我们可以利用Raid技术对硬盘进行局部重构,如果整个盘出现问题时Raid技术可以进行踢盘并重构。在Raid技术使用的过程中能够很好的解决数据冗余,大大提高了硬盘的可用性。
云存储是将用户的数据资源存放在网络上的一种新兴的存储方案,只要有网络,用户可以随时存取数据,方便了用户对数据的存储和使用,那么,数据在云存储中又是如何保证安全的呢?当我们把数据利用云存储存放在网络中以后,数据都采用了专业的存储设备进行存放,这些设备采用Raid技术来避免硬件故障的发生,将数据在多个存储设备上进行存放,可以为数据创建多个副本,从而保证数据的安全。另外,数据在传输的过程中进行了加密处理,数据在存储设备上用户是无法进行直接访问的,保证了用户数据的私密性。
4 结语
存储在生活中是必不可少的,RAID技术也不会消失,随着网络技术的发展,人们应用网络越来越普及,对存储的要求也越来越高,对于存储需求的不断增长正在开发一些新的存储技术及数据保护的方法,或许会超越Raid技术,那么Raid技术依然是我们在数据存储及保护过程中应用的重要部分或是技术的补充,我们的共同目标是是数据存储及保护更具有模块化。
参考文献
[1]毛波.一种提高磁盘阵列重建效率的缓存替换算法[J].华中科技大学学报,2011(6).
[2]田俊峰.给予智能预警的自恢复存储系统研究[J].计算机工程,2011(10).
网络数据存储技术 篇7
随着计算机网络的迅速发展, 人们迫切希望网络上的信息不被泄露、更改和破坏, 网络服务不被中断。网络数据包捕获和分析技术是网络安全维护的基础技术和核心手段, 因此, 深入研究网络数据包的捕获和分析技术尤为必要。本文提出了一种可行的捕获网络数据包的设计流程, 并实现了对捕获的数据包的实时分析和存储功能。
1基于Winpcap数据包的捕获技术
1.1网络通信模型及常规通信编程方法
计算机网络通信采用OSI七层模型标准, 只要遵循这个标准就可以和位于世界任何地方、同样也遵循OSI标准的其它任何系统进行连接。但实际上完全符合各层协议的商用产品很少, 随着Internet在全世界的飞速发展, TCP/IP已经成为事实上的国际标准, 它们的对比参考模型如图1所示。
对Windows系统, 数据包捕获用到的主要方法有原始套接字、调用NDIS库函数、使用他人编写的中间层驱动、使用第三方组织提供的捕获组件或者库 (如Winpcap) 共4种。本文采用第4种, 具体介绍如下:
1.2 Winpcap技术简介
Winpcap是UNIX下的libpcap移植到Windows下的产物, 它是一个开源项目。Winpcap工作于驱动 (Driver) 层, 所以能以很高的效率进行网络操作。Winpcap提供了以下强大功能[1]:1获取网卡列表及信息;2捕获原始的数据包;3设置filter, 只捕获自己感兴趣的数据包;4方便地把捕获的数据包输出到文件和从文件输入;5发送原始的数据包;6统计网络流量。
本文使用MFC应用程序的界面设计编写程序, 核心开发主要使用Winpcap完成。Winpcap的组成部分如图2所示, 使用其提供的函数主要完成网络数据包的捕获等功能。
Winpcap为Win32应用程序提供访问网络底层的能力, 底层是基于WINPCAP包进行开发。主要用到的函数包括[2]:
(1) int pcap_findalldevs () ;用于返回所找到的适配器列表。
(2) pcap_t* pcap_open () ;用于打开一个网络接口进行数据包捕获。
(3) void pcap_dump () ;用于将包内容输出到由pcap_ dump_open () 打开的文件中。
(4) int pcap_compile () ;用于将过滤规则字符串编译成一个BPF内核过滤程序。
(5) int pcap_setfilter () ;功能是设置BPF过滤规则。
(6) int pcap_datalink () ;功能是获取数据链路层类型, 如10M以太网、SLIP、IEEE802.3等。
1.3数据捕获原理
以太网 (Ethernet) 是一种总线型网络, 具有共享介质的特征, 当网络适配器设置为监听模式 (混杂模式, Pro- miscuous) 时, 由于采用以太网广播信道争用的方式, 使得监听系统与正常通道的网络能够并联连接, 并可以捕获任何一个在同一冲突域上传输的数据包, 运用这一原理就能监听所需要的信息。
1.4原始数据包捕获的实现
捕获流程按先后顺序如下:1捕获设备可用的接口列表;2选择接口并将其设为混杂模式捕捉;3将捕捉的数据包保存进数据库以便读取和分析;4读取数据库保存的数据包并进行分析;5释放接口。
本软件建立在Winpcap结构的第三层模块Winpcap. dll之上, 并用VC++6.0多线程技术实现。主线程用于查找和显示网络设备、设置过滤器、分析数据包。子线程用于打开选择网络接口、捕获数据包并实时存入数据库中。
1.5体系结构设计总框架
Winpcap提供了数据包的捕获功能, 在不同的应用中需要设计不同的协议分析模块。针对不同的协议, 设计相应的协议分析功能, 是基于Winpcap应用的关键所在。本文使用Winpcap捕获和分析网络数据包的框架如图3所示。
2具体设计与实现过程
2.1 Winpcap安装与配置
由于本程序采用Winpcap抓取数据包, 所以需要Winpcap软件包以及相应开发包的支持。主要配置包括头文件目录和库文件目录, 增加与Winpcap有关的预处理定义、pcap.h头文件以及添加静态链接库, 然后编译并测试代码。本程序采用的开发环境是Winpcap4.1.3以及对应的开发包[3]。
2.2初始化
这部分主要做的工作就是VC、MFC框架以及相关控件的初始化, 包括列名称、列宽度等相关属性, 网络设备信息包括设备的唯一识别名称及其可读的描述内容, 然后将其显示在一个下拉列表中供用户选择。
2.3 ADO技术及连接数据库
2.3.1 ADO技术简介
ADO是一组由微软提供的COM组件, 基于面向对象思想的编程接口。它建立在COM体系结构之上, 其所有接口都是自动化接口, 因此在C++、VisualBasic、Del- phi等支持COM的开发语言中通过接口都可以访问到ADO。ADO对象模型非常精炼, 由3个主要对象Connec- tion、Command、Recordset和几个辅助对象组成。
2.3.2连接数据库代码设计
首先, 使用ADO前必须在工程的StdAfx.h头文件里直接引用符号#import, 以此引入ADO库文件, 使编译器能正确编译;其次, 定义ADO连接、命令、记录集指针, 这些指针为整个应用程序所共享。如在对话框头文件中定义:_ConnectionPtr m_pConnection;_CommandPtr m_ pCommand;_RecordsetPtr m_pRecordset;再次, 需要初始化OLE/COM库环境。在MFC应用程序里, 一个比较好的方法是在应用程序主类的InitInstance成员函数里初始化OLE/COM库环境。通常在ADO操作中语句要常用try....catch () 来捕获错误信息, 此时通过链接字符串与相应的数据库连接[4]。代码如下:
最后, 通过引用类中的theApp获取库连接指针, 同样采用try...catch () 来捕获错误信息。程序代码如下:
至此, 与ADO相关的代码都已经添加完成。
2.4功能相关的代码设计及程序编写
2.4.1程序开发流程
本程序具体流程:主程序 → 数据包捕获子线程函数ThreadProc→数据包实时显示以及实时存入SQL数据库。在多线程应用中, 子线程函数ThreadProc主要用来抓取数据包, 代码设计如下:
具体流程如图4和图5所示。
2.4.2软件运行结果
本软件需确保安装在本机上的Winpcap安装包, 运行结果如图6所示。
3结语
本文利用VC++6.0开发工具和Winpcap开发包, 实现了监听局域网内所有主机的数据包, 并分析了每个包的协议、源/目的IP地址、数据包长度等, 可检测网络入侵亦可学习网络协议知识, 但分析还不够完善, 有待进一步提高。
摘要:利用Winpcap网络开发包使应用程序绕过协议栈捕获并传送网络数据包, 实现了数据包的循环捕获。基于Windows平台, 用VC++6.0实现界面设计, 并运用ADO技术与数据库连接, 实现了数据包实时分析和数据的存储功能。
关键词:Winpcap,数据包,协议分析,数据库
参考文献
[1]吕雪峰.网络分析技术揭秘[M].北京:机械工业出版社, 2012.
[2]王月辉.基于Winpcap的网络数据包捕获和分析系统的研究与实现[D].沈阳:沈阳工业大学, 2007.
[3]黄培花.基于Winpcap的网络数据包捕获系统设计与实现[J].滨州学院学报, 2012, 28 (6) .
网络数据存储技术 篇8
随着通信业务的高速发展和膨胀,电信公司的业务支撑系统(Business Operation Sport System,Bo SS)存储的数据包括越来越多的计费详单、业务处理工单、各种各样的用户帐单、结算数据、以及统计分析数据等;在存储这些巨大的数据后,对这些数据的管理和共享也是一大难题。不难看出,系统本身正面临着信息管理和存储爆炸的挑战,而传统的存储管理方案只能支持单一的应用、服务器和操作系统。
存储区域网络(Storage Area Network,SAN)是一个不断发展的技术,能够为今天的1T管理带来快速的效益。存储区域网络能够提供存储和服务器的统一,以及不受干扰的备份,同时也消除了传统技术的距离限制。此外,与许多传统技术比较,SAN还能大大地改善应用的性能。正是在这样的背景下,作者通过对存储区域网技术和业务支撑系统的研究,综合分析了各种存储方式的优缺点和业务支撑系统的特性,提出了一个完备的数据存储管理解决方案,取得了不错的效果。
2. 网络存储系统结构分析
上世纪九十年代以来,随着网络技术的发展与处理能力的大幅提高,传统的单机数据处理方式被依附在网络上的以数据为中心的数据处理方式所取代,使存储系统与网络系统结合起来,产生了网络存储系统。基本的网络存储系统结构包括传统以服务器为中心的直接连接存储(Direct Access Storage,DAS)、附网存储(Network Attached Storage,NAS)和存储区域网(Storage Area Network,SAN)。
传统的直连存储DAS结构中,将具有块接口的存储设备(如磁盘、阵列)通过专用I/O通道,直接连接到文件服务器上,存储设备相当于服务器的一部分,由服务器提供存储管理与对外服务。在DAS结构存储系统中,数据的传输是以服务器为中心的,可以方便地集中管理数据,具有比较好的数据安全性。但是,客户访问存储系统中的数据时,数据需要在存储设备和服务器间多次转发,尽管文件服务器并不关心数据内容,通常也不对数据本身进行处理,但数据请求与传送都需要文件服务器的介入。当大规模用户进行数据访问时,给服务器的存取转发控制带来非常大的开销,使得文件服务器成为了整个系统中的性能瓶颈,对系统整体读写性能与可扩展性产生很大影响。
NAS是一种以数据为中心的存储结构,存储子系统不再通过专用I/O通道附属于某个服务器,而是通过专门系统的定制,将通用服务器上无关的功能去掉,只保留存储相关功能,可以看成是一台专门负责存储的“瘦”服务器,具有比DAS更高的读写性能。NAS提供文件级数据访问,支持NFS与CIFS网络文件协议,实现异构平台之间的数据级共享,在文件级别上建立安全机制也很容易。但是,NAS没有从根本上改变服务器/客户机的访问方式,因此当客户端数目或来自客户端的请求较多时,NAS服务器仍将成为系统的瓶颈。
SAN对前两种存储系统结构进行了比较大的改进,真正地将存储子系统从服务器上分离出来独立地连接在高速专用网上的,是一种以网络为中心的存储结构,目前典型两种结构是基于光纤通道的FC-SAN和基于IP网络的IP-SAN。客户通过高速专用网与存储设备连接在一起,通过虚拟化软件进行存储系统的集中管理,具有较好的扩展性。SAN中的服务器专门用来存放元数据,元数据描述了数据本身的属性,完成文件到存储设备物理块的映射。客户在访问存储系统时,通过从元数据服务器得到的元数据,直接访问存储设备,避免了传统服务器因转发带来的延迟,使得SAN具有较高的性能。
3. 电信业务支撑系统分析
当今社会,企业信息化,尤其是企业管理信息化的需求已经融入企业的发展战略之中,并成为核心竞争力的重要组成部分。目前电信业务支撑系统BOSS(Business Operations Support System)采取数据大集中的方式,在省级电信公司建立全省的数据存储和应用平台,而像OA、财务等管理系统大多采用的是DAS,并且相互独立。随着企业的发展和新业务的涌现,不仅管理系统中产生的数据越来越多,各种新的增值业务也会需要更多的空间来存储业务和管理数据,而DAS架构的扩展性差将成为数据存储的瓶颈。因此,要从电信业务数据中心的高度来规划存储,同时整合各个系统的“存储孤岛”。基于SAN的数据存储区域网络,建立一个集成的、分级的、便于数据共享的信息平台就是最好的选择。
4. 存储区域网络在电信业务支撑系统中的实现
为满足越来越多的信息系统对数据存储的要求,同时为了更好地构建电信企业数据仓库,通过数据挖掘技术来分析处理电信企业预测、决策问题,建立了如下的SAN数据存储架构。
其中第一层为数据存储层,采用双塔型的磁盘阵列来进行数据存储,其中磁盘阵列1存放在线数据以供前端业务处理系统、财务处理系统进行数据处理;磁盘阵列2存放业务处理系统、财务系统的历史数据或一些有价值的数据。两个磁盘阵列均通过RAID(Redundant Array of Independent Disks)技术来保证存储的更高性能指标、数据完整性和数据可用性。RAID的基本结构就是组合,捆绑两个或多个物理磁盘成组,形成一个单独的逻辑盘。对于RAID来说,在任何有害条件下绝对保持数据的完整性是最基本的要求,此外,数据可用性也是RAID系统的指标之一,数据可用性指的是阵列内部容错能力的水平,数据可用性程度越高,可被理解为当发生越多的部件失效时而数据访问仍不丢失。一个RAID阵列能提供的高可用性级别范围可从简单的磁盘冗余到所有部件的冗余性。
第二层为数据交换层,数据交换层是用两台光纤交换机把存储设备和主机设备连成一个统一规划的SAN。光纤技术成本低,距离长,可靠性高而成为事实上的存储传输标准。SAN在光纤通道扩展、第三方拷贝、远程拷贝、存储虚拟化方面等方面具有很高的性能和灵活性。数据交换层核心是SAN交换机,用于资源网络访问重新定向、实现多种访问协议桥接转换和数据不同格式的转换,并将下层存储方便地按需要分配给异构平台的不同的应用主机使用。从应用的角度来看,SAN是透明的,无需考虑数据最终会存储到哪个物理节点上。
第三层为业务处理及应用层,此层为企业服务器层,运行企业的关键业务,如业务支撑系统、财务系统、MIS系统、DSS系统等。备份服务器可专用来实现各个系统及数据的自动备份与恢复,按照各自设定的策略,定时周期备份把磁盘阵列的数据或服务器上的数据备份至磁带库中。其中磁带库或是光盘库作为在线数据的备份设备,也是离线级的数据存储,一旦在线数据发生损坏,可用磁带库的备份数据进行快速恢复。
第四层为客户端,此层是前端的PC和笔记本电脑,安装企业应用的客户端软件或是利用Web方式,登录到应用系统或是应用服务器中,功能一是业务人员实现对应用系统的基本操作;二是技术人员对应用系统和服务器的运行状态进行监控和维护等工作。
5. 结论
文章通过对存储区域网技术和电信公司业务支撑系统研究,设计并实现了一种电信公司业务支撑系统的数据存储和管理方案。
SAN在BOSS中成功的应用,改变了BOSS的数据存储方式,它是一种人们期望很久却因为技术限制一直无法实现的数据管理和共享方式。通过SAN的管理机制和备份方案,大大提高了数据的可用性、安全性和易管理性。这个方案支持公司业务支撑系统存储未来几年内的需求,提供了网络时代理想的存储与管理方案。
随着通信业务的发展,存储区域网在通信行业内各种系统中的应用推广是很有益处的。在此课题的基础上,可以根据研究成果的实际应用效果,对存储区域网技术进一步研究,探索出更加完善的解决方案和实施方法。
参考文献
[1]张春.电信企业信息化建设的几点考虑[J].电信工程技术与标准化,2005,(1).
[2]何永康.如何搭建运营商级SAN[J].现代通信,2005,(2).
[3]刘书香.建立基于SAN技术的存储网络[J].北京工业职业技术学院学报,2005,(4).
网络数据流存储算法分析与实现 篇9
网络数据流是由有序字节流组成, 字节流以报文为基本单位在网络中进行传输, 并且报文之间通常具有一定的状态联系和制约关系。关于网络数据流目前尚无统一的定义, 大体上可以把网络数据流研究分为二个方向:面向宏观的网络数据采样和面向微观的网络数据存储。数据流采样是通过定期采集网络数据流, 提取网络报文报头的特征, 实现对于网络状态分析。如 Cisco 的 Netflow 在高速网络上使用“k 取1”方法, 分析网络数据流特征使用动态采样方式提高 Netflow的精确度[1,2]。但是由于网络数据流采样时间粒度的限制, 错误地把几个不同的TCP连接聚集到一个 Netflow 中, 出现采样记录的连接数少于实际的 TCP 连接数的情况。网络数据存储主要集中在应用层, 如以 Squid 为代表的 Web cache 网络数据存储技术, Web cache 通过资源预取、缓存, 来提高客户端的响应速度, 节省带宽资源, 同时提供基于内容的资源传输管理[3]和多级缓存节点的资源协同管理等[4,5] 。但是以 Squid 为代表的 Web cache 是一种以 Object 为基本存储单位 Web Proxy 技术, 尽管 Squid 增加对部分应用协议的扩展功能, 但是仍然局限于少数的几种应用协议。
目前对于网络监控、安全预警等方面的应用, 不仅需要对网络流量进行整体的统计分析, 而且需要对每个连接状态进行记录、跟踪, 最后作出安全决策。因此如果能够实现对网络数据流的实时复制、存储, 不仅可以对关键网络业务进行精确的检测、跟踪, 而且能够实现对关键业务的备份和恢复。但是网络数据流的实时存储, 是一个在线存储过程, 面临着诸多瓶颈问题, 可以归纳如下: (1) 实际存储率低。由于网络数据流具有突发性和自相似性[6], 并且在传输过程中具有乱序传输特征[7], 加上实际存储时内存读写带宽与磁盘读写带宽的不匹配等原因, 会出现接收到数据包, 但没有实际写入磁盘中丢包现象, 造成实际存储比率低下。 (2) 缺乏有效的磁盘管理机制。传统的数据流复制, 通常是按序直接写入文件中, 不利于数据流的检索和查询。网络数据流的实时存储, 不仅需要较高的报文捕获能力, 而且更关注于网络数据流完整的复制、数据流状态维护以及磁盘数据管理。本文根据网络数据流特点提出网络数据流分段存储模型, 本模型包括基于内存的高速缓存结构和基于磁盘的多级索引结构。
1网络数据流存储模型
网络数据流存储是一个从网络数据流复制, 内存缓存, 再到磁盘文件管理的一个相互联系的复杂的过程, 为了说明方便, 首先进行如下的相关定义。
定义1 时序性 二个网络数据包a、b, 如果a 在网络传输中位于b 的前面, 即a 在时间轴上位于b 的左侧, 则称此时a 在时序上早于b, 表示为a<<b。
定义2 强时序性 设原始网络数据包序列为…l1, l2, m1, l3, m2, n1, n2, n3, m3, …, 如果数据包之间的时序性被严格地保持, 则称为数据流具有强时序性。
定义3 弱时序性 设数据流分段为 p1, p2, p3;p1= (l1, l2, l3) , p2= (m1, m2, m3) , p3= (n1, n2, n3) 。尽管p1, p2, p3 所包含数据包并没有严格的时序性, 但是每个分段的第一个数据包之间具有严格的时序性, 即l1<<m1<<n1, 称p1, p2, p3 之间具有弱时序性。为了衡量网络数据流分段后的与强时序的误差引入下面的定义。
定义4 弱时序性网络数据流的时间误差和秩 如果上例中把p1, p2, p3 数据流分段包含的数据包依次排列, 形如l1, l2, l3, m1, m2, m3, n1, n2, n3, 与原始数据流在时间上的最大的差值, 此例中的最大的差值可能发生在m3 与n1之间。把具有弱时序性的数据流分段中的数据包重新排列后, 与原始数据包序列进行比较, 其中任意二个数据包之间最大的时间差, 称为数据分段后的时间误差, 并把每个数据流分段包含的数据包的个数称为秩。
定义5 网络数据流的属主性 网络数据流通常具有明显的起始点 (源端) 或者终止点 (目的端) , 把这种性质成为网络数据流的属主性;网络数据流的属主性, 在不同应用场合使用不同的参数进行描述, 如 Cisco 通常使用七元组描述网络数据流的属主信息, TCP Session 中采用五元组描述网络数据流的属主信息。在某些场合也可以使用逻辑意义上的参数描述网络数据流属主信息。
通过上面的定义, 可以把网络数据流存储面临的基本问题描述为:如何在兼顾网络数据流属主性和时序性的前提条件下, 根据网络负载调整磁盘读写策略, 提高报文复制效率;如何为网络数据流建立体现时序性和属主性的双重索引结构, 提高磁盘数据管理效率。
由于传统模式下的按序复制、按序存储、限制磁盘读写策略, 增加了磁盘数据管理的难度。本文通过构造属主内保持强时序性、属主间保持弱时序性的数据流分段, 对构造后的网络数据流分段进行集中写入磁盘、集中建立索引等方式, 来解决传统网络数据流存储面临的问题。数据流分段之间的弱时序性是通过分段之间误差参数来控制的, 无论是网络协议栈还是网络应用程序都具有一定的时延容忍能力。例如默认的TCP 缓存区的大小是8KB, 如果能够保证各个弱时序性的分段秩小于14, 可以实现在不改变 TCP 语义的条件下, 进行网络数据流属主间的分段重组。为了实现网络数据流分段重组的目标, 本模型在内存中采用同时保证属主性和弱时序性的高速缓存结构, 在磁盘中对数据流分段建立数据流生成树的多级索引结构。
2相关算法的描述
2.1基于内存的网络数据流分段重组算法的描述
内存中的分段重组是通过散列表和循环队列实现的, 算法中的散列表保存的是不同属主的网络数据流存储位置的信息, 把同一属主内的网络报文经过散列运算后依次保存到同一个队列节点指向的数据流分段中, 通过散列运算保证网络数据流的属主性;循环队列中保存的是满足弱时序性的数据流分段, 对每个新到达的不同属主的数据流依次在队首开辟缓存空间, 而守护进程在队列尾部进行数据流分段的转存, 整个缓存和转存的过程是通过FIFO方式保证弱时序性的。对每个数据流分段之间的误差是通过每个分段的最大时间误差和秩来控制的, 当一个数据流分段超过时间误差或秩的最大限制, 设置分段满的状态标志, 表示不在本分段内继续缓存数据包, 等待守护进程进行转存数据流分段, 当仍有同一属主的网络数据流继续到达时, 重新在队首开辟缓存空间。
为了实现动态磁盘读写调度策略, 这里把循环队列分为三 个区:空闲区、工作区和转存区。空闲区是可利用的空闲队列资源;工作区是经过散列运算后, 正在写入的网络数据流分段, 工作区长度等于同时进行存储的不同属主的网络数据流数量;转存区是满足弱时序性的等待写入磁盘文件中的数据流分段, 通过观察转存区长度可以了解当时的网络流量情况, 动态调节磁盘读写速率。
算法的基本过程描述如下:
Step1 把客户端和服务器的 IP 地址经过散列运算, 得到在散列表中的表节点的索引值。如果散列表节点中没有记录, 并且冲突表为空, 在循环队列首部开辟新的队列节点, 把节点指针填入到散列表中, 进行状态记录, 把数据包数据按序插入到数据流链表结构中;如果散列表节点中有对应记录, 则取出队列节点指针。
Step2 通过队列节点的状态标志判断每个队列节点的使用状态。如果内存守护进程正在转存该节点数据, 表示内存守护进程正在转存该节点的数据, 则需要在循环队列头新开辟队列节点缓存空间, 并与散列表建立关联;如果节点为空或者正在被写入并且没有满, 表明该队列节点可用, 按序插入数据报文, 并在分段头信息中设置相应的属性值, 如果分段秩大于等于N, 设置分段满标记, 表明已达到最大数据流分段的误差, 等待内存守护进程进行数据分段转存;
Step3 在每个数据流分段转存周期内内存守护进程从队列尾部开始转存数据流分段。根据队列节点的属性值判读节点工作状态, 同时根据转存区长度‖tail-rear‖, 判断当时网络负载情况, 动态地调整转存周期的时间间隔。
Step4 定期清理散列表, 设置一个全局回收周期, 在回收周期内没有收到数据包, 则在散列表结构中清除对应项。
通过上述相关数据结构的描述和算法分析, 可以看出弱时序性的网络数据流存储结构在保持网络数据流的属主性和时序性的双重属性的前提下, 实现动态磁盘读写调度策略。对属主性的维护通过散列表实现, 对网络数据流的时序性维护通过队列的 FIFO 特性实现, 通过循环队列的分区处理, 达到对多属主数据流存储和动态调整的磁盘读写策略。弱时序性缓存结构产生的数据流分段是相同属主的网络数据报文并且报文之间具有严格的时序性, 为数据流磁盘管理提供了合理的结构。
2.2基于磁盘的网络数据流生成树的结构描述
对于由高速缓存结构产生的数据流分段, 使用数据流生成树的多极索引结构进行存储。数据流生成树是通过改进B+树来实现的。数据流生成树分为内节点和叶节点, 内节点记录索引结构数据和子树指针数据, 叶节点记录索引结构数据和数据指针数据, 数据指针指向每个分段的存储位置。数据流生成与B+树的区别是每个节点不再有最多子树的限制, 可以根据需要任意扩展子树的数目。数据流生成树不再局限于只有每个叶节点之间有兄弟指针, 内节点之间同样具有兄弟指针, 数据流生成树的高度共有五层, 每一层具有明确的逻辑含义。
设根节点为第一层, 根节点记录在一段时间内与所有Server 的通信记录;
第二层:记录每个Server 和不同的Client 之间的通信信息;
第三层:保存每个客户与服务器完整的会话的数据信息;
第四层:保存每个会话被分成的各个数据流分段的基本信息;
第五层:每个数据流分段的基本数据信息, 此时相邻数据流分段的最大时间差为最大时间误差, 每个数据流分段秩为N。
从分析可以看出, 整个数据流生成树的内节点实际上是由多级索引构成的索引树, 索引树由上到下时序性越来越强, 但是属主性越来越弱。由于网络数据流生成树在所有的内节点之间增加兄弟指针, 如果要实现针对某个节点的动态维护操作, 则整个索引树维护起来会十分复杂, 并且有些操作对于网络数据流也失去实际意义, 因此对网络数据流生成树的操作进一步限制。数据流生成树的操作仅限于数据流分段的基于状态插入和基于时序性和属主性的检索和移出, 这样把多数的对网络数据流生成树的操作转换为在同一层次上按序操作, 在满足对于数据流分段管理的同时, 也体现了网络数据流的属主性。
· 数据流基于时序性和属主性的查询 对于网络数据流的查询, 常用查询是基于时序性或者属主性的查询:
(1) 需要按照时间检索网络数据流, 可以根据第五层节点的指针依次读取各个数据流分段;
(2) 需要检索某一个客户的完整 Session 的数据流, 可以根据第四层节点指针读取各个完整 Session;
(3) 需要选择与某个服务器通信的所有客户端数据流, 可以通过第三层节点的指针依次进行查找。
上述三个查询体现网络数据流的基本特征, 是网络数据流最基本的查询操作。
· 数据流分段基于状态的插入 数据流分段的插入过程, 也是树形结构的构造过程:
Step1 如果第一层节点为空, 则根据数据流分段的头关键字, 构造第一层关键字, 并依次初始化第二层、第三层、第四层、第五层索引节点, 分配存储单元, 把数据流写入磁盘;否则进入Step2。
Step2 如果第一层节点不空, 但是没有记录, 则在第一层节点增加一条新记录, 并初始化第二层节点, 并作为第一层节点的右子树, 把原来第二层最右节点的指针指向新增节点;依次初始化第三层、第四层、第五层节点初始化, 最终把数据流分段存储在新开辟的存储单元数据块中;否则进入Step3。
Step3 第一层节点有要插入关键字记录, 根据记录进入第二层节点, 判断是否是新客户端的数据流如果是增加记录, 依次初始化其余层次的节点, 并存储数据;否则进入Step4。
Step4 第二层节点有要插入的数据流段关键字记录, 根据记录进入第三层节点, 此时判断该数据段是否是Session 建立连接状态的数据流, 如果是, 新建一个第四层节点, 作为第二层节点的右子树, 同时把该节点作为第四层节点的最右节点, 其余步骤与第三步类似;否则进入Step5。
Step5 如果不是新建连接状态的数据流, 则在第三层节点从左到右依次寻找, 找到第一个没有结束的 Session 插入数据流分段, 如果是结束 Session 的数据流, 把整个数据流标记结束, 进入第四层节点。
Step6 在第四层节点中修改节点相关信息, 建立新的第五层节点, 兄弟节点之间建立连接, 并开辟新的数据单元存储数据流, 最后返回。
· 数据流分段的移出 数据流分段的移出首先要进行查找, 然后把查找到的数据流分段进行移出, 数据流的移出操作与B+树的删除操作相似, 相区别的是不需要调整树的结构, 并且需要保持层间与右相邻兄弟之间的连接。
3系统实现及性能分析
相关算法是在基于Linux操作系统下实现的, 把Linux部署为软件路由器, 在IP层进行网络数据流复制、存储。通过在内核空间注册动态的内核模块, 挂载到Netfilter HOOK函数上, 进行网络报文捕获、过滤, 通过netlink传到用户空间, 在用户空间实现高速缓存结构。数据流分片的转存工作是由基于共享内存的守护进程来实现, 转存时间在最大的时间误差范围内, 每个数据流分段秩为N。为了便于整个系统的工作过程的跟踪和性能分析, 配置系统Log文件和系统运行Trace文件 (如图1 所示) 。
在实验中分别考察在丢包临界条件下, 本模型对于高分组速率和比特率环境下的实时存储能力。在实验中使用本文设计分段的存储模型 (PKT_s) 与传统网络报文存储模式 (PKT_t) 进行比较, 通过实验结果可以看出, 本模型无论在高报文传输速率, 还是大流量的网络背景下都具有较好地实时存储能力 (如图2所示) 。
采用网络数据流分段存储模型, 可以有效降低网络数据流存储时产生的索引数据量, 比较结果如图3所示。尽管网络数据流分段存储模型对于传统的报文存储模式具有明显的优势, 但是仍然呈现出实际存储比率随着数据流量的增加而降低的趋势, 根本原因是由于数据流分段重组时, 具有时间误差和秩的限制, 影响磁盘读写带宽的进一步提高;并且在内存中需要维护高速缓存结构, 同时增加系统的开销。
4结论
网络数据流的属主性和时序性是网络数据流存储过程中需要保持的两个基本属性, 本文根据网络数据流基本特征设计并实现网络数据流存储的基本模型。本模型包含网络数据流高速缓存结构和数据流生成树的索引结构, 进一步提高磁盘读写带宽, 并在此基础上提出同时体现网络数据流时序性和属主性的双重属性的索引结构。仿真结果表明网络数据流存储模型在高分组率和比特率的网络环境背景下, 都具有很好的实时存储能力。网络数据流存储算法模型在开封仪表有限公司生产的智能仪表中投入运用, 每年带来经济效益达1500万元, 完全符合工业现场要求, 具有很大的实际意义和应用价值。
参考文献
[1]Choi B Y, Bhattacharyya S.Observations on Cisco sampled NetFlow[C]//Proc 2005 ACM SIGMETRICS Workshop on Large Scale Net-work Inference (LSNI 2005) .Banff, AB, Canada, 2005:18-20.
[2] Zhao Q, Kummar A, Wang J.Data streaming algorithms for accurate and efficient measurement of traffic and flow matrices[C]//Proc ACM SIGMETRICS 2005.Banff, Alberta, Canada, 2005:252-255.
[3] Canali C, Cardellini V, Lancellotti R.Content adaptation architectures based on squid proxy server[J].World Wide Web, 2006, 9 (1) :70-75.
[4]Aguilar J, Leiss E L.A coherence-replacement protocol for Web proxycache systems[J].International Journal of Computers and Applica-tions, 2006, 28 (1) :12-14.
[5] Sosa V J, Gonazlez G, Navarro L.Building a flexile Web caching system[C]//Proc of the Fourth Mexican International Conference.Morelos, Mexico, 2003:61-63.
[6]Piratla N M, Jayasumana A P, Bare A A.Reorder density (RD) :a for-mal, comprehensive metric for packet reordering[C]//Proc Fourth IF-IP-TC6 Networking Conference.Ontario, USA, 2005:82-86.
网络数据存储技术 篇10
大数据时代已经到来, 在大数据理念面前, 所有传统数据的实证研究将被重新认识, 在教育领域, 过去无法收集与分析的数据都被新的技术手段赋予了可能性, 因而, 大数据对于教育的价值不言而喻, 已成为全世界项尖教育研究者竞相争夺的前沿研究阵地。
在教育领域中, 传统数据诠释宏观、整体的教育状况, 用于影响教育政策决策;而大数据可以分析微观、个体的状况, 从而真正面向教育的主体对象——具有个性化的个体 (人) , 这种传统意义上具有“测不准”特点的研究对象, 正随着信息技术的进步, 数据的累积, 让教育科学领域能够从宏观群体走向微观个体。个人在真实世界的活动得到了前所未有的细粒度、高频度记录, 为教育活动的定量分析提供了极为丰富的资源, 从而可以测得更准、计算得更加精确, 帮助找到真正起作用的教育影响因素, 进而用于调整教育行为与实现个性化教育。数据挖掘已成为提高教学管理质量与水平的一种有力工具。
高校是信息技术应用发展和普及的前沿, 在教学、管理和科研方面已经产生和正在不断产生着大量的各类数据, 这为从各个层面进行数据分析提供了信息基础。除了各类系统数据库平台中的大量数据外, 经过多年来的建设和积累, 随着web2.0、移动互联网技术等新的应用, 同时已经和正在使学校拥有更多并不断高速增长的可用的、有价值的非结构化的海量数据。当今面对大数据的挑战和机遇, 也必将很快不断涌现出更多新的面向教育的大数据采集方式方法和手段。从这些沉淀的数据中发现有价值的信息, 深入挖掘、综合利用、转化为知识, 是信息真正价值的体现。高校大数据时代的数据挖掘将包括:教育教学活动过程数据信息的分析和决策服务;信息化部门的IT运维和服务;学校各业务部门的管理决策分析和服务;全校的综合数据挖掘与分析决策等;为高校的管理和发展提供不同层面决策上的支撑, 从而实现真正意义上的“智慧”校园。
高校大数据对存储系统的技术要求
大数据的存储系统与传统的存储有一定区别, 主要表现在应该具有以下一些特性。
1) 大容量存储能力:海量数据存储能力, 可管理PB级乃至数十PB的存储容量;单个文件系统和卷中每个集群的容量为18TB~15PB。
2) 高性能特性:支持更高的存储速度, 较高的IOPS性能, 读写性能优异, 聚合带宽支持高达数GB乃至数十GB。提供极低延时响应、保证大数据分析业务能正常运行, 满足实时大数据应用的需要。减少面对海量数据仓储的数据挖掘应用时的瓶颈。
3) 高可靠性:具有多级数据冗余, 支持硬件与软件冗余保护, 采用多级存储备份, 支持SSD、SAS、SATA和磁带库的统一管理。
4) 支持数据的多样性:大数据来源广泛与复杂, 不同类型的数据访问、处理和分析的方式不同, 要求存储系统的接口集成化, 能够应对不同的数据需求。支持全类型数据, 包括结构化、半结构化和非结构数据, 满足非结构化数据的存储和分析需求, 实现统一数据支持。
5) 强大的可扩展性:保证数据可靠性的基础之上, 实现容量与性能的线性扩展, 满足不断增加的大数据存储需求。
6) 系统的易用性和可管理性:存储本身应该具备快速、智能的数据检索能力。在存储的最底层提供最直接、快捷的数据检索, 将上层的数据挖掘工作下移, 充分利用存储强大的处理能力和数据识别能力。具有全局命名空间, 所有应用可以看到统一的文件系统视图;支持标准接口, 应用无需修改可直接运行, 并提供API接口进行面向对象的管理;易于管理维护, 无需中断业务实现动态扩展;基于开放架构, 可以运行于任何开放架构的硬件之上。
7) 安全性:满足多级灵活的安全标准和保密性需求。大数据分析往往需要多类数据相互参考、混合访问, 因此需要考虑和解决新的安全性问题。
8) 成本性价比。更高的处理效率, 更低的成本。
大数据下高校存储基础架构建设目标
目前, 几乎所有的高校都在进行数据中心的扩建, 因为这两年数据的发展与过去比较已经不是一个数量级, 以往数据中心的空间已经无法适应当前快速发展的要求。传统存储产品由于自身的设计缺陷, 在扩展性方面、与上层应用集成度、高性能、自动化能力、成本等方面已经很难满足大数据诸多的存储特征。因此, 当前高校存储系统的建设应当以满足大数据的技术要求为目标, 开展顶层设计, 详细规划, 以目标为导向分阶段科学合理实施, 最终建立一个完整适应大数据时代到来要求的存储系统。
大数据存储应该具备出色的扩展能力、可管理性、高可用、高性能和分布式架构等五大基本特征。其趋势是存储整合、分布式可扩展、虚拟化、云存储和智能化。根据大数据对存储系统的技术要求和存储技术的发展趋势, 图1给出了一个大数据时代高校存储体系建设架构, 可作为一个设计规划和实施的参考指导。
通信层:存储网络通信基础设施。以太网光纤通道 (FCOE) , FCo E和统一结构在融合的网络传送方面成为一种新的形势, 具备经济的部署模式。FCo E和统一结构将重新定义数据中心网络如何提供存储和数据连接。
设施层:以RAID为基础的各类存储介质。由于内存与外存之间的存储鸿沟最大, 磁盘I/O通常成为系统性能瓶颈。新兴的SSD则是一种电子器件而非物理机械装置, 它具有体积小、能耗小、抗干扰能力强、寻址时间极小、IOPS高等特点将逐步扩大应用领域。
分布层:以分布形式存在的各种智能存储设备。
扩展层:通过统一管理, 用虚拟化技术把存储基础设施池化, 对资源进行分割、组合, 实现弹性容量、按需动态分配, 从而提高存储利用效率和性能, 简化存储管理复杂性, 绿色节省, 降低成本等。存储虚拟化可以有效整合各种异构存储资源, 消除信息孤岛, 保持高效数据流动与共享, 合理规划数据中心扩容, 简化存储管理等。目前最新的存储虚拟化技术有自动分级存储 (HSM) 、自动精减配置 (Thinp rovision) 、云存储 (Cloudstorage) 、分布式文件系统 (Distributed filesystem) 以及动态内存分区、SAN和NAS虚拟化等。
管理层:在系统达到一定规模后, 大数据存储平台的易用性和可管理性是不可或缺的。
应用层:大数据解决方案应包含数据存储、计算和分析, 而存储是此架构中的一部分。要求其为用户提供基于对象数据存储, 非结构化文件管理, 统一存储和统一集成的接口, 实现大数据分析中若干活动的下移和内置。
智能化:对于存储系统来说, 智能化代表着自动化、自适应、兼容性、自治管理、弹性应用, 通过对系统的监控、分析和挖掘来发现数据应用的特点和使用者的行为模式并动态调整配置, 从而达到最佳的运行状态。存储智能化可以分别在存储系统栈中的不同层次实现, 包括磁盘、RAID、卷管理器、文件系统、NAS系统、应用系统, 从而形成系统的存储智能化。
高校网络存储系统建设的应对
大数据存储的建设主要考验的是技术整合能力和资源整合能力, 是一项持久的工程, 也是一个不断迭代的过程, 不能一蹴而就。
首先, 理解业务需求, 建立适合自身业务特点的数据应用场景和数据管理架构, 采用一个能够长期发展的数据存储平台, 更好地利用现有的数据资产是眼下的当务之急, 避免盲目地进行所谓的大数据投资。
其次, 为降低成本, 购买行业标准的服务器和存储产品的同时保证产品的扩展能力和性能。存储系统需要持续满足高校需求, 并可通过灵活的扩展来保证数据处理对高性能的需求。分布式存储系统采用可扩展的系统架构, 能够利用多台存储服务器实现数据的负载均衡访问, 提高了系统可靠性、可用性和存取效率, 且易于扩展。
第三, 尽早着手开展大数据的准备规划和实施工作。比如做好高校非结构化数据管理, 将处于半休眠和休眠状态的非结构化数据激活, 进行统一管控。做好高校内部数据的整合, 将现有内部信息系统、业务系统和其他渠道收集来的数据进行整合和标准化, 做好大数据的规范化存储管理工作。逐步利用大数据分析技术开展数据解读工作, 为高校提供有价值的数据分析。
第四, 大数据存储管理和挖掘需要新的人才, 他们应精通设施设备专业技能和拥有新的教育分析能力, 需要有创新意识与挖掘数据的灵感, 需要具有更强的决策力、洞察发现力和流程优化能力等。此类人才的培养和储备同样是一个会影响到高校未来竞争能力的当务之急。
网络数据存储技术 篇11
摘要:
随着网络技术的不断发展,信息交互也越来越强,数据交互在整个世界范围内无时无刻不在发生,人类的信息技术迎来一个大数据的时代,而云计算的出现更是加快了信息的传播速度。云存储是云计算最主要的表现形式,在大数据环境下其作用十分突出。文章分析了大数据及云存储的相关概念,对云存储技术的应用及注意事项做出简单分析。
关键词:大数据;云存储;应用
【中图分类号】TP393.09
大数据是一个非常广泛的定义,无论是计算机还是手机,只要通过网络使用信息、通过网络让数据在世界范围内进行交流,均是大数据时代的存在方法,因此,只要通过网络进行信息交互的用户均是大数据时代的参与者。而基于大数据环境下研究云存储,是以大数据为依托,将云存储技术的优势充分发挥出来,使其更好的服务于大数据。
一、大数据对存储的要求
大数据背景下,非确定数据应用中的海量数据对数据存储系统的要求相对较高。一方面,海量数据需要通过分布式数据组织与管理策略进行组织与管理,因此其数据与数据组织方式要能满足非确定数据应用的要求。另一方面,海量数据是通过一个漫长的、持续增长的积累形成的,因此不仅要求存储支持具有一定的规模性及良好的性能,对其可扩展性也有更高的要求,并要求其具备功能完善的索引机制。大数据环境下,存储技术所面临的是海量的不确定性数据,传统的信息存储结构及对象查询方法的效率越来越低,人们迫切需要通过一种新的元数据组织结构及查询方法提高信息应用效率。在分布式环境中,各个网络结点均有数据源,大大降低了网络的传输性能,而各个数据源具有较强的自治性,再加之数据的非确定性,使得海量非确定性异构数据的集成工作越来越复杂。因此要对数据挖掘引擎的布局、多引擎的调度策略加以调整。
二、云存储概念及分类
云存储是云计算最主要的表现形式,而云计算是分布式处理、并行处理及网格计算发展到一定阶段的产物。其是利用网络把庞大的计算处理程序自动分拆为无数个相对较小的子程序,然后再利用由多部服务器组成的庞大系统对其进行计算、分析,最终再将处理结果发送至各个终端用户。云计算技术大大提高了数据信息的处理效率,可以实现与“超级计算机”相同的网络服务功能。云存储则是指通过集群应用、网格技术或分布式文件系统功能,利用應用软件将网络中大量的、不同类型的存储设备集合起来,通过这些集合在一起的存储设备向用户提供数据存储及业务访问的功能。具体而言,云存储可分为公共云存储、内部云存储及混合云存储。公共云存储是目前应用最为广泛的,比如亚马逊、百度云盘、搜狐企业网盘等均是采用的公共云存储模式,供应商可以保证每个客户在独立、私有的状态下实现信息的存储与应用。公共云存储还可以规划出一部分用于私有云存储,而私有云存储通常部署于企业数据中心或相同地点的设施上。内部云存储与私有云存储比较类似,其与私有云存储最大的区别在于,前者位于企业的防火墙内部,国内联想网盘提供的就是内部云存储服务。混合云存储顾名思义就是结合了公共云存储、私有云存储及内部云存储,根据用户要求的访问,尤其是需要临时配置容量时,从公共云存储中划分出一部分容易,用于配置一种私有或内部云,以帮助客户应对迅速增长的负载波动或高峰。
三、大数据环境下云存储的应用
现阶段云存储的应用主要包括以下几个方面:
(一)视频监控的应用
城市建设与社会的发展使得视频监控技术的应用与发展达到了空前繁荣的程度,而城市视频监控系统所面临的重要问题就是如何处理庞大的高清视频数据:网络带宽不足、存储穿间过大、性能要求越来越高、系统扩容升级存在压力等,均是需要面临的问题,而对PB级的海量网络存储需求,传统的直连式存储与网络存储技术根据无法满足这一要求。而云存储向视频监控系统提供了多种应用接口,用户无需安装任何播放及管理软件,其真正突破了传统存储方式的性能与容量的问题瓶颈,提高了系统性能及容量的线性扩展,使得海量数据的存储成为可能。并且由于不同的监控区域处于不同的地理范围,监控点数据巨大,云存储系统便于分布式管理与随时扩容。
(二)互联网络的应用
云存储技术在互联网中的应用越来越广泛,互联网可以提供一个有效的存储媒介,供用户进行交流,通过媒介获取丰富的相关信息资源,提高资源的利用率。随着移动互联网及移动终端的快速发展,用户的同步与分享需求日益强烈,互联网公司也将云存储技术的研发与应用作为自身的生果发展内容,并将互联网产品中需要存储的个人信息与云存储应用绑定,大大提高了信息处理速度。云存储平台与各类消费电子产品实现了互联互通,各种形式的数据信息开始实现跨越时间与穿间的自由流通,为各个社交网络用户提供更为丰富的交流元素。
(三)其它应用
其它应用包括视频编辑应用及家庭网络应用等。云存储技术可以实现不同设备的协同合作,通过虚拟化的管理技术大大简化了视频数据管理的流程,提高整个系统的开拓性与敏捷性。云存储系统对存储设备进行虚拟化管理,实现视频数据与物理存储位置的无关性,视频数据可跨地域存储与调用。家庭网络应用主要是实现家庭媒体文件的上传与在线播放,通过云存储访问代理与云存储平台的交互,实现家庭内多终端间的多媒体资源共享与多屏互动等,优化用户的感知。
总之,云存储不仅是存储,更多的是应用,随着云存储安全性、可靠性、实用性的不断提升,云存储必将在各个行业广泛应用,成为未来数据存储的主要发展趋势。
参考文献:
[1]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2014,02(15):129-130.
[2]文必龙,宗文栋.海量并行处理系统的大数据读写接口优化研究[J].郑州轻工业学院学报(自然科学版),2013,04(19):105-106.
[3]何鹏.移动互联网时代的企业信息聚合——从大数据的实践到云计算的应用[J].互联网天地,2013,12(20):206-207.
[4]景亚君,张永生,项文新.电子文件中心、电子文件备份中心和电子政务灾备中心辨析[J].办公自动化,2011,05(25):206-207.
网络数据存储技术 篇12
关键词:无纸化考试,数据存储,临时表,Delphi
0引言
随着计算机网络技术和数据库技术的发展, 网络无纸化考试系统以其公正性、安全性、准确性、灵活性、随机性、及时性、方便性等特点已成为目前国际上普遍采用的一种考试形式。例如, 遍布全球的美国思尔文学习系统有限公司的计算机化考试系统, 包括计算机类的微软专家认证, 外语的GRE, TOEFL等[1], 都得到用户的广泛使用。
目前, 计算机基础课程已成为高等学校各个专业的一门公共必修课。该课程的教学目的是培养学生的计算机文化素养, 提高学生的计算机应用能力, 为学生从事各项实际工作打下一个良好的基础。计算机基础课程的实践性很强, 学习效果主要体现在对计算机的实际操作能力上, 因此实现对学生计算机实际操作能力的考核就显得尤为重要。然而, 传统的考试方式从出题、考试、阅卷到成绩统计分析, 过程繁琐, 环节较多, 教师阅卷工作量大, 试卷分析工作难以开展, 特别是无法真正实现对计算机应用能力的考核[2]。网络无纸化考试系统有效整合校园网的软硬件资源, 利用计算机网络技术和数据库技术, 实现网络化考试, 与传统考试方式相比, 既体现考试的公正、公平, 又能减轻考试组卷、评卷的工作量, 特别是它能比较客观地考核学生的计算机应用能力, 对于提高教学质量具有十分积极的意义。
作为网络无纸化考试系统开发的前期工作, 考试过程中数据存储处理的设计起着至关重要的作用, 从一定程度上它决定了数据的存储效率和访问速度, 决定了算法复杂度和程序执行的效率, 也从一定程度上决定着考试系统的优劣和稳定性。
在此基于自主开发的计算机等级考试系统, 从考试流程分析、系统存储部署和临时表的创建等方面, 对利用客户端文件临时表来提高系统效率和稳定性方面做了具体阐述。
1考试流程分析
学生使用网络无纸化考试系统进行考试, 大体上经历登录系统、组卷、答题、交卷等几个阶段。在此期间, 系统要进行考生身份验证、考试考卷生成、考试情况记录、考试结果评分等几个阶段。考生考试和系统处理流程如图1所示。
考题由系统从题库中随机抽题生成, 每个考生的考卷不尽相同。由此, 为每个考生单独保存生成的试卷, 并在考试过程中记录考生的考试进度, 就成为考试中系统数据存储和处理的关键。考试过程中遭遇突发情况, 如断电、死机等, 是否能保存考生试卷和考试进度, 考生是否可以接着继续考试, 都将直接影响系统的稳定性和决定系统的优劣。
2系统存储部署
在设计系统的存储部署时, 提出两种部署方案:一种方案是集中存储, 即将考生试卷和考试进度都集中保存到数据库服务器上, 遭遇突发情况后, 考生可重启计算机或换机进行二次登录续考;另外一种方案是分散存储, 即将考生试卷和考试进度保存在考生机 (客户端) 上, 遭遇突发情况后, 考生可重启计算机续考或由管理人员迁移考试数据后换机续考。
对实现技术来说, 两者大同小异, 都是采取生成临时数据表的方式保存考生试卷和考试进度的, 前者是在数据库服务器上生成临时表;后者是在客户端上生成临时表。考生提交试卷给系统评分后, 这些临时表都会被清除。
系统中对数据的存取是最频繁的操作, 数据的访问速度是衡量系统性能和程序执行效率的重要指标, 在两种存储部署方案下, 数据访问量相当, 因而数据的访问速度就直接取决于数据的访问时间。可以归结于以下计算公式:
式中:T是数据的访问时间;N是访问的数据量;
在两种存储部署方案下, N始终是相等的, 即:
式中:ND是直接在数据库服务器进行存取时的数据量;NC是在客户端进行存取时的数据量。
当计算机处理的数据量比较大时, 会建立一个等待队列。显而易见, 由于数据库服务器要处理考场内全部考生的数据, 其数据量大, 因此数据库服务器处理数据时的等待时间会大于客户端处理数据时的等待时间, 即:
在数据库服务器上存取处理数据时, 数据要在服务器和客户端之间来回传输, 耗时较多, 而在客户端直接存取处理数据时, 数据只在计算机内部总线传输, 耗时可以忽略不计, 即:
因此, 可以得出如下结论:
即:
可以看出, 在系统性能和程序执行效率方面, 在数据库服务器上直接存取数据的部署方案远不如在客户端存取数据的部署方案。因此, 设计系统存储部署方案如图2所示。
3临时表的创建
使用Delphi创建的临时表可分为两类, 即内存临时表和文件临时表。内存临时表创建后驻留在本机内存中, 访问速度较快, 但遭遇断电或死机等异常后, 整个表和其中的数据都会丢失, 无法实现考生二次登录续考。文件临时表创建后以文件形式存放在本机磁盘, 访问速度较内存临时表稍慢, 但数据的存储是永久性的, 除非人为删除, 这有利于保存考生试卷和考试进度, 从而进一步实现考生二次登录续考。
创建文件临时表的方法较为简单, 只要确定表的结构, 即表中有哪些字段, 每一个字段的字段名、类型、宽度等[3], 就可以用一个过程来实现文件临时表的创建。下面以创建保存单选题的文件临时表为例, 表结构为题号 (整型, 流水号) 、题干 (字符串, 255) 、选项A (字符串, 255) 、选项B (字符串, 255) 、选项C (字符串, 255) 、选项D (字符串, 255) 、正确答案 (字符串, 1) 、考生答案 (字符串, 1) 。
设表文件的存储路径为“c:estdata”, 表文件名为“SingleSel.db”, 表的类型为“ttParadox”, 可以利用以下代码实现该文件临时表的创建:
4结语
这里主要是在综合考虑数据存储处理的速度、程序执行的效率和系统稳定性等因素的基础上, 对网络无纸化考试系统的数据存储处理提供一个设计方案, 并给出利用Delphi在客户端创建文件临时表的方法。该方案在后期系统使用过程中体现出很大的优势;大大减少了服务器在数据存储上的开销, 提高了数据的访问速度, 降低了网络数据传输的负荷, 增加了系统的整体性能。
参考文献
[1]郝莹.网上无纸化考试系统的意义与实现[J].北京建筑工程学院学报, 2000, 16 (2) :108-113.
[2]徐守萍.计算机基础课程无纸化考试系统设计[J].广东交通职业技术学院学报, 2007, 6 (3) :62-64.
[3]李文华, 杨奔全.数据表结构的动态创建与动态更新[J].中国科技信息, 2005 (5) :22, 15.
[4]郭志, 陈金良, 郭书俊.临时表在系统开发中的应用[J].计算机工程与设计, 2003, 24 (8) :69-71, 74.
[5]杨新锋, 刘平.Office无纸化考试自动化评分研究[J].科技广场, 2007 (3) :153-154.
[6]刘作军, 任永峰.无纸化考试数据库设计方案改进研究[J].现代电子技术, 2007, 30 (20) :64-65, 68.
[7]殷大发.无纸化考试系统的研究和开发[J].计算机与现代化, 2004 (3) :82-85.
[8]丁亚涛.无纸化考试平台构建技术[J].巢湖学院学报, 2007, 9 (3) :32-35.
[9]陈清利, 刘琳.基于B/S结构的网络考试系统的分析与设计[J].信息技术与信息化, 2008 (2) :30-32.
【网络数据存储技术】推荐阅读:
网络数据包捕获技术08-21
网络数据库技术10-09
网络数据分析技术11-09
网络数据库安全技术10-19
数据加密技术网络安全05-29
数据通信网络技术07-06
网络数据通信安全技术10-23
网络突发数据传输技术11-06
网络数据之互联网技术06-10
数据存储技术及应用10-29