容灾备份中心论文(通用11篇)
容灾备份中心论文 篇1
随着人民银行省级数据中心建设的不断深入, 以及信息化系统整合趋势的不断发展, 人民银行省级数据中心所承担的任务也越来越重。目前, 人民银行南京分行 (以下简称“人行南京分行”) 共维护136个应用系统, 其中近80个系统部署在分行省级数据中心, 包括18个总行信息系统、60多个分行自建系统。系统用户涵盖苏、皖两省各级人民银行和众多金融机构;业务涉及货币信贷、国库会计、人事、公文和调查统计等多个部门。如何保护这些信息系统的安全, 尤其是重要信息系统的数据安全, 已经成为分行科技保障工作的重要内容。
一、信息系统数据安全存在的问题
(一) 数据中心存储设备存在单点故障风险
通过近几年的不断建设, 人行南京分行数据中心系统服务器和光纤交换机等设备均实现了双机冗余保护, 但存储设备仍采用总行2010年下发的一台HDS AMS2500。该型号产品存在以下问题:一是功能单一, 无法实现跨阵列快照等功能, 如果备份操作发起之前数据丢失, 则无法恢复;二是仅有一台存储设备, 一旦发生故障, 本地及异地均无高可用的数据保护, 所有部署在省级数据中心的总分行业务系统均会中断, 后果严重。
(二) 分行自建信息系统数据缺乏保障
目前, 人行南京分行采用VMware v Sphere5.0搭建了虚拟化应用平台, 并利用该平台部署了分行自建的60多个应用系统。这些系统通过VMware HA提供统一且经济高效的硬件和系统故障切换保护功能。但除部分系统通过CDP, Symantec NBU, EMC Avamar等实现备份外, 其他系统数据并没有额外的备份保障。
(三) 系统灾备级别较低
在省级数据中心已备份的系统中, 只有人民银行账户管理系统通过总行CDP系统每隔10分钟远程异地备份到总行北京灾备中心。其他系统通过磁带、EMC Avamar等软硬件产品进行每日数据备份。这种方式仅实现了数据备份, 灾难恢复时间 (RTO) 和恢复目标点 (RPO) 均较长, 无法保证重要应用系统的连续性运行。
二、两地三中心容灾备份系统建设
为解决上述问题, 人行南京分行拟采用“两地三中心:同城-异地灾备”模式:在南京市建设同城数据灾备中心, 实现生产中心重要应用系统数据的实时同步复制和数据访问;在辖内中支建设异地数据备份中心, 将生产中心的重要业务数据连续备份到异地灾备中心, 减少灾害发生时的数据损失, 从而为分行省级数据中心提供有效的数据保障。
(一) 同城灾备/异地备份中心选址
人行南京分行在南京市区共有两个机房, 一个位于分行机关, 另一个位于分行营业管理部, 两机房相距2千米, 并配有一条千兆光纤通信线路。分行机房作为生产机房, 通过总行下发的一台HDS AMS2500构建了SAN存储网络, 部署了数据中心绝大部分系统。营管部机房配有一台EMC VNX5150及相应的SAN存储网络, 用于其内部虚拟化建设, 因此选定营管部机房作为同城数据灾备中心。
分行辖内除营管部外共有12个地市中支, 各中支与分行通过带宽8 Mbit/s的IP链路通信。与分行距离200千米以上的中支共有6个, 其中人民银行苏州市中心支行 (以下简称“人行苏州中支”) 已有一台EMC VNX5150和SAN存储网络, 综合地理位置、机房条件、硬件设备等多种因素, 决定选择人行苏州中支机房作为异地数据备份中心。
(二) 方案选择
人行南京分行主要考察比较了3种较为成熟的灾备方案:IBM SVC异构存储容灾解决方案、HDS GAD解决方案和EMC Vplex Metro&Recover Point Crr方案。
1. IBM SVC异构存储容灾解决方案
IBM SVC (SAN Volumne Controller) 是一种存储虚拟化解决方案。它可将不同的存储设备映射为SVC的内部存储单元MDISK (Managed Disk) , 一个或多个Mdisk被虚拟化为一个存储池, 进而提供存储服务。
SVC异构存储容灾方案就是先通过SVC实现异构存储的整合, 然后通过“Vdisk Mirror+Metro Mirror”功能进行本地存储高可用和数据容灾同步复制。其中Metro Mirror可支持300千米以内的两个机房之间的数据同步复制, 因此可满足同城灾备中心和异地备份中心的距离和数据容灾要求。但该方案要求灾备/备份中心与生产中心之间都需直接通过光纤网络进行数据传输, 现有网络条件无法满足;且需在生产中心再配置一台本地存储, 总投资较大。
2. HDS GAD解决方案
HDS GAD (Global-Active Device) 方案是一种基于存储的高可用方案。GAD是由两台高端存储G1000组成, 当两台存储的距离在100千米之内时, 用户数据可以在两台存储中实现实时同步复制, 并提供对外数据访问服务。用户主机可以访问任意一台存储数据, 如果一台存储设备出现故障, 可以保证业务不中断地访问另一台存储设备 (如图1所示) 。该方案可以实现“双活”数据访问, 但在距离上无法满足异地备份中心的要求, 且需要购买G1000存储设备, 投资较大。
3. EMC Vplex Metro&Recover Point Crr方案
EMC Vplex Metro是一种存储虚拟化解决方案, 它通过光纤通道将不同品牌不同数据中心的 (距离小于10千米) 存储设备虚拟化为统一的存储资源池。通过同步 (时延小于5毫秒) 镜像复制功能, 保持两数据中心存储数据的高可用 (如图2所示) 。同时, 通过“Active-Active”技术, 可以实现与HDS GAD方案类似的“双活”数据访问。因此EMC Vplex Metro可以在不增加其他设备的情况下, 满足分行-营管部同城数据灾备要求。
EMC Recover Point Crr (Continuous Remote Replication) 即连续远程数据复制, 它可通过光纤通道或WAN为距离大于100千米的数据中心提供双向数据块的复制 (如图3所示) , 因此满足人行南京分行-人行苏州中支的异地数据备份要求。
对比3种方案, 只有EMC Vplex Metro&Recover Point Crr方案可以充分利用分行现有的存储、网络资源, 实现两地三中心灾备系统建设目标, 且资金投入少。人行南京分行最终确定采用该方案。
(三) 同城数据灾备中心建设
通过EMC Vplex Metro虚拟存储技术, 人行南京分行将生产中心的HDS AMS2500和灾备中心的EMC VNX5150两台异构存储各划出2 T空间映射为一个单一的2 T容量的存储资源池 (Storage Pool) , 利用虚拟存储的分布式镜像功能, 进行数据的远程同步复制。即生产中心应用系统数据通过Vplex拆分后, 同时写入本地和同城灾备中心的存储设备中, 保证了两中心的数据同步。再通过VMware的在线迁移 (VMotion) 功能, 将分行虚拟化平台上的重要系统不停机地迁移到该存储池中。这样一旦生产中心存储发生故障, 在该存储池中的系统可以立即访问同城灾备中心对应存储设备上的数据, 保证数据的连续性访问。同城数据灾备架构如图4所示。
经测试, 生产中心与同城灾备中心数据同步时, 网络传输平均速率可达80 Mbit/s (如图5所示) 。
生产中心应用系统的读写时延<5毫秒 (如图6所示) , 可以满足现行系统的数据访问需求。
(四) 异地数据备份中心建设
人行南京分行在生产中心的HDS AMS2500和人行苏州中支异地数据备份中心的EMC VNX5150上各划出10 T空间, 作为远程数据备份一致性组, 采用EMC Recover Point Crr, 通过IP链路进行数据复制, 实现连续远程异地备份。即当生产中心进行写操作时, 应用系统数据通过Vplex引擎拆分成相同的两份, 一份写入本地存储, 另一份传至本地RPA, 经过压缩后按照预定的复制策略, 每隔几分钟通过IP链路传送到苏州异地备份中心的RPA, 形成日志后再写入异地备份中心的存储中, 保持与生产中心的数据一致性 (如图7所示) 。同样, 仍通过VMware VMotion功能将分行虚拟化平台上的部分数据重要性较高的系统迁移到该一致性组中。
经多次测试, 在现有网络带宽条件下 (最大带宽8 Mbit/s) , 数据首次复制时间较长, 但首次复制完成后即可按照既定策略, 每隔15分钟左右生成数据快照 (如图8和图9所示) 。当生产中心数据遭受损害时, 备份中心可提供任意快照时间点的数据备份进行数据恢复。
三、取得成效
(一) 提高了重要自建系统的可用性, 实现了系统的数据双活
同城数据灾备中心建成后, 实现了数据跨站点共享和无中断迁移。测试表明, 一旦生产中心目前唯一的HDS AMS2500发生故障, 通过Vplex的Active-Active技术, 生产中心虚拟化平台上部署在存储资源池中的应用系统可以快速自动切换至同城灾备中心的存储上, 使系统做到无中断数据访问, 消除了以往故障处理所需的存储操作, 解决了存储的单点故障风险, 从而保证重要自建业务系统的连续运行, 提高系统可用性, 实现应用系统的数据双活。同时, 两中心之间的数据复制可根据应用系统的重要性级别, 选择同步/异步方式, 以便最有效地利用网络带宽资源。
(二) 优化了现有系统灾备结构, 提供分层次的灾备服务
同城数据灾备中心和异地数据备份中心建成后, 对人行南京分行省级数据中心现有的系统灾备结构进行了优化。数据中心可根据应用系统的重要性提供不同级别的灾备服务。
第一种情况, 对数据安全性和业务连续性要求高, 业务中断将造成重大损失的系统, 可通过EMC Vplex实时备份到同城灾备中心。当生产中心发生存储故障时, 可做到快速切换, 获得RPO≈0, RTO≈0的最优保障。
第二种情况, 对业务连续性要求不高, 但数据丢失将造成重大损失的系统, 可通过Recover Point连续备份到苏州异地备份中心。当生产中心遭遇灾害时, 可提供RTO﹤15分钟的次优备份服务, 大大减少了重要数据的损失。
第三种情况, 对普通业务系统, 可通过E MC Avamar系统、磁带设备等, 提供RTO=24小时的普通备份服务。
(三) 充分利用现有资源, 提高了省级数据中心对各类灾害事件的应急能力
此次容灾备份系统建设由于采用了虚拟存储技术, 生产中心和灾备中心的存储阵列可支持不同品牌和不同型号的异构产品, 因此生产中心仍采用原有的HDS AMS2500存储设备, 不仅节约了灾备成本, 也使项目实施过程更加简单, 未对现有系统运行造成影响。
同时, 同城数据灾备中心和异地数据备份中心建成后, 延长了容灾距离, 提高了重要数据和应用的保护级别。使人行南京分行省级数据中心不仅能应对本地存储设备故障, 而且在面对洪水、火灾、地震等重大区域性的灾难时, 也有了可靠的数据保障, 提高了应急能力。
四、下一步工作
此次项目建设完成后, 人行南京分行下一步计划开展数据中心灾备与恢复的模拟测试演练。一是在同城灾备中心搭建虚拟化应用平台, 部署生产中心的重要业务系统, 模拟在“生产中心突遇重大灾害, 服务器、存储的硬件设备均被损毁”的情况下, 进行系统的快速同城灾备切换。
二是模拟在“生产中心与同城灾备中心都出现意外而无法正常运行”的情况下开展应急演练。通过这些测试与演练, 进一步提升人行南京分行省级数据中心的灾备水平, 为省级数据中心系统提供更加全面可靠的保护。
摘要:随着人民银行省级数据中心建设的不断深入, 以及信息化系统整合趋势的不断发展, 人行省级数据中心部署了全省大量业务系统, 但信息系统数据存储安全存在一定风险, 灾备级别较低。为此人民银行南京分行根据现有存储、网络资源, 在对比分析了3种较为成熟的灾备方案后, 采用了EMC Vplex Metro&Recoverpoint Crr方案开展两地三中心容灾备份系统建设, 并取得了一定成效, 为进一步提升人民银行南京分行省级数据中心的灾备水平及为省级数据中心系统提供更加全面可靠的保护打下了良好的基础。
关键词:两地三中心,容灾备份,Vplex Metro,Recover Point,数据双活
参考文献
[1]马渭桥, 张秉海.人民银行区域性数据备份中心建设探讨[J].金融电子化, 2008 (12) :44-45.
[2]程明英, 白鹏.人行省级数据中心应用整合思考[J].金融电子化, 2012 (8) :79-80.
容灾备份中心论文 篇2
1.1数据备份的主要方式
目前比较实用的的数据备份方式可分为本地备份异地保存、远程磁带库与光盘库、远程关键数据+定期备份、远程数据库复制、网络数据镜像、远程镜像磁盘等六种。
(1)本地备份异地保存
是指按一定的时间间隔(如一天)将系统某一时刻的数据备份到磁带、磁盘、光盘等介质上,然后及时地传递到远离运行中心的、安全的地方保存起来。
(2)远程磁带库、光盘库
是指通过网络将数据传送到远离生产中心的磁带库或光盘库系统。本方式要求在生产系统与磁带库或光盘库系统之间建立通信线路。(3)远程关键数据+定期备份
本方式定期备份全部数据,同时生产系统实时向备份系统传送数据库日志或应用系统交易流水等关键数据。(4)远程数据库复制
生产系统相分离的备份系统上建立生产系统上重要数据库的一个镜像拷贝,通过通信线路将生产系统的数据库日志传送到备份系统,使备份系统的数据库与生产系统的数据库数据变化保持同步。(5)网络数据镜像
是指对生产系统的数据库数据和重要的数据与目标文件进行监控与跟踪,并将对这些数据及目标文件的操作日志通过网络实时传送到备份系统,备份系统则根据操作日志对磁盘中数据进行更新,以保证生产系统与备份系统数据同步。(6)远程镜像磁盘
利用高速光纤通信线路和特殊的磁盘控制技术将镜像磁盘安放到远离生产系统的地方,镜像磁盘的数据与主磁盘数据以实时同步或实时异步方式保持一致。磁盘镜像可备份所有类型的数据。
1.2备份拓扑网络结构
广州市第八人民医院具有两个不同地点的中心机房(即东风东路院区中心机房和嘉禾院区中心机房),在这基础上是可以构建一个异地容灾的数据备份系统,以确保本单位的系统正常运营及对关键业务数据进行有效地保护,以下设计方案仅提供参考。
东风东院区数据中心
windows
windows
linux
linux
嘉禾院区数据中心
Windows
linux
本方案中,我们采用EMC的CDP保护技术来实现数据的连续保护和容灾系统。1.在东风东院区数据中心部署一台EMC 480统一存储平台,配置一个大容量光纤磁盘存储设备,作为整个系统数据集中存储平台。
2.在嘉禾院区数据中心部署一台EMC 480统一存储系统,配置一个大容量光纤磁盘存储设备,作为整个平台的灾备存储平台。
3.两地各部署两台EMC RecoverPoint/SE RPA,采用CLR技术,即CDP(持续数据保护)+CRR(持续远程复制),实现并发的本地和远程数据保护。
4.在东风东院区数据中心本地采用EMC RecoverPoint/SE CDP(持续数据保护)技术实现本地的数据保护。5.两地采用EMC RecoverPoint/SE CRR(持续远程复制)技术,实现远程的数据保护。由于两地之间专线的带宽有限,可以采用EMC Recoverpoint/SE异步复制技术,将东风东院区数据中心EMC480上的数据定时复制到嘉禾院区数据中心。根据带宽的大小,如果后期专线带宽有所增加,RecoverPoint会自动切换同步、异步、快照时间点三种复制方式,尽最大可能保证数据的零丢失。
1.3本地数据数据保护(CDP)设计
如上图所示,当服务器对生产卷有写命令操作时,存储系统将需要写入的数据写入到存储的同时,利用CLARIION拆分器(Spliter)将写命令同时传送一份到RPA上,RPA收到写命令返回写成功给服务器,同时将数据连同时间戳、应用事件、或标签等一并写入日志卷,RPA再根据日志卷信息分布地将数据写入复制卷。1.4远程数据复制过程(CRR)设计
如上图所示,当服务器对生产卷有写命令操作时,存储系统将需要写入的数据写入到存储的同时,利用CLARIION拆分器(Spliter)将写命令同时传送一份到RPA上,RPA收到写命令返回写成功给服务器,经过RPA处理(对数据进行压缩,压缩率可以达到15倍左右),通过专线网络将数据传送到嘉禾院区数据中心的RecoverPoint设备处,形成历史快照后,再写入到嘉禾院区中心的的EMC 480磁盘阵列系统中,保持与东风东院区数据中心EMC 480阵列上的数据一致性。
1.5数据恢复过程设计
本地恢复:在本地如发生服务器故障、数据损坏、软件错误、病毒和最终用户错误等常见问题造成的数据丢失,利用本地的CDP即可快速恢复到任意时间点的数据。
异地恢复:我们建议在嘉禾院区数据中心配置与东风东院区本地系统相同的应用服务器做为备用,一旦东风东院区本地数据中心灾难发生,由于数据已经传送到嘉禾院区数据中心,我们直接将数据附加到已配置好的灾备服务器上,配置好网络路由等细节,即可启动应用,恢复原业务系统。
RecoverPoint/SE不经过主机不影响主机性能,无须安装任何软件,完全完全独立的运行。通过IP 网络,搭建数据容灾架构,延长了容灾的距离,充分利用现有资源,完成数据的容灾保护,为保障数据的高安全性和可靠性打下良好基础。1.6 RecoverPoint/SE容灾方案技术优势
RecoverPoint/SE采用了独创的领先技术,是一个先进的企业级灾难恢复解决方案。该方案以相对低廉的造价提供完善的数据保护,RecoverPoint的结构是基于SAN和IP之间的支持双向数据复制的智能化独立设备,并可以在任意距离上为异构服务器环境提供数据复制。该方案具有以下特点:
1.带宽节约和数据压缩 2.利用IP网络进行数据复制 3.支持超长距离的数据复制 4.支持基于策略的数据复制 5.能够恢复到任意时间点 6.支持双向的数据复制
7.支持灵活的容灾数据中心的检查和批处理 8.长距离的“同步”解决方案
9.通过综合的手段,降低总体拥有成本
具体技术优势如下描述: 带宽节约和数据压缩
RecoverPoint/SE采用了智慧型的“带宽约减”技术,使得系统对带宽的需求达到了空前降低。这就可以在现有的网络带宽环境下提供最高程度的数据复制,这一点最大幅度地降低了对WAN需求的成本,尤其是基于远距离的数据复制。通过storage-aware和application-aware算法技术,可以达到高效的数据压缩能力(可达到15:1的压缩比),从而降低对传输带宽的需求,这一点是传统的数据压缩技术所无法比拟的。
任意时间点的应用程序数据保护
RecoverPoint/SE 允许通过选择特定于时间或特定于应用程序的智能书签将应用程序数据恢复到任意时间点。选定时间点的应用程序数据可以进行即时访问,并且立即可供主机读取和写入。还可以在设定数量的已分配存储中使用快照整合来实现更长的保留期,使客户能够在线维护更多数据以便恢复,而不引入额外的存储成本。RecoverPoint/SE 还允许在不中断复制过程的情况下对复制的数据进行读/ 写访问。在恢复时,该功能允许测试几个时间点的数据,以便确定最佳恢复点。该功能也可用于减轻备份负担、允许进行实时应用程序开发和测试、支持按需恢复、迁移数据及其他许多有价值的数据处理。
RecoverPoint/SE 可保护来自 Microsoft、Oracle、SAP®、VMware® 等的常见应用程序。它还支持应用程序一致性恢复点(使用 Virtual Data Interface for SQL Server 或 Volume Shadow CopyService for Exchange 等 Microsoft 要求的 API),从而让这些环境实现供应商支持的恢复。
确保数据的一致性
RecoverPoint保证在任何可能的故障或灾难中对企业数据进行一致性的复制。当前的许多产品无法确保数据在“多次同步”或“重复性灾难”发生的情况下保持数据的一致性。RecoverPoint可以确保在任何时间,甚至在异构存储和服务器的环境下仍然保持数据一致性。
策略化的数据复制
RecoverPoint提供了全面的数据复制机制,同时提供同步、异步以及时间点复制。复制过程按照用户的策略自动管理,并动态调整复制过程,按照可用带宽、每个应用的工作量来为每个应用达到一定的数据复制要求,从而在复杂或异构环境中极大地简化了数据和灾难恢复的管理难度。
比如,针对数据保护要求比较苛刻的应用,我们可以为其定义一种“最小延迟”的复制策略。这样,系统会利用所有可用的带宽资源来实现主从节点之间数据复制。另外,我们也可以为非关键业务定制“最小带宽”的复制策略,使得系统利用尽可能少的带宽资源,实现关键数据和相对非关键数据的不同策略处理。
远距离的同步保护
RecoverPoint提供了数据的同步保护级别,对应用性能无影响,距离无限,同时对存储设备无需额外的花费。该特有功能解决了当前方案对距离限制的问题,并实现了对区域性灾难的完整的实时数据保护,同时不会降低应用性能。
双向的数据复制能力
RecoverPoint提供了双向的数据复制能力,因此能够使主数据中心和容灾中心互为保护。例如,大型公司在不同的地方拥有分公司,各分公司都具有数据中心,都有应用数据需要保护,此时,可以互相将自己的数据复制到对方的数据中心,而共同使用同一套容灾基础设施和软件。
从节点的数据处理
RecoverPoint支持从节点数据的直接读取和写入操作,而无需预先从主节点产生拷贝。系统支持故障切换和数据回滚的能力,降低管理和操作成本。
始终可用和无限扩展性
RecoverPoint支持高可用集群技术,是Active-Active模式的独立体系,这样可以保持系统始终可用,并可以无限扩展。
整体成本优势
RecoverPoint提供了强大的数据保护功能,但是在整体成本上远远低于当前方案。同时,异构存储的支持、带宽的降低、软件、结构及操作维护等等都为用户提供了更为节约的解决之道。
便于管理
RecoverPoint支持NDMP管理协议,便于在其他应用或再开发中加以集成。同时RecoverPoint具有丰富的故障报告机制,图形化的界面使得管理更加便利。
华为容灾备份传送解决方案 篇3
1 引言
如今云计算、大数据等新兴领域方兴未艾,作为实现和承载的最佳平台的数据中心,无疑吸引了诸多的关注。事实上,数据中心已成为保障企业信息系统正常工作的重要基础设施,如何保证数据中心的持续可靠运行,如何应对和有效化解数据集中带来的风险,已成为企业CTO们愈发关注的重要问题。
2 容备建设势在必行
·全球在2004年因自然灾害和人为事故造成的直接损失达到1230亿美元
·全球2005年共发生约400起巨灾,损失超过2300亿美元
·在世界范围内与20世纪60年代相比,到了20世纪90年代,世界上可统计的自然灾害发生率增长了3倍,其经济损失增长了9倍
·9.11事件中,美国世贸中心里数百家没有灾难备份系统的公司彻底消失
·受汶川地震影响,整个银行业净损失约在50亿~130亿人民币, 没有灾备中心的城市商业银行影响很大,08年银行业净利润下滑0.7%
·世事无常,灾难一直如影随行的陪伴着人类社会的发展。随着信息化的快速发展,以政府、金融、电力、大型企业等为主的各行业逐步建立大型数据中心完成数据集中处理,数据的集中也意味着风险的加剧,对数据中心的可靠性也提出了更高的要求。企业数据中心必须能做到7×24小时不间断的服务能力,为避免数据中心遭受灾难时造成的巨大损失,容灾备份系统的建设已势在必行。
9.11之后,灾难备份被提升到前所未有的高度,国内研究机构、咨询机构、IT服务企业不断呼吁灾难备份建设。国家信息化办公室也在2005年发布《重要信息系统灾难恢复指南》,将灾备建设推到新的高度。2010年银监会发布的《商业银行数据中心监管指引》明确指出商业银行需要建设灾备中心。
3 容备建设概念
根据国家标准《信息系统灾难恢复规范》(GB/T 20988-2007)的定义:灾难是指由于人为或自然的原因,造成信息系统严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件。典型的灾难事件包括机房内事件(如系统单点故障、机房电源系统故障、广域网故障、机房漏水、空调系统故障、存储阵列关键设备故障、人为破坏、软件逻辑错误、信息安全故障等)、建筑物灾难(如建筑物外部火灾、建筑物内部火灾、机房内部火灾、长时间停电、光缆中断等)和区域性灾难(指机房所在区域或有紧密联系的地区交通、电讯、能源及其它关键基础设施遭到严重破坏,或大规模人口疏散的事件,如地震、大规模卫生事件、恐怖袭击、电网故障等)。
灾难备份是指为了灾难恢复而对数据、数据处理系统、网络系统、基础设施、专业技术支持能力和运行管理能力进行备份的过程;而灾难恢复是指为了将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态、并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态,而设计的活动和流程。灾备系统的建设包含七要素:数据备份系统、备用数据处理系统、备用网络系统、备用基础设施、专业技术支持能力、运行维护管理能力、灾难恢复预案。
《信息系统灾难恢复规范》将灾难恢复能力划分为6级,灾难恢复能力等级越高,对信息系统的保护效果越好,但同时成本也会迅速上升。灾备等级主要从RTO(恢复时间目标)和RPO(恢复点目标)来考虑,RPO(恢复点目标)是指发生灾难前最后一次备份的时间点距离当前时间差(数据丢失时间);RTO(时间恢复目标)是指发生灾难后恢复物理系统环境的时间。大部分的用户关注的是数据安全性,即RPO值(RPO越小,数据丢失越少),但是用户往往谈的更多的是RTO(RTO越小,恢复生产越快)。
基于上述定义,灾备系统可以理解为以“备份”为手段,以“恢复”为目标,是一项周密的系统工程。这一工程不仅需要进行备份中心的建设以及相关IT系统的购置,还需要在生产中心与备份中心之间搭建一张安全可靠的灾备传送网络。
4 容备网络建设
绝大部分情况下,容灾系统需要借助广域网进行互联,由于灾备的特殊性和重要性,对广域网的要求比较高:
(1)超大容量:在信息爆炸的趋势下,存储容量动辄数十到数百G,甚至到Tbit级别,需要足够大的网络带宽进行传送。
(2)高扩展性:随着企业数据业务量的迅速增加,存储容量每年都要高速扩展;
(3)高实时性:实时性是数据存储业务的一个基本要求,举一个我们日常生活中的例子就可以明白这一点:我们到银行存钱的时候,都希望这笔钱能够实时到账,稍有滞后我们都会无法容忍;
(4)高可靠性:对企业来说,关键业务数据的丢失是难以容忍的;
(5)接口多样性:虽然目前主流的接口类型是FC(Fiber Channel),但数据存储网络依然存在多种协议共存的情况,导致网络存在多种类型的接口,包括ESCON、FICON、IP等,甚至还有ATM、SDH接口类型。另外,现在各主流存储厂商如IBM、EMC、Hitachi、HP等,提供的接口也不完全兼容。这些情况导致了数据存储业务接口类型不统一、多种接口并存的状况。
灾难类型不同,应对的策略也不尽相同。对于机房内事件,可以在本地数据中心完成灾难恢复;对于建筑物灾难,需要通过同城灾备中心完成灾难恢复;而对于区域性灾难,则需要通过异地灾备系统,对业务运营进行保障。比较典型的方式比如华为的“两地三中心”方案,即设立主数据中心、同城灾备中心和异地灾备中心。
本地数据中心通过双机热备、本地备份、CDP这些在线/近线的数据保护手段完成机房内事件的灾备。
同城灾备中心方案顾名思义是指在同一个城市中部署的灾备中心,能实现数据的同城实时备份和业务的实时倒换,保证业务的连续性。同城实时备份可保证主数据中心和灾备中心的数据完全一致,达到最高的数据保护级别,尤其适合于核心和关键业务,如要求RPO/RTO接近于零的应用。因此,同城灾备对网络的性能和稳定性要求较高,如高带宽和低延时,目前主流的传送网技术是DWDM技术。
首先,DWDM具有超大的带宽及较强的扩展能力,特别适合数据存储业务带宽需求巨大、后续带宽扩展频繁的应用场景。DWDM是一个多波长的传送系统,传送带宽巨大,并可灵活扩展。目前,业界主流的DWDM系统是40/80波。如果每个波长传送10G的带宽,那么80个波长可传送的带宽将达到800G;如果每个波长传送40G的带宽,那么80个波长可传送的带宽将达到3.2T;如果每个波长传送100G的带宽,那么单根光纤将可实现8T的海量传送带宽。
DWDM可以根据带宽需求的增长灵活地增加波长数。比如,目前有80G的存储数据要从生产中心传送到备份中心,那么DWDM系统只需要采用8个波长;如果后续又有40G的数据需要备份传送,则只需在DWDM系统上再增加4个波长,从DWDM设备角度来说,只需增加4块板卡即可。
其次,DWDM作为一种成熟的技术形态,在网络安全、可靠性方面已非常完备。DWDM不但具有光线路层面的保护措施,而且具有业务接入层面的完善保护措施,完全可以满足数据存储业务的灾备网络在高安全性、高可靠性等方面的要求。
第三,经过多年的发展,DWDM已能支持当前所有主流的存储业务接口。只要DWDM设备厂商与主流存储设备厂商做过对接认证测试,DWDM系统将能满足数据灾备系统对接口多样化的需求,华为是目前为止通过与主流存储及服务器厂商认证测试最多的光传输厂商。
异地灾备中心方案是把数据备份到相对较远的城市,跨越地质灾害半径,能消除地震等地质灾害对业务数据的破坏,可采用MSTP、WDM等技术构建异地灾备系统。
MSTP作为一种成熟的传输技术,支持几乎所有的以太网和存储业务接口类型,完全可以满足灾备系统接口多样性的需求。
MSTP在网络可靠性方面已非常成熟。异地灾备系统采用两套设备和主备路由保护等物理隔离方式,可以实现业务网络、核心单板“双重”保护,确保异地灾备网络的私有性和安全性。
目前,业界主流MSTP厂商比如华为等都支持线路侧采用彩光模块,可以跟WDM设备直接连接,减少故障点,进一步提高网络可靠性。
5 结束语
容灾备份系统研究 篇4
关键词:备份,数据,容灾系统,高可靠性
随着信息化进程的加快,电子商务和电子政务逐渐成为社会经济的重要组成部分。信息已经成为社会最有价值的资产。将业务建立在信息系统上的企事业单位开始重视信息的安全性。如何能有效的保存和管理这些信息,使之能够预防各种突如其来的人为破坏或者自然灾难,保证系统7×24小时不间断的安全有效运行,己经成为政府机关和企事业单位的首要问题。由于影响信息安全的因素是多方面的,因此需要采用不同的技术手段来解决,容灾就是其中一种非常重要的手段。
容灾是一个范畴比较广泛的概念,从广义上讲,任何提高系统可靠性与可用性的努力都可称之为容灾。从狭义的角度,容灾是通过在异地建立和维护一个备份存储系统,利用地理上的分离来保证系统和数据对灾难性事件的抵御能力。当灾难发生时,如何能够在尽可能短时间内使系统正常运行,保证数据尽可能少丢失,都是容灾技术研究的内容。
1 备份与容灾的区别与联系
数据备份是数据容灾的基础,其目的是在系统崩溃时能够快速的恢复数据。容灾不是简单的备份,真正的数据容灾就是要避免传统备份的先天不足,能在灾难发生时,全面、及时地恢复整个系统。
数据备份是将某个特定时间点的完整、统一的数据或状态保存下来,并不能够保证数据的实时性。一旦灾难发生,数据备份只能保证在一定时间内将数据恢复到某个时间点上的正确状态。在恢复过程中,数据是不可用的。恢复完成后,数据也不能恢复到灾难发生时的正确状态,而只能是灾难之前一段时间的正确状态。而数据容灾的关键在于保护数据的在线状态,保证数据在发生灾难时能从容灾中心及时恢复并且不间断向外提供服务,实时保护数据,从而实现更高的可用性。
备份与容灾是存储领域极其重要的两个部分,二者也有着紧密的联系。首先,在备份与容灾中都有数据保护工作。备份大多采用磁带方式,性能低,成本低;容灾采用磁盘方式进行数据保护,数据随时在线,性能高,成本高。其次,备份是存储领域的一个基础,在一个完整的容灾方案中必然包括备份的部分。同时备份还是容灾方案的有效补充,因为容灾方案中的数据始终在线,因此存储有完全被破坏的可能,而备份提供了额外的一道防线,即使在线数据丢失也可以从备份数据中恢复。
2 容灾系统的分级
大体上讲,容灾系统可以分为三个级别:数据级别、应用级别以及业务级别。
数据级容灾是在异地建立一个数据容灾系统,该系统实时复制本地应用服务产生的数据,当本地数据因为灾难而无法存取时,应用服务可以通过异地数据容灾中心来继续存取数据。如图1所示。异地数据容灾中心的数据从理论上来讲应该是本地生产数据的完全实时复制,但是在实际应用中,由于传输路径的延时等原因,异地数据容灾中心所保存的数据一般比本地数据稍微滞后,但是数据应该是一致的、可用的。
数据级别容灾较为基础,其关注点在于数据。其中,较低级别的数据容灾方案仅需利用磁带库和管理软件就能实现数据异地备份,达到容灾的功效;而较高级别的数据容灾方案则是依靠数据复制工具,例如卷复制软件,或者存储系统的硬件控制器,实现数据的远程复制。数据级别灾难恢复时间较长,仍然存在风险,尽管用户原有数据没有丢失,但是应用会被中断,用户业务也被迫停止。
应用级容灾是建立在数据容灾的基础之上,在异地容灾中心建立一套完整的和本地应用服务系统相当的应用系统,当本地发生灾难时,异地容灾系统检测到灾难的发生,进行应用切换,由异地容灾系统向外提供服务。应用容灾是完整的容灾解决方案,实现了应用级的远程容灾,真正实现了系统和数据的高可用性。应用容灾系统不仅要复制数据,还需要网络、主机、应用、IP等各资源之间的协调。对于提供实时服务的信息系统,用户的应用服务请求在灾难发生时会中断。应用级容灾系统能够在保证用户数据的完整性、可靠性、安全性和一致性的前提下,提供不间断的应用服务,在灾难发生时进行实时切换,确保业务的连续性。
数据级容灾和应用级容灾都是在IT范畴之内的,然而对于正常业务而言,仅IT系统的保障还是不够的。有些用户需要构建最高级别的业务级容灾。业务级容灾的大部分内容是非IT系统,比如电话、办公地点等。当一场大的灾难发生时,用户原有的办公场所都会受到破坏,用户除了需要原有的数据、原有的应用系统,更需要工作人员在一个备份的工作场所能够正常地开展业务。由于容灾所承担的是用户最关键的核心业务,其重要作用勿庸置疑,容灾本身的复杂性也是十分明显的,这就决定了容灾成为一项系统工程。
3 容灾系统的实现方式
3.1 基于主机的容灾
通过在主机上安装软件实现数据在服务器之间的复制。这种方式对存储系统没有限制,支持异构存储系统,不需要增加硬件,同时可以在服务器层增加应用远程切换功能软件,从而构成完整的应用级灾备方案。但这种方式对软件要求高,生产中心和灾备中心的每一台应用服务器上都需要安装专门的软件,随着服务器数目的增加,成本也线性增加。同时存储目标数据的逻辑卷不能被业务系统直接使用。由于需要在服务器上运行软件,对服务器兼容性和性能也会有所影响。
3.2 基于存储设备的容灾
通过存储控制器实现的设备级数据远程镜像或复制,是传统灾备中最高效最可靠的方式。基于存储设备的容灾与服务器平台无关,远程复制由生产中心和灾备中心的存储系统完成,对应用服务器完全透明。设备往往采用的是一些专用的设备和通信方式,安装维护都比较复杂。由于两个中心之间必须有专用的网络连接作为数据通道,使得该系统对通信线路的要求较高,初期成本非常昂贵。
3.3 基于网络级的容灾
主要是指基于虚拟化存储技术的灾备。这种方式无需在应用服务器上安装任何软件,远程复制过程不会对应用服务器产生影响。存储设备可以完全异构,不同厂商不同接口的阵列可以混合使用,而且完全不用考虑现有的存储设备是否支持远程数据灾备,大大降低了方案复杂程度和实施难度。但是数据的写入必须由虚拟化数据管理产品进行转发。
3.4 评估标准
容灾系统的评估指标与业务系统的数据可恢复性密切相关。通常用RPO(Recovery Point Objective)、RTO(Recovery Time Objective)两个技术指标来衡量和评价一个容灾系统。RPO即数据恢复点目标,指的是企业在一次灾难中,所能容忍的数据丢失量。RTO即恢复时间目标,指的是所能容忍的业务停止服务的最长时间,也就是从灾难发生到业务系统恢复服务功能所需要的最短时间周期。RPO针对的是数据丢失,而RTO针对的是服务丢失,二者没有必然的关联性。RTO和RPO的确定必须在进行风险分析和业务影响分析后根据不同的业务需求确定。对于不同企业的同一种业务,RTO和RPO的需求也会有所不同。
此外,设计容灾系统还需要考虑选择容灾备份中心地点。数据库容灾要保证备份数据库的一致性。最好能够在对系统无干扰前提下,对备份数据库进行实时检验。
4 结束语
容灾系统的建立,提供了高可靠的数据保护环境,降低灾难发生造成的损失,提高系统的安全性和可恢复性。容灾系统并不是在设计完成后就不必再管理的项目,它不仅仅是技术,更是一项工程。测试和维护是保证系统高可靠性与可用性的有力途径。目前,很多国内企业特别是一些中小型企业,已经建立了容灾系统,但是长时间没有任何灾难发生,于是放松了警惕,没有定期进行维护和测试。一旦灾难发生,后悔莫及。相反,一些跨国公司在这点上仍能一如既往地定期对容灾系统进行评估和恢复演习。
参考文献
[1]聂元铭,曾志,黄燕宏.计算机数据修复与维护[M].北京:科学出版社,2006.
[2]Roopendra Jeet Sandhu著.张瑞萍等译.信息灾难恢复规划[M].北京:清华大学出版社,2004.
容灾备份中心论文 篇5
设计一个容灾备份系统,需要考虑多方面的因素,如备份/恢复数据量大小、应用数据中心和备援数据中心之间的距离和数据传输方式、灾难发生时所要求的恢复速度、备援中心的管理及投入资金等。根据这些因素和不同的应用场合,通常可将容灾备份分为四个等级。
第0级:没有备援中心
这一级容灾备份,实际上没有灾难恢复能力,它只在本地进行数据备份,并且被备份的数据只在本地保存,没有送往异地。
第1级:本地磁带备份,异地保存
在本地将关键数据备份,然后送到异地保存。灾难发生后,按预定数据恢复程序恢复系统和数据。这种方案成本低、易于配置。但当数据量增大时,存在存储介质难管理的问题,并且当灾难发生时存在大量数据难以及时恢复的问题。为了解决此问题,灾难发生时,先恢复关键数据,后恢复非关键数据。
第2级:热备份站点备份
在异地建立一个热备份点,通过网络进行数据备份。也就是通过网络以同步或异步方式,把主站点的数据备份到备份站点,备份站点一般只备份数据,不承担业务。当出现灾难时,备份站点接替主站点的业务,从而维护业务运行的连续性。
第3级:活动备援中心
在相隔较远的地方分别建立两个数据中心,它们都处于工作状态,并进行相互数据备份。当某个数据中心发生灾难时,另一个数据中心接替其工作任务。这种级别的备份根据实际要求和投入资金的多少,又可分为两种:①两个数据中心之间只限于关键数据的相互备份;②两个数据中心之间互为镜像,即零数据丢失等。零数据丢失是目前要求最高的一种容灾备份方式,它要求不管什么灾难发生,系统都能保证数据的安全。所以,它需要配置复杂的管理软件和专用的硬件设备,需要投资相对而言是最大的,但恢复速度也是最快的。
容灾备份的关键技术
在建立容灾备份系统时会涉及到多种技术,如:SAN或NAS技术、远程镜像技术、基于IP的SAN的互连技术、快照技术等。这里重点介绍远程镜像、快照和互连技术。
1. 远程镜像技术
远程镜像技术是在主数据中心和备援中心之间的数据备份时用到。镜像是在两个或多个磁盘或磁盘子系统上产生同一个数据的镜像视图的信息存储过程,一个叫主镜像系统,另一个叫从镜像系统。按主从镜像存储系统所处的位置可分为本地镜像和远程镜像。远程镜像又叫远程复制,是容灾备份的核心技术,同时也是保持远程数据同步和实现灾难恢复的基础。远程镜像按请求镜像的主机是否需要远程镜像站点的确认信息,又可分为同步远程镜像和异步远程镜像。
同步远程镜像(同步复制技术)是指通过远程镜像软件,将本地数据以完全同步的方式复制到异地,每一本地的I/O事务均需等待远程复制的完成确认信息,方予以释放,
同步镜像使远程拷贝总能与本地机要求复制的内容相匹配。当主站点出现故障时,用户的应用程序切换到备份的替代站点后,被镜像的远程副本可以保证业务继续执行而没有数据的丢失。但它存在往返传播造成延时较长的缺点,只限于在相对较近的距离上应用。
异步远程镜像(异步复制技术)保证在更新远程存储视图前完成向本地存储系统的基本I/O操作,而由本地存储系统提供给请求镜像主机的I/O操作完成确认信息。远程的数据复制是以后台同步的方式进行的,这使本地系统性能受到的影响很小,传输距离长(可达1000公里以上),对网络带宽要求小。但是,许多远程的从属存储子系统的写没有得到确认,当某种因素造成数据传输失败,可能出现数据一致性问题。为了解决这个问题,目前大多采用延迟复制的技术(本地数据复制均在后台日志区进行),即在确保本地数据完好无损后进行远程数据更新。
2.快照技术
远程镜像技术往往同快照技术结合起来实现远程备份,即通过镜像把数据备份到远程存储系统中,再用快照技术把远程存储系统中的信息备份到远程的磁带库、光盘库中。
快照是通过软件对要备份的磁盘子系统的数据快速扫描,建立一个要备份数据的快照逻辑单元号LUN和快照cache。在快速扫描时,把备份过程中即将要修改的数据块同时快速拷贝到快照cache中。快照LUN是一组指针,它指向快照cache和磁盘子系统中不变的数据块(在备份过程中)。在正常业务进行的同时,利用快照LUN实现对原数据的一个完全的备份。它可使用户在正常业务不受影响的情况下(主要指容灾备份系统),实时提取当前在线业务数据。其“备份窗口”接近于零,可大大增加系统业务的连续性,为实现系统真正的7×24运转提供了保证。
快照是通过内存作为缓冲区(快照cache),由快照软件提供系统磁盘存储的即时数据映像,它存在缓冲区调度的问题。
3.互连技术
早期的主数据中心和备援数据中心之间的数据备份,主要是基于SAN的远程复制(镜像),即通过光纤通道FC,把两个SAN连接起来,进行远程镜像(复制)。当灾难发生时,由备援数据中心替代主数据中心保证系统工作的连续性。这种远程容灾备份方式存在一些缺陷,如:实现成本高、设备的互操作性差、跨越的地理距离短(10公里)等,这些因素阻碍了它的进一步推广和应用。
目前,出现了多种基于IP的SAN的远程数据容灾备份技术。它们是利用基于IP的SAN的互连协议,将主数据中心SAN中的信息通过现有的TCP/IP网络,远程复制到备援中心SAN中。当备援中心存储的数据量过大时,可利用快照技术将其备份到磁带库或光盘库中。这种基于IP的SAN的远程容灾备份,可以跨越LAN、MAN和WAN,成本低、可扩展性好,具有广阔的发展前景。基于IP的互连协议包括:FCIP、iFCP、Infiniband、iSCSI等。
【小知识】
衡量容灾备份的两个技术指标
RPO(Recovery Point Objective):即数据恢复点目标,主要指的是业务系统所能容忍的数据丢失量。
RTO(Recovery Time
Objective):即恢复时间目标,主要指的是所能容忍的业务停止服务的最长时间,也就是从灾难发生到业务系统恢复服务功能所需要的最短时间周期。
容灾备份中心论文 篇6
就中小企业的现状看来,传统的备份容灾解决方案仿佛是可望而不可及的。因为其需要特殊的设备、强大的技术、昂贵的带宽以及专业的管理人员,且不说最初的投入成本,就是后期的维护成本就让备受争议的IT预算难以维系。备份容灾解决方案诞生之初就是面向金融或大型制造业等市场的,虽然目前,备份容灾供应商已经注意到了中小企业的需求,并逐步开始从金字塔顶端逐步向下发展,但这些面向SMB的备份容灾解决方案真的就能满足SMB的需求,让其后顾无忧么?
全球SMB灾难恢复信心普遍偏低
欧美等国家信息化进程起步较早,相对于中国的中小企业,其中小企业的数据保护意识更高,对数据进行保护的方式也更完备,理论上讲,其对灾难恢复的信心也应该更高,事实也是这样吗?
Acronis全球灾难恢复指数
据Ponemon Institute研究公司针对包括美国、香港、日本以及欧洲等13个国家各行业的3000多名IT从业人员的抽样调查报告显示,除德国和荷兰外,欧洲大部分国家和美国的中小企业对灾难恢复的信心指数普遍偏低。调查报告同时显示,影响SMB灾难恢复信心的因素主要集中在两大方面,即缺少对工具和资源的投资以及混合式环境下灾备较为复杂,并且对于利用新兴的云技术进行灾备仍存在顾虑。
传统灾备方案与SMB契合度不高
通过与亚太与欧美等发达国家的对比发现,中国的中小企业似乎面临着同样的问题,并且影响更为严重。全球的中小企业都面临着一个共同的预算难题,由于资金的掣肘,传统的备份容灾解决方案通常无法对中小企业的数据安全进行完善的保护。当中小企业在选购备份容灾解决方案时,常被问及RTO和RPO这两个问题,即最大能容忍的业务中断时间和数据丢失时间,也就是说,中小企业即使在采用了备份容灾解决方案之后,仍无法避免业务中断和数据丢失,这些解决方案只能尽可能缩短恢复时间和降低数据丢失时间。
服务器虚拟化加大SMB备份容灾难题
采用虚拟化技术的好处显而易见的,但其却给企业备份容灾带来了难以想象的困难。传统的备份解决方案很难对虚拟环境下的基础设施进行有效保护,备份性能大幅下降,如果对同一台物理服务器上的10台虚拟机进行备份,服务器内部的CPU、内存以及网络不可避免地出现资源争斗。
并且,诸如VMware Storage vMotion之类的工作负载迁移工具将使备份问题更加复杂,这些工具可让用户在共享存储位置之间迁移虚拟机磁盘文件,但存储管理员必须保持与这些随时可能迁移的虚拟服务器相关的备份实时有效,这无疑是存储管理员最为头痛的问题。
云备份并不是SMB的“救星”
采用云对企业数据进行备份容灾已经不是一个新鲜的话题,理论上讲由于云所具有的易于部署、灵活扩展和按需付费等优势,对于饱受预算掣肘的中小企业而言,应该具有莫大的吸引力,然后事实并非如此。
采用云端备份需要网络带宽做支撑,一旦遭遇突发状况,企业网络带宽是否足以保证数据能够快速得到恢复。除了带宽之外,还有一个云本身的问题,即安全性,如何保证在多租户状况下的数据安全。并且显而易见的是,采用云备份必然会增加企业的管理复杂度。
备份容灾必然走向融合
对大多数的中小型企业而言,服务是否成功,关键在于其是否容易使用、具备成本效益与弹性,以及其是否能够快速实施,立即产生正面影响。云计算与虚拟化技术正是因为拥有这些优势,所以能够迅速被人所接受,因此前景看好。备份和容灾解决方案必然也会走向融合,原因无他,一个能够集中,并且易于使用和管理的解决方案才是中小企业的关键诉求点。
从目前的供应商市场来看,一些厂商已经注意到这一点,并且某些产品已经具备了以单一解决方案应对实体、虚拟及云端的管理能力。如Acronis最新发布的Backup&Recovery 11备份容灾软件,其不但具备了对实体、虚拟、云端以及混合环境下的单一管理能力,并且还初步实现了将备份和容灾两套解决方案进行融合,使之可在同一管理平台下进行管理。
随着虚拟化、云计算等技术的不断深入发展,其必然将改变现有的备份市场格局,传统的备份解决方案越来越难提供这些复杂环境下的数据保护与业务连续性需求,必然迫使备份方案供应商采用的新的技术。对于中大型企业而言,备份、容灾两套解决方案并行状态将继续保持,而这种情况明显不符合中小企业的数据保护需求,其必然将走向融合,在一个统一的界面下进行管理。
随着虚拟化、云计算等技术的深入细化,针对物理、虚拟及云端的备份容灾解决方案必然出现。Acronis公司所推出的 Backup&Recovery 11采用磁盘映像技术进行备份,其将整个磁盘影像分段式、多目的地位置备份到SAN、NAS或者DAS、光盘、磁带或者云端,并用一个统一的界面进行管理,而这实际上就消除了实体、虚拟与云端的差异。
总的来说,针对数据的管理必然将朝着智能化、自动化方向发展,将复杂变为简单,减少由于人工所带来的误操作,以更加高效、安全地对数据进行管理,这才是企业的根本需求。从目前的灾备市场来看,除了Acronis之外,赛门铁克、安腾普以及其他的灾备供应商所推出的解决方案实际上已经开始出现融合的趋势,针对实体、虚拟以及云端的数据备份解决方案已经渐行渐近。
容灾备份中心论文 篇7
1 容灾备份系统
容灾备份系统就是为计算机信息系统提供的一个能应付各种灾难的系统。当计算机系统在遭受如火灾、水灾、地震、战争等不可抗拒的自然灾难以及计算机犯罪、计算机病毒、掉电、网络/通信失败、硬件/软件的人为操作错误等人为灾难时,容灾备份系统将保证用户数据的安全性(数据容灾),甚至还能提供数据零丢失、不间断的应用服务(应用容灾)[1]。
2 容灾备份的原理及分类
建立容灾备份系统就是以最小的代价保护应用数据的完整性与安全性,在灾难发生后尽快恢复系统运行,减少业务停顿时间,尽可能不中断或不影响业务的正常进行,并让灾难对企业造成的损失降到最低。也就是说,无论两个系统相隔多远,当一个数据中心出现问题时,另一个数据中心就能迅速接替运行,同时既要保证业务数据的完整性,又要保证关键业务的连续性。
建立容灾的原理是在相隔较远的地方分别建立两个数据中心,它们都处于工作状态,并进行相互数据备份。当某个数据中心发生灾难时,另一个数据中心接替其工作任务。这种级别的备份根据实际要求和投入资金的多少,又可分为两种:(1)两个数据中心之间只限于关键数据的相互备份;(2)两个数据中心之间互为镜像,即零数据丢失等。零数据丢失是目前要求最高的一种容灾备份方式,它要求不管什么灾难发生,系统都能保证数据的安全。所以,它需要配置复杂的管理软件和专用的硬件设备,需要投资相对而言是最大的,但恢复速度也是最快的[3]。
3 容灾备份系统的解决方案
在建立容灾备份系统时会涉及到多种技术,如:SAN或NAS技术、远程镜像技术、基于IP的SAN的互连技术、快照技术等。
目前可以跨越LAN、MAN和WAN,成本低、可扩展性好、具有广阔的发展前景的容灾备份技术就是多种基于IP的SAN的远程数据容灾备份技术。它们是利用基于IP的SAN的互连协议,将主数据中心SAN中的信息通过现有的TCP/IP网络,远程复制到备援中心SAN中。当备援中心存储的数据量过大时,可利用快照技术将其备份到磁带库或光盘库中。从而保证数据的安全和业务的连续性的。
中心机房和容灾备份机房就是利用了这一原理同时结合Symantec软件(Symantec容灾软件是业界比较流行的软件产品,能够保证客户的生产环境高速可靠有效的运行。既可以实现本地机房的双机双柜架构,也可以实现远端机房的应用级容灾。)来实现中心机房和容灾机房的数据替换,来确保本院信息系统的数据安全和业务的不间断运行。具体的方案实施原理如图1所示。
中心机房中,每台主机分别使用一块光纤卡与一台SAN交换机相连接,存储的每个控制器分别使用一块光纤模块与一台SAN交换机相连接,产生红蓝两条冗余链路,当其中任何一条链路出现故障时,比如存储的一个控制器故障或者其中一台光纤交换机故障,都不会影响主机对存储的访问。
容灾备份机房中,每台主机使用一块光纤卡与SAN交换机相连接,存储的每个控制器使用一块光纤模块与SAN交换机相连接,产生绿色链路。
两台存储分别置于两个机房中,使用Symantec容灾软件配置为镜像关系,当中心机房出现故障时(例如中心机房全部断电),应用将全部切换至灾备机房,确保应用正常工作,不影响医院的业务正常运行。
4 容灾备份系统存在的问题及发展前景
虽然容灾备份系统一直备受各个使用计算机系统行业的关注,但是根据调查显示,大多数公司并没有对自己的企业IT做好充足的容灾准备。IDG研究服务的调查结果显示,42%的受调查企业仍没有部署现代化的容灾备份的解决方案,这些企业中有23%的大型企业,48%的中小型企业和27%的微型企业依然依靠无效的手段流程和磁带进行数据保护和数据备份。尽管之前这些企业都曾遭受过数据丢失和IT中断。很多公司并不把这些策略作为优先项目来实施。
因为企业IT预算的减少和对容灾备份系统重要性认识不足的驱动,很多企业把数据保护和容灾备份系统只当成企业数据的保险。当今的数据中心,一般都是24*7的不间断服务。因为IT的中断可能给生产力带来67%损失,其中包含27%声誉损害,而因数据丢失带来的财务损失不可估量。
随着越来越多地企业因为采用虚拟化的磁带备份所需的时间和成本的巨大,不断经历IT中断和重要数据丢失的惨痛教训后,使得很多企业看到了快速的数据恢复和IT服务的必要性。提高了对容灾备份系统重要性的认识,转变了对容灾备份系统的传统观念,许多企业已经开始或实现了转向基于多种基于IP的SAN的远程数据容灾备份技术的解决方案。专家表示企业必须保持警觉,部署消除意外损失的自动化解决方案,用高可用性、自动化系统的系统进行数据备份对数据实施保护,确保企业数据的安全和业务的正常运行[4]。
参考文献
[1]张红.医院信息化背景下数据容灾的对策[J].医疗装备,2011,24(3):37-39.
[2]ChadL,Michael H.Components of disaster-tolerant comput-ing:analysis of disaster recovery,IT application downtime an-dexecutive visibility[J].International Journal of Business In-formation Systems,2008,3(3):317-331.
[3]郝乐.数据容灾技术研究.电子科技,2011,24(3):20-21.
浅谈企业的容灾备份系统建设 篇8
以金融企业来说, 如果发生数据丢失, 轻则影响业务的开展以及客户满意度, 重则会使整个企业的生产瘫痪。有研究显示, 企业在遭受灾难之后, 如果无法在14天内恢复数据, 75%的公司业务会完全停顿, 43%的公司再也无法重新开业, 20%的企业在2年之内被迫宣告破产。造成这些损失的原因不仅仅是火灾、水灾、地震等自然灾害, 还有诸如战争、蓄意破坏、严重误操作等人为因素。因此, 在限定时间内成功地恢复数据是金融企业战略中的一个关键的组成部分。
本文结合实际案例来与大家分享容灾备份的经验。
一、案例分析
(一) 环境
2台IBM小机p550, 双机集群;运行Oracle数据库, rac负载均衡;存储是san架构。
(二) 需求
异地进行容灾, 要求不要动原来的存储, 不接受数据迁移, 不接受换存储;实施可以停机半天, rto不超过2个小时。
(三) 容灾方案的选择
常用的容灾方案有三类:1.利用磁带拷贝进行数据备份和恢复;2.远程数据库复制技术;3.远程数据复制技术。
经过讨论和行业分析, 最后选择的是“远程数据库复制技术”, 也就是Oracle 11g Active Data Guard和Quest的SharePlex的解决方案, 因为这种技术可由数据库系统软件来实现数据库的远程复制和同步。而基于数据库的复制方式可分为实时复制、定时复制和存储转发复制。在复制过程中, 还有自动冲突检测的手段, 以保证数据一致性不受破坏。其实质是实现主、备用系统数据库的数据同步 (实时或者准实时同步) , 即将主用系统数据库操作Log实时或者周期性地复制到备用系统数据库中, 实现两者数据的一致性。远程数据库复制对主机的性能有一定影响, 会增加对磁盘存储容量的需求 (包括对Log的存储) , 但系统运行恢复较简单, 在实时复制方式时数据一致性较好, 所以对于一些对数据一致性要求较高、数据修改更新较频繁的应用可采用基于数据库的容灾备份方案;而选择远程数据库复制技术也就是最好的选择, 因此Oracle 11g Active Data Guard的解决方案就成了首选。
因为Oracle 11g Active Data Guard是为企业提供的一个全面的数据保护、灾难恢复和高可用性解决方案。它不仅能提供一个能够解决计划和计划外中断的灵活、易于管理的框架, 而且可以实现物理备用数据库和逻辑备用数据库双向互补, 并且还可以同时进行维护, 从而在减少主数据库上开销的同时提供高品质的数据保护。不同的数据保护模式提供了适用于各种保护、性能和基础架构需求的灵活性, 也为用户提供了一个更易于使用的配置和管理框架平台。
也许还有人会对硬件复制问题产生一些担忧, 其实通过远程磁盘镜像实现, 其实现的要求非常严格, 且只能基于同一厂商、同型号阵列、同样容量大小的2个阵列来实现, 因此厂商一般建议使用间歇性复制。远程磁盘镜像 (复制) 在容灾实现过程中支持各种数据的同步, 包括文件数据、数据库数据、裸设备、应用配置文件、应用程序、库函数等, 也支持各类应用系统容灾, 包括数据库、中间件、客户自己开发的应用, 适用于2层、3层, 甚至是多层应用架构。它与应用无关, 而与磁盘阵列直接相关, 但受光纤线路影响以及复制数据量大, 在使用间歇性复制时, 数据延迟大, 磁盘容量要求4倍于源数据, 并且在极端情况下, 不能保证数据一致性。
(四) 保证数据的一致性
磁盘复制在生产中心和容灾中心复制的是改动过的物理数据块, 而物理数据块的写是无序的。为了保证数据的一致性, 通过带时间戳的数据块, 在一定程度上改善了数据块的无序性, 但仍然不能彻底解决。可以看到, 数据库是通过带时间戳的数据块和联机日志一起来解决的, 如果一个数据文件中数据块的时间戳不一致, 数据库需要日志来修正, 日志中记录的是一些有序的数据库操作, 通过Recover的动作, 将不一致的数据文件, 前滚或后滚到某一特定时间点。带时间戳的数据文件和有序的日志, 二者缺一不可, 否则不能保证数据的一致性。在磁盘复制中, 唯独少了至关重要的磁盘写日志 (不可能有) 。更有甚者, 如果这种磁盘块的无序写发生在数据库的联机日志上, 那将对数据库数据的一致性造成破坏。
二、对企业容灾备份系统的建议
经过上述比较, 可以发现一个好的容灾系统首先应具有开放性, 不依赖特定的硬件系统, 支持各种传输介质, 如能支持TCP/IP网络则更佳。另外, 考虑到容灾能力和应用系统性能的影响, 容灾方案不仅要支持近距离的同步数据容灾, 还必须能支持远程的异步数据容灾。对于异步数据容灾, 数据复制不仅仅要求在异地有一份数据拷贝, 同时必须保证异地数据的完整性、可用性。完善的容灾系统应该包括各种实用的灾难恢复手段。
医院信息系统容灾备份技术探讨 篇9
我院是一所集医疗、教学、科研、预防保健为一体的综合性三级甲等医院, HIS核心数据库建立在oracle10g for windows基础上, 根据我院的实际分析, 考虑性能价格比和保护等级的要求, 选择适合的系统数据库容灾和备份技术方案。
1 技术方案分析
1.1 集群技术也称群集技术或机群技术, 是网络、软件、主机、存储技术的综合体现, 计算机的数目通常为2台, 故集群常称为双机或双机热备。集群的特点有高可用性, 当集群中的某个节点发生故障时, 集群管理软件迅速做出反应, 将该节点运行的任务分配到其他正常工作的节点上执行。
1.2 建立异地容灾服务器。尽管集群技术具有相当的高可靠性, 但在核心集群系统中发生多点故障, 或机房遭遇火灾等大型故障时, 则显得无能为力, 建立与核心集群服务器实时传输数据的异地容灾服务器是非常必要的, 异地容灾服务器可以在核心集群服务器停止工作时, 在短时间里, 恢复HIS业务正常运行。
1.3 建立异地数据备份系统。数据备份就是将数据以某种方式加以保留, 以便在系统遭受破坏或其他特定情况下, 重新加以利用的一个过程。建立异地数据备份是当前数据容错措施的主要手段之一, 这是确保医院数据的安全性、一致性和灾难恢复的重要措施。
2 方案实施
综合以上谈到的主流措施, 结合我院的机房、网络、设备及场地配置情况, 我院中心机房HIS系统采用两台配置相同的服务器, 通过光交换机共同管理磁盘阵列柜, 作为一个服务器集群组。盘阵采用双控制器、双电源、双通道, 盘阵里的多块磁盘采取raid5+hotspare配置。系统使用Windows Server 2003 Enterprise X64 Edition R2自带的集群功能, 管理服务器集群。最大程度在数据的存储、传输和计算的关键环节出现设备单点故障时, 系统的整体运行不受到任何影响。
为了应对集群设备的多点故障或重大的机房灾害发生, 建立与中心集群服务器数据库环境相同的异地容灾服务器。中心服务器集群工作正常时, 异地的容灾服务器只实时接收中心服务器集群的数据库数据, 与整个HIS系统的业务运行无关, 只在中心集群不能工作时, 临时接管中心集群业务运行工作, 容灾服务器可以是单台服务器, 能承担医院业务的基本工作即可, 等到中心服务器集群恢复正常后, 再把容灾服务器业务数据恢复到中心集群服务器上。
建立定时异地备份机制, 设立异地备份服务器, 使用Symantec Backup Exec备份软件定时异地备份, 确保数据安全可靠。
3日常维护
日常注意巡查, 观察各种设备指示灯状态, 及时发现隐患。及时处理服务器集群的单点故障, 检查磁盘空间和日志的状态。检查容灾服务器的数据传输日志和磁盘空间, 测试检查容灾服务器的可用性。检查备份服务器状态, 用备份到的数据定时做模拟数据库恢复测试, 确保备份数据可用性。认真做好维护记录。
采用容灾备份系统后, 医院信息系统可达到高可用性、高安全性、高效率、高可扩展性、高可管理性。从业务和应用层面而言。数据中心容灾处理和高可用性实现以后, 关键业务确保24小时不间断, 提高了服务的效率。在容灾备份系统建立之后, 还需要建立完善的管理机制, 才能最大限度地发挥容灾备份系统的作用, 保障系统数据的安全。
参考文献
[1]魏浩文, HIS安全维护技术的原理与应用[J], 医学信息学杂志, 2010, 31 (3) :18
[2]郭江博, 构建容灾系统防范网络安全问题研究[J], 中国信息界, 2011, 4:55-56
探索医院信息系统容灾与数据备份 篇10
1. 影响HIS业务持续性和稳定性的因素
HIS是一个数据量大、数据类型复杂和事务并发多的实时系统, 能为医院各部门提供患者医疗信息、费用信息和决策分析统计信息, 在医院的日常管理、医疗活动和经济成本核算方面起到了重要的作用。
一般的HIS都包括下面几个部分:
门诊挂号收费系统;住院管理系统:处理住院相关的业务;药品管理系统;物资管理系统;人事管理系统;医学影像系统;院长查询。
从上面业务流程可以看出, 随着业务量的增加, 系统中的数据越来越多, 这些数据在信息系统中占据重要地位, 因此, HIS数据丢失或服务器宕机将严重影各项工作顺利进行, 影响系统业务持续性和稳定性的因素, 可以归纳为以下几点:
1.1 数据备份保存问题
自然灾害, 如:火灾、水灾、地震等来自非计算机系统的灾害, 有可能导致中心机房损毁。在此情况下, 如果本地数据损毁, 又无异地备份, 对HIS来说是个致命打击。当然, 自然灾难发生的概率很小, 应以预防为主。采取远程异地备份数据或建立远程灾难恢复中心方式, 就可以避免遭受损失。
1.2 硬件系统故障及网络设备和通讯线路损毁
由于网络设备或服务器的设备故障或由于施工, 造成通信线路中断, 不能及时传送数据。有条件的可以采用线路的冗余备份。HIS都是24小时工作。如果遇到长时间断电, 要有具体的解决预案。
1.3 病毒、木马、黑客攻击等造成的损失
服务器采取安全措施:设置网络防火墙, 关闭不必要的服务, 经常进行系统升级和修补漏洞;建立服务器使用规章制度, 设置不同使用人员的权限, 禁止使用服务器进行不必要的上网操作等。
1.4 资源不足引起的宕机
随着业务量的快速增长, 可能引起HIS系统资源不足, 特别是业务量增长较快的医院。
1.5 存储媒体管理问题
如今用来存储数据的介质越来越多, 各种不同系统下存储产生的软盘、磁带、光盘将给管理带来很大的困难。
2. 安全措施
要保证系统安全运转, 保证其快速地从灾难中恢复数据, 避免数据丢失, 必须对网络系统安全、硬件、软件、数据等采取完善的安全措施, 以应对突发事件。
2.1 服务器硬件备份 (系统冗余)
采用磁盘阵列+双机热备份技术, 以保证服务器安全运行。双机热备份技术采用同步的数据备份, 用一台从服务器对主服务器进行备份, 同时对服务器磁盘采用磁盘阵列方式。但该技术也存在着不足, 总的来说, 该技术更适合保证无数据交换的、只提供服务的服务器来使用, 它可以保证系统的正常运行, 而并不适合数据交换频繁或存储大量数据的情况。并且, 当服务器感染病毒、木马或受到黑客攻击时, 也不能保证备份正常。因而, 采用该技术还要有一个数据恢复机制, 只有使用一个具有完善的双机备份及恢复机制的方案, 才能保障服务器全天候安全可靠运行, 也能将意外误操作的数据恢复出来。
2.2 群集技术保证服务器安全运行
可以通过群集技术提高数据库级信息服务的可用性。一个本地群集可以使由于系统的单点而出现故障的可能性降到最小。在共享数据的群集中, 损耗窗口可以为零。在群集中, 备份可以运行在导入了数据库服务器镜像数据的辅助服务器上。
2.3 数据备份
数据备份是容灾的基础, 分为常规备份和历史保存。一般备份的目的主要有两个:一是系统的业务数据由于系统或人为误操作造成损坏或丢失后, 可以及时在本地实现数据的恢复;另一个目的是在发生地域性灾难 (地震、火灾、机器毁坏等) 时, 可以及时在本地或异地实现数据及整个系统的灾难恢复。常规数据备份一般要求一份数据至少应该有两个拷贝。一份放在应用中心以保证数据的正常恢复, 另一份则转移到异地保存, 以保证在本地出现灾难后的数据恢复。此外, 还应建立历史归档数据的异地存放制度, 从而确保对历史业务数据的可靠恢复与有效稽核的实现。
3. 备份设备和方式
HIS的数据一般都保存在数据库中进行备份, 所采用的设备有:磁带、远程磁带库、光盘库。所采用的备份方式有:数据库服务器复制、数据库在线备份/离线备份、网络数据镜像、远程镜像磁盘、增量备份、文件备份。
3.1 网络数据镜像
网络数据镜像是对生产系统的数据库数据和所需跟踪的重要目标文件的更新进行监控与跟踪, 并通过网络将更新日志实时传送到备份系统, 备份系统则根据日志对磁盘进行更新。
3.2 远程镜像磁盘
通过高速光纤通道线路和磁盘控制技术将镜像磁盘延伸到远离生产机的地方。镜像磁盘数据与主磁盘数据完全一致, 更新方式为同步或异步。
3.3 数据库服务器的复制
大多数数据库服务器都支持复制, 通过数据库服务器的复制, 就可以实现灾难恢复。数据库服务器的复制需要在主站点和恢复站点间有一个高性能的网络连接。但即使这样也不能完全实时同步, 这意味着在数据库完全将数据反映到备用数据库有一个时间延迟。因为只有当所有的复制任务全部结束后, 数据库才能继续接收数据。存储复制是一种简单可行的数据库复制方法, 它将所有的数据库数据复制到远程中心站点, 当需要实现灾难恢复时, 再从数据中心复制回站点。无论数据库复制还是存储复制, 都会将人为误操作和应用错误复制到恢复端。
3.4 数据库离线备份和在线备份方式
离线备份在备份过程中禁止使用数据库。而在线备份在备份过程中用户仍可以使用数据库。这种情况下, 需要确保不管数据访问多么活跃, 都能够得到一个完整的数据拷贝。
3.5 完全备份或增量备份
不管是离线备份和在线备份, 都可以采用完全备份或增量备份方式。完全备份采用的是复制文件的方式。但是, 随着数据库的不断增长和对可用性要求的提高, 数据库完全备份在许多情况下无法完成。如果在两次备份间只有少量的数据变化, 数据库增量备份可以缩短数据库备份时间和节省备份介质。
3.6 检验数据库备份
大多数的HIS都会定期地对它们的数据库进行备份, 但很少对数据库备份进行检验。数据库备份由于一些原因, 如:数据库被破坏后才进行备份, 在完全备份的过程中数据库处于应用状态, 存储介质损毁等, 会使数据备份变得无效。从某种意义上讲, 无效的数据库备份比根本不做备份的情况更糟, 因为无效的数据库备份会造成一种安全的假象。因此, 检验数据库备份是一项非常重要的工作, 尤其是在进行了自动备份进程之后, 或是在数据库结构改变之后, 即使是没有任何改变发生, 定期进行检验也是必须的。
3.7 备份时间周期
随着数据量的逐渐增大, 备份所需要的时间越来越长, 资源的占用也越来越多。当备份的数据量很大时, 一次备份所耗费的时间也许会很长。为了节省目标计算机的存储空间, 用增量或差分等高级备份选项, 将任意一天的数据备份到目标计算机上, 当数据受到破坏时就可以恢复到任意一天的数据状况。
4. 容灾恢复技术
4.1 建立冗余站点
当灾难发生, 生产站点受到破坏时, 冗余站点可以接管用户正常的业务, 达到业务不间断的目的。
4.2 全系统恢复
全系统恢复一般应用在服务器发生意外灾难导致数据全部丢失、系统崩溃或是有计划的系统升级、服务器进行更新时, 利用数据备份来恢复整个系统, 不仅包含用户数据, 而且还包含系统参数和环境参数等。
4.3 个别文件恢复
由于操作失误, 发生个别文件恢复可能要比全盘恢复常见得多, 我们可以利用网络传输来恢复受损的个别文件。
4.4 数据库恢复
数据库备份是最基本和有效的数据库容灾技术。数据库备份后快速地将备份介质运送到安全的地方, 数据库就能够在大多数的灾难中得到恢复。
5. 总结
目前, 在一些医院的HIS和PACS两大系统应用中, 采用数据安全集中存储备份方式的较多, 如:使用惠普 (HP) Storage Works EVA光纤磁盘阵列和MSL磁带库以实现多系统及容灾整合。HP EVA存储易于管理, HP EVA虚拟Raid技术能够实现科学灵活的容量管理和分配, 在避免产生性能瓶颈的热点硬盘的同时, 还能提高两倍以上的存储利用率。何尽快地在短时间内恢复信息系统, 以及能恢复到什么程度, 是HIS安全运转的重要问题。完善的HIS应具有快速从灾难中恢复, 以及一套完善、可靠的数据备份机制。备份机制应该是全方位、多层次的。采用的备份技术要具有高可用性, 通常要使用硬件备份技术来防止硬件故障, 要考虑由于软件故障或人为误操作造成的数据损坏问题, 这可以采用网络存储备份系统和硬件容错相结合的方式。这种结合方式构成了对系统的多级防护, 能够有效地防止物理损坏, 能够彻底防止逻辑损坏。
参考文献
[1]业务关键系统都需要容灾备份[EB/OL].http://storage.ctocio.com.cn/comment/115/7483615.shtm, l 2007-08-10.
[2]颜军.解析三大容灾技术[EB/OL].http://storage.ctocio.com.cn/tips/366/7163866.shtm, l 2007-04-10.
[3]薛雁.医院SAN数据存储和远程容灾方案[J].现代医院, 2007, 7 (2) :143-145.
高校一卡通系统数据容灾备份探析 篇11
1 校园一卡通系统容灾备份必要性分析
作为校园一卡通重中之重的数据库的安全直接关系到系统的正常运行,但对于高校而言,容灾备份似乎仍然是个相对陌生的名词,虽然国内有一部分学校建设了自己的灾备系统,但从全国的范围来看,这个比例相对来说是比较小的。近几年各个大的灾难性的事件,像美国的911恐怖袭击事件、5.12汶川大地震事件等造成大规模的企事业单位的办公楼倒塌,设备损坏,数据永远无法恢复;以及平时的火灾、设备损坏、病毒及人为严重误操作都会给现有数据造成毁灭性的打击,灾难唤醒了人们对于数据安全的关注,同时也给高校一卡通数据的安全性敲响了警钟,迫使各高校都在积极寻求一种能够极可能抵御多种灾难环境的数据容灾系统,以解决所有鸡蛋都存放在同一个篮子里的重大数据安全隐患。
数据灾备方案的选择首先应该分析数据和应用的重要性,对数据和应用的重要性进行评估,从而选择不同级别的灾备方案。在衡量数据重要性方面一般认为不可再生的、自创的、与重要业务相关的数据是最关键的数据,显而易见校园一卡通的数据都符合这三个指标:一卡通数据库中数据都是从各系统终端适时采集的数据,包括收费机的消费记录、转账机与银行系统的转账记录以及各管理终端的管理数据,并且这些数据都关系到校内方方面面的应用,数据一旦大量丢失不但将无法找回,而且将造成校内各业务的终端甚至造成混乱。从应用等级上来说该系统应用范围比较广,功能较多,广大师生对该系统依赖性较高,各相关业务都对应用系统的稳定性有较高的要求,一般要求系统能7*24小时不间断运行。数据灾备可以根据数据和应用的重要性分成不同的等级,校园一卡通对数据安全的要求是等级比较高的,既要满足数据的绝对安全,又要保证灾难发生后一卡通业务尽量不要中断,属于应用级的数据灾备范畴。
2 几种校园一卡通系统数据灾备的模式
我们选取了几种校园一卡通系统数据灾备的模式一一进行分析,具体如下:
2.1 设备级的灾备
这种模式严格意义上应该叫做备份存储模式,是各大高校使用最多的,也是实现起来简单的一种模式。是以固定的时间周期将数据库导出的数据存放在本机的硬盘或存储上,一般采取的是一天一备份的模式,在夜间系统用户处于相对空闲的时间段,通过任务日志结合脚本文件将数据库备份导出,通过软件可以实现数据在服务器之间复制。数据库一旦出现问题,可利用备份对数据库进行恢复。这种备份模式,操作简单,几乎不用额外的投入其他成本,但没有备援中心,数据只在本地备份保存,无法实现异地容灾,无法抵御因火灾、地震以及盗窃等原因造成的数据丢失、操作过程会影响到整个一卡通系统的正常运行。设备级的灾备一般是在一卡通搭建之初由系统集成商提供的方案,虽然对存储系统没有限制,架设的过程中无须添加新的设备,校方无需更多的投资,但不能实现真正意义上的异地灾备,无法满足对一卡通数据库安全方面的要求,存在一定的丢失数据的风险,如果高校仍在使用该方案作为校园一卡通系统的安全机制,则需要考虑升级自身的数据容灾备份系统。
2.2 数据级的异地灾备
这种模式高校的一般做法是利用在分校区或不同的建筑物上设立灾备中心,在数据库服务器和灾备中心之间建立一条高速的网络通路,通过软件或硬件设备固定的将数据库的备份传输到灾备中心的磁盘阵列上去,万一出现本地的数据出现损坏的现象,可利用异地灾备中心的数据重新导入数据库,以达到数据恢复的目的。该种模式的灾备属于基于网络的数据级异地灾备,考虑了数据容灾,可以实现因火灾、地震、盗窃或人为误操作造成的数据库毁灭性的毁坏。数据级的异地灾备系统由于选取了在地域上相隔较远的两地分别存储镜像或数据备份,复制过程由生产中心和灾备中心的存储系统完成,对应用系统完全透明,并且备份软件的使用大大降低了系统管理人员的工作压力,是传统的灾备方式中最高效可靠的方式。但该模式之进行了数据容灾,没有进行应用容灾,数据恢复可能需要较长时间,该时间内会影响到一卡通某些业务的正常运行。
2.3 应用级的异地灾备
该模式是在相隔较远的地方分别建立两个数据中心,两个数据中心之间通过高速数据链路进行连通,两者都处于工作状态,同时进行数据读取,并且相互数据备份。当某个数据中心发生灾难时,另一个数据中心接替其工作任务,两个数据中心之间互为镜像,实现零数据丢失。应用级的异地容灾是针对一卡通系统最完善、最理想的解决方案。但是该方案的实施需要引入新的设备,还有可能改变原有的架构,存储的路径较长,需要专门设计的硬件设备实现,开发难度大,综合成本高。
综上所述,从维护一卡通数据安全的角度出发,设备级灾备模式不具备完全抵御火灾、地震、病毒以及人为误操作的能力,存在很大的数据安全隐患,只能作为一种辅助的数据备份方式来使用。数据级的异地灾备方式根据灾难防范的等级不同又可以分为地域级和楼宇级,地域级是指面对地震等大面积的灾难的防范,一般要求数据服务器与灾备中心直线距离至少在15公里以上,有两个校区的学校可以在分校区建立灾备中心,没有分校区的学校需要挑选合适的地方建立灾备中心。楼宇级是指影响局部建筑物或房间的灾难防范,比如很多学校网络中心放在科技楼,可以在校园内其他楼上(比如图书馆)建立一个灾备中心,来达到防范单个建筑物灾难的目的。数据中心和灾备中心间需要建立一条高速的数据通路,根据二者之间的距离远近,线路投资或租用的费用是不同的。应用级的异地灾备,除了可以实现异地的数据容灾以外,还可以实现应用级的容灾,当某个数据中心发生灾难时,另外一个数据中心可以接替其工作,实现校园一卡通业务的不间断运行,但该模式需要额外的设备投资、服务器架构和数据读写路径都要重新设计,远距离的高速数据传输需要专门的光缆通路,并且还需要投入专门人力、策略来维护该灾备中心,只有这样,一旦出现故障,才能保证快捷有序的进行切换,是一个非常耗费资金的项目。
数据灾备系统是校园一卡通数据安全的最后一道防线,灾难一旦发生,数据管理人员就会庆幸数据没有遭到毁灭性的破坏,系统各项应用没有中断。但人们对数据安全的无限需求与校方有限的人力与财力资源之间永远是一对矛盾,因此在决定部署数据灾备系统之前应充分对数据的重要程度、允许停止服务的最大时间、系统管理人员工作强度、策略及预算等进行论证,寻找最切合自身实际的技术路线及方案。
3 结束语
高校校园一卡通系统是一个可持续发展的系统工程,其数据的绝对安全牵扯到广大师生、校方、校内商户等多方面的利益,关系到整个学校的正常运行,更影响到整个数字化校园的推广和有序运行,居安思危、未雨绸缪才能够做到有备无患。
参考文献
[1]李丽宾.图书馆一卡通系统[J].大学图书情报学刊,2002(4).
[2]殷锋,伍光恒,吴光辉.校园一卡通工程对高校数据提出的要求[J].西南民族学院学报:自然科学版,2002(1).
[3]顾金娣,席琳琳.校园一卡通系统的应用与思考[J].上海第二工业大学学报,2005(3):75-80.