高可用性网络

2024-07-11

高可用性网络（共9篇）

高可用性网络篇1

摘要：随着网络的快速普及,网络承载了大量的应用,对可靠性的要求越来越高。需要充分使用设备冗余,软件恢复和备份,故障恢复机制等解决措施,提高网络的可靠性。

关键词：MTBF(平均故障间隔时间),MTTR(平均故障恢复时间),RP(路由处理器),RPR(弹性分组环),VRRP(虚拟路由冗余协议)

1 网络应用的现状

随着网络的快速普及和应用的日益深入,各种关键业务和增值业务在网络上解决方案得到了广泛部署,网络带宽也以指数级增长,对可靠性的需求也越来越高,尤其是在各种运营商网络、商业经营网络和管理控制网络中,需求显得更为突出。网络短时间的中断就可能影响大量业务,造成重大损失。作为业务承载主体的网络高可用性(High Availability,HA)日益成为关注的焦点。从运营商到大中型企业客户,在构建网络时,99.999%的电信级已经成为解决方案基本需求之一。

2 网络可用性的度量

定义一个网络设备的可用性或正常运行时间的方法有几种。“可用性”是指一个路由器实际处理和转发数据包的时间百分比。因此,一个系统的可用性可以表达为网络的平均故障间隔时间(MTBF)和它的平均故障恢复时间(MTTR)。计算公式如下:

如表1,从公式中可以看出,要提高网络的可靠性,需要提高网络的平均故障间隔时间和缩短平均故障恢复时间。

3 在网络建设中,需要全方位多角度的对网络可靠性给予充分保障

1)硬件设备的可靠性:要提高设备的可靠性需要选用合适的硬件以及将备份的硬件部件构建到系统中去。[1]

(1)双路由处理器:RP是路由器的大脑。它计算路由和转发表,并将最佳路径信息发送给对等路由器。采用双RP可以极大的缩短系统的故障恢复时间。

(2)硬件系统架构:路由器的硬件架构选择将对系统的潜在可用性产生影响。最主要的路由器架构有集中式架构和分布式架构。

在集中式架构系统中,数据包处理和转发工作在一个中央共享RP中执行,各网络接口线路板相对简单(见图1)。如果中央RP发生故障,所有的路由和数据包转发都会停止,对整个系统的影响很大。在这种架构中,双RP设计变得非常关键。

在分布式架构系统中,数据包转发能力被置于每块线路板中(见图2)。将转发引擎从中央RP转移到每块线路板降低了RP故障的影响,因为在RP故障期间线路板仍可继续转发数据包。

(3)冗余供电、线路板、风扇和机架都对降低MTTR具有关键意义。此外,将这些部件设计成能够热插拔可以极大地提高正常运行时间,而且使得工作中的系统不必关机就可以直接更换部件。

2)软件的可靠性,在设计高可用性软件中有几个关键目标。

(1)将软件故障的影响降到最低

降低软件故障影响的一种方法是只重启发生故障的那个软件进程,而不是重启整个系统。这必须在保留路由、转发表和会话的情况下完成。

另外要将软件故障的影响限制在路由器本身,防止对网络的其他部分产生更广泛的影响。为了实现这个目标,路由器必须运行被激活RP和备份RP并让它们的信息保持同步。需要注意的是:在何种程度上让处于工作状态的RP和备份RP保持其全部信息,并如何同步是一个关键性的设计考虑。其决策反映了在系统恢复速度和成本之间的一个平衡折中。可供选择的方案有冷、暖和热待机备份系统。[2]

a冷备份方案中,处于工作状态的RP和备份RP之间不共享任何状态信息,软件故障将导致完全的复位,备份RP自动接替发生故障的处于工作状态的RP,但是必须从头开始建立自己的路由表。此外,所有的线路板也将进行复位。这种方案下发生的是彻底的用户停机。不过,与没有备份RP时相比MTTR仍然较低,因为系统可以自动开始恢复,无需维修或更换路由器。

b暖备份方案中,路由器配置和软件镜像都已经载入了备份RP。当备份RP必须重建其路由表信息时,由于跳过了配置和镜像重载步骤,因此降低了MTTR。

c热备份方案中,备份RP加载了路由器配置、软件镜像和网络状态信息,而且还由处于工作状态的RP对其进行连续更新。同步的状态信息对应于所用的协议,这样当处于工作状态的软件或硬件RP发生故障时,备份处理器就可以接替和恢复系统而不造成任何服务损失。处于工作状态的RP和备份RP之间的同步率决定了备份处理器在任意时刻的更新程度,从而也决定了系统的恢复速度。处理器同步次数越多,失配的可能性就越小。不过,频繁同步增加了系统资源的消耗。这可能会影响路由器的吞吐性能,或者需要在系统中增加额外的处理能力。

(2)对软件故障进行迅速检测和恢复。[3]

对实际硬件和软件故障的检测必须迅速进行以便使系统得以及时恢复。具体时间长短取决于系统的设计。

3)将系统恢复时新会话的阻塞间降到最短。

在RP发生故障(包括硬件故障或软件故障)的情况下,设备的恢复将需要花费一些时间。包括将新的软件镜像加载到备份RP、加载配置、对其初始化、取得Layer 2连接和Layer 3路由协议以及重建路由表。

4 节点和链路的可靠性

链路失效也是影响网络可靠性的一个重要因素,为此需要实现以下几个目标。

1)提供备份链路[4]

可以提供1+1备份或者N+1备份,1+1的备份方案虽然方案比较昂贵,但可以提供比N+1更高的可用性。

进行链路备份同样需要软件提供相应的支持。

(1)TRUNK,TRUNK是端口汇聚的意思,就是通过配置软件的设置,将2个或多个物理端口组合在一起成为一条逻辑的路径从而增加在交换机和网络节点之间的带宽,同时如果一条物理端口。

(2)VRRP(Virtual Router Redundancy Protocol),VRRP可以创建一个具有虚拟MAC地址和虚拟IP地址的虚拟路由器,VRRP可以在工作站的缺省网关失效时提供一个备份路由器(见图3)。

(3)RPR(Resilient Packet Ring),快速的环保护倒换(50ms)功能。与SDH中的物理层环保护倒换不同,RPR采用2层的环保护倒换(见图4),其具体实现时可分为类似于MS-Spring的环回方式(Wrap),以及源节点切换的转向方式(steering)。这两种倒换方式均有其优缺点,前者简单(仅涉及故障端两端的节点切换),数据包丢失少,但带宽占用多,后者则反之。

(4)FRR(fast reroute)技术,提供快速保护倒换能力。

当一条LSP出现问题,不能正常传输信令和数据,这时候就将信令与数据转移到事先已经建立好的另外一条路径上去,以保证业务不会中断。可以这样理解FRR是一种保护措施。在FRR中有三种不同类型的保护方案,一种是路径保护,也称为端到端保护,这种方式是通过和现在的LSP并行建立额外一条LSP,这条LSP只会在发生失效时使用。另外一种为局部保护,或称为本地保护,即备份LSP只对原LSP的一部分进行保护。最后一种是针对LSP中的结点进行保护,这种称为结点保护。根据具体应用不同,可以分为LDP FRR,TE FRR,VPN FRR。

2)节点和链路故障的迅速检测和切换。[5]

1)BFD(Bidirectional Forwarding Detection),BFD是从基础传输技术中经过逐步发展而来的,因此它可以检测网络各层的故障。它可以用于检测以太网、多协议标记交换(MPLS)路径、普通路由封装以及IPSec隧道在内的多种类型的传输正确性。

2)OAM(Operation Administration and Maintenance),通过定期查询的方式检测网络故障,将故障信息传递给管理实体,并且可以进行性能监控,根据这些信息评估网络的稳定性。根据运行链路的不同,有ETH oam,mpls oam,atm oam等。

5 结束语

在做网络规划时,需要充分应用上面的各项技术。保证关键设备双归属,重要链路聚合,重要设备冗余部署,流量路径合理规划。

参考文献

[1]网络高可用性技术白皮书,华为3com技术有限公司.

[2]Build High Availability into Your IP Network,CommsDesign.

[3]Get high availability using effective fault management,CommsDesign.

[4]Optimizing RTOSes for HA architectures,CommsDesign.

[5]Enterprise NetworkDesign Patterns:High Availability.SUN.

高可用性网络篇2

凡是我们写成功的程序大部分都会和数据库进行交互，我们的数据库也必须有必要的措施防止数据库的崩溃，在我们学习高可用性解决方案之前我们都是用的数据库备份和还原(如果你连这个都没考虑到，那你写的程序也太不安全了)。具体的备份的实现也有很多，比如说完整备份，差异备份……这里都不具体说了，大家可以去另外学习。但是这些备份会浪费好多时间，且随着数据库的增加几何性的增长?当一个网站的数据库发生故障时，我们不可能用备份的形式去完成数据库的维护。比如你正在京东买东西，突然京东的数据库服务器硬盘坏了，你必须等待后台人员备份好数据库后你才能去购买?或者目前半小时不能购买了以后你还会去京东买东西吗?那这些问题如何解决呢?这就需要我今天说到的一些高可用性解决方案了。

高可用性自动化网络研究与设计篇3

工业以太网是基于ISO/IEC8802-3数据链路层和物理层实现的自动化网络技术。通常工业以太网为电缆、连接器、集线器或交换机等网络部件规定了更严格的限制。同时,在数据链路层之上进行实时扩展,支持实时通信的工业以太网,被称为实时以太网(Real-Time Ethernet,简称RTE),实时以太网国际标准中的IEC61784-2着重解决的是RTE的实时性能。许多工业以太网依靠交换机提供的基于IEEE802.1D快速生成树协议(简称RSTP)的冗余技术。虽然有一些实时以太网行规提供了硬实时能力的冗余,但这种冗余技术是专用的,并不能为其他工业以太网协议服务。

2005年,IEC SC65C专门成立了一个MT9HA工作组,寻求可以适用于任何一种工业以太网的冗余解决方案,并制定高可用性自动化网络规范IEC62439。与此同时,国内EPA标准和技术开发的核心单位也组成了一个技术攻关小组,对以太网的冗余技术进行了深入的研究,并于2006年提出了分布式冗余协议,简称DRP协议。

1 DRP协议原理研究

工业环境下的基于以太网的控制网络,大多数是可以精确部署的局域网,拓扑结构相对稳定,同时由于工厂局域网分布范围较大,光纤环网逐渐成为一种比较流行的解决方案。因此,环型拓扑成为我们研究网络冗余技术的首选方向。另外针对化工、石化和电站等过程控制领域的系统冗余要求,DRP协议在实现“网络冗余”的同时,必须考虑兼容基于“节点冗余”的解决方案,才能满足大多数过程控制领域的完全冗余的要求。

1.1 DRP协议概述

DRP协议是基于ISO/IEC8802-3和IEEE802.1标准,在工厂控制网络的交换机层实现的冗余技术。当环型网络中的交换机或交换机内部的链路发生一个单一故障时,DRP协议能够在较短时间内确定性的检测到故障并恢复网络的功能。

DRP协议的环网是由多个交换节点构成的,每个交换节点至少具有一对环端口和若干个交换端口组成。每个交换节点都具有故障检测和恢复功能,也就是说,环网中所有节点的管理角色是平等的,避免了冗余管理功能集中在一个节点上可能带来的风险,这就是DRP协议的分布式冗余的概念。为了实现这种分布式冗余概念,DRP协议沿用了EPA协议采用确定性分时调度的机制,因此环网中的节点必须实现基于IEEE1588的精确时钟同步功能。

1.2 DRP协议工作原理

DRP协议是基于ISO/IEC8802-3和IEEE802.1D的功能,在数据链路层和应用层之间实现的,其通信模型和MRP协议基本类似,两者之间的区别在于IEEE802.1D之上的冗余协议不同[1]。

D R P节点的环端口,与M R P一样,也有DISABLED、BLOCKED和FORWARDING 3种状态。在DISABLED和FORWARDING状态下,环端口功能与MRP协议完全一样。只是在BOLCKED状态下,转发的帧不同,D R P节点的环端口在B L O C K E D状态下,需要转发P T P同步帧和Ring Check帧,Link Check帧,Link Alarm帧,Link Change帧等。

在DRP单环网络中,所有的DRP节点使用IEEE1588协议实现始终同步。网络管理者只能将其中一个DRP节点的一个环端口被配置成BLOCKED状态,并将所有其他DRP节点的活动环端口都配置成FORWARDING状态。

DRP单环网拓扑的DRP网络冗余通信规程如图1所示。

在每个宏周期起始偏移Ring Check Time Offset的那个时刻,只有一个DRP节点的通过两个环端口同时向两个方向组播Ring Check帧,所有其他DRP节点的环端口都必须转发这个帧。如果发送的DRP节点能从两个环端口都收到自己发出的Ring Check帧,则表明环是双向闭合的,没有发生故障。如果发送节点的一个环端口在Ring Check Limit Time时间内,未能收到另外一个环端口发出的Ring Check帧,则表明环中出现了一个故障。Ring Check帧的检测结果仅用于向网络管理者报告网络的健康情况。

在每个宏周期起始偏移Link Check Time Offset的那个时刻,环中所有的DRP节点同时向两边相邻DRP节点多播发送Link Check帧。正常情况下,每个DRP节点都应该收到来自它相邻两个DRP节点的Link Check帧。如果DRP节点在Link Check L i m i t T i m e时间内未能从其中一个环端口收到Link Check帧,则DRP节点判定该环端口的链路出现故障,将该环端口设置成BLOCKED状态并清除FDB表,同时向另一个环端口方向多播Link Alarm帧。除本宏周期发送Ring Check帧的DRP节点外,环中所有节点在环端口之间转发收到的Link Alarm。

发送Ring Check帧的DRP节点,收到Link Alarm帧后,执行以下3个动作:

1)检查自己是否有BLOCKED状态的环端口。如有,则将其设置成FORWARDING状态;如无,执行下一个工作;

2)清空FDB表,DRP节点交换路由表重新自学习;

3)之后,从两个环端口向两个方向发送Link Change帧。

环中其他D R P节点,从一个环端口收到Link Alarm帧后,也执行3个动作:

1)检查自己是否有BLOCKED状态的环端口。如有,则将其设置成FORWARDING状态;如无,执行下一个工作;

2)清空FDB表,DRP节点交换路由表重新自学习;

3)向另一个环端口转发Link Change帧。

一个链路故障会被两个环端口检测到,在一个宏周期内会出现两个Link Alarm帧在环中转发。网络拓扑的改变,需要由本宏周期发送Ring Check的DRP节点发送Link Change帧来完成,并恢复了网络基本通信功能。D R P协议的工作原理也基于IEC62439的一个基本假设,就是仅考虑网络只发生一个单一故障情况下的网络冗余。DRP网络的故障检测与恢复如图2所示。

图2所示的DRP网络的故障检测与恢复的冗余通信规程如图3所示。

在宏周期-D2,Link Check帧发送以后,由于D6-D7的链路故障,D6环端口2和D7环端口1均无法收到对方发出的Link Check帧,因此,D6和D7都将发送Link Check帧,Link Check-D6帧和Link Check-D7帧均在到达D2后,不再被转发。D2随后向两个环端口方向发送L i n k C h a n g e帧,Link Change帧分别达到D6环端口2和D7环端口1后,被故障阻塞。

网络管理者主要通过每个宏周期的Ring Check帧的检测,可以监测环网的是否存在故障的健康情况。一旦网络故障后,即使网络管理者通过在线维护,恢复故障链路的功能,但网络的拓扑不会在修复的时刻发生变化,只有网络再次检测到链路故障时,才会启动网络拓扑的变化。

1.3 DRP网络恢复时间的计算方法

DRP网络在单一故障条件下的最大恢复时间是可以确定性计算的,网络检测和恢复所需要的时间包括[2]:

1)Tti:两次Link Check帧之间的时间间隔,其值等于宏周期,是可以根据应用配置的。

2)Tto:Link Check帧接收超时时间,其值等于Link Check Time Limit,是可以根据应用配置的。

3)Tpf:相关DRP帧在交换机节点内的处理延时时间。包括Link Alarm帧在发送交换机的传输延时,在接收交换机的处理延时;Link Chande帧在发送交换机的传输延时,在接收交换机的处理延时,清空FDB表所需要的时间。

4)Ttt:相关DRP帧在1个交换机节点内的传输延时。包括Link Alarm帧在1个交换机节点的两个环端口的转发等待时间和转发时间;Link Change帧在1个交换机节点的两个环端口的转发等待时间和转发时间。

5)Tpt:相关DRP帧在整个网络线路上的传输延时。

根据上述时间,可得出网络恢复时间Tr的计算公式如下:

其中,n为交换机的数量。

下面结合一个实际的例子,给出DRP网络恢复时间的计算示例。网络通信速率为100M,DRP环中的交换机数量为50个,交换机之间的光缆长度为2km。

为了确定网络恢复时间,首先需要确定DRP网络的一些DRP相关参数,见表1。

根据上述参数,计算如下:

计算结果表明,最大网络恢复时间为85ms左右。其中对网络恢复时间影响最大的是宏周期,而后是交换机的数量。选择适当的宏周期对网络恢复时间和网络的有效负荷率具有决定性的作用。宏周期越小,网络恢复时间就越短,但网络的有效负荷率也下降。因此,应该根据应用的要求确定合理的宏周期。

2 基于DRP协议的交换机设计

基于DRP协议的交换机的设计实现可分为3大部分:交换机功能结构设计、交换机硬件设计和软件设计。

2.1 交换机功能结构设计

交换机的功能结构如图4所示。

2.2 DRP交换机硬件设计

硬件设计主要包括CPU模块、交换模块和电源模块3大部分。CPU模块是实现DRP协议的硬件平台;交换模块包括环端口和交换端口的硬件实现[3]。

交换模块为交换机提供高速数据交换通路,实现数据帧和DRP帧的交换与收发工作;CPU模块负责对模块的初始化和网络端口的配置,同时通过DRP协议栈处理各种DRP帧,实现DRP网络的冗余管理功能,处理网络出现的异常事件。电源模块采用了冗余电源设计,提供安全稳定的工作电压。

CPU模块采用了ARM7系列集成度较高的AT91SAM7X256,它是基于32位ARM RISC处理器的系列微控制器中的一员,在一块芯片上集成了ARM7TDM1处理器,256K字节的高速Flash和64K字节的SRAM,以及包括USART,SPI,MII,CAN控制器,以太网控制器(支持MII),定时器/计数器,RTT和A/D等一系列外围设备,可以很好的为嵌入式控制应用提供灵活、成本优化的方案,特别适用于以太网通讯领域。另外,AT91SAM7X256片内集成的以太网控制器可以支持MII接口,为实现CPU与交换芯片的帧交换提供了方便。DRP交换机的整体硬件框图如图5所示。

交换模块选择了交换芯片KS8995MAI作为核心。KS8995MA是一个5端口的交换芯片,其中端口5支持MII接口,ARM7与KS8995通过MII接口相互连接。另外,KS8995MAI提供了SPI总线接口,可支持5MHz的总线速度。通过SPI总线可以访问KS8995MAI所有的寄存器,因此CPU对交换芯片的设置和管理通过SPI总线接口实现。

KS8995MAI核心部分是一个数据存贮转发机制,包括物理层、数据链路层和数据转发中心。物理层的主要任务是将以太网线上电平信号还原为数据信息,数据链路层的作用是将以太网数据包的MAC地址进行提取,也就是对以太网数据进行最底层的解包。数据转发中心能够根据物理地址或配置数据进行自动转发。

电源模块的设计,考虑满足交换机工业应用环境的特殊要求,采用了两路冗余DC 24V电源输入,同时在电路设计中充分考虑可靠的过流、过压保护以及EMC电磁兼容性要求,提高交换机系统的可靠性。

2.3 DRP交换机软件设计

DRP交换机软件的设计分成两大部分:一是与CPU和交换芯片硬件相关的驱动程序。ARM7相关的驱动程序,主要包括ARM启动代码,MII接口驱动,SPI接口驱动,JATG和USB接口驱动等等。交换芯片相关的驱动程序,主要包括交换芯片的初始化程序,清空FDB表,寄存器管理等等。

二是DRP协议栈和基于IEEE1588的PTP同步算法。DRP协议栈包括协议和服务的实现,并体现为DRP故障检测、DRP故障恢复、DRP冗余管理等软件实体。

3 基于DRP环网的混合网络设计

DRP协议是基于环网的网络冗余解决方案,但对于化工、石化和电站等过程控制领域,大多数要求系统的完全冗余,这就意味着在“网络冗余”的同时,必须考虑兼容“节点冗余”[4]。

如果不考虑终端节点的冗余,基于DRP环网的混合网络示意图如图6所示。考虑系统完全冗余的基于DRP环网的冗余混合网络示意图如图7所示。

过程控制层网络主要连接工作站、操作站、数据服务器、通信服务器和控制器等设备,如图7所示。过程控制层网络的冗余设计采用DRP协议+PRP协议的解决方案,两者都符合即将发布的高可用性自动化网络规范IEC62439。两个隔离的环型网络(即A网和B网),“网络冗余”符合DRP协议,而“节点冗余”符合PRP协议。这种DRP协议+PRP协议的优化设计方案,使得网络的可用性得到进一步的提高。DRP协议和PRP协议都只允许一个单一故障,优化设计的混合网络允许网络在存在一个以上故障的情况下,仍然能提供DRP网络的网络恢复时间。

现场设备层采用了EPA、PROFIBUS和Modbus协议现场总线,其现场总线设备的冗余设计应分别符合相应的现场总线规范,例如,PROFIBUS现场设备的冗余应符合PROFIBUS冗余规范。

处于过程控制层和现场设备层之间的控制器是分布式网络控制系统的关键技术,控制器采用了完全冗余的设计方法。其EPA工业以太网接口卡的节点冗余符合PRP协议,控制器包括主控制卡、工业以太网接口卡和现场总线通信卡在内,整体采用热备冗余的设计方法。

4 结束语

本文主要内容是DRP协议的研究与实现。着重介绍了DRP协议的工作原理,给出了DRP协议关键性能指标——网络恢复时间的计算方法。还简要描述了DRP协议交换机的实现。

本文最后给出了基于DRP环网的混合网络的两种设计方案,即不考虑终端节点冗余的混合网络设计方案和考虑系统完全冗余的混合网络设计方案。

参考文献

[1]Kirrmann,H.,Hansson,M.;Muri,P.IEC 62439 PRP:Bumpless recovery for highly available,hard real-time industrial networks.Emerging Technologies&Factory Automation,2007.

[2]IEC/SC65C/WG15 Final Draft International Standard.IEC62439Ed1.0,High Availability Automation Networks.

[3]IEC/SC65C/WG15 Committee Draft.IEC 62439:CDV,High Available Automation Networks.Issued March 2007.

高可用性网络篇4

1.实时迁移,

2.快速迁移,

3.移动虚拟机,

4.高可用四种功能

首先打开一个ping 192.168.0.245 –t窗口来持续不断的ping虚拟机

如图的管理工具上我们可以看到实时迁移以及快速迁移和移动虚拟机的几个选项卡

1. 测试虚拟机的实时迁移功能

实时迁移也就是将虚拟机不断线快速迁移到另一台虚拟机

我们呢可以直接在虚拟机上单击实时迁移到另一节点选项来进行迁移,因为本例只有2个节点,所以迁移到的目标那里也就只有一个节点可选,如图我们讲2k8实时迁移到C2

需要注意的是如果实验或者在生产环境中,节点的物理CPU不一样的话,需要设置虚拟机的处理器属性选项卡中的迁移到具有不同处理器版本的物理计算机,否则无法进行迁移和高可用

整个过程是联机作业的,我们从大约9:44开始作业

整个过程ping一直没断,也就是说虚拟机一直在提供服务

在9:45迁移完成,开始转换到新物理机上去运行虚拟机

经过1分左右的时间完成操作,中间只有1次闪断,如果我们的环境是千兆,也许就没这一次闪断!

看看虚拟机的状态,现在已经运行到C2这个节点上,运行正常!下面玩玩快速迁移,也就是将虚拟机快速移动到另一节点,中间会断线!

2. 快速迁移

快速迁移,也就是将虚拟机快速移动到另一节点

同样是图形化操作,将虚拟机迁移到节点C1吧

时间9:51

开始保存虚拟机状态以便迁移,中间断ping了

保存状态完成,开始向心机器恢复状态

向新节点还原状态

OK,花了2分钟时间完成完全迁移到新节点工作,这适用于虚拟机没有创建在群集共享卷才需要做这样的迁移

看看状态已经迁移回C1节点.

3. 虚拟机移动

我们测试在没有共享卷的环境中使用这个移动虚拟机功能

同样是将虚拟机挂起,然后保存状态,然后恢复到新节点C2去,开始于9:54

还在保存状态

1分钟后开始还原状态

再过1分钟移动完成,这功能跟快速迁移好像差不多

看看虚拟机状态又回到C2了

4. 测试虚拟机的高可用性HA

我们将节点C2关闭,因为当前虚拟机在节点C2上,

关机后群集侦测到C2宕机,立即将虚拟机挂起,然后跟vmware ha一样将虚拟机自动重新启动了

一直到启动完成,虚拟机这里显示联机了,但是虚拟机还在启动过程中

看这里正在重新启动虚拟机

启动完成,恢复服务,呵呵,整个过程基本上完了,如果配合scvmm2008做一个负载均衡,就跟vmware ha差不多啦,啥功能都有了,虚拟机实时迁移,高可用,负载均衡!

高可用性系统研究篇5

所谓数据高可用性是指确保网络数据不受各种因素侵扰、网络数据实时可用的技术, 主要包括群集技术、防火墙技术、入侵检测技术、网络防毒技术、数据备份技术、UPS和异地容灾等。保障系统的高可用性归根到底是保证系统服务不中断, 系统不停机。

1 系统停机原因及可用性评价

停机故障的定义为:当环境致使用户无法准时完成他的工作, 我们就说系统发生了停机故障。

引起停机的原因有很多, 常见的有:硬件故障、软件故障、网络故障、人为错误、自然灾害和其他原因等。图1为对停机故障常见原因的调查结果图。

图1来自计算机行业分析机构Gartner/Dataquest, 分析停机故障的最主要原因为软硬件故障和人为因素。

系统的可用性计算公式为:undefined

A指可用性的百分比, MTBF指平均故障问题时间, MTTR是指最长修复时间。对于某一特定系

统的MTBF为100 000小时, MTTR为6min, 其可用性为99.9999%。要获得6min的停机时间的可用性, 需要一个持续运行100 000h的组件, 两次故障间隔要超过11年, 即要获得99.9999%的可用性整个系统在11.4年内只允许6min的停机时间, 而非每一个组件。

考虑到实际的需要, 单一的技术是完全不可能实现的, 这是一个不现实的目标, 只能很大程度的依靠运气来保证系统的安全了。

只有将整个系统的故障间隔增大, 减少系统的停机时间才能获得较高的系统可用性。下面将从各个方面来讨论提高系统可靠性的方法。

2 高可用的机房环境

机房环境是整个系统的基本保障, 没有一个高可用的机房环境, 系统将无法稳定、可靠运行。机房环境包括:电力保障、防雷、防尘、防火、防静电、适宜的温湿度、监控、防盗等。

2.1 电力保障

为保障有效用电, 可以从两个不同的电网获得电力供应进行双路供电, 可以避免一路电源故障而导致的系统运行中断。如果系统以双机热备 (主从服务器) 的方式提供服务, 要为每个服务器分别引入一路电源。

UPS (不间断电源) 也是一种避免电力中断的设备, UPS可以为系统提供几分钟乃至几小时的故障处理时间, 可利用这段时间安全关闭数据库、文件系统, 为后备电源的接入赢得时间。

发电机是提供系统用电的最后一道屏障。停电后, 在UPS电量耗尽之前, 使用发电机供电可以有效保障系统用电, 避免了因电力故障而导致的系统不可用。

2.2 监控与防盗

保证系统设备的物理安全与保障系统的数据是同等重要的, 禁止非工作人员进入机房并为机房安装专用的监控报警装置可以有效预防和发现非法闯入者, 避免因蓄意破坏而导致的系统不可用。

2.3 防火、防水

防火、防水同样很重要, 为机房安装一套独立于大楼消防系统的保护装置, 而且为其配备警铃报警器, 以便于工作人员及时发现紧急情况。而且要为机房配备专用的气体灭火系统, 以保证未发生火灾的设备被水损坏。

设备机房应该放在二楼以上的地方, 避免受到洪水、消防用水、暖气用水等的浸泡。

2.4 温度与湿度

为保护机房设备免受高温和潮湿的破坏, 一定要按照系统运行的最长时间要求安装合适的空调设备。最好的办法是为机房设备设立独立于大楼的制冷设备, 这样可以将大楼的制冷设备的故障隔离, 而且减少了整个制冷系统的能耗。机房空调应选用专用的 (下送风) 机房空调, 以保证有效地制冷。

适宜的温度也可以减少机房内的浮沉, 避免灰尘落在设备内而导致的短路等故障。

2.5 避雷与接地

防雷, 机房系统一定要设立独立于大楼的防雷系统。以保证机房等弱电系统的设备免受雷击, 避免因雷击而造成的系统设备不可用, 这些设备包括网络设备和服务器等。

接地, 机房设置分离的强弱电接地系统, 将强电系统接地和弱电系统接地分开进行, 避免因静电而导致的系统设备故障。

3 高可用服务提供

3.1 高可用网络

网络是计算机通信的基础, 有了高可用的网络才能为系统服务提供一个良好的通信保障。建立高可用的网络可以有效避免网络中断或网络阻断的故障。

3.1.1 构建冗余网络

冗余网络连接保护网络, 使之免于发生在网络接口卡、包含NIC的I/O子系统或连接到NIC的某个网络硬件的电缆这些部件上的故障, 可以避免主机到网络的单点故障[2]。

另外冗余网络还指建立网络的IP路由冗余, 通过网络设备的冗余连接, 保证了网络通信的高可用, 有效避免单个网络设备的损坏或链路的失效而影响整个网络系统的瘫痪。

3.1.2 网络安全

将企业内部网络与外部网络区分开来, 是阻挡来自外来干扰的最好办法。通过设置进出数据过滤机制, 可以监控和过滤有效访问, 拒绝恶意和非法访问, 从而保证内部网络的安全。

3.1.3 补丁与防病毒

安装防病毒软件可以将电脑的病毒程序全部杀死, 避免产生额外的网络带宽和负担, 可以减少被恶意程序影响。如可以有效防止ARP、拒绝服务攻击等, 删除记录用户名密码等木马, 防止受到远程控制软件的控制等。

及时安装系统补丁程序, 将已知系统漏洞的威胁消除, 具报道, 现有的入侵和损害多数是由于未及时安装系统补丁造成的。

3.2 高可用服务系统

性能稳定、可靠的服务系统是提供高可用服务的必要条件。利用集群技术, 将两台或多台服务器通过集群软件连接形成服务器群, 在系统中配置一个或多个备用系统, 作为主服务器的备份。如果主服务器发生故障, 备用系统自动跟进, 在经过短暂的中断后, 全面接管主系统。这样系统故障引起的停机时间将不会超过主系统和备用系统的切换时间, 该时间一般为几秒至几十秒。

3.2.1 服务器系统

服务器系统包括其硬件冗余、热插拔 (Hot Plug) 、DP (双处理) 、SMP (对称多处理) 、RISC和CISC处理器架构、总线技术、磁盘技术、电源技术、智能输入输出 (I2O) 、双核处理器技术、64位处理器技术等[3]。

3.2.2 应用服务软件

群集技术是指在系统中配置一个备用系统, 作为主服务器的备份。一般通过集群软件管理群集系统, 群集系统依靠群集软件实现服务系统的软件可用性, 依靠群集系统可以实现故障转移。

良好的系统服务软件也是提高系统服务可靠性的一部分, 如性能优良的数据库软件、安全稳定的操作系统等。

3.3 高可用的应急方案

在设备出现故障后 (如RAID磁盘中有一块盘损坏、冗余系统中一个系统出现停机等故障) , 由于可用性较高, 暂时不会影响到系统的使用, 但存在可用性隐患, 如不及时解决该故障, 就会导致系统不可用。如何在最短的时间内修复这类故障, 各个单位都应有自己的方式和办法, 有些单位甚至需要制定详细的应急方案和策略。

为设备购买7×24的服务是一项比较理想的选择, 这样可以以最快的速度来解决这类故障, 降低系统的不可用因素。

4 高可用数据管理

数据管理是对系统数据的保护, 数据保护更多地体现在诸如容灾系统的建立、容灾方案的可行性、异地存储方案的部署等方面。涉及的技术有NAS、FC SAN、IP SAN、数据同步、数据镜像、热备份、互援备份[4]等。

数据的存储与管理有六个层次, 如图2所示。这几个层次之间是互相独立的, 选择任一个层次不会对其它层的选择使用产生影响, 如选择硬件RAID并不一定排除对软件RAID的需要, 反之亦然。

图2 数据管理层次

在系统中构建和实施SAN (存储区域网络) , 可以带来诸多好处, 如集中化和整合存储资源、共享存储资源、减轻网络负载、加速备份速度、改善数据访问等。利用FC SAN或IP SAN可以更好地提高存储区域网络的性能, 提高系统数据的可用性保障。

5 高可用容灾

5.1 数据备份

如果数据备份做的好, 它会成为对付任何灾难的最后防线。即使在系统完全失效的情况下, 只要有有效的备份在, 数据就可以得到恢复。要注意的是数据镜像不能代替数据备份, 他们两者的功能是不一样的, 不管有没有镜像, 备份都是必须进行的工作。

5.1.1 备份软件

虽然各操作系统或各数据库系统都带有数据备份的功能, 但该功能不能充分的满足用户的实际备份需求, 由于商业备份软件具有很多优点, 成为人们的首选工具。

5.1.2 备份类型与策略

备份的类型关系到备份的性能。由于备份牵扯到备份数据量的大小、数据所占存储空间的大小、备份速度的快慢、数据恢复的难易、备份时服务中断与否以及中断时间长短等因素, 选择合适的备份类型至关重要。

5.2 数据恢复

恢复的速度取决于备份的速度与复杂程度, 越高速的备份, 其恢复速度越慢。数据恢复是系统可用性的最后保障, 因此一定要保证备份生成的磁带都能进行可靠恢复。

5.3 数据库维护

数据库管理员应该定期对数据库进行优化, 以保证数据库处在最佳的服务状态。

6 高可用管理制度

6.1 正规的操作规程

无论是系统用户还是系统管理员, 都要遵循一定的操作规程, 这套规程必须是被证实不会给系统带来负面影响的。任何对规程的改变都要事先在试验平台上进行相关的试验, 通过后才可用于系统中。应有专门的人员或者机构来监督和实施操作规程。

6.2 人员培训

可靠的人力资源保障也是系统可用性的组成部分之一。

高质量的用户培训, 确保用户掌握关于系统方面的知识, 避免和减少用户因误操作而造成的数据丢失等问题, 在用户投入实际工作之前和工作之中都要根据工作要求为其提供充分的系统培训。

对于系统管理人员更应该给予足够的重视, 不仅要在专业技能上给与充分的培训和训练, 还要重视其思想。为他们提供一个宽松的学习生活空间, 让他们更乐于为目前的工作效力, 而不是总想着跳槽或没有安全感。这样就可以避免更多的人为因素造成的系统故障, 如不安心工作、蓄意破坏等。比起其他安全性来说, 这种潜在危险对系统带来的影响更加巨大, 更不好防范。

6.3 系统管理制度

系统管理是指过程、数据、工具和组织的组合, 是充分有效地管理一个系统所必需的综合性手段。树立并制定管理目标是系统管理中的首要任务, 只有充分地了解才能尽力地实现这一目标。质量测量与跟踪环节非常重要, 通过测量与跟踪环节可以衡量所取得的测量数据是否达到系统的目标要求。可以根据管理实施的状况对管理计划进行再次分析并作出修改, 以便提供更有效的系统支持。

7 总结

可以通过多种方法提高系统的可用性, 每一种方法都不是独立存在的, 他们有密切的联系。只有按照本单位的实际情况来部署和实施高可用性, 将各种方法进行有机的统一, 才能做到最佳的高可用性系统。

参考文献

[1]Chris Oggcrino.高可用性网络基础[M].中国电力出版社, 2002.

[2]EvanMarcus, 汪青青.高可用性系统设计[M].清华大学出版社, 2005.

[3]王达.网管员必读—服务器与数据存储[M].电子工业出版社2005.

海量存储系统高可用性研究篇6

由于传统互联网业务、网络多媒体以及新兴的网络存储、网络游戏、物联网等高速发展,人类对数据的需求飞速增长。就医药行业而言,医疗影像数据以每年15%-20%的速度增长,未来10-15年,影像数据将达到PB级。随着数据需求的持续高速发展,PB级存储服务迫在眉睫[6,7]。

几乎所有应用都需要集群提供不间断的服务,集群的高可用性指不论在主动备份、系统升级、维修、配置更改,还是在被动的硬件出错、断电、网络失败等情况下,集群都能够持续提供服务,或使宕机时间减至最少。

本文针对现有的海量存储系统架构,设计了与之适应的高可用性保障方案,并对方案进行了详细的描述。此时表明,此方案能够满足现有集群系统服务的高可用性。

1 海量存储系统

海量存储系统,如图1所示,主要由数据服务器群、应用服务器群和前后端高性能网络组成[6]。

应用服务器群:提供邮件、存储、视音频等服务,单个服务器可以提供一种服务,也可以提供多种服务,服务期间服务可相互交叠。

数据服务器群:包括管理节点服务器(元数据服务器)与数据节点服务器。管理服务器保存元数据,即对象数据地址信息、控制信息、命名空间等;对象数据节点存储数据对象,对象服务器之间通过后端网络进行数据协同。

应用服务器接通过前端网络向数据服务器管理节点请求数据存储信息;通过地址信息,应用服务器从对象数据服务器读数据或向对象服务器写入信息;数据节点间通过后端网络同步数据,相互监测和通信。

2 高可用性

2.1 高可用性方案设计

传统集群系统高可用方案包括了[2,3]:

主从方式:主服务器提供服务,备服务器监测主服务器状态,一旦主服务器由于升级、断电等原因宕机,备服务器接管服务。

对称方式:两台服务器互相监测对方状态,一旦其中一台出现故障,另一台服务器接管工作。

多机互备方式:每台服务器提供多种服务,多台服务器服务互相交叉,服务器之间相互监测协调;当一台服务器宕机时,其他服务器监测到,立即启动相应服务。

针对现有海量存储系统的架构,以及服务器的特征,设计了与之适应的高可用性保障方案:

(1) 管理节点服务器可用性方案

管理服务器一方面存储元数据,以提供应用服务器寻找数据的路径,一方面管理数据节点。由于管理节点一般是由一台服务器构成,所以对于管理服务器的可用性保障采取主从方式实现。当主机宕机时,备机接管服务,直到主机重新恢复。管理节点活动服务器与备用服务器之间通过后端网络保持数据协同。

(2) 数据节点服务器可用性方案

为了降低成本,提高数据节点服务器的利用率,同时也为了保证数据的安全,节点数据通常存储多个数据副本在不同数据节点服务器上。针对这个特性,在数据服务器群中,采用多机互备的方式来保障其高可用性。数据服务器之间通过后端网络同步数据。

例如数据D1存储与节点N1,D1在N2、N3节点上分别有副本D2、D3、N2,N3则成为D1数据的备用服务器,当节点N1宕机时,N2或者N3取代N1提供数据D1的服务。

2.2 高可用性方案实现

方案实现采用的海量存储系统平台基于GFS文件系统,服务器之间的心跳通信通过开源软件Heartbeat实现,并由开源软件Pacemaker进行集群资源管理。实现方案的逻辑视图如图2所示。

下面通过对软件的介绍来描述方案的实现机制。

Heartbeat[4]

Heartbeat是一个通信进程,服务器通过它发送心跳信号,来检测其他伙伴的状态,以及保持通信。Heartbeat具体包括几个模块:

通信模块:通过单播、多播、组播等方式向其他服务器发送或接受信息、查询状态等。

集群协同模块:保证了集群中各服务器能够平等协调的通信。

进程间通信库:定义了一系列进程间通信函数,通过查询方式无障碍地访问伙伴进程。

无障碍日志模块:具有很高的优先级,可以无障碍地进入系统日志记录Heartbeat日志信息。

Pacemaker[5]

为了提供友好的用户性,Heartbeat需要与集群资源管理软件配合,来停止打开服务。Pacemaker是支持Heartbeat的可扩展集群管理软件。通过Heartbeat监测节点状态,Pacemaker可以适时打开或关闭服务,并通过Heartbeat对集群状态的日记记录,调整服务在集群上的位置,改善集群的可用性。

GFS[1]

GFS(Google File system)是谷歌公司开发的开源分布式文件系统,为数据密集型服务、应用提供高效、高可靠的数据服务。GFS能够使集群像读写本地文件系统一样,读写集群共享的数据阵列。

GFS集群架构包括一个Master服务器和多个Chunk服务器,被Client端访问。Master维护元数据,即对象数据的命名空间,地址信息,控制信息等。Chunk服务器负责对象数据的存储,不同Chunk服务器之间通过后端网络保持数据协同。

3 方案测试和结果

实验环境构成包括主备用管理服务器各一台,配置信息如表1所示;数据节点服务器3台,互备配置信息如表1所示;应用服务器一台,配置信息如表2所示。

应用服务器以50ms的间隔时间不断向管理服务器发送数据请求,数据服务器返回5k数据包,同时分别中断主管理服务器网络、数据节点1网络,在应用服务器端测量中断前后接收到数据的间隔时间,即测量服务恢复时间,测试结果见表3。

测试结果表明不论管理服务器或者数据节点服务器的中断,回复时间都维持在5s-6s,由于设定服务器请求为50ms,相对5s-6s的中断时间,可以忽略,因而方案基本满足存储系统数据服务的可用性。

4 结语

随着数字图书馆、电子商务、多媒体传输等应用的不断发展,对存储系统的规模及可用性提出了更高的要求,高可用性的研究对于海量存储系统的服务性能提升起到重要作用。本文针对海量存储系统提出了一种与之适应的高可用性保障方案,并对其进行了验证,结果表明方案能够满足其高可用性需求。下一步研究重点集中在对高可用方案的改善,以使服务器恢复时间更短。

摘要：对海量存储系统架构进行介绍和分析,对传统集群高可用方案进行介绍,提出针对海量存储系统架构的高可用性保障方案,并对方案进行测试。测试结果表明,当服务器宕机后,系统能够在极短的时间里恢复服务。所设计的方案可以满足海量存储系统的高可用性需求。

关键词：海量存储,高可用性,集群

参考文献

[1]Ghemmawat S,Gobioff H,Leung Shuntak.The Google file system[C]//Proceedings of nineteenth ACM symposium on Operating system princi-ples,2003.

[2]Blake C,Rodrigues R.High availability,scalable storage,dynamic peer net-works:pick two[C]//Proceedings of the9 th conference on Hot Topics in Operating Systems,USENIX2003.

[3]Wayne R.High availability becoming highly necessary[J].AS/400 Systems Management,1997,25(11):24.

[4]The Linux-ha user’s guide[M/OL].http://www.linux-ha.org/doc/users-guide/users-guide.html.

[5]Pacemaker1.1configuration explained[M/OL].http://www.clusterlabs.org/doc/en-US/Pacemaker/1.1/html/Pacemaker_Explained/index.ht-ml.

[6]金崇英,李小勇,白英彩.海量存储系统的发展与展望[J].计算机应用与软件,2011,28(8):193-195.

[7]白英彩,金崇英.海量存储系统的研究与应用[J].软件产业与工程,2010(5).

[8]Bower K D,Juels A,Operea A.HAIL:a high-availability and integrity layer for cloud storage[C]//Proceedings of the16 th ACM conference on Computer and communication security,2009.

[9]Ahluwalia K S,Jain A.High availability design patten[C]//Proceed-ings of the2006conference on pattern languages of programs,2006.

高可用性网络篇7

Forrester Research安全与风险副总裁兼研究总监Stephanie Balaouras写道:“一个随时在线、随时可用的企业的目标就是100%的服务可用性。由于某些宕机时间无法避, 对企业来说, 重要的是把态度从被动应对宕机时间转变为主动规划、完善流程和采取预防性措施。企业应该在客户急需他们的时候努力提供可用的服务。” (《Building The Always-On, Always-Available Enterprise》, 弗雷斯特研究公司, 2014年6月) 。

SUSE Linux Enterprise Server for SAPApplications包括最完整的开源集群解决方案SUSE Linux Enterprise High Availability Extension的各部分组件。SUSELinux Enterprise High Availability Extension能帮助保护企业在x86服务器上运行的任务关键型工作负载, 这已在世界各地的数据中心得到证实。

使用SUSE Linux Enterprise for SAPApplications高可用性组件, 包括新的资源代理, 客户可使SAP HANA系统复制自动化从而优化数据库的可用性, 尤其是借助SAPHANA的内存预加载功能。

高可用性网络篇8

随着信息化建设的不断推进,业务信息系统在各个行业中越来越普及,这些业务信息系统对整个机构的运营起着至关重要的作用。如果一些关键业务通信发生中断,可能带来巨大的损失。非正常的服务终止时间的长短会对用户造成不同的损失,用户对业务中断所能承受的时间是不同的,这通常取决于业务应用的类型。如果能够在几秒钟内修复错误,可能会避免不必要的损失。可见,对保障信息安全和提供不间断的信息服务而言,业务系统的容错性和不间断性显得尤为重要。如何保障各种关键业务持续运营,达到永续经营的良性循环,已成为当今IT领域需要解决的重要问题。高可用性的出现就是为了解决这个问题[1]。

1 vrrp协议

1.1 vrrp的概念

VRRP(虚拟路由冗余协议)是一种容错协议,解决了静态路由单点故障问题。如图1所示,一个网络内的所有主机都设置一条缺省路由。这样,主机发出的目的地址不在本网段的报文将被通过缺省路由发往路由器Router A,从而实现了主机与外部网络的通信。当路由器Router A出现故障时 , 网段(10.100.10.1/24)内所有以路由器Router A为缺省路由下一跳的主机将断掉与外部的通信[2]。

VRRP在提高可靠性的同时,简化了主机的配置。有效避免了单一链路发生故障后网络中断的问题,而无需修改动态路由协议、路由发现协议等配置信息。

1.2 vrrp的工作原理

VRRP通过一种竞选协议来动态地将路由任务交给VRRP虚拟路由器的某台VRRP路由器。VRRP路由器是一台物理路由器,该设备上运行了实现了VRRP协议的程序。VRRP虚拟路由器是逻辑存在的,由多台VRRP路由器组成。在一个VRRP虚拟路由器中,有多台VRRP路由器,这些VRRP路由器不能同时工作,由一台状态为MASTER(主机)的负责路由工作,其它VRRP路由器都是BACKUP(备机),处于监听状态。MASTER拥有虚拟路由器的IP地址,负责转发数据包和相应ARP请求。

VRRP通过竞选协议实现虚拟路由功能,协议报文通过IP多播(多播地址224.0.0.18)形式发送。在虚拟路由器中,只有MASTER对外广播协议报文,即VRRP广告包。BACKUP不会抢占MASTER,除非BACKUP的优先级高,且配置抢占模式。当MASTER出现故障,自动降低优先级进入FAULT状态。此时处于VRRP虚拟路由器的其它VRRP路由器因收不到MASTER发送的广告包而竞争MASTER,优先级最高的VRRP路由器成为,接手业务工作,以保证服务的连续性。若原来出现故障的MASTER修复之后,首先成为,根据配置信息决定是否重新成为MASTER[2]。

出于安全考虑,广告包可以以认证模式或加密模式发送。

2 keepalived的应用

2.1 keepalived

keepalived是一个开源软件,实现了VRRP协议。keepalived主要有两种应用HA(High Aviailabitity)和LVS(Linux Virtual Server)。本文主要介绍HA的应用。keepalived源码的设计结构如图2所示。

3.2 安装与配置

3.2.1 安装

解压源码包keepalived-1.2.2.tar.gz,进入代码目录keepalived-1.2.2,执行命令./configure。

需要根据实际环境配置下面参数:

-host= //配置平台

CC= //配置编译环境目录

CFLAGS= //配置依赖头文件目录

LIBS= //配置依赖库

STRIP= //配置压缩代码工具目录

编译make执行成功后在bin/目录下生成keepalived执行程序。把keepalived可执行程序放到设备上执行。

3.2.2 配置文件

keepalived程序启动需要加载配置文件。本文添加了失败探测次数配置项。配置文件选项比较多,下面列出MASTER设备上的配置文件:

上面配置文件中没有参数virtual_ipaddress(虚拟IP地址)的配置。本文中virtual_ipaddress的设置由状态切换时由脚本执行修改,包括路由等信息的设置。

2.3 在网桥环境中的应用

本文应用于网桥环境下,网桥对网络包进行过滤、安全处理。拓扑环境如图3所示。

双机热备的虚拟IP地址是192.168.41.1,对用户来说,图中两台设备的高可用是透明的,相当于只有一台设备工作,如图4所示。

双机热备的稳定性尤为重要,能够做到无缝切换是一种理想状态。在实际环境中要考虑一些问题,这些问题会影响双机热备的效果[3]:

(1)由图可以看出,协议包发送网络接口和业务网络接口不是同一个接口。事实上,如果协议包发送口和业务口一致,会带来问题。业务接口处理的网络数据流量比较大,如果没有Qo S的配置,广告包可能发不出去,BACKUP在一定时间收不到广告包,会切换成MASTER,从而影响业务的通信。此时可能两台设备都是主机或主机与备机频繁地切换,而造成线路故障。如果设备支持Qo S,配置了VRRP广告包的优先级比较高,也可能会影响业务数据的流通。使用专门的网络接口作为心跳检测,可以让双机热备更好地工作。

(2)环路问题。在图拓扑中,如果安全网桥是MASTER,安全网桥2是BACKUP,安全网桥1广播arp报文,此时如果安全网桥2ARP转发策略开启,就会形成网络环路,影响网络通信。不止是arp广播包报,事实上广播包都有可能出现环路问题。解决这个问题需要网桥自身控制广播包的转发。

(3)网桥运行错误检测问题。即除了通信之外的引起主备机状态切换的条件。比如MASTER发生了内部错误,而网络是畅通的。此时,MASTER要能检测到自己发生了内部错误,降低自己的优先级切换到FAULT状态,而BACKUP切换成MASTER接管业务通信处理。如果MASTRE不能检测内部错误依然正常工作,通过MASTER的数据包不能被处理,使业务通信不能正常工作,而给用户带来安全问题。无论是MASTER还是BACKUP,只要检测到内部错误,根据相关条件设置决定是否继续工作。

(4)频繁切换问题。如果配置文件配置了监控网口(track_interface),处于监控的网口一次断开后,MASTER就可能探测到网口断开而切换为FAUILT状态,显然这种状态的切换是不太合理的。为了更灵活方便使用,本文在keepalived开源框架中添加了失败探测次数(probe_fail_times)这个配置选项,配置了该项,探测失败达到一定的次数后才做状态切换。

协议包发送时间间隔设置一般不太长[4];如果设置时间间隔太长,双机探测的周期太长,双机热备的效果就不会十分理想。实际环境中,BACKUP默认为3次接收不到协议包切换为MASTER。

3 结论

高可用性的环境越来越广泛,实际应用中可能会出现一些问题需要解决。在不同的拓扑环境下,有不同的需求,在使用过程中也要根据相关需求做出相应的改变,特别是使用开源框架的时候,有时不得不修改代码或添加新的功能,才能达到使用要求。本文在双机热备环境中,通过修改keepalived的源码达到了预期目标。

摘要：文章分析了设备高可用性的需求,介绍了VRRP协议以及工作原理、keepalived开源软件对VRRP协议的实现;研究了keepalived的安装配置以及keepalived在网桥模式中的应用,添加了keepalived功能配置项,达到了双机切换的预期效果。

高可用性网络篇9

SUSE全球业务开发负责人Naji Almahmoud表示 :“自去年推出针对SAP HANA部署的高可用性能力以来 ,SUSE继续为企业客户扩展并提升了这种功能。SUSE率先使用开源高可用性能力支持SAP HANA,这能够帮助客户在使用自己现有SUSE基础架构创建高可用性SAP HANA解决方案时节省成本。运行关键工作负载的SAP系统必须满足可用性的最高标准,SUSE致力于提升SAP服务的可用性。”

通过SUSE Linux Enterprise在优化成本的前提下复制SAP HANA系统需要一台运行非关键系统的次级服务器。如果初级服务器发生故障,次级服务器自动终止非关键操作并接管主要操作,将所有客户端都连接至次级服务器。多层能力支持初级数据中心和远程数据中心之间的自动非同步系统复制,引入第三个系统服务器作为额外冗余。

【高可用性网络】推荐阅读：

高可用性网络链路的应用06-29

高可用性07-04

（一）什么是高可用性解决方案？06-08

网络可用性07-28

安全可用性08-31

系统可用性论文06-09

可用输电能力05-23

可用输电容量08-02

数据可用率06-01

提高网站设计可用性(有效性)的10条原则09-26

>> 查看更多相关文档