分布式网络故障管理

2024-10-20

分布式网络故障管理（精选9篇）

分布式网络故障管理篇1

0 引言

网络实体的分布性和异构性以及被管设备的多样性和复杂性, 使得网络管理变得越来越重要, 故障管理是最重要的网络管理。在现今的网络环境中, 管理系统必须及时发现网络运行时所出现的故障, 并要有较强的智能性;能够报告故障事件, 自主地进行事件关联性分析、故障诊断、故障定位、故障报告和故障修复等一系列操作。所有这些问题的解决都必须依靠一套有效的网络故障管理系统。

1 问题提出

面对日益复杂的异构分布网络, 传统的集中式SNMP故障管理越来越无能为力, 暴露出许多缺点:由于设备类型多样, 没有统一的技术标准, 管理难度大, 管理工作复杂;管理系统的可扩展性差, 网络管理工作都是通过管理端进行的, 当网络规模扩大时, 收集的告警信息量过大有可能成为系统的瓶颈SNMP自身的缺陷:采用轮询机制, 管理端和客户端之间大量的信息交换造成了网络带宽的极大浪费;安全性较差。

网络管理功能的日益复杂与传统网管之间的矛盾迫切要求采用一种灵活高效的管理方法。

2 策略网管

基于策略的网络故障管理是指网络管理是基于策略的实施来实现的, 满足策略中的条件时执行策略中定义的行为。首先, 基于策略的网络管理基于规则, 因此对于策略的建立, 修改和删除十分简单;其次, 由于一条策略可以运用于一类相同类型的执行对象, 所以大量的网络配置任务可以得到缩减;最后, 许多异类网络可以通过统一的策略集进行管理。

基于策略网络管理由策略管理工具、策略数据库、策略服务器 (PDP) 和策略客户端 (PEP) 构成, 如图所示

2.1 策略管理工具

策略管理工具为网络管理人员提供了对策略进行制定、编辑、存贮、删除和编辑的易于使用的图形用户界面主要有如下功能:通过与策略数据库的交互, 完成策略规则的存储、删除和修改功能;完成策略规则的语法和语义检查功能, 进行策略冲突检测;为管理员提供一个易于使用的策略编辑和修改图形用户界面。

2.2 策略数据库

策略数据库用来存储故障管理策略:用于故障管理, 包括故障检测、故障诊断、故障修复和故障日志记录信息的规则。

由于网络的异构分布特点, 采用面向对象的方式构造策略规则库, 利用类的封闭性和继承性, 提高策略的可重用性和策略数据库的可维护性。

2.3 策略决策点

策略决策点也称为策略服务器, 是整个故障管理系统的决策中心, 负责接受策略执行点的策略服务请求, 并决定网络中所执行的策略。策略决策点根据来自PEP的策略请求, 从策略数据库中取出策略并解析策略, 经过推理和一致性验证后决定对策略请求的处理, 同时将决策结果通知PEP;根据需要与其他管理域的PDP进行策略协商;根据需要主动进行策略决策, 如向PEP发出配置信息或通知删除失效信息;将决策结果进行封装, 交给MA管理和控制模块处理。

2.4 策略执行点

PEP也叫策略客户端, 可以简单理解为网络中具体执行管理策略的网元如网络中的路由器和交换机等, 负责执行由策略决策点分配的策略。可以根据需要携带策略请求的MA, 将策略服务请求发送给PDP, 同时还向策略决策点发送信息, 向策略决策点汇报策略执行情况和当前网络情况。

2.5 移动代理

基于被管理网络的分布性特点, 各个管理域之间应该是能互相通信、相互合作, 而MA能满足该要求。MA提供了一种新的方法来实现大规模、分布式、自适应和复杂的软件系统的管理。

将MA应用于策略网管中, MA是一种移动代理, 具有一定的策略决策能力, 并携带着策略信息在网络节点间移动, 将MA和基于策略的网络管理相结合, 具有以下优势:减少传输流量, 节约网络带宽;能够管理异构网络, 并可以方便的在多个管理域之间进行策略的协商;使用MA携带一定的策略决策智能到达PEP, 减轻了网络中的通信量, 增强了管理的分布性。

3 故障管理系统设计

基于策略和移动代理的网络故障管理软件主要由策略库、PEP、PDP、PMT、故障监视、故障定位和故障修复模块组成, 其中PEP和PDP内置了移动代理MA。故障监视模块检测到门限越阀值或收到Trap信息时, 立即通知策略执行点PEP, 策略执行点向策略决策点PDP请求策略决策, 策略决策点收到策略请求后, 进行故障过滤和相关性分析以便进行故障定位, 若是本管理域内的故障, 则从策略库选取合适的策略, 通知PEP进行故障修复和清除;若无法在本管理域内定位, 则相相邻管理域的PDP发送携带策略的MA进行策略协商, 做出策略决策, 通知PEP执行策略决策, 组成如图2所示。

3.1 告警监视

设置合适的故障监视策略, 在不同的情况下可能采用不同的时间轮询策略或者不同的trap信息采集策略。

管理信息库MIBⅡ定义了很多与故障管理有关的变量, 为网络故障管理提供了丰富的网络状态信息, 包括:

(1) 接口输入丢包率:

(2) 接口输入差错率:

(3) IP输入百分率:

(4) IP输入错误百分率:

(5) ICMP输入百分率:

若对系统进行2次查询, 即x时刻和y时刻, 则IP包传送速率为:

IP包接收速率为:

根据不同的策略可以支持按照告警起止时间、告警类型、告警级别和告警源进行分类查询。

3.2 告警关联性分析

设定策略规则, 对当前操作员关心的重要被管设备的告警进行接收处理, 对其他设备的告警拒绝接收;或者对设备的重要告警接收处理, 对次要告警予以屏蔽;或者只显示设备的最高优先级告警。对告警进行合并和转化, 将多个告警合并成具有更多信息的告警。

对告警相关性的定义:告警事件A与告警事件集合a1, a2, a3, a4, …an相关, 表示为:

告警相关性可以用于网络故障定位和告警过滤。告警相关性类型如下:

告警压缩:将发生的多个告警压缩到一个告警中。{A1, A2, A3, A4, …An}=>A。

告警过滤:为了避免冗余告警信息的上报, 减少不必要的通信开销, 提高处理能力, 必须进行故障过滤, 设置过滤策略。

如果告警A的P (A) 值不属于合法值集合H, 则过滤告警A。{A, P (A) H}=>Υ。

告警抑制:在高优先级告警C发生的前提下, 抑制告警A。{A, C}=>Υ。

告警计数:对重复到达同样的告警进行统计和设定门限值。例如用一个告警B代替n次出现告警A。{n*A}=>B。

告警泛化:用告警的超类代替该告警。

告警特化:用告警的特定子集告警代替该告警。

告警时序关系:相关的告警依赖于告警发生时间顺序, 告警A, 告警B顺序发生时, 就会发生告警

告警相关性规则发现如图3所示。

3.3 故障定位

如果故障集合用F表示, 则故障定位就是要找到一个这样的集合FC, FC F, 根据证据集合E计算BN (S0) , 得到对S0的最优解。以贝叶斯置信网络中节点xi与其所依赖的父节点Vj的故障定位过程如下:

Bel中即为节点x的故障定位信息。

策略决策点完成故障定位后, 做出策略决策, 若是本管理域内能解决的故障, 则下发策略决策给策略执行点进行故障修复;若故障在本管理域内无法解决, 则通过与其他管理域的移动代理进行协商。

基于策略和移动代理的分布式网络故障管理具有以下优点:

(1) 动态性:由于故障监视的数据都是动态变化的, 网络拓扑也是动态变化的。所以要求相应的监控系统也应该有动态适应性, 基于策略和MA的故障管理能根据网络情况采取不同的监视策略具有动态适应性;

(2) 分布式:MA可以携带策略信息在分布式节点间移动, 并且具有策略决策能力, 能够更好地适应网络的动态变化;

(3) 可扩展性:基于策略的网络故障管理中网络管理是基于策略的实施来实现的, 一条策略可以运用于一类相同类型的执行对象, 许多异类网络可以通过统一的策略集进行管理, 可扩展性好。

4 实例验证

基于策略和移动代理的网络故障管理软件系统在某项目中进行了应用, 取得了预期的效果。现以一个分布式网络中不同管理域间链路误码率增大时故障事件的处理流程为例说明基于策略和移动代理的故障管理的工作过程, 步骤如图4所示。

现以域A为例, 对图4中的数字符号解释如下:

(1) 域A的故障监视模块检测到误码率超越阀值即xi≥THA, 向PEPA发出告警;

(2) PEPA向域A管理站的PDPA发出告警a={alarmid, alarmtime, alarmlevel, alarmtype, alarmname alarmstate, alarmwhy}, 并请求策略决策;

(3) PDPA接收到PEPA发送来的携带策略的MA请求策略后, 访问目录服务器并根据表1进行策略决策, 同时将决策结果封装到携带策略的MA中发送给PEPA;

(4) PEPA收到PDPA的决策结果后经过策略解析和映射, 向域A发出调整误码率指令;

(5) PDPA向PDPB发送一个携带策略的MA进行策略协商;

(6) PDPB收到PDPA发来的携带策略的MA经过策略协商, 决定不做更改;

(7) PDPA的携带策略的MA和PDPB的携带策略的MA进行策略协商, 决定缩小节点间距离以减低误码率。

5 结束语

管理域的划分使得大规模分布式网络的管理复杂度大大简化。MA的使用使得网络管理系统更加智能。基于策略的网管和移动代理技术的融合将大大提高网络管理的智能化和灵活性。

摘要：针对传统网络故障管理在功能和性能上存在的不足, 提出了一种基于策略和移动代理的网络故障管理方法, 该方法能实时监测网络的运行情况, 及时了解网络运行的性能状态, 根据预定的策略进行相应的分析处理, 大大减轻管理员的操作负担, 实现一定的智能化管理。论述了基于策略和移动代理的性能管理软件系统的设计和工作原理。通过故障管理软件在检测到链路误码率增大时, 采用策略和移动代理进行自动化和智能化控制的实例, 验证了基于策略和移动代理的智能化故障管理。

关键词：PEP,PEP,移动代理,管理域,故障管理

参考文献

[1]曾旷怡, 杨家海.一种基于策略的网络管理系统研究与实现[J].小型微型计算机系统, 2007, 15 (4) :123-126.

[2]沈俊, 罗军周.基于策略和域的网络管理[J].计算机工程与应用, 2001, 23 (5) :100-104.

[3]刘晓明, 黄传河.一种基于移动AGENT技术的网络管理[J].计算机应用研究, 2004, 12 (1) :65-69.

分布式网络故障管理篇2

摘要：计算机网络飞速发展的今天，网络系统的复杂度越来越高，需要处理的数据也越来越多，网络系统出现故障的几率显著升高。在网络管理过程中，故障的处理尤为重要，随着网络的不断运行，故障会随着网络不断传播，造成更大的影响。因此，如何准确、快速的定位出故障的具体位置是计算机网络故障管理中亟待解决的问题。本文通过详细分析基于SNMP管理协议下的事件关联策略进行的网络故障定位，并模拟了网络拓扑结构进行实验，实验表明该算法对日渐复杂的网络系统的网络故障定位有较强的优势。

关键词：网络管理;故障定位;SNMP管理协议;事件关联策略

计算机及网络技术的飞速发展为大中型企业带来了许许多便利之处，随着大型企业开发了与之业务相对应的管理系统，越来越多的业务将通过网络的方式进行，人们的衣、食、住、行都离不开网络[1]。计算机技术的飞速发展导致基于计算机的大型企业管理系统复杂度显著上升，与之相关的计算机网络的复杂度也随之提高。越来越复杂的网络环境为计算机网络管理带来了不小的挑战，需要网络管理者在保证海量网络集群能够正常工作的基础上，通过各种手段保证在运行过程中网络故障带来的影响和损失最小化，是计算机网络故障管理面临的主要问题。到目前为止，对于复杂度较高的大型网络系统都采用集中式管理方式，该方式将信息的管理和转发过程集中至一起，然后通过主要管理者进行分发和维护，系统的性能取决于中心管理者的管理能力。集中式管理方式面对大面积的计算机集群出现问题的时候，难以进行有效的处理，系统智能度较低，且中心管理者面对的管理任务较多，对于故障的传播无能为力，对于故障发生区域的定位也较为困难。集中式中心网络管理方式存在以下两类缺陷[2]：(1)计算机网络中心管理服务器需要面对成千上万待处理数据，这些数据冗余性大，数据处理时限要求高，仅仅通过中心管理服务器难以一一完成处理。集中式处理方式对中心管理服务器的性能要求较高，若中心管理服务器发生部分故障将会对整个网络系统的故障处理过程造成全方位影响。(2)计算机网络中心管理服务器面对巨大的计算机网络数据的吞吐量，在处理过程中，根据木桶原理，网络的整体性能受限于中心服务器处理数据的能力，中心管理服务器成为了整个网络系统的瓶颈。

1.基于SNMP协议的网络故障定位

在计算机网络管理中，与故障相关的管理包括故障发现、故障诊断和故障修复三个阶段。正常的逻辑是首先寻找并定位到故障发生的地方，才能针对不同的故障来进行分析和诊断，进而根据诊断结果将故障进行修复[3]。目前，在网络故障管理的三个阶段中，故障诊断和故障修复过程都有成熟完善的算法支持，而在故障定位过程中，由于故障的发生源可能范围较广，故障发生后会随着网络系统的运行而不断发展，且随着网络系统的复杂度提高，故障的传播越来越迅速、隐蔽，对于故障定位的相关算法目前还不完善具有较大的研究空间，所以研究并改进在大型网络系统中的故障定位算法是一项有意义的工作。

1.1SNMP协议故障定位与处理模型

SNMP协议用于计算机网络管理，是TCP/IP协议簇中最常用的应用层管理协议之一。该协议通过不断发出监听包到网络系统中各个设备上，通过设备的反馈包来检测对应设备是否发生网络异常。若某些网络设备发生异常并引起故障，一般情况下，在规定时间内SNMP无法接受到该设备的反馈包，这时候该协议即可初步定为出异常发生区域，并采取相应措施。基于SNMP网络管理协议的网络管理模型以网络管理系统NMS为中心，通过NMS与其他待管理的网络元设备节点构成了整个网络系统，SNMP协议运行在NMS之上，当网络系统运行过程中，某些被管理的网络元设备发生故障时，SNMP检测到该故障并发出警告信息，警告信息通过网络传播到其他网络元设备中，经过一定的时间，SNMP将警告信息传播到整个网络中，NMS对发生故障设备进行相应的处理。通过NMS的`统筹管理，将会很快的定位出网络故障的具体位置并进行分析和解决。

1.2SNMP协议网络故障定位算法

由于计算机网络的复杂度不断提高，网络管理系统NMS无时无刻不在接收着来自多方节点的警报和征兆，在实际网络运行过程中，网络管理系统将会面对大量的警告信息，面对如此多的冗余信息，非智能的网络管理系统将会很难通过分析找出发生故障的真正节点设备，以至于大型网络很难对故障做出有效的处理。在网络管理运行过程中，网络中心管理服务器与各个被管理网络设备元之间相互依赖且各个被管理网络设备元之间存在物理上和逻辑上的相关性，所以每当一个设备元出现故障的时候，不仅自己要发出警告，而且所有感知到该设备元出现故障的设备都会发出警告，大量冗余的警告在网络中传播最终导致一个设备元发生故障产生大量的征兆，这些征兆都是相互关联在一起的，不能只针对一个征兆进行处理。在传统的SNMP协议中，检测到的网络设备故障征兆都是被单独传送给中心管理服务器的，这使得大量冗余的征兆信息干扰对网络故障的定位。事件关联策略在此背景应运而生，建立在基于SNMP协议上的网络故障定位新算法。在网络管理中，故障指的是网络中心管理服务器接受到的一个警告。事件关联策略定义了被管理的网络设备元在语义上的相关性，对被警告事件分别在空间上和时间上进行相关处理，通过提取各个事件中的相关联部分构成单一的警报概念事件，生成的单一警报概念事件能够过滤不必要的或者无关的事件，减少传送到网络中心管理服务器的冗余信息，中心管理服务器能够更好的计算并分析出网络故障的源泉。网络管理系统NMS面对诸多的警报和征兆，为了解决警报信息量大，信息冗余程度强的方法是在SNMP协议上采用事件关联策略，通过定义事件的方式来将警报编码成事件，再通过检测事件的相关联部分，丢弃无意义的冗余信息，仅仅通过“核心部分”的警报即可定位出故障源的真正区域，并给出故障解决方案。

2.基于SNMP协议和事件关联策略的网络故障定位实例分析

2.1网络拓扑图及初始化设计

本文通过模拟网络拓扑结构以及故障发生的环境，目的是呈现一种基于网络拓扑关联的网络故障定位技术，然后通过基于SNMP协议和事件关联策略来分析网络故障定位。本文通过建立一个网络拓扑结构来进行网络故障定位技术，寻找故障发生的源点，并根据该网络拓扑结构产生相应的节点表，关系表，和关联表。为了更加形象的表示网络的拓扑结构关系，本文需要给相应的拓扑结构节点添加虚拟的IP地址和该节点的属性。这些属性对后续实验的结果有重要意义，通过对网络设备的实际意义定性分析，就能够很好的完成对网络故障源点的定位和追踪，然后进行相应的网络故障分析和维护。

2.2基于SNMP协议软件关于该案例的实验结果

本文采用在SNMP协议上运行事件关联策略来定位故障源点，该策略主要是在主控模块中进行模拟的故障定位。在进入主控模块前，该策略还有模拟的发现网络拓扑结构模块和由拓扑结构创建连接关系的模块，接下来是通过连接关系创建关联关系的模块，该模块创建的关联关系是通过关联关系算法创建的，然后进入主控模块，在主控模块里连接着模拟输入故障数据模块，故障定位模块，以及故障源展示模块和故障事例显示模块。

3.总结

本文针对大型复杂的网络中难以定位故障的问题，分析了现有SNMP管理协议的各个方面，并详细分析了基于SNMP管理协议，使用关联关系进行故障定位算法的研究。在实际试验环境中，本文通过使用基于SNMP的管理协议来进行模拟网络拓扑结构的故障定位过程，实验结果表明，使用SNMP管理协议进行的网络故障源精确度高，分析速度快，适合日渐复杂的网络系统。

参考文献:

[1]韩莉莉.网络管理系统中数据库的设计与实现[J].无线互联科技,,(8):24-24.

[2]李建国.电信网络安全隐患与对策探析[J].科技视界,2014,(32):57-57,103.

[3]罗志权.计算机网络故障的识别与解决方法[J].环球市场信息导报,2014,(7):130.

分布式网络故障管理篇3

关键词：网络故障管理；计算机智能化管理方法

中图分类号：TP393 文献标识码：A 文章编号：1674-7712 (2012) 10-0097-01

网络故障管理是计算机网络管理中一个重要的功能，用户在正常使用计算机网络的时候，如果网络发生故障必然会影响用户，因此，网络管理器需要快速查找故障并排除故障。故障管理的任务就是查找故障和排除故障。故障管理包括故障管理、故障恢复和预防管理。故障管理的内容包括故障警告、故障测试、故障诊断及设备更换等。由于网络故障的出现具有一定的复杂性因素，其通常是由于系统区域内不同功能的网络部件共同作用的结果。在进行网络故障的分析及管理时，应对系统构建的网络进行必要的修复，最后，为了确保故障的完全修复，还应实时的分析网络故障产生的原因。通常情况下，系统内的日志文件主要负责网络中轻微故障的记录工作，而当严重故障发生时，系统内置的报警机构将会发出警示信号，以通知网络管理器进行实时的处理和防范。现阶段，为了降低网络故障的发生频率，制造方或运营商通常会在系统内引入或根植相关的人工智能技术，这样不仅能够使得网络故障的检测及管理水平有所提高，而且其在系统的可靠运行方面也起到了非常重要的作用。

一、网络故障原因及相关应对措施分析

日常维护可以有效地保证网络稳定地运行，减少错误。但是，由于网络设备、用户使用、应用程序及网络规划不尽完善等问题的不可避免性，不论日常维护工作做的如何好，网络还是会出现问题。网络系统涉及面十分广，有网络硬件、网络软件、计算机、打印机、应用程序等等，当网络系统中出现故障时，首要的原则是隔离网路问题，判明问题的原因，然后才是解决问题。在分析网络常见问题的起因和具体解决方法之前，要先弄清网络故障产生的原因，找出故障应该从哪几个方面着手：

缩小故障的范围。可以用以下方法发现故障设计的范围：根据出错信息判断；判明故障发生在一个工作站，还是几个工作站，还是文件服务器；判别故障的类型是打印问题，通讯问题，还是应用程序问题等等。

检查硬件设备。如果故障出现在一个设备上，可以将这台设备隔离开来单独运行，或将外设挂到一台正常的机器上运行，如果这时该设备出现同样的故障，表示这台设备本身有问题，与网络无关。如果发生故障的各个设备单独运行时都正常，则说明问题出在设备与网络的联接方面。

故障发生时，屏幕上经常会出现“出错信息”可以查阅《系统信息手册》找到出错原因。

经过第2步，确认故障不是计算机，外设本身的故障，而是网络方面的问题后，根据第3步进一步缩小可能发生故障的范围。如果是网络硬件问题，可以确定可能有故障的各种设备，如网卡、BNC头，HUB、双绞线、同轴线、终结器或线路接触不良等等。先对最便宜的设备进行更换，更换后如果故障仍存在，则更换稍贵些的部件，依次类推。

总结修复经验，解决问题后，立即将修复经验和更换内容进行记录，已备类似问题出现时有据可依。

计算机智能管理系统分析为了能够更有效地对各种大型复杂的网络进行管理，许多研究人员将人工智能技术应用到网络管理领域。虽然全面的智能化的网络管理距离实际应用还有相当长的一段路要走，但是在网络管理的特定领域实施智能化，尤其是基于专家系统技术的网络管理是可行的。用于故障管理的专家系统由知识库、推理机、知识获取模块和解释接口四大主要部分组成。专家系统以其实时性、协作管理、层次性等特点，特别适合用在网络的故障管理领域。但同时专家系统也面临一些难题：（1）动态的网络变化可能需要经常更新知识库。（2）由于网络故障可能会相关到其它许多事件，很难确定与某一症状相关的时间的开始和结束，解释和综合消息复杂。（3）可能需要大量的指令用以标识实际的网络状态，并且专家系统需要和它们接口。（4）专家系统的知识获取一直以来是瓶颈所在，要想成功地获取网络故障知识，需要经验丰富的网络专家。

二、建立必要的事件知识库

在专家系统中，知识的表示有逻辑表示法、语义网络表示法、规则表示法、特性表示法、框架表示法和过程表示法。产生式表示法，即规则表示法，是最常见的一种表示法。其特点是模块性、一致性和自然。知识库是知识的集合，严格意义上的知识库包括概念、事实和规则只部分，缺一不可。为了提高故障管理的智能水平，可以建立事件知识库，用于存储所有已知事件的类型、产生事件的原因和所造成的影响，以及应该采取什么样的措施等一些细节的静态描述。这个EKB并不是真正意义上的知识库，它的数据仅仅包含了属性值与元组，而属性值表示概念，元组表示事实。但研究EKB可以为今后建立完善的知识库奠定基础。在EKB中存储了己经确定事件。最初，被确定的事件仅限于一些标准事件和措施。随着网络的运行和系统的反馈，EKB的内容将不断增加。理想状态是能够确定所有的事件。下面是EKB涉及到的只种基本的数据库表：（1）事件类型表：该表中主要存储了事件的静态定义；（2）实时事件表：描述了正在运行的网络中的实时事件；（3）设备信息表：存储了网络中设备的实际参数。EKB中存储的相关事件的知识主要来源于专家。开发人员将获得的知识应用到与故障管理相关的系统中，根据不同系统的需要分配相应的知识，以提高系统性能。虽然EKB并不是严格意义上的知识库，但在开发过程中，可以通过不断地增加和修正EKB的内容，在一定程度上提高系统的智能水平。

三、结语

本文通过对网络故障原因及相关应对措施的分析，提出了将计算机人工智能及事件知识库的构件方案用于计算机网络故障的管理。通过大量的实践证明，这种用于网络故障管理的计算机智能化方案不仅比传统的管理方式具有更高的决策水平，而且还能大幅提高计算机系统在故障检测及隔离方面的效率。

参考文献：

[1]杨海涛.网络管理原理与实现技术[M].北京:清华大学出版社,2002

分布式网络故障管理篇4

随着网络技术和应用的迅速发展,网络规模变得越来越大,网络连接结构变得越来越复杂,从而使得网络管理变得非常重要。同时,迅速增长的网络规模和各种应用也对网络管理者形成了挑战,因此,能否有一个可行而高效的网络管理策略将对确保网络能否高效、可靠的正常运行起着非常重要的作用。通过重点研究基于SNMP的网络故障管理系统,提出了一种基于SNMP的分布式网络故障管理系统模型。

2 SNMP协议

简单网络管理协议(SNMP)是一种实现网络设备间交换管理信息的应用层协议。它的管理结构可由4部分组成,分别是:管理的设备managed devices、代理agent、网络管理系统NMS、管理信息库MIB。

(1)网络管理设备是被管网络资源中含有SNMP代理的网络节点,这些设备的信息将被收集并存储在管理信息库中,通过SNMP协议被网络管理系统使用。

(2)代理是驻留在被管理设备中的管理模块,它负责收集被管设备的本地状态信息,并回应网络管理系统的请求,最后返回相应的操作结果。

(3)网络管理系统是监视和控制工具的集合,负责监视和控制被管设备,它能够向被管网络资源发送SNMP请求,以便得到管理信息。网络管理系统由现有网络组件中所添加的硬件和软件组成。执行网络管理任务的软件存在于主机或者设备中。网络管理系统把整个网络看做一个统一结构来处理,每个节点都有系统所知的地址、标签和每个元素的具体属性。网络的节点定期反馈统计信息到网络管理系统。

(4)管理信息库是一个树形结构的数据库。网络中的每个系统,比如工作站、服务器、路由器等,都维护一个可以反映被管理资源在系统中状态的信息库,通过读取信息库中对象的值,管理站可以监视系统中的资源,也可以通过修改某些值来控制系统中的资源。这些信息库由被管资源中的本地代理实现并维护,网络关系系统可以通过SNMP协议来访问这些信息。

总体来说,SNMP网络管理结构是分散的数据(分布在每个被管理设备的MIB中)、集中的管理(统一由管理系统管理)。如图1所示。

3 网络故障管理

网络设备可靠、高效的运行对于网络正常运行很重要,任何不正常的设备状态都将影响到网络正常运行。设备的不正常状态包括错误和不能正常运行。比如,路由器或交换机死机、线路中断或链路延迟过大等。设备故障会导致网络的性能下降、功能缺失,甚至网络瘫痪,所以故障发生时,应该能:

(1)及时定位故障并发出警告通知管理员。

(2)把其他网络同故障部分隔离开,使其余的网络不受干扰继续工作。

(3)不再使用故障设备,重新配置或修改网络,尽量减少该设备的影响。

(4)修复或更换故障设备,恢复网络到初识状态。

网络故障管理一般通过3个步骤:发现网络故障;查找、分析和分离故障原因;如有可能,自动排除故障,或者给管理者提供排除故障的帮助。

4 分布式网络故障管理模型

分布式网络故障管理模型把所有的被管对象分成若干个管理区域,每一个管理区域设置一个单元管理站,单元管理站负责对所管理区域中的设备进行故障数据采集和管理。整个单元管理层就由若干个单元管理站组成,它们都接受中央管理站的协调,共同完成故障管理的相关任务。管理区域的划分使得网络故障管理功能被分布到各个单元管理站,这就减轻了中央管理站的负载,同时也避免了单点故障问题的出现,达到了分布式管理的目的,如图2所示。这种模型的特点是:全网设立一个中央管理站,多个具有双重角色的单元管理站,即每个单元管理站又具有管理站的功能,且有自己的网管数据库,但单元管理站的管理区域是中央管理站的一部分。单元管理站将采集到的故障信息存储到自己单元网管数据库的同时,向中央管理站提交。中央管理站通过对故障数据进行分析,确定故障类型并对故障定位,将相关数据存储于中央数据库,并发出故障报警给管理者,管理者通过排错工具对故障进行自动修复或隔离,或派技术人员进行维修。

在图2所示的分布式网络故障管理模型中,主要有故障数据采集、故障分析、故障报警、排错工具、系统配置和日志管理等模块。

4.1 故障数据采集模块

故障数据采集是整个故障管理系统的前提和基础,通过自动采集故障所需的相关数据,分类和过滤数据,形成固定格式的记录格式数据,便于管理站对故障进行准确的判断和分析。

管理站可以采取主动访问被管对象和被动接收告警信息两种方式从被管设备中采集数据。主动访问被管对象是指管理站管理进程通过SNMP协议发起对被管对象的请求,如通过SNMP中的GET操作访问MIB获取设备故障信息,被管设备中的代理进程则响应该请求。被动接收告警信息是指管理进程监听陷阱端口,接收来自代理的告警信息。代理进程会在预定义事件发生时向管理进程发出Trap报文。

对于主动轮询访问来说,根据访问对象的性质,可以分为静态信息和动态信息。对于静态信息来说,由于一经配置基本上保持不变,所以只有在当它发生变化时进行必要的访问以保证信息的有效,没必要在每一次采集过程中都对它进行轮询操作。对于动态信息来说,是随着设备的运行情况做出相应的调整,以实时地反映设备的状态或是性能信息。

在动态信息的访问过程中,还存在另一个问题。如果按照串行操作,依次访问所有设备的被管对象,可能由于对象数目众多,将会占用很长的处理时间,导致访问工作不能正常进行。为了保证管理进程能够在采集周期内完成对所有被管对象的访问,这里采用多线程技术来完成对对象的访问工作。对于同一被管设备,采用独立的子线程进行访问,这样一来既可以保证在一定周期内完成对所有被管对象的访问,也使得各个子线程保持相对的独立性,互不干扰。同时采用分布式区域单元管理站的方式,有效减轻中央管理站的负载。

4.2 故障分析模块

网络故障分析模块的目的是能够通过分析采集到的数据迅速找到网络故障的确切原因,给出排除故障的有效建议。对于经验丰富的网络管理者,可能可以很快地判断故障的位置和原因,但这就大大降低了故障处理的自动化程度。在实际中,同一原因造成的网络故障可能是多次的,因此,能够在向管理者报告前对故障信息进行分析和过滤,而不是毫无判断地把所有的故障信息一起报告给管理者,这样就能更有效地帮助管理者有目的的去处理网络故障。

4.3 故障报警模块

故障报警模块通过管理系统程序对网络的工作状态进行经常的测试和记录,一旦发现网络中有故障出现时,则发出报警信号。同时,通过故障分析模块形成故障报告,帮助网络管理者进行故障定位和故障隔离。故障报警信息中应尽量多地包含故障相关信息,比如详细说明出现异常的地点、原因、特征,以及可能采取的应对措施等。这些信息对处理排除网络故障是非常重要的。

4.4 排错工具

通过一系列像Ping、Tracert等常用的网络监测工具,定期进行轮询监测,对网络实行实时检测,对被管设备的状况进行测试并记录测试结果,管理者可以通过分析这些测试结果,进行网络故障排错。同时,可以根据已有的排错经验和管理员对故障状态的描述,给出对排错行动的建议。

4.5 系统配置模块

对故障管理系统通过定期、不定期地由管理员输入配置信息和导入其他配置信息的方式,对网络及网络故障管理系统进行配置完善。包括配置不同故障的优先级、对网络设备的查询时间间隔等。从而能适应网络的改变和系统正常运行,更加合理地监测和排除网络故障。

4.6 日志管理模块

通过日志管理模块可以记录网络运行状态,故障发生时的情况,以及故障处理的相关信息,存储这些信息可以供以后分析使用。日志中的记录可以由故障管理系统自动进行添加,也可以由管理者或者故障处理人员手动进行添加。日志中不仅可以存储本地处理形成的日志记录,也可以存储来自其他系统的事件报告。管理者可以直接操作日志文件,例如产生和删除日志,修改日志的属性,手工添加网络故障处理日志,或删除其中的记录。管理者也可以控制日志的活动,使其挂起或恢复活动。

5 结语

故障管理是网络管理的5大功能之一。其目的是保证网络能够提供连续可靠的服务,这就需要一个故障管理系统,科学地管理网络所发现的所有故障,记录每一个故障的产生,对故障的跟踪分析以及如有可能则排除故障的全过程。提出了一种基于SNMP协议的分布式网络故障管理系统模型,虽然通过几大模块可以实现网络故障管理,但是,整个管理系统中智能化程度还不是很高,很多地方需要人为干预,这也是以后需要研究的方向。

摘要：网络技术与应用的飞速发展对网络管理形成了挑战。有效可行的网络管理系统将是确保网络正常运行的很重要的方法。通过对SNMP与网络故障管理的分析,设计了基于SNMP的分布式网络故障管理系统模型。

关键词：SNMP,分布式网络故障管理,网络故障管理

参考文献

[1]Ya Sun.Research on Multi-Function Fault Management Sys-tem Model based on SNMP,International Conference on Ad-vanced Computer Theory and Engineering,2008;

[2]李明江.SNMP简单网络管理协议[M].电子工业出版社,2007.

[3]戴子东.基于SNMP的故障管理系统的研究与实现[D].南京邮电大学,2005.

[4]Elias Procopio Duarte Jr..Network Fault Management Basedon SNMP Agent Groups,International Conference on Dis-tributed Computing Systems Workshops(ICDCSW,01),2001.

分布式网络故障管理篇5

全光网络介绍及其关键技术分析

全光网络介绍

全光网络的技术核心包括波分复用WDM技术、光放大技术、光交换技术。其中波复分WDM技术是点到点的通信方式,其将光纤带宽分割成多个互不重复的波长信道,各个信道以不同的速率级别进行异步工作,这就极大的提高了整根网络的信息传输量,而线路的铺设成本没有增加。光放大技术可以有效的降低不同波长信号在传输中的功率消耗问题,目前的技术尚不能放大任意波段范围内的光信号,全光网络对此问题的对策为将波长限制在一定的波长范围内,以降低光纤中可以复用的最大光波长个数。光交换技术用以提高网络节点的交换容量,它将分离的波长视为各自独立的通信信道,在信量的输入与输出之间直接完成光交叉连接,以此方式来进行光信号的传送。全光网络的实质即是实现节点之间的最大化光形式传输,使数据信息在源节点和目的节点都在光域范围内进行交换和传输。

全光网络分布式管理结构

1、管理结构

全光网络的管理平台应该与现有的SDH/ATM管理系统就行结合。作为网络管理的标准系统,TMN可以网络结构的分层式管理,其能实现与其它管理系统的开放式兼容,能够有效的支持分布式和集中式的网络管理。由于TMN具有通用的网络管理结构和良好的结构可拓展性,因此全光网路的管理结构基于TMN进行建设是一种理想选择。图1设计了符合TMN结构的全光网络管理结构,它不仅能够实现对OXC/OADM等网元设备的统一管理,还能实现网络操作系统与网元之间的数据通信,其中利用Q3接口进行操作系统和网元之间的连接,从而实现了数据通信与光传输网的分离,它的主要管理功能在于数据信息的转移。

全光网络的功能管理方式有集中是和分布式两种,两者之间各有优缺点。而其中分布式网络管理结构更适合全光网络模式的需求。集中式网络管理系统,管理功能由一个控制系统进行管理,其实施方法简单。分布是管理方法可以采用多种控制系统相结合的方式,在管理上具有灵活性的特点,其相对于集中式管理方案系统更加健壮和稳定,但在数据库信息统一管理和网络的分布恢复上操作较为繁琐。

2、基于全光网络的分布式技术

全光网络的技术涉及范围和管理内容繁多,管理方式的选择应该结合实际业务需要选择较为经济、实用性高的管理方案。随着计算机通信技术的不断发展,分布式的信息处理方式也得到了较为广泛的应用普及。全光网络的管理领域以及管理上的分布式处理方式如下:

(1)网元分布

全光网分布式管理结构,尽管在同一层次的设备或对象在业务实现上相互依赖,但是其管理功能的实现并不受到此依赖关系的制约。这些管理内容的实现又被称为网元管理。网元即是网络中各种管理设备、器件以及逻辑资源的集合。网元在划分上并没有固定的规则,它是根据管理的具体内容以及所实现的具体功能而灵活定义的。最大的网元便是整个网络体系,最小的网元即是网络中的每一个具体部件或设备。无论网元的划分方式如何,网络管理功能的实现都需要依赖于特定的网元管理方案,网元之间的独立性要求全光网络的管理结构最理想的是采用分布式管理方案。

(2)管理功能分布

全光网络的管理基本功能包括:配置管理、账务管理、故障管理、性能管理、安全管理。任务的分布是管理在设计上要求以上管理内容采用分散执行,不同管理领域之间的交互依赖性不宜过多,以实现分布式管理结构的整体健壮性,这也是分布是管理方案优于集中式管理方案所应体现的地方。如:帐务管理可以归属于专门的计费营运点使用、而故障管理则仅被设备检修部门使用,其结果是不同的职权部门使用各自独立的管理功能,相互之间不会产生直接关联;此外,不同领域的功能变更做到不对它管理功能造成任何影响。

(3)用户接口分布

分布式网络故障管理篇6

体系结构是网络管理系统的基础, 决定了网络管理系统的框架结构。本模型采用管理站分层、管理任务分布的网络管理体系结构。如图1所示, 体系结构的最底层为管理域, 里面包含若干被管节点, 每个管理域由一个域管理者进行管理;域管理者的管理者为管理站。

管理站分层结构采用由上到下逐步细化的方式分割管理应用。管理系统按照物理 (地理位置等) 或逻辑因素 (部门或管理功能等) 将管理站划分层次, 对管理应用逐层分隔成不同粒度的管理任务, 上层管理站在把管理任务委托给下层管理站之后, 由下层管理站独立完成, 只将执行结果上传。上层管理站具有更多的全局性知识, 处理更复杂的网络事件, 而下层管理站处理相对简单的网络事件, 下层管理站处理的事件是上层管理站处理的事件的子集。顶层管理站支持各种网络管理功能, 提供相应的管理应用, 并且为管理员提供良好的图形用户接口。系统可以有多个顶层管理站, 以提高系统的容错能力, 或者各个系统实现不同的网络管理功能, 以便均衡负载, 提高管理效率。中间层管理站具有双重角色:它是下层对象的管理者和上层管理者的代理。中间层管理站的层次和数量可以动态地增加和删除, 以适应不同的网络规模或者满足不同的管理应用的需要。管理站分层结构的优点是适应网络层次化的特点, 不同层次管理站的管理功能较为独立, 同层管理站之间没有相互通信, 它们之间的协调是通过上层管理站完成的。

管理任务分布结构是指域管理者将管理任务委托给管理域中的代理, 在代理本地对管理对象进行实际的管理操作。我们采用移动代码技术实现管理任务的委托。管理任务委托方式提供细粒度的版本, 域管理者能够通过加强管理策略来控制代理的行为。代理作为管理域的组成元素, 一方面为管理任务提供执行环境, 另一方面根据管理任务的要求收集和提供网络对象的管理信息。

图2描述了本模型下网络管理系统的软件层次结构。最顶层为管理应用, 分为五个功能域, 分别是配置管理、性能管理、故障管理、安全管理和计费管理;每个管理应用包括若干分布式管理应用组件, 并为用户提供了应用配置接口, 另外, 在这一层还为用户提供了定制任务及策略的公共接口, 为整个管理系统所服务;管理应用被管理站逐层分隔成通用管理服务, 即管理任务;管理任务调用其下层的分布处理服务, 以便在管理域中的每个代理端分布运行;管理任务的通信模型建立在分布对象服务所提供的方法上, 而后分派到代理端, 通过与代理进行交互从而获取管理对象的信息或对其实施管理操作。

2 模型结构

模型的核心部分是域管理者, 它承担了承上启下的作用, 一方面需要完成管理站所指定的管理应用 (如图3所示) , 另一方面需要将管理应用划分成若干管理任务, 分布到被管节点中执行 (如图4所示) 。

域管理者主要由三个组件构成:

(1) 任务处理器:负责接收管理站的任务调度, 将管理任务分派到管理域中, 而后将执行结果返回给管理站;

(2) 事件处理器:负责接收管理任务发出的事件, 并对事件进行过滤和关联;

(3) 策略处理器:负责接收来自事件处理器的事件关联结果, 以确定按照何种策略为被管节点扩展管理任务。对于无法在本地处理的故障, 上报至管理站。

在本模型中, 为了简化管理站的设计并相应减少管理站间通信的复杂性, 位于不同层次的管理站采用相同结构。

管理站主要由四个模块组成:

(1) 故障报告接收器:负责接收来自下层实体 (下层管理站或域管理者) 的故障报告, 该类报告是经过域管理站关联后的结果;

(2) 策略处理器:负责对事件采取相应行为;

(3) 事件分发器:负责将事件分发至三个流向, 即上层管理站、管理员或者管理应用;

(4) 管理站还有一个专门解析管理指令的指令解析器, 一方面将管理应用发出的管理指令解析成管理任务所识别的任务调度指令, 另一方面将管理任务的返回结果解析成管理应用所识别的信息格式。

域管理者和被管节点之间的通信由如下三个过程组成:

(1) 域管理者采用移动代码技术实现管理任务在被管节点的分布。采用基于移动代理的方法获取实时数据, 采用基于远程计算的方法获取非实时数据;

(2) 当管理任务发现管理对象的状态发生异常或性能超过预定指标时, 以消息传递的方式向域管理者发送事件报告;

(3) 为了提高系统扩展的灵活性, 每当网络的管理需要发生变化而要改变代理的功能或者由于MIB定义新的事件而被修改时, 被管节点可以通过按需代码方式从域管理者的代码库中下载有关程序, 实现自动更新。

被管节点主要由两个组件构成:

(1) 任务执行环境:负责接收管理任务, 并且提供一个能够与系统Agent进行交互的平台;

(2) 系统Agent:为了减少管理任务自身的体积, 在被管节点中将MIB的实现以及低级的网管操作独立出来, 由一个系统Agent来实现。

3 结语

在大规模分布式网络管理中, 网络资源的数目繁多且异构性强, 基于域的管理结构存在若干管理者, 如果管理任务的配置等工作仍然基于“管理员密集”模式, 则管理员的工作负荷将大大增加, 由此所引起的管理低效和高出错率不能满足网络管理的要求。本文就该问题提出了一个分布式网络自管理模型, 围绕以下几点展开了研究:

(1) 提出该模型下被管节点、管理站、管理域、域管理者、管理任务和事件的概念;

(2) 提出一个管理站分层、管理任务分布的网络管理体系结构。对管理站、域管理者和代理三个管理实体进行了对比。提出了管理系统的软件层次结构;

(3) 描述了网络自管理模型的结构和各模块功能;

(4) 描述了管理站—域管理者、域管理者—被管节点的通信机制。

参考文献

[1]郭楠, 赵宏.基于Web的分层式网络管理系统的设计与实现[D].沈阳:东北大学, 2001.

[2]王平, 赵宏.分布式网络管理系统体系结构和管理机制的研究[D].沈阳:东北大学, 2002.

[3]徐斌, 钱德沛, 张文杰.主动网络管理体系结构的研究[J].计算机研究与发展, 2002, 39 (4) :488-494.

分布式网络故障管理篇7

关键词：分布式网络,管理体系结构,相关技术,基本结构

1. 分布式网络管理基本结构

网络管理的主要任务是保证网络正常、稳定和经济地运行,传统的集中式管理扩展性较差,容易导致网络崩溃,因此,分布式网络管理模式应运而生。其管理模式的亮点就是分层管理,即“层次性”,如图1所示。该模式最顶层为总管理站,第二层为若干子管理站,各子管理站下连若干子网域。每个管理站都有自己所属的信息库。总管理站对整个网络有决定控制权,通过总信息库做出决策。子管理站将本域信息收集于管理信息库并反馈结果给总管理站的总信息库。

采用分层管理极大提高了系统的集成度,稳定性和易扩展性。

2. 分布式网络管理相关技术

2.1 基于CORBA的网络管理

CORBA是由对象管理组织(OMG)提出的关于对象技术和软件体系结构的一种技术规范,其核心在于一套标准的语言、接口和协议,以支持异构分布应用程序间的互操作性及独立于平台和编程语言的对象重用。

CORBA的主要特点是将事物代理交由中间件(Middle Ware)完成,即对象请求代理(ORB),处理客户机和服务方的业务请求。只要符合CORBA定义的接口规范,采用任何语言开发的程序都能集成到分布系统当中。

2.2 基于Web的网络管理

Web管理的主要特点就是通过HTTP技术、HTML技术、Web浏览器和服务器,达到降低软硬件成本、提高网络维护的可靠性和稳定性,同时减轻系统管理者的工作负担,其实现方法有两种:一种是基于代理的三级解决方案;另一种是嵌入式解决方案。两种方案是平行关系,互不干涉,两种方案的基本思想是:

(1)基于代理的三级解决方案:将Web服务器加到代理上,代理轮流与终端设备通信,用户通过HTTP协议再与代理通信,同时代理通过SNMP协议再与终端设备通信。(2)嵌入式方案:将Web嵌入网络设备,让每一个网络设备都有属于自己的Web地址。目前应用最多的还是第一种方案,因为该方案几乎继承了Web管理的全部优点,特别适合规模较大的网络;而嵌入式方案更适合规模较小的网络。如果能够将两种方案根据不同情况混合使用,效果会更理想。

2.3 基于移动代理(Mobile Agent)的网络管理

移动代理实际上是一个执行程序,这个程序可以自主地在网络各个节点之间自由移动,有权决定在任意节点驻留并利用该节点的资源完成特定的任务,最后返回结果,其结构模型如图2所示。它是集成了面向对象技术、软件代理技术和分布计算机技术的新型管理策略技术。它包括中心网管、移动代理和被管节点三部分。其中,中心网管负责生成派遣移动代理,并处理返回结果,它是移动代理的管理者;移动代理负责节点之间的移动并返回结果;被管节点负责接收代理的调用。

移动代理技术是基于移动代理(Mobile Agent)的网络管理的核心技术,它包含了诸如:路径迁移、通信机制、安全体系等新兴技术。

由于移动代理对节点管理的特殊性,MA即可驻留一个节点,又可移动到另一节点,所以网路管理任务不会因网络连接故障而中断。

2.4 基于主动网络技术(Active Network)的网络管理

主动网络技术提供并规范了用户和网络之间的接口,将用户数据和一段程序封装在分组中,并在网络节点上运行分组中的程序同时改变节点状态,使网络与之相适应,动态扩展及灵活性是其主要特点。

节点在以主动网络技术为基础的网络管理中占有核心位置,其结构、行为、属性会随着网络的改变而随之发生变化。如何突破传统集中式网络管理模式的瓶颈,使管理站和节点及其链路优化是值得深入研究的技术问题。

3. 结束语

针对不同规模和有特殊任务要求的网络,综合采用各种网络管理技术,特别是将移动代理和CORBA、Web相结合,大幅提高节点程序执行的稳定性,缩短节点之间和节点与管理站处理返回结果的时效性,最终达到简化网络管理、降低使用、运行和维护成本,同时提高网络的灵活稳定扩展性,是我们考虑的重点和研究的方向。

参考文献

[1]张云勇.移动.Agent及其应用[M].清华大学出版社,2002.

[2]房鼎益,周兴社,康继昌.分布式系统研究进展[J].微电子学与计算机,2000,(6).

分布式网络故障管理篇8

随着互联网络规模不断扩大,大数据、云计算、工业互联网等互联网新技术不断深入日常生活的同时,各种网络攻击、敏感信息泄露等恶意信息安全事件也频繁发生。国家互联网应急中心调查显示,2015年涉及重要行业和政府部门的高危漏洞事件增多,基础应用或通用软硬件漏洞风险凸显,安全形势更加严峻。

为了不断应对新的安全挑战,各个中大型企业和组织先后部署了防火墙、UTM、IDS、IPS、漏洞扫描系统、防病毒系统、终端管理系统、WAF、DB-AUDIT以及安全监控平台等,构建起了一道道安全防线。然而,这些安全防线都仅仅抵御来自某个方面的安全威胁,形成了一个个“安全防御孤岛”,无法产生协同效应。更为严重地,这些复杂的IT资源及其安全防御设施在运行过程中不断产生大量的安全日志和事件,形成了大量“信息孤岛”。有限的安全管理人员面对这些数量巨大、彼此割裂的安全大数据,操作着各种产品自身的控制台界面和告警窗口,显得束手无策,工作效率极低,难以发现真正的安全隐患。因此,面对目前这种复杂的网络环境以及海量的安全数据,本文提出了一种基于大数据分析的分布式网络安全管理平台的设计方案。

1 关键技术概述

1.1 大数据安全分析

目前,大数据与安全分析技术的结合成了信息安全市场的热点话题,并且大数据分析在网络安全与信息安全也取得了一些成果。特别是利用大数据分析技术来发现和甄别风险和漏洞。通过大数据分析技术,我们可以分析大量的潜在安全事件,找出他们之间的关系,从而勾勒出一个完整的安全威胁。不仅如此,通过大数据分析技术,还可以将原本杂乱无章的分散数据整合起来,从而为安全人员采取更加主动的安全防御手段提供依据[1]。

1.2 Storm

Storm是一个开源的、大数据处理系统,与其他系统不同,它旨在用于分布式实时处理且与语言无关。Storm主要是为了解决来源为高度动态的实时信息的问题而提出来的。Storm与其他大数据解决方案不同之处在于它的处理方式。Hadoop在本质上是一个批处理系统。数据被引入Hadoop文件系统(HDFS)并分发到各个节点进行处理。当处理完成时,结果数据返回到HDFS供始发者使用。Storm支持创建拓扑结构来转换没有终点的数据流。不同于Hadoop作业,这些转换从不停止,它们会持续处理到达的数据[2]。

1.3 Elastic Search

Elastic Search是一个基于Lucene构建的开源分布式搜索引擎,具备高可靠性。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful Web接口。Elastic Search是用Java开发的,并作为Apache许可条款下的开放源码发布,支持时间索引和全文检索[3]。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便[4]。

1.4 Hbase

Hbase即Hadoop Database,是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式[5]。

1.5 Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群机来提供实时的消费[6]。

2 基于大数据的分布式网络安全管理平台设计

2.1 平台架构设计

如图1所示,平台设计按照数据处理的流程分为5个层次,数据源、数据收集、数据预处理及存储、数据分析以及数据展现。其中数据源为网络安全分析系统的最底层,作为整个系统的输入,原始数据源包括来自核心交换机的镜像流量、Net Flow、安全设备Syslog日志(防火墙、IPS、IDS等安全设备)以及其他安全监控系统的告警数据等,除此之外,数据源还应包括信息网络中所有资产的配置信息(如资产库)与外部情报(如漏洞库、病毒库、信誉库等)。

输入的数据按照不同种类进入到数据收集层,采用分布式数据收集组件Flume对非结构化数据进行收集,收集到的数据暂时缓存到Kafka组件中以便后续数据处理使用。结构化数据通过Webservice进行收集,并存储到My SQL中。数据预处理及存储层采用流计算组件Storm对收集到的数据进行预处理,包括数据标准化、数据去重、数据加强等。数据存储包括结构化存储和非结构化存储两部分。数据分析层主要包括大数据计算和大数据分析两部分。分析部分包括用图形化数据挖掘工具实现的可视化辅助分析、用Elastic Search和Lucense实现的数据搜索分析、用数据融合组件Candy对分散保存在各处的结构化和非结构化数据进行融合汇总分析。大数据计算部分包括Nana组件对离线历史数据的挖掘以及Storm组件对数据流的实时计算。数据展现层主要采用可配置图形分析工具提供丰富的可视化展示功能,包括当前网络安全态势以及一些预警信息展示等。

2.2 平台数据流程设计

网络设备、外部系统、原始流量分别采用syslog、webservice、sftp和netflow进行收集,收集到的数据通过flume或ftpd进行传输进入到数据处理队列kafka中,对于收集到的文件直接保存到HBase中。数据队列中所保存的为原始数据,数据队列进行本地缓存以便进行后续处理。

如图2所示,当数据进入到流计算中后,首先进行解析转换工作;之后按需要对数据进行加强,如补充资产编号、地理信息等;增强后数据创建索引保存到实时索引Elastic Search中,此时的数据量会有一定程度的增加,数据保存到HBase中进行长久保存;同时进行基于规则的告警触发,触发符合规则的告警。增强的数据按需要通过安全模型中定义的规则进行轻度汇总,轻度汇总产生的数据进入到HBase中进行保存,由于数据已经被处理过所以数据量会有一定程度降低;告警信息被触发后会产生告警数据,这些告警数据会保存到数据长久保存HBase中同时在展示层进行告警处置。另一部分增强的数据会进入到机器学习模块中进行自动化分析,通过此模块实现更为智能的安全关联分析,机器学习的结果进入到HBase中进行保存,由于数据已经被处理过所以数据量会有一定程度降低。

机器学习是目前国际较为先进的技术,通过机器学习实现人工分析难以完成的目标。常见的机器学习算法有聚类、梯度下降、K均值等,这些算法的使用能够极大的帮助分析人员找到数据中的详细点或更快捷的进行数据挖掘。

情报系统产生的数据直接保存到结构化数据My SQL中。当进行重度汇总时,通过Candy将HBase、Nana、My SQL进行融合处理,将重度汇总后的结果保存到HBase中。

可配置图形分析工具提供索引查询、汇总显示、告警处置、威胁预警等信息的展示。

3 实验测试

3.1 实验拓扑和参数

基于大数据的分布式网络安全管理平台采用B/S架构,支持集群方式的集中部署、统一管理。实验通过在隔离的实验环境中进行测试,如图3所示,Node1~Node11、模拟日志采集器和模拟流量发送器均接入一台交换机组成局域网,IP地址为192.168.1.11~192.168.1.21,其中Node1~Node11组成大数据集群和分布式存储,Node1和Node2为主备管理节点,Node3~Node9为数据存储节点,Node10为大数据集群总线调度节点,Node11作为大数据分析平台前端展示节点;模拟日志采集器利用已有的日志样本模拟生成海量的日志数据人工导入日志采集器,并使用PC模拟发送网络流量。

实验所用服务器均为高性能服务器,其中分布式网络安全管理平台由11个服务器节点组成,日志采集器使用1台syslog日志采集服务器,流量模拟器用1台PC进行模拟发送数据包。实验测试设备参数如表1所示。

3.2 实验结果

3.2.1 大数据查询检索实验结果

所示的拓扑完成大数据集群和分布式采集器的网络配置,并在大数据集群中预先导入10亿条以上的数据。

(1)等值查询

数据中精确检索一个时间点的访问记录,例如检索时间点为2014年8月24日13:31:51的DNS数据,不添加其他任何条件进行检索,查询出全部符合条件的的数据,并且查询出结果仅耗时204ms。

(2)范围查询

数据中检索一个时间范围的记录,例如设定时间范围为2014年8月24日13:31:51到2014年8月24日14:31:51,不添加其他任何条件进行检索,查询出全部符合条件的的数据,并且查询出结果仅耗时147ms。

(3)关键字查询

数据中查找对某个host的访问记录,例如设定关键字为qq.com,不添加其他任何条件,查询出符合条件的数据,并且查询出的结果仅耗时225ms。

3.2.2 大数据关联分析结果

平台中预置关联分析规则,规则为120s之内接收到5条登陆失败日志生成一个安全事件。做如下几种情况的模拟实验:

①用流量模拟器模拟发送4条登录失败的日志,等待120s之后,在管理系统中查询。在检索结果中未发现安全事件。

②先用流量模拟器模拟发送4条登录失败的日志,等待120s之后,再用模拟器发送1条登录失败日志,在关联分析结果中进行检索,并且在检索结果中未发现安全事件。

③先用流量模拟器模拟发送4条登录失败的日志,在120s之内,再用模拟器发送1条登录失败日志,在关联分析结果中进行检索,并且在检索结果中发现1条安全事件。

4 结束语

数据爆炸式的增长,海量的多源异构安全数据给传统的安全管理平台带来前所未有的挑战,主要是体现在数据采集能力、数据分析能力、安全告警精度等多方面,本文采用大数据的安全分析的手段,结合HDFS、Storm、Elastic Search、Hbase、Kafka等多种开源分布式组件,实现了基于大数据的分布式网络安全管理平台,并通过内置关联分析规则,大大提高了海量安全数据的分析能力与精度,不但解决了传统安全管理平台的数据管理和分析处理压力,而且通过采用分布式部署的方式,提高了平台的可扩展性。

参考文献

[1]zeon,大数据安全分析的6个要点[EB/OL].(2014-07-17).http:∥www.aqniu.com/industry-case-study/3625.html.

[2]Tim Jones M.使用Twitter Storm处理实时的大数据[EB/OL].(2012-12-05).http:∥www.ibm.com/developerworks/cn/opensource/os-twitterstorm.

[3]Elastic Search[EB/OL].http:∥baike.baidu.com/link?url=Iixquh AAKlh Xw0En1j KFg D99-VO4Xn23z M7Zr1ON_j ENRe Fj_nv N-73lRBns IL-Xov Mjc M-pc Dm SZvp J4aRi Kha.

[4]分布式搜索引擎Elastic Search[EB/Ol].http:∥www.oschina.net/p/elasticsearch/.

[5]Hbase.http:∥baike.baidu.com/link?url=vqg Il Bncb IHNQz QMaHi4h Hd GYGz4QFJX7W2l EWx Od CQXe_g DRF2mRMoekh7a AM8-t8Gmy XZ2kf I4A9AR7J0d USa.

分布式网络故障管理篇9

关键词：SNMP协议,分布式网络管理系统,应用研究

在人们的生产生活中,计算机及其网络的激增,带来了与之配套的网络管理技术的大幅发展,以往的集中式的网络管理是通过集中式管理系统建立数据体系和信息共享机制,集中安装在一台服务器上,实现共同操作、共同使用。这样管理信息集中汇总到管理节点上,容易造成信息流的堵塞,如果某管理节点发生故障会影响全网的正常工作。由此,开发分布式网络管理系统已成为新一代网管系统开发的方向。它可以实现分部门的管理:即限制每个用户只能访问和管理本部门的部分网络资源,而由一个中心统一进行全局监管。

在当前的网络管理中,主要存在2 个大的标准体系:一个是OSI的CMIS与CMIF,即公共管理信息服务和公共管理信息协议;另一个是IETF的SNMP即简单网络管理协议。在实施过程中,CMIF因为复杂的实现结构、庞大的数据结构且在运行过程中往往会占用较多的硬件资源,它的研究进展非常缓慢,还没有形成完整的产品体系。相比较而言,SNMP更容易实现,广大的网络厂家也更青睐起点较低的TCP/IP应用基础,发概述展十分迅速。

1 分布式网络管理系统的

分布式网络也叫网状网络,它是由分布在不同地点的计算机系统互连而成,网络无中心节点。通信子网是封闭式结构,通信控制功能分布在各节点上。其特点是:可靠性高;网内节点共享;可改善线路的流量分配;可选择最佳路径,传输延时小。

局域网络通常只有总线型、环型、星型和树型网络四种,在实际组建局域网络时,拓扑结构不一定是单一的,通常是这4 种拓扑结构的综合利用,特别是局域网络互连技术得到大力发展开发后,会出现某种拓扑结构的复合形式。而分布式网络常是广域网采用的拓扑结构。

集中的网络管理存在很大的自身诟病,为解决这一问题,研究出来分布处理的解决办法,即将集中的网络管理通过网络下放到各个运算单元进行分布处理,处理的结果再提交给某个控制单元进行汇总。这样虽然结局了集中管理的漏洞,但是新的问题会出现:在同一时间的同一任务将并行出现多个网络管理者,这就需要各个网络节点在工作中执行统一的网络协议,让网络管理有效而不处于混乱的组织状态。

在设计分布式网络管理时,加入了一个子管理控制单元的概念,实现分层、分布的管理方法,给上级管理控制单元让出更多的硬件空间。让每一个子网域隶属于一个子管理控制单元,他们共同与一个管理信息库(MIB)相关联,这些类似于书目的MIB与上级及其上上级管理控制单元的MIB在初始的网络设置下可以为相同的内容,一旦网络开始进入工作状态,每一个子网域的MIB只能在其所辖的网络区域内管理和传输信息、数据,得到的结果再汇总到上级管理控制单元的MIB中,以此类推,上级的MIB再往其上级的MIB汇总。采用这种优化是分布、分层的数据处理、汇总方法,大大减少了网络中的数据传输量,减轻了网络数据通讯负担;同时,在通讯协议和错误的传输校验控制下增加了系统的可靠性,极大的使整体网络管理的效率得到提升。这种由上级统一协调下级的管理模式在增加网络节点的情况下更容易使后者与前者进行衔接。

分布式网络管理把一个管理任务分散到网络上的若干个节点,每个节点就是一个独立的子管理系统,把每个节点收集的管理信息汇总上传至上一级,实现分布式管理。我们以分布式阈值检测举例说明分布式管理,在生产过程中,部分网络设备供应商直接在网络设备中内置携带SNMP软件的模块,这一模块就能起到把分布式阈值监测任务下发到子管理控制单元的功能,除了SNMP软件,还有的系统把计算机网络管理软件系统内增加支持远程监控的工具RMON,这样,子管理系统就能独立的完成数据的收集诊断和性能自调节,还可以进行数据的特定校验。带有分布式功能的RMON具有增强了中心网络管理系统的能力,具备监控局域网网段和收集的能力。另外,这种自动调节的自诊断管理模式、人性化过滤、逻辑运算等功能可随着网络协议的变更来自动调节系统性能和主动防御的自动更新,减轻管理负担,降低了数据传输的负荷。

2 SNMP协议

SNMP, 即简单网络管理协议, 是Simple Network Management Protocol的缩写,是一个主要用来管理网络上结点的协议,由一组网络控制管理的标准组成,所含内容为:一个应用层协议、一个数据库模型和一组资料数据。该协议可以用来支持网络管理系统,实时监控任何已连接至网络上的硬件设备有没有信息要与管理系统进行交换。

SNMP在使用过程中,同时被管理的系统可以有很多,并且还受一个或多个其他系统管理。在每一个被管理的子系统上镶嵌了名称为代理者(Agent)的控制程序,次程序可以通过SNMP向管理系统传输汇总数据。

在数据传输过程中,SNMP代理者将会以变量来传输汇总数据,上级管理者通过以下协议来接受信息:GET、GETNEXT和GETBULK协定,另外一种情况是代理者可以主动的传输协议,这种有别于应答传输,此时将使用TRAP或INFORM协议来回报数据。管理系统也可以通过传输协议数据来远程控制子管理系统,通过过SET协定可以实现上述目的。当网络上有新的硬件加入或者有新的结构改变时,配置和控制指令才由管理系统向下传达,但是监控指令则是实时传输指令,以检测整个网络系统的变化情况。

3 内嵌SNMP协议分布式网络管理系统的构建

时至今日,基于SNMP模板的分布式网络管理方案占据了市场上同类型的网络管理的大部分份额,且能在各项差异的网络环境中实现其强大的功能。SNMP管理站与代理进行数据互访是先从管理站发出一个需求请求,一直到代理把对应的请求内容呈现给管理站,这样就形成一个完整的通信。SNMP通信是由无连接协议UDP来约束的,这就需要上级子系统通过重复发送,无应答回馈、报文加序等方式来保证SNMP报文的内容可靠性。

SNMP规定了5 种协议数据单元PDU,即SNMP报文,对应5种不同的消息回馈,实现管理进程和代理之间数据信息的交换。

Get Request: 从代理进程处得到一个或一组信息。Get Next Request: 从代理进程处得到下一个参数值。Set Request: 设置代理进程的一个或多个参数值。Get Response:返回一个或多个参数值。

Trap:代理进程向管理系统非应答模式下主动发出的报文,让后者知道发生了一些关联事件。

在SNMP发送报文过程中,可以将多个类似使用规则的命令同时用一个报文发出,若管理站需要某个代理的一组标量对象的值,那么管理站就给这个代理一个消息请求来发送有关的所有值,代理就可以以应答传输模式传送请求的数据内容,节省了网络管理的资源。

4 结语

【分布式网络故障管理】推荐阅读：

故障电压分布12-05