网管故障数据采集专题(共3篇)
网管故障数据采集专题 篇1
网管日常工作
一:1楼机房检查,主要是服务器运行状态和接口机的保持开机状态,每天至少观察2次。
二:每天检查客房,1层楼,住客多的话2层楼,主要是客用电脑的正常运行、能上网,弱电井的交换机运行状态。
三:用友服务器、1楼机房的卫生打扫,主要是电脑上的灰尘。保持机房的干净和室内气温的稳定。
四:上、下午(都在5点之后)各一次共2次的数据备份,备份在用友服务器上,西软每次2个文件,洗浴每次1个文件。
五:晚上十点以后再巡查办公区域弱电井的交换机运行状态,保证第二天办公的运行正常。二楼浴场网吧巡视。
六:及时了解酒店各个电脑及交换机的运行状态,做好应急准备,网络出问题了及时解决。交接班工作做好。
网管
网管故障数据采集专题 篇2
数据业务通过传输设备承载,虽然可以很好地保证数据传输的服务质量(QoS),但是数据业务的故障定位不能像处理2M故障(即2 Mb/s线路故障)那样做环挂表测试来分段定位,这给数据业务日常维护工作带来了一定的困难。传统的数据业务故障处理方法是由两端现场维护人员利用笔记本电脑对拼,确定数据业务是否正常工作,如出现故障,只能是尝试性地更换设备,而无法定位故障区段并针对性地处理,造成故障不能及时有效地恢复。可见,传统方法不但费时费力,而且效率不高。为了提高故障的处理速度,减少现场维护人员的工作量,本文介绍了利用传输网管查看数据包性能、时隙环回和VCTRUNK(虚拟传输通道)测试等方法,由网管人员直接对数据业务的故障定位与测试。
1点对点的业务
1.1查看数据包性能的数据业务故障定位
通过传输网管查看数据包性能数据确定有无收发数据,可以很好地定位数据业务故障。图1为数据业务开通示意图。通过在以太网端口查看数据包性能数据确定有无收发数据,可以定位是传输内部问题,还是对接数据通信(简称数通)设备的问题。如果在A端以太网端口只有发数据而无收数据,说明对接数通设备到以太网单板之间存在问题,此时可以要求用户处理可能有问题的对接数通设备,实施故障排除。如果在A端以太网端口只有收数据而无发数据,说明A端的对接数通设备到A端的以太网端口之间无问题,问题出在A端的以太网端口到B端之间的对接数通设备上,此时可通过查看B端的以太网端口数据包的收发数据判断故障位置;如果B端以太网端口有收数据和发数据,说明故障点在传输内部,此时可通过做MAC环回、时隙单向环回确定故障属于传输的哪一部分;如果B端以太网端口无收数据有发数据,说明故障点在B端对接数通设备到以太网单板之间的问题。
通过华为RMON性能测试软件可以查看以太端口收发数据包。图2为华为RMON性能测试结果,可见以太网端口接收速率和发送速率均有数值,说明以太网端口与对接数通设备通信正常。对该以太网端口环回,端口接收速率和发送速率如果相同,则说明该端口到环回点通信正常。通过中兴设备性能测试软件可以查看以太网单板性能测试数据。图3为中兴设备性能测试结果,可见以太网单板性能测试数据,通过接收字节数和发送字节数判断故障位置,有接收字节数和发送字节数,说明以太网端口与对接数通设备通信正常。通过格林威尔6300设备性能测试软件,既可以查看以太网单板对数据通信的收发数据的情况,还可以查看虚级联端口的收发数据的情况。图4为格林威尔6300设备性能测试结果,可见虚级联端口的收发数据的情况反映图1中A端以太网单板与B端以太网单板通信情况,有接收客户字节 数和发送 客户字节 数,则为通信正常。
1.2传输内部故障定位
通过数据包性能数据查看端口有无接收发送数据,可以定位是传输内部还是外部的故障。如果是内部故障,不同的设备需要采用不同的方法准确定位故障位置。如果数据业务全程均为华为设备,可通过华为设备提供的VCTRUNK测试软件,测试对应的VCTRUNK有无问题。图5为VCTRUNK测试结果,如果测试有问题,可通过将路径上的时隙拆开,做单向环确定故障位置;图6为做单向时隙环回图,如果测试没问题,VCTRUNK没问题,应该考虑以太网单板的故障。如果数据业务一端为华为设备,一端为格林威尔6300设备,可以通过格林威尔虚级联端口做环,图7为格林威尔虚级联端口环回图。如果数据业务全程均为中兴设备,中兴设备测试软件中没有华为的VCTUNK测试功能,但可以采用插入TU_AIS告警来定位故障。如果在一端插入AIS告警,另外一端将会产生AIS,而插入告警的一端会产生RDI。通过告警的插入,再观察路径上告警出现的位置,可以定位故障,图8为中兴告警插入测试结果。
2点对多点的业务
点对多点的业务故障,可以分为汇聚点的故障和分散点的故障。对于汇聚点的故障,可以在汇聚点查看数据包性能。如果有发数据无收数据,则说明是对接数通设备到以太网单板的问题,可能是对接数通设备问题,此时可以要求用户处理对接数通设备问题。如果只有收数据无发数据,则说明问题出在汇聚点,可能是以太网单板不好或者配置不对,此时可以先检查TAG属性和工作模式,没有问题的话,则更换单板。对于单个分散点的故障,可以在分散点查看数据包性能。如果有发数据无收数据,则说明对接数通设备到以太网单板的问题,可能是对接数通设备问题,此时可以要求用户处理对接数通设备问题。如果有收数据无发数据,说明问题出在传输内部,此时可以通过时隙向单个分散点环回的方法确认故障点。
3总结
网管故障数据采集专题 篇3
电力通信系统是电力信息化业务的运行离不开的传输网络平台,电力通信系统通过其网管对电力信息化业务通道进行监视和管理[1,2,3,4,5]。网管系统一般包括服务器、客户机/ 图形用户接口、打印机以及数据通信设备(如集线器、网卡、路由器、调制解调器等),其软件平台支持开放性操作系统[5]。电力通信广泛采用的传输网络是同步数字体系(Synchronous Digital Hierarchy,SDH) 网络。SDH具备很强的网络管理能力[6],其帧结构中具有丰富的开销字节可用于网络运行的管理和维护,这使得借助计算机软件技术对SDH传输网络进行全方位的管理[7]成为可能。
国网娄底供电公司的电力通信SDH传输设备采用的是深圳泰科公司生产的Tellabs 63 系列设备,传输节点的管理基于NM6300 网管系统。NM6300网管系统提供了依照ITU电信管理网络模型开发的综合网元及网络的管理平台[8],通过网管软件可实现网管中心工作站集中管理与本地维护终端单网络节点调试服务相结合的管理方式。
1 国网娄底供电公司通信网络及网管现状分析
1.1 现状及问题
目前,国网娄底供电公司电力通信光传输网主要以链形、环形和树形组合而成,主要覆盖4 个县公司和1 个城区,网络结构较为复杂。娄底地区地网SDH设备由调度大楼中心站NM6300 网管进行统一管理,内容包括设备故障告警显示、网元初始化配置和状态监视与控制、各性能参数的管理、SDH通道时隙配置和数据储存。
NM6300 网管的页面响应时间决定了网管操作、查看网元告警和网元配置的效率[9]。各类网管操作所需的页面响应时间及网元类型见表1 所列。
一般来讲,网管页面正常响应时间为3~10 s,由表1 可知,10 次网管操作中有7 次操作异常,其中1 次是网元业务量过大造成的,1 次是人为误操作造成的,5 次是页面响应时间超时造成的,而且这5 次超时还导致了网管死机。SDH网管频繁出现异常现象,严重影响了网管日常操作和监视。
1.2 原因分析
以上10 次网管操作中出现的5 次导致死机的操作,均表现为页面响应时间超时,经过分析,发现网管运行速度缓慢的原因如下。
1)设备老旧。NM6300 网管客户端电脑运行时间已有8 年,且多年来一直处于运行状态,设备老化现象严重,硬盘、内存运行处理速度缓慢,电源模块老化故障,已多次进行更换。
2)网元数量多。NM6300 网管远端维护管理娄底地区通信站120 个,共计网元136 个。对于网元级网管来说,管理上限为140 个等效网元,当所管网元数量趋于饱和时,网管系统程序运行速度缓慢,枢纽网元无法打开而导致出现死机现象。
3)网络结构复杂。SDH传输网中一个通信站点可能有多台SDH光端机,在网管上一个站点可以存在多个网元,由于网络的复杂性,一个网元又有可能是多个环网的节点或枢纽。核心骨干环网上承载业务时隙交叉多,网络建设初期未考虑到网络发展的需求,规划不合理。
2 国网娄底供电公司通信网络优化方案
基于以上原因分析,文章采用了更换网管硬件客户端和子网划分的方法来解决网管运行速度缓慢并导致死机的问题,以提高网管运行稳定性。
2.1 子网划分原则
1)根据泰科传输网管的特性及要求,每个子网最好不超过80 个等效网元[3]。
2)子网的网元数量均衡,以使网络结构更加合理。
3)根据通道保护环原理,划分后的子网必须具有完善的子网连接保护(Sub Network Connection Protection,SNCP)通道保护。
4)子网划分过程不能影响现有网络的正常运行。
2.2 子网划分方案
调度大楼中心站NM6300 网管接入方式为:1 台型号为6350 的SDH光端机和1 台型号为6340的SDH光端机分别接至网管服务器。通过这2 台光端机将网络划分为2 个子网,即6350 光端机接子网1,6340 光端机接子网2。子网划分前网管连接方式和子网划分后网管连接方式如图1、图2 所示。
3 国网娄底供电公司通信网络改造方案实施过程
3.1 更换网管客户端设备
将客户端电脑更换为联想Think Centre M8400tN000(I7-3770 内核,4 GB内存,1 TB硬盘,符合网管客户端硬件系统标准)并安装好相应系统和客户端软件。
NM6300 网管SUM服务器安装时并未配备移动硬盘,所有数据定期备份在服务器内置硬盘上,一旦服务器崩溃,数据将无法还原,因此,为了保障本次数据备份的完整性和可靠性,采用了双机备份机制并新增1 个外部移动硬盘用于备份外部数据。移动硬盘容量为1 TB,直接连接在SUM服务器上。
更换网管客户端电脑前后网管运行速度效果比对情况见表2 所列。
3.2 子网划分
3.2.1 安装子网划分所需的设备
根据子网划分方案,网管接入方式需要新增的设备有:支持OSI协议栈的路由器1 台,推荐CISCO 3560 三层交换机;24 口交换机1 台;带BNC接口的HUB集线器1 台;自制网线若干。
按照图2 所示的连接方式将SUM服务器连接至24 口交换机,将交换机级联至路由器,将路由器分别与中心站SDH光端机6350 设备和6340 设备的网管通道MPEG接口相连。
3.2.2 网管版本升级
因为现有网管版本为Tellabs6300_V.3.0.0,不支持子网划分,所有网元的网络号统一为490001,所以首先在SUM服务器上用移动硬盘对现有网管数据进行数据备份,再将网管版本升级Tellabs6300_V.3.1.0。网管版本升级由厂家的专业工程师进行操作,其他人禁止擅自更改网管参数。
3.2.3 划分子网区域
目前,娄底地区NM6300 网管覆盖的网络结构为:西部2.5 G环网,娄星区2 个622 M环网,双峰、涟源、新化、冷江地区本地622 M环网。
根据各地区地理位置和网元数量,本着均衡的原则,将现有网络划分为2 个子网。
1)子网1 :业务汇聚量大的节点为豹南山变、早元变,核心节点为调度大楼,因此这3 个节点适合与业务量不大的涟源、新化、冷江地区本地环网网元划分到同一个子网,覆盖涟源、新化、冷江地区本地622 M环网和西部2.5 G环网。
2)子网2 :娄星区核心业务以及省网三级骨干网重要业务在娄星区622 M、155 M环网上,因此将娄星区环网网元和双峰本地环网网元划分到同一个子网,覆盖娄星区622 M、155 M环网和双峰地区本地622 M环网。
子网1 如图3 所示:6320 设备、6325 设备、6340 设备共59 套,6345 设备7 套,6350 设备1 套,总共67 个网元。大楼6350 设备接至网管路由器,网管已形成保护,也可考虑在锑都变、杨家滩变做2 M的DCN,使得网管可以多路由保护。
子网2 如图4 所示:6320 设备、6325 设备共58 套,6340 设备10 套,6350 设备1 套,总共69 个网元。大楼6340 设备接至网管路由器,网管通道形成保护。
3.2.4 更改网元地址
原有网络的网络号只有一个,即490001,现将网络划分后,属于子网1 的网元地址的子网号延用原有的490001,子网2 网元地址的子网号为490002。更改网元地址的方法如下:
1)在NM6300 网管安装软件的文件夹中,找到ositp4 文件夹,用记事本方式打开ositp4 配置文件。
2)将ositp4 配置文件中的NSAP所显示的网段号由490001 改成490002。
3)双击ositp4 文件夹中的tp4fcg文件,表示进行批量处理这些网元。
4)先双击ositp4 文件夹中的stoposi文件,停止osi进程;再双击ositp4 文件夹中的starposi文件,激活osi进程。
5)单个网元软件复位后,地址网段更改生效。
今后新上SDH光端机的网元地址严格按照子网划分方案区分,若地址设置错误,则无法对网元进行远程监控和配置读取。
网管稳定性能监测,对网管操作类型数量和是否页面响应超时,网管死机情况进行汇总分析,情况见表3 所列。
由表3 的汇总分析可知,网管页面平均响应时间为6.5 s,死机率为0%,页面平均响应时间大大缩短,网管无死机现象发生。
4 结语
通过本次网管升级改造以及网络优化,有效提高了SDH网管运行稳定性。NM6300 网管硬件改造后,为网管系统软件运行提供了可靠、安全的操作平台,减少了设备不稳定因素,降低了网管无故死机的风险。改造后的网管,页面响应时间缩短,系统维护管理人员能在最短的时间内查看设备告警,分析查找网络故障,缩短了故障处理时间。通信专业作为保障电力安全生产的技术支撑,提高及时处理故障能力和日常维护能力,为电力生产管理及办公提供可靠优质的服务。
参考文献
[1]缪巍巍,吴海洋,贾平,等.时间同步在电力通信传输网管网中的应用[J].电力信息与通信技术,2015,13(12):14-18.MIAO Wei-wei,WU Hai-yang,JIA Ping,et al.Application of time synchronization system in power communication DCN[J].Electric Power Information and Communication Technology,2015,13(12):14-18.
[2]李洋,郭晋祥,吕旭东,等.ASON在山西电力地区骨干传输网的建设模式探讨[J].电力信息与通信技术,2015,13(12):40-44.LI Yang,GUO Jin-xiang,LV Xu-dong,et al.Discussion on construction mode of ASON in Shanxi power regional backbone transmission network[J].Electric Power Information and Communication Technology,2015,13(12):40-44.
[3]程晓荣,苗云,李紫君.基于D_S证据理论的电力通信传输网风险评估[J].电力信息与通信技术,2016,14(2):76-80.CHENG Xiao-rong,MIAO Yun,LI Zi-jun.Risk assessment of power communication transmission network based on D_S evidence theory[J].Electric Power Information and Communication Technology,2016,14(2):76-80.
[4]何玉钧,张文正,陈冉,等.基于文本信息提取的电力通信网业务信息管理系统设计[J].电力信息与通信技术,2015,13(9):87-93.HE Yu-jun,ZHANG Wen-zheng,CHEN Ran,et al.Design of information management system based on text information extraction for power communication network service[J].Electric Power Information and Communication Technology,2015,13(9):87-93.
[5]国家电网公司人力资源部.电力通信:上[M].北京:中国电力出版社,2011.
[6]孙学康,毛京丽.SDH技术[M].北京:人民邮电出版社,2012.
[7]吴新平.电力通信传输网络管理系统应用[J].电力系统通信,2009,30(11):34-38.WU Xin-ping.Application of network management system in power communication[J].Electric Power Information and Communication Technology,2009,30(11):34-38.
[8]ITU-T G.841.SDH网络保护机制形式和特性[S].1998.