集中化运维

2024-08-29

集中化运维(精选5篇)

集中化运维 篇1

在新的市场环境与企业经营环境下, 提升端到端业务质量的管控能力、客户的差异化服务能力、运维综合效益等需求驱动着运营商网络运维转型。

“近年来通信发展日新月异, 传统语音与信息通信逐步向综合信息服务领域扩展, 新技术新业务层出不穷, 给传统的通信网络运维工作带来了新的机遇和挑战。”在近期由中国通信企业协会通信网络运营专业委员会主办的“第九届中国通信网络运维年会”上, 工信部电信管理局副巡视员张迎宪表示。

据了解, 本届大会以“提升维护服务水平助力宽带中国战略”为主题, 来自政府、三大运营商的高层, 以及华为、艾默生等产业链代表就当前通信行业网络运维发展进行了深入探讨, “集中化”运维成关注焦点。

工信部:2014年两方面发力运维

近年来, 随着信息通信技术进步和网络业务融合发展, 电信基础运营企业面向客户的运营转型对通信网络的承载能力、业务响应能力和用户服务能力不断提出挑战, 通信网络运行维护水平和运营服务水平直接影响基础电信运营企业的未来发展。

业内人士分析, 在此新形势下基础电信运营企业面临着来自行业内外的不断挑战, 对整个行业产生着深远的影响, 如何在新形势和新挑战下提升运维服务, 是每个从业者面临的共同课题。

对此, 张迎宪表示, 2014年工信部将在原有的工作基础上, 着重开展两方面的工作。一是了加强互联网的质量监管, 提升互联网通信质量, 工信部将借助部省两级的管理体制, 增设国家级互联网骨干直连点, 提高网间流量疏导能力和互通效率, 加强网间带宽扩容力度, 解决互联障碍, 改善网间通信质量, 以加快宽带发展的进程。

二是为了加强网络的运行安全, 提升维护服务能力, 将健全电信信息安全保护管理制度, 落实公用电信设施保护的安全等级要求, 提升公用电信设施安全的保护能力。

中国联通:在江苏、山东进行试点

“移动互联网开放、共享、即时的特征及其集中化、扁平化、一体化的业务要求, 对传统网络运营商封闭的、分散的、职能化的管理模式带来了巨大挑战, 业务、服务、网络转型已全面来临。”中国联合网络分公司运行维护部副总经理崔荣春如此表示。

据了解, 面对网络及业务、内部和外部对运维带来的挑战, 近年来国内外运营商都在积极探索集中化维护和贴近客户感知的运维转型。中国联通正积极推动集约化的运维体系和端到端服务体系的建立, 有效促进网络质量和运行维护效率提升。“我们已经在江苏、山东开展了集约化维护的转型试点, 探索建立集约化维护体系。”

崔荣春详细介绍, 中国联通的探索是推进以网络为中心到以业务质量和客户感知为中心的转型, 这需要在组织流程、优化评估体系、支撑系统、人员结构等方面协同推进, 才能真正实现落地, 并借此推动集约化的运维体系和端到端服务体系的建立, 有效促进网络质量和运行维护效率提升。

“集约化目标是实现总部和省为单位的集中化的运维管理体系, 与用户感受紧密相关的末梢网络属地化综合服务, 集中使用人、财、物等专业资源。我们要对南北方做区别对待, 最终目标达到综合维护, 重点使用我们主设备提供商来实现我们的目标。”崔荣春表示。

据悉, 华为等设备商均在发力运维市场, 助力运营商转型。华为全球管理服务市场营销总监马鹏英介绍, 卓越的运维需要运营商网络运维正确转型, 具体可从三方面着手, 即以用户为中心、集中化以及融合运维。

这样的建议来自华为多年积累的丰富运维经验。目前华为已在全球构建两个集中化运维中心, 管理超过20多个运营商网络和项目, 覆盖亚洲、非洲、欧洲等15个国家。

“服务是华为与电信运营商合作的战略, 过去数年中我们持续强化服务解决方案竞争力, 帮助客户从‘以网络为中心’的运维支撑能力向‘以客户体验为中心’的运营管理能力转身, 取得了很好成效。”华为全球技术服务部副总裁雷战奎此前曾表示。据悉, 过去七年中, 华为管理服务年复合增长率超过70%, 已成为全球增长最快的管理服务提供商。

中国电信:FTTH扩张面临运维挑战

在备受关注的FTTH网络建设方面, 中国电信集团公司网络部传输处处长汪海强表示, PON的引入不仅引起接入网的变化, 且城域网以及管理平台都需要进行革新;当前阶段, 运营商需要全力维护新旧两张网和相关管理平台;在网络组网、业务开通流程、维护方式等方面发生的巨大变化, 为运维工作带来新的挑战。

汪海强总结表示, FTTH给运维带来“三难”和“三高”, “三难”即现场维护难、自动开通难、故障判断难, “三高”即资源管理要求高、人员素质要求高和服务质量要求高。为了解决这些难题, 中国电信积极开展了集中管理、统一支撑的运维措施, 推动FTTH高效运营。

以PON设备的互通为例, 不同时期建设的网络, 由于技术、厂商配合、配置等方面的差异PON网络普遍存在互通问题。为此, 中国电信从标准、版本、配置等多管齐下, 建立从采购、建设、运维及技术标准等建立全流程的管控体系, 多部门、各层级协同操作, 集中问题收集, 统一测试, 统一解决方案。“目前影响EPON业务互通的问题基本得到解决, 影响GPON互通的问题逐步减少。”汪海强表示。

印尼XL实施SOC转型

印尼XL规划和实施网络运行中心 (NOC) 到业务运行中心 (SOC) 转型的组织、流程和支撑系统的演进, 横向上增强了网络部门、市场部门和客户服务部门的有效协作。最终, SOC支撑了客户感知的提升:用户投诉率下降了23%;数据业务定界能力得到极大增强, 问题处理时间 (MTTR) 缩减了49%。值得注意的是, 2012年初, 华为获得XL七年期网络管理服务合同。

集中化运维 篇2

移动互联网的兴起、普及, 使与其相关的衣、食、住、行方面的电子服务无处不在, 广大客户对通信网络的快速、稳定、安全要求空前提高。在4G规模化发展与移动万众互联的大背景下, 为使运营商更好地适应形势需要, 必须在有限的人力资源的情况下充分发挥组织效能优势, 以有效应对竞争压力。

2 组织效能提升的内涵与实践

效能是指事物所蕴藏的效用能量, 主要体现在能力、效率、质量、效益四方面。而组织效能则是指组织实现预定目标的实际结果。提升组织效能, 可以体现组织存在的价值, 进而完成组织使命。无论组织战略如何改变, 提升组织效能是不变的。组织效能的提升主要由三个要素决定:基本能力、创新能力、团队动力。其中, 基本能力是指组织中个人所具备的基本的创造价值能力, 包括工作的规范性、标准化程度等;创新能力是指组织中员工或团队创造新思想、新理论、新方法和新发明的能力;团队动力提升的主要因素包括个人动力、团队凝聚力和激励措施。某运营商通过在实践中的不断探索验证, 构建出了一套完整的组织效能提升理论体系 (SFIC) , 即标准化 (Standardize) 管理是基础、聚焦热点 (Focus) 是关键、激发潜能 (Inspire) 是核心、文化建设 (Cultural construction) 是保障。

2.1 实施标准化管理是组织效能提升的基础

采取多项标准化措施, 能够规范组织内部的管理与生产行为, 从而降低生产成本, 提升生产效益。

(1) 组织管理标准化

组织内部的标准化管理, 是标准化工作的第一要素, 通过规范员工的基本工作标准和行为标准, 可以达到提升整体人员素质的目的。其中, 行为规范包括工作纪律、仪表着装、工作礼仪、公共服务等内容, 工作规范包括会议组织、数据发布、材料编写、值班制度、信息沟通等内容。标准化工作规范中还包括每月制定部门、组室、个人层面的工作计划、总结和短板改善计划, 在不同层面查找差距与薄弱环节, 通过持续跟踪改善以使每名员工都能得到提高, 从自身与团队的进步中获得自我肯定与满足。

(2) 网络工作的前端标准化

某运营商实施集中化维护以来, 网络运维团队作为一个整体组织, 效能水平涉及全省17市分公司, 容易存在工作标准不统一、执行效果差异较大、缺乏闭环管理等问题。因此, 某运营商围绕网络维护工作范畴内的基础管理、网络维护、网络优化、投诉处理、综合调度等五大类12个专业28项内容, 制定了全省统一的工作标准, 实现了工作方法统一、记录格式统一、实施过程可控、工作目标量化, 消除了工作差异, 推动了整体效能提升。

2.2 聚焦热点是确保组织效能提升的关键

(1) 建立基于运维大数据的智能决策系统

某运营商基站数量超过15万个, 每天各类告警超过200万条, 关联分析后派给各级网络维护优化人员的工单数达1.2万条, 需关注内容繁多, 重要信息极易淹没在繁杂信息中。因此, 需要按照优先级进行有效的分级管理, 对各类问题从影响程度、频次、持续时间等维度进行综合评估, 自动筛选出紧急、重要的问题进行智能任务分派, 实现重点关注和优先处理。某运营商通过深入挖掘包括告警、测试、投诉、性能、信令等在内的网络运维大数据, 建立了多维度的病历卡管理系统, 据此开展网络智能决策管理的研究与实践工作, 以促进网络质量不断提高, 客户感知不断改善。智能决策系统如图1所示。

(2) 开展针对薄弱环节的专项活动

为进一步聚焦重点, 某运营商针对客户关注的网络问题、长期得不到解决的难点热点, 不定期开展攻坚克难活动, 取得了良好效果。譬如, 针对客户语音感知差的2G“重装再发”语音质量活动, 确定了“理流程、跑现场、享经验”工作流程, 从“提质量、增覆盖、降投诉、精维护”四个方面进行整治, 共完成127人次、855人天的地市现场优化, 累计解决疑难问题小区2047处;针对传输基础薄弱问题, 以“磐石·2015”专项活动为抓手, 实现传输网安全运行和运维能力双提升, 全面强化传输网对4G、集客、家客等业务的支撑能力;针对4G网络建设遗留问题, 开展4G维护优化攻坚战, 解决百天以上疑难问题235个, 全省4G最差小区比例由0.48%减少至0.28%。

2.3 激发团队潜能是组织效能提升的动力

某运营商的网络维护人员数量多, 各专业间工作差异大, 为持续保持部门活力, 充分调动员工积极性, 公司在定标准、打基础的同时, 采取多种措施, 鼓励员工积极参与企业的活动、决策。

(1) 敢想有为

鼓励员工基于日常的分析实践撰写、发布专题报告, 如重点工作汇报、专题分析、典型案例等, 使每名员工都得到展示自我的机会, 激发了员工在普通岗位上深入挖掘个人能力的热情。

(2) 活力奋“齐”

为营造积极向上、勇于争先的氛围, 某运营商采用内部结对子方式, 开展了“活力奋‘齐’”活动, 激励“奋起直追”, 做到“见贤思齐”, 实现“齐头并进”。

(3) “金点子”

发动员工, 围绕企业重点工作、日常网络维护优化、市场支撑、文化建设等内容, 群策群力, 集思广益, 借助微信平台发布网络“金点子”, 内容既可以是可行性研究、措施方案, 也可以是提高日常管理水平的一句话、一条建议, 鼓励所有员工阅读并发表意见。广大员工提出了一大批有价值、质量优的合理化建议, 收到了良好效果。

(4) 自主开发应用

提供数据共享平台、能力开放平台, 为自主开发创新创造条件。通过数据共享、数据开放、建立多维模型、开放常用程序代码, 降低开发门槛, 鼓励围绕大数据应用、网优工具集、维护小工具、手机APP等进行自主应用开发, 实现大众创新支撑。由组织创新培养的创新人才在自主开发创新平台上自主开发创新应用, 实现了持续创新能力在实际工作中的落地。自主开发、大众创新平台系统架构如图2所示。

2.4 文化建设是组织效能持续提升的保障

文化建设能够对组织整体和组织内成员的价值、行为取向起到引导作用, 对组织内员工的思想、心理和行为具有约束、规范作用, 给予员工多重需要的满足, 是缓解、释放员工压力的一种有效手段。

(1) 班组建设

按照“横向跨专业, 纵向到班组”的矩阵管理模式, 围绕重点工作推进班组建设, 创建高效维护团队, 提升整体技能水平。建立班组内部培训机制, 出台知识管理与知识共享制度, 充分发挥每个人的特长, 将日常工作案例、工作学习心得与同事共享。班组建设活动将团队提升与个人提升紧密结合起来, 员工的团队意识得到明显增强。

(2) 组织文化宣传

建立文化园地, 表彰岗位之星、先进员工, 宣传党建文化、典型案例。鼓励每个班组结合文化墙、光荣榜、留言簿等形式对各自办公区域进行软装饰, 张贴班组口号、警示语、班组重要工作和任务提醒等, 展现班组、员工愿景, 将部门文化贯彻到员工日常行为中。

(3) 网络训练营

以提升理论技能、实操技能、管理技能为目标, 组织开展网络训练营, 技术与管理相结合, 注重实战能力, 针对性设置培训方式、考核维度, 快速提高整体素质。训练营围绕3/4G技术、互联网、集客支撑、代维、传输技术热点, 建立培养体系;实行军事化管理, 重点提升单兵能力、团队能力;学赛结合, 加强闭环管理, 实施对组织成员的跨专业、分层培养;针对培训效果、作业、出勤情况进行综合考评。

3 主要创新点

(1) 建立全方位的激励体系

如图3所示, 某运营商为激发员工活力, 结合美国行为科学家爱德华·劳勒、莱曼·波特的“综合性激励理论”, 建立了激励奖励体系, 从文化激励、示范激励、荣誉激励、物质激励、惩罚激励等维度全方位激发员工创新积极性, 通过敢想有为、金点子、活力奋“齐”等活动鼓励员工立足岗位, 积极主动地参与各项创新, 打造活力团队。

(2) 建立基于大数据的智能决策系统

某运营商主动将运维模式从单纯的告警故障解决向消除问题根本原因转变, 维护工作由面向网络转向面向客户体验, 建立了基于大数据的智能决策系统。通过掌握网络历史生病规律, 实现网络问题从现象到根源的聚焦, 高效定位影响用户感知的真正问题, 对可能发生的问题进行预判, 通过四象限分级管理, 对重要、紧急问题自动派发任务, 聚焦重点问题, 提升管理成效。

(3) 创新开发P++系统支撑工具, 提升标准化管控能力

为提升组织的标准化管控能力, 将“项目管理”“工单管理”“作业计划管理”有机结合, 形成P++管理思路, 打造系统支撑工具, 实现“定目标、抓关键、强过程”的闭环管理, 强化全过程的信息化、规范化管理, 并通过全局管理视图实时呈现所有重点工作的进展情况, 保证了标准化工作的落地实施。

(4) 创建自主开发平台, 挖掘员工创新潜能

1) 通过数据共享, 解决了数据分散在各系统中、用户需要从底层不断重复进行数据采集原始过程的问题;

2) 通过数据开放, 以数据字典方式对数据字段的含义进行了可视化管理, 方便了数据的二次加工处理;

3) 多维模型的建立, 解决了多维度数据关联分析挖掘的难题, 方便了报表的自定义创建和分析;

4) 将常用的程序代码以组件方式开放给自主开发人员, 通过组件与数据解耦, 降低了编程门槛, 解决了只有专业人员才能实施研发的问题, 激发了网络人员的创新开发的积极性, 形成了大众创新氛围, 助力Dev Ops转型。

4 结束语

某运营商提出的组织效能提升体系, 是从实际应用过程中总结出的管理方法与管理方式, 具有很强的借鉴性和推广性。该体系在该运营商全省范围内落地实施后, 形成了全员创新、探索实践的良好氛围, 实现了组织人员能力提升、运维效率大幅提高、运营效益不断攀升的良好局面。2015年, 某运营商网络维修费全国最低, 网络健康度与客户满意度双创新高, 部门与员工获得多项创新荣誉;网络质量客户满意度持续保持领先, 通话质量满意度与各项网络健康度均稳居全国第一, 荣获集团公司网络维护综合评比一等奖。

参考文献

[1][美]斯坦利·西肖尔.组织效能评价标准.密歇根商业评论, 1965.

[2][美]波特等.激励与工作行为.北京:机械工业出版社, 2006.

集中化运维 篇3

随着特高压交直流工程正式投运, 我国电网迈进了特高压、大电网运行的新时代。电网运行的特性更加复杂, 驾驭大电网的难度急剧增加, 调度业务对技术支持系统的依赖程度进一步提高, 给系统的运行维护工作提出了更高的要求。智能电网调度技术支持系统已经逐步在各网省调投入实际运行, 提升电网调度驾驭大电网的能力, 保障电网安全、稳定、优质、经济运行[1,2]。为了使智能电网调度技术支持系统在调度业务和“大运行”体系中更好地发挥支撑作用, 系统的运行维护将是其中非常重要的一个环节。

现有的调度自动化系统运维模式存在以下困难和问题:运维人员在数量上不能很好地适应调度技术支持系统快速发展的要求;现有调度技术支持系统的运维机制不利于自动化专业持续健康全面的发展;现有运维机制不利于充分发挥科研机构对调度技术支持系统的技术支撑作用。

由于各地自动化部门的系统维护水平存在差异, 通过建设智能电网调度技术支持系统集中运维中心, 统一监视调度自动化系统运行的关键设备、数据和软件功能, 发现问题后能够及时进行处理, 减少问题造成的影响, 能够更好地为调度运行服务, 保障系统的安全稳定运行。

国内外研究机构对变电站、计算机系统监视中心等设备或系统的运行维护进行了相关研究。文献[3]提出了一个基于CORBA、Agent和Web技术的变电站远程维护系统建模方案;文献[4]对一种变电站远程维护系统的总体框架模型、逻辑结构模型、功能结构模型、信息模型、系统的网络体系和系统的软件体系结构进行了详细研究;文献[5]介绍了一种基于当地监控机和远程桌面的灵活实用的远程维护方案;文献[6]介绍了一种基于数据通信网的灵活实用的远程维护方案;文献[7-8]对运维技术在变电站、电力电子设备等方面的应用进行了研究。目前尚无对智能电网调度技术支持系统进行运行维护技术的报道。

本文提出了一种智能电网调度技术支持系统的集中运维关键技术方案。利用集中运维系统提供的高效远程维护手段, 协助调度机构自动化部门快速诊断、处理系统的异常和故障。通过调度数据网络向各网省调提供调度技术支持系统的远程集中运行监视、系统维护操作和应急响应服务, 提高调度技术支持系统的可靠性和自动化水平。

1 系统结构及功能

1.1 系统总体结构

集中运维中心负责省级以上智能电网调度技术支持系统运行工况的远程监视和通用性业务的值班工作;承担系统稳定性的常规性维护;利用高效的远程维护手段, 协助调度机构自动化部门快速诊断、处理系统的异常和故障;与调度技术支持系统的研发单位的研发、工程部门联动, 做好各项技术服务工作。

集中运维中心系统与各调控中心系统的数据采集网络互联, 运维系统网络结构如图1所示。

1.2 系统功能

运维技术支持系统通过对智能电网调度技术支持系统的应用运行状态和运行支撑环境的在线状态采集, 分析各调度技术支持系统运行中存在的故障或异常, 通过人机界面、语音、短信、电话等多种方式通知运维中心值班人员, 及时发现、处理系统的异常或故障, 提高调度技术支持系统的可靠性和自动化水平, 其主要功能如图2所示。

运维知识库是运维技术支持系统的核心知识源, 故障记录、事故预案、操作日志、统计分析评估报表等信息都储存在运维知识库中, 运维人员能够快速准确地查询相关的信息, 提高运维工作的速度和效率。

在部署安全防护措施和认证授权的前提下, 运维人员实时监控系统运行状态, 可集中监视各调控中心系统的报警信息, 并且可以远程浏览各调控中心系统画面, 与现场监控情况完全一致, 同时可对各调控中心系统进行远程维护调试和技术支持。

运维技术支持系统能够使运维资源得以集中和共享, 能够缩短事件响应时间。通过统一集中管理, 加强运行管理的可控性, 降低安全风险, 提高管理效率和管理质量, 从而全面提升电网调度驾驭大电网的能力, 保障电网安全、稳定、优质、经济运行。

2 关键技术

智能电网调度技术支持系统集中运维关键技术主要包括:报警信息汇集、画面远程浏览、数据优化和统计分析、知识库管理及故障查询、预案管理等。

2.1 报警信息汇集

报警信息汇集技术是针对各网省调技术支持系统与运维技术支持系统间的报警信息传输技术, 报警产生端即调度技术支持系统, 按照通用报警标准将所产生的报警信息传送给报警接收端即运维技术支持系统, 运维技术支持系统按照标准解析报警信息, 可及时准确地了解所发生的报警并进行处理。报警信息重点是技术支持系统的运行异常和故障。

报警信息汇集功能实现了在运维技术支持系统上远程浏览各调度端技术支持系统的报警信息。报警信息包括报警点号、报警级别、报警时间、设备名称、报警内容和报警原因等。调度技术支持系统将报警信息通过DL476/IEC60870-104协议向运维技术支持系统传输, 对远方各调度技术支持系统报警信息进行捕获、传递、归类、分析。

报警图形网关采用DL476/IEC60870-104协议的字符串数据块分别与调度技术支持系统和运维技术支持系统进行报警信息传输。各调度技术支持系统先将本地稳态监控处理结果和本地报警信息转换为带站名和设备名的标准报警信息, 传输给运维技术支持系统。运维技术支持系统报警采集程序与调度技术支持系统建立TCP连接, 接收报警信息, 对报文进行解析并以消息的方式发送给报警系统, 报警系统对收到的报警信息进行处理。

2.2 画面远程浏览

运维技术支持系统需要远程浏览调度技术支持系统的画面时, 通过本地代理与远程代理建立TCP连接, 具体交互过程如图3所示。

画面远程浏览功能通过远程访问代理服务, 实现安全认证、画面获取和数据刷新, 运维技术支持系统可以直接浏览各调度技术支持系统完整的图形和实时数据, 做到对调度技术支持系统的全景信息监视。

画面远程访问代理服务实现从运维技术支持系统人机界面到调度技术支持系统远程服务的访问。远程访问代理负责人机界面的接入、域注册、域路由、安全认证、服务连接以及返回结果等功能。

2.3 数据优化和统计分析

运维技术支持系统通过对智能电网调度技术支持系统的关键数据、应用运行状态和运行支撑环境的在线数据采集, 分析各调度技术支持系统运行中存在的故障或异常, 通过人机界面、语音、短信、电话等多种方式通知运维中心值班人员, 及时发现、处理系统的异常或故障, 提高调度技术支持系统的可靠性和自动化水平。运维技术支持系统实时接收调度中心技术支持系统的以下信息。

1) 节点运行工况:监测服务器、工作站的CPU负荷、内存使用情况、磁盘空间占用率、数据库空间占用率等运行指标, 当资源占用超过规定门槛值时发出报警信息, 以便系统及时进行处理。

2) 网络工况:对调度数据网、调度信息网相关的网络设备的运行实时数据进行自动采集, 提供对网络设备工况/负载、端口状态/流量、链路状态进行监视和报警。

3) 数据库状态:对数据库运行状态进行监视, 当数据库发生异常时发出报警。

4) 主要进程工况:对系统应用、服务和重要进程进行监视及报警, 如AVC/AGC异常, 数据采集应用异常超过规定时间后, 进行报警。

运维技术支持系统提供综合查询管理界面, 分值班人、时间段进行统计, 显示报警内容、发生时间、报警确认时间、故障是否处理及处理记录内容。对报警对象产生的报警进行分类别、分时段、分区域检索。

2.4 知识库管理及故障查询

运维技术支持系统提供知识库管理功能, 将系统运行中发现的问题和解决办法提炼为知识, 加以保存和管理, 为类似问题的快速解决提供参考。提供知识的录入、检索、审批等功能, 提供知识库查询功能, 可根据数据库条目的字段如类别、提出者、提出时间等内容进行模糊查询。知识库可以分类存放, 知识库可根据环境、网络、设备、操作系统、数据库、应用软件等划分子类。知识库条目可包含:标识号、问题、解决方案、相关条目、提出者、提出时间、解决方案提供者、生成时间等内容。

知识库不仅可以协助运维人员在遇到问题时迅速找到解决办法, 同时也是一个学习培训的平台。技术在不断发展创新, 运维人员也需要学习新的知识, 掌握更多的技术, 同时巩固复习。运维人员可以通过知识库了解到系统各方面的知识, 从而更好地工作, 保障系统的安全稳定运行。

2.5 预案管理

运维技术支持系统提供预案管理功能。系统对每个报警对象或某一类型的报警对象提供关联的处理预案, 预案中包含出现故障报警时相关的处理方法、以往的处理经验和相关责任联系人等信息, 为值班人员在处理故障时提供快速的资料和辅助信息。系统提供了对预案的管理工具, 包括对预案的编辑、上传、与报警对象点的关联和自动应用等功能。预案包括共性的预案和个性的预案, 共性的预案可保存为典型预案, 以便重复使用。

运维人员处理故障后记录新的预案, 从而完善预案管理功能, 方便其他运维人员能够尽快学习了解, 并应用到故障处理工作中。预案管理功能需要有专人负责管理, 修改或新增预案都需要各部门讨论, 确定无误后报领导审批, 再由专人负责预案管理功能的维护。

3 应用实例

智能电网调度技术支持系统集中运维关键技术已经成功运行于某集中运维中心。集中运维中心担当智能电网调度技术支持系统运维工作, 统一监视调度自动化系统运行的关键设备、数据和软件功能, 发现问题后能够及时进行处理, 减少问题造成的影响, 能够更好地为调度运行服务。到目前为止, 集中运维中心已经与8个网省调的智能电网调度技术支持系统实现互联, 为网省调系统提供常态维护和技术服务, 保障系统的安全稳定运行, 运维工作得到了用户的肯定与好评。

4 结语

通过智能电网调度技术支持系统集中运维, 加强了智能电网调度技术支持系统的运维管理, 规范了调度技术支持系统运维工作流程, 保障了调度技术支持系统安全可靠运行, 提高了调度技术支持系统整体运维水平。调度技术支持系统的异常故障信息快速收集和运行故障的高效诊断是今后的研究重点。

参考文献

[1]马韬韬, 郭创新, 曹一家, 等, 电网智能调度自动化系统研究现状及发展趋势[J].电力系统自动化, 2010, 34 (9) :7–11.MA Tao-tao, GUO Chuang-xin, CAO Yi-jia, et al.Current status and development trend of intelligent dispatching automation system of power system[J].Automation of Electric Power Systems, 2010, 34 (9) :7–11.

[2]汪际峰, 沈国荣.大电网调度智能化的若干关键技术问题[J].电力系统自动化, 2012, 36 (1) :10–16.WANG Ji-feng, SHEN Guo-rong.Some key technical issues on intelligent power dispatching of bulk power grid[J].Automation of Electric Power Systems, 2012, 36 (1) :10–16.

[3]高卓, 罗毅, 涂光瑜.基于分布式对象技术的变电站远程维护系统[J].电力系统自动化, 2002, 26 (16) :66–70.GAO Zhuo, LUO Yi, TU Guang-yu.Substation remote maintenance system based on distributed object technology[J].Automation of Electric Power Systems, 2002, 26 (16) :66–70.

[4]侯贸军, 钱清泉.变电站远程维护系统体系结构研究[J].继电器, 2005, 33 (14) :74–78.HOU Mao-jun, QIAN Qing-quan.Research of the architecture of substation remote maintenance system[J].Relay, 2005, 33 (14) :74–78.

[5]夏友斌.基于远程桌面的厂站自动化系统远程维护[J].电力系统自动化, 2007, 31 (23) :113–115.XIA You-bin.Remote desktop based remote maintenance for substation automation systems[J].Automation of Electric Power Systems, 2007, 31 (23) :113–115.

[6]高翔, 郭创新, 张金江, 等.基于调度数据网的变电站智能设备远程维护系统[J].电网技术, 2005, 29 (23) :62–67.GAO Xiang, GUO Chuang-xin, ZHANG Jin-jiang, et al.A digital communication network based remote maintenance system for intelligent electronic device of substation[J].Power System Technology, 2005, 29 (23) :62–67.

[7]赵家庆.220kV无人值班变电站远方监控系统建设[J].电力系统自动化, 2003, 27 (8) :78–80.ZHAO Jia-qing.Computer centralized SCADA system on unmanned 220 kV substation[J].Automation of Electric Power Systems, 2003, 27 (8) :78–80.

集中化运维 篇4

1.1目前管理信息系统的运维模式

利用管理信息化来提高企业获取、 处理信息的能力已成为现代企业提升竞争力,支持企业战略目标实现的必要手段。 管理信息系统的运维是管理信息化的重要组成部分, 目前我国多数大型集团性企业已进行了不同程度与规模的管理信息系统建设,由于建设的系统大多采取总公司牵头,分省、市投资建设的模式,因此项目在转入维护期后,绝大多数管理信息系统的维护工作还采用传统模式,目前主要有以下两种方式:

(1)管理信息系统的维护交由非原厂商运维团队承接, 并与相应承接运维的团队签订技术服务合同;同时,如果有需要则由原厂商提供技术支撑(需额外签订合同)。

(2)原厂商直接派人至用户现场驻点,承接维护任务,签订维护合同,提供系统维护服务。

1.2存在的问题

由于企业级的管理信息系统几乎将与企业相关的所有业务都包括起来,业务复杂,且系统厂商众多,导致运维中存在以下问题:

(1)维护总成本高,人员复用率低。 建设单位需支付运维承接团队及原厂商技术支持两笔服务费用, 运维承接商及原厂商都需保持人员专职负责相关工作,导致人员复用率较低,总成本高。

(2)用户、运维承接团队、原厂商运维团队沟通成本高,工作效率低,用户总体满意度不高。 由于运维承接团队对于非本团队开发的产品只能负责现场用户的答疑及常规问题的处理, 因此遇到复杂问题时经常需要协调原厂商进行相应处理, 往往解决一个问题需要多方进行沟通,使沟通成本上升,相应的工作效率降低,有时因商务原因(原厂商不直面客户,客户没有感知,造成技术支持合同签订困难),造成三方责任难以界定,最终影响维护服务的用户满意度。

(3)非原厂商承接系统运维人员的更迭,由于知识传递不到位,往往对维护服务的质量造成影响。 非原厂商承接运维服务团队由于受规模、技术能力限制,在当今IT业人员流动性较大的背景下,应对人员变动风险能力不足,如发生人员离职,由于财务、 采购等管理信息系统存在业务复杂等特性,在短期内难以保证交接工作的质量,从而影响服务质量。

(4)原厂商直接承接运维服务时,存在很多异地驻点服务的情况,异地人员管理存在稳定性不高、能力培养无法持续等问题, 也给运维服务的质量带来影响。

2集中运维平台解决方案

针对分散运维效率低、成本高、管理困难的现状,需将运维进行集中管理,建设集中运维团队(可根据企业情况成立集中运维中心),实现维护集中。 并通过建设集中运维IT平台,对运维服务进行流程规范以及管理标准的导入,保障服务提供的专业化、规范化,同时将标准化与个性化的服务相结合,进行服务跟踪的全过程管理, 提升服务质量与用户满意度。 集中运维管理平台(MAAS)功能架构如图1所示。

运维团队集中建设后,需要一套完整的信息平台为其提供支撑和保障,信息平台主要由呼叫中心系统、运维管理系统、在线客服系统、知识库等子系统构成,下面对解决方案中各系统的功能分布进行描述。

(1)运维管理系统:统一调度运维资源,集中管理任务,将职责明确到具体的责任人,简化流程处理环节,缩短响应时间,提高处理效率。建设运维管理系统可对运维产品所涉及的工单、投诉、 设备、需求及考核进行有效的管理,并与呼叫中心、知识库系统进行对接,形成全过程集中运维管理平台,对运维相关过程、结果进行合理监控与预警,提前识别运维风险,保证服务质量及用户满意度。

(2)呼叫中心系统:呼叫中心作为集中运维的源头环节,直接面对系统用户,受理用户问题,其服务质量直接影响客户满意度, 也关联到后续问题的处理效率。 通过呼叫中心的建立,对座席统一培训,遵从同样的服务标准,保障客户服务的专业性、规范性, 同时通过系统内部接口, 借助运维管理平台将客户问题及时、无差异地转向公司后端技术部门或二线厂商进行处理。

(3)在线客服系统:通过搭建在线客服系统实现用户与客服人员即时交流,大大降低客户的沟通门槛,加强与客户的联系,并通过互联网的模式应用在线语音、远程桌面协助、在线会议等功能提高运维效率,降低用户使用门槛。

(4)知识库:建立知识库管理系统,积累与系统相关的业务及技术方面的知识,用户可将自己的经验在此发布,与其他用户共享,运维团队也可通过平台将处理问题与需求的经验形成知识记录, 并为员工制订学习、培训和考试计划,实现对企业显性知识和隐性知识的管理,不断提高员工业务知识水平,更好地为客户服务。

3中国通服集中运营平台成效

目前,集中运维平台已在中国通服江苏、山东、宁夏公司试运行,新流程运转流畅,平台对运维团队的支撑作用明显加强。一是通过平台建设逐步规范IT运维的基础工作, 统一系统运维的方法和制度,运维工作从传统“人治”向标准化管理转变,服务质量得到提高,增强了用户感知。二是提升了运维服务效率。实施运维集中管理,发挥集约规模优势,工单处理效率及用户满意度得到了提升。三是集中运维团队职能得到明确,结构得到优化,职业生涯发展进一步明确。 随着应用的深入,平台根据需求进行持续优化,为后续业务推广及发展打下基础。

摘要:管理信息系统的运维是管理信息化的重要组成部分,目前我国大型集团性企业已进行了不同程度与规模的管理信息系统建设,但绝大多数管理信息系统建设完成后的维护工作还采用传统模式,还存在人员分散、工作低效、专业化程度不高等不足。本文针对传统运维模式存在的问题,提出一个基于互联网风格的集中运维平台的IT解决方案。

集中化运维 篇5

关键词:监控,预警,侦测,运维分析

0 引言

监控管理是IT管理中的重要技术手段。目前我局建成的IT管理相关系统, 主要是关注设备和网络层面的管理, 较少涉及应用系统本身。IT管理的最终目的是保证IT基础架构之上的应用系统的持续可用和健康运行。因此, 只有实现了对应用系统的有效监控才能够确保IT服务的水平。

1 研究开发主要内容

1.1 应用监控平台

面向业务应用监控的核心理念是以业务视角为中心组织和展现监控对象和事件, 并通过对应用系统的行为分析来发现故障隐患, 从而实现故障预警。应用监控平台提供灵活的监控对象建模机制, 能够方便地对监控对象的可用、性能、资源、安全和异常等多个维度的指标进行定义, 并能够根据不断变化的监控需求随时进行分析优化, 对监控指标和监控对象进行增减。

应用监控平台提供多种强大的针对应用系统的监测和分析技术。这些技术能够让监控平台在与应用系统保持松耦合的情况下有效地对应用系统进行监测和行为分析, 从而发现故障隐患。整个应用监控过程包括监控 (采集) 调度、监控分析、监控管理、告警生成和报警驱动等多个环节。特别是其采集和告警2个阶段的分析机制为监控平台提供了前所未有的灵活性, 体现了监测是为了预警, 而不仅仅为了告警的理念。

1.2 系统部署拓扑结构

应用监控系统调度、分析、管理和告警四大服务器组成后台系统, 各个服务器可以单独部署也可以合并部署。调度服务器负责驱动主动采集, 并将采集到的内容交给分析服务器进行分析, 分析的结果作为指标保存到数据库。告警服务器根据告警规则决定是否生成告警, 告警形成后根据采集依赖和业务依赖关系和告警的订阅情况决定是否发送报警和如何发送报警。

两类型的现场探针 (应用网络探针和SLA测试探针) 部署在各个分支机构的办公楼宇、变电站或营业厅, 在最贴近用户端场所进行用户访问模拟和网络协议侦测, 从而实现反映用户真实体验的可用性和侦测的响应。

1.3 信息的统一调度和展现

IT运维团队也是由多个层次、多个专业领域、多种角色的人员构成的, 因此需要能够基于角色来统一调度和展现信息。面向业务的IT集中运维分析系统提供智能信息支撑平台和业务视图管理功能, 可以帮助实现上述目的。如图1所示。

2 总体构思

2.1 系统总体构架

面向业务应用的IT集中运维分析系统是一个符合现代业务服务管理 (BSM) 理念, 满足集中运维和分级管理需求的IT运维监管系统。该系统将实现监控整合、事件分析和故障预警, 完美展现IT资源与业务服务之间的依赖关系, 做到故障根源分析和准确定位, 建立用户体验和服务水平评价体系。整个系统由用户体验管理、监控整合、业务服务建模、业务视图管理、服务水平管理和报表统计与分析等模块组成。如图2所示。

2.2 部署方式

IT集中运维分析系统采取集中部署分布采集的方式进行部署。在集中运维中心部署一套运维分析平台, 在各个数据中心部署一个采集服务器负责本地监控系统事件数据的获取和采集, 主要用于监测用户对不同业务应用的使用体验。

在集中运维中心部署一个负责业务服务状态和分析结果的监控中心供运维中心的服务台使用。各运维班组、各地运维人员或者是合作伙伴通过信息支撑平台订阅自己关心的状态和告警信息。

2.3 全面一体化监控

所谓全面监控是指将企业业务所依赖的IT资源包括网络、服务器、数据库、中间件、机房和业务系统统一作为监控对象纳入管理。所谓一体化监控是指监控内容必须覆盖IT系统在可用性、性能、安全、资源和其他异常事件方面的监控管理需求。

3 技术关键和重点解决的技术问题

3.1 故障预警技术

面向业务的应用监控是面向设备监控技术

的发展和延伸, 但其侧重点和技术手段都有着较大的区别。面向业务的应用监控系统的一个技术难点是故障预警, 要实现故障预警需要关注的是异常而不仅仅是错误, 发现异常的手段是分析和跟踪应用系统作用在网络、操作系统、数据库和中间件上的行为。行为分析涉及到“上下文关联事件分析”和“应用网络侦测”等监控分析技术。

3.2 监控对象建模

以信息部门的备份工作的监测举例说明面向设备和面向业务监控对象建模的区别。面向设备的监控系统关心的是备份进程的CPU、内存占用率、价值的剩余空间、磁带库的清洗时间、磁带库故障等。面向业务的监控关心的是备份是否完成、是否出现漏掉备份、级联备份顺序是否正确以及备份耗时是否合理等。

面向业务的应用监控对象建模需要具有很高的灵活系统和扩充能力。不同的应用系统的监控需求是不一样的, 同一的应用系统监控深度和广度要求不同, 监控的指标种类和数量也有所不同。事实上, 应用监控系统通常还需要根据运维过程中通过不断地总结经验去丰富和完善监控模型, 提升监控效果。

3.3 客户体验侦测技术

仅从技术指标入手往往是不能够解决应用监控的所有问题。应用系统经常会因为受一些不可预测问题的影响而出现故障。因此在用户端对各种服务进行模拟访问和使用效果侦测是应用监控不可缺少的技术手段。

3.4 运维自动化

对于各业务系统, 运维人员均有一系列周期性的检查、维护工作, 这些工作重复、枯燥而且低效。很容易由于工作人员主观、客观方面的原因, 出现遗漏、失误, 使故障隐患不能被及时发现和排除。在本系统中, 大部分检查项都已经是平台本身的监控指标, 异常指标变化都会及时反映在告警信息或系统状态上。对于特别的巡检维护工作, 可通过维护人员定制任务或编写脚本方式自动得到执行, 比如计量系统需要定期检查外部无线终端的连通性, 或接口服务器上某个进程是否正常运行。

4 结语

面向业务的应用监控系统建设可以大大提高应用系统运维的工作效率, 故障预警机制可以有效地减少故障的发生, 大幅度提高IT系统的服务品质 (SLA) 。面向业务的应用监控和管理机制可以让运行人员快速确定故障所影响的业务系统、用户和部门, 并进行故障原因分析和定位, 从而可以减少故障对用户和业务的影响和加快故障解决速度。

IT运维管理已经成为企业的核心业务之一。面向业务的应用监控系统正好能够与现代IT运维管理的理念相吻合, 能够为IT管理人员建立一个面向业务的监控模型和视图, 并通过提前发现隐患和提高问题定位速度等方式大大提高IT系统的服务水平。

参考文献

[1]彭洪, 易昌善, 黄岩渠.面向业务的IT资源监控系统设计[J].金融电子化, 2008 (3)

上一篇:杭州休闲产业现状下一篇:交互式听力