IT运维管理体系建设案例

2024-10-01

IT运维管理体系建设案例(共8篇)

IT运维管理体系建设案例 篇1

某部IT运维管理体系建设案例

摘要:

某部委信息中心(以下简称中心)肩负着电子政务主干网建设、维护、运营的使命,致力于提供安全、高效、快捷的IT服务。近年来,随着信息化建设的深入,网上运行的业务应用逐步增加,计算机机房设备、网络基础设施,大型主机、服务器、客户端等硬件平台,政务应用系统、数据库、应用服务器、中间件等软件平台日益复杂,服务的用户(包括应用使用单位、人民银行、税务、海关、各代理银行等)越来越多,如何维护好日益增多的网络和系统等各类设备,保证各个应用系统安全顺畅地运行,为用户提供良好的服务,及时解决出现的问题和故障,做到网络和用户之所及,管理和服务之所及,是政务业务能否可靠运行的关键所在。

1.案例背景

某部委信息中心(以下简称中心)肩负着电子政务主干网建设、维护、运营的使命,致力于提供安全、高效、快捷的IT服务。近年来,随着信息化建设的深入,网上运行的业务应用逐步增加,计算机机房设备、网络基础设施,大型主机、服务器、客户端等硬件平台,政务应用系统、数据库、应用服务器、中间件等软件平台日益复杂,服务的用户(包括应用使用单位、人民银行、税务、海关、各代理银行等)越来越多,如何维护好日益增多的网络和系统等各类设备,保证各个应用系统安全顺畅地运行,为用户提供良好的服务,及时解决出现的问题和故障,做到网络和用户之所及,管理和服务之所及,是政务业务能否可靠运行的关键所在。

中心目前还处于初级的IT服务管理状态,在组织结构、管理规范、管理流程和技术支撑方面,还没有构建一个综合的IT服务管理体系。对网络、设备、系统、用户等的管理和服务是分散的、不关联的,没有实现数据、信息和知识库的共享,没有实现规范化和流程化,因此,管理和服务是粗粒度、低效率的,这种管理模式将越来越难以适应政务信息化的发展要求。

因此,需要梳理服务管理需求、规范服务管理流程,开发和建设一套科学有效的,融合组织、制度、流程、技术的IT服务管理体系,从粗放和分散型管理,逐步过渡到规范化、精细化和主动式IT服务管理,使IT服务管理体系成为中心日常工作的重要组成部分,这不仅对政务核心应用系统顺利运行和应用有重要意义,也将为支持和推进政务改革提供管理和服务保障。

中心决定启动运维系统建设项目系统化地解决以上难题,构建IT服务管理体系。在经过对众多国际知名及国内咨询公司的考察和比较后,最终选定ITGov专家和信诚致远®(http:// 在构建基于ISO20000的IT服务管理体系时,ITGov倡导构建“六位一体”(包括人员、组织结构、管理流程、管理手册和文档、工具和共通词汇等)的IT服务管理体系。

图4-13 “六位一体”的IT服务管理体系

资料来源:ITGov中国IT治理研究中心,网址: 从而实现从“项目型IT”转变为“运营型IT”和“服务型IT”。

图4-14 IT服务管理促进组织转型

资料来源:ITGov中国IT治理研究中心,网址:

3.2咨询方法

在整个项目过程中,ITGov采用结构化的咨询方法,确保中心IT服务管理体系项目的成功。

图4-15 咨询方法

资料来源:ITGov中国IT治理研究中心,网址: ITGov将负责中心IT服务管理体系的项目规划、培训与知识转移、前期需求的整理、调研评估、体系总体规划、体系设计(优化组织架构、梳理管理流程、完善管理制度、构建绩效考核和运维成本核算体系等)、技术实施方案设计、协助选择软件产品和实施厂商以及进行第三方项目管理和协助过程监督等。

该咨询方法论将具有以下优势:

咨询、实施和产品三者独立,降低项目风险

ITGov负责梳理中心IT服务管理体系建设需求,从管理、流程、制度、人员、组织结构、技术选型等方面规划IT服务管理体系。

在实施阶段,实施厂商在ITGov规划的基础上,具体结合产品实施IT服务管理体系。ITGov作为中心的外部顾问,将全程参与后期服务管理体系实施的全过程,为集成实施提供管理服务和考核服务,设定实施里程碑和基线。定期对项目计划和阶段目标进行核查,保证项目的顺利如期完成,降低实施风险。

咨询、实施和产品三者独立,有助于降低IT服务管理体系建设项目的风险,最大效益地发挥中心IT服务管理体系的作用,开创适合中心需求的创新型IT服务管理之路。

有利于从业务需求的角度和全局的高度对IT服务管理体系进行规划

ITGov将从中心业务需求出发,对业务流程进行分析和需求调研,分清重点和难点,排定优先级别,确保项目目的的达成;同时从全局的高度,构建融合人员、组织结构、流程、管理制度和工具的IT服务管理体系,最大限度地提高中心的效益和IT服务的改善。

借鉴ITGov的经验,提升项目建设的效果

ITGov通过对中心IT服务管理现状的调研,结合业界最佳实践进行差距分析和评估,提出有针对性的规划方案,“对症下药”,从而保证项目目标的达成。另一方面,ITGov借鉴其在业内开展IT管理服务项目咨询的经验,和国内外同类政府组织IT服务管理体系建设项目的最佳实践,作为本项目的参考,“站在巨人的肩上”,提升项目建设的效果。

搭建交流平台,实现知识转移

ITGov在整个项目过程中对中心相关人员进行IT服务管理最佳实践和方法论的培训和咨询指导,搭建业务部门、信息技术中心、集成商、产品提供商之间的沟通平台,使各方在整个项目过程中对项目目标和实施方法有统一的认知,保证项目的顺利实施;另外,在项目后期,管理体系构建完成和系统平台建设完成后,组织相关人员进行培训,实现知识转移和知识共享,培养IT服务管理的专业人才。

对后续集成实施和产品选择的全过程进行项目管理和风险管控,持续优化管理体系 ITGov作为中心的外部专家,主持制定《中心IT服务管理系统需求说明书》,对体系架构和流程平台产品的各功能点进行详细的定义和说明,并针对目前业内流行的平台产品进行评测和比较分析,提供分析数据,为产品选型决策提供支持;同时,ITGov对项目的各个功能点的技术和开发风险进行评估和提供相应的解决措施,从而降低实施过程中的风险。此外,ITGov还将参与后期项目的产品选型和集成方案招投标工作,对集成实施和产品选型进行专家审定和把关,对各项投资进行预期的绩效评估,保证把资金用于项目的关键点上,降低实施成本。

在体系建设完成后,ITGov作为中心的外部专家,将定期分析业务需求,持续优化中心IT服务管理体系,对管理体系执行情况进行审计和提出改进建议。

4体系建设过程

4.1中心IT服务管理体系架构

在项目过程中,ITGov以“体系化”的思路协助中心构建一整套行之有效的“持续改善机制”,面向业务和应用,以服务为导向,创建创新性的政府IT服务管理体系。

IT服务管理体系涵盖组织管理模式、制度规范体系、技术支撑体系等三个层面的内容。

图4-16 ITGov IT服务管理体系架构

资料来源:ITGov中国IT治理研究中心,网址: 组织模式层:确定和规范IT服务管理体系运行的管理方式和与之相配套的人员岗责安排、机构设置,将IT服务相关的全部活动进行统一决策与规划,形成集中统一的IT运维管理机制,实现对客户的端到端服务。在集中统一的IT运维管理模式下,按照IT服务管理任务科学设置或调整组织机构,划分任务、角色、岗位,合理配置IT服务管理资源,达到人、工具、流程的有机融合。

制度规范层:分别从管理与操作方面建立IT服务管理过程中各个参与要素(人、流程、工具)的行为准则与工作程序,从IT服务管理体系总体运行、流程执行和岗位职责三个层次建立考核评价体系,确定运维费用的组成与计算方式,规范运维费用的来源保障,实现IT服务管理的量化管理。具体内容包括管理制度的制定、管理流程的设计、评价考核体系的执行、运维费用的管理等。

技术支撑层:建立针面向业务客户的IT服务请求响应窗口和面向技术支持人员的体系运行管理窗口,建立负责IT服务管理流程运行的流程管理平台和负责IT基础设施和业务应用系统运行监控的集中监控管理平台,根据不同类型IT基础设施和业务应用系统的管理职能,建立技术管理子系统,建立知识库、配置库、报表及日常操作等共享支持子系统和为业务管理提供服务的业务服务管理子系统。

4.2建设过程

本次IT服务管理体系咨询项目将采用先进的科学评估体系和业界成熟的规划设计方法论,借鉴最佳实践和实用模型,按照国际标准ISO20000的要求,规划设计中心IT服务管理体系,其中主要服务内容分为现状分析与改进建议,总体规划,体系设计,技术实施方案设计,培训和后续服务六个主要部分,如下图所示:

图4-17 IT服务管理体系咨询内容

资料来源:ITGov中国IT治理研究中心,网址: 首先,ITGov将通过深入访谈、问卷调查、材料分析以及管理体系评估等方式对中心IT服务管理体系现状进行调研,除此之外,ITGov还会就相似的外部单位相关成功案例进行调研,总结出具有参考价值的案例。

其次在此调研的基础上,对中心IT服务管理现状评估结果进行分析和评价,对比最佳实践和国际标准,从组织,人员,流程和技术四个方面,提出相应的改进建议,并同其他部委或组织进行标杆比较。同时,根据业务需求,在诊断报告中需要对各改进项进行优先级排序,对改进方法和成本绩效进行说明,作为管理决策和总体规划的参考。

再次,ITGov会从总体方案的角度,制定IT服务管理体系建设的指导方针,实现目标,规划方法,并设计IT服务管理体系的总体架构、阶段过程说明里程碑定义、列出资源计划表,对项目风险进行分析和规避。

接下来,ITGov会在总体规划的基础上,针对每个子体系的具体范围进行详细设计,同时还会按照中心现阶段IT服务管理的实际需求,分别进行IT服务管理流程体系设计(主要包括服务台、事件管理、问题管理、配置管理、变更管理、服务报告等流程)、组织架构设计、管理制度与规范设计、绩效考核指标、运维成本核算体系等的详细设计。此部分的设计将按照业界最佳实践ITIL和国际标准ISO20000的要求,符合服务标准,确定服务目标,定义服务活动,设计服务流程,明确服务角色,分配服务资源,规范服务模板。

然后,ITGov将这对中心目前的服务管理流程平台需求和基础设施监控管理需求展开梳理评估工作,明确被管对象,定义管理架构,设计管理与监控的关键衡量指标,同时按照体系规范的要求,完成IT服务管理体系流程平台和监控平台的架构设计和集成规范,并且按照相应的概要性设计规范,进行相关产品的功能性对比和厂商的综合能力的比较。

在完成上述技术实施方案的评估和设计工作后,ITGov将针对中心项目组合相关人员,开展三个层面的培训工作,即ITIL理念和最佳实践的培训,ISO20000培训,实施过程和方法论的培训,以及IT服务管理体系本身的内容培训和推广所需要的用户培训,另外,ITGov 还要总结项目相关文档,与中心相关人员进行知识转移工作。

最后,在项目正式验收后,ITGov还会本着持续改进,不断优化的思路,在约定时间范围内帮助重点对本项目进行定期回访,经验总结,提出改进建议和服务质量提高的计划。

5.收益

本项目通过为某中心开发和建设科学高效的IT服务管理体系,系统地将组织架构、管理流程、管控制度、绩效考核、运维成本核算以及技术平台贯穿融合,项目效益体现在以下两方面。5.1 内部效益:

通过建立基于业界最佳实践的标准化流程体系,规范了运维管理的流程,改进运维工作的效率和效能,提高管理IT变化的能力和水平,降低IT运维的成本和风险;

通过对流程和权责的定义,监控管理流程、进行绩效评价;

建立运维成本核算体系,了解自身资源情况和能力水平;

优化运维组织机构和完善运维管理制度,清晰划分部门权责,提升端到端的服务质量;

进一步统一IT人员服务管理的意识,培养服务管理的文化,加强中心对业务的支持力度,沟通能力以及对信息的协同力,并为科学决策提供有力依据;

建立一整套行之有效的持续改善机制,不断优化服务质量,提高业务和用户满意度。

5.2 外部效益:

建立符合国际最佳实践ITIL和国际标准ISO20000的IT服务管理体系,持续优化服务流程和服务水平,提高业务和客户满意度,提升中心IT运维服务管理的整体形象;

IT项目80%的效益是在运行维护阶段体现的,通过构建IT服务管理体系,为电子政务应用系统提供优质、经济高效的IT服务,并降低重复投资的可能性,提高IT投入的效益,进一步提升高绩效政府的形象。

IT运维管理体系建设案例 篇2

当前, 国内已经步入“服务经济”的发展阶段, 以现代服务业为主导的现代产业体系也逐步建立起来。信息化在提升企业的运营效率和核心竞争力的同时, 也使企业对信息化的需求和依赖程度不断提高, 而IT运维服务作为现代服务业的重要组成部分, 为企业信息化提供了强大的支撑。因此, IT运维服务越来越受到各级政府和各类企业的重视。在IT运维服务业蓬勃发展的同时, IT运维服务的质量问题也引起了相关客户和服务提供商的关注。

笔者有幸参加了W公司所承接的广州市某信息中心网络平台与IT设备维护项目 (以下简称本项目) 的IT运维服务质量改进工作。在提供本项目的服务过程中, W公司收到了客户方领导层对服务质量的严重不满和投诉。笔者作为公司后端的IT服务管理咨询顾问, 受命启动专门针对本项目的IT运维服务质量改进项目 (以下简称本质量改进项目) , 着手改进其服务质量并提高客户满意度。本文将笔者在本质量改进项目中的主要实施方法和过程进行介绍和展现, 希望能够给同样关注IT运维服务质量的同行们一点启发和帮助。

1 对客户需求与服务现状的调研和分析

任何服务质量的改进都是源于对客户需求的高度关注和对服务现状的调研和分析[1]。笔者在介入本项目之初, 就将重点工作放在对客户需求的调查了解、以及对IT运维服务现状的调查与分析两个方面。

通过与客户方和前端一线服务团队的充分交流、以及对服务情况的现场调研, 并在此基础上进一步调阅和分析了本项目的招标文件、投标文件、项目合同书等关键资料, 笔者了解到W公司在IT运维服务提供过程中主要存在以下四个方面的不足, 需要进行重点质量改进, 以尽快提高用户的服务体验和客户满意度。

(1) 没有为客户提供针对三年服务期的一整套目标明确的工作计划和时间表;没有帮助客户理清和优化IT服务管理业务流程;在日常服务过程中没有认真落实IT资产管理办法, 没有为客户提供一套定制的IT资产管理系统软件并有效使用起来, 最终导致客户的IT资产失去应有的管理, 过去一年中IT资产数据基本没有与实际情况同步变更, 目前整个IT资产数据不全不实。 (2) 客户需要对全区电子政务网络提供系统化的诊断和保养, 解决目前该网络可靠性不高、上网速度慢的隐患, 这项工作一直没有开展;客户强调提供服务的应当是一个有技术梯度的专业网络团队, 而不仅仅是一名前端服务工程师。 (3) 提供服务的IT服务工程师技术能力不足, 一个故障要反复上门几次才能解决, 服务只能依赖于个别技能较好的服务工程师。 (4) 每月例会上客户提出的服务目标和要求尽快改进的重大问题基本无法实现, 计划和执行情况的检查工作没有开展, 用户的真实需求没有上传到公司, 造成公司的决策偏差。

上述四个方面的问题, 可以通过运维服务计划和实施方案、资产普查、IT资产管理系统软件的定制开发与应用、专业网络团队的诊断和保养、知识管理和业务培训、团队管理、问题管理、会议管理等方法分别予以解决。但是, 如果只是采取“头痛医头、脚痛医脚”的方法解决眼前的问题, 也很难真正解决客户在未来可能遇到的其它问题, 只有充分挖掘上述四个方面问题的根源, 从根本上解决导致这些问题的本质原因, 才能真正保证以后的服务能够充分满足客户的需求。因此, 笔者对造成上述问题的根本原因进行了分析, 发现这四个方面的问题, 主要来源于两个方面:一是W公司对客户需求的理解偏差和沟通不畅, 二是W公司没有一整套严格的标准化的IT运维服务规范和管理制度。由于沟通不畅和需求理解偏差, 所以客户的重点需求没有得到应有的重视和实现;由于缺乏标准化的IT运维服务规范和管理制度, 所以需求理解偏差没能及时发现和纠正、计划和检查没有开展、不能发挥团队能力。而这两个方面的最根本原因, 则是W公司没有真正建立科学的标准化的IT运维服务管理体系。因此, 笔者将本质量改进项目的工作重点放在IT运维服务管理体系建设方面。

2 质量改进项目的工作计划与项目启动

在明确了本质量改进项目的工作重点以后, 在着手开始质量改进工作之前, 首先要得到客户和W公司双方领导的确认, 以保证质量改进项目的工作能够真正实现对运维服务质量的改进目标。因此, 笔者在前期调研和分析基础上, 草拟了《运维服务质量改进工作计划书》, 在征求双方领导和运维服务团队负责人等主要项目干系人的意见并获得通过后, 召开了“运维服务质量改进工作项目启动会”。启动会上有客户方领导、W公司高层领导、运维服务团队负责人 (包括运维服务项目经理和W公司运维服务中心项目总监) 、运维服务质量改进项目负责人 (笔者) 和其他项目干系人到会参加。通过项目启动会的召开, 将本质量改进项目的项目目标和工作范围、项目组织结构 (如图1所示) 、主要项目团队成员和分工、项目工作内容和工作方式、项目进度计划等内容进行了讨论和确认, 从而正式将质量改进工作以项目化运作的方式确立下来, 并使本质量改进项目的目标和范围得到各方面的正式确认, 从而为质量改进工作的顺利开展创造了一个良好的工作环境和管理基础。

根据项目启动会上确定的质量改进工作计划书, 本质量改进项目的总体目标包括完善运维服务管理体系建设、IT资产与运维管理系统软件的定制开发、IT资产普查与资产数据库的建立和维护、网络诊断和优化及其整体解决方案的提供、加强对IT服务工程师的服务规范和服务技能的培训、进一步完善运维知识管理和知识库、对用户提供常用软件使用和常见故障处理的培训等七个方面。在这七个方面的总体目标中, 第一个目标“IT运维服务管理体系的建设”是重点, 其它六个目标在完成相应的工作任务后, 都要将其工作内容形成规范和制度, 并集成到IT运维服务管理体系中去, 从而保证W公司在今后的IT运维服务过程中、以及其他的IT运维服务项目中, 能够始终保持改进后的服务质量, 并使本项目的经验得以固化和重复使用。因此, 笔者将本质量改进项目的工作重点集中在“IT运维服务管理体系建设”这个目标上, 其他目标的实现则根据任务类型由其他项目干系人分工负责。例如, “IT资产与运维管理系统软件的定制开发”由W公司软件研发中心负责人负责完成;“IT资产普查与资产数据库的建立和维护”和“对用户提供常用软件使用和常见故障处理的培训”由运维服务项目经理负责完成;“网络诊断和优化及其整体解决方案的提供”由W公司运维服务中心二线专家团队负责、“加强对IT服务工程师的服务规范和服务技能的培训”和“进一步完善运维知识管理和知识库”由W公司运维服务中心后端的IT运维服务管理咨询团队负责。这样分工负责后, 质量改进项目的七个目标就得以落地执行。

3 IT运维服务管理的实施框架与体系建设

在IT运维服务管理体系建设工作中, 首先需要确定一个科学的IT运维服务管理实施框架。目前实施IT运维服务管理的较成熟和普遍的方法是ITIL最佳实践[2]和ISO20000国际标准。综合企业再造理论[3]、多层BPR实施体系结构[4]和技术管理咨询的PPT模型, IT运维服务管理的规划与实施, 需要从作业流程 (Process) 、组织架构 (People) 、管理与评估系统 (Management) 、IT技术和工具 (Technology&Tool) 、企业文化和观念 (Culture) 这五个方面进行考虑[5];一般情况下, 可以从前四个方面 (即PPMT实施框架) 实施IT运维服务管理, 然后逐渐向第五个方面 (即企业文化) 渗透 (如图2所示) 。因此, 在本质量改进项目的IT运维服务管理体系建设中, 笔者采用PPMT实施框架进行服务管理体系的设计和实施。

根据PPMT实施框架及项目需求, 本质量改进项目的IT运维服务管理体系建设的主要内容包括IT运维服务管理业务流程及其配套的数据表单和统计报表的设计、运维服务管理组织结构及其岗位职责的设计、运维服务规范和管理制度的建立、IT资产管理及运维服务管理系统软件的设计与开发等四个方面, 在完成上述四个方面的设计以后, 再将设计结果在IT运维服务项目过程中实施和应用。在设计和实施时, 均要遵守“作业流程→组织架构→管理与评估系统→技术和工具→企业文化”的先后顺序。

4 IT运维服务管理体系建设的具体内容

根据W公司与客户的项目合同及其招标文件要求和投标文件承诺, 在本质量改进项目中的IT运维服务管理体系建设可以从本项目的IT运维服务范围和服务方式与服务级别、运维体系框架和各服务管理工作流程、运维服务组织结构及岗位职责、相关服务规范和管理制度、相关数据表单的格式设计与填写说明、相关统计报表的格式设计与数据来源、IT资产管理和运维服务管理系统软件的需求分析与设计说明等七个方面进行展开。在这七个方面的设计过程中, 要兼顾考虑吸收本质量改进项目的另外六个目标在工作中形成的规范和制度, 将其经验和成果集成到IT运维服务管理体系中来。

4.1 IT运维服务范围和服务方式与服务级别一般是由招标文件的要求和投标文件的承诺所决定的, 然后再结合IT运维服务提供商 (例如W公司) 的管理水平和服务质量现状进行设计和规定。

4.2运维服务体系框架主要对所有的运维服务管理流程及其相互之间的关系进行总体规划和说明, 并通过服务管理流程关系图对各流程的前后衔接关系进行描述和说明;然后通过各服务管理工作流程的详细流程图对各工作流程在各种情况下的处理规则进行描述和说明。在本项目中的运维服务管理流程, 主要包括服务级别管理、IT资产管理、日常工作管理、常用服务流程、备件管理流程、桌面运维流程、网络运维流程、其他工作流程等八个方面, 每个方面又包括多个服务管理流程, 总共包括21种管理流程。究竟应当包括哪些流程, 应当根据具体运维服务项目的实际情况和客户需求, 结合ITIL最佳实践和ISO 20000标准进行梳理和设计。

4.3运维服务组织结构一般由IT运维服务提供商和客户双方参与本项目的人员组成, 一般可以分为一线、二线、后台支持、第三方支持等四个级别;运维服务项目经理一般介于一线和二线之间, 作为一线服务团队的管理者, 同时也是二线服务团队的成员之一。在确定了服务组织结构后, 再根据所设计的各运维服务管理流程的需要进行岗位分工, 再根据岗位分工确定各个岗位的职责;通常可以分为客户方管理人员、运维服务项目经理、服务台、服务工程师、配置管理员和服务助理等岗位或角色。

4.4相关服务规范和管理制度一般是指在IT运维服务管理流程以外、无法或不便于通过流程方式进行规范的管理制度和相关规定。它作为运维服务管理流程的有效补充, 使IT运维服务的提供过程实现进一步的科学化和标准化。在本项目中的相关服务规范和管理制度主要包括服务台工作规范、日常运维服务规范、网络运维服务规范、资产普查工作规范等方面。其中服务台工作规范又包括服务热线接听规范、故障判断技术规范、事件类别判断方法、事件优先级判断方法、服务单回访规范等;日常运维服务规范又包括上门维护服务规范、备件库管理规范、运维档案管理规范等;网络运维服务规范又包括网络设备日常维护规范、网络安全运维规范等;资产普查工作规范又包括普查工作组织架构、普查人员上门服务要求、普查准备工作、普查工作注意事项、普查数据检查标准、普查数据录入和统计规范等。具体应当包括哪些服务规范和管理制度, 也没有一定之规, 主要根据具体项目的实际情况和服务管理需要而制定, 制定者需要具备一定的项目管理、服务管理和质量管理的基本知识和经验。

4.5相关数据表单的格式设计主要是根据各运维服务管理流程的需要, 在某些服务管理流程的某些环节需要工作人员填写相应的数据表单, 则根据该环节和整个流程的需要、以及后期统计报表采集数据的需要进行表单内容和格式的设计。在本项目中的数据表单包括了常用数据表单、备件管理表单、桌面运维表单、网络运维表单、资产普查表单和其他表单等六大类。其中常用数据表单包括服务单、用户投诉处理单、收款服务单等;备件管理表单包括备件借用登记表、备件清单、备件出入库登记表等;桌面运维表单包括设备采购验收单、设备采购汇总表、设备采购明细表、资产报废登记表、资产报废意见书、供应商维修设备回执单、设备维修回执单、设备维修报价单、设备采购报价单、升级换件登记表、用户入网申请单等;网络运维表单包括网络故障报告、网络系统端口登记表、配线间钥匙借用登记表、网络巡检报告表等;资产普查表单包括资产登记表、资产普查汇总表、资产普查明细表、资产标签等;其他表单包括知识库表单、配置变更登记表、日报检查问题记录表等。

4.6相关统计报表的格式设计主要是根据IT运维服务管理的各种管理需要, 从各服务管理流程和相关数据表单及数据库等数据源中采集数据, 从而对需要生成的相关统计报表的格式和数据来源进行设计, 其主要目的是供运维服务团队的管理者和客户方管理人员了解运维服务状况, 并据此进行服务管理。在本项目中的统计报表主要包括服务单统计报表、故障报修统计报表、硬件故障统计报表、网络故障统计报表、软件故障统计报表、服务质量统计报表、资产统计报表、服务费用统计报表、运维服务周报和月报表等九大类, 在每个大类中又包括多种具体的统计报表, 共计有45种统计报表需要进行格式设计和说明。

4.7 IT资产管理和运维服务管理系统软件是对前述的服务管理流程、服务组织结构、服务规范和管理制度、数据表单、统计报表等内容的固化, 通过计算机软件系统的方式将其固化到计算机程序中, 从而保证这些管理规则的严格执行。因此, 对该系统软件的需求分析与设计应当在前述各个方面的设计基础上进行, 同时兼顾今后可能存在的变革, 并适当考虑软件系统的灵活性进行系统分析和设计。根据本项目的具体需求, 其IT资产管理和运维服务管理系统软件的功能模块主要包括个性化视图、事件管理、网络运维管理、资产管理、运维档案管理、厂商资料管理、知识库、统计分析报表、用户意见反馈、系统管理等。

5 项目实施结果与结论

笔者根据本文前述的实施方法和过程, 对本项目的运维服务质量进行化化和改进。由于本项目的服务质量对客户和W公司双方都有较大影响, 所以本质量改进项目得到了双方各级领导的重视和大力支持, 从而较顺利地完成了质量改进工作任务, 取得了预期的质量改进效果。

本质量改进项目的成功实施, 验证了笔者在实施过程中所应用的项目化管理和实施方法、PPMT运维服务管理实施框架、IT运维服务管理体系建设的主要内容等, 在IT运维服务管理及其质量改进中是行之有效的。IT服务管理体系的建立, 使服务提供商“建立起一套持续改进的机制, 使自己能不断地发现问题、解决问题”[1], 从而从根本上解决了服务质量问题。这对关注IT运维服务管理及其服务质量的其他同行们, 无论是客户还是服务提供商, 均具有一定的参考价值和借鉴意义。

参考文献

[1]戴颖达.质量管理实务教程[M].北京:科学出版社, 2009.

[2][荷兰]Jan van Bon.IT服务管理——基于ITIL的全球最佳实践[M].章斌, 译.北京:清华大学出版社, 2006.

[3]李福海.管理学新论[M].成都:四川大学出版社, 2002.

[4]陈禹六, 李清, 张锋.经营过程重构 (BPR) 与系统集成[M].北京:清华大学出版社、施普林格出版社, 2001.

IT运维管理体系建设案例 篇3

AMT集团 源天软件:

邱兢华东公司总经理

邵立人市场部经理助理

于耀东高级客户经理

一.要么转型,要么破产

中国电信是国内电信运营业的“百年老店”,从诞生初期的“皇帝的女儿不愁嫁”到与中国移动、中国联通“三分天下”,再到今年年初成功抢得国内三张3G牌照之一,并在美国《财富》杂志评选的2009年500强企业榜占据263位,中国电信的发展经历了多次痛苦转型。

无论是固定电话、移动电话、互联网、2G、3G还是附著其上的诸多增值服务,在中国的信息高速路上,中国电信和这些创业者们一路超速狂飙,创造出一个又一个电信奇迹。在他们高歌猛进的同时,电信行业这条车道却在不断地变道,从一车道到七车道,一会是五车道如今又成三车道,一不小心就会被挤出赛道。

09年初,中国电信又迎来了新一轮转型,不过要说这次转型是3G牌照的发放敦促了电信业重新改制,不如说是中国电信主动迎向挑战。与中国电信04年被移动业务挤占了固网用户而被迫转型的尴尬处境不同,这次中国在3G业务推出之前就开始了抢占市场先机的准备。电信人认识到:“如果过分依赖于某种产品的收入,当其生命周期过去,就会有很大的经营风险。” [1] 只有再次业务转型才有出路。

居安思危,谋定而后动。

3G发放之后,电信业将很快迎来2G与3G的市场拼杀,对于运营商来说,这不啻是一场残酷的生死较量。如何在市场中取得先机,稳步推进3G业务,避免恶性商业竞争?运营商应该按照用户已有的、潜在的需求,分阶段来推进3G业务。他特别强调,多样化的信息化解决方案,可以推动3G与城市管理、电子商务、数字娱乐等产业的融合创新。

中国电信长江研究院(化名)的管理者已经意识到,真正持久的商业成功不可能仅仅是个人的成功,也不是一时得势的成功,而是企业商业模式的胜利。虽然在通信行业,框架是国家定的,但是企业的发展却最终取于决市场和消费者。普通老百姓会选择最便宜、最高效、最科学的资讯业务,他们的选择和政治无关。而作为电信研究院,更应把握到这一市场走向,积极规范电信业务的管理和实施。这不是简单的新产品开发式的炒作,而是真正延长企业寿命、提高业务质量、增强核心竞争力的必由之路。

二.做你最擅长的, 其余的外包

西方管理学之父彼得•德鲁克曾预言:在10年至15年之内,任何企业中仅做后台支持而不创造营业额的工作都应该外包出去。“做你最擅长的,其余的外包!”已经成为欧美企业并将成为国内企业最重要的生存法则之一。

IT运维不是中国电信长江研究院的长项,怎么办?把不擅长的IT 运维外包出去?电信研究院的管理者想的却远不止这些。IT运维不仅仅是企业一个重要的支持业务,更是企业管理能力升级的一个良好契机。如果把企业的信息化建设工作简单地交给一个专业软件公司来做,那么信息化很可能仅仅停留在公司业务表面。而管理系统真正迷人之处不仅仅在于让业务上线,或者实现异地办公,优秀的管理系统能够成为企业的智库为管理者提供决策支持。将公司的管理层级扁平化成一层薄薄的数据。

由于缺乏经验,一开始找的IT 运维外包公司的产品让中国电信长江研究院十分失望。总结经验之后,电信研究院的管理者们认为:

首先,选择外包IT服务来支持其业务的公司,比没有进行IT外包的公司,成本更低且运行效率更高。所以IT外包服务一定会给企业带来更多的收益。IT外包的思路是正确的,这一点不容置疑。

其次,专家研究和大量企业实践表明,在IT项目的生命周期中,大约80%的时间与IT项目运营维护有关。 Gartner Group的调查也发现,在常出现的问题中,由于技术问题或产品(包括硬件、软件、网络、电力失常及天灾等)方面的其实只占20%,而流程失误方面的占40%,人员疏失方面的占40%。流程失误包括变更管理没有做好、超载、没有测试等程序上的错误或不完整,人员疏失包括忘了做某些事情、训练不足、备份错误或安全疏忽等。

所以,如果电信研究院选择的软件公司对客户所在行业业务了解不深、软件公司的服务肯定也很难做到非常专业;如果按照各软件公司的专长来做电信的各类管理系统,不同的管理系统“各自为政”,那么在上线之后管理系统很容易成为“鸡肋”:不仅不能实现对企业核心业务的有力支援和保障,还会在不同部门之间引发员工的矛盾、增加业务流程的复杂度。对于中国电信长江研究院来说,选择一家管理软件产品多但是成功率低的软件公司绝对不如选择一家在电信行业有一定积累、实施成功率高、二次签约率高的软件公司来得更有保障。

最后,单纯专注管理软件研究开发的软件公司可能不能很好地理解中国电信长江研究院管理的要求。电信真正需要的是应该一家拥有管理咨询背景的软件公司。从公司管理状况的诊断开始,一步一步完成管理系统的前期调研、设计以及上线。

当实施IT管理咨询和系统实施的思路被梳理出来以后,中国电信长江研究院召开了第二次招标。AMT集团旗下的上海源天软件有限公司提出:一套完整的企业的信息化建设工作应该包括以下内容:信息化规划(咨询)、设备和软件选型、网络系统和应用软件系统建设、整个系统网络的日常维护管理和升级等。当IT运维项目建设完成之后,中国电信长江研究院完全可以把主要精力投入到专注产品开发和业务研究中去,而把IT运维这些支持业务交给源天来做。源天会以“保障研究院办公网络及各应用系统的正常运作,让研究院员工享受有效、快捷的 IT服务,为提高工作效率创造良好的IT环境。”做为此次 IT运维项目的宗旨。

三.挑战IT外包极限 ——IT运维内容介绍

强有力咨询背景是完成此次中国电信长江研究院IT运维项目的有力保障。但对于中国 电信长江研究院这样一家拥有数百名科研人员的高科技企业来说,无论业务上的转型还是管理上的转型都不是一件轻松的事情。要推IT运维系统,面对的阻力如下:

1.研究院自成立以来,科研成果和开发项目屡获部级和某市优秀科研成果奖,一大批拥有自主知识产权的科研成果在集团内得到广泛应用。研究院在科研开发上的成功无疑也是管理模式的成功。要改变已经被市场证明有效的管理模式肯定要冒一定的市场风险。

2.管理转型意味着全院科研人员需要改变原有的工作习惯,虽然全院科研人员的平均年龄较低,但是也包括一批年纪比较大的电信行业资深专家学者,要他们学习并适应这套新的IT系统,而且是包括项目、文档、外部网站、一卡通、门禁等等一系列的IT管理项目肯定需要一段时间。

3.中国电信每年大量的新品研发和老产品维护一直依赖mail和书面工具来进行需求汇总和审批。原来上的 IT运维系统不尴不尬地夹在中间,废旧立新工作不能影响正在进行的研究开发工作。

4.不招人喜欢的员工门禁、考勤、终端控制等IT项目。虽然考核不仅能够避免人为因素干扰,而且还能促使员工自觉提高。但因为涉及员工的利益,很多人会因为担心考核对自己的不利影响而默默抵制。

根据这些问题,源天提出的解决办法是:首先,管理模式上仍然保留中国电信长江研究院原有的管理模式,IT管理系统仅作为辅助工具,梳理出管理流程图,以流程节点为单位要求员工提交相信的资料文档,据此提高管理中各项工作流程的效率。由于这种模式本质上还是原来的管理方式,把员工对新管理模式产生排异的可能降到最低。

其次,针对实施中可能存在的阻力,电信研究院管理者们认为应该逐步推进IT运维的实施。系统梳理IT运维中的步骤,有策略地组织不同功能模块上线。先从知识管理开始,在该模块实施成功后再进行下一个项目管理的实施。这样既为科研人员适应系统留出了时间,也让系统上线后可以根据电信研究院的需求进行技术测试、灵活修正有了保证。

再次,重新梳理、备份研究院的文档资料。把项目资料系统整理并重新录入到IT运维系统中去。

最后,针对员工中可能出现的抵制情绪,堵不如疏。在考核系统上线前应和员工事先沟通,要让员工认识到:绩效考核制度不管如何变革,重点对象都是广大员工,所以没有广大员工的理解与支持,一定不能够很好地执行。而且绩效考核对于员工来说绝对是利大于弊,公司公平审核体系一旦建立,同工不同酬或者工作安排不合理奖惩不透明等情况都将极大改善,其实员工才是考核最大受益者。

经过与源天软件公司的充分沟通并结合中国电信长江研究院当时的转型需求,源天软件把电信业务分成了五期。

第一、二期以源天软件最擅长的知识管理、项目管理系统打头炮;第三期、第四期在协同知识管理平台成功实施后向资产、财务统计管理系统上进行深化应用。在第五期提供全面IT运维服务。

经过梳理,中国电信长江研究院第五期的IT运维项目主要包括以下内容:

办公类

1.1研究院外部网站系统

1.2外部邮箱维护管理

1.3研究院 OA 管理系统

1.4研究院 PC/笔记本电脑桌面系统

1.5研究院 sap系统

1.6研究院知识管理系统

1.7研究院图书管理系统

安全类

2.1研究院门禁系统

2.2研究院考勤系统

2.3研究院 VPN 远程办公系统

2.4EAD终端接入控制系统运行维护服务

2.5研究院 Symantec杀毒系统

2.6安全和病毒公告

2.7院领导PC/笔记本及各部门打印服务器巡检

会议

3.1研究院4楼三院互联视频会议系统

3.2研究院1801新视通视频会议系统

3.3.研究院电话一呼通会议系统

网络

4.1研究院OA网络

4.2.研究院OA无线网络

4.3研究院100M半C公网

4.4研究院实验室骨干网络

4.5研究院电话/ADSL网络

4.6研究院2M传输链路

应用服务器

5.1应用服务器维护服务

5.2服务器安装

其它

6.1研究院实验室机房管理

6.2研究院内部信息化资产管理

据不完全统计,此次IT运维项目涉及七个功能大类(办公、安全、会议、网络、应用服务、备品备件、实验室),共计27个细项的内容。几乎囊括了电信研究院除业务之外的全部管理信息化需求。项目需要对电信研究院几十台高端服务器,数百台网络交换机、数千台桌面PC电脑进行管理。

这不仅对电信研究院来说,是一个囊括了所有管理业务的重要外包,而且对源天软件来说也是对整个组织管理系统整体IT外包业务的首次尝试。在电信行业领域内,更是一个IT运维规模的突破。

四.服务的提供方式

外包服务的提供方式

上海源天软件有限公司提供一名全职的IT外包经理和5名全职专业运维工程师常驻服务地点,为中国电信长江研究院提供现场服务。

上海源天软件有限公司提供的服务方式:

1、IT故障保修热线:5875****;

2、电子邮件支持;

3、现场负责人移动通讯工具;

4、上海源天软件有限公司提供5×8小时技术支持及故障受理、处理和解决服务。

外包服务的质量控制体系

为了保证研究院能够得到优质、高效的技术支持,并与用户保持紧密的合作关系。要求IT维护服务外包公司通过以下方法来实现对IT 服务的质量控制。用户服务请求记录与跟踪规范为了对提供给用户的解决方案进行有效质量跟踪与分析,沿用了微软在技术支持方面的经验,严格要求所有技术支持工程师必须详细、详实地记录维护日志。维护日志主要包括一下日志必须包含以下内容:

1) 用户的姓名

2) 电话

3) 负责工程师的姓名与联系方式

4) 服务起止时间

5) 问题分类

6) 问题描述

7) 给出的排错步骤以及结果

8) 最后的解决方案

9) 用户的所有反馈

11) 用户满意度

技术主管定期通过维护日志,对工程师给出的解决方案与问题解决进度进行考核,以此对工程师的技术水平,服务质量进行考察并给出改进建议。

维护服务承诺

中国电信长江研究院要求的IT维护服务时限:

上海源天软件有限公司承诺,针对客户的需求,5分钟响应。

需要到达客户现场的服务,上海源天软件有限公司在限定时间内到达现场。如有特殊情况,双方协商确定。

用户需签字和满意打分。

建立客户随机抽样回访机制,提高客户服务质量。

建立完整文档管理机制,并登记IT服务请求处理信息和维护巡查信息,保证各项业务稳定运行。

定期提交维护报告。

全院信息化维护满意度85分。

全年各IT系统、网络、应用中断时间<60分钟。

遇特殊紧急事件,双方协商确定。

五.两支队伍,一个目标

IT业务外包了,中国电信长江研究院还需要自己的IT队伍吗?

一个外包项目的成功需要多个员工,包括那些了解和熟悉业务的人、擅于与客户建立并维持好关系的人。而对于一个长期的IT运维业务来说,监管和维护人员非常重要,虽然软件运营商能够提供企业或缺的IT运维系统,但是在实施过程中,如果过分依赖外包服务运营商,企业将面临无法掌控业务的危险。

事实上,在中国电信长江研究院IT运维项目正式开展以来,该电信原来的IT部门组成了一支2人的外包协作队伍和源天的项目组一起工作。在当IT运维系统整体上线之后,这支队伍还将继续负责电信的IT运维系统的维护。

中国电信是信息运营业的“百年老店”、中国电信行业的“母体”、并具有从传统固网运营商到现代综合信息服务提供商的经历,在IT维护这块并不缺专家,所以在合作过程中,源天软件并不需要负责对电信的IT业务人员进行运维业务的培训。那么这两支队伍是如何在一起并肩战斗?

首先是一致的目标,中国电信长江研究院的IT团队和源天软件的项目组都有一个共同的心愿:把IT运维项目做好,成为行业的标杆。虽然双方的出发点不同,但是一致的目标无疑是双方的合作基础。

其次是深厚的合作基础,在IT运维项目之前,源天软件与中国电信长江研究院已经有了四期的合作经历。早在知识管理协同平台项目中,由于系统要求规范上传文档,要登记工作进度,让研究员非常不习惯。为了让研究员们习惯并喜欢上源天协同知识管理平台,源天的实施人员就在系统中加了很多可以自助的资料,比如电子图书馆、文档规范模板等,这样系统可以比较方便地检索和上传。此时电信的IT人员也积极地与源天软件合作,帮助测试网速、服务器运行和数据备份等。双方长达半年多的磨合期让两支团队在后期的合作中沟通顺畅。

然后是明确的职责分工,在项目中,源天软件的顾问和开发人员是项目的执行者和建议者。电信的领导和IT 部门是项目的管理者和监督者。明确的职责分工是规范合作的前提。

最后是共享的需求营造了长期合作的纽带。源天软件的公司文化核心“共享”,在双方合作中两个团队互相分享IT运维项目中的需求、经验、知识。慢慢在双方的合作中形成了一个良性的共享圈子,让双方的长期合作关系更加牢固有效。

银行IT运维管理的心得 篇4

银行运维的压力非常大

• • • 随着金融市场的开放,银行业的风险控制会面临挑战,风险管控优先级要放到最高。尤其是系统风险的的防范,要使用先进的方法论和工具,须做到精细化的风险管理。银行的科技部门压力很大,业务不断增长要求IT持续满足业务需求,系统多,耦合多。一个新系统的建设往往要设计多个系统,各个厂家之间无法协调,问题经常出现。现在银行的系统的建设非常困难。基本上所有需要的系统都了。但是可能不太好用。主要是系统升级,或者部分新的系统的建设。这些都涉及和其他很多部门,系统的关联。系统的上线也需要非常长的时间。• 公司内部共有约上百个系统。系统越来越多。工作越来越多。不象以前可以简单地上一个新的系统,几个月搞定,很有成就感。现在不仅没有,担心的事情,调节的事情一大堆。• 现在有很多公司给银行提供IT产品和服务,选择看似很多,但实际看来做好一个系统确实越来越难,希望各个厂家要充分理解客户和客户的需求,有创新的想法和做法提供到用户,而不是只是关注自己产品和服务本身,这样双方的合作才能可持续发展。• 开发商方面的人员变动非常快,营业和技术人员。刚刚熟悉了,找到了一个好的开发团队,转眼人不在了。现在上一个新的系统,不仅要确认这个公司如何,这个项目经理如何。如果这个公司或者这个项目经理不好,也不能用。• • 数据集成和治理:系统复杂而分散造成数据分散和标准各异,经常无法得出一份权威的报表,矛盾凸显。需要花大力气进行数据的管理。

业务部门不理解科技工作,科技人员不大懂业务,往往会造成沟通困难,项目实施进度缓慢。一个经验是让科技人员到不同的业务部门轮岗,让他们熟悉业务。做项目时,这个人就是部门协调人。• •

但是运维系统很难上

• • • • • IT部门主要应对业务部门的要求,开发了很多的系统

IT部门对于自己的系统的自动化,运维管理的投入和开发确是很少。

随着银行的业务系统的膨胀,复杂度的增大,IT系统的风险在加大。

IT部门的高层对风险的认识比较高,但是他们不清楚具体的对应方法。

IT部门的底层,各个部门的认识不统一

开发部门:着眼于开发 银监会要求银行提供不间断服务。在奥林匹克,万博等重大活动时要求行长签署保障书,军令状。

去年以来有几个重大事故,都是运维人员的失误造成。以下银行事故:

– 华夏银行,光大银行系统,民生银行系统事故。IT主管或被免职,或被警告

运维部门:希望能够对系统进行统一的管理维护,但对开发完毕的系统

没有修改的权利

具体操作人员:更多地关系自己的工作,对如何改进缺少想法

运维产品内容

• ITIL流程管理

运维管理流程控制,综合服务台。大中型银行需要。但是千万注意CMDB,这个东西真难搞,搞不好,一身问题。产品:BMC • 综合监控(各类银行)

相对比较容易理解:网络,硬件,中间件。

问题:应用的监控,需要开发。联动太深,以后对应用程序的变动又会有影响。只能是浅层次的结合。

产品:IBM Tivoli,BMC,日立 JP1 • 自动化(各类银行)

一般这个概念还不太为人知道,国外应该是日本银行做的比较好一些。国内做的相对比较早,比较好一点的是浦发银行。

内容:批量处理的统一自动调度,灾备切换流程自动化,各种手工作业的自动化。相对比较难以了解,但是很实用,可以一步拓展。其实就是流程化,但是和一般的流程不同,可以对系统自动进行操作。

问题:技术人员和开发厂商对这个概念还不太明确。产品:日立JP1,其他公司也有,但内容相对不太全面。

如何高效规范的做好IT运维管理 篇5

所谓 IT运维管理,是指单位 IT 部门采用相关的方法、手段、技术、制度、流程和文档 等,对IT 运行环境(如硬软件环境、网络环境等)、IT 业务系统和 IT 运维人员进行的综合管理。普通企事业单位的IT运维管理,存在着重操作、轻理论,重结果、轻总结的实际情况。根据相关统计,在日常的IT运维中。大约70%以上的故障是由业务人员首先发现的,而IT运维人员更多是担任救火队员的角色,表明了运维工作存在着大量的监测盲点,IT运维的工作处于相对被动的状态。这种传统的“见招拆招”式的IT运维管理方式已经不能满足企事业单位内部日趋扩大的信息化应用,而且在一定程度上也制约和影响了业务的开展。

IT管理和运维工作涵盖了各行业的各岗位中,如何提高工作效率,规避风险,更好的做好IT管理和运维工作,已经成为一个不断探索和研究的新兴课题。笔者认为,应从两个层面加强和完善IT管理和运维工作,可以改善IT运维工作的现状。

一、转变IT运维管理工作方式和理念

强调从技术型向管理型转变。各企事业单位的应用系统和网络系统已经成支撑业务正常运转的重要基础,保证应用系统和网络系统的正常运行和使用成为了IT运维工作的重中之重。IT运维部门的职能应当从传统的重服务轻管理,逐步转变为服务与管理并行,规范化与人性化相辅相成的模式,以适应现代化信息的工作模式。

二、建立完善的内部信息共享平台 从基础设施。应用系统和业务服务三个方面打造完善的信息共享和资源监控平台。能建立有效的信息资源库,减低对关键技术人员的依赖,为日常IT运维和 管理工作提供有效的保障:基础设施管理方面,对网络,应用系统软、硬件等资源进行细化管理,详细记录电子设备的出入库、维保、报废等环节。保证资源的有效 利用;应用系统管理方面,对于各类应用系统的备份,日常维护进行有效管理控制,保证所有应用系统数据的一致性、准确性、及时性、可用性和完整性,并根据实际需要不断进行改进、完善或更新;业务服务管理方面,尽可能的记录所有的事件要素,包括问题描述、解决方案、操作人员等等。使得部门对人员的考核有了量化的标准,同时这个过程也有助于知识积累,形成有效的知识库,可以极大地减少对关键人员的依赖,降低人员流失的风险。

三、清理、简化现有IT运维管理制度

形成适合企事业单位管理实际的制度体系。以建立完整、规范、有效的内部规章制度体系为目标,紧密联系工作实际,按照适用、可行、合法、有效的原则,对现有规章制度进行全面的自查和清理。按照IT运维管理工作的职能分工分层次、分步骤地对制订的各项内部管理制度规程进行分类清理,从制度内容的适用性、可行性、依据和效力的合法性、执行的有效性等方面进行了逐条审核,并结合实际工作,对上级部门制订的内部管理制度与当前实际工作不符的情况进行修订和完善。逐步摈弃传统的“人管人”的工作模式,形成以制度带动人,以制度带动工作的长效机制。

四、建立例行巡查和通报制度

IT运维部门的负责人和业务主管可通过内部信息共享这一平台,对业务进行有效的监督。一是定期对记录的相关事项进行巡查,审计已登记发生事项的规范性。二是对正在发生的事件实时跟踪,及时了解事件的进展状况。规范各个流程的操作,从源头避免业务差错的发生。三是建立采集问题,核实整改问题及问题通报三个环节的通报机制,以提升力IT运维管理的效率。

五、加强与内部审计部门的业务合作

内部控制审计对组织治理、风险管理、改善控制效率和效果等方面有很大的促进作用。IT运维部门可配合内部审计部门进行运维管理,将内部控制审计作为常态化审计类型,通过这种方式,突出内控特点,运用规范的审计方法和评价体系,注重从控制、风险、管理等宏观层面查找问题、提出建议,以达到促进IT运维管理工作,完善内控和加强管理的目的。

六、通过内部审计部门,加强督导、整改等工作的实效

在IT运维管理工作的过程中,不仅要发现问题解决问题,更重要的是要形成完善的IT运维管理工作规范和流程。在这点上,可以通过内部审计部门对企事业单位内部进一步规范制度、程序和方法,形成对风险进行事前防范、事中控制、事后监督和纠正的动态过程和机制,强化重要业务环节的风险控制。加大检查力度,切实有效地推进督导、整改工作,建立内控管理的长效机制。

IT运维管理体系建设案例 篇6

目前,我国IT领域已经由以建设为主逐步过渡到建设和运维服务并重的新阶段。加强IT基础设施的运维服务,使IT系统能稳定、可靠、安全的运行,已成为国家在信息化发展中重点关注的方向。我国把信息产业列为鼓励发展的战略性产业,近年来连续颁布了鼓励扶持该产业发展的一系列优惠政策,为信息产业持续发展创造了有利的政策环境。2011年12月,工信部发布《软件和信息技术服务业“十二五”发展规划》,规划明确了“十二五”的发展思路和发展目标,确定了10项发展重点和8项重大工程,提出了相关政策措施。

据IDC研究数据显示,2009-2011年,中国BSM解决方案市场保持了高速的发展;2011年市场容量达到人民币43亿元,总体市场比2010年增长了33%,约为2008年的2倍;2012年,中国BSM解决方案市场容量约为59亿元。目前,国内BSM的主要应用领域为IT成熟度较高的电信、金融和政府等领域。

前瞻产业研究院《2014-2018年中国IT运维管理行业经营模式研究与投资预测分析报告》统计数据显示,2014年中国十大IT运维管理公司排行榜如下:

北京神州泰岳软件股份有限公司

亿阳信通股份有限公司

北京直真科技股份有限公司

北京华胜天成科技股份有限公司

三维通信股份有限公司

国脉科技股份有限公司

上海石基信息技术有限公司

福建星网锐捷通讯股份有限公司

东华软件股份公司

IT运维管理体系建设案例 篇7

(一) 网络层的安全分析

一方面是网络线路的问题, 业务系统的访问和数据的传输需要跨地区, 线路的中断或网络中数据的传输异常可能给工作带来严重影响。另一方面, 一些网络设备常常成为入侵者进攻的渠道或者是技术人员对网络设备配置不当也会造成网络安全隐患。

(二) 系统层的安全分析

一方面操作系统本身或多或少存在各种各样的漏洞。另一方面是存储了重要数据的服务器或运行着重要业务系统的服务器, 因不可控因素或人为问题可能导致数据泄露或系统崩溃。

(三) 应用层的安全分析

一方面各业务系统可能缺乏完善的安全代码规范或开发水平限制, 自身存在一些程序上的漏洞。另一方面在内部人员中安全意识不强或无意的误操作也会威胁信息系统的安全。

通过以上分析, 可以看出我们目前的信息系统仍然处于故障出现、响应、排查的局面, 因此, 建立一套自上而下的主动管理的IT运维服务管理平台势在必行。

二、IT运维管理平台建设内容

中国人民银行保定中心支行根据自己内部信息系统现状, 以强化主动监控和快速定位故障, 提高运行效率, 规范运行管理为目的, 把IT运维管理平台建设分为两部分:资源监控管理和运维服务管理。

(一) 资源监控管理

资源监控管理主要是对管辖内的IT对象的运行状况和系统性能进行实时的监控, 并对系统的运行异常表现及时报警。资源监控管理分为网络管理、操作系统管理、数据库管理、中间件管理、应用系统管理、机房环境管理等IT基础框架的管理。

(二) 运维服务管理

运维服务管理的目的是通过规范科技运行维护流程和技术服务工作, 建立一套标准的运维服务流程和一个集中监控、分级管理的技术服务体系, 整合全省技术服务资源, 进一步完善运维知识。在运维服务管理中, 参考了ITIL的先进理念及标准。运维服务管理包括事件管理、问题管理、变更管理、配置管理、知识库管理、电子设备管理等。

三、Nagions的部署

(一) Nagions介绍

Nagions是一款遵循GPLv2的开源网络监控软件, 可用来监控指定的多种系统的主机、服务, 并可在它们的工作状态发生变化时通知管理员。Nagios通常由一个主程序 (Nagios) 、一个插件程序 (Nagios-plugins) 和四个可选的ADDON (NRPE、NSCA、NSClient++和NDOUtils) 组成。

(二) Nagions安装

1. 基础支持套件的安装。

Nagions的正常运行需要一些基础套件的支持, 如:apache、gcc、glibc、gd库等。

2. Nagions的安装。

这是Nagions主程序的安装, 需要在linux环境下进行安装。

3. 安装nagions-plugins。

nagios-plugins是nagios官方提供的一套插件程序, nagios监控主机的功能其实都是通过执行插件程序来实现的。

4. 安装nagios-snmp-plugins。

nagios-snmp-plugins是一套用Perl编写的通过SNMP方式监控主机的插件程序。

四、结语

在人民银行对信息化手段依赖程度越来越高的今天, 如何确保信息系统的安全、稳定和高效的运行显得更重要。河北省保定市中心支行结合自己的实际情况, 以Nagions软件为基础, 参考ITIL先进理念, 建立了自上而下的一体化IT运维管理平台, 从而加强了主动监控, 提高了运行效率和故障定位, 最终为信息系统安全、稳定的运行提供了保障。

摘要:中国人民银行保定中心支行信息化系统经过多年的建设, 已经初步形成了包括国库、支付、信贷、货币发行、账户、人事等多项业务的完善的金融业务应用系统, 随着业务的不断扩展和信息化建设的深入, 业务对信息系统及网络系统的依赖程度也越来越紧密, 这就对IT信息系统运行的稳定性、可靠性提出更高的要求。文章根据中国人民银行保定中心支行IT信息系统的现状, 依据ITIL流程管理理论建立了基于Nagions的IT运维管理平台, 从而加强了保定中心支行对业务系统的运行维护能力, 提高了运维的科技化水平。

关键词:信息系统,运维管理,Nagions

参考文献

[1]刘默玲.信息系统安全体系[J].广东广播电视大学学报, 2002, (3) .

[2]甘雯.基于ITIL的集中化IT运维管理流程设计与实践[J].广西通信技术, 2008, (1) .

[3]冀松杨.ITIL在银行IT服务管理中的应用[J].中国金融电脑, 2009, (3) .

IT运维管理体系建设案例 篇8

2.1.1 系统工作模式..............................................................6 2.1.2 网络安全设备管理.....................................................6 2.1.3 面向网络的一体化管理.............................................7 2.1.4 网络拓扑管理..............................................................7 2.1.5 设备管理......................................................................9 2.1.6 性能管理....................................................................10 2.1.7 故障管理....................................................................12 2.1.8 流量管理....................................................................13 2.1.9 报表管理....................................................................16 2.1.10 安全边界管理............................................................17 2.2 资源监测管理.................................................................18

2.2.1 服务器系统管理........................................................18 2.2.2 数据库管理................................................................19

2.2.3 中间件管理................................................................23 2.2.4 基础应用平台及通用服务管理...............................24 2.2.5 基础运行环境管理...................................................26 2.3 告警监控管理.................................................................26

2.3.1 告警管理....................................................................26 2.3.2 告警通知....................................................................27 2.4 统一监控展现.................................................................27

2.4.1 灵活拓扑展现............................................................28 2.4.2 网络监控展现............................................................29 2.4.3 业务监控展现............................................................29 2.4.4 资源监测展现............................................................30 2.4.5 节点监测展现............................................................31 2.4.6 告警信息展现............................................................31 2.4.7 灵动可视化平台........................................................32 2.4.8 扩展展现集成接口...................................................32 2.5 报表管理.........................................................................32 招标要求 1.1 总体设计要求

(1)系统平台设计应该符合信息行业和本行业的标准,系统内部数据采用标准的格式,系统构架采用标准开放的应用框架和组件结构。

(2)为保证系统平台的统一性,要求软件/模块必须使用同一品牌,所有软件/模块必须拥有完全自主知识产权,不能依托于其他第三方的平台。支持主流操作系统和ORACLE数据库,全中文界面,提供友好、直观、易懂的图形呈现,提供强大的信息交互与管理能力。

(3)系统要求运行在开放的TCP/IP网络环境下,基于J2EE平台开发,结合C++、CORBA标准和技术,采用B/S + C/S架构,支持IE7,IE8等标准浏览器,实现系统界面、业务逻辑、数据集成等功能,采用标准接口进行系统间的数据交换与数据共享。

(4)监控子系统要求支持远程监控和代理、CLI等多种方式监测。支持对Windows、Linux、Unix(HPUX、AIX、Solaris„)平台系统的监测,支持Syslog安全日志的管理;支持多种告警方式,能够以Email、NetSend、外部命令、Snmp设置、Trap转发、Agent执行脚本、短信等通知方式进行告警;支持对所

有监控范围内IT资源的当前和历史运行情况进行统计,并生成各种分析报表和图表。

(5)平台要求支持统一身份认证的单点登录、统一权限管理和统一界面展现功能;

(6)系统平台要求提供友好的操作管理,能够根据不同管理层次的管理要求灵活定制不同的管理界面。

(7)系统要能够提供良好的集成接口,支持与第三方标准产品的集成部署;

1.2 项目建设目标与原则

IT运维管理系统平台项目建设的总体目标是实现对企业的网络、设备、主机、安全系统、数据库、中间件、应用系统等IT资源的可视、可控、可管理,从根本上提高IT运维管理水平,为企业核心业务系统提供有利保障;加强对IT系统及IT资源的监控与维护能力、提高维护工作效率、改善维护工作的质量,进而保证各系统维护水平的可持续性提升。

IT运维管理平台的建设应遵循开放性、先进性、安全性、可靠性、易用性等原则:

1.战略性原则

a)提供具有针对性、可行性和可靠性的技术解决方案 2.开放性原则

a)采用符合国际国内通用的标准协议

b)支持主流计算机平台、操作系统以及数据库厂商的各类软硬件产品。3.先进性原则

a)采用国内外监控和服务管理领域先进的技术和解决方案

b)在方案中要将监控和服务有机的结合起来,实现无缝集成。4.安全性原则 a)保证数据安全

b)不增加现有应用系统的复杂性,更不会降低现有应用系统的稳定性。

c)有严格的身份认证,实施对用户真实身份鉴别 d)采取分级用户结构,提供用户权限管理,防止未授权的用户访问;

e)有安全审计功能,配置审计时对生产系统不产生影响; f)日志安全存放,并有格式化的输出,便于检索和查询 5.可靠性原则

a)管理系统应该在系统结构、设计方案、设备选择、技术服务等方面综合考虑,保证系统能够安全无故障运行

b)安装在被监控对象上的代理或探测工具占用被监控对

象的资源在5%以内; 6.易用性原则

a)提供简洁、方便、有效的管理工具和界面,有完整的系统文档。

b)提供可扩充性的接口设计以便于维护人员的日常管理和维护;

c)采用CS+B/S结构;用户界面应有容错能力,所用术语应具有一致性;

d)用户进入系统的相应功能模块后,该模块所涉及的各项功能尽量在统一的一个界面中显示和完成,减少新界面的弹出;

e)系统采用集中、无需代理的方式运行,无需在被监测信息系统、服务器上安装任何代理软件,只需在一台网管机上安装,即可自动对整个信息系统进行监测和管理,不改变现有系统的应用配置,对现有系统性能影响甚微,安装实施、维护使用十分方便。7.知识产权保护原则

a)要求本项目涉及的所有产品符合国家对软件产品的有关规定,并具有相应的产品认证或许可,无版权纠纷。IT运维管理平台功能要求 2.1 网络监控与管理要求 2.1.1 系统工作模式

系统采用多层架构、信息总线技术,具备良好的性能和扩展性,系统为用户提供了C/S和B/S的两种展现模式,为不同关注层面的用户服务。以方便管理人员使用C/S对网络进行专业管理,运维人员使用B/S对网络进行值班监控。

系统具有拥有灵活、高效的网络采集引擎,通过对象识别、采集并发及针对的厂商扩展脚本,可准确、可靠的提供网络设备交互服务。系统利用ICMP、ARP、SNMP、NetBIOS、CLI等标准进行网络探测和信息采集,对发现的网元对象进行识别、分析、保存,形成统一的网管资源库,并在此基础上进行拓扑计算,生成物理、网络等不同层次的拓扑结构。

通过主动(ICMP、SNMP、CLI)与被动(Trap、、NetFlow、SFlow、镜像、NetStream)两种方式,系统可以从设备上获得各类性能指标和流量数据,经过长时间数据的跟踪记录,最终挖掘分析生成各种报表,展现网管部门需要的网络流量与负荷信息,以供对网络状态的合理评估与决策。

在对网络的不间断实时监测中,系统能够收集针对网络、设

备、终端及链路的各种事件,并利用过去在网管过程中学习得到的处理规则,系统可以对这些事件进行智能分析,并关联所有符合故障特征的相关事件,最终在故障发生前、或故障发现时发出正确告警,以便网络管理人员高效、及时的定位并解决问题。2.1.2 网络安全设备管理

全面支持CISCO、华为、中兴、北电、Foundry、Extreme、Avaya、H3C、DLink 等各种不同厂商、不同型号的网络与安全设备,提供各类设备的基本信息、CPU / MEM负载状况,设备可用状态、连续运行时间、响应延时、端口速率、ICMP连通性等设备属性与监测信息,亦可自定义SNMP监测内容。网络设备监测项主要包括:

 设备CPU利用率:监测网络设备的CPU使用率。

 设备内存利用率:监测网络设备的内存使用量、内存使用率。 端口速率监测:监测网络设备中指定端口的入速率、出速率、入丢帧速、出丢帧速、单播入帧速、单播出帧速、非单播入帧速、非单播出帧速、入错误帧速、出错误帧速。

 端口上下线监测:监测网络设备指定的端口的上下线状态。 自定义SNMP监测:可监测多个SNMP表达式(支持四则运算、时间差值运算等)对应的采集结果。 ICMP连通性监测:监测与网络设备的连通性。

2.1.3 面向网络的一体化管理

管理界面友好,能够提供实时的底层网络、设备、系统、数据库和应用服务运行状态的有效监控和统计、网络边界安全保障、告警事件列表及IP资源管理等功能,每个区域可以把各功能管理项获取的底层数据按照IT基础设施内在的关联关系,根据运维人员的使用习惯进行了人性化的重新整合呈现,改变过去传统网管生硬的专业指标分割罗列的风格。

在支持典型功能外,还可以从管理人员的角度出发,把平时经常关注的设备监测视图进行重新组织显示,从管理人员的角度进行查看。

提供web客户端,管理员在网络的任何位置,甚至是外网,都可以通过浏览器访问网络监控系统的后台服务器,实现随时、随地统揽全局。2.1.4 网络拓扑管理

提供能够提供准确直观的 1.发现的设备种类全面

系统支持多厂商的网络设备,可以支持的厂商包括CISCO、Juniper、Huawei华为、ZXR中兴、H3C、Enterasys凯创、Extreme、Foundry、Harbour港湾、CDRS神州数码、AVAYA、Nortel北电、3COM、ARRAY、D-Link、Maipu迈

普、Red-Giant锐捷、NetScreen、Topsec天融信、Riverstone等。

2.拓扑发现技术手段先进

支持通过SNMP、ICMP、NetBIOS、ARP、Traceroute、Telnet等多种手段自动发现、识别设备。在支持众多国内外设备的基础上,系统还对网络类型有很好的兼容性,可以很好的发现VPN、VLAN网络拓扑,提供拓扑的动态跟踪和更新功能,能够更加有效的反应网络拓扑现状。

提供网络拓扑动态发现和跟踪技术,可以通过单设备拓扑、多设备拓扑、网段拓扑、种子节点拓扑等多种方式的拓扑发现网络拓扑准确地展现出网络的当前拓扑情况。3.拓扑显示视图多样

系统基于Java平台,支持远程管理协议采集,系统对B/S、C/S混合支持。支持大规模的网络管理问题,系统支持将大型网络通过按照地域、部门等划分成多个相对较小的子网实现分级管理、提供远程管理工具辅助用户对大型网络进行监控和管理。用户可以根据自己的使用习惯选择合适的拓扑视图加以监控。能够提供以下拓扑图:

 物理拓扑——反映被管网络的实际连接的二层网络拓扑图,方便用户直观掌控网络的实际连接情况;

 网络拓扑——反映被管网络各个子网之间的连接关系拓扑图,方便用户从IP层逻辑组织网络的管理;  子网拓扑——反映同一网段内终端与二、三层设备的连接关系拓扑,方便用户进行终端设备连接状态的监控及故障诊断;

 Web拓扑——系统支持网络拓扑图基于浏览器的展现,通过浏览器的方式监测网络的运行情况,WEB拓扑图通过3-N级的方式展现网络拓扑、设备状态、端口状态。用户可以通过浏览器访问,通过浏览器来查看网络运行的情况。这种显示方式的好处是方便用户穿过防火墙,随时随地进行拓扑浏览监控。

 全屏拓扑——可以提供全屏拓扑,以便可以更为方便的全局浏览拓扑,同时也方便进行大屏展现

4.拓扑显示信息丰富

在拓扑图上可以浏览网络资源的详细信息,包括:  在拓扑图上集成设备状态、链路带宽流量、告警故障的展现,使用不同颜色、粗细、图标表示被管理对象的状态信息;

 提供快速查找和定位设备功能,可以通过设备名称、IP地址、MAC地址等信息,在拓扑图上准确定位设备,并显示出此设备的网络连接信息;

 自动记录设备的所有活动情况,如接入网络、设备迁移及上下线信息。

 便捷的浮动信息显示,浮动显示各类设备和链路的关键信息;

 集成丰富的右键管理菜单;

 集成一些常用管理工具,如多实例ping、remote ping、traceroute、telnet、MIB浏览器

 拓扑图无级缩放、全屏显示以及背景图设置。 手工修改网络设备的配置信息 2.1.5 设备管理

系统设备管理全面及时,能够提供设备管理的快照,提供管理的设备列表,并能够提供手、自动可选的设备配置备份功能。

1.设备管理的快照

在拓扑中可以轻松点击被监控设备进入设备运行监控界面,以Dashboard的方式浏览网络设备状态的CPU、内存、链路流量等当前运行参数,若设备出现告警事件或阈值告警,则在网络拓扑图上相关网络设备节点图标以不同的颜色显示,提示管理员进行处理。

2.直观清晰的设备列表

设备管理将系统所发现的所有设备以列表形式展现出来,用户可以方便的查看到设备的名称、类型、IP地址、MAC地址。用户即可以查看所有设备,也可以按类型查看或按子网查看。

用户可以查询所管理的各子网网段内IP地址的分配、使用情况,以及占用该IP地址设备的上联设备及端口的详情等。3.手、自可选的设备配置备份

系统集成主流厂商思科、华为、华三和神码等网络设备的配置备份功能,管理员可以设置备份策略,根据管理员配置的策略,系统自动将网络设备的配置信息备份到备份服务器上。减少设备出现故障时进行设备配置恢复的时间。

对于非主流厂商设备,可以通过TCL脚本编写交互工具的方式获取相应设备配置备份来实现兼容性的扩展。

系统提供了手动备份与自动备份两种备份功能。4.详细的设备信息分析统计

系统可以帮助用户统计网络设备及终端设备的详细信息,不仅包括设备名称、别名、厂商、型号等基本信息,也包括设备端口的类型、端口号、IP地址、MAC地址、端口速率、MTU、端口状态以及对端端口的详细信息,此外还支持SNMP

设备的端口各类出入栈二层桢传输统计情况,如丢包率、错包率等。

系统还提供动态的网管信息展现,如端口列表、ARP表、TCP/UDP表、转发表、CDP表、STP表、设备部件表等。2.1.6 性能管理

本系统管理平台提供了完善的被管理网络数据采集,分析,统计和报表功能,能够通过SNMP、ICMP采集方式,对网络设备的CPU、内存、流量等运行性能指标进行轮询采集。系统进行实时采集数据分析,并保持对网络性能和设备性能的跟踪和趋势分析。1.监测指标丰富

系统支持网络性能实时监测,能监测所有网络设备的当前运行负荷状况,包括:当前CPU利用率、当前内存利用率、入流速、出流速、入包速率、出包速率,到网络设备的端口流量、丢包率、错包率、Ping延时和丢包等运行参数超过预设阈值时,并能在拓扑图上根据用户定义阈值以醒目颜色显示。同时,系统提供对主机操作系统CPU、内存和硬盘使用情况的实时监控。此外,系统还提供对典型Web服务的可用性监控,如HTTP/HTTPS、FTP、DNS、DHCP、LDAP等常见应用服务,并且系统同样支持对主机和Web服务监控的阈值告警功能。在实时监测的基础上,系统还提供对历史性能数

据进行统计分析功能。

网管系统提供的实时性能监视可以实时监控网络设备的端口流量和丢包率等性能指标,并可以方便的给出这些指标的趋势、平均值和最大值,为故障的预测提供有力的分析工具。

通过系统能够设置性能的采样周期,能够以图形方式显示性能指标,并可根据用户的需要定义监测的指标。2.多层面性能监测

系统为网络管理员提供多角度的监测。除了提供网络、物理拓扑显示的图形性能提示外、还为网管员提供主动的面向设备的负荷监测、面向链路的流量监测、面向终端的活跃度监测等多层面的性能监测。 面向网络设备的负荷监测

能够监控到网络设备的CPU和内存使用情况,通过监控网络设备的负荷情况,将被动管理化为主动预警,随时可发现网络的隐患。

 面向链路的流量监测

链路性能直接体现网络上数据传输质量。网络上的延迟过长、瓶颈或丢包错包率增高都将会影响网络提供服务的质量。在拓扑图上通过节点的颜色变化、链路的颜色变化、总览列表的带宽占比统计,可以让用户从集成化界面中全面评估网络的整体性能状态,快速定位出网络的瓶颈和隐患。 面向终端的活跃度监测

终端活动快照列表记录了所有终端设备的当前运行状况,内容包括:设备名称、设备IP地址、上联交换机端口、当前在线状态、上次Poll时间、当前流速、当前包速、平均包大小,方便用户进行故障诊断和病毒分析。此外,还提供终端活跃度历史统计。3.监测配置简单

系统配置界面友好、过程简单,且配置完即可生效。同时,系统具有自动评估监测的能力,能够自动生成配置。另外,性能的阈值可在配置时设定,性能达到或超过阈值可触发各种形式的告警,如:邮件、短信、声音等。2.1.7 故障管理

通过系统故障管理,系统能够对故障信息进行搜集、分类、归并、压缩及告警通知,帮助网络管理人员即使定位故障源、故障类型及故障波及范围等,帮助管理员来解决日常出现的各种故障,从而确保在规定的时间期限内使网络重新投入运行。

系统能够自动获得整个IT环境的各种事件,包括网络设备的故障,性能的过载,流量的异常,服务器的异常性能,各类应用的故障,各类终端的变更等等。通过系统故障监控台,用户能

够对整个IT环境的运行情况一目了然。1.统一的故障分析引擎

系统通过内置的事件分析引擎,对获取的事件进行实时的压缩、归并,建立集中化的以故障为导向的集中告警展现。方便运维人员实时查看网内所产生的故障。

 通过对事件进行过滤、归并、相关性分析、传递等分析处理。将处理过的事件保存在数据库中。支持对故障持续时间较长的告警级别自动升级处理,支持用户自定义故障类型。

 对事件的严重级别加以分类,并分别通知相关人员(如:普通故障就只通知网络管理员,重大故障同时通知主管领导和网络管理员);不同的用户可以为自己定义自己的过滤和通知策略。

 故障管理能够实时监视并截获网络运行过程中所出现的故障,确定故障位置,以声音、电子邮件、短消息等多媒体方式通知网络管理员,并给出故障原因。2.多种告警类型

系统根据故障来源及故障信息所属专业将告警信息分为以下几类:

 网络故障告警

监测到链路或设备故障时,尤其是骨干链路Up-Down、核心设备离线等,发出故障告警信息。 网络性能告警

监测到网络设备、服务器的端口流量、丢包率、错包率、Ping延时和丢包、CPU利用率、内存利用率、磁盘利用率等运行参数超过预设阈值时,发出故障预警信息。 网络安全告警

 非法设备接入告警:未经过合法登记的设备接入网络后,系统自动进行告警,并根据配置采取主动拦截等联动处理。

 IP地址变更告警:IP/MAC/PORT地址绑定之后,如果出现用户私自更改IP地址的情况,系统发现将主动发送告警。

 主动接收设备Trap信息

系统能够主动接收网络设备、防火墙等设备发出的Trap故障信息,并在告警台统一展现给用户。3.直观的告警列表

系统把告警事件按节点和严重级别进行排序,并提供包括来源、描述、发生时间、告警名称、告警等级在内的详细列表。4.灵活的告警通知

系统提供了丰富的故障通知方法,包括:声、光、Windows消息、EMAIL、短信等方法,用户也可自己编写处理程序进行处理。

5.集成多种故障诊断工具

系统提供了各种工具帮助用户进一步监测故障的原因,包括:SNMP工具、Telnet、Ping、Tracert、NetBIOS、RemotePing等等,辅助用户排除故障。2.1.8 流量管理

系统为用户提供了细颗粒度的流量分析管理工具Flowmon,实现从端口到应用的广泛流量分析和统计。

通过Flowmon,系统能够实时监控系统流量,而不是历史数据回放;系统无须配置成本高昂的硬件探针即可实现设备实时流量的采集分析,从而避免在网络中引入新的故障点。1.支持多种流量采集手段

系统提供多种流量采集的方式,支持端口镜像流量、sFlow流量、Netflow流量等,Flowmon可以同时支持多个网卡和多种采集并行的流量分析,并为数据分析提供一致的访问界面。

考虑到网络数据流量分析的数据量十分庞大,系统不会保存所有的原始流量数据信息,而是仅仅保存分析加工后的归并

信息,从而降低服务器的存储要求。2.多维度实时流量分析

系统支持对流量实时分析,当流量数据采集到Flowmon之后,系统会对流量数据开始进一步的分析,提取有效的数据信息,主要通过以下处理过程:

 数据过滤:可以通过地址、端口、协议等条件设置数据过滤器,滤去不需要的干扰数据。

 流向分析:对数据包包头或者xFlow的包信息进行解码,获取数据包的流向信息,用于分析数据的来源和目的地,通过分析矩阵获取每个网络节点的流向情况。

 层次分析:系统对数据包进行1-7层的划分,用于分析全局的数据流量。

 协议分析:系统会进行协议级别的数据分析,系统采用了CSPAE分析引擎进行TCP/UDP数据流分析,可以分析大多数的常见TCP/UDP协议,包括:HTTP、POP3、SMTP、FTP、SNMP、DNS等常见协议。

 应用分析:系统会对一些动态协议进行应用级别的7层包头分析,从而可以掌握BitTorrent、eDonkey、MSN等P2P和即时通讯协议的流量情况。3.通过流量分析辅助网络的异常判断

 全局统计

通过对流量的分析,Flowmon可以对采集到的数据进行整体的评估分析,让用户了解网络的整体情况,主要包括:

 全局流量统计:从整体角度对网络流量的数据包情况进行统计,包括数据包的长度、TTL、总体流量、总体协议分布、总体TCP/IP协议分布、TCP/UDP端口分布等。 终端流量统计:从整体对终端流量的进行统计和排序。 协议统计

系统从协议角度对网络数据行为进行分析,并按照终端形成排名,便于管理员掌握网络中协议的分布和重点终端的数据行为。通过协议流量排名分析,可以有效地发现ARP病毒、蠕虫异常流量、BT流量、网络异常流量等行为。

 协议整体分布:从全局协议、TCP/IP协议两个级别提供协议的分布。

 全局协议的排名分析:从终端角度对全局的协议进行排名分析(按照TCP/UDP/ARP/ICMP/IPX/IGMP/OSPF等分类)

 TCP/IP协议排名分析:从终端角度对TCP/IP协议的组成进

(按

照HTTP/FTP/Mail/Telnet/…/SNMP/BitTorrent/eDonkey/Messenger等进行分类)

 会话统计

系统通过对流量的流向进行分析,并对TCP会话进行监测,从而获取各个网络节点的流量和会话统计信息。主要包括:

 终端流量通讯矩阵:以矩阵的方式展现终端之间的通讯关系和通讯流量。

 终端流向统计:本地网络和外部网络,多个VLAN之间各个终端的流量统计排名和总流量。

 终端会话统计:终端TCP建立会话的统计,按照TCP的端口进行展现。 终端统计

系统从单个终端节点的角度,分析单个终端的网络数据行为,主要包括以下几个方面:

 终端总体分析:包括活动时间、总的数据流量和包数、基本协议对比等

 最近24小时的流量统计:每小时的发送、接收流量的统计

 数据包的统计:从TCP会话、TCP 标志包、异常数据包三个方面对数据包进行统计

 终端协议分布:终端使用的各种协议的分布图

 其他统计:包括ICMP协议统计、最后一次的数据通讯统计等。

2.1.9 报表管理

系统能够为用户提供性能、告警、状态、资源多个角度的统计和分析报表。

系统具备报表自定义扩展能力,通过报表设计器,可以定制更符合需求的报表。用户对相应的系统监测数据进行统计后,能够以报表形式展现分析统计结果。报表包括:网络运行统计、节点延时统计、节点端口流量统计、设备CPU负载统计、设备内存占用统计、主机CPU负载统计、主机内存占用统计、Oracle数据库运行统计、服务运行统计等 1.端口I/O流量报表

通过网络设备的端口对流量进行统计,并以报表的形式进行展现统计结果。2.设备故障日/月报表

系统平台提供统一事件管理来解决分割管理的数据融合问题,通过以告警事件为导向,提供了清晰的、集中的事件管理。可以让管理人员对整个IT环境的各种硬件和软件系统的实时事件信息收集,对各类事件信息进行过滤、、压缩、归并等相关性分析与处理,智能化压缩处理海量告警事件,分析出真正的问题所在,实时呈现出完整的事件信息,并将

这些信息分发给负责服务水平监视的操作管理员。

系统支持以日/月为单位实时呈现所有的网络、系统、应用、安全、桌面等被关注的资源。3.设备清单报表

以直观的方式显示设备当前的运行状态。

系统能够根据设定,统计指定的子网内各设备上端口的运行情况。让管理员能够直观的掌握设备上的端口数量以及端口的使用情况,科学有效地分配设备的端口使用,提高网络环境的运行效率。4.性能报表

系统能够根据不同层次管理员设定的不同监测参数组合,自动生成所需的性能分析报告,提供的性能报告能够针对网络所有的被管理资源(服务器、数据库、中间件)的关键性能指标(CPU、内存、磁盘、进程使用情况)进行详细的展现,系统还能根据设定自动将历史报告发送给相关人员,提高决策效率。5.自定义报表

系统提供的内置报表,若无法满足现有需要,可以通过客户化工作。

2.1.10 安全边界管理

系统提供IP地址资源管理,对网络边界的安全和IP地

址的户籍进行管理。系统通过内置的设备合法性监测引擎,在不额外消耗网络带宽的情况下,自动发现和监测网内终端设备的基本属性(IP地址、MAC地址、主机名、连接的交换机端口等),系统能够通过IP/MAC/主机/组织/人等信息绑定,建立IP资源信息库。IP地址使用情况详细列举出系统发现的各子网内IP地址的使用情况,包括IP地址、设备名、端口号、端口名称、IP状态、上联设备、上联设备IP、上联设备端口等。

边界按照IP地址的“户籍表”,监控网络中IP的使用情况,对非法使用的IP地址进行拦截,将非法的IP终端隔离出网络,确保用户不能随意修改IP地址和防止IP地址盗用。

网络边界管理提供了IP地址使用的高级审计功能,方便对IP地址的使用进行历史审计和追查。

系统能自动跟踪终端的变化情况。发现有未经登记的设备、或违反IP/MAC/交换机端口绑定规则的终端设备进行告警。

系统能够通过IP/MAC/PORT绑定实时发现是否有非法设备接入局域网络及是否有用户私自更改IP地址的行为;根据安全策略配置通过手动或者自动的方法将非法接入设备隔离出网络,或者将已被拦截的设备重新开通网络连接。有效保障了网络的安全。

 拦截与放行设备:手动或者自动(根据安全策略配置)将非法设备隔离出网络,或者将已被拦截的设备重新开通网络连接。

 IP/MAC/PORT绑定:IP/MAC/PORT地址绑定之后,能够实时发现是否有非法设备接入网络及是否有用户私自更改IP地址的行为,如果用户私自更改IP地址,系统主动发送告警信息。

 终端合法性监控:系统通过业务监控系统的合法性监测引擎,能在不额外消耗网络带宽的情况下,自动监测网内终端设备的基本属性(IP地址、MAC地址、主机名、连接的交换机端口等),对私自变更设备信息进行告警。2.2 资源监测管理

系统集网络安全设备、应用服务和基础支撑系统等监测管理于一体,支持SNMP、Syslog、CLI(Telnet、SSH、WMI)、JMX等远程监控手段和Broadview UniAgent代理监测,各类标准应用协议仿真,拥有了500多种监测器,提供对整个业务网络的7X24不间断监控。 强大监测插件体系

无需二次开发,通过监测插件,不断增加监测器数量,扩展监测范围与内容。众多监测器工作独立,互不影响,保证整个监

测体系的稳定运行。

 灵活的监测时间调度机制和智能化的监测阈值模型

自定义监测时间与监测阈值,形成多样化、组合型监测策略,满足复杂环境下不同的监测任务要求。

 主机代理Agent监测和远程无代理监测两种监测模式

多方式、多手段的自由组合,兼顾业务网络各部分性能影响,适应不同监测条件。2.2.1 服务器系统管理

系统能够管理和监测Windows、Linux、IBM AIX、AS/400、HP-UX、SUN Solaris、SCO Unix等不同操作系统的服务器或集群的运行状态和性能数据,包括服务器的基本信息、CPU负载、内存利用率、应用进程、文件系统、磁盘空间和吞吐、事件与错误日志等信息的分析与监视。帮助用户及早发现服务器系统的性能瓶颈与故障隐患。服务器监测项主要包括:

 主机基本信息采集:主机的基本信息,包括:CPU数目、机器型号、系统名称、系统版本、IP地址、内存大小、总线程数目、磁盘名称等。

 主机CPU使用率:监测主机系统的CPU使用率。

 主机内存使用率:监测主机系统的内存使用量、内存使用率。 主机磁盘使用率:监测主机系统的指定磁盘使用率。 主机磁盘IO监测:监测主机系统的磁盘TPS数、磁盘写操作速率等、每秒完成IO读写次数、每秒读写扇区数、每秒读K字节数、平均I/O队列长度等。

 应用进程监测:监测主机系统中指定应用进程的内存使用量、内存使用率、CPU使用率。

 系统服务监测:监测主机系统中指定服务的运行状态  主机当前登陆用户信息:当前登录用户登陆的时间、终端IP、终端名称

 主机端口速率监测:监测主机系统中指定端口的入速率、出速率、入丢帧速、出丢帧速、单播入帧速、单播出帧速、非单播入帧速、非单播出帧速、入错误帧速、出错误帧速等。 主机重要文件监测:监测主机系统中指定的文件大小。 Job基本信息采集(AS/400):监测Job的名称、CPU使用率、类型、状态、所属用户等。

 ICMP连通性监测:监测与主机的连通性。

 HACMP集群状态监测:监测集群的可用状态及子节点的状态。

 自定义指标监测:系统提供了通用监测器,用户可以通过编写shell或者groovy脚本自定义监测指标 2.2.2 数据库管理

根据预定义的监测项目对Oracle、SQL Server、Sybase、DB2、Informix、MySQL等多种数据库,按照属性相关性分为数据库工作状态、数据库表空间的利用情况、数据文件和数据设备的读写命中率、数据碎片的情况、数据库的进程状态、数据库内存利用状态等属性监测组,分组监测数据库系统的性能、事务、连接等性能数据。 DB2数据库监测

 基础监测:最后一次备份时间、数据库状态、数据库激活时间、当前连接数、连接总次数

 缓冲池信息监测:各缓冲读写次数、命中率  锁监测:死锁数、锁等待率、锁升级率  锁表信息:锁状态、锁模式、表空间、Schema  排序信息监测:应用排序数、排序溢出百分比

 表空间监测:已使用页、表空间类型、页长、总页数、表空间状态、空闲率、空闲页、使用率、预取大小、扩展数据块大小

 表空间容器监测:使用率、总页数、已使用页、容器类型、表空间名称  Oracle数据库监测

 基础监测:表空间使用率、连接会话数

 高级队列监测:ready消息数、错误的消息数、消息平均访问时间、消息总数

 归档目的地监测:归档目的地类型、归档目的地状态、归档目的地可用空间、归档目的地可用空间百分比、归档目的地位置

 基本信息采集:使用spfile启动、只读模式、归档路径、例程开始时间、限制模式、归档模式、例程名、并行状态、位长、DB版本、DB名称、主机名、实例状态  检查点监测:发生检查点数、完成检查点数

 数据文件监测:文件大小、读次数、写次数、读时间、写文件块数、读文件块数、读写文件块数、写时间  全表扫描配置: RSRATIO值、LTSCANRATIO值  资源锁定监测:锁定时长  碎片监测: FSFI值

 PGA配置:PGA内存及各区域大小、实例处理性能等

 进程资源消耗监测:

可用PGA百分比、可用PGA、已分配PGA、已使用PGA  命中率监测:共享区字典缓存区命中率、多次解析(重装)的条目比率、高速缓存区命中率、共享区库缓存区命中率、磁盘排序与内存排序比率、回退段等待次数与获取次数比率

 递归调用信息监测: 递归调用百分比、时间间隔的递归调用百分比、用户调用数、递归调用数、递归-用户调用比率、递归调用速率

 Redo日志配置:重做条目的平台大小、多种请求成功/失败比率、错误次数等

 Rman备份监测: 增量备份大小、全备份大小

 回滚段:大小命中率、等待率、等待次数、活动事务数、翻转次数、扩展次数、一致更改率、收缩次数、用户回滚率

 会话监测:会话ID、用户名、CPU时间、排序次数、缓冲区命中率、读次数、写次数、提交次数、占用游标数、扫描次数

 SGA配置:共享库缓存大小、SQL缓存大小、数据字典缓存大小、共享池大小、重做日志缓冲区大小、高速缓冲

区大小

 SQL监测:使用内存、执行时间、SQL语句、用户  转存空间监测:转储空间使用率

 表空间监测:未使用Extent数量读时间、最大Extent数量、已使用率、已使用量、未使用量、未使用百分率、允许最大空间、是否自动扩展、写时间、Segment管理方式、表空间类型、当前Extent数量、下一个Extent大小  表状态监测:增长速度、索引大小、数据大小、表空间、用户

 撤销空间监测状态监测:快照太旧错误计数、无空间计数  作业队列监测:破损作业数量、过期作业数量、失败作业数量

 MySQL数据库监测

 基础监测:缓存查询数、连接数  数据库大小监测:数据库大小  SQL Serve  基础监测:连接会话数、CPU使用率、数据文件大小、日志文件大小

 基本信息:阻塞进程数、处理器名称、Windows版本、处

理器数目、主机名、内存(MB)、数据库数目、会话数目、启动时间

 数据库大小:数据大小、数据库大小、未分配大小、未使用大小、索引大小、保留大小

 文件监测:路径、增长方式、容量、文件组、数据库、大小

 会话监测:最后处理时间、命令、数据库、CPU时间(ms)、内存(KB)、程序、建立时间、用户、状态、主机  Informix数据库监测

 基础监测:回滚数、死锁数、写缓存命中率、读缓存命中率、数据库连接数

 检查点监测:检查点速率、检查点等待速率  DbSpace监测:数据空间使用率

 磁盘读写监测:页写速率、页读速率、物理磁盘写速率、物理磁盘读速率

 锁监测:锁请求速率、锁超时率、锁等待率、死锁率  日志读写监测:物理日志页面写速率、物理日志写速率、逻辑日志页面写速率、逻辑日志写速率、逻辑日志记录写速率

 共享内存监测:块写速率、缓冲区写命中率、缓冲刷新到磁盘速率、Foreground写速、缓冲区等待速率、LRU写速率、顺序扫描速率、Latch等待速率、缓冲区读命中率  排序监测:内存排序速率、磁盘排序速率  事务监测:事务提交速率、事务回滚速率  Sybase数据库监测

 基本信息采集:DBMS名称、DBMS版本、系统信息、产品版本、主版本号、产品名称、次版本号

 数据库监测:使用百分比、已使用大小、数据大小、空间大小、索引大小、未使用段大小、数据段大小、段总大小、索引段大小

 会话监测:数据库、命令、已用内存、CPU时间、IO读写次数、程序、主机、用户、状态

 事务监测:系统事务交易总数、每秒回滚事务数、每秒事务数

 设备监测:属性值

 数据库:CPU使用率、数据库空闲表空间、数据库表空间、连接会话数

2.2.3 中间件管理

产品支持对Websphere、WebLogic、MQSeries、Tomcat、Tuxedo、Tibco、Resin、TongWeb、等各类不同中间件,提供包括配置信息、连接池、线程队列、负载监测、通道情况监测等多类监测组,分析与监测中间件的各项运行状态参数。中间件监测项主要包括:

 系统信息采集:监测中间件基本信息,包括:操作系统、操作系统版本、当前可用堆栈及大小、当前目录、重启次数、开启线程数。

 JVM使用监测:监测JVM的堆栈大小和使用率。 JDBC链接池监测:监测指定JDBC连接池资源连接情况。 JTA事务监测:监测中间件中数据处理事务的活动情况。 线程池监测:监测指定线程类的线程平均数、空闲线程平均数以及线程吞吐量。

 Servlet监测:监测指定Servlet执行和调用情况。

 EJB监测:监测指定EJB激活次数、钝化次数、缓存个数、事务提交次数、事务回滚次数、事务超时次数、访问次数。 WEB应用监测:监测指定Web应用中Session的当前个数、最大值以及累积个数。

 JMS队列深度监测:监测中间件中JMS消息队列活动情况。 MQ通道情况监测:监测MQ的通道情况,包括:每秒接收字节、每秒发送字节、通道状态、发送间隔、事务数。 MQ队列深度监测:监测MQ服务的消息队列的队列深度。 Tuxedo负荷监测:监测Tuxedo的机器状态是否被激活、每秒处理的队列服务数每秒入队的队列服务数、当前客户端数、当前WorkStation客户端数。

 TongWeb数据连接池监控:监测国产中间件Tongweb数据库连接信息,如最大、最小连接数,可用、创建、关闭、等待连接数等

 TongWeb应用性能监控:主要监测系统线程情况、请求队列情况、吞吐量、发送接收字节数等信息; 2.2.4 基础应用平台及通用服务管理

状态提供对IIS、Apache、-Domino等基础应用平台的基础信息、连接测试、基本负载等重要信息的监测。

有效实时地分析HTTP/HTTPS、DNS、FTP、DHCP、LDAP等常见通用服务的运行状态和参数,深入分析服务响应速度变化的技术原因和规律,从根本上解决服务响应性能的问题。 Domino服务器监测

 基础监测:监测Domino服务器的内存占用值、指定数据库的使用率、待发邮件数、僵死邮件。

 基本信息采集:采集Domino服务器的基本信息,包括:Domino版本、数据库存放路径、CPU个数和CPU类型信息。

 负载监测:监测Domino服务器当前负载情况,包括:每分钟交易数、每分钟最大交易数、交易总数、当前用户数、最大用户数、当前任务数。

 复制(Replication)监测:监测Domino服务器复制情况,包括:成功复制次数、失败复制次数、删除文档总数、增加文档总数、修改文档总数。

 邮件服务监测:监测Domino邮件服务情况,包括:死邮件数、路由邮件数、待路由邮件数、已投递邮件数、待投递邮件数、平均邮件大小、最大邮件大小。

 缓冲池监测:监测Domino缓冲池的使用情况,包括:缓冲池大小、缓冲池使用值、缓冲池最大值、扩展管理池使用值、扩展管理池最大值、NSF使用值、NSF最大值。 扩展管理池监测:监测Domino扩展管理池的使用值、最大值。

 Apache负载监测:监测服务器是否连接,采集CPU负载、正

常运行时间、响应时间、累计访问数、累计访问数据处理、每秒请求数、每秒处理字节数、每请求处理字节、忙作业数、空闲作业数等指标。 IIS监测主要包括:

 连接监测:监测IIS服务运行时间、服务运行时间、尝试登陆/秒、尝试连接/秒、当前连接数、最大连接数。 传输字节监测: 发送字节/秒、接收字节/秒、传输字节/秒、服务运行时间、接收文件/秒、发送文件/秒、找不到文件的错误数、服务运行时间、传输文件/秒。

 用户监测:服务运行时间、最大非匿名用户数、非匿名用户/秒、匿名用户/秒、当前非匿名用户数、当前匿名用户数、最大匿名用户数。

 WEB请求监测:post请求/秒、head请求/秒、其他请求/秒、服务运行时间、get请求/秒。

 WEB服务器可用性监测:监测http、https和Web Service服务器是否连接以及是否正常运行,可以监测指定http的URL路径是否包含或者不包含指定内容。

 标准邮件服务器监测:监测pop3、smtp邮件服务器是否连接以及是否正常运行,可以监测具体的邮箱的邮件数以及邮箱使用量。

 基础服务监测主要包括:

 DNS服务监测:监测DNS服务器是否连接以及是否正常运行,可以监测指定域名是否正确解析。

 FTP服务监测:监测FTP服务器是否连接以及是否正常运行,设定已FTP方式登录该资源的阈值,监测指定文件是否存在。

 通用资源监测主要包括:

 TCP端口监测:可监测多个TCP端口,并采集连接时间,可指定端口开启或者关闭时告警。

 通用SNMP监测:可监测多个SNMP表达式(支持四则运算、时间差值运算等)对应的采集结果,并可设定告警阈值。2.2.5 基础运行环境管理

对于IT环境系统,系统支持各种智能设备的快速监测,同时通过SNMP、数据库接口等其他接口方式可以实现客户化的扩展监控,监测内容包括基础运行环境的温度、湿度、漏水、烟感和电源、UPS、智能空调等。2.3 告警监控管理 2.3.1 告警管理  事件分析

系统具有强大灵活的事件分析功能,能够智能识别各类不同来源的原始事件。通过内建的智能事件分析引擎,对标准化后的原始事件进行可靠过滤、重复压缩、对齐归并与依赖关联,自动修正告警记录,最终形成有效告警。 自定义事件解析规则

用户可自定义编辑和导入解析规则库文件,自主制定事件解析规则,同时支持第三方MIB库的装载与自动解析。 基于iBDM的事件关联分析

事件的产生以及其影响都不是独立的。基于业务影响依赖模型iBDM的事件关联分析,自动发现关联,追溯事件影响、定位问题,发现问题根源。 告警台

作为告警管理平台,呈现最新告警信息,并以最近24小时、最近一周、最近一个月等不同区间统计最近的告警记录,提供自定义刷新、告警确认与消除等告警管理操作。 分等级告警

产生的告警信息分为提醒、警告、次要、重要、紧急五个等级,用户可以根据告警等级安排告警处理的优先次序。 分类查询

借助按资源与按节点的分类导航,快速搜索分类告警记录;支持通过告警信息的事件等级、时间、类别、名称、资源等组合条件进行自定义查询。 告警的关联特性

点击具体告警,会列举告警关联的事件,同时展现事件的详细信息、问题资源信息和依赖关系图等,方便分析故障详情。2.3.2 告警通知  多样的通知方式

支持短信、邮件、语音等告警通知手段。

支持外部命令、UniAgent执行脚本、NetSend、Snmp设置、Trap转发等告警处理动作。告警处理动作将按预定义,自动在告警发生后执行,先一步尝试恢复业务正常运行。 灵活的通知策略

根据不同的告警事件来源为它们指定不同的通知和处理方式,组成全面告警通知策略。 强大的扩展功能 2.4 统一监控展现

通过统一监控展现功能,能够将不同类型的设备、系统、应用等资源的监控平台进行集成,避免使用多个系统进行监控管理。通过综合的展现平台来同事展示各种监控视图,以便于运维人员在一套系统上统揽全局。

运维监控通过集成底层监控产品,能够提供从资源、节点、网络、业务等多角度、层次化的监控信息集中展现,并可通过服务台和个人桌面集成底层监控平台的监控界面和数据,以支持上层的运维工作。2.4.1 灵活拓扑展现

IT运维管理系统中的灵动拓扑展现与灵动可视化平台实现同步,系统可以根据运维人员在灵动平台中创建的各类视图来显示资源配置、运行状态等信息。

灵动拓扑展现不仅可以展现IT资源的逻辑物理关系,还可以查看视图中资源的运行状态。拓扑图中的任一设备或者链路都会以浮动框的形式显示其基本信息与运行状态。同时,通过点击节点,可跳转至相关联的视图或相关联资源的详细监控界面。

IT运维管理系统作为运维与监控平台,其自身收集与处理了大量IT部门运维所需要的各方面信息,包括:资源配置库、监控性能与状态等。这些信息需要通过多种方式进行展现,而IT运维管理系统正是通过灵动可视化平台来提供此能力。

灵动可视化平台集模型编辑和模型展现于一体,方便用户绘制网络拓扑、业务拓扑、机房视图及其他结构图。其使用最新的Flex富客户端展现技术实现,可以自由的组合数据源提供的信息,以图形、表格、拓扑等形式,提供于用户,并支持用户的操作交互,以进一步挖掘数据。

2.4.1.1 展现能力

灵动可视化平台提供了超过600个基础模具库,涵盖了普通图形、各种厂商设备图标、设备面板等各类图形组件。通过将这些图形组件组合在一起,并为其关联恰当的业务数据源,按需表现多种逻辑物理环境。如局域网络拓扑图、业务系统图、机房布局图、设备面板图等。2.4.1.2 交互挖掘

系统具有基于Flex展现技术,还具有基于WEB的交互能力,在平台提供的图中,用户可以通过鼠标点击,与图中的元素(图形、表格)等进行交互,可以获取到进一步的资源详情、挖掘数据与切换观察视角。

用户也可自定义图表事件,进一步扩展图形交互,集成其它监控系统的页面功能。2.4.1.3 编辑扩展能力

由于系统的业务架构经常会产生变化,因此系统实施时确定的各种拓扑图也会随之改变。为了提供现场的编辑能力,系统需提供所见即所得的编辑工具,无须使用各种复杂的配置脚本,而通过WEB上的画图工具,完成图形的编辑与创造。

2.4.1.4 数据可视化感知

灵动可视化平台可展现的信息,通过数据源的支持,可以让灵动图形中的各类对象有了灵活生动的展现,平台可以通过数据信息、状态的绑定,实现拓扑可视化的动态展现和交互,灵动平台支持多数据源提供,默认采用CMDB配置资源库,根据CMDB配置库提供的定义信息分类组织数据对象,用户可直接拖动这些数据对象到图中,以完成用户理想的视图。

2.4.2 网络监控展现

IT运维管理系统中的网络运行监测与网络监控平台实现同步,集成网络监控平台的相关功能,系统可以将各种网络监控指标进行统计后分类以视图的方式显示。 网络拓扑

网络拓扑不仅可以展现网络主拓扑图,还可以递进式挖掘多级子拓扑,进行逐层嵌套组织显示。拓扑图中的任一设备或者链路都会以浮动框的形式显示其基本信息与运行状态。同时,通过点击节点或资源链接,可跳转至相关对象的详细监控界面。 网络监控视图

网络监控视图提供了关注网络整体运行表现的全局视角,网络的各类指标均在其中得到体现,如反映管理对象的系统统计信息、反映端口速率排行前10位、CPU使用率前10位、内存使

用率前10位、节点连通延时前10位的列表信息、最新网络告警事件列表及统计排名等。内容的增减与组织方式可根据用户的需要与习惯随意调整。2.4.3 业务监控展现

IT运维管理系统的业务监测视图以业务系统为核心,集成业务监控系统的相关功能,统一展现支持业务系统的网络/安全设备、系统、中间件、数据库、通用服务和基础应用等各类资源,紧贴用户思维,由粗线条到细颗粒度地逐层展现业务系统的运行状况,满足企业或单位以业务为最终服务目标的IT管理思想。2.4.3.1 业务应用拓扑

业务应用拓扑支持有向关联,业务系统各关联资源根据业务影响方向组成业务支撑网络。针对业务网络的告警事件,依靠基于iBDM的事件关联分析,自动分析判断节点间依赖关系,快速定位业务故障根源。2.4.3.2 业务监测视图

业务监测视图提供业务系统的基本信息、资源组成和运行状态,并通过平均修复时间(MTTR)和平均无故障时间(MTBF)等SLA综合指标评估业务服务水平。通过业务监测视图,用户可深入浅出地分析业务系统当前的运行状况,大大降低IT系统管理难度。

2.4.4 资源监测展现

为了便于查找故障,分析故障根本原因,往往需要查看故障产生的具体对象。IT运维管理系统的资源监控视图集成业务监控系统的相关功能,从资源总览、资源汇总和资源详情视图分层分类地细致展现各类资源的性能详细指标。 资源总览

汇总所有监测资源信息,以全局和分类统计其可用状态和健康状态,并列举当前问题资源。 资源汇总

针对具体资源类型,统计展现所有该类资源的运行状态,包括:该类资源的可用性和健康性、可用资源比率与健康资源比率、当前出现问题的具体资源等常规指标和该类自有的其他指标。 资源详情

针对业务应用的具体资源,根据不同的资源分类(如网络设备、服务器、数据库、中间件等),详细展现资源的基本信息、负荷状况、稳定性、响应延时各项关键性能指标和健康度与可用度的状态分析,轻松掌握资源当前的运行状况。2.4.5 节点监测展现

网络中拥有独立IP的网络实体,我们称之为节点。单个节

点可能部署了多项被监测资源,如操作系统、数据库、中间件等。IT运维管理系统通过集成业务监控系统的相关功能,提供了基于节点的整体监测,汇聚节点内各资源的监测数据,从总览视图、详情视图(一级、二级视图),递进式地展现被监测资源的详细参数。

 节点总览视图

节点总览视图从总体上统计各个分类节点的不可用节点数、节点总数、及总资源数等,同时以柱图方式直观显示节点的不可用节点数占节点总数的比例。 一级节点视图

一级节点视图集合了同分类的所有节点,各节点单独展现内部资源健康状态。 二级节点视图

二级节点视图详细给出节点所包括单个资源的详细运行情况,如图所示,此

服务器节点不仅监测了服务器的Windows 操作系统的运行状态,还包括其网络设备、DNS服务和POP3 服务的运行情况。2.4.6 告警信息展现

为了查找发生故障的原因,往往需要查看一段时间内的告警信息来进行分析。告警管理可以对告警信息按资源、按节点的进行查询,并展示了各个时间段的告警信息。2.4.7 灵动可视化平台 2.4.8 扩展展现集成接口

扩展展现集成(SSO)通过Portal技术,以B/S方式实现IT运维管理系统与其他监控产品的融合,为用户提供可扩展、多元化的信息汇聚与功能集成。

借助统一身份登录和权限验证,IT运维管理系统可以深度集成其它监控系统,为不同角色的管理和技术人员提供相应的个性化工作界面,提高IT运维服务效率。2.5 报表管理

 全面的性能与告警报表

依据对监测数据的自动汇聚、抽取、分析,提供基础架构性能与告警、资源比较、指标排名、指标趋势等各类层次化统计分析报表。从业务运行状态到微观性能指标,自定义查询业务应用系统及其关联资源的当前和历史运行情况。 业务运行报表

支持按业务的方式对业务应用可用性、MTTR和MTBF进行统计。 节点报表

支持按节点的方式对其监测数据的进行汇总分析,提供基础架构性能指标趋势等各类层次化统计分析报表,并支持自定义时间段进行查询。

 “所见即所得”的报表

上一篇:千阳县种植业发展现状下一篇:亲子关系:我的二胎女儿梦