运维管理建设(通用12篇)
运维管理建设 篇1
四川中铁能源五一桥水电有限公司所属五一桥电站位于甘孜州九龙县九龙河上, 是九龙河“一库五级”中的第二个梯级, 装机容量132MW, 年利用小时4730, 多年平均发电量6.247亿千瓦时;电站坝顶高程2426.5m额定水头202.5m, 电站采用径流引水式开发, 具有日调节能力;电站按无人值班 (少人值守) 的原则设计, 全厂采用计算机监控系统集中控制, 以220kv电压等级接入四川省电网。
近年以来, 四川中铁能源五一桥水电有限公司以电力安全生产标准化达标为契机, 2013年3月, 公司顺利通过“电力安全生产标准化”二级现场评审。通过不断探索和提升运维规范化管理的新途径、新方法, 逐步建立了“运行操作规范化、例行工作程序化、指标控制精细化、岗位工作全能化”的“运维四化管理”标准模式。有效地促进公司现场安全生产及运维管理水平的提高。
运行操作规范化, 现场管理大跨步。严格规范执行“调度管理规程”。现场工作严格遵循执行“两票三制”并进行考核。根据现场倒闸操作及设备运行工况, 组织编写“两票管理”数据库, 操作票和工作票采用标准模板, 制订固定格式, 编写完成标准操作票及工作票数据库, 需要使用时立即调出相应操作票或工作票即可使用。现场操作严格执行一停、二看、三想、四干、五查、六问的“倒闸操作六步法”。
例行工作程序化, 强化标准执行力。公司大力推行运维基础管理工作。建立“夜班、白班及中班工作提示”, 每班工作流程及内容程序化。每日召开班前计划会, 告知人员危险点和相应的预控措施, 进行签字确认。每晚19:00定时召开团队活动, 开展班后总结会。定期工作方面, 根据定期工作特点, 编写制订“定期工作标准执行单”32份, 执行单包括危险点分析、操作步骤、评价标准等, 保证定期工作按照程序化高效执行。每轮值班期间根据设备及系统运行状况至少开展一次运行分析、事故预想和事故演习, 每位员工根据学习情况至少开展一次考问讲解活动。建立和完善运行管理例行工作, 提高安全生产标准化在现场工作中的执行情况。
指标控制精细化, 降本增效显端倪。通过优化机组运行方式, 合理利用库区水位, 同时运行人员做到勤调、细调, 尽可能使机组按照设计或最优值运行, 根据省调“两个细则”考核要求, 充分利用调令上限+2%区间, 确保参数压红线运行, 不合格电量指标控制在0.05%以下。开展“度电必争”系列活动, 提升与省调沟通技巧和方式, 积极申请调令, 力争“多发电、发好电”。截止11月06日, 厂用电年累计较去年同期减少58.87万千瓦时, 减少43.61%, 发电量较去年同期增加1.63亿千瓦时, 增加37.42%。
岗位工作全能化, 资源配置新升级。公司重视运行等各类人员的培训, 制定年度及月度培训计划, 明确培训目标, 采用“讲授法”、“视频学习”、“事故案例讨论”及“网络培训”等多种形式, 培训落实到每名现场员工。建立“导师带徒”活动, 以“传、帮、带”等行之有效的培训方式, 坚持集中培训与自我培训相结合, 达到运行岗位全能化的要求。
“运维四化管理”是公司改革发展、应对市场竞争的必然要求, 也是公司规模和电站技术发展的需要, 是电厂安全稳定、经济高效运行的基础。结合公司即将开展“点检定修”标准。以“运维四化”标准要求日常运行管理工作, 以“点检定修”标准要求日常维护工作, 运行与维护管理工作紧密结合深入开展, 为机组安全稳定运行提供技术保障, 将会全面提升公司运维管理水平, 打造出具有特色的标准化一流水电运维团队。
运维管理建设 篇2
然而一直以来,布线系统的建设与维护并没有获得企业运维人员的足够重视,这使得机房在使用过程中倍受诸如性能下降、难以寻找故障源等问题的困扰。
造成这种现状的原因主要体现在两个方面:
一方面是由于设计施工过程中不规范、不严谨的施工方法所造成的性能隐患;
另一方面则是由于机房布线系统管理方式不当所造成的运维问题——作为无源的设备系统,布线系统低故障率的特点往往容易使很多机房的运维人员忽视对其进行更高效的管理。
如何解决这两方面的问题呢?针对设计建设和后期运维的不同特点,解决办法也分为机房建设阶段和运维管理阶段两方面。
标准化的设计施工决定机房品质
在谈到机房布线系统的设计施工时,美国康普公司大中华区技术总监吴建指出:“在机房建设阶段,我们当前并没有一个独立的标准来说明一个机房在设计施工过程中需要做些什么。行业内较为流行的做法是‘最佳实践’。”机房设计施工的“最佳实践”实际上是包含了两个大的方面:一是前期设计(与产品无关),二是产品选型。
这其中,前期设计是重中之重。在前期设计方面也有两点原则:
第一、是不是具有灵活的可扩展性。吴健指出:“布线系统的生命周期很长,要考虑到十年、二十年后的应用,要有一个大致的预估,比如现在是千兆,未来就要考虑线缆是否能够承载万兆乃至十万兆。你选择什么等级的缆型,就变得尤为重要。”
第二、要考虑结合节能减排方面的问题。
布线系统和节能减排结合的点主要体现在机房“冷热通道”的设计上。机柜长排列的方式为低成本处理冷热通道的隔离提供了条件,在机房内气流组织完成冷热通道隔离,这样最大限度地提高能效,从而达到节能减排的目的。而布线系统的设计就要充分保证机柜等设备在按照冷热通道的标准排列时,拥有充足的线缆连接空间,并且上下走线均不会影响到冷热气流的顺畅流通。
产品选型方面,实际上是有一些原则可循的,概括来说包括以下五点:
(1)性能价格比:选择的线缆、接插件、电气设备应具有良好的物理和电气性能,而且价格适中;
(2)实用性:设计、选择的系统应满足用户在现在和未来10至15年内对通信线路的要求;
(3)灵活性:做到信息口设备合理,可即插即用;
(4)扩充性好:尽可能采用易于扩展的结构和接插件;
(5)便于管理:有统一标识,方便配线、跳线。
高效的管理保障机房正常运行
在机房建成使用之后,影响机房整体性能的因素便从设备的基础性能逐步转移到了运维管理的“人为因素”方面。在日常的工作中我们经常可以看到这样的一个情况:当设备出现故障的时候,运维人员扎在一个巨大的“线团”当中痛苦地寻找着故障设备的对应线缆接口。
这个例子或许显得有些夸张,但不口否认,在机房运行了一段时间之后,如何高效的管理布线系统,实际上在很大程度上决定了机房整体运维的效率。
那么,我们该怎么做才能更好地管理布线系统呢?有两个点对于布线管理非常重要:
第一、最好设一个专人来管理机房的布线系统,这样就不会因为记录的偏差和使用习惯的问题导致不同的人员操作的时候产生失误。
第二、不要靠人脑去记,可以借助一工具些软件或一些高效的管理手段来管理布线系统,最好可以融进公司的IT管理流程当中。也可以从硬件方面着手,管理好配线架附件:如接地附件、标识附件等等。在这方面的管理中,当前比较先进的智能配线架系统也是一个很好的选择。不能不说,当前很多机房的布线系统在设计与运维方面仍存在太多的问题,机房用户在布线系统的设计、产品选型、人力维护、人才培训等方面的财力人力投入都不够,这在很大程度上制约了用户机房的整体性能。
运维管理建设 篇3
关键词:配电网规划;配电网建设;配电网运维
中图分类号:F407 文献标识码:A 文章编号:1009-2374(2013)08-0143-03
广东台山市毗邻港澳,地处珠江三角洲西南部,总面积3286km2,海(岛)岸线649.2km,辖管16个镇、1个街道办事处、1个华侨农场。全市人口98万,人均GDP在3万元左右,超过一半为农村人口,在县级配网中很有代表性,本文对台山配网规划、建设、运维策略进行了研究与实践。
1 配电网规划策略
根据城市规划及负荷密度将台山市供电区划分为D、E、F三类,D类为一般城区,负荷密度为5~10MW/km2;E类为郊区、镇区,负荷密度为1~5MW/km2;F类为乡村,负荷密度小于1MW/km2;配电网的目标网架应在满足供电可靠性的前提下力求简洁,便于操作维护。同一类供电区域的配网结线方式应统一。D类供电区宜满足N-1,网架典型结线方式为三供一备、两供一备、“3-1”环网、“2-1”单环网;E类供电区可满足N-1,网架典型结线方式为“3-1”环网、“2-1”单环网;F类供电区N-1不做要求,网架典型结线方式为单回辐射、“3-1”环网、“2-1”单环网。
D类供电区在负荷发展初期一般采用“2-1”单环网,两条馈线之间设一个联络开关,线路负载率控制在50%以下;当负荷发展后,可形成两分段两联络的过渡网架结线方式,将线路分成两段,具有两个联络点;过渡期间,允许一条线路最多同时与两条线路连在一起,最终可过渡到“3-1”环网典型结线模式,线路最终负载率控制在67%以下;对邻近两条或三条线路负荷较重,采取“2-1”、“3-1”环网结线困难时,可采取三供一备、两供一备结线,每条主线路负载率可提高至100%;农村低负荷密度地区,一般采用辐射状结线,为缩小事故和检修停电范围,单电源辐射状线路干线应分为2~3段;并逐步走向“2-1”结线形式过渡。台山市中心城区负荷集中,有市政府及多个大型住宅小区等重要用户,对供电可靠性的要求较高。中心城区在已确定的D类目标网架基础上,还需进行网络优化,以实现将中心城区划分成若干个独立的地理分区切块供电,每个地理供电分区有明确的供电范围,不出现重叠。供电分区的划分应根据负荷性质及城市地形、地貌特点和主干道形成,供电分区不跨越主干道、河流等地理阻碍;每个供电分区内部形成一个内环网,不同的供电分区之间互相联络备用,形成外环网。将台山市中心城区台城划分成20个分区,以独立分区供电为目标进行规划,实现简单、清晰、可靠的网架结构。
2 配电网建设策略
2.1 沿海线路抗风加固策略
台山市濒临南海,拥有649.2km的海岸线,易受台风、暴雨等极端天气影响。近10年来先后在台山及附近地区登陆的台风多达12个,其中不乏“伊布都”、“黑格比”、“韦森特”等中心风力超过14级的强台风,给台山电网的安全运行造成严重破坏。自从遭受台风“伊布都”的强力袭击后,开始对台山沿海地区40km内区域的线路抗风设计重新思考。按照“增加强度、提高密度”的原则开展沿海地区线路防风设计,着重从以下五个方面提高抗风标准:一是风速设计,以往在配网典型设计中,沿海地区的线路设计是按照气象条件组合最大风速35m/s(已经满足30年一遇的强度)去设计,现在将线路设计风速提高至连续10分钟40m/s的标准;二是杆塔选型,特别注重选择加强型的铁塔和电杆,如:沿海地区的线路基本上采用DNJ3或DNJ4的加强型铁塔,采用抗弯强度为75kN·m的加强型电杆;三是档距及耐张段设置,档距控制在50m以内,耐张段控制在400m以内;四是拉线安装,在沿海地区每4~5基杆塔加装一套拉线;五是配套设备的设置实现“弃线保杆”及“弃杆保基”的双重保障,对于建设过程中所使用到的金具、瓷横担等均是加强型的,如在直线杆上推广使用瓷横担,新架设的10kV线路尽量选用瓷横担,型号选用S-210或SQ-210型,同时利用转动瓷横担与线路强度配合实现“弃线保杆”,即当风速超过设计标准时,瓷横担通过旋转释放线路应力后仍不能抵御台风时,通过断线以达到保护电杆的目的,强度配合的强弱次序为:杆塔>导线>横担,同时水泥电杆采用双套筒混凝土基础,该基础由内外两个混凝土套筒组成,内套筒与外套筒间填充混凝土,内套筒直径比水泥电杆稍大,插入水泥电杆后在缝隙里填入细沙,外套筒提高了电杆整体的抗风能力,而内套筒确保了当风速超过设计标准时即使发生电杆折断,也不会损坏到基础,只要将断杆拔出重新在基础内插入新电杆即可,强度配合的强弱次序为:基础>电杆,“弃杆保基”策略可大幅缩短抢修时间和成本。
以台山10kV广海西线为例,按照架空双回LGJ-240导线的标准,如果按35m/s设计的造价是65万/km,而按
40m/s设计的造价是85万/km。即提高抗风能力后需要增加20万元/km,即增加了约30%的供电成本,下一步将按照“微地域、微气象”的理念对线路全线的抗风加固采取差异化策略,优化技术选型,成本有望进一步下降。虽然增加了不少投入,但经过改造的广海西线能经受住14级强台风的考验,可以减少台风时的抢修费用以及日常的运维费用,并且提高了供电可靠性,所以抗风加固仍需要加大力度推广。
2.2 长距离及小水电线路改造策略
为了保证配电线路实际电压水平在允许范围内,线路长度必须保持在一定的距离,但由于负荷分散及主网电源变电站布点不足,许多线路送电距离只能相应延伸,这就使得线路末端的实际电压水平超出了允许范围,这种情况在农网中尤为突出。台山农村为F类供电区,F类线路主干线应小于15km,但实际运行中F类线路超过15km的有10多条,最长达到45km,20~30km有4条。为了解决末端电压偏低可考虑从以下几种方式中优选:(1)新增变电站布点;(2)增大线路导线;(3)改变变压器分接头;(4)安装10kV线路补偿电容;(5)安装调压器。第一、第二种方式投资较大,而且工期较长,对于负荷比较分散的农网线路而言,并不是十分经济的选择;改变变压器分接头的调压范围只有±5%,且需要加装有载调压开关;安装线路补偿电容,尽管其造价相对较低,但调压范围只有2%~3%,不满足调压要求,因此对于负荷分散且距离较长的配电线路安装调压器是经济方便的解决方案。调压器一般采用单相,有两种调压方式:开口三角形联接:两台单相调压器串联到系统中,调压范围±10%;闭口三角形联接:三台单相调压器串联到系统中,调压范围±15%。调压器的安装位置可选在线路上电压开始越限处,一条线路上可以在两处同时安装调压器,形成两级调压。例如10kV那扶线主线长21.22km,安装开口三角形联接调压器后末端电压合格;10kV北邑线主线长22.75km,安装闭口三角形联接调压器两级后末端电压合格。运行实践表明:对一些偏远地区,负荷发展缓慢,远期规划不具备建设变电站或暂无线路改造计划,供电半径超过15km造成的低电压线路,宜采用在线路上加装调压器的方式改善用户端低电压。同时双向调压器具有双向调压功能,即能将电压调高15%,也能将电压调低15%,例如有些10kV线路大量分布小水电,丰水期小水电为了多向电网售电,所以将电站的出口电压调的很高,这就使得周边低压用户的电压往往会超过其额定电压的7%,造成用户设备加速老化,甚至烧坏。应用双向调压器以后,可以将小水电的出口电压调整为额定电压,确保小水电周边低压用户的电压正常。
3 配电网运维策略
台山市的年平均雷暴日为87,属于强雷区,因雷击引起的配网线路跳闸是影响稳定运行的主要故障,雷电防护是一个系统工程,除了采用线路避雷器、降低接地电阻等常规防护措施,也尝试采用了一些非常规防护措施。例如在台城、四九、海宴供电所线路雷击黑点安装消雷器试运行5年,安装消雷器后线路跳闸率大幅下降,效果良好。川岛所由于地处南海且跨山线路较多,结合现场地形地貌,可考虑采用伞式场变放电避雷针,该场变放电避雷针需要在线路旁架设一个15m高的引雷塔;考虑到消雷器及场变放电避雷针等新技术运行时间并不是很长,还有待于进一步接受实践检验,所以应坚持对常规防护措施的落实。
台山农网有很多线路都分布在山区,供电半径大、供电范围广,线路一旦发生故障,影响面广,抢修复电时间长,只有采取正确的抢修策略才能确保快速复电。山区线路一般都安装了分段开关,将线路分为3~4段,以线路故障跳闸为例(接地类同),应首先查找到位于最上级的跳闸开关,现场巡视最上级跳闸开关及其后段线路,主要检查是否有断线及其他明显故障;如巡视未发现明显故障点则从最上级跳闸开关开始对线路分段试送,最上级跳闸开关试送成功后再试送下一级开关,一直到最末级开关。如果在试送过程中某段开关又发生跳闸,这说明故障点就在此段内。由于在开始的地面巡视时并未发现明显故障点,因此需要登杆塔检查,如何减少登杆塔的基数就成了关键。首先在故障段线路中间附近的耐张杆塔处将线路第一次解口成两段,解口后有两种查找方式:在解口处对两侧的解口线路分别测绝缘,绝缘不合格的一侧线路就是故障点所在;解口后继续试送上级开关,如试送成功说明故障点在后1/2段,如试送不成功说明故障点在前1/2段;这样故障点就定位到原来长度的1/2,再在此1/2长度故障线路的中间附近的耐张杆塔处又将线路第二次解口成两段,继续重复上述流程测绝缘或试送开关,这样故障点就定位到原来长度的1/4,如此1/2循环就可将故障点最后定位到一个耐张段内(只有一个故障点的情况),最后只需要在一个耐张段内登杆塔检查即可;利用1/2搜索策略可显著提高故障定位效率。另外也可考虑采用线路故障定位仪辅助定位故障,其原理为线路停电后将故障定位仪与线路故障相连接,定位仪产生直流电压加在故障相上,使故障相的故障点稳定保持在击穿导通状态,同时定位仪还注入一个不同于工频及其谐波频率的信号电流,然后用特制的信号探测器沿线对信号电流进行寻踪,当测到信号有突变(从有到无或从无到有)的地点就是故障点;在实践中是采用测绝缘1/2搜索法、试送开关1/2搜索法或定位仪信号搜索法要根据线路的具体情况优化选择。
4 结语
结合实际情况分析了台山配电网不同区域的目标网架,同时以分区供电模式优化中心城区配网接线;给出了抗风加固、长距离及小水电线路的改造建设方案;总结了运行线路防雷及故障快速定位的方法;通过对台山配网规划、建设、运维策略的研究与实践,因地制宜解决了实际中所遇到的各种问题,取得了良好的效果,在县级配电网规划、建设、运维中具有指导意义。
参考文献
[1]南方电网公司.南方电网公司110kV及以下配电网规划指导原则[S].2009.
[2]广东台山供电局.广东台山市“十二五”配电网规划修编[S].2011.
[3]广东台山供电局.广东台山市2012年配电网年度规划[S].2012.
作者简介:胡中(1978—),男,湖北武汉人,供职于广东电网台山供电局,硕士,研究方向:配电网规划、建设、运维。
电子政务运维管理体系建设 篇4
政府部门信息基础架构建设完成后,建设重点将从大规模网络、平台、业务系统的建设阶段转向以深化应用、提升应用效益为主要特征的“运行维护”阶段。近年来,随着信息化建设的深入,网上运行的业务应用逐步增加,计算机机房设备、网络基础设施,大型主机、服务器、客户端等硬件平台,应用系统、数据库、应用服务器、中间件等软件平台日益复杂,服务的用户越来越多,如何维护好日益增多的网络和系统等各类设备,保证各个应用系统安全顺畅地运行,为用户提供良好的服务并及时解决出现的问题和故障,管理和服务做到急网络和用户之所急,是业务能否正常运行的关键所在。
二、体系建设需求与目标
1.体系建设需求
在组织人员方面,针对目前各分支机构分散运维的现状,运维部门迫切需要统一IT运维管理认识,整合IT运维管理资源,设计科学合理的IT运维管理组织结构和职责分工,建立起分布的运维管理模式。这个模式的建立,可以使运维部门从目前以技术为中心的管理模式转向面向业务、以服务为中心的管理模式,并通过对运维部门服务资源的统筹安排和共享使用,在服务环节上加强沟通协作,提高运维部门整体IT运维管理的有效性。
在管理规范方面,建立统一的IT运维管理流程,并清晰定义IT服务的考核目标,进行角色岗位分解,配套实施支持考核的技术手段,实现科学量化评价IT服务工作的效率和效果,促进IT服务工作的高效运行。
在技术工具方面,运维部门迫切需要制定一套用于从整体上指导运行维护工作的技术规范,逐步实现IT运维工作流程和监控管理的自动化。
2.体系建设目标
IT运维管理平台包括信息展示、服务台、服务流程管理、知识库、集中管理与监控(机房环境管理、网络管理、安全管理、系统管理、存储备份管理、应用系统管理、客户端管理)等功能模块和子系统”的建设内容。运维部门IT运维管理体系建设的总体目标是:树立面向业务服务的IT运维管理理念,建立科学合理的绩效考核指标,由粗放管理向精细管理转变;实行集中统一的IT运维管理模式,由分散管理向集中管理转变;建立统一高效灵敏的IT运维管理平台,由无序服务向有序服务转变;建立规范标准的IT运维管理流程,由职能管理向流程管理转变;应用先进、实用、高效的IT运维管理工具,由被动管理向主动管理转变。
三、体系建设方法
在整个项目过程中,采取“联合式咨询方法”,确保运维部门IT运维管理体系项目的成功(见图1)。该方法论具有以下创新的优势:
(1)咨询、实施和产品三者独立,降低项目风险。引入ITSM (IT系统管理)咨询专家,负责梳理运维部门IT运维管理体系建设需求,从管理、流程、制度、组织与人员、技术选型等方面规划IT运维管理体系。结合具体产品来实施建设IT运维管理体系,定期对项目计划和阶段目标进行核查,保证项目的顺利如期完成。
(2)有利于从业务需求的角度和全局的高度对IT运维管理体系进行规划。
(3)借鉴ITSM专家的经验,提升项目建设的效果。
(4)搭建交流平台,实现知识转移。ITSM专家在整个项目过程中对运维部门相关人员进行实践和方法论的培训和咨询指导,培养IT运维管理的专业人才。
(5) ITSM专家对后续集成实施和产品选择的全过程进行项目管理和风险管控,持续优化管理体系。
四、体系建设内容
1.体系架构
在项目实施过程中,运维部门以“体系化”的思路构建一整套行之有效的“持续改善机制”,面向业务和应用,以服务为导向,创新IT运维管理体系。
IT运维管理体系涵盖组织管理模式、制度规范体系、技术支撑体系等三个层面的内容(见图2)。
组织模式层。确定和规范IT运维管理体系运行的管理方式和与之相配套的人员岗位职责安排、机构设置,形成集中统一的IT运维管理机制,实现对客户的端到端服务。
制度规范层。分别从管理与操作方面建立IT运维管理过程中各个参与要素(人、流程、工具)的行为准则与工作程序,从IT运维管理体系总体运行、流程执行和岗位职责三个层次建立考核评价体系,确定运维费用的组成与计算方式,规范运维费用的来源保障,实现IT运维管理的量化管理。
技术支撑层。建立面向业务客户的IT服务请求响应窗口和面向技术支持人员的体系运行管理窗口,建立知识库、配置库、报表及日常操作等共享支持子系统和为业务管理提供服务的业务运维管理子系统。
2,体系建设内容
IT运维管理体系要真正发挥效益,避免“为技术而技术”,需要融合人、流程、技术。根据信息化的发展要求,配套的管理措施应包括组织模式、管理制度、管理流程、绩效考核、运维费用、技术支撑等内容。
(1)组织模式。运维部门从全局的角度定位IT运行维护和服务工作,成立IT运维管理领导小组。将目前分散进行的各项IT运行维护和服务的工作职能逐渐整合,进行集中统一管理,统一调度IT运行维护和服务的技术力量。设置合理的组织机构,建立面向用户的服务接口。
(2)管理制度是指IT运行维护和服务工作必须遵循的内部管理规定,用于提高工作的协调性和管理的有效性。借鉴IT运维管理体系国际标准ISO 20000要求,管理制度分为四个层次(见图3)。
(3)管理流程是指为达到既定的IT运维管理目的而组织起来的逻辑上相关的有规律性并可重复的活动。按服务支持和服务交付两方面,分阶段建立相关流程。
(4)绩效考核从运维部门IT运维管理体系的目标出发,按照体系、流程和岗位角色分解,形成“IT运维管理体系运行KPI (关键绩效指标)-流程KPI-角色岗位KPI”三层相互关联的绩效考核指标体系。
(5)运维费用管理清晰定义了运维费的构成要素,规范了运维费用预算的口径和标准,使其与信息化建设费用、日常公用经费区分。最终实现“运维预算-核算(预算执行)-结算”全过程管控。
(6)技术支撑体系包括三个层次:展示层、流程及业务运维管理层、集中监控层。
五、体系建设的效果分析
通过建立科学合理的IT运维管理体系,有效解决了目前运维工作中面临的沟通不畅、效率低下、服务质量无法保障、被动救火等问题,改变过去“各自为政”、分散运维的状况,增强为业务应用服务的意识,更好地实现建设服务型组织的目标。
运维部门运维管理体系建设完成后,取得了明显的效果。
(1)提升信息化的效益,因为信息化80%的效益体现在运行维护阶段。
(2)降低信息化的风险。通过开发与运维职责分离,对权限进行合理分配,避免“篡改数据、内外勾结”等风险,减少人为错误引发的风险,减少了因变更不善导致的风险,减少重大故障的影响。“IT运维”将不再是“黑箱”,将变得可管可控,降低了信息化带来的风险。
(3)支持宏观决策。IT运维管理系统能够记录并分析发生的各种故障及其解决方案,有助于领导宏观决策。
(4)提升信息化科学管理水平。由于建立了科学的IT运维管理机制和治理型组织结构,强化了管理制度与工作流程,建立绩效考核评价体系,规范运维费用,实现精细化管理和提升信息化科学管理水平。
(5)进一步规范用户行为。通过监控客户端,有助于规范用户使用计算机的行为(如非法下载或安装程序、内网非法外连等),有效避免信息泄露和信息安全事件发生。
(6)提升服务质量和服务感知。实行“一站式服务”,用户也可自行查询服务请求所处的状态或查询知识库进行自主服务,通过持续优化服务流程和服务水平,提高了用户满意度。
(7)主动监控和预防故障发生。应用先进、实用、高效的IT运维管理工具,实时监控各系统的运行状态。设定阀值自动报警时,通过趋势分析,工作人员可以主动发现并解决故障,有效地支持业务工作的顺利开展。
IDC机房运维建设[范文] 篇5
机房建设,即指通过对机房的四个基本要素:结构,系统,服务,管理以及它们之间的相互联系的最优考虑,来提供一个投资合理,同时又高效,便利的环境,帮助企业实现包括成本,便利和安全多方面的目标。
机房建设的基础首先需要一个模块化的、灵活性的、可靠性极高的布线网络,它能连接话音、数据、图像以及各种用于控制和管理的设备与装置。企业就是利用这种布线网络的特点,来满足不断变化的使用者的需要,同时尽可能减少建设单位的花费。
内容:
机房装饰:抗静电地板铺设、微孔天花和机房墙板装修、天棚及地面防尘处理、防火门窗等; 供配电系统:供电系统、配电系统、照明、应急照明、UPS电源; 空调新风系统:机房精密空调、新风换气系统; 消防报警系统:消防报警、手提式灭火器; 防盗报警系统:红外报警系统;
防雷接地系统:电源防雷击抗浪涌保护、等电位连接、静电泄放、接地系统; 安防系统:门禁、视频。
机房动力环境监控系统:机房环境监控系统;
总体要求:布局合理、色彩明快、视野宽阔、具备防火、防潮、防尘、隔热、抗静电、抗腐蚀、易清洁、美观耐用等性能特点,并且材质轻盈、结构坚固、不易变形、拆装方便,便于地板下、吊顶内管线的连接、维修、机房装饰。
供配电:
电源供电采用一类供电,建立不间断供电系统。对外部设备、空调、照明、辅助插座等设备,由机房动力配电柜提供。
机房供、配电系统经机房配电柜向主机电源、外部设备、辅助设备、空调、照明等提供相制、电压、频率及额定容量符合要求的交流电。
机房专用配电柜
计算机机房专用配电柜,主要是指低压配电柜,在机房供配电系统中是重要的组成装置。机房低压配电柜设计的正确合理,配电柜内部件性能的好坏,对整个机房的正常用电起着重要的作用。
配电柜由自动空气开关、隔离开关、接触器、断电器、指示器、按钮、开关、电量仪、采集模块、电源防雷器等元器件和柜体组成。
配电柜具体配置及其技术要求如下:
(1)机房配电柜在编号时,除正常设配电柜号外,还应加配电柜的用途。如:动力配电柜、UPS配电柜。(2)机房配电柜根据用途设计各路供电准确,可靠。不同性质的供电对象不放在一个柜内控制。配电柜内要留用备用电路,作机房设备扩充时用。以便增容和维护使用。
(3)配电柜面板上可显示电流(大小及三相平衡情况)电压、频率用采集模块将运行状态传给场地集中监控系统。
(4)配电柜内主要电气组件应选用质量稳定,性能可靠的产品。主要有:紧急停电擎 / 各开关辅助触头(报警、故障、分合指示等)/ 主开关操作方式任选 / 通风、散热设备 / 各种测量仪表 /Vigil 漏电保护附件 / 脱扣方式(热磁式、电磁式)。组件之间的连接线(导线、电缆、中线、接地线等)均按国家规定的颜色、标志、编号。技术指针达到设计要求,能满足计算机设备及其辅助设备工作的要求。
(5)配电柜内配有应急开关。消防报警系统与动力配电柜(XP1)联动,当消防报警信号被确认后,由消防控制系统将动力配电柜(XP1)的电源切断。
(6)配电柜内应根据计算机设备及其辅助设备的不同要求,设置中线和接地的连接装置。配电柜(箱)中的安全保护接地线(PE)应与等电位接地汇集箱可靠连接,但注意机房内电源中线(N)应当与接地线(PE)绝缘。
(7)配电柜内采用的母线、接线排、及各种电缆、导线、中性线、接地线等,符合国家标准。关按国家规定的颜色标志、编号。所有空气开关连接均用铜排。
(8)配电柜内各种开关、操作按钮,标识清楚,可防止使用中出现误操作。
空调系统:
室内产生的有毒气体和生物污染物得不到合理的稀释和置换。CO2 浓度太高,空气品质劣化,困倦、无力、胸闷、精神恍惚、过敏、工作效率下降等。为了使工作人员在较封闭的机房内工作能有舒适感,需要在使用空调的同时不断补充新风,同时可保持机房内正压,提高机房洁净度。健康,节能,简捷,可靠的新风系统也成为人性化设计的重点。
监控系统:
通过预防性、主动式的维护,最大限度减小应用系统的非计划停机可能性;同时,对存在的问题及突发故障提供及时有效的技术支持、完善的解决方案和事后防范机制,最大限度地减少系统停机的持续时间,使应用系统达到可用性的最大化。
做到事前有预防,事中有措施,事后有预案,把握主动权,采取防治结合预防为主的方式积极消除各种隐患着力提高应急预案的能力。
等级:
新规范的最大特点是将电子信息系统机房根据使用性质、管理要求及其在经济和社会中的重要性划分为A、B、C三级。之所以这样说,是因为机房包含的范围太大,有银行、电信业的大的数据中心,也有企业自用的小机房,随着信息技术的发展,各行各业对机房的建设也都提出了不同的要求,如果不分级,规范遇到的最大问题将是可操作性。
根据新规范的定义,A级是最高级别,主要是指涉及国计民生的机房设计。其电子信息系统运行中断将造成重大的经济损或公共场所秩序严重混乱。像国家气象台;国家级信息中心、计算中心;重要的军事指挥部门;大中城市的机场、广播电台、电视台、应急指挥中心;银行总行等属A级机房。
B级定义为电子信息系统运行中断将造成一定的社会秩序混乱和一定的经济损失的机房。科研院所;高等院校;三级医院;大中城市的气象台、信息中心、疾病预防与控制中心、电力调度中心、交通(铁路、公路、水运)指挥调度中心;国际会议中心;国际体育比赛场馆;省部级以上政府办公楼等属B级机房。
A级或B级范围之外的电子信息系统机房为C级。
制约因素:
电力问题
随着设备的不断增加,数据中心能耗问题日趋严重。由于电网供电质量不稳定,有时会出现电源故障,包括电压浪涌、电压过压、欠压、瞬时电流冲击和故障停电等;事实证明,在计算机故障中,有50%的原因是电源故障造成的。所以一个高品质,电力稳定的数据中心机房环境是计算机和网络系统可靠运行的基础。
成本问题
提起数据中心的规划,很多企业的CIO仍旧没有给与足够的重视,他们要不是过度“谨慎”,要不就是很“激进”。前者会造成数据中心扩容困难,一旦业务量上升,IT设施跟进缓慢,由于前期预见性不足,导致数据中心的再建设,即重复性建设,这样会造成具大的浪费,无论是时间还是人力;后者目光很长远,初期投资就“下狠本”,预留出未来几十年的扩容空间和负载能力,但这样做是一种“过度规划”的冒进行为,考虑到经济形式依旧不明朗,如果日后业务萎缩,给企业带来的损失依旧不可小觑。
如何在有限的预算内,既保证数据中心的可扩展性,又确保不会造成过度浪费,是企业在数据中心规划过程中要认真考虑的问题。
灵活性和兼容性
随着科学技术的发展,不可能保证一个系统永远处于领先地位。因此在设计方案时,必须考虑到各系统的升级扩容的灵活性和兼容性,这就需要采用模块化、开放式、集散式、分布式的控制系统。使得不改变原有设备,在不损失前期投资的情况下,能够方便的升级和扩容,确保系统不过时。
操作和维护的方便性
人力成本的价值在大幅度增加,系统设计如何做到操作和维护更方便,对于提高工作效率,降低人力成本和维护成本,提高系统总体性能价格比是极其重要的环节。
由于机房具有一定复杂性,随着业务的发展,管理任务必定会日益繁重。所以在机房的设计中,必须建立一套全面、完善的机房管理和监控系统。所选用的设备应具有智能化,可管理的功能,同时采用先进的管理监控系统设备及软件,实现先进的集中管理,从而迅速确定故障,提高运行性能、可靠性,简化机房管理人员的维护工作。
企业IT运维管理模式研究 篇6
【关键词】运维管理;IT系统;ITIL
【中图分类号】C36 【文献标识码】A 【文章编号】1672-5158(2012)09-0375-01
在北京产业研究院发布的《2010年一2015年中国IT服务市场投资分析以及前景预测报告》中提到,中国经济将在2010年實现全面复苏,伴随着主体经济的发展,IT产业也将在2011年开始高速增长,并在2012年之后进入产业成熟期。的确,伴随着经济的迅速发展,企业的信息化也进入一个新的时代,不仅企业IT规模随着企业的发展而庞大,企业的信息化需求也在向多元化和层次化发展。为了确保企业业务未定、可靠、快速的展开,做好企业基础网络的运维,管理层也开始使用多种管理手段和技术手段对其进行提升,但是企业核心业务与IT服务的整合却并不理想,管理水平也较低。
1、企业lT运维管理的现状
虽然由于地域和行业的不同,企业的IT运维管理模式也存在差异,即使在同一个企业内,由于级别的不同,管理方式也会存在差别,但是整体来说,我国企业的IT运维管理面临如下问题:
1.1 运维管理缺乏考核体系
大部分企业的IT部门都是按照IT基础机构的功能进行划分,虽然也有部分企业是按照业务模块进行划分,但是都没有对于IT服务工作的具体量化考核工具,既无法考核IT服务人员工作的绩效,也无法对IT服务人员处理故障的效率和质量进行监督。并且企业IT出现问题时,往往并不是单一环境出现问题,只有多个部门相互协作才能解决问题,而在企业IT运维过程中由于职责不清,会出现相会推诿的现象。
1.2 运维资产管理漏洞
虽然IT设备和软件物资较多,但是目前大部分企业还停留在人工管理的阶段。比如对于IT设备的巡检不到位、排查力度较弱;IT设备的记录台账无法正确反应设备维修的历史记录;软件资产没有建立台账管理,缺乏软件的升级、变更等信息记录;IT设备的采购、调拨和报废等管理流程繁琐,处理效率较低等。
1.3 运维管理缺乏流程保障体系
企业的IT部门并不仅仅要确保企业信息系统的安全、稳定和运行可靠,还要利用庞大的信息系统为业务部门的决策提供有效地支持。但是IT管理人员往往会出现这种现象,忙于处理突发事件,却忽视了主动服务。在故障发生的时候,特别是涉及到企业的核心业务,全员参与,仅仅动员,气氛更加紧张。
1.4 运维管理缺乏长期的规划
大部分企业的IT运维管理都会偏重于对“硬平台”的建设,忽视了“软平台”的管理和维护,导致运维工作人员在客户满意度考核中评价较低,而相关部门的责难也会打击工作人员的积极性。尤其企业网络建设缺乏这种长期的规划和对于复杂IT系统的运维管理经验,导致于企业IT运维管理停滞不前。
2、建立完善的lT运维管理架构
在20世纪80年代,英国政府为了提高IT部门的服务质量,要求英国国家计算机电信局开发设计了一种新的IT资源使用方法,它与以往版本不同,具有规范化和可进行计量的特点,适用于各种规模和业务需求的公司。这套系统就被称为ITIL,全称为InformationTechnology Infrastructure Library,译为信息技术基础架构库。ITIL的应用价值在众多公司的管理实践中得到了证明。
具体来说ITIL的框架由核心组件、网络组件和补充组件三个部分组成,其中核心组件包括了服务战略、服务设计、服务转换、服务运营以及服务改进五个部分。网络组件主要负责提供系统所需要的动态资源和资料。补充组件则针对不同规模的企业或不同的行业领域进行指导,帮助客户针对性的定制ITIL,并为ITIL的实践与企业标准的结合提供指导。
2007年,ITILV3版本的发布,首次进入了生命周期的管理概念,并与IT服务管理领域的最佳实践相融合,通过PDCA模型对IT服务不断的进行改进。在ITILV3的框架中,服务战略模块主要为IT服务管理提供政策指导,保证IT服务战略与企业业务相一致。服务设计模块为企业制定IT服务管理制度和管理流程提供指导帮助,帮助客户制定出合理的IT服务解决流程。服务转换为系统中新增或修改的IT服务提供指导。服务运营模块则是为企业如何达到IT服务支持的效果和效率提供指导。持续服务改进模块则是根据企业的业务需求提供持续改进指导,使企业的IT服务于企业的业务需求不断相适应。
3、提高企业lT运维管理能力的措施
3.1 明确IT运维管理的流程
企业要对组织结构进行调整,明确企业IT运维管理的具体流程。传统运维管理模式是按照专业进行科室的划分,比如应用开发、系统控制和网络管理等。但是新IT运维管理系统需要按照专业和技能对部门进行竖直层面的分工,比如一线负责处理基础问题,二线负责处理复杂问题,经理则从全局进行把握和疑难问题的解决。这样根据企业的实际情况,对结构进行优化,建立的运营架构,各个部门既是相互独立,又互相联系。这样IT系统一旦出现问题,能够第一时间联络相关负责人,解决问题。
3.2 实施运维管理的统一监控平台
首先要推广预知维修意识,好像设备维修从事后维修向预知维修的发展一样,IT运维管理也要注重预知维修。由于企业对信息管理系统的高依赖性,每次故障都会给企业造成经济损失。通过检测系统和日志记录系统等异常检测平台及时将故障排除在萌芽中。其次要建立文档资料的管理。由于网络的不稳定性,在信息系统记录的资料再详细,也会出现由于故障丢失数据的可能,因此完善的文档资料管理对于IT运维管理非常重要。
3.3 进行资产全周期管理
通过资产全周期管理,能够及时追踪IT设备的资产状况,对软件和硬件的台账资源及时掌握,对IT资产的使用情况精确记录,提高了IT资产的重复使用率,做到及时更需设备、淘汰报废设备,从而降低了对IT资产的投入。
3.4 量化运维工作考核标准
由于IT运维管理的各个岗位的工作方式不一、技术水平不同,因此要对运维人员的工作进行量化,通过一系列分析数据制定严格的考核标准,比如一线的技术人员与经理由于责任、分工不同,工资待遇应有所差别。但与此同时要设定奖罚和晋升制度,激励员工不断提高服务水平和服务质量。
量化运维人员的运维工作,通过运维分析数据制定运维考核标准,逐步提高运维人员的服务水平和服务质量。
4、结束语
运维管理建设 篇7
目前, 航天科工防御技术研究试验中心IT运维部门承担的工作包括:计算机终端服务、机房的管理、信息化基础架构的管理、应用系统的管理、安全管理、日常临时性、应急类工作、终端用户咨询、培训类工作以及其他工作。信息化管理组承担了400多台PC、10多台服务器、10多台网络设备、10多台安全设备的维护服务工作, 同时承担了数据库、应用系统的维护及信息化基础项目建设工作。
2 IT运维管理工作现状
有朴素的、实用的运维管理方法, 并在运维工作中证明能够为客户提供较好的运维服务。但是由于资源受限, 因此并没有建立完善的IT运维管理体系, 特别是由于IT运维管理工作的目标并没有明确的量化目标, 因此相应的职能及流程没有做系统的定义, 也就没有进行完善的记录, 也无法进行分析改善。其次, 运维工作更多的仍然属于被动管理阶段, 绝大部分的运维人员主要是进行响应性或者应急性的工作, 没有办法进行主动的问题分析与运维服务的优化。而且缺乏必要的工具来记录、规范IT运维的工作, 同时由于没有工具, 包括可用性、容量、服务响应时间等关键的IT运维指标都无法实现量化, 既无法体现IT运维部门的IT工作质与量, 也无法完善的证明IT运维部门的工作是否合规。
3 IT运维管理系统建设
运维体系的实施与运行需要有相应的技术平台进行辅助与支撑, 即需要建设ITIL运维管理平台, 该平台要达到的目标包括:固化流程、固化职能、统一资产配置库、量化过程、量化结果。
该平台建设将实现对所有网络设备、服务器、数据库、应用系统的综合监控, 通过建立运维服务台, 统一运维服务入口, 实现事件---变更的全过程的流程化管理。
ITIL运维管理平台完全采用模块化和组件化的开发模式, 严格按照软件工程的思想开发。它集成了网络管理和系统管理各自的优点, 对组成网络服务的IT基础架构的各方面:从网络设备到服务的物理载体——服务器, 再到各种应用程序, 进行分层监视, 最终实现了以服务/业务为最终对象的综合管理, 全面的实现了对IT基础架构的故障管理、性能管理、资源管理、安全管理、流量管理等功能;同时, 对系统的各方面:资源管理、事件管理、流程规范化管理、桌面管理和IT资源利用分析等提供了全面的管理手段, 将各个有效的功能模块有机结合在一起, 形成一个单一而完整的管理系统, 真正在一个平台实现了对IT环境以及IT资源管理的需求。该平台和产品一并提供的解决方案能轻松而顺利地让运维人员实现网络运作从被动无序到主动控制的过渡, 可以成倍地提高工作效率, 以便让运维人员真正能运用网络更大的提升工作效率, 降低工作成本。
4 平台建设的总体框架
4.1 监控管理平台
实现对IT基础架构, 主要是网络设备、服务器、数据库以及应用的监控, 并实现监控对流程的驱动。
4.2 服务管理平台
服务管理具体功能包括服务台管理、服务流程管理及运维辅助功能, 具体而言:
4.2.1 服务台管理
职能管理功能包括服务台职能管理以及值班、巡检的管理。服务台是提供给客户提供服务的接入点, 它可以从电话、邮件或者即时通之类的工具让客户快速的找到服务。同时, 运维人员通过服务台可以记录客户的问题, 根据服务台提供的帮助信息解决问题, 也可以将用户的请求生成工单派发下去, 并跟踪工单的执行。
用户也可以通过自助服务台自行提交事件问题申请, 并跟踪事件处理进度。
4.2.2 服务流程管理
服务流程管理包含了事件管理流程、问题管理流程、变更管理流程、发布管理流程。
服务器管理系统是对运维管理的流程进行固化的工具, 它可以制定流程的总体结构、考核目标、每个节点的表单等。运维人员可以基于制定好的流程生成相应的服务流程工单, 也可以接收属与自己相关的工单进行处理。同时在工单中, 应该能够提供运维人员进行服务的一些关联信息, 如配置信息, 相关工单的信息等等。流程要能进行统计分析, 生成各累报表, 作为领导工作汇报和改善流程的依据。
4.2.3 运维辅助功能
运维辅助功能是帮助运维人员更好, 更高效的做好日常运维管理工作。功能包括运维知识库、巡检管理、运维报表等。
4.3 资产配置库 (CMDB)
资产配置库是要收集IT环境的各种IT资源以及IT资源的配置, 建立它们之间的逻辑或者物理的关系, 为IT运维人员在排除故障, 解决问题的时候提供帮助。因此, 除了要记录配置之间的关系外, 还应该将与运维相关的一些信息资产以及其配置进行关联, 例如相关的合同, 维护的厂家, 曾经发生过的变更, 曾经维护过的知识等等。结合资产配置库, 应该有专门的配置管理员来维护和保持资产配置库数据的准确性。
4.4 服务展现
服务展现包括门户及管理驾驶舱
4.4.1 门户
门户是不同类型用户进入到航天科工防御技术研究试验中心信息化门户后, 结合其角色所能够得到的与IT运维相关的信息。
4.4.2 管理驾驶舱
管理驾驶舱是提供统计分析功能, 按照协定的服务承诺分解到具体的KPI, 从人员、流程、技术三个方面统计IT运维管理的实际情况, 并与承诺的质量进行对比, 从而发现不足, 辅助管理者进一步分析的管理改善点, 发现隐患, 解决问题。
参考文献
[1]陈碧珍.浅谈IT运维服务体系的建设[J].广东科技, 2001 (12) .
[2]王晓勤, 赵刚.企业IT服务管理中心架构研究[J].信息化建设, 2006 (05) .
运维管理建设 篇8
近年来,电网生产管理系统(GPMS,G rid Production Management System)已经在福建省电力公司及所属单位投入运行,系统覆盖了输、变、配电生产业务,为电网生产构建出基于空间信息的可视化共享平台,实现了跨部门、跨地域的数据共享和业务系统间的应用集成,目前,系统已进入了运维阶段。专业机构研究表明,软件项目生命周期中,运营维护阶段占了整个事件和成本的70%~80%[1];系统常见问题中,源自技术或产品(包括硬件、软件、网络、电力失常及天灾等)方面的问题只占20%,而流程失误方面的问题占40%,人员疏失方面的问题占40%[2]。
作为GPMS的开发与推广单位,厦门亿力吉奥信息科技有限公司(以下简称亿力吉奥)承担着系统上线后的运行维护工作。面对如此高的要求和压力,运维服务单位需要有一套完善的、可管理的运维服务体系流程,对运维进行有效的管理,使信息系统更加适应业务持续变化的需求。当建立完善而成熟的运维管理体系后,通过流程管理,不断提高IT运维质量,实现高效运维,提升用户IT服务满意度。
1 电网生产管理系统运维现状
1.1 运维业务范围
亿力吉奥对福建省GPMS的运维业务覆盖客户服务、运行监控、硬件平台、基础应用、业务应用与数据服务等6个方面。
1)客户服务:通过热线电话、邮件系统、软件平台等方式,处理用户提出的GPMS相关问题,并及时给予反馈。
2)运行监控:对GPMS运行情况进行日常远程监控与定期现场巡检。
3)硬件平台:对小型机、PC服务器等设备进行日常运行维护和管理。
4)基础应用:对数据库、中间件等进行日常运行维护和管理,并定期进行系统性能诊断和调优。
5)业务应用:负责对GPMS的运行维护,包括系统故障处理、需求分析、版本发布、系统培训等。
6)数据服务:定期更新福建省各地区的矢量图、影像图和地理数据;设置异动服务小组,向用户提供数据服务。
1.2 运维人员配备
亿力吉奥成立运维服务部门,将运维人员划分为不同的业务组,分别承担GPMS配网业务、主网业务与技术支持领域的运维服务。每个业务组设置组长1名,负责小组工作的统筹安排。
1.3 运维制度规范
亿力吉奥于2008年9月制定并发布《亿力吉奥技术支持部工作管理规范》,制定了运维部门结构、工作范围与考核办法。该规范作为总体参考指南,对运维工作进行管理和指导。
1.4 运维软件平台
亿力吉奥于2008年自主研发出专业的运维工具,即在线服务。该系统主要应用于运维事件的记录与反馈、系统问题、需求的处理与跟踪。该平台也提供给用户进行在线问题报修登记等。
2 电网生产管理系统运维问题分析
随着系统应用的深入及运维业务的庞杂化,在运维过程中逐渐遇到了一些问题。
2.1 运维制度不完备
运维工作管理制度为2008年编制,其中的业务范围、规范要求等内容与当前工作情况存在不符,且由于制度内容未参考相关业界标准和专业要求,因此,对当前运维工作的管理和指导意义有限。
2.2 运维流程管理不规范
对于客户服务、问题处理与系统升级,没有设置相应的流程规范,没有明确每个流程环节对应的操作规范、执行人员及其职责,导致运维工作的处理情况与预想效果偏差较大,且缺乏有效的监督制度。
2.3 运维人员管理不科学
运维人员职责分工不明确、能力水平不均衡,导致对问题的处理效果参差不齐。同时,面对变化的运维工作,人员编制要求方面,缺乏有效的规划和储备。
2.4 运维软件平台不完善
运维软件平台缺少系统版本发布管理、知识库管理和系统运行情况监控等功能,难以对运维业务进行全面的管理。
3 电网生产管理系统运维体系建设
为提高运维工作效率,提高运维服务质量,亿力吉奥结合《国家电网公司信息系统运行维护工作规范(试行)》的要求,积极学习ITIL运维理论,对现有运维工作方式进行了改革和创新,采取了一系列改进措施。
3.1 引入运维分级概念
根据国家电网相关规范中提出的运行维护等级划分,亿力吉奥在运维工作中引入了分级的概念。
1)界定运维工作范围,明确运行维护工作类别,将运维工作范围具体划分为客户服务、运行监控、硬件平台、基础应用、业务应用、日常管理和安全保障。
2)优化运维人才体系,遵循“三线运维”原则,结合福建省GPMS运维情况,将运维人员整合为三线运维体系[3],即一线前台客户服务,二线后台运行维护,三线外围技术支持。
一线前台客户服务作为用户与运维部门的首次、单一联系点,通过统一的呼叫热线,负责所有服务请求的接收、跟踪和反馈;对于一线客服无法解决的问题,提交二线后台运行维护处理解决;涉及程序代码修改、供应厂商责任事宜,则提交三线外围技术支持处理解决。
3.2 输入运维专业标准
在参考学习《国家电网公司信息系统运行维护工作规范(试行)》、《国家电网公司信息系统运行维护规程》等电力行业标准规范的基础上,亿力吉奥引入专业运维咨询,输入ITIL V2/V3、ISO20000、ISO 27001等业界最佳管理实践和管理标准,将之融合应用于福建省GPMS运维工作中。
1)将运维工作流程划分为事件管理、问题管理、配置管理、变更管理、发布管理5个核心流程[3]。设置流程负责人角色,对5个核心流程进行管理和监督,保障流程质量达到关键绩效指标要求,同时明确各流程环节的执行人员及其职责,明确各流程需要输出的文档记录。
2)对事件的接收、处理、反馈提出明确的时间要求,将其与事件等级对应,指导运维人员根据事件的优先级、影响度、紧急度来合理安排、处理与反馈。对处理过程记录内容提出要求,杜绝口语化和不清晰的表述方式。
3)梳理出科学的统计、分析手段,对运维人员的工作态度、工作能力、工作业绩提出量化考核指标,保证考核标准的客观与准确。
3.3 构建运维知识管理
基于运维软件平台开发知识库管理功能,设置可行的知识管理流程,实现运维知识库的自增长维护,为各业务方向的运维人员提供可参考的知识信息、操作指南。运维知识管理流程如图1所示。
1)知识库的录入、查询权限向所有运维人员开放,由其在运维软件平台中录入并提交审核。
2)设置知识库负责人角色,对运维人员提交的知识记录进行审核,通过后方可入库;负责人还需要定期对知识库进行巡检,将已作废的记录出库。
3.4 启用运维质量监督
在运维部门建立相应质量监督机制,设立质量监督检查、用户投诉处理、客户满意度调查和供应商服务评估的岗位职能,并进行如下工作。
1)由流程负责人对运维5个流程进行流程管理与监督,定期撰写运维流程管理报告。
2)对事件进行日、周、月的统计分析,形成事件统计分析报告。
3)将服务回访工作体系化,每月组织一次客户满意度调查,并对回访结果进行跟踪。
4)每天召开运维工作班后会,对当天运维工作情况、存在问题进行总结和分析,对前一天未完成的工作进行落实与跟踪。
3.5 加强运维安全保障
亿力吉奥通过接入安全限制、规范运维操作等方式,逐步加强各项安全保障工作。
1)网络接入安全保障。对系统数据库、服务器远程等连接进行接入限制,确保只有经过授权的计算机才能对其进行操作。
2)服务器维护安全保障。定期收集、分析操作系统日志,根据各电力单位信息中心传达的国网信息安全检查结果,对服务器安全性能进行维护与优化。
3)数据维护安全保障。对系统数据的后台修改、删除等操作进行控制,通过规范的数据变更流程确保GPMS数据的安全性。
4 电网生产管理系统运维效果分析
对系统运维现状、存在问题进行归纳分析后,实施一系列的改进措施,GPMS运维工作取得了明显的进步,工作效率得到提升,流程得到规范,人员得到了激励。
从以下几方面对体系建设前后的运维效果进行对比。
1)岗位职责。建设前:运维人员岗位分工不明确,没有确定的负责人。建设后:划分出三线运维体系,明确运维人员的职责分工,设立流程负责人对流程进行管理和监督。
2)事件接收。建设前:全部运维人员都是接线员,造成热线电话占线情况较严重。建设后:统一服务热线,设置客服人员专门负责运维事件的接收和记录,并控制电话接听时间,降低了热线呼损率。
3)事件记录。建设前:事件原因和处理过程描述不清晰,回应方式较为随意和口语化。建设后:运维工作制度中对事件原因、处理过程、处理结果等内容提出记录要求,提供规范的表述模板。
4)事件分派。建设前:运维人员通过热线电话直接接收客户反映的问题,事件分派较为随机、不均衡,事件分派无标准。建设后:由客服人员对事件分派进行统一调度,客服人员根据运维人员的空闲情况,合理分派事件。
5)事件优先级。建设前:对事件的响应、处理,主要由运维人员凭经验判断和把握。建设后:参考运维工作制度中对事件处理时间要求,结合事件等级定义,排出事件的优先级,据此进行事件的响应与处理。
6)工单总量。建设前:8月份,接收工单875份,事件受理率92%,处理率78%。建设后:12月份,接收工单1 022份,事件受理率96%,处理率86%。
7)事件一次解决率。建设前:运维人员水平不均,部分人员对事件的一次解决率较低,经常需要求助于其他资深人员,再对客户进行回复。建设后:完善运维知识库的建设,对一线人员提供共享知识资源的支持,提高一线人员的在线解决率和客户满意度。
8)事件反馈。建设前:当日未关闭事件,几乎未对用户进行任何反馈和解释。建设后:通过班后会的每日定期过滤和监督,实现了每日下班前向用户反馈当日未关闭事件的原因和预计关闭时间。
9)工单关闭。建设前:抽查某星期四,未关闭工单8份。建设后:抽查某星期四,未关闭工单3份。
10)数据安全。建设前:对于用户提出的数据处理请求,没有经过过滤和审核,直接进行操作。建设后:根据运维流程规范,要求用户提供标准格式的数据变更申请单,并严格通过数据变更流程审核、操作。
11)变更、发布流程。建设前:系统新版本发布、补丁升级后经常产生许多新问题,导致用户对版本发布工作较抵触;紧急发布过多,导致系统稳定性方面存在较大风险。建设后:制定出规范的升级流程,对定期发布与紧急发布均需严格按照流程规范来操作,降低了升级工作对系统稳定性带来的风险;同时通过引导用户进行预验证,提高了用户对新发布版本的体验和认可。
12)工作汇报。建设前:服务台当日工作情况无任何汇报机制。建设后:每天定期组织召开班后会,进行事件统计分析、工作跟踪、重点工作安排,形成班后会纪要,为质量监督提供事件管理相关数据。
13)质量监督。建设前:没有规范的客户满意度调查及流程质量监督机制,在发生事故时难以落实责任。建设后:设置专门的质量监督岗位,通过流程负责人、班后会机制,按照定期(每天、每周、每月)监督或随机抽查的方式,形成分析报告与改进建议。
14)人员考核。建设前:对运维人员工作情况的考核,主要依赖于管理人员的主观印象和判断,人为因素影响较大。建设后:设立量化的考核指标,结合数据分析和质量监督报告,客观地对运维人员的工作态度、工作能力、工作业绩进行绩效考核。
5 结语
目前,亿力吉奥的GPMS运维业务已经覆盖了客户服务、运行监控、硬件平台、基础应用、业务应用与数据服务等各方面,运维体系和制度正在逐步完善,运维建设初见成效,接下来还将持续改进,不断提高运维服务水平。
摘要:电网生产管理系统覆盖了福建省电网的输、变、配等电力生产业务。随着GPMS的不断完善和深入应用,对系统运维工作提出了更高的要求。文章分析了GPMS运维工作的现状和不足,并有针对性地提出了改进措施,对改进前后的运维效果进行了对比。通过对比发现,建成运维体系后,其规范性、工作及时性、用户满意度等都有了较大程度的提高。
关键词:GPMS,系统运维,体系建设,效果分析
参考文献
[1]BON J V.基于ITIL的IT服务管理基础篇[M].章斌,译.北京:清华大学出版社,2007.
[2]杨建华,张群.浅析信息技术服务的运作管理研究[J].中国管理信息化,2010(7):70-74.
运维管理建设 篇9
关键词:ITIL,管理体系,数据中心,流程管理,应用系统
0引言
目前,信息化已经成为全球共识。 在全球,信息化正颠覆着传统工业,成为世界大国参与国际竞争的战略制高点。 中国石油集团公司强调“要发挥信息化的龙头引领作用”,信息化的地位显著提升。 其次,信息化需求不断增长。 客户的需求不再单纯是简单的、传统意义上的信息化服务,而是在业务融合、流程优化、 协同应用、平台整合、数据价值挖掘、移动应用等更高层次上的需求,并呈个性化、多元化、专业化趋势增长。 随着信息应用水平的提高,对信息系统维护的稳定性、可靠性及科学性提出了更高的要求。 目前,信息化建设的重点已从大规模集中化建设阶段转向以深化管理、提高效率为主要特征的“运行维护”阶段。 因此, 建立完善的IT运维管理体系,借助先进的管理手段,构建服务型运维中心、 提供优质服务是当前迫切需要探讨和实施的一个重要课题。
1背景及建设运维体系的必要性
过去的10年,是信息化跨越式发展的关键阶段,油田信息化发展迅速,建成应用了一批集中统一的生产运行、经营管理、 办公管理平台,基本满足了当前核心业务和配套业务的需求。 随着油田信息化建设的深入,新的业务应用逐步增加,机房设备、 网络基础设施、服务器、云平台等硬件数量剧增,应用系统、数据库、应用服务器、中间件等软件平台日益复杂,服务的用户越来越多,为维护好日益增多的硬件设备和业务应用,需要建立一套高效、有序、规范的IT运维体系来保障硬件系统、业务应用系统的安全可靠运行,提前发现问题、预警潜在危险、快速反应、提供规范优质的服务管理内控流程。
目前,信息技术在企业中的应用得到了前所未有的重视,但是长期持续建设的惯性使企业普遍存在“重建设、轻运维”“重技术、轻流程” 等问题,导致对IT运维工作投入不足,缺乏规范化的运维管理流程。 由于缺乏规范的运维管理体系,导致企业普遍存在以下问题:
(1)运维人员就像救火队员一样处于被动的服务状态 ,只有当问题已经发生后才进行紧急处理而不能预防问题的发生。
(2) 缺乏统一的服务台 , 用户请求随意性大 , 直接找有经验的信息人员导致能干的人员成天处理无价值的琐碎事情, 价值无法有效体现。
(3)缺乏规范的运维制度和流程 。 在处理问题时没有对问题进行记录和分类导致无法跟踪和监控问题的处理情况。
(4)IT运维的相关经验没有积累和共享 。 由于缺乏对运维过程的记录使得问题的处理方法只有当时的维护人员掌握,相关经验难以积累和共享。
(5)运维人员绩效无法量化 。 在运维工作中没有建立量化的考核指标,IT运维质量和运维人员的绩效无法量化,使得运维人员的工作积极性得不到提高。
因此实现运维管理从传统被动式服务转变为主动预防服务, 以流程贯穿整个运维管理过程,实现运维管理的标准化、规范化和流程化是目前我们信息化建设急需解决的问题。
2体系建设需求与目标
2.1 需 求 分析
(1)在管理规范方面 ,目前日常运维工作中没有一套完整的规范管理流程, 迫切需要对目前IT运维工作程序进行规范化和标准化,以适应业务用户对IT服务端到端的需求。 同时,作为管理流程执行的保障手段, 需要建立IT运维管理工作的管理控制点和覆盖全面的管理制度,按照管理流程、角色岗位进行分解,配套实施支持考核的技术手段, 提高科学量化评价的效率和效果, 促进IT服务工作高效、规范、合规运行。
(2)在技术工具方面 ,利用现有的 、成熟的软件 ,自主开发一套IT运维管理信息系统,利用大屏展示技术方便监控运维管理。 同时需要实现技术工具之间的集成与整合, 逐步实现IT运维工作流程和监控管理的自动化。
2.2 建设 目标
树立面向业务服务的IT运维管理理念;
编制规范标准的IT运维管理流程, 由职能管理向流程管理转变;
编制全面、统一、规范的运维表单;
建立量化的IT外包服务绩效考核指标;
整理发布运维管理体系手册;
建设统一高效灵敏的IT运维管理平台;
应用先进、实用、高效的IT运维管理工具,由被动管理向主动管理转变。
3建设思路和规划
3.1 体系 建设思路
按照IT运维管理理论、方法和标准, 结合实际和建设需要, 遵循立足需求、统一规划、保障重点、分步实施、务求实效的原则, 建立一套融合组织、制度、流程、人员、技术的IT运维管理体系, 实现对网络及信息系统的综合管理监控和日常技术支持, 快速响应和及时解决信息系统运行过程中出现的各种问题和故障, 确保信息系统正常、稳定、高效的运行。
3.2 工作规划
(1)梳理运维管理流程 ,建立明确的运维管理目录
充分了解信息化建设情况及特殊需求, 针对特有设备和备份方案更要进行深入了解, 摸清日常运维的流程, 制定出合理的、全面的运维管理目录。
(2)编制运维管理文件
针对每个运维流程,要编制出相应的运维管理文件,用于指导、说明运维流程图的解释,并同时做好相应的操作流程即程序文件的编制。
(3)规范运维表格 、报表 、报告
梳理运维流程、编制管理文件的同时,每一个流程节点要有相对应的运维管理表格,表格要统一编码、统一格式,制定出合规性报表报告范本。
(4)测试运行建立的运维体系文件 ,跟踪修订 ,不断完善
对于运维体系文件,要先梳理、编制急需的流程图和管理文件、程序文件。 制定出运维体系总体、框架、运维体系流程目录等。 体系发布后要每年修订一次运维体系文件。
(5)建立运维考核指标
对于运维流程,关键的环节要有规范的考核指标。 运维管理平台运行后, 要梳理相应的考核指标体系, 利于系统的自动考核、分析、评估。
(6)建设运维管理平台 ,用技术手段保证运维的高效 、规范
运维管理体系建设的贯彻执行, 最终要靠先进的技术手段来保证其实施落实。 因此需要建立必要的运维管理平台,用系统自动管理代替手工管理,达到高效、准确、有序的管理效果。
4 建设内容
4.1遵循原则
体系建设参考有关国际标准、规范;国内标准、规范;中石油企业标准《中石油信息运维管理标准》等。
4.2 建设内容
IT运维管理体系要真正发挥效益 ,避免 “为技术而技术 ”,需要融合人、流程、技术。 根据信息化的发展要求,配套的管理措施应包括组织模式、管理制度、管理流程、绩效考核、运维费用、技术支撑等内容。
4.2.1 组织模式
从全局的角度定位IT运行维护和服务工作, 将油田目前分散进行的各项IT运行维护和服务的工作职能逐渐整合, 进行集中统一管理,统一调度IT运行维护和服务的技术力量,并结合油田实际情况和管理需要进行配套的组织机 构的设置 和逐步完 善。
1成立IT运维管理领导小组。 从总体上负责IT运行维护和运维管理的统一组织协调,监督检查各岗位服务质量。 2建立面向用户的服务中心。 以服务台为统一服务接口,不断扩充与完善服务台的功能,统一受理客户IT服务请求,记录事件并进行一线解决, 对解决不了的较为专业的事件派发给专业的二线技术人员,后期逐步建立独立的IT运行维护和服务机构(运维中心),专门负责IT运维和服务工作,合理划分建设与运维的边界,实现建设与运维的分离。 3设置合理的组织机构。 保持目前组织机构和职责不变,进一步理顺关系;后期随着信息化的发展和管理成熟度的不断提升, 逐步建立起完全适应体系运行的IT治理组织机构。
4.2.2 管理 制度
管理制度是指IT运行维护和服务工作必须遵循的内部管理规定,用于提高工作的协调性和管理的有效性。 借鉴IT运维管理体系国际标准1SO 20000要求,结合油田实际,管理制度分为四级,见表1。
5体系建设的效果分析
通过建立科学合理的IT运维管理体系,系统地将组织架构、 管理流程、管控制度、绩效考核以及技术平台贯穿融合,有效解决了目前运维工作中面临的沟通不畅、效率低下、服务质量无法保障、被动救火等问题,改变过去无序、不规范的运维状况,增强为业务应用服务的意识,更好地实现了建设服务型组织的目标。 实行“一站式服务”,服务全过程跟踪,面向用户提供“端到端的服务”。 运维管理体系建设完成后,带给信息化主管领导和部门领导、业务用户、IT管理人员多方面的好处,具体体现在以下“三个放心”。
5.1 用 户 放心
提升服务质量和服务感知。 IT运维管理体系的服务台,面向用户,统一受理服务请求,实行“一站式服务”;通过服务台开通的用户服务网站, 用户可自行查询服务请求所处的状态或查询知识库进行自主服务;通过持续优化服务流程和服务水平,IT运维管理体系提高了业务的用户满意度, 进一步提升油田IT服务的整体形象。
5.2 领导放心
IT运维管理体系的建设 ,将进一步规范运维管理工作 ,降低IT运维成本 ,通过 “用好信息系统 ”,更加有效地支持业务和提供公共服务,进一步推进业务工作公开、透明。 同时规范化的操作, 减少了人为错误引发的风险;IT运维管理系统能够记录并分析运维过程中发生的各种故障及其解决方案,通过报表工具,展示全局视图让领导了解运维工作各方面的情况,辅助决策;科学的IT运维管理机制和治理型组织结构 ,规范了IT运维管理过程中各个参与要素的管理制度与工作流程, 全面实现了精细化管理和提升了信息化科学管理水平。
5.3 维护 人员放心
主动监控和预防故障发生。 应用先进、实用、高效的IT运维管理工具, 运维工作人员可以实时监控各系统的运行状态可以主动发现并解决故障;通过趋势分析改变“被动救火” 的局面,更加有效地防范故障和提高工作效率。
6结语
运维管理建设 篇10
效率——是任何一个企业环境都在追求的关键词。从生产制造到最终发行、从市场评估到市场占有、从日常维护到最终业务平稳运营,各个环节无疑充斥在对高效的要求之下,而在企业IT运维管理领域,效率同样是一个永久的话题。在确保企业IT基础架构环境的安全、稳定的情况下,能够更好的支撑业务发展的需要。
智能——在追求效率的同时,如何在有限的资源条件下(包括:人力资源、设备资源及工具资源),使运维工作更加清晰、精准及开放,使运维工程师在体力上得到极大程度的释放,同样需要依托于运维管理工具及良好的运维管理体系。
可视——运维及运维管理工作随着业务结构复杂度的加强而成指数的增长,随着传统IT运维视角、运维思路的转变,当前IT运维已经由传统的技术导向逐步构建成以业务为导向的管理体系,而对运维质量及效果呈现的方式方法,对企业信息部门来讲仍是比较匮乏的,如何做到信息部管理层、运维工程师以及业务部门对IT基础环境、运维工作的可视化,将对企业IT运维体系建设提出新的要求。
中国南车IT运维系统的建设紧扣IT运维管理过程中的困难及挑战,在构建高效、智能、可视的运维环境下,逐步进行体系化搭建。对人员、流程、工具、制度进行整合,构建出一套适合中国南车特点的IT运维管理平台。确保IT运维工作能够更加紧密的支撑南车业务的发展需要,通过IT运维系统的数据积累,为后续数据分析、数据挖掘以及产品选型、供应商服务评估提供实例化的数据模型。
开放性的架构设计
中国南车IT运维系统采用开放性的平台结构,确保和现有信息化系统无缝结合,在保障原有业务系统平稳运行的条件下,行使好支撑业务系统的角色。在系统建设及投入使用过程中由较高的投入产出比。在系统工具上线使用的过程中,切实的提高运维工作的效率,降低故障发生的概率。
如图1。
中国南车IT运维系统通过Web Service接口已经实现了与E-HR系统、AD域、RTX(包括短信接口)以及统一门户的接口对接,形成与其他支撑系统的纵向打通,进而在组织架构、人员组成、登陆认证、消息提醒方面形成一体化的解决方案,该解决方案可以面向南车总部所有用户使用。在满足日常办公需要的条件下,加强运维工作的实时性及高效性。
智能化的IT运维管理工具
正如前文提到的“智能化”将作为IT运维过程管理的一项重要要求,无论是面对例行的运维任务还是面向突发的故障处理,智能化都将为提高运维管理水平起到关键作用。结合以业务为导向的IT运维2.0时代,必须要有强有力的运维工具作为支持。
实时掌握IT架构运行态势
如图2。
I T监控指数将为运维人员及运维管理人员提供智能化的视图结构,结合业务为导向的IT运维管理思路,已经将企业业务系统抽象成业务卡片,并进一步抽象出衡量业务系统的独立指标:健康度、繁忙度、可用性,来评估业务系统的承载能力及健康水平,进而打破传统IT运维领域对单一设备或单一应用的独立评价。IT健康指数可以作为信息部领导队伍宏观掌握IT基础架构的驾驶舱,通过业务K线来衡量IT基础架构综合环境的优劣,如果IT环境存在各类隐患,IT运维系统将直观的以实时曲线低于警戒水位的智能判断策略,提醒信息部门环境隐患的客观存在。
通过业务雷达进一步锁定造成宏观环境变差的元凶系统。业务雷达将对单一业务系统进行健康、亚健康及不健康的精准计算,在面对亚健康及不健康的业务系统时,业务雷达将以告警颜色进行提示(IT运维系统告警级别设定严格遵循了I-TUT X.733网管告警标准),进而智能化的帮助运维工程师缩小故障排查范围,直接定位到单一业务系统。
对于业务系统的评价,通过健康度、繁忙度及可用性三个指标进行衡量,打破了以单一IT资源来进行性能判断的传统思路,IT运维系统以支撑各业务系统的IT基础资源作为评估对象,抽取关键的性能及状态指标作为样本空间,通过科学的运算加之在运维领域的经验,最终形成健康度、繁忙度及可用性指标来反应业务系统的健康情况及承载能力。
在对业务系统进行根源故障分析时,通过IT运维系统的业务拓扑进行直观定位,打破了传动故障排查的方式,使故障排查、分析更加精准化。业务拓扑已经将构成业务系统的资源进行了整合,构成业务拓扑的资源可以包括:网络资源、服务器资源、中间件资源及数据库资源,而通过运维经验定义每类资源故障后的影响权重,进而形成有正对性的评价业务系统指标数值。
如图3。
主动预防IT故障
中国南车IT运维系统建设过程中,已实现IT设备故障后的及时告警,能够分别以短信或RTX提醒的方式告知运维工程师,已经形成了由故障的被动响应到主动预防的转变,该功能的成功上线已经在广域网链路保障的过程中起到了非常关键性的作用,通过运维系统的事件管理,运维工程师将获得准确的故障源、故障发生事件以及故障内容,结合故障处理经验,能够为故障的快速解决提供最直接的工具。
如图4。
对于IT运维工作的主动预防,不仅仅体现在IT资源产生故障后的及时通知及时告警方面,而另一方面的智能化价值将直接体现在系统防患方面,使运维工作真正的体现在日常的防御上,通过自动巡检将关键性的资源或业务,以常规性、循环性的任务生成巡检报告,为运维工程师提供性能数据的参考,作为分析IT环境的基础资源运行状况,及时发现漏洞及隐患。
如图5。
可视化的IT运维过程管理
新一代的IT运维管理的重点已经构建以业务为导向的思路,在运维过程管理方面将通过监控管理完成对IT基础架构的掌握,而运维管理工作将直接体现在流程为依据上,而监控与流程的整合,铸造了高效、智能、可视的IT运维管理体系。可视化不但体现在对IT资产环境的可视化方面,更多的体现在工作职责、人员能力及供应商服务水平方面。
可视化资源视图,提供信息资产库
I T运维系统中资源管理直观展现出环境中资源厂商、资源数量、资源状态。为信息部门综合掌握IT基础库提供助手,更加清晰的展现出各类资源及性能,对故障资源独立标准,快速掌握资源库的运行情况。
如图6。
可视化的网络视图,全局掌握网络结构
网络拓扑视图为运维工程师提供全网拓扑结构,在掌握各节点连接关系的同时,更加清晰的掌握链路性能及瓶颈,能够识别出关键链路的流量信息,为链路扩容及质量改进提供参考依据。另外,通过网络拓扑图同样为故障排查及分析提供支持,在核心资源产生故障后通过网络拓扑图直接查看影响范围,进而采取合理的故障恢复措施。
如图7。
过程管理的可视化,将增强结果控制的力度
通过流程系统的逐步上线及使用,已经将运维工作逐步标准化,人员构成、职责角色定义、供应商的支持模式等逐步清晰,使中国南车IT运维管理工作逐步清晰,而工具落地使用的效果,将直接影响到管理的深度,而运维水平的不断提供,将是一种螺旋式上升的模式,围绕的重点则是企业的业务发展。
如图8。
在流程体系建设的过程中,充分结合中国南车的环境特点及人员特点,确保在现有工作模式最小变更的情况下,完成流程系统的建设及使用,运维流程系统在总部的成功实施,再一次证明,基于ITIL的最佳实践要充分考虑企业的自身特点,最终才能够被企业所使用,在精简标准化流程的过程中,总部以实际场景作为探讨依据,确保人员投入最小的情况下完成IT运维流程中的事件管理、问题管理、变更管理及配置管理的落地实施。
基于不同的故障类型,运维系统中得到积累及呈现,在跟进管理过程的同时能够掌握管理结果的最终展示,通过不同维度进行日常运维工作的综合评价,如:故障资源类别、故障处理时长、供应商响应时长
等等,通过统计结果将作为持续改进IT运维管理的重要依据,确保IT运维管理的建设是可持续性。
如图9。
图8
总结
电信企业运维成本精细化管理 篇11
关键词:成本定额 运维成本 电信企业
一、电信企业建立运维成本定额的必要性
1.压缩运维成本需求与增加运维成本需求之间的突出矛盾,使得建立成本定额成为解决问题的重要手段
目前,电信企业处于竞争激烈的态势,为了提高企业竞争力,成本控制往往是有效手段之一。市场营销成本、客服成本、网络建设成本因其直接与公司盈利或客户感知有着密切关系,因此很难成为压缩的对象。而网络维护运行成本由于不直接转化成市场份额,在短时间内不会影响公司大局,属于后端支撑类成本,因此成为成本压缩的重点方向。然而,随着日益扩大的网络规模,新增设备越来越多,需要的维护运行的工作量越来越大,运维成本的需求和实际开支也必然越来越大。压缩运维成本需求与增加运维成本需求之间的矛盾导致如何保证适量的运维成本成为电信企业急需解决的问题。而成本定额可以对需要的运维成本进行合理估算,保证重点领域运维成本预算资金的到位,解决电信企业运维成本管理的难题。
2.电信企业运维成本精细化管理要求,使得建立成本定额成为有效手段
电信企业目前对运维成本大多处于粗线条管理阶段,普遍存在运维成本项目名词不统一,各项目支出无依据和标准等情况。运维成本的控制往往依附于公司利润空间,运维成本预算规模的确定一般是参考历史数据和受限于公司成本费用总额,因此多带有主观色彩。这种管理模式不能适应竞争压力下成本精细化管理的强烈需求。采用定额管理,建立成本与资源的关联关系,能够促使企业盘清家底,实施成本动态管理,使各种费用开支有章可循、有据可依,避免费用开支的盲目性、随意性,提高成本使用效率。
3.全面预算管理的要求,使得建立成本定额成为必要手段
2011年11月24日国资委发文《关于进一步深化中央企业全面预算管理工作的通知》要求央企推进全面预算管理。目前,电信企业的成本预算管理通常的做法是与上年比较分析,结合下达的任务目标,分解下达当年的预算,忽略动态管理方面发生的变化。因缺乏对成本费用的动态分析,未取得有效信息资源,不能及时准确完整的反映企业的生产经营状况,不能实现真正意义上的全面预算管理。建立并执行成本定额,把它作为企业进行成本核算与成本控制的基础,能够深化全面预算管理。
二、电信企业运维成本定额制定的原则和内容
(一)电信企业运维成本定额制定的原则
为保证电信企业运维成本定额发挥最大的作用,成本定额标准的制定应该执行以下原则:
1.全面性
定额范围应该涵盖电信企业主要网络维护和运行成本,保证能够通过定额确定运维成本所需规模。
(1)国内三大电信运营商已经实现全业务经营,运维成本定额应该包括移动网络和固定网络。
(2)电信企业的运维成本包括维护成本和运行成本。因此定额应该涉及续保费、代维费、修理费、网优费、房租租赁费、能耗等用于网络维护运行的主要成本。
(3)电信企业的运维成本有若干驅动因素,因此定额应该根据驱动因素的主次级别设立一级定额、二级定额,如果需要可以继续细分,设立三级定额。对成本的三级定额测算结果进行汇总,形成成本的二级定额标准。制定二级定额资源驱动因素与一级定额资源驱动因素的折算公式,计算一级定额指导标准。通过对一级定额进行对标分析,验证调整二、三级定额标准。
2.科学性
电信企业资产规模庞大,部门数量繁多,为保证定额能在业务类型相同的部门、分公司合理运用,定额的制定要具有科学性。
(1)考虑地区差异,设定地区系数
国内各地地域情况、网络规模、物价水平存在一定的差异,制定定额标准时应该设定地区系数。
(2)考虑项目周期,设立调整系数
部分维护项目因有不同的维护周期,因此制定定额标准时要设立调整系数。比如代维费,在维护周期分别为3个月、2个月和1个月的情况下,需要支出的成本是不一样的;在维护站点类型分别为标准站、距市区100公里以外、高山海岛站等时,需要支出的成本也是不一样的,因此需要分别设立不同的调整系数以合理确定成本规模。
(3)考虑成本项目差别,设立定额级别
根据成本精细化管理程度的要求以及成本项目本身的特点,分别设定各项目的定额级别。如对容易混入其他费用的修理费,可以设立三级定额,第三级定额分别就修理费涵盖的日常修理、大修理及修理用耗材按具体修理的设备制定标准,第二级定额直接根据具体修理的设备制定修理费的定额标准,第一级定额根据设备划归的网络类型制定标准。
(4)考虑网络属性,设立差别定额体系
移动网络和固定网络承载的业务不同,支撑的设备不同,资源类别也不同,因此制定运维成本定额时必须分移动网络和固定网络分别设立定额体系。
3.统一性
(1)成本项目统一。定额是在企业集团范围内推广的标准,因此定额中涉及到的成本项目要统一。
(2)资源量核定标准统一.定额标准对应的资源量核定的标准要统一,要有统一的折算标准和统一的计量单位。
(二)电信企业运维成本定额制定的内容
在遵行上述原则的基础上,电信企业运维成本定额可以主要涵盖一下内容:
1.移动网络
(1)维护成本一级定额。按单等效物理站计算维护成本(万元/等效站•年)设立定额;
(2)维护成本二级定额。按维护成本中续保费、代维费、修理费分别计算设立定额;
(下转第143页)
运维管理建设 篇12
数据中心发展的规模、速度, 无论是对数据中心业内资深人士还是初次涉及此领域的工作人员都觉得有些过于迅猛。在2012年世界经济形式非常严峻的情况下, 数据中心的发展独树一帜, 一片光明。数据中心的建设数量急剧增长, 单个数据中心的建设规模也越来越大。以往一个数据中心的面积通常是几百平方米, 现在几千平方米、几万平方米甚至十几万平方米的数据中心都时有耳闻。据国外从事数据中心建设的公司预测, 数据中心的蓬勃发展还将持续一段时间, 少则7~8年, 多则10年以上。
数据中心如此迅猛的发展当然是科学技术的发展使然, 比如信息技术的广泛应用, 云计算、物联网等应用的爆发式发展 (据不完全统计, 在内蒙开始建设或准备建设的云计算数据中心总产值将达到700亿元左右) 以及旧机房改造的市场也十分巨大。据统计, 目前国内数据中心数量已经达到54万多个, 其中一半已经有8年以上的生命期。按照数据中心8~15年的生命期考虑, 近三分之一的机房将面临改造。
综合考虑, 可以看出数据中心的快速发展是必然的、长期的过程, 但也不排除一些泡沫的存在。数据中心的内容非常广泛, 单单数据中心基础设施建设就涉及到十几个专业, 其建设、运营和管理都是比较复杂的事情。发展的越快, 建设规模越大, 建设中遗留的隐患就可能越多, 需要在运营和管理阶段投入的精力就越大。可惜国内数据中心的形势是建设很重视, 运营管理相对偏弱。因此, 在一波数据中心建设高潮过去后, 运营管理的瓶颈将会显现出来, 要避免数据中心在运营期间发生故障, 在设计和规划阶段就应该考虑今后的管理和维护问题。建设工程全寿命周期管理 (BLM) 和基于建筑信息模型 (BIM) 的工程管理技术, 正符合数据中心建设的需要。
2 数据中心的全寿命周期管理
建设工程全寿命周期管理 (BLM) 的概念来源于全寿命周期管理 (Life Cycle Cost, 简称LCC) , 20世纪60年代被美国军界率先应用, 主要用于军队航母、激光制导导弹、先进战斗机等高科技武器的管理上。20世纪70年代开始, 全寿命周期管理理念被各国广泛应用于交通运输系统、航天科技、国防建设、能源工程等各领域。从长期效益出发, 应用一系列先进的技术手段和管理方法, 统筹规划、建设、生产、运行和退役等各环节, 在确保规划合理、工程优质、生产安全、运行可靠的前提下, 以项目全寿命周期的整体最优化作为管理目标。全寿命周期管理内容包括对资产、时间、费用、质量、人力资源、沟通、风险、采购的集成管理。通过组织将知识、信息集成, 将未来运营期的信息向前集成, 管理的周期由原来以项目期为主, 转变为现在以运营期为主的全寿命模式, 能更全面地考虑项目所面临的机遇和挑战, 有利于提高项目价值。全寿命周期管理具有宏观预测与全面控制的两大特征, 它考虑从规划设计到报废的整个寿命周期, 避免短期成本行为, 并从制度上保证LCC方法的应用;打破了部门界限, 将规划、基建、运行等不同阶段的成本统筹考虑, 以企业总体效益为出发点寻求最佳方案;考虑所有发生的费用, 在合适的可用率和全部费用之间寻求平衡, 找出LCC最合适的解决方案。
数据中心全寿命周期是指从建设项目构思开始到建设工程报废 (或建设项目结束) 的全过程。在全寿命期中, 建设项目经历前期策划、设计和计划、施工和运行、报废处置阶段。也就是指数据中心项目从开始策划到使用及再次改扩建为止所经历的各个阶段的全过程。主要包括数据中心策划决策阶段 (项目立项、可行性研究) 、数据中心实施阶段 (项目设计、施工及竣工验收、后评估) 和数据中心运营维护阶段 (竣工资料准备、运营维护) 。建设工程全寿命管理 (BLM) 是指从前期工程规划、设计、采购、安装、调试管理开始, 到交付运行后的工程设备运行状态监控、维护保养、工程改造、设备的移动、封存直至报废的整个生命周期的管理。其核心意义就是在系统安全稳定运行的基础上, 寻求工程项目寿命周期内的总体费用和性能的最优化。数据中心全寿命周期管理从数据中心全寿命周期的视角来看, 运用集成化管理的思想将传统管理模式下相对分离的数据中心策划决策阶段、数据中心实施阶段和数据中心运营维护阶段, 在管理目标、管理组织、管理手段等方面进行有机集成, 综合考虑并建立数据中心策划决策、建设实施、运营维护的集成化管理系统, 实现数据中心整体功能的优化和整体价值的提升以及数据中心全寿命周期的目标。
数据中心全寿命周期管理系统以实现整合企业资源、提高管理效率、强化管理基础、控制企业风险为目的。在这一系统中, 由于在项目设计阶段就明确了工程物资、设备和运行管理的对应关系, 项目完工时系统能够容易整理、出具工程管理资料、设备清单、系统运维周期和部位等, 以此作为项目验收和运行维护的依据。同时, 依赖这种对应关系, 还可方便地整理生成对应的固定资产清单, 从而加快整个工程资产转移的速度, 提高由工程转为固定资产的及时性和准确性, 实现对数据中心工程建设和运营的精细化管理。
3 适合数据中心建设的BLM模式
构建适合我国数据中心行业的全寿命周期管理模式既是对我国数据中心行业的传统建设模式的挑战, 也是提高我国数据中心行业的一次良好的机遇。
由于数据中心工程项目的服役期都比较长, 少则7~8年, 多则15年以上, 而全寿命周期管理, 贯穿在数据中心建设项目的整个寿命周期, 时间跨度长, 各个阶段的内容也不尽相同, 因此, 一个合理管理阶段的划分是对整个寿命周期工程造价进行管理的前提。在对我国的全寿命周期数据中心工程管理进行分析时, 要综合考虑西方先进的全寿命周期工程管理的理论和我国数据中心行业管理的实际情况, 否则, 难以达到比较好的效果。
目前, 我国数据中心行业普遍应用的工程管理流程是从工程项目开始到项目实施结束整个实现过程纳入管理, 从项目建议书和可行性研究阶段开始, 到项目竣工决算完成为止。整个流程相比早期仅对施工阶段进行概预算控制来说有了很大进步, 但它不包括对项目使用期的运行和维护成本管理, 没有形成一个闭环的控制过程。结合目前的管理流程和其中存在的问题, 并借鉴前面所讨论的建设项目寿命周期的各种划分方法, 可以将我国的全寿命周期数据中心工程造价划分为五个阶段:决策阶段、设计阶段、实施阶段、竣工验收阶段和运营维护阶段。对每一个阶段有关的工程造价管理各方都有不同的管理。如今, 数据中心建设的设计阶段、实施阶段、竣工验收阶段已经十分成熟, 相对偏弱的是决策阶段和运营维护阶段。决策阶段偏弱可以通过后期加以修正, 当然最好是加强决策阶段的管理。运营维护阶段的管理也逐渐开始被业界人士所重视。
4 运营维护阶段的精细化管理
要做到精细化管理, 就需要通过技术手段实现对数据中心所有环境、设备和其他运营参数的监控, 即日常工作自动化。做到事发之前有预报, 事发过程有预案, 事发之后有记录, 阶段工作有统计。而要实现这些功能的基础就是在机房内普遍使用的集中监控系统。
数据中心基础设施需要监控的参数包括设备参数、环境参数和安全参数。设备参数包括空调、UPS、新风机、配电柜、冷冻机、水塔等机房基础设备本身的一些参数, 一台空调设备本身的参数就有几十个之多, 一个数据中心内的设备参数的数量是非常惊人的。一个参数往往所对应的是传感器, 环境参数也不例外。环境参数本身并不多, 涉及温度、湿度、含尘浓度、噪音、风速、震动、有害气体、液体泄露等, 但一个数据中心内同一个环境参数需要在不同地点进行测量, 一个点通常也需要一个传感器, 因此测量环境参数的传感器数量也是非常多的。安全参数一般包括出入口控制、非法入侵检测、视频监控和消防等, 传感器数量也不在少数。可以说传感器在数据中心内部无处不在。
在一个现代化的数据中心里, 不仅需要对上述参数进行监控, 还需要对一些管理行为进行监控, 比如设备的迁移、设备之间的关联、设备资产管理等, 所以数据中心内的所有设备甚至每一根线缆、每一条跳线都需要进行监控。
5 结束语
数据中心的重要性不言而喻, 随着数据中心规模的不断扩大, 数据中心的运营管理采用原来的粗犷式管理已无法保证运行安全, 精细化管理、数据中心建设的BLM必将走上舞台。现在, 许多大型数据中心部分已经开始采用全寿命周期管理的理念, 并已具备了精细化管理的雏形。
要做到精细化管理, 数据的来源必须精确可靠, 因此, 对分布于数据中心各处的传感器就提出了更高的要求。目前, 在数据中心内使用的部分传感器的精度还很难适应精细化管理的要求, 更多的是起到定性的作用、参考的作用, 作为运行管理的操作依据还有一定的差距。
【运维管理建设】推荐阅读:
IT运维管理体系建设案例10-01
运维建设10-25
运维标准化建设11-04
城市建设管理建设法规12-07
建设班级管理05-29
团队管理建设08-15
管理品牌建设10-29
建设合同管理09-13
运维综合管理07-26
公路建设管理08-29