运维监控管理系统(精选9篇)
运维监控管理系统 篇1
目前,建筑设备监控(管理)系统的理念和技术已经作为一项成熟的技术被广泛地应用在工业和民用建筑中,为我国的建筑设备管理、绿色、环保、节能的事业发挥着难以替代的作用。
建筑设备监控(管理)系统在我国已被广泛应用的大背景下,也被在实际应用中的一些问题所困扰。作为一项系统工程,在实施过程中历经设计、深化设计、施工组织、安装调试、系统联合调试、运行、维保等阶段(环节)。每个阶段都环环相扣,彼此影响。研究这些过程中的问题,寻找其发生的原因,对建筑设备监控(管理)系统的发展和发挥强大的管理作用是十分有益的。
还有一点我认为十分重要的,也是我多年从事工程管理、设备运行中体会最深的,即建筑设备监控(管理)系统作为建筑设备系统中的重要组成部分,其位置处于系统的顶端,既是一个资源共享的平台,又是一个调度指挥的平台。它不是一个孤立的存在,而是与各设备系统有着密不可分的逻辑关系。各设备系统的工作状态直接影响到建筑设备监控系统的工作质量和人们对建筑设备监控(管理)系统工作质量的评价。
我还想说一些关于建设方面现状的问题,因为这与我们下面要讨论的问题直接相关。
(1)在项目建设初期,建设方都会成立一个建设班子,人员一般都来自于单位内部而非专业技术人员。所以对建筑设备监控(管理)系统几乎提不出具体的、条理性的需求。
(2)以楼控系统为例,如要达到满足设计要求和使用要求的空气环境,其实,真正的难度是风平衡和水平衡的基础调试,这两项工作如果做不扎实,直接影响到楼控系统控制精度。而这些工程实际上通常都被总包/分包给一些包工队,施工质量粗劣,导致楼控系统无法实现对空调系统的精确控制。
(3)运维人员素质普遍不高直接影响到运维质量。
首先应该肯定的是建筑设备监控(管理)系统,从技术上是先进的、成熟的。从设计上也是能够满足使用需求的,关键在于施工安装、调试及交付后的运行维保阶段,哪一个环节出问题都会影响到对建筑设备监控(管理)系统功效的发挥和人们对建筑设备监控(管理)的评价。
1 关于系统合理配置
系统配置的合理与否很难有一个标准,各主流厂商在系统配置上都有差异,通常作为使用方,更多关注的是能否达到提高管理效率、满意的监控效果以及操作界面是否便捷、简单。从这个角度出发我提以下两点建议:
(1)楼控系统前端的采样设备的安放位置及数量是能否达到满意空气环境的重要因素。通常的习惯做法是把温湿度采样设备放置在空调系统的回风处,但是在人员密集、流动性较大、空气环境受周边因素影响较大的场所,这样做,所采集的数据未必能反映出受控环境温湿度变化的真实情况。例如:美术馆、博物馆及展览馆等处,以国家博物馆为例,除了在回风处设置温湿度采样设备外还在展厅内具有代表性的若干位置设置温湿度采样设备,这样,采回的数据才可靠,空调机组才能做出正确的动作。举这个例子的目的是要说明,楼控系统在设计阶段应该充分考虑受控现场的实际情况和使用特点。
(2)关于系统节能运行的问题,以定风量空调系统为例。通常定风量空调系统的末端都采用了电动二通阀变流量控制房间温度,这是一种节能措施,但空调末端本身并没有节能,只要空调末端开着,水阀开大开小,空调末端本身的耗电量是不变的。要想节能,则必须由冷站的群控系统来完成。因为所有的末端水阀关小了,冷负荷也就小了,这时,冷机和相应的水泵就可以少,这样才能减少耗电量,也就降低了运行费用。
而目前很多项目中,空调末端的控制做得都比较好,因为控制相对比较简单。但冷站的群控由于技术比较复杂,很多都没有很好地控制,甚至没有启用,运行中还是靠操作人员的经验进行手动控制。这就是本末倒置了,末端控制得再好,冷站群控没起作用,节能效果就会打折扣。
再者,还要重视建筑的使用模式和规律,例如夜间模式等。
2 建筑设备监控系统在安装过程中的问题
由于安装方面的问题,而对建筑设备监控系统产生不良影响的情况时有发生,主要表现在:由于安装位置不正确,使得控制达不到要求;由于安装的方法不正确,而使得产品出现损坏、产品安装保护不当、接线不正确等问题。
出现这些问题,安装人员的能力水平素质是一个方面,不过,从我的经验来看,安装出现的问题主要还在于施工图纸的不过关。
近年来,建筑设备监控系统一般由弱电总包单位承接实施,作为深化图纸的布线安装图纸,一般也是由弱电总包单位设计提供。由于种种原因,在有些项目上,这部分深化图纸的质量不高,没有给施工单位一个准确的施工指导,这才是安装过程中出现问题的关键原因。
我曾经见过高质量的建筑设备监控系统的深化图纸,对每一根电缆和每一个元件均做了编号,安装的位置也清晰地标注,同时,也给出了安装大样图纸。施工单位拿到这样的图纸,既提高了施工进度又保证了施工质量,为下一步的调试工作创造了极好的工作条件。
我认为,对于深化图纸中的端子接线图、平面布线图、系统图、安装大样图,除了具备基本的内容外,还应满足以下几点要求:
(1)需给所有设备、自控元件、DDC编制唯一的编号,防止混淆。
(2)需提供控制箱给所有电缆编制唯一连续的编号,防止漏接。
必须正确地标出元件的安装位置(阀门、传感器的安装位置对于空调系统非常重要,如果空调系统比较复杂,如冰蓄冷系统,那么,对于弱电公司、甚至自控公司里的电气工程师来讲,会有一些难度的。但无论如何,还是必须正确标注)。
这些内容看上去比较琐碎,同时,也比较耗费时间,但却对正确的安装帮助很大,虽然在这个阶段花费的时间多一些,但却在系统调试和验收时大大节省时间,算总账还是划算的。
3 建筑设备监控系统在调试过程中的问题
在整个建筑设备监控系统的建造过程中,最重要的有两个方面,一个是设计阶段,另一个就是调试阶段。调试其实是对前面的所有阶段(包括设计、配置、安装等所有工作)的一个检验,有时还能发现很多空调系统本身的问题,比如制冷量不够、加湿量不够、风量不够等。
目前很多项目调试工作中,普遍存在着重表面轻本质的现象,也就是说,调试人员只限于各种数值是否正确返回、启停命令是否可以执行、画面是否友好等表面工作。这些工作当然很重要,也是基本的,但没有抓到点子上,真正的调试是应该查看受控参数(温度、湿度、压力等)在有干扰的情况下的历史趋势图,检验这些参数受到干扰后是否能够迅速恢复平稳。因为,我们的最终目的还是要将这些参数控制在平稳的范围内。
这其实是需要对控制回路的PID参数进行整定,而PID整定工作对调试人员的要求比较高,包括对PID的理解、对空调系统的理解、丰富的工程经验等。也许,这也是很多项目没有对PID进行整定的原因,因为水平达不到,所以干脆忽略了该工作。但如果要将系统做好,都应该重视PID的整定工作。
我曾经历过这样的项目,在调试完毕运行过程中,中控室电脑的画面很漂亮,是动态三维立体的,但房间里的温度却是震荡的,忽冷忽热,这就是典型的调试工作没有做到位,确切地讲,是没有经过PID整定。如果温度是这样的忽冷忽热,画面再好看有什么用呢?还好,这是一个舒适性空调的项目,如果是生产性的,就可能要对生产产生影响了。
4 运行中的积极维保
目前大多数的项目,建筑设备监控系统调试验收完毕,交给用户使用后,除了元器件出现故障后进行更换外,系统的软件部分几乎就不动了,如果出现与实际运行不匹配的情况,基本上都是采用手动启停或调节了。随着时间的推移,建筑设备监控系统变成了一个远程操作系统,甚至完全作废变成了手动操作系统。当初花费了那么多钱,却没有起到相应的作用,非常可惜。
我认为,这是国内项目的一个误区。比较轻视维护保养,而且,即使维护保养,也仅限于对设备的维护保养,没有对系统进行积极的改进和完善。其实,一个系统,无论当初的设计如何全面,肯定与以后的实际运行有偏差,积极的维护保养应该是不断地根据项目的实际运行情况,调整控制手段,慢慢摸索出一套适合本项目的特定的系统。
在冰蓄冷项目中特别突出,建筑物从刚启用到后来的成熟,负荷情况都是不同的,因此控制的策略也需要不断调整。所以,我理解的积极的维护保养就是跟踪项目的运行,不断调整系统的控制手段,使得系统与建筑物达到最佳的配合状态,从而达到最佳的节能效果。
运维监控管理系统 篇2
2016年监控运维班持续推进班组安全管理,按照组织引导与自我鞭策相结合、集体学习与个人学习相结合、理论学习与工作实践相结合“三个结合”的工作思路,在班组安全管理中,以高标准、高要求,组织引导职工立足岗位,牢记安全,勤奋工作,引导职工树立良好的职业安全素养。班组不断完善安全管理的各项规章制度,创新班组安全管理的思路和方法,促进班组职工安全意识和安全素质不断提高。
一、学习提高,知识共享,创建学习型“安全标准班组”
作为从事监控运维的班组,前端监控设备安装的不同环境决定了我们要时刻面对不同的运维现场。为此,班组以学习型组织理论为指导,打造学习的平台,建设学习型安全标准岗,提高职工综合素质。班组建立了团队学习、自我学习、知识共享三位一体的学习的平台,着力培养职工的学习习惯和学习能力,通过对各点位监控设备所处的实际环境进行不断学习,采用现场安全教育辅以班组安全小课堂的形式,充分发挥班组作为职工素质教育前沿阵地的作用。
(一)学习安全知识,提高安全意识
安全学习常态化,利用每周二班组会组织一次集中安全学习,每天8点5分准时开启班前学习,并以灵活多样的方式方法进行学习,改变职工安全学习枯燥性。对事故案例的学习,我们采用播放3分钟安全动画、网络视频等方式,增强职工对事故案例学习、理解的深入程度,增加安全活动的趣味性。通过学习安全知识,强化职工的安全意识,养成遵章守纪按标准化作业的良好习惯,避免了麻痹大意造成的伤害。针对班组年轻职工较多这一特点,班组除做好常规性安全教育,例如组织学习相关安全规章制度、安全措施,落实安全考试上岗等工作外,还指定经验丰富的职工与年轻职工来到运维现场,进行“一对一”安全言传身教,保证每一个职工的安全“到点到位”。
(二)强化操作演练,提高安全技能
面对复杂的运维现场,班组将要涉及到基本知识、岗位安全操作规程、工业煤气安全防护、用电、交通安全等方方面面。为了让职工全面掌握安全技能,班组还制定了培训计划,提升安全意识和安全技能。针对实际操作进行演练,对突发性事故,如煤气、触电、消防进行应急演练,并将有关课件和视频在班组进行知识共享,供大家温故知新,达到所有职工的知识、技能、方法都能够熟练掌握。
二、健全制度、自主管理,建设和谐型“安全标准岗”
班组深入贯彻山信软件各级要求,自主管理,从抓思想、拓理论、换模式、提标准四个方面,逐步健全管理制度。
(一)“上岗零违章、安全零事故”,安全愿景筑牢思想防线
安全愿景是班组安全工作的导向明灯,有利于提升班组整体安全意识和警觉性。监控运维班在2016年设立了“运维零违章、监控零事故”的安全愿景,制定了“始于零,止于零,牢筑安全标准岗”的安全创建目标,通过创新拓展安全机制,在班组中建立了“岗位安全我能行”的健康稳定工作氛围,实现并保持了班组全年安全“零”事故的良好记录。
(二)安全理论创新应用,安全管理力度显著提升
监控运维班在已有的安全理论和安全管理体制上,通过不断循序渐进的自我完善,以事故案例、自身工作为出发点,创新的安全理论,将安全工作落在实处。
我们以塔状建立安全模型,包含安全原则切实制定、管理制度执行力度、人身安全及经济价值收益三个概念,它们之间呈塔形递进。清楚地解释了没有严格的切实的安全原则做约束,管理制度执行起来就会无据可依、无力可行,从而对人身健康、生命安全和经济价值收益造成影响的关系。
(三)强化安全工作力度,坚持贯彻“113”安全原则
“113”即“一重”、“一点”、“三个标准化”,“一重”安全责任落实。通过完善班组安全生产责任制、强化安全组织绩效考核、加强人员和团队间安全协作等方式,提升班组整体安全素质。“一点”班组安全员轮值法,每位职工都能体会到班组安全员这个重要“点”,让每名职工在轮值安全员期间强化牢记安全知识。“三个标准化”是班组纪律标准化、硬件运维标准化以及系统运维标准化,目的在群面规范职工各道专业安全操作行为规范。
(四)拓展工作模式,新媒体构建岗位安全交流
近年来,随着新媒体的不断涌现,监控运维班也紧跟“潮流”通过班工内网腾讯通、手机微信群、互联网飞信、QQ等方式建立安全交流平台,开展班组安全信息交流活动。班组安全建设交流平台”通过网络交流提升班组安全管理工作透明度,增强全员参与度,实现了集思广益的。
2016年班组利用自主技术搭建的莱钢高清视频远程监控平台,能够第一时间内发现前端设备故障,并根据不同的提示符号进行判断,前端进行拼接的现场图像能够以其接近200度的覆盖全景,较为清晰的对现场危险源进行描述,有效协助班组维护人员进行安全防护工作。将远程设备监管与现场运维安全相结合,从而成为班组安全工作的有利助手。
三、系统思考,建设创新型“安全标准岗”
近年来,随着安全形势的日益加剧,安全生产的压力逐步加大,班组系统思考,有针对性地逐步加强安全管理,通过创新管理模式、创新活动载体,积极落实莱芜自动化分公司、网维事业部的各项安全工作,使班组安全工作落实到人,落到实处。
(一)创新管理模式,打造全新安全管理
1、细化班前、后安全工作流程
班前5分钟是一个班组永恒不便的主题,每天8点5分,轮值安全员会回顾昨天运维情况及问题;班长布置当日工作安排,成员交流安全注意事项;每天工作结束后,班组又新增班后总结,由现场运维负责人对当天运维工作、安全工作的进行回顾;轮值安全员、班长相互补充,并按时填写自动化部安全生产管理系统。
2、强化自主管理,确保隐患整改到位
加强班组职工自主性,要求职工对现场发现的问题要实行有督察、有整改、有验证的自主闭环控制,大力推进安全隐患、设备隐患的排查、整改活动。并且与事业部安全员及时沟通,将现场巡检、隐患整改材料反馈给事业部,便于班组安全工作的指导和督促。
3、持续完善“安全运维操标准化”工作
班组及时总结近期安全标准化开展情况,查找不足。持续完善监控各类安全运维操作标准化的形成,以手册的形式,确保职工按标准执行。
(二)创新载体,提升职工参与性
1、创新安全讲座,提升安全意识
监控运维班将定期举行安全讲座,对职工进行安全培训,加强安全知识的学习,提高安全意识。内容涵盖《自动化部操作规程手册》、事业部安全检查标准、事故应急预案、工前五分钟开展规范等。针对隐患排查整改,班组结合实际开展危险源辨识讲座,鼓励大家积极投入到隐患排查整改活动中。最终通过活动,提高职工安全意识。
2、开展安全演练,保证安全运维
班组职工在事业部安全员的指导监督下进行了现场实践演练。内容覆盖消防、煤气、心肺复苏等班组所需各类技能。由上级安全技术人员以视频、幻灯片、模拟人体的形式为职工详细讲解各类技能。在理论培训后,职工在开展相关实际操作,如有方式方法不正确的地方,有上级安全技术人员现场提出纠正办法,强化操作,以达到人人参与演练,确保技能熟练掌握,从而保障运维工作安全开展。
3、隐患排查长期持续 结合监控运维班运维实际,班组将针对所维护的各类区域坚持长期的隐患排查工作,积极开拓思路,从多专业、多角度审视作业对象和作业环境,开展“危险源辨识,隐患排查整改”,按照横向到边,纵向到底的原则,进行拉网式排查,彻底消除安全隐患,杜绝任何不安全事故的发生,保证了人员设备安全。
4、签订《职工安全互保协议书》,履行安全生产责任 为强化职工安全责任意识,班组以岗位承诺的形式签订《安全互保协议书》。职工承诺积极参加安全学习,做到认真履行安全职责,提高自身保护能力的同时,实现互相督促自保互保联保,杜绝安全隐患发生。
(三)创新成果,服务生产
监控运维班通过职工自主学习、强化力度,拓宽创新思维模式,班组职工先后撰写发表各方面技术论文26篇,获得国家级专利2项,省级QC优秀成果2项,公司及自动化部QC优秀成果共5项,截至2016年10月,班组职工先后承揽公司、部级三全一智、精益改善相关课题18项,预期降本增效34万元,其中一类项目3个,二类6个,自主改善类9个。相关课题负责人占班组总人数的80%,共同参与率达到100%。
面向产品的监控运维管理新方法 篇3
关键词:综合类业务产品,网络管理,面向产品,端到端监控,关键质量指标,客户感知
0背景
在全网全业务运营的背景下, 融合业务是一大趋势。一方面, 电信运营商提供越来越多的以语音、宽带、移动网络相互捆绑的综合类业务产品, 需要多专业提供资源, 联合支撑, 以完整的产品承载链条为主线, 进行端到端业务流程监控;另一方面, 运维后端的支撑还以网元、网络以及传统专业划分为视角, 造成产品问题需要逐段排查、按专业二次派单处理, 无法匹配前端的支撑需求。所以, 后端运维支撑急需转变思路, 以产品为视角, 整合支撑产品的端到端的资源, 纵向上贯穿网络分层界限, 横向突破专业划分限制, 形成完备的产品-资源支撑模型库, 实现对具体产品的业务和资源的统一监控, 从而促进产品和服务质量的提升, 以满足融合业务产品的发展需要, 支撑激烈的全业务市场竞争。
在此背景下, 从实时、准实时、宏观、微观四个角度研究构建产品全流程监控体系并在现网实施, 贯穿无线接入网、核心承载网、业务平台、内容应用等4层网络, 真正做到“用户-应用”和“用户-用户”的产品端到端全流程运行质量、关键性能、状态指标等全方位的监测及呈现, 填补在面向产品全流程可视可评、可管可控方面的空白。充分发挥大网运营商的优势, 支持基地自营产品端到端质量监控, 将其他OTT (互联网应用服务) 业务运营商无法“透视”的管道质量指标从产品维度聚合、呈现, 具有跨专业、跨地域、多维度的特点, 达到行业领先水平。
1 建设方案
为了构建面向产品、宏观和微观两个角度、区分实时和准实时的监控体系, 提出“产品端到端质量监控”是今后平台监控的发展方向。结合现网情况, 主要从以下几个方面着手:
(1) 推进业务产品宏观实时监控, 深入开展业务产品质量分析工作。
宏观产品监控包括面向产品的业务级监控 (实时) 和基于客户感知的产品整体质量测评分析 (准实时) 两种, 下面分别阐述。
1) 开展面向产品的业务级实时监控方案研究, 加强集团级业务监控。
宏观实时产品监控对象是从客户使用业务到业务完成的一系列环节过程。监控内容包括业务流程的总体运行状态、各环节的运行状态、各环节的业务处理量、以及支撑这些环节的应用和基础设施的运行情况。通过对端到端业务流程的监控, 可以关注重点业务运行情况, 及时发现业务存在短板的环节, 及时进行业务优化;在发生故障时, 可以快速定位故障环节, 提高故障处理效率。端到端的业务流程监控以产品为导向, 以统一的数据模型管理五个专业的 (数据, 无线, 交换, 传输, 平台) 的资源, 采用“产品-业务-业务流程-环节-支撑资源”的模式, 从产品视角纵向贯穿4层网络、横向连通不同专业, 实现了从产品到网络的“透视”。网络中国移动PLMNSignaling LinkVoice Trunk交换机GMSC主叫移动用户1网间呼叫接续到关口局GMSC根据黑白名单进行拦截IAM主叫MSC图2骚扰电话识别原理
宏观实时产品监控方案如图1所示, 其包括两个过程:
一个是业务流程建模, 按照业务过程将业务流程细分到不同环节, 可以采用不断细分的方法, 直至可以提炼出评价该环节的业务指标, 这个过程完成第一层分解和第一次映射, 创新性地采用业务级流程定制方法, 将业务流按照业务流的目标抽象成业务构件, 再将业务构件组装成环节存储于环节库, 开发出环节对应的业务指标。
第二个过程是业务支撑关系的建模, 从业务流程建模到业务支撑关系的建模的映射主要完成从业务逻辑到物理承载的对应, 及从业务指标到进程、接口、队列等物理设备上应用层的映射, 这个是整个模型映射的核心。接下业务支撑关系的建模完成从应用层到基础设施, 包括数据库、主机、中间件等的映射。整个建模过程包括三次分解、两次映射, 完成了从产品到网络支撑资源的映射分解, 然后再通过对网络支撑资源的实时监控, 再将监控行为、指标、报表等通过汇集、聚合、重组等呈现给上层产品, 最终实现产品端到端的实时监控。
为充分结合现网业务平台综合网管两级架构的部署特点, 宏观实时产品监控系统采用“集团-省”两级架构, 全国集中的端到端监测系统完成全国被管产品端到端运行状态实时监测, 各省的业务平台综合网管通过采集相关业务平台的链路、进程、端口等业务级实时运行数据, 实现对目标平台的业务级监控, 完成告警分析, 并且按照业务支撑关系模型呈现, 并且上报给端到端监测系统。
全国端到端监测系统功能包括业务数据采集、业务建模、业务指标监测、业务监控展现、接口管理等部分。
业务数据采集:是通过对业务指标主动采集或被动接收等方式, 对跨专业、跨平台的端到端的业务数据进行获取和预处理。
业务建模:以数据模型的方式在系统中建立起端到端的业务过程、业务支撑关系的描述, 实现全专业的端到端的全业务流程模型的建立。
业务指标监测:业务运营指标监测是通过业务监控视图将业务运行中的各个关键点的业务指标数据以及支撑业务的底层IT基础设施和应用的性能指标数据加载到跨系统的端到端的业务模型上, 并对这些指标数据进行预警分析生成告警数据, 将告警状态呈现在业务模型中, 实现对业务运行状态的实时监测。
业务拓扑展现:从业务流程视角出发, 根据业务流程模型和业务支撑关系模型, 即业务端到端流程, 业务环节、路由, 业务环节与基础设施以及应用的关联关系, 构成的业务拓扑图。
依据上述模型, 实时呈现产品涉及业务平台端口、链路、进程等资源实时运行状态, 并且可以根据产品业务运行的状况, 定位故障平台, 自动分析故障影响范围。
面向产品的业务级监控从产品视角实现网络的“透视”, 实现大网基础支撑资源按基地产品聚合呈现, 有力支撑自营产品的运营质量提升, 凸显自营产品与市场同类OTT产品的优势, 促进自营产品的快速发展。
2) 积极推进基于客户感知的产品整体运行质量测评分析, 强化业务质量分析工作。
基于客户感知的产品整体质量评估模型及算法如图2所示, 首先制定基于客户感知的产品整体质量评估模型及算法, 具体如下:根据用户的实际使用场景分析影响用户的KQI (关键质量指标) , 再结合用户体验的时间轴和业务流程、业务网络拓扑结构等因素结合分析影响用户体验的相关KPI (关键性能指标) 。
基于客户感知的产品整体质量评估模型及算法详细步骤说明如下:
1) 业务场景分析:分析用户使用业务的操作过程, 完全按照用户的使用过程来分解业务使用场景。
2) 分析用户感知因素:分析每个业务使用场景中用户关注点, 提炼客户感知因素, 可以采用调研访谈方式。
3) 提炼网络KQI:将客户关注点转换成网络KQI, 可以采用客户调查方式确定影响用户使用感知的关键因素KQI。
4) 确定业务的网络拓扑图:根据网络拓扑、业务流程, 确定网络KQI需经过的网元, 各网元影响业务使用的关键因素。
5) 分解KQI, 确定KQI、KPI的度量方法:分析各个网元在业务处理中有哪些关键操作以及相应的KPI, 列举出的KPI出现劣化时, 都会影响哪些用户感知因素, 从而确定产品KQI与网元的KPI之间的对应关系。采用叠加累计方式计算KQI, 采用归一化算法确定KQI分值。
6) 搭建产品健康度模型:提取足够多的样本数据, 采用主成分分析法, 剔除各KQI之间的关联性, 计算出产品健康度。
其次, 在产品运行质量评估模型研究的基础上, 研究开发移动增值业务产品运行质量测评系统, 该系统通过与综合网管系统、自动拨测系统、信令监控系统、客服系统等及业务平台的互联, 实现数据的定期采集, 并在关联、转化、整合后输入到产品运行质量评估模型, 最终根据系统使用者的不同需求输出定制化的产品运行质量分析报告。
(2) 试点微观产品监控, 关注重点用户的业务行为。
对于用户使用产品单次行为的监控主要采用跨网络的信令协议监测的方式, 通过对各种业务的信令跟踪, 各种业务能力协议关联解析, 实时跟踪监测产品在网络中的业务流路径、协议交互、质量指标等。
微观产品监控系统采用“集团-省”两级架构的管理模式进行系统架构设计, 如图3所示。从业务产品角度、多层面对网络监测管理需求进行分析, 引入产品端到端模式跨平台、跨专业的多种协议跟踪、故障定位、投诉处理、数据分析挖掘的功能要求, 采用业界成熟的多层体系结构, 独立自主设计系统架构, 实现彩信、短信、WAP (无线应用协议) 下载、定位、支付等增值业务在现网多个网元之间的信令关联、协议解析与展现, 为从产品维护保障和故障处理提供了强有力的手段, 从而提升业务感受体验和客户满意度。
系统实现集团级和省级业务网络的跨域业务流程监测, 具有对多种业务系统和多种业务协议的监测分析和协议关联的能力, 为业务产品实时监控跟踪、业务故障主动定位、以及网络和设备运行情况分析提供了工具手段。
移动增值业务协议监测系统系统架构自底向上由管理对象层、采集预处理层、数据处理层和应用层组成。
管理对象层:包括NSAG (接入网关) 、ISAG Router (综合业务接入网关路由器) 、MMS (多媒体信息服务) 互通网关、下载系统、定位平台、行业短信平台、自写消息平台、定位平台 (扩展全国范围) 、融合支付平台和UDB (统一认证) 平台等。
采集预处理层:包括信令采集、解码、合成, 时钟同步, 实时跟踪等数据处理逻辑和原始数据存储模块。
数据处理层:包括解码引擎、数据存储、协议关联、越限分析、文本检索、统计分析、共享服务、订阅管理和数据代理处理逻辑及CDR (数据恢复) 及统计分析数据存储模块。系统通过标准对外接口与广东电信移动增值业务协议监测系统和集团业务平台综合网管对接。
应用层:包括拓扑管理、告警管理、实时跟踪、CDR查询、流程分析、统计分析、系统自监控和系统管理。
微观产品监控系统通过集团级监控平台与省级移动增值业务协议监测系统对接, 实现集团、省级两级移动增值业务协议监测系统的纵向贯通;通过与核心网分组域、核心网电路域和无线侧信令进行关联, 构建以业务产品为视角的业务信令共享平台, 实现移动增值业务产品全程、全网、端到端的监测、分析与应用功能。
同时, 微观产品监测系统通过关联分析业务平台网元故障情况 (设备负荷能力等) 、业务运行质量 (业务量大小、成功率、时延等) 、用户投诉情况等, 建立起端到端的业务质量评估体系, 提升用户使用感知。
该系统建成以产品为导向的跨网络、跨地域的大容量监测和管理系统, 在现网的运行维护管理中发挥着不可或缺的重要作用。该系统实现对移动增值业务产品的统一业务级监控和产品实现过程的实时跟踪, 具备电信级管理能力, 实现了从网元层、网络层、业务层到客户层的统一管理。
2 结束语
电子运维管理系统 篇4
引言
经过多年建设,国内各运营商向公众提供越来越多的通信业务,用户数和业务量都逐年大幅增长。但随着国内电信运营市场的不断开放,市场竞争日趋激烈,如何在运营商内部建立起一套有效的运维交互平台,理顺不同部门以及上下级之间的协作关系,规范工作流程,提高工作效率,实现故障处理、资源调度优化、系统割接、业务保障等运维工作的闭环流程监控和管理,是目前各运营商都比较关心的问题。
一、综述
北京市天元网络技术股份有限公司自主研发的电子运维管理系统(MetarOSS EOMS)定位于通过电子化手段来确保运维工作的流程化、工单化、自动化和信息化,实现对流程的实时监控与闭环管理,并能够与其它相关支撑系统进行交互与融合,体现本系统在整个运维支撑体系中的枢纽价值。本系统还能够为用户的日常维护操作提供平台并且自动记录用户的操作信息,为运维经验的积累以及员工考核提供支持。
图 1 电子运维管理系统应用示意
二、系统架构 功能结构
电子运维管理系统采用分层结构设计,系统从上到下分为业务应用层、核心服务层、数据存储层三层,其中数据存储层、核心服务层都向业务应用层提供公共服务,应用层模块可以根据具体用户的需求进行功能扩展和客户化开发。
图 2 系统软件结构 物理结构
下图是系统的物理结构,可以根据实际需求考虑将各种应用部署到一台或多台服务器设备中。
图 3 系统物理结构 与其他系统的接口
MetarOSS EOMS不是一个孤立的系统,它与其它各相关系统通过接口进行互连,MetarOSS EOMS本身支持标准的CORBA、XML等接口协议与其他系统实现互联,也可支持采用私有接口协议与其他系统互联。
三、系统功能
MetarOSS EOMS系统功能应用基于WEB实现,提供丰富的业务功能和强大的管理功能,为全面提升运营维护服务质量水平提供有力支撑。 信息门户
电子运维管理系统提供了一套信息门户平台,可以呈现各类发布信息。同时提供个人工作室功能,不同用户可根据日常使用各项功能的频次自行定义工作桌面,为操作者迅速进入各项功能模块提供快捷手段。
-个人桌面管理已处理事宜工作计划及总结任务管理局数据核查流程通道调度流程生产任务流程计划的建立、查询和审核基于模板的作业计划制定作业计划执行情况考核代维合同管理
-代维公司、代维队、代维人员管理代维记录代维问题跟踪资料管理:运用电子化手段对包括备品备件、各专业日常操作维护资料、运维人员资料、相关部门资料等信息进行添加、修改、删除、分类、归档、查看等操作。
图 13 备品备件管理
安全管理
-多用户、分级别、分权限设置用户操作日志
-用户数量、登录位置、密码等安全限制 系统自身管理
-硬件系统监控数据库系统监控
四、运行环境
MetarOSS EOMS 所需的最低运行环境要求需要根据系统设计访问的用户数以及系统并发访问率进行灵活配置,本处给出满足系统运行最低配置需要。
硬件配置
采用UNIX服务器工作站或者Windows Server工作站 机器自带或另外配置100M以太网网卡 终端配置
Windows PC(当前主流配置) 软件配置
Tomcat WEB服务器
系统数据库(Sybase/Informix/Oracle或者其他数据库) MetarPlat DPP运行版 V2.0
五、系统特点
系统采用“平台+应用”的方式进行实施,即系统采用通用型的电子运维平台,提供各种通用功能,系统上层应用功能可以根据用户的需求进行灵活定制,实现对传输网、交换网、移动网、数据网的综合运维管理; 采用符合WFMC的工作流引擎,支持工单流程的自定义,方便配置成适合特定用户需求的流程管理平台; 提供电子化工作流程和工作人员的考核依据,实现运维工作管理的科学化、规范化和自动化; 界面美观、操作方便,支持与短信平台、Email、PDA等系统的对接;
安全性好,通过防火墙等硬件设备和系统监控、权限分配、SSL协议等软件配置实现系统的整体安全; 扩展性好,预留与其它应用系统的接口,为与未来系统的互连创造了条件。
六、成功案例
中国联通总部级综合电子运维管理系统
运维监控管理系统 篇5
一、ITM技术介绍
(一) ITM简介
IBM Tivoli是面向业务服务和新一代按需计算的系统管理产品, 提供跨越主机系统、客户机/服务器系统、工作组应用、企业网络、Internet服务器的端到端的解决方案。ITM将分布式和基于主机的系统监控整合为一个“单一的管理平台”, 旨在通过前瞻性地监控重要系统资源, 检测瓶颈和潜在问题, 并自动响应事件来帮助管理业务应用。在动态、高度分布式环境中, ITM能够保证用户连续、可预测、可靠地访问计算资源。
(二) ITM工作原理
I T M是基于“客户机—服务器—监控代理”体系结构, 包括TEMS (Tivoli Enterprise Monitor Server) , TEPS (Tivoli Enter pr ise Portal Server) 和Monitor Agent3个部分。其中T EMS是系统监控服务器, 可以是层次性架构, 主要 (或中心) Hub TEMS (Tivoli Enterprise Monitor Server) 关联Monitor Agent监控代理和Remote TEMS (Tivoli Enter pr ise Monitor Server) 远程服务器收集监视数据。TEPS是ITM管理门户服务器, 集中展现管理数据、资源对象状态、告警信息和逻辑视图。Monitor Agent是监控代理, 根据监控对象的不同, 分别部署不同的Agent在被管理端, 实时将被监控IT资源的监控数据发送到系统监控服务器。ITM通过设置Monitor Agent发送各个被监控IT资源的监控信息到TEMS系统监控服务器, 实现ITM对主机、数据库、中间件等IT资源的实时性能监控和设置告警策略, 与Omnibus事件管理平台集成实现事件告警, 通过TEPS管理门户服务器接收监视数据进行显示以及提供评估。
二、第二代支付系统运维监控平台建设
(一) 需求分析
第二代支付系统运维监控平台须实现对开放系统操作系统、中间件、数据库、HA等系统环境状态和性能的监控, 并对主机监控、网络监控、应用监控、CA监控、硬件监控等其他监控系统的事件进行集中展现和告警。
(二) 系统架构
第二代支付系统运维监控平台在IBM Tivoli的基础上进行二次开发, 采用IBM Tivoli的组件ITM采集包括主机、应用、数据库和网络等信息送往IBM Tivoli综合处理中心的Omnibus, 由Omnibus及其各个组件来处理采集到的监控信息, 然后进行统一展现。系统架构分为采集层、处理层和展现层, 如图1所示。
采集层采用各种监控代理 (agent) 、Monitor中间件等数据采集工具对主机系统、存储系统、操作系统、数据库、应用系统、中间件, 以及主机、存储、网络设备自身的日志转发来完成对监控对象原始事件的采集。
处理层主要完成监控信息的汇总和处理, 通过IBM Tivoli提供的各种探针接收来自采集层的各种原始监控事件。收到事件后需要先对事件作预处理, 将事件拆分成若干字段以便于后期处理以及其他工具对事件的处理。当有事件 (主机、网络、中间件等) 进入CMDB数据库, 并且匹配一定条件, 则自动调用数据库相应的触发器或者存储过程等, 通过设计触发器和存储过程来完成数据的自动处理, 为信息的存储、传输和展现提供数据源。
展现层主要负责运维监控平台的数据展现、监控平台的登录安全认证、用户管理以及生成运维监控平台的综合统计报表, 通过客户化定制, 实现集中告警管理展示、大屏视图展示、报表管理展示等功能。
(三) 物理架构
第二代支付系统运维监控平台的物理架构 (如图2所示) 采用两级部署模式。数据处理层和展现层组件集中部署在支付系统国家处理中心, 采集层根据监控目标的分布, 分散在国家处理中心和城市处理中心。国家处理中心部署hub TEMS服务器、TEPS服务器、事件历史数据库;业务量中等或较小的城市处理中心部署监控代理, 通过通信网络连接至国家处理中心的hub TEMS服务器;业务量大的城市处理中心部署Remote TEMS服务器, 由Remote TEMS服务器将数据汇聚至国家处理中心的hub TEMS服务器;hub TEMS服务器将促发的故障信息通过Event Integration Facility (EIF) 探针或网关类接口传送至Omnibus事件管理平台, Omnibus事件管理平台将事件处理后最终展现至Tivoli Integrated Portal (TIP) 集中监控统一门户服务器, 并分区域和业务种类进行展现和处理。TEPS服务器为基于Web方式或C/S方式的用户访问界面提供服务。事件管理服务器定期将事件写入事件历史数据库, 依据事件历史数据库创建事件报表。
(四) 工程实施
城市处理中心所有监控对象均采用代理方式进行监控, 被管设备配置各类监控代理 (ITM Agent) 。监控数据集中发送至国家处理中心的TEMS系统监控服务端, 由系统监控服务端进行数据处理和集中告警。系统维护人员通过浏览器或TEP客户端软件登录到TEPS系统门户管理服务端查看告警事件和监控视图, 对事件进行监控、查询和处理, 同时监控系统关联消息平台实现通过手机接收告警短信。
监控代理配置实例如下:在城市处理中心二代支付系统服务器配置如下进程 (见表1所列) , 实现操作系统的监控 (CPU使用率、内存使用率、磁盘空间使用情况、文件系统状态等) 、HACMP状态监控 (节点状态、网络状态) 、应用中间件CICS的监控 (region状态、SFS状态、Console日志) 、通信中间件MQ的监控 (队列管理器状态、通道状态、队列深度等) 。
(五) 成效
第二代支付系统运维监控平台部署上线后, 实现了对全网数百套IBM AIX操作系统服务器、业务数据库、中间件和网络设备的有效监控, 具有数据量大、来源广泛、集成性高、自动化等特点。监控信息的展现主要有应用监控视图 (应用监控事件列表) 、监控管理视图 (声音告警、监控事件列表、应用监控事件列表、架构监控视图 (如图3所示) 、硬件监控事件列表、存储监控事件列表) 、报表系统 (告警历史查询报表) 等。
第二代支付系统运维监控平台通过6级事件分类 (0级:恢复事件、绿色, 1级:未定义事件、紫色, 2级:Warning级别、蓝色, 3级:Minor级别、黄色, 4级:Major级别、橙色, 5级:Critical级别、红色) 清晰地展现支付系统运行情况。系统通过定义分区域、分角色的视图进行事件可视化展现, 在事件展示视图上提供事件处理操作, 并实现自动报警、声音提示、事件查询、事件排序等功能。针对告警信息, 可以进行手动告警事件确认、关闭、删除、事件过滤、查看详细信息等操作, 当出现新告警事件时, 须首选进行事件确认, 表示该事件已有人关注并正在处理;当告警事件对应的系统故障已排除时, 可手工关闭事件, 表示事件处理完毕, 事件降级为0级绿色事件。根据实时故障处理情况, 系统也会自动进行事件自动升级和事件自动恢复操作;如不及时进行事件确认、关闭或者删除等操作, 则每1小时事件会自动升级一次, 产生更高级别的告警;当导致事件产生的故障消除后, 事件会自动恢复, 级别自动降低到0级, 告警停止。
三、结束语
运维监控管理系统 篇6
1 关键技术
SNMP(Simple Network Management Protocol)网络管理协议,它包括了监视网络状态、修改网络设备的配置和接收网络事件等。
CORBA(Common Object Request Broker Architecture)公共对象请求代理体系结构,是为了解决分布式处理环境中软件系统和硬件系统的互相连接的方案。
Web Service是构建应用程序的普遍模型,为了给应用程序提供服务与数据的应用组件,通过网络协议和规定数据格式访问Web Service并内部执行得到结果。
2 平台架构
基于GIS的视频监控运维管理平台按照逻辑层次划分为以下几个模块:被管理对象、集中监控展现、监控采集分析、运维服务管理和集成扩展接口等关键模块。
被管理对象,它主要包括主机、网络设备、业务数据、系统、监控设备、安全设备、机房环境等。
集中监控展现,它是系统的呈现,它是运维管理平台的人机交互接口,可以提供直观的集中监控呈现、快速地发现并分析各类数据运行的隐患,提供PORTAL统一展现视图,同时也包括业务拓扑视图、网络拓扑视图、机房拓扑视图等。管理平台通过全面的展现手段和通知手段,使运维人员快速并全面掌控系统运行的状况,从而保障系统的稳定运行。通过Portal门户来组合不同的视图,从而为不同的角色提供完整的运维管理监控界面。
监控采集分析,它的任务是完成被管对象的数据采集、数据分析及数据的归并管理功能,监控系统采集基础环境、服务器、网络设备、安全设备、存储、视频业务、等性能和告警信息。统一事件分析引擎是平台的处理核心,利用事件规则库可以进行事件的关联分析和过滤压缩,从而可以大幅度地压缩告警数量,并且能定位真正故障原因,给事件处理提供策略,最终达到完成告警和自动化处理。
运维服务管理,它是实现IT基础架构库的标准流程模块,主要包括流程管理能力,如问题管理、事件管理、变更管理等,提供日常作业计划、知识管理能力、绩效考核能力、巡检管理能力等。
3 平台功能
3.1 基于GIS的统一展现
采用基于GIS地理信息系统的空间可视化管理,运维资源信息都通过GIS展示和操作。将资源分成多个GIS地图图层:机房图层、光缆图层、传输设备图层、前端摄像头图层等。GIS采用地图层叠加标注图层来展现各种资源,操作用户可以选择展示资源类型。资源与地图关联,可以查看资源的周围地理信息,也可以通过地理位置查询资源。运维时,通过地理信息定位故障点,快速生成工单,并为修护提供各种可用资源信息,协助运维解决问题。
3.2 基础资源的可视化监控
运维管理系统是集前端设备、主机、网络、安全设备、存储设备、应用系统、数据库、中间件、机房环境有等系统功能于一体的平台级运维系统,系统以GIS平台为基础平台,提供统一的用户界面,可视化的管理手段,准确反映前端系统、IT系统、网络系统的逻辑拓扑图和物理拓扑图,拓扑以GIS为基础平台进行展示,对于系统运行时的异常表现可以进行预前警告,从而为解决故障和系统性能优化提供分析的依据。
网络运维监控:对拓扑、故障、性能、配置和流量进行管理。自动、准确监视并报告网络的实时的运行情况;提供网络性能和运行状态的多层次分析与数据统计。
网络流量监控:通过接收网络设备发送的数据进行分析,保存并且展示当前网络流量组成和流量分布状态的网络流量分析系统。
业务应用系统监控:它可以对网络中的服务器、数据库、网络设备、安全产品,中间件、公共应用、存储备份系统、IT环境系统进行监控。
安全设备监控:对硬件监控通过SNMP协议采集设备基本信息,状态信息,性能信息和告警信息。对于软件系统,运维管理平台采用Web Service接口采集基本信息,状态信息,性能信息和告警信息。
机房动力环境监控:采用全网嵌入式IP化的监控模式,实时监测机房环境的各项指标,遇到机房停电、电源故障、空调运行异常、环境温度过高、空调停机和漏水等紧急意外情况,它能够及时记录、查询和自动快速报警。可以在计算机屏幕上看到监控点的图形,掌握监控点的信息,提高机房的可靠运行能力,提高机房的日常维护效率。
视频质量分析:在运维平台监控前端视频运行状况的基础上,对视频图像出现的雪花、滚屏、模糊、画面的冻结、视频信号丢失增益失衡、等常见摄像头故障、、视频质量下降、视频信号干扰可以进行准确的分析、快速的判断和报警。平台会按照诊断预案自动对摄像头进行检测,并能记录所有的检测结果。视频质量诊断系统与运维系统之间通过服务接口(Web Service)交互,视频质量诊断系统分析出某一路视频质量出问题后,将该路视频的告警情况,通过接口反馈到运维系统,运维系统接收到告警后,一方面触发后续的运维流程,另一方面,运维系统中的基于地理信息系统(GIS)的空间可视化运维模块也能感知到,并显示相应告警。
3.3 统一事件管理
事件流程是运维管理的核心流程,事件是内部各种信息的汇合中心,可以让管理人员对各个业务系统的实时事件信息进行综合管理,依据管理的需要进行信息过滤、事件关联分析和处理,将汇总的信息分发给负责的管理员,并提供实时的事件监控界面。实现统一告警系统、自动压缩事件能力、短暂态相关性分析、事件自动关联能力、合理的权限设定、方便的查询和展示方式、事件的自动通知、专家知识建议和处理事件风暴的能力。
3.4 第三方系统接入管理
针对第三方系统进行集成来增强系统监测能力和管理能力,IT运维管理系统提供的数据采集层提供了采集协议扩展接口和告警收集接口两方面的集成,具有和其他第三方系统底层采集集成的能力,数据采集集成采用SNMP转发获取对象的采集数据和对接嵌入导入。
3.5 运维服务流程管理
值班服务台管理:服务台是建立运维人员与用户之间的单一方向的联系点,统一受理用户的咨询、服务请求、故障报修、意见投诉等情况,并通过底层监控系统主动预警平台故障,通过突发事件管理流程来及时处理,及时跟踪和通报处理进展情况,借助知识库和以往事件的解决方案,解决绝大部分的常规事件。
故障管理:在最短的时间内解决事件和恢复IT服务运作,提高事件解决和故障恢复速度,尽量避免或减少事件对客户造成影响,解决用户的突发事件。
问题管理:问题管理就是要找到故障的根本原因、设计解决方案、排除隐患,寻根究底,彻底解决IT隐患根源,其目的是保持IT环境的稳定。
变更管理:它主要是实现变更管理流程的管理功能的模块。通常完成一个变更生命周期的管理,包括事件的申请、变更的审批、变更的计划和测试、变更的实施、变更的回顾和变更的关闭等等,为ITSM变更流程建设提供牢靠的技术支撑。
巡检管理:对生产系统的日常运行维护工作进行管理,规范日常作业计划、规范日常作业内容、规范维护人员的维护行为、为人员考核提供基础数据。
组织机构管理:组织机构是特定结构、分工协作的团队,也是业务分工、权限控制的基础。组织机构以职责、权限的形式定义内部成员、组织各个部门的作用与任务。
流程管理,它具备事件管理、变更管理、问题管理、巡检管理、组织机构管理、运维考核管理、日常运作管理、知识库以及自助服务等等功能,将人员、技术和流程结合起来,将监控、管理和考核结合起来,从而提升整体的运维管理能力。
知识库管理:统一知识库贯穿于平台的各个层次,包含采集、分析、运维知识库等,同时也包括信息内容、专家技能、标准规范、考核指标等内容。通过知识库的建设可以降低对个人依赖,实现运行知识库的有效共享和高效平台管理能力。
日常运作管理:对维护规程和管理办法中周期性或非周期性的维护作业计划等任务的集成,使得运维人员能够准确高效的完成作业计划的制定、审核、管理、执行与监控、查询统计以及设备维护管理等内容。
运行发布平台:对监控的所有资源的运行情况、资源性能、故障信息、当前和历史运行情况,进行查询并生成各种报表,按照日报、月报的形式集中统一的展现。
4 结束语
运维监控管理系统 篇7
随着国内企业IT系统规模持续扩大, 业务应用的不断增加, 服务用户对象的日益增多, IT运维管理人员逐渐面临着三大难题:
◆设备和业务种类繁多, 各类资料信息分散, 导致位于一线的信息系统监控员感知故障的速度晚于信息系统用户, 且故障发生后缺乏对信息系统的整体把控;而后台管理人员也往往因为信息系统性能数据和故障数据的匮乏而缺少对系统运行健康度的了解。
◆核心机房分布于企业内部多个地点, 部署范围广泛, 设备繁杂, 对于大批量网络设备、主机服务器、应用系统没有一个统一的监控平台, 不能制定统一的故障预警管理策略, 故障预警效率低, 业务恢复时间慢;
◆对关键业务系统的运行健康程度缺乏评估手段和预警措施, 只能被动等待问题发生, 无法提前采取技术手段和管理手段规避问题。
在此背景下, 一线监控人员数量多但是经验不足, 后台运维工程师经验丰富但是数量少, 这些矛盾促使企业需要开发和部署一套一体化的IT运维监控和服务预警平台, 协助企业以自动化的手段完成信息系统的监测和维护。
1 平台建设目标
1.1 建立健全企业IT运行监测指标体系
首先, 平台的主要目标是加大对企业内部各遗留及专有监控系统的整合力度, 提高IT运控中心对企业内其他分支机构IT系统管理、检测和把控能力, 建立并完善IT系统监控、IT运行事件响应、IT系统故障处理、IT健康度报告、IT运行问题跟踪和反馈机制, 引入自动化IT运维管理工具, 从而在企业内部建立健全运行管理控制能力, 实现IT健康度和业务连续性治理。
在此基础上, 进一步优化监控策略, 实现对设备及服务项全面、细粒度的监测, 预警和管理, 主要包含以下方面:
1) 打造多平台环境下安全稳定高效的检测代理及检测工具;
2) 在实现对各类业务系统、硬件和网络设备、机房环境等实时检测的基础上, 对核心应用系统再次梳理, 完善核心系统的全流程监控, 根据性能数据进行预警, 并将性能数据和故障数据引入事件管理平台进行后续治理, 以可视化的方式向运维人员提供一览式的IT服务健康状况视图;
3) 构建集成监控平台, 对平台的检测插件、检测机制、预警算法、视图展现等监控资源进行统一管理, 实现大屏集中式告警, 便于后台管理人员直观地看到系统整体健康程度;通过视图的灵活组合可以快速定位故障点, 结合知识库缩短处理时间。
1.2 完善企业业务监测指标体系, 保障业务连续性
随着企业信息化的发展, IT技术已经从业务支持逐步走向与业务的融合, 并成为企业稳健运营和发展的支柱。企业内部很多业务流程都已经在IT部门的支持下实现了流程的再造和优化, 提炼并制定了相应的流程图、流程文件及流程运作机制。但是目前我们对于企业内部业务风险的管控尚处在初步阶段。各类业务流程依然面临着来自内部和外部的各种业务风险。例如内部业务风险主要来自于员工和服务商对信息系统的不当应用, 如非授权操作或误操作;外部业务风险主要来自于外部的不安全事件, 如黑客攻击、机房环境变化等。对应用系统进行业务监控, 能够及时识别业务风险, 有效进行相应的主动规避操作, 避免造成损失。
多年的运维经验告诉我们, IT基础设施的故障仅占IT系统总故障的20%, 而各类业务系统故障占到IT系统总故障的60%-80%, 业务系统的每一个微小的故障都可能会导致业务的重大损失。因此我们需要从基础设施层、应用系统层、业务运行层三个维度搭建监控管理体系, 全面掌握业务系统情况。通过搭建专业化的业务监控平台, 部署各类业务流程监控视图, 及时、准确的发现、定位系统故障、业务异常, 防范业务风险, 从而为业务稳定开展保驾护航。
1.3 管理业务容量
通过业务监控平台可以密切监控业务系统性能, 包括系统的业务处理量、处理性能、各资源使用状况等, 通过对系统资源瓶颈的分析, 可以降低或提高业务系统容量;通过工作负载的分析, 调整业务交易时间, 减少高峰负载, 实现最佳投资。我们通过监控系统, 可以全面了解业务发展状况, 不同区域增长情况, 不同业务提升速度, 密切关注企业核心业务数据, 将单一、零散的业务数据形成趋势图形, 以图形为支撑, 主动分析、合理预测, 科学规划, 统计总结出对信息系统管理, 企业核心业务管理, 容量管理和问题管理有用的信息, 为管理者提供全方位的IT管理信息。
2 平台架构
2.1 平台技术架构
运维平台能够对各类计算机设备、网络设备、安全产品、应用系统等IT设备运行状况和各种网上行为进行集中监控, 对各类设备进行全面集中的统一管理, 及时发现各类异常情况、快速定位各类事件故障并自动形成“工单”, 再分派到相关部门进行处理的一个运维业务信息管理系统。使信息中心的运维工作由被动变主动, 并大大降低了运维人员的工作强度, 具备良好的延展性, 如下图所示:
如上图所示, 一体化运维监控及服务预警平台的系统整体框架由下及上划分为3层:数据采集层 (采集层) 、数据处理层 (处理层) 和数据使用层 (展现层) 。此外, 通过平台的管理控制台, 在各个层面都能够对平台进行全方位的配置管理。
2.1.1 采集层
采集层主要负责采集信息系统的性能数据和故障数据, 通过在信息系统服务器上部署Agent, 或者通过SNMP协议采集等多种方式与外围系统对接, 获取所述基础数据。采集层被动地接收平台服务器发出的采集指令, 执行相关的信息采集插件, 将采集到的数据放入队列和数据库中, 便于后续的分析和数据挖掘。
2.1.2 处理层
数据处理层根据不同监控对象的自身特点和运维管理需要, 灵活定制相应的性能指标集, 定义所述性能指标集中每个指标的测量范围、数据来源、计算方法、预警阈值、测量频度参数, 通过实时和历史性能图表, 进行监测、分析和确定系统性能瓶颈, 若超过预警阈值的状况, 及时通知运维人员处理解决。
2.1.3 展现层
展现层分IT系统全局视图、系统健康度巡检报表、检测数据查询三个部分。全局视图可以展现实时监视告警情况, 利用巡检报表, 系统管理员可以分析系统性能状况, 并记录进事件管理平台。上述综合展示通过业务视图、逻辑拓扑、重要设备、告警统计个不同视图, 将运维管理工作所关注的内容有序、实时、全面地呈现出IT系统资源和业务系统的整体运行状况。
2.2 平台功能架构
一体化IT运维监控模型基于松耦合体系架构, 采取灵活模块化组装、云计算灵活部署结构, 实现“监控、管理、管控”三个方面协同处理过程, 其功能架构如下:
统一访问门户通过一次登录, 即可对所有的平台功能进行操作, 针对不同的登录用户, 可以提供专门的个人桌面和辅助工具。
监测台可以定义服务视图, 将性能, 流量, 报表, 拓扑等系统管理所关心的信息在不同样式的视图上集中体现出来。
运行服务平台以IT管理流程为核心, , 对运维的主要工作进行规范化的管理, 并实现设备维修、值班的管理。
统一事件管理平台能够提供统一的企业级网络事件管理。通过从各种网络设备和管理平台收集网络事件信息, 并进行必要的分析和自动化处理工作。
集成数据网管系统, 提供数据网管标准接口以供信息交互, 完成事件的统一管理, 使网络和系统中的各种资源得到更加高效的利用和综合管理。
系统管理提供对服务器、存储设备、操作系统、数据库、中间件、网站的综合管理, 实现系统故障告警管理、系统性能管理、拓扑与配置管理。
接收来自防火墙、入侵检测、端口扫描等安全系统的告警, 并将这些告警实时呈现给信息网络安全部门, 以采取进一步的响应动作, 保障网络系统的正常运行。并对网络流量进行监听和分析。
3 结论
IT系统一体化运维监控及服务预警平台包含了性能监控、故障监控、决策分析、数据挖掘以及关键业务流程监控等多种功能, 在此基础上通过数据分析技术, 建立智能、高效、易用、实用、灵活的面向业务流程的全方位、多层次的IT运维智能决策支持系统。作为一种新型的、经过验证的、卓有成成效的自动化IT运维工具, 有助于提升国内内企业信息管理的效率。
参考文献
[1]宋应湃, 汪林林, 数据挖掘技术在IT基础设施监控中的应用[J], 计算机科学, 2007, 34 (5) , P205-207.
[2]张晓利, 贺国光, 陆化普.基于K-邻域非参数回归短时交通流预测方法[J].系统工程学报, 2009, 24 (2) :178-183.
[3]陶洋, 黄涛, 唐毅, 基于主机负载的任务执行时间预测研究[J], 计算机应用, 2009, 29 (19) , P2617-2623
[4]郭躬德, 王晖, David Bellz, 时间序列数据分析与预处理[J], 小型微型计算机系统, 2003, 24 (12) , P2228-2232
运维监控管理系统 篇8
物联网建设是油田油气生产数字化的基础内容, 近年来, 信息技术应用的迅猛发展为油气田油气生产数字化、智能化管理带来了契机, 经过各油气田多年在不同范围内的实践证明, 油气生产数字化、智能化管理在传统劳动组织架构和生产组织方式优化、简化, 安全环保本质化水平提高, 减轻一线员工的劳动强度, 改善员工的生产生活条件等方面均能起到积极作用, 但油气生产物联网建设投资规模大, 资金量数以亿计, 运维管理的好坏将直接影响到物联网建设成果、建设效益的可持续性, 投资的回报周期;油气生产物联网采集与监控系统是采用传感和控制技术构建的油气田地面生产各环节生产运行参数自动采集、生产环境自动监测、物联网设备状态自动监测和生产过程远程控制的系统[1], 是为后端实时决策分析应用系统提供数据支撑的关键, 是油气生产物联网运维的核心, 针对油气生产物联网采集与监控系统在多个油气田的运维实践, 提出运维管理评估的几个关键要素。
一、标准体系的建立健全
1.1标准层级清晰, 覆盖完整。油气生产物联网采集与监控系统运维管理涉及组织架构与岗位创新, 涉及仪器仪表、控制设备、服务器、通信设备、供电设备、视频设备、显示器等硬件设备, 涉及组态软件、通信协议、通信接口等软件程序代码, 涉及采集数据的报警预警设置、问题发现、沟通、分析、确认、处理等信息传递及反馈;涉及系统备份、应急响应等数据、通信、系统安全措施, 涉及新建产能井、站库数据的接入、监控系统功能完善等工作及实施流程;涵盖技术领域范围广、组织关系及干系人多, 指挥管理响应速度、故障分析处理准确度、实时性要求高。因此, 做好运维管理, 首要的是要建立起不同层级的配套标准体系, 遵循运维管理应具备及时性、安全性、有效性和计划性, 应建立起健全的运维管理组织, 建设运维队伍, 形成清晰的作业流程及完善的规章制度[2]原则, 根据《油气生产物联网系统运行维护规范》数据采集与监控子系统有关运维队伍主要职责、采集控制设备管理、数据管理、应用配置维护、系统维护内容的运维管理要求[2], 以及《油气生产物联网建设规范》建立起适合本企业的相关标准制度。
1.2标准规范细化, 可操作性高。油田企业建立的相关标准制度需要依托行业建设规范、运维规范等相关规范, 内容尽可能细化、提高可操作性。需要涉及关于管理组织机构从属及责任分工;涉及系统软硬件正常运行保障措施, 检查、备份机制;涉及井、站库物联网标准化功能配置, 工艺流程设计;涉及井、站库的组态工程模块化, 界面布局、设备图库、标识颜色、字体字号的组态人机界面标准化;涉及到针对不同厂家仪表设备的质量、性能、功能、通信协议要求;涉及到控制设备到监控系统的接口要求[1,3];细分监控室岗位 (如报表管理、数据管理、计量管理、生产信息管理岗及各岗位职责等) ;细分涉及到的井、站库、监控系统相关操作并制定操作规程 (如操作员、采注计量站、抽油井、自喷井等自动化操作规程[4]) ;须涉及自动化仪修故障处理分析标准化知识库, 建立健全相关操作规程 (如计量站内故障分析、集中处理站故障分析、油井自动化故障分析、机采井负荷异常的分析等[5]) , 便于员工学习和掌握, 确保仪修员工操作水平的全面提高, 让员工处理现场自动化故障更加准确快捷。
二、关键考核指标掌控
油气生产物联网采集与监控系统运维管理, 标准是基础, 考核指标掌控是关键。建立数字化管理建设考核机制依托本油田经营管理特点、生产特点, 制定具体的考核指标值及指标值统计计算依据, 关键考核指标有以下几点:
2.1运维费用控制。运维费用有效控制是确保油气生产物联网建设成效的关键一环, 运维费用需要进行科学研究, 不断创新优化运维管理方式、手段, 提高建设成效。运维费用的支出依据需要考虑通过物联网建设实现组织架构优化、管理方式转变、工艺流程改进、HSE管理水平提高等方面给企业带来的生产管理成本减少、效益增加, 研究高效运维模式下的操作成本, 防止运维费用失控带来的建设负效应。
2.2采集控制仪表自动化设备上线率。采集控制仪表自动化设备上线率是考量油气生产物联网建设应用情况的核心指标, 统计内容需覆盖充分完整, 以便真实反映建设应用现状、运维质量。设备上线率统计根据采集数据应用需要考虑以天记或以小时记, 用以统计仪表自动化设备应 (实际) 投用天数或小时数, 统计范围包含油气生产物联网建设涉及的具有测量、显示、记录、分析、报警、运算、计量、防护、调节、控制和动力等方面的独立功能的仪表设备;执行机构、小型执行器以及辅助设备;计算机设备 (如PC机、工作站、服务器、远程终端装置 (RTU) 等) 。
2.3采集控制仪表自动化设备完好率 (故障率) 、更换周期。采集控制仪表自动化设备完好率 (故障率) 、更换周期是考量设备质量、设备周检情况、运维及时性的重要指标, 是考量所选仪表自动化设备技术是否可靠、运行是否平稳、监测是否准确的重要依据, 也是降低运维强度、有效控制运维费用的重要保障。指标考核统计原则需考虑对台数统计原则的细化, 注重指标计算的可操作性, 如针对设备完好率不记入完好设备的情况分类有外观有明显锈蚀、变形、松动、卡阻、漏气、漏液、缺螺钉、缺密封件、缺校准铅封、表针摆动过大、噪音过大、显示不清晰、指示灯损坏及按钮损坏、指示数异常, 管路有凝液以及测温套管内无导热介质的仪表自动化设备;有控制响应速度过慢, 因回路设备故障引起的偏差过大等[6]。
仪表自动化设备周期受检率一般要求达到100%, 包括测量仪表周期检定、执行类设备周期维护、控制系统周期维护等[6]。
三、运维管理方法的科学性、先进性
油气生产物联网采集与监控系统运维涉及的仪表设备多, 建立健全运维标准体系、考核细则后, 高效运维需要创新运维管理方法, 从人员组织机构优化开始, 与系统平台结合, 利用系统进行日常监控、问题排查、物联设备管理、检修计划制定, 从而实现运维管理方式优化创新。主要涉及以下几个方面:
3.1组织机构和管理模式专业化、扁平化。油气生产物联网数据采集与监控系统的投产运行, 有助于促使生产单位组织机构和管理模式向“两化”转变, 即“专业化”和“扁平化”。
专业化不仅是指由专门的队伍和人员来管理日常监控系统的运行、现场通信, 监测仪器仪表的故障定位检修, 更为主要的是整个生产单位向集约化、部门化、专业化转换。地质、工程人员依据现场监控生产数据判断分析生产情况并作出相应调整措施;巡井人员根据调整措施进行现场日常工程作业;现场仪器仪表维修人员通过实时监控, 负责维持数据采集与监控系统正常运行, 这样就形成了决策层、执行层、监测层的三层管理格局, 为更加及时有效地指挥生产提供有利条件。
扁平化是在专业化的基础上, 按照专业管理, 重新划分机构职能和人员分工, 减少传递环节, 优化工作流程, 实现优化劳动组织结构、缩减现场人员规模、降低生产运行成本及维护成本的目的。
3.2物联设备的实时监控, 故障精准定位、远程维护。油气生产物联网物联设备集中在采集与监控系统中, 随着油气生产物联网在油气田建设覆盖面的增加, 物联设备运维量数以万计, 确保正常、高效运维, 不断引入物联设备远程实时管理与远程诊断新技术, 针对有线仪表、控制设备实施RFID或二维码进行标识, 针对无线仪表、控制设备做细无线通信协议仪表信息、状态码、故障码规定、接口寄存器地址约定, 实现对仪表编号、井名、站名、坐标、井类型、设备类型、生产厂家、量程、精度、电池更换日期、投用日期、安装日期等基本信息的实时更新统计, 实现对仪表设备故障、在线/离线状态等的实时监控, 故障精准定位, 远程升级维护, 能够在监控中心对井场设备进行管理, 支持远程设备诊断、远程恢复、固件升级、周检档案管理等功能, 缩短设备故障定位及恢复时间, 降低设备停机时间, 为高效运维提供保证。
3.3通信链路的实时监控、故障精准定位、远程维护。通信链路的畅通是采集与监控系统正常平稳运行的重要保障, 目前油气生产物联网建设中, 采集与监控系统涉及的通信链路越来越多的引入了有线+无线的无线异构网络进行数据传输, 网络系统复杂, 需要引入网络链路实时监控技术, 实时监测链路所有网络设备及终端设备, 实现链路传输故障实时定位, 快速排障、减少停机时间, 为快速恢复系统运行提供保障。
除上述两个方面以外, 对于安防系统、供电网络、通信基站环境等物联网系统设备的远程实时监控, 也将有助于系统的安全、高效、节能、环保运维管理。
四、小结
油气生产物联网采集与监控系统运维管理, 标准是基础, 考核指标掌控是关键, 运维管理方法的科学性、先进性是保障, 本文针对油气生产物联网采集与监控系统在多个油气田的运维实践, 总结出运维管理评估的几个关键要素, 对各油气田建立完善有效的运维管理体系具有重要指导作用, 对其他行业的物联网建设系统运维亦具有较强参考价值。
参考文献
[1]Q/SY 1722-2014, 油气生产物联网系统建设规范.
[2]中国石油集团公司.油气生产物联网系统运行维护规范[M].
[3]Q/SY XJ 0217—2009, 油井、气井及采注计量站远程终端单元数据存储和传输规范.
[4]新疆油田彩南作业区.油田采油、采气自动化管理规程[M].
[5]新疆油田陆梁油田作业区.自动化中控室现场仪修故障分析标准模板[M].
运维监控管理系统 篇9
关键词:二维码,智能移动终端,IT设备,运维监控
0前言
电力调度中对IT设备运行状态进行监测, 保证电网管理系统的正常运行, 通过基于二维码技术, 利用智能移动终端的二维码识别技术及其携带便捷性, 可对IT设备运维监控工作进行多元化管理。
1 二维码技术特性
二维码是用某种特定的几何图形按一定规律在平面 (二维方向) 上分布成黑白相间的图形以记录数据符号信息。二维码在代码编制上巧妙地利用构成计算机内部逻辑基础的“0”、“1”比特流的概念。使用若干个与二进制数相对应的几何形体来表示文字或数值信息。通过图像输入设备或光电扫描设备自动识读以实现信息自动处理。
二维条码技术是一种标准化信息存储、传递和自动识别技术, 不依赖计算机网络和数据库存储、转移信息的方法, 是信息的另一种表示形式, 具有容量大、可靠性高、保密防伪性强、低成本等优点。
1) 信息容量大:二维码不仅可存储标识信息, 还可带有达上千个字符的描述信息, 比普通条码高约几十倍。为IT设备上贴的标签中存储多方面信息提供了保障;
2) 可编码范围广:二维码可以把图片、声音、文字、签字、指纹等可以数字化的信息进行编码, 用条码表示出来, 且支持多种语言文字, 包括中文;
3) 保密、防伪性能好:可对码字进行按需进行自定义的加密、压缩处理, 防止敏感信息外泄;
4) 译码可靠性高:二维码具有很强的纠错能力, 误码率不超过千万分之一, 支持360o识读, 对二维码的摆放和识读设备的操作容错性较高。因穿孔、污损等引起局部损坏时, 照样可以正确得到识读, 损毁面积达50%仍可恢复信息;
5) 低成本:二维码属平面媒体应用范围, 在纸质等实物上的二维码被对折后也不影响识读, 从方便性和低成本都优于采用芯片方式。
2 二维码的模版制定
二维码码选型和模板定制是条码系统正常运行的基础, 在电力调度的IT设备运维监控中应用二维码, 需要对二维码标准格式以及标签进行选型并制定模版, 为统一管理提供支持。
2.1 二维码的标准格式选型
二维码是利用编码组件通过一定的算法对业务信息和纠错信息进行编码, 按二维码的二进制编排几何格式组合, 最终形成二维码图形。在特定的领域内二维码的编码需基于一定的标准。在电力调度的IT设备运维监控中应用二维码, 需选用适合的二维码标准。
在电力调度IT设备运主要的标识信息包括了设备的ID、编码、名称、规格型号等信息, 这些信息将进行编码后形成对应的二维码信息, 供手机等智能移动设备扫描。我国目前二维码应用以PDF417码和QR码最为广泛。QR码 (Quick Response Code的缩写) 即快速响应码, 具有快速解码、高密度、高信息含量、纠错性强等特点, 可存储近千个汉字, 有开放性标准, 无版权限制, 免费使用。本应用研究中二维码的选型采用QR标准格式, 足以满足设备标识信息进行加密后的存储, 为电网运行系统统一二维码标准格式提供支持。
2.2 条码标签选型
模板的定制需要对条码标签进行选型, 以确定标签的大小、介质。
1) 根据二维码黏贴的位置、工作环境和实际工作中需要传输的信息量, 确定条码标签的介质类型;
2) 由粘贴位置可以确定标签的大小、碳带的大小和打印机类型;由信息量可以对标签的大小进行一定的调整。
3) 条码标签的大小确定以后, 还需确定条码信息的表现形式。标签上的信息有两部分:明码和条码。明码是设备的统一编号和设备的名称, 其他信息在二维码上, 还有一定的纠错信息, 保证条码在外力破坏以后能对该信息进行检索和恢复。
二维码模版制定后, 在电力调度的自动化运维监控系统中实现对二维码模版和生成的IT设备对应二维码进行统一的维护功能, 为二维码的应用提供管理支持。
3 二维码应用
3.1 应用现状
目前, 电力调度的IT设备运维监控工作主要通过信息化系统自动监测和人工巡维两种方式生成告警信息, 然后根据告警信息进行维护。
大多电力调度机构的信息化建设中已基本实现了自动化运维监测系统, 自动测量设备状态并形成告警信息, 值班人员可在PC端查看告警信息。针对信息化系统无法监测到的部分, 结合人工巡维, 手工生成告警信息。相应的技术人员根据审核通过后的工作单, 到现场处理完毕后, 上机填写处理结果。
3.2 二维码应用基本原理
二维码在IT设备运维监控中应用, 即在软件系统中生成按QR码和制定好的模版生成二维码后, 打印并黏贴于设备上, 通过手机等移动端的光电扫描设备对二维码进行扫描获取设备信息。
随着手机、平板电脑等智能移动终端的硬件设备性能大幅提升, 高分辨率摄像头已经成为标配, 再结合支持安装能识读二维码引擎的自主开发软件的特性, 智能移动终端成为了目前最普及的二维码扫描设备。
扫描二维码是一个解码的过程, 除了设备支持扫描, 还需要解码组件实现该过程, 解码是按二维码的QR码标准进行逆向解析处理, 具体来讲, 是定位探测图形, 定位二维码区域, 根据二维码编码格式信息和纠错码对数据进行解读的过程。如果编码经过加密处理, 解码时需要密钥信息。
3.3 二维码应用效果
基于图1中IT设备运维流程, 引入二维码应用后, 为每台设备提供二维码标签, 解码组件集成于手机应用中。巡维人员利用该应用中功能进行该标签的扫描, 从而获取设备信息, 并基于此进行缺陷或故障信息的报送, 省去巡维人员记录, 到PC机上填报的过程;对于需要维修服务提供商进行现场服务的, 通过二维码标签的扫描可以促发并提示用户拨打维修服务提供商电话, 从而提高缺陷消缺或故障处理的效率。
二维码在IT设备运维监控中应用后, 工作方式延伸到了移动设备端, 增加了对IT设备运维监控的手段, 极大地提高了工作效率。
4 结束语
综上二维码在IT设备运维监控中应用进行研究, 取得了良好的应用效果, 为IT设备运维工作增加多元化的管理手段, 同时也能提高了电网运行管理水平。鉴于其技术的便捷性、通用性, 并能带来不小的成效, 可在电力调度的信息化管理系统中可逐步应用, 具有良好的推广前景。
参考文献