故障机制

2024-08-31

故障机制（精选5篇）

故障机制篇1

随着通信领域各种新兴技术的引进,多样化业务也在不断推陈出新。越来越多的互联网用户已从传统的语音、图文等单极业务定制扩展为通过宽带接入技术直接实现电信、IPTV、商务办公等多业务的一体化应用。“需求带动业务提速,业务引生技术革新。”正是由于从用户、开发商、代理商等供需交集来考虑,高效性、稳定性网络服务亦呼之欲出,但日益增长的IP业务也需要有一个具有高带宽且生存性强的传输网络来予以承载,于是,网络的优势融合已是大势所趋。

未来的网络架构将从现有的纵向拓展转型为横向延伸,也就是说垂直网络将向水平网络演进。鉴于IP业务的突发性和服务器拥塞等特点,IP over ASON模式正是借助ASON的保护恢复机制的潜力,引入了控制平面实现动态智能配置,特别是增强了网状网恢复的实用性,有效的提升了传输平面的生存性要求。当出现业务中断时,ASON的故障管理机制的启用会实时保证IP业务的倒换,从而提高IP网的资源利用率。

1 IP over ASON模式的构建

在传统的语音网络结构的基础上,通过技术改进,高性能网络路由器将实现部分ATM层以及SONET/SDH交换和复用的功能,而光网络层则提供以波长为基础的路由。这样既减少了传统网络结构中的冗余部分,也缩小了ATM、SONET/SDH设备规模,这样就避免了这些层次间的功能重叠。经由IP适配子层与光网络适配子层协调对接,形成了IP层与光网络层的适配相连,即是IP over WDM网络结构。关键之处就是在IP over WDM中引入一个灵活的传输控制层,形成了IP over ASON模式。其转变过程如图1所示。

1.1 IP over ASON融合方案的选取

传输网和IP承载网的融合实质就是使传输网络逐步向承载层渗透,而IP承载网逐步承担传输层实现的功能。目前主要有以下两种融合的方案:传输厂商的思路“传输融合承载”和数据厂商的思路“承载融合传输”。

从应用效率和投资成本来分析,骨干网建设实际上更加偏重网络的强生存性,而当前IP层的生存性技术仍无法达到大业务量故障下的电信级恢复的理想效果。为了支持业务控制和承载的有效分离,路由器逐步也会越来越多地支持UNI/ENNI。所以,传统运营商比较认同传输融合承载的选择要比承载融合传输更加适用于骨干网的发展规划。

1.2 IP over ASON融合的特点1)提升故障管理

利用了传输层的保护恢复来提高IP承载层的生存性,由于传输层的故障检测比上层快得多,并且能够提供多种生存性方式,优势较为明显。

2)动态利用资源

可将网络资源动态地分配给路由器,提高了光网络资源的利用率,增加了业务层节点业务量的承载能力。

3)简化网络结构

实现了IP网络从层次汇聚向扁平化发展的构想,IP路由的中继型业务可直接经由灵活的传输层大颗粒进行转发,减轻了核心路由器的负荷。

4)节约建设成本

构建统一融合的IP承载网适时降低了CAPEX、OPEX,尤其是ASON的灵活组网和可扩展性,为电信运营商节省了相当大的网络扩展费用。

5)提供多样业务

智能光网络将为IP网络提供一系列新兴业务类型,如BoD、O-SLA、GE&10GE、OVPN等。

2 IP over ASON的故障管理

ASON的核心思想即是将传输、交换和数据网络充分结合起来,真正实现路由设置、端到端的业务调度和网络自动恢复。此外,ASON沿用了IP网中的路由和信令协议并加以改进,使之符合光网络的应用需要,从而切实地解决了IP层与光网络层的融合问题。IP over ASON融合后业务的集合度越高,就愈发强调对传输网络生存性的要求,如若出现故障,能够在最有限的时间内确定故障,完成业务的转移,这样就为保护IP业务的连续性提供保障。故障处理的流程如图2所示。

2.1 处理流程

在ASON中,传输层的生存性由管理平面配置后,具体的实施则有控制平面来保证。业务处于常态时,故障处理恢复机制处于待启状态。当业务运行处于故障态时,网络须能通过检测实体和光传送实体的告警发现故障,这是实现故障恢复的首要前提。再者,网络应尽可能根据告警信息统计分析,及时通知负责恢复的节点,查明故障来源,实施有效的故障定位,由而进行可用资源的重新配置,保证业务回归常态运行。

2.2 故障检测

故障类型常分为硬型故障和软型故障。硬型故障有光纤故障、发射机故障、接收机故障、光放大器故障、OXC故障、波长转换器故障等,而软型故障有软件设计程序故障、信息模拟性故障、性能衰化故障等。

故障告警分为实告警和虚告警。实告警是指对网络的实体器件或光纤链路等实体检测而引发的故障报警,而虚告警则是指由于软型故障检测引发的报警,如信道信号质量的衰化,激光器温漂引发的光功率输出波动等。通常情况下,许多软型故障均是由于光器件长时间应用产生的一种累加效应,这类故障检测与定位要比其它类型故障要难,更需要一种精密的技术与设备进行实时监控。

2.3 故障定位

IP over ASON的生存性有赖于网络的保护恢复机制来保证,而保护和恢复机制靠的是资源的动态配置来完成,所以生存性的故障定位最佳的定位效果就是确定到具体的链路、光纤、波长以及节点等这些资源上。故障定位主要分为实时和分时两个部分,实时部分主要解决生存性,分时部分主要解决故障的维护管理。

故障定位的方法主要有以下几种,它们的运用比较可由表1所示。

1)人工测试法,其主要的目的是应用于分时的网络维护和管理,当出现故障时,由人工方式去对故障的具体位置进行确定。

2)业务通道关联性统计分析法,其利用了前向检测标识(FDI)和后向检测标识(BDI)把故障信息传送给业务的上游节点来进行统计分析做出裁决,由而确定故障的位置。

3)中心控制节点分析法,这种方法是在网络中设立了一个中心控制节点,当网络发生故障时,其余的邻节点的检测标识信息全部集中传送到该节点,而该中心节点采用这些统计信息以及原有数据库中存根业务和网络拓扑来进行定位故障位置。

4)分布式故障定位法,其主要利用了本网元内部的告警信息来定位故障,它将网元内部的告警信息分为四层告警,及时光传输段层(OTS)、光复用段层(OMS)、光通道层(OCH)和客户层(Client),再把网元以交换为轴分为网元内的上游侧和下游侧。通过上游侧和下游侧的故障区间信息来实现定位,而客户层与业务是对应关系,所以可利用客户层告警来确定受损业务。

3 IP over ASON故障管理面临的问题

表1故障定位方法运用比较

尽管IP over ASON的技术研究已近成熟,利用其传输网的生存性优势提高资源利用率的效果优势明显,然而IP over ASON的全维保护恢复机制在具体细节衔接与关键体制支撑上仍存在系列问题,对于实现优化型故障管理的目标将是一个循序渐进的过程。

3.1 通用标准与规则的制定

如果ASON的覆盖区域很大,在跨越不同ASON域时需要有一个通用、统一的跨域连接标准和接口标准,这一直以来是ASON发展的“瓶颈”。从根本上解决这个问题,必须由官方先期制定一个各承制商与运维商均可接受的标准,通过监督体制加以约束。

若要有序应对网络故障的发生,可制定完善相关规则以确定主次级路由器节点向ASON管理层发出建立连接的申请,并向控制层发出连接建立确认的消息,避免无主次级并发响应的消息阻塞,影响故障恢复的时限。

3.2 管理平面与控制平面的协调

自ASON中把管理平面、控制平面与传输平面采用层级分离体制,管理层与控制层虽说各司其职,但很大程度上可以理解为是一种域内的职能互补。尤其在对于IP over ASON的故障管理时,两者的协调缺一不可。因为管理层和控制层都要维护一定的网络状态信息,在网络的优化时,可根据相似性原理进行关联。

3.3 信令机制的启用

信令机制包含一个源端到宿端的请求信息和一个宿端到源端的回执信息,这种机制在竞争待裁决和交叉连接接收到请求信息这段区间可能会产生时间差误连,这类情况对于故障管理的安全是一个严重的事故。有一种较为可行的解决方法就是用时限换安全,即为所有竞争完全解决后在进行交叉连接配置。此外,交叉连接自身的处理如能采用并行方式将会缩减恢复时限。

信令主要依托信令通信网(SCN)来传导运行,SCN是ASON控制平面发挥优势的基础平台,它不依靠其它方式给予保护,而是依赖自身“网络全维规划免疫”来维持健壮性。通过对信令路由控制器(SRC)的处理能力的合理评估和组合应用,以及SCN链路带宽的正比式提升来维护SCN的性能,从而务实IP over ASON故障管理体系的正常启用。

4 结束语

经历网络革新所带来的便利着实可见,但网络发展所潜在的隐性问题却不可忽视。尤其是当前,在金融海啸后各国经济逐步复苏的大背景下,通过有限性投资建立起长效且运维性成本最简的网络应用体系,强调高生存性,形成开放集约型故障管理机制均是需要连带规划评估的实际问题。在未来的发展实践中,网络优化的机遇与挑战同在。

摘要：IP网络与光网络的融合是当今网络优化的一种趋势。结合IP网和光网络的优势直接适配构建IP over WDM架构,从中引入一个控制平面,形成了IP over ASON模式,由而对其生存性提出了更高的要求。该文首先介绍了IP over ASON模式的架构转变,对其故障管理机制进行了分析,对其故障管理面临的问题提出了改进方法。

关键词：IP over ASON,故障管理,融合

参考文献

[1]刘锐,余征然,苏永炯,等.ASON发展现状及引入策略的思考[J].电信科学,2005(11).

[2]丁小军.高效承载IP网络ASON助力联通IP化发展[J].通信世界周刊,2008(9).

[3]纪越峰,李慧,陆月明,等.自动交换光网络原理与应用[M].北京:北京邮电大学出版社,2005.

[4]Ho P H.A Framework of Service-Guaranteed Shared Protection in WDM Mesh Networks[J].IEEE Communication Magazine,2002(6).

[5]Wang Ling,Ye Peida.The Optimal Design of Logical Topology with oS Constraints in IP over WDM Network[C].Beijing:Proceedings of International Conference on Communication Technology,2003.

[6]Wang Chao,Li Yanhe,Zheng Xiaoping,et al.Study on a novel traffic engineering model for IP over ASON network[C].Beijing:Proceedings of Asia-pacific Optical Communications,2004.

[7]Grover W,Doucette J,Clouqueur M,et al.New Options and Insights for Survivable Transport Networks[J].IEEE Communication Magazine,2002(1).

[8]Li Lian,Gu Wanyi.Simulation-based analysis of the control channel capacity requirement in ASON[C].Beijing:Proceedings of Asia-pa-cific Optical Communications,2004.

[9]Baroni S.Analysis and Design of Backbone Architecture Alternatives for IP Optical Networking[J].IEEE JSAC,2000(10).

故障机制篇2

处置效率

【摘要】国网杭州供电公司调控中心依托“大运行”体系优势，为提升故障抢修的效率，促进配网调控运行、抢修指挥业务进行一体化运作；依托配网抢修指挥平台，完善故障抢修指挥工作流程，实现对抢修工单接的全过程闭环管理，建立配网调控运行、抢修指挥之间的日常沟通交流和协作工作机制，加强调度监控、配网监测、客户报修、现场勘查等各方信息的交互与共享，综合实时与非实时、控制与管理等方面的数据与信息，第一时间作出最佳的抢修方案，提高故障工单处置效率。

【关键词】配电网抢修指挥调控运行协作故障工单处置

传统的配网设备故障抢修工作主要由配网抢修指挥班、配电运检抢修班承担，配网调控班仅把控配网正常计划与事故处理时的方式调整、指令下达、隔离操作等，不直接承担故障抢修时效的责任。抢修指挥班与配网调控班之间缺乏日常沟通交流和协同工作机制，导致很多故障因信息沟通不及时、信息掌控不全面，使得故障研判流于形式，故障原因查找耗时费力，故障工单的处理质量不高，故障抢修的时效性不强。专业协作的概念的提出

1.1 专业协作的理念和策略

随着“大运行”体系全面建设的完成，配网抢修指挥人员和业务整体划入调控中心，为促进抢修指挥与配网调控专业协作、提高故障工单处置效率提供了良好契机。要提升配电设备故障抢修管理工作水平，必须有效整合抢修指挥班、配网调控班、配电运检抢修班等班组掌控的资源，建立统一的管理平台，将电网调控运行、抢修指挥业务进行一体化管理。通过这种方式加强各类信息系统资源的交互与共享，依托配网抢修指挥平台，完善配网故障抢修工作流程，实现工单接收、分析研判、事故通知、故障查找、方式调整、指令下达、隔离操作、故障抢修、恢复送电、记录通报的全过程闭环管理，提升配网抢修业务跨专业协作水平。

1.2 专业协作的范围

以界面清晰、流程高效、措施有力、平稳有序为指导思路，遵循“积极、稳妥、做实、做细、做深”的理念，按照“自下而上”的方式，采用“整体规划、分步实施”的工作策略，结合规章制度和各项指标要求，综合评估配网调控与抢修指挥跨专业协作内容，缩减流程环节，提高配网故障抢修效率，最终形成配网调控与抢修指挥业务整合的一体化协同运作模式，提高供电优质服务水平。

1.3 专业协作的目标

优化改进后的抢修体系应该是，抢修指挥班与配网调控班建立有效协作机制，有条件的开展联合值班，由配网调控班监控专业与配网抢修指挥监测人员共同监测配网运行。抢修指挥人员与配网调控人员综合调度自动化系统、地理信息系统、配电自动化系统、抢修指挥系统、智能公用配变监测系统、智能总保系统、营配贯通系统等技术支撑平台，联合研判后，优先通过遥控操作，调整运行方式，隔离故障，尽快恢复用户供电；对于无法通过方式调整恢复供电的情况，及时通知运检抢修人员到现场抢修。通过两个班组的横向协作，达到抢修复电的纵向加速。专业协作的主要做法

2.1 专业架构建设

为稳步推进电网调控运行、抢修指挥业务一体化建设，由调控中心书记兼副主任直接分管配网调控和抢修指挥业务，在调度控制室设立配网调控和抢修指挥专职，负责全地区的专业管理职能，统一制定相关流程和制度，理清与配网抢修、咨询工单的界面和业务联系。市区及各县调有条件的班组开展配网调控和抢修指挥联合值班；因条件限制，暂时不能实现联合值班的，在两班组之间建立一体化生产管理系统平台，互设信息系统终端，开通专线直拨电话等有效沟通手段，实现信息共享、有效协作。

信息协同机制对抢修指挥班和配网调控班业务交叉内容，在省公司统一规章、制度、指标体系的基础上，统一业务流程、统一人才培养、统一技术支撑，建立信息协同平台，实现无缝对接管理。

2.2 专业协作业务流转

（1）协同信息由抢修指挥班发起；

（2）协同信息由配网调控班发起。

2.3人力资源保证

电力调控中心作为主管部门，负责调控运行和抢修指挥信息协作管理、考核，全面协调交叉业务运行、组织跨班组业务培训。抢修指挥班、配网调控班班长负责协同业务的跟踪督查、风险管控、培训组织、融合交流。当值值长、正值、副值负责具体协作事宜处置、闭环平台生产流程。

2.4 绩效考核与控制。

（1）绩效考核的指标体系。强化专业协作机制的管理，其长效性及根本在于对配网调控和抢修指挥的专业管控。从计划检修、日常业务、事故处理等方面，都需要形成一个切实有效的管理流程整体。配网调控与抢修指挥的专业协作实现对电网事件从发生到结束的全过程闭环管理。根据绩效考核管理办法对相关工作人员进行考核。

（2）配套的标准、规章制度。为了有效规范抢修指挥与配网调控体系的运作，调控中心需出台相关规章制度；明确了抢修类工单派单及时率、抢修类工单回填及时率、抢修类工单回填规范率、研判及派单平均时长、工单转派率、工单退单率、工单线下流转率、生产类停送电信息编译报送及时率、生产类停送电信息编译准确率、支持系统故障时长、未拦截工单数量、工单处理最高效率等指标，对工作情况进行考核评价。结语

随着“三集五大”体系建设的深入推进，“大运行”体系日趋成熟，磨合期基本度过，已进入全面贯彻执行阶段。抢修指挥作为完善“大运行”的重要一环，可以有效依托“大运行”优势，使配网抢修指挥管理利用已率先开展的调控一体化的经验，借助配网调控对电网快速高效的调整能力作为配网抢修指挥的有力手段。通过专业协作，联合值班，实现配网抢修指挥与调控运行深入融合，建立专业协作机制，提高故障工单处置效率，减少用户停电时间，提高用户满意度。

参考文献：

故障机制篇3

关键词：主板,内存,供电电路,故障检测

1 主板内存插槽种类及供电电压

随着主板技术的发展,主板内存插槽常见以下几种:SDRAM内存插槽、DDR_Ⅰ内存插槽、DDR_Ⅱ内存插槽和DDR_Ⅲ内存插槽。其中,SDRAM内存插槽现已少见,而DDR_Ⅰ内存插槽在一些十年左右的老主板中还能见到。DDR_Ⅱ内存插槽和DDR_Ⅲ内存插槽是现在主板中常见的。主板内存供电一般需要两个电压:一个是内存工作所需的主供电电压,一个是传输数据时所需的上拉供电电压。主板内存插槽不同,供电电压也不同,见表1所示。

2 主板内存供电形式

SDRAM内存插槽,常见的是由ATX电源直接供电,只有少数高档的主板才采用独立供电。用万用表测量ATX电源的第一脚与SDRAM内存插槽3.3V供电脚,它们之间是相通的。对于DDR内存,一般采用独立供电。下文以DDR_Ⅱ为例,介绍内存供电电路的供电机制及维修检测方法。

2.1内存主供电供电形式

内存主供电主要采用两种供电形式,一种是由稳压源、比较器芯片和场效应管组成的调压式供电电路,另一种是由电源管理芯片、高低场效应管和电感组成的开关电源式供电电路。

2.1.1调压式供电电路工作原理

调压式供电电路的电路图如图1。

调压式供电电路的工作原理如下:

1) 开机瞬间,ATX电源供电,TL431与比较器得到供电,其中,TL431的K(1脚)、R(3脚)相连,产生恒定的2.5V,经过R2、R3串联分压,得到IN+(1.8V),此时,场效应管Q1未导通,IN-=VCC_DDR=0,因IN+> IN-,所以OUT电压上升,当升至高电平时,Q1导通,其导通程度随OUT的上升而扩大,当导通到VCC_DDR=1.8V时,IN+= IN-,OUT电压不再变化。

2) 当内存工作时,因后级消耗电能,VCC_DDR下降,IN-下降,IN+> IN-,OUT电压继续上升直到IN+= IN-,OUT电压不再变化。

3) 当内存由繁忙变成闲置时,后级消耗减少,Q1仍保持繁忙时的导通程度,VCC_DDR上升,因而IN-上升,则IN+< IN-,OUT电压下降,直至IN+= IN-。当OUT电压降至低电平时,Q1截止,仅由电容C1供电,VCC_DDR快速下降,降至IN+> IN-,OUT电压重新上升,重复步骤(1) 。

总之,该电路由R2、R3确定VCC_DDR电压,由比较器根据负载工作状态控制场效应管Q1的导通程度来达到稳定的VCC_DDR内存电压。

在该电路的基础上,可通过R2、R3阻值上的变化,得到不同的VCC_DDR内存工作电压,从而为不同的内存提供主供电。如:当得到的VCC_DDR为2.5V时,可作为DDR_Ⅰ内存的主供电,当得到的VCC_DDR为1.8V时,可作为DDR_Ⅱ内存的主供电,当得到的VCC_DDR为1.5V时,可作为DDR_Ⅲ内存的主供电。

2.1.2开关电源式供电电路工作原理

开关电源式供电电路的电路图如图2。

开关电源式供电电路的工作原理如下:

1) 开机,ATX电源供电,电源管理芯片IC1得到供电,由BOOT激励内部振荡器工作产生振荡,并放大反相得到一对互为反相的方波给UG和LG。

2) UG=H(高电平),LG=L(低电平)时,场效应管Q1导通,Q2截止,3.3V/5V经Q1流入A点,一方面为电感L1充电,另一方面产生PH反馈。

3) UG= L(低电平),LG= H(高电平),Q1截止,Q2导通,电感L1自感产生反向电动势,其负极经Q2接地形成回路,放电为后级供电。

4) Q1、Q2轮流通断,产生一个稳定电压为内存供电,同时经R1、R2分压反馈到FB,与芯片内固有的基准电压作比较,误差大时,芯片对震荡器脉宽进行调节,修正误差,以得到稳定的VCC_DDR内存电压。

3 内存供电电路故障检测

SDRAM内存插槽、DDR_Ⅰ内存插槽、DDR_Ⅱ内存插槽和DDR_Ⅲ内存插槽的内存主供电是否正常,可通过万用表测量各插槽的测量脚进行判断。各插槽的测量脚见表2。

3.1调压式供电电路的故障检测点

调压式供电电路中,容易损坏的元器件是:场效应管、滤波电容、比较器芯片(LM358、LM393或LM324等)、稳压源TL431、分压电阻R2和R3、调整电阻R4等。

3.2开关电源式供电电路的故障检测点

开关电源式供电电路中,容易损坏的元器件有电源管理芯片、场效应管、滤波电容、限流电阻等。其中场效应管、滤波电容、限流电阻是否损坏判断方法参见上文。

电源管理芯片损坏后,其输出端无电压信号输出,将无法控制场效应管工作。判断电源管理芯片好坏的方法是:首先测量芯片的供电脚有无5V或12V电压,如有,测量芯片的输出脚有无电压信号,如果无,则可判断电源管理芯片损坏。

参考文献

[1]张军.主板维修技能实训[M].北京:科学出版社,2012.

[2]熊巧玲,张军.电脑硬件芯片级维修从入门到精通[M].北京:科学出版社,2010.

故障机制篇4

1基于日志中异常信息故障模式提取

1.1函数异常结构描述

通常入口函数表示某个功能操作开始,以入口函数为起点的调用链上的函数都是与入口函数对应功能操作相关,如果调用链上的函数执行异常,将导致该功能执行失败,即系统发生故障。通过分析函数调用链上抛出的异常信息,获取系统故障的根因。当程序故障被激活后,产生的差错可以有多种形式存在,如:返回码、共享变量、异常等等。在异常得到捕捉之后,程序以不同的方式告知用户错误的发生,如HTTP响应消息、日志等。

1.2异常特征信息与故障模式对应关系

故障模式与异常特征之间的关系:在本文中异常特征主要指的是异常和异常的具体描述信息,采用一个三元组FF表示FF =< E,D,O > 。E表示异常类型,D表示异常的详细信息,O表示激发异常的操作

每入口函数存在一个调用链,从代码结构而言,代码的重用性和可读性,调用链上函数可能只被一个入口函数调用,也可能被多个入口函数调用。当把函数中的一条异常和异常信息作为异常特征信息,此时异常特征信息与故障模式为多对多的关系,在系统诊断过程中获取到的异常特征信息难以确定故障模式。因此在函数中提取异常特征信息时加入功能操作字段,形成异常特征信息三元组FF,使得故障模式与异常特征的关系为一对多的关系,此时获取一条异常特征信息时就能确定一个故障模式。如Open Stack在创建虚拟机操作,一条故障模式为“由于无效请求创建虚拟机失败”,那么其异常特征为<由于输入参数不对创建虚拟机失败;由于网络的格式不对无效的请求;IP无法申请无效的请求>。

1.3异常特征信息的提取

程序中异常被抛出,如果异常所在函数存在捕捉对应异常机制,或者该函数调用链中函数中存在捕捉对应异常机制,那么该异常能够被捕捉。为了获取系统故障时的异常特征,通常采用故障注入的方法,加速系统的失效。在其发生故障时系统能够抛出异常,以及异常详细信息;因此,通过分析源代码,获取源代码中的抛出异常类型、异常描述信息、诱发异常的操作的对应关系,从而建立异常特征元组FF。获取系统异常特征信息的步骤:

Step1:获取故障模式库中某条故障模式j对应功能的入口函数fin。

Step2:获取入口函数fin调用的函数序列为 { fin,...,fi,...,fn}i ∈ N 。

Step3:获取每个函数中的抛出的异常以及抛出异常的原因描述

Step4:那么一个故障模式对应的异常特征集为FMin={ fein,...,fei,...,fen}i ∈ N 。

2实验分析

通过代码分析我们得出的结论为在Open Stack中,系统异常能够被捕获,那么被捕获的异常以及异常描述信息能够通过日志模块,写入到日中。为了验证基于异常提取异常特征的方法,能够覆盖所有由异常引发的故障。利用Under Stand代码分析工具提供的接口,分析Open Stack代码中是否所有的抛出的异常都能够被捕捉。

对于Open Stack而言,抛出异常的代码是以Raise开头,捕获异常的代码以except进行异常捕获。首先获取源代码中能够抛出异常点Elo cal=< Ec,Ei> ,Ec表示抛出异常类型,Ei表示抛出异常所在的函数位置,异常点组成的结合Eraise;然后获取源代码中所有except代码块所能捕获到的异常点的集合Eexcept;获取系统中没能捕捉到的异常集合Eno_exception= Eraise- Eexcept,获得的实验室数据如表1。对于异常处理结构性好的代码,几乎抛出的所有异常都能够被捕捉,从实验数据看Open Stack的异常处理几乎都能被捕捉。

由异常提取的异常特征信息的验证,采用故障注入的方法,抽取各个模块故障模式库中的故障模式,注入该故障模式所表示的故障,收集日志中的错误信息,查看错误信息是否对应该故障的异常特征。通常的日志字段都包括日志的时间、日志等级、日志信息的具体描述;系统故障信息通常能够在ER-ROORR等级的日志中找到。

以上为run_instance中的一段代码,该段代码中的异常类型Build Abort Exception,在该代码中对应的异常类型具体描述为变量msg对于的值。对于异常函数Build Abort Exception()或者异常函数Build Abort Exception(msg)获取函数中的参数作为异常的具体描述信息。据此从代码获取的错误行为特征为:

<run_instance,Build Abort Exception,Instancedisappeared during build>

对于该异常点而言,注入故障收集到的日志信息如图3所示:

从日志中获取的异常特征为<run_instance,Build Abort Ex-ception,Instance disappeared during build>,其结果与代码分析结果一致。系统故障诊断结果分析,以Open Stack创建虚拟机为入口函数,通过分析源代码,得到该入口函数调用链上的异常抛出点的个数为83个(其覆盖的功能模块主要为nova和key-stone模块)。通过故障注入实验,获取错误的日志信息,从日志信息中提取出相应的异常特征元组,与通过代码分析获取的特征元组一致。

3结束语

程序错误行为的分析可以指导软件开发人员如何准确地处理软件中可能发生的错误,辅助可靠性研究人员在软件差错注入过程中合理地生成差错集合。本文提出了一种基于异常代码结构的异常特征提取方法,对于开源的系统而言,可以通过分析源代码的方法提取系统的异常特征,减少提取故障模式的执行难度。

摘要：针对开源云平台系统,该文通过分析系统中的异常处理机制以及日志系统,提出了基于异常信息描述的故障模式提取方法;并过理论分析系统日志能够记录的异常信息特征;系统异常处理机制抛出的异常特征;并结合实验获取日志中能够记录所抛出异常信息的比例,以及提取的异常特征与故障模式的对应关系,从而提出一种基于日志中的异常描述信息,从而进行系统故障诊断。

故障机制篇5

随着我国科学技术的不断发展, 电能表更新的速度也越来越快, 电能表的功能也越来越全面, 反之, 其运行过程中发生的故障也呈现出多样化。为了能够从根本上将智能电能表的故障解决, 就必须对其产生的原因进行充分的了解, 并建立有效的运行管理机制, 以此来确保智能电能表的有效运行。

1 常见故障类分析

1.1外观常见故障

( 1) 按键卡死, 当电能表安装现场存在较大灰尘或化学粉尘时, 长期运行就会形成按键卡死, 这属于生产厂家设计问题。

( 2) 表尾盖不严、接线螺丝锈蚀, 当电能表安装现场潮湿或有化学气体时, 就会造成表尾螺丝锈蚀或腐蚀, 这属于生产厂家选材问题。

1.2 时钟电池常见故障

时钟电池 ( 以下称电池) 故障常见于欠压、无电。分为硬件故障、软件故障和制造工艺等故障。

( 1) 电池硬件故障。a.电池电路设计存在隐患, 造成电池反向充电, 尤其在高温情况下电池反向充电情况更严重。b.电池钝化。电池长期工作在微弱电流状态, 当输出较大电流时, 输出电压产生明显跌落。c.电池品质问题。电池电解质含有杂质、内部隔膜层受到污染等, 导致电池自放电过大, 长期工作后电池容量显著减低。d.电池品质问题。电池内部碳包损坏、焊点开路等。e.电池品质问题。密封性不良导致漏液。f.电池用于焊接固定的引脚过细或者引脚材料不够坚固。

( 2) 电池软件故障。在系统停电情况下, MCU主动唤醒频率过高、消耗功率过大, 导致电池容量早期消耗殆尽。

( 3) 电池制造工艺。电池虚焊导致开路。

1.3 继电器常见故障

继电器常见故障就是继电器不动作或动作不正确。分为以下几种类型故障:

( 1) 继电器硬件故障。a.继电器品质问题。触点金属连接片断、变形、行程不到位等。b.继电器品质问题。触点容量不符合要求, 在规定的负载容量情况下, 导致触点烧结、烧断等情况。c.继电器驱动电路驱动能力不够, 比如采用MCU的I/O结合光耦直接驱动继电器, 此时I/O的驱动电流达不到驱动目的情况。d.驱动电路元器件选型冗余度不够, 导致过应力损坏。e.继电器驱动电源负载能力不够, 特别是在规定的欠电压条件情况下, 电源负载能力大大减弱。f.电路设计时, 没有设计针对触点容量的保护电路。

( 2) 继电器软件故障。软件设计存在有Bug。

( 3) 继电器制造工艺故障。存在虚焊、短路等情况。

( 4) 其他。电平方式、脉冲方式参数配置错误, 负载容量超过继电器规定的容量, 导致继电器触点烧断、烧结、粘连等情况。

1.4 时钟故障

时钟故障常见于日期不准或时间不准。也分为硬件故障、软件故障和制造工艺等故障。

( 1) 时钟硬件故障。a.设计问题。电源设计不可靠, 导致RTC电路出现间歇断电。b.外部晶体出现停振。

( 2) 时钟软件故障。a.软件设计存在有Bug。b.外部晶体频偏校准参数不合理。c.温度补偿参数不合理。

( 3) 时钟制造工艺故障。a.存在虚焊、短路等情况。b.线路板不整洁、污染严重。特别是受潮后, 对晶体的正常工作有很大影响。

1.5 液晶显示故障

液晶显示故障一般表现为接通时, 液晶屏不显示或者液晶屏缺笔画、液晶屏淡以及液晶屏闪烁等现象。 ( 1) 电源变压器绕组断线或烧坏。 ( 2) 电池欠压。 ( 3) MCU相关管脚虚焊或连焊。 ( 4) MCU程序出现问题。当遇有雷电冲击或强电磁场干扰时, 会造成MUC程序紊乱或MUC本身损坏。 ( 5) 液晶显示屏处于高温、高湿环境中, 会损伤偏光片或蚀断电极。 ( 6) 液晶显示屏本身的质量问题。

1.6 通信故障

通信故障主要包括RS485故障和红外通信故障两种情况。

( 1) RS485故障。RS485辅助端子正负极接反、连焊、虚焊或RS485输出信道损坏。 ( 2) 红外通信故障。红外发射管装反、虚焊、损坏或红外接收、发射部分的电路不正常。通过以上故障分析可以看出, 造成智能电能表出现故障的原因多种多样, 原材料的品质, 元器件参数的合理设计, 生产加工环节, 环境对元器件的影响, 运输搬运过程中的碰撞挤压等都会造成故障出现。如何杜绝或者控制故障的比例, 其中智能电能表进入到电力部门后的有效运行管理机制将在整个智能电能表质量体系中起到非常重要的作用。

2 智能电能表有效的运行管理机制

我们需要从人员培训、加强入库检验、现场检测、故障环境模拟、故障模式信息化统计等多种手段入手, 收集相关可靠性数据并建立数据库, 对供应商进行考核或提出相关可靠性指标要求等方式, 筛选优质供应商, 淘汰劣质供货单位, 为用电单位提供优质服务与可靠保障。

2.1 加强对各环节技术人员培训, 不断提高业务技术水平

( 1) 对各类计量检定人员进行智能电能表全性能试验、样品比对、抽样验收试验、全检验收试验等技术方面的培训, 以及充分掌握智能电能表工作原理与构成、单元电路的组成及指标要求、相关规范的技术要求以及功能应用在电能表设计中的体现。准确识别电能表的主要部件, 特别是能对关键元器件有一定的认知、典型故障的判断与分析能力等, 以增强业务处理能力。 ( 2) 对于安装、用电检查、抄收人员则应进行智能电能表工作原理、安装工艺、安全作业、标准化作业、故障判断、服务行为规范等方面的培训, 特别是对广大农村电工, 基础知识相对薄弱, 相关培训尤为重要。

2.2 加强智能电能表各检测环节的管控

智能电能表从招标到验收过程中, 严格进行招标前全性能检测、供货前样品比对和全性能检测、到货后样品比对和抽样检测、到货后全检验收试验。对于全检验收合格率低于98.5%, 或在检测过程中发现有三只及以上样品存在因生产工艺、元器件等同一原因引起的质量隐患问题, 判为全检验收不合格, 对到货电能表进行批量退货处理。总之, 要严格把好智能电能表质量的第一道关卡, 确保每一只智能电能表均为合格产品。

2.3 加强智能电能表仓储、配送和运输环节的质量控制

在智能电能表仓储、配送和运输环节均应采取防受潮、防震动、防腐蚀、防电磁干扰等措施, 确保安装到客户的每一只智能电能表都是合格产品。

2.4 满足智能电能表的现场安装要求

智能电能表现场安装需要满足以下两个要求:安装地点要防潮、防雨、防晒、防尘、防化学腐蚀等措施;安装高度要适合, 不宜过高或过低, 以便用户插卡充值和查看电量。

2.5 按周期开展智能电能表现场检验

电能表现场检验是采用电能表现场校验仪, 测定电能表在工作条件下的工作误差, 检查电能表和互感器的接线是否正确并查看有无其他异常情况的过程, 或称之为实负荷检测。

根据DL/T448-2000《电能计量装置技术管理规程》的要求, 按用户电能计量装置类别所对应的时间周期适时进行现场检验。对安装在现场的电能表进行检验的项目有: ( 1) 外观检查; ( 2) 电能表接线检查; ( 3) 电压互感器二次回路压降误差; ( 4) 电能表实际负荷下的误差; ( 5) 核对计时误差; ( 6) 检查分时计度 ( 多费率) 电能表计度器读数的组合误差, 并填写好试验记录和结果, 同时对现场检验结果进行稳定性等技术指标的统计分析。

2.6 开展运行中智能电能表定期抽检工作

对于已投入现场运行的智能电能表, 按照类型、到货批次加大抽样比例, 抽样试验项目和试验方法严格按国家技术标准执行, 并采取相应的质量控制措施, 将智能电能表质量风险降至最低。

2.7 加强智能电能表质量体系建设和其他相关工作的精细化管控

( 1) 建立健全智能电能表质量管控的组织体系。将智能电能表管理涉及的计划、采购、检定、安装、调试、运行、监控、故障、分析等重点环节纳入管控工作, 分工明确、职责清晰、责任到位。 ( 2) 建立健全智能电能表质量管控的制度体系。规章制度覆盖智能电能表计划管理、检验测试、工艺检查、施工安装、运行维护、监控预警、故障调查处理、分析等方面, 定期检查制度执行情况, 确保质量管控的全过程闭环管理。 ( 3) 建立健全智能电能表质量指标评价体系。包括智能电能表招标前全性能检测指标、供货环节检测指标和运行环节评价指标。 ( 4) 加强业扩报装环节电能表配置的管控。在新报装或换装电能表业扩报装业务中, 应严格按照智能电能表和采集系统的技术规范和工艺标准进行设计、选型、审查、安装、验收, 确保电能计量装置配置合理、参数正确、运行可靠。 ( 5) 加强运行智能电能表质量监督检查的管控。结合现场抄表、用电检查、轮换抽检等工作, 巡视检查智能电能表运行状态, 充分利用用电信息采集系统的监控手段, 加强实时在线监控, 及时发现处理异常问题;充分利用采集系统开展电表异常、故障状况远程监测。对巡检、抽检中发现的故障智能电能表, 必须在24小时内更换, 立即排查故障原因并备案。 ( 6) 建立智能电能表质量预警机制。及时统计上报所发现的智能电能表质量缺陷、鉴定分析结果、已采取的处置措施和质量控制建议;及时统计分析智能电能表质量缺陷的外在表现、内在根源、影响深度, 并提出处置措施、控制重点、控制方法。 ( 7) 建立并严格落实科学的绩效考核机制。通过绩效考核机制, 可以提高工作人员的责任心, 能够有效避免因检定质量、用户超容量用电、表计配置不合理、运输不当、安装工艺差等人为因素引起的智能电能表故障情况的发生。

3 结束语

综上所述, 建立一个良好的智能电能表运行管理机制, 从而促进电能表制造产业整体技术水平的提高, 进而确保电能表的整体质量, 提高智能电能表的稳定性和可靠性。

摘要：随着智能电能表在我国近年的推广应用, 将资源达到最大化的利用效率, 给供、用双方带来了诸多益处。其性能的稳定性、准确性也倍受关注, 因此, 文章通过对智能电能表出现的故障进行分类并分析其原因, 同时提出有效的运行管理机制, 从而降低智能电能表现场运行故障, 提升运行水平, 将智能电能表的优势充分发挥出来。

关键词：智能电能表,故障,原因,运行管理机制

参考文献

[1]毛丽君.智能电能表检测故障[J].硅谷, 2011 (21) .

【故障机制】推荐阅读：

爬行故障07-05

试车故障07-15

故障事故07-16

整机故障07-19

复合故障07-22

相继故障05-09

故障研究05-12

怠速故障05-15