容错方案设计

2024-11-07

容错方案设计（共12篇）

容错方案设计篇1

在工业自动化、机器人系统、武器系统、航空和航天等领域中,为了提高系统的可靠性,双机容错技术得到了普遍的应用和发展。双机容错是由两套完全同构的计算机系统组成[1],作为双机容错系统的控制核心—容错控制器是实现双机故障诊断和仲裁切换的关键机构。本文提出并实现一种基于FPGA的容错控制器,它的功能根据所设计双机容错系统的应用特点,不但实现了双机容错系统中故障的检测和诊断,且能根据诊断结果作出故障处理的仲裁结果,使双机能够及时得到实时判断结果,完成双机容错系统的切换重构工作。该方案有效地结合了FPGA器件的优势及特点,将其引入高可靠性嵌入式系统应用领域,降低了成本,提高了系统的可靠性。

1 双机容错系统结构

本文所设计的FPGA容错控制器应用于如图1所示的双模冗余热备份容错计算机系统。该双机容错系统其应用功能是通过CAN总线接受上位机发送的数据,通过双机容错系统的计算机解算处理后再经过RS422总线下传给接受方设备。

工作原理:该系统由计算机A和计算机B组成主备机,由交叉数据通道实现双机间的通讯,由FP-GA实现的容错控制器完成双机容错系统的部分故障检测、诊断和仲裁切换的任务。另外,A机和B机各有独自的外围控制逻辑和外设,这样即不会引起系统资源的竞争,增加了整体系统的稳定性。双机上电后,首先进行A、B机硬件自检,自检通过后,默认A机作为主系统,接受数据并将此数据和此次接受任务的标志发送至交叉数据通道固定单元,等待双机同步,B机作为备份机同样接受数据并将此数据和此次接受任务的标志发送至交叉数据通道固定单元[2],等待双机同步,然后两机从交叉数据通道中取出任务标志和对方接受的数据进行同步和比较,然后分别执行相同数据的解析任务。将任务标志和计算结果又送至交叉数据通道,两机又通过任务标志和结果数据的比较完成数据发送数据任务的同步和输出数据的比较检测。在接受和主备发送数据的比较中,若比较一致,程序由A机输出,比对不一致程序转到各自自检程序,根据自检结果和主备机标志切换正常计算机作为系统输出,系统转为单机运行。

另外,容错控制器还要实时监测软硬件心跳状态是否正常,若某台主机出现故障,根据故障机是否为当班机,进行相应的容错处理,包括是否请求无故障机切换为当班机、是否复位故障机等处理过程。

2 容错控制器设计

为实现所描述双机容错系统的整体监控和备份功能,本文提出的基于FPGA的容错控制器结构如图2所示。容错控制器根据所接收到的状态信号,判断单机在系统中的地位,并给出相应的输出信号,容错控制器包括:软件心跳检测模块WTD、硬件心跳检测模块ALE_WTD和仲裁判决模块Arbiter。

2.1 两主机负责处理的信号[1]

因为两主机与容错控制器的连接工作机制完全相同,这里只介绍主机A处理的信号:(1)发送周期性的脉冲信号wdi1给WDT,表示主机A处于正常工作状态;(2)通过ALE自动发送既定的脉宽到ALE_WTD,表示主机ALE信号正常;(3)通过主机A的IO口发送主机目前的主备机标志、比较结果标志、自检结果标志到容错控制器仲裁判决模块,等待仲裁判决处理。(4)接收来自仲裁判决模块Arbiter的脉冲信号RESET,以使主机A复位重启恢复故障;(5)接收来自仲裁判决模块Arbiter的中断请求信号Switch1_INT,表示当主机B发生故障且主机B之前是当班机时,请求主机A机接管工作;(6)接收来自仲裁判决模块的脉冲信号state1,表示系统中对等机主机B的工作状态,为主机A是否进入单机运行态做准备。

2.2 软件心跳检测模块(WTD)

程序跑飞、程序死循环等是常出现的软件故障,本设计中在容错控制器采用看门狗技术来检测此故障。看门狗WTD接受来自主机A的IO口发送的周期性脉冲信号wdi1,该脉冲信号对WTD计数器清零。当下一个clk(WTD内部时钟)周期到来时,WDT计数器重新开始计数。如果WDT计数超过某个值(即主机A在规定的时间周期内没有发送wd1脉冲),则认为主机A发生故障,WDT将发送wdo1信号至仲裁判决模块等待仲裁判决处理。

2.3 硬件心跳检测模块(ALE_WTD)

由于51单片机的ALE引脚,无论单片机是否访问外存,ALE都能在一定时间内提供至少一个上升沿或下降沿[3]。如果ALE信号不正常,那么可以确定CPU一定是出现了永久故障。本文设计两个看门狗(ALE_WTD)监测主机的ALE信号,当两主机的ALE不正常引起硬件不能喂狗时,溢出信号(ALE_wdo1=‘1’或ALE_wdo2=‘1’)送至仲裁判决模块等待仲裁处理。这种通过硬件喂狗方式来检测CPU故障的方法既可以节省单片机有限的IO口资源又不用设计专门的喂狗程序。

2.4 仲裁判决模块(Arbiter)

仲裁判决模块根据容错信号包括双机发出的自检信号(self_chk1和self_chk2)、数据一致比较结果信号(diff_chk1和diff_chk2)和软硬件心跳检测模块检测到的结果信号(wdo1和wdo2、ALE_wdo1和ALE_wdo2)这四组检测结果信号和双机发出的主备机状态标志(flag1和flag2),完成对双机状态的判断,最后给出切换请求、复位和对等机状态信号等系统重构信号。图3是主机A被容错控制器仲裁判断后的流程图。

由图3可以看出,四种输入信号self_chk1、diff_chk1、wdi1、ALE1中的任何一个被检测到不正常时,被判断为该机不正常,然后根据该机目前是否为主机(flag1=‘1’),若为主机,则申请切换B机为当班机(置switch2_INT=‘1’)并通知对B机对等机不正常(置state2=‘1’),同时复位A机。主机B的仲裁判决过程同主机A。通过在FPGA中利用硬件描述语言的进程并行模块语句和并行语句特点,实现此模块是很有效的方法。

3 系统实现

根据以上介绍,本文提出的容错控制器是在FPGA芯片上实现的,利用QuartusⅡ8.0,设计如图4所示的VHDL语言编译综合后的RTL级视图。WTD1和WTD2模块分别集成了对主机A和主机B的软硬心跳检测的看门狗模块,Abiter模块即为前面提到仲裁判决模块。这里为了满足系统中CPU及总线控制器等电路的复位信号要求至少200 ms的保持时间,增加了一个reset模块用它来专门处理保持200 ms的复位信号。在程序设计中考虑到输入异步产生的毛刺现象,设计中增加了clk信号作为全局时钟同步信号,充分解决了毛刺问题。[4]

图4中WTD1和WTD2功能相同,feed和ALE信号是被检测的两主机的喂狗信号和ALE信号,经过WTD1的看门狗监测后输出故障监测结果信号至Arbitry模块,Arbitry模块根据两主机的主备机标志信号flag1和flag2、自检信号self_chk1和self_chk2、比较信号diff_chk1和diff_chk2、由看门狗监测到的ALE错误信号CPU1_ERROR和CPU2_ER-ROR、和喂狗失败信号wdo1和wdo2判断仲裁后向两主机输出对等机状态信号state1和state2、切换请求中断信号switch1_INT、switch2_INT和复位信号reset1和reset2。reset1和reset2又经过Reset模块处理输出既定时间的复位信号至两主机系统的各个电路。

4 结果与讨论

本设计选用Altera公司的CycloneⅡ系列型号为EP2C8Q208C8的FPGA芯片,在Windows XP操作系统环境下使用该公司的开发软件Quartus II8.0作为EDA设计工具设计实现。时序仿真波形如图5所示。

由图5中看出,两主机输入的四组检测信号通过容错控制器的故障检测、诊断以及仲裁判断输出复位、切换请求等系统重构信号。例如图5中时间棒(Time Bar)所示:

当时间棒处于+221.88 ns时,容错控制器的WTD看门狗检测到输入信号wdi1由于出现高电平脉冲时间超过既定时间。在时间棒所指处出现“狗咬”,容错控制器根据此时的flag1为高电平,flag2为低电平,确定进行双机切换,置switch2_INT高电平,置switch1_INT为低电平,表示要求主机2接管当班机任务;state1置高电平,state2置为低电平,表示通知主机B对等机(A机)不正常;并置reset1为高电平十个脉冲信号,表示对主机A复位保持一定时间。

其他三个时间棒所指点容错处理结果,由图5容易看出结果也满足设计要求。通过以上时序分析,本文设计的容错控制器满足双机容错系统的容错控制功能的要求,引入了clk全局时钟后信号未出现毛刺,满足系统性能需求。

5 总结

该容错控制器应用于某设备双机容错系统上进行验证,满足系统需求。由于该双机容错系统对数据处理的实时要求比较高,采用本文设计的容错控制器具有的实时监测,实时仲裁等特点,保证了双机容错系统切换时的准连续性;另外,通过FPGA硬件实现仲裁检测任务减轻了双机容错系统软件任务的负担,保证了容错系统不会由于采用复杂的软件实现仲裁判决带来的不可靠性影响。

摘要：根据双机容错系统故障检测和诊断、仲裁技术的常用方案及特点,结合某在研双机容错系统,提出了一种基于FPGA容错控制器的设计方案。仲裁模块作为容错控制器的核心模块,可根据双机工作的监测信号负责完成主备机切换功能。为了实现软硬件心跳故障监控功能,在FPGA内嵌了WTD模块。同时,全局时钟引用于各个模块后,良好消除了输出信号的毛刺问题。实验结果表明,该设计方案满足系统要求,可靠性较好。

关键词：双模容错计算机,FPGA,故障检测与诊断,仲裁

参考文献

[1]李迅,李洪峻,刘庆敖.双模容错计算机的设计与实现.计算机工程,2008;9(17):240—241

[2]朱朝晖,张崇峰,陈卫东.空间双机容错计算机系统研究.上海航天,2004;(6):18—23

[3]王幸之,忘雷.单片机抗干扰应用系统抗干扰技术.北京:北京航空航天大学出版社,2000

[4]张志杰,王翔.如何解决FPGA电路设计中的毛刺问题.世界电子元器件,2004;3(11):68272—68275

容错方案设计篇2

飞机操纵面损伤的自适应容错控制设计

针对飞控系统实时控制和高可靠性的`要求,提出一种飞控系统多操纵面损伤的在线容错控制算法.首先建立包含各种常见故障的操纵面参数仿真模型和故障注入仿真机制,其次由于故障的随机性,设计多个并行的在线观测器,对应于每个观测器模型建立一个基于特征结构配置的控制器.最后根据多个观测器和相应的控制器可完成系统在线故障隔离与重构.应用某型飞机横侧向控制系统进行仿真,得到了预期的效果.此方法设计简单合理,适于工程应用.

作者：刘小雄章卫国李广文 LIU Xiao-xiong ZHANG Wei-guo LI Guang-wen 作者单位：西北工业大学,自动化学院,陕西,西安,710072刊名：测控技术 ISTIC PKU英文刊名：MEASUREMENT & CONTROL TECHNOLOGY年，卷(期)：26(8)分类号：V249关键词：飞行控制系统故障隔离与重构特征结构配置

拟误之趣，容错之阈篇3

关键词：言语交际容错机制言语交际容错阈编码拟误语言文字规范化网络语言

一、引言

最近在网上流行起这样一群词句：郁闷、话说、沙发、板砖、东东、版猪、斑竹、竹叶、果酱、水饺、有木有、你妈妈喊你回家吃饭、哥只是个传说、这事不能细说、……做了一个艰难的决定，这种词语被统称为“编码拟误”现象。这种“编码拟误”现象，也可统称为超常语言组合——有超常语形语义组合，也有超常语法组合形式，它们在语义上或在语法上有意识地偏离主流语言常规，但在语用上，却往往具有某种特殊的表达效果。

二、编码拟误现象分类

编码拟误模拟的错误有不同类别，常见的有五种，一是模拟常见打字错误；二是模拟不规范语法现象；三是模拟方言；四是模拟童语；五是模拟外语风格。

1 模拟常见打字错误

由于电脑输入法对重码优先设置的原因，使得有些词语经常被误选，当它们成为使用这种输入法的打字的网友们普遍性的常见的打字错误后，便被人们有意识地编码拟误。如：

★网友A：嘎嘎！斑竹锅锅真油墨，笑四偶了！（咯咯！版主哥哥真幽默，笑死我了！）

★网友B：荷荷，果酱乐！我要水饺乐，先下乐，88！（呵呵，过奖了！我要睡觉了，先下了，拜拜！）

2 模拟不规范语法现象

网络文字交流中，有些网友起初也许是因为语文水平不高，会出现一些用词不当或搭配不当之类的语法错误，有人大概觉得有趣而模仿打趣他，久而久之便流传开了。例如：

★强帖啊～！观点很独特的说。——抢个沙发先！（写得很棒的帖子啊！观点很独特——先抢个沙。）

3 模拟方言

有些方言由于在电影电视或春晚小品节目中经常使用，逐渐成为大家熟悉的类似强势方言的地位，在网络打字交流中，便有人模仿方言语音或方言词汇，来自我调侃。比如：

★网友A：今天为什么米有人唱歌？也米有人上管？（今天为什么没有人唱歌？也没有人上管？）

★网友B：偶母鸡拉！（我不知道呀！）

4 模拟童语

网络使人变得年轻。在网络交流中，模拟童语的现象也非常普遍，因此产生了一些像叠音一类的“童化”的词语和称呼方式，成为打趣对方或自我调侃的特殊语词。比如：

★介系什摸东东呀？让偶看一下下。哦，系不系帅锅的片片呀？好漂漂哦！（这是什么东西呀？让我看一下。哦，是不是帅哥的照片呀？好漂亮哦！）

5 模拟外语风格

网络交流中有时会夹杂借用一些外语词汇或语法，这种不中不西的表达有时是因外语输入更方便快捷，同时具有特别的风味。比如：

★今天是你生日哦！猪你生日快乐！还配波斯得吐油！（今天是你生日哦，祝你生日快乐！Happy birthday to you！）

除了以上常见的五种情况外，还有通过标点符号超常使用来模拟口语效果的一类。比如：

★这是神马世道！道、道、道、～……～……！（这是什么世道！……回声）

★%#Y%～★★##……无语。（表示不知所云的符号……不知说什么好。）

三、编码拟误的语用价值

网络文字交流中的“编码拟误”现象，是具有一定的语用价值的修辞现象，能收到特殊的修辞表达效果。如语言陌生化效果、语言谐趣化效果、语言个性化效果。而这些特殊表达效果也正是某些网络语能流行的主要原因之一。

1 语言陌生化效果

求新求异是语言表达中的普遍心理，网络交流编码拟误，在很大程度上是为了用超常的语言组合来达到一种新颖别致的陌生化效果，满足自己的这种心理需求。如：用“貌似”来取代“好像”；用“沙发”来比喻第一个回帖；用“板砖”来代指批评主帖的意见等等，都比主流语言固有的词语更加生动活泼、新颖别致。

2 语言谐趣化效果

网络交流大多数情况下是一种非正式的书面交流，网友之间熟悉之后，多半会以轻松随意的方式追求一种愉快的氛围，或相互打趣，或自我调侃。于是，便产生了许多巧妙的谐音词。如：大片子（大骗子）、跑牛（泡妞）、新蚊连啵（新闻联播）、内牛满面（泪流满面）、围脖（微博）、果酱（过奖）、菌男（俊男）、霉女（美女）、帅哥（帅锅）。

还有故意用他人出现过的用词不当或语法不当的笑料，来调节气氛的。如前面举过的“严重同意楼上的！再如：“以迅雷不及掩耳盗铃之势……”

这些富有幽默感的词语运用于聊天中，增加了语言的趣味和表现力。而且这些语词大都是谐音拟误的词语，一般都具有“褒词贬化”或“雅词俗化”的共性。

3 语言个性化效果

网络交流虽然大多是隔着屏幕的虚拟交往，但同样有每个人各自不同性格、不同文化素养的表现需要。比如，聊天时同样是笑，不同的人会打出不同的字来表示自己在笑，表现出不同的个性特点：

“哈哈”：率真或爽朗；

“呵呵”：文雅或稳重；

“荷荷”，容易让人联想到“荷花”，故适合淑女们用；

“嘎嘎”：坏笑，另也有清脆悦耳的拟音效果，即文学作品中说的“银铃般的笑声”；

“嘻嘻”：调皮而可爱；

四、编码拟误与言语交际容错阈

所谓言语交际容错阈，是指在言语交际中，当编码语义所指错误时，解码能够纠错，其纠错的限度或范围，即容错阈。

编码拟误的前提，是所拟之误都是显而易见之误，至少是在解码者容错阈之内的“误”，这样，解码者才知道编码者是在拟误，而不是失误。因此，用笔者的“言语交际容错阈”理论来说，编码拟误之误，必须是已经进入集体容错阈的语误，编码拟误的使用，其实是建立在拟误材料已进入集体容错阈的基础之上的，如果违反这个原则，则将成为真正的语误，或不为人解，或为人误解。

前文所举的用例，大多数在特定的网络语境下，都具备言语交际容错的条件，网友们第一次看到时，通过上下文的分析，一般都能猜解出其拟误之意；而少数用例虽然初次接触可能会有些费解，但至少能让人意识到它是一种超常语言组合，因此，解码者的容错机制会处于被激活状态，不会等闲视之，最终经过分析推理或查问，亦能得出它的正解含义。

当然，也有些网络用语来历过于复杂，其语义只有骨灰级的网民才懂，而且知其然还不一定知其所以然，例如“的是”（或作“底是”“滴是”），笔者也是分析加咨询，才明白大概是“的确是”的缩略。

实际上，在网络语的发展过程中，不乏昙花一现之例，而究其原因，之所以会被自然淘汰，一般都是因其最终未能进入集体容错阈，而失去生存的基础。

任意平面交换网络容错设计篇4

1 交换网络架构的容错设计

组成各种交换网络的交换元, 由于交换网络架构及连线算法的不同, 可能造成某些特定交换元使用频率偏高, 这些使用频率较高的交换元, 其寿命相对较短, 交换网络架构设计上皆尽可能精简交换元数目, 以求得在硬件花费上的最佳表现, 若因些许交换元损坏而丧失交换网络的交换能力与其原本的特性 (无阻塞交换网络不在具有无阻塞特性) , 则会造成交换网络的维护更加困难, 成本愈高, 是如何设计容错架构的问题。

2 交换网络架构容错设计

以Spanke-Benes Network为列, Spanke-Benes Network属于平面交换网路, 所有平面交换网路皆可以任意平面交换网络UPSN表示。当SpankeB e n e s N e t w o r k其中一个交换元损坏时, 则会丧失原本具有的无阻塞交换网络的特性, 我们提出一种称为Fault Tolerant Spanke-Benes Network, 简称FT-Spanke-Benes, 对于一n输入的Spanke-Benes Network, 只需将n-1个额外的交换元放置到特定位置, 即可针对此交换网络中任何一个交换元损坏时, 仍维持Spanke-Benes Network无阻塞交换的特性。

图1 (左) 所示为一6输入的SpankeBenes Network, 可以UPSN的1, 3, 5, 4, 2表示, 图1 (右) 则为其容错设计, 红色部分为额外放置的备用交换元。

我们将说明当Spanke-Benes Network中有任何一个交换元损坏时, 如何选取备用交换元来进行其架构的重组。例如当ROW3有任一交换元损坏 (BAD) 时, 我们将整条ROW3的交换元全部设定为不动作 (Straight) , 即状态0, 等同于移除了ROW3所有交换元, 此时可以发现, 当有任何一个ROW的交换元个数比ROW3小时, 则必须将备用交换元取出使用 (包括交换元个数为0的ROW5) 。而ROW3的交换元个数为4, 可知ROW0、ROW1、ROW4及ROW5须将备用交换元取出使用。所以最后的重组结果为 (2, 4, 5, 3, 1) , 仍是一无阻塞交换网路。

我们以上述的范例可以发现以下规则:当交换元损坏时, 损坏的ROW中有i个交换元时, 则需取出i个额外备用交换元使用, 才能使其形成符合UPSN组成规则的无阻塞交换网络。

3 容错设计的分析

在一n输入的UPSN中, 当有一交换元损坏时, 则将此交换元所在的Row所有交换元设为状态0, 亦即若有多个交换元损坏时, 若其都在同一层Row中, 则最大可容许n-1个交换元损坏, 最少则为1个。

于容错架构设计中, 我们也可知, 于不同的UPSN架构中, 所需的备用交换元数量皆不相同, 对于一个n输入输出的UPSN, 其最佳的情况, 例如于TriangleType架构及Spanke-Benes Network架构下, 其所需备用交换元个数仅需要n-1个, 意即每层Row仅需准备一备用交换元, 最差的情况则时交换元个数恰好为最多及第二多, 其所需备用交换元个数为2n-4, 相当于需为每层Row准备两个备用交换元。

容错设计的备用交换元个数与交换元总数的比率图, 蓝色部分为备用交换元个数除以交换元总数的比率, 橘色为最佳备用交换元个数除以总数, 而灰色则为最差交换元个数除以总数, 横轴为交换网络输入数, 介于2~1000, 纵轴为其比率, 由此图可以知道, 当一UPSN架构的输入输出数n愈大时, 其所需的备用交换元个数愈趋近于最差, 然而, 其备用交换元个数与交换元总个数12相比, 其级数上明显较少。

结语

连线建立算法是以C++程序语言所撰写, 目的在于验证此连线算法的正确性, 用户可以任意决定UPSN的输入数、交换元放置方式以及目的端所要求的输出端, 或者由程序自行乱数产生, 程序有两种结束方式, 其一为当有输入端经由Right-to-Left连线建力算法建立连线后, 其到达的目的地为错误的输出端, 此时可以知道此种算法有错误, 程序将会结束, 其二为所有连线皆建立完毕且所有输入端皆到达正确的输出端, 代表此次UPSN, Right-to-Left连线建立算法为正确, 程序将会结束。

摘要：交换网络 (Switching Network) 被广泛应用在计算器通讯、平行处理、阶层交换及积体电路绕线等领域中。在各领域之间会因为性质及对象的不同, 对于交换网络的效能亦会有所不同的要求, 为使系统提高效能、增加交换能力以及减少交换的时间, 一般采用无阻塞交换网络 (Non-Blocking Switching Network) , 然而, 交换能力愈好往往代表其须使用数量较多的交换元 (Switch Element) 以及采用较复杂的连线架构, 此举却会使得交换网络的成本增加。

关键词：任意平面,交换网络,容错设计

参考文献

[1]富弘毅, 杨学军.大规模并行计算机系统硬件故障容错技术综述[J].计算机工程与科学, 2010 (10) .

容错方案设计篇5

水下无人潜航器航向H∞鲁棒容错控制器设计

In order to improve the security and reliability for autonomous underwater vehicle (AUV) navigation, an H∞ robust fault-tolerant controller was designed after analyzing variations in state-feedback gain. Operating conditions and the design method were then analyzed so that the control problem could be expressed as a mathematical optimization problem. This permitted the use of linear matrix inequalities (LMI) to solve for the H∞ controller for the system. When considering different actuator failures, these conditions were then also mathematically expressed, allowing the H∞ robust controller to solve for these events and thus be fault-tolerant. Finally, simulation results showed that the H∞, robust fault-tolerant controller could provide precise AUV navigation control with strong robustness.

作者：程相勤曲镜圆严浙平边信黔 Xiang-qin Cheng Jing-yuan Qu Zhe-ping Yan Xin-qian Bian 作者单位：刊名：船舶与海洋工程学报（英文版）英文刊名：JOURNAL OF MARINE SCIENCE AND APPLICATION 年，卷(期)： 9(1) 分类号：U6 关键词：AUV navigation control robust H∞ fault-tolerant control gain variations LMI

创新试错容错纠错机制篇6

解决问题的方向很明确，关键是如何落实。2016年经济工作的五大重点任务是在着力推进供给侧结构性改革的指导思想下实施去产能、去库存、去杠杆、降成本、补短板。完成此五大重点任务，关键之处是要调动各方面积极性，特别是各级领导干部和市场主体的积极性，协力同心，勇于面对各种困难和挑战。尤其是要正确认识当前的供给侧结构性改革面临产能结构性过剩和流动性结构性过剩之交织错叠的局面，以及由此而带来的改革之艰巨性、复杂性对各级领导干部之严峻挑战。

所谓产能结构性过剩，是指一方面以钢铁和煤炭两个行业为代表的产能严重过剩。但是，我们在钢铁产量严重过剩的情况下，一些特殊品类的高质量钢材仍然需要进口。正如李克强总理最近在山西调研时所说，圆珠笔头上的“圆珠”，目前仍然需要进口。这种产能的结构性过剩本质上是既往粗犷式增长方式的必然后果，必须着眼于经济发展方式的转变来彻底改变此种局面，否则，一旦国际国内形势稍有好转，一些不符合国家产业政策的低端产业仍然会蜂拥而起。

实体产能的结构性过剩，反映在金融体系中，则是流动性的结构性过剩。所谓流动性的结构性过剩，是指一方面金融体系流动性总量过剩，一方面结构性短缺。总量过剩是指商业银行在中央银行存放的存款准备金数量总量很高，实际存款准备金率也很高，银行体系的流动性供给大于流动性需求。结构短缺是指，小型银行的流动性是短缺的，需要向中央银行或其他商业银行融入资金。由此导致信贷资源相对集中，有国资背景的企业拥有信用保障的先天优势，而绝大部分民营中小企业则处于弱势，它们从银行借贷融资过程中需要提供抵押、担保等增信机制，财务成本、时间成本也较高。

在这样一个产能结构性过剩与流动性结构性过剩交织叠加的大背景下，实施全面深化改革，没有体制机制的全面创新，将步履维艰。“五大重点任务”的具体内容非常多，但无论是处置“僵尸企业”、降低企业成本、化解房地产库存、提升有效供给还是防范和化解金融风险，解决的根本办法都得依靠改革创新。只有进行顶层设计创新、体制机制创新，不失时机进行技术创新，才可能有效推动此次重大的结构性改革。特别是要从创新试错、容错、纠错的机制出发，为改革创新保驾护航。

试错，就是要允许创新中出现风险和失败。在提升国家治理体系和治理能力现代化的历史进程中，许多事情没有先例可循，只能是摸着石头过河，不可能一帆风顺，肯定会出现这样那样的问题。这种状况之下，必须有一个允许创新的环境和机制，让各级领导干部在全面深化改革的过程中，不因为怕犯错误而出现各种懒政怠政。现在在一些领导干部中出现了不干事怕干事的错误思想，究其根源，就是怕犯错误。改革过程中，新事物新现象层出不穷，应对新问题新挑战，就需要试错机制。

容错，就是要允许在试错的过程中出现一定的经济社会风险之后，启动相应的程序，将这种经济社会风险控制在合理的范围，对相应的责任人实施豁免。当然，容错的前提是法治，即改革中的试错应是在一定的法律法规和制度框架范围内的试错，而非违法违规式的试错。另外，容错机制的设计不仅仅是经济社会中如何防范风险的技术问题，也是一个文化问题，即要在全社会形成一种容错的文化氛围，这是鼓励各级领导干部创新经济社会管理模式和激励大众创业万众创新所必需的。

纠错，就是在风险发生之后，能够有一种机制和程序自动启动，对产生风险的源头、过程及后果进行科学评估，找出原因，修正体制机制设计，及时引导创新方向，消除路径依赖，防止出现棘轮效应。完善的纠错机制是我们始终保持正确改革方向的重要前提，也是我们始终保持战略定力的基础。纠错机制的设计和完善不仅依赖于前瞻性的顶层设计，更依赖于地方政府和市场主体、社会主体的勇于探索、互动博弈。

容错方案设计篇7

目前,并行程序的容错通常是基于检查点技术,再加入故障探测、处理以及自动恢复等辅助功能而形成的完整容错机制,在全局一致性状态下将进程的运行状态进行保存,当程序运行出现故障时,利用保存的进程状态对出错进程进行恢复,使计算任务从检查点处恢复执行,以减少计算损失,提高程序运行的可靠性和可用性。

1 容错相关内容

1.1 检查点技术

检查点技术[3]是指在程序运行时选择适当的时刻设置检查点,进行检查点操作,保存各个进程的运行状态到存储器中,系统如果在随后的运行过程中发生故障,所有进程停止计算卷回到上一次最近的检查点处,利用检查点处保存的正确状态去恢复出错的进程,从该检查点处重新计算。其过程如图1所示,这样可以避免由于故障而导致程序从头重新执行,因而能有效地减少计算损失。

在设置检查点时要保证所有进程处于全局一致性状态[4],所谓全局一致性状态,就是一个并行程序在无错执行期间所有进程的某种状态集合,当某个进程的状态表现为发送了一条消息时,在相对的另一个进程状态必须反映为接收该消息。为了发生故障时正确地卷回恢复,设置检查点时必须保证记录的状态是所有进程处在全局一致性状态下,避免产生多米诺效应。

如图2所示,黑色方块代表各个进程独立设置的检查点,当进程P2发出消息m7后发生故障,则卷回到检查点C处,卷回过程中P2取消发送m7,因此P1必须回退到检查点B以取消对m7的接收。同理P1发送的消息m6无效,进程P0卷回到检查点A处,依次类推,P1卷回到D处,导致P1卷回到E处,P0卷回到F处,最后所有进程又卷回到起点,重新开始计算所有任务,这种现象称为多米诺效应[5]。

1.2 故障

一个系统是容错的[6],是指并行程序在发生逻辑故障的情况下仍然能够正确地运行,故障模型[7]一般分为两类:Byzatine故障模型和Fail-stop故障模型。本文针对Fail-stop故障模型进行研究,可描述为并行计算中进程的挂起或崩溃情况,是并行计算领域常见的硬件故障模型。fail-stop故障可分为节点失效故障和进程失效故障两大类。节点失效故障一旦发生,进程执行中断不对任何请求做出响应,比如进程崩溃故障、系统掉电故障等;而进程失效故障是指某个进程异常退出,其它进程或运行环境无法感知,并行程序成为悬空程序。两种情况的发生都会导致并行程序计算失败,因此,容错系统应及时检测出出错的故障类型,以便系统进行卷回恢复处理。

1.3 卷回恢复

卷回恢复技术[8]把一个并行系统看作是一个应用进程的集合,各进程相互之间通过网络通讯。在进程无错执行到检查点处将进程的运行状态保存到稳定存储器中来实现容错,当出现错误时,一个出错进程可从检查点处所保存的一个状态中进行重启恢复,这样就可以尽量减少计算的损失。在卷回恢复过程中,可以通过进程迁移来实现,将在出错进程上执行的任务迁移到另外一个进程上,执行同样的计算得到结果。还可以重构并行环境,发生故障后,所有进程卷回到上一次最近的检查点处,利用保存的进程状态重构并行环境,重新分配任务进行计算。本文研究的容错系统采用后一种方法,将出错进程剔除,剩余节点机重构并行环境,实现负载平衡重新执行计算任务。

2 容错系统的设计

本MPI并行程序的容错系统可分为三个模块:用户界面模块、总控模块和检测模块。用户界面模块:是容错系统和用户的通讯接口,用户在界面上完成所有准备工作,然后启动容错系统运行并行程序,并且在计算的过程中,系统运行状态会输出显示在用户界面上,方便用户了解各个节点机的状况;总控模块:掌握整个系统的运行过程,系统初始化、调用执行并行程序、负责检查点操作、卷回恢复处理,以及协调检测模块与总控模块的配合;检测模块:监听各个进程运行状况,一旦发现某个进程发生故障则向总控模块报告。

本容错系统的模块结构图,如图3所示。

2.1 检查点的生成

本文针对MPI并行程序而设计的容错系统,设计的出发点是在容错系统上调用并行程序,然后启动后台并行环境执行并行计算。用户必须将并行程序进行粒度划分,使得每一个粒度成为一个.exe的可执行程序,并将所有的.exe可执行程序交给容错系统。用户可以根据MPI的特点以及需要自由地对并行程序进行粒度划分,并规定.exe可执行程序被容错系统调用的顺序。

容错系统通过依次调用所有粒度的.exe可执行程序完成计算任务,将粒度连接点默认为检查点,作为卷回恢复的参考点,在每个检查点处保存进程的运行状态,利用这些状态去恢复出错的故障。此检查点方法可以避免产生多米诺效应,如图4所示,当进程P1或是P2发生故障时,所有进程停止计算任务,卷回到上一次最近的检查点B或是C处,由主进程P0根据故障类型对出错进程进行恢复,重新执行计算任务。

2.2 用户界面模块

用户界面是用户与程序交互的窗口,比较直观,方便用户与容错系统的交流,在界面上用户进行相应的操作,完成所有准备工作,然后启动系统开始运行并行程序,在计算的过程中各个节点机的运行情况会输出显示在用户界面上,方便用户了解各个节点机的状况。用户的准备工作如下:

1)依次保存要运行的.exe可执行程序;

2)存储机器信息文件,用于判断可用于并行计算的节点机以及故障检测的依据;

3)登记用户名和密码,用于并行计算的节点机的用户名和密码。

在容错系统界面上操作以上三个步骤,即可启动系统执行并行计算。

2.3 总控模块

总控模块是容错系统的核心,由主进程调用执行,主要包括三个部分的内容,系统初始化、检查点操作以及卷回恢复处理,系统功能示意图如图5所示。

1)系统初始化。主进程进行初始化工作,获得使用的机器信息和初始化各类系统资源,系统将初始化设定为第一个检查点,在此处保存所有进程运行状态,即得到本局域网中可用于并行计算的所有节点机,并将相关的信息(即可计算节点机的机器名和IP地址)保存在本地磁盘上的检查点文件中,这些信息用于总控模块给符合条件的节点机分配任务执行.exe可执行程序,同时这些信息也是检测模块执行的原始数据。

2)检查点操作。当系统执行到检查点处主进程调用总控模块进行一次检查点操作,任务是保存此时进程的运行状态到本地磁盘上的检查点文件中,用于执行下一个.exe可执行程序为各个进程分配任务以及发生故障时进行卷回恢复处理的依据。进程的运行状态包括节点机的机器名和IP地址,执行并行计算时将任务平均分配给这些机器名对应的节点机,在这些节点机上分别启动一个进程执行并行计算的任务,IP地址用于检测模块监听进程时判断参与计算的进程是否正常运行。

3)卷回恢复。当参与计算的某一节点机上的进程发生故障时,总控模块执行卷回恢复任务,所有进程停止一切计算任务卷回到上一次检查点处,主进程读取该检查点处的检查点文件内容,得到所有符合运行条件的进程,根据所发生的故障类型进行恢复处理,如图4所示,当发生进程失效故障时,重新启动所有进程再一次进行相同的计算任务,相应的,当发生节点机失效故障时,主进程去掉出错进程,为检查点文件中保存的其他剩余进程重新分配任务,然后进行相同的计算。

2.4 检测模块

检测故障是实现并行程序容错的重要环节之一,保证实现容错功能的先决条件,探知发生故障及其类型并交由总控模块判断进行哪种处理。检测模块由守护进程来实现,周期性地检测进程运行状况是否良好,如发生故障及时通知主进程的总控模块。

利用java提供的异常(Exception)处理实现故障检测的功能。除了标准异常,根据容错功能的需要扩展java.lang.Exception类来实现特定的异常,如在表达故障类型时事先定义每种故障发生对应的异常,将某节点机网络不在线定义为节点失效故障,MPI并行环境的wmpiconfig.exe进程不在线定义为进程失效故障。当抛出异常时总控模块得知发生故障,提供了一种在并行程序容错中实现错误捕捉的机制。

3 系统测试

以基于MPI的P-Q法潮流并行程序为测试用例,验证容错系统的有效性。此并行程序被划分为四个粒度,容错系统依次调用四个粒度的.exe可执行程序。实验方法:在执行计算的过程中断开一台用于并行计算的节点机的网络连接制造节点机失效故障,另一种方法是手动杀死一台节点机上的MPI进程制造进程失效故障。测试结果如表1所示。

实验结果表明,本容错系统能够检测出并行程序计算过程中发生的节点机失效故障和进程失效故障,并且能够对故障进行相应的处理,最终得到并行计算的结果,实现了一定范围内的容错功能。

4 总结

本文将容错技术应用到并行计算中,在不修改原并行程序代码的情况下设计出一个容错系统,利用守护进程实现故障的检测及时发现故障,并结合检查点/卷回恢复技术对出错的进程进行恢复,为并行计算的过程提供保障。本文设计的容错系统实现了对除主机之外的其他节点机故障的恢复,一旦主进程发生故障,则所有计算都白费。本文下一步的研究工作是解决此问题,可以将生成的检查点文件进行备份,保存在另外一台计算节点机上,主机发生故障后将此节点机上的进程转为主进程,负责重构并行环境和启动并行程序重新计算。

摘要：为了确保并行程序能够在并行环境下准确地运行,须提高系统的可靠性,将容错技术应用到并行计算中。该文针对MPI并行程序提出一种容错系统的设计方法,采用检查点/卷回恢复技术、并添加故障检测功能,能够有效地处理节点失效故障和进程失效故障,在一定范围内实现容错,为MPI环境下进行大规模计算提供一个可使用的应用模型。

关键词：MPI并行程序,容错,检查点/卷回恢复,故障检测

参考文献

[1]任波,王乘.MPI集群通信性能分析[J].计算机工程,2004,30(11):71-73.

[2]崔丽青,徐炜民.MPI容错问题的研究及实现[J].计算机应用,2003,23(12):236-238.

[3]周恩强,卢宇彤,沈志宇.一个适合大规模集群并行计算的检查点系统[J].计算机研究与发展,2005,42(6):987-992.

[4]万国伟.消息传递系统容错技术研究[D].长沙:国防科学技术大学研究生院,2006:15-21.

[5]薛瑞尼.面向集群系统的MPI并行程序容错技术研究[D].北京:清华大学,2005:12-23.

[6]丁俊,童维勤.群机系统的容错和恢复[J].计算机应用,2001,21(06):90-92.

[7]孙峻朝,王建莹,杨孝宗.故障和容错机制的层次模型[J].计算机工程与应用,1999(10):5-7.

容错方案设计篇8

硬件容错技术和软件容错技术经常被结合使用来提高系统的可靠性。目前容错技术主要是基于解析模型和智能容错控制方法, 但是由于实际系统建模困难等因素, 导致容错控制理论主要应用于重大科研项目中, 而一般性的自动化过程使用较少。

在研究珍珠岩混料系统工艺基础时, 引入容错技术以期提高系统的可靠性;同时兼顾企业投资成本, 采用对故障影响程度进行评估的方式对关键工艺进行硬件冗余。在设计容错控制器时, 采用三级故障检测与分离的方法来快速、可靠地定位故障源, 并整合硬件资源, 力求小故障“容错”不停车, 在线检修;大故障“分离”降效率, 离线检修。确保混料过程在保持规定性能或在可接受的性能降级指标下, 持续稳定运行。

1 混料系统工艺设计

珍珠岩吸声板为一种装饰材料, 主要用于对隔离噪音要求较高的场所。珍珠岩混料系统是吸声板自动生产线的主要辅助工艺系统, 为了满足生产线对原料大的需求量, 就要求混料系统必须有很高的可靠性。因此在设计中采取硬件容错和软件容错两种方式来提高整个系统的可靠性[1~3]。

在确定系统方案之前先规划工艺路径, 如图1所示。

图1表示将整个工艺过程划分为8个阶段, 其主要内容与相互之间的关系简述如下:

将硅酸钠固体直接放入水玻璃池中配制水玻璃, 使其与水充分反应、液化;待溶液温度冷却到40C°以下后用螺杆泵将水玻璃溶液输送至配料池;在配料池中按一定质量配比加入其他要求的物料制备成粘合剂, 电机搅拌, 使均匀混合;之后用泵将粘合剂输送到供料罐中储存备用;比例调节阀、流量计等构成流量控制系统, 精确控制粘合剂的流量, 同时利用定量给料器精确地从储料仓中框取出设计体积量要求的珍珠岩粉料, 导入混料搅拌站搅拌;使得粘合剂均匀地浸渍在珍珠岩粉料表面;最后采用振动筛振动的方式, 将直径大于1.5mm的颗粒剔除后, 经导流槽分流, 即完成混料工艺。

2 混料系统硬件容错设计

在工艺基础上, 对系统的可靠性需求进行分析是非常有必要的:一是能够明确系统中潜在的功能风险, 为具体方案设计提供依据;二是能够预测系统中的技术重点或难点, 利于提前准备和针对性设计;三是能够节省潜在设计成本, 因为提前预测了潜在影响因素, 并准备了解决方案。

2.1 混料系统中各工艺重要性评估

工艺的可靠性主要取决于器件的可靠性 (前提是设计工艺的原理必需可靠) , 在本混料系统中主要使用泵、电机, 电动阀门、比例调节阀, 流量计、液位计等器件, 输送的液体物料具有一定粘性和腐蚀因而这些器件可能堵塞和腐蚀, 使系统无法正常运行。

因此确定方案之前应对各工艺的特性认真分析和论证, 只有了解工艺“现在的状况”和“可能的状况”才能应对“潜在的状况”。结合工程经验对混料系统的各个工艺的重要性做出评估, 如表1所示。

表1中故障影响是假设功能块出现故障后, 在人工干预情况下对系统连续运行影响程度的估计。

2.2 混料系统硬件冗余度设计

冗余设计, 强调尽量防止单元出现故障, 但保证单元不出故障是很难实现的;容错设计则首先承认各单元会发生故障, 进而设法保证单元出现故障的情况下, 系统仍能完全正常地工作。容错, 就是增加了系统容忍故障的能力, 冗余是容错必不可少的环节[4]。

此系统主要采用“热备份”的方式对关键结构进行局部冗余设计, 因此选用并行结构的处理方式, 即每一个信息处理系统具有相同的功能目标, 这一目标可以是产生一个控制信号 (相应于控制器或调节阀的情形) , 或预测一个过程参数 (相应于检测仪表情形) [5], 其结构原理如图2所示。

这种并行处理结构, 能提供n个可能的用于产生输出Y的解决方法, 由此可以保证产生的输出Y的潜在可靠性。

图2中, {Xn}为第n个输入参数子集, Fn (Xn) 是第n个处理器的算法, Y为输出, 即为:

式 (1) 中{X1}…{Xn}为n个不同的输入信号经式 (2) 中相对应的不同算法F1 (X1) …Fn (Xn) 而最终获得相同的输出效果Y。假设单回路输出的可靠度为RS=0.7, 当一回路出现故障而采用两回路连机联机监控, 其可靠度为:

当采用n冗余结构时, 其输出可靠度为:

由式 (3) 、式 (4) 计算结果可知冗余结构层数越多系统输出的可靠度就相对越高, 但技术成本也就越高。因此冗余度的设计要兼顾技术成本, 利用上述模型并参考表1的评估结果, 对混料系统进行硬件冗余度进行设计, 如表2所示。

2.3 混料系统的硬件系统设计

表2根据并行结构模型对混料系统进行热备份, 结合技术成本和维护成本以及现场工人技术能力, 对工艺进行了详细的分解, 把一些技术难度特别大, 或者技术成本特别高的工艺采用自动和人工相结合的方式提高系统可靠性。其硬件系统原理图如下图3所示。

图3中A1、A2为配制水玻璃的两个液化池;B、B1、B2为输送水玻璃系统, B为输送管道及电动阀门, B1、B2为两组螺杆泵为输送提供动力;C为粘合剂配制池;D、D1、D2为输送粘合剂系统, D为输送管道及上的电动阀门, D1、D2为两组螺杆泵;E、E1、E2、E3为流量控制系统, E为输送管道及上的电动阀门、过滤器, E1为液下泵, E2为电磁流量计, E3为比例调节阀;F、F1为精确取料系统, F为精确取料器, F1为固体物料储料仓;G为混料系统;H为振动除杂系统;I、I1为排污系统, 结合输送系统定时清理管道内壁污垢, 对混料系统起养护作用。

3 混料系统软件容错设计

混料系统工作流程复杂、工作环境嘈杂、电磁干扰强烈因此低沉本的单片机控制系统无法适应, 故选择PLC作为核心控制器。PLC本身可靠性高, 但其外部设备, 如输入、输出元件、设备及信号线路等的故障率却很高[6]。

因此, 除了要求控制系统硬件具有很高的可靠性外, 利用系统中不同部件之间的内在联系和功能上的冗余性, 设计适当的容错算法就可以减小当某些部件出现故障时对系统造成的影响, 使系统的性能维持在允许的范围之内, 即为解析冗余设计[7]。解析冗余分为重构容错控制和鲁棒容错控制, 其中重构容错控制又分为在线重构和离线重构两种模式。离线重构适合于可能的故障模式事先已经知道, 控制规律可以事先离线确定的情况, 根据检测到的故障把控制器切换到事先设计好的相应的容错控制器中。

3.1 故障检测与分离

在本混料系统中由于硬件资源熟悉, 故障模式清楚, 控制规律已知, 适合采用离线重构的方式设计控制器。虽然已知故障模式, 但却并不清楚故障源, 因此一种可靠地故障检测、定位方法远比控制器本身设计要重要得多。根据目前容错控制理论的应用介绍中虽有多种模型但并不适合本控制系统, 因此在参考故障树相关理论的基础上[8~10], 设计出适合本控制系统的故障诊断模型, 即三级故障检测与分离模型, 如图4所示。

模型第一级使用超时限故障检测法, 快速判断是否发生故障;第二级使用延时复检法核查故障是否为偶发故障, 该方法可以在很大程度上避免系统对偶然因素造成故障的误判;第三级对第二级判定的故障进行确认, 即利用内在逻辑关系判断是其他设备故障造成虚假故障还是设备本身故障, 以及细分为何种故障;由第三级判定的故障, 也并非真正的故障, 仍可继续向下判别, 但这样做需要进行大量的运算, 消耗控制器大量内部资源。事实上经由第三级判定的故障已经可以较详细的确认故障类型, 误判的可能性非常小, 继续判断已无必要。

3.2 调节阀容错控制器设计

电动比例调节阀是流量控制中最关键的器件之一, 它的可靠性直接影响整个工艺的可靠性, 因此它的故障识别至关重要, 故以电动比例调节阀为例 (以下简称调节阀) 说明如何使用三级故障检测与分离模型设计调节阀容错控制器。

调节阀自带位置反馈通过模拟量通道读入PLC中, 其输出为PLC读取电磁流量计数值后经过PID运算控制器计算输出控制值, 该值通过模拟量输出通道控制调节阀。管道中流量变化主要是液下泵输出的不恒定以及混料器间歇性工作 (取料和排料时暂停粘合剂的供应) 造成。其调节阀故障检测与分离流程图如图5所示。

图5中PLC输出调节阀控制值后检测调节阀位置反馈值, 由于PLC输出与调节阀响应存在一定的延时, 因此判断反馈值的变化趋势是否与输出值一致, 若果一致则表明调节阀状态正常;反之, 需要延时0.5s后重新检测判断, 如果正常, 则之前为偶然误差, 可以对偶然误差进行计数, 当超过一定数量后则需对调节阀进行检修等操作。若果复检时仍然不正常则利用其余流量计的内在关系, 通过比较流量计先后的读数值, 判断是否与输出控制值相对应 (此处阀门开度与流量值为正逻辑) , 若一致则可初步断定该故障为调节阀位置反馈异常, 可能是由于反馈线路或位置检测器件出现故障, 此故障为可忽视故障, 只需在正常停车后进行检修即可, 不影响正常生产;若果比较后发现不一致则判定其为调节阀输入故障, 该故障易导致该器件无法使用, 必需使其“离线”检修, 由PLC决策启用备份调节阀等相关器件, 继续工作。

混料系统中其他功能器件的控制模式与此类似, 限于篇幅在此不再赘述。当系统完成故障检测后便可以进行控制决策。由于已知故障类型, 和冗余资源, 按照故障类型进行决策控制, 并将相关信息在工业触摸屏显示, 即完成了容错控制器的设计。

3.3 调节阀容错能力检验

一套完善的自动化生产系统, 除了精心设计与精准安装外, 现场调试是必不可少的一环。此系统工艺过程复杂, 器件种类繁多, 调试难度极大。为保持与上文的连贯性, 在此只继续对调节阀容错控制器容错能力测试进行说明。当整个系统具备初步运行能力后, 对整个系统的容错能力按模块进行测试。在分析系统安全性后针对调节安排如表3所示试验。

表3中设计4次试验主要用于检验控制器的容错能力, 第1组试验不进行任何改变;第2、3组训练故障检测与分离能力, 预期结果与实验结果相吻合说明这种故障识别模式具有一定分辨能力, 第4组试验与预期不一致是因为切断液下泵电源, 触发了液下泵状态检测开关被识别为线路故障, 系统自动启动备用资源, 同时该部分进入“离线”模式, 这种结果显示出系统内各器件间的内在逻辑联系十分紧密, 在提高容错能力的同时, 也对故障的检测有更高的要求, 倘若检测故障失误可能导致系统异常, 因此在后续调试中还需要设计更加详细的故障处理机制。图6为表3中第四组试验状态显示图。

注:为便于显示, 交互界面将整个硬件资源按控制模式进行了划分, 因此与图3有所区别。

图6中为切断调节阀输入控制信号后状态显示, 由于系统识别出液下泵“断电”, 该故障被定义为严重 (故障器件指示灯点亮) , 所以系统将此部分器件全部“离线” (图中红色线条表示) , 同时启动备用资源 (图中绿色流动块表示) , 继续生产。

4 结束语

可靠性一直是自动控制中追求的目标, 而成本是企业最现实的问题, 因此在此混料系统设计时通过全面深入的分析生产工艺并结合工程经验, 用故障危害程度评估的方式将可靠性与成本有机结合, 共同作为冗余度的标准, 完成了硬件冗余设计。利用三级故障检测与分离的方法快速准确地确定故障源并设计容错控制器, 通过后期容错能力测试完善软件设计。

经过现场实际调试发现, 该方法通过采用硬件冗余, 以时间换取可靠性的方式, 提高了整个系统鲁棒性, 实现了精确化的混料工艺, 具有工艺简单, 混料精确, 效率高, 品质好, 便于连续作业和实际操作, 以及在线检修的方式等优点。

参考文献

[1]白锐, 佟绍成, 柴天佑.氧化铝生料浆制备过程的智能优化控制方法[J].控制与决策.2013, 28 (4) :525-530.

[2]Martnez R, Castillo O, Aguilar L T.Optimization of inter-val type-fuzzy logic controllers for a perturbed autonomous wheeled mobile robot using genetic algorithms.Information Sciences, 2009, 179 (13) :2158-2174.

[3]高淑敏, 费玉华.基于PLC的动态系统故障诊断与带故障运行方法[J].北京航空航天大学学报.2004, 30 (9) :868-871.

[4]孙怀义.冗余设计技术与可靠性关系研究[J].仪器仪表学报.2007, 28 (11) :2089-2092.

[5]Relex Software Co.&Intellect.Relaibility:A practitioner’s guide[M].Beijing:Beijing University of Aeronautics and Astronantics Press, 2005.

[6]郑亮, 蒋大明, 戴胜华.PLC可靠性分析与冗余设计[J].工矿自动化, 2005, 2:58-59.

[7]刘小雄, 章卫国, 黄宜军.解析余度关键技术研究与发展趋势[J].计算机测量与控制.2005, 13 (7) :710-747.

[8]胡延平, 赵林峰, 赵斌, 等.基于容错控制的电动助力转向故障诊断系统设计[J].合肥工业大学学报:自然科学版, 2013, 36 (1) :20-23.

[9]Liberzon D, Morse A S.Basic problems in stability and design of switched systems[J].IEEE Control Systems Magazine, 1999 (10) :1-19.

容错方案设计篇9

大型离散制造业 (如装备、建材、汽车零配件、家具、家电等) 的内部供应链管理问题始终是企业信息化的重点和难点, 也是容易造成企业信息断层的薄弱环节, 内部供应链管理的有效性和科学性直接影响到企业运作的效率和成本, 影响到企业的客户关系和企业形象, 从而影响企业的整体竞争力。在制造业的内部供应链中, 仓储管理又是重要和关键环节, 大型制造业的内部仓储系统往往十分庞大和复杂, 具有品种型号繁多、立体多元密集、动态变化迅速、空间操作面庞大等特点, 企业常常因为物品进库未严格执行预先设定程序而造成出货效率低下, 货物寻址困难, 严重影响企业内部供应链管理。本系统针对大型制造业内部仓储系统的具体特点, 采用RFID触发容错寻址方式, 研究设计大型仓储的智能管理模型, 探索大型制造业的仓储系统智能化管理的普遍规律, 为工业化与信息化融合提供应用模型。系统设计的目标如下:

1) 通过信息化技术在大型制造业智能仓储系统中的应用, 有效提高企业内部供应链运行效率, 降低内部物流成本, 杜绝企业内部物流各环节的漏洞, 避免出现供应链信息断层, 提高企业信息化水平和整体竞争力;

2) 通过分析大型制造业智能仓储系统的典型事件流模型, 研究设计一套适应于大型离散制造业的内部仓储智能管理系统, 通过配置化、移植化、模块化等手段, 形成典型的大型仓储管理系统的应用解决方案, 为系统产业化打下基础;

3) 我国是世界制造业基地, 大型制造企业不乏其数, 这些企业大多具备离散制造的特点, 其内部供应链管理都面临同样的问题。本系统研究的成果可以在这些企业中得到很好的应用, 对推动我国制造业的发展具有重要意义。

2 大型仓储系统的现状分析

国内大型制造企业的仓储管理大致分为3种类型:传统式的人工管理、依赖ERP系统的供应链管理、智能仓储管理系统。

传统的仓库管理一般依赖于一个非自动化的、以纸张文件为基础的系统来记录、追踪进出的货物, 完全由人工实施仓库内部的管理, 因此仓库管理的效率极其低下, 所能管理的仓库规模也很小。依赖ERP系统的供应链管理是基于企业的局域网或互联网, 对仓储的管理货物或材料进行计算机信息化管理, 物品进出仓依赖人工电脑输入, 并少量使用工作单的传递, 货物的堆放和定位靠事先的预定程序设定, 操作者必须严格执行, 货物的进出平衡基本有保证, 但寻址和定位就可能因为人的责任心或现场的客观情况而难于实现精准管理, 通常要靠一段时间进行一次盘点来理顺, 但盘点毕竟是事后行为, 并不能实现仓储系统信息的实时化。智能仓储管理系统常常采用条码技术、二维码技术甚至是RFID技术, 对仓库到货检验、入库、出库、调拨、移库移位、库存盘点等各个作业环节的数据进行自动化的数据采集, 保证仓库管理各个环节数据输入的速度和准确性, 确保企业及时准确地掌握库存的真实数据, 合理保持和控制企业库存。目前, 各大企业采用数据自动采集技术管理供应链中的仓储系统, 其采集方法还是被动采集或半自动采集, 数据采集终端通常装配在托盘或叉车上, 或者是操作者手持便携式终端, 无法做到密集货架地址的唯一性, 客观上还是无法实现货物的动态寻址, 一定程度上还是依赖人的责任心。

我国的大型制造企业的内部仓储系统虽然庞大, 但自动化程度还很低, 建设机械化、自动化的仓储系统投资也十分惊人, 在未来很长时间内还将维持目前现状。因此设计一种既能实现数据自动采集, 又能实现货物自动容错定位的仓储管理解决方案, 是一种既省钱又能达到智能管理目的的好方法, 这也正是本系统的核心内容。

3 系统设计的主要内容

1) 研究开发全新理念的主动采集、容错寻址的RFID技术部署方案, 包括货物托盘电子标签设计及部署、多层密集货架感应天线设计及部署、密集采集分布式读写器设计及部署、多通道数据通讯路径设计及部署、RFID原始信号的预处理 (如隔离、分序、过滤、判断及干扰处理等) 、故障诊断及定位系统的设计等;

2) 仓储系统数据库及软件平台设计, 数据库设计包括货物动态平衡数据库设计、三维货架状态数据库设计、托盘状态数据库设计、电子标签与读写器天线逻辑地址数据库设计、逻辑状态与物理状态对应关系的数据库设计、内部操作人员及操作设备数据库设计等;软件平台设计包括仓储监控平台、物品进库平台、物品出库平台、货架动态分配平台、智能寻址平台、托盘及操作设备调度平台、盘点及统计平台等;

3) 系统数据与ERP内部供应链管理接口设计。包括异构数据的同步与访问、ERP指令的接受、仓储状态的动态实时上传等, 以实现企业整体信息化。

4 系统要解决的关键技术难题

1) 解决适应于金属表面的电子标签和读写器天线的通讯有效性问题。众所周知, 金属表面会改变电子标签和读写器的性能和参数, 对数据采集造成严重干扰, 影响电子标签的识读和通讯, 由于大型仓储系统的载体单位的成品仓库无论是货架、托盘还是货物很可能是金属材料, 在其上部署RFID技术, 通讯的有效性是首当其冲的难题;

2) 解决密集读写系统的数据通路隔离和地址匹配问题。大型仓储的立体货架、货位和托盘都非常多, 每个托盘都部署有电子标签, 每个货位都部署有读写天线, 读写器的数量非常多, 可见RFID数据通讯十分频繁, 一方面要建立物理位置与逻辑地址的对应关系, 处理好信号采集及通讯的排序、防冲突、防干扰、信号甄别、信号遴选等核心问题, 处理好RFID触发网络反应速度问题;另一方面要处理好信号的隔离问题, 防止单元故障引发系统故障, 同时通过诊断软件, 第一时间定位故障单元, 以便及时排除故障;

3) 解决RFID识读的距离和极化问题。大型仓储系统操作面庞大, 货物就位大多采用厂内机动车协助, 随意性大, 就位不可能十分理想, 托盘电子标签与货架读写天线的距离忽远忽近, 角度也可能偏移。因此, 读写距离和极化角度是一个直接影响数据采集有效性的关键问题, 范围过大会影响不同货位之间的数据混读, 范围过小则会造成漏读。解决这一问题一方面要根据现场情况设定合适的读写距离和极化角度;另一方面要适当设置屏蔽和隔离设施, 以确保数据采集的准确性;

4) 解决货物批次与托盘级管理的货物分解与合成问题。由于采用了托盘管理, 为提高空间利用率, 很可能同一批次和型号的货物分布在不同的托盘和货架, 这就是货物批次分解问题。相反, 在货物量少的情况下, 不同批次和型号的货物可能存放于同一托盘和货架内, 这就是货物批次合成问题。因此, 必须根据实际操作情况, 分析并建立货物分解和合成事件流模型, 厘清并规范分解与合成的逻辑关系, 形成标准的计算机解决方案, 这样既可提高软件系统的可靠性, 又便于技术平台的产业化应用。

5 系统设计的具体方法

5.1 总体方案设计

仓储管理是企业供应链管理的一个重要环节, 必须基于企业的现行ERP系统来进行设计, 才能实现其智能管理和科学决策功能。底层也就是原始信息采集层通过通讯系统将大量数据包传输到服务器, 以供管理及决策使用。因此, 本项目总体设计的主要任务是仓储数据采集系统、数据通讯系统、数据库系统、管理软件系统、与供应链接口系统以及与企业ERP接口系统。图1是本系统的总体设计体系结构图。

5.2 RFID部署设计

RFID部署的科学性直接关系到系统的稳定性、有效性和可用性, 为实现RFID触发容错寻址, 同时防止通讯路径的相互干扰和冲突, RFID系统部署共分为三级网络, 一级网络包含四个二级子网络。每个二级子网络包含20个三级子网络。每个三级子网络包含66~132个RF读写器节点。RF读写器及电子标签采用125k Hz, 传输方式采用485工业总线技术传输, 电源采用分组供电方式, 每6个RF读写器节点共用一个电源。

所谓触发容错寻址, 就是操作者在运送货物到货架存放时, 无论是严格按计算机事先安排的空位存放还是因多种原因造成错误存放, 计算机系统都能通过RFID的实际触发地址而进行容错处理, 货物及托盘的实际物理地址并不会出现混乱。本系统通过在密集货架的每一个货位上设计部署逻辑地址唯一的读写器或感应天线, 在每一个托盘上部署唯一UID码的电子标签, 一旦托盘进入货位的识读范围, 即可触发RFID系统动作, 将货物与货架的对应关系自动传输到计算机系统, 计算机系统数据库里始终保存着正确的地址信息。这种方式下允许人的操作误差, 并实现自动容错, 充分体现了人性化设计的特点, 同时大大提高了系统的稳定性和适应性。

5.3 软件系统设计

软件系统是实现管理功能和决策功能的载体和工具, 软件设计基于RFID采集的原始信息数据库、物理仓储系统抽象描述数据库及货物属性描述数据库, 大型制造业内部仓储系统软件设计至少包括如下平台:动态监管及调度平台、入库作业平台、出库作业平台、移库作业平台、盘库作业平台、数据接口平台、数据挖掘及分析平台等。

1) 动态监管及调度平台:包括监管仓库的货物存量、货物流量、货物存放物理及逻辑位置、发送入库指令、发送出库指令、货物寻址指引、维持动态平衡等功能;

2) 入库作业流程:收货检验=〉制作和粘贴标签=〉货物进托盘=〉现场计算机自动分配库位=〉运送货物到指定库位 (错放了也没关系, 系统会自动容错) =〉托盘与货架自动对接通讯=〉每次操作的货架号和对应物品编号自动传输到网络计算机系统=〉计算机比对实际存放库位与理论存放库位是否一致=〉更新库存数据库;

3) 出库作业流程:中心计算机下达出库计划=〉现场计算机编制出库指令=〉作业人员按数据终端提示, 到达指定库位=〉从库位上取出指定货物对应的托盘=〉货架与托盘脱离触发RFID动作=〉货物离开货架的信息自动传输到计算机网络=〉货物运送到出口处=〉向现场计算机发回完成出库作业信息=〉更新中心数据库;

4) 移库作业流程:根据需要, 计算机编制移库指令=〉将需要移动的货物对应的托盘从货架取出=〉货架与托盘脱离触发RFID动作=〉货物离开货架的信息自动传输到计算机网络=〉运送货物到指定库位=〉托盘与货架自动对接通讯=〉每次操作的货架号和对应物品编号自动传输到网络计算机系统=〉更新库存数据库;

5) 盘库作业流程:分为自动盘库和人工盘库。自动盘库流程:计算机发出盘库指令=〉对RFID全部单元进行扫描=〉输出盘库结果=〉比较盘库结果与货物实际存量, 不符时发出警示=〉向现场计算机发出盘库结束信息。人工盘库采用便携式RFID数据终端和条码终端, 理论上并不需要人工盘库, 只有当货物、货架、托盘出现匹配混乱时才需进行;

6) 数据挖掘及分析平台:包括生成统计分析报表、决策建议、仓储效率分析、物流路径优化设计、操作者考核与作业量统计等。

6 结论

容错方案设计篇10

1容错技术

容错控制[3]的根本特征为“当控制系统中发生故障时, 系统依然能够维持其自身运行在安全状态, 并尽可能地满足一定的性能指标要求”, 有两种方法分为被动容错控制和主动容错控制。被动容错控制采用固定的控制器来确保闭环系统对特定的故障不敏感, 保持系统的稳定。而主动容错控制是在故障发生后, 根据所期望的特性重新设计一个控制策略, 使整个故障系统达到稳定。主动容错控制[4]相比于被动容错控制, 更具设计弹性且更有应用价值。

2基于主动容错设计的滤波算法

和传统的滤波算法不同, 本文拟提出一种改进的基于主动容错设计的发动机转速滑动平均滤波算法。通过故障诊断机构的结果对传统的滤波算法进行容错设计, 在线修改滤波算法, 在转速传感器采集值出现跳变或两路转速采集值偏差超过了某一数值时, 滤波后的转速能够平滑过渡而不对发动机转速控制性能造成较大的影响。

控制系统通过输入信号将采集值传递给故障检测模块, 故障检测得到对应的故障码后进入容错处理模块, 处理完毕的信号又重新传递回控制系统进行燃油流量、防喘阀调节等闭环控制。模块间相关关联图见图1。

传统的滑动平均滤波算法, 是指在每个采样周期内只采样一次, 将这一次的采样值和过去N次采样值一起求平均值作为本次的滤波结果。本文提及的基于主动容错设计的滑动平均滤波算法, 是将故障检测的结果作为影响本周期采样值的参考条件, 当故障检测模块检测到有故障发生时, 当前周期的采样值将不再放入滑动平均滤波算法中进行计算, 而是对过去n-1次的采样值求取平均值作为当前周期的滤波结果, 主动忽略当前采样周期的采集数据, 以此类推, 直至N+1次采集周期的采集值均无效后, 则将滤波结果设置为安全值。

假设当前转速传感器的采集值为SPDSample, 转速传感器待滤波数组为SPDF [x], 转速传感器滤波有效状态数组为SPDFlag[x], 最终的滤波结果为SPDFliter, 滤波次数设置为4, 当故障检测模块未检测出故障时, 滤波结果的SPD_FILTER的计算方法见公式1:

当某一采集周期内故障检测模块检测出故障时, 滤波结果的SPD_FILTER的计算方法见公式2:

转速传感器的采集值的正确与否则根据转速传感器的特性分为以下几种检测方式:

A.本采集周期转速传感器是否开路;

B.本采集周期内转速传感器是否短路;

C.本采集周期内的转速传感器采集值是否超过了上界;

D.本采集周期内的转速传感器采集值是否低于了下界;

E.本采集周期内转速传感器的采集值和上一采集周期内的采集值是否在有效的范围内;

F.本采集周期内两路转速传感器的采集值是否在有效的范围内。

通过以上的检测方式确认当前通道或是当前采集周期内的转速传感器采集值是否合理并有效。

3结束语

本文介绍的算法主要包括故障诊断和容错控制两个部分, 故障诊断技术为容错控制的研究提供了必要的基础和前提, 容错控制为故障诊断的研究注入了新的活力。该算法是一种改进的基于主动容错设计的滑动平均滤波算法, 对传统转速滤波算法进行了修改, 即通过故障检测的结果修改当前采集周期的转速传感器待滤波数组和转速传感器滤波有效状态数组, 在线修改滤波窗口, 从而达到主动容错控制的功能。改进后的滤波算法开环在线仿真或不再受个别奇异点的影响, 能够有效的剔除奇异点, 提高了发动机稳转性能。

参考文献

[1]王永强, 叶昊, 王桂增.网络化控制系统故障检测技术的最新进展.控制理论与应用[J].2009年4月第26卷第4期:400-409.

[2]何静, 邱静, 张昌凡等.非线性系统的集成故障诊断和容错控制.机械工程学报[J].2009年5月第45卷第5期:70-78.

[3]王敏, 臧曙, 周东华.非线性动态系统的容错控制.计算技术与自动化[J].2004年12月第23卷第4期:7-10.

容错方案设计篇11

关键词：强制；容错；爱

2003年，我第一次当班主任就碰到了全校最调皮的学生崔某，那时，我心里很恐慌，因为毕业没几年，工作上也没什么经验，他如果给我捣乱那该怎么办？忐忑的心不言而喻，但我想：绝不能让他得逞，让我教师的威严扫地。

果不其然，开学没几天，他的本性就露了出来，上课不听讲，前后桌说话，课下总和几个男生调皮捣蛋，捉弄女同学，俨然一副黑帮老大的架势，作业更是不写，几乎每天都有人告他的状。我这个刚当班主任的老师，哪能让他这么猖狂，太有损我的威严了。于是，我开始想办法“治他”：先把他安排在教室的最前头，单人独坐，不让他和任何人说话。下课再让他去办公室做作业，这样既治了他下课捣乱，又能督促他写完作业。在进办公室的这段时间里，我还时不时对他的大小错误进行各种教育，正当我为我的“好”办法沾沾自喜的时候，没几天，形势开始不妙，我发现他开始和我“对着干”——上课不仅不听，还睡觉，下课也不去办公室，并且变本加厉地骂人打架。说他，他脖子一梗，嘴里还振振有词，不服气的表情一览无余。这下，我慌了，不知该如何是好。他的成绩更像是坐滑梯，直线下降。通过这段时间的接触，我不得不承认，他是个聪明的学生，只要上课稍微一听，成绩就不会太差。但如果这样下去，他反而会破罐破摔。这是我作为一名教师最不愿意看到的。然而，覆水难收，我的话他再也不听了，这时我才意识到自己犯了个多么大的错误——对于某些个性很强的学生，强制措施非但不会使他们屈服，反而更会激起他们的“斗志”，与老师对着干。直到他升入高年级，他对我的敌意也没消除。我带的班级，也由于他，纪律很差，那一年，我疲惫不堪，但收效甚微。这次惨痛的经历，成为我教育生涯中时常警醒我的案例。

如今，十年过去了，我想：如果重来一次，根据他的调皮个性去教育他，若没有因为老师不恰当的教育方式而自尊心受到伤害，他还是愿意尊敬和信任老师的。所以，刚一接班开始，我就应该以我的真心去感动他，而不是先把他放在自己的对立面，我应该相信每个学生都是一块等待琢磨的美玉，尽管开始有些许杂质。

其实在一个学生的成长过程中，犯错调皮是难免的，俗话说：“人非圣贤，孰能无过？”没有错，也就无所谓正确，无所谓比较，无所谓研究，最终也就无所谓发展。出错不可怕，可怕的是不让出错，不让出错，就是不让发展和成功。学生十几年的成长过程，就是一个不断出错、不断纠错的过程。因为学生还不成熟，容易出错，出错是正常的。出了错，才会有点拨、引导、解惑，才会需要教师的敏感、机智和智慧，才会需要教师对学生付出巨大的宽容、乐观的期待以及真正的爱护。然而，在当时的教育过程中，也许年轻，我似乎没有认识到这一点，对学生的基本素质估计过高，容不得学生有半点差错，也容不得学生有半点违抗我的命令。我总是频繁地对学生进行批评教育，容不得学生错误，弄得我筋疲力尽，学生则无所适从。这种脱离实际的要求，不仅没有任何价值和意义，还给学生和自己带来了一系列负面的影响。

不容许学生有过错、有反抗，不仅仅是一种过于苛刻的不现实的教育要求，更可能会导致一部分个性很强的学生站在教育的对立面，不听你的教诲，故意捣乱，还可能会使一部分性格相对温和的学生“敢想、敢说、敢为”品格的丧失，妨碍学生创造精神和实践能力的培养和提高。这是因为教师是大部分学生心目中的崇拜者，既然教师容不得自己有差错，那么，即使有和老师不同的声音，学生也必然选择“不想、不说、不为”。上面例子中的崔某，虽然调皮捣蛋，但却是个聪明的学生，但我的一些强制性的措施并没有使他从内心深处认识到自己的问题，我频繁地对他纠错，他不但没有认同，还怀恨在心，所以他选择上课睡觉，不听讲、不说话，用这种自毁的方式来和我默默对抗。

容错方案设计篇12

关键词：片上网络,容错设计,可靠性

0引言

以2000年由瑞典皇家理工学院Hemani、Janstch等人首先在论文中明确定义了 “Network on Chip ”的概念为标志[1], 片上网络正式成为一个研究领域已经15年了。自该领域诞生之初起 ,片上网络的可靠性设计就被作为一个重要问题被各国研究者所重视。 Benini和Micheli分析了片上通信网络的分层模型并且给出了每层模型应该具备的功能时 , 明确提出了可靠性设计的需求[2]。片上网络的可靠性问题随着集成电路工艺的进步和片上网络互联规模的扩大变得日趋严重。一方面集成电路工艺在向纳米级演进的过程中 ,由于加工精度、功耗密度、集成规模等因素而导致工艺误差、老化、单粒子翻转等问题日益严重 ,从而导致器件的故障概率极大增加。另一方面随着片上网络规模的扩大而导致的总元件数量的上升 ,导致片上网络中故障发生的总量急剧上升。因此通过合理的容错设计方法提升片上网络的可靠性成为片上网络进一步发展过程中绕不开的一大难题。

集成电路的故障类型依据其发生频率和产生条件可以划分为临时性故障(Transient Fault) 、间歇性故障 (Intermittent Fault ) 以及永久性故障 ( Permanent Fault ) 三类[3]。参考文献 [4] 中总结了多种不同的物理效应和三类故障的对应关系。临时性故障主要由于孤立事件翻转 (Single Event Upset , SEU和Single Event Transient , SET ) 以及电子系统内部噪声引起。此类故障的主要特点是临时出现且发生位置随机分布 ,与外界环境和工作条件关系不大。与临时性故障相对应的是永久性故障 ,主要由工艺误差、老化、电迁移等原因引起的元器件损伤造成。永久性故障一旦发生将永久存在 ,且故障的总量将随着集成电路使用时间的增加而持续增大。永久故障的位置分布有一定的随机性 , 但由老化、电迁移等原因引起的永久性故障则在一定程度上受温度、功耗密度等内外部环境因素的影响。间歇性故障介于临时性故障和永久性故障之间 , 主要是由于不同因素而导致的时序问题而诱发。虽然某些因老化等因素导致的间歇性故障会随着集成电路使用时间的增加而退化为永久性故障 ,但更多的间歇性故障则是由于特定时刻串扰 (Crosstalk)、温度变化 ( Temperature Variation ) 、电压紧急 ( Voltage Emergency ) 等内外部环境因素造成的时序问题而引发。因而这些时序问题发生的时间和概率虽然也呈现出一定的随机性 ,但却更容易发生在集成电路中关键路径 (Critical Path ) 和受环境因素影响更大的区域。由于间歇性故障和临时性故障均不会持续发生 ,在以往的一些研究中通常将其归为一类故障加以研究[5]。但随着集成电路工艺的进步和低压/近阈值集成电路设计方法的兴起 , 间歇性故障由于其发生概率极大提升而成为了一个重要问题[6], 近年来针对这类故障的研究明显增加。

由于集成电路故障成因和类型的研究大多属于器件和工艺层面的研究内容 ,在研究容错设计时通常需要根据设计目标的特点将其抽象为特定的故障模型以便深入研究。在抽象的过程中将不可避免地简化故障的某些特征 ,而不合理的特征取舍可能导致基于此模型的容错设计研究出现偏差 ,进而设计出容错效率较低的硬件结构或出现过度设计(Over Design)。对于片上网络而言 , 故障可以在数据链路层、网络层和传输层分别被抽象为不同的模型。数据链路层主要将故障抽象为链路上信号的阻塞 (Stuck-at)和翻转 (Upset)[7]。网络层的故障模型主要为自适应容错路由研究服务 ,传统上将故障划分为链路故障和路由器故障[8]。在传输层的故障模型则主要是考虑数据包内容错误或完全丢失[9]。这些模型在很大程度上降低了容错设计的复杂度 ,但相应的也隐藏了一些关键特性。但更为严重的是 ,这些模型大多直接借鉴传统的计算机/通信网络故障模型 , 对片上网络的特异性没有给予足够的体现。造成这种情况的部分原因是因为片上网络在研究的初期大多以架构设计、拓扑分析、路由算法研究等相对高层次的研究为主 ,与之相伴的容错设计研究也大多采用相对粗糙的模型。

随着片上网络研究的全面成熟和片上多核技术的普及 ,片上网络已经从系统结构设计层面转向实现与应用层面。自2007年Tilera公司推出了基于片上网络互联结构的64核处理器Tile64[10]起 ,基于片上网络的多核处理器芯片日渐增多。多伦多大学ABDELFATTAH M S等人于2014年发布了面向现场可编程门阵列 (FPGA) 的嵌入式片上网络[11]则标志着片上网络开始被用于多核处理器芯片以外其他类型的芯片中。而在这一过程中片上网络的实现结构也日益明确 ,多数关键模块的实现形式已有一些基本定论。因此我们有条件重新思考在当前和未来集成电路工艺条件下片上网络故障模型的合理性 , 从而得到更加合理、可行、适用的故障模型 , 为进一步提升容错设计的容错效率并减少过度设计带来的额外开销奠定基础。同时正确地分析导致故障行为的物理效应 ,也将有助于设计合理的容错方案。本文将分别对现有片上网络故障模型和容错设计方法的合理性进行初步分析 ,为从事片上网络容错设计的相关研究者提供参考。

1片上网络故障模型合理性分析

传统的片上网络故障模型在片上网络容错设计的研究中曾发挥过重要作用 ,但随着片上网络的发展以及实用化程度的提高 ,片上网络故障模型与实际的片上网络故障行为之间的差距日益明显。因此需要从造成片上网络故障行为集成电路物理效应出发 ,重新审视片上网络故障模型的合理性。

1.1传输层故障模型分析

传统网络的传输层故障模型主要分为数据包内容错误与数据包完全丢失。其中数据包丢失是传统网络传输层所要解决的主要问题。造成传统网络中传输层数据包丢失的主要原因包括 :

(1) 数据包内容错误超过底层协议可以恢复的极限而被底层硬件 (如网卡等 )直接丢弃而造成的数据包丢失 ;

( 2 ) 数据报头错误导致错误的传输 , 如IP报头、 TCP报头校验错误时数据包会被丢弃而造成数据包丢失 ;

(3 ) 由于传输过程中链路拥塞而导致数据包超过生存时间而被丢弃。

由于数据包内容成果底层协议可以恢复的极限这一问题和底层故障概率以及容错设计能力有关 ,传统网络中数据包由于传输距离较远而容易出现错误 ,而片上网络底层的故障概率却并不一定很高。对这一问题的具体探讨将在1.3节中再详细讨论。

相比于传统网络 ,片上网络的传输层故障有其不同的特征。相对于传统网络 ,片上网络的规模偏小且拓扑结构相对固定 ,因而在设计之初可以通过多种仿真方法对片上网络的传输带宽作较为精确的分析。同时由于片上网络所承载的是多处理器核心之间传输的信息 ,由于信息传输实时性要求较高而导致拥塞避免是片上网络设计优化过程中必须要考虑的重要问题。因此由于链路拥塞而丢弃数据包这种行为通常在片上网络中并不被允许 ,因而这一故障原因在片上网络中并不存在。

与传统网络大多采用串行传输方式不同 , 片上网络基本是基于Flit的并行传输方式,通常在首个Flit中包含地址、控制等重要信息。由于采用并行传输的方法 ,不同的位通常采用不同的物理连线传输并独立地存储于不同的存储单元中 ,因此针对重要信息的位所用物理连线和存储单元可以采用有别于普通位的保护措施以加强。如对地址信息采用性能更强的纠错编码 ,控制信号采用三模冗余 (TMR)等[12],这些链路层容错措施将有效降低甚至消除由于报头错误而导致的数据包丢失的问题。

综上 , 在一个容错设计合理的片上网络中 , 传输层故障模型中的数据包丢失故障可以基本忽略。因此需要充分地分析底层设计的容错能力以确定正确传输层故障模型是否需要考虑丢包故障。

1.2网络层故障模型分析

在过去10多年片上网络容错路由的研究通常面向由永久性故障引起的片上网络路由节点或链路功能性问题 , 通常认为由于制造缺陷、老化等原因造成的晶体管失效是导致永久性故障的主要原因。在传统网络的网络层故障模型中 ,故障一般被分为链路故障和路由节点故障以方便容错路由算法的研究。在早期的片上网络容错路由的研究中也普遍地采用了这样的划分方法 ,这一时期片上网络的研究大多停留在架构设计与分析的层面。但随着Intel等公司先后发布了一系列基于片上网络的多核处理器芯片[13]之后 ,片上网络的硬件实现结构日益明确 ,相应的网络层故障模型也需要革新。

传统网络中路由节点故障可能由多种原因导致 , 如路由器的电源失效导致其因断电而无法工作 ,整个路由器的功能将完全丧失而导致与其相连的链路均处于断开状态。片上网络路由节点与传统网络路由节点不同的是其功能完全由晶体管组成的逻辑电路实现 ,而晶体管并不会出现大面积同时失效的情况。因此 ,如果单个晶体管的失效不会导致整个片上网络路由节点的功能完全丧失 ,则片上网络路由节点故障实质上并不存在。

一个典型的片上网络路由节点硬件实现结构如图1所示。

从图1中可以看出其数据通路 (Data path)可划分为输入缓冲器、交换矩阵、输出寄存器等三个部分。其中输入缓冲器中任何晶体管失效最多只能导致与自身相关的输入链路出现故障 ,输出寄存器中任何晶体管失效同样最多只能导致与自身相关的输出链路失效。因而这两部分任意晶体管失效均无法造成整个路由节点出现工作不正常的情况而导致路由节点故障。交换矩阵中的故障行为和其具体的实现结构有关 , 参考文献 [14] 中给出了三种不同的交换矩阵实现方式 ,可以分别由传输管矩阵、三态门矩阵以及标准CMOS逻辑门实现的多路复用器。传输管矩阵和三态门矩阵相比于标准的CMOS逻辑门的多路复用器而言虽然具有更小的面积和更低的功耗 , 但由于这两种方案均存在延迟难以确定、驱动能力偏弱、可能由于控制信号的时序问题而产生临时性的短路等问题而在实际的芯片中较少采用。采用传输管矩阵构建交换矩阵时 ,若某个传输管由于某种原因处于导通状态 , 则至少有一对输入线与输出线处于短路状态 ,如图2(a)所示。处于这种状态的交换矩阵不但影响故障传输管所在的输出 ,还有可能通过短接的输入线影响到其他输出的电平。而采用的三态门矩阵和标准CMOS逻辑门的多路复用器构建的交换矩阵由于其单向传输的特性 , 则只会影响到故障所在的输出 , 如图2 (b) 所示。由此可见 , 在不采用传输管矩阵构建交换矩阵时 , 单个晶体管的失效只影响其所在的输出端口 ,而不会波及其余输出端口。因而在大多数不采用传输管实现交换矩阵的路由节点中 ,数据通路上任意位置出现单个晶体管失效均可以被等效为输入链路故障或输出链路故障 ,而不会出现路由节点功能整体失效的情况。

在对路由节点的架构分析中 , 路由节点控制通路 ( Control path ) 故障通常被认为会导致路由节点整体功能失效。这是因为架构设计人员在仿真中习惯于调用同样的功能函数来模拟各个输入和输出链路的路由、仲裁等功能。但在实际的路由节点硬件结构中 ,路由计算单元通常与输入缓冲器配对实现 ,而仲裁电路则通常与输出寄存器配对实现。这样设计的原因是可以保证多个输入输出链路可以同时完成路由计算 /仲裁的工作 , 从而最大限度地利用硬件并行工作的特性提升包交换的速度。参考文献[15]中给出了路由计算模块和仲裁模块实现的示意图 , 从中可以较为明确地获悉这种配对的特性。因此 ,当某个路由计算单元中晶体管失效而导致该单元工作不正常时 ,可以认为与之配对的输入缓冲器工作不正常而将其等价为输入链路故障。而当某个仲裁模块中晶体管失效而导致该单元工作不正常时也可以认为与之配对的输出寄存器工作不正常而等效为输出链路故障。因此 ,在一般情况下路由节点控制逻辑中单个晶体管失效也不会造成其整体功能失效。随着失效晶体管数量的增加 ,可能出现多条输入/输出链路故障 , 从而使得节点大部分功能丧失。此时可以将多条链路故障等效为路由节点故障。

结合上面的分析可以得出这样的结论 , 在使用常规的片上网络路由器硬件结构设计方案时 ,单个或少量的晶体管失效通常不会引起路由节点整体功能的失效或故障。这些故障基本可以被等效为链路故障而非路由节点故障。但随着一些新的仲裁方法或路由算法的提出 , 其对应的电路结构可能会发生一些变化而导致出现路由节点故障的可能 ,但出现这种故障的可能性需要进一步探讨。针对一个具体的片上网络设计其容错方案时对片上网络路由节点的具体电路结构进行适当的分析 ,即可以确定是否有必要采用路由节点故障模型。目前大部分容错路由的研究者已经开始更倾向于使用链路故障模型而非路由节点故障模型。

1.3链路层故障模型分析

链路层故障模型主要考虑由于数据在传输过程中某些比特位的翻转、呆滞等现象造成该位出现错误。造成链路层故障的物理效应有很多。元件老化、电迁移效应、制造误差等原因造成的某位信号线短路或断路可以被认为是链路层的永久性故障 ,单粒子翻转效应等影响存储单元状态而造成数据错误可以被认为是链路层的临时性故障 ,电压紧急、串扰 (Crosstalk)等在特定的外部环境或特定工作状态下引起的数据错误可以被认为是链路层的间歇性故障。因而链路层故障实际包含了临时性故障、间歇性故障和永久性故障三种不同的故障分类。这三种故障在链路层虽然故障行为表现相近 ,但由于其成因的区别导致使用链路层故障模型时其故障概率和故障注入方式有所区别。

临时性故障由于是由单粒子翻转等原因引起的 , 其发生时间和位置均近似呈随机分布。因此针对临时性故障的链路层故障模型可以视为以一定的概率随机在更改任意位置、任意信号线的值 , 并不需要对故障的注入做特殊的处理。发生间歇性故障则明显的受到环境以及具体硬件结构的影响 ,其发生的时间和位置存在一定的规律性 ,但故障是否发生仍然具有一定的随机性。永久性故障根据其产生原因不同 ,故障出现的规律也有较大区别。由加工误差引起的永久性故障在分布时具有随机性 , 但由于老化引起的永久性故障则明显与环境有关 , 因而其空间位置的分布不是完全随机的。所以链路层间歇性故障和永久性故障的发生概率和空间分布问题是一个需要讨论的问题。

首先对链路层间歇性故障的发生概率和空间分布加以讨论。串扰 (Crosstalk)被认为是引起链路层间歇性故障的一个重要因素。一般认为由于信号线上特定的信号跳变引起某些信号变化延迟 ,若恰好与时钟抖动等因素相配合则容易导致该信号被保存为一个错误的值 ,从而引发故障。一般片上网络容错设计研究者在考虑串扰引起的间歇性故障时 ,通常习惯于从信号跳变过程本身去加以考虑 , 通过编码或其他方式改变跳变的图案 ( Pattern ) 来对其加以避免[16]。但实际上串扰本身是否会发生其实需要一定的外部条件 ,同时其是否会引起故障实际上更取决于其是否真正破坏了数字集成电路的时序。要发生串扰通常需要信号线线距和线长均满足一定的条件 ,因而可能发生串扰的位置通常在两个路由节点之间的互联线上而非其内部连线。但从参考文献[17]中明确给出的路由节点中各级流水线延迟的情况来看 ,在链路传输 (Link Transmission ,LT)即两个路由节点之间信号传输阶段的延迟要远远小于其他级流水线。换言之 , 在常规拓扑结果中链路传输本身并不处于关键路径 ( Critical Path ) 上。因而不管是否出现因为串扰而导致信号延迟的情况 ,在链路传输阶段的时序余量可以充分保证被下一级路由节点接收的信号处于稳定状态。但对于某些面向特定应用的非规则片上网络而言[18],在网络中存在一定的长走线 ,因而可能由于延迟较大而容易受到串扰的影响。造成间歇性故障的其他因素诸如电压紧急、温度等同样导致特定位置的信号出现故障 , 通常这些故障更多出现在关键路径上。在设计阶段虽然设计者无法准确地预知所有故障发生的位置与概率 ,但却可以通过对设计方案进行仿真与分析确定容易发生故障的薄弱环节 ,从而合理地设置和使用链路层故障模型。

链路层永久性故障的发生概率和空间分布同样有一定规律可循。由于老化引起的永久性故障与老化条件有关 ,因而分析并确定容易引起老化的环境因素对确定这类故障发生的概率和空间分布是有很大帮助的。温度是引起晶体管老化的重要原因 ,对于集成电路的温度分布可以在设计阶段即通过一系列的热仿真得到。而由于工艺误差或制造过程引起的永久性故障比较难以精确建模 , 但可以通过分析电路模块的规模简单等效得到 , 在此不再赘述。

2容错设计方法合理性分析

片上网络的容错设计方法已有相当数量的论文讨论 , 但这些论文通常只注重介绍容错方法本身 , 而对容错设计方法的使用前提与使用场景缺乏深入分析与讨论。这一现象导致容错设计方法的合理性存在较大问题 ,因而本文结合之前对故障模型的分析对容错设计方法的合理性进行必要的分析。

2.1基于离线测试的容错方法

基于离线测试的容错方法是一种最基本的容错方法 ,其目的在于提高芯片的良品率。较为典型的基于离线测试的容错方法即为片上网络自适应路由。大多数自适应路由都是在故障状态已知的前提下 ,通过外部所给出的故障信息按自适应路由算法调整信息的传输路径以避开出现故障的链路或路由节点。

按具备自适应路由能力的路由节点对故障信息的知晓程度不同 ,自适应路由可分为基于全局信息的自适应路由算法、基于局部信息的自适应路由算法和基于本地信息的自适应路由算法三类。基于全局信息的自适应路由算法需要使用整个网络的各个资源的状态信息。当然 ,一个路由器需要确切知晓网络中所有资源的状态信息非常困难,代价非常高。因而此类算法常采用空间迭代 , 使得每个路由器获得等价的全局信息 , 如Q-Routing[19]。基于局部信息的自适应路由算法需要路由节点知晓临近节点的信息 ,Fo N[20]以及FRR[21]是此类算法的典型代表。相比于全局信息 ,获取局部信息的代价要小很多。此类自适应路由算法也一直在优化故障信息传输的开销。基于本地信息的自适应路由算法则只关注与路由节点相连的链路或节点的状态 ,Gradient算法[22]就是该类算法的代表。这三类算法中虽然基于全局信息的自适应路由算法效果最好 ,但由于其信息传播开销最大而较少有人研究。基于本地信息的自适应路由算法性能提升受到较大限制而导致优化空间较小 ,但在故障概率较低的情况下已经足以满足设计需求。基于局部信息的自适应路由算法是前几年研究的热点 ,其难点在于平衡信息传播开销、算法复杂度等多方面的因素。

在传统的自适应路由方法的研究论文中几乎不曾提及如何检测并确定某条链路或路由节点已处于故障状态 ,其通常认为故障信息已经确认并作为已知前提开展研究。因而 ,离线测试作为一种基本的检测手段可以直接与这些自适应路由算法相配合作为提高良品率的方法。但需要注意的是离线测试只能针对出厂后的芯片加以检测 , 因而主要检测由于生产加工问题而引起故障。这类故障的成因、分布及其行为在前文已有分析。在选择或设计合理的自适应路由算法时应对其充分加以考虑 ,避免使用与之不相符合的故障模型或错误估计故障概率。

2.2基于在线测试的容错方法

与基于离线测试的容错方法不同 , 基于在线测试的容错方法往往需要与一定的在线测试手段相配合。首先通过在线测试确定故障的位置或发生的概率 ,再采取相应的方法绕开或替换故障单元以达到容错的目的。

基于编码的在线检测方法是开销较小、实现也较为方便的一种。这种方法通过检错或纠错编码检测传输过程中数据出现的错误。但由于纠错编码同时也具备错误数据恢复的功能 ,因而在大多数研究中把这类方法归结于容错方法而非在线检测方法。但实际上合理运用纠错或检错编码并与测试数据注入方法配合是可以达到在线检测效果的 ,在后文中将对此做一定的分析。基于编码的方法可以很方便地与重传机制相配合构成较为高效的混合纠错重传机制 (hybrid FEC/ARQ )[23], 该方法对于临时性故障的容错效果较好。但使用混合纠错重传机制会导致比较大硬件开销和传输延迟 ,因而通常被用于传输层容错。

按照特定的规则向网络注入专门的测试数据包 , 可以根据包的到达情况和接受到的数据对片上网络的链路和路由节点加以检测。与基于编码的方法不同的是,由于发送的数据包内容是确定的 ,可以在接收端通过比对检测出链路中多个数据故障。由于其传输路径可以提前设置 , 可以对路由节点中不同的传播路径加以测试[24]。使用特定的测试数据包不但可以判断链路层故障引起的数据错误 ,还可以通过数据包能否正常地通过特定的传输路径来判断路由节点中某些控制逻辑是否出错。当测试出路由节点的问题后将其映射为链路故障模型 ,再配合自适应路由算法即可以实现网络层容错设计。采用专门测试数据包的另外一个优点在于通过统计已到达数据包的错误概率 ,在明确数据包传输路径的基础上可以求解出不同链路或传输路径上包的错误概率 ,进而对于诊断间歇性故障有极大的好处。

在线测试的另外一种方式是采用在线的内建自测试(BIST)电路。这类在线测试方法需要针对片上网络设计专门的电路测试电路[25],并用适当的方法将被测电路与其他的部分电路隔离。采用内建自测试电路可以在更细粒度的层面检测故障 ,有利于采用更细粒度的错误恢复机制。但内建自测试电路测试的规模与其测试粒度有关 ,测试粒度越细则电路复杂度和规模越大。近年来将内建自测试电路用于片上网络容错设计的研究者主要把精力放在如何平衡在线检测性能、粒度和代价。

2.3基于纠错和硬件冗余的容错方法

纠错与硬件冗余从本质上来说属于同一类方法。纠错依靠传输更多的信息使得数据错误可以被修复 ,硬件冗余则通过在网络中增加更多的硬件资源以使当部分硬件出现故障时片上网络仍然可以正常运行。在传输更多信息时必然涉及到使用更多的硬件资源如连线或存储单元来 ,因而也是一种意义上硬件冗余。严格意义上说 ,片上网络自适应路由算法就是利用了片上网络互联资源的硬件冗余来达到容错目的。

纠错的效果与纠错编码的复杂度以及传输过程中出现错误的概率有关。在端到端传输的错误概率显然大于在两个路由节点之间传输的错误概率。因而在两个路由节点之间才有纠错编码的效果显然好于端到端传输 , 但后者的面积、延迟、功耗等开销要远远小于前者[26]。各种开销的增加实际上会导致片上网络的整体性能下降 , 在很多时候使得容错设计失去了原本的意义。换言之 , 如果主动降低片上网络的性能如运行速度等 ,往往可以使得间歇性故障概率下降而在使用端到端纠错达到同样的效果。这方面的研究目前尚缺乏比较全面和深入的分析。

最普通的硬件冗余容错方法是三模冗余 (Triple Modular Redundancy , TMR )[27], 即通过将同样的硬件资源复制为3份同时运算 ,通过投票选取最可能的结果。三模冗余被广泛的应用各种高可靠要求的硬件设备中。但三模冗余的劣势也非常明显 ,由于其三倍于正常硬件开销而带来的极大硬件资源和功耗增加。同时由于三模冗余导致硬件开销增大 ,变相地也使得错误发生的概率有很大增加。因此 ,一种采用硬件资源相对精简的模块作为三模冗余替代方案的研究思路也正在兴起[28]。这种方法一方面减小了各种开销 ,另一方面可以使得系统的可靠性进一步提升。

就纠错与硬件冗余的容错方法而言 , 其面临的最重要的问题在于设计本身是否存在过度设计 (Over Design) 而导致不必要的开销甚至影响片上网络可靠性最大限度地提升。这一方面的研究由于需要对片上网络从物理效应、故障概率到容错设计方法做比较完整的建模与深入分析而一直未取得较大突破。

2.4其他容错方法

除上述多种容错设计方法外 , 还有一些其他的容错设计方法可以被应用到片上网络的容错设计中。目前这些方法已经在其他电路设计领域被采用了 ,但片上网络领域研究还相对较少。基于感知的容错方法和基于设计优化的容错方法就是比较重要的两种。

基于感知的设计方法其实质在于通过测量环境参数、分析电路的工作状态 , 进而判断电路是否在当前环境条件下工作在不稳定的临界状态。当判明当前状态后 ,通过调整电路的工作状态使得错误率降低到可以被纠正的程度。目前这种方法已经被应用于高能效处理器可靠性设计中[29]。片上网络领域还较少见到采用类似的设计方法。

基于设计优化的容错方法是指在设计优化时不但考虑优化系统性能、资源或功耗开销等 , 同时可以把可靠性问题加以优化。例如可以通过优化专用片上网络的拓扑结构来减少或避免串扰引起的故障。这一容错设计方法已经在专用集成电路中逐步被采用 ,但同样在片上网络研究领域使用还相对较少。

3结语

【容错方案设计】推荐阅读：

容错性能05-18

网络容错05-29

容错管理08-21

容错补偿10-28

容错控制11-04

容错纠错机制07-20

软件容错性07-12

容错服务器08-18

高端容错计算机07-14