容错管理

2024-08-21

容错管理（共9篇）

容错管理篇1

教师的工作对象是学生, 学生教育管理是教师工作的重要内容。学生因其各种因素的影响, 犯错在所难免。加强对犯错学生的教育管理是每一位教师必然面对的问题。那么, 应如何加强对犯错学生的教育管理呢?

其方式大体有两种: (1) 严厉批评, 公开处理。这样做的结果是, 把犯错学生当作反面教材严肃处理, 公布其犯错事实与处理结果, 往往能对其他学生起到警示教育的效果, 但往往打击犯错学生的自尊心。 (2) 容忍学生犯错, 但对犯错学生进行保护的同时通过约束与指导促使学生自我改正。这两种方式与计算机领域里所说的避错设计与容错设计相似。

计算机研究领域里有两种提高计算机系统可靠性的方法:避错设计和容错设计。避错设计又称排错设计或完善设计, 要求采用正确的设计和质量控制方法尽量避免把故障引进系统以及尽量减少器件的失效率 (1) 。避错的目的是尽量降低出错率, 但避错设计再完善, 也总有一天会出现故障, 从而导致系统出错甚至崩溃。为提高系统的可靠性, 就需要容错设计。

容错, 顾名思义, 即容忍错误。所谓容错设计, 即故障容忍技术, 它允许程序在运行过程中出现人为的或系统性的错误时能予以及时纠错, 以保证程序运行正常终止及系统不致崩溃。 (2) 郑家亨主编的《统计大辞典》对“容错”是这样解释的:尽管发生一个或若干个故障, 程序或系统仍能正确执行其功能的称谓。它往往包括三方面的功能。 (1) 约束故障, 防止故障影响继续扩大; (2) 检测故障; (3) 恢复系统。 (3) 简言之, 容错理论的三个功能是:约束故障——检测故障——恢复系统。

容错理论对学生教育管理有着重要的启示作用, 容错理论可以应用于学生管理实践之中。归纳起来, 有以下几点启示:

一人人都可能犯错

俗话说:“金无足赤, 人无完人。”人总不免会有一些缺点, 总会在某些时刻犯错。可以说, 犯错是任何人都会面临的客观事实, 犯错是必然的。就每一阶段而言, 犯错是可能的。

学生犯错有多种表现, 如有学生在学习上不认真, 不遵守课堂纪律, 考试作弊;集体观念不强, 对集体荣誉漠不关心, 对分配的劳动任务不认真完成;不能正确处理同学关系, 哥儿们义气, 早恋;相互攀比, 花钱大手大脚;不懂得感恩, 对父母充满怨言;道德观念淡薄, 撒谎、欺负弱小甚至有偷盗行为;酗酒、斗殴等。

学生犯错的原因多种多样, 归纳起来, 主要有自身、学校、家庭、社会四个方面的因素。就自身而言, 从小学到初中、高中再到大学, 学生的生理、心理要经历一系列的变化:身体不断发育, 功能不断成熟;智力不断发展、认知能力与思维水平不断提升;情绪、性格不断发展, 自我意识与道德观念等不断增强;不同程度地表现青春期逆反心理等。这些生理心理的变化可能影响学生的认知水平、情绪管理能力、气质个性和叛逆性格等, 这些方面往往与学生犯错有着密切关系。

学校教育对学生犯错也有一定影响。学生在学校生活、学习, 与教师、同学接触很多。学生在班级往往有小团体, 小团体的存在对学生有利也有弊, 教师需要对班级小团体加强引导, 以发挥其积极影响, 消除或减少其消极影响。教师还要因材施教, 针对不同个性的学生采取灵活的教育方式, 充分关注常见的心理问题, 如自卑、孤僻、冷漠、贪婪、嫉妒、虚荣等。教师还要加强和学生家长的联系交流, 以便及时沟通反馈, 掌握学生的心理动态。这些方面如果存在缺失或疏忽, 也可能造成学生犯错。

家庭是与学生成长联系非常紧密的环境。按照马斯洛的需要层次理论, 学生家长是最早满足学生有关需要的人。马斯洛的需要层次理论认为:人的需要是分层次的, 共有五层, 由低到高分别为生理的需要、安全的需要、归属和爱的需要、尊重的需要、自我实现的需要, 人的需要从低级向高级逐步发展;某一时期内, 某一需要占主导, 支配人的行为, 其他需要占次要地位。可以说, 学生的生理需要、安全需要、归属和爱的需要、尊重的需要最早都是由学生家长来满足的。这些需要如果没有得到满足, 学生就可能会出现心理、意识、情感及性格上的某些缺陷, 从而为学生埋下犯错的“种子”。

社会环境对学生的犯错也有影响。社会上流传着形形色色的人生观、价值观、世界观, 学生对这些观点缺少分辨和思考能力, 往往因为好奇心强、易于接受新鲜事物而接受了某些社会上的流行观点, 如拜金主义、享乐主义、极端利己主义、厚黑学等, 这都可能对学生产生潜移默化的影响, 甚至诱导学生犯错。

学生犯错的原因是多方面的, 学生犯错也是在所难免的。不仅学生可能犯错, 教师也可能犯错。如某次中考, 有一个监考老师没有清点份数就将试卷封装交主考带走, 后来学生清理教室时才发现还有几张提前交卷的试卷放在讲桌抽屉里没有封装。学生发现后赶紧报告监考组, 但试卷是否修改无从知晓, 学生该科中考成绩如何计算成为难题。监考老师因此事而受到严厉处分。又如, 20世纪90年代初的一次中考, 两个同名同姓的人在同一个组考体育, 叫到甲的时候乙去考, 叫到乙的时候甲去考, 送考老师、主考老师以及参考的同学都没有注意准考证号与姓名要配合使用, 造成两个同学的体育成绩“调包”。后来的结果是其中一个同学总分离中专上线差2分, 但他的体育成绩被少计了3分!本来考上了中专却因为老师的失误而不能就读, 从而失去了一次机会。

人人都可能犯错, 错误的发生可能受客观条件的限制, 也可能是主观方面的疏忽大意所致。对于教育工作者而言, 要认识到学生犯错在所难免, 即使是教师自己也可能犯错。所以教师要正视错误的发生, 要容许错误的存在, 就像容错理论一样, 要容忍错误的发生。

二避错式批评不利于学生发展

避错式批评是指对发生错误的学生严厉查处公开批评的做法。避错式批评往往把犯错学生当作反面例子进行公开惩罚, 这样做往往能对其他学生起到警示教育的效果。如某同学考试作弊, 被监考老师当场发现, 后被教务处给予留校察看处分并全校通报。其他学生可能从此事“引以为戒”, 但犯错学生自尊心受到了伤害, 长时间内受到消极影响。当然, 笔者并不主张完全摒弃避错式批评, 避错式批评有存在的必要, 但要谨慎使用。毕竟学生犯错在所难免, 如果不顾及学生的自尊一味地惩罚学生, 可能会造成学生的被动与麻木。而且有些学生的错误可能是被冤枉的。这种情况下的避错式批评造成的消极影响更大。笔者曾听说过这样一件事情。在高考前不久, 有人在黑板上写下对某老师的恶毒咒骂。该老师怀疑是某学生所写, 就让该学生写字并查验笔迹。结果更证实了该老师的假定, 于是该学生就被当作反面典型遭到全校师生的严厉谴责。该学生遭受不白之冤, 情绪失控, 高考失利, 很久后才走出阴影。笔者也险些遭受冤枉的避错式批评。读中专时的一次语言学考试, 我坐在最后一桌。考试时, 监考老师来到我身边, 他从我坐的课桌里找到了一个纸团, 打开一看, 里面居然写着几个语言学论述题的答案!我百口莫辩。幸好, 监考老师只是把纸条收走, 轻轻地在我的桌子上敲了两下。如果他把我当作考试作弊送交教务处惩处, 恐怕我在这样的打击下会长时间的孤立自闭或消沉颓废。当然, 监考老师是认定了我作弊的“事实”, 只是他容许了我的“错误”放我一马, 才让我躲过一劫。

三容错式教育有利于保护学生

容错理论三种功能可以应用于对学生的教育管理之中, “约束故障”类似于对犯错学生进行约束, 防止事态扩大;“检测故障”类似于引导学生认识犯错事实, 分析犯错原因;“恢复系统”类似于帮助学生自我改正。笔者将容错理论应用于学生教育管理实践称之为“容错式教育”。

容错式教育与避错式批评不同, 它预料到学生犯错是难以避免的, 老师也可能犯错。所以, 当错误发生时, 容错式教育不是把学生当作不可原谅、不可饶恕的, 不是通过严厉处分来对学生进行惩罚与追究, 也不对学生进行公开批判, 使其蒙受耻辱, 甚至遭到其他同学的嘲讽与孤立。它把学生当作可以挽救、应该保护的对象, 对犯错学生予以充分的同情与理解, 同时对犯错学生予以约束。这种约束既包括将学生的犯错控制在一定范围内, 使学生不至于错上加错, 不至于让更多的学生参与而使事态不断扩大;也包括将犯错学生在一定范围内予以保护, 防止影响扩大;还包括防止学生犯同样的错误。这种约束与控制应该坚定有力、及时有效。容错不仅要对学生进行约束, 还应对学生进行教育批评, 使学生进行深刻自我批评, 充分认识到错误事实、发生错误的根源与错误引发的影响等, 这个过程也可称之为“反思”或是“悔悟”。容错式教育不仅要约束、反思, 还要帮助学生改正, 使学生不再出现同样或是类似的错误, 就像系统经过恢复可以正常工作一样, 犯错的学生经过自我改正也成了一个道德上没有污点的人, 与其他人可以正常交往而不必像避错式批评的学生一样要承负较大的舆论谴责与心理压力。而且, 犯错学生因为感受到了教师对他的保护与关爱, 自尊心与荣誉感得到了维护, 获得了改过自新的机会, 他会更加积极地改正错误、追求进步。从这个意义上讲, 容错式教育对学生的发展更为有利。

如一次班级活动中, 我发现有一个学生失魂落魄, 魂不守舍。我把她留下来, 并告诉她有什么事可以找我。经过一番思想斗争, 她终于向我说出了事情的原委:她银行卡里的5000元被别人全部取走了, 她只是和一个同宿舍的同学一起去取过钱。那个同学最近花钱大手大脚, 非常可疑。了解了情况之后, 我叫那个有嫌疑的学生单独谈话。我推心置腹地告诉她:“窃取密码取走别人银行卡上的钱是一种偷盗行为, 两张卡上5000元全部被偷, 已构成犯罪, 而且自动取款机上的监控摄像会把取钱的全过程录下来, 要确认犯罪事实很容易, 如果交由公安部门来处理, 你可能面临坐牢, 这一辈子可能永远地钉在耻辱柱上了。”该生急得大哭, 说自己只是一时糊涂才犯下如此大错, 请求原谅, 并愿意赔偿所有损失。在征得失窃同学的同意下, 此事没有向公安部门报案, 并最终圆满解决。两位女生成了好友并都顺利地考上了大学, 毕业后都找到了理想的工作, 两人都对我的容错式教育表达衷心感谢。

四容错式教育应该注意的问题

与容错理论“约束故障、检测故障、恢复系统”相对应, 容错式教育的三个过程可以称之为“约束——反思——改正”。容错式教育应该成为教育工作者管理教育学生的一种方式, 相对于避错式教育而言, 它更有利于保护学生, 更有利于学生的发展。当然, 容错式教育也应该注意以下问题: (1) 容错应该注意适应对象。对于那些因一时糊涂犯下错误的学生可以容错, 对于屡教不改的学生, 容错式教育也就没有效果了。 (2) 容错式教育中, 教师要有约束, 要把学生的错误控制在最小的范围内, 既避免事态扩大, 又注意保护学生。 (3) 要引导学生反思反省, 让学生真正明白错误所在, 及如何弥补。这个过程中还要让学生明白老师对他的保护、关爱与期待。 (4) 教师应该加强对学生的监督, 要保证学生切实得到了教育, 不再犯类似错误。换言之, 容错并不是对学生的错误听之任之, 不管不顾, 而是要在保护学生的同时坚定地约束学生, 使他充分反思并在老师的监督下切实得到改正。 (5) 教师要真诚地欢迎学生改过自新, 及时肯定犯错学生取得的进步, 这样学生的改过自新才是积极主动的, 不要让学生感觉到自己是有把柄在老师手里, 那样他并不会真心改正。

以上为笔者就容错理论对学生教育管理的启示所做的初步探讨。笔者认为, 容错理论作为理工科的重要理论, 应用于人文社会领域的学生教育管理, 将是一种有益的新思路。

摘要：容错理论是计算机领域里为提高系统可靠性而采取的设计理论。容错理论对学生教育管理有重要启示。

关键词：容错理论,学生教育管理,启示,避错式批评,容错式教育

注释

1黄永勤、金利峰、刘耀.高性能计算机的可靠性技术现状与趋势[J].计算机研究与发展, 2010 (4)

2陈万福.查新检索工作中的容易错理论与容错技术[J].医学情报工作, 2010 (5)

3郑家亨主编.统计大辞典[Z].北京:中国统计出版社, 1995

容错管理篇2

——记周河九年制学校XXX同志的事迹

一、基本情况

XXX，女，汉族，19XX年X月生，陕西靖边人，201X年毕业于XX大学xxx专业，本科学历，2015年至今，一直任教于靖边县周河九年制学校。

二、主要事实依据

XXX同志在参加工作的头一年，由于刚刚走出校园，还没有做好走上工作岗位的心理准备，对教师这个职业缺乏清晰的认识，加之，我校地处靖边南部山区，交通不便，离家较远，和自己想象中的工作环境相差甚远，所以，该同志在刚参加工作时带有严重消极情绪，在日常的工作中，表现出极大的忧怨情绪，上班不积极，经常无故消极怠工，对学校领导的指示爱搭不理，这种消极的心理尤其体现在平常的教学业务中，比如说：教案的大量短缺，不按学校的要求进行教案的备写，常有不带教案进教室的现象发生；作业布臵相当随意，批改也是敷衍了事，对学生犯的错误也臵之不理；在学校搞得研修活动中，该同志经常不参加，或者在活动干与活动无关的事；上课时班级秩序混乱，缺乏对学生的有效管理，所任教的科目成绩相当差......三、容错纠错的具体运用

面对该同志的这种工作状态，我校的领导并没有将其放弃，打入“冷宫”，而是对该同志给予大爱，想尽一切办法帮她摆脱困境，改变状态，首先，学校相关领导与该同志进行了推心臵腹的面谈，找出了该同志消极状态的症结所在，接着，校领导对其展开多种形式的帮扶，以纠正该同志的错误，比如：关心该同志的生活问题，在不违反学校原则的情况下，给予该同志生活上的一切便利，使她能够在学校这个大集体中感受到温暖；让有教学经验的老同志经常与其交流，走进课堂，对该同志也业务予以多方面的指导，让其感受到教师这个职业的光辉；学校根据该同志的专业特长，将一些学校活动的组织策划，部分任务交给该同志，并一直对该同志予以支持和鼓励，让该同志发现自己的价值所在，感受到工作的快乐。

经过将近半年容错纠错，该同志的工作状态发生了翻天覆地的变化，彻底地摆脱过去消极的工作情绪，对工作产生出极大的热情与动力。如今，该同志已经成长为我校一名优秀的青年教师，并且在学校举行的多次活动中获奖，并多次荣获“模范教师”的称号。

四、启示

容错管理篇3

大型离散制造业 (如装备、建材、汽车零配件、家具、家电等) 的内部供应链管理问题始终是企业信息化的重点和难点, 也是容易造成企业信息断层的薄弱环节, 内部供应链管理的有效性和科学性直接影响到企业运作的效率和成本, 影响到企业的客户关系和企业形象, 从而影响企业的整体竞争力。在制造业的内部供应链中, 仓储管理又是重要和关键环节, 大型制造业的内部仓储系统往往十分庞大和复杂, 具有品种型号繁多、立体多元密集、动态变化迅速、空间操作面庞大等特点, 企业常常因为物品进库未严格执行预先设定程序而造成出货效率低下, 货物寻址困难, 严重影响企业内部供应链管理。本系统针对大型制造业内部仓储系统的具体特点, 采用RFID触发容错寻址方式, 研究设计大型仓储的智能管理模型, 探索大型制造业的仓储系统智能化管理的普遍规律, 为工业化与信息化融合提供应用模型。系统设计的目标如下:

1) 通过信息化技术在大型制造业智能仓储系统中的应用, 有效提高企业内部供应链运行效率, 降低内部物流成本, 杜绝企业内部物流各环节的漏洞, 避免出现供应链信息断层, 提高企业信息化水平和整体竞争力;

2) 通过分析大型制造业智能仓储系统的典型事件流模型, 研究设计一套适应于大型离散制造业的内部仓储智能管理系统, 通过配置化、移植化、模块化等手段, 形成典型的大型仓储管理系统的应用解决方案, 为系统产业化打下基础;

3) 我国是世界制造业基地, 大型制造企业不乏其数, 这些企业大多具备离散制造的特点, 其内部供应链管理都面临同样的问题。本系统研究的成果可以在这些企业中得到很好的应用, 对推动我国制造业的发展具有重要意义。

2 大型仓储系统的现状分析

国内大型制造企业的仓储管理大致分为3种类型:传统式的人工管理、依赖ERP系统的供应链管理、智能仓储管理系统。

传统的仓库管理一般依赖于一个非自动化的、以纸张文件为基础的系统来记录、追踪进出的货物, 完全由人工实施仓库内部的管理, 因此仓库管理的效率极其低下, 所能管理的仓库规模也很小。依赖ERP系统的供应链管理是基于企业的局域网或互联网, 对仓储的管理货物或材料进行计算机信息化管理, 物品进出仓依赖人工电脑输入, 并少量使用工作单的传递, 货物的堆放和定位靠事先的预定程序设定, 操作者必须严格执行, 货物的进出平衡基本有保证, 但寻址和定位就可能因为人的责任心或现场的客观情况而难于实现精准管理, 通常要靠一段时间进行一次盘点来理顺, 但盘点毕竟是事后行为, 并不能实现仓储系统信息的实时化。智能仓储管理系统常常采用条码技术、二维码技术甚至是RFID技术, 对仓库到货检验、入库、出库、调拨、移库移位、库存盘点等各个作业环节的数据进行自动化的数据采集, 保证仓库管理各个环节数据输入的速度和准确性, 确保企业及时准确地掌握库存的真实数据, 合理保持和控制企业库存。目前, 各大企业采用数据自动采集技术管理供应链中的仓储系统, 其采集方法还是被动采集或半自动采集, 数据采集终端通常装配在托盘或叉车上, 或者是操作者手持便携式终端, 无法做到密集货架地址的唯一性, 客观上还是无法实现货物的动态寻址, 一定程度上还是依赖人的责任心。

我国的大型制造企业的内部仓储系统虽然庞大, 但自动化程度还很低, 建设机械化、自动化的仓储系统投资也十分惊人, 在未来很长时间内还将维持目前现状。因此设计一种既能实现数据自动采集, 又能实现货物自动容错定位的仓储管理解决方案, 是一种既省钱又能达到智能管理目的的好方法, 这也正是本系统的核心内容。

3 系统设计的主要内容

1) 研究开发全新理念的主动采集、容错寻址的RFID技术部署方案, 包括货物托盘电子标签设计及部署、多层密集货架感应天线设计及部署、密集采集分布式读写器设计及部署、多通道数据通讯路径设计及部署、RFID原始信号的预处理 (如隔离、分序、过滤、判断及干扰处理等) 、故障诊断及定位系统的设计等;

2) 仓储系统数据库及软件平台设计, 数据库设计包括货物动态平衡数据库设计、三维货架状态数据库设计、托盘状态数据库设计、电子标签与读写器天线逻辑地址数据库设计、逻辑状态与物理状态对应关系的数据库设计、内部操作人员及操作设备数据库设计等;软件平台设计包括仓储监控平台、物品进库平台、物品出库平台、货架动态分配平台、智能寻址平台、托盘及操作设备调度平台、盘点及统计平台等;

3) 系统数据与ERP内部供应链管理接口设计。包括异构数据的同步与访问、ERP指令的接受、仓储状态的动态实时上传等, 以实现企业整体信息化。

4 系统要解决的关键技术难题

1) 解决适应于金属表面的电子标签和读写器天线的通讯有效性问题。众所周知, 金属表面会改变电子标签和读写器的性能和参数, 对数据采集造成严重干扰, 影响电子标签的识读和通讯, 由于大型仓储系统的载体单位的成品仓库无论是货架、托盘还是货物很可能是金属材料, 在其上部署RFID技术, 通讯的有效性是首当其冲的难题;

2) 解决密集读写系统的数据通路隔离和地址匹配问题。大型仓储的立体货架、货位和托盘都非常多, 每个托盘都部署有电子标签, 每个货位都部署有读写天线, 读写器的数量非常多, 可见RFID数据通讯十分频繁, 一方面要建立物理位置与逻辑地址的对应关系, 处理好信号采集及通讯的排序、防冲突、防干扰、信号甄别、信号遴选等核心问题, 处理好RFID触发网络反应速度问题;另一方面要处理好信号的隔离问题, 防止单元故障引发系统故障, 同时通过诊断软件, 第一时间定位故障单元, 以便及时排除故障;

3) 解决RFID识读的距离和极化问题。大型仓储系统操作面庞大, 货物就位大多采用厂内机动车协助, 随意性大, 就位不可能十分理想, 托盘电子标签与货架读写天线的距离忽远忽近, 角度也可能偏移。因此, 读写距离和极化角度是一个直接影响数据采集有效性的关键问题, 范围过大会影响不同货位之间的数据混读, 范围过小则会造成漏读。解决这一问题一方面要根据现场情况设定合适的读写距离和极化角度;另一方面要适当设置屏蔽和隔离设施, 以确保数据采集的准确性;

4) 解决货物批次与托盘级管理的货物分解与合成问题。由于采用了托盘管理, 为提高空间利用率, 很可能同一批次和型号的货物分布在不同的托盘和货架, 这就是货物批次分解问题。相反, 在货物量少的情况下, 不同批次和型号的货物可能存放于同一托盘和货架内, 这就是货物批次合成问题。因此, 必须根据实际操作情况, 分析并建立货物分解和合成事件流模型, 厘清并规范分解与合成的逻辑关系, 形成标准的计算机解决方案, 这样既可提高软件系统的可靠性, 又便于技术平台的产业化应用。

5 系统设计的具体方法

5.1 总体方案设计

仓储管理是企业供应链管理的一个重要环节, 必须基于企业的现行ERP系统来进行设计, 才能实现其智能管理和科学决策功能。底层也就是原始信息采集层通过通讯系统将大量数据包传输到服务器, 以供管理及决策使用。因此, 本项目总体设计的主要任务是仓储数据采集系统、数据通讯系统、数据库系统、管理软件系统、与供应链接口系统以及与企业ERP接口系统。图1是本系统的总体设计体系结构图。

5.2 RFID部署设计

RFID部署的科学性直接关系到系统的稳定性、有效性和可用性, 为实现RFID触发容错寻址, 同时防止通讯路径的相互干扰和冲突, RFID系统部署共分为三级网络, 一级网络包含四个二级子网络。每个二级子网络包含20个三级子网络。每个三级子网络包含66~132个RF读写器节点。RF读写器及电子标签采用125k Hz, 传输方式采用485工业总线技术传输, 电源采用分组供电方式, 每6个RF读写器节点共用一个电源。

所谓触发容错寻址, 就是操作者在运送货物到货架存放时, 无论是严格按计算机事先安排的空位存放还是因多种原因造成错误存放, 计算机系统都能通过RFID的实际触发地址而进行容错处理, 货物及托盘的实际物理地址并不会出现混乱。本系统通过在密集货架的每一个货位上设计部署逻辑地址唯一的读写器或感应天线, 在每一个托盘上部署唯一UID码的电子标签, 一旦托盘进入货位的识读范围, 即可触发RFID系统动作, 将货物与货架的对应关系自动传输到计算机系统, 计算机系统数据库里始终保存着正确的地址信息。这种方式下允许人的操作误差, 并实现自动容错, 充分体现了人性化设计的特点, 同时大大提高了系统的稳定性和适应性。

5.3 软件系统设计

软件系统是实现管理功能和决策功能的载体和工具, 软件设计基于RFID采集的原始信息数据库、物理仓储系统抽象描述数据库及货物属性描述数据库, 大型制造业内部仓储系统软件设计至少包括如下平台:动态监管及调度平台、入库作业平台、出库作业平台、移库作业平台、盘库作业平台、数据接口平台、数据挖掘及分析平台等。

1) 动态监管及调度平台:包括监管仓库的货物存量、货物流量、货物存放物理及逻辑位置、发送入库指令、发送出库指令、货物寻址指引、维持动态平衡等功能;

2) 入库作业流程:收货检验=〉制作和粘贴标签=〉货物进托盘=〉现场计算机自动分配库位=〉运送货物到指定库位 (错放了也没关系, 系统会自动容错) =〉托盘与货架自动对接通讯=〉每次操作的货架号和对应物品编号自动传输到网络计算机系统=〉计算机比对实际存放库位与理论存放库位是否一致=〉更新库存数据库;

3) 出库作业流程:中心计算机下达出库计划=〉现场计算机编制出库指令=〉作业人员按数据终端提示, 到达指定库位=〉从库位上取出指定货物对应的托盘=〉货架与托盘脱离触发RFID动作=〉货物离开货架的信息自动传输到计算机网络=〉货物运送到出口处=〉向现场计算机发回完成出库作业信息=〉更新中心数据库;

4) 移库作业流程:根据需要, 计算机编制移库指令=〉将需要移动的货物对应的托盘从货架取出=〉货架与托盘脱离触发RFID动作=〉货物离开货架的信息自动传输到计算机网络=〉运送货物到指定库位=〉托盘与货架自动对接通讯=〉每次操作的货架号和对应物品编号自动传输到网络计算机系统=〉更新库存数据库;

5) 盘库作业流程:分为自动盘库和人工盘库。自动盘库流程:计算机发出盘库指令=〉对RFID全部单元进行扫描=〉输出盘库结果=〉比较盘库结果与货物实际存量, 不符时发出警示=〉向现场计算机发出盘库结束信息。人工盘库采用便携式RFID数据终端和条码终端, 理论上并不需要人工盘库, 只有当货物、货架、托盘出现匹配混乱时才需进行;

6) 数据挖掘及分析平台:包括生成统计分析报表、决策建议、仓储效率分析、物流路径优化设计、操作者考核与作业量统计等。

6 结论

干部员工容错纠错实施办法篇4

第一条为协调推进“四个全面”战略布局和落实五大发展理念，切实落实“三个区分开来”的要求，认真贯彻落实省委、省政府提出的“在更高层次上发挥杨凌示范区作用”的部署，推进示范区、公司“十三五”发展规划顺利实施，大力营造锐意改革、勇于创新、敢于担当、合理容错的良好氛围，充分调动干部干事创业的积极性，根据《杨凌示范区干部容错纠错办法（试行）》等有关规定，结合实际，制定本办法。

第二条容错纠错是指对有关部门和个人在履职担当、改革创新过程中，未能实现预期目标或出现偏差失误，但符合法律法规和政策规定，勤勉尽责、未谋取私利的，不作负面评价，及时纠错改正，免除相关责任或从轻减轻处理。

第三条容错纠错工作实行一事一议，坚持依纪依法、坚守底线，区别对待、宽严相济，允许试错、宽容失误，着眼预防、及时纠错，勇于担当、激发活力的原则，旨在鼓励改革创新、支持干事创业、及时预防纠错。

第四条在改革创新和履职担当过程中，未达到预期效果或工作出现偏差失误，但没有违规违纪、没有谋取私利、没有造成重大损失或恶劣影响的，且符合下列情形之一的，可根据问题性质和情节轻重进行容错。

（一）在落实党工委管委会、公司决策部署，特别是在推动重点工作、重大项目时，因大胆履职、大力推进出现工作失误或引发矛盾的；

（二）在推进改革和体制机制创新中，因缺乏经验、先行先试出现探索性失误或未达到预期效果的；

（三）在招商引资、精准脱贫、项目建设工作中，因促进发展、创造性开展工作或不可预知因素导致政策规定执行出现一定偏差、造成一定损失或未达到预期效果的；

（四）在政策法规把握和执行中，因法律法规没有明令禁止、政策界限不明确或政策法规调整影响出现偏差的；

（五）在服务企业、服务群众中，因着眼于提高效率进行容缺受理、容缺审查出现一定失误或偏差的；

（六）在处置重特大事故、群体性事件、突发性案件或执行其他急难险重任务中，因果断决策、及时应对处置出现一定失误或因不可抗力造成损失的；

（七）在工作中因自然灾害等不可抗力因素，导致未达到预期效果或造成负面影响和损失的；

（八）在涉及全局利益工作中，因维护大局、主动放弃部门或局部利益引发内部矛盾和不满的；

（九）按照事发当时法律、法规和有关规定，不应追究责任或从轻追究责任的；

（十）主动纠错纠偏、有效避免损失或者挽回影响的；

（十一）其他符合容错情形的。

第五条符合第四条容错情形之一，且具备以下条件的，可以容错并完全免责：

（一）法律、法规没有明令禁止的；

（二）符合党工委管委会决策部署的；

（三）经过集体民主决策并有书证的；

（四）没有为自己、他人或单位谋取私利的；

（五）主动采取措施，尽力挽救损失的。第六条容错认定按以下程序进行：

（一）申请。相关部门或个人受到问责追责时，认为符合容错减责或免责情形之一的，应在启动问责程序后7个工作日内，按照干部管理权限向公司纪检组和行政人事

部门提出书面申请，并提供相关依据及材料。

（二）核实。受理部门受理申请后，对符合容错情形的，应当会同有关部门开展调查核实，广泛收集相关证据材料，充分听取有关单位或个人的申诉意见，形成调查报告。对于不符合容错情形的，受理部门应当予以解释答复。

（三）认定。核实结束后，公司纪检组和行政人事部应当以事实为依据，以纪律规定和法律法规为准绳，做出容错认定结论。

（四）反馈。公司纪检组或行政人事部对认定结果在3个工作日内向申请单位或个人反馈。属于免责的，应当在一定范围内公开。

第七条经确定予以容错的单位或个人，可在以下方面免责或减责：

（一）在各类考核中免予扣分；

（二）在干部提拔任用中不受影响；

（三）在评先树优、职称评定中不受影响；

（四）需追究党政纪责任的，可酌情从轻、减轻处分或组织处理。有一定影响的，影响期结束后提拔任用不受影响。

第八条建立纠错改正机制，对存在过错或失误的部门或个人，可以采取以下措施：

（一）抓早抓小，加强日常监督管理。对工作中出现的苗头性、倾向性问题，早发现、早提醒、早纠正。对普遍存在的共性问题，及时掌握动态，有针对性地教育引导，完善制度机制。

（二）查找原因、纠正错误。采取纪检监察建议书、提醒约谈、诫勉谈话、发函提醒、责令纠错等方式，督促有关部门或个人分析查找原因，制定改进措施，及时纠正偏差和失误，推动问题整改。

（三）分类处置、宽严相济。运用好“四种形态”，区别对待，教育引导干部员工切实发挥纪律和规矩的正面引导和惩戒警示作用。

第九条纠错改正按以下程序办理：

（一）公司纪检组或行政人事部在向有关单位或个人作出免责减责认定结论时，应同时启动纠错程序，向纠错对象发送纠错通知，说明纠错事由，指出错误所在，提出纠错要求。

（二）纠错对象在收到纠错通知5个工作日内，应向

公司纪检组或行政人事部提交书面整改计划，明确整改措施、整改期限和相关责任人。

（三）公司纪检组或行政人事部要跟踪了解纠错对象的整改情况，督促其限期改正。对整改不力、不良影响继续蔓延的，根据情节轻重，采取批评教育、诫勉等组织处理措施；对拒不整改、造成严重后果的，要按照有关规定给予党政纪处分。

第十条建立澄清保护机制，对所反映问题失实或受到诬告的单位或个人，可以采取以下措施：

（一）及时消除负面影响。对查无实据或轻微违纪但不够追究纪律责任的信访问题，可以通过谈心、召开会议和通报等适当方式，在一定范围内及时澄清事实，消除负面影响。

（二）严肃查处诬告诬陷行为。对恶意中伤、干扰改革创新或持续上访造成恶劣影响的，要依法依纪追究责任，并及时通报曝光典型案件。

（三）客观公正处理。核查有关问题时，全面收集各方面的意见建议，充分听取被反映部门或个人的解释和说明，切实保障干部的合法权益。

（四）强化关心关爱。对予以容错纠错的干部实行跟踪管理，期限一年。分管领导、行政人事部至少每半年进行一次谈心谈话，关心了解其工作生活和思想状态，帮助解决实际困难，鼓励其放下思想包袱，轻松上阵。

第十一条容错纠错工作在公司党组领导下，由公司纪检组和行政人事部按职责分工组织实施。公司纪检组主要负责党纪政纪方面问责追责的容错纠错，行政人事部主要负责组织处理方面的容错纠错，以及容错纠错结果在干部管理工作中的运用。

第十二条加强正面引导，大力宣传支持保护干部干事创业的政策措施，营造容错纠错的浓厚氛围。

第十三条本办法由公司党组解释，具体解释工作由公司纪检组、行政人事部承担。

网格与容错篇5

简单地说, 网格就是一个集成的计算与资源环境, 或者说是一个计算资源池。网格能够充分吸纳各种计算资源, 并将它们转化成一种随处可得的、可靠的、标准的同时还是经济的计算能力。除了各种类型的计算机, 这里的计算资源还包括网络通信能力、数据资料、仪器设备甚至是人等各种相关的资源。

然而到目前为止, 网格计算还没有一个十分精确的定义, 下面是Ian Foster给出的一个较为通用的定义:

网格就是在缺少中央控制、没有全知者以及强的信任关系的情况下能够协同使用地理分布的各种资源。

通常网格系统按用途可分为计算网格 (Computational Grid) 、数据网格 (Data Grid) 和服务网格 (Service Grid) 三类。

二、容错

容错计算领域的研究至今己经有30多年的历史, 研究内容包括容错体系结构、部件可信性、软件可性、可信性验证与评估等方面, 容错技术从部件级逐渐发展到系统级, 从1975年开始, 商业化的容错机制推向市场, 到了上个世纪90年代, 软件容错被提了出来, 进而发展到网络容错。

具有容错功能的计算机系统可大致分为两类: (1) 专用的容错计算机系统; (2) 通过通用计算机系统添加一些容错软件 (addon) 构成的容错计算机系统。专用的容错算机系统一般应用于对可靠性要求非常高的关键部门, 比如航空、航天及重要生产部的过程控制等, 由于其价格昂贵, 所以应用范围有限;通过第二种方式构建的容错计机系统由于其价格相对便宜, 所以可广泛应用于对可靠性有一定要求但又不是十分严格的领域, 由于受系统原有软硬件的限制, 这类系统的容错能力有限。

(一) 容错中的基本概念。

容错 (fault-tolerance) , 其中Fault是错误或故障, Tolerance是宽容、容忍的意思。换句话说, 一个容错系统在出现一些错误的情况下, 仍然能够完成其指定的任务。系统容错涉及的基本术语主要有:

1、故障 (fault) 、错误 (error) 和失效 (failure) 。

2、故障、错误和失效之间的关系

故障、错误和失效三者之间的关系如图1所示。从图1可知, 物理和化学等原因造成了系统运行时的环境问题和组件缺陷, 加上设计、运行及操作人员等因素一起, 引起了软件故障、硬件故障和技术故障。

错误就是由这些故障引起的, 从而导致失效。因此它们之间存在着一定的因果关系:故障导致错误, 错误引起失效。

当错误导致无法提供满足用户需求的服务时便产生失效。失效会激活其它处于非激活状态的故障, 进而引起新的错误和失效。这种连锁效应将最终导致整个系统的失效。

(二) 容错处理流程。

容错是指一个运行着的系统容忍出现故障的能力, 主要通过错误处理和故障处理实现。错误处理的目的是从系统中移除错误, 故障处理的目的是防止故障再次被激活。此外, 为了能够及时采取错误处理, 系统必须具有错误检测的能力, 并且能够对错误引起的操作进行评估。

容错的一般过程如图2所示。其中:

错误检测用于发现系统中部件的运行是否处于正常状态, 一旦部件出现异常, 能够及时的通知其它模块。错误检测常用方法包括运行时间检测、误码检测、比较算法和合理性检测等。

当检测到一个错误时, 为了能够对错误引起的危害采取正确的措施, 需要对错误进行损伤评估, 根据危害的程度采取不同的措施。

在系统的损伤评估后, 可以通过错误恢复或错误补偿进行错误处理。

在系统成功地容忍了一个故障或系统因为失效而离线后, 可以进行故障处理。首先是采取故障诊断, 分析确定错误的原因及故障的定位和特性。完成故障诊断后, 为了防止故障再次被激活, 需要进行故障钝化。故障处理很少在线完成, 因为诊断工作十分复杂, 开销很大。

三、网格中的容错的必要性

然而随着网格规模的不断扩大, 它在计算过程中发生故障的几率也会相应增长, 同时由于网格环境通常为多用户使用, 结点等资源此时可用, 而另一时刻则不可用, 具有较大的可变特性。在发生异常事件时可能会导致当前计算的彻底失败, 此前的大量计算不再可用, 例如:

●运行不同应用程序的其他用户发生的异常事件;

●计算资源所有者需要独占资源, 禁止其他用户共享结点资源;

●结点异常关机;

●结点 (瞬时/间歇/永久) 故障;系统软件升级, 结点更换等维护操作等等。

大规模科学工程计算任务, 如全球气候模拟、高能物理、生物计算、战场仿真、核模拟、数字地球、大规模的信息和决策支持系统等应用, 执行时间都较长, 一旦计算系统发生异常事件, 将导致任务运行失败, 程序不得不从起始处开始执行, 从而引起计算资源上的大量浪费。为了避免计算任务在整个环境或某个结点发生故障后, 重新开始执行, 充分提高网格系统的可靠性, 必须对网格应用引入适当的容错机制[5]。

参考文献

[1]都志辉、陈渝、刘鹏, 网格计算, 北京:清华大学出版社, 2002

[2]Foster I, Kesselman C., Nick J.and Tuecke S., The Physiology of the Grid:An Open Grid Services Architecture for Distributed Systems Integration.Globus Project, 2002

[3]柴晓路, 梁宇奇编著, Web Service技术、架构和应用.北京:电子工业出版社, 2003

常有“容错”在尽显“融错”美篇6

一、错中求“智”, 弄“拙”成“巧”

在北京市评优课上柏继明老师的一节评优课《圆的认识》让所有老师大加赞叹.谁能知道在紧张的教学过程中, 柏老师的板书出现了问题. 板书:“在同圆中, 直径是半径的一半”时, 板书缺少一个“同”字, 这样写等同于犯了科学性错误, 怎么办? 此时的栢老师已经看出板书的破绽, 将错就错, 急中生智问“请同学们仔细看板书, 看谁能发现什么? ”半分钟后学生陆续的提出疑问:“不是在圆中, 是在同圆中”“如果不是同圆中直径和半径就不是2 倍的关系”……同学们发言激烈, 情绪高涨, 沟通很和谐, 每名同学都在为疑惑深思, 看样子都学会了, 柏老师趁热打铁“这样重要的字我们一定要记住, 为了与其他字区别, 我用一个红粉笔把它补上吧”.这样一个有错的细节, 在栢老师的指导下, 却变得自然得体.此时的“差错”, 验证了教师的机智, 也撞击出了同学们思维的火花, 使更多的同学更快地走向了“正确”.一个失误在教师的机智中化解, 一次马虎让学生的记忆深刻, 而演变成高效课堂, 精彩的融错过程成为永远的记忆.

在新理念的倡导下, 学生的主体地位越来越明显, 教学氛围也越来越民主. 我觉得对于学生来说课堂上每一处自然的生成, 都会让学生有所发现, 有所大悟, 增强学生探究的欲望;学生的积极参与, 也是成就老师个人教育智慧的契机, 教学过程会在不断的宽容, 信任, 鼓励, 探究, 合作, 思考中完善它的教学效果.

二、错中求真、求实生成才会美丽

暑假开学后, 四年级上册除法竖式就要学习了, 本单元让老师非常挠头, 题目出错得洋相百出.今年希望有所改观, 于是我在课前做好大量准备.

1. 大胆、灵活、创造性地使用教材.在这节课中, 我抛却以往过于“一板一眼”地使用教材, 步步教, 而是让学生自己去处理试商、调商的方法, 并且把学生的计算及时地板书或用投影展示反馈, 总结.我相信:教材只是一个教学工具, 应该是“用教材”, 而不是“教教材”.在使用过程中, 结合学生实际, 灵活的使用教材, 在某些内容上进行适当的增、改.总结了试商的方法.这样再经过练习巩固掌握方法, 在巩固中选择最优的方法.

2. 为学生的发展创造环境, 搭建展示自我的平台.学生的发展很大程度上取决于教师, 教师给多大空间, 学生的发展空间可能就有多大.因此, 课堂上教师应该为学生多创造一些有利于学生发展、有利于学生展示自我个性、有利于学生交流的环境.《除法》这一单元中计算难度不大, 只是试商比较麻烦, 需要利用所学知识灵活试商, 知道什么时候商是一位数, 什么时候商是两位数, 除数看小了商会变大, 除数看大了商会变小, 如果学生的学习习惯不好, 学生出错率就高, 要求学生细心, 认真, 还要会熟练背诵乘法口诀, 这样他们在计算中才能减少出错的机会.

通过学生自己探究、生生交流、教师的引导, 让学生自己总结出几种试商的方法, 参与新知识形成的全过程.学生获得的知识通过自己的探究得到的, 而不是教师“教”出来的, 这样的知识又怎么能轻易忘记呢? 怎么还会出错呢?

出错是学生的权利, 我们老师可以从出错中找到学生学习的困惑与困难, 也应看到自己教学存在的不足, 可以不断反思, 不断改进教学, 在课堂上为学生创设一个良好的学习环境, 对学生不歧视, 不排斥, 不懈怠, 多一些耐心、爱心、关心, 错误就会越来越少.

三、错中求“值”, 挖掘教学的价值

《轴对称图形》是三年级下册的内容.这节课体现了数学问题的生活化, 注重培养学生观察、交流、操作、探究能力的培养, 让学生充分经历知识的形成过程, 在学生的自主活动和合作活动中完成教学活动.

上课了, 学生的回答让我有所触动.

师:观察下图哪些是轴对称图形?

学生1:平行四边形有两条对称轴.

学生2:平行四边形有四条对称轴.

学生3:平行四边形和长方形都是对边相等, 所以有两条对称轴.

班级同学已经在争执不清了, 30 多双眼睛看着我, 等着我的肯定. 我想既然同学们对此争执不休, 对错已经不重要了, 这不是一个最好的探究的机会吗?

师:到底是2 条还是4 条或者是其他的答案, 口说无凭, 你们能想办法证明一下吗?

生异口同声的说:能.

师:那就以小组为单位, 研究研究吧……

片上网络容错路由算法研究篇7

1.1 No C基本概念

一个No C由路由节点、网络接口和处理单元这三种基本要素组成。No C像计算机网络一样可以分为通信子网和资源子网。通信子网由网络接口一边的所有路由节点及其间的物理链路构成,专门负责No C各个节点间数据的传递以及路由。资源子网由网络接口另一边的所有处理单元构成,负责处理数据,完成目标任务。

1.2 No C死锁问题

互联网络的节点通过网络接口发送、接收消息或报文,消息和报文都携带了目的节点的信息。在直接网络中,报文到达目的节点之前通常要经过多个中间节点。而在开关网络中,报文到达目的节点之前通常要经过多个开关。但是,即使每个报文都存在连续源与目的的节点的无故障路径,有的报文仍可能不会到达目的地。假设路由算法可以使用那些路径,但在有的情况下报文仍不能发送。例如中间节点或开关需要一定的缓冲器来存储部分报文或整个报文。但是缓冲器的容量是有限的。对于那些报文头还没有到达目的节点的报文,一方面要请求缓冲器,另一方面又要占用当前缓冲报文的缓冲器,这就可能产生死锁。当某些报文因为请求的缓冲器满而不能朝着他们的目的地前进时,将会产生死锁。包含在死锁配置内的所有报文将永远被阻塞。一个报文由于目的节点不能吸收它,也可能永久性的被死锁在网络中。这种死锁是在应用中产生的,在死锁状态下,一组报文将永久被阻塞,每个报文总在请求其他报文占用资源,而自己又占用着其他报文所请求的资源。

2 No C多播通信及容错算法设计

2.1多播通信概念

多播是一种一点对多点的通信技术,即允许一台或多台主机发送单一数据包(一次的,同时的)到多台主机。多播通信方式能有效的节约网络带宽,而片上网络亦采用网络设计的思想,因此将两者有机的结合能提高通信效率,改善片上网络性能。在片上网络多播通信中,多播通信方式分为三种方式,一种是基于路径的(path_based)多播通信,该通信方式限定多播数据包拷贝的数量和位置,为了能正确传送到目的地,多播数据包得在包头中带上各个目的地的地址,遵循特定的路径和方式将数据包传送到目的地,这种方式虽然能避免死锁,但是增加了数据包的长度以及网络延迟。另外一种方式就是基于树(tree_based)的多播通信,这种通信方式是通过建立多播树来实现的,这种方法可以减少延迟,但是如果不干预注入队列,容易产生死锁,因此需要合适的方式来控制死锁,最后一种为适应性(adaptive)多播通信方式,该方式从某种意义上结合了基于路径和基于树的两种方式的优点,但是实现这种方法需要特殊路由的支持,如多播旋转路由MRR(Multicast Rotar Router)就提供了对适应性多播通信的支持。

2.2基于路径的多播路由算法

为了支持无死锁的多播和广播虫孔路由。除非消息非常短,否则基于树的通信模式性能不会很好,因为如果任何一条分支被阻塞。整个树都会被阻塞。一种解决方法是阻止在中间节点的分支,从而形成多播路径模式。为了减小多播路径的长度,目的节点集可以分成几个不相交的子集,源消息的副本可以在不相交的几条多播路径上传送,每条路径对应一个目的节点子集。这种多目的路由策略称为基于路径的路由。

2.3基于路径的多播容错路由算法

本文采用矩形故障模型,并对每个矩形故障域增加了扩展的边界线,并且要求故障区不存在共享边界.例如在2维mesh网络中,任意2个属于不同故障区的路由器的水平和垂直距离至少为3。一般来说,构造凸故障区的过程即声明某些非失效路由器为不安全路由器的过程:

(1)若路由器有2个及2个以上的邻居是失效路由器或不安全路由器,那么该路由器也是不安全路由器。

(2)若路由器有一个水平(垂直)方向的邻居是失效或不安全路由器,并且有一个垂直(水平)方向的距离为2的邻居是失效或不安全路由器,那么该路由器为不安全路由器。

因为包含在故障区内的不安全路由器不允许参与网络通信,因此与其相连的处理器以及存储器单元(即使没有故障)也不能对系统做出贡献。为了减少系统在网络有故障情况下的性能损失,故障模型应该尽可能少地声明不安全路由器。

3实验结果与分析

本文在结合C和C++语言的基础上,开发了片上网络多播模拟器。模拟器中采用虫孔交换机制,仿真数据的最小单元是微片,其中每个消息都固定为32个微片大小,每个通道的缓存固定为32,本算法的最大特点是不使用任何虚拟通道,本模拟器执行步骤如下:

1初始化MESH网络,设置包的状态为NONE,并清空所有通道的缓冲。

2读取输入的包生成间隔时间并初始化工作计数器。

3对于每一个节点,在每一个周期内都更新数据和包的状态标识。

4当所有任务运行结束后,将结果参数写入到指定的文件中。

3.1单播路由算法性能比较

本次模拟实验中,对于本文中提出的路由算法单播方面和传统的XY路由算法进行了对比,目的地址是随机产生的,MESH大小分别为4×4和8×8,运行周期为500,微片和缓冲大小均为32,分别采集了不同注入率下两种算法的平均消息延迟。

3.2多播容错路由算法性能比较

本次模拟实验中,对于本文中提出的多播容错路由算法进行了仿真,目的地址是随机产生的,MESH大小为8×8,运行周期为500,微片和缓冲大小均为32,分别采集了在单个故障域、多个故障域和不同注入率下容错算法和不容错算法的平均消息延迟。

本文提出的多播容错路由算法,相对于原来的不容错路由算法,平均消息延迟有了一定程度上的降低,而且这种降低比率在高注入率(注入率大于0.5)更加明显。8×8MESH中单故障域情况下,随着消息注入率的提升,两个算法的丢包率都在上升,但是本文的容错算法显然具有更低的丢包率,容错算法的丢包率降低了大约0.03,说明本文的算法具有较好的单故障域容错性能。

摘要：随着集成电路制造工艺的不断发展,集成在芯片上晶体管的数量也随之增多,已超过几十亿晶体管的规模,因此芯片上可以集成越来越多的IP核。随着芯片中IP核数量的增多,基于总线结构的片上系统(System-on-Chip,So C)已不能满足数据的通信要求,为了解决这个问题,片上网络(Network-on-Chip,No C)作为一种全新的互联结构被提出来。其核心是把网络设计的思想移植到芯片设计中,将片上资源互连起来,并将计算与通信分离。片上网络具有很好的空间可扩展性,采用的全局异步一局部同步的通信机制使并行通信效率更高。NOC带来了一种全新的片上通信方式,它的引入有利于提升可重用设计、解决通信瓶颈和全局同步等难题。本文在研究片上网络结构的基础上,针对片上网络多播通信的特点提出了一种多播容错路由算法。

计算机系统容错技术研究篇8

1 硬件错误的容错方法

计算机可能出现的硬件错误有永久性错误、间歇性错误和瞬态错误。永久性错误是指由于计算机硬件老化、电路元件短路等现象而产生的故障, 一旦出现则影响系统原有功能, 需通过更换元器件来恢复系统正常工作;瞬态错误的发生率是非常频繁的, 在所有系统错误中所占的比例也是最大的, 对整个系统可靠性和安全性的影响也是最大的;间歇性错误介于以上两种错误之间, 针对系统的可靠性设定了一定的阈值, 当瞬态错误的发生频率超过该阈值时表现为间歇性错误。

计算机容错系统为了更好地容错性能, 必须是冗余的。不同形式的冗余资源可分为不同的冗余方法, 主要包括硬件冗余、信息冗余、时间冗余、线程冗余等集中冗余类型。

1.1 硬件冗余

根据冗余程度的不同, 硬件冗余还可分为部分冗余和完全冗余。完全冗余可分为冷备、温备、热备以及双工这四种工作方式。以双系统为例, 可分为双系统冷备、双系统温备、双系统热备和双系统双工。其中, 在对故障导向实时性和安全性要求较高的系统中首选方式是应用双系统双工, 而其他三种方式可以应用在一般性系统中, 即对故障诊断时间和切换时间没有过高要求的情况。此外, 三模、四模的冗余技术的应用也非常广泛。

目前, 基于动态可重构现场可编程门阵列 (FPGAs) 在硬件冗余技术中是研究关注度较高的。这种方法可根据抽象层次分为2层:硬件层 (DL) 和配置层 (CL) 。

目前, 学界在计算机系统容错技术研究中, 对硬件冗余方法的研究最多, 花费也相对较大, 但是其在提升计算机系统的可靠性和安全性方面的效果也非常良好, 技术相对比较成熟, 并在很多场合都已实践运用。因此, 我们在计算机系统容错中, 一般首选硬件冗余。

1.2 信息冗余

信息冗余是指通过在原始数据中添加若干冗余位以实现故障检测或故障恢复, 这种容错技术包括检错编码和纠错编码。检错编码可以检测出错误, 纠错编码可以检测错误, 也可以纠正错误。编码技术通常应用于传输、储存、处理信息环节中。比较典型的信息冗余技术有奇偶校验码、循环冗余校验码、海明码及其扩展编码方式等。

相对其他冗余方法, 信息冗余技术的优点有:速度快, 对冗余信息的处理与原始数据在同一时间段内, 无需额外占用时间成本, 在数据处理时检错、纠错并行完成, 从而避免由于错误恢复操作引发的迟延;代价较小, 仅需支付少许额外的编码电路或字节和计算开销, 与其他硬件冗余相比开销要小得多, 因此, 在实际进行计算机系统性能提升的过程中, 可以根据实际的需要来选择采用硬件冗余技术还是信息冗余技术。

常见的信息冗余技术有ABFT、RED-FECMechanism、check-sum EDAC。

1.3 时间冗余

在对实时性要求不高, 且没有实施硬件冗余的系统中, 可以采用时间冗余的方法来保证系统可靠性, 实现容错机制。在具体应用过程中, 时间冗余技术体现为1种方式, 分别为:Re-execution of the task on the Same Hardware (RSHW) , 指同一硬件基础上的同一数据在不同的时间片内执行相同的指令集;利用表决电路和数据延迟单元, 把这两者结合处理后的数据根据延迟的多少拷贝出对应的版本, 并传送到表决器惊醒表决判断, 通过对比得出最佳结果。

时间冗余技术的关键点在延迟时间的大小, 也就是说若延迟时间过小可能会导致表决器的输入内容出现错误, 无法实现系统容错;若延迟时间过大, 会导致时间成本增大, 那么容错机制就是去了原本减小延迟的意义。因此, 在时间冗余技术的应用中, 一定要对系统的时间要求进行合理的判断, 进而设置合理的时间冗余, 以实现计算机系统容错性能的提高。

1.4 硬件线程冗余

硬件线程冗余是指在多线程处理器中使用容错手段实现线程级容错, 具体方法是在多线程系统中把主线程拷贝成多个同样的线程并行处理数据, 然后通过比较处理结果来实现容错。目前常见的线程冗余技术有基于CMP的容错即芯片级冗余多线程、冗余多线程RMT、基于微线程的粗粒度超标量容错MTB等。

目前在硬件多线程冗余中研究最多的是主副线程通信方式, 通过对中间结果队列的共享使线程的执行速度加快, 并实现容错。线程冗余技术对硬件成本的要求不高, 而且容错效果好, 时间开销小, 实时性较高, 因此硬件线程冗余技术是一种高效可行的硬件容错方法。

2 软件错误的容错方法

关于计算机系统的可靠性的评价与分析, 需将其软件的可靠性因素考虑进去, 但是对这方面的研究却不太成熟, 因此相比硬件容错方法效率较低, 导致在评估系统的可靠性是忽略软件的失误率。人为设计引发的软件错误一直存在, 在一定的输入刺激下产生各种故障, 尚无法用统一数学模型进行描述。软件错误的容错方法通常有恢复快方法、软件多样性方法、防卫式程序设计方法。也可以通过改善软件工程、计算机平台环境和构造异常处理模块等方面来提高容错水平。

计算机系统出现故障后恢复的策略通常可分为前向恢复和后向恢复。前向恢复是指使系统继续向前运行, 采取措施是系统连贯, 弥补故障造成的不连贯, 继续计算;后向恢复是指将系统还原到之前的正确阶段, 再重新运行计算。

2.1 N-version programming方法

N版本软件容错技术是将软件的各个版本交由不一样的开发团队进行开发, 用不同的开发语言和方法, 独立的设计工具和环境, 以减少不同版本之间出现相关错误的几率。此时各个版本的软件设计开发不能违背以下几个原则:总体设计目标要一致, 避免错误恢复;各个模块之间要有统一的标准接口;软件设计过程中模块内部对外透明, 要进行封装;各个版本的软件开发必须独立。

2.2 恢复块方法

恢复块方法的具体过程是配置有主块和后备块, 其功能是相同的, 首先是主块开始运行, 计算结果, 若出现故障, 则运行一后备块, 再计算结果进行测试, 未通过则再运行一后备块, 直到测试通过, 若测试一直未通过, 则说明产生了不可恢复的故障。在设计开发过程中应尽量保证主块与各后备块之间的独立性, 以降低它们之间的错误的相关性。此外, 测试计算结果的程序有着至关重要的地位, 必须毫无错误。

2.3 防卫式程序设计方法

防卫式程序设计方法是一种保守的容错机制, 它不利用任何传统的容错方法就能实现系统容错。它的具体过程是这样的:若程序在运行过程中出现错误, 就会调用程序自带的检测代码和恢复代码进行处理, 将系统返回到上一个正确的状态, 如此, 就实现了对程序中出现的错误的检测, 错误类型以及影响范围的估计, 并且最终实现错误恢复。

3 结语

随着极端及系统的规模不断扩大, 越来越多的应用部署在计算机系统中, 对系统可靠性的要求也越来越高, 因此需要更加完善的容错技术来保障系统的可靠性和安全性。目前的硬件冗余容错方法成本较高, 耗能较多, 物理空间占用较大;信息冗余容错方法中针对瞬态错误的容错技术还有待深入研究;时间冗余容错方法不仅使延迟增大, 对永久性错误没有好的容错机制;并行线程冗余容错方法在合理分配线程资源方面没有完善的解决方案;软件冗余技术相对硬件更加落后;恢复块方法中必须保证测试程序的准确性;防卫式程序设计方法尚缺乏完整的理论依据。因此无论哪种容错技术, 虽然已经取得了很多研究成果, 但是还有不足, 仍有许多问题值得进一步探索。

参考文献

[1]王丽华.计算机容错系统的体系结构与安全性研究[D].成都:西南交通大学, 2002.

[2]李洪超.计算机系统的容错技术方法[J].单片机与嵌入式系统应用, 2010 (11) :19-21.

容错管理篇9

MapReduce是Google开发的一种简洁抽象的分布式计算模型,其目标是使那些没有多少并行编程经验的程序员能够尽可能快地开发并行应用。在MapReduce框架中,每一次计算请求,被称为作业。在分布式计算Map/Reduce框架中,为了完成这个作业,它进行两步走的战略,首先是将其拆分成若干个Map任务,分配到不同的机器上去执行,每一个Map任务拿输入文件的一部分作为自己的输入,经过一些计算,生成某种格式的中间文件,这种格式必须与最终所需的文件格式完全一致,但是仅仅包含一部分数据。等到所有Map任务完成后,它会进入下一个步骤,用以合并这些中间文件获得最后的输出文件。此时,系统会生成若干个Reduce任务,同样也是分配到不同的机器去执行,它的目标就是将若干个Map任务生成的中间文件汇总到最后的输出文件中去。经过如上步骤,所需的目标文件生成。整个算法的关键,就在于增加了一个中间文件生成的流程,大大提高了灵活性,使其分布式扩展性得到了保证。

1. 基本框架

与分布式文件系统类似,Map/Reduce的集群同样由三类服务器构成。其中作业服务器负责管理运行在此框架下所有作业。与HDFS的主控服务器类似,它也是作为单点存在,从而简化了负责的同步流程。具体的负责执行用户定义操作的是任务服务器,每一个作业被拆分成很多的任务,包括Map任务和Reduce任务等,任务是具体执行的基本单元,它们都需要分配到合适任务服务器上去执行,任务服务器一边执行一边向作业服务器汇报各个任务的状态,以此来帮助作业服务器了解作业执行的整体情况,分配新的任务等。

除了作业的管理者执行者,还需要有一个任务的提交者,这就是客户端。与分布式文件系统一样,客户端也不是一个单独的进程,而是一组API,用户需要自定义好自己需要的内容,经由客户端相关的代码,将作业及其相关内容和配置,提交到作业服务器去,并时刻监控执行的状况。

与HDFS的通信机制相同,Map/Reduce也是用了协议接口来进行服务器间的交流。实现者作为RPC服务器,调用者经由RPC的代理进行调用,如此,完成大部分的通信,具体服务器的架构,和其中运行的各个协议状况,参见上图。

从图中可以看到,与HDFS相比,相关的协议减少,客户端与任务服务器,任务服务器之间,都不再有直接通信关系。这并不意味着客户端就不需要了解具体任务的执行状况,也不意味着任务服务器之间不需要了解别家任务执行的情形,而是由于整个集群各机器的联系比HDFS复杂得多,直接通信难以维系,所以都统一由作业服务器整理转发。

2. MapReduce编程模型调度机制

(1) master选择空闲的worker,然后分配给他们每个一个map任务或者一个reduce任务。

(2) map阶段:map worker从输入数据中解析key/value对,传给用户定义的Map函数产生中间key/value对,然后将中间key/value对写入本地磁盘并将其散布在由分割函数指定的R个区域中,最后将这些缓存对在局部磁盘的具体位置传回给master。

(3) reduce阶段:reduce worker先从master得到中间key/value对在map worker局部磁盘上的位置信息,并使用远程过程调用从map worker的局部磁盘中读取数据。读取完所有数据之后,reduceworker按照中间key进行排序,reduce worker遍历排好序的中间数据,将把key和与它对应的中间value传给用户提供的Reduce函数,最后将Reduce函数的输出写到与这个reduce对应的最终输出文件中。

(4)当所有的map和reduce任务被完成之后,master唤醒用户程序,MapReduce调用返回到用户代码。

3. MapReduce采用的容错机制

MapReduce模型具有很强的容错性,当worker节点出现错误时,只需要将该worker节点屏蔽在系统外等待修复,并将该worker上执行的程序迁移到其他worker上重新执行,同时将该迁移信息通过Master发送给需要该节点处理结果的节点。MapReduce使用检查点的方式来处理Master出错失败的问题,当Master出现错误时,可以根据最近的一个检查点重新选择一个节点作为Master并由此检查点位置继续运行。

Master周期性的ping各个worker,检测worker的状态。当一段时间之后没有响应,master将认为worker已经出现故障。在该worker上正在处理的map或reduce任务将被设置为空闲状态,以便重新调度。完成的map任务需要重新执行,那是因为它们的输出是存储在出现故障机器上的本地磁盘,而导致不可访问。完成的reduce任务输出结果是存储在全局文件系统而不存在这个问题。

4. 结束语

【容错管理】推荐阅读：

容错性能05-18

网络容错05-29

容错补偿10-28

容错控制11-04

数据容错11-17

容错机制01-26

容错纠错机制07-20

冗余容错控制01-31

容错纠错事迹11-17

教育即容错11-30