CPU故障排除

2024-09-20

CPU故障排除(通用4篇)

CPU故障排除 篇1

FUJI CR XG1数字化CR是目前国内常用的机型之一。在一次对该型机故障检修过程中发现其CPU12A板有问题, 现将其分析、查找、排除故障的过程简述如下, 供参考。

1 故障一

1.1 故障现象

RU通电后电源指示灯亮, 但内部无正常自检应有的机械运动。HUB上与RU相对应的指示灯亮, 但无法PING通。

1.2 故障分析

RU无法与CL相互联系, 可从软件、硬件2方面考虑。区分是硬件还是软件故障的方法是:断开RU与CL的连接, 重启RU (重启时按RU上的擦除键, 使RU内部所有数据恢复默认值) , 观察RU是否能正常启动。如果RU能正常启动, 则大多为软件问题, 反之, 则很可能是硬件故障。

1.2.1 软件故障查找

首先, 排除IP地址冲突、网关不一致、FTP设置错误等基本因素。根据RU资料内的Troubleshooting文档15.1Ru Bootup failure, 可知当计算机内控制CL与RU通讯的程序发生损坏时, RU与CL的通讯中断。排除方法:重新安装RU与CL通讯所需软件, 具体步骤参照Troubleshooting15.5。如果安装后还不能解决问题, 可考虑重装Win2000系统 (排除系统受病毒干扰造成文件丢失的可能) 。

1.2.2 硬件故障查找

RU内部负责与外部通讯的S是CPU12A板, 它是机器内部最重要的板件, 其上面有2块CPU (MAIN CPU, SUB-CPU) 。当RU启动后, CPU12A板检测内部SNS12A、DRV12A、SCN12A 3块板的工作情况。如果一切正常, 启动完毕时, CPU12A板子右下角的指示灯SUB-CPU LED (共4只) , MAINCPU LED (共4只) 依次来回闪烁 (SUB板上闪烁速度快) , 左下角指示网络状态的LINK灯长亮 (具体内容可以查阅Troubleshooting文档15.2check the LED on the CPU12A board) 。SNS12A板负责检测RU内部各sensor状态。DRV12A负责检测RU内部各电动机工作状态, 具体内容可查阅Machine文档3.3, 3.4。

拆开机器外壳, 检查CPU12A板时, 发现TP1测试点电压正常, 但SUB-CPU LED 4只全亮, MAIN CPU LED 1只未亮。关机后拆下来检查, 发现CPU12A板右下方有明显的水迹, 又拆下SNS12A、DRV12A、SCN12A 3块板, 依次检查各板及母板上的保险以及电源, 均没问题, 因此可断定CPU12A板损坏。

2 故障排除

2.1 更换新板

新板到后, 经过对比, 发现新旧板子有如下差异:旧板编号为113Y1451JJ, 新板编号为113Y1451HH;旧板上跳线设置S1处1、3、4为ON, 其余为OFF;新板上1、4为ON, 其余为OFF (每个跳线设置含义可查阅check文档11.2Replacing the CPU Board) 。更换新板, RU启动恢复正常。重新安装CL与RU的通讯软件, 按医院要求更改IP, 重启CL与RU, 通过测试发现扫描出来的图像上有平行的条纹, 布满了整个屏幕。回想起新旧板子跳线上的差别, 关机后把新CPU12A板上S1跳线3打到ON, 重启RU, 再扫描一块IP板, 条纹消失, 但显示器上显示的图像边缘部分出现明亮的白边。用10×12、14×14、14×17各种规格IP板试验, 发现10×12这种小板子白边情况最严重, 上、左、右都出现了宽约5mm的白边 (大规格的板子只有左面有大约为0.5 mm的细线) 。查阅check文档11.2Replacing the CPU Board, 发现在装RU与CL通讯软件时, 忘了保存其中的相关数据。无奈之下, 只好查阅资料, 看是否能通过别的办法解决。经查询, 在RU的Utility文档中找到了相关的资料 (utility文档3。Details of M-utility 5-8FORMAT) 。看完相关资料后, 觉得太过复杂, 于是根据资料内容, 自己调试。

2.2 调试过程

(1) 进入Utility (具体内容可参照Utility文档的Starting and exiting the M-Utility) , 选择5.SCANNER UTILITY, 然后选择8.FORMAT, 再选择1.default 1PIXEL AND FREQ, 按回车, 把扫描的范围大小 (FREQ) 及扫描的起始位置 (PIX-EL) 恢复为默认值, 退出Utility。重扫一块IP板, 观察白边出现的位置是在图像左面还是右面, 然后再进入Utility5-8-3.PIXEL ADJUST, 在INPUT (-70~+70) :后输入一个数值。当输入值为正时, 整个图像左移, 反之则右移, 输入的值不能超出-70~+70) 。退出Utility, 再拿一块IP板拍实物后扫描, 查看实际效果, 反复重复以上步骤, 尽量使图像两边的白边宽度相同。接着进入Utility5-8-2.FREQ ADJUST, 在INPUT (-5.0~+5.0) :后输入一个值, 按回车后退出Utility (这个选项是把IP横向扫描范围按照输入值的百分比扩大) , 拿IP板拍实物后扫描, 查看实际情况, 重复上面调整步骤, 可使图像左右两边白边消失。

由于资料上只有调整图像横向位置及横向放大的方法, 没有纵向位置, 所以图像上方的白边一直存在。后来在GE工程师指导下, 进入FUJI软件UTILI-TY, 查看IP板制式的设定5.IP SIZE by INCH OR METRIC, 尝试把原来的1:metric改为0:INCH, 同时把CPU12A板上S1跳线3拨到OFF, 故障排除。

3 小结

事后回想整个调换过程, 更换2块CPU板子过程不存在过错, 问题大概出自2块CPU板子编号不一样, 旧的为JJ, 新的为HH, 2块板子软件内就存在差异, 导致CR机就不能正常工作。因此, 我们要对原IP板的制式做重新的调整改动, 让IP板的软件内和CPU12A板子上的制式要保持一致, CR机才能正常运行。在此, 提醒大家以后再更换CPU12A板子时, 一定要保存好相关的机器原始数据, 同时要仔细阅读机器的相关资料, 这样才能少走弯路更好更快地解决问题, 让用户满意。

CPU故障排除 篇2

故障分析:由于警告内容为乱码,出现故障前又刚安装了一个从网上下载的软件,所以怀疑是该软件带有病毒,随即将所安装的软件删除并使用KV3000、瑞星等杀毒软件进行查、杀操作,均未发现病毒。关机并重新启动,约5分钟后,再次出现上述现象,反复多次仍然如此。为了彻底排除存在病毒的可能,格式化硬盘,重新安装Windows98,在安装即将完成时,上述现象重新出现,使安装无法正常完成。

故障排除:仔细琢磨,感觉上述故障不像是由病毒引起的,因为该机每次重新开机,刚开始时工作正常,仅在几分钟后才出现死机现象,这好象与机器的某些硬件,特别是CPU的温度有关。关机,打开主机箱检查,当用手触摸到CPU的散热片时,感到十分烫手,这显然不正常,怀疑是CPU芯片或是风扇有问题。

在机箱盖打开的情况下启动机器,发现CPU风扇转速十分缓慢,已失去正常的散热功能,

关机,将该风扇拆下,用手拨动扇叶时,感觉扇叶的转动很不灵活,故用小螺丝刀插入扇叶底部的缝隙内,并慢慢用力向上撬,将整个扇叶与扇座分离,然后翻过扇叶,看到在扇叶的中心部位有一个用数条小弧形磁铁围成的圆罩形固件,显然这是风扇电机的转子,而定子是与扇叶固定在一起的一个微型绕组,若将扇叶与扇座组合在一起,则该微型绕组正好能插在转子的内部。

进一步观察发现,在定子轴的顶部和与转子相接的轴承部位都粘有一些干涸的黑色油泥,用纱布分别将其擦除干净,再在该处点入几滴润滑油,然后将扇叶与扇座重新组合在一起,此时,用手指轻轻拨动扇叶即可轻松地转动。重新将风扇安装到CPU的散热片上,通电10分钟后,再触摸CPU散热片,感觉温度仅在微热状态,说明风扇的散热功能已经恢复。盖好机箱后,重新开机并重新安装Windows98系统,一切正常,长时间连续运行,上述故障再未出现。

CPU故障排除 篇3

关键词:DCS系统,CPU,在线更换

0 引言

随着科学技术的进步, DCS在火电厂过程控制领域的应用水平得到了迅速提高, 其控制范围覆盖了MCS、FSSS、SCS、DEH、ETS等功能。而整个DCS的核心部件即CPU, CPU一旦发生故障, 轻则导致DCS局部死机, 对机组的安全稳定运行带来影响, 重则引起整个DCS网络通讯瘫痪, 机组跳闸。本文就某单元机组的核心MCS1控制器CPU故障进行了详细分析, 并提出了解决办法。

1 某电厂DCS系统及CPU设备简介

某电厂#2单元机组于2004年开始基建、投产, 其DCS控制系统为日立公司的HIACS-5000M, 该系统主要特点为:

(1) 采取冗余设计, 系统采用双光纤环状冗余网络、令牌双方向传送、信息回绕 (LOOPBACK) 、双CPU互为备用运行技术, 系统某一个部件出故障时迅速切换至备用部件, 不影响整个系统运行。

(2) 各CPU控制器自治分散控制各个系统, 即由某对独立的互为冗余的CPU完成对相关工艺系统的控制。

(3) 软件系统人机界面 (HMI) 友好, 维护人员通过使用维护站 (EWS站、HIST站) , 便可完成对控制逻辑、画面的组态, 并下装至指定CPU控制器中;硬件系统配置灵活, 扩展能力强。

(4) 所有CPU控制器均挂靠在双环网的光纤网络上, 机组所有实时信息通过光纤网络实时共享给各CPU控制器;同时, CPU控制器也可以将实时的控制信息发送到网络上。

2 MCS1控制器CPU故障概览

2014年12月27日, #2机组满负荷运行, 15:00左右, DCS系统状态画面报“光纤单网故障”。维护人员立即赶往#2机组电子间、工程师站检查确认, 发现MCS1控制器备用CPU故障 (脱网) 。

检查发现CPU面板上有3处异常指示红灯 (常亮) , 其代表意义如下:

(1) ERR红灯亮———该CPU故障, 失去热备用;

(2) NERR红灯亮———NCP-F内部发生错误;

(3) MEME红灯亮———NCP-F发生SRAM校验错误。

在这种情况下, MCS1控制器仅剩一个CPU在运行, 机组由双光纤冗余网络运行变成单光纤网络运行, 极有可能随时发生通信阻塞 (光纤网络中MCS1变成信息孤岛) 的危险, 进一步直接造成与此控制器相关的设备失去监视, 远方无法操作、控制。

3 MCS1控制器CPU故障分析及处理

常见的引起DCS系统CPU故障的原因主要有如下几点:

(1) 主、备CPU控制器之间切换不成功引发CPU控制器故障;

(2) 主 (备) CPU通讯接口硬件 (CPU网板) 故障, 导致控制器单向通讯或故障不能切至备用运行;

(3) 控制器电源切换扰动导致CPU死机;

(4) 电子元器件老化导致控制器故障。

检查DCS系统主、备冗余电源正常, 电源模块 (交流220V转直流5V) 输出电压未见波动。主CPU控制器未发生故障, 而发生故障的是备用CPU控制器, 也排除了主、备CPU切换过程中发生的故障。故可大致推断故障原因较有可能是备用CPU设备硬故障。

在工程师台收集错误信息 (MCS1+MDA、MCS1+MDA-DETAIL均可收集, 而B控制器因故障, 所有信息均无法收集) , 从MCS1+MDA收集的错误信息最后一行error log (Initialization Err, datafile open failure) 中可以看出, B控制器在打开某一文件时报错, 进而导致该CPU初始化时死机。

MCS1控制器CPU在控制逻辑设计中, 作为单元机组核心的“大脑”部分, 直接控制机炉协调, 具体涉及汽轮机主指令控制、锅炉主指令控制、CCS综合阀位指令控制、所有制粉系统的给煤量控制, 机组部分重要调门控制、实发功率联锁汽轮机本体疏水门控制 (DCS逻辑通讯点) 、风量低保护跳闸磨煤机控制、RB逻辑控制等。针对这一特殊情况, 为防止处理故障CPU时出现其他不可控风险, 必须做好安全技术措施, 主要从两个大的方面着手:

首先, 考虑本CPU控制器内信号, 为防止故障CPU恢复正常并进行初始化时相关控制信号异常, 导致其控制的DCS逻辑、现场设备异常动作, 应做好以下安全技术措施:

(1) 解除机组AGC控制, 保持负荷稳定;

(2) 解除机组汽机主控、锅炉主控自动控制;

(3) 解除运行的制粉系统中的给煤量自动控制;

(4) 将本控制器相关调节阀切至“就地位”。

其次, 考虑与本CPU控制器相关的信号, 为防止故障CPU恢复正常并进行初始化时与其他控制器间逻辑通讯点信号 (包括DCS通讯点、机柜间硬接线) 跳变, 应做好以下安全技术措施:

(1) DEH切至阀位控制, 即DEH手动控制 (正常运行时, DEH阀位即汽机综合阀位指令受MCS1遥控控制) ;

(2) 做好相关重要通讯点强置 (在接收端强置) ;

(3) 运行人员暂时减少其他不重要操作。

确认安全技术措施完成后, 将故障CPU由RUN切至STOP, 1min后再由STOP切至RUN, 此时CPU模板上的指示灯发生了变化, ERR、NERR红灯仍亮, MEME红灯灭, 说明该CPU仍处于故障状态。联系日立公司技术人员并确认后, 确定更换该故障CPU。

确认故障CPU在STOP位, 在工程师台上切至MCS1+MDB控制器, 点击维护, 进入模板带电插拔画面, 进行该控制器CPU的模板带电插拔工作, 确认无误后, 点击preparation, 系统自动将该CPU隔离出来。戴好防静电手环, 按照CPU硬件更换操作步骤, 将CPU拔出。

检查被更换的CPU和将要更换的CPU的异同 (仅需修改CPU的光网地址设置) , 确认新CPU在STOP位, 再次对所有设置确认无误后, 将新CPU推入卡槽, 依次恢复相关连接。

工程师台上切至MCS1+MDB控制器, 完成最后的初始化工作 (点击INITIAL, 此时CPU会自动检查, 并自动将DCS控制逻辑下装进去) , 大约5min后操作界面提示“操作完成”, 点击确认后退出维护界面即可。进入电子间将该CPU由STOP位切至RUN位, RUN、STBY同时绿灯闪亮, 大约1 min后RUN、STBY绿灯变为常亮, 在工程师台上进行逻辑点强置工作, 确认该CPU工作正常 (热备用状态) 。逐步恢复相关安全技术措施, 将逻辑强置点释放, 确认新更换的CPU工作正常, 至此, 工作全部结束。

4 结语

发电机组在商业运行中, 在线处理控制器CPU故障风险较大, 而处理类似直接关系到机组的协调自动控制、机炉重要联锁保护的主、重要CPU故障时, 考虑到要采取的后备、安全隔绝措施, 其难度无疑更大。一旦系统控制器发生故障, 将直接造成局部或全部设备失去监控, 而若在处理CPU故障时因维护人员相关技术、安全后备措施做得不当, 或故障处理失败, 更有可能导致设备跳闸甚至机组跳闸的严重后果。本文详细阐述了某厂成功处理#2机组DCS系统中MCS1控制器CPU故障的过程, 为其他机组运行时在线更换同类型系统DCS (或其他DCS系统) 的主、重要CPU控制器提供了可靠的参考依据, 积累了宝贵的经验。

参考文献

[1]刘新亮.日立DCS控制系统H5000M的故障分析与预防[J].江西电力, 2012 (2) :47-49.

[2]北京日立华胜控制系统有限公司.6-3-H-5000M系统硬件维护说明[Z].

四大问题,CPU处理器故障问答 篇4

虽然CPU自身的故障并不多见,但由于主板、电源等引起的CPU故障还真不少见,接下来笔者就大家在使用计算机时经常遇到的几个问题并将排除方法做一下简单介绍。

一、不同版本的windows统中检测到的同一处理器型号不一致

笔者朋友有一台老机器,使用的是英特尔PIII处理器,操作系统为window ME,近期系统出现了问题,于是重新安装了windwos 98操作系统。打开控制面板后,发现系统中的CPU显示为“GenuineIntel x86 Family 6 Model 8 Stepping”而在原来的是WIN ME系统中则显示的为PIII处理器,请问这是为什么?

以上朋友的电脑并没有任何的问题。由于新的英特尔奔腾III系列处理器晚于windwos 98操作系统,所以WIN 98无法识别出处理器的型号是很自然的事情,这也就是为什么在 WIN ME以上的操作系统中能够正常识别出的真正原因,因此这是很正常的现象。

查看CPU真实型号的方法并不一定要在操作系统中进行,我们可以进入主板的BIOS中来查看CPU的真实频率。目前大家普遍使用的WIN XP系统提供了在线升级的功能,因此能够识别出市面中大部分的处理器型号及频率。另外利用最新版本的CPU-Z软件来查看CPU的基本型号和各项参数也是十分方便的,朋友们不妨试试看。

二、最近系统老是死机,怀疑是CPU故障,CPU型号为英特尔赛扬1GB,核心电压默认情况下为1.5V,开机后进入BIOS查看到的CPU的工作电压仅为1.2V,问题肯定出在这里,以前计算机工作一直都比较稳定,请问这种情况如何处理?

从以上情况分析来看,由于CPU的默认工作电压为1.475V,如今只有1.2V的工作电压,因此造成电脑经常死的原因肯定是CPU的供电不足引起的,这种情况下很可能因为主板的元件老化,造成了供电部分的电压偏低,CPU自然就不能正常工作,死机也就在所难免了。就像是超频一样,提升频率后的CPU不会都很稳定,有的需要增加电压才能稳定在更高的频率上,这道理一样,其实相当一部分的电脑故障都和供电有关。

CPU供电不足的原因有很多,首先我们应该检查的是机器的电源功率是否匹配,笔者遇到很多机器无法正常启动或不稳定的原因便是由电源直接引起的。检查电源前我们首先应该考虑的是是否为电脑添加过板卡等其它的配件,有些品牌机的电源功率与之系统的总功率是正好相同的,添加新的板卡后很可能就会引起电源的供电不足,

因此,如果有添加新的设备不妨将设备取下后试试看,如果还不行,那么就要考虑市电供电是否稳定,有些地方的市电供电不稳定也会出现这样的问题,如果是则不妨安装一个稳压器。另外过多的USB等外接设备的安装也会消耗大量的功率,也可能造成系统不稳定。

如果电源供电没有问题,那么问题一般就出现在主板上了,这时只有检查主板上是否有电容损坏,如果损坏则要更换新的电容,否则只有更换主板了。

相似的问题时有发生,有个朋友就曾经买了一块显卡,回家后发现不亮,估计很多人此时都会认为是显卡的问题,于是就拿回去换,可是在经销商那里测了一下,竟然没问题。这位倒霉朋友自然感觉莫名其妙,之后来回折腾了几趟,最终还是换了个300W的电源解决了问题。电脑硬件故障的可能性实在太多了,所以大家平时自己解决问题的时候,最好多向几个方面想想,考虑周全是解决故障首要的基础。

三、BIOS与windows系统中检测到的CPU供电电压为何不一致

机器基本配置为:CPU处理器这英特尔赛扬III 1.2G,品牌815P主板,512M DDR266内存,西部数据80GB硬盘。为了发挥CPU的最佳性能进行了超频,在超频过程中,在BIOS里把CPU核心电压设置为1.5V,每次开机主板自检显示CPU电压为1.64V,用测试软件检测仍是1.64V。主板的版本已经升级到最新。在将CPU加电压(BIOS里设置为1.5V,系统检测是1.66V)后把外频超到133MHz后,处理器温度升高了8℃。

两个电压值不一致是由于主板设计误差及器件性能误差叠加产生的,不影响正常使用。如果想知道实际数值,可用数字式万用表测试CPU供电电路。一般测两个点,一个是接地点,可就近选取主板螺孔裸露的触点,另一个是在CPU的某一针脚或它与附近的器件相连接的触点。测试时不用上CPU,空板就可以测试。用电压挡测量空板,随便测一点都不会烧毁主板,但最好请熟悉的技术人员指导。

CPU超频后温度升高8℃左右,这是属于正常的,因此超频就意味着CPU温度的增高,特别是在加电压超频的情况下,CPU温度的提高还是十分明显的,这时你应该考虑的是为CPU更换一个更好的散热器,来控制处理器的热量。

四、英特尔64位赛扬D331处理器,精英915P的主板,CPU风扇工作中噪音比较大。

CPU由于集成度非常高,因此发热量也非常大,特别是目前处理器的频率都非常高,3.0GB都已不再鲜见,因此目前的散热器的转速明显要比以前的低端产品高得多,噪音相比较也是大许多。

如果噪音实在太大,一般情况下就是因散热风扇缺油所引起的,比如在温度较低的情况下,CPU风扇的润滑油容易失效,导致工作中噪音明显增大,这时就要考虑为CPU风扇进行清理和加油。

同样,我们还要检查CPU散热风扇是否损坏,可以用手轻轻的转动风扇,是否感觉风扇的转动比较困难,另外可以用手轻轻的上下摆动一下扇叶,看看轴承的活动范围是否增大,如果风扇损坏,则要直接更换新的风扇。

上一篇:非财务数据下一篇:美好新疆