故障信息共享(精选3篇)
故障信息共享 篇1
近年来, Websphere MQ主机Z/OS系统用户逐渐增多。主机系统发生故障影响巨大, 因此在系统的设计、运行过程中形成一整套高可用性方案, 保证系统运行的连续性十分必要。
主机系统上有多种M Q系统配置方案, 本文基于对主机系统设计经验, 设计了一种在并行耦合系统 (Parellel Sysplex) 环境下的共享队列组 (Queue Sharing Group) 架构, 通过不同场景下的故障恢复措施, 供有关系统设计和维护的人员参考, 进而形成一整套适合不同环境的MQ故障恢复方案。
1、系统设计方案概述
根据用户需求差异, 可以有多种M Q系统设计方案。最典型的方案是并行耦合系统下的队列共享组设计方案, 其总体架构如图1所示。
在图1架构下, 并行耦合系统中共有四个Z/O S系统成员 (Member) , ZOS1、ZOS2、ZOS3、, ZOS4, 每个系统各运行一个队列管理器, 即QM01、QM02、QM03、QM04, 它们分别连接到本系统上运行的DB2成员, 并构成了一个队列共享组QG01。在Q G01中, Q M01和Q M03与应用相关联, 但它们与远程队列管理器没有连接通道, 因此, 这两个队列管理器不启动通道启动程序 (Channel Initiator) 。
远程队列管理器只与网关队列管理器Q M02和Q M04之间有T C P/I P连接通道, 并且在Z O S2和Z O S4实施了动态虚拟I P地址 (Dynamic Virtual IP Address) , 远程队列管理器只要使用这个虚拟IP地址, 就可以访问到QM02或QM04。一旦某系统发生故障, 通道可以切换到另一个队列管理器上, 从而保证系统运行的连续性。
远程队列管理器发送到QG01的消息, 由QM02或QM04接收到共享队列中, 并由连接到QM01和QM03的应用程序均衡处理。
2、各种故障场景下系统恢复的实现
2.1 运行网关的Z/OS系统发生故障
假设作为网关运行的ZOS2或ZOS4发生故障, 初始启动状态下, 远程队列管理器的共享通道都与QM02相连接。此时ZOS2停止运行, 系统作业自动重启功能ARM (Automatic Restart Manager) 会将QM02启动到ZOS4上。从队列管理器QM04的启动作业信息中可以看到信息CSQM052I, 表明共享通道恢复完成。在QM04的通道启动程序作业中, 也可以看到相关的通道被启动, 原来与Q M02连接的每条通道均产生一条CSQX500I信息, 表明通道全部恢复到QM04上, 业务继续进行。恢复过程无需人工干预。
2.2 TCP/IP发生故障
系统运行需要远程连接到Q M02上的通道连接正常。如果TCP/IP停止运行, 连接异常中断, 在QM02上系统显示CSQX208E和C S Q X599E等通道故障信息。从Q M04上可以看到C S Q X500I信息, 表明同名的通道在Q M04上启动, 由Q M04接收来自远端的消息, 整个过程对业务没有影响。QM02的TCP/IP故障恢复后, 并不马上接管QM04的工作, 而是成为QM04备份网关。
2.3 应用队列管理器发生故障
Q M01和Q M03负责应用处理, 两者都正常工作时, 由于本地队列为共享队列, 因此, 与Q M01和Q M03相连接的应用能够并发、均衡地处理数据。如果Q M01停止运行, 检查Q M03的启动作业信息可以看到CSQE008I信息, 说明QM03接收到QM01发生问题的信息, 随后可以看到CSQE011I, CSQE013I, CSQE012I, CSQE014I等信息, 说明QM01发生故障后, 应用Structure自动恢复, QM01的工作由Q M03接管, 消息继续由与Q M03连接的应用处理, 此后消息的处理并发度会降低, 但是不会停止, 直到Q M01正常启动, 系统继续并行处理共享队列中的消息。
2.4 应用系统发生故障
在主机系统中, 处理队列消息的应用可以是批处理程序或者CICS交易程序。
在图1中, 有两个应用处理共享队列中的消息。如果系统Z O S1上的应用发生故障, 这些应用与Q M01的连接将都断开, 原来均衡分配在ZOS1和ZOS3上的工作负荷将全部由ZOS3上的应用来承担。在具体的测试中, 可以发送一定数量的消息, 采用EVERY触发方式。在终止其中一个应用程序后, 可以看到无消息驻留在队列中, 说明单个应用故障不影响业务的正常进行。在交易繁忙的实际应用中系统处理会有所缓慢, 但业务不会停止, 消息不会丢失。
2.5 DB2系统发生故障
由于MQ共享队列组利用DB2数据共享存放共享目标定义以及通道状态等信息, 因此DB2发生故障对MQ共享队列组的运行将产生一定影响。DB2发生故障时, MQ会发出CSQ5016I信息, 表明DB2目前处于不可用状态。数据库不可访问导致有关的数据表不能够进行修改等操作, 这样定义、修改队列、通道等操作将不能正常进行, 通道的状态也不能改变。如果消息长度小于63K, MQ的正常消息处理在已有定义下并不受任何影响, 因为交易处理过程不涉及到对数据库的访问。如果消息长度大于63K, 只能等待数据库恢复后才能继续处理。
2.6 并行耦合器发生故障
并行耦合器 (Coupling Facility, 即CF) 发生故障是比较严重的故障。
如果发生故障的CF, 如CF1上只有管理结构 (Administrative Structure) 存在, 那么在MQ 6.0以上版本, 管理结构会自动建立在备份C F即C F2上, 在这个过程中, 共享队列的处理将暂时停止, 直到共享队列组内所有的队列管理器重新连接到新建立的管理结构并从日志上恢复完成所有记录, 恢复完成的标志是系统显示信息CSQE019I。
如果发生故障的CF上有应用结构 (Application Structure) , 那么各个队列管理器都会异常终止运行, 可以通过系统作业自动重启功能ARM (Automatic Restart Manager) 来重新启动这些队列管理器。发生C F故障后, 应用结构会自动建立在备份C F上, 但是由于应用数据已经备份在M Q日志上, 新建立的应用结构会处于失败状态, 系统将显示信息CSQE035E。队列管理器重新启动后, 发RECOVER CFSTRUCT命令将备份数据恢复到应用结构上, 恢复完成的标志是系统信息CSQE131I。只有持久性 (persistent) 消息可以恢复, 非持久性 (nonpersistent) 消息将丢失。因此需要根据需求来定义消息的特性, 保证关键数据在发生问题时不会丢失。
3、结语
完整的故障恢复机制使故障恢复时间大大缩短, 多数情况下, 故障恢复无需人工干预。比较严重的情况是DB2或CF发生故障, 不同用户可以根据实际的配置方案和以上的场景, 形成一整套适合的灾难处理方案, 从而最大程度保证系统的高可用性。
摘要:本文研究主机Z/OS系统环境下的中间件Websphere MQ在队列共享组实施方案的基础上, 针对系统可能发生的不同状况, 设计了在不同故障场景下实现MQ恢复的方法, 从而实现高可用性。
关键词:队列共享组,高可用性,恢复,虚拟IP地址
参考文献
[1]IBM.WebSphere MQ for z/OS Concepts and Planning Guide Version7.0[M/OL]. (2009-02-11) .http://publibfp.dhe.ibm.com/epubs/pdf/csqsat05.pdf
[2]IBM.WebSphere MQ Queue Manager Clusters Version 7.0[M/OL]. (2009-02-11) .http://publibfp.dhe.ibm.com/epubs/pdf/csqzah09.pdf
[3]IBM.WebSphere MQ for z/OS Messages and Codes Version 7.0[M/OL]. (2008-06-27) .http://publibfp.dhe.ibm.com/epubs/pdf/csqsao06.pdf
[4]IBM.WebSphere MQ for z/OS System Administration Guide Version 7.0[M/OL] (2009-02-11) .http://publibfp.dhe.ibm.com/epubs/pdf/f1a1b381.pdf
故障信息共享 篇2
上面的故障现象,很可能是ADSL Modem设备没有开启路由功能引起的,这样笔记本电脑就不能通过无线AP设备,进行Internet连接共享,
为了解决这种类型的故障,我们可以通过合适设置,开启ADSLModem设备自带的路由功能,以实现局域网共享上 网连接。如果ADSL Modem设备不支持路由功能,我们可以考虑选购一台无线路由器设备,将局域网中的普通台式机连接到该设备的LAN端口上,将ADSLModem设备连接到WAN端口上,之后设置好合适上 网参数,就能保证笔记本通过无线路由器上网访问了。
故障信息共享 篇3
1 系统环境及发生的现象
本人是医院的网管员,一次,急诊内科一台用了几年的电脑进不了系统,操作系统是WIN98的,于是就拿到信息科给换了硬盘,加了内存,升级为Windows XP系统,装好医生工作站,以为一切处理完毕,没想到,拿回急诊科以后,什么都好使,就是在打印检验条码时出错,条码打印机装在另外一台WINDOW98系统的电脑中,没升级前都是WIN98系统时可以共享打印,如图1:升级后的联结及打印出错信息。
开始以为是要在WINXP系统的电脑上装上打印驱动,根据提示信息,重装打印驱动,还是出现同样的出错。于是在WIN98的电脑中,重装打印驱动,再重新设为共享,在WINXP的电脑中又重新添加网络打印机,找到共享的打印机,安装都很顺利,但在应用程序中打印时就是出现上面的错误。但是,如果共享别的带条码打印机的WINXP系统时,却可以打印。说明在以上环境与机型下:WIN98与WIN98系统是可以共享此条码打印的,WINXP与WINXP系统也是可以共享打印的,WINXP要共享WIN98系统的打印机,我们折腾很久找不出好方法,剩下的一种就是让装WIN98系统的电脑去共享装WINXP系统电脑中的打印机。
2 解决的方法和步骤
把TSC条码打印机物理上安装在WINXP系统的电脑上,首先,配置打印机,在“控制面板”打开“打印机和传真”,在左边的选项或单击右键选择“添加打印机”;接着点击几个“下一步”;并装好打印机相应的XP的驱动程序,装好后单机打印正常。其次,设置为共享打印机,安装好打印驱动程序后,在“开始菜单”→“设置”→“打印机”的文件夹会出现已正确安装的打印机图标。在这个标志上按鼠标右键,选择“共享”,在“共享”选项卡中,单击“共享为”,在“共享名”中填上需要共享的名称,这时你应该可以看到打印机的图标与其它共享设置一样,都会在图标上加了一只小手。如果你看到了打印机的小手,那就说明打印机已经共享成功。如图2。
最后,在WIN98的电脑中进行安装与配置,单击“开始”→“设置”→“打印机”,然后双击“添加打印机”,来启动“添加打印机向导”,点击“下一步”。选择“网络打印机”选项,点击“下一步”。输入打印机的网络路径。也可以单击“浏览”按钮,在工作组中查找共享打印机,选择已经安装了打印机的电脑,再选择打印机后点击“确定”按钮,选定好打印机的网络路径,点击“下一步”。接着按“完成”按钮,如果对方设置了密码,这里就要求输入密码。最后在打印机窗口中添加了相应品牌的打印,到这儿我们的网络打印机就已经安装完成了。本以为大功告成,没想到在应用程序打印时还是报上面的错误,如图3。难道是网络共享协议的配置有问题?为了能够进行共享打印,局域网中的电脑都必须安装“文件和打印机的共享协议”。单击桌面上的“网络邻居”,然后点击鼠标“右键”,打开“网络”对话窗,发现“文件及打印机共享”,“允许其他用户访问我的文件(F)”和“允许其他计算机使用我的打印机(P)”的复选框都已经选中。在一筹莫展的时候忽然发现在WINXP中的TSC打印机属性的共享标签中“驱动程序”的“其他驱动程序…”如图4。
这台打印机正好被不同WINDOWS版本的用户共享,找到了原因,接下来就点击“其他驱动程序”出现如图5的对话框,选中:Intel Windows 95、98和ME复选框,点击确定后会提示你安装该打印机的Windows 95、98和ME的驱动程序。
其他驱动程序安装完成后,再到WIN98的电脑中打印条码,终于可以正常打印了。
3 讨论
局域网中,打印机共享故障原因往往有很多:有网络共享配置的问题、有应用程序的设置问题、有操作系统的兼容性问题、还有打印机本身的驱动问题打印端口问题以及访问权限等等。这些原因不明的共享打印故障,都需要我们冷静思考,逐一细心排查才能发现问题,解决故障。有兴趣的朋友不妨试试WIN98与WIN2000、WINXP与WIN200之间的打印共享是不是也是需要安装“其他驱动程序”才能共享打印?
摘要:该文通过使用Windows XP的安装“其他驱动”方法来解决在局域网中,WINDOWS98工作站不能共享Windows XP工作站的打印机问题。