IBM_P系列小型机日常维护故障定位故障排除手册.doc

上传人:ng****60 文档编号:3252059 上传时间:2019-05-27 格式:DOC 页数:25 大小:227.50KB
下载 相关 举报
IBM_P系列小型机日常维护故障定位故障排除手册.doc_第1页
第1页 / 共25页
IBM_P系列小型机日常维护故障定位故障排除手册.doc_第2页
第2页 / 共25页
IBM_P系列小型机日常维护故障定位故障排除手册.doc_第3页
第3页 / 共25页
IBM_P系列小型机日常维护故障定位故障排除手册.doc_第4页
第4页 / 共25页
IBM_P系列小型机日常维护故障定位故障排除手册.doc_第5页
第5页 / 共25页
点击查看更多>>
资源描述

1、IBM P 系列小型机日常维护/故障定位/故障排除手册1. 机房环境及物理检查1.1.机房内环境要求1.1.1. 温度与湿度:最佳工作温度:20-25 摄氏度极限工作温度:10-40 摄氏度 湿度: 8-80%(在 23 摄氏度条件下 )如果不是工作在最佳温度,请注意改善机房环境1.1.2. 机房要保证清洁.机房应保持清洁,若空气灰尘过多,很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。1.1.3. 电源要求电 压: 要求电压稳定, 尖峰电压会损坏设备电压范围: 220V +/- 10%, 即 200-240V, 50-60Hz电源功率: 视机器类型和系统配置而定电源线 : 标准的零, 地

2、, 火三相电, 其中零, 地电压不得超过 1.0V.第 1 页 共 25 页 电源接驳: 用符合电流要求的空气开关或其他设备和主机电源线接驳 ,保证计算机系统的可靠工作应使用稳压电源和 UPS,并建议配备发电机组; 对于冗于电源的接入,建议采用两路单独输入.1.2.硬件检查检查服务器、磁阵的安装、电源线、7133 和主机接线符合要求。1.3.服务器状态检查及其相关命令1.3.1. 外观状态检查:1. 当服务器处于启动和正常工作状态时,其前面板上的液晶显示屏上应无信息显示。2. 当液晶显示器上出现带数字和字母的信息时,说明有硬件告警。可以通过查询相关机型的 Service Guide 查到相应告

3、警原因,情况严重的,则要立即通知IBM 技术专家进行问题排查。1.3.2. 命令状态检查1、运行 lsdev 命令配以各种参数,所列各种设备状态都应为 Available。#lsdev C H S a 列出系统中可用设备。#lsdev Cc processor 列出系统中的所有 CPU。#lsdev Cc memory 列出系统中的所有内存。#lsdev Cc disk 列出系统中的所有硬盘。#lsdev -Cc adapter | grep ent 列出系统中的所有网卡#lsdev -Cc adapter | grep scsi 列出系统中的所有 SCSI 卡。#lsdev -Cc adap

4、ter | grep ssa 列出系统中的所有 SSA 卡。2、lspv 命令#lspv 显示系统中可用的 PV。#lspv hdiskn 显示 hdiskn 的具体信息。第 2 页 共 25 页 #lsdev Cc pdisk 显示磁盘阵列的硬盘的具体信息。对 SSA 硬盘的检测:在对主机进行工作之前可以先把磁盘阵列上电,等主机完全启动后,登录到主机上,运行以下命令“ lsdev Cc pdisk “,应该可以看到所有 SSA 硬盘,并且状态应为 Available.。3、 lsattr 命令# lsattr E l mem0 列出系统中内存 mem0 的大小,本项目中内存有 4GB。4 、

5、lsvg 命令#lsvg 列出系统中所有的 vg。#lsvg rootvg 列出 rootvg 的详细信息。#lsvg o 列出激活的 vg5、 oslevel 命令#oslevel 显示操作系统版本信息。6、 netstat 命令#netstat in 显示系统中各网卡的配置。可查看网卡的 IP 配置好了没有。7、 # diag 命令通过运行# diag 命令运行硬件诊断程序检测主机内所有硬件,检测结果为 “No trouble found ”显示各部分工作正常。8、 使用#diag 命令(选择:Task Selection- SSA Service Aids)对 SSA 硬盘链路连接的校验

6、,可以通过 SSA 工具里的 Link Verification 来检测。如有必要,可以用 Certify Disk 运行硬盘诊断部分进行硬盘的表面分析测试 ,由 1% 至 100%,检测结果显示主机内置硬盘的所有扇区均读写正常。9、 lsps a 查看 PAGING SPACE 的使用情况如果使用率超过 70%,就需要采取措施。10、 lsvg o | lsvg il | grep i stale查看有无 stale 的 lv,如果输入该命令之后有输出结果,就需要采取措施11、 有否发给 root 用户的错误报告 (mail)。12、 检查双机状态lssrc g cluster 检查 ha

7、三个工作进程是否激活,/usr/sbin/cluster/clstat a 检查双机状态是否 up,并检查 hacmp.out 日志,看是否有异常信息。第 3 页 共 25 页 13、 用 vmstat, topas,sar 命令检查系统性能检查 cpumemoyrIO ,是否存在性能瓶颈。14、 检查能否顺利进入 CDE 界面如果不能进入的话,要检查/etc/hosts 表中有否错误的项目。15、 用 smitty ssaraid 查看磁盘阵列 RAID 盘的状态是否是 Good。如果是 degrade 或其他状态表示 RAID 盘出现问题了16、 用 sysdumpdev l 查看系统的

8、DUMP 设置是否正常。17、 用 instfix ik | grep ML当前操作系统补丁版本补丁程序(PTF)是否满足稳定运行的需要。一般要求 433操作系统补丁要打到 10 以上,5.1 操作系统补丁要打到 5 以上18 、使用 df kP 查看磁盘空间占用率请确保以下文件系统的占用率高于 80%立即上报: / /var /usr /home /tmp /zxindata/zxinbak,其余文件系统的占用率高于 95%立即上报也可以到各文件系统下使用组合命令:find . size +2048 o ctime 1 exec ls l ; 查出大于 1M 或一天之内修改过的文件。19、系

9、统性能内存:svmon、lsps -aCpu :sar硬盘:iostat文件系统:filemon 其他命令: vmstat、topas、lvmstat20、磁带机是否需要清洗/usr/lpp/diagnostics/bin/utape -cd rmt0 n显示结果为磁带机使用的小时数,若大于 72 小时,则不论磁带机黄灯是否亮都应用清洁带清洗21、syncd 参数值: 缺省值:60;范围:1 到任何正整数显示: grep syncd /sbin/rc.boot 或 vi /sbin/rc.boot更改: 更改在下次引导后有效,而且是永久有效。备用方法是使用命令 kill 来终止守护程序sync

10、d 并用命令 /usr/sbin/syncd interval 从命令行重新启动它。第 4 页 共 25 页 诊断: 当 syncd 正在运行时,文件的 I/O 被阻塞了。调整: 在缺省级别上,这个参数几乎不影响性能。不推荐对这个参数进行更改。为了保持数据完整性对于 HACMP 而使 syncd interval 明显缩小,会导致性能下降。更改命令为: #vi /sbin/rc.boot22、检查 errdaemon, srcmstr 是否正常运行# ps -ef|grep err# ps -ef|grep src1.4.性能监控与调优通过命令 vmstat 1 来观察 .kthr memor

11、y page faults cpu- - - - -r b avm fre re pi po fr sr cy in sy cs us sy id wa命令解析:vmstat 命令的输出可以反映系统整体运行状况,包括 cpu、内存、虚拟页面、系统进程和系统调用情况。检查 CPU 是否为瓶颈,分别检查 CPU 的四项数值和 kthr 的两项数值.检查 MEM 是否为瓶颈,分别检查 Memory 的两项数值和 Page 的六项数值.命令解析: sar 可以用来收集反映系统运行状况,在这里主要是查看CPU 的运行状况,CPU 是否负载均衡,是否存在分配不均的情况。通过命令 ps gv | more

12、来观察。PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND0 - A 4:20 7 12 14516 xx 0 14504 0.0 5.0 swapper1 - A 1:33 103 78952 79044 32768 25 36 0.0 29.0 /etc/init第 5 页 共 25 页 命令解析:ps 可以用来查看进程的当前状态。在这里通过参数的配搭,可以观察目前正在运行的进程所耗的时间,CPU 和 memory 量.其中,%CPU 表示进程所占用的 CPU 资源情况, %MEM 表示进程所占用的内存情况。主要检查

13、是否有标示为的僵尸进程耗用系统资源,以及 informix 数据库的 oninit进程的系统消耗情况。在机器上用 dd 命令进行磁盘阵列的写操作校验,与此同时用 iostat 1 d hdiskX 观察磁盘。Disks: % tm_act Kbps tps Kb_read Kb_wrtn命令解析: iostat 可以用来查看系统的 I/O 的输入输出情况,在这里主要查看阵列上的硬盘的每秒读写量,同时估算磁盘阵列读写速度 HHhHhh 通过命令 netstat a 进行查看。Active Internet connections (including servers)Proto Recv-Q S

14、end-Q Local Address Foreign Address (state)命令解析: netstat 可以用来查看系统的网络情况,在这里主要是查看网络客户端连接的情况和开销,检查参数为 state,如有死连接,state 状态为fin_wait, 这样耗用系统网络资源,从而导致网络性能下降构成瓶颈。1.5.安全工作守则a.系统定期进行系统备份,系统盘建议镜像。b.当有系统变更或进行操作系统补丁安装的时候,必须作一次系统备份。c.在 7133 和 shark 发现有硬盘故障的时候,请提醒客户注意当天的数据备份。在更换硬盘的时候,请确认当天数据备份已经完成。d.在更换敏感的电子元件,时

15、候一定要防静电。e.在插拔外围设备的时候,请把外围设备下电。f.在进行主机微码升级时候,请留意微码的完整性。 g.在进行文件删除的时候,请留意当前路径是否正确。h.在进行文件解压缩的时候,请留意参数和路径。第 6 页 共 25 页 2. 系统日常维护流程2.1.系统启动系统启动正常顺序如下:首先对外设(磁盘阵列、磁带库等)加电。待所有外设加电自检完成后, 主机加电正常起机。主机加电后,系统进行自检,在液晶显示屏显示”ok”后,才能按白色 POWER 键起机.启动主机 HACMP,启动后可用命令 tail -f /tmp/hacmp.out 来检查启动情况,在HACMP 未完全启动前不要进行下一

16、步。检查服务器的网络地址,路由表(可用 netstat -i , netstat -rn 等),检查文件系统,逻辑卷(可用 mount , lsvg -o 等)。检查各项应用是否工作正常。2.2.系统关闭停止 HACMP ( smitty clstop)。查看 HACMP 的状态,检查服务器的网络地址,路由表(可用 netstat -i , netstat -rn 等),检查文件系统,逻辑卷(可用 mount , lsvg -o 等)。在 HACMP 未完全停止前不要进行下一步。关闭主机 (shutdown F)。重启系统可以使用:shutdown -Fr如有必要的话,按磁盘阵列前方的白色按钮

17、关闭磁盘阵列。2.3.查看系统的错误记录在系统运行时,一些系统错误会记录在 errlog 中,其中有些错误还会在终端上显示。检查错误日志可用以下命令:#errpt|more 查看系统所有的记录IDENTIFIER TIMESTAM P T C RESOURCE_NAME DESCRIPTIONE85C5C4C 0426104399 P S CFGLFT SOFTWARE PROGRAM ERROR第 7 页 共 25 页 2BFA76F6 0426104099 T S SYSPROC SYSTEM SHUTDOWN BY USER9D4CF6E7 0426104399 T O errdemon

18、 ERROR LOGGING TURNED ON1E2AC07E 0426103999 T O errdemon ERROR LOGGING TURNED OFF1E5EER4T 0423132999 T O clstrmgr OPERATOR NOTIFICATION 其中IDENTIFIER 为错误编号,当需要检查详细信息时常会用到。TIME STAMP 为时间标签,它记录的是出错时间,其格式:月月日日时时分分年年T 为 Type , 它记录的是错误类型P :为永久错误,需引起注意T :为临时错误。C 为 Class, 它记录的是错误种类,如H : HardwareS : Software

19、O : Errloger command messagesU : undeterminedRESOURCE_NAME 为错误来源DESCRIPTION 为错误描述#errpt -aj 查看系统详细记录内容其中 IDENTIFIER 为错误编号,如 #errpt -aj 0426104399#errpt -dH 查看系统所有的硬件出错记录2.4.系统与数据备份有效及时的系统备份是系统管理的非常重要的一环。当系统出现故障时,特别是文件系统被严重损坏或硬盘损坏时,常需要使用系统备份来恢复系统。在以下情况下应做系统备份:1、新装机。在硬件及系统软件安装完成后,应做系统备份。2、软件改动。系统软件或应用

20、软件有改动时,应做系统备份。3、定期备份。对系统进行定期备份,最好每两或三个月做一次备份备份注意事项:第 8 页 共 25 页 进行系统备份无须停止业务,业务可以继续进行。建议客户进行定期的系统备份(使用命令 smitty mksysb)。客户也可根据需要利用 SMIT 对系统的特定的 VG 或 FS 进行备份。smitty mksysb 只备份 rootvg 中 mount 起来的文件系统,其它文件系统或数据并没有做备份,所以数据备份需要另外完成(建议客户使用 TAR 格式)在条件允许的情况下,最好有一盘以上备份带,以防止磁带损坏。 系统备份过程中有时候会提示有些/tmp 目录下的文件无法备

21、份,显示如下:Creating list of files to back up.Backing up 34025 files.1694 of 34025 files (4%).2733 of 34025 files (8%).backup: 0511-449 An error occurred accessing ./tmp/sh34736.1: A file or directory in the path name does not exist.backup: 0511-449 An error occurred accessing ./tmp/sh34736.2: A file or

22、directory in the path name does not exist.backup: 0511-449 An error occurred accessing ./tmp/sh34736.3: A file or directory in the path name does not exist.15458 of 34025 files (45%).31920 of 34025 files (93%).0512-003 mksysb may not have been able to archive some files.The messages displayed on the

23、 Standard Error contained additionalinformation.这是正常现象,备份成功。2.5.系统恢复当系统发生比较严重的故障以致采取一般性维护手段不能在短期内恢复原系统,在与客户进行蹉商后,可将最近一次的系统备份带倒回机器内以全面恢复系统到最近一次做备份时的系统环境,然后可将当日的数据备份再倒回系统内。至此,系统可恢复正常运行。此后,客户应当与 IBM 工程师再进行整个事件的全面分析与回顾,以期找到故障发生的原因,并采取相应措施以杜绝类似事件再次发生。第 9 页 共 25 页 2.6.DUMP当系统运行出现软件故障导致系统 down 机时,机器的液晶显示器会

24、出现 888 102 xxx 0c0 (xxx 可能为 700 或其它) ,AIX 常会将当时系统的运行情况记录下来,这就是 DUMP。当 DUMP 产生后,请将磁带放入磁带机,用命令 # snap -a -o /dev/rmt0 将DUMP 文件拷贝到磁带设备/dev/rmt0 中。注明磁带机的 block size, DUMP 产生的日期和机器的型号及序列号。同时,请用# errpt -a /tmp/err.log 将 errorlog 记在/tmp/err.log 中,并将 /tmp/err.log 和 /tmp/hacmp.* 拷贝到软盘或磁带上。将磁带和软盘交给 IBM 工程师。3. 故障定位、故障排除根据我们在实际商用系统中碰到问题,我们总结出了以下几种常见故障及其定位方式和解决方法。3.1.硬件故障硬件故障有很多种,对系统产生的影响也不一样,这里按其故障对系统的影响程度分:致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类:其损坏对系统产生致命影响(将使机器宕机或无法启动)的硬件包括:主板、CPU、I/O 柜(包含本地盘、光驱、PCI 插槽等的柜子)或 CEC 柜(包含 CPU/MEMORY 等的柜子)、 I/O 柜与 CEC 柜的接线、电源模块、风扇、本地硬盘、内存损坏等等注:I/O 柜和 CEC 柜一般在比较高端的小型机才有,如 M80,低端的是合一的。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 策划方案

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。