1、IBM PC 服务器故障诊断流程一、状态确定:状态确定是指发生故障的设备是当前是什么状态,是业务正常在跑,前面板有指示灯告警,比如一些冗余部件的故障(硬盘、电源、风扇等等);还是出于宕机状态,不能正常进入到操作系统里面,这里又得分为两种情况讨论,一是设备开机没有自检,直接黑屏;二是开机有自检,自检阶段有 POST 蜂鸣声或者报错码,面对这种情况可结合前面板 LED,光通诊断板,主板 LED,POST 阶段的一些现象具体问题具体分析。故障定位侧重于判断坏在哪里;二、故障定位:故障定位的时候,我们用到的手段非常多,下面,利用 POST 的过程;1、POST 阶段复习:广义的 POST 过程是指从按
2、下电源开关到开始引导系统,共分为三个过程:电源供电阶段核心部件初始化阶段狭义 POST 阶段2、电源供电阶段:从按下电源开关的瞬间开始,设备就开始工作了;电源是动力的源泉,供电系统的良好是设备正常运转的基础; 如果问题出现在电源这边,那么之后的一切都进行不下去了;电源问题:供电系统的良好是设备正常运转的基础;只有供电系统 OK 了,设备才可以开始自检;故障表象:机器开机无电,电源灯不亮,电源风扇不转,按电源按钮开机无反应。诊断方法及过程:供电系统是一条完整的链路,不是单指电源模块;市电及插座电源线 电源模块 电源分配板主板;首先,要确认市电供电是否正常;包括使用的插座或者 PDU(power
3、distribution unit)模块;其次,查看电源线是否接好,电源线本身是否 OK;诊断方法:替换法+最小化法 +指示灯法+排除法;替换法:拿确认完好的备件去替换故障设备上的相应备件;最小化法:将链路裁减至最小(要保障设备能正常运行) ,再进行故障排除;IBM 的问题确定与维护手册诊断章节之未确定的问题当中提供了服务器能够启动的最低配置,以IBMX346(8840 )为例,下面为 IBM X346(8840)能够启动的最低配置:指示灯法:一般在电源模块上都有相应的指示灯,来表征电源模块的状态;比如AC(交流电)和 DC(直流电) 。3、核心部件初始化阶段:核心部件初始化问题:电源 OK
4、之后,在真正的 POST 开始之前,其实要有一个准备过程,即核心部件的初始化过程;如下:电源CPU BIOS CMOS 内存( 前 64k) I/O 总线控制器显卡系统这些部件都是 POST 要开始的必须条件,POST 实际上是由他们来完成的,所以在他们初始化成功之前,POST 不会开始;注:核心部件的初始化,只是为了满足 POST,他们初始化成功,并不代表他们所有功能都 OK;所以,在他们初始化之后,还会有一个对他们自己的 POST 过程;所以在整个 POST 过程中,CPU 之类的核心部件会被检查两次,一次初始化,一次才是真正的POST;IBM:(1).机器电源风扇转,电源灯常亮,但机器无
5、显示。(2).机器无显示,机器前面板!指示灯和光路诊断板上的 LED 指示灯亮黄灯或者红灯;(3).机器无显示,但有明显的 B-B-CODE 报警声。诊断方法及过程 IBM:(1).确认机器显示器是否连接正常,并正常工作。(2).确认机器前面板上的 LED 指示灯是否正常,确认光路诊断板上的指示灯是否正常;确认主板上的 LED 指示灯是否正常;Eg:IBM X346(8840 )为例:前面板指示灯:查询手册:Hardware Maintenance Manual and Troubleshooting GuideChapter 1. General informationFront view硬
6、盘:硬盘驱动器活动指示灯(绿色 )该灯闪烁表示硬盘有数据读写操作;硬盘驱动器状态指示灯(绿色 )该指示灯点亮,则表示驱动器发生故障。如果服务器中安装了可选的 IBM ServeRAID 控制器且该指示灯在缓慢闪烁(每秒闪烁一次) ,就表示正在重建(rebuild)驱动器。当指示灯快速闪烁(每秒闪烁三次)时,表明控制器正在识别该驱动器。黄灯点来那个就说明该驱动器发生了故障,频率较高的闪烁表明服务器正在识别该驱动器,频率较低的闪烁说明服务器正在重建驱动器。操作信息面板:操作员信息面板的含义: 系统错误指示灯 如果该指示灯点亮,则表示发生了系统错误。系统错误指示灯还位于服务器背面。系统板上光通路诊断
7、面板上的指示灯也点亮,以帮助隔离错误。该指示灯由 BMC 控制。释放滑锁 按下操作员信息面板右侧的释放滑锁来将操作员信息面板滑出并查看光通路指示灯和按钮。 电源指示灯 如果此绿色指示灯点亮并不闪烁,则表示服务器打开。如果该指示灯在闪烁,则表示服务器关闭,但是仍连接到交流电源。当此指示灯熄灭时,表明已切断交流电源或者电源或指示灯本身出现了故障。服务器后部也有电源指示灯。注:如果此指示灯熄灭,并不表示服务器没电。此指示灯可能已烧毁。要切断服务器的所有电源,必须从电源插座拔出电源线。电源控制按钮 按下该按钮可手动打开和关闭服务器。电源控制按钮护罩与服务器一起提供。您可以安装此磁盘形状的护罩以防止意外
8、关闭服务器。硬盘驱动器活动指示灯 如果此绿色指示灯点亮,则表示某个硬盘驱动器正在使用。注:在两个位置显示了 SCSI 驱动器的硬盘驱动器活动:硬盘驱动器本身和操作员信息面板上的硬盘驱动器活动指示灯。SATA 驱动器没有硬盘驱动器活动指示灯。SATA 驱动器指示硬盘驱动器活动的唯一位置是在操作员信息面板上位置指示灯 如果服务器位于其它服务器中间,此中间(蓝色)指示灯可以帮助您从视觉上区分出该服务器。可以使用 IBM Director 来远程点亮该指示灯。该指示灯由 BMC 控制。信息指示灯 如果此淡黄色指示灯点亮,则表示发生了一般事件。请检查光通路诊断面板光路诊断板指示灯:查询手册:Hardwa
9、re Maintenance Manual and Troubleshooting Guide Chapter 3. Diagnostics Light Path Diagnostics光通诊断板的含义: 光路诊断板点亮,系统错误 LED点亮或者系统信息 LED 点亮含义 操作OVERSPEC 点亮表示没有足够的电量为系统供电,NONRED 和 LOG 也会点亮1.如果只安装一个了一个电源,请安装另外一个可选电源;2.更换故障的电源PS 点亮表示一个电源故障或被卸下;冗余电源中一个电源的 DC 灯熄灭1.保证电源冗余;2.更换故障电源LINK 保留CPU 点亮微处理器发生故障;闪烁表示发生了无
10、效的CPU 配置确保正确安装处理器;发生了配置错误保证所安装的 CPU 的各个参数都一致VRM 点亮表示微处理器稳压模块发生故障;闪烁表示进行了无效的配置更换故障的 VRM,如果问题仍存在请更换主板;保证正确安装VRMLOG 点亮表示 BMC 日志或者系统错误日志中,两个之一已满或者全部几乎已满系统错误日志为 75%已满;如果可以保存并清除日志;检查日志可以找到潜在的错误MEM 点亮内存故障;闪烁表示进行无效的内存配置更换系统板上点亮 LED 的故障内存;保证 DIMM 的正确安装NMI 点亮表示出现机器检查错误检查系统错误日志和 BMC 日志PCI 点亮 PIC 适配器出现故障;PCI-X
11、板上相应的检查 BMC 日志或者系统错误日志;更换故障的 PCI 适配器LED 也会点亮SP 点亮服务处理器发生故障从服务器上卸下交流电源;然后将服务器重新连接到交流电源并重新启动服务器;如果故障仍存在请更换系统板DASD 点亮出现硬盘驱动器错误;出现错误的硬盘驱动器上的错误指示灯也会点亮检查驱动器上的指示灯并更换指示的驱动器RAID 点亮 RAID 控制器出现故障检查 BMC 日志系统错误日志;更换故障的 RAID 卡NONRED 点亮表示服务器正在使用非冗余的电源;LOG灯也有可能点亮更换故障电源;TEMP 点亮表示温度超出系统阙值确定风扇是否发生故障;保证机房内温度在正常范围内FAN 点
12、亮风扇发生故障或者转速过慢;故障的风扇在系统板上的指示灯也会点亮更换故障的风扇PCI BRD 点亮表示 PCI-X 板出现故障重新安装 PCI-X 板组合件CPU BRD 点亮表示微处理器托盘出现故障重新安装微处理器托盘I/O BRD I/O 板出现故障 重新安装;更换故障 I/O 板注意:不是所有设备的光路诊断板都可以从前面板上拉出来查看的,一些老设备是将光路诊断板设计在机箱内的,需要开盖查看;主板指示灯:查询手册:Hardware Maintenance Manual and Troubleshooting Guide Chapter 4. Customer replaceable uni
13、ts System-board LED locations(3). 确认机器报警声信息。查询手册:Hardware Maintenance Manual and Troubleshooting Guide Chapter 6. Symptom-to-FRU index Beep symptoms(4). 最小化测试4、狭义 POST 阶段:在显示器开始有显示之后,进入我们所谓的狭义 POST 阶段,在这个阶段,我们开始告别两眼一抹黑的困境;首先,CPU 的基本功能初始化完成,他可以执行 POST 代码对部件进行全面的自检,并且,显卡 POST 功能的通过,我们又有了可供 CPU 反馈 POST
14、 结果的平台,报错码、诊断工具纷呈出台;所以,在这个阶段,最核心的思想就是:掌握好设备的报错码分析手段和诊断工具的使用;IBM:(1).指示灯法:和核心部件阶段的方法一样;(2).报错码:Hardware Maintenance Manual and Troubleshooting Guide Chapter 6. Symptom-to-FRU index Error symptoms 和 POST error codes;(3).F2 诊断程序,自检阶段根据提示 F2 for DIAGNOSTICS,可以根据提示选择 Quick test,测试硬件设备,查看测试日志;开启服务器并观察屏幕。注
15、意:为了运行检测程序,必须使用所设置过的最高级别的密码启动。就是说,如果设置了管理员密码和开机加电密码,则用户要运行检测程序就必须输入管理员密码,而不是开机加电的密码。当看到 F2 的检测程序信息出现时,按 F2 进入。如果设置了密码,输入正确的密码然后按回车。在屏幕最顶端的菜单中选择“Extended“或“Basic“来执行两种检测模式。当检测程序菜单界面出现的时候,从中选择你想运行的检测项目,然后按照屏幕上的提示操作。a、用户可以在运行检测程序的时候按 F1 获得帮助信息,并且用户还可以在帮助窗口内按 F1 来获得在线的文档帮助,从中用户可以选择不同类别的信 息。要从帮助信息中退出,按 E
16、SC。b、如果服务器在检测过程中停止并且用户不能继续执行检测程序,重新启动服务器并且尝试再次运行检测程序,如果检测这个设备依旧出现服务器停止的问题,更换这个部件。c、键盘和鼠标(点击设备)的检测假定有一个键盘和鼠标已经连接到服务器上。d、如果用户在没有连接键盘或鼠标的情况下运行检测程序,那么将无法使用“Next Cat“和“Prev Cat“按键来操作在不同类别的检测项目之间进行切换。所有其它的功能选项均提供鼠标可点击的按钮,并且也支持使用功能键。e、用户可以使用常规的键盘检测项目来检测 USB 的键盘,而常规的鼠标检测也可用来检测 USB 鼠标。当没有 USB 设备连接的时候,用户还可以使用
17、 USB 接口的检测只检测端口。f、用户可以通过选择顶端的“Hardware Info“选项来查看服务器的配置信息(如系统的配置、内存容量、中断请求(IRQ)的使用、直接内存存取 (DMA)的使用及设备驱动等等) 。如果检测程序没有检测出任何硬件错误,但是在系统正常运行过程中依旧出现问题,那么有可能是软件错误导致的。如果用户怀疑是软件问题,可以查看通过软件补丁生成的信息。查看检测日志:当检测完成后,用户可以用过选择屏幕顶端的“Utility“项目,然后选择“View Test Log“来查看检测 日志。用户也可以将检测日志生成一个文件并保存到软盘或硬盘上。测试结果:我们常常关注的是 Faile
18、d 和 Warning 这两项。(4).F1 for Setup,自检阶段根据提示 F1 for SetupEvent/Error log 查看分析和清除系统错误日志,以及进入高级设置 Advanced Setup 清除 BMC 日志;5、操作系统无法启动:系统无法启动,IBM 服务器如果外加的阵列卡 IBM ServeRAID 当中的 RAID 信息丢失,系统会找不到引导盘,从而进入不了操作系统,这种情况的表象是在 RAID 卡 BIOS阶段有报错,在进入操作系统会出现画面:一个图形界面,最下面是标注了 F1 至 F12 的一堆方块,其中,F1 上面有一个向下的箭头在闪动;这个是没有找到启动
19、设备的告警;提示你按下 F1 继续;按下 F1 之后,发现设备告警:没有找到启动设备,因为 IBM 外加阵列卡的服务器的 RAID 信息在硬盘和阵列卡上都有保存,可以借助 RAID 卡 BIOS,将 RAID 信息从硬盘拷贝到 RAID。具体做法是,当设备自检到 RAID 卡时,根据提示,进入“Mini-Configuration( RAID 卡 BIOS) ”,选择 Advanced Functions Copy the Configuration from Drives to Controller,将配置从硬盘拷贝到控制器提示按 Y,按 Y提示processing,表示正在拷贝出现 000
20、0H,表示成功,之后操作系统会提示重新启动,重新启动之后,成功进入操作系统。对于非设备硬件的问题,而是丢了一些系统内核文件导致,需要的是修复操作系统,比如重新安装操作系统。6、操作系统中的在线诊断工具:在操作系统运行的时候,各个厂商也提供了自己的在线诊断工具:IBM:(1).DSA:DSA 软件不仅可以收集信息,也可以判断故障;(2).ServeRAID Manager:专门用来管理阵列信息;(3).director:如果有集中监控和管理平台,可以使用这个软件判断故障;7、故障解决方法:IBM:Eg: Hardware Maintenance Manual and Troubleshooting Guide - IBM eServer xSeries 346 .pdf Chapter 4. Customer replaceable units 和 Chapter 5. Field replaceable units9 / 9
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。