1、当机房服务器异常时候,你要怎么办? 第一类、机房环境及物理检查 一、 机房环境 1. 温度与湿度: 最佳工作温度:20-25 摄氏度 极限工作温度: 10-40 摄氏度 湿度: 8-80%(在 23 摄氏度条件下) 2. 同时机房要保证服务器清洁. 机房应保持服务器清洁,若空气灰 尘过多,很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。 定时使用皮老虎、刷子清除服务器灰尘。 二、电源 电压: 要求电压稳定, 尖峰电压会损坏设备 电压范围: 220V +/- 10%, 即 200-240V, 50-60Hz 电源功率: 视机器类型和系统配置而定 电源线 : 标准的零, 地, 火三相电, 其中
2、零, 地电压不得超过 3.0V. 电源接驳: 用符合电流要求的空气开关或其他设备和主机电源线接 驳,保证计算机系统的可靠工作应使用稳压电源和 UPS,对于冗于电 源的接入,采用两路单独输入. 二、 硬件检查 检查服务器、磁阵的安装、电源线主机接线符合要求。 服务器状态检查: 1. 当服务器处于启动和正常工作状态时,其前面板上的液晶显 示屏上应无信息显示。 2. 当液晶显示器上出现带数字和字母的信息时,说明有硬件告 警。可以通过查询相关机型的面板报警数字信息查到相应告警原因, 情况严重的,则要立即通知服务器厂商进行问题排查。 1. 当服务器的状态灯出现橙黄色时,说明有硬件告警,此时要检查 磁柜的
3、电源、接线、硬盘等。如果有硬件故障则立即进行更换和更 正,如果查不出具体问题,则需要联系相关厂商进一步诊断。 2. 当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写, 则绿灯一直亮,如该硬盘有读写操作,则绿灯会不规则闪烁,当硬 盘损坏时或 RAID 出现问题时,则硬盘状态灯将熄灭,或者呈闪烁状 态:以 13 秒的频率有规律地、不停地闪烁 第二类、系统日常维护流程 2.1 系统启动 系统启动正常顺序如下: 首先对外设(磁盘阵列、磁带库等)加 电。 待所有外设加电自检完成后,主机加电正常起机。主机加电 后,才能按 POWER 键起机. 2.2 系统关闭 服务器系统关闭时,需要确认服务器的服
4、务是否对现 网业务有影响,同时需要对关闭的服务器运行中的程序进程确认, 明确软件安全的关闭步骤,在进行关机操作。 2.3 系统与数据备 份 有效及时的系统备份是系统管理的非常重要的一环。当系统出 现故障时,特别是文件系统被严重损坏或硬盘损坏时,常需要使用 系统备份来恢复系统。在以下情况下应做系统备份: 1、新装机。在硬件及系统软件安装完成后,应做系统备份。 2、软件改动。系统软件或应用软件有改动时,应做系统备份。 3、定期备份。对系统进行定期备份,最好每三个月做一次备份 2.4 系统恢复 当系统发生比较严重的故障以致采取一般性维护手段 不能在短期内恢复原系统,与上级确认后,可将最近一次的系统备
5、 份倒回机器内以全面恢复系统到最近一次做备份时的系统环境,然 后可将当日的数据备份再倒回系统内。至此,系统可恢复正常运行。 此后,应当厂商再进行整个事件的全面分析与回顾,以期找到故障 发生的原因,并采取相应措施以杜绝类似事件再次发生。 2.5 安全工作守则 a 统定期进行系统备份。 b.当有系统变更或进行操作系统补丁安装的时候,必须作一次系统 备份。 c.在发现有硬盘故障的时候,注意当天的数据备份。在更换硬盘的 时候,请确认当天数据备份已经完成。 d.在更换敏感的电子元件,时候一定要防静电。 e.在插拔外围设备的时候,请把外围设备下电。 f.在进行文件删除的时候,请留意当前路径是否正确。 g.
6、在进行文件解压缩的时候,请留意参数和路径。 第三类、故障定位、故障排除 根据实际运行的系统中碰到问题,总结出了以下几种常见故障及其 定位方式和解决方法。 3.1 硬件故障 硬件故障有很多种,对系统产生的影响也不一样,这里按其故障对 系统的影响程度分:致命影响的硬件故障和只影响功能的硬件故障 两类进行硬件分类: 其损坏对系统产生致命影响(将使机器宕机或无法启动)的硬件包 括: 主板、CPU、RAID 卡、电源模块、风扇、本地硬盘、内存损坏等等 这些设备的损坏等将使系统无法完成自检、引导和启动,液晶显示 屏上都将有错误信息,可根据液晶显示屏上的错误码对照错误原因, 如果是工作状态下出现这些硬件损坏
7、,则系统将被挂起或宕机。 其损坏对仅对系统产生功能影响(机器不会宕机并能正常启动)的 硬件包括: 网卡、本地硬盘有坏块、显卡、和其他外围设备 这些设备的损坏 只影响特定功能,如网络功能、显示功能、访问磁阵的功能等,对 于本地硬盘有坏块的情况,则要看坏块中是否包含了重要的系统文 件,如果不是重要系统文件,则系统功能不受影响,但也建议立即 更换该硬盘。 故障定位和排除: 液晶屏上的错误码 根据错误码确定是什么硬件出了故障,对系统来讲,原则上必须业 务切换使得损坏服务器离线不影响用户使用的情况下,然后修复故 障机器,恢复系统。 3.2 磁阵故障 磁阵引起的故障是目前碰到的最频繁、危害最大的故 障,据
8、不完全统计,其故障覆盖到总故障的 70%以上,具体来讲, 可能引起磁阵故障的环节包括: 磁阵硬盘、主机上的 RAID 卡、与主机相连的 SAS 线、硬盘的位置和 接线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/RAID 卡等 都可能造成异常。 磁阵的问题是最复杂的,一般有物理损坏的原因也有环境原因,这 是主因,如接线、插盘位置不符合要求、未及时查看系统告警等造 成系统中断等辅因。按照经验,不管是什么硬件故障导致故障,系 统都会产生告警,如果能及时发现问题并采取措施,如果存在硬件 故障时,可从状态灯上观察到: 当单块硬盘出现故障或未被使用时,其面板上的硬盘状态灯会不亮 阵列的状态灯黄灯会亮 服务器的磁阵所配置的 RAID 卡一般都带 有一块充电电池,该电池用于在突然停电的情况下