1、 1 / 8 1. 应急响应机制 1.1. 基本处理流程 发现故障 初步判定 启动应急预案 , 并通知领导 联系技术支持处理 联系开发人员或厂 家工程师现场处理 故障恢复 总结 , 修订应急预案 扩大应急 突发 事件 应急 组 按事件流程处理 一般事件 突发事件 已解决 已解决 记录 汇报进度 汇报进度 增援 汇报 未解决 (1)值班人员平时应做好应急事件的监控工作,对于突发事件 应认真分析、准确判定故障发生的数据域,负责跟踪该事件直至其 结束。对于不在运维中心的故障,应在第一时间内通知负责人去现 场处理,密切关注事件流程及进展情况,并做好登记工作上报领导。 (2)正常情况下,要求值班人员在
2、10 分钟内进行事件确认。 2 / 8 如果属于一般事件则按照事件流程进行分派处理,否则应迅速启动 应急预案 ,并严格按照应急预案所规定的步骤快速实施应急 处置,及时汇报上级领导,掌握实时处理情况。 (3)在处理过程中,如需其他部门去现场增援处理,应及时向 上级领导部门汇报,协调沟通,尽快联系技术工程师或厂家技术支 持赶赴现场援助处理。 2. 演练准备工作 2.1. 视频监控系统 检查视频监控是否正常工作,图像是是否清晰。检查接受到的 视频图像为实时图像。 2.2. 湿温监控系统 检查湿度控制器、温度控制器是否正常工作,检测当湿度过高 或温度过高时其是否实现实时报警。 2.3. UPS 检测系
3、统 检查监控中心所收到的 UPS 运行状态,与实时 UPS 运行状况是 否一致,具体参数是否正常(如输入电压、电流、蓄电池供电情况 等) 。 3 / 8 3. 演练过程 3.1. 机房市电供电异常 3.1.1. 准备工作 机房供电系统图、配电系统维修工具、应急灯、UPS 操作手册、 应急联系电话表。 全面检查机房供电系统状况,重点确保 UPS主机系统和电池组 等处于良好运行状态。 与配电室联系好,保证在演练期间配电室无维修或其他操作, 电力供应稳定。 通知 UPS 供应商或维护商做好相应备件及技术支持准备,以防 止 UPS 后备电池因维护保养不善造成其使用寿命缩短或 UPS 主机在 进行逆变切
4、换时发生故障。 演练前对网络系统及应用系统进行一次系统备份和数据备份。 3.1.2. 应急演练应掌握的数据 由于目前 UPS 系统在机房的负荷较大,目前 UPS 有效后备时间 约 22.5 小时。 经与相关小组了解业务系统数据应急和设备正常关闭时间约 1.5 小时。 机房计算机设备允许最高环境温度为 33C。 4 / 8 3.1.3. 市电异常应急演练处置流程图 突发市电停电 检查 U P S 运行状况 每十分钟对 U P S 进 行一次记录 , 对 机房系统进行一 次正常运行确认 每十分钟记录一次 机房温度 、 湿度 短时间能恢复 供电 机房温度超过 2 7 C , 打开机房通 道门并使用电
5、风 扇 , 减少机房温升 是否大于 3 3 C 对 U P S 主机进行 宕机 , 来电后进 行恢复送电 主机 、 网络 、 应用等系统进 入宕机流程 , 并确认系统管 理员密码 通知领导小组 准备宕机 做好恢复送 电的准备 市电恢复 后 , 对电源 进行检查 恢复送电后 , 检 查空调运行状况 主机 、 网络 、 应用等系统进 入宕机流程 , 并确认系统管 理员密码 通知领导小组 , 根 据要求 , 逐台宕机 是 否 是 与大楼配 电室联系 否 3.1.4. 应急操作过程 首先,接到应急演练小组演练开始的命令,将 UPS 供电总电源 切断。 在供电电源停止后,每四分钟对 UPS 供电情况进行
6、一次巡检, 检查内容主要是 UPS 的负载情况、输出的电压电流、电池后备时间、 电池运行情况,并做好记录(记录表样式附后) 。 5 / 8 随时联系配电室人员,了解供电恢复时间,并向领导小组汇报。 当停电半小时后未得到准确送电时间,通知维护小组及其他相关部 门,做好停机准备,停部分设备以减少用电负荷。当停电一个小时 后仍未得到准确送电时间火灾配电室通知短时间内故障无法排除, 向领导小组汇报,由领导小组通知维护小组及相关部门关闭机房全 部设备。 如果停电范围较大,涉及机房空调市电停止,还需有专人对机 房温升情况进行监控并记录(记录样式附后) 。当机房温度达到 33C 时,向领导小组汇报,由领导小
7、组通知维护小组及其他相关 部门关闭机房相关设备,随着温度的升高直至关闭全部设备。 上述 UPS 电源中断和机房空调电源终端两种情况同时发生时, 只要其中一个条件不能满足机房运行要求,就要向领导小组汇报, 由领导小组通知维护小组及其他相关部门关闭机房全部设备。 送电后的恢复工作:市电恢复正常供电后,机房管理员检查 UPS 系统运行情况和电池组充电状况、空调系统运转情况,并向领 导小组进行报告。 3.1.5. 演练中发生异常故障的处理 (1)应急演练过程中,发现任何异常情况要及时向应急演练领 导小组报告,由应急演练领导决定是否终止应急演练。 (2)在应急演练过程中预先准备好灭火器材,防止出现大电流
8、 放电出现着火。 (3)在 UPS 电池出现过热时应及时终止演练并恢复市电供电, 6 / 8 以防意外发生。 (4)出现电池及电缆接头过热情况要及时处理,恢复市电,更 换接头等。 3.2. 机房漏水 3.2.1. 演练内容 计算机机房场地漏水,对计算机系统运行造成严重影响。 3.2.2. 准备工作 吸水设备、水桶、拖布及地板吸盘等水灾抢救用品。机房供电系统 系线路图纸、了解机房漏水的风险点。 3.2.3. 机房可能发生大范围漏水的部分 机房空调加湿用的供水水管、除湿的下水和吸顶空调的冷凝水。 3.2.4. 演练操作步骤 演练开始。执行小组接到计算机机房管理人员报告场地漏水或 计算机机房场地监控
9、系统(漏水报警器报警)发现场地漏水,执行 小组立即检查进水部位,查明进水原因,掌握危害程度,并与大楼 后勤服务部门联系,请求寻找进水原因。 执行小组向协调小组、领导小组报告计算机场地漏水原因、危 害程度,同时为了减少损失,通知维护小组做好进行数据备份、业 7 / 8 务系统和电子设备关闭的操作准备工作。 大楼后勤服务部门负责疏通排水通道、清楚计算机机房周边积 水、切断计算机机房漏水水源。协调小组在确保无触电危险的前提 下,组织人员用吸水工具抽吸场地内积水,控制进水影响范围。 领导小组根据进水危害程度,命令维护小组部分关闭或全部关 闭业务系统和电子设备后,由机房管理员切断部分或全部场地电源, 防
10、止危害进一步扩大。 进水危险解除后,机房管理员检查计算机场地受灾情况和电力 线路、网络线路健康情况,进行计算机机房去湿等环境恢复,并向 领导小组报告。领导小组根据计算机机房环境恢复情况,命令维护 小组部分恢复或全部恢复业务系统和电子设备进行 3.3. 机房火灾 3.3.1. 演练内容 计算机机房发生火灾,对人的生命和计算机系统运行造成危害。 3.3.2. 准备工作 (1)手持计算机机房灭火器、手持应急照明灯具等火灾抢救用 品。 (2)确保气体灭火系统运行稳定,并将启动方式设置为手动。 8 / 8 3.3.3. 演练步骤 火情发现。执行小组接到机房管理人员的火情报告,或计算机 机房场地监控系统发
11、现火情,或大楼消防监控中心发现火情。 执行小组在排除误报和在确保生命安全的前提下,准确掌握火 情部位、灾情程度,并向协调小组报告。 协调小组向领导小组报告计算机机房发生的火情和危害程度。 经领导小组同意,执行小组按动火灾报警按钮,发出声、光报 警信号,组织人员撤离计算机机房。 分一下两种情况进行处置: (1)在火情未蔓延时,领导小组命令执行小组切断火灾部位电 源、利用手持机房灭火器具进行灭火。 (2)在火情蔓延时,领导小组命令执行小组切断计算机机房全 部电源,在确保人员全部撤离机房后,关闭机房所有通道门、启动 气体灭火系统进行灭火。 火情解除后,执行小组检查计算机机房空气质量,掌握受灾情 况和
12、电力线路、网络线路等健康情况,并向协调小组、领导小组报 告。 领导小组根据计算机机房环境情况, 命令执行小组恢复部分或 全部电源供应、维护小组部分恢复或全部恢复业务系统和电子设备 运行。 3.3.4. 演练中发生故障及相关问题处理 (1)误按了放气按钮怎么办? 9 / 8 在误按了放气按钮时,可在 30s 内按住旁边的止喷按钮,并等 待专业人员拿钥匙进行复位。 (详见气体灭火器使用说明) (2)机房发生火情,拉了气体释放开关不释放气体怎么办? 这种情况的原因是气体灭火的控制屏或释放阀发生故障,可立 即到气瓶间拉下上手动释放开关。 UPS 异常运行记录表 时间 输出电压 输出电流 电池放电电流 电池后备时间 每十分钟记录一次 确认签字: 机房温湿度记录表 机房 1 机房 2 时间 温度 湿度 温度 湿度 每十分钟记录一次 确认签字: 市电中断后主机组、网络组、应用组系统运行确认表 主机组 网络组 应用组 时间 系统供 电状况 确认 签字 系统供 电状况 确认 签字 系统供 电状况 确认 签字 每十分钟进行一次确认