1、 第 1 页 共 37 页IT系统应急响应及恢复预案编写指南2011年7月1 日第 2 页 共 37 页目 录修订说明: .3修订记录 .41. 总则 .61.1. 目的和依据 .61.2. 适用范围 .62. 系统及资源 .82.1. 系统信息 .82.2. 系统描述 .92.3. 运行指标 .92.4. 关联系统 .102.5. 物理架构 .112.6. 网络拓朴 .112.7. IP 及端口 .112.8. 系统软硬件 .112.9. 后备资源 .132.10. 用户分配 .142.11. 其他信息 .143. 标准处置预案 .153.1. 标准处置 .164. 故障快速定位 .204.
2、1. 快速定位流程 .20第 3 页 共 37 页4.2. 定位流程 描 述 .204.3. 故障快速定位排查内容 .205. 系统应急场景分类及描述 .225.1. 故障场景分类 .225.2. 硬件故障场景 .225.3. 通用软件故障场景 .265.4. 应用软件故障场景 .285.5. 网路故障场景 .295.6. 其它故障场景 .305.7. 恢复回切场景 .306. 附录 .31附录一:人员联系 表 .31附录二:应急演练方案 .32附录三:应急演练报告 .32附录四:故障应急报告 .32附录五:故障现场收集脚本 .32第 4 页 共 37 页修订说明:北京数据中心于 2011 年
3、 3 月推出北京数据中心总体应急预案 V1.0 (简称总体预案)和中国建设银行 XX 系统应急响应及恢复预案(模版 V3.0) (简称新预案模板) 。总体预案主要适用于北京数据中心信息系统突发事件的处理,并指导各信息系统编制系统应急预案。在总体预案中,对事件分级及处置原则、中心应急组织架构及职责、应急响应及恢复流程、应急预案管理等内容进行了描述。新预案模板主要用于指导数据中心各系统应急新版预案的修订工作。新预案模板在 V2.0 版本基础上,对架构和内容进行了全面的修订,重点加强了系统应急管理、故障快速定位和故障场景等内容的描述。可确保特定系统发生突发事件时,应急人员能依据预案预设内容,规范处置
4、和快速恢复应用。系统预案中相关的事件分级、处置和应急流程等在总体预案中都有详细描述。在修订过程中,编制人员可参照总体预案进行新版预案的修订。新预案模板由六章组成,分别是总则、系统及资源、标准处置预案、故障快速定位、系统应急场景分类及描述和附录。新预案模板与 V2.0 版预案在文档结构对照关系可参见下表:第 5 页 共 37 页新版预案模板 V3.0 旧版预案模板 V2.0 备 注1 总则 新增内容2 系统及资源1.应用系统简介2.系统资源配置对应旧预案第一、二章部分内容3 标准处置预案 新增内容4 故障快速定位 新增内容5 系统应急场景分类及描述7. 技术应急维护操作手册对应旧预案第七章部分内
5、容6 附录 9 附录对应旧预案第九章部分内容3.管理部门及职责划分4.应急组织设置5系统应急管理6应急处理流程8. 预案演练和更新相关内容将统一出现在中心总体预案中新预案模板保持了应急预案版本建设的连贯性,减少了预案版本升级所可能产生的困难和产生的工作量,便于预案修订人员参考使用。本编写指南在主体结构与预案模板也基本保持一致,希望能帮助预案修订人员顺利完成新版应急预案修订工作。第 6 页 共 37 页修订记录说明:每次系统升级及变更配置后,都必须对应急预案做相应的修订,确保这些变化造成的影响能够在应急预案模版中反映出来并使之符合系统现有状况。预案维护人员严格执行版本控制,在预案内容更新后时应该
6、确保相关人员都能及时得到最新版本。示例:修订日期 版本号 修订说明 修订人 审核2007.1 V1.0 建立数据中心应急预案模板 吴磊 杨晓勤2008.1 V2.0 修订应急预案第五、六、七章节 吴磊 张翔2009.6 V2.5 修订第四、第七、第八章节 吴磊 张翔2010.3 V3.0 全面修订应急预案结构和内容,新增第三、第四章内容吴磊 付林第 7 页 共 37 页1. 总则1.1. 目的和依据说明:请在此简要描述本预案编制的主要目的,本预案在建设银行业务持续性突发事件应急响应及恢复工作(以下简称“应急响应及恢复工作” )过程中所发挥的作用和执行的功能,以及编制本预案的主要依据。示例:防垃
7、圾邮件网关系统(MGAT )应急预案(以下简称 MGAT 预案)是邮件网关系统遇到紧急情况或运行中断后为恢复邮件网关服务所采取的快速有效的应对手段。通过建立包含应急启动、执行、恢复等流程、步骤和技术操作方案,为系统相关组织、人员处理应急情况提供指导;并作为与总行其他应急相关人员进行协调的依据。1.2. 适用范围说明:请在此明确本应急预案的具体适用范围。如指明该预案适用于因 XXX 突发事件所导致的建设银行 XXX 业务发生中断,需要采取应急处置和恢复措施予以应对的操作风险事件。第 8 页 共 37 页示例:本系统应急预案适用范围是北京数据中心与本系统有关的所有组织体系和人员,适用于北京数据中心
8、邮件网关系统的运行所需的功能,操作和资源。该预案适用于因邮件网关系统突发事件所导致的建设银行邮件收发发生中断,需要采取应急处置和恢复措施予以应对的操作风险事件。邮件网关系统简称为 MGAT,产品英文名称为 Websense 邮件网关。第 9 页 共 37 页2. 系统及资源2.1. 系统信息应用系统中文全称:说明:请在此描述应用系统在北京数据中心(或 ITSM 系统中)的中文全称。应用系统英文缩写:说明:请在此描述应用系统在北京数据中心(或 ITSM 系统中)的英文简称。应用系统负责部室:说明:请在此描述应用系统在数据中心(或 ITSM 系统中)的负责部室。应用系统管理员:说明:请在此描述应用
9、系统在数据中心(或 ITSM 系统中)的应用预案修订人员 A/B 角或者管理团队。平台系统管理员:说明:请在此描述应用系统在数据中心(或 ITSM 系统中)的平台预案修订人员 A/B 角或者管理团队。第 10 页 共 37 页网络管理员:说明:请在此描述应用系统在数据中心(或 ITSM 系统中)的网络管理员 A/B 角或者管理团队。2.2. 系统描述系统功能:说明:请在此描述应用系统的主要功能。支撑业务:说明:请在此描述应用系统所支撑的所有业务应用。业务影响范围:说明:请在此描述应用系统故障后可能影响的范围。2.3. 运行指标说明:请在此补充应用系统的常用的一些运行指标,如恢复时间目标(RTO,Recovery Time Objective) 恢复点目标(RPO,Recovery Point Objective)、运行维护级别、可用性要求,性能要求,业务连续性要求,安全性要求,可管理性要求,可维护性要求等。运行指标解释: