1、业务连续性计划事先制定一个完备的业务连续性计划(Business Continuity Planning,缩 写为 BCP),积极防范并且应变处理灾难发生的一系列后果,将灾难的蔓延和损失控制在企业能够承担的范围以内,已成为现代企业管理范畴内的一个十分重要的任务。 【第一部分】 BCP 的基本要素 笼统地说, BCP 的目标只有一个,那就是确定并减少危险可能带来的损失,有效地保障业务的连续性。而有关 BCP 的一些特定目标我们将在以下各个部分中加以描述。 BCP 实 施的最终结果是: 一组防范危险的评测指标; 一支执行团队,在经过培训后可以处 理各种危险事件; 一套计划,提供危 险发生时的路线图
2、 。该计划应该是充分和完备的,必须详细落实到该计划实施范围内的每一个单位、人员或设备。我们下面所要讨论的主要是与企业中 IT 设施相关的内容,没有涉及到企业人员在危险状况下的安全管理问题。 每个企业所制定的 BCP 都应该有每个企业或者所处行业独有的特色,彼此之间不会完全一致,但大致上说来,一个完备的 BCP 主要是由以下一些关键部分构成的: 一、 危 险评估 危险评估就是认识并分析各种潜在危险的结果。这些危险的来源可能是: 各种区域性的天然灾难,如洪水、地震、疫病等; 人为事故或蓄意破坏造成的严重灾难,如火灾、恐怖主义袭击等; 安全威胁、硬件、网络或通信故障; 灾难性的应用系统错误。 所有的
3、危险都应纳入企业的危险评估范围,并且应对各种危险的可能来源地进行较准确的定位。对于每一种危险的来源都应该认识到: 危险的类型; 危险的程度; 危险发生的可能性。 比如说,如果按照有无警示性先兆来分,各类危险还可以分为: 有些危险可能没有任何先兆而突然发生,无法事先防范; 有些危险可以有一定的先兆,可以迅速启动应急计划加以防范,比如疫病的传播; 有些危险可能从来不会发生。 如果按照危险的破环类型或程度来分,它们对业务的影响可以分为: 经营场所及设备完全破环; 经营场所及设备部分破环; 经营场所及设备完好,但人 员不能进 入,比如疫病的隔离、恐怖威胁造成的人员输散等。 显然,对 于企业来说,一个完
4、备的 BCP 必须尽可能多地考虑到所有可能的危险情况,只有处理灾难性事件的计划而没有处理应用系统失误的计划,这样的 BCP 是不完备的;反之亦然。 企业所制定的 BCP 应该同时兼顾两个方面预防和控制。例如,人为事故和蓄意破坏可以通过物理安全和个人行为的评测来预防。而应用系统的错误则可以通过对软件的有效评测与测试来预防。 危险评估的最后结果应该是一份有关危险效益分析的详细陈述报告,要有对危险的精确描述、哪些危险可能发生,以及需要采取的保障业务连续性和缓和危险的措施,同时要有因为克服了危险而带来的收益分析。这份报告还应该描述清楚任何现有的前提或者限制因素。 二、 业务 影响分析(BIA) 业务影
5、响分析(Business Impact Analysis)实质上就是对关键性的企业功能、以及当这些功能一旦失去作用时可能造成的损失和影响的分析。 对于企业业务运营的关键人员来说,他们需要分析: A. 影响 哪种功能对于企业的整体战略而言是生死攸关的 该功能在多长时间内失效不会造成影响和损失 企业的其他业务功能由于该功能的失效会受到何种影响运营影响分析 该功能的失效可能造成的收入影响财务影响分析 该功能是否会对客户关系造成影响客户信心的损失 该功能是否会对市场份额造成影响市场占有率的下滑 该功能是否会对企业在行业中的地位造成影响企业竞争力的损失 该功能是否会影响今后的销售机会的丧失 什么是最大的
6、/可承受的/可允许的失效 B. 业务恢复需求 要使该功能连续,需要哪些 资源和数据 纪录 最少的资源需求是什么 哪些资源可能来自企业外部 它与企业其他功能的依赖关系以及依赖程度 企业的其他功能与该功能的依赖关系以及依赖程度 该功能与企业的外部业务/ 供应商/其他厂商的依赖关系以及依赖程度 在缺少试验环境的情况下进行恢复,需要采取怎样的预防措施或检验手段 在进行了这些分析之后,才有可能对企业的各种功能进行分类: a)关键功能如果这类功能被中断或失效,就会彻底危及企业的业务并造成严重损失。 b)基础功能这些功能一旦失效将会 严重影响企业长期运营的能力。 c)必要功能企业可以继续运营,但这些功能的失
7、效会在很大程度上限制企业的效率。 d)有利功能这些功能对企业是有利的;但它 们的缺失不会影响企业的运营能力。 根据各种功能的恢复需求,企业便可为上述各类功能制定标准的恢复时间架构。例如,关键功能10 天。 影响分析可以帮助企业确定各类业务功能的优先顺序,换句话说,也就确定了各业务功能的优先恢复顺序。 BIA 有助于定义恢复对象。在进行了影响分析之后可能会发现,在一次灾难之后恢复业务运营时,首先恢复部分功能就足够了,比如说在 24 小时内先恢复日常业务的 40%就够了。 详细定义好在灾难或业务中断之后保障业务功能运营的资源需求也是可能的。这些资源需求包括基础设施、人力资源、文档、记录、设备、电话
8、、传真机 等,无论需要什么资源都要有完备的规范要求。拥有适当的细节要求是非常重要的,因为在危险事件发生时,会产生一定程度的慌乱,到那时再决定这类细节已经不 可能了。 成本因素在进行影响分析时也是不能忽略的。我们需要记住以下一些事项: 收入的损失和商机的丧失与恢复所需的时间直接成正比 一种恢复策略的成本与恢复所需的时间成反比 可能的恢复策略的成本必须和在采纳该策略之前由于业务功能中断而造成的实际损失进行比较。如果所建议的恢复策略的成本远高于预计的成本,那么这种策略就是不可取的。 三、 策略 BCP 应 包括以下策略: A.预防 预防的目的在于减少灾难发生的可能性。有关预防的策略应该包括制止和预防
9、控制。制止控制可以减少危险的可能性。预防控制则是保护企业的弱点区域,以防御危 险的发生并降低其影响。这两类控制在实际运营中广泛存在,比如经营场所的安全、人员控制、相关基础设施(如 UPS、后备电池、烟火探测 器、灭火器等)、软 件控制、相关的存储和恢复等。 企业希望保障其资源(包括信息资产)的可用性和安全性,其安全策略必须针对这些对象而制定,并且提供有关资源使用和管理的指南。在熟悉了企业的 所有资源、资源的布局以及危险管理等之后,才可能拿出实施安全策略所需的必要的控制措施。这些控制措施或安全举措必须时时加以检查和测试。 如果一种安全策略,能将预防措施都部署到位,可以监控对系统的入侵并防范那些试
10、图破坏系统的行为,那么其本身就是一种制止控制。预防计划的执行 必须小心谨慎。必须保证实施安全策略时既不能对日常业务带来限制,出现瓶颈,也不能引起可用性问题,或者给系统的访问和使用带来障碍。 B.响应 响应就是当危险发生时的反应。它必须能够阻止危险的进一步扩大,评估危险的程度,通过与外部世界的正常通信联络挽回企业的声誉,并启动必要的恢复时间表。 对业务中断的第一反应应该是告知所有相关的人员。如果危险有事前警示的话(比如这次的非典爆发),那么这种告知就可以提前进行。及时的告知非常 重要,因为这可能会给阻止危险的进一步扩大创造机会。如果在适当的时机执行一次关机、一次转换或者一次撤离,甚至有可能完全防
11、止危险的发生。但是这需要有 诊断或探测控制的存在。这类控制或者可以持续扫描以探测发生中断的征候(网络、服务器),或者可以从外部资源搜集信息(自然灾害)。 准确的告知程序必须事先制定好。必须清楚地记录在案:需要告知谁,怎样告知,由 谁告知,而且 还得有逐步扩大的机制。 在 BCP 中必须设立好一棵告知树。最初的告知发送给一组人,然后再由他们中的每个人去告知另一组人,依次类推。属于这棵告知树的人都有不同的责任和作用,所涉及的人员应包括: 管理团队需要获得有关危险发展状况的信息。该团队有权力启动紧急响应体系和下一步的行动。管理团队还要负责与媒体、公众、客户以及股东们打交道。 危险评估团队需要立刻对危
12、险进行评估,评价业务中断的严重程度。 技术团队应当为关键决策制定者如何采取下一步 BCP 行动提供服务。 运营团队应当执行 BCP 的实际运作。 还有很重要的一点就是每一个团队都应明确第二负责人。万一第一负责人没有通知到或者无法负起责任,那么必须告知第二负责人。告知可以使用各种工具或手段:如手机、呼机、短信、电话和 E-mail。每个团队都应当有相应的配备。 危险评估团队应该是最早(或者与管理团队同时)被告知的。他们应当最早来到现场,以便评估所遭受的危险程度和级别。如果工作现场已经遭到破坏,那么他们就应该做好各项准备,一旦允许进入现场就开始工作。 评估过程本身也应有计划地进行,必须与保障业务连
13、续性的优先顺序密切相关。这就是说评估团队应当意识到危险所影响到的工作区域和工作流程是否对整个业务的运行至关重要。这将有助于他们优化其评估进程,同时也可正确地关注关键性工作区域。这支团队需要察看以下事项: 中断的原因是什么 阻止危险扩大的前景如何 基础设施和设备受损情况 业务受影响状况 关键记录受损情况 可以挽回什么损失 什么设备需要修理、恢复和更 换 有了危险评估团队提供的有关受损程度和受损区域的详尽信息,技术团队便可立刻投入工作。 BCP 必 须拥有一组基于业务影响分析和持续性目标的预设参数,这些参数应该能够区分出中断和灾难的不同性质,同时也能评价出危险的严重程度。 当危险评估团队和技术团队
14、开始工作时,其他 BCP 团队也应依照警示告知到位,以便按照连续性计划采取应当采取的行动。 C.业务接续(Resumption ) 业务接续只涉及那些时间敏感的业务流程,要么是在中断发生后立即接续,要么是在可允许的一段平均时间后接续,但不是对所有业务的恢复。 一旦 BCP 被激活,命令将从指挥中心发出。这个指挥中心应该是在一个不同于日常经营场所的地方。该中心应配备相应的通信设施、办公设备,可能的话还应该构建局域网和 VPN。 需要做出的第一个决策是,关键性业务的运营能否在日常的工作场所或者在一个备选场所很快恢复运营。 备选场所可以分成以下几类: (a)空场所(Cold Site)该场所只需配备必要的环境条件即可,比如说,应配备电话插座、电源以及 UPS 等,但要避免其内有任何其