1、-_软件定义的容灾解决方案(VMware Site Recovery Manager)2019/4/18-_目 录1 概述 .31.1 灾难恢复的重要意义 .31.2 XXX 企业容灾方案现状分析 .42 灾难恢复解决方案 .62.1 vCenter Site Recovery Manager .62.1.1 概述 .62.1.2 Site Recovery Manager 的主要功能特性 .82.1.3 SRM 支持灵活的拓扑 .102.1.4 超越灾难恢复:灾难规避和计划内迁移 .112.1.5 VMware Site Recovery 的工作方式 .112.1.6 灾难恢复自动化和利用软
2、件定义的存储 .122.2 vSphere Replication .132.2.1 概览 .132.2.2 利用 vSphere Replication 来扩大灾难恢复的覆盖范围 .142.2.3 实现原理与工作机制 .182.2.4 vSphere Replication 的优势 .203 方案架构设计 .223.1 客户容灾设计要求 .223.2 实施方案选择 .233.2.1 将基于阵列的复制与 SRM 结合使用 .233.2.2 将 vSphere Replication 与 SRM 结合使用 .243.2.3 将基于阵列的复制和 vSphere Replication 与 SRM
3、结合使用 .253.3 网络设计 .263.3.1 在恢复站点配置相同或不同的 IP 地址 .263.3.2 SRM 通讯端口设置 .283.4 存储设计 .303.4.1 存储复制 .303.4.2 占位虚拟机 .313.4.3 快照空间 .31-_4 配置清单及说明 .324.1 硬件配置需求 .324.2 虚拟化软件配置需求 .325 方案总结 .345.1 方案要点 .345.2 方案优势 .346 专业服务 .366.1 VMware 专业服务介绍 .366.2 专业咨询服务内容 .366.2.1 VMware Accelerate 咨询服务 .366.2.2 技术咨询服务 .376
4、.2.3 技术客户经理(TAM)服务 .376.3 专业服务实施流程 .386.3.1 评估 .396.3.2 规划与设计 .396.3.3 实施 .396.3.4 运维 .407 支持服务概述 .417.1 VMware 支持的角色和职责 .417.2 全球技术支持服务 .417.3 自助服务支持 .427.3.1 社会支持 .427.3.2 其他资源 .438 缩略语解释 .44-_1 概述1.1 灾难恢复的重要意义统计数据表明:93%的企业,一旦发生数据中心失效达 10 天的情况,通常在一年内就会破产。图:业务可用性与灾难恢复对企业的影响来自 Forrestor 在 2014 年第二季度
5、的咨询报告表明,正常运行时间和数据保护对业务而言非常关键,灾难带来的员工工作效率下降、士气低落、收入下降、声誉受损和影响合规性将对企业产生巨大的消极影响。图:中断造成的不良影响-_灾难的发生往往是出乎人们意料的,当突然发生大的灾难,日常建立的控制措施已不再有效时,组织如何才能保护核心业务不被中断,使灾难的造成的风险降到最低呢?这正是灾难恢复需要考虑的问题。数据中心的灾难会以不同形式发生,比如电力中断、硬件故障、人为操作失误、以及自然灾害。大量的事例表明,业务中断不是“假如”的问题,而是“ 何时”的问题。因此,只要是拥有 IT 信息系统的组织,都应为随时可能发生的中断作好准备。保证业务连续性也就
6、是确保业务连续运作,不管发生什么情况,重要的系统和网络必须具有不间断的可用性。事实上,灾难恢复的影响不仅仅局限于上面提到的金融领域,政府、公安、医疗、教育等诸多行业都需要使用业务可用性解决方案来保证其业务的可用性,对于这些企业,机关,单位而言,当 IT 基础设施突然停运,不仅企业内部的业务流转、办公等面临瘫痪,更重要的是,对外与客户或合作伙伴的所有业务交流都不得不陷入停滞。1.2 XXX 企业容灾方案现状分析在国内,很多企业都不具备灾难恢复能力,甚至是一些金融相关的公司都没有真正意义的灾难演练过。 主要是设备成本、技术复杂度已经人员 IT 技能等多方面因素造成的。XXX 公司的采用传统灾备解决
7、方案,并有了多年的积累和发展,但是传统的解决方案还是存在如下诸多问题的。首先,传统的可用性解决方案是利用特定于应用的解决方案(如:Oracle RAC、MS SQL 集群、Exchange Database Access Groups (DAG)等)在应用级别实施业务可用性。虽然这种方法通常可以提供不错的可用性,但是由于每一组应用都有自己的解决方案,因此这种方法有如下弊端: 复杂且昂贵 对管理员的技术要求较高 出错的风险大 许可证较贵(如 RAC) 专用的备份架构其次,虽然有一些基础架构层的解决方案可以比应用级解决方案更加经济高效,但是这些解决方案往往在正常运行时间和 RTO(恢复时间目标)方
8、面表现得比较差。除此之外,传统的灾难恢复解决方案很难在现有的物理 X86 环境中实现,这是因为:传统的灾难恢复计划依赖于一套非常复杂的流程和基础架构:复制数据中心、复制服务器基础架构、将数据转移到恢复站点的流程、重启服务器的流程、重新安装操作系统的流程等等。由于灾难恢复可能非常复杂,因此各个企业常常发现他们只能为少数几个重要的生产工作负载提供良好的保护,而其他的工作负载(如文件/打印服务器、内部 Web 服务器、部门级应用)则得不到保护或者保护的不充分。因为灾难恢复计划和基础架构非常复杂,所以各个企业都极为依赖大量的人员培训、准确且完整的恢复纪录,以及发生停机时恢复流程的准确执行。除此之外,由
9、于恢复计划的测试过程会造成中断,而且成本非常高昂,所以各个企业无法确保所有培训、文档和执行过程都切实可行并且能够成功恢复 IT 服务。-_图:传统的灾难恢复解决方案所面临的挑战上图描述了传统的灾难恢复解决方案所面临的挑战,由于存在这些挑战,该方案往往会产生如下的后果: 恢复计划的测试往往会失败 关键工作负载的基本恢复(如能成功)通常要花费数天或数周的时间 管理和维护恢复计划要耗费 IT 人员大量的时间和资源简言之,当前的灾备解决方案还无法满足其企业所设定的业务可用性要求。由此,XXX 公司提出重新设计和实施中心总部应用到北京 IDC 的异地远程灾备的需求。XXX 总部应用虚拟化改造完毕后,目前
10、服务器虚拟化比例已经达到大约XX%, XX%的应用已经由虚拟化承载,其中包括 XX%的关键应用。需结合应用系统架构给出中心总部应用到北京 IDC 的异地远程灾备方案及实施日程表,按照日程表完成异地远程灾备。-_2 灾难恢复解决方案VMware 提出的基于虚拟化环境的软件定义的可用性解决方案,该方案不仅可以提供与应用级别可用性方案相类似的 RTO 与 RPO(恢复点目标),同时,它还可以提供基础架构层解决方案所具备的简易性和成本效益。同时,由于该方案充分利用了虚拟化环境的优势,因此它可以达到传统的非软件定义解决方案无法达到的效果。VMware 灾难恢复解决方案包括 vCenter Site Re
11、covery Manager 和全新的vSphere Replication。2.1 vCenter Site Recovery Manager如今,企业发现越来越难以提供符合要求的灾难恢复解决方案。而 Site Recovery Manager 可以帮助企业应对传统灾难恢复方法的各种挑战 , 满足他们的恢复时间目标(RTO )、恢复点目标(RPO )以及法规遵从性要求。利用 Site Recovery Manager,企业可以管理从生产数据中心到灾难恢复站点的故障切换,同时,还可以管理两个互为恢复站点且具有活动工作负载的站点之间的故障切换。2.1.1 概述VMware 的灾难恢复解决方案分为
12、三个大的模块,如下图不同颜色模块所示:其中灾难恢复编排属于自动化解决方案;复制、备份和恢复属于数据保护解决方案;计算存储属于基础架构解决方案。图: VMware 灾难恢复解决方案Site Recovery Manager 可以自动执行及简化故障切换至新数据中心的过程,从而让所计划的数据中心故障切换(如数据中心迁移)变得更加顺畅。它是一款领先的灾难恢复管理和自动化解决方案,它通过自动执行恢复过程来加快恢复的速度,并将灾难恢复作为 VMware 虚拟基础架构管理的集成要素,从而简化灾难恢复计划的管理工作。SRM 省去了复杂的手动恢复步骤,支持无中断的恢复计划测试,确保恢复过程的安全可靠。它密切集成
13、 vSphere 及其他领先存储供应商提供的存储复制软件,使故障-_切换和恢复变得快捷、可靠、经济,而且便于管理。因此,企业不仅无需担心灾难恢复的风险,还可将所有重要的系统和应用程序纳入到保护范围。自从 2008 年面世以来,SRM 已得到长足发展。到目前为止, VMware 已向一万五千多家客户售出 12.5 万个许可证,并且该产品还在以每年 50%60% 的速度继续增长。SRM 为 vSphere 平台上的灾难恢复计划增加的巨大价值推动了这种增长,而所增加的成本却相对较低。VMware 的许多客户已利用 SRM 从实际灾难(例如最近在日本发生的海啸和在美国发生的飓风)中快速恢复。下图是一些
14、主要的客户以及 SRM 的相关市场数据。图:Site Recovery Manager 的发展趋势与部分客户SRM 需要若干个组件。首先,受保护的站点和故障切换站点都需要一个 SRM 实例。SRM 实例可通过与 vSphere 和 vCenter 紧密集成来提供管理和自动化功能。-_SRM 还需要底层复制产品来将虚拟机复制到故障切换站点。借助 SRM,客户可以选择使用 vSphere Replication 或者使用基于存储的复制。因为 vSphere Replication与 SRM 捆绑在一起,所以无需支付额外费用。基于存储的复制由第三方存储供应商提供,并通过 Storage Replic
15、ation Adapater (SRA)与 SRM 紧密集成,以使 SRM 能够利用该存储层协调复制和恢复活动。最后,SRM 在这两个站点上都需要配置 vSphere 集群和单独的 vCenter 实例。图:SRM 的主要功能组件2.1.2 Site Recovery Manager 的主要功能特性VMware vCenter Site Recovery Manager 可提供先进的复制、灾难恢复管理、无中断测试、自动故障切换和故障恢复以及计划内迁移功能。它可以管理从生产数据中心到灾难恢复站点的故障切换,以及两个具有活动工作负载的站点之间的故障切换,甚至还可以将多个站点恢复为一个共享的恢复站点
16、。Site Recovery Manager 经常用于计划内迁移和预防性故障切换以避免发生灾难,它的主要功能特性如下:集中式恢复计划 直接从 vCenter Server 中创建并管理恢复计划。 自动发现并显示由 vSphere Replication 或基于阵列的复制保护的虚拟机。 将虚拟机映射到故障切换站点上的相应资源(资源池、虚拟 交换机和虚拟机文件夹)。 指定虚拟机引导顺序。 自定义虚拟机 IP 地址。 自定义故障切换站点上的低优先级虚拟机的关机。 利用自定义脚本扩展恢复计划。 利用基于角色的访问控制来控制对恢复计划的访问。 将多个站点恢复至一个共享的恢复站点。-_自服务,基于策略的调
17、配 可以为Site Recovery Manager 安装了VMware vCenter Orchestrator插件 多租户可以根据需求通过vRealize Automation Center中的蓝图(blueprints)预定义的各自的灾难恢复策略 自动执行故障切换 接收关于可能的站点故障的自动警报。 只需单击一次鼠标,即可在 vCenter Server 中开始执行恢复计划。 自动停止用于恢复的复制数据存储的复制和升级。 关闭故障切换站点上的低优先级虚拟机。 按照预先指定的引导顺序自动启动受保护的虚拟机。 在恢复过程中执行用户定义的脚本和暂停。 在故障切换站点上自动重新配置虚拟机 IP
18、地址。 从 vCenter Server 中管理和监控恢复计划的执行。自动故障恢复 自动故障恢复到原始生产站点。 通过自动反向复制到原始站点来重新保护虚拟机。 反向执行原始恢复计划。 利用 vSphere Replication 中的自动故障恢复功能。计划内迁移 使用计划内迁移工作流确保数据零损失和应用一致性迁移。 在原始站点正常关闭受保护的虚拟机。 执行数据同步以强制将关闭的虚拟机完整复制到故障切换 站点。 执行利用应用一致性虚拟机的恢复计划。 无中断测试 自动执行恢复测试。 利用存储快照功能执行恢复测试,而不会中断复制。 在隔离网络中恢复虚拟机,以免对生产应用程序造成任何 影响。 针对测试方案自定义恢复计划的执行。 完成测试后自动清理测试环境。 在 vCenter Server 中存储、查看和导出测试结果及故障切换 执行情况。 支持 vSphere Replication 利用专为 vSphere 和 vCenter Site Recovery Manager 设计的唯一真正基于虚拟化管理程序的复制产品。 通过 vCenter 以精细灵活的虚拟机级别直接管理复制。 使用与存储无关的复制支持使用低端存储,包括直连存储。 执行具备灵活 RPO(介于 15 分钟到 24 小时之间) 的异步 复制。 仅复制发生变更的数据块以提高网络效率。