1、Commvault 系统方案建议第 1 页XXX公司CommVault灾备方案建议书二一九二一九年三月Commvault 系统方案建议第 2 页目 录第 1 章 前言.41.1 概述 .41.2 容灾的必要性 .41.3 容灾规划与技术路线 .51.3.1 解读国家标准 .51.3.2 灾难备份的分级标准 .61.3.3 数据复制不等于容灾 .71.3.4 灾备级别与投资关系 .71.3.5 不同数据保护方法与 RPO 和 RTO 的关系 .91.3.6 不要掉入 RPO 陷阱 .101.4 容灾恢复计划及演练 .10第 2 章 用户现状和需求分析.122.1 用户现状 .122.2 目标需求
2、分析 .12第 3 章 灾备方案规划.143.1 灾备拓扑架构 .143.2 对服务器的备份保护 .153.3 对台式机的集中备份保护 .163.4 对关键服务器复制保护 .173.4.1 复制方案原理 .173.4.2 容灾各阶段的操作 .173.4.3 复制方案的特点 .183.4.4 与其它方案的对比 .193.5 方案的整体优势 .20第 4 章 COMMVAULT 连续复制技术介绍 .224.1 恢复管理层在企业环境中脱颖而出 .224.2 CDR 在恢复层中适合做什么 .234.3 CDR 怎么工作的 .234.4 复制模式 .244.5 远程办公室和多中心的数据保护 .254.6
3、 高性价比的容灾恢复 .274.7 处理网络中断的方法 .284.8 最大限度利用有效网络带宽 .284.9 具有复制的一体化管理 .304.10 结论 .30第 5 章 COMMVAULT 离散复制技术介绍 .325.1 为什么需要离散复制 .32Commvault 系统方案建议第 3 页5.2 什么是离散数据复制(DDR)? .325.3 适合远程备份的场合 .345.3.1 把远程的数据进行有效集中 .345.3.2 在第二站点创建容灾副本 .345.3.3 用于台式机数据集中保护 .355.4 不适合使用 DDR 的场合 .355.5 其他注意事项 .365.6 相关结论 .37第 6
4、 章 COMMVAULT 备份和恢复的核心技术 .386.1 磁盘优化技术(OPTIMIZED DISK).396.2 重复数据删除 .406.3 灵巧客户端( “SMART CLIENTS” ) .426.4 一次性恢复(ONE PASS IRESTOR) .426.5 合成全备份(SYNTHETIC FULL) .436.6 辅助拷贝(AUXILIARY COPY).446.7 存储策略(STORAGE POLICIES).456.8 存储组迁移(MEDIA GROUP MIGRATION).466.9 数据老化(D ATA AGING).466.10 自动发现存储设备(AUTO DISC
5、OVERY OF STORAGE DEVICES).476.11 应用级的集成(APPLICATION LEVEL INTEGRATION) .476.12 小颗粒精确恢复(G RANULAR RESTORES) .476.13 单一实例备份和恢复(SINGLE-INSTANCE) .486.14 可伸缩性(SCALABILITY) .486.15 印象级备份(I MAGE LEVEL BACKUP) .496.16 重起功能/检测点(RESTART/CHECKPOINT) .496.17 GALAXY 高级功能包(AFP) .506.18 数据加密(D ATA ENCRYPTION) .50
6、6.19 储藏跟踪 (VAULT TRACKER).516.20 COMMCELL 迁移(COMMCELL MIGRATION) .536.21 网格存储(G RIDSTOR).536.22 数据校验(D ATA VERIFICATION) .546.23 内容索引 .55Commvault 系统方案建议第 4 页第 1 章 前言1.1 概述承蒙 XX公司对慷孚系统公司(CommVault)公司的信任和厚爱,提供我们参与其备份容灾系统建设的机会,我们不胜感激及深表荣幸。CommVault 公司将本着诚挚、科学的态度,充分考虑贵方的需求,利用我们国际领先的科技和丰富的设计、项目经验,提供最佳的专
7、业服务,以及高性价比的系统设计方案,提供一套优质的数据容灾备份方案。慷孚系统公司 CommVault Systems于 1996年从 AT&T贝尔实验室分立出来发展成独立的软件公司,致力于数据管理方案的创新。CommVault SIMPANA平台提供统一的数据管理产品,已被全球众多 2000强企业采用。1.2 容灾的必要性随着信息技术的发展,企业和政府部门越来越依赖于电子数据处理来进行它的商业行为和管理,电子数据处理的高可靠性和高可用性越来越成为关键。如果数据丢失,业务的开展将变得极其困难,更为重要的是,核心数据的丢失,严重时完全有可能造成整个系统的瘫痪。如果政府部门核心数据丢失,严重时会引起
8、政治事件。因此,在限定的时间内成功的灾难恢复将应该是一个战略计划中的一个关键组成部分。 尽管随着科学技术的发展,计算机系统的可靠性日益增加,但是人为的操作错误、软件缺陷、硬件故障、电脑病毒、骇客攻击、自然灾难等诸多因素,均有可能造成数据的丢失,依然可以轻而易举地摧毁企业赖以生存的 IT系统,从而造成无法估量的损失。所以,建立灾备中心便成了必然的选择。Commvault 系统方案建议第 5 页1.3 容灾规划与技术路线我们常常看到这样一个现象,一旦某单位要建容灾系统,众多硬件、软件厂商都到场,纷纷推荐各自的灾备或容灾解决方案,结果是产品和概念的混战。那如何正确认识灾难备份呢?比较简单的方法就是先
9、从国家标准开始解读。1.3.1 解读国家标准国家标准信息系统灾难恢复规范 GB/T20988-2007有关灾难备份的基本概念定义如下:灾难:由于人为或自然的原因,造成信息系统严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件,通常导致信息系统需要切换到灾难备份中心运行。灾难恢复:为了将信息系统从灾难造成的故障瘫痪状态恢复到正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态,而设计的活动和流程。灾难备份:为了灾难恢复而对数据、数据处理系统、网络系统、基础设施、专业技术支持能力和运行管理能力进行备份的过程。灾难备份系统:用于灾难恢复目的
10、,由数据备份系统、备用数据处理系统和备用的网络系统组成的信息系统。国标中清晰的定义了信息系统“灾难”的概念,一旦信息系统出现了灾难,就要进行“灾难恢复” ,为了能进行“灾难恢复” ,就必须提前进行“灾难备份” ,于是就要建“灾难备份系统” ,灾难备份系统由三个子系统构成:数据备份系统、备用数据处理系统和备用网络系统。通过以上的分析,我们就能了解容灾是个系统工程,是对数据、数据处理系统、网络系统、基础设施、专业技术支持能力和运行管理能力进行备份的过程,当灾难发生后,能按设计要求进行灾难恢复。我们需要建立灾难备份系统来实现灾难备份,由于备用数据处理系统和备用的网络系统只要购买并安装实施所需的硬件设
11、备就能达到目的,相对比较简单,最为复杂的是如何建立满足灾难恢复要求的数据备份系统。Commvault 系统方案建议第 6 页1.3.2 灾难备份的分级标准国家标准信息系统灾难恢复规范 GB/T20988-2007中规定了灾难备份分级标准,对灾难备份的级别有比较详细的描述,对我们在规划实施灾难备份系统时有很好的指导意义。下面的表格中描述了灾难备份的分级标准。从这个分级标准中,我们看到以下几个要点:1. 每个级别的备份频率不一样,但备份数据必须要场外存放。2. 不同级别采用的数据备份方式不同,一、二级不需要数据复制,三、四级采用定时复制,五级采用实时复制,六级要求不能丢失数据,并能进行无缝切换。3
12、. 每个级别的 RPO/RTO 也有所不同。在我们实际的应用环境中,并不是一个数据中心的所有系统都采用同一种容灾级别,我们对重要的系统采用较高的级别,而相对不重要的系统采用较低的级别。全备份 介质保管 复制 备用场地及设备 恢复时间 数据丢失一级 每周 场外存放 无 满足介质存放 2 天 1-7 天二级 每周 场外存放 无 具有或能调配部分设备1 天 1-7 天三级 每天 场外存放 定时 具有部分设备 12 小时 几分钟2 天30 分钟六级 每天 场外存放 零丢失与生产系统相一致,并能无缝却换几分钟 0Commvault 系统方案建议第 7 页1.3.3 数据复制不等于容灾数据备份系统主要是对
13、数据进行保护,目前,不同的 IT 厂家都有各自不同的数据保护方案,有的是硬件产品,有的是软件产品,虽然各个厂家的产品名称都不一样,但数据保护的算法都大同小异。现在企业很多已经采用 RAID 技术对重要数据进行保护,利用内置的 RAID 卡或者外置的磁盘阵列,采用Raid1、5 等技术防范硬盘坏而导致数据丢失。除此之外,数据保护的算法还有:复制、快照和备份恢复,下面我们对 IT 业界这几种最流行的数据保护算法的特点进行对比分析。RAID 复制 快照 备份自然灾害 YES YES物理错误(47%) 硬件失效 YES YES YES YES人工出错 YES YES软件失效 YES YES逻辑错误(5
14、3%)病毒 YES YES恢复点(RPO)能容忍丢失多少数据? 没丢失 秒、分钟、小时小时 天恢复时间(RTO) 要多久才能恢复 实时分钟、小时 分钟小时天数据保留时间 能恢复多长时间内丢失的数据 不能 不能 几小时几天几周几月几年从上面这个对比分析表中我们可以得出以下结论:数据备份系统主要有 5 个目标:防止物理错误、防止逻辑错误、满足RPO、满足 RTO、满足数据保留的时间,没有一种单一的数据保护算法能同时完全满足这 5 个目标。因此一个完整的数据保护方案应该是这几种算法结合而构成,这样我们在规划设计灾难备份系统时,也应该采用综合的解决方案。1.3.4 灾备级别与投资关系下图是 RPO 与
15、投资的关系曲线,当灾备级别越高,RPO 就越小,系统的投入就越高,投资是一个几何曲线,因此,我们必须根据我们实际应用的需要,Commvault 系统方案建议第 8 页选择恰当的灾难备份级别,避免为了防范一个小概率的灾难事件,而要投入太高建设费和运维费用。很多用户就因为费用的原因而放弃了灾难备份。从国标的要求我们也可以看到,并不是所有的容灾级别都需要那么高的RPO,我们应该根据业务系统的要求来选择合理的容灾级别。灾难保护计划的目的是,确保关键业务持续运行以及减少非计划宕机时间。所有与容灾方案相关的计划都试图在方案本身、宕机时间和成本之间寻找一个平衡。合适的就是最好的,切忌贪大求全。比如有些业务可
16、以容忍一段时间的停机,完全可以通过脱机备份方式进行恢复,就没有必要建设实时的容灾复制,否则,不仅浪费了大量的投资,而且也占用了大量的维护成本,使总体拥有成本(TCO)很高。同时,在人力紧缺的情况下,不能把有限的人力投入到业务容灾系统上去。综合以上所述,可以如下图所示: 灾难覆盖面( 风险 )技术选择恢复性能( R T O )恢复点( R P O )投资Commvault 系统方案建议第 9 页1.3.5 不同数据保护方法与 RPO 和 RTO 的关系不同的数据保护方法有不同的 RPO 和 RTO,但并不是 RPO 越小,RTO 就越小,反过来也一样。有些系统要求 RPO 较小,主要要求数据丢失
17、很少;有些系统要求 RTO 较小,主要是满足快速提供服务;有些系统要求 RPO 和 RTO 都要小,既要少丢数据,也要快速恢复。当然天下没有免费的午餐,要求高,投入也会很高。下图是不同的数据保护方法与 RPO 和 RTO 的关系:复制方式,虽然丢失的数据比较少,但是恢复运行时间不一定就很短。由于数据库的日志机制,在不同的设置下,如果复制中断,灾备中心有可能需要比较长的修复时间(日志回滚和检测)。另一方面,由于复制不能避免逻辑错误,在发生逻辑事故时,复制两端的数据都被破坏,恢复运行就更困难。所以如果要快速恢复应用运行,一般需要和快照,备份结合,来提高灾备数据的可用性。快照方式,快照机制能够在灾备
18、中心创建若干个恢复时间点,例如1个小时做1个快照,保留4个快照点。快照丢失的数据有可能比较多,一般是1个小时,但是恢复的速度非常快。如果和应用快照结合的话,恢复数据库运行一般只要几分钟,因为修复的时间非常短。与数据库结合的快照在某个时间点能够确保Commvault 系统方案建议第 10 页数据库数据完整一致。备份方式,可以利用磁带或磁带进行备份。传统上采用备份方式的RPO和RTO是最差的。但是,由于可以采用事先在灾备中心恢复数据,这样就能大大改善RTO,当然采用磁盘备份的效率会更高。1.3.6 不要掉入 RPO 陷阱谁都希望数据丢失得尽量少,希望 RPO 越小越好,那投入的建设费和运维费是相当
19、惊人的!但实际上并不是所有的系统都有那么高的 RPO 要求,很多业务系统丢失 5 分钟的数据和丢失一小时的数据的区别不大,这时因为一旦数据丢失以后,都需要业务部门来反复核对业务数据,为了保险,通常要求把系统回退到某个整时间点,再重新输入业务数据,然后再起用系统。对于一个远程的灾备系统,当起用远程的备用系统时,需要特别的管理流程或审批流程,通常不建议采用自动切换方式,否则造成的混乱和损失会更大!通过解读国标,不同级别的容灾,RPO、RTO 是不同的,根据自己业务的要求,合理选择 RPO 和 RTO,是容灾建设的第一步。1.4容灾恢复计划及演练很多企业建设容灾系统,重视硬件系统的投资,那是看得见的“实实在在”的容灾系统,而轻视在容灾恢复计划(DRP)的“软件”投入,其实这是非常严重的误区。容灾系统的建设是需要同时满足 RTO和 RPO指标的,恢复时间对我们及用户来说是至关重要的,试想,如果没有一套行之有效的 DRP,在灾难发生时,即使 “硬件”是运行正常的,(如果没有经常的测试来验证,又如何能保证是正常的?)谁来组织进行容灾恢复?人员如何分工?根据什么来进行恢复?我想,忙中生乱,可能会产生更大的乱子。因此,必须为灾难备份系统建立一套灾难恢复计划,包括建立灾难备份系统的管理机制和组织架构、灾难响应流程、灾难切换流程、灾难应急流程等。