江西省烟草系统数据级容灾系统的设计与管理.doc

上传人:gs****r 文档编号:1705242 上传时间:2019-03-12 格式:DOC 页数:9 大小:109.50KB
下载 相关 举报
江西省烟草系统数据级容灾系统的设计与管理.doc_第1页
第1页 / 共9页
江西省烟草系统数据级容灾系统的设计与管理.doc_第2页
第2页 / 共9页
江西省烟草系统数据级容灾系统的设计与管理.doc_第3页
第3页 / 共9页
江西省烟草系统数据级容灾系统的设计与管理.doc_第4页
第4页 / 共9页
江西省烟草系统数据级容灾系统的设计与管理.doc_第5页
第5页 / 共9页
点击查看更多>>
资源描述

1、江西省烟草系统数据级容灾系统的设计与管理【摘要】随着江西烟草信息系统业务数据的持续增长,全省系统数据安全愈显重要,为避免突发性灾难造成应用系统数据丢失,根据江西烟草系统本身业务特点、数据保护级别及恢复要求,以“集中监管、多重保护、快速恢复、方便演练”为目标,通过采用企业级一体化数据备份管理平台,合理引入镜像、数据去重、数据连续保护等新技术及完善运维管理体系,为全省烟草系统提供自动化、智能化的灾备服务,保证业务系统在遭受意外损毁的情况下,能够快速恢复并正常运行。 【关键词】数据容灾,设计,管理 1 灾难恢复目标确定 数据容灾系统的建设目的是为了在所保护的业务系统出现意外损毁造成业务中断时,能够尽

2、快恢复业务系统的正常运行,并尽可能的减少业务数据丢失所造成的损失。因此,恢复目标的确定是建设灾备系统的前提。可通过对业务连续性的实际要求及现有支撑环境的情况进行详细调研,充分利用资源并确定可实现的最好目标。 1.1 现有业务系统与运行环境的特点 全省烟草系统共有业务系统二十余套,在省局业务系统部署情况中,对业务连续性及时效要求高的系统数据均采用优势资源集中部署在一台高性能的核心存储上。其余业务系统则采用分布式的部署方式,分别部署在不同的服务器上。下属直属单位应用系统部署及分布情况与省局类似。全省网络拓扑结构是以省局为中心节点的星型拓扑,各直属单位采用租用运营商专用链路与省局互联,直属单位间互相

3、访问需通过省局网络中转。因运营商的线路是按带宽收取租金,且租金较贵,在保障业务正常运转中属于稀缺资源。 1.2 数据保障需求与目标确定 根据上述业务系统与运行环境的特点,可以看出重要业务系统需要提供更优的资源保障,因此在合理投入的情况下,如何进行目标确定以实现保障最大化是灾备系统建设是否成功的前提条件。经过对业务系统所能承受最大中断时间的深入分析,最终确定了三级保护目标及“两地三中心”的建设模式,三级保护目标即数据镜像级保护、数据持续级保护及数据备份级保护。 “两地三中心”即在省公司所在城市建立镜像中心,以便实现省公司生产中心重要核心数据的镜像保护。同时在异地建立备份中心,实现全省系统所有业务

4、数据的异地备份保护。 (1)实现省公司核心数据同城镜像保护。江西省烟草公司在南昌同城选择合适地点建立镜像中心,实现省公司核心存储数据镜像保护。受镜像保护的信息系统数据,数据丢失量和数据恢复时间无中断,即 RTO和 RPO 都为零,切换过程不影响相关信息系统在线、持续运行。该项保护用于解决重要系统业务数据所在存储的单点故障。 (2)实现省公司核心数据异地连续保护。在直属单位中选择合适单位建立数据备份中心。通过选择适合的软硬件灾备技术,省公司核心存储上信息系统进行数据持续保护到数据备份中心,省公司受保护信息系统数据丢失量小于 15 分钟,恢复时间小于 4 小时,即 RPO?Q15 分钟,RTO?Q

5、4 小时。该项保护用于实现业务数据的逻辑错误回滚。 (3)实现省公司、直属单位本地及异地备份。省公司非核心存储上所有数据以及直属单位实现本地备份,并异地备份至数据备份中心(地址为江西省烟草公司某直属市公司) ,同时实现数据备份中心所在市公司数据异地备份至省公司。数据丢失量小于 24 小时,恢复时间小于 4 小时,即 RPO?Q24 小时,RTO?Q4 小时。该项保护用于实现所有数据的异地备份,用于防范地区性灾难。 将数据保护级别进行分级后,可进行灵活的备份资源分配策略。如只需把重要系统数据存储在受保护级别较高的核心存储上,即可实现该系统数据的镜像保护及数据持续保护。 2 容灾系统技术设计与方案

6、选型 在确立灾备系统建设目标的前提下,通过对现有数据分析,结合对主流灾备技术进行的深入了解,充分考虑采用当今业界的成熟技术,并选用在众多关键领域中已经得到充分验证的模式,以保证可靠性和可用性,同时要考虑总体运行成本及适应未来发展需要。 2.1 关键技术分析与选择 (1)数据镜像。为了保障承载核心业务数据的存储设备高可用,提高数据安全性,最有效的一种解决方案是再增加一台备用存储设备,由两台存储设备同时负责数据库系统的数据存储服务,任意一台出现故障均能保障数据完整并保证业务不中断。根据两个存储设备之间数据同步和复制机制的不同,可分为两种方式,第一种是卷镜像复制方式,第二种是 RAID 镜像卷方式。

7、主要区别在于实现的层面不同,分别为通过增加虚拟存储控制器在存储层面实现数据镜像复制,或通过主机直接拆分数据实现数据镜像复制。进一步对比分析这两种技术实现可以发现,采用虚拟存储控制器的方式可以减少实施复杂度,对业务系统不需要做过多改动,更好的符合烟草业务系统数量众多但数据集中存储且数据量相对较少的情况。 (2)连续数据保护。持续数据保护(CDP)是一种在不影响主要数据运行的前提下,通过捕获和拆分每个 I/O 并打上时间戳,可以帮助业务回滚到任意需要的时间点。主要目的是为了解决数据逻辑错误。如对业务系统数据库进行了误操作,删除了数据库中重要的数据,但是设备是正常的,这时就可通过连续数据保护技术对业

8、务数据进行回滚,回到没有进行误操作前的状态,再将该时间点后的操作补全,便可保证数据的完整性和正确性。 (3)重复数据删除。在备份数据中可简单的理解为对数据变化进行跟踪记录的技术,没有变化的数据不再进行备份,仅对发生改变的数据进行备份。也就是说对重复的备份数据删除。利用数据重复删除技术可极大的实现数据量的减少,可以达到 10 比 1 至 50 比 1 的缩减比。而且,重复数据删除技术还可以帮助业务数据在不同站点之间进行高效,经济的备份数据复制。如进行异地备份的数据都是经过重复数据删除的,可以减少数据传输对网络的依赖,提高广域网线路的利用率。 2.2 现有数据情况与灾备支撑环境要求 (1)数据总量

9、。十二个直属单位数据总量在 50GB 至 140GB 之间,省局数据总量为 500GB 左右,考虑全省网络的星型拓扑结构,需要先备份到本地再复制到省局中心机房,通过省局中心机房中转到异地备份。 (2)备份数据变化量与异地传输带宽要求。以数据量最大的地市考虑,根据连续观察后取数据每日变化量为 10%,该值为保守估计,实际变化量不足 10%。采用数据重复删除技术可达到 10 倍去重比,则每天需要传输的数据量为 140GB1/10=14GB。因备份传输为非业务时间,复制窗口设计在每晚 10 点至次日 8 点共 10 个小时,需要的复制带宽为14GB*1024*8/10h/3600=3.2Mb/s。也

10、即只要保障各直属单位至省局网络带宽能达 3.2Mb/s,在 10 个小时的非业务时间里可以完成数据备份的异地传输。如果加上省局数据总量及变化量,则省局至异地备份中心的带宽要求为 3.2Mb/s*12+50GB*1024*8/10h/3600=48Mb/s,考虑备份中心至省局需通过建设备份专用线路,时间窗口可调整为 24 小时,即省局至备份中心的线路需 48Mb/s*10/24=20M/s。 (3)持续数据保护与数据镜像的环境要求。因持续数据保护及数据镜像均只针对核心存储数据,在考虑不影响生产系统性能的前提下,对带宽及网络延时要求都非常高,仅能选择同城镜像并通过高带宽的裸光纤进行核心存储与镜像存

11、储的链接。而持续数据保护也可利用该裸光纤进行数据传输,而不用选择广域网线路进行远距离的窄带传输来达到防范逻辑错误的目的。 2.3 多层次数据保护体系架构 通过现有数据状况及支撑环境的分析,结合关键技术选择,可形成图 2-1 所示的多层次数据保护体系架构。 从该体系架构图可以看出,省公司生产数据可与同城异地存储做同步镜像机数据持续保护,各单位实现本地备份并通过广域网实现数据异地保护。其中镜像存储、虚拟存储、本地备份等关键设备与网络的性能参数要求可根据 2.2 节中的数据总量、数据变化量及数据传输量来确定,最终实现灾备目标。 3 容灾系统应急演练与管理 在技术措施可达到灾备目标要求的前提下,更重要

12、的是保证当灾难发生时能快速恢复,因此建成的容灾系统还要通过不断的应急演练与规范管理来验证备份数据的有效性及提高容灾系统的响应时间。 3.1 灾难恢复组织架构设计 为了快速有序的应对突发情况,可事规划设计好应急队伍的组织架构,明确应急人员的岗位职责。应急人员的岗位职责可根据日常工作职责进行确定,负责关键恢复职责的岗位需由多人担任并在灾难恢复预案中明确替代顺序。灾难恢复规划的组织机构由管理、业务、技术和行政后勤等人员组成,可分为灾难恢复规划领导小组、灾难恢复规划实施组和灾难恢复规划日常运行组。其中,实施组的人员在实施任务完成后可成为日常运行组的成员。对于需要外部专家提供技术支持的恢复计划,还应在实

13、施组和运行组的工作计划中重点考虑。 (1)灾难恢复规划领导小组。灾难恢复规划小组主要是审核灾难恢复计划并组织灾难恢复预案的测试与演练。同时审核并批准保障应急所需的费用及物资。 (2)灾难恢复规划实施小组。灾难恢复实施小组主要是负责灾难恢复的需求分析,通过需求分析提出灾难恢复策略和等级,同时制定灾难恢复预案及灾难恢复策略。 (3)灾难恢复规划日常运行小组。灾难恢复日常运行组的主要是负责灾难备份中心日常管理,灾难备份系统的运行和维护,技术支持,预案的培训和演练,维护和管理,在突发事件发生时承担损失控制和损害评估工作,灾难发生后承担外部协作及业务系统恢复工作。 3.2 灾难恢复预案制定 在有强大的保

14、障队伍基础上,还需要对每个应用系统指定相应的灾难恢复预案,以便在恢复过程中参照执行。 (1)灾难恢复预案制订原则。灾难恢复预案应包含灾难恢复的整个过程,以及灾难恢复所需的尽可能全面的数据和资料。运用易于理解的语言和图表,以适合在紧急情况下使用。同时预案应采用清晰的结构,对工作内容和具体步骤进行清楚的描述,明确每项工作的责任人。灾难恢复预案还应尽可能满足灾难发生时进行恢复的实际需要,并保持与实际系统和人员组织的同步更新,及与其它应急预案体系的有机结合。 (2)灾难恢复预案制订过程。参照灾难恢复预案框架,按照风险分析和业务影响分析所确定的灾难恢复内容,根据灾难恢复等级的要求,撰写出灾难恢复预案的初

15、稿。灾难恢复规划小组应对灾难恢复预案初稿的全面性、易用性、明确性、有效性和兼容性进行严格的评审。评审应有相应的流程保证。根据评审结果,对预案进行修订,纠正在初稿评审过程中发现的问题和缺陷,形成预案的修订稿。再通过不断的测试,形成测试报告,根据测试报告修订完善预案,并由灾难恢复领导小组审核和批准,确定为预案的执行稿。 灾难恢复预案的维护非常复杂和困难,所以灾难恢复预案的文档结构必须是层次分明和模块化的,以方便日后的可读性和可维护性。 3.3 灾难恢复演练 灾难恢复演练是对已制定的灾难恢复计划、应急保障设备设施的检验与数据备份有效性验证。结合技术实现与应用系统现状,可通过集中搭建恢复环境,合理安排

16、时间窗口对业务系统真演真练,以期发现各个环节的不足并进行针对性的完善。 (1)数据镜像保护演练。因数据镜像保护是完全实时的,可通过对设备进行人为链路中断等方式模拟镜像设备故障,观察数据存取是否能不受设备故障影响,业务系统是否能持续运行。同时观察服务器、存储等业务支撑环境的状态,以便故障真实发生时可快速诊断与恢复。 (2)数据持续保护演练。选取合适的时间窗口,在业务系统完全备份的前提下,采用人工误操作等方式破坏业务数据的正确性或完整性,再将回滚时间设置到未发生错误数据前,验证业务数据是否是正确状态,以检验发生逻辑错误时是否能恢复。 (3)数据备份恢复演练。备份恢复一般发生在业务系统及其环境发生重

17、大故障,造成业务数据丢失或无法正常运行,需要重新搭建业务环境并进行数据恢复。该恢复操作适用于所有业务系统,故需针对每个业务系统准备模拟环境。考虑各业务系统运行环境的不同,可以业务系统为单位,分配固定时间段集中演练,每个备份演练环境宜采用虚拟机技术来搭建,节约演练环境资源。 4 结语 本文论述的数据级容灾系统的设计与管理在江西省烟草系统已全面实施,实现了关键业务系统的数据零丢失保护与逻辑错误恢复,所有业务系统的数据异地保护,同时探索了容灾系统快速恢复与管理方法。 参考文献: 1井国铭.信息系统容灾中心建设策略的研究与实现J.通信世界,2010(27):32-33. 2梁海玲.构建容灾备份系统 保障企业数据安全J.企业科技与发展:下半月,2010(8):94-95.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 企业管理资料库 > 生产营运

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。