1、Veritas 存储解决方案为满足业务的不断快速扩展,新的业务的开展及其它信息处理需求,现今的计算机信息处理系统不仅需要很强的计算能力来及时处理大量的数据业务,同时,由于电子商务等业务的特殊要求,还需要整体系统具备极强的稳定性与可靠性,使系统能够长时间安全、稳定地正常运转。从根本上来说,系统的稳定性与可靠性在很大程度上取决于相关保障子系统的性能,就象楼宇的安全可靠性主要取决于各类防护措施及消防保护等系统一样。而对信息系统来说,其保障子系统主要指的就是-数据存储管理系统。数据存储系统指为了确保信息系统的顺畅运转与数据的安全存储,而实施的各类保障系统。它的范畴涵盖企业数据的安全性、可访问性、可管理
2、性、访问的高性能、可扩展性等各个方面,确保企业的应用能够安全高效运行,为企业的业运行和发展提供保障。对任何支持关键业务的计算机存储系统,有必要对系统的下述方面进行考虑:(1)备份的要求建立一个覆盖企业全范围的全部操作平台的应用及数据库备份系统,实现公司内部,包括数据中心和所有运作中心各种数据的备份。备份的管理采用集中备份管理的方式,尽可能提高各主机数据的安全性和可管理性。备份内容应包括数据中心和运作中心:1)应用数据库备份2)应用程序备份3)操作系统备份4)系统的灾难恢复5)要求备份系统的设计应不对应用系统产生任何不良影响。6)要求备份系统的设计要考虑到系统扩展的要求,提供系统平滑升级的能力如
3、何通过有效的备份策略和备份手段减少数据的丢失/错误,如何在事故发生时快速有效地恢复数据,将是我们需要慎重研究的第一重要环节。(2)应用系统及数据的安全可靠性要求不管是在数据中心,还是在运作中心,要求对于关键性的应用系统,能够有效规避任何单点故障,这些故障范围包括:应用程序错误、数据库系统故障、网络端口故障、网线接触故障、磁盘系统介质故障、系统瘫痪等。万一上述故障发生,如何保证企业能够继续为客户提供正常的服务,将是我们所需考虑的第二重要环节。(3) 系统的容灾要求任何人为或自然因素所导致的关键应用/系统中断,都会造成企业巨大的经济和名誉损伤。为了避免一些突发的意外情况(如地震,水灾,雷击等)造成
4、数据中心破坏而导致的业务中断,数据中心应该有快速灾难恢复的能力,同时,运作中心也不应该因上述故障导致本地数据丢失。可见,在某些不可抗拒的意外事件发生时,如何避免数据丢失,如何正常为用户提供服务,也是系统建设中一个必不可少的方面。(4)存储系统高性能和可扩展性的要求对于现有的企业系统而言,数据处理量越来越大,这对存储子系统的性能提出了较高的要求。同时,随着业务的扩展和时间的推移,企业的业务数据量将会以指数级往上增长。这样一来,原来购置的存储空间将在短期内达到饱和。如何平滑简便地扩展存储空间将是一个非常事实的问题。(5)存储系统的可管理性要求如何提高存储系统的性能,并使之更易于管理,让管理员从日常
5、的烦琐工作中解脱出来,从而减低管理成本?如何提高磁盘管理的效率,使系统能够实现诸如磁盘镜像、RAID 技术、磁盘的在线扩容、文件系统的在线伸缩、在线 I/O 性能调整?这些都是现实中的确存在的问题,它们涉及系统管理的各个方面,并直接影响当前应用系统的性能。数据存储管理系统设计原则由上述分析可见,企业数据存储管理系统大致可细分为四个部分:系统强化、高可用子系统、灾难恢复子系统、备份子系统,同时要求整体系统具有很好的可扩展性和可管理性。下面,我们将详细介绍各子系统的设计和相关的 Veritas 管理软件。在系统设计的全过程,我们将秉承下述设计原则。(1)安全可靠性原则A、应用系统应配备性能极高的高
6、可用集群软件,该软件应该具有应用广泛、切换迅捷、用户界面友好、配置方便等特点。在任何应用环节故障的情况下,cluster软件应能做到不停机应用切换,确保应用系统平稳运行。B 、系统应该具有数据自动备份机制。数据备份的目的是通过自动化的管理手段,使系统数据实时备份到低成本的存储介质中,在出现数据丢失或系统故障需要恢复的情况下,数据由低成本的存储介质完整地恢复到系统中,确保系统的安全。(2)可管理性与可访问性原则A、存储系统应使应用系统有效地利用物理磁盘,同时使应用系统无需直接参加物理磁盘的管理(应用系统直接管理物理磁盘代价很高,并且效率低)。这种管理主要通过虚拟设备(如卷volume)进行,如V
7、ERITAS Volume Manager。B、使用虚拟磁盘管理工具,可以对磁盘存放的数据进行诸如磁盘镜像、Raid-5之类的划分,确保在磁盘故障或操作系统引导故障时,数据仍具有可访问性。(磁盘镜像确保磁盘数据实时映象到另一磁盘中,对系统盘的镜像可以确保系统的引导故障恢复,RAID技术确保磁盘故障时仍能访问其数据)。C、使用虚拟磁盘管理还可以获得诸如在线修改文件系统(扩大和缩小)、动态调整磁盘 I/O性能、动态均衡磁盘 I/O 通道、文件系统快照等高级磁盘管理能力,这些功能大大减少了应用系统的压力,有利于其高效运转。D、系统应具有直观易用的图形管理界面,使系统管理员只需很少的培训就可顺利管理整
8、个系统,并能实现单一控制台的统一集中管理。(3)可扩展性原则A、在硬件的选择上,配备稳定、易扩充的磁盘阵列,适应平滑升级,保护现有投资。B、尽量采用先进的存储技术(如 SAN 存储局域网),将存储网络独立于应用系统,建立合理的存储布局。这样,既可以获得数据的高度共享能力,又可以提高数据的访问速度,也有利于数据的集中管理和数据的无限扩展。具体实现,应采用光通道存储设备或具有光通道接口的设备,使以后能够采用 SAN 互连方式,这样,即使目前阶段采用双机方式,今后主机系统扩展之后,存储设备可以很容易被多机共享,从而具有极强的可扩展性,能最大程度的保护系统现有投资。而传统的 SCSI 设备则无法实现这
9、一点。C、在存储软件的选择上,可扩展性原则也至关重要。实际上只有系统软硬件均符合技术发展潮流,采用相关的先进技术,在功能上相辅相成,整个系统的平滑升级才能成为可能。(4)开放性系统的软硬件单元,及其所采用的技术,应有广泛的系统平台支持,能与其他系统和设备实现良好的互操作。(5)投资保护系统的软硬件单元,采用成熟领先的技术,具有较长的生存周期。即使到时能力不够,也可以较简单地进行升级或扩展,从而有效地保护系统的初期投入。基于上述需求与设计原则,下面就对具体的解决方案进行详细地设计与描述。具体包括:存储系统的系统强化解决方案、高可用系统解决方案、容灾解决方案、备份解决方案、层次化存储解决方案。1
10、存储系统的系统强化解决方案 现状及问题目前的各种计算机系统均存在着许多令人不能十分满意的地方,具体表现在: 可管理性差首先,操作系统没有很好的磁盘空间管理工具,当文件系统或分区的空间不能满足要求时,空间的增大或缩小非常困难;而对于数据库应用,当数据文件建立在裸设备上时,根本就没办法扩大数据文件的大小,数据库的数据文件也不能用一般的文件系统命令进行操作和管理,大大提高了对系统管理员和数据库管理员的要求。 可用性差假设某个应用系统所分配的空间在运行时不够了,此时应用系统或操作系统将可能终止,需要对应用系统所使用的某些磁盘分区或文件系统进行空间缩放,并停止所有应用对该分区或文件系统的访问,对上面的数
11、据做备份,然后才能进行分区的扩展或文件系统的格式化,恢复数据,最后才能重新启动应用。对于大数据库的话,中间这个周期可能非常长,因而大大降低了应用系统的可服务性;当文件系统遇到错误时,系统会产生崩溃;如果文件系统非正常卸载,则系统重启时,需要对文件系统进行修复,对于大文件系统,这个时间可能非常长,从而影响了可用性。 性能差传统的文件系统,使用不连续的数据块分配空间,因而,一个大文件的所分配到的数据块,可能分散在磁盘空间的各个角落,大大增加了磁盘访问的寻道时间;而对于基于文件系统的数据库文件,由于文件系统的缓存和文件锁机制,将使数据库的性能大大降低。 扩展性差由于传统文件系统和磁盘管理工具不能实现
12、在线的空间缩放和文件系统或分区不能跨硬盘的限制,当系统增加新的磁盘设备时,新的硬盘空间很难与原有的空间进行有机的结合。 解决方案鉴于上述分析,必须采用有效的工具来对关键计算机系统进行强化和改进,从而为整个系统的高可靠性和高性能打下结实的基础。我们建议采用 VERITAS Volume Manager(VxVM)、VERITAS File System(VxFS)和 Quick I/O(QIO)软件来解决以上问题。VERITAS Volume Manager 的特点:VERITAS Volume Manager 提供虚拟设备机制( 即逻辑卷),为应用和文件系统提供完全透明的设备在线管理,为企业的
13、应用提供了功能强大的磁盘和存储设备在线管理功能。 增强了系统和应用的性能VERITAS Volume Manager 具有多数据通路(DMP )功能,自动识别同一物理存储的多条通路,提供自动负载均衡和确保数据传输的连续能力。数据镜像(mirror) 功能将数据镜像到快速存储设备,可以加速对关键信息的访问,确保关键数据的高可用性。DRL(Dirty Region Logging)日志管理保证了系统故障时的快速恢复。VERITAS Volume Manager 提供了多种 RAID 机制,同时通过在线监测和在线 RAID 调整功能,具有在不中断应用的情况下,识别和消除性能瓶颈的能力。 增强了系统可
14、用性和数据完整性Volume Manager 允许对磁盘进行在线的管理和配置更改,包括从一种 RAID 的模式到另一种模式,因此减少了对系统产生极大影响的停机时间。它利用冗余技术提高数据可用性, 在磁盘与硬件出现故障时,可以保护数据不致丢失和破坏。Volume Manager 支持 RAID 0、RAID 1、RAID 1+0、RAID 0+1 和 RAID-5 等先进的软件 RAID 技术。 强大的系统可扩展性Volume Manager 支持多厂家(EMC、Compaq 、SUN、HP 、IBM 等)的多种不同类型(RAID 5,RAID 1、RAID 0、JBOD )的存储设备;卷的大小
15、不受磁盘空间的限制,可以跨多个不同的硬盘,允许在线地扩展或缩小,并可将新增的空间与原有的空间进行无缝地结合,;Volume Manager 所支持的设备数量与空间大小基本上没有限制。 方便美观的图形管理界面Volume Manager 提供了一个基于 Java 的能在任何操作系统上运行的图形用户界面。在使用图形界面管理的同时,Volume Manager 提供命令行管理工具,管理灵活。VERITAS File System 的特点VERITAS File System 是一个强大的、可快速恢复的日志式文件系统,它提供了关键性应用所需的高性能和易管理性,满足在客户服务器环境下用户不断增长的需求。
16、 提高了系统性能VERITAS File System 使用 Extent 机制组织文件系统,使得每一个文件都可使用较大的连续的存储空间,从而有效地提高了文件系统的读写效率;VERITAS File System 能让管理员去控制文件的部分属性,优化文件系统的性能;VERITAS File System 使用日志机制,将未完成数据记录在一个事件日志中,在系统崩溃时,恢复程序会用事件日志来重现这些未完成的变动,保证了文件系统的完整性。 提高系统可用性VERITAS File System 可使系统管理员在不间断用户对数据访问的条件下,对文件系统做在线的空间调整、缩放和数据备份;与 Volume
17、Manager 有机结合,卷的调整不影响文件系统的在线操作;VERITAS File System 的日志机制使系统在重启或崩溃后几秒钟内就能恢复文件系统,大大减少了因系统崩溃或重启所需的恢复时间。数据的高可用性为所有用户和管理员带来了更高的效率。 简单和更强大的存储管理VERITAS File System 具有很强的在线管理功能,包括文件系统的备份、碎片整理和动态改变文件系统的大小;文件系统的大小不受磁盘空间的限制,一个文件系统可跨越多个不同的物理硬盘。Quick I/O 的特点:Quick I/O 是 VERITAS 所特有的技术,旨在保持文件系统可管理性的同时提高文件系统的性能。 通过
18、 Oracle 和 Sybase 认证,Oracle 内部使用 VERITAS Quick I/O 对用户透明,用户操作的还是一般的普通文件 避免了文件系统的缓存与文件锁机制,具有与裸设备相当的读写性能 当把数据库建立在具有 QIO 机制的文件系统时,数据库具有与裸设备相当的性能,但却大大简化了数据库管理员的负担,管理员可通过文件系统的工具管理数据库文件。下图是 QIO 的性能比较表,可见 QIO 的性能与裸设备相当,远远高于文件系统。 方案配置软件:Veritas Database Edition for Oracle / Sybase, 其中包括:VERITAS Volume Manage
19、r(VxVM)VERITAS File System(VxFS)Quick I/O(QIO) 方案的优点1. 增强了系统和应用的性能2. 增强了系统可用性和数据完整性3. 强大的系统可扩展性4. 方便美观的图形管理界面 适用范围Veritas 的存储系统强化解决方案适用于对应用系统要求 7x24 小时不间断运行的企业用户,尤其适用于对系统性能要求很高,数据的完整性、实时性极为敏感的银行、电信、保险、数据中心及大型企业用户等等。OLTP Throughput100020003000400050006000700050MB 250MB 500MB 1GB 1.5GB 2GB 2.5GBSize o
20、f Oracle BuffersThroughput in TPMCached Quick I/O Raw I/O Quick I/O UFS direct I/O UFS buffered I/O2 高可用系统解决方案 现状及问题当前许多企业的系统是关键业务系统,需要不间断为客户提供服务。即使发生短暂的业务中断,也会导致难以估量的经济和名誉损失。为此,我们分析以下可能会导致业务系统中断的原因:1 系统硬件故障如数据/系统磁盘的损坏将导致数据不能访问,并进而可能导致应用进程终止或系统停机,甚至系统不能重启动;网卡的损坏可使终端用户无法访问系统服务;CPU 或内存的失效则会导致系统的死机;2 应
21、用程序或操作系统出错由于操作系统或应用程序中可能存在不完善的地方,当碰到某种激发事件时,应用程序非正常终止或系统崩溃(只能通过改善程序或系统来解决);3 人为错误一些人工的误操作,如删除系统或应用文件,终止系统或应用服务进程,也会导致系统服务的无法访问;4 电脑病毒/骇客入侵由于目前的大多数计算机系统均连接在网络上,若缺少有效的防范机制,很容易遭受病毒的感染或骇客的入侵,轻者数据被损坏,重者系统瘫痪(只能通过加强管理杜绝);5 自然灾害由于一些意外的不可抗拒的因素,如雷击、火灾、洪灾等导致的计算机系统破坏,将会使一般系统的恢复非常困难和耗时,导致业务系统长时间的中断(通过容灾系统来解决)。6
22、正常的停机主要指计划内的系统升级、安装软件、系统备份等过程。由上可见,影响系统正常运行的因素有很多,其中,1、3、5 项所导致的系统中断完全可以通过高可用系统的建立来有效避免。因此,如何有效地建立一个高可用的运行环境,保证系统在上述故障发生时,还能正常地提供业务服务,这对于企业的关键业务处理系统,显得尤为重要。 解决方案要建立高可用的计算机处理系统,首先,在硬件上,要做到各部件的冗余,多台计算机组成集群结构,使整个系统不存在单点故障;此外,还需要有专门的集群软件来进行管理和监控,使得应用系统在任何软硬件单元发生故障时,能够稳定可靠地运行。此外,在高可用系统设计时,还需考虑下述关键点: 应用系统
23、,主机/部件间的切换是非对用户透明? 故障发生时,是否需要人为干预? 切换的速度如何? 配置是否简单方便,易于管理? 与操作系统、应用程序是否能密切配合?对于企业的关键业务处理系统,考虑到系统的投资和扩展性,建议在数据或运行中心,建立双机集群的高可用系统或根据应用的类型和服务器的数目建立多机集群的高可用系统,底层的存储建议采用 SAN 结构。高可用集群软件建议采用 VERITAS Cluster Server 软件。以下是企业数据中心和运作中心高可用系统的结构图:在此设计中,数据中心可以部署运行多种应用的多个服务器通过 FC 连接到 SAN 中的存储系统,实现主机系统到存储系统的高速连接;其次
24、,将服务器上的两个网口通过 HUB 等互连,实现服务器间冗余的心跳链路;最后,每台服务器均有两个高速网口与公网连接,保证用户对主机资源的冗余高效访问。在此基础上,每台服务器各安装一套 VERITAS 的 Cluster Server 软件,组成多机集群高可用系统。同样,对于运作中心,部署两台服务器通过 FC/SCSI 连接共享磁盘阵列,实现主机系统到磁盘系统的高速连接;将两台服务器上的两个网口直接对连,实现双机间冗余的心跳链路;每台服务器通过两个网口与公网连接,保证用户对主机资源的冗余高效访问。每台服务器各安装一套VERITAS 的 Cluster Server 软件,组成双机集群高可用系统。
25、在数据中心,可能会存在多种关键应用,这时可以按照应用的性质来定义每一种应用所需要的资源,及该应用所能接管的服务器。在此系统中,VCS 会在两条心跳链路上传输高效的 LLT 和 GAB 数据包,实时监测其他主机系统和各种软硬件资源的运行情况,如 Oracle 进程、网卡、IP、磁盘、文件系统等,当任何一种资源失效时,VCS 即会按照预先定义的规则快速实行相应的硬件或应用切换。例如: 当一台机器上的工作网卡发生故障时,VCS 会自动地切换到另一块网卡; 当一台主机发生故障或关机时,VCS 会自动地将其上的应用切换到另一台机器; 当应用服务进程非正常终止时,VCS 会自动重起相关进程,或将服务进程切
26、换到其他机器上 当系统需要进行维护时,可手工将应用从一台机器切换到其他机器。上述的设计方案,不仅能够保证数据中心的高可用性,也能够保证应用运行中心业务的高可用性,从而为企业的稳定高速发展创造条件。 方案配置软件:Veritas Cluster ServerAgent for Oracle/SAP/相关应用系统 方案的优点采用 VERITAS Cluster Server(VCS)具有如下优点:1. 高可扩展性VCS 支持最大的群机配置,既可以适用于简单的共享磁盘配置,也适用于最多达 32 个节点的存储局域(SAN)网配置,从而为企业业务的发展提供了无限的扩展空间。2. 支持多种主机系统平台和磁
27、盘系统VCS 目前支持 HP,SUN 和 NT 系统的集群,不远的将来将支持 IBM 和 Linux 的集群及异种系统的集群。VCS 能支持多种产家(HP ,SUN ,COMPAQ,EMC,STK 等)多种类型(FC, FC-AL,SCSI,JBOD,RAID)的磁盘系统。3. 支持多种企业级应用VCS 支持三种应用类型:单服务器、并行服务器和分布式服务器应用。其中包括:Oracle, Sybase,Informix,Netscape , CheckPoint Firewall 等等。4. 配置和管理简单基于 Java 的 GUI 管理界面使 VCS 的配置和管理非常简单方便,并可集中管理多个
28、集群系统。5. 应用级的服高性能切换VCS 不仅可以实现系统级的服务器切换能力,而且提供强大的应用级服务器切换能力,表现在对任意应用可以进行检测并可以分为不同的资源组切换到不同的服务器,而且切换的速度很快,这一点对于应用是至关重要的。 适用范围Veritas 的高可用系统解决方案适用于对应用系统要求 7x24 小时不间断运行的企业用户,尤其适用于对系统性能要求很高,数据的完整性、实时性极为敏感的银行、电信、保险、数据中心及大型企业用户等等。3 容灾系统解决方案 现状及问题高可用系统虽然能够做到数据中心和应用中心本地系统的高可用,但有一个问题,如果一些不可抗拒的因素如地震、雷击等把整个中心的一些
29、关键系统破坏了,还是会导致应用系统的长时间中断。而对于企业的 24X7 的关键业务,任何原因的短时间停顿都是不允许的,因此,有必要建设一个具有容灾功能的备份中心,当数据中心发生故障时,可由备份中心接管部分或所有的业务处理。在建立容灾的备份中心时,主要需考虑以下一些关键因素: 备份中心与数据中心在距离上要足够远,使得当数据中心遭受灾害破坏时,不会影响到备份中心 必须保证备份中心与数据中心的数据同步 备份中心的所有应用系统必须经过严格的测试,确保业务系统能够正常运行 备份中心与数据中心间为保持数据同步而需传输的数据量,以及两地间的网络带宽,也既网络带宽必须能够保证两地间数据的顺畅同步 备份中心的计
30、算机系统有足够的处理能力来接管数据中心的业务 数据中心与备份中心的应用切换快速可靠,并可进行自动和手工切换 解决方案容灾系统的数据中心建设,大致可分三个部分进行:1 备份中心主机网络存储系统的构建,以及应用系统的安装,这些可基本上与数据中心的环境一致2 建立数据中心与备份中心的数据同步传输系统3 建立基于广域网的集群系统,使得应用系统可以在广域网上进行切换以下着重介绍上述第二和第三点:3.1 远程数据同步复制远程数据同步复制的实现包括两个部分:有足够带宽的网络连接;优秀的数据复制管理软件。对于网络连接,如果距离不超过 40 公里,建议采用光纤连接,如果是在两个异地的城市之间,建议采用 E1/T
31、1 的专线连接,当然,如果数据量很小,也可采用低速的专线连接。对于数据复制管理软件,建议采用 VERITAS 的 Volume Replicator (VVR)。通过广域网远程连接,VVR 可向远程备份系统同步进行逻辑卷复制,确保系统数据的高度可用。VVR 采用可靠的连接和监听协议,保证远程备份站点与本地逻辑卷数据的一致性,为用户关键应用的灾难备份和恢复提供了有效的手段。VVR 具有下述特点: 支持广域网节点间数据的同步和异步复制 支持多点到多点的复制,一份数据可同时复制到 32 个节点,多个节点的数据也可同时复制到一点进行集中 容忍网络延迟:在同步模式下,若网络发生堵塞,可自动切换到异步模式,当网络恢复后,再重新同步