1、指南连载:数据中心运维管理框架详述出处:PConline 2010年08月25日 作者:顾大伟 郭建兵 黄伟 责任编辑:xujian1来源:万国数据科技发展(昆山)有限公司;作者:顾大伟、郭建兵、黄伟主编;声明:本文所有内容,版权属万国数据科技发展(昆山)有限公司所有,由万国数据科技发展(昆山)有限公司授权pconline发布。任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发布/发表。违者本网将依法追究责任。数据中心建设与管理指南一书是由顾大伟、郭建兵、黄伟主编,并由万国数据科技发展(昆山)有限公司授权pconline发布。本书通过数据中心的规划、建设和运维,从数据中
2、心生命周期和数据中心可持续发展的六个基本要素出发,全面阐述了数据中心建设、管理的科学体系和方法论,以及企业级数据中心的评价体系。pconline将会陆续发布此书,敬请大家关注。阅读更多:数据中心建设与管理指南专题6.2数据中心运维管理框架6.2.1.运维管理框架4Ps概述所谓数据中心运维管理框架是指管理一个数据中心所使用的方法与手段的总称。那么,应该用什么样的方法与手段来管理数据中心呢?在此,信息技术基础架构库(InformationTechnologyInfrastructureLibrary,ITIL)给出了一个比较好的管理框架,即所谓的4Ps。数据中心运维管理框架如图6-3所示。图6-3
3、数据中心运维管理框架1.人员人员是数据中心运维管理的基础,也是数据中心运维管理的核心。一个好的数据中心运维管理框架,少不了合适的技术和管理人员。从前面数据中心运维管理概述中,可以看到数据中心所需要管理的对象,包括基础设施、IT设备、系统与数据、管理工具和人员等。只有具备相应知识背景与管理经验的人,才能有效地整合上述资源,为客户提供符合质量与合同要求的IT服务。因此,在考虑建设数据中心运维管理框架时,必须要考虑到:如何建立起一套科学合理的包括选、用、培养、考核及解聘的人员管理生命周期;如何通过合理的组织架构设计与人员分工,最大限度地发挥个人的主观能动性,为组织目标贡献力量等。2.流程流程是数据中
4、心运维管理质量的保证。作为客户IT服务的物理载体,数据中心存在的目的就是保证服务可以按质、按量地提供。服务与产品有着许多的不同,其中最核心的不同在于服务本身是看不见、摸不着的,但又是能通过服务商与客户的互动为客户所感受到的。为确保最终提供给客户的服务是符合服务合同的要求,数据中心需要把现在的管理工作抽象成不同的管理流程,并把流程之间的关系、流程的角色、流程的触发点、流程的输入与输出等进行详细定义。通过这种流程的建立,一方面可以使数据中心的人员能够对工作有一个统一的认识,更重要的是通过这些服务工作的流程化使得整个服务提供过程可被监控、管理,形成真正意义上的“IT服务车间”。3.产品产品是数据中心
5、运维管理的加速器。数据中心运维管理涉及的对象庞杂,且重复性工作较多。若完全依靠人工去完成这些工作,一方面对人员的技能与数量有较高的要求,另一方面在工作质量的保证方面也存在风险。为此,越来越多的数据中心在开展运维管理工作时使用大量工具,目的是通过这些工具的部署取代一些监控、操作、配置文件、工作流管理等大量重复性工作,最终实现提升运维水平、降低运维风险、减少运维成本的目的。4.服务商服务商是数据中心运维管理的支持者。作为专业化的数据中心运维管理,有效地整合数据中心管理对象,并最终为用户提供专业化的服务才是数据中心服务提供者的核心价值所在。而且,数据中心运维管理中涉及了太多不同种类的设备,数据中心也
6、不可能把所有的技术与管理工作独自承担。聘用一批既懂变压器、发电机、UPS,又了解空调、消防、防火设备,同时还精通IT相关软硬件的人员,对于任何一个企业或机构均是极大的成本支出。所以,数据中心需要与许多设备供应和服务提供商建立良好的战略合作关系。6.2.2.运维管理的人员要求如前所述,人员既是数据中心运维管理的基础,也是数据中心运维管理的核心。一个数据中心组建团队时应注意什么呢?以下重点就人员技能、人员分工与人员管理三个方面谈一下数据中心运维管理方面的人员要求。1.人员技能现在回到数据中心的运维对象来分析数据中心需要配备怎样的人员。数据中心人员技能构成如图6-4所示。图6-4数据中心人员技能构成
7、基础设施操作和技术人员。这类人员的主要职责是保障与数据中心服务相关的基础设施的稳定运行。他们应掌握数据中心各类基础设施的原理、使用方式、维护方式,并具备简单故障诊断的能力。而且还能协助开展数据中心场地、设备性能的能力管理与可用性管理。由于数据中心业务的特殊性,这类人员需能支持724小时服务。IT设备与IT系统的操作或技术人员。这两类人员的主要职责是保障客户IT服务相关的设备与系统的稳定运行,同时根据客户的要求完成IT系统的检查、后台操作、批作业处理、备份、恢复等相关工作。如果数据中心规模较大,将会按技能的不同将IT人员分成硬件类与系统类的两组人员。如果数据中心规模较小,通常会将这两组人员合并,
8、统一负责数据中心所有IT设备与系统的操作与维护。系统工具管理人员。这类人员与IT设备、系统管理人员最大的不同就是服务对象的区别。前面的IT设备、系统管理人员是围绕客户相关IT设备与系统提供服务,而系统工具管理人员则类似于内部的IT部,是为包括IT运维管理人员、IT系统技术操作人员、IT设备技术操作人员、基础设施技术操作人员在内的所有人员提供服务。而服务的手段主要是通过对现有技术管理工作进行分析,找出数据中心管理的诉求,并通过向外采购或自行开发的方式以技术的手段去满足上述管理诉求。他们对于数据中心外部的供应商来说,承担了管理者与项目经理的角色,对于数据中心内部的技术管理人员来说,则承担着需求分析
9、、技术支持的角色。IT运维管理人员。这类人员主要的职责是通过建立有效的管理模式,组织上述所有人员,管理好所有的管理对象,按质按量地向客户提供数据中心业务服务。这些人员应具备数据中心管理基本知识,了解与之相关的国内外管理标准,具备相应的流程建设与实施能力、良好的客户沟通能力和较好的财务知识。2.人员分工数据中心在人员的分工上通常有两种做法:一种是职能支撑型的组织分工,另一种是流程驱动型的组织分工。1)职能支撑型分工模式职能支撑型分工模式主要是把具备同样技能与类似工作目标的人员整合在一个部门当中,他们承担起数据中心的部分职责,部门内的成员向部门领导汇报,部门领导向中心领导汇报,类似于管理学中的“直
10、线-职能型”的组织分工。数据中心组织分工如图6-5所示。图6-5职能支撑型的分工模式该种分工的优点为:既保证了企业管理体系的集中统一,又可在各级负责人的领导下,充分发挥各专业管理机构的作用。其缺点是:职能部门之间的协作和配合性较差,职能部门的许多工作要直接向上层领导报告请示才能处理,不仅加重了上层领导的工作负担,也造成办事效率低,组织内耗大等问题。这种组织适用于企业规模较小、业务系统相对稳定、项目工作不多、并为企业内部提供IT服务的数据中心。在这种情况下,数据中心的运维管理相对比较稳定,按此种方式组织的工作团队,可以较高效地开展工作。同样由于外部环境比较稳定的原因,许多工作的分工可以提前制定并
11、加以明确,无需部门之间太多的沟通协调,从而避免了这种组织架构的最大缺陷之一“跨部门合作”。2)流程驱动型分工模式流程驱动型分工模式特征为既有按职能划分的垂直领导系统,又有按客户(项目)划分的横向领导关系的结构。其中,垂直领导侧重于人员与能力培养的管理,横向领导侧重于与客户服务、项目工作相关的管理。这种分工模式从组织的角度去看,可以看到企业内存在不同的职能部门与人员,这些人员是如何支持到不同的项目虚拟团队当中,如图6-6所示。这种分工模式的优点在于,可以改进“职能支撑型分工模式”横向联系差、缺乏弹性、客户/项目关注程度不高的问题。它的特点表现在围绕某项专门任务、或某个客户成立跨职能部门的专门机构
12、上。例如,组成一个专门的客服团队去从事该客户服务相关的工作,在系统设计、系统集成、系统上线、系统运维各个不同阶段,由相关部门派人参加,力图做到条块结合,以协调有关部门的活动,保证任务的完成。这种组织结构形式是固定的,人员是相对不固定的,任务完成后就可以离开。人员的调动主要依靠相关工作流程,各部门人员在不同的流程中承担相应的角色职责,通过在流程中不同角色的工作来实现这种虚拟团队的合作。此外,由于这种分工模式基于多项目、多数据中心管理,故新增项目或数据中心不会对组织带来太大的影响。这种分工模式的不足为:项目负责人/客服经理的责任大于权力,因为参加项目的人员都来自不同部门,隶属关系仍在原单位,只是为
13、“会战”而来,所以项目负责人对他们管理困难,没有足够的激励手段与惩治手段,这种人员上的双重管理是矩阵结构的先天缺陷;由于项目组成人员来自各个职能部门,当任务完成以后,仍要回原单位,因而容易产生临时观念,对工作有一定影响。这种分工模式适用于客户种类较多、服务要求不一致,数据中心较多的企业类型。但前提在于要在企业内部建设起较好的管理流程与人员激励机制,且垂直机构有较强的人员培养能力。3.人员管理考虑到人员管理对数据中心运维管理相当重要,因此需要针对企业用人的生命周期,结合一些安全的控制来建立对数据中心人员的管理体系。6.2.3.运维管理的流程要求数据中心建立的管理流程除应满足数据中心自身特点外,还
14、应能兼顾客户、管理者、服务商与审计机构的需求。由于每个数据中心的实际运维情况与管理目标存在差异,数据中心需要建立的流程也会有所不同。为能让读者对数据中心运维管理流程可能涵盖的范围有一个较为全面、规范的了解,本节以基于ISO20000、ISO27001、ISO9001和ITIL等标准要求而建立的商业数据中心为例,介绍数据中心在运维管理流程建设方面的要求。1.运维管理流程的范围数据中心管理框架应包含以下七个管理领域:(1)体系管理平台:以ISO9001质量管理体系框架搭建的管理平台作为管理接口。管理层通过这些流程制定管理方针目标,测量目标的执行,监督流程管理效果,执行PDCA(即Plan、Do、C
15、heck和Action)循环,以改进数据中心绩效,管理数据中心各类资料文件。(2)资源管理域:包含数据中心内部人员、网络、设备、基础设施、环境等资源的管理流程,是数据中心统一管理的内部资源。(3)服务管理域:包括与客户交互的相关流程文件,是数据中心与客户的管理接口。(4)服务支持管理域:包括数据中心内部运作过程中的事件、问题、变更、发布处理流程等。(5)服务交付管理域:数据中心财务管理、服务的策划和变更、可用性管理、容量管理、业务连续性管理等方面的管理内容。(6)资源信息管理域:包括数据中心的信息资产管理、配置管理、输入/输出管理、风险评估等工作的管理。(7)厂商管理域:包括服务商管理的相关流
16、程,是服务商与数据中心管理的接口。以上7个管理域所构成的管理体系框架内的流程,按照ISO9001标准的要求被划分为4阶文件。第一阶文件是“手册”,包含体系管理平台部分的全部文件。用于管理层对整个管理体系进行管理,制定方针目标、进行管理评审等工作。第二阶文件是“指南”,该阶文件根据数据中心各部门的职责规定了某一具体业务的流程,并涵盖了除“体系管理平台”外其余6个管理域的文件。公司管理层可以通过这一阶文件规定各部门的工作范围及业务在各部门间的流转过程。第三阶文件是“工作指引”,是数据中心各部门根据第二阶文件要求编写的具体部门的具体业务操作手册。同样涵盖了除“体系管理平台”外其余6个管理域的文件。该
17、阶文件是数据中心各部门管理其内部工作的重要依据,也是员工执行管理体系的指导文件。第四阶文件是“支持性文件”,包括支持业务流程运行的各类表单、技术文件。该阶文件记录数据中心各项业务流程运行的具体情况,还可作为体系运行结果的直接证据。2.体系管理平台体系管理平台用于管理层对整个管理体系进行管理,制定方针目标、进行管理评审,持续的改进数据中心的各项流程制度。它是以ISO9001质量管理体系为基础搭建的管理整个数据中心运维管理体系的管理平台。主要作用有两项:(1)为数据中心的管理层提供管理整个数据中心运维体系的界面。数据中心通过管理平台内的流程,进行方针、目标的制定、企业内部资源的分配、流程文件的修订
18、发布、管理流程执行效果的审核、管理评审、运维数据的收集评审、执行持续改进运维体系的措施、调整管理体系框架等工作。(2)为外部审核机构及客户了解数据中心的管理体系框架提供参考。体系管理平台的文件主要包括8个,分别是:(1)管理手册:描述管理体系的框架结构、执行范围、组织结构及各部门的主要职责。(2)适用性说明:描述管理体系所遵循标准的适用条款及不适用条款的说明。(3)文件管理手册:用于规定数据中心管理体系内的文件修订、发布、废止、文件版本控制、文件标示控制、文件保管的规定、文件的废止销毁流程。(4)记录和资料管理手册:用于规定各类文件资料的保密等级及使用权限控制规定、查阅权限及保密资料的查阅申请
19、流程、记录资料的保管规定(例如,保管期限、保管部门、记录资料的作废、销毁规定等)。(5)内部审核手册:规定了数据中心进行内部管理体系审核的周期,审核范围,内部审核员的选用方式,执行内部审核的流程,各部门在内部审核中的职责,审核后的纠正预防措施的制定、执行工作,纠正预防措施执行效果的监督检查工作。(6)纠正预防措施手册:用于规定整个管理体系在审核、管理评审过程中发现的需改进工作的纠正预防措施的制定、执行、监督检查工作的流程,以确保纠正预防措施被有效落实。(7)管理评审手册:用于管理层评估管理体系的运行效果,评估公司各项方针指标的执行情况,修订方针、目标,适时修订体系文件。(8)不合格控制手册:规
20、定了服务不合格的概念及发生服务不合格后的处理方法。3.资源管理数据中心资源管理所涵盖的范围很广,包括环境管理、网络管理、设备管理、软件管理、存储介质管理、防病毒管理、应用管理、日常操作管理、用户密码管理和员工管理等。1)环境管理数据中心环境安全管理的重点在于如何根据不同区域的特点使用不同的安全管控和出入原则。对重点的区域可以选用先进的安全设备,使用严格的进出管理控制制度进行管理。在制定数据中心环境管理相关文件时,通过对各区域内所存放的信息资产的等级进行分析,将数据中心划分成不同类别的管控区域和安全区域。建议至少划分为3类区域:公共区域、办公区域、安全管制区域。(1)公共区域:这些区域通常用于数
21、据中心生活与展示的配套区域。该区域允许员工及获准进入数据中心的第三方、客户在遵守相关制度的前提下自由进出。(2)办公区域:数据中心内存放日常行政办公信息处理设备和其他办公设备,开展日常工作的区域。这类区域的进入通常需要办理相关的进入申请,配备有视频监控系统。(3)安全管制区域:数据中心内存放核心信息处理设备和供配电等基础设备,开展一线服务工作的区域。这类区域严格限制人员设备的进出,有先进的门禁及监控系统以确保信息系统安全。在编制环境管理相关流程时应考虑人员进出的要求,还应考虑设备和物品进出的流程。设备和物品的进出应得到正式的审批,特别是对于安全管制区域所有的IT类设备、存储介质应重点控制。2)
22、网络管理网络作为数据中心重要的资源,应制定相关流程予以控制。建议网络管理流程包括如下管理内容:(1)网络拓扑结构:应明确网络的拓扑结构,创建网络拓扑结构图,并在网络结构变化时及时更新拓扑图。网络拓扑结构的变化应有记录并得到适当的审批,应有专门的人员负责网络拓扑结构的调整。(2)网络的访问管理:应将网络划分为不同作用的网段,例如办公网、生产网、管理网,公共网络。规定有权访问各类网络的设备和人员,明确网络接入的申请、审批流程和终止接入的流程,做到网络接入、终止接入过程受控,有专门的人员负责网络接入和终止接入的管理工作。(3)网络系统日常维护流程:应有专门的工作指引用于指导网络设备的日常维护,日志的
23、备份、配置信息的备份。3)设备管理数据中心的设备管理主要包括对设备的固定资产管理,设备维护管理等。数据中心在起草相关流程文件时应关注以下几点:(1)编制设备清单:明确设备的所有者、管理维护人员或部门、开始使用的日期、设备的重要等级等信息。此类信息最好悬挂或张贴于设备上或设备周边的醒目位置以便于管理。(2)制订设备的维护计划:规定具体设备的维护日期、维护人等信息,并由专人负责按照维护计划进行维护或联系、督促服务商执行维护。(3)将设备按重要等级进行分类:设备按照等级分类,并按不同的设备重要等级制定不同的管理策略,最大限度的确保重要设备的运行。4)软件管理数据中心软件管理通常需要关注以下三项内容:
24、(1)计算机系统安装软件的管理:对于数据中心的办公用计算机、监控用计算机和生产用计算机来说,其安装的软件应该受到严格的控制,避免员工随意安装软件。从软件管理角度,数据中心应建立可安装软件的认证工作,通过对软件使用的分析建立一张可安装软件的清单,对于清单范围外的软件不允许安装。对于监控、生产用的计算机及可连入生产网的计算机,其安装的软件需经过认证,并对所安装的软件进行记录,定期检查是否存在使用其他软件的情况。(2)软件维护及补丁管理:随着各种利用安全漏洞的病毒和恶意程序的增多,软件维护和补丁的更新工作也显得极其重要。对于软件补丁的安装管理应做好以下几项管控工作:补丁的测试、补丁的发放和安装、版本
25、控制,建议补丁的管理由专人负责。(3)数据中心软件许可证的管理:随着知识产权意识的提高,是否使用有合法许可授权的软件已经成为越来越多数据中心和客户关注的问题。软件许可证的管理要作为数据中心的一项重要工作。其重点在于管理数据中心所拥有的合法软件许可证,确保在许可证许可范围内使用软件,确保软件的安装有记录可查。5)存储介质管理数据中心经常面临大量的介质管理工作,介质管理工作的成功与否直接影响数据中心的信息安全。一个良好的介质管理工作应包括以下几方面的内容:(1)空白介质与有数据介质保存方式的规定:两种介质分开保存并有明显标示以示区别,同时应明确介质的保存地点,做到介质统一保存。(2)应制定统一的介
26、质编号、标示原则:对介质作统一的编号标示,便于介质管理。(3)有条件时建立介质管理员制度:确保介质的专人管理,可减少介质管理的混乱。(4)有数据介质的领用查阅应得到控制:介质领用、报废应有适当的审批过程。应规定清除报废介质内残余数据和销毁处理报废介质的流程,避免信息泄露。6)防病毒管理随着计算机病毒的日益泛滥,防止数据中心的生产设备、办公设备受到病毒侵害已经成为数据中心管理中不可缺少的工作内容。防病毒管理流程主要包括以下几个方面:(1)防病毒软件的管理:这里主要包括软件的安装、软件的设置、病毒库更新,软件版本控制、定期查杀病毒等。(2)病毒资讯:安排专人随时了解病毒最新信息,可能爆发的病毒类型
27、、染毒后现象及对信息系统的影响,查杀方法等,并将这些信息通过定期通告和随时通报两种方式提醒数据中心相关人员查防。7)应用管理广义的应用管理包括了数据库、中间件和应用系统本身在内的所有管理。它是绝大多数IT服务的“灵魂”。对于数据中心而言,挑战在于要同时管理大量复杂并且相互关联的应用。在这种情况下,除了要建立并运用同样适用于整个应用管理的ITIL流程外,几个适合数据中心应用管理的最佳实践是:(1)将应用按重要程度进行分级。毫无疑问,理想情况下,所有的应用都应视为同样“重要”。但是在资源总是相对不足的现实情况下,必须区别对待。因此,在管理数目众多的应用系统时,基本的一点就是根据应用系统所提供的IT
28、服务的重要性来对应用系统进行级别划分,并以此进行归类。这个级别的定义可以提供应用系统管理维护所涉及的多个流程,包括事件管理、问题管理、安全级别管理等最基本的信息。例如,一个一类应用(最重要)中断1小时和一个四类应用(相对最不重要)中断1小时,显然事件的等级是不一样的。所以,将应用按重要程度进行分级对于更为合理的分配资源有重要意义。(2)制作应用地图。首先要制作系统结构图和网络拓扑图,同样,还需要制作应用拓扑图,也称为应用地图。如图6-7所示,应用地图将应用按其功能类别划分为应用群,赋予不同的色块标识进行布局,使其便于统计和管理。一个应用占用一行或一列,在这行或者这列中,从首到尾,分别在每一格列
29、出网络设备、服务器、数据库、中间件,最后是应用。每一格都可以再标示出具体的信息,如服务器的型号,数据库的版本,应用的名称和版本等,从而清晰地表现出各个应用相关的最主要信息。应用地图是快速了解总体应用部署情况,并在应用出现故障时,迅速定位原因,最为直观有效的形式之一。图6-7应用地图(3)了解应用数据流。虽然应用地图可以帮助快速了解应用和基础系统之间的关系,但是应用和应用之间的逻辑关系却没有展现。所以,对于数据中心而言,深入研究并绘制多个应用系统之间数据的流向是有必要的。应用数据流可以用图形,也可以用表格来表示。应用数目较少时,用图比较直观;但当应用数目超过一定量时,表格的形式就更为合适。但不管
30、是用图,还是用表,应用数据流都应该至少包含以下几个元素:数据提供的应用系统名称(一般称为上游应用)、提供的数据类型、文件名称、时间、周期、本应用系统名称以及数据接收的应用系统名称(一般称为下游应用)等。如图6-8所示,针对任何一套应用系统,通过应用数据流图,可以很清楚地知道一旦停运,对其他应用系统的影响,这对于事件、问题或变更的影响评估有非常重要的意义。图6-8应用数据流图8)日常操作管理数据中心的日常操作管理主要包括数据中心内部生产系统、办公系统、动力设备、环境保护、监测系统的数据处理、操作、维护的管理,以及数据中心信息处理设施、基础设施设备的软硬件运行情况巡检等监控工作的管理。数据中心应该
31、为每一台设备编制相应的操作工作指引。不建议以服务商或设备制造商提供的使用说明书或技术资料直接作为工作指引使用。工作指引编制应该满足数据中心实际使用的需要,用于指导操作人员在实际环境下操作设备的各项功能。建议制定相关的巡检工作指引,规范数据中心的日常巡检工作。工作指引应规定巡检的周期、巡检项目、判定设备正常的标准、出现异常后的记录和汇报方式以及事件管理的接口。对巡检设备及内容做成检查表,巡检记录以表格形式呈现。9)用户密码管理用户密码是数据中心运行的重要信息。用户密码的妥善管理可以减少数据中心运行的风险,提高数据中心运行的效率,确保信息的安全。用户密码管理不完善的数据中心可能会遇到如下问题:(1
32、)管理员密码丢失(忘记密码)。(2)登录时发现密码不正确,不知是谁改过。(3)需要对系统进行调整时发现管理员休假,但只有他有密码,所以系统调整工作只能暂停。(4)管理员偶然发现系统里有一个未知用户,经查发现该用户属于一个曾经在数据中心工作的人员,该人员已离职半年,但该用户没有被删除。这些都是用户密码管理不完善的结果。一个良好的密码管理流程主要应包括以下几个方面:(1)用户密码分级管理:数据中心应根据密码的重要程度将密码划分为若干个等级,并对不同等级的密码采用不同的管理策略。(2)明确用户密码创建、变更流程:用户密码的创建、变更和使用应该有一套严格的流程进行控制。避免不受控的密码创建、变更和使用
33、的行为。(3)用户密码的使用中应注意以下问题:一个用户密码只能一人使用,避免出现几人共用一个用户密码的现象。用户密码的使用和生成应由不同人员分别进行,避免密码使用者私自修改密码。密码必须定期修改。密码的强度需要事先被定义。(4)密码的保管:对于重要密码,除在用户处保留外还应在适当的地点另外保留密码副本,以避免由于密码遗忘、丢失对数据中心运行造成严重影响。此外,建议使用密码信封管理密码。当密码保存在密码信封后,密码信封本身的制作、保存、更新应制定相应流程,以确保密码信封的管理是受控和安全的。(5)用户密码的撤销:数据中心应建立一套用户密码撤销删除的流程,重点加强离职人员及工作调动人员所用密码的撤
34、销管理。10)员工管理员工作为数据中心重要的资源需要进行有效管理。数据中心的员工管理流程应包括:(1)员工招聘、任用流程。明确员工招聘任用的流程,明确签订劳动合同和保密合同的过程。(2)员工培训流程。数据中心属于技术密集型组织。由于IT领域新技术、新产品层出不穷,所以确保员工获得相关的技术和能力培训显得至关重要。应规定员工接受培训的流程,员工培训主要包括上岗培训和日常培训。(3)员工离职及岗位调整流程。员工离职或岗位调整后,应完成各种工作交接,并应收回各类技术资料、系统权限、网络权限、出入证件、门禁系统权限。4.服务管理1)服务水平管理服务水平管理是ISO20000、ITIL的重要组成部分,也
35、是数据中心管理的重要组成部分。服务水平管理主要通过SLA(服务水平协议)/OLA(运维水平协议)/UC(支持合约)来协调IT服务各方之间的关系。服务水平管理主要管控如下活动:(1)识别客户需求:制定与客户沟通的相关职责,获取客户需求。完成SLR(服务级别需求),作为制定SLA的重要依据。(2)定义服务项目:在确定SLA后,服务级别管理人员需要根据SLR总结出满足客户需求的服务项目,并形成服务描述单和服务质量计划。(3)签订协议:服务级别经理组织签署服务支持合同和运作级别协议,签署SLA。(4)服务级别的监控和报告:编写流程对服务级别协议执行的效果进行监控并形成报告。(5)评审和改进:服务级别经
36、理应评审服务级别协议执行状况并作相关改进计划。2)业务关系管理业务关系管理流程包含至少3个部分:服务评审、客户满意度调查、客户抱怨管理。(1)服务评审:与客户进行定期或不定期的针对服务提供情况的沟通。每次的沟通均应形成沟通记录,以备数据中心对服务进行评价和改进。(2)客户满意度调查:客户满意度调查流程主要包括客户满意度调查的设计、执行和客户满意度调查结果的分析、改进4个阶段。数据中心可根据客户的特点制定不同的客户满意度调查方案。(3)客户抱怨管理:客户抱怨管理流程规定数据中心接收客户提出抱怨的途径,以及抱怨的相应方式,并留下与事件管理等流程的接口。应针对客户抱怨完成分析报告,总结客户抱怨的原因
37、,制定相关的改进措施。在实际工作中,有些重要客户的抱怨或客户抱怨的严重问题对数据中心影响较大。为及时应对客户的抱怨,应该规定客户抱怨的升级机制,对于严重的客户抱怨,按升级的客户投诉流程进行相应处理。3)服务报告管理服务报告管理流程旨在向客户和管理者提供与服务相关的数据和信息。在服务报告管理流程中应明确以下几个要素:(1)服务报告各类数据的获取途径。做到一类数据只能由一个职能部门提供。(2)服务报告的内容定义。应确保和管理层、客户就相关服务报告的内容达成一致。(3)服务报告的提供周期。应该明确服务报告的提供周期,具体周期可根据客户或管理层的要求定义。(4)明确服务报告的制作部门和审批途径。5.服
38、务支持1)事件管理事件管理主要管控引起或可能引起服务中断或服务质量下降的不符合IT服务标准操作的活动。这里的事件不仅包括软硬件故障,也包括服务请求。当处理多个事件时应根据事件的影响、紧急程度、解决事件的难易决定事件的优先级。如在协议时间内无法解决事件还应考虑事件的升级流程。事件管理流程与问题管理、服务水平管理、变更管理、配置管理有着复杂的联系。在制定数据中心的事件管理流程时应充分考虑事件管理与这些流程的关系和接口。下面通过事件管理流程简图来简单介绍事件管理的过程,如图6-9所示。首先是事件的发起,在这张流程图中,数据中心的事件发起主要包括3个方面:客户请求、数据中心自动监控系统提供的报警、数据
39、中心日常巡检中发现的异常。在事件发生后,事件记录员首先记录该事件。在事件管理流程中应规定记录事件的内容,如果数据中心没有使用ITSM的电子化工具,应通过表格形式记录事件内容,表格的具体样式、内容,可根据实际业务特点设计。在事件记录员记录事件后,事件经理可根据事件记录对事件进行初步支持和事件分类,在这一步,事件经理需要对事件的紧急程度、重要等级、事件影响和处理难易进行初步分析,由此确定事件的优先级。把事件设计的配置项关联到配置管理数据库(简称CMDB,指记录每个配置项(CI),以及不同配置项之间重要关联详情的数据库),分配事件处理任务到相关受理人员。在事件经理分配任务后,事件受理员需对事件进行分
40、析和处理。处理事件时可参考问题管理的相关信息。在事件分析并给出解决方案后,进入事件的解决过程。事件的解决通常需要通过变更管理流程进行。所以,这一步需要留下变更管理的接口。在处理完事件后,需要和问题管理交互信息。当事件确认解决后,由事件记录员关闭事件。2)问题管理问题管理流程是通过调查和分析IT基础架构的薄弱环节,查明事件产生的潜在原因,并制定解决事件的方案和防止事件再发生的方案。与事件管理强调处理速度不同,问题管理是强调查处事件的根源,从而制定恰当的解决方案,防止类似事件再次发生。通常问题管理与事件管理、变更管理、配置管理都有很紧密的联系。下面以问题管理流程图(如图6-10所示)为例,介绍问题
41、管理的主要活动。数据中心问题管理部门通过对事件等信息的分析提出问题,并由问题管理员记录该问题。问题经理对问题进行分析和处理。该部分工作主要包括以下4项:(1)将问题关联到事件管理流程记录的相关事件。(2)将问题关联到配置管理项。(3)设定问题的优先级。(4)将问题分配给问题受理员处理。问题经理将问题分派给问题受理员后,问题受理员通过分析,查找问题的原因并制定相关解决措施。当问题的原因被发现并得到了解决措施后,应由问题经理管理问题,同时应通过变更管理进行相关变更,并通过配置管理流程更新相关配置项。问题管理的最后一步是更新知识库。问题管理流程本身并不复杂,但很多数据中心都不能很好地实施问题管理流程
42、。通常大多数数据中心在实施问题管理流程时遇到的最大“问题”就是“找不到问题”,从而导致问题管理流程不能被真正实施。因此,建议采用如下方法发现数据中心的问题:(1)充分利用服务报告,从报告中未能满足SLA的情况入手发现问题。(2)充分利用事件管理流程,把具有相关性的事件作为问题管理的研究对象。(3)利用系统管理工具的监测数据发现问题。(4)通过客户满意度调查、客户座谈、客户反馈找出问题。3)变更管理变更管理是在最短的中断时间内完成基础架构或服务的任何一方面变更的流程。通常情况执行了一个问题管理流程、事件管理流程、服务水平管理流程后,需要通过变更管理实施事件管理流程或问题管理流程所产生的事件处理方
43、案或问题解决措施。变更管理在施行中应注意通过合理的计划和周密的准备把中断业务或服务的时间减少到最小。下面就以变更管理流程图(如图6-11所示)为例,介绍变更管理的主要活动。变更流程的启动:通常,事件管理流程、问题管理流程、服务水平管理流程会启动一个变更管理流程。变更经理需要对变更请求进行审批。在这个阶段,变更经理主要对变更请求进行复核,并确定变更的优先级,然后将变更分派给相应的变更受理员进行变更操作。变更受理员根据变更的情况制定变更执行的详细计划,这些计划应尽量详细以减少由于变更时间过长而对服务的影响。应在制订变更计划的同时制订一个变更失败后的回退计划,以避免一旦变更失败对数据中心运维造成较大
44、影响。变更经理需要对变更受理员制定的变更计划进行审批,然后交由变更实施人员进行实施。变更实施后,变更受理员应对变更实施的结果进行检查,以确认变更执行有效,并将结果通报变更经理审批。变更经理审批完变更后,变更受理员可以关闭该变更流程。6.服务的交付管理1)容量管理容量管理主要关注企业与IT基础设施之间的关系。这个流程不仅要评价现有服务的能力,还要分析和预测数据中心未来发展的需要。容量管理流程应着重规范以下3个方面的内容:(1)业务能力管理:关注数据中心未来业务对IT服务的需求,并确保这种未来的需求在制订业务能力计划时得到充分的考虑。(2)服务能力管理:关注现有的IT服务能力、品质能否达到服务级别
45、协议中所确定的服务目标。(3)资源能力管理:关注IT基础架构内每个组件的能力和使用情况,并确保IT基础架构的能力足以满足支持服务级别协议被履行。数据中心可通过编制能力计划的形式完成以上工作内容。2)业务连续性管理和可用性管理在当今以服务为导向和以客户为中心的业务环境下,维持数据中心的持续运维对数据中心具有重大意义。尤其在发生灾难的情况下如何确保数据中心的持续运作是数据中心管理人员必须关注的问题。业务连续性管理就是负责数据中心预防灾难、增强IT基础架构在灾难发生后的恢复能力的管理流程。它着重确保数据中心在诸如地震、洪水、火灾、失窃、恐怖袭击、网络攻击、大范围停电等灾难后尽快恢复运作,减少因数据中
46、心停止运行而带来的损失。数据中心的业务连续性管理流程主要包括制定业务连续性目标、业务影响分析、灾难恢复应急预案三方面内容:(1)制定业务连续性目标:它是数据中心制订业务连续性方案,进行风险分析的重要依据。确定数据中心发生灾难后可接受的业务停顿时间,是其主要内容。(2)业务影响分析:指对可能造成数据中心业务中断的灾难事件进行分析,重点是分析其对应的场景、业务替代难易程度、对相关业务持续的影响、对数据中心整体发展的影响、灾难事件所发生的概率等。目的是筛选出最可能影响到数据中心持续运维的灾难事件场景,为制定应急预案确定前提条件。在进行业务影响分析时应关注:场景的确定:从替代性风险、中断与否、影响程度
47、、发生概率四个方面对不同场景的不同原因进行分析,找出风险值最高的场景原因,为灾难恢复计划的制订确立场景。可接受风险值的确立:在综合衡量成本与各场景的风险值后,决定数据中心对风险值的接受程度,凡风险值高于可接受程度的场景均需制订灾难恢复计划。(3)灾难恢复应急预案:应急预案是为确保发生灾难事件后,尽快消除紧急事件的不良影响,恢复业务的持续营运而制定的应急处理措施。应急预案的注意事项:根据业务影响分析的结果及灾难场景的特点编写应急预案,确保当紧急事件发生后可维持业务运作,在重要业务流程中断或发生故障后在规定时间内恢复业务运作。应急预案除包括特定场景出现后各部门、第三方的职责与任务外,还应评估复原可接受的总时间。应急预案必须经过演练,使相关责任人熟悉应急预案的内容。3)财务管理IT服务的财