1、 深信服超融合一体机技术白皮书 文档密级:内部深信服超融合架构技术白皮书深信服科技有限公司修订记录第1章、前言81.1IT时代的变革81.2白皮书总览9第2章、深信服超融合技术架构111.1超融合架构概述111.1.1超融合架构的定义111.2深信服超融合架构组成模块111.2.1.1系统总体架构111.2.1.2aSV计算虚拟化平台121.2.1.2.1概述121.2.1.2.2aSV技术原理131.2.1.2.2.1aSV的Hypervisor架构141.2.1.2.2.2Hypervisor虚拟化实现181.2.1.2.3aSV的技术特性261.2.1.2.3.1内存NUMA技术261.
2、2.1.2.3.2SR-IOV271.2.1.2.3.3Faik-raid291.2.1.2.3.4虚拟机生命周期管理301.2.1.2.3.5虚拟交换机311.2.1.2.3.6动态资源调度311.2.1.2.4aSV的特色技术321.2.1.2.4.1快虚321.2.1.2.4.2虚拟机热迁移331.2.1.2.4.3虚拟磁盘加密341.2.1.2.4.4虚拟机的HA341.2.1.2.4.5多USB映射351.2.1.3aSAN存储虚拟化361.2.1.3.1存储虚拟化概述361.2.1.3.1.1虚拟后对存储带来的挑战361.2.1.3.1.2分布式存储技术的发展371.2.1.3.1
3、.3深信服aSAN概述371.2.1.3.2aSAN技术原理381.2.1.3.2.1主机管理381.2.1.3.2.2文件副本381.2.1.3.2.3磁盘管理391.2.1.3.2.4SSD读缓存原理461.2.1.3.2.5SSD写缓存原理521.2.1.3.2.6磁盘故障处理机制561.2.1.3.3深信服aSAN功能特性711.2.1.3.3.1存储精简配置711.2.1.3.3.2aSAN私网链路聚合721.2.1.3.3.3数据一致性检查721.2.1.4aNet网络虚拟化731.2.1.4.1网络虚拟化概述731.2.1.4.2aNET网络虚拟化技术原理741.2.1.4.2.
4、1SDN741.2.1.4.2.2NFV751.2.1.4.2.3aNet底层的实现761.2.1.4.3功能特性801.2.1.4.3.1aSW分布式虚拟交换机801.2.1.4.3.2aRouter801.2.1.4.3.3vAF811.2.1.4.3.4vAD811.2.1.4.4深信服aNet的特色技术811.2.1.4.4.1网络探测功能811.2.1.4.4.2全网流量可视821.2.1.4.4.3所画即所得业务逻辑拓扑821.2.2深信服超融合架构产品介绍831.2.2.1产品概述831.2.2.2产品定位83第3章、深信服超融合架构带来的核心价值851.1可靠性:851.2安全
5、性851.3灵活弹性851.4易操作性85第4章、超融合架构最佳实践86第1章、 前言1.1 IT时代的变革20 世纪 90 年代,随着 Windows 的广泛使用及 Linux 服务器操作系统的出现奠定了 x86服务器的行业标准地位,然而 x86 服务器部署的增长带来了新的 IT 基础架构和运作难题,包括:基础架构利用率低、物理基础架构成本日益攀升、IT 管理成本不断提高以及对关键应用故障和灾难保护不足等问题。X86 服务器虚拟化技术的出现,通过将 x86 系统转变成通用的共享硬件基础架构,充分挖掘硬件的潜力,提高硬件的利用效率,降低硬件和运营成本,并且简化运维降低管理成本,最终帮助用户把更
6、多的时间和成本转移到对业务的投入上。随着云计算和虚拟化技术向构建新一代数据中心方向发展,关键以虚拟化为基础,实现管理以及业务的集中,对数据中心资源进行动态调整和分配,重点满足企业关键应用向X86 系统迁移对于资源高性能、高可靠、安全性和高可适应性上的要求,同时提高基础架构的自动化管理水平,确保满足基础设施快速适应业务的商业诉求,支持企业应用云化部署。云计算并不是一种新的技术,而是在一个新理念的驱动下产生的技术组合。在云计算之前,企业部署一套服务,需要经历组网规划,容量规划,设备选型,下单,付款,发货,运输,安装,部署,调试的整个完整过程。这个周期在大型项目中需要以周甚至月来计算。在引入云计算后
7、,这整个周期缩短到以分钟来计算。IT 业有一条摩尔定律,芯片速度容量每 18 个月提升一倍。同时, IT 行业还有一条反摩尔定律,所有无法追随摩尔定律的厂家将被淘汰。 IT 行业是快鱼吃慢鱼的行业,使用云计算可以提升 IT 设施供给效率,不使用则会拖慢产品或服务的扩张脚步,一步慢步步慢。云计算当然还会带来别的好处,比如提升复用率缩减成本,降低能源消耗,缩减维护人力成本等方面的优势,但在反摩尔定律面前,已经显得不是那么重要。业界关于云计算技术的定义,是通过虚拟化技术,将不同的基础设施标准化为相同的业务部件,然后利用这些业务部件,依据用户需求自动化组合来满足各种个性化的诉求。云着重于虚拟化,标准化
8、,和自动化。深信服的超融合架构是一款成熟的 Iaas 层的云计算解决方案,除满足上面所述的虚拟化,标准化和自动化诉求外,秉承深信服公司产品的优秀基因,向您提供简单易用,安全可靠的产品。本文档向您讲述深信服超融合架构解决方案中所用到的相关技术,通过阅读本文档,您能够了解到:云的虚拟化,标准化,易用性,易管理这些关键技术是如何在深信服的超融合架构解决方案中体现的;超融合架构解决方案是如何做到简单,安全可靠的;超融合解决方案所包含的部件,所涉及的主要技术领域,使用的主要的一些技术;针对超融合架构提供的各种技术选择,您怎样使用它们来满足您的业务诉求。1.2 白皮书总览本书介绍的内容大致如下:第一章、在
9、前言部分,给您对云计算,云平台有一个概括性的认识,并对本文档的阅读给出指导。第二章、讲述超融合架构中的主要功能模块,各个功能模块的技术细节介绍。第三章、向您介绍深信服超融合架构在保障业务可用性和可靠性所作的努力,为客户带来的核心价值。第四章、分享超融合架构在客户中的实际应用场景,并给出深信服超融合架构产品的体验途径,非常欢迎您来试用。第2章、 深信服超融合技术架构1.1 超融合架构概述1.1.1 超融合架构的定义超融合基础架构,这是一种将计算、网络和存储等资源作为基本组成元素,根据系统需求进行选择和预定义的一种技术架构,具体实现方式上一般是指在同一套单元节点(x86服务器)中融入软件虚拟化技术
10、(包括计算、网络、存储、安全等虚拟化),而每一套单元节点可以通过网络聚合起来,实现模块化的无缝横向扩展(scale-out),构建统一的资源池。1.2 深信服超融合架构组成模块1.2.1.1 系统总体架构深信服超融合架构图深信服超融合架构在基于底层基础架构(标准的X86硬件)上将计算、存储、网络、安全软件化,通过这种软件化的方式构建了数据中心里所需的最小资源单元,通过资源池中的最小单元,提供了数据中心IT基础架构中所需的全部资源。1.2.1.2 aSV计算虚拟化平台1.2.1.2.1 概述计算资源虚拟化技术就是将通用的 x86 服务器经过虚拟化软件,对最终用户呈现标准的虚拟机。这些虚拟机就像同
11、一个厂家生产的系列化的产品一样,具备系列化的硬件配置,使用相同的驱动程序。虚拟化技术起源于大型机,最早可以追溯到上世纪六、七十年代大型机上的虚拟分区技术,即允许在一台主机上运行多个操作系统,让用户尽可能充分地利用昂贵的大型机资源。随着技术的发展和市场竞争的需要,虚拟化技术向小型机或 UNIX 服务器上移植,只是由于真正使用大型机和小型机的用户还是少数,加上各厂商产品和技术之间的不兼容,使得虚拟化技术不太被公众所关注。(注:由于 X86 架构在设计之初并没有考虑支持虚拟化技术,它本身的结构和复杂性使得在其之上进行虚拟化非常困难,早期的 X86 架构并没有成为虚拟化技术的受益者)20 世纪 90
12、年代,虚拟化软件厂商采用一种软件解决方案,以VMM(Virtual Machine Monitor, VMM 虚拟机监视器)为中心使 X86 服务器平台实现虚拟化。然而这种纯软件的“全虚拟化”模式,每个 Guest OS(客户操作系统)获得的关键平台资源都要由 VMM 控制和分配,需要利用二进制转换,而二进制转换带来的开销使得“完全虚拟化”的性能大打折扣。为解决性能问题,出现了一种新的虚拟化技术“半虚拟化”,即不需要二进制转换,而是通过对客户操作系统进行代码级修改,使定制的Guest OS 获得额外的性能和高扩展性,但是修改 Guest OS 也带来了系统指令级的冲突及运行效率问题,需要投入大
13、量优化的工作。当前,虚拟化技术已经发展到了硬件支持的阶段,“硬件虚拟化”技术就是把纯软件虚拟化技术的各项功能用硬件电路来实现,可减少 VMM 运行的系统开销,可同时满足 CPU 半虚拟化和二进制转换技术的需求,深信服的超融合架构解决方案中的计算虚拟化采用aSV虚拟化系统,通过将服务器资源虚拟化为多台虚拟机。最终用户可以在这些虚拟机上安装各种软件,挂载磁盘,调整配置,调整网络,就像普通的 x86 服务器一样使用它。计算虚拟化是超融合的架构中必不可少的关键因素,对于最终用户,虚拟机比物理机的优势在于它可以很快速的发放,很方便的调整配置和组网。对于维护人员来讲,虚拟机复用了硬件,这样硬件更少,加上云
14、平台的自动维护能力,这样整个IT系统的成本显著降低。1.2.1.2.2 aSV技术原理服务器务器虚拟化前后的巨大差异,源于虚拟机与物理服务器的本质区别上:虚拟机的定义:虚拟机 (Virtual Machine) 是由虚拟化层提供的高效、独立的虚拟计算机系统,每台虚拟机都是一个完整的系统,它具有处理器、内存、网络设备、存储设备和BIOS,因此操作系统和应用程序在虚拟机中的运行方式与它们在物理服务器上的运行方式没有什么区别。虚拟机的本质区别:与物理服务器相比,虚拟机不是由真实的电子元件组成,而是由一组虚拟组件(文件)组成,这些虚拟组件与物理服务器的硬件配置无关,关键与物理服务器相比,虚拟机具有以下
15、优势:抽象解耦:1.可在任何 X86 架构的服务器上运行;2.上层应用操作系统不需修改即可运行;分区隔离:1.可与其他虚拟机同时运行;2.实现数据处理、网络连接和数据存储的安全隔离;封装移动:1.可封装于文件之中,通过简单的文件复制实现快速部署、备份及还原;2.可便捷地将整个系统(包括虚拟硬件、操作系统和配置好的应用程序)在不同的物理服务器之间进行迁移,甚至可以在虚拟机正在运行的情况下进行迁移;1.2.1.2.2.1 aSV的Hypervisor架构Hypervisor是一种运行在物理服务器和操作系统之间的中间软件层,可允许多个操作系统和应用共享一套基础物理硬件,因此也可以看作是虚拟环境中的“
16、元”操作系统,它可以协调访问服务器上的所有物理设备和虚拟机,也叫虚拟机监视器(Virtual Machine Monitor)。Hypervisor是所有虚拟化技术的核心。非中断地支持多工作负载迁移的能力是Hypervisor的基本功能。当服务器启动并执行Hypervisor时,它会给每一台虚拟机分配适量的内存、CPU、网络和磁盘,并加载所有虚拟机的客户操作系统。虚拟化技术架构Hypervisor,常见的 Hypervisor 分两类:Type-I(裸金属型)指 VMM 直接运作在裸机上,使用和管理底层的硬件资源,GuestOS 对真实硬件资源的访问都要通过 VMM 来完成,作为底层硬件的直接
17、操作者,VMM 拥有硬件的驱动程序。裸金属虚拟化中Hypervisor直接管理调用硬件资源,不需要底层操作系统,也可以理解为Hypervisor被做成了一个很薄的操作系统。这种方案的性能处于主机虚拟化与操作系统虚拟化之间。代表是VMware ESX Server、Citrix XenServer和Microsoft Hyper-V,LinuxKVM。Type-II 型(宿主型)指 VMM 之下还有一层宿主操作系统,由于 Guest OS 对硬件的访问必须经过宿主操作系统,因而带来了额外的性能开销,但可充分利用宿主操作系统提供的设备驱动和底层服务来进行内存管理、进程调度和资源管理等。主机虚拟化中
18、VM的应用程序调用硬件资源时需要经过:VM内核-Hypervisor-主机内核,导致性能是三种虚拟化技术中最差的。主机虚拟化技术代表是VMwareServer(GSX)、Workstation和MicrosoftVirtualPC、VirtualServer等。由于主机型Hypervisor的效率问题以及操作系统虚拟机化型Hypervisor的操作系统唯一性的问题,深信服的aSV采用了裸机型Hypervisor中的Linux KVM虚拟化,即为Type-I(裸金属型)。KVM(Kenerl-based Virtual Machine)是基于linux内核虚拟化技术,自linux2.6.20之后
19、就集成在linux的各个主要发行版本中。它使用linux自身的调度器进行管理,所以相对于xen,其核心源码很少。KVM是基于硬件虚拟化扩展(IntelVT- X和AMD-V)和QEMU的修改版,KVM属于Linux kernel的一个模块,可以用命令modprobe去加载KVM模块。加载了该模块后,才能进一步通过工具创建虚拟机。但是仅有KVM模块是不够的。因为用户无法直接控制内核去做事情,还必须有一个运行在用户空间的工具才行。这个用户空间的工具,我们选择了已经成型的开源虚拟化软件QEMU。QEMU也是一个虚拟化软件,它的特点是可虚拟不同的CPU,比如说在x86的CPU上可虚拟一个power的C
20、PU,并可利用它编译出可运行在power上的CPU,并可利用它编译出可运行在power上的程序。KVM使用了QEMU的一部分,并稍加改造,就成了可控制KVM的用户空间工具了。这就是KVM和QEMU 的关系。如下图:KVM 的实现模块又两个,分别是: kvm.ko是提供核心虚拟化的基础架构;特定于处理器的模块 kvm-intel.ko 和 kvm-amd.ko 。其设计目标是在需要引导多个未改动的 PC 操作系统时支持完整的硬件模拟。一个普通的linux进程有两种运行模式:内核和用户。而KVM增加了第三种模式:客户模式(有自己的内核和用户模式)。在kvm模型中,每一个虚拟机都是由linux调度程
21、序管理的标准进程。总体来说,kvm由两个部分组成:一个是管理虚拟硬件的设备驱动,该驱动使用字符设备/dev/kvm作为管理接口;另一个是模拟PC硬件的用户空间组件,这是一个稍作修改的qemu进程。同时,aSV采用KVM优势有:嵌入到Linux正式Kernel(提高兼容性)代码级资源调用(提高性能)虚拟机就是一个进程(内存易于管理)直接支持NUMA技术(提高扩展性)保持开源发展模式(强大的社区支持)1.2.1.2.2.2 Hypervisor虚拟化实现VMM (Virtual Machine Monitor)对物理资源的虚拟可以划分为三个部分:CPU 虚拟化、内存虚拟化和 I/O 设备虚拟化,其
22、中以 CPU 的虚拟化最为关键。l CPU 虚拟化经典的虚拟化方法:现代计算机体系结构一般至少有两个特权级(即用户态和核心态,x86 有四个特权级Ring0 Ring3)用来分隔系统软件和应用软件。那些只能在处理器的最高特权级(内核态)执行的指令称之为特权指令,一般可读写系统关键资源的指令(即敏感指令)决大多数都是特权指令(X86 存在若干敏感指令是非特权指令的情况)。如果执行特权指令时处理器的状态不在内核态,通常会引发一个异常而交由系统软件来处理这个非法访问(陷入)。经典的虚拟化方法就是使用“特权解除”和“陷入-模拟”的方式,即将 GuestOS 运行在非特权级,而将 VMM 运行于最高特权
23、级(完全控制系统资源)。解除了 GuestOS 的特权级后,Guest OS 的大部分指令仍可以在硬件上直接运行,只有执行到特权指令时,才会陷入到 VMM 模拟执行(陷入-模拟)。“陷入-模拟” 的本质是保证可能影响VMM 正确运行的指令由 VMM 模拟执行,大部分的非敏感指令还是照常运行。l X86 的虚拟化漏洞:因为 X86 指令集中有若干条指令是需要被 VMM 捕获的敏感指令,但是却不是特权指令(称为临界指令),因此“特权解除”并不能导致他们发生陷入模拟,执行它们不会发生自动的“陷入”而被 VMM 捕获,从而阻碍了指令的虚拟化。具体 X86 下的敏感指令分类大致如下:1、访问或修改机器状
24、态或虚拟机状态的指令。2、访问或修改敏感寄存器或存储单元的指令,比如访问时钟寄存器和中断寄存器。3、访问存储保护系统或内存、地址分配系统的指令。(段页之类)4、所有 I/O 指令。其中的(1)和(4)都是特权指令,在内核态下执行时会自动产生陷阱被 VMM 捕获,但是(2)和(3)不是特权指令,而是临界指令。部分临界指令会因为 Guest OS 的权限解除执行失败,但是却不会抛出异常,所以不能被捕获,譬如:(3)中的 VERW 指令。l X86 的虚拟化方法:由于 x86 指令集中有十多条敏感指令不是特权指令,因此 x86 无法使用经典的虚拟化技术完全虚拟化。鉴于 x86 指令集本身的局限,长期
25、以来针对 x86 的虚拟化实现大致分为两派,即以 VMWare 为代表的 Full virtualization 派和以 VMM 为代表的 Paravirtualization 派。两派区别主要在对非特权敏感指令的处理上,Full 派采用的是动态的方法,即:运行时监测,捕捉后在 VMM 中模拟;而 Para 派则主动进攻,将所有用到的非特权敏感指令全部替换,这样就少掉了大量的陷入- 上下文切换 - 模拟 - 上下文切换过程,获得了大幅的性能提升。1、X86“全虚拟化”(指所抽象的 VM 具有完全的物理机特性,OS 在其上运行不需要任何修改)Full 派秉承无需修改直接运行的理念,对“运行时监测
26、,捕捉后模拟”的过程进行优化。该派内部之实现又有些差别,其中以 VMWare 为代表的基于二进制翻译 (BT) 的全虚拟化为代表, 其主要思想是在执行时将 VM 上执行的 Guest OS 指令,翻译成 x86 指令集的一个子集,其中的敏感指令被替换成陷入指令。翻译过程与指令执行交叉进行,不含敏感指令的用户态程序可以不经翻译直接执行。2、X86“半虚拟化”(指需 OS 协助的虚拟化,在其上运行的 OS 需要修改)Para 派的基本思想是通过修改 Guest OS 的代码,将含有敏感指令的操作,替换为对 VMM的超调用 Hypercall,类似 OS 的系统调用,将控制权转移到 VMM,该技术因
27、 VMM 项目而广为人知。该技术的优势在于 VM 的性能能接近于物理机,缺点在于需要修改 GuestOS(如:Windows 不支持修改)及增加的维护成本,关键修改 Guest OS 会导致操作系统对特定 hypervisor 的依赖性,因此很多虚拟化厂商基于 VMM 开发的虚拟化产品部分已经放弃了 Linux 半虚拟化,而专注基于硬件辅助的全虚拟化开发,来支持未经修改的操作系统。3、X86“硬件辅助虚拟化”:其基本思想就是引入新的处理器运行模式和新的指令,使得 VMM 和 Guest OS 运行于不同的模式下,Guest OS 运行于受控模式,原来的一些敏感指令在受控模式下全部会陷入 VMM
28、,这样就解决了部分非特权的敏感指令的“陷入-模拟”难题,而且模式切换时上下文的保存恢复由硬件来完成,这样就大大提高了“陷入-模拟”时上下文切换的效率。以 Intel VT-x 硬件辅助虚拟化技术为例,该技术增加了在虚拟状态下的两种处理器工作模式:根(Root)操作模式和非根(Non-root)操作模式。VMM 运作在 Root 操作模式下,而 Guest OS 运行在 Non-root 操作模式下。这两个操作模式分别拥有自己的特权级环,VMM 和虚拟机的 Guest OS 分别运行在这两个操作模式的 0 环。这样,既能使 VMM运行在 0 环,也能使 Guest OS 运行在 0 环,避免了修
29、改 Guest OS。Root 操作模式和Non-root 操作模式的切换是通过新增的 CPU 指令(VMXON,VMXOFF 等)来完成。硬件辅助虚拟化技术消除了操作系统的 ring 转换问题,降低了虚拟化门槛,支持任何操作系统的虚拟化而无须修改 OS 内核,得到了虚拟化软件厂商的支持。硬件辅助虚拟化技术已经逐渐消除软件虚拟化技术之间的差别,并成为未来的发展趋势。1.2.1.2.2.2.1 vCPU 机制vCPU 调度机制对虚拟机来说,不直接感知物理 CPU,虚拟机的计算单元通过 vCPU 对象来呈现。虚拟机只看到 VMM 呈现给它的 vCPU。在 VMM 中,每个 vCPU 对应一个 VM
30、CS(Virtual-MachineControl Structure)结构,当 vcpu 被从物理 CPU 上切换下来的时候,其运行上下文会被保存在其对应的 VMCS 结构中;当 vcpu 被切换到 pcpu 上运行时,其运行上下文会从对应的 VMCS 结构中导入到物理 CPU 上。通过这种方式,实现各 vCPU 之间的独立运行。从虚拟机系统的结构与功能划分可以看出,客户操作系统与虚拟机监视器共同构成了虚拟机系统的两级调度框架,如图所示是一个多核环境下虚拟机系统的两级调度框架。客户操作系统负责第 2 级调度,即线程或进程在 vCPU 上的调度(将核心线程映射到相应的虚拟 CPU 上)。虚拟机
31、监视器负责第 1 级调度, 即 vCPU 在物理处理单元上的调度。两级调度的调度策略和机制不存在依赖关系。vCPU 调度器负责物理处理器资源在各个虚拟机之间的分配与调度,本质上即把各个虚拟机中的 vCPU 按照一定的策略和机制调度在物理处理单元上可以采用任意的策略来分配物理资源, 满足虚拟机的不同需求。vCPU 可以调度在一个或多个物理处理单元执行(分时复用或空间复用物理处理单元), 也可以与物理处理单元建立一对一固定的映射关系(限制访问指定的物理处理单元)。1.2.1.2.2.2.2 内存虚拟化图3-6 内存虚拟化三层模型因为 VMM (Virtual Machine Monitor) 掌控
32、所有系统资源,因此 VMM 握有整个内存资源,其负责页式内存管理,维护虚拟地址到机器地址的映射关系。因 Guest OS 本身亦有页式内存管理机制,则有 VMM 的整个系统就比正常系统多了一层映射:A. 虚拟地址(VA),指 Guest OS 提供给其应用程序使用的线性地址空间;B. 物理地址(PA),经 VMM 抽象的、虚拟机看到的伪物理地址;C. 机器地址(MA),真实的机器地址,即地址总线上出现的地址信号;映射关系如下:Guest OS: PA = f(VA)、VMM: MA = g(PA)VMM 维护一套页表,负责 PA 到 MA 的映射。Guest OS 维护一套页表,负责 VA 到
33、PA 的映射。实际运行时,用户程序访问 VA1,经 Guest OS 的页表转换得到 PA1,再由VMM 介入,使用 VMM 的页表将 PA1 转换为 MA1。页表虚拟化技术普通 MMU 只能完成一次虚拟地址到物理地址的映射,在虚拟机环境下,经过 MMU 转换所得到的“物理地址”并不是真正的机器地址。若需得到真正的机器地址,必须由 VMM介入,再经过一次映射才能得到总线上使用的机器地址。如果虚拟机的每个内存访问都需要 VMM 介入,并由软件模拟地址转换的效率是很低下的,几乎不具有实际可用性,为实现虚拟地址到机器地址的高效转换,现普遍采用的思想是:由 VMM 根据映射 f 和g 生成复合的映射
34、fg,并直接将这个映射关系写入 MMU。当前采用的页表虚拟化方法主要是 MMU 类虚拟化(MMU Paravirtualization)和影子页表,后者已被内存的硬件辅助虚拟化技术所替代。1、MMU Paravirtualization其基本原理是:当 Guest OS 创建一个新的页表时,会从它所维护的空闲内存中分配一个页面,并向 VMM 注册该页面,VMM 会剥夺 Guest OS 对该页表的写权限,之后 GuestOS 对该页表的写操作都会陷入到 VMM 加以验证和转换。VMM 会检查页表中的每一项,确保他们只映射了属于该虚拟机的机器页面,而且不得包含对页表页面的可写映射。后VMM 会根
35、据自己所维护的映射关系,将页表项中的物理地址替换为相应的机器地址,最后再把修改过的页表载入 MMU。如此,MMU 就可以根据修改过页表直接完成虚拟地址到机器地址的转换。2、内存硬件辅助虚拟化图3-7 内存硬件辅助虚拟化技术原理图内存的硬件辅助虚拟化技术是用于替代虚拟化技术中软件实现的“影子页表”的一种硬件辅助虚拟化技术,其基本原理是:GVA(客户操作系统的虚拟地址)- GPA(客户操作系统的物理地址)- HPA(宿主操作系统的物理地址)两次地址转换都由 CPU 硬件自动完成(软件实现内存开销大、性能差)。以 VT-x 技术的页表扩充技术 Extended PageTable(EPT)为例,首先
36、 VMM 预先把客户机物理地址转换到机器地址的 EPT 页表设置到 CPU 中;其次客户机修改客户机页表无需 VMM 干预;最后,地址转换时,CPU 自动查找两张页表完成客户机虚拟地址到机器地址的转换。使用内存的硬件辅助虚拟化技术,客户机运行过程中无需 VMM 干预,去除了大量软件开销,内存访问性能接近物理机。1.2.1.2.2.2.3 I/O 设备虚拟化VMM 通过 I/O 虚拟化来复用有限的外设资源,其通过截获 Guest OS 对 I/O 设备的访问请求,然后通过软件模拟真实的硬件,目前 I/O 设备的虚拟化方式主要有三种:设备接口完全模拟、前端后端模拟、直接划分。1、设备接口完全模拟:
37、即软件精确模拟与物理设备完全一样的接口,Guest OS 驱动无须修改就能驱动这个虚拟设备,Vmware 即使用该方法。优点:没有额外的硬件开销,可重用现有驱动程序;缺点:为完成一次操作要涉及到多个寄存器的操作,使得 VMM 要截获每个寄存器访问并进行相应的模拟,这就导致多次上下文切换;由于是软件模拟,性能较低。2、前端后端模拟:VMM 提供一个简化的驱动程序(后端, Back-End),Guest OS 中的驱动程序为前端(Front-End, FE),前端驱动将来自其他模块的请求通过与 Guest OS 间的特殊通信机制直接发送给 Guest OS 的后端驱动,后端驱动在处理完请求后再发回
38、通知给前端,VMM 即采用该方法。优点:基于事务的通信机制,能在很大程度上减少上下文切换开销,没有额外的硬件开销;缺点:需要 VMM 实现前端驱动,后端驱动可能成为瓶颈。3、直接划分:即直接将物理设备分配给某个 Guest OS,由 Guest OS 直接访问 I/O 设备(不经 VMM),目前与此相关的技术有 IOMMU(Intel VT-d, PCI-SIG 之 SR-IOV 等),旨在建立高效的I/O 虚拟化直通道。优点:可重用已有驱动,直接访问减少了虚拟化开销;缺点:需要购买较多额外的硬件。1.2.1.2.3 aSV的技术特性1.2.1.2.3.1 内存NUMA技术 功能描述非统一内存
39、访问(NUMA)是服务器CPU和内存设计的新架构。传统的服务器架构下把内存放到单一的存储池中,这对于单处理器或单核心的系统工作良好。但是这种传统的统一访问方式,在多核心同时访问内存空间时会导致资源争用和性能问题。毕竟,CPU应该可以访问所有的服务器内存,但是不需要总是保持占用。实际上,CPU仅需要访问工作负载实际运行时所需的内存空间就可以了。因此NUMA改变了内存对CPU的呈现方式。这是通过对服务器每个CPU的内存进行分区来实现的。每个分区(或内存块)称为NUMA节点,而和该分区相关的处理器可以更快地访问NUMA内存,而且不需要和其它的NUMA节点争用服务器上的资源(其它的内存分区分配给其它处
40、理器)。NUMA的概念跟缓存相关。处理器的速度要比内存快得多,因此数据总是被移动到更快的本地缓存,这里处理器访问的速度要比通用内存快得多。NUMA本质上为每个处理器配置了独有的整体系统缓存,减少了多处理器试图访问统一内存空间时的争用和延迟。NUMA与服务器虚拟化完全兼容,而且NUMA也可以支持任意一个处理器访问服务器上的任何一块内存区域。某个处理器当然可以访问位于不同区域上的内存数据,但是需要更多本地NUMA节点之外的传输,并且需要目标NUMA节点的确认。这增加了整体开销,影响了CPU和内存子系统的性能。NUMA对虚拟机负载不存在任何兼容性问题,但是理论上虚拟机最完美的方式应该是在某个NUMA
41、节点内。这可以防止处理器需要跟其它的NUMA节点交互,从而导致工作负载性能下降。深信服的aSV支持NUMA技术,使得hypervisor和上层OS内存互连,这样OS不会在CPU和NUMA节点之间迁移工作负载。1.2.1.2.3.2 SR-IOV功能描述:通常针对虚拟化服务器的技术是通过软件模拟共享和虚拟化网络适配器的一个物理端口,以满足虚拟机的 I/O 需求,模拟软件的多个层为虚拟机作了 I/O 决策,因此导致环境中出现瓶颈并影响 I/O 性能。FusionSphere 虚拟化平台提供的 SR-IOV 是一种不需要软件模拟就可以共享 I/O 设备 I/O 端口的物理功能的方法,主要利用 iNI
42、C 实现网桥卸载虚拟网卡,允许将物理网络适配器的 SR-IOV 虚拟功能直接分配给虚拟机,可以提高网络吞吐量,并缩短网络延迟,同时减少处理网络流量所需的主机 CPU 开销。技术原理:SR-IOV(Single Root I/O Virtualization)是 PCI-SIG 推出的一项标准,是虚拟通道(在物理网卡上对上层软件系统虚拟出多个物理通道,每个通道具备独立的 I/O 功能)的一个技术实现,用于将一个 PCIe 设备虚拟成多个 PCIe 设备,每个虚拟 PCIe 设备如同物理 PCIe 设备一样向上层软件提供服务。通过 SR-IOV 一个 PCIe 设备不仅可以导出多个PCI 物理功能
43、,还可以导出共享该 I/O 设备上的资源的一组虚拟功能,每个虚拟功能都可以被直接分配到一个虚拟机,能够让网络传输绕过软件模拟层,直接分配到虚拟机,实现了将 PCI 功能分配到多个虚拟接口以在虚拟化环境中共享一个 PCI 设备的目的,并且降低了软加模拟层中的 I/O 开销,因此实现了接近本机的性能。如图所示,在这个模型中,不需要任何透传,因为虚拟化在终端设备上发生,允许管理程序简单地将虚拟功能映射到 VM 上以实现本机设备性能和隔离安全。SR-IOV 虚拟出的通道分为两个类型:1、PF(Physical Function) 是完整的 PCIe 设备,包含了全面的管理、配置功能, Hypervis
44、or通过 PF 来管理和配置网卡的所有 I/O 资源。2、VF(Virtual Funciton)是一个简化的 PCIe 设备,仅仅包含了 I/O 功能,通过 PF 衍生而来好象物理网卡硬件资源的一个切片,对于 Hypervisor 来说,这个 VF 同一块普通的 PCIe网卡一模一样。客户价值:可满足高网络 IO 应用要求,无需特别安装驱动,且无损热迁移、内存复用、虚拟机网络管控等虚拟化特性。1.2.1.2.3.3 Faik-raid一般情况下,当主机系统有多块硬盘时,通过组建Raid以提升磁盘性能或提供磁盘冗余,往往成为人们的首选考量。 当今主流raid实现方案大致可分为三种:硬件raid
45、(hardware raid):通过购买昂贵的raid卡实现。软件raid(software raid):通过操作系统内软件创建阵列,raid处理开销由CPU负责。主板raid(fake raid):通过主板内建raid控制器创建阵列,由操作系统驱动识别。相对于昂贵的硬件,主板raid(fake raid)就成了我们不错的选择。Fake raid仅提供廉价的控制器,raid处理开销仍由CPU负责,因此性能与CPU占用基本与software raid持平。 如果只有单个linux系统,使用software raid一般比fake raid更健壮,但是,在多启动环境中(例如windows与linu
46、x双系统),为了使各个系统都能正确操作相同的raid分区,就必须使用fake raid了。Linux下最重要的raid管理程序为MD RAID。MD RAID是过滤不同文件系统(比如说ext2)和比较低级的磁盘驱动(比如说AHCI驱动和SAS驱动)之间数据的块设备驱动程序。以Intel的主板为例,在BIOS中有一块可选的只读存储器元件(或者光学只读存储器)可以创建Intel 快速存储RAID卷并且在启动之前的环境中提供管理Intel 快速存储RAID卷的界面。在BIOS把控制权交给系统启动引导程序之前,这个只读存储在系统内存中留下自己支持的RAID类型,比如RAID 5。RAID管理程序MD
47、RAID会读到这份数据,并决定当创建Intel 快速存储RAID卷时该使用哪种RAID类型。aSV 3.7 融入了对Fake-RAID的支持,现可支持Fake-RAID安装与使用Fake-RAID存储,目前可以使用intel模式的raid0,raid1,raid5,raid10,LSI模式的raid01.2.1.2.3.4 虚拟机生命周期管理aSV提供了虚拟机从创建至删除整个过程中的全面管理,就像人类的生命周期一样,虚拟机最基本的生命周期就是创建、使用和删除这三个状态。当然还包含如下几个状态:创建虚拟机在虚拟机中安装操作系统创建模板更新虚拟机硬件迁移虚拟机及/或虚拟机的存储资源分析虚拟机的资源利用情况为虚拟机选择数量合适的内存或磁盘资源/调整资源数量虚拟机备份虚拟机恢复删除虚拟机在虚拟机生命周期内,虚拟机可能会在某一个时间点经历上述这些状态。aSV提供了完善的虚拟机生命周期管理工具,我们可以通过对虚拟机生命周期的规划,想要最大化的发挥虚拟机的作用。1.2.1.2.3.5 虚拟交换机