1、 动态分区迁移主要准备过程及典型问题分析 2010-04-01 09:54:33 分类: 李 木 , 软件工程师 , IBM 李 媛 , 软件工程师 , IBM 潘 文斌 , 软件工程师 , IBM 简介: 动态分区迁移因为其快捷方便的操作及高可靠性的迁移功能越来越引起人们的重视。本文将以具体的事例,对动态分区迁移功能准备过程中最困难、最重要和最繁琐的四大方面进行讲解,即:管理源系统和目标系统的 HMC 或 IVM 配置、活动分区配置、源系统和目标系统的存储及网络配置。在这篇文章中,您不但能一窥动态分区迁移部署过程的全貌,还能看到准备过程中某些部分的具体细节。 动态分区迁移主要概念及准备过程概
2、述 动态分区迁移( Live Partition Mobility,以下简称 LPM)是 IBM 基于 POWER6 技术提供的新特性,它特指将运行 AIX 或 Linux 操作系统的逻辑分区从一台物理系统迁移到另外一台完全不同的物理系统的过程。在这个过程中,操作系统和应用程序不受任何破坏,对外提供的服务也不受任何影响。 LPM 的 主要用途 LPM 给与管理员更灵活的控制职能,目前它的用途主要体现在以下几个方面: 1. 当逻辑分区所在的系统需要 Firmware 或者硬件的升级,但是这个逻辑分区由于正对外提供服务而不能关闭时,就可以利用 LPM 功能将它先迁移到另一台物理系统上,待升级完毕后
3、,再将逻辑分区迁移回来。 2. 可以用来平衡日益增长的工作量和资源需求,将服务较少的多个逻辑分区迁移到同一台物理系统上,然后将多余的物理系统关闭,从而降低能耗。这个也符合了目前提倡的绿色环保的理念。 3. 随着业务的发展,逻辑分区上的工作量可能会越来越大,这时可以利用 LPM 功能将逻辑分区迁移到资源更多的物理系统上,以提供更优质的服务。 4. 当物理系统的硬件存在潜在问题时,可以利用 LPM 功能将其上正在提供服务的逻辑分区迁移到安全的系统上。 5. 当用户购买了更新型号的硬件时,也可以利用 LPM 功能将以前提供服务的逻辑分区迁移到新机器上。 未来 LPM 功能将会发挥越来越大的作用。试想
4、一下:对外提供服务的逻辑分区都将不被固定在一个硬件系统上,而是随着服务规模和硬件环境的变化,随时被迁移到另外的系统上。 术语 在讲述 LPM 准备过程之前,让我们首先了解一下涉及到的术语: 活动分区( Mobile Partition):被迁移的逻辑分区。 源系统( Source System):活动分区原来所在的系统。 目标系统( Target System):活动分区将要被迁移到的系统。 VIOS( Virtual I/O Server):即虚拟 I/O 服务器。是一个安装了特殊定制的 AIX 操作系统的逻辑分区。它可以将各种物理资源转化为虚拟资源,从而使得各个逻辑分区通过 VIOS 来共
5、享这些物理资源。 HMC( Hardware Management Console):即硬件管理平台。用来管理一台或多台系统的平台,它有自己独立的硬件。用户可以通过 HMC 的可视化界面或命令行对逻辑分区和系统等进行一系列的管理工作。 IVM( Integrated Virtualization Manager):即集成虚拟化管理器。相比 HMC 而言,它没有独立的硬件,而是通过软件来实现对一台系统的管理。是一个轻量级的系统管理器,可以看作是简化了的 HMC。 FSP( Flexible Service Processor): Power 服务器 中用来管理主机硬件的板卡,系统插电后 FSP
6、即开始工作。该板上有插口用于将系统连接到 HMC 网络。可以通过 ASMI( Advanced System Management Interface)控制 FSP 进而执行电源重启、查看系统信息等操作。 MSP( Mover Service Partition):即移动服务分区。 VIOS 的一个系统设置,由它控制是否允许迁移逻辑分区的状态。 RMC( Resource Monitor and Control): RMC 是一个分布式的框架和体系结构,它允许 HMC 和被管理的逻辑分区进行通讯。 更多的基本概念和操作过程可以通过查看参考资源。 LPM 及其分类 标准的 LPM 过程是由验证操
7、作和迁移操作两部分组成的。即: 验证操作( Validation):验证是进行 LPM 之前可选的一步操作,它可以帮助用户检查环境是否已经准备就绪。验证操作提供的错误信息和警告信息可以帮助用户及时修正错误,以保证迁移过程的顺利进行。 迁移操作( Migration):由 HMC 或 IVM 提供的功能。使用迁移操作,可以完成活动分区从源系统到目标系统的动态分区迁移。 LPM 按照逻辑分区的情况分为下面两种类型的迁移: 冷迁移( Inactive Migration):被迁移的逻辑分区是断电的。在参考资料中称为非活动迁移,在本文中将使用冷迁移这个翻译。 热迁移( Active Migration
8、):被迁移的逻辑分区是不断电的,且一直对外提供服务。在迁移过程中逻辑分区能继续提供服务,不会影响用户行为。在参考资源中称为活动迁移,在本文中将使用热迁移这个翻译。 LPM 按 照系统的管理方式分为下面两种类型的迁移: HMC 之间的动态分区迁移:逻辑分区使用 HMC 管理的 LPM。 IVM 之间的动态分区迁移:逻辑分区使用 IVM 管理的 LPM。 LPM 的准备过程 无论我们选择进行冷迁移还是热迁移,首先物理系统的硬件要符合 LPM 功能的特定要求,然后还需对其环境进行特殊的配置以满足 LPM 操作的条件。冷迁移相比于热迁移在系统配置方面要宽松一些,下面仅以热迁移为例进行说明,没有明确说明
9、的条件均适用于冷、热迁移。 主要准备过程包括以下若干方面: 1. 源系统和目标系统的 FSP 的设置。具体包括: 1. PowerVM 企业版代码已被激活。 2. 逻辑内存块的大小相同。 2. 管理源系统和目标系统的 HMC 或 IVM 满足如下要求: 1. HMC 的硬件支持 LPM 功能。 2. HMC 和 IVM 的操作系统版本支持 LPM 功能。 3. 远程的 HMC 和 IVM 之间已建立密钥认证。 3. 源系统和目标系统的设置。具体包括: 1. 源系统和目标系统使用 Power 6 或者更高版本的硬件。 2. 源系统和目标系统的管理方式相同,即都使用 HMC 或都使用 IVM 进行
10、管理。 3. 源系统和目标系统的 Firmware 版本支持 LPM 功能。 4. 目标系统上有足够闲置的内存和处理器用来支持 LPM 功能。 5. 目标系统不可运行在电池系统上。 4. 源 VIOS 和目标 VIOS 满足如下要求: 1. VIOS 的版本支持 LPM 功能。 2. 启用 MSP 功能(冷迁移无此要求)。 3. 时钟同步(冷迁移无此要求)。 5. 活动分区满足如下要求: 1. 运行的操作系统支持 LPM 功能。 2. RMC 连接已建立(冷迁移无此要求)。 3. 关闭冗余错误路径报告功能。 4. 虚拟串行适配器( Virtual Serial Adapter)不得多于 2 个
11、,即只能通过 HMC 或 IVM 取得对活动分区的虚拟终端连接。 5. 不属于任何一个逻辑分区负载管理组( Workload Manager Group)。 6. 不能使用线程同步寄存器( Barrier-synchronization Register)(冷迁移无此要求)。 7. 不能使用大页内存( Huge Page)。 8. 不能使用物理或专属的 I/O 设备(冷迁移无此要求)。 9. 运行的应用程序是可安全迁移的。 6. 外部存储满足如下条件: 1. 源系统和目标系统连接相同的 SAN 存储。 2. 将整块的 SAN 存储以虚拟磁盘的形式分配给活动分区。 3. SAN 逻辑单元的 re
12、serve_policy 属性置为 no_reserve。 4. 目标系统上有足够的虚拟插槽( Virtual Slot)。 7. 网络配置满足 : 1. 源 VIOS 和目标 VIOS 配置共享以太网适配器。 2. 活动分区使用虚拟网卡。 上面的 LPM 准备过程在红皮书 IBM PowerVM Live Partition Mobility 中都有所涉及,所以本文只就 LPM 准备环境过程中的最重要、最困难和最繁琐的部分进行着重讲解, 并且结合在 LPM 测试过程中发现的问题进行分析。 回页首 FSP 的设置 查看是否已激活了 PowerVM 企业版代码 LPM 是 PowerVM 企业版
13、才支持的功能,所以在进行 LPM 操作之前,要首先确认 FSP 上已经激活了 PowerVM 企业版的代码。以 HMC 管理的系统为例,可以通过在 HMC 的 Server Management - Servers 里选定系统,打开 Properties - Capability 进行查看。如果 PowerVM 企业版代码已激活,则 Active Partition Mobility Capable 和 Inactive Partition Mobility Capable 的值为 True,如图 1 所示。 图 1. 通过 HMC 查看系统是否已经激活了 PowerVM 企业版代码 LPM
14、的详细信息可以在 Migration 标签页中查看,如图 2 所示。 图 2. 查看 LPM 的详细信息 LMB 的修改 跟操作系统管理虚拟内存类似, PowerVM Hypervisor 以逻辑内存块( Logical Memory Block,以下简称 LMB)而不是字节为单位管理服务器的物理内存。 LPM 要求源系统和目标系统上 LMB 大小的设置必须相同。我们可以通过 ASMI 对其进行修改。具体的修改步骤为,打开 ASMI 页面,在 Performance Setup 部分进行 LMB 的修改,如图 3 所示。 图 3. 修改 LMB 的大小 FSP 的 LMB 设置还需要注意: L
15、MB 的修改结果一定是要重启整台系统后才够生效。 回页首 建立密钥认证 LPM 功能仅限于在两种类型的管理方式上使用:即源服务器和目标服务器使用同一台或两台不同的 HMC 管理,或源服务器和目标服务器均使用 IVM 管理。目前还不支持 HMC 和 IVM 之间的 LPM 功能。 当 LPM 操作发生在两台 HMC 之间时,需要为这它们建立密钥认证。分别登陆到两台 HMC 上,执行 mkauthkey 命令。以 hmc-gira 和 hmc-folk 这两台 HMC 为例,后者的 IP 地址是 9.3.117.211,建立密钥认证的过程如清单 1 所示(需要在 hmc-folk 上执行类似的操作
16、),即:先在 .ssh 目录下的 authorized_keys2 文件中查找,如果密钥已经写入该文件,则 hmc-gira 已经建立了与 hmc-folk 的密钥认证,否则执行 mkauthkey 命 令。 清单 1. 使用 mkauthkey 命令建立密钥认证实例 hscroothmc-gira: cat .ssh/authorized_keys2 |grep hmc-folk hscroothmc-gira: host hmc-folk hmc- has address 9.3.117.211 hscroothmc-gira: mkauthkeys -g -ip 9.3.117.211
17、-u hscroot Enter the password for user hscroot on the remote host 9.3.117.211: hscroothmc-gira: 建立密钥认证后,如有需要,可以查看 authorized_keys2 文件获取具体的密钥。 在没有建立密钥认证的 HMC 之间执行 LPM 的验证操作时,会得到如图 4 所示的错误信息。 图 4. HMC 之间没有建立密钥认证时,执行 LPM 验证操作的错误信息 IVM 之间的迁移同样需要建立密钥认证,否则也会出现类似的错误信息,清单 2 给出的是在 IVM 上使用命令行进行验证操作时得到的错误信息。 清
18、单 2. 在 IVM 上执行 LPM 验证的错误信息 $ migrlpar -o v -m uli13 -t uli14 -ip 9.3.111.64 -p uli13lp1 VIOSE0104202E-0409 The migration process failed because of an unknown error on the destination system. Additional information: Permission denied (publickey,password,keyboard-interactive). IVM 之间密钥认证的建立方法与 HMC 相同,
19、这里不再累述。 回页首 源系统和目标系统的 Firmware 版本的兼容 源系统和目标系统的 Firmware 版本要分别符合 LPM 功能的要求,才能够进行 LPM 的操作。仅仅满足这个条件还不够,还要注意源系统和目标系统的 Firmware 版本是否兼容。在表 1 中,我们可以看到在各种 Firmware 版本的对 LPM 的支持。 表 1. 源系统和目标系统的 Firmware 版本对 LPM 的支持 目标系统 Firmware 版本 源系统 Firmware 版本 EM320_031 EM320_040 EM320_046 EM320_061 EM320_028 EM320_039 E
20、M320_031 支持 支持 支持 禁止 禁止 禁止 EM320_040 支持 支持 支持 禁止 禁止 禁止 EM320_046 支持 支持 支持 支持 支持 支持 EM320_061 禁止 禁止 支持 支持 支持 支持 EM320_028 禁止 禁止 支持 支持 支持 支持 EM320_039 禁止 禁止 支持 支持 支持 支持 清单 3 列出的是 Firmware 不兼容时出现的错误信息。 清单 3. Firmware 不兼容时的错误信息 HSCLA359 The destination managed system has failed the compatibility data ch
21、ecking performed on the migrating partition with the following error: Partition Firmware Incompatible. 回页首 启用源 VIOS 和目标 VIOS 的 MSP 功能 激活 MSP 功能后, VIOS 就具备了分区迁移的功能,它可以通过 VASI 适配器与 hypervisor 进行通讯,进行数据拷贝等操作。因为热迁移涉及到对内存、处理器和其它各种资源状态等动态数据的拷贝,所以需要 MSP 参与进来。对于冷迁移则没有这个要求。 为了 满足不同迁移类型的要求,建议打开源系统和目标系统的 MSP 功能,否则会出现如图 5 所示的的错误信息。 图 5. 没有启用 MSP 功能时,执行 LPM 验证操作的错误信息 具体的开启 MSP 功能的步骤是: 1. 打开 HMC,进 System Management - Servers 选项。 2. 选择要修改的系统。 3. 选择 VIOS 的逻辑分区,在左键菜单中选择 Property。 4. 在 Property 的 General 标签页中进行修改。 具体如图 6 所示: