1、华为交换机虚拟化(CSS)解 决 方 案陕西西华科创软件技术有限公司2016 年 4 月 1目录一、概述 .3二、当前网络架构的问题 .3三、虚拟化的优点 .5四、组建方式 .5三、集群卡方式集群线缆的连接 .5四、业务口方式的线缆连接 .6五、集群建立 .81. 集群的管理和维护 .82. 配置文件的备份与恢复 .93. 单框配置继承的说明 .94. 集群分裂 .95. 双主检测 .9六、 产品介绍 .111.产品型号和外观: .152.解决方案应用 .20一、概述介绍虚拟化技术是当前企业 IT 技术领域的关注焦点,采用虚拟化来优化 IT 架构,提升 IT系统运行效率是当前技术发展的方向。对
2、于服务器或应用的虚拟化架构,IT 行业相对比较熟悉:在服务器上采用虚拟化软件运行多台虚拟机(VM-Virtual Machine),以提升物理资源利用效率,可视为 1:N 的虚拟化;另一方面,将多台物理服务器整合起来,对外提供更为强大的处理性能(如负载均衡集群) ,可视为 N:1 的虚拟化。对于基础网络来说,虚拟化技术也有相同的体现:在一套物理网络上采用 VPN 或VRF 技术划分出多个相互隔离的逻辑网络,是 1:N 的虚拟化;将多个物理网络设备整合成一台逻辑设备,简化网络架构,是 N:1 虚拟化。华为虚拟化技术 CSS 属于 N:1 整合型虚拟化技术范畴。CSS 是 Cluster Swit
3、ch System 的简称,又被称为集群交换机系统(简称为 CSS),是将 2 台交换机通过特定的集群线缆链接起来,对外呈现为一台逻辑交换机,用以提升网络的可靠性及转发能力。二、当前网络架构的问题网络是支撑企业 IT 正常运营和发展的基础动脉,因此网络的正常运行对企业提供上层业务持续性访问至关重要。在传统网络规划与设计中,为保证网络的可靠性、故障自愈性,均需要考虑各种冗余设计,如网络冗余节点、冗余链路等。图 1 传统冗余网络架构为解决冗余网络设计中的环路问题,在网络规划与部署中需提供复杂的协议组合设计,如生成树协议 STP(Spanning Tree Protocol)与第一跳冗余网关协议(F
4、HGR: First Hop Redundant Gateway ,VRRP)的配合,图 1 所示。此种网络方案基于标准化技术实现,应用非常广泛,但是由于网络发生故障时环路状态难以控制和定位,同时如果配置不当易引起广播风暴影响整个网络业务。而且,随着 IT 规模扩展,网络架构越来越复杂,不仅难于支撑上层应用的长远发展,同时带来网络运维过程中更多的问题,导致基础网络难以持续升级的尴尬局面。另一方面,快速环路技术也在发展,如图 2。如标准化的弹性分组环 RPR(Resilient Packet Ring)技术,可提供 50ms 内的快速切换,但 RPR 技术构建成本高,且互联带宽有限,不适合局域环
5、境内大型交换网络建设。图 2 环网结构在传统的网络组网技术难以满足 IT 发展要求的挑战下,新的网络虚拟化技术如何起到快速支撑新的需求?技术的进步并不是全面修改传统网络规划与设计方法,而需要在保持大部分传统建设习惯下,达到极大简化管理、简化运维、简化规划设计的效果,比如虚拟化技术需要考虑:在保持与传统网络布线方式、传统物理拓扑连接的方式下进行整体网络架构的改良与优化。三、虚拟化的优点随着数据中心数据访问量的逐渐增大以及网络可靠性要求越来越高,单台交换机已经无法满足需求,而通过交换机的集群能够实现数据中心大数据量转发和网络高可靠性CSS 的特征:1. 交换机多虚一:CSS 对外表现为一台逻辑交换
6、机,控制平面合一,统一管理2. 转发平面合一:CSS 内屋里设备转发平面合一,转发信息共享并实时同步3. 跨设备链路聚合:跨 CSS 内物理设备的链路被聚合成一个 ETH-TRUNK 端口和下游的设备进行互联4. 简化运营:整个 CSS 被作为一台交换机来管理,简化运维、降低 Opex ;5. 可靠性高:CSS 内一台设备故障,其他设备可以接管 CSS 的控制和转发,避免单点故障 ;6. 无环网络:跨设备的链路聚合,在 CSS 和其他设备互联时,天然避免了环路问题;7. 链路均衡:跨设备的链路 ECMP,100%的网络链路和带宽的利用率 ;8.扩容网络时,保护已有投资。9.扩容的同时,将 2
7、台物理设备虚拟为 1 台设备,简化了设备的配置和管理。10.多台设备间冗余、备份,提高系统的可靠性。四、组建方式硬件要求:目前支持 2 台框式交换机设备组成集群,支持集群的设备型号为: S7706、S7712(S7706 和 S7712 之间可以混合集群。)集群方式为:集群卡方式和业务口方式。 集群卡方式:即在主控板 SRU 的子卡槽位插入集群卡 VSTSA,原有主控板、接口板、机框不用更新,就可以支持集群。 业务口方式:集群成员交换机之间通过 LPU 上的普通业务口连接。将 LPU 上的业务口配置为集群物理成员端口后加入逻辑集群端口,通过 SFP+光模块和光纤或SFP+集群线缆将集群物理成员
8、端口连接起来。三、集群卡方式集群线缆的连接集群成员交换机之间通过主控板上的集群卡连接(每块集群卡上有 4 个集群口)。两台设备都有两块主控板的情况下,通过专用的集群电缆 QSFP+高速线缆或 QSFP+光模块和光纤将这 8 组集群口按照 图 1-1 规则连接起来。集群口连接规则是固定的,所有集群口都要插上集群线缆,不能随意连接。图 1-1 集 群 卡 方 式 集 群 电 缆 连 接 规 则对于集群卡连接方式,单台设备上必须配置两块同类型的 SRU 主控板,即都是 SRUA 或都是SRUB;两台设备之间可配不同类型的 SRU 主控板;S7700 系列交换机支持集群卡集群方式;四、业务口方式的线缆
9、连接集群成员交换机之间通过 LPU 上的普通业务口连接。将 LPU 上的业务口配置为集群物理成员端口后加入逻辑集群端口,通过 SFP+光模块和光纤或 SFP+集群线缆将集群物理成员端口按照下图规则连接起来。图 1-2 业 务 口 连 接 规 则业务口集群具有灵活的组网形式,每块单板最多可配置 32 个集群物理成员端口,提高了集群链路的带宽和可靠性。业务口集群按照链路的分布,有两种组网形式。1+0 组网:配置一个逻辑集群端口,物理集群端口分布在一块单板上,依靠一块单板上的集群链路实现集群连接。1+1 组网:配置两个逻辑集群端口,物理集群端口分布在两块单板上,不同单板上的集群链路形成备份。一个逻辑
10、集群口下的物理集群口只能与对框的一个逻辑集群口下物理集群口相连,不允许混连。为保证集群系统稳定和方便后期的维护,集群连线时建议按照如下几点原则: 在 1+1 组网中,建议两块集群单板上的集群链路数量保持一致,并且使用相同端口速率的单板来配置物理集群口。 在 1+1 组网中,对于 S7712,S9312 ,S9312E ,S9712,两块单板建议对称分布在主控板的两侧,例如 6 和 7 槽位,5 和 8 槽位、1 和 12 槽位,而对于S7706,S9306,S9306E,S9706 没有这个限制。 两框组建集群的单板所在槽位号建议保持一致,物理集群端口和对端物理集群端口连接的时候建议物理端口号
11、一一对应。截至 V2R2 版本,所有支持业务口集群的单板类型:五、集群建立集群建立时,先启动的交换机优先竞争为主交换机。同时启动的成员交换机间相互发送集群竞争报文,选举出主交换机,负责集群系统的管理,另一台交换机成为备交换机。主交换机选举规则如下图所示:集群系统建立之前,每台交换机都是单独的实体,每台交换机有自己独立的 IP 地址,用户需要独立的管理所有的交换机;集群建立后集群成员对外体现为一个统一的逻辑实体,用户使用一个 IP 地址对集群中的所有交换机进行管理和维护。集群系统的 IP 地址和 MAC地址为集群系统首次建立时,集群主交换机的 IP 地址和 MAC 地址。 1. 集群的管理和维护
12、集群建立后,所有的成员设备组成一台虚拟设备存在于网络中,所有成员设备的资源由主交换机统一管理。用户可以通过 LPU 接口板上的业务端口、系统主用主控板上的串口或管理网口登录集群系统,对整个集群系统进行管理和维护。对于单台没有运行集群的设备,接口编号采用:槽位号/子卡号/ 端口号,设备加入集群后,接口编号采用:集群 ID/槽位号/子卡号/ 端口号。如:设备没有运行集群时,某个接口的编号为 GigabitEthernet1/0/1;当该设备加入集群后,如果集群 ID 为 2,则该接口的编号将变为 GigabitEthernet2/1/0/1。在集群环境下,业务流量转发与单框环境下不同,跨设备的转发
13、需要经过交换网两次。对于报文内容的处理没有区别,都需要进行一次上、下行处理。 2. 配置文件的备份与恢复设备从非集群状态进入集群状态后,会自动将原有的非集群状态下的配置文件备份,以便去使能集群功能后,恢复原有配置。使能设备的集群功能并立即重启进入集群状态后,系统自动将原有的配置文件加上.bak 的扩展名备份:若原配置文件扩展名为.cfg,则备份配置文件扩展名为.cfg.bak。若原配置文件扩展名为.zip,则备份配置文件扩展名为.zip.bak。去使能设备的集群功能时,用户若希望恢复设备的原有配置,可以更改备份配置文件名并指定其为下一次启动配置文件,然后重新启动设备,恢复原有配置。3. 单框配
14、置继承的说明集群系统首次建立后,竞争结果为主框的交换机上的配置文件会得到继承,该配置文件上的配置仍然生效。由于之前该框上的配置文件不会出现备框的配置,故需要对备框重新配置。4. 集群分裂集群系统建立后,主、备交换机之间定时发送心跳报文来维护集群系统的状态。集群线缆发生故障可能会导致两台交换机之间失去通信,两台交换机之间的心跳报文超时,此时集群系统将分裂为两台独立的交换机,如下图所示。集群系统分裂后,若两台交换机都在正常运行,其全局配置完全相同,会以相同的 IP和 MAC 地址与网络中的其他设备交互,导致 IP 地址和 MAC 地址冲突,引起整个网络故障,此时即需要依靠集群的双主检测解决。图 1
15、-3 CSS 分 裂 示 意 图5. 双主检测双主检测,DAD(Dual-Active Detect),是一种检测和处理集群分裂的协议,可以实现集群分裂的检测、冲突处理和故障恢复,降低集群分裂对业务的影响。双主检测方式有两种:直连检测方式和 Relay 代理检测方式。直连检测方式:如下图所示,集群成员设备间通过专用直连链路进行双主检测。图 1-4 直 连 方 式 双 主 检 测 示 意 图在直连检测方式中,集群系统正常运行时,为了减轻 CPU 负担,不发送 DAD 报文;集群系统分裂后,集群成员交换机以 1s 为周期通过检测链路发送 DAD 报文。Relay 代理检测方式:如下图所示,Rela
16、y 代理检测方式在集群系统跨设备 Eth-Trunk 上启用 DAD 检测,在代理设备上启用 DAD 代理功能。图 1-5 Relay 代 理 方 式 双 主 检 测 示 意 图 在 Relay 代理检测方式中,集群系统正常运行时,集群成员交换机以 30s 为周期通过检测链路发送 DAD 报文。集群成员交换机对在正常工作状态下收到的 DAD 报文不做任何处理;集群系统分裂后,集群成员交换机以 1s 为周期通过检测链路发送 DAD 报文。集群分裂后,分裂成多部分的集群系统会在检测链路上相互发送 DAD 竞争报文。集群系统将接收到的报文信息与本部分竞争信息做比较,如果本部分竞争为主,则不做处理,保
17、持 Active 状态,正常转发业务报文;如果本部分竞争为备,则需要关闭除保留端口(设备上不会被关闭的端口)外的所有业务端口,转入 Recovery 状态,停止转发业务报文。集群链路修复后,处于 Recovery 状态的集群将重新启动,同时将被关闭的业务端口恢复正常,整个集群系统恢复。6、产品介绍S7700 智能路由交换机系列(以下简称 S7700)是华为公司面向下一代企业网络架构而推出的新一代高端智能路由交换机。该产品基于华为公司智能多层交换的技术理念,在提供稳定、可靠、安全的高性能 L2/L3 层交换服务基础上,进一步提供 MPLS VPN、业务流分析、完善的 QOS 策略、可控组播、资源负载均衡、一体化安全等智能业务优化手段,同时具备超强扩展性和可靠性。S7700 广泛适用于园区网络和数据中心网络,可对无线、话音、视频和数据融合网络进行先进的控制,帮助企业构建交换路由一体化的端到端融合网络。S7700 产品为满足不同用户的需求,同时提供 S7703、S7706 和 S7712 三款产品类型,用户可以根据不同的网络需求进行灵活的选择。