1、BGP/VPN快速收敛技术白皮书华为技术有限公司Huawei Technologies Co., Ltd.BGP/VPN 快速收敛技术白皮书Copyright 2007 华为技术有限公司 版权所有,侵权必究 ihttp:/ 录1 前言 .12 技术简介 .23 关键技术 .43.1 P 设备 IGP/LSP 更新 .43.2 VPN 按需迭代 .53.3 VPN 按照优选级的按需迭代 .53.4 VPN 下一跳分离 .63.5 VPN FRR.73.6 BGP/VPN 快速收敛技术总结 .84 典型应用 .95 结束语 .10附录 A 参考资料 .11附录 B 缩略语 .11BGP/VPN 快
2、速收敛技术白皮书Copyright 2007 华为技术有限公司 版权所有,侵权必究 1http:/ 要:作为多业务的承载网络,IP/MPLS VPN技术已经成为当前 IP/MPLS网络中的基础技术特性。在一个MPLS VPN网络中,业务路由是通过BGP 技术来承载的,当前网络中发生链路或者节点故障后,不但需要公网路由进行收敛,同时BGP私网路由也需要重新迭代或者收敛,本文主要描述了BGP/VPN 快速收敛的一些技术和方法。 关键词:MPLS,MPLS VPN,BGP/VPN 快速收敛1 前言随着IP技术自己本身的发展,IP 技术在NGN 、IPTV等业务承载领域的应用,以及运营商对于IP 技术
3、的了解和熟悉,IP 网络也正在从一个单纯的 Internet、数据业务承载网络,逐步成为一个数据、语音、视频、企业专线/虚拟私有网络的多业务承载网络。图 1 IP/MPLS VPN 组网示意图当然这个转变的过程也对IP网络自己本身提出了越来越高的要求,其中网络可靠性是当前运营商最为关注和重视的一个方向。在一个IP/MPLS VPN多业务承载网络中,当网络的PE-P链路、 P-P链路、P设备、PE设备发生故障后,首先需要进行公网路由和 LSP的收敛,除此之外私网路由,即BGP/VPN路由还需要重新迭代,这个迭代的时间和迭代的方法BGP/VPN 快速收敛技术白皮书Copyright 2007 华为
4、技术有限公司 版权所有,侵权必究 2http:/ PE-PE端到端部署RSVP-TE,则只有PE 故障,才需要重新进行BGP/VPN路由的重新选择和迭代;其他故障情况下,RSVP-TE可以通过TE FRR等技术进行保护,不会涉及 BGP/VPN路由的迭代和收敛。2 技术简介在一个MPLS/VPN网络中,如下图2所示,通常在两个PE之间建立IBGP邻居,用来交换VPN私网路由,此私网路由的下一跳为PE设备;另外,还需要在物理直连的PE-P 、P-P之间建立IGP/LDP邻居,从而建立外层隧道。而最终VPN路由转发表项,则需要将VPN BGP路由的远端下一跳和 IGP/LDP外层隧道进行迭代,生成
5、最终的 VPN FIB表项,以此来指导PE设备上 VPN业务的转发。其中路由的迭代如图3所示。图 2 MPLS VPN 网络中公网 IGP/LDP 邻居以及私网 VPN/IBGP 邻居示意图BGP/VPN 快速收敛技术白皮书Copyright 2007 华为技术有限公司 版权所有,侵权必究 3http:/ FIB转发表两个表迭代VPN BGP路由表BGP前缀1IGP/LSP表BGP前缀2BGP前缀3直连下一跳1远端下一跳2远端下一跳2公网前缀1远端下一跳1 外层标签1公网前缀2 直连下一跳2 外层标签2BGP前缀1 直连下一跳1 外层标签1BGP前缀2 直连下一跳2 外层标签2BGP前缀3 直
6、连下一跳2 外层标签2图 3 VPN 转发表项的迭代过程示意图当MPLS/VPN网络中发生各种故障后,首先进行公网IGP/LDP路由的收敛,这个收敛在使用IGP/LDP快速收敛技术后,通常可以达到200ms-800ms左右的收敛速度。IGP/LDP收敛之后,新的外层隧道生成,同时原先旧的外层隧道删除,此时所有的BGP/VPN路由需要重新迭代一次,迭代到新的外层隧道后,下发到转发平面,此时VPN业务才能最终收敛。这个收敛迭代时间和VPN的路由数目成正比关系。在VPN路由数目比较多的情况下,通常需要几秒甚至几十秒钟才能完成。这个迭代时间对于MPLS/VPN网络上的实时语音、视频等业务来说,明显太长
7、了,为了加快这收敛时间,涌现出了一系列的技术,包括P设备 IGP/LSP更新、VPN按需迭代、VPN按优先级的按需迭代、VPN下一跳分离、VPN FRR等各种技术。下面我们就这些技术分别详细的解释和说明一下。BGP/VPN 快速收敛技术白皮书Copyright 2007 华为技术有限公司 版权所有,侵权必究 4http:/ 关键技术3.1 P 设备 IGP/LSP 更新在MPLS/VPN网络中,当P-P链路发生故障时,如下图4所示。由于先向PE 发送了一个LSP撤销消息,然后再发送新的更新的 LSP。这样的过程导致了 PE设备公网LSP隧道变化,所以必然要进行一次VPN路由迭代。图 4 P 设
8、备间链路故障引发的 PE 设备 VPN 重新迭代示意图新的P设备IGP/LSP 更新技术解决了这个问题。方法如图5所示。在P1设备上,由于使用了IGP/LSP更新技术, IGP/LDP收敛均使用收敛后的新路由直接替换原先的老路由,所以不再向上游的PE设备发送LSP删除以及更新消息,上游的PE设备没有收到影响,所以无需进行VPN路由迭代,这样当P1设备上完成IGP/LDP收敛之后,VPN业务即完成收敛。这样在P-P 链路故障,或者P设备故障(不引发PE-P链路故障)的情况,VPN业务端到端收敛时间完全取决于公网IGP/LDP收敛速度,而这个时间通常是200ms-800ms。图 5 P 设备 LS
9、P 更新技术示意图BGP/VPN 快速收敛技术白皮书Copyright 2007 华为技术有限公司 版权所有,侵权必究 5http:/ VPN 按需迭代当PE-P链路发生故障后(包括PE设备故障,以及P 设备故障引发的PE-P链路故障),由于去往远端PE 的LSP 发生了故障,所以本地VPN路由需要重新迭代,但并不是所有本地VPN路由都需要迭代,以图1中为例,假设PE2-P2链路发生故障,此时PE2至PE1、PE5、PE6的外层隧道没有任何变化,而PE至PE3、PE4的外层隧道则需要重新计算,生成新的LSP。针对这种情况出现了VPN按需迭代技术,此技术如下图6所示。将所有的BGP/VPN路由按
10、照不同的远端下一跳(即不同的PE)分别建立不同的队列,当公网隧道发生变化的时候,只需要对发生变化的外层隧道的BGP/VPN路由进行迭代即可,其他不受影响的VPN路由则无需迭代,这样往往可以节省大量的时间,从而加快网络收敛速度。以PE1为远端下一跳的所有VPN路由队列以PE2为远端下一跳的所有VPN路由队列BGP路由11BGP路由12BGP路由13BGP路由14Head1.BGP路由11BGP路由12BGP路由13BGP路由14Head2.以PEx为远端下一跳的所有VPN路由队列.Headx图 6 VPN 按需迭代示意图3.3 VPN 按照优选级的按需迭代在多业务MPLS/VPN承载网络中,通常
11、会有很多VPN,这些VPN业务有实时类业务,也有非实时类业务,所以它们的收敛速度和要求是有所区别的。针对这种情况,VPN按照优先级的按需迭代功能则能很好的适应和满足这种需求。如下图7所示,将已经按照远端下一跳分不同队列之后,将原先的每个队列按照用户的配置,将不同VPN的路由分别放到高、低两个队列中。当公网隧道故障,需要重新迭代的时候,首先迭代需要迭代的高优选级VPN路由,然后再迭代低优先级的VPN路由(类似BGP/VPN 快速收敛技术白皮书Copyright 2007 华为技术有限公司 版权所有,侵权必究 6http:/ 路由分离出来,从而大大减少高优先级VPN业务的收敛时间。以PE1为远端下
12、一跳的所有VPN路由队列以PE2为远端下一跳的所有VPN路由队列BGP路由11BGP路由12高优先级队列.以PEx为远端下一跳的所有VPN路由队列.HeadxBGP路由21BGP路由22BGP路由23BGP路由24.低优先级队列Head11 Head12BGP路由31BGP路由32高优先级队列.BGP路由41BGP路由42BGP路由43BGP路由54.低优先级队列Head21 Head22图 7 VPN 按优选级的按需迭代示意图3.4 VPN 下一跳分离不论是按需迭代,还是按优先级迭代,其本质是迭代过程的一个优化。那么有没有办法将迭代过程完全不做呢?答案是肯定的,那就是VPN下一跳分离技术。V
13、PN下一跳分离技术的实现原理如下图8所示。在转发平面,将VPN路由转发表按照VPN路由的远端下一跳做分离,将原先的一个VPN路由表分离成两张表,首先查找VPN路由表,查找出远端下一跳,然后再通过远端下一跳查出直连下一跳。当公网发生故障后,公网IGP/LDP收敛,针对每个远端下一跳,直接将原先老的LSP1删除,替换为新的LSP2,这样所有的 VPN都会按照新的LSP2进行转发。这样VPN路由不再需要迭代,当IGP/LSP收敛后 VPN路由可以立即收敛,即使得VPN路由的收敛速度提升到 IGP/LSP收敛的级别上来。VPN路由1VPN路由2VPN路由3远端下一跳1 直连下一跳1直连下一跳2LSP隧
14、道1LSP隧道2图 8 VPN 下一跳分离示意图BGP/VPN 快速收敛技术白皮书Copyright 2007 华为技术有限公司 版权所有,侵权必究 7http:/ FRR则可以很好的解决。3.5 VPN FRRVPN FRR技术实现原理如下:对于同一个VPN路由前缀在转发平面同时安装了主用路由和备用路由,同时使用快速检测机制检测主用路由外层隧道状态。一旦检测到某个外层隧道失效,则直接使用备用路由进行报文转发。由于备用路由已经安装在转发表中,所以VPN路由的收敛时间主要取决与外层隧道状态的检测时间。详细的说明可以参考VPN FRR技术白皮书。其中对于外层隧道状态检测技术的不同,VPN FRR又
15、可以分为BFD触发的VPN FRR和IGP触发的 VPN FRR。其中 BFD触发的VPN FRR技术,使用BFD进行外层隧道状态检测,这种方法的优点是检测速度比较快,通常可以做到200ms-500ms,不足点在于,需要整网配置多跳BFD;IGP触发的VPN FRR技术中,当网络发生故障后,IGP/LDP重新收敛,收敛之后即可得知原先的外层隧道失效,此时即可将转发平面中的外层隧道状态置为无效,触发VPN路由切换到备用路由上去。因此IGP触发的VPN FRR收敛时间为公网IGP/LDP收敛的时间。 IGP触发的VPN FRR技术中,充分利用了IGP/LDP 快速收敛技术,VPN FRR只是一个本
16、地PE 的处理,对网络没有其他协议和互通要求;不过相对 BFD触发的VPN FRR技术其收敛速度要慢一些。VPN FRR技术对组网有一定的要求,首先需要远端CE双归两个PE,同时要求本地PE上要同时存在去往两个PE的VPN路由。只有这两个条件具备了,才能部署VPN FRR。VPN FRR技术除了可以用来进行PE节点故障保护之外,同时也可以进行 PE-P链路、P-P链路、以及P设备故障保护。其原理如下图10所示。假设在PE1上部署VPN FRR,其中主用外层隧道为LSP1 (去往主用PE3 ),备用隧道为LSP2(去往备用PE4)。当P1 和P2之间链路故障后,检测到LSP1故障,触发VPN F
17、RR切换,流量切换到LSP2上。此后VPN重新迭代,重新迭代生成主用LSP3、备用LSP2的新的VPN路由,流量重新切回到LSP3上来。其中从 LSP1切换到 LSP2是一个VPN FRR切换过程,而 LSP2切回到LSP3是一个路由更新不会造成丢包。因此VPN FRR技术完全可以做到端到端的VPN业务的保护。BGP/VPN 快速收敛技术白皮书Copyright 2007 华为技术有限公司 版权所有,侵权必究 8http:/ 9 VPN FRR 端到端保护示意图3.6 BGP/VPN 快速收敛技术总结上文分别对各种BGP/VPN快速收敛技术做了详细的说明和解释,下面用一个表格,将这些技术使用的
18、场景、需要的收敛时间,以及需要的网络拓扑做一个综合比较。表 1 BGP/VPN 快速收敛比较表PE-P链路故障(包括P设备故障引发的PE-P链路故障 )P-P链路故障(包括P设备故障引发的P-P 链路故障 )PE节点故障 收敛时间 说明P设备IGP/LDP更新不支持 支持 不支持 公网IGP/LDP收敛时间VPN按需迭代 支持 支持 支持 公网IGP/LDP收敛时间+需要迭代的VPN路由迭代时间VPN按照优先级的按需迭代支持 支持 支持 公网IGP/LDP收敛时间+需要迭代的高优先级VPN路由迭代时间VPN下一跳分离支持 支持 不支持 公网IGP/LDP收敛时间IGP触发的VPN FRR支持 支持 支持 公网IGP/LDP收敛时间远端CE需要双归两个PE,而且本地PE需要有到两个PE的路由BFD触发的VPN FRR支持 支持 支持 BFD检测时间,通常为200ms-500ms远端CE需要双归两个PE,而且本地PE需要有到两个PE的路由