1、 企业数据中心高可用网络系统设计数据中心作为承载企业业务的重要IT基础设施,承担着稳定运行和业务创新的重任。伴随着数据的集中,企业数据中心的建设及运维给信息部门带来了巨大的压力,“数据集中就意味着风险集中、响应集中、复杂度集中”,数据中心出现故障的情况几乎不可避免。因此,数据中心解决方案需要着重关注如何尽量减小数据中心出现故障后对企业关键业务造成的影响。为了实现这一目标,首先应该要了解企业数据中心出现故障的类型以及该类型故障产生的影响。影响数据中心的故障主要分为如下几类:w 硬件故障w 软件故障w 链路故障w 电源/环境故障w 资源利用问题w 网络设计问题高可用数据中心网络设计思路:数据中心出
2、现的故障类型较多,风险也无法避免。那怎样才能做到当故障发生时对企业关键业务造成的影响最小呢?其实,我们可以看出虽然数据中心的故障类型众多,但故障发生产生的后果却大同小异。即,导致数据中心中的设备、链路或server发生故障,无法对外提供正常服务。对于这些故障的缓解最简单的方式就是冗余设计,可以通过对设备、链路、server提供备份,从而将故障对用户业务的影响降低到最小。但是否是一味的增加冗余设计就可以达到我们缓解故障影响的目的呢?有人可能会将网络可用性与冗余性等同起来。但事实上,冗余性只是整个可用性架构中的一个方面。一味的强调冗余性反而可能会降低可用性减小冗余所带来的优点,因为冗余性在带来好处
3、的同时也会引入一些缺点:w 网络复杂度增加w 网络支撑负担加重w 配置和管理难度增加因此,数据中心的高可用设计是一个综合的概念。我们在选用高可靠设备组件、提高网络的冗余性的同时,还需要加强网络构架及协议部署的优化,从而实现真正的高可用。设计一个高可用的数据中心网络,可参考类似OSI七层模型,在各个层面保证高可用,最终实现数据中心基础网络系统的高可用,如下图所示:1. 网络架构高可用设计从近年来企业信息化发展趋势来看,未来企业业务的发展对数据中心的依赖将越来越强,数据中心将会成为企业信息系统的“原点”,企业所有新业务的开展都将在数据中心内进行部署,同时随着新的数据处理技术(如数据仓库、商业智能)
4、的应用,数据中心将会成为企业分析、评估和决策过程中的重要工具和数据支撑。这些都会对数据中心网络架构的设计产生影响。如下图所示:传统的以局域网为基础、业务驱动不断扩展的“数据中心”网络架构思路将会越来越不适应企业业务的变更,在不断扩容、改造的过程中极易引入新的人为故障和设备故障,影响数据中心的可用性。以下是当前大多数企业用户的数据中心局域网络拓扑:在上述拓扑中,主要有以下几个方面的问题:1) 局域网核心与数据中心核心交换设备共用,此核心承接了广域、局域和服务器之间的数据交互,不同类型的流在这里纵横交汇,随着网络不断扩容,此设备上的配置将会越来越复杂,风险集中;2) 局域网和服务器区的安全策略集中
5、在核心部署,为实现安全分域管理,所有服务器的网关均设置在核心的防火墙上,核心防火墙极易受到攻击而瘫痪。一旦瘫痪将会导致所有服务器均无法对外提供服务,所有业务中断,风险大而且集中;3) 服务器基本处于无序的堆砌状态,网络层仅仅提供了提入互通的通道,没有进行系统的分区管理。在数据集中后服务器的数量会大量增加,安全及管理问题将会突显,无法满足业务的持续扩展。从严格意义上讲,上述的结构并不是真正意义上的“数据中心”架构,而且在传统的局域网基础之上,不断的扩展和修补形成的结果。这种架构可能在服务器规模不大的情况下可以满足大部分的业务系统部署要求。但随着业务系统的不断增多,服务器规模增加大一定数量(约20
6、0台)的情况下,网络配置将越来越复杂,最终导致网络运维管理员不敢去碰去动核心设备(交换机、防火墙)上的配置,信息部门的运维压力非常大。为解决这些问题,企业在进行数据中心架构重新规划设计时,需要严格按照模块化、层次化原则进行,避免在后续规模越来越大的情况再进行大规模的整改,费时、费力且费钱。模块化模块化设计是指在对一定范围内的不同功能或相同功能不同性能、不同规格的应用进行功能分析的基础上,划分并设计出一系列功能模块,模块之间松耦合,力求在满足要求的基础上使网络稳定可靠、易于扩展、结构简单、易于维护。不同企业的应用系统可能有一定的差异,在网络层面,根据应用系统的重要性、流量特征和用户特征的不同,可
7、大致分为以下几个区域,如下图所示:上述分区中有几点比较关键:1) 企业园区网核心与数据中心核心分离,各司其职。园区网核心主要承接纵向流量和用户的接入控制(DHCP、认证等);数据中心核心主要承接服务器间的流量(横向流量居多),数据中心核心交换机上部署尽可能少的策略和配置,保证其互连互通的高可靠、高性能,同时在扩展新的模块时力求达到核心设备配置的零更改,各模块之间互通的松耦合,避免某功能模块故障而影响其它功能模块,实现风险分散、灵活扩展;2) 分布式安全部署。与传统的防火墙集中在核心旁挂的方式不一样,在模块化数据中心网络架构中,安全设备部署应下移到各功能模块的出口(汇聚层)位置,如上图中的红色网
8、格线所示。而不是旁挂部署在核心交换区,这样做的目的也是分散风险,实现各模块间的松耦合。数据中心核心交换区就像是连接各城市的高速公路,建设时应充分保证其高可靠和高性能,而不部署红绿灯调度;3) Intranet服务器区是企业应用系统的关键分区,此分区可根据应用业务的关键性、实时性等特征的不同,可考虑再进行子分区的划分,一般而言可分为“关键业务区”、“通用业务区”、“财务应用区”几类,子分区可以是物理的,也可以是逻辑的。如果是逻辑的,可为每个子分区分配一个虚拟防火墙来部署安全策略。层次化数据中心层次化设计包括网络架构分层和应用系统分层两个方面,在当前网络及安全设备虚拟化能够不断完善的情况下,应用系
9、统分层可完全通过设备配置来实现逻辑分层,不影响网络的物理拓扑。对于网络架构层次化设计,三层架构还是二层架构可能是不少企业进行数据中心网络建设时面临的选择。传统网络核心、汇聚、接入各层的职责定义如下:w 核心层:主要负责的是数据的交换与路由,不负责处理;w 汇聚层:主要负责的是数据的处理,选择和过滤等操作;w 接入层:主要负责的是数据的接受与发送,负责端到端的链路建立释放从可靠性的角度来看,三层架构和二层架构均可以实现数据中心网络的高可用。近年来随着云计算概念逐步炒热,二层扁平化网络架构更适合云计算网络模型,可以满足大规模服务器虚拟化集群、虚拟机灵活迁移的部署。对于二层和三层架构的选择,可参考以
10、下表格的对比:三层架构二层架构可靠性增加了一层网络设备,相对增加了故障点网络故障点相对较少安全性风关在汇聚层,安全策略部署在汇聚层,容易部署安全策略部署在接入层,相对比较分散,部署工作量大服务器接入数量服务器接入数量多服务器接入数量较少扩展性同一功能分区内服务器数量扩展多,可灵活实现物理分区内的子逻辑分区同一功能分区内服务器数量扩展受限运维管理设备和管理点较多设备少,管理点较少成本汇聚和接入设备可灵活选择配合,达到最佳的成本控制接入设备要求较高,选型受限适合场景服务器数量多,安全策略控制严格的场合服务器集群、虚拟机迁移应用较多,服务器搬迁移动频繁场合二层还是三层架构没有决对的优劣之分,企业用户
11、可根据自身的业务特点进行选择,也可以先二层,后续针对某些特定的功能分区采用三层组网。模块化、层次化的架构设计将数据中心网络风险进行了分散,将出现问题后的影响降低到最小,同时模块之间的松耦合可增强数据中心的扩展,简化网络运维,降低在扩展的过程中管理员的人为故障,保证数据中心的可用性。2. 设备层高可用设计设备可靠是系统可靠的最基本保证,对于数据中心核心交换区设备的可靠稳定更是重要,尽管可以通过架构、策略、配置等的调整和优化多种手段降低核心设备出问题的可能、降低出问题后的影响范围,但要解决最根本的设备本身软硬件故障,必须选用数据中心级的设备组网部署。关于数据中心级设备的定义,业界目前还没有类拟的标
12、准,但从目前主流网络设备供应商提供的数据中心解决方案产品(如H3C S12500、Cisco N7000、JuniperEX8200等)可以看出,数据中心级交换机产品应具备以下特征:1) 控制平面与转发平面物理分离传统的园区网交换机(如H3C S75E、Cisco C65等)一般采用“Crossbar+共享缓存”的交换架构,引擎板即承担控制平面的工作,同时也承担数据转发平面的工作,跨槽位的流量转发报文需要经背板到引擎板的Crossbar芯片进行转发。这种架构限制了设备的可靠性和性能:w 可靠性限制:引擎需要承接数据转发平面的工作,因此在引擎出现主备倒换时必然会出现丢包。此外引擎11冗余,也使得
13、Crossbar交换网只能是11的冗余,冗余能力无法做的更高;w 性能限制:受制于业界当前Crossbar芯片的工艺以及引擎PCB板卡布线等制造工艺,将Crossbar交换网与CPU主控单元集中在一块引擎板上的结构,一般单块引擎的交换容量不可能做的太高(一般约1TB左右)。数据中心级交换机产品将控制平面与转发平面物理分离,采用CLOS多级交换架构可以大大提高设备的可靠性及性能,这类设备一般有独立的引擎板和交换网板,如下图所示:在交换架构上,数据中心级产品采用了CLOS多级交换架构,与传统的Crossbar+共享缓存交换架构相比,有如下优势:Crossbar+共享缓存CLOS多级交换结构1,单平
14、面交换;2,交换矩阵和控制统一,即引擎承担了交换和控制双重功能;1,多块交换网板共同完成流量交换2,控制和交换硬件分离转发能力受限于单个交换芯片的交换能力,目前最大到1TB就很难提升。多块交换网板同时分担业务流量,相当于N倍于单级交换的能力,可实现510TB交换容量可靠性引擎倒换会丢包控制平面与转发平面硬件物理分离,引擎切换时不影响转发,可实现零丢包冗余能力引擎11冗余,双引擎负载分担式无冗余引擎11冗余,交换网板N+1冗余2) 关键部件更强的冗余能力除了上述的引擎和交换网的冗余外,此类设备的电源一般均可以配置多块,实现N+M的冗余,保证电源的可靠性更高;另外风扇的冗余也由原来的风扇级冗余,提
15、高到了风扇框冗余,每个独立的风扇框内多个风扇冗余;3) 虚拟化能力数据中心的复杂度越来越高,需要管理的设备也越来越多,设备的虚拟化可将同一层面(核心、汇聚、接入)的多台设备虚拟化为一台,进行设备的横向整合,简化设备的配置和管理。4) 突发大流量的缓冲能力随着业务整合、资源共享、数据仓库、数据挖掘及智能分析等业务的部署,将会使数据中心内部和业务服务器之间的横向流量越来越多。这种流量模型的变化会导致多服务器群向一个服务器群的流量、多个应用服务器向同一个数据库服务器的流量越来越频繁,这种多对一的流量模型是一种典型的拥塞模型,如果网络设备的缓存能力不够,将会导致丢包重传,导致业务系统的响应时间变长或中
16、断。数据中心级设备对端口的缓存容量进行扩容,并采用了新一代的分布式缓存机制,将原有的出方向缓存移至入方向,在同样的端口缓存容量条件下,这种分布式的缓存机制可以更好的缓存多对一的拥塞模型,能够更好的吸收数据中心的突发大流量。如下图所示:5) 绿色节能数据中心是企业能耗的主要部门,同时高的能耗将会带来高的发热量,而这也是影响数据中心设备稳定运行的重要因素。选用低能耗设备降低发热量是提高可靠性的一个方面,另一方面设备本身的散热风道设计的合理与否?能否更好的配合机房的空调循环?也影响着数据中心的可靠性。为更好的配合机房冷热风道的布局,机柜中发热量较大的设备最后是前后散热的风道设计。但普通的横插槽设备一
17、般是左右散热的方式,因此应优先考虑采用竖插槽的设备,实现前后散热。如下图中的理想散热风道设计:3. 链路层(L2)高可用设计以太网是广播性质的网络,一旦链路成环路很容易导致广播风暴,耗尽网络链路及设备资源。然而在实际的数据中心网络部署中,在实现设备和链路冗余提高可靠性的同时,也带来了环路和复杂度的增加。对于传统的数据中心服务器区接入汇聚交换网络,针对无环设计和有环设计有多种选择方案。如下图所示:拓扑优点缺点1倒U型不启用STP,好管理VLAN 可以跨汇聚层交换机,服务器部署灵活必须通过链路聚合保证高可用性汇聚交换机故障时,服务器无法感知,无法实现高可用接入2正U型不启用STP,好管理双acti
18、ve链路,接入交换机密度高不能使VLAN跨汇聚层,服务器部署不灵活接入交换机间链路故障,VRRP心跳报文无法传递,整机做VRRP主备切换,故障收敛时间长。3三角形链路冗余,路径冗余,故障收敛时间最短VLAN 可以跨汇聚层交换机,服务器部署灵活存在环路,需要启动STP协议4矩形双active链路,接入交换机密度高VLAN可以跨汇聚层交换机有一半的接入层流量要通过汇聚交换机之间的链路。当接入交换机上行链路故障时,所有流量将从一侧的交换机上行。收敛比变小,网络易拥塞,降低网络高可用性。存在环路,需要启动STP协议由上表可以看出,三角形组网提供了更高的接入可用性以及更灵活的服务器扩展能力,所以常见推荐
19、的组网采用第3种拓扑方式。需要指出,接入交换机直接双上行与汇聚层设备相连,冗余连接并不是越多越好,而最小的三角形环能够提供最快的收敛速度和最高的可用性。例如下图中右侧图组网拓扑在接入层交换机和汇聚层交换机之间采用全交叉冗余,是一种过度冗余组网,反而增加交换机的生成树计算的复杂性以及故障排错的复杂性,所以不建议按这种方式部署。虽然三角形组网已经成为数据中心接入设计的最佳实践,但从网络的拓扑设计、环路规避、冗余备份等角度考虑,设计过程是极其复杂的。如VLAN的规划、生成树实例的拓扑阻塞、网关冗余选择,包括相应技术的参数选择、配置,故障切换的预期判断等,需要一套十分详细的流程,而在后期网络运行维护过
20、程中面临的压力和复杂度是显而易见的。引入虚拟化设计方式之后,在不改变传统设计的网络物理拓扑、保证现有布线方式的前提下,以IRF2的技术实现网络各层的横向整合,即将交换网络每一层的两台、多台物理设备使用IRF2技术形成一个统一的交换架构,减少了逻辑的设备数量,同时实现跨设备的链路捆绑,消除环路的同时保证链路的高可用。如下图所示对于服务器而言,目前的服务器绝大多数都标配了双网卡甚至更多的网卡,但在实际的部署时,大多数企业都是采用主备模式,双网卡的出口带宽没有得到充分利用,同时网卡主备切换需要较长的时间(秒级)。在接入交换机部署了IRF2虚拟化之后,两台接入交换机与服务器双网卡实现跨设备的链路捆绑(
21、采用LACP标准协议,服务器网卡驱动均支持),此时双网卡处于“双Active模式”,服务器出口带宽充分利用,而且此时网卡、链路、接入交换机出现故障时,切换时间有了数量级的提升(毫秒级),服务器接入的可靠性很好的得到保障。实际的部署如下图所示:对于接入层设备来说,以Top of Rack配线接入为例:一般使用两台接入交换机对同类业务系统服务器进行接入,以满足服务器双网卡的上行要求。使用IRF2对网络汇聚层或服务器网关层的虚拟化整合是必要的,因为这是消除生成树和VRRP的关键网络层。对接入层网络来说,有下图所示的两种选择:方式A:保持原有网络拓扑和设备独立性不变,通过IRF2将汇聚网关层虚拟化,T
22、op of Rack接入交换机双归属上联的两条链路直接进行捆绑,消除了环路,服务器网卡归属到独立的两台交换机,双网卡采用传统的主备方式。方式B:在Top of Rack两台交换机之间增加IRF2互联线缆,使得接入层也实现虚拟化整合,服务器双网卡连接的两台交换机虚拟化成一台,这两台交换机的所有上联线缆可实现跨设备的捆绑,服务器双网卡启用LACP捆绑,实现服务器双网卡(或多网卡)接入的高可用。IRF2虚拟化整合之后,数据中心网络从服务器网卡接入至汇聚、核心交换机,二层链路可实现端到端捆绑,如下图所示:IRF2部署之后,相比STPVRRP的协议收敛,IRF设备及链路的故障切换时有了数量级的提升,下图
23、为IRF实测数据:从上表中的数据可以看出,IRF部署后无论是设备级故障倒换还是链路级故障倒换,时延都是毫秒级,因此整个网络将是一个快收敛的网络,可用性得到很大的提升。4. 协议层(L3)高可用设计数据中心协议层高可用设计可以从以下三个方面考虑:w 路由协议部署w 快速检测与切换w 不间断转发路由协议部署:数据中心汇聚层到核心层间可采用OSPF等动态路由协议进行路由层面高可用保障。常见连接方式有两种,如下图所示。拓扑1采用了三角形连接方式,从汇聚层到核心层具有全冗余链路和转发路径;拓扑2采用了四边形连接方式,从汇聚层到核心层没有冗余链路,当主链路发生故障时,需要通过路由协议计算获得从汇聚到核心的
24、冗余路径。所以,三角形拓扑的故障收敛时间较短,但三角形拓扑要占用更多的设备端口。在采用模块化、层次化设计之后,数据中心内部各分区与核心交换区的路由将会大大简化,因此针对拓扑1的组网方式,可进行IRF2横向整合,对汇聚层、核心层的双机设备进行虚拟化,实现跨设备链路捆绑实现汇聚层上行到核心层的多链路负载分担与备份,在此基础之上,核心层与汇聚层仅需要一个VLAN三层接口互联,直接在此VLAN三层接口上部署静态路由,简化数据中心内部的协议部署。如下图所示:汇聚层交换机AggSW上的配置缺省路由如下: system-viewAggSW ip route-static 0.0.0.0 0.0.0.0 1.
25、1.1.1/只需要配置缺省路由即可核心层交换机CoreSW上配置静态路由如下: system-viewCoreSW ip route-static 1.1.1.0 255.255.255.0 1.1.1.2数据中心内部各服务器分区汇聚层与数据中心核心交换区之间采用IRF配合静态路由的方案部署,可简化后续运维的复杂度。但对于数据中心外联模块,由于外部路由相对较复杂,可部署OSPF动态路由,提高路由选择的灵活性。数据中心总体路由结构如下图所示:快速检测与切换:为了减小设备故障对数据中心业务的影响、提高网络的可用性,设备需要能够尽快检测到与相邻设备间的通信故障,以便能够及时采取措施,从而保证业务继续
26、进行。由于数据中心内部一般采用以太网(或MSTP城域)链路来进行互联,无法通过SDH(Synchronous Digital Hierarchy,同步数字体系)告警检测链路故障,通常情况下只能依靠路由协议中的Hello报文机制。这种机制检测到故障所需时间为秒级。对于数据中心内部吉比特速率级高速数据传输,超过1秒的检测时间将导致大量数据丢失。BFD(Bidirectional Forwarding Detection,双向转发检测)就是为了解决上述检测机制的不足而产生的,它是一套全网统一的检测机制,用于快速检测、监控网络中链路或者IP路由的转发连通状况,保证邻居之间能够快速检测到通信故障,50m
27、s内建立起备用通道恢复通信。BFD检测可部署在广域/域城出口模块,如下图所示:在上图中,数据中心核心层与外联模块(广域区、城域区)之前运行OSPF动态路由协议,并在核心层交换机上配置BFD与OSPF路由联动,广域、城域路由设备或链路出现故障时,核心交换机CoreSW快速感知,并通告OSPF进行快速收敛,缩短数据中心外联数据故障恢复时间。OSPF使用BFD来进行快速故障检测时,OSPF可以通过Hello报文动态发现邻居,OSPF将邻居地址通知BFD就开始建立会话。BFD会话建立前处于down状态,此时BFD控制报文以不小于1秒的时间间隔周期发送以减少控制报文流量,直到会话建立以后才会以协商的时间
28、间隔发送以实现快速检测。当网络出现故障时:1) BFD检测到链路/网络故障;2) 拆除BFD邻居会话;3) BFD通知本地OSPF协议进程BFD邻居不可达;4) OSPF协议中止上层协议邻居关系;5) 核心交换机CoreSW选择备用路径。BFD除了上述可以应用在数据中心外联模块(广域/城域)外,还可以部署在IRF2虚拟组内,快速检测出IRF分裂,提高IRF虚拟化部署的可用性。w 当IRF正常运行时,只有Master上配置的MAD IP地址生效,Slave设备上配置的MAD IP地址不生效,BFD会话处于down状态;w 当IRF分裂后会形成多个IRF,不同IRF中Master上配置的MAD I
29、P地址均会生效,BFD会话被激活,此时会检测到IRF组分裂,IRF会将优先级低的设备隔离,避免出现多Active冲突。使用BFD进行IRF MAD(Multi-Active Detection,多Active检测)检测时,需要有一条BFD MAD检测专用链路(千兆或万兆以太链路),这些链路连接的接口必须属于同一VLAN,如下图所示:关于BFD以及BFD与OSPF路由协议的介绍与配置,详细请参考“ 服务与支持 文档中心 配置指导” 不间断转发:在部署了动态路由协议的数据中心网络中,当网络设备进行主备切换时,在路由协议层面会与邻居之间发生震荡。这种邻居关系的震荡将最终导致路由震荡的出现,使得主备切
30、换路由器在一段时间内出现路由黑洞或者导致邻居将数据业务进行旁路,进而会导致业务出现暂时中断。为了实现不间断转发NSF技术,除了设备本身需要支持数据转发与控制分离,支持双主控设计外。根据需要,可能需要部分保存协议的状态(控制平面),并借助邻居设备的帮助,实现发生主备切换时控制平面的会话连接不重置,转发不中断的目的。这些实现控制层面不重置的技术统称为路由协议的Graceful Restart(平滑重启)扩展,简称GR,它表示当路由协议重启时保证转发业务不中断。GR机制的核心在于:当某设备的路由协议重启时,能够通知周边设备在一定时间内将到该设备的邻居关系和路由保持稳定。在路由协议重启完毕后,周边设备
31、协助其进行路由信息同步,在尽量短的时间内使该设备的各种路由信息恢复到重启前的状态。在整个协议重启过程中,网络路由和转发保持高度稳定,报文转发路径也没有任何改变,整个系统可以不间断地转发IP报文。在数据中心OSPF动态路由部署的区域(广域、外联、园区、互联网等),一般按照如下的组网结构部署GR:w 使用GR保证网络中的核心层节点和广域出口节点在出现协议重启时的转发业务不中断,避免出现不必要的路由振荡。w 核心层节点和广域出口节点作为GR Restarter(同时缺省也作为GR Helper),分支节点作为GR Helper。这样当广域出口节点发生主备切换或重启OSPF进程时,核心节点可以作为GR
32、 Helper协助其进行LSDB重同步,并且保持转发不中断;当核心层节点发生主备切换或重启OSPF进程时,广域出口节点和分支节点都可以作为GR Helper协助其进行LSDB重同步,并且保持转发不中断。5. 应用层(L4L7)高可用设计在数据中心网络层面实现L4L7层的高可用,可采用负载均衡的方案。L4L7层负载均衡一方面可以提高服务器的响应能力和链路的带宽利用率,另一方面可以保证单台服务器或单条链路出现故障后,业务数据无缝分摊到其它服务器和链路,从而实现数据中心的高可用。对于L4L7层负载均衡,分为以下两个方面:w L4L7链路负载均衡(LLB)w L4L7服务器负载均衡(SLB)链路负载均
33、衡:链路负载均衡常部署在数据中心的广域接入区和互联网接入区,通过静态表项匹配及动态链路检测,对多条链路状态进行实时的探测和监控,确保流量以最合理及快速的方式分发到不同链路上,,实现业务的高效传输。对于数据中心广域接入区,由于广域网出口流量仍然是企业内网数据流,在L4层一般可通过IP报文的五元组特征区分出不同的业务流,因此可直接在路由器上通过分层CAR、跨端口的流量转发实现负载分担、关键业务带宽保证、广域链路捆绑。无需专门的LB设备。如下图所示:w 流量控制要求基本业务分流:通常情况下,生产业务走主链路,办公和视频业务走备用链路。超负荷流量调度:无论主备链路,超负荷流量走对方链路;备用链路视频业
34、务不要进行超负荷流量分担;纵向出口进行多业务QoS调度。w 设计实现基本业务分流:通过OSPF COST设计,生产业务默认走主链路转发,对办公和视频业务采用策略路由走备链路。超负荷流量调度:以备链路为例,需要在数据中心广域网的入口进行流量监管CAR,超过10M的流量结合策略路由调度到左侧路由器。为保证视频流量不会被调度到左侧路由器,必须采用分层CAR实现。对于Internet出口链路负载均衡,由于内网用户访问的数据流不固定,特征复杂,很难在L4层区分出不同的业务流,因此需要部署专门的负载均衡设备实现多运营商出口的链路负载均衡。并启用Inbound和Outbound两个方向的负载均衡,一方面满足
35、企业内网用户或服务器访问外部Internet站点的流量分担;另一方面满足外网用户通过Internet访问企业公共服务(如网站、FTP等)的流量分担。两种部署方式分别如下图所示:w Outbound链路负载均衡中,用户将访问外网的报文发送到LB负载均衡设备后,负载均衡设备根据就近性算法和调度策略,将内网访问外网的业务流量分别分发给相应的链路。w Inbound链路负载均衡中,负载均衡设备作为权威名称服务器记录域名与内网服务器IP地址的映射关系。一个域名可以映射为多个IP地址,其中每个IP地址对应一条物理链路。外网用户通过域名方式访问内网服务器时,本地DNS服务器将域名解析请求转发给权威DNS服务
36、器LLB负载均衡设备,负载均衡设备依次根据持续性功能、ACL策略、就近性算法选择最佳的物理链路,并将通过该链路与外网连接的接口IP地址作为DNS域名解析结果反馈给外网用户,外网用户通过该链路访问内网服务器。服务器负载均衡:目前大多数应用系统都采用了BS架构,企业数据中心的WEB服务器需要承接来自内网和外网众多用户的连接请求,因此单台服务器的性能和可靠性可能都无法满足,为实现更多的用户接入数和服务器冗余,可在WEB服务器部署负载均衡。服务器的负载均衡部署可采用以下两种方式实现:w 服务器集群软件w 服务器负载均衡(SLB)设备采用服务器集群软件的方式与网络的相关性不大,一般要求服务器群在同一VL
37、AN内即可,本文将重点针对“服务器负载均衡(SLB)设备”方式的设计和部署进行介绍。依据转发方式的不同,服务器负载均衡的部署分为NAT方式和DR方式。两种方式的处理思路相同:LB设备提供VSIP(虚拟服务IP),用户访问VSIP请求服务后,LB设备根据调度算法分发请求到各个实服务。而在具体的处理方式上有所区别:NAT 方式:LB 设备分发服务请求时,进行目的IP 地址转换(目的IP 地址为实服务的IP),通过路由将报文转发给各个实服务。服务器响应的报文也要经过LB设备进行NAT转换,这种方式LB设备承担的性能压力较大。DR 方式:LB 设备分发服务请求时,不改变目的IP 地址,而将报文的目的M
38、AC 替换为实服务的MAC 后直接把报文转发给实服务。服务器响应的报文不需要经过LB设备,直接转发到用户,这种方式LB设备承担的性能压力相对较小。下图为两种方式部署时的实际组网:DR方部署时需要对每个服务器配置VSIP,并要求其VSIP不能响应ARP请求。而一般的企业网络运维和服务器运维是不同部门的不同工程师负责,这种DR方式的配置涉及到两个部门之间的配合,比较复杂,因此一般在LB设备性能足够的情况下不推荐使用。采用NAT方式部署组网灵活,对服务器没有额外要求,不需要修改服务器配置,适用于企业数据中心各种组网。总结高可用设计与部署是企业数据中心建设的永恒话题,“勿在浮沙筑高台”,网络做为数据中心IT基础承载平台,是IT系统高可用的基本保证。数据中心网络要实现高可用,技术并不能解决所有问题,还需要完善的运维流程、规章制度、管理体制等多方面的配合。结合企业业务的发展趋势,不断的总结与积累,是一个长期的、循序渐进的过程。