政企上云网络适配复杂,看华为云Stack有妙招


摘要:政企数据中心部署云资源池后,网络架构变得复杂,如何在数据中心内无缝集成云资源池、如何协同云上业务和云下传统业务的互通、如何解决云上业务的安全合规等新问题出现。

本文分享自华为云社区《【华为云Stack】【大架光临】第11期:政企上云网络适配复杂,看华为云Stack有妙招》,作者:华为云Stack网络架构师 姚博;华为云Stack网络技术专家 朱娜。

背景

云计算所拥有的超大规模、虚拟化、高可扩展、安全性、按需服务、灵活性等特点,为客户业务创新和组织整合提供了强大的技术基础,当下云计算技术已经成为政企IT基础设施的标准配置,政企数据中心部署云资源池后,网络架构变得复杂,如何在数据中心内无缝集成云资源池、如何协同云上业务和云下传统业务的互通、如何解决云上业务的安全合规等新问题出现,华为云Stack作为国内领先的云解决方案,能够为政企客户提供满足各种业务诉求的网络技术,帮助业务平滑上云。

业务的正常运行离不开网络,当企业业务运行在传统数据中心时,网络互通和网络安全由数据中心的硬件设备来提供,如下图典型数据中心组网所示:传统物理组网中的东西向流量二三层转发由spine/leaf,新型数据中心也有多层Clos架构来承载,东西向流量的安全防护由旁挂在border leaf的防火墙完成;传统硬件负载均衡器部署在资源池内,给业务提供高级网络服务;南北向流量转发集中到数据中心出口接入区完成,出口接入区的设备除了出口路由器做流量转发外,还会部署一些安全设备如防火墙/WAF等来保证数据中心内业务安全。

图1:企业传统数据中心典型网络架构

企业客户在本地自建云后,从整个数据中心组网来看,云平台是以一个独立的资源池集成到客户数据中心的全局网络中,是数据中心的一部分。

图2:企业传统数据中心集成云平台资源池组网

业务上云后,对于网络的通信和安全诉求没有改变,只是网络承载体由物理硬件设备换成了云厂商提供的先进的软件/硬件结合的网络服务。综合来看,云平台提供的网络服务,需要帮助客户解决这些网络问题:

1, 业务上云过程中,一部分业务在云下,一部分业务在云上,如何实现云上云下高速互联?

2, 业务如何使用云上的网络服务,实现快速平滑上云?

3, 云上业务的安全如何控制,才能满足安全合规诉求?

4, 云上业务如何使用传统硬件设备提供的高级能力,满足业务个性化诉求?

华为云Stack基础网络云服务凭借国内政企市场的丰富客户经验积累,深入理解客户业务上云过程中对于云网络的诉求,提供了一系列以客户网络为中心、以客户习惯为中心、以客户业务为中心的网络服务和能力。

云资源池网络平滑对接数据中心网络

企业IT云化过程中,云资源池只是数据中心的一部分,华为云Stack的网络部署架构可以平滑接入到数据中心内,和数据中心网络无缝集成,并且云上云下网络互通可以灵活匹配不同分区网络规划。

使用L3GW服务实现客户云上云下一张网

如之前文章《高性能云网关,打通云内外业务互通的任督二脉》中所讲,客户业务上云是一个渐进的过程,在这个过程中,客户的网络是覆盖云上云下的混合组网,对于政企客户来说,传统的数据中心网络规模比较庞大,一般会分多个物理网络分区,连接不同的网络:

? 数据中心互联区,用于同城跨数据中心互联;

? 广域网接入区,接入企业骨干网,用于异地多数据中心互联;

? 互联网接入区,用于连接公网;

? 外联网接入区,用于公司的合作伙伴接入。

每个业务根据服务的对象不同而要求接入不同的网络分区,有的业务只接入一个网络分区,有的业务会接入多个网络分区。这些业务上云之后,对外提供的服务不会变化,连接网络分区的诉求也不会变化,而客户云下物理分区的组网和配置是全局规划的,不能因为业务上云后适配云平台的组网和外部网络类型而调整云下的组网,造成云下网络管理和云平台网络管理有明显的差异,加大了网络管理和维护的难度。

华为云Stack网络L3GW服务,可以实现云上云下一张网,云上的业务网络通过L3GW服务作为一个业务区平滑的接入到传统数据中心的网络,保证客户数据中心现有的网络架构无需改动。

图1:通过L3GW服务实现云上云下业务一张网

承载L3GW服务的L3GW网关作为云上云下互通的边界网关,一边连接客户数据中心传统网络,一边连接云上的虚拟网络。考虑到客户数据中心的组网方式多种多样,L3GW支持多种组网方式,比如堆叠组网、VRRP组网、双活口字型组网以及双活交叉组网等,这几种组网下云平台L3GW服务都能实现L3GW网关的配置自动化下发,另外还支持客户自定义组网,满足客户个性化诉求,实现客户数据中心网络不需要改造,也可以使用L3GW服务。对于自定义组网,虚拟网络的配置也是云平台L3GW服务自动化下发的,客户只需要配置自定义部分的网络即可。

传统业务上云,网络规划方案不变

华为云Stack可以支持业务上云后,网络管理员继续使用上云前的网络规划和配置习惯,平移上云。

使用VPC服务实现业务网络平移上云

VPC是华为云Stack提供的云上的安全隔离的虚拟私有网络,可以理解成传统物理网络的虚拟版本:

? 它是一个完全由客户自己掌控的网络,包括子网配置,网关配置,路由配置等,通过VPC实现业务东西向互通诉求;

? 它支持丰富的连接,可以连接到其它VPC,也可以连接到客户本地数据中心,也可以连接到其它Region的VPC,由客户按需定制,通过丰富的连接实现业务南北向通信诉求;

? 它也是一个安全隔离的网络,安全隔离能力可以做到和传统网络设备vlan隔离级别一样。

客户云上的业务都是运行在VPC里,云上业务使用的VPC分两种场景,一种是大量小规格的VPC,另一种是少量大规格的VPC。大量小规格VPC场景,是类公有云的一种用法,各个业务部门有自己的账号,自助在云上申请根据业务类型申请VPC和自定义VPC网络,云的特点天然能支持这种多VPC的场景。比较有挑战的是少量大规格VPC的场景,这种场景是企业客户由于传统业务网络分区规划方式,固有组织流程,合规要求等因素,希望业务平移上云的普遍诉求。

如上文所说,传统的数据中心网络一般会分多个物理网络分区,有数据中心互联区、广域网接入区、互联网接入区、外联网接入区。网络管理员根据业务规模以及增长趋势预先给每个分区规划独立的网段池子,业务上线的时候,网络管理员基于业务的互通诉求从对应的分区网段池子下分配子网给业务使用,而不用感知业务类型给每个业务预先规划网段池子。

业务上云后,为了保留这种网络管理方式,云上的VPC根据网络分区规划,比如规划成内网VPC,互联网VPC,外网VPC等,每个VPC里的子网划分还是保留上云前的分配方式,那业务规模的大小决定了VPC子网规格,以及VPC下IP个数。以内网VPC举例,假设网络管理员规划的内网网段为1个B类地址,每次分配给业务使用为24位掩码子网,那么内网VPC下的子网个数为256个,可用IP个数高达6w左右。云上VPC要能支持大规格子网和大规格IP才能满足客户保留网络管理习惯,业务平移上云。

VPC下子网和IP个数越多,云平台管控面压力越大,因为同一个VPC下所有IP默认是可以互通,高可用诉求下的业务反亲和部署,虚机会打散部署在资源池内所有主机上,导致VPC内不同的IP覆盖不同的计算节点,当有新的IP分配给业务使用后,VPC覆盖的所有计算节点都要处理新IP,下发IP对应的ARP表,控制器需要通知所有计算节点处理新IP上线,控制器的处理数据量随着VPC规模变大而变大;还有一种考验控制面性能的场景是虚机迁移场景,尤其是虚机并发迁移到新的主机上,新的主机要下发VPC下全量子网信息对应的路由表项,全量IP信息对应的ARP表项,表项越多,耗时越长,迁移导致的网络零中断越难保证。

华为云Stack的 VPC控制器,采用分布式系统架构,管控层和数据层分离,管控层controller通过状态外置到nosql,实现弹性横向扩容;通过MQ,实现消息分发和流量削峰;数据层通过agent组件接收controller的配置消息,转换成数据面的配置,帮助数据面屏蔽业务信息,让数据面更简单可靠。controller和agent之间的消息推送采用push-pull机制,controller无需感知agent的状态,逻辑简单;agent减少无效轮询,配置快速生效。

基于这种软件架构,华为云Stack 单VPC支持的大规格子网和大规格IP,可以满足绝大部分企业客户,保留原有的网络管理习惯的诉求,业务网络平移上云。

使用网络ACL服务解决业务安全配置平移上云

数据中心的网络安全防护必不可少,安全防护一般由安全部门负责。数据中心内部是私有环境,相对安全,业务之间互相访问,通过在硬件防火墙配置ACL规则防护即可,网络管理员给每个业务分区规划硬件防火墙,业务上线的时候,给安全部门提要求,安全部门根据业务的诉求,在硬件防火墙上配置对应的ACL规则。业务下线的时候,再把安全规则从硬件防火墙上移除。业务规模大的时候,硬件防火墙上配置的ACL规则会非常多。我们曾经遇到一个金融客户,单个网络分区的硬件防火墙上配置了60w条ACL规则。

网络云化后,相比传统网络,安全边界发生变化,云下硬件防火墙规则需要平移到云上网络ACL,基于传统安全配置管理习惯,安全规则跟着业务上云,云上提供的网络ACL服务必须支持大量的规则才能满足诉求。

云上的网络ACL服务,业界常见实现方式是分布式,ACL规则下发到各个主机上,而不是传统的集中式的方式。ACL是有状态的,ACL规则越多,新建连接逐条规则匹配,性能就越低,因此单个ACL实例下规则数一般不会很大,大多数友商都小于200条。这对于业务规模比较大,或者是有安全合规要求的行业比如金融行业是远远不够的。

华为云Stack网络ACL服务,优化了网络ACL匹配算法,解决了ACL规则多带来的新建连接数低的影响,单个网络ACL规则从200条,提升到1w条,新建连接没有任何影响。基于这个优化,华为云Stack单个网络ACL实例支持的ACL规则数1w条(按照IP和Port展开计算),业务上云过程中,安全配置管理还是保留原有的习惯,平移上云。

云上业务继续使用传统高级网络设备

华为云Stack可以支持业务上云后,继续使用传统的高级网络设备,业务不需要改造。

使用L2BR服务集成第三方负载均衡器

客户在传统数据中心部署的业务,可能会使用到硬件负载均衡设备提供的某些特性,而这些特性云平台提供的负载均衡服务短期内无法支持,这类业务上云,如果使用云平台提供的负载均衡服务,需要对业务进行改造,改造成不使用云平台不支持的特性,业务改造尤其是生产业务改造带来的代价和风险是不可预知的,因此很难落地;还有一种场景,客户由于使用习惯、技术储备、设备利旧和已有资产保护等原因,要求云上的业务可以继续使用传统的第三方硬件负载均衡设备。

解决这两个问题的常见思路是在云上手动部署负载均衡设备的虚拟化版本,手动部署对客户的网络技能要求很高,并且管理和运维复杂度大大提升,可靠性也比较低。而华为云Stack IaaS网络L2BR服务支持集成第三方硬件负载均衡设备,迁移到云上的业务还可以像在云下一样使用传统的负载均衡设备,应用零改造上云。

图2:L2BR集成硬件LB应用场景

如上图所示,传统硬件LB旁挂在L2BR网关上,硬件LB上配置LB实例提供LB服务,LB实例所在子网通过L2BR实例接入到云内VPC,后端server运行在云上,client可以在云外,也可以在云上。云上多个VPC可以共享硬件LB,也支持跨VPC访问LB实例。客户可以根据业务诉求按需灵活组网,既可以使用硬件设备的高级功能,也可以保持原有的操作习惯和体验。

总结

华为云Stack适配政企业务上云,充分考虑客户业务上云过程中既可以把网络平移到云上,同时又保留原有的网络架构,操作体验和习惯。通过深入理解客户业务和网络,设计匹配政企应用的网络部署模型和网络使用方案,实现客户网络配置从云下到云上的零修改平移,应用快速迁移入云;通过集成传统负载均衡设备,实现深度特性功能要求,应用零改造上云;通过高性能、低时延、低成本的硬件交换机L3GW/L2BR网关,实现云上云下高速互联、云上云下一张网,为客户数字化转型极大提升了资源的使用效率和业务的运作效率。

 

点击关注,第一时间了解华为云新鲜技术~