清华大学、中关村实验室
联合字节跳动提出面向大规模
智算集群的新型Scale-out组网架构
智算网络Scale-out组网架构
近年来人工智能大模型的参数规模和算力需求飞速增长。无论是支撑单一模型训练,还是提供多个模型训练和推理的云服务,都需要建设规模更大、算力更强的智算集群。智算集群的Scale-out 网络,指的是通过横向扩展计算节点和网络规模来提升整体计算性能的跨机互联网络。如果把智算网络类比为交通网络的话,组网架构相当于道路系统,而网络协议(如当前Scale-out网络普遍采用的InfiniBand和RoCE协议)相当于交通调度系统。任何交通调度系统,都是建立在设计与规划好的道路系统之上的。对于一个设计欠佳的道路系统,再好的交通调度系统也会遇到重重困难。同理,任何智算网络协议,也只有在设计良好的智算集群组网架构上,才能达到更好的效果。
智算集群Scale-out组网架构(以下简称智算组网架构)的优劣,可以通过以下4个指标来衡量。
网络带宽:智算集群的网络带宽,通常可以用二分带宽(Bisection Bandwidth)来衡量,即将集群分成任意两个节点数量相同的子集群时,连接两个子集群的带宽的最小值(最差情况)。由于模型训练对网络带宽的要求极高,当前绝大多数智算组网架构的网络带宽都是无阻塞的(也称为全二分带宽,Full Bisection Bandwidth),即计算节点之间的任意通信模式,带宽瓶颈都不在网络本身(瓶颈在网卡)。只要采用相同速率的网卡连接相同数量的GPU,这些组网架构都能提供同样的全二分带宽。因此,二分带宽并不是区分不同组网架构的关键指标。
网络直径:智算集群的网络直径,指的是集群中任意两个GPU之间的最短通信路径所经过链路数的最大值。降低网络直径有三方面的优势:
1)GPU之间的通信时延降低,从而提升分布式训练(尤其是流水线并行)和跨机推理的性能;
2)GPU之间的路径选择数量减少,从而降低流级别负载均衡路由算法的冲突概率;
3)GPU之间经过的交换机和链路数量减少,受到网络节点故障影响的概率也随之降低。
网络容错能力:智算集群的网络容错能力,指的是智算集群出现交换机故障时,集群的整体性能表现。可以用“真实性能降速比”来表示一个智算集群的网络容错能力,其定义如下:
其中,P(S)表示故障交换机集合发生的概率,可根据单个交换机的故障概率来计算;Perf(S)表示在故障交换机集合场景下,智算集群运行模型训练时的性能降速比。Perf(S) = T0 / TS,其中T0 表示无故障时的模型训练时间,TS表示该故障组合场景下的模型训练时间。一个智算集群的网络容错能力越强,模型训练性能受网络故障的影响越小,真实性能降速比就越高。根据某大型智算集群的实测统计数据,交换机故障率在0.1%到0.5%之间,在本文中取中值0.3%进行计算。
网络成本:网络成本主要考虑交换机和光模块的硬件成本,是智算集群成本和模型训练成本的重要组成部分。
综上所述,如何减少网络直径、提升网络容错能力、降低网络成本,是智算组网架构设计的关键考虑因素。
新型智算组网架构ZCube
清华大学NASP实验室在发表于SIGCOMM 2025的论文中,提出了一种新型超平面组网架构ZCube。其组网特点为:每台GPU服务器配置多个多端口网卡(一般是双端口网卡,如2*200Gbps双端口网卡),不同的网卡端口连接不同层(平面)交换机,跨层交换机之间全连接。其核心优势是:1)低直径:服务器直连各层交换机,减少全网通信直径;2)强容错:与现有单端口组网架构相比,双端口网卡配置使得ToR交换机故障后每个GPU仍有可用网卡端口;与现有多端口组网架构相比,ZCube所需的交换机数量更少,总体故障率更低;3)低成本:与业界其他组网架构相比,大幅降低交换机和光模块数量。
基于51.2Tbps交换机(128端口*400Gbps,且400Gbps光模块可按需拆分引出两根200Gbps光纤)构建16384 卡GPU集群(每台服务器配置8 GPU及8张双端口2*200Gbps网卡),ZCube组网架构如图1所示(每个网卡的端口1与第一层交换机互联,端口2与第二层交换机互联,两层交换机之间全连接)。
图1 基于51.2Tbps交换机构建
16384 GPU集群的ZCube组网架构
网络直径:在该架构中,任意两个GPU卡之间的最短通信路径,最多经过3条链路。因此网络直径为3。
网络容错能力:在该架构上运行GPT-3 175B模型训练,经过仿真计算,其真实性能降速比为97%。(GPT-3 175B模型训练并行策略为:张量并行TP=8,数据并行DP=256,流水线并行PP=8,下同)
网络成本:搭建该架构需要使用128 (L1) + 128 (L2) = 256台交换机,32768个400G光模块(交换机侧),32768个200G光模块(端侧)。
业界已有的其他智算组网架构
1、ROFT组网架构
英伟达公司于2020年首次提出ROFT(Rail-Optimized Fat-Tree)组网架构,目前被业界广泛采用。该架构的组网特点为:在传统Fat-Tree架构基础上,将多个服务器的同号网卡用一个Leaf交换机互联(一个轨道),使得同轨道GPU之间通信只需要1跳,适配大模型训练时产生的流量模式。
基于51.2Tbps (128端口* 400Gbps) 交换机构建16384 GPU集群,ROFT组网架构如图2所示。
图2 基于51.2Tbps交换机构建
16384 GPU 集群的ROFT组网架构
网络直径:该架构任意两个GPU卡之间的最短通信路径,最多经过6条链路。因此网络直径为6。
网络容错能力:在该架构上运行GPT-3 175B模型训练,经过仿真计算,其真实性能降速比为82%。
网络成本:搭建该架构需要使用256 (Leaf) + 256 (Spine) + 128 (Core) = 640台51.2Tbps交换机,49152个400G光模块。
2、Rail-only组网架构
MIT于2023年提出Rail-only组网架构,目前已被DeepSeek团队用于构建其千卡集群,支持DeepSeek-v3训练。其组网特点为:在ROFT架构基础上,将多个服务器上的同号网卡视作一个平面,使用二层SpineLeaf架构组网,跨平面通信依赖英伟达PXN技术。该架构的核心优势为:大规模组网通常只需两层交换机互联,在减少网络直径的同时,大幅降低组网成本。
基于51.2Tbps交换机(128端口*400Gbps)构建16384 GPU集群,Rail-only组网架构如图3所示。
图3 基于51.2Tbps交换机构建
16384 GPU集群的Rail-only组网架构
网络直径:该架构任意两个GPU之间的最短通信路径中,如果是同平面的GPU通信,最多需要经过4条链路;而如果是跨平面的GPU通信(需尽量避免),则还需要经过服务器内的NVLink转发(视作1条链路),那么最多需要经过5条链路。因此网络直径为4或5。
网络容错能力:在该架构上运行GPT-3 175B模型训练,经过仿真计算,其真实性能降速比为86%。
网络成本:搭建该架构需要使用256 (Leaf) + 128 (Spine) = 384台51.2Tbps交换机,65536个400G光模块。
参考阅读:Meta 万亿参数 AI 网络竟然没有 Spine 交换机
3、HPN组网架构
阿里云团队于2024年提出双端口双平面组网架构,目前已被应用于阿里云HPN 7.0。该架构的组网特点为:在ROFT架构基础上,将每个网卡的400G端口拆分成双端口2*200G,分别连接到两个不同的Leaf交换机,Leaf交换机下行400G端口被拆分为两条200G链路,连接不同网卡端口。其核心优势为:1)单台Leaf交换机可下联的服务器数量增加,组网成本降低;2)网卡双端口配置增强容错性。
基于51.2Tbps交换机(128端口*400Gbps,且400Gbps光模块可按需拆分引出两根200Gbps光纤)构建16384 GPU集群,HPN 7.0组网架构如图4所示。
图4 基于51.2Tbps交换机构建16384
GPU集群的HPN 7.0组网架构
网络直径:该架构任意两个GPU卡之间的最短通信路径,最多经过4条链路。因此网络直径为4。
网络容错能力:在该架构上运行GPT-3 175B模型训练,经过仿真计算,其真实性能降速比为92%。
网络成本:搭建该架构需要使用256 (Leaf) + 128 (Spine) = 384台51.2Tbps交换机,49152个400G光模块(交换机侧),32768个200G光模块(端侧)。
智算组网架构对比
表1总结了基于51.2Tbps交换机构建16384 GPU集群时,使用不同组网架构时的网络直径、网络容错能力和网络成本。
表1 以51.2T交换机构建16384 GPU集群组网方案对比
可以看出,与ROFT、Rail-only、HPN 7.0等业界现有的智算组网架构相比:1)ZCube实现了更低的网络直径,大规模仿真实验表明可将端到端模型训练性能提升3%~7%;2)ZCube将网络容错能力(真实性能降速比)提高了5%~15%;3)在实现前面两点优势的同时,ZCube还将网络硬件成本降低了26%~46%。
自动化智算网络架构设计工具ATOP
ZCube架构的设计来源于NASP实验室开发的一款自动化网络架构优化设计软件ATOP。ATOP支持对智算组网架构在新建、优化和扩建过程中的多目标优化,其工作流程如图5所示。
图5 ATOP工作流程图
拓扑建模(Topology Modeling): 将网络拓扑通过11类超参数建模,可表征现有大多数数据中心网络拓扑(如CLOS,Fat-Tree,Rail-Optimized,Alibaba’s HPN,BCube,Dragonfly, DCell,Torus,HyperX等),并基于用户输入的约束(如交换机端口约束,网卡约束等)构建拓扑搜索空间。
拓扑搜索优化(Topology Optimizer): 基于拓扑搜索空间、优化目标以及拓扑评估器性能分析反馈,使用多目标优化算法NSGA-II采样超参数配置,生成新拓扑。
拓扑评估(Topology Evaluator): 基于理论和仿真对新拓扑进行性能分析,并将新拓扑性能反馈至拓扑优化器。
运行ATOP对不同规模的智算集群进行拓扑搜索与优化,从优化结果中发现了ZCube组网架构。ATOP的搜索结果如图6所示。
图6 ATOP搜索结果图,每个点代表一个拓扑
随着硬件配置的演进、组网规模的增大、模型结构导致通信流量模式的变化以及用户需求的动态调整,常常需要探索新的组网架构。通过灵活调整输入条件,ATOP 能动态适应这些变化,并高效地寻找满足约束条件的优化组网架构。ZCube的优越性能,展现了ATOP针对智算场景的有效性。面对其它场景,例如智算集群Scale-up网络、云数据中心网络、通信网络、互联网广域网等,ATOP同样能根据不同的优化目标和限制条件,给出组网架构建议。
相关阅读:
P4可编程SDN交换机
P4教程 P4应用 P4论文
Tofino1 | Tifino 2 |Tofino 3
基于可编程交换机的网络仿真平台

