

B站决定采用Fat-Tree的组网
以海外某类型GPU服务器选型为例:
每台GPU服务器配置8个200G网口用来连接AI计算网络交换机进行GPU与GPU之间网络通信。配置2个25G网口用来连接通用存储网络,从外部拉取训练所需资源以及将训练完成后的数据传递到专用推理网络。另外配置一个MGT口用于GPU服务器的带外管理。
交换机选型采用博通Tomahawk 4芯片25.6Tbps交换容量的盒式交换机,端口密度为64*400Gbps。
以国产某类型GPU服务器选型为例:
每台GPU服务器配置8个400G网口用来连接AI计算网络交换机进行GPU与GPU之间网络通信。配置2个25G网口用来连接通用存储网络,从外部拉取训练所需资源以及将训练完成后的数据传递到专用推理网络。另外配置一个MGT口用于GPU服务器的带外管理。然而由于GPU服务器在硬件和软件上的一些功能限制,无法与海外GPU服务器混部在同一张AI算力网络中,因此不得不单独设计一套用于适配国产GPU服务器的AI计算网络。厂商推荐了两种组网方案,一种基于自研芯片+商用芯片的框盒组网方案,另一种是基于商用芯片盒盒组网方案。
B站网络技术团队充分考虑组网统一性,采用盒盒组网方案落地应用。
每4台LEAF组成一个POD
单POD内8台服务器128张GPU卡
16台SPINE组成Cluster连接最多8个POD
因此架构总共容纳64台服务器1024张GPU卡
由于传统五元组哈希的负载存在随机性导致AI网络中局部链路拥塞,经过与厂商交流可选用固定路径策略,根据下行链路的索引,将数据包转发至特定上行链路。且由于某国产GPU服务器默认不支持ECN特性,因而在传统五元组ECMP的HASH策略下选择路径固定模式NSLB负载均衡方式。
从配置上来讲,每台LEAF交换机下联的32个逻辑200G端口打上32个index标签,当GPU服务器之间需要跨POD进行通信时,会根据32个index标签均匀的哈希到16个上联400G口,明确转发路径,减少网络拥塞,通过该手段调优,在实际使用中无链路故障场景下链路带宽利用率可达98%。而在故障场景下降级使用传统五元组ECMP的HASH策略,保持与优化之前一样的通信效率。
百模大战中的网络系列:
阿里:面向大模型时代的网络基础设施研究的挑战、阶段成果与展望
百度:彻底解决网络哈希冲突,百舸的高性能网络 HPN 落地实践

