

哔哩哔哩设计这样一张 AI 网络！

云深知网络

2025-01-14

作为唯一不带

片头广告的视频网站

B站是小美和小帅最美的家

2022年之前B站公网1.0结构中

核心网络设备相当于整个网络枢纽

2022年之后

B站上线公网2.0结构

组网去堆叠控制层面独立

每个层级的设备均独立运行

AI时代FOMO当道

B站同样设计落地AI计算网络

基于如下结论

综合考虑成本和性能

B站决定采用Fat-Tree的组网

整体组网集群

分为存储网络和前后端网络

后端网络也就是算力网络基于以太网

RDMA技术实现GPU服务器之间数据传输

重点来了

后端网络交换机取决于GPU

B站的GPU服务器双剑合璧内外兼修

以海外某类型GPU服务器选型为例：

每台GPU服务器配置8个200G网口用来连接AI计算网络交换机进行GPU与GPU之间网络通信。配置2个25G网口用来连接通用存储网络，从外部拉取训练所需资源以及将训练完成后的数据传递到专用推理网络。另外配置一个MGT口用于GPU服务器的带外管理。

交换机选型采用博通Tomahawk 4芯片25.6Tbps交换容量的盒式交换机，端口密度为64*400Gbps。

以国产某类型GPU服务器选型为例：

每台GPU服务器配置8个400G网口用来连接AI计算网络交换机进行GPU与GPU之间网络通信。配置2个25G网口用来连接通用存储网络，从外部拉取训练所需资源以及将训练完成后的数据传递到专用推理网络。另外配置一个MGT口用于GPU服务器的带外管理。然而由于GPU服务器在硬件和软件上的一些功能限制，无法与海外GPU服务器混部在同一张AI算力网络中，因此不得不单独设计一套用于适配国产GPU服务器的AI计算网络。厂商推荐了两种组网方案，一种基于自研芯片+商用芯片的框盒组网方案，另一种是基于商用芯片盒盒组网方案。

B站网络技术团队充分考虑组网统一性，采用盒盒组网方案落地应用。

每4台LEAF组成一个POD

单POD内8台服务器128张GPU卡

16台SPINE组成Cluster连接最多8个POD

因此架构总共容纳64台服务器1024张GPU卡

网络拥塞怎么办

又看到熟悉的固定模式NSLB

听上去很美的东西都会有一定代价

由于传统五元组哈希的负载存在随机性导致AI网络中局部链路拥塞，经过与厂商交流可选用固定路径策略，根据下行链路的索引，将数据包转发至特定上行链路。且由于某国产GPU服务器默认不支持ECN特性，因而在传统五元组ECMP的HASH策略下选择路径固定模式NSLB负载均衡方式。

从配置上来讲，每台LEAF交换机下联的32个逻辑200G端口打上32个index标签，当GPU服务器之间需要跨POD进行通信时，会根据32个index标签均匀的哈希到16个上联400G口，明确转发路径，减少网络拥塞，通过该手段调优，在实际使用中无链路故障场景下链路带宽利用率可达98%。而在故障场景下降级使用传统五元组ECMP的HASH策略，保持与优化之前一样的通信效率。

B站正在从

千卡向万卡集群迈进

期待更多国产化方案的落地