大数跨境
0
0

哔哩哔哩设计这样一张 AI 网络!

哔哩哔哩设计这样一张 AI 网络! 云深知网络
2025-01-14
1
作为唯一不带
片头广告的视频网站
B站是小美和小帅最美的家
2022年之前B站公网1.0结构中
核心网络设备相当于整个网络枢纽

2022年之后
B站上线公网2.0结构
组网去堆叠控制层面独立
每个层级的设备均独立运行


AI时代FOMO当道
B站同样设计落地AI计算网络

基于如下结论
综合考虑成本和性能

B站决定采用Fat-Tree的组网



整体组网集群
分为存储网络和前后端网络
后端网络也就是算力网络基于以太网
RDMA技术实现GPU服务器之间数据传输


重点来了
后端网络交换机取决于GPU
B站的GPU服务器双剑合璧内外兼修

以海外某类型GPU服务器选型为例:


每台GPU服务器配置8个200G网口用来连接AI计算网络交换机进行GPU与GPU之间网络通信。配置2个25G网口用来连接通用存储网络,从外部拉取训练所需资源以及将训练完成后的数据传递到专用推理网络。另外配置一个MGT口用于GPU服务器的带外管理。


交换机选型采用博通Tomahawk 4芯片25.6Tbps交换容量的盒式交换机,端口密度为64*400Gbps。


以国产某类型GPU服务器选型为例:


每台GPU服务器配置8个400G网口用来连接AI计算网络交换机进行GPU与GPU之间网络通信。配置2个25G网口用来连接通用存储网络,从外部拉取训练所需资源以及将训练完成后的数据传递到专用推理网络。另外配置一个MGT口用于GPU服务器的带外管理。然而由于GPU服务器在硬件和软件上的一些功能限制,无法与海外GPU服务器混部在同一张AI算力网络中,因此不得不单独设计一套用于适配国产GPU服务器的AI计算网络。厂商推荐了两种组网方案,一种基于自研芯片+商用芯片的框盒组网方案,另一种是基于商用芯片盒盒组网方案。


B站网络技术团队充分考虑组网统一性,采用盒盒组网方案落地应用。


每4台LEAF组成一个POD

单POD内8台服务器128张GPU卡

16台SPINE组成Cluster连接最多8个POD

因此架构总共容纳64台服务器1024张GPU卡



网络拥塞怎么办
又看到熟悉的固定模式NSLB
听上去很美的东西都会有一定代价

由于传统五元组哈希的负载存在随机性导致AI网络中局部链路拥塞,经过与厂商交流可选用固定路径策略,根据下行链路的索引,将数据包转发至特定上行链路。且由于某国产GPU服务器默认不支持ECN特性,因而在传统五元组ECMP的HASH策略下选择路径固定模式NSLB负载均衡方式。


从配置上来讲,每台LEAF交换机下联的32个逻辑200G端口打上32个index标签,当GPU服务器之间需要跨POD进行通信时,会根据32个index标签均匀的哈希到16个上联400G口,明确转发路径,减少网络拥塞,通过该手段调优,在实际使用中无链路故障场景下链路带宽利用率可达98%。而在故障场景下降级使用传统五元组ECMP的HASH策略,保持与优化之前一样的通信效率。

B站正在从
千卡向万卡集群迈进
期待更多国产化方案的落地


点击阅读原文查阅全文。

百模大战中的网络系列:

阿里:面向大模型时代的网络基础设施研究的挑战、阶段成果与展望

百度:彻底解决网络哈希冲突,百舸的高性能网络 HPN 落地实践

腾讯:星脉高性能计算网络为AI大模型构筑网络底座

幻方 AI DeepSeek 模型背后的网络集群建设!

零一万物:面向万卡集群的 AI 基础设施建设

360智算中心:万卡GPU集群落地实践

鹏城云脑万卡级智算集群体系架构

科大讯飞:万卡级智算集群

百川智能的大模型基础设施

IBM世界级生成式AI基础设施



【声明】内容源于网络
0
0
云深知网络
“可能是中国最好的OPEN网络公众号” “嗯,必须是的”
内容 1315
粉丝 0
云深知网络 “可能是中国最好的OPEN网络公众号” “嗯,必须是的”
总阅读1.1k
粉丝0
内容1.3k