🚀 背景介绍
前面分享了一篇Hotchips 2025 CX8 (ConnectX-8) SuperNIC的文章,主要是从应用场景AI训练和推理对网络策略的要求、CX-8的技术规格、新技术、架构等方面来引出介绍整体的一个性能提升。
本篇主要基于 CX-8落地服务器的整机配置,通过Topo、具体的CX-8 lanes资源分配、某些实测数据等方面,更立体、详细地将CX-8的PPT性能数据完美复刻。
备注:调优类细节性不会共享(过于先进,不便展示)、也不要私信,感谢理解。
🚀🚀 硬件Topo介绍
CX-8 Topo展示

从CX-8的规格书中可知每个芯片的Host/IO Interface为48Lanes PCIe Gen6 Integrated PCIe Switch。如上图所示,每个CX-8 有16条lane作为上行口,就是连接到CPU的那一组,然后有32条lanes是作为下行口,用来连接两个GPU设备(Gen5 or Gen6)。所以一个CX-8 SW板有四个芯片,一共可以挂4*2=8块GPU设备。另外每个SW芯片有一个CX-8网卡,提供给同sw下的GPU设备进行数据收发。
OS下的Topo展示
Pcie Tree:
nvidia-smi topo -m
🚀🚀🚀实测性能表现
GDR实测数据
NCCL数据

