大数跨境
0
0

数据中心的"预制模块" — ConnectX-8 Specifications

数据中心的"预制模块" — ConnectX-8 Specifications Byte-哈哈摩
2025-12-04
1
导读:🚀 前言本篇内容基于公开资料(见文末参考资料)梳理CX-8的规格(就当是为方便大家查阅,而不用每次都去NV官

🚀 前言

本篇内容基于公开资料(见文末参考资料)梳理CX-8的规格(就当是为方便大家查阅,而不用每次都去NV官网搜索)。但是由于公开资料及作者能力有限(后者才是重点),可扩展的面不多,大家各取所需,也欢迎补充。

ConnectX-8 SuperNICHighest-performance 800G networkingdesigned for massive-scale AI.同时支持Spectrum-X EthQuantum-X IB技术。

🚀🚀 SPEC展示

  1. 规格总览

    没想到吧 还有Mezz形态和OCP 3.0形态。

  2. 关键特性细节

a. Network Interface

    

Supports up to 8 split ports是其高端能力和灵活性的标志,它意味着您购买的不是一个固定的400G接口,而是一个可以软件定义的、最高可配置为8*50G端口的“网络连接资源池”。当然也支持4*100G、2*200G

这与 400G端口的物理结构 密切相关:

  • 400G端口(常见封装为 OSFP 或 QSFP-DD)内部通常由 8条 电通道组成;

  • 目前主流技术下,每条电通道的速率是 50G PAM4。这8条通道捆绑在一起实现 8 * 50G = 400G 的总带宽;

  • “端口拆分” 的实质,就是将这些捆绑的通道解绑,并重新分配给多个逻辑端口。

bHost Interface

在基于PCIe连接的平台中,尤其配置8个及以上数量的GPU平台,GPU设备之间的通信带宽最大化无非通过PCIe Switch来满足,但受限于GPU设备的P2P特性(消费级)和SW到CPU的带宽,最终为了带宽和可扩展性会导致整个平台的硬件拓扑更加复杂。
而CX-8通过内置的PCIe Gen6 Switch提供48通道的PCIe Gen6连接解决了这一问题。将 GPU->GPU 和 GPU->NIC 通信整合到单一高性能设备中,消除了对独立 PCIe 交换机的需求,减少了元器件数量并简化了主板设计,为 AI 基础设施打造了更具成本效益、可扩展的架构。
假设:按照PCIe形态单机配置8GPU,参考拓扑如下图所示。从单CX-8提供总资源出发,每个芯片预留一组上行的Gen5/Gen6 x16接口,剩余32 lanes可挂载两个Gen5/Gen6 x16 GPU设备。其中一组CX-8及配套的2 GPU对另一组同负载的CX-8来说是独立的。(两组CX-8芯片是无法直接板内通信,如果跨上行口绕CPU来实现 [ 当前AMD、Intel等CPU好像还未支持到Gen6] 那将不是此方案的初衷。
所以都是外连 Spectrum-X 以太网交换机 / Quantum-X InfiniBand(覆盖不同规模的 AI 集群)。

:架构图参“考英伟达企业解决方案”公众号。上图中 物理隔离 是为了形象理解两个芯片之间不能"直接"通信

集成PCIe Switch的CX-8有如下核心作用:

  1. 简化了主板设计、改善了气流并增强了可维护性,打造一个更紧凑、更节能、更经济高效的平台。

  2. 首次实现“PCIe Gen6+800G”的端到端高速互联(PCIe Gen6 的 48 lanes带宽(1.5TB/s))。

  3. 基于 ConnectX-8 的优化设计可为集群内的所有 GPU 间通信提供高达每个GPU 50 GB/s的IO带宽,因为NCCL直接通过网络转发所有流量。

  4. 实现全组件的QoS保障,ConnectX-8的PCIe Switch能给不同组件分配 “服务质量优先级”(比如训练时给 GPU 通信最高优先级,推理时给SSD读数据最高优先级),避免“相互抢资源导致延迟飙升”。

C. Advanced AI/ HPC Networking 

d. AI/HPC Software

e. Others

Secure boot、MCTP、NCSI、PXE boot、iSCSI boot等不作展开。


参考资料


精彩推荐:







SuperNIC Cx-8方案落地实测后的深层解析&数据共享






AMD EPYC Turin平台直通P2P的实践与探索


RTX 4090 + RTX 5090的P2P通信实现


nvidia-smi 系列命令介绍


NVIDIA GPU基础环境部署


NVIDIA GPU常见报错信息分享及故障分析流程介绍


< 欢迎 点赞 评论 + 关注 >

【声明】内容源于网络
0
0
Byte-哈哈摩
你的每一次进步,都是重要的一 byte❤️
内容 25
粉丝 0
Byte-哈哈摩 你的每一次进步,都是重要的一 byte❤️
总阅读22
粉丝0
内容25