🚀 前言
近期业内对GPU Topo、性能调优(方案)、新方案Super NIC CX8、RTX 6000D关注度最高。所以本篇基于5090、6000D、Pro 6000从SPEC对比、性能数据及硬件方案来展开说明。
🚀🚀 规格对比
5090 vs Pro 6000 vs 6000D纸面参数
规格
RTX 5090
RTX 6000D
RTX PRO 6000
Total global Memory(显存)
32109 MB
85051 MB
97250 MB
CUDA Cores
21760
19968
24064
GPU Max Clock rate
2.41 GHz
2.43 GHz
2.43 GHz
Memory Clock rate
14001Mhz
12481 Mhz
12481 Mhz
Memory Bus Width
512-bit
448-bit
512-bit
L2 Cache Size
100663296 bytes
117440512 bytes
134217728 bytes
Device ECC support
Disabled
Enabled
Enabled
上表中的PRO 6000仅作为参考对比(DDDD),主要看6000D(企业级显卡)相较于5090(消费级显卡)在显存、时钟频率、ECC等方面的改变。其次,cuda核心方面6000D相较于5090是减少的。
🚀🚀🚀RTX 6000D实测数据展示
直通Topo及数据展示
直通配置的优势是拓扑简单、维护方便,且每个PCIE 设备如GPU卡独享一路PCIe x16资源(CPU的一组PE口),各卡之间的数据转发不受影响。唯一劣势就是CPU资源有限,所以直通配置的服务器设备能支持的PCIe设备数据就有限(需要均衡nvme、高速网卡等配置)。调优方面也只要cpu平台(BIOS)相关配置调到最优即可。
NCCL带宽测试方面,all_reduce及Alltoall数据均可达40GB/s和37GB/s以上。
小包延时(8B)方面,all_reduce可以达到29us以内,Alltoall可以达到36us以内。与业界友商处于同级水平。
SW-Balance模式Topo及数据展示

说明:Pcie sw根据型号不同支持的pcie数量不同,上图只展示了GPU的配置数量,不代表sw实际支持的设备数。
SW相较于直通,优势就是在有限的资源(如上图Balance模式只需要四组PE资源)可以支持更多的PCIe设备、更高的带宽(P2P场景)、更低的延时。
由于SW-Balance模式每个sw芯片有两组上行口x16资源到CPU,此上行口存在带宽限制,所以整机8卡数据(all_reduce为33GB/s,alltoall为25Gb/s)相较直通配置存在部分差距。
为了更直观展示sw的优势,此处展示单SW内-四卡的数据(all_reduce为48GB/s,Alltoall为46GB/s):
补充:文中提到的PE口 PCIe Endpoint,他其实是CPU的一组资源:独立的BDF号、配置空间、内存地址空间。是操作系统管理和虚拟化的基本单位。

