Intel EGS 平台 RTX 5090 vs PRO 6000 vs RTX 6000D

Byte-哈哈摩

2025-12-01

导读：🚀 前言近期业内对GPU Topo、性能调优（方案）、新方案Super NIC CX8、RTX 6000D关

🚀 前言

近期业内对GPU Topo、性能调优（方案）、新方案Super NIC CX8、RTX 6000D关注度最高。所以本篇基于5090、6000D、Pro 6000从SPEC对比、性能数据及硬件方案来展开说明。

有产品需求的朋友，可私信作者转交内部相关人员对接。

个人观点，欢迎补充。

🚀🚀 规格对比

5090 vs Pro 6000 vs 6000D纸面参数

规格	RTX 5090	RTX 6000D	RTX PRO 6000
Total global Memory（显存）	32109 MB	85051 MB	97250 MB
CUDA Cores	21760	19968	24064
GPU Max Clock rate	2.41 GHz	2.43 GHz	2.43 GHz
Memory Clock rate	14001Mhz	12481 Mhz	12481 Mhz
Memory Bus Width	512-bit	448-bit	512-bit
L2 Cache Size	100663296 bytes	117440512 bytes	134217728 bytes
Device ECC support	Disabled	Enabled	Enabled

上表中的PRO 6000仅作为参考对比（DDDD），主要看6000D（企业级显卡）相较于5090（消费级显卡）在显存、时钟频率、ECC等方面的改变。其次，cuda核心方面6000D相较于5090是减少的。

🚀🚀🚀RTX 6000D实测数据展示

直通Topo及数据展示

直通配置的优势是拓扑简单、维护方便，且每个PCIE 设备如GPU卡独享一路PCIe x16资源（CPU的一组PE口），各卡之间的数据转发不受影响。唯一劣势就是CPU资源有限，所以直通配置的服务器设备能支持的PCIe设备数据就有限（需要均衡nvme、高速网卡等配置）。调优方面也只要cpu平台（BIOS）相关配置调到最优即可。

NCCL带宽测试方面，all_reduce及Alltoall数据均可达40GB/s和37GB/s以上。

小包延时（8B）方面，all_reduce可以达到29us以内，Alltoall可以达到36us以内。与业界友商处于同级水平。
SW-Balance模式Topo及数据展示
说明：Pcie sw根据型号不同支持的pcie数量不同，上图只展示了GPU的配置数量，不代表sw实际支持的设备数。
SW相较于直通，优势就是在有限的资源（如上图Balance模式只需要四组PE资源）可以支持更多的PCIe设备、更高的带宽（P2P场景）、更低的延时。

由于SW-Balance模式每个sw芯片有两组上行口x16资源到CPU，此上行口存在带宽限制，所以整机8卡数据（all_reduce为33GB/s,alltoall为25Gb/s）相较直通配置存在部分差距。
为了更直观展示sw的优势，此处展示单SW内-四卡的数据（all_reduce为48GB/s，Alltoall为46GB/s）：

补充：文中提到的PE口 PCIe Endpoint，他其实是CPU的一组资源：独立的BDF号、配置空间、内存地址空间。是操作系统管理和虚拟化的基本单位。