多并发性价比之选：RTX PRO 5000 48G大模型推理实测报告- 大数跨境

宽恒科技

2026-04-22

导读：在功耗控制上表现更优，整体推理性价比突出，是兼顾成本与性能的务实选择。

随着大模型推理部署进入规模化落地阶段，高显存、高带宽、高并发成为专业级显卡的核心考核指标。本次我们针对NVIDIA RTX PRO 5000 Blackwell 48G专业显卡（以下简称：PRO 5000 48G），完成覆盖基础算力、多卡互联、大模型推理的全链路实测，用真实数据验证其在企业级AI服务、私有化部署场景的真实战力。

NVIDIA RTX PRO 5000 Blackwell核心参数
显存大小	48GB/72GB
架构	Blackwell
FP32 (TFLOPS)	65
FP16 (TFLOPS)	516
FP8 (TFLOPS)	1032
FP4 (TFLOPS)	2064
INT8 (TOPS)	1032
INT4 (TOPS)	2064
显存规格	GDDR7
显存位宽	512 bit
显存带宽	1344 GB/s
CUDA / RT Cores	14080 / 196 TFLOPS
TDP	300W

注：以下数据均由宽恒科技前沿技术研究院实测得出结果仅供参考最终落地的实际性能稍有差异

测试平台配置

本次测试基于标准企业级部署环境，软件栈与大模型生产环境对齐，确保结果可直接用于落地参考。

硬件核心配置
GPU	PRO 5000 48G * 4
CPU	AMD EPYC 9654 96-Core Processor * 2
内存	64G * 16
PCIE	PCI-E 5.0

测试环境（软件）
系统	Ubuntu 22.04.5 LTS
GPU 驱动版本	580.119.02
CUDA版本	13.0.88
Python	Python 3.12.12
Torch	2.9.0+cu130
vllm	0.13.0+cu130

测试项目说明

本次测试围绕AI 大模型训练与推理核心场景，针对性验证 4 项关键性能。

测试项目
GPU显存带宽测试	评估主机与显卡、显卡内部数据传输效率
GPU卡间带宽测试	验证多卡 P2P 互联、并行计算通信能力
NCCL集群通信测试	分布式训练核心通信性能基准
LLM推理性能测试	32B/70B 级大模型实际部署能力

核心测试结果

1. GPU显存带宽（GB/s）

方式	主机→设备	设备→主机	设备→设备
显卡平分	57.4	57.3	4345.5
显卡同侧	57.4	56.4	4397.0

显存带宽表现拉满，完全满足大规模数据吞吐与高速计算需求。

2. GPU卡间带宽（GB/s）

方式	Bidirectional P2P
显卡平分	禁用	启用
显卡平分	43.23	52.32
显卡同侧	禁用	启用
显卡同侧	42.45	102.73

P2P 禁用：约43GB/s
P2P 启用：最高102.93GB/s
开启P2P后多卡协同效率接近翻倍，适配并行训练、多卡推理场景。

3. NCCL 测试（4卡对比 GB/s）

PRO 5000 48G
测试项	显卡平分	显卡同侧
all_reduce_perf 4卡	10.9874	41.3084
all_gather_perf 4卡	11.019	39.7315
alltoall_perf 4 卡	12.1297	43.8159

RTX 50**
测试项	显卡平分	显卡同侧
all_reduce_perf 4卡	8.0752	48.8447
all_gather_perf 4卡	7.8644	46.6204
alltoall_perf 4 卡	8.0313	48.3645

PRO 5000 48G多卡部署接近RTX 50** 90%的性能，分布式训练通信瓶颈大幅缓解。

LLM 大模型推理实测

本次测试采用行业主流大模型，严格按照首 Token 延迟＜5s、单用户＞10 tokens/s的生产标准压测，验证真实服务能力。

测试模型与规则

模型 1：QwQ-32B（FP16，32k 上下文，TP=4）
模型 2：Llama3-70B（FP16，32k 上下文，TP=8）
输入输出长度：512/512、1024/1024
核心指标：首Token延迟、单用户吞吐、最大稳定并发、Decode 吞吐、总吞吐

测试结果：

QwQ-32B
测试项	il/ol=512/512		il/ol=1024/1024
测试项	显卡平分	显卡同侧	显卡平分	显卡同侧
首token延迟（s）	4.9624	4.9858	4.9796	4.9668
单个请求token	16	18	23	25
Output token throughput（tok/s）	811	1573	563	1043
Total token throughput（tok/s）	1622	3147	1126	2086
并发数量	52	87	25	42

Llama3-70B
测试项	il/ol=512/512		il/ol=1024/1024
测试项	显卡平分	显卡同侧	显卡平分	显卡同侧
首token延迟（s）	4.9336	4.9941	5.0721	4.9367
单个请求token	13	14	16	18
Output token throughput（tok/s）	322	624	195	369
Total token throughput（tok/s）	643	1248	390	737
并发数量	24	45	12	21