大数跨境

多并发性价比之选:RTX PRO 5000 48G大模型推理实测报告

多并发性价比之选:RTX PRO 5000 48G大模型推理实测报告 宽恒科技
2026-04-22
31
导读:在功耗控制上表现更优,整体推理性价比突出,是兼顾成本与性能的务实选择。

随着大模型推理部署进入规模化落地阶段,高显存、高带宽、高并发成为专业级显卡的核心考核指标。本次我们针对NVIDIA RTX PRO 5000 Blackwell 48G专业显卡(以下简称:PRO 5000 48G),完成覆盖基础算力、多卡互联、大模型推理的全链路实测,用真实数据验证其在企业级AI服务、私有化部署场景的真实战力。


NVIDIA RTX PRO 5000 Blackwell核心参数

显存大小

48GB/72GB

架构

Blackwell

FP32 (TFLOPS)

65

FP16 (TFLOPS)

516

FP8 (TFLOPS)

1032

FP4 (TFLOPS)

2064

INT8 (TOPS)

1032

INT4 (TOPS)

2064

显存规格

GDDR7

显存位宽

512 bit

显存带宽

1344 GB/s

CUDA / RT Cores

14080 / 196 TFLOPS

TDP

300W

注:以下数据均由宽恒科技前沿技术研究院实测得出结果仅供参考最终落地的实际性能稍有差异


01

























测试平台配置

本次测试基于标准企业级部署环境,软件栈与大模型生产环境对齐,确保结果可直接用于落地参考。

硬件核心配置

GPU

PRO 5000 48G * 4

CPU

AMD EPYC 9654 96-Core Processor * 2

内存

64G * 16

PCIE

PCI-E 5.0

测试环境(软件)

系统

Ubuntu 22.04.5 LTS

GPU 驱动版本

580.119.02

CUDA版本

13.0.88

Python

Python 3.12.12

Torch

2.9.0+cu130

vllm

0.13.0+cu130


02


























测试项目说明

本次测试围绕AI 大模型训练与推理核心场景,针对性验证 4 项关键性能。

测试项目

GPU显存

带宽测试

评估主机与显卡、显卡内部数据传输效率

GPU卡间

带宽测试

验证多卡 P2P 互联、并行计算通信能力

NCCL集群

通信测试

分布式训练核心通信性能基准

LLM推理

性能测试

32B/70B 级大模型实际部署能力


03


























核心测试结果

1. GPU显存带宽(GB/s)

方式

主机→设备

设备→主机

设备→设备

显卡平分

57.4

57.3

4345.5

显卡同侧

57.4

56.4

4397.0

  • 显存带宽表现拉满,完全满足大规模数据吞吐与高速计算需求。


2. GPU卡间带宽(GB/s)

方式

Bidirectional P2P

显卡平分

禁用

启用

43.23

52.32

显卡同侧

禁用

启用

42.45

102.73

  • P2P 禁用:约43GB/s

  • P2P 启用:最高102.93GB/s

  • 开启P2P后多卡协同效率接近翻倍,适配并行训练、多卡推理场景。


3. NCCL 测试(4卡对比 GB/s)

PRO 5000 48G

测试项

显卡平分

显卡同侧

all_reduce_perf 4卡

10.9874

41.3084

all_gather_perf 4卡

11.019

39.7315

alltoall_perf 4 卡

12.1297

43.8159

RTX 50**

测试项

显卡平分

显卡同侧

all_reduce_perf 4卡

8.0752

48.8447

all_gather_perf 4卡

7.8644

46.6204

alltoall_perf 4 卡

8.0313

48.3645

  • PRO 5000 48G多卡部署接近RTX 50** 90%的性能,分布式训练通信瓶颈大幅缓解。


04


























LLM 大模型推理实测

本次测试采用行业主流大模型,严格按照首 Token 延迟<5s、单用户>10 tokens/s的生产标准压测,验证真实服务能力。


测试模型与规则

  • 模型 1:QwQ-32B(FP16,32k 上下文,TP=4)

  • 模型 2:Llama3-70B(FP16,32k 上下文,TP=8)

  • 输入输出长度:512/512、1024/1024

  • 核心指标:首Token延迟、单用户吞吐、最大稳定并发、Decode 吞吐、总吞吐


测试结果:

QwQ-32B

测试项

il/ol=512/512

il/ol=1024/1024

显卡平分

显卡同侧

显卡平分

显卡同侧

首token延迟(s)

4.9624

4.9858

4.9796

4.9668

单个请求token

16

18

23

25

Output token throughput(tok/s)

811

1573

563

1043

Total token throughput(tok/s)

1622

3147

1126

2086

并发数量

52

87

25

42

Llama3-70B

测试项

il/ol=512/512

il/ol=1024/1024

显卡平分

显卡同侧

显卡平分

显卡同侧

首token延迟(s)

4.9336

4.9941

5.0721

4.9367

单个请求token

13

14

16

18

Output token throughput(tok/s)

322

624

195

369

Total token throughput(tok/s)

643

1248

390

737

并发数量

24

45

12

21

  • QwQ-32B:输出吞吐最高3147tok/s,首 token 延迟<5s

  • Llama3-70B:输出吞吐最高1248tok/s,首 token 延迟<5s

  • 双模型均达标,可稳定支撑高并发大模型实时服务。


05


























本次测试结论

PRO 5000 48G是大模型部署性价比之选


综上,在预算有限、并发请求量不高的场景下,对于100B参数以内的大模型推理部署,PRO 5000 48G配置已足够满足需求。而且推理场景下,实测性能达90%同为Blackwell架构的某前辈卡。


况且PRO 5000是原生48G显存,在数据中心机房工况中长时间运行更为稳定。同时在功耗控制上表现更优,整体推理性价比突出,是兼顾成本与性能的务实选择。



下期我们将发布NVIDIA RTX PRO 5000 Blackwell 72G的测评报告,敬请期待!


ps:如果不清楚具体部署方式,或想达到最优部署,欢迎添加添加宽恒售前客服,提供您的需求,我们将竭诚为您服务。


扫码添加宽恒售前客服


【声明】内容源于网络
0
0
宽恒科技
宽恒科技致力推动智算集群的持续创新,具备AI基础设施的投资、建设、运维、销售、生命周期管理等全链路整合能力。累计服务3000多家中大型企业完成高性能基础设施建设,涵盖科研机构、互联网、自动驾驶、具身智能、智能制造、元宇宙、数字孪生等领域。
内容 251
粉丝 0
宽恒科技 宽恒科技致力推动智算集群的持续创新,具备AI基础设施的投资、建设、运维、销售、生命周期管理等全链路整合能力。累计服务3000多家中大型企业完成高性能基础设施建设,涵盖科研机构、互联网、自动驾驶、具身智能、智能制造、元宇宙、数字孪生等领域。
总阅读30
粉丝0
内容251