

25000 tokens每秒！显卡法拉利-英伟达 H200满血实测

小A闯跨境

2025-10-17

导读：测试过程中，老王亲眼目睹了一个让人头皮发麻的数据：Prefill瞬时速度飙到 25767 tokens/秒！

前方高能预警：自己的粉丝自己宠，老王狠心掏空钱包，直接拿下8卡H200！这次我们要用显卡界的"法拉利"，跑一跑最新的DeepSeek-V3.2-Exp（671B参数，FP8精度）。

废话不多说，直接上硬核数据！💪

📊 性能压测：让数据说话

显卡	模型	推理框架	输入长度	输出长度	并发	端到端时延	系统吞吐	平均首token时延	平均每token时延
8卡H20	DeepSeek-R1-0528	vLLM	4096	512	50	53.4476	473.99	11.1904	0.0825
8卡H20	DeepSeek-R1-0528	vLLM	4096	512	100	83.9804	599.775 📊	21.8258	0.1214
8卡H200	DeepSeek-R1-0528	vllm	4096	512	50	27.5632	926.5148	4.5955	0.0449
8卡H200	DeepSeek-R1-0528	vllm	4096	512	100	40.3504	1263.3173 🚀	5.8644	0.0675
8卡H200	DeepSeek-V3.2-Exp	sglang:v0.5.3-cu129	4096	512	50	28.279	904.0329	6.7346	0.0422
8卡H200	DeepSeek-V3.2-Exp	sglang:v0.5.3-cu129	4096	512	100	39.4726	1294.8782	10.9288	0.0559
8卡H200	DeepSeek-V3.2-Exp	sglang:v0.5.3-cu129	65536	512	10	65.2998	77.5783	28.8426	0.0713
8卡H200	DeepSeek-V3.2-Exp	sglang:v0.5.3-cu129	65536	512	30	131.1802	116.6409	64.3759	0.1307

💥 见证奇迹的时刻：Prefill速度炸裂！

测试过程中，老王亲眼目睹了一个让人头皮发麻的数据：Prefill瞬时速度飙到 25767 tokens/秒！

有人问Prefill是什么？

简单来说，Prefill就是大模型的"阅读理解阶段"——在开始输出答案之前，模型要先把你的问题"看"完、"理解"透。这个过程就叫Prefill（预填充）。

而H200的Prefill速度达到了 25000+ tokens/秒，这意味着什么？

📖 让我们来感受一下这个速度

📚 H200"看"完一本《红楼梦》的时间，你可能还在读"满纸荒唐言"这五个字
🚀 这速度就像是开着超音速战斗机在书海里飞——普通人还在翻封面，它已经把整本书装进脑子了

简单来说：H200的Prefill阶段，就像是把整个图书馆瞬间扫描进大脑的过程 🧠⚡

💡小知识：为什么输出速度（Decode）比Prefill慢那么多？因为输出是"一个字一个字地想"，必须串行生成；而阅读可以"整页整页地扫"，可以并行处理。这就是为什么H200能25000 tokens/秒的"看"，但"说"的时候只有1000-2000 tokens/秒左右。

划重点：

H200的时延是H20的一半，系统吞吐是H20的2.1倍。（从599到1263 tokens/s）
H200 在处理长文本（65K输入）时，依然保持稳定的性能表现
并发100的场景下，H200 能稳定输出 1294 tokens/s，这个速度，谁用谁知道 😎
新模型DeepSeek-V3.2-Exp虽然刷新了各大榜单的SOTA，但推理阶段消耗的算力与R1基本一样

🔥 DeepSeek-V3.2-Exp：撬动5千亿市值的黑科技

这可是9月29日号刚开源的"当红炸子鸡"！它采用了鼎鼎大名的 UE8M0 量化格式，这项技术直接撬动了A股千亿市值，可见其影响力之大。

🎯 UE8M0到底是什么黑科技？

说到UE8M0，咱们得先从FP8量化技术说起。简单来说，这是一场"瘦身革命"：

技术原理：

权重存储：671B参数的大部分权重采用FP8 E4M3格式存储（4位指数 + 3位尾数）；
计算精度：推理时需要将FP8转换为FP32进行计算，保证精度；
关键挑战：FP8（表示范围：-448到448）和FP32（表示范围：±3.4×10³⁸）之间存在数量级差距；
解决方案：引入**缩放因子（Scale Factor）**来弥补这个鸿沟，而这个缩放因子就采用 UE8M0格式存储；

简单来说：用FP8存模型参数省空间，用UE8M0存缩放因子省开销，计算时转FP32保精度。这就是DeepSeek的"降本增效"秘诀！🎓

🏆 一流企业定标准

这项技术的影响可不仅仅是技术层面：

一流企业做标准，二流企业做品牌，三流企业做产品。

DeepSeek这波操作，直接在定义AI算力的新标准，引领硬件研发方向。这才是真正的降维打击！

🤔 H200的"尴尬"处境

测试过程中，老王发现了一个有意思的事实：

H200（SM90架构）：原生不支持UE8M0格式，缩放因子只能用FP32存储
B200/B300（SM100架构）：原生支持UE8M0，专为新一代量化技术优化

换句话说，H200虽强，但在UE8M0支持上还是"老一辈"了。不过别慌，DeepSeek开源了 DeepGEMM 工具包，可以让H系列显卡通过软件转换支持UE8M0！

📦 工具包传送门：

DeepGEMM

https://github.com/deepseek-ai/DeepGEMM

💭 老王的肺腑之言

经过这次"烧钱式"深度体验，老王有几点心得想跟大家分享：

性能表现

H200的推理吞吐量确实是H20的两倍以上，数据摆在那儿，实打实的性能提升。

定位思考

但说句实在话，用H200做推理，有点"大材小用"了。要知道：

H200本质上是一张训练卡
DeepSeek自己都是用H200的"阉割版"H800训练出来的模型
H200的真正价值在于模型训练场景，那才是它的主战场

老王的比喻

这就好比买了辆法拉利去买菜 —— 能用，很爽，但总觉得有点浪费 😄

不过话说回来：

如果预算充足，用法拉利买菜也是一种生活态度
对于需要极致推理性能的场景，H200确实是目前的顶级选择
待B200/B300普及后，配合原生UE8M0支持，才是真正的"天作之合"

📮 互动时间

各位看官，你们怎么看？

H200做推理值不值？
有没有用过更牛的配置？
对DeepSeek的UE8M0技术怎么看？

欢迎在评论区留言交流！老王会认真看每一条评论的～～～

关注老王，带你玩转AI算力！ 🚀

本文测试环境：8卡H200 + DeepSeek-V3.2-Exp (671B) + SGLang v0.5.3
数据真实，欢迎拍砖讨论

【声明】内容源于网络

小A闯跨境

跨境分享舍 | 每日更新实用内容

内容 49981

粉丝 1

小A闯跨境跨境分享舍 | 每日更新实用内容

总阅读285.2k

粉丝1

内容50.0k