梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
为什么AI算力霸主仍是英伟达?
在特定推理负载下,英伟达平台每美元性能是AMD的15倍。
尽管硬件单价更高,但整体部署成本反而更低。
Signal65最新报告基于SemiAnalysis Inference MAX 2025年10–12月公开基准数据,涵盖密集模型与前沿MoE推理模型全场景测试,证实:生成同等数量token时,英伟达成本仅为AMD的十五分之一。
黄仁勋“买的越多,省得越多”的策略,在GB200 NVL72架构上得到验证。
MoE时代:8卡系统撞上Scaling天花板
AI模型正快速转向MoE(Mixture of Experts,专家混合)架构。Artificial Analysis排行榜显示,当前智能度前十的开源模型均为MoE推理模型。
OpenRouter数据显示,超50%的token流量已由推理模型承接。
MoE通过将参数划分为多个专家子网络,仅激活与当前token匹配的少量专家,实现高智能低开销。例如DeepSeek-R1总参数6710亿,单token仅激活370亿。
当专家跨GPU分布时,通信延迟引发计算单元空闲,直接推高服务成本。
报告指出,B200与MI355X等所有8卡系统在单节点规模之外均遭遇“扩展天花板”。
英伟达GB200 NVL72采用72块GPU NVLink直连方案,提供130 TB/s互联带宽;软件层通过Dynamo框架实现预填充-解码分离调度与动态KV缓存路由,有效突破通信瓶颈。
模型越复杂,英伟达优势越明显
报告测试三类典型模型:密集模型、中等MoE模型、前沿MoE模型——模型复杂度越高,英伟达相对优势越显著。
Llama 3.3 70B(密集模型)在30 tokens/sec/user交互性下,B200性能约为MI355X的1.8倍;提升至110 tokens/sec/user后,差距扩大至6倍以上。
GPT-OSS-120B(中等MoE)拥有1170亿总参数、单token激活约51亿参数。在100 tokens/sec/user下,B200性能接近MI355X的3倍;提升至250 tokens/sec/user后,达6.6倍。
两平台绝对性能均有提升:B200峰值吞吐从约7000跃升至14000+ tokens/sec,MI355X从约6000升至8500 tokens/sec,但相对差距进一步拉大。
DeepSeek-R1(前沿MoE)成为性能分水岭。测试显示:
- 25 tokens/sec/user下,GB200 NVL72单GPU性能是H200的10倍、MI325X的16倍;
- 60 tokens/sec/user下,相较H200优势扩大至24倍,相较MI355X达11.5倍;
- 75 tokens/sec/user下,是B200单节点的6.5倍、MI355X的28倍。
更关键的是,GB200 NVL72在28卡配置下可达275+ tokens/sec/user,而MI355X同级吞吐峰值仅75 tokens/sec/user。
Token经济学:贵1.86倍,省15倍
Oracle Cloud定价显示:GB200 NVL72单GPU每小时16美元,MI355X为8.60美元,前者贵1.86倍;CoreWeave报价中,GB200 NVL72相较H200亦贵约1.67倍。
但在DeepSeek-R1典型负载下:
- 25 tokens/sec/user时,5.85倍性能优势 ÷ 1.86倍价格 = 每美元性能为MI355X的3.1倍;
- 75 tokens/sec/user时,28倍性能优势 ÷ 1.86倍价格 = 每美元性能达MI355X的15倍,即单token成本仅为AMD的十五分之一。
对比上一代:GB200 NVL72在DeepSeek-R1负载下性能约为H200的20倍,价格仅涨1.67倍,换算后每美元性能提升约12倍,单token成本降至H200的十二分之一。
MoE推理使网络成为成本瓶颈,而机柜级GB200 NVL72从芯片、互联到软件端到端协同优化,重新定义了“每美元产出多少智能”的价值标尺。
报告同时指出:AMD在密集模型与容量驱动型场景中仍具竞争力;其机柜级方案Helios预计未来12个月内有望缩小差距。但当前前沿推理模型对平台级协同能力要求极高,端到端设计已成为成本效益的关键决定因素。

