

最新英伟达经济学：每美元性能是AMD的15倍，“买越多省越多”是真的

量子位

2026-01-01

导读：模型越复杂，英伟达的优势越明显

为什么AI算力霸主仍是英伟达？

在特定推理负载下，英伟达平台每美元性能是AMD的15倍。

尽管硬件单价更高，但整体部署成本反而更低。

Signal65最新报告基于SemiAnalysis Inference MAX 2025年10–12月公开基准数据，涵盖密集模型与前沿MoE推理模型全场景测试，证实：生成同等数量token时，英伟达成本仅为AMD的十五分之一。

黄仁勋“买的越多，省得越多”的策略，在GB200 NVL72架构上得到验证。

MoE时代：8卡系统撞上Scaling天花板

AI模型正快速转向MoE（Mixture of Experts，专家混合）架构。Artificial Analysis排行榜显示，当前智能度前十的开源模型均为MoE推理模型。

OpenRouter数据显示，超50%的token流量已由推理模型承接。

MoE通过将参数划分为多个专家子网络，仅激活与当前token匹配的少量专家，实现高智能低开销。例如DeepSeek-R1总参数6710亿，单token仅激活370亿。

当专家跨GPU分布时，通信延迟引发计算单元空闲，直接推高服务成本。

报告指出，B200与MI355X等所有8卡系统在单节点规模之外均遭遇“扩展天花板”。

英伟达GB200 NVL72采用72块GPU NVLink直连方案，提供130 TB/s互联带宽；软件层通过Dynamo框架实现预填充-解码分离调度与动态KV缓存路由，有效突破通信瓶颈。

报告测试三类典型模型：密集模型、中等MoE模型、前沿MoE模型——模型复杂度越高，英伟达相对优势越显著。

Llama 3.3 70B（密集模型）在30 tokens/sec/user交互性下，B200性能约为MI355X的1.8倍；提升至110 tokens/sec/user后，差距扩大至6倍以上。

GPT-OSS-120B（中等MoE）拥有1170亿总参数、单token激活约51亿参数。在100 tokens/sec/user下，B200性能接近MI355X的3倍；提升至250 tokens/sec/user后，达6.6倍。

两平台绝对性能均有提升：B200峰值吞吐从约7000跃升至14000+ tokens/sec，MI355X从约6000升至8500 tokens/sec，但相对差距进一步拉大。

DeepSeek-R1（前沿MoE）成为性能分水岭。测试显示：

更关键的是，GB200 NVL72在28卡配置下可达275+ tokens/sec/user，而MI355X同级吞吐峰值仅75 tokens/sec/user。

Oracle Cloud定价显示：GB200 NVL72单GPU每小时16美元，MI355X为8.60美元，前者贵1.86倍；CoreWeave报价中，GB200 NVL72相较H200亦贵约1.67倍。

但在DeepSeek-R1典型负载下：

对比上一代：GB200 NVL72在DeepSeek-R1负载下性能约为H200的20倍，价格仅涨1.67倍，换算后每美元性能提升约12倍，单token成本降至H200的十二分之一。

MoE推理使网络成为成本瓶颈，而机柜级GB200 NVL72从芯片、互联到软件端到端协同优化，重新定义了“每美元产出多少智能”的价值标尺。

报告同时指出：AMD在密集模型与容量驱动型场景中仍具竞争力；其机柜级方案Helios预计未来12个月内有望缩小差距。但当前前沿推理模型对平台级协同能力要求极高，端到端设计已成为成本效益的关键决定因素。

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 14550

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读100.3k

粉丝0

内容14.6k