大数跨境
0
0

英伟达仍是王者!GB200贵一倍却暴省15倍,AMD输得彻底

英伟达仍是王者!GB200贵一倍却暴省15倍,AMD输得彻底 新智元
2026-01-03
40
导读:买越多,省越多

【新智元导读】AI推理重心转向「每美元智能输出」

AI推理已不再仅依赖芯片性能或GPU数量,而是进入以经济性为核心的竞争新阶段。Signal65最新报告指出:决定胜负的关键,是「每一美元能输出多少智能」。

AI推理重心:一美元输出多少智能?

一份万字深度报告揭示了从稠密模型(Dense)到混合专家模型(MoE)推理范式的本质演进。

传统稠密模型在生成每个Token时需激活全部参数,导致模型越大、运行越慢、成本越高、内存需求越强。

MoE架构则只激活与当前Token最相关的「专家」子集,在保持高智能水平的同时显著提升效率。

全球TOP 10开源大语言模型(LLM)已全部采用MoE推理架构;前16名中12个为MoE模型。

MoE推理常通过生成中间推理Token提升准确性——即先「思考」再作答,这类隐式Token远多于最终回复,其生成速度与成本直接决定服务经济性。

MoE部署的核心瓶颈在于通信效率:当专家跨GPU分布时,GPU间延迟将引发大量空转时间(idle time),造成算力浪费并推高TCO(总体拥有成本)。

评估AI基础设施经济性,聚焦三大维度:
• 性能(吞吐量与交互性)
• 能效(单位功耗可生成的Token数)
• 总体拥有成本(常以Token/百万美元衡量)。

Signal65基于公开基准测试数据,对比B200、GB200 NVL72与AMD MI355X在不同模型下的真实性能及TCO表现。

结果显示:
• 在稠密模型及中小规模MoE中,B200性能优于MI355X;
• 当扩展至DeepSeek-R1等跨节点前沿MoE时,GB200 NVL72性能可达MI355X的28倍。

在高交互场景下,GB200 NVL72单位Token成本可降至竞品约1/15。

尽管其单GPU小时价格约为竞品2倍,但机架级NVLink互联与覆盖72块GPU的软件调度能力,彻底重构了成本结构。

行业价值评估重心正从原始FLOPs转向「每美元获得的总体智能」。

结论明确:随着MoE与推理工作负载复杂度攀升,仅靠芯片性能提升已不足够;端到端系统级平台设计,已成为实现低成本、高响应AI服务的关键杠杆。

「稠密模型」推理:英伟达领先

以Llama 3.3 70B为基准,HGX B200-TRT方案在吞吐量与交互性全区间持续领先。

在基线交互性下,B200性能约为MI355X的1.8倍;当交互性提升至110 tokens/sec/user时,优势扩大至6倍以上。

MI355X虽在单位成本性能上具备一定吸引力,但该优势难以覆盖现代MoE推理技术栈所需的系统级能力。

MoE推理:英伟达领先

中等规模推理:gpt-oss-120B

OpenAI gpt-oss-120B作为典型桥梁案例,兼具MoE复杂性与现实部署可行性,介于稠密70B模型与前沿推理型MoE之间。

在100 tokens/sec/user目标下,B200比MI355X快1.4倍;提升至250 tokens/sec/user时,差距扩大至约3.5倍——交互性要求越高,平台差异越显著。

12月数据显示,软硬件协同优化大幅提升双方绝对性能:B200单GPU吞吐由7,000+升至14,000+ tokens/sec;MI355X由6,000升至约8,500。

前沿推理:DeepSeek-R1

在DeepSeek-R1推理中,GB200 NVL72大幅领先。

基准测试显示,GB200 NVL72使「超8卡张量并行配置」进入帕累托前沿,性能远超单节点平台。

在25 tokens/sec/user交互目标下:
• GB200 NVL72单GPU性能约为H200的10倍、MI355X的16倍;
• 相对B200达2倍,相对MI355X达5.9倍。

在60 tokens/sec/user目标下,优势进一步扩大:
• 相对H200达24倍以上;
• 相对B200达5.3倍、MI355X达11.5倍。

GPU越贵,Token成本越低

从Hopper到Blackwell架构,英伟达不仅提升单GPU算力与内存带宽,更以液冷机架级系统重构底层架构,将72块GPU统一纳入同一计算域。

据CoreWeave目录价,GB200 NVL72单GPU价格约为H200的2.7倍,但其DeepSeek-R1实测性能在25 tokens/sec/user下已达H200的10倍,更高交互点位下达24倍。

归一化成本分析表明:更“贵”的GPU反而更省钱——因性能跃升远超价格增幅,显著压低每Token成本。

按单GPU价格计,MI355X约为GB200 NVL72的一半;但凭借最高28倍的性能优势,英伟达仍可提供最高15倍的每美元性能优势,即Token成本低至对手1/15。

结论

前沿AI模型将持续向更大、更复杂的MoE架构演进。

未来竞争力不再取决于单一GPU指标,而取决于平台级能力:互连与通信效率、多节点扩展性、软件栈成熟度、生态支持、编排能力,以及并发与混合负载下的高利用率维持能力。

OpenAI、Meta、Anthropic等头部机构的旗舰模型正加速向MoE与推理方向收敛,若此趋势持续,英伟达将在性能与经济性上维持关键优势。

性能差异可直接转化为商业结果:在既定交互性下,单GPU服务用户数越多,每Token成本越低,每机架收入潜力越高,TCO越优。

例如,28倍单GPU吞吐提升,可在不增加硬件规模前提下解锁新功能档位与复杂服务场景——这正是AI推理「经济学」的核心逻辑,它天然偏向为MoE与推理时代深度优化的平台。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14730
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读95.0k
粉丝0
内容14.7k