50亿美元大单背后：亚马逊凭什么让OpenAI抛弃Nvidia？- 大数跨境

首页

50亿美元大单背后：亚马逊凭什么让OpenAI抛弃Nvidia？

洞见畏来

2026-03-23

导读：🚀 50亿美元大单背后：亚马逊凭什么让OpenAI抛弃Nvidia？当英伟达还在享受着AI芯片的"卖铲

当英伟达还在享受着AI芯片的"卖铲人"红利时，一家电商巨头已经在自家后院悄悄建了一座芯片工厂。更令人意外的是，连苹果、OpenAI、Anthropic这样的顶级玩家，都开始把目光投向这里。

一场改写游戏规则的"联姻"

今年，亚马逊CEO Andy Jassy扔下了一颗重磅炸弹：AWS与OpenAI达成50亿美元合作协议。消息一出，整个行业都在猜测——为什么是亚马逊？OpenAI不是一直跟微软穿一条裤子吗？

答案藏在一枚小小的芯片里：Trainium。

作为这笔交易的核心，亚马逊承诺向OpenAI提供2千兆瓦的Trainium算力。这个数字有多夸张？目前Anthropic的Claude和亚马逊自家的Bedrock服务已经在"抢"Trainium芯片，产能根本不够用。即便如此，亚马逊还是硬挤出了这么一大块蛋糕给OpenAI。

数据显示，三代Trainium芯片总共部署了140万颗，其中仅Trainium2就有超过100万颗在支撑Anthropic的Claude运行。难怪亚马逊敢说Bedrock未来可能成长到跟EC2一样大的体量——它们的客户增长完全取决于能造出多少芯片。

省钱50%：Trainium的杀手锏

"比Nvidia便宜一半"——这句话从亚马逊嘴里说出来，绝对不是吹牛。

根据官方数据，运行在最新Trn3 UltraServer上的Trainium3芯片，在同等性能下运营成本比传统云服务器低50%。对于每天处理数万亿token的AI公司来说，这笔账不难算。

但这还不是全部。Trainium3真正的杀手锏是Neuron交换机。

AWS工程总监Mark Carroll透露，这套交换系统让每一颗Trainium3芯片都能以mesh网络架构与其他芯片直接通信，大幅降低延迟。正是这套组合拳，让Trainium3在"性价比"这个指标上频频打破纪录。

更关键的是迁移成本。过去，从Nvidia切换到其他芯片意味着重写代码、重新架构，工程浩大。但现在亚马逊已经搞定了PyTorch原生支持—— Carroll说，"基本上改一行代码，重新编译，就能在Trainium上跑起来。"

这一招，直击Nvidia的命门。

对比一下传统方案与Trainium方案的差异：

对比项	传统Nvidia方案	AWS Trainium方案	优势
运营成本	基准	节省高达50%	✅ 大幅降低
代码迁移	无需改动	一行代码+重新编译	✅ 极低成本
支持框架	CUDA生态	PyTorch原生	✅ 主流兼容
网络架构	传统拓扑	Mesh全互联	✅ 更低延迟
冷却方式	风冷为主	液冷系统	✅ 更省电

苹果也点赞的"隐藏王者"

说实话，能让苹果公开夸一句不容易。但2024年，苹果AI总监罕见地披露了他们如何使用亚马逊的另一款芯片Graviton——一款低功耗ARM架构服务器CPU，也是这个团队最早打响名气的作品。

苹果还提到了Inferentia（专门用于推理的芯片）和Trainium。能被苹果看上，说明亚马逊的芯片团队确实有两把刷子。

这背后其实是亚马逊的经典 playbook：先看看市场需要什么，然后自己做一个更便宜的版本。从电商到云服务，再到现在的AI芯片，这套打法屡试不爽。

Trainium最初是为模型训练设计的，那是几年前的刚需。但现在，推理（也就是让AI模型实际跑起来回答问题）才是行业最大的性能瓶颈。Trainium2已经扛起了Bedrock服务上大部分的推理流量。

走进奥斯汀的"芯片心脏"

亚马逊的芯片实验室藏在奥斯汀"The Domain"区的一栋 shiny 办公楼里——这片区域被称为"奥斯汀的硅谷"，高档得不像个搞硬件的地方。

实验室本身却是另一番景象。它大概有两个大会议室那么大，到处都是货架和测试设备，风扇轰鸣声不断。这里没有洁净室的白色防护服，因为芯片不是在这儿制造的（Trainium3由台积电代工，用的是最先进的3纳米工艺）。

这里做的是"bring-up"——芯片第一次被点亮的神圣时刻。

实验室主任Kristopher King形容这是一场"通宵派对"：芯片设计花了18个月，第一次通电验证时，整个团队就像高中生参加 lock-in 一样守在实验室里。

Trainium3的bring-up过程还被拍成了视频发到YouTube上。Spoiler：从来都不会一帆风顺。

最初的Trainium3原型是用风冷的，但量产版改成了液冷——更省电，也更难做。bring-up时发现芯片和散热器尺寸对不上，团队二话不说，"直接拿角磨机开始磨金属"。为了不影响披萨派对的气氛，他们甚至跑到会议室里去磨。

"这就是silicon bring-up的本质，"King说，"通宵解决问题。"

实验室里甚至还有焊接工作站。硬件工程师Isaac Guevara能在显微镜下焊接微型集成电路，难度高到连资深领导Carroll都公开承认自己搞不定，引得全场哄笑。

那面墙上的"家谱"

实验室最抢眼的是一整面墙的"sleds"——从第一代到最新一代，整整齐齐排列着。

所谓sled，就是托管Trainium AI芯片、Graviton CPU芯片以及各种支持板卡的托盘。把它们叠在一起，加上网络组件，就组成了Anthropic Claude赖以运行的系统。

最新的Trn3 UltraServer结构是这样的：上下多层sleds，中间夹着Neuron交换机。硬件开发工程师David Martinez-Darrow正在对其中一块sled进行维护——液冷系统在密闭循环中运行，可以重复利用，对环境也更友好。

值得一提的是，实验室还有一个专门的私有数据中心用于质量测试，离实验室只有很短的车程。安全级别很高，进门要过好几道关卡。数据中心里噪音大得必须戴耳塞，空气中弥漫着一股金属加热后的刺鼻气味——不是什么让人想久待的地方，但那里跑着成排的服务器，Graviton CPU、液冷Trainium3、Amazon Nitro全都在满负荷运转。

压力山大的"芯片人"

亚马逊CEO Andy Jassy对这个团队的关注程度，用"如父如子"来形容都不为过。他经常在公开场合夸Trainium，说它已经是AWS的数十亿美元业务，还把它列为AWS技术中最让他兴奋的之一。

但这些光环背后是实打实的压力。

每次bring-up前后，工程师们要连续三四周24/7连轴转，只为尽快解决问题，让芯片能进入大规模生产和数据中心部署。

"快速证明它能正常工作非常重要，"Carroll说，"目前为止我们做得还不错。"

团队已经在设计下一代Trainium4了。他们的日常仍然主要围绕Anthropic和亚马逊的需求展开，OpenAI的合作才刚刚起步。但在办公室墙上的显示器里，已经能看到OpenAI将如何使用Trainium的字样——那种自豪感，虽然低调，但藏不住。

一场静默的革命

OpenAI选择亚马逊，不仅仅是因为便宜。Trainium的崛起，代表着AI基础设施正在从单一供应商依赖走向多元化。当PyTorch生态可以无缝迁移、当性价比优势足够明显、当苹果和Anthropic都用脚投票——Nvidia的护城河，正在被一点点侵蚀。

这场竞争远未结束。但对于开发者和企业来说，多一个选择，永远不是坏事。毕竟，在这个AI爆发的年代，算力就是氧气——而氧气，不应该只有一家供应商。

【声明】内容源于网络

洞见畏来

专注于前沿科技趋势，剖析底层算法逻辑，深耕商业化场景落地

内容 633

粉丝 0

洞见畏来专注于前沿科技趋势，剖析底层算法逻辑，深耕商业化场景落地

总阅读228

粉丝0

内容633