大数跨境

50亿美元大单背后:亚马逊凭什么让OpenAI抛弃Nvidia?

50亿美元大单背后:亚马逊凭什么让OpenAI抛弃Nvidia? 洞见畏来
2026-03-23
0
导读:🚀 50亿美元大单背后:亚马逊凭什么让OpenAI抛弃Nvidia?当英伟达还在享受着AI芯片的"卖铲

当英伟达还在享受着AI芯片的"卖铲人"红利时,一家电商巨头已经在自家后院悄悄建了一座芯片工厂。更令人意外的是,连苹果、OpenAI、Anthropic这样的顶级玩家,都开始把目光投向这里。

               
一场改写游戏规则的"联姻"

今年,亚马逊CEO Andy Jassy扔下了一颗重磅炸弹:AWS与OpenAI达成50亿美元合作协议。消息一出,整个行业都在猜测——为什么是亚马逊?OpenAI不是一直跟微软穿一条裤子吗?

答案藏在一枚小小的芯片里:Trainium

作为这笔交易的核心,亚马逊承诺向OpenAI提供2千兆瓦的Trainium算力。这个数字有多夸张?目前Anthropic的Claude和亚马逊自家的Bedrock服务已经在"抢"Trainium芯片,产能根本不够用。即便如此,亚马逊还是硬挤出了这么一大块蛋糕给OpenAI。

数据显示,三代Trainium芯片总共部署了140万颗,其中仅Trainium2就有超过100万颗在支撑Anthropic的Claude运行。难怪亚马逊敢说Bedrock未来可能成长到跟EC2一样大的体量——它们的客户增长完全取决于能造出多少芯片。

               
省钱50%:Trainium的杀手锏

"比Nvidia便宜一半"——这句话从亚马逊嘴里说出来,绝对不是吹牛。

根据官方数据,运行在最新Trn3 UltraServer上的Trainium3芯片,在同等性能下运营成本比传统云服务器低50%。对于每天处理数万亿token的AI公司来说,这笔账不难算。

但这还不是全部。Trainium3真正的杀手锏是Neuron交换机

AWS工程总监Mark Carroll透露,这套交换系统让每一颗Trainium3芯片都能以mesh网络架构与其他芯片直接通信,大幅降低延迟。正是这套组合拳,让Trainium3在"性价比"这个指标上频频打破纪录。

更关键的是迁移成本。过去,从Nvidia切换到其他芯片意味着重写代码、重新架构,工程浩大。但现在亚马逊已经搞定了PyTorch原生支持—— Carroll说,"基本上改一行代码,重新编译,就能在Trainium上跑起来。"

这一招,直击Nvidia的命门。

对比一下传统方案与Trainium方案的差异:

对比项 传统Nvidia方案 AWS Trainium方案 优势
运营成本 基准 节省高达50% ✅ 大幅降低
代码迁移 无需改动 一行代码+重新编译 ✅ 极低成本
支持框架 CUDA生态 PyTorch原生 ✅ 主流兼容
网络架构 传统拓扑 Mesh全互联 ✅ 更低延迟
冷却方式 风冷为主 液冷系统 ✅ 更省电

               
苹果也点赞的"隐藏王者"

说实话,能让苹果公开夸一句不容易。但2024年,苹果AI总监罕见地披露了他们如何使用亚马逊的另一款芯片Graviton——一款低功耗ARM架构服务器CPU,也是这个团队最早打响名气的作品。

苹果还提到了Inferentia(专门用于推理的芯片)和Trainium。能被苹果看上,说明亚马逊的芯片团队确实有两把刷子。

这背后其实是亚马逊的经典 playbook:先看看市场需要什么,然后自己做一个更便宜的版本。从电商到云服务,再到现在的AI芯片,这套打法屡试不爽。

Trainium最初是为模型训练设计的,那是几年前的刚需。但现在,推理(也就是让AI模型实际跑起来回答问题)才是行业最大的性能瓶颈。Trainium2已经扛起了Bedrock服务上大部分的推理流量。

               
走进奥斯汀的"芯片心脏"

亚马逊的芯片实验室藏在奥斯汀"The Domain"区的一栋 shiny 办公楼里——这片区域被称为"奥斯汀的硅谷",高档得不像个搞硬件的地方。

实验室本身却是另一番景象。它大概有两个大会议室那么大,到处都是货架和测试设备,风扇轰鸣声不断。这里没有洁净室的白色防护服,因为芯片不是在这儿制造的(Trainium3由台积电代工,用的是最先进的3纳米工艺)。

这里做的是"bring-up"——芯片第一次被点亮的神圣时刻。

实验室主任Kristopher King形容这是一场"通宵派对":芯片设计花了18个月,第一次通电验证时,整个团队就像高中生参加 lock-in 一样守在实验室里。

Trainium3的bring-up过程还被拍成了视频发到YouTube上。Spoiler:从来都不会一帆风顺。

最初的Trainium3原型是用风冷的,但量产版改成了液冷——更省电,也更难做。bring-up时发现芯片和散热器尺寸对不上,团队二话不说,"直接拿角磨机开始磨金属"。为了不影响披萨派对的气氛,他们甚至跑到会议室里去磨。

"这就是silicon bring-up的本质,"King说,"通宵解决问题。"

实验室里甚至还有焊接工作站。硬件工程师Isaac Guevara能在显微镜下焊接微型集成电路,难度高到连资深领导Carroll都公开承认自己搞不定,引得全场哄笑。

               
那面墙上的"家谱"

实验室最抢眼的是一整面墙的"sleds"——从第一代到最新一代,整整齐齐排列着。

所谓sled,就是托管Trainium AI芯片、Graviton CPU芯片以及各种支持板卡的托盘。把它们叠在一起,加上网络组件,就组成了Anthropic Claude赖以运行的系统。

最新的Trn3 UltraServer结构是这样的:上下多层sleds,中间夹着Neuron交换机。硬件开发工程师David Martinez-Darrow正在对其中一块sled进行维护——液冷系统在密闭循环中运行,可以重复利用,对环境也更友好。

值得一提的是,实验室还有一个专门的私有数据中心用于质量测试,离实验室只有很短的车程。安全级别很高,进门要过好几道关卡。数据中心里噪音大得必须戴耳塞,空气中弥漫着一股金属加热后的刺鼻气味——不是什么让人想久待的地方,但那里跑着成排的服务器,Graviton CPU、液冷Trainium3、Amazon Nitro全都在满负荷运转。

               
压力山大的"芯片人"

亚马逊CEO Andy Jassy对这个团队的关注程度,用"如父如子"来形容都不为过。他经常在公开场合夸Trainium,说它已经是AWS的数十亿美元业务,还把它列为AWS技术中最让他兴奋的之一。

但这些光环背后是实打实的压力。

每次bring-up前后,工程师们要连续三四周24/7连轴转,只为尽快解决问题,让芯片能进入大规模生产和数据中心部署。

"快速证明它能正常工作非常重要,"Carroll说,"目前为止我们做得还不错。"

团队已经在设计下一代Trainium4了。他们的日常仍然主要围绕Anthropic和亚马逊的需求展开,OpenAI的合作才刚刚起步。但在办公室墙上的显示器里,已经能看到OpenAI将如何使用Trainium的字样——那种自豪感,虽然低调,但藏不住。

               
一场静默的革命

OpenAI选择亚马逊,不仅仅是因为便宜。Trainium的崛起,代表着AI基础设施正在从单一供应商依赖走向多元化。当PyTorch生态可以无缝迁移、当性价比优势足够明显、当苹果和Anthropic都用脚投票——Nvidia的护城河,正在被一点点侵蚀。

这场竞争远未结束。但对于开发者和企业来说,多一个选择,永远不是坏事。毕竟,在这个AI爆发的年代,算力就是氧气——而氧气,不应该只有一家供应商。

【声明】内容源于网络
0
0
洞见畏来
专注于前沿科技趋势,剖析底层算法逻辑,深耕商业化场景落地
内容 633
粉丝 0
洞见畏来 专注于前沿科技趋势,剖析底层算法逻辑,深耕商业化场景落地
总阅读228
粉丝0
内容633