英伟达做梦都想不到,自己最大的客户有一天会来抢生意。
亚马逊CEO安迪·贾西最新股东信里甩出一个数字:旗下自研芯片业务年化收入突破200亿美元,而且还在以三位数同比增长。如果把这块单独拆出来卖,它一年的营收规模能达到500亿美元——跟英特尔一个量级。
更让华尔街震惊的是同一个数字:2250亿美元。这是Trainium芯片目前拿到的收入承诺 backlog,签了合同的。OpenAI在列,Anthropic在列,苹果也在列。

2015年的那笔收购
故事要从2015年说起。那年亚马逊花3.5亿美元收购了一家以色列芯片公司Annapurna Labs,没人当回事。
彼时没人想到,这家公司会在十年后成为英伟达最头疼的对手。
Trainium的逻辑很简单:英伟达的H100、H200贵,还买不到,那我就自己造。亚马逊有云、有数据中心、有Bedrock平台、有Anthropic这样的战略客户——造出来的芯片自己先用,量大了成本就下来了,然后卖给外部客户。这套路,跟当年亚马逊用自研Graviton CPU替换英特尔x86处理器一模一样。

Trainium手里有什么牌
Trainium3,刚量产不久。3nm工艺,144 GiB HBM3e内存,单芯片362 petaflops算力。跟上一代比性能提升4.4倍,能效提升4倍。价格呢?比同等GPU方案便宜30%到50%。
Project Rainier,全球已知最大的非英伟达算力集群。印第安纳州一处园区部署了超过100万颗Trainium2芯片,专门给Anthropic跑Claude用的。Anthropic的工程师说,从Trainium2迁移到Trainium3,大概花了三周时间。这比以前迁移到定制芯片"数月"的周期快多了。
OpenAI,2025年底签了约500亿美元的云合作,其中约2GW的算力要跑在Trainium上。
苹果,搜索产品已经在用Graviton 4和Inferentia 2,机器学习推理效率提升了40%。

亚马逊的清醒与矛盾
这里面有个值得玩味的细节。
Anthropic最大的投资者是亚马逊,前后投了80亿美元。按理说这是"亲儿子"。但亚马逊同时在向OpenAI供货,向苹果供货,向Meta供货——这些公司都在跟Anthropic竞争。
左手握着Anthropic的股权,右手把芯片卖给它的竞争对手们,亚马逊这手牌打得相当清醒。
贾西在股东信里说得很直白:"我们的芯片业务火热,需求正在爆发。"他没有说的是:英伟达GPU短缺、涨价,让整个行业都在找替代方案,而亚马逊刚好手里有货。
铁王座开始松动
英伟达的护城河不只是硬件,更在于CUDA软件生态。把代码从CUDA迁移到Trainium需要做适配,这是现实成本。但这个壁垒正在松动。
PyTorch已经原生支持Trainium,代码迁移从"数月"缩短到"三周"。Trainium4甚至会支持英伟达的NVLink Fusion——让Trainium和GPU在同一系统里协同工作。
这一招很妙:不是说Trainium要完全替代英伟达,而是在AWS的云上,Trainium可以先用,量不够了再补GPU,最后让客户在不知不觉中少用英伟达。

芯片格局正在重写。谷歌有TPU、微软有Maia、亚马逊有Trainium。全球三大云厂商全部有了自己的AI芯片,而且都在对外销售或者即将对外销售。
英伟达的主导地位没有消失,但裂缝已经出现。
对AI公司来说,多一个芯片供应商意味着多一个谈判筹码。对亚马逊来说,这块业务从"内部降本工具"长成了一个年化200亿美元的新赛道。2250亿美元订单在排队。英伟达的黄金时代还在,但铁王座已经开始晃动了。
作者:蓝核科技

