大数跨境
0
0

解读一下AWS Trainium系列scaling架构变化

解读一下AWS Trainium系列scaling架构变化 环球科技研究
2025-12-08
0


上周AWS的Re: Invent活动刚刚结束,本来以为能催化一下供应链的相关标的没想到实现了反向催化,特别Tranium 4提到用NVlink和UAlink做scale up直接把ALAB直线带崩。恰好Semianalysis也出了一篇很长的文章重新拆解了一下Trainium历代架构演变,下面参考他们的文章和各方信息解读一下这次Tranium 4可能的一些变化。


从2D/3D torus到all to all互联

    Tranium 2的XPU互联架构(NeuronLink)一开始是Tn2 NL16 2D torus,即一个机架16颗芯片每颗Tn2连接4颗相邻的芯片。后来模仿谷歌改成3D torus的拓扑并变成了2个NL32机架,每颗Tn2连接相邻6颗芯片,机架间和机架上下部分使用了AEC互联。后来到了Tranium 3又开始模仿英伟达的机架从3D torus改成all to all架构,即所有的Tranium 3芯片都连到机架内部的switch tray。最新一代的Teton 3 Max机柜包含包含2个互联机柜,单个72 Tn3芯片机柜包含18个Compute tray和10个Switch Tray。



    每个Compute tray中包含4颗Trn3芯片和10颗PCIe Switch 32L(8颗scale-up + 2颗连SSD (Scorpio P) + 2颗Aries Gearbox。每颗Trn3芯片通过Compute tray的PCB实现了64 lane PCIe Gen 6互联(速率64Gb/s)。另外2个NL72机架之间也使用了AEC进行互联,如图中的PCIe AEC cage,每颗tn3通过AEC实现16 Lane PCIe互联。



    另外类似GB300 NVL72,compute tray的Tn3也会通过背板连接到10个switch tray里面的PCIe Switch 160L(每个switch tray 4颗Scorpio X),实现整个rack中XPU的all to all互联。其中每颗Tn3会通过背板连出80 lane PCIe(64 lane有效)到switch tray。




    所以总结单颗Tn3的scale up一共有144条PCIe = PCBx64 lane + 背板x64 lane +AECx16 lane。按照PCIe Gen 6的64Gb/s的速率算出Tn3的scale-up单向带宽为1.15TB/s:144条PCIe Gen 6 x 64Gb/s = 9,216 Gb/s = 1,152 GB/s。对比GB300的Nvlink 5的900GB/s 单向带宽略胜一筹,对比Rubin的NVlink 6的1.8TB/s差距明显。




    Tn4使用NVlink Fusion + UAlink

      这次Re: invent最大的争议就是Tr4同时使用NVLink Fusion和UAlink后对下游ALAB的价值量影响。首先在活动刚开始前ALAB首先公布了和NVlink Fusion的合作,将把ALAB的互联技术融合进NVlink生态,一度被当作乐观信号股价上涨,尽管没有详细提到ALAB硬件在NVlink Fusion的具体使用场景。

      后来当AWS CEO讲到Tn4将使用NVLink + UAlink的时候突然开始暴跌,很明显市场认为这是一个非常大的利空,认为NV的switch将取代ALAB的switch导致在Tn中的价值量大幅度缩水。



      所以问题的核心点在于ALAB到底是如何参与Tn4的NVLink Fusion的scale up方案,这一点ALAB并没有详细给出架构答案,目前只能参考下图NVDA的官方博客给出的架构图。可以看到主要的变化就是在GPU/ASIC的compute tray中添加了NVLink Fusion Chiplet用于连接GPU/ASIC和NVLink 6 Switch tray实现All to All的互联(3.6TB/s的双向带宽)


      所以个人猜测Tn4可能情况是:原Switch tray用的ALAB的Scopio X被替换成NVLink 6 Switch。原Compute tray中的Scorpio P + Aries Gearbox和其他PCIe Retimer保留原来的PCIe互联架构,同时添加NVLink Fusion chiplet与它们互联。

      另外有外资卖方的解读是比较乐观的,认为同时支持NVlink和UAlink生态其实可能对ALAB有更大的价值量。比如BofA认为AWS可以选择Tn4使用ALAB的PCIe方案或者NVLink switch方案,即使是后者ALAB也可能会在ASIC和NVlink Switch的互联方案上有更大的价值量。



      点分享
      点收藏
      点在看
      点点赞

      【声明】内容源于网络
      0
      0
      环球科技研究
      每日分享花街TMT新鲜热辣信息及研报解读
      内容 51
      粉丝 0
      环球科技研究 每日分享花街TMT新鲜热辣信息及研报解读
      总阅读5
      粉丝0
      内容51