SemiAnalysis:幸运的是,亚马逊与Astera Labs建立了战略合作伙伴关系。读者无疑会联想到我们在TPU文章中强调的OpenAI/Anthropic/英伟达的合作模式,而得益于直接投资,事实证明AWS采购得越多,节省也越多。
如果AWS达到了其对Astera Labs的PCIe交换机和Retimer的采购量承诺,它将获得与这些产品采购挂钩的ALAB股票认股权证。这些认股权证会随着AWS达到采购里程碑而逐步归属生效。由于行权价仅为20.34美元,任何高于此水平的市场价格都会为AWS创造即时价值。这一结构实质上让AWS在采购组件时获得了一种基于股权的“返利”。在下面的情景中,截至9月25日已归属的股票认股权证相当于获得了约23% 的有效折扣。
SemiAnalysis:如果我们固守传统方法,采用与GPU网卡相匹配的逻辑端口大小(多数情况下为400G),那么仅使用12.8T交换机构建的网络规模将受到极大的限制。对于一个完全由12.8T交换机构建的两层网络,最多只能连接512个GPU。然而,如果我们转而采用100G逻辑端口,一个两层网络的规模可达8,192个GPU,而一个三层网络则可扩展至524,288个GPU,这与当今最大的多机房集群规模相匹配。
但是,为什么要用12.8T交换机来构建网络呢?实际上,AWS对此并无特别偏好。其信条是最小化总体拥有成本,并围绕这一核心目标灵活制定采购决策。打个比方,对AWS而言,不管黑猫白猫,抓到老鼠就是好猫。因此,只要能够实现最低的总体拥有成本,AWS会选择任何交换机方案,无论是12.8T、25.6T还是51.2T交换机,或是400G DR4、800G DR8光模块。
2024年年底AWS推出Trainium 2服务器
被称之为Ultracluster 2.0
10PB 的网络容量延迟不到10微秒
但是重心放在
规模扩大后定制新的
路由协议和效率更高的管理平面
SemiAnalysis:在每颗Trainium3芯片配备200G带宽的版本中,每张400G Nitro-v6网卡将为两颗Trainium3芯片提供支持。AWS采用双ToR交换机设计,其中一张Nitro-v6网卡通过两个200G链路,分别连接到位于计算托盘上方的两台ToR交换机。在连接Trainium计算托盘时,会使用一根带Gearbox的400G Y型有源铜缆(AEC),将网卡端的56G SerDes通道转换为ToR交换机端的112G SerDes通道。而对于CPU托盘,则使用直连式AEC或有源直连铜缆(DAC) 将其连接到同一对ToR交换机。
对亚马逊而言幸运的是,由于从Credo公司获得的股票返利,他们在AEC上得到了比PCIe交换机和Retimer更优惠的交易。Credo的股票返利方案与AWS和ALAB的交易结构相同,但实际返利金额要大得多。这得益于该协议中AWS获得了数量远超以往的认股权证,以及此后Credo股价的大幅上涨。这意味着,亚马逊从Credo获得的认股权证价值,已经超过了为使其归属而需要完成的采购金额。Credo实际上是在付钱请亚马逊使用AEC!。
相关文档交流移步汗牛充栋知识星球。
相关阅读:
P4可编程SDN交换机
P4教程 P4应用 P4论文
Tofino1 | Tifino 2 |国产P4交换机

