据美国媒体
Information的独家报道
OpenAI 和微软计划用千亿美金
打造一款超级计算机称为“Stargate”

地主家也没有余粮
虽然项目的投资额巨大
但是 InfiniBand 也用不起
谁让以太网技术更有性价比呢
泼天的富贵,算算 IB 交换机多少钱
It sounds like the companies are also potentially using this phase of design to move away from reliance on Nvidia. The report claims that OpenAI wants to avoid using Nvidia's InfiniBand cables in Stargate, even though Microsoft uses them in current projects. OpenAI claims it would rather use Ethernet cables.

基于以太网技术
搭建的 AI 集群不是新鲜事儿
但是这么大规模的部署还是值得期待
Ram Velaga:“因此,我想在接下来的几张幻灯片中留给大家的是,第一,任何人心里都毫无疑问,除了一位恰好仍然是 InfiniBand(微软?)的客户之外,但最终我想在未来一两年内,我们会将它们转移到以太网。以太网是这些大型机器学习集群事实上的标准。并不是前端网络,前端网络已经是以太网,这次是后端网络。好吧。然后你可能会说,这些集群的大小是多少?我只是与你分享实际公开的数据,你用 Google 搜索可以找到的,所以这就是公开的。亚马逊基于以太网的集群超过6万台服务器,Oracle超过3万台服务器,Meta超过2万台,腾讯超过1万台。其中有一些比这些更大,但这些是他们实际公开展示的数字。这些都是后端网络,他们都是以太网,他们都是机器学习场景。
现在,我们知道我们今天可以做到 10,000、20,000、30,000、60,000、100,000,但还有一个由 Broadcom 和其他几个公司大约两年前创立的联盟(参考阅读:超以太网联盟走向 v1.0 规范)。我们的想法是,让我们实际将其应用到超过一百万个节点。当您开始考虑数百万个以上的节点时,实际需要解决的最大问题是 RDMA。您可能听说过 RDMA,即远程数据内存访问,对吧?RDMA 大约出现在 25 年前,当时的想法是两个 CPU 想要互相通信并共享内存。因此,它是为两台机器相互通信而构建的,然后慢慢地从 2 台扩展到 16 台、32、64、128、512。但它从来不是为数千或数十万个 CPU 或 GPU 相互通信而构建的。因此,RDMA 中实际上存在很多问题。
作为一个行业,我们正在做的实际上是对 RDMA 进行重大增强,以便它可以扩展到超过 100 万个集群。顺便说一句,你可能会说五年后才能看到它。从现在起 18 到 24 个月后,您实际上就会看到这种产品。不同供应商之间完全互操作的解决方案,在自研加速卡、商用芯片加速卡以及介于两者之间的所有供应商之间实现非常大规模的 RDMA。

微软目前已经
有128 核的 ARM CPU
和专为LLM训练和推理设计的Maia

下一步
就缺一颗网络芯片
此前收购的Fungible值得期待
Stargate 是个多年计划所以微软可以等
微软要放大招,Juniper 创始人老树再开新花

如果以太网最终受益
那么有什么公司值得期待
北美市场其实早已给出了答案
大 A 股什么值得买且听下回分解
五千亿市值,博通的创新来自哪里?

P4可编程SDN交换机
P4教程 P4应用 P4论文
Tofino1 | Tifino 2 |Tofino 3
基于可编程交换机的网络仿真平台


