AI 芯片的应用正越来越广泛,为了最大程度发挥芯片的性能,它们被以某种方式连接在一起组成高效的算力集群,来满足大规模计算需求。 由于现在 AI 芯片大都采用英伟达 GPU,GPU 之间的连接也多使用 Nvidia NVLink。要想摆脱对英伟达的依赖或是进一步扩大计算规模,开发类似 NVLink 的互联技术必不可少。 据报道,英特尔、AMD、谷歌、微软、Meta、博通、思科和惠普等公司正在组建一个开放标准组织,来开发一种高速互连技术Ultra Accelerator Link (UALink),以连接和扩展数据中心服务器内的大量 AI 芯片。 这些公司涵盖了从芯片设计、软件开发到数据中心解决方案的多个领域,形成了一个多元化的合作团队。其中英特尔、谷歌等主要公司都已经推出了自己的 AI 芯片,本次组建联盟也可以看作是在为后续自研芯片的发展做铺垫。 UALink 被定义为一项开放的行业标准,使原始设备制造商(OEM)、IT 系统专业人员和系统集成商能够更轻松地设计、部署和维护 AI 数据中心,并提供更大的灵活性和可扩展性。这使得不同厂商的 AI 芯片可以互相兼容,不再依赖于单一供应商的专有标准。
(来源:UALink 组织) 从目前公布的图片来看,计算单元(POD)内部的各个 AI 芯片通过 UALink 连接起来,形成一个高效的内部网络,从而提升计算能力。 每个主机 CPU 连接多个 AI 芯片。CPU 通过 PCIe、CXL 或专有连接(Proprietary)与 AI 芯片通信。这些连接最终通过 Ultra Accelerator Switch 进行管理和协调,确保高效的数据传输和处理。