大数跨境
0
0

SDN还能一战!IBM 展示 GPU Direct RoCE 的虚拟化大语言模型训练系统

SDN还能一战!IBM 展示 GPU Direct RoCE 的虚拟化大语言模型训练系统 云深知网络
2025-04-15
2
导读:Vela 的 RDMA 实现是基于RoCE技术的 RDMA
 IBM 混合云
为大语言模型训练提供服务
相关论文详细介绍了基础设施设计细节

论文下载:IBM 披露世界级生成式 AI 基础设施!


其中 Vela 云原生系统
具有两层 spine-leaf CLOS 架构
IBM 再次聚集人手重点推介GDR和SDN

简介

Vela 是一个云原生系统,专为使用现成硬件、基于 Linux KVM 的虚拟化和基于RoCE 网络构建的 LLM 训练场景而设计。Vela 虚拟机 (VM) 支持在GPU 和 SRIOV 网络接口之间的点对点 DMA。

在本文中,我们分享了 Vela 的关键架构方面,以及其中一个基于 NVIDIA A100 GPU 部署的IBM Cloud 数据中心的详细信息。

在整篇论文中,我们分享了在两年半左右的时间里设计、建设以及运营的见解和经验,亮点展示现有软件和硬件技术的能力以及未来 AI 系统的改进机会,从而使 AI 基础设施更容易为更广泛的社区所接受。

当我们在 ∼1500 GPU 规模下评估系统的性能时,我们在使用模型并行性训练 500 亿个参数的Decoder模型时实现了 ∼80% 的理想吞吐量,以及与具有高性能 Linpack 基准测试的单个 VM 相比∼70%的FLOPS/GPU。

SDN

Vela 利用 PCIe 设备直通为基于 Linux-KVM 的虚拟机 (VM) 中的工作负载实现近乎裸机的性能。为了在 VM 之间实现低延迟、高吞吐量和容错通信,Vela 采用了基于流的软件定义网络 SDN 解决方案,实现与供应商无绑定关系。SDN 解决方案利用 SRIOV 技术在网络接口卡上创建虚拟功能 (VF),这些虚拟功能可以传递到虚拟机。虚拟机管理程序和 SDN 解决方案协同工作,在虚拟机之间实现基于融合以太网 (GDR) 的 GPU 直接 RDMA 网络。

Vela 基于 RoCE 的网络旨在通过与供应商无关的软硬件协同设计方法实现拥塞管理(利用ECMP、网络流量控制、 和 RDMA 队列对 QP),从而在有损网络上提供无损体验。Vela 采用三层存储层次结构,以防止在 LLM 训练工作流程的不同阶段访问数据时出现瓶颈。

GPU Direct RoCE

GPU Direct RoCE (GDR): Vela 的关键特性之一是在虚拟机之间实现高吞吐量、低延迟通信,这是在虚拟机客户操作系统内部实现直通 GPU 与支持 RDMA 的网络 SRIOV-VF 之间的对等直接内存访问(P2P DMA)。

PCIe 标准允许两个支持 PCIe 的设备之间进行 P2P DMA,以在不涉及 CPU 的情况下交换数据。这种能力是各种加速器供应商实现的 GPU Direct 技术的基本基础,它支持 GPU 与其他支持 DMA 的设备(如支持 RDMA 的 NIC 和 NVMe 驱动器)之间的 DMA 传输。在 GPU Direct工作流程中,CPU 的作用很小,即仅限于设备之间 P2P DMA 的初始化/编排,并且主内存不参与数据传输,因为设备可以直接相互读取或写入对方的内存(即,防止了设备与主内存之间的额外数据复制)。例如,在训练任务的通信阶段执行集合操作(例如,AllReduce)时,GPU 内存中的数据结构将通过 DMA 传输到 NIC,而无需传输到 CPU 内存,并且可以如第 3 节中所讨论的那样显著提高集合调用的总吞吐量。请注意,Vela 的 RDMA 实现是基于RoCE技术的 RDMA。



对 Vela系统 感兴趣的同学点赞和在看,在公众号后台私信回复 “同网悦享016” 可以获取下载地址。

相关阅读:

P4可编程SDN交换机

P4教程 P4应用 P4论文

Tofino1 | Tifino 2 |Tofino 3

基于可编程交换机的网络仿真平台

【声明】内容源于网络
0
0
云深知网络
“可能是中国最好的OPEN网络公众号” “嗯,必须是的”
内容 1315
粉丝 0
云深知网络 “可能是中国最好的OPEN网络公众号” “嗯,必须是的”
总阅读739
粉丝0
内容1.3k