大数跨境
0
0

智算“网络协议”的较量|InfiniBand VS RoCE

智算“网络协议”的较量|InfiniBand VS RoCE 九维图灵
2024-07-12
1
导读:InfiniBand在高性能计算领域表现出色,而RoCE v2则以其成本效益和灵活性受到青睐。

传统IDC与智算IDC

  • 传统IDC应用:

在传统的互联网数据中心(IDC),以太网扮演着网络互连的主要角色。它通过简单的数据包传输机制,实现设备间的通信和数据交换。以太网广泛应用于办公自动化、Web服务、数据存储等场景,支撑着互联网的大部分流量。


  • 传统IDC局限性:

以太网的带宽通常较低,无法满足大规模并行处理的需求。此外,以太网的延迟较高,不适合对实时性要求极高的应用。在数据中心规模扩大和数据量剧增的背景下,以太网的扩展性和灵活性也面临挑战。



智算IDC(智能计算数据中心)通常包括使用InfiniBandRoCE v2(RDMA over Converged Ethernet)等先进的网络技术来满足高性能计算(HPC)和人工智能(AI)应用的需求。


InfiniBand(IB)网络概述

InfiniBand的网络拓扑结构示意


InfiniBand网络架构介绍

InfiniBand是一种高性能的计算机网络通信标准,主要用于高性能计算和数据中心。它的架构设计允许高吞吐量和低延迟的数据传输,非常适合大规模并行处理任务。


1. 主要组成单元


  • HCA(Host Channel Adapter,主机通道适配器)

HCA是连接CPU或系统内存与InfiniBand网络的接口。它负责处理来自主机的数据传输请求,并将数据发送到网络中,或从网络接收数据到主机。在提供的图表中,HCA位于系统和InfiniBand网络之间,作为数据传输的起点或终点。


  • TCA(Target Channel Adapter,目标通道适配器)

TCA通常用于连接存储设备或其他网络资源。在某些配置中,TCA可以作为数据传输的接收端,提供额外的存储或处理能力。


  • InfiniBand link(连接通道)

连接通道是物理的通信链路,可以是电缆、光纤或板上链路,负责在InfiniBand设备之间传输数据。在图表中,IB link表示这些连接通道,它们连接了HCA、TCA以及InfiniBand交换机。


  • InfiniBand交换机和路由器

InfiniBand交换机用于构建复杂的InfiniBand网络拓扑,提供数据包的路由和交换服务。交换机可以处理二层网络流量,支持大规模节点的连接。InfiniBand路由器则用于连接不同的子网,实现跨子网的通信。


2. 子网结构


InfiniBand网络可以由多个子网组成,每个子网可以包含大量的节点。每个子网内部的节点通过InfiniBand交换机进行通信,而子网之间则通过路由器或网桥进行连接。


  • 子网的最大节点数:

每个子网可以支持最多6万多个节点,这使得InfiniBand非常适合构建大规模的计算集群。


3. 通道适配器的作用


  • 通道适配器(HCA和TCA)是InfiniBand网络中的关键组件,它们确保数据传输的安全性和服务质量(QoS)。适配器负责处理数据包的封装、传输和解封装,同时管理数据的可靠性和优先级。


InfiniBand网络解决方案特性

1. 本征无损传输机制:


InfiniBand网络解决方案的核心特性之一是其无损传输机制,该机制确保了数据传输的高可靠性。InfiniBand采用基于信用的流量控制策略,这是一种链路级协议,用于管理数据包在网络中的流动。


infiniband网络中无损数据传输原理图


  • 信用机制:

    在InfiniBand网络中,发送端在发送数据前必须确认接收端有足够的缓冲区空间(信用)。这种机制避免了数据包的丢失,因为只有当接收端有能力处理数据时,发送端才会发送数据包。


  • 缓冲区管理:

    每个InfiniBand链路都配备了缓冲区,用于临时存储等待处理的数据包。发送端根据接收端反馈的缓冲区状态来调整数据传输速率,确保网络中的流量平衡。


  • 拥塞避免:

    InfiniBand网络通过监控链路的缓冲区使用情况来避免拥塞。如果缓冲区接近满载,发送端会减少发送速率,直到接收端再次提供足够的信用。


2. 网卡扩展及自适应路由能力:


InfiniBand网络的另一个关键特性是其自适应路由能力,这使得网络可以根据实时的流量和链路状态动态选择最佳的数据传输路径。


  • 动态路由:

    InfiniBand网络能够根据当前网络的拓扑结构和链路状态,为每个数据包独立选择最优路径。这种自适应路由机制提高了网络的效率和可靠性。


  • 扩展性:

    InfiniBand的设计允许网络规模的灵活扩展,从小型集群到包含数千个节点的大型系统。自适应路由确保了即使在大规模部署中,数据传输也能保持高效。


  • 容错能力:

    InfiniBand网络支持多路径路由,当主要路径出现问题时,网络可以自动切换到备用路径,从而保证了数据传输的连续性和稳定性。


3. 市场主要供应商及其产品优势:


InfiniBand生态系统由多家供应商组成,它们提供了多样化的硬件和软件解决方案,以满足不同用户的需求。


  • NVIDIA:

    作为InfiniBand技术的主要推动者之一,NVIDIA提供的HDR InfiniBand解决方案支持200Gbps和400Gbps的高数据传输速率,适用于需要极高带宽的AI和HPC应用。


  • 英特尔:

    英特尔提供一系列InfiniBand产品,包括网卡和交换机,以其高性能和可靠性获得了市场的认可。


  • 思科:

    思科系统作为网络设备的重要制造商,提供了功能强大的InfiniBand交换机,支持复杂的数据中心网络架构。



NVIDIA InfiniBand 商用产品


RoCE v2概述



RoCE v2网络结构


RDMA over Converged Ethernet(RoCE)是一种网络通信技术,它实现了在标准的以太网基础设施上进行远程直接内存访问(RDMA)。RoCE技术允许数据在不同服务器的内存之间直接传输,无需经过操作系统内核或CPU介入,从而显著降低网络通信的延迟和CPU负载。


1. 工作原理:

RoCE技术基于RDMA概念,通过以下步骤实现高效的数据传输。


  • 数据封装:

    在发送端,数据被封装在RoCE数据包中,这些数据包直接从发送方的内存传输到网络适配器。


  • 网络传输:

    RoCE数据包在以太网上传输,利用以太网的广泛部署和兼容性。


  • 直接内存访问:

    在接收端,网络适配器直接将数据包内容写入目标内存地址,无需CPU干预。


  • 硬件卸载:

    RoCE技术支持硬件卸载,将网络数据处理任务从CPU转移到专门的网络适配器硬件上。

2. 关键特性:


  • 低延迟:

    由于绕过了操作系统内核,RoCE减少了数据传输的延迟,这对于实时性和高性能计算应用至关重要。


  • 高吞吐量:

    RoCE技术支持高数据传输速率,满足大规模并行计算和数据分析的需求。


  • CPU卸载:

    减少了对CPU资源的依赖,释放CPU以处理其他任务,提高了整体计算效率。

3. 版本演进:


  • RoCEv1:

    第一代RoCE技术,主要在数据中心内部使用,依赖于特定的网络硬件支持。


  • RoCEv2(现在主流):

    第二代技术,增强了可扩展性,支持更大规模的网络部署,同时保持了与InfiniBand相当的性能水平。

RoCEv2针对RoCE进行了一些改进


RoCE v2网络技术特性解析

1. 灵活性


RoCE v2(RDMA over Converged Ethernet version 2)提供了在传统以太网上实现RDMA的能力,增强了网络的灵活性和可扩展性。


  • 基于标准的以太网:

RoCE v2运行于标准的以太网之上,这意味着它可以无缝集成到现有的网络基础设施中,无需大规模的硬件更换。


  • IP支持:

RoCE v2在UDP层面上实现,通过引入IP协议,支持更广泛的路由选项,允许跨越传统路由器进行RDMA通信。


  • 多层网络部署:

RoCE v2支持多层网络架构,使得数据中心可以部署更大规模的计算集群,同时保持高效的数据传输。


2. 成本效益


RoCE v2的成本效益主要体现在以下几个方面:


  • 重用现有设备:

由于RoCE v2与现有以太网设备的兼容性,组织可以避免昂贵的硬件更换,降低升级成本。


  • 简化的网络管理:

RoCE v2简化了网络管理,减少了对专业技能的需求,从而降低了运营成本。


  • 提高资源利用率:

RoCE v2通过RDMA减少了CPU负载,使得更多的CPU资源可以用于计算任务,提高了整体资源的利用率。


ROCEv2 技术提升网络传输效率和可靠性,
降低主机CPU消耗


3. 技术挑战


尽管RoCE v2提供了显著的优势,但在部署和运维过程中也面临着一些技术挑战:


  • 拥塞控制:

RoCE v2需要在交换机上配置Headroom和PFC,以避免拥塞和丢包,这可能增加配置的复杂性。


  • 大规模部署:

在大规模部署中,RoCE v2的性能可能受到网络中大量并发RDMA会话的影响,需要精细的网络规划和优化。


  • 技术兼容性:

RoCE v2需要网络设备(如交换机和网卡)支持特定的RDMA特性,这可能限制了与旧设备的兼容性。


InfiniBand与RoCE v2的比较分析

1. 技术层面的比较


效率:

  • InfiniBand:

以其高效率著称,专为HPC设计,提供高吞吐量和低延迟的数据传输。InfiniBand的效率体现在其专用硬件和优化的协议上,能够实现快速的数据包处理和传输。


  • RoCE v2:

虽然也提供高性能的RDMA能力,但作为基于以太网的技术,RoCE v2可能在效率上略逊于InfiniBand,尤其是在高负载情况下。但RoCE v2通过硬件卸载和UDP传输优化了效率。


故障恢复:

  • InfiniBand:

具有快速的故障检测和恢复能力。InfiniBand网络使用自适应路由,能够在链路故障时快速切换到备用路径,最小化故障影响。


  • RoCE v2:

依赖于以太网的故障恢复机制,可能在故障检测和恢复速度上不如InfiniBand迅速。但是,RoCE v2可以通过IP网络的路由冗余来实现故障恢复。


扩展性:

  • InfiniBand:

设计之初就考虑了可扩展性,支持大规模集群的部署。InfiniBand网络可以通过增加交换机和节点来轻松扩展。


  • RoCE v2:

作为基于IP的技术,RoCE v2同样具有良好的扩展性,能利用现有的IP网络架构进行扩展。



InifiBand和ROCEv2 在技术层面的对比图


2. 实际应用和业务性能


  • InfiniBand:

在HPC和AI领域,InfiniBand因其低延迟和高吞吐量而成为首选技术。例如,在科学研究和复杂计算模拟中,InfiniBand能够提供一致的性能,满足严格的业务性能要求。


  • RoCE v2:

RoCE v2在云计算和企业数据中心中表现出色,特别是在需要灵活部署和成本效益的场景中。RoCE v2的RDMA能力使其在大数据分析和虚拟化环境中具有优势。


3. 成本考量


  • InfiniBand:

InfiniBand的成本通常高于RoCE v2,这主要是由于其专用硬件和复杂的网络架构。然而,InfiniBand在性能上的投资对于某些高性能应用来说是合理的。


  • RoCE v2:

RoCE v2提供了一种成本效益高的解决方案,因为它能够利用现有的以太网基础设施。RoCE v2的部署和运维成本较低,使其成为许多企业的首选。



InifiBand和ROCEv2 在业务层面的对比图



Ending

InfiniBand和RoCE v2
各有优势和局限。
InfiniBand在高性能计算领域表现出色,
而RoCE v2则以其成本效益和灵活性
在云计算和企业数据中心
中受到青睐。


【声明】内容源于网络
0
0
九维图灵
软件定义算力,驱动智能生活
内容 33
粉丝 0
九维图灵 软件定义算力,驱动智能生活
总阅读28
粉丝0
内容33