当 AI 大模型参数量突破万亿、训练数据达数十 TB 级,GPU 集群之间的 “数据搬运速度” 早已成为算力瓶颈。传统互联方案要么延迟高,要么带宽不足,要么成本居高不下。而字节跳动自研的 Scale-Up 互联方案 EthLink,基于以太网生态打造,同时支持 Load/Store 和 RDMA 双语义,硬生生把 GPU 互联时延压到 1us 内,还能兼容超大规模集群扩展 —— 这波操作,直接改写了 AI 硬件互联的游戏规则!
今天就用通俗的语言,拆解 EthLink 的核心黑科技,聊聊它背后的行业趋势~
一、先搞懂:GPU 互联为啥成了 AI 算力的 “卡脖子” 难题?
AI 大模型训练和推理,本质是成千上万块 GPU 协同干活,核心需求就两个:快(低延迟)+ 能扛(高带宽)。但传统 GPU 互联方案都有致命短板:
PCIe:延迟低、支持内存语义,但迭代慢,带宽比以太网落后 2-3 代,撑不起大规模集群;
NVLink:带宽高,但生态封闭,成本昂贵,难以跨机架扩展;
传统以太网:生态成熟、成本低,但只支持 RDMA 语义,不适合时延敏感的小数据传输,载荷效率也不够高。
更关键的是,GPU 传输数据分两种场景:一种是控制信息、零散数据(KB 级),需要 “快准狠” 的低延迟传输;另一种是模型参数、训练数据(MB-GB 级),需要 “大容量” 的高效搬运。单一语义的互联方案,根本无法兼顾这两种需求 —— 这就是字节跳动要解决的核心痛点。
二、EthLink 黑科技拆解:以太网 + 双语义,兼顾 “快” 与 “能扛”
EthLink(Ethernet Link)是字节跳动专为 GPU 集群打造的自研 Scale-Up 互联协议,核心思路是 “借以太网生态,补互联短板”,最终实现 “低延迟 + 高带宽 + 低成本 + 可扩展” 四大优势。
1. 核心突破:双语义支持,覆盖全场景传输需求
EthLink 最牛的地方,是同时承接 Load/Store 和 RDMA 两种语义,像 “双引擎” 一样适配不同传输场景:
Load/Store 语义:专门处理小数据、低时延需求(比如控制信息、零散内存数据),由 GPU 的 LSU 模块发起,时延小于 1us,单次传输量为 Cache Line Size(64-256 Byte),完美匹配 AI 推理等对延迟敏感的场景;
RDMA 语义:专门搬运大块数据(比如模型并行的张量数据、训练数据集),由 GPU 的 RDMA Engine 发起,几乎不消耗计算引擎算力,还能直接实现 “远端 Global Memory↔本地 Global/Shared Memory” 的数据传输,适配大模型训练的高带宽需求。
对比传统方案,EthLink 不用在两种语义间切换协议,既保证了小数据的传输速度,又解决了大数据的搬运效率,相当于给 GPU 集群装了 “高速直达通道”。
2. 协议栈优化:报文更 “轻”,传输更可靠
为了进一步提升效率,EthLink 对协议栈做了两大关键优化:
精简报文头:设计 OEFH(优化转发头部),取代传统 ETH+IP+UDP 的冗长报文头,大幅降低传输开销,提升有效载荷率;
可靠传输机制:采用 LLR(链路层重传)和 CBFC(基于信用的流控),解决链路丢包和交换机缓存溢出问题,同时可选低延迟 FEC(RS-272),避免端到端重传带来的时延增加。
3. 拓扑与扩展:支持 1024 个 GPU 节点,跨机架也能高速互联
EthLink 的网络拓扑兼容性极强,既支持 GPU 服务器内部互联,也能实现跨机架的大规模集群扩展:
单服务器部署多个 EthLink 协议栈,每个协议栈支持 1-4 个以太网接口,通过多路径(Multi-Path)实现负载均衡,避免单链路瓶颈;
同一个 Scale-Up 网络域最大支持 1024 个 GPU 节点,满足超大规模 AI 集群的扩展需求;
交换机与 GPU 间有状态反馈机制(Switch Event Notification),链路断开时能快速切换路径,避免持续丢包。
三、行业总结:GPU 互联的 4 大趋势,字节已经提前布局
EthLink 的出现,不仅是字节跳动的技术突破,更折射出 AI 时代 GPU 互联的核心发展方向:
1. 以太网成为 Scale-Up 互联的主流底座
以太网的 “摩尔定律” 依然生效 ——18 个月单芯片带宽翻倍,且生态成熟、成本低、部署灵活。如今 UALink 最新标准、ETH-X 等都已转向以太网物理层,字节 EthLink 顺势而为,既享受了以太网的生态红利,又通过优化补齐了语义支持和低延迟短板,成为行业风向标。
2. 双语义支持成刚需,单一方案终将被淘汰
AI 场景中,小数据(控制信息)和大数据(训练数据)传输需求并存,只支持单一语义的方案无法满足全场景需求。EthLink 的双语义设计,完美解决了 “时延敏感” 和 “带宽敏感” 的矛盾,未来会成为大规模 AI 集群的标配。
3. 软件定义 Cache 一致性,降低硬件成本
随着集群规模扩大,用硬件保证 GPU 间的 Cache 一致性代价越来越高。EthLink 采用 “软件周期性清除 Cache” 的方案,既保证了数据一致性,又简化了硬件设计,降低了部署成本 —— 这会成为未来互联方案的重要优化方向。
4. 负载均衡与可靠性,决定大规模部署能力
超大规模 GPU 集群中,单链路容易过载,链路故障也难以避免。EthLink 的多路径负载均衡、链路层重传、交换机状态反馈等设计,解决了大规模部署的稳定性问题,这也是衡量互联方案竞争力的核心指标。
四、结语:AI 算力的竞争,早已下沉到 “互联层”
当头部企业都在卷 GPU 芯片、卷大模型算法时,字节跳动悄悄在互联层实现突破 —— 这背后的逻辑很简单:AI 算力的提升,不仅需要 “单个 GPU 够强”,更需要 “GPU 集群够默契”。EthLink 的出现,让 GPU 之间的 “沟通效率” 翻倍,自然能撬动整个 AI 训练和推理的效率提升。
更重要的是,EthLink 基于开放的以太网生态,相比封闭方案成本更低、扩展性更强,这会加速 AI 技术的普及。未来,随着大模型向千亿、万亿参数量持续演进,互联技术的重要性还会持续提升,而字节跳动的这波布局,已经抢占了先机。

