大数跨境

DeepEP 发布,开启 MoE 模型通信新时代

DeepEP 发布,开启 MoE 模型通信新时代 元龙数字智能科技
2025-02-26
2


DeepEP 发布

开启 MoE 模型通信新时代

在人工智能飞速发展的当下,大模型的训练与推理技术不断革新。DeepSeek 开源周备受瞩目,继首日发布 FlashMLA 后,第二天又重磅推出 DeepEP,为 MoE 模型训练与推理带来新的突破。




MoE 模型作为提升语言模型质量的关键技术,利用多个子模型(专家)协作,通过路由机制决定输入词元的处理路径。但专家数量众多且分布于不同设备,通信效率直接影响模型训练与推理速度,高效通信库至关重要。




DeepEP 是面向 MoE 模型训练与推理的开源 EP 通信库,专门针对 Hopper GPU 优化通信效率。其主要特点显著:在通信方面,实现高效优化的全对全通信,并通过 NVLink 和 RDMA 支持节点内与节点间通信;内核设计上,提供用于训练和推理预填充的高吞吐量内核,以及低延迟推理解码内核;支持层面,具备原生 FP8 调度支持,还能实现计算与通信重叠的灵活 GPU 资源控制。




从功能细节看,DeepEP 的正常内核可控制 Streaming Multiprocessor(SM)数量,优化训练和推理预填充性能。低延迟内核采用纯 RDMA 技术和基于钩子的通信 - 计算重叠方法,不占用 SM 资源,对实时应用如语言模型逐 token 生成意义重大。其支持的 FP8 操作,以 8 位浮点格式实现更快计算和更少内存占用,契合大型模型需求。在硬件优化上,针对 NVLink 到 RDMA 域等非对称域带宽转发进行优化,符合 DeepSeek - V3 论文中的组限制门控算法。




性能实测中,DeepEP 表现惊艳。在 H800 上 4096 个 token 同时处理场景下,传输速度达 153GB/s,接近 160GB/s 的硬件理论极限。




DeepEP 的价值体现在多方面。效率上,优化通信减少训练和推理时间及计算资源,低延迟内核适合实时推理;扩展性上,支持大规模 GPU 集群,能处理参数量巨大的模型;成本方面,减少 GPU 使用时间,降低训练成本;创新潜力上,可能影响未来硬件设计。

DeepEP 发布后,在 X 平台收获众多积极评价,被赞为 “开源工具的伟大发布” ,其高效通信和对低精度操作的支持备受关注。赛科传媒的 CEO 梁赛指出,DeepEP 适用于 Hopper 架构 GPU 从训练到推理的全流程加速,推动大模型进化演变,加速推理催生更多应用。




DeepSeek 开源周才进行到第二天,已发布的 FlashMLA 和 DeepEP 分别在推理训练和 MoE 通信上取得突破,后续还将继续覆盖训练、数据处理或部署等环节。相信 DeepSeek 会持续为开源技术发展贡献力量,让全世界受益于这些创新成果,推动人工智能技术迈向新高度。让我们共同期待 DeepSeek 在开源周接下来的精彩表现。


【声明】内容源于网络
0
0
元龙数字智能科技
永做第一 使命第一 向善第一
内容 901
粉丝 0
元龙数字智能科技 永做第一 使命第一 向善第一
总阅读246
粉丝0
内容901