DeepEP 发布，开启 MoE 模型通信新时代- 大数跨境

首页

DeepEP 发布，开启 MoE 模型通信新时代

元龙数字智能科技

2025-02-26

DeepEP 发布

开启 MoE 模型通信新时代

在人工智能飞速发展的当下，大模型的训练与推理技术不断革新。DeepSeek 开源周备受瞩目，继首日发布 FlashMLA 后，第二天又重磅推出 DeepEP，为 MoE 模型训练与推理带来新的突破。

MoE 模型作为提升语言模型质量的关键技术，利用多个子模型（专家）协作，通过路由机制决定输入词元的处理路径。但专家数量众多且分布于不同设备，通信效率直接影响模型训练与推理速度，高效通信库至关重要。

DeepEP 是面向 MoE 模型训练与推理的开源 EP 通信库，专门针对 Hopper GPU 优化通信效率。其主要特点显著：在通信方面，实现高效优化的全对全通信，并通过 NVLink 和 RDMA 支持节点内与节点间通信；内核设计上，提供用于训练和推理预填充的高吞吐量内核，以及低延迟推理解码内核；支持层面，具备原生 FP8 调度支持，还能实现计算与通信重叠的灵活 GPU 资源控制。

从功能细节看，DeepEP 的正常内核可控制 Streaming Multiprocessor（SM）数量，优化训练和推理预填充性能。低延迟内核采用纯 RDMA 技术和基于钩子的通信 - 计算重叠方法，不占用 SM 资源，对实时应用如语言模型逐 token 生成意义重大。其支持的 FP8 操作，以 8 位浮点格式实现更快计算和更少内存占用，契合大型模型需求。在硬件优化上，针对 NVLink 到 RDMA 域等非对称域带宽转发进行优化，符合 DeepSeek - V3 论文中的组限制门控算法。

性能实测中，DeepEP 表现惊艳。在 H800 上 4096 个 token 同时处理场景下，传输速度达 153GB/s，接近 160GB/s 的硬件理论极限。

DeepEP 的价值体现在多方面。效率上，优化通信减少训练和推理时间及计算资源，低延迟内核适合实时推理；扩展性上，支持大规模 GPU 集群，能处理参数量巨大的模型；成本方面，减少 GPU 使用时间，降低训练成本；创新潜力上，可能影响未来硬件设计。

DeepEP 发布后，在 X 平台收获众多积极评价，被赞为 “开源工具的伟大发布” ，其高效通信和对低精度操作的支持备受关注。赛科传媒的 CEO 梁赛指出，DeepEP 适用于 Hopper 架构 GPU 从训练到推理的全流程加速，推动大模型进化演变，加速推理催生更多应用。

DeepSeek 开源周才进行到第二天，已发布的 FlashMLA 和 DeepEP 分别在推理训练和 MoE 通信上取得突破，后续还将继续覆盖训练、数据处理或部署等环节。相信 DeepSeek 会持续为开源技术发展贡献力量，让全世界受益于这些创新成果，推动人工智能技术迈向新高度。让我们共同期待 DeepSeek 在开源周接下来的精彩表现。

完

【声明】内容源于网络

元龙数字智能科技

永做第一使命第一向善第一

内容 901

粉丝 0

元龙数字智能科技永做第一使命第一向善第一

总阅读246

粉丝0

内容901