华为突破MoE模型通信难题,推理性能显著提升
三大核心技术优化大模型推理效率
随着大规模语言模型(LLMs)参数量呈指数级增长,其部署方式经历了单卡、多卡/单节点向以MoE为代表的超大规模集群演进。而通信作为多个计算节点协作的关键“桥梁”,成为影响大模型推理效率的重要环节。
针对MoE模型在大模型推理中引发的通信瓶颈问题,华为提出了三项创新技术:FlashComm、FlashComm2和FlashComm3,通过数学重构与硬件协同,显著提升了模型推理吞吐能力。
1. FlashComm:昇腾亲和多流并行,打破串行桎梏
通过对DeepSeek V3/R1模型的深度分析,华为团队重构了专家激活、门控决策等模块,并结合昇腾多流引擎实现三股计算流并行。该技术不仅缩短关键路径耗时,同时为系统节省出额外内存空间。实际测试显示,DeepSeek模型Prefill阶段提速超10%,Decode吞吐提升25%-30%。
2. AllReduce革新:“智能压缩器”降低通信压力
传统的AllReduce操作效率较低,华为将其拆解为ReduceScatter和AllGather两个阶段,并加入数据降维和INT8动态量化技术。结果显示,在DeepSeek模型中,Prefill推理性能提升22%-26%;Llama3.1-70B模型Decode阶段提升14%。
3. 以存换传:维度重构减少传输负担
基于矩阵乘法维度等价关系,华为将三维张量压平成二维结构并配合INT8量化技术,大幅减少通信流量。该方法使得DeepSeek模型注意力转换阶段通信量下降86%,整体推理速度提升33%。
未来展望
面向未来EP架构发展趋势,华为将进一步围绕多流并行、权重预取、模型自动多流编排等方面开展创新研究,持续提升大模型推理系统的综合性能。


