

昇腾杀手锏FlashComm，让模型推理单车道变多车道

雷峰网

2025-05-22

导读：MoE模型推理面临的3大通信难题，被通信尖子生华为逐一突破，未来将进一步优化。

华为突破MoE模型通信难题，推理性能显著提升

随着大规模语言模型（LLMs）参数量呈指数级增长，其部署方式经历了单卡、多卡/单节点向以MoE为代表的超大规模集群演进。而通信作为多个计算节点协作的关键“桥梁”，成为影响大模型推理效率的重要环节。

针对MoE模型在大模型推理中引发的通信瓶颈问题，华为提出了三项创新技术：FlashComm、FlashComm2和FlashComm3，通过数学重构与硬件协同，显著提升了模型推理吞吐能力。

通过对DeepSeek V3/R1模型的深度分析，华为团队重构了专家激活、门控决策等模块，并结合昇腾多流引擎实现三股计算流并行。该技术不仅缩短关键路径耗时，同时为系统节省出额外内存空间。实际测试显示，DeepSeek模型Prefill阶段提速超10%，Decode吞吐提升25%-30%。

传统的AllReduce操作效率较低，华为将其拆解为ReduceScatter和AllGather两个阶段，并加入数据降维和INT8动态量化技术。结果显示，在DeepSeek模型中，Prefill推理性能提升22%-26%；Llama3.1-70B模型Decode阶段提升14%。

基于矩阵乘法维度等价关系，华为将三维张量压平成二维结构并配合INT8量化技术，大幅减少通信流量。该方法使得DeepSeek模型注意力转换阶段通信量下降86%，整体推理速度提升33%。

面向未来EP架构发展趋势，华为将进一步围绕多流并行、权重预取、模型自动多流编排等方面开展创新研究，持续提升大模型推理系统的综合性能。

【声明】内容源于网络

雷峰网

洞见智能未来，共与产业变迁

内容 15908

粉丝 0

雷峰网深圳英鹏信息技术股份有限公司洞见智能未来，共与产业变迁

总阅读216.2k

粉丝0

内容15.9k