大数跨境
0
0

昇腾杀手锏FlashComm,让模型推理单车道变多车道

昇腾杀手锏FlashComm,让模型推理单车道变多车道 雷峰网
2025-05-22
27
导读:MoE模型推理面临的3大通信难题,被通信尖子生华为逐一突破,未来将进一步优化。

华为突破MoE模型通信难题,推理性能显著提升

三大核心技术优化大模型推理效率

随着大规模语言模型(LLMs)参数量呈指数级增长,其部署方式经历了单卡、多卡/单节点向以MoE为代表的超大规模集群演进。而通信作为多个计算节点协作的关键“桥梁”,成为影响大模型推理效率的重要环节。

针对MoE模型在大模型推理中引发的通信瓶颈问题,华为提出了三项创新技术:FlashComm、FlashComm2和FlashComm3,通过数学重构与硬件协同,显著提升了模型推理吞吐能力。

1. FlashComm:昇腾亲和多流并行,打破串行桎梏

通过对DeepSeek V3/R1模型的深度分析,华为团队重构了专家激活、门控决策等模块,并结合昇腾多流引擎实现三股计算流并行。该技术不仅缩短关键路径耗时,同时为系统节省出额外内存空间。实际测试显示,DeepSeek模型Prefill阶段提速超10%,Decode吞吐提升25%-30%。

2. AllReduce革新:“智能压缩器”降低通信压力

传统的AllReduce操作效率较低,华为将其拆解为ReduceScatter和AllGather两个阶段,并加入数据降维和INT8动态量化技术。结果显示,在DeepSeek模型中,Prefill推理性能提升22%-26%;Llama3.1-70B模型Decode阶段提升14%。

3. 以存换传:维度重构减少传输负担

基于矩阵乘法维度等价关系,华为将三维张量压平成二维结构并配合INT8量化技术,大幅减少通信流量。该方法使得DeepSeek模型注意力转换阶段通信量下降86%,整体推理速度提升33%。

未来展望

面向未来EP架构发展趋势,华为将进一步围绕多流并行、权重预取、模型自动多流编排等方面开展创新研究,持续提升大模型推理系统的综合性能。

【声明】内容源于网络
0
0
雷峰网
洞见智能未来,共与产业变迁
内容 15908
粉丝 0
认证用户
雷峰网 深圳英鹏信息技术股份有限公司 洞见智能未来,共与产业变迁
总阅读216.2k
粉丝0
内容15.9k