大数跨境

亲自答丨马斯克点赞的 Kimi「注意力残差」是什么?

亲自答丨马斯克点赞的 Kimi「注意力残差」是什么? 知乎日报
2026-03-18
6
导读:数学上合理的架构,工程上没道理实现不了

月之暗面发布Attention Residuals:突破Transformer残差范式

3月16日,月之暗面正式发布下一代模型关键模块——Attention Residuals(AttnRes),引发马斯克、Karpathy等业界专家转发关注。

该技术摒弃Transformer沿用多年的加法残差连接,改用注意力机制聚合历史层信息,使当前层可按需检索并融合所有历史层中最具价值的特征,显著提升模型表达能力与信息利用效率。

Kimi Infra工程师深度解析

@Reku|Kimi AI Infra(训练架构方向)

本人主要负责AttnRes训练基础设施优化。Full AttnRes因Pipeline并行(PP)固有的通信与显存不对称性而受限。经团队协作,我们提出更工程友好的Block Attention Residual:将历史层划分为局部块,在保证算法有效性的同时,大幅降低PP调度复杂度。

核心创新在于Cross-Stage Caching——在Pipeline通信后增设适配器,对缓存块与新块进行拼接;反向传播时统一累加梯度后再分发。该设计逻辑对称、易于集成,且额外开销极小:在稳态阶段,通信开销基本被掩盖;计算方面,AttnRes本身访存友好,开销远低于Attention与MoE主干计算。

长远来看,随着HBM容量增大、C2C带宽提升及低精度训练普及,纯Zero-3训练已具备可行性,Full AttnRes的实现障碍正逐步消除。当TP(Tensor Parallelism)因硬件演进退出主流,一个更简洁优雅的大模型训练框架或将到来。

@YyWangCS|Kimi AI Infra(推理架构方向)

Attention Residual不仅是算法创新,更是算法与系统协同设计的典范。其最终形态——Block AttnRes,是在表达能力、训练成本、推理延迟与硬件约束间达成的精巧平衡。

Block AttnRes:兼顾表达力与极致性能

Block AttnRes采用Two-Phase Computation架构:

  • Phase 1(批处理跨块注意力):统一提取当前Block内所有层的Query,批量访问历史Block表示,大幅摊薄访存开销;
  • Phase 2(顺序块内注意力+在线Softmax合并):逐层推进并融合结果,支持与RMSNorm、AllReduce等算子深度融合,不牺牲数值精度。

性能实测表明:在典型配置下(batch=128,64 Decoder Block),端到端decode延迟增幅<0.5ms;高OTPS场景下延迟增量稳定在2%以内;32K Prefill等大计算负载场景中,额外开销近乎可忽略。

显存优化:序列切分+TP融合

针对长上下文显存压力,采用沿sequence维度的Tensor Parallel切分策略:以128K token、8 Block、hidden_dim=7168为例,单卡显存占用可由15GB降至约1.9GB。结合Chunked Prefill(如32K/chunk),单卡显存进一步压至1GB以内。所有操作均可无缝嵌入标准TP通信路径,兼容现有Fused Kernel体系。

从Full到Block:迭代背后的工程权衡

  • 算法提出:苏剑林老师奠定理论基础,通用Full AttnRes形式获初步实验验证;
  • 显存瓶颈:64层模型需缓存128份Hidden States,但通过序列切分可在8卡上降至7.5GB/卡;
  • 访存瓶颈:Full版本访存为O(L²),128层+32K上下文达7.7TB;Two-Phase将访存降至O(L√L),优化超6倍;
  • 训练落地:跨PP通信仍是主要障碍,综合考虑训练效率、算法收益与推理延迟,最终选定Block size=8作为最优解。

Block AttnRes并非终点。随着硬件持续进化,Full AttnRes仍具明确演进路径。

算法与工程的正向循环

本项目高度依赖算法与Infra团队的深度协同:剑林老师的完备理论分析给予工程侧强信心;工程侧Two-Phase方案的可行性确认又反哺算法侧加速验证。双方形成良性互信:“数学上合理的架构,工程上没道理实现不了”;“如果系统上实现不了,大概率是算法没真正想清楚”。这种协作模式,是应对AI技术拐点期复杂挑战的关键支撑。

【声明】内容源于网络
0
0
知乎日报
知乎官方订阅号,每日精选知乎热门、有趣内容
内容 9890
粉丝 0
知乎日报 知乎官方订阅号,每日精选知乎热门、有趣内容
总阅读66.8k
粉丝0
内容9.9k