亲自答丨马斯克点赞的 Kimi「注意力残差」是什么？- 大数跨境

首页

亲自答丨马斯克点赞的 Kimi「注意力残差」是什么？

知乎日报

2026-03-18

导读：数学上合理的架构，工程上没道理实现不了

月之暗面发布Attention Residuals：突破Transformer残差范式

3月16日，月之暗面正式发布下一代模型关键模块——Attention Residuals（AttnRes），引发马斯克、Karpathy等业界专家转发关注。

该技术摒弃Transformer沿用多年的加法残差连接，改用注意力机制聚合历史层信息，使当前层可按需检索并融合所有历史层中最具价值的特征，显著提升模型表达能力与信息利用效率。

Kimi Infra工程师深度解析

@Reku｜Kimi AI Infra（训练架构方向）

本人主要负责AttnRes训练基础设施优化。Full AttnRes因Pipeline并行（PP）固有的通信与显存不对称性而受限。经团队协作，我们提出更工程友好的Block Attention Residual：将历史层划分为局部块，在保证算法有效性的同时，大幅降低PP调度复杂度。

核心创新在于Cross-Stage Caching——在Pipeline通信后增设适配器，对缓存块与新块进行拼接；反向传播时统一累加梯度后再分发。该设计逻辑对称、易于集成，且额外开销极小：在稳态阶段，通信开销基本被掩盖；计算方面，AttnRes本身访存友好，开销远低于Attention与MoE主干计算。

长远来看，随着HBM容量增大、C2C带宽提升及低精度训练普及，纯Zero-3训练已具备可行性，Full AttnRes的实现障碍正逐步消除。当TP（Tensor Parallelism）因硬件演进退出主流，一个更简洁优雅的大模型训练框架或将到来。

@YyWangCS｜Kimi AI Infra（推理架构方向）

Attention Residual不仅是算法创新，更是算法与系统协同设计的典范。其最终形态——Block AttnRes，是在表达能力、训练成本、推理延迟与硬件约束间达成的精巧平衡。

Block AttnRes：兼顾表达力与极致性能

Block AttnRes采用Two-Phase Computation架构：

Phase 1（批处理跨块注意力）：统一提取当前Block内所有层的Query，批量访问历史Block表示，大幅摊薄访存开销；
Phase 2（顺序块内注意力+在线Softmax合并）：逐层推进并融合结果，支持与RMSNorm、AllReduce等算子深度融合，不牺牲数值精度。

性能实测表明：在典型配置下（batch=128，64 Decoder Block），端到端decode延迟增幅<0.5ms；高OTPS场景下延迟增量稳定在2%以内；32K Prefill等大计算负载场景中，额外开销近乎可忽略。

显存优化：序列切分+TP融合

针对长上下文显存压力，采用沿sequence维度的Tensor Parallel切分策略：以128K token、8 Block、hidden_dim=7168为例，单卡显存占用可由15GB降至约1.9GB。结合Chunked Prefill（如32K/chunk），单卡显存进一步压至1GB以内。所有操作均可无缝嵌入标准TP通信路径，兼容现有Fused Kernel体系。

从Full到Block：迭代背后的工程权衡

算法提出：苏剑林老师奠定理论基础，通用Full AttnRes形式获初步实验验证；
显存瓶颈：64层模型需缓存128份Hidden States，但通过序列切分可在8卡上降至7.5GB/卡；
访存瓶颈：Full版本访存为O(L²)，128层+32K上下文达7.7TB；Two-Phase将访存降至O(L√L)，优化超6倍；
训练落地：跨PP通信仍是主要障碍，综合考虑训练效率、算法收益与推理延迟，最终选定Block size=8作为最优解。

Block AttnRes并非终点。随着硬件持续进化，Full AttnRes仍具明确演进路径。

算法与工程的正向循环

本项目高度依赖算法与Infra团队的深度协同：剑林老师的完备理论分析给予工程侧强信心；工程侧Two-Phase方案的可行性确认又反哺算法侧加速验证。双方形成良性互信：“数学上合理的架构，工程上没道理实现不了”；“如果系统上实现不了，大概率是算法没真正想清楚”。这种协作模式，是应对AI技术拐点期复杂挑战的关键支撑。

【声明】内容源于网络

知乎日报

知乎官方订阅号，每日精选知乎热门、有趣内容

内容 9890

粉丝 0

知乎日报知乎官方订阅号，每日精选知乎热门、有趣内容

总阅读66.8k

粉丝0

内容9.9k