机器之心PRO · 会员通讯 Week 45
--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---
为什么算法创新压力在 Attention?流行的 Attention 改良方案有哪些?为什么 Linear、Sparse 和 Hybrid Attention 仍有诸多变数?MiniMax 为什么回归 Full Attention?商用条件和约束对 Attention 设计有何影响?...
当端到端学习只能模仿动作,人形机器人如何获得「理解身体」的能力?仿人五指 or 夹爪并行,人形机器人该追求「像人」还是「能用」?RL 和力控结合的「学习型身体」,让人形机器人具备了人类的动作智能?通用人形的未来,会从形态统一走向功能分化吗?...
3. OpenAI 1.4 万亿算力会是泡沫吗?
「非营利」混合架构如何解决「使命对齐」和「资本需求」的根本矛盾?「非对称独家性」有何战略优势?为何说「算力不足」是核心瓶颈?「杰文斯悖论」如何支撑 1.4 万亿的「前瞻性赌注」?「上下文工程」如何重构 SaaS 业务逻辑?...
要事解读① Which Attention is All You Need?
引言:在 FFN 模块被 MoE 成功优化后,业界对算法创新的压力和投入开始集中于 Attention 机制,并涌现了大量 Attention 的改良工作。这些探索工作展示了 Attention 机制丰富的可能性,使其有望成为下一个重大突破。然而,但在诸多路线下,最佳 Attention 设计方案尚无定论,「Which Attention is All You Need?」的问题仍然有待观察。
诸多路线下, Attention 优化之争,所谓几何?
1、2025 年以来,LLM 发展所需的数据和算力两大支柱正在遭遇显著的扩展瓶颈,因而导致算法的创新在当下尤为重要。[1-1]
2、Transformer 作为当前最为流行的 LLM 架构,大量研究都在尝试改善其 FFN(前馈神经网络)和 Attention 两大核心组件。[1-1]
3、MIT在读博士、Kimi Linear作者之一杨松琳在近期的访谈中指出,「近几年架构最大突破是DeepSeek的MoE,它让MoE成为了全球共识;而下一个突破的重要方向可能就是Attention」。[1-1]
4、在 FFN 模块被 MoE 成功优化后,业界对算法创新的压力和投入开始集中于 Attention 机制,也使其成为近期的研究重点。[1-1]
① Attention 机制是 Transformer 成功的核心,但随序列长度 N呈 O(N^2)增长的计算复杂度和 KV 缓存问题等局限,业内涌现出大量对 Attention 的改良。[1-2]
5、为了打破 O(N^2) 的束缚,学术界和工业界对 Attention 的研究探索主要归纳为线性 (Linear Attention) 和 稀疏(Sparse Attention) 两条主流路径,以及分别衍生的混合(Hybrid)扩展。[1-2]
① 线性 Attention 的目标是通过「重新参数化或近似 softmax attention 为线性操作」,将复杂度从 O(N^2) 降至 O(N)。
② 稀疏 Attention 不试图近似整个注意力矩阵,而是「将注意力计算限制在完整 Key 空间的一个子集上」 。它假定大多数 token 间的交互是不必要的,因此只计算那些「被选中」的交互。
6、此外,也有像 Mimimax 团队出于工程理性的判断,在M2 工作选择重新拥抱全局注意力(Full Attention),尝试通过工程优化让 O(N^2) 在特定场景下也能被高效利用。[1-3]
7、基于各类研究工作所取得的改进和业界的探索热情,Attention 机制展现出丰富的可能性,有望成为 AI 领域的下一个重要突破。但其最佳设计方案尚未形成共识,仍有诸多可能性。
Linear v.s. Sparse,主流 Attention 改良 「玩」 法有哪些?
1、Attention 机制是 Transformer 成功的核心,但标准的自注意力机制在于输入序列长度的二次方时间和内存复杂度 O(N^2) 仍是高效长序列建模的「根本障碍」(fundamental obstacle)。[1-2]
① 这种二次方复杂度的根源在于,Attention 机制需要「计算所有任务位置之间的成对交互」,导致长序列的预填充(prefill)阶段的计算量巨大;解码(推理)阶段则需要存储和读取所有先前 token 的 KV 缓存,占据推理期间的内存带宽,成为长文输出的主要瓶颈。
2、清华大学的研究者在 2025 年 8 月的综述中,将近期尝试打破 O(N^2)制约的探索工作归纳为 Linear 和 Sparse 两条主流路径。[1-2]
3、Linear Attention 的目标是通过「重新参数化或近似标准(softmax)attention 为线性操作」,将复杂度从 O(N^2) 降至 O(N),其设计思路大体可分为三类。[1-2]
① 基于核(Kernelized)的 Linear Attention 方法利用核函数近似理论,通过找到一个特征映射来近似 Softmax 内核,从而降低计算复杂度。其代表性工作包含 Linear Transformer、Performer 和 cosFormer 等。
② 带有遗忘机制(forgetting mechanism)的 Linear Attention 则将注意力视为循环神经网络 (RNN) 或连续状态空间模型 (SSM),其中又分为数据无关衰减(如 RetNet、Eagle 等)和数据相关衰减(如 Mamba、GLA 等)。
③ 作为上下文学习器 (In-Context Learners) 的核心思想是将Linear Attention 重新解释为在线优化的记忆更新过程,从而增强模型的上下文学习能力。模型结构中直接包含了“快学习动态”或快速权重更新规则,将序列处理视为一个在线训练过程,目标是最小化记忆检索与新值之间的误差
4、在一系列 Linear Attention 工作中,月之暗面团于 10 月底提出的 Kimi Linear 是近期较为受关注的探索。该架构在各种场景中都优于传统的全注意力方法,包括短文本、长文本以及强化学习的 scaling 机制。[1-4] [1-5]
① Kimi Linear 的核心是 改进 Gated DeltaNet(GDN)得到的 Kimi Delta Attention(KDA),通过引入一个通道感知(channel-wise)的的门控机制,让每个通道可以学习「独立的遗忘速率」,以优化有限状态 RNN 内存的使用。
② 纯粹的 O(N) 线性 Attention 在理论上仍然可能存在相较于 O(N^2) 全局连接的信息损失,Kimi Linear 设计了分层混合架构,它采用了 3:1 的层比例,在每三层线性的 KDA 层之后,插入一个标准的 Full Attention(MLA)层。
③ 在测试中,Kimi Linear 最多可将对大型 KV 缓存的需求减少 75%,并且在处理长达 100 万个 token 的上下文时,速度是Full Attention的 6 倍。
5、Sparse Attention 的目标是跳过 O(N^2)的全量计算,通过某种高效的机制预先筛选出一个「重要 token 对」子集,仅在这些子集上执行 Attention 计算,较为流行的有固定模式、块和基于聚类的方法。
① 固定模式的 Sparse Attention 使用静态的、与数据内容无关的掩码,包含只关注局部的相邻 token 的滑窗(如 Sparse Transformer、GPT-3)和让感受野随距离增加的扩张注意力(如 LongNet、LogSparse)等方法。
② Block-Sparse Attention 方法在在块(block)的粒度上进行路由选择,通常使用可训练的门控。可根据不同阶段分为面向预填充的(如 SpargeAttn)和面向解码的(如 Quest 和 DOubleSparsity)Block-Sparse ;以及使用可训练的 MLP 层(作为门控网络)来学习每个token重要性的基于路由的 Block-Sparse(如 DeepSeek NSA)。
③ 基于聚类的(Clustering)Attention 使用基于内容或位置的分组方法(如 k-means 或 LSH)来组织键值对 ,以便在选择关键令牌时具有更好的语义属性,代表性工作有 RetrievalAttention、ClusterKV 等。
6、在 Sparse Attention 路线中,DeepSeek 团队从 NSA 到 DSA 的进展是业内较为受关注的探索工作。[1-6] [1-7] [1-8] [1-9]
① DeepSeek 的 NSA(Natice Sparse Attention)是一种 Block Sparse Attention,其设计了「动态分层稀疏策略」,通过将 Attention 的 Keys 和 Values 组成时间块,并结合了粗粒度 token 压缩、选择性保留的细粒度 token 和用于全局上下文的滑窗三中了 u 静进行处理,解决 LLM 长上下文建模问题。
② 相比 NSA 采用 Block-wise 的颗粒度,2025 年 9 月在 DeepSeek-V3.2-Exp 工作中提出的 DSA(DeepSeek Sparse Attention)采用了更细粒度的 token-wise 稀疏策略。
③ DSA 通过在模型中引入一个轻量级的 Lightning Indexer 对所有 token 进行快速的 O(N)扫描,为每个 token 计算出一个「重要性」的代理分数,然后通过「Top-k Token Selection」选出得分最高的 k 个 token,对齐进行 full attention 计算。
④ DSA 的目标是在不显著影响性能的前提下,大幅提升训练与推理效率。在 H800 GPU 集群的测试中,在 128k 长上下文条件下,DeepSeek-V3.2-Exp 将主模型的注意力复杂度从 O(L^2)降为 O(Lk),其单位 token 计算成本在预填充和解码阶段均有下降,成本最高下降达到 60%-70%。
Kimi Linear 之外,近期还有哪些值得关注的 Attention 改良方案?

