马斯克下场点赞！Kimi 这篇论文撬动了大模型的「祖传地基」- 大数跨境

首页

马斯克下场点赞！Kimi 这篇论文撬动了大模型的「祖传地基」

APPSO

2026-03-18

导读：一次优雅的「旋转」

同样的算力，同样的数据，效果为何不同？

同样的算力与数据，模型效果却存在显著差异。多数人归因于模型规模、数据质量或工程能力；而月之暗面Kimi给出了更本质的答案。

Attention Residuals：撬动深度学习地基的底层创新

3月16日，月之暗面Kimi发布技术报告《Attention Residuals》（注意力残差），对Transformer架构中沿用近十年的残差连接结构进行重构。实验表明：在同等算力下，新方法训练出的模型性能，相当于基线模型消耗1.25倍算力才能达到的效果。

GitHub开源地址：github.com/MoonshotAI/Attention-Residuals

该成果获得多位全球AI顶尖研究者公开认可：马斯克称其为“令人印象深刻的工作”；OpenAI o1核心发明者Jerry Tworek将其视为“深度学习2.0”的开端；前OpenAI联合创始人Andrej Karpathy评价：“看来我们还没把‘Attention is All You Need’这句话按字面意思理解透。”

十年未动的地基：残差连接的局限性

过去两年，大模型竞争聚焦于上层优化——如注意力变体、MoE路由、对齐策略等，而基础模块残差连接自2015年ResNet提出以来几乎从未被系统性重构。

残差连接通过“直通道”将原始输入叠加至当前层输出，解决了深层网络梯度消失难题，成为所有主流大模型的基石。但其信息聚合方式存在根本缺陷：对所有前序层输出进行无差别等权相加。

这一设计导致PreNorm稀释问题——随着网络加深，单层贡献在总量中占比持续衰减，迫使后层输出更大数值以维持影响力。已有研究表明，部分中间层可直接删除而不影响效果，印证其实际贡献微弱。

Kimi选择回归第一性原理，重新审视这一“理所当然”的设计。创始人杨植麟在GTC 2026演讲中指出：“行业普遍使用的许多技术标准，本质是八九年前的产物，正逐渐成为Scaling瓶颈。”他强调，要突破大模型智能上限，必须重构优化器、注意力机制及残差连接等底层范式。

一次优雅的“旋转”：从序列维度到深度维度

Attention Residuals的核心洞察源于类比：RNN在时间维度上的“健忘”问题，与深层网络在深度维度上的信息衰减问题，具有相同数学结构。

Transformer将注意力机制应用于横轴（词序列），使每个词可动态关注任意历史词；AttnRes则将同一机制“旋转90度”，应用于纵轴（网络深度），让每一层可动态关注此前各层的输出状态——操作对象从“同一层内不同词”，变为“同一词在不同层的状态”。

研究人员进一步发现：过去十年各类残差改进方案（如Highway、mHC等），本质上均为“深度方向的线性注意力”不同实现形式。AttnRes首次将非线性注意力机制完整迁移至深度维度。

具体实现上，每层配备一个可学习的查询向量（Query Vector），根据当前任务动态计算对各前序层输出的关注权重，实现有选择的信息融合。该设计仅新增极小参数量（单个向量+归一化），且初始化为零以保障训练初期稳定性。

工程落地：Block AttnRes与全链路优化

全量AttnRes面临内存与通信开销随层数线性增长的瓶颈，难以适配千亿级大模型。Kimi提出实用解法——Block AttnRes：将网络划分为若干Block（如48B模型分8–9块，每块约6层），块内保留传统残差，块间采用注意力机制。

该设计将需缓存与传输的数据量从“所有层”降至“块数”，实测8块即可保留绝大部分性能增益。

训练端引入跨阶段缓存机制，在流水线并行中仅传输新增块数据，额外开销≤4%；推理端采用两阶段矩阵运算策略，摊销重复访存，延迟增加≤2%。

实证效果：全面领先，泛化性强

在5种不同规模模型测试中，Block AttnRes均以更低验证损失超越基线，且优势随模型规模扩大稳定保持。拟合曲线显示：同等算力下，其效果等效于基线消耗1.25倍算力。

在48B参数（3B激活）Kimi Linear架构中，Block AttnRes于全部15项主流评测基准上持平或优于PreNorm基线：

博士级科学推理GPQA-Diamond：+7.5%
数学任务Math：+3.6%
代码生成HumanEval：+3.1%

训练过程分析表明：基线模型各层输出值随深度单调递增，印证PreNorm稀释；而AttnRes在块边界处重置输出值，呈现周期性变化，各层梯度分布更均匀，证实更多层参与有效学习。

可视化注意力权重发现：每层仍以依赖前一层为主，但出现稳定跳跃连接（如回溯早期层、聚焦初始词嵌入）；且注意力层倾向广泛历史，MLP层更依赖近邻层，符合二者功能分工。

架构搜索实验进一步揭示：标准残差偏好“宽而浅”模型，而AttnRes最优解偏向“窄而深”，证明其能更高效利用深度资源，避免边际效益递减的堆砌。

不止于残差：Kimi的底层技术全景

在GTC 2026演讲中，杨植麟同步披露多项底层突破：

MuonClip优化器：相较AdamW实现2倍计算效率提升（Adam自2014年沿用至今）
Kimi Linear（KDA架构）：在128K至百万级超长上下文下达成5–6倍解码加速
Vision RL跨模态训练：纯文本Benchmark提升约2.1%

他将这些创新纳入统一的Scaling框架：Token效率 × 长上下文 × Agent Swarms。“当前的Scaling已非单纯资源堆砌，而是在计算效率、长程记忆与自动化协作三方面同步寻找规模效应。”

时代转弯：从修修补补到重筑地基

Kimi在残差连接这一最底层模块取得实质性突破，并获硅谷顶级人物集体背书，标志中国团队在基础理论原创能力上的关键跃升。

Jerry Tworek所言“深度学习2.0”，并非指单篇论文颠覆一切，而是代表一种方法论回归：不再满足于上层修修补补，转而系统审视那些被默认“已解决”的基础设施。

若残差连接可被重构，Adam优化器、层归一化、位置编码是否同样存在重构空间？深度学习的基础范式正在发生本质变化。

当前验证集中于48B模型（3B激活），千亿/万亿级模型上的稳定性、以及指令微调与RLHF后训练阶段的收益留存，仍待进一步验证。但其轻量特性（约100行代码改动、训练开销+4%）已展现出强大可扩展潜力。

Attention Residuals抬高Token效率天花板，Kimi Linear拓展长上下文边界，Agent Swarms指向智能体协作未来——当三条技术主线在下一代模型中交汇，或将催生全新的AI范式。

在AI通天塔的建设中，众人争筑高台；Kimi俯身凿向路基，撬动了深度学习最底层的地基。

【声明】内容源于网络

APPSO

AI第一新媒体，「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al

内容 14583

粉丝 0

APPSO AI第一新媒体，「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al

总阅读186.5k

粉丝0

内容14.6k