大数跨境

马斯克下场点赞!Kimi 这篇论文撬动了大模型的「祖传地基」

马斯克下场点赞!Kimi 这篇论文撬动了大模型的「祖传地基」 APPSO
2026-03-18
2
导读:一次优雅的「旋转」

同样的算力,同样的数据,效果为何不同?

同样的算力与数据,模型效果却存在显著差异。多数人归因于模型规模、数据质量或工程能力;而月之暗面Kimi给出了更本质的答案。

Attention Residuals:撬动深度学习地基的底层创新

3月16日,月之暗面Kimi发布技术报告《Attention Residuals》(注意力残差),对Transformer架构中沿用近十年的残差连接结构进行重构。实验表明:在同等算力下,新方法训练出的模型性能,相当于基线模型消耗1.25倍算力才能达到的效果。

GitHub开源地址:github.com/MoonshotAI/Attention-Residuals

该成果获得多位全球AI顶尖研究者公开认可:马斯克称其为“令人印象深刻的工作”;OpenAI o1核心发明者Jerry Tworek将其视为“深度学习2.0”的开端;前OpenAI联合创始人Andrej Karpathy评价:“看来我们还没把‘Attention is All You Need’这句话按字面意思理解透。”

十年未动的地基:残差连接的局限性

过去两年,大模型竞争聚焦于上层优化——如注意力变体、MoE路由、对齐策略等,而基础模块残差连接自2015年ResNet提出以来几乎从未被系统性重构。

残差连接通过“直通道”将原始输入叠加至当前层输出,解决了深层网络梯度消失难题,成为所有主流大模型的基石。但其信息聚合方式存在根本缺陷:对所有前序层输出进行无差别等权相加。

这一设计导致PreNorm稀释问题——随着网络加深,单层贡献在总量中占比持续衰减,迫使后层输出更大数值以维持影响力。已有研究表明,部分中间层可直接删除而不影响效果,印证其实际贡献微弱。

Kimi选择回归第一性原理,重新审视这一“理所当然”的设计。创始人杨植麟在GTC 2026演讲中指出:“行业普遍使用的许多技术标准,本质是八九年前的产物,正逐渐成为Scaling瓶颈。”他强调,要突破大模型智能上限,必须重构优化器、注意力机制及残差连接等底层范式。

一次优雅的“旋转”:从序列维度到深度维度

Attention Residuals的核心洞察源于类比:RNN在时间维度上的“健忘”问题,与深层网络在深度维度上的信息衰减问题,具有相同数学结构。

Transformer将注意力机制应用于横轴(词序列),使每个词可动态关注任意历史词;AttnRes则将同一机制“旋转90度”,应用于纵轴(网络深度),让每一层可动态关注此前各层的输出状态——操作对象从“同一层内不同词”,变为“同一词在不同层的状态”。

研究人员进一步发现:过去十年各类残差改进方案(如Highway、mHC等),本质上均为“深度方向的线性注意力”不同实现形式。AttnRes首次将非线性注意力机制完整迁移至深度维度。

具体实现上,每层配备一个可学习的查询向量(Query Vector),根据当前任务动态计算对各前序层输出的关注权重,实现有选择的信息融合。该设计仅新增极小参数量(单个向量+归一化),且初始化为零以保障训练初期稳定性。

工程落地:Block AttnRes与全链路优化

全量AttnRes面临内存与通信开销随层数线性增长的瓶颈,难以适配千亿级大模型。Kimi提出实用解法——Block AttnRes:将网络划分为若干Block(如48B模型分8–9块,每块约6层),块内保留传统残差,块间采用注意力机制。

该设计将需缓存与传输的数据量从“所有层”降至“块数”,实测8块即可保留绝大部分性能增益。

训练端引入跨阶段缓存机制,在流水线并行中仅传输新增块数据,额外开销≤4%;推理端采用两阶段矩阵运算策略,摊销重复访存,延迟增加≤2%。

实证效果:全面领先,泛化性强

在5种不同规模模型测试中,Block AttnRes均以更低验证损失超越基线,且优势随模型规模扩大稳定保持。拟合曲线显示:同等算力下,其效果等效于基线消耗1.25倍算力。

在48B参数(3B激活)Kimi Linear架构中,Block AttnRes于全部15项主流评测基准上持平或优于PreNorm基线:

  • 博士级科学推理GPQA-Diamond:+7.5%
  • 数学任务Math:+3.6%
  • 代码生成HumanEval:+3.1%

训练过程分析表明:基线模型各层输出值随深度单调递增,印证PreNorm稀释;而AttnRes在块边界处重置输出值,呈现周期性变化,各层梯度分布更均匀,证实更多层参与有效学习。

可视化注意力权重发现:每层仍以依赖前一层为主,但出现稳定跳跃连接(如回溯早期层、聚焦初始词嵌入);且注意力层倾向广泛历史,MLP层更依赖近邻层,符合二者功能分工。

架构搜索实验进一步揭示:标准残差偏好“宽而浅”模型,而AttnRes最优解偏向“窄而深”,证明其能更高效利用深度资源,避免边际效益递减的堆砌。

不止于残差:Kimi的底层技术全景

在GTC 2026演讲中,杨植麟同步披露多项底层突破:

  • MuonClip优化器:相较AdamW实现2倍计算效率提升(Adam自2014年沿用至今)
  • Kimi Linear(KDA架构):在128K至百万级超长上下文下达成5–6倍解码加速
  • Vision RL跨模态训练:纯文本Benchmark提升约2.1%

他将这些创新纳入统一的Scaling框架:Token效率 × 长上下文 × Agent Swarms。“当前的Scaling已非单纯资源堆砌,而是在计算效率、长程记忆与自动化协作三方面同步寻找规模效应。”

时代转弯:从修修补补到重筑地基

Kimi在残差连接这一最底层模块取得实质性突破,并获硅谷顶级人物集体背书,标志中国团队在基础理论原创能力上的关键跃升。

Jerry Tworek所言“深度学习2.0”,并非指单篇论文颠覆一切,而是代表一种方法论回归:不再满足于上层修修补补,转而系统审视那些被默认“已解决”的基础设施。

若残差连接可被重构,Adam优化器、层归一化、位置编码是否同样存在重构空间?深度学习的基础范式正在发生本质变化。

当前验证集中于48B模型(3B激活),千亿/万亿级模型上的稳定性、以及指令微调与RLHF后训练阶段的收益留存,仍待进一步验证。但其轻量特性(约100行代码改动、训练开销+4%)已展现出强大可扩展潜力。

Attention Residuals抬高Token效率天花板,Kimi Linear拓展长上下文边界,Agent Swarms指向智能体协作未来——当三条技术主线在下一代模型中交汇,或将催生全新的AI范式。

在AI通天塔的建设中,众人争筑高台;Kimi俯身凿向路基,撬动了深度学习最底层的地基。

【声明】内容源于网络
0
0
APPSO
AI第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al
内容 14583
粉丝 0
APPSO AI第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al
总阅读186.5k
粉丝0
内容14.6k