告别“学新忘旧”！谷歌Nested Learning让AI拥有持续成长的生命力- 大数跨境

首页

告别“学新忘旧”！谷歌Nested Learning让AI拥有持续成长的生命力

AIGC产业观澜

2025-12-01

导读：近日，谷歌研究团队在NeurIPS 2025上发表题为《Nested Learning》的论文，提出了一种全新的机器学习范式——嵌套学习，被业内戏称为“Attention is all you nee

突破性新范式终结AI“顺行性遗忘”，模型像人类一样日积月累地学习

近日，谷歌研究团队在NeurIPS 2025上发表题为《Nested Learning: The Illusion of Deep Learning Architectures》的论文，提出了一种全新的机器学习范式——嵌套学习（Nested Learning），被业内戏称为“Attention is all you need 2.0”。这项研究由钟沛林领导的团队提出，不仅重新定义了深度学习的架构与优化算法的关系，更通过HOPE模块的创新设计，试图让AI从“静态工具”转变为“动态学习者”。

传统大模型如GPT、Gemini在预训练后知识基本固定，只能通过有限上下文窗口进行短期记忆，无法将新知识真正内化，这类似于人类医学中的“顺行性遗忘症”。谷歌团队从人脑学习机制中获得灵感，提出了将模型架构与优化算法统一看待的革命性视角。

一、从"顺行性遗忘"到"肌肉记忆"：大模型的进化瓶颈

大语言模型的"顺行性遗忘症"是AI领域长期存在的难题。与人类不同，现有的大模型如GPT、Gemini等，在预训练完成后便几乎丧失了形成新长期记忆的能力。它们的记忆主要分为两个部分：预训练参数构成的"老记忆"和对话上下文中的"短期记忆"。前者固定不变，后者仅能维持几分钟，且无法真正内化为模型的知识体系。当用户关闭对话窗口后，这些新信息便如同流沙般消逝，无法沉淀为模型的长期能力。

这种困境导致了行业内的两种主流解决方案：微调和检索增强生成（RAG）。微调虽然能调整模型参数以适应新任务，但容易引发"灾难性遗忘"——模型在学习新知识时，会像覆盖旧磁带一样抹去已掌握的旧技能。更为严重的是，企业为每个业务单独微调一份权重，导致"模型版本爆炸"，管理数十上百个checkpoint变得极为困难。而RAG虽然通过外挂数据库缓解了记忆力问题，却无法解决"行为风格"的固化问题，例如金融客服的风险提示措辞、医疗场景的谨慎表达等特定领域的知识，仍然需要通过权重层面的"长期记忆"来固化。

钟沛林团队发现，问题的根源在于传统深度学习将模型架构与优化算法视为两个独立的组件。这种割裂的视角虽然取得了一些进展，但始终未能从根本上解决问题。模型就像一个静态的知识库，一旦定型，便难以生长。而人脑的学习过程却截然不同：我们对眼前事物的瞬时记忆更新速度极快，短期记忆次之，长期记忆则缓慢沉淀，需要长时间的巩固。人脑中不存在统一的学习开关，而是无数个学习过程以不同速度同时进行。

这一洞察为Google团队提供了关键的启发。他们提出，一个复杂的机器学习模型本质上是一组相互嵌套或并行运行的优化问题。在这种视角下，模型的每一个组成部分，无论是权重参数，还是优化器中的动量项，都拥有自己的更新频率。这种快慢之分自然形成了一种层级结构，使模型能够像人脑一样实现知识的动态积累与迭代。

二、嵌套学习的哲学：统一模型与优化

嵌套学习（Nested Learning, NL）的核心哲学彻底颠覆了传统深度学习中将模型架构与优化算法视为两个独立组件的"扁平化"视角。在传统方法中，神经网络的结构设计和其训练过程是分离的，模型架构是预先定义好的静态蓝图，而优化算法（如SGD、Adam）则是一个外部的、统一的规则引擎，负责在训练期间调整模型参数。这种分离的视角隐藏了模型内部不同组件之间复杂的梯度流和动态更新过程，将整个学习系统视为一个单一层次的优化问题。

而嵌套学习范式提出，这种分离是一种"幻觉"。它主张将整个学习过程重新构建为一个统一的、多层次的系统，其中模型本身和优化规则是同一概念在不同"学习层级"上的体现。在这个系统中，学习不再是单一、扁平的参数更新过程，而是被分解为一系列相互嵌套的优化问题，每个子问题都在其特定的时间尺度和抽象层次上运作，共同构成一个动态、自适应的整体。

这种统一化的视角带来了深刻的变革。例如，传统上被视为外部工具的优化器（如Adam），在NL的视角下，其内部的动量项可以被看作一个关联记忆系统。它通过解决自身的优化问题来学习如何压缩和表示梯度历史信息，从而为权重更新提供指导。这意味着优化器不再是一个被动的、预设的规则执行者，而是一个主动的、与模型参数并行学习的实体。

钟沛林团队进一步指出，Transformer架构本质上只是嵌套学习的简化版本。其线性层结构相当于忽略了NL多层级协同的核心优势，仅保留了单一层级的静态前馈网络。这种"扁平化"设计无法处理不同时间尺度的记忆需求，导致模型在持续学习和长期记忆方面存在根本缺陷。

三、HOPE模块的三层记忆系统：从人脑到AI的认知模拟

基于嵌套学习范式，Google研究团队开发了HOPE（Hierarchical Optimized Persistent Memory）模块，这是一个受人脑记忆机制启发的三层记忆系统。HOPE模块的设计灵感来自于人脑的"在线巩固"和"离线巩固"两个互补过程：短期内记忆快速更新，长期记忆则缓慢沉淀，不同层级的记忆系统按照各自的节奏协同运作。

HOPE模块将记忆分为三个层级：

1. 高频层（High-Frequency Layer）：实时处理对话，更新速度最快，类似于人脑的瞬时记忆
2. 中频层（Medium-Frequency Layer）：总结对话要点，更新速度适中，类似于人脑的短期记忆
3. 低频层（Low-Frequency Layer）：整合长期互动（如记住用户喜好），更新速度最慢，类似于人脑的长期记忆

最显著的创新在于低频层能够真正微调自身参数内化信息，而非依赖外挂数据库（RAG）查"笔记" 。这类似于钢琴家通过反复练习将曲子融入肌肉记忆，而非每次演奏都看乐谱。低频层通过连续谱记忆系统（Continuum Memory Systems, CMS）实现，CMS将传统二元记忆结构升级为多尺度记忆链，不同模块按不同频率更新，分别处理短期细节与长期规律。

HOPE模块的实现包含三大核心创新：

1. 深度优化器：用神经网络替代传统线性记忆，能够预判梯度变化、灵活调参，增强模型对不完美数据的鲁棒性
2. 自我修改模型：允许模型摆脱固定更新规则，在训练过程中自主学习"如何调整自身参数"，无需人工干预即可适配新领域数据
3. 连续记忆系统：构建多层次的记忆架构，每个层级拥有独立的上下文流和更新频率，实现信息的高效处理与存储

HOPE模块在架构上采用了一个自修改的循环架构，它能够利用无限层级的上下文学习，并通过CMS模块增强，把"长-短期记忆"做成可学习的连续体，从而在线吸收新信息而不遗忘旧知识。与Transformer相比，HOPE的参数更新频率从单层扩展为多层，形成一个从16到1M的连续谱，实现了对记忆机制的更精细控制。

四、Attention is all you need v2.0

业内将嵌套学习称为"Attention is all you need 2.0"，这一称谓有着坚实的技术依据：

首先，嵌套学习对Transformer架构进行了根本性的重新诠释。论文指出，Transformer的注意力机制实际上是一个简单的联想记忆模块，用于学习序列中token之间的映射关系。而嵌套学习则将这一机制扩展为一个多层次的优化系统，每个层级都拥有独立的上下文流和更新频率，形成类似人脑分层记忆的结构。

其次，嵌套学习揭示了深度学习的"幻觉"本质。传统深度学习方法实际上是在压缩其内部信息流，而嵌套学习为我们提供了新的设计维度，从而可以构建具有更深计算深度的学习组件。研究人员发现，Transformer等架构实际上是具有不同更新频率的线性层的集合，而嵌套学习则通过引入多时间尺度的更新机制，突破了这一限制。

第三，HOPE模块在技术性能上实现了对Transformer的超越。在相同参数规模下（760M至1.3B参数范围），HOPE在语言建模、长上下文推理等任务中表现优异，在Wiki文本困惑度、物理常识推理等指标上展现出更强的语言理解和推理能力。这证明了嵌套学习范式的有效性。

与Transformer的"单层静态前馈"相比，HOPE模块通过多层级MLP链和自指网络，实现了对记忆的更精细管理。HOPE的分层初始化从低到高依次实例化多个MLP块，形成"慢→快"的优化层级；而Transformer仅有一个层级，其注意力chunk长度无限，更新频率为0（仅预训练更新）。

这一技术突破的意义在于，它不再依赖堆层、堆参数的简单模式，而是通过优化深度的提升，为大模型带来质的飞跃。正如钟沛林所言："我们不再只是增加网络的深度，而是增加优化过程的深度。"

五、计算复杂度与资源需求：嵌套学习面临的挑战

尽管嵌套学习在技术上取得了显著突破，但它也面临着一系列现实挑战：

首先，计算复杂度和资源需求显著增加。HOPE模块的多层级优化和复杂记忆系统导致训练和推理过程需要消耗更多计算资源。这限制了在资源有限的设备或场景中的应用，需要更强大的硬件支持才能实现高效运行。

其次，模型训练和调优难度加大。多层级优化问题使模型训练过程复杂，参数更新和收敛难度增加，容易出现训练不稳定或难收敛的情况。同时，模型涉及的超参数数量增多，调优过程更加复杂，需要大量实验和经验找到最优配置。

第三，可解释性和透明度降低。嵌套学习的多层级结构和动态调整机制增加了模型的复杂性，使理解内部工作原理和决策过程变得更加困难，这可能影响其在高风险领域的应用。

第四，泛化能力可能不足。由于模型结构复杂且参数众多，嵌套学习更容易过拟合，导致在新数据上的泛化能力不足。验证模型在不同数据分布和任务上的泛化能力需要更多的实验和验证。

这些挑战并非不可克服。Google研究团队正在探索通过硬件优化（如TPU架构适配）和算法改进（如分层激活策略）来降低计算复杂度。他们提出，HOPE模块可以按需激活不同层级，只在满足"本轮应更新"条件时激活相关层，其余层参数冻结，从而减少不必要的计算开销。

六、应用场景与商业价值：从技术范式到平台生态

嵌套学习的潜在应用场景极为广泛，主要包括：

1. 智能对话系统：通过多层级优化和动态调整能力，提升对话系统的上下文连贯性和响应质量，更好地理解和生成自然语言对话，适用于智能客服、虚拟助手等场景。
2. 知识图谱增强：更高效地整合和更新知识图谱中的信息，提升模型对复杂知识体系的理解和推理能力，适用于智能推荐、知识管理等场景。
3. 多模态融合：嵌套学习的分层机制可以更好地处理图像、视频、文本等多模态数据，实现跨模态的知识整合和推理。
4. 教育领域应用：模拟人类学习过程，构建能够持续学习和适应的教育AI系统，为个性化学习提供支持。

从商业角度看，嵌套学习的提出直指大模型时代的核心痛点：如何构建一个能够持续演化、长期不崩、又能安全落地的AI系统。传统大模型几个月更新一次，导致上一版本微调的数据需要存储备份，新模型才能通过相同的历史学习路径达到类似增量更新的效果。而嵌套学习的持续学习能力，可以从根本上解决这一问题，为构建"AI操作系统"提供底层范式。

Google、OpenAI、字节跳动等头部企业正密切关注嵌套学习的发展。作为论文发布方，Google很可能率先在搜索、地图、助手等产品中应用嵌套学习技术，以提升用户体验和产品智能化水平。而其他企业则需要在技术路线上做出选择：是跟随Google的嵌套学习范式，还是提出自己的解决方案？

七、未来展望：从参数堆砌到认知机制探索

嵌套学习代表了深度学习领域的一次重大范式转变。它标志着AI研究从单纯堆砌参数规模转向探索更接近人类认知机制的学习方式。钟沛林团队的发现表明，大模型的未来发展方向不再是盲目增加参数数量，而是通过优化系统的深度和层次性，实现更高效、更灵活的学习能力。

从技术角度看，嵌套学习为大语言模型的持续学习、自我改进等关键难题提供了全新解决方案。它通过模拟人脑的分层记忆机制，构建出具备动态学习能力的智能系统，使模型能够像人类一样实现知识的动态积累与迭代。

从行业角度看，嵌套学习的提出将改变AI领域的竞争格局。过去几年，模型参数再翻十倍已经很难带来体验上的"质变"，而企业真正痛的地方开始从"训出一个好模型"转向"如何持续更新、长期不崩、又能安全落地" 。谁能先搞定"可持续演化的AI系统"，谁才有资格谈真正的AI平台生态。

钟沛林团队的HOPE模型在语言建模任务和长上下文记忆任务中的表现均优于Transformer，这证明了嵌套学习范式的有效性。随着技术的不断成熟，嵌套学习有望推动人工智能从静态模型向动态、自适应的智能系统转变，成为推动AI发展的关键力量之一。

写在最后

嵌套学习带来的不仅是性能提升，更是对AI发展路径的重新思考。当模型能够像人类一样通过不同频率模块协同工作，实现“边学习、边反思、边沉淀”，AI将从被动工具转变为能真正积累经验的智能体。未来，这种“成长型思维”的大模型或许能在教育、法律、工业等领域成为个性化导师、专业助手和行业专家，AI终将成为人类真正意义上的智能伙伴。谷歌这项研究或许正是这一转变的起点。

—— END ——

（关注我们，设为星标，别在数字洪流中掉队 ↓）

往期回顾：

1. 从“曼哈顿”到“创世纪”：美国举国体制押注AI，科学霸权争夺战开启

2. SIMA 2：你的AI游戏搭子，还是通用人工智能的敲门砖？

3. GPT-5.1 vs Gemini 3：谁是大模型新王者？

4. 数据破壁，物流降本：十部门新方案如何打通实体经济“筋络”

5. “十五五”：中国迈向全面智能化的关键五年

【声明】内容源于网络

AIGC产业观澜

坐看“AIGC”产业风云，当好“智数时代”的见证者

内容 0