大数跨境
0
0

DeepSeek后又一神作!清华校友出手,终结ResNet十年统治?

DeepSeek后又一神作!清华校友出手,终结ResNet十年统治? 新智元
2026-01-02
29

新智元报道

编辑:桃子 好困

【新智元导读】

2026年架构革命的枪声已经打响!ResNet用十年证明了「加法捷径」能缓解梯度消失,但也暴露了「只加不减」的表达瓶颈。DeepSeek新年发布mHC后,普林斯顿与UCLA联合提出全新架构Deep Delta Learning(DDL),首次让残差连接具备学习、遗忘、重写与反转能力。

新年第一天,DeepSeek发布mHC,对残差连接做出关键改进,引发业界广泛关注。几乎同步,普林斯顿与UCLA团队发布DDL,标志着残差连接正从固定结构升级为可学习、可调控的动态模块。

DDL不再将捷径视为恒等映射,而是引入一个可学习的rank-1线性算子Δ,使网络能根据数据自适应地决定状态更新方式。

论文地址:https://github.com/yifanzhang-pro/deep-delta-learning/blob/master/Deep_Delta_Learning.pdf

mHC与DDL几乎同期问世,共同指向一个趋势:残差连接正进入必须被重新设计的时代。

ResNet用了十年「加法」,终于被改写了

2015年ResNet提出后,「加法捷径」成为深度神经网络标配,有效缓解梯度消失问题,支撑了CNN、ViT等主流架构的纵深发展。

其核心思想是保守保障:当网络学不到新信息时,至少保留原始输入不被破坏。但该设计也导致中间表示持续累加、难以清除冗余或噪声,限制了模型对复杂动态过程的建模能力。

ResNet的更新公式在动力系统视角下等价于前向欧拉离散,对应线性算子所有特征值恒为+1,仅支持状态平移,无法实现选择性遗忘、特征重写或符号反转。

DDL首次系统性指出:固定恒等捷径已成为深度网络表达能力的结构性约束。

让深度网络学会「忘记」

增量残差块

DDL将ResNet中的恒等捷径I替换为可控Delta算子Δ = I − βvvᵀ,其中标量β∈[0,2]精确调控特征方向的保留、清空或反转行为。

该设计赋予隐藏状态“记忆矩阵”语义,并通过β实现三类几何操作:

  • β ≈ 0:捷径几乎关闭,DDL退化为标准ResNet,保障深层训练稳定性;
  • β ≈ 1:网络主动清空特定方向特征并注入新内容,实现精准状态重置;
  • β ≈ 2:产生负特征值,完成特征符号反转,首次赋予深度网络反向表达能力。

DDL将状态更新建模为非单调动态过程,使网络可自主清理无用特征、重构中间表示,突破传统残差网络的信息单向累积局限。

残差网络,2.0时代

DDL并非推翻ResNet,而是在其基础上拓展表达空间:当门控关闭时等效于ResNet;当β激活时,则进入支持遗忘、重写与反转的新范式。

ResNet开启了深度学习的「可规模化时代」,DDL则指向「可操控状态时代」——模型变强不再仅依赖更大参数量,更取决于更合理的结构约束与动态机制设计。

DDL与mHC共同释放出明确信号:残差连接已正式成为被认真对待的「可设计对象」。

作者介绍

Yifan Zhang
普林斯顿大学博士生,普林斯顿AI实验室Fellow,师从Mengdi Wang、姚期智与Quanquan Gu教授。本科毕业于北京大学元培学院(数学与计算机科学),硕士就读于清华大学交叉信息研究院。研究聚焦高扩展性大语言模型与多模态基础模型构建。

Yifeng Liu
加州大学洛杉矶分校(UCLA)计算机博士,本科毕业于清华大学信息科学技术学院(姚班)。

Mengdi Wang
普林斯顿大学电气与计算机工程系及统计与机器学习中心副教授,MIT博士,清华自动化系学士。研究方向包括强化学习、生成式AI与AI for Science。

Quanquan Gu
UCLA计算机科学系副教授,UCLA通用人工智能实验室负责人,UIUC博士,清华学士与硕士。研究聚焦非凸优化、深度学习与大语言模型。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14745
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读96.6k
粉丝0
内容14.7k