大数跨境
0
0

DeepSeek改造何恺明残差连接!梁文峰亲自署名,十年首次重大升级

DeepSeek改造何恺明残差连接!梁文峰亲自署名,十年首次重大升级 量子位
2026-01-01
3
导读:何恺明2016成果在2026可以Scaling了
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

2026年新年第一天,DeepSeek发布新论文,对何恺明2016年ResNet提出的“残差连接”进行系统性升级。

论文由DeepSeek梁文峰亲自署名,共同一作为Zhenda Xie、Yixuan Wei、Huanqi Cao [2]

残差连接十年未变,扩展之后却带来隐患

残差连接自2016年ResNet问世以来,始终是深度学习架构的基石,其核心公式为xl+1 = xl + F(xl, Wl),依赖“恒等映射”实现浅层信号无损直达深层 [3]

该范式已成为GPT、LLaMA等大语言模型的标准配置 [4]

近期出现的Hyper-Connections(HC)尝试拓展残差流宽度至n×C维,并引入三个可学习映射矩阵;其中Hres对性能提升贡献最显著 [5]

但多层堆叠后,HC的复合映射失去恒等性质,导致训练失稳:27B模型在约12000步时出现损失激增与梯度范数剧烈波动 [6]

研究发现,HC中复合映射对信号的放大倍数峰值达3000,意味着信号可能被放大数千倍或衰减至几乎消失 [7]

双随机矩阵的三重保障

DeepSeek提出将残差映射约束于由双随机矩阵构成的Birkhoff多面体流形上——即每行每列和均为1、所有元素非负的矩阵集合 [8]

该约束带来三项关键理论保障: [9]

范数保持

双随机矩阵谱范数≤1,有效抑制信号放大,防止梯度爆炸 [10]

组合封闭

任意多个双随机矩阵乘积仍为双随机矩阵,确保深层网络跨层复合映射稳定 [11]

几何解释

Birkhoff多面体是所有排列矩阵的凸包,残差映射本质是对特征做凸组合,形成稳健的特征融合机制 [12]

论文采用Sinkhorn-Knopp算法实现矩阵向该流形的投影:先取指数确保正性,再交替行/列归一化迭代收敛 [13]

实验表明,该近似解已足够高效:27B模型中mHC的复合映射信号增益最大值约为1.6,较HC的3000下降三个数量级 [14]

工程优化:从内核融合到流水线重叠

扩展残差流宽度带来显著内存访问开销:标准残差连接每token读2C写C,而HC在n=4时读写量激增 [15]

团队基于TileLang框架开发融合内核,合并分散操作以减少访存次数 [16]

针对Sinkhorn-Knopp算法,设计专用前向/反向内核,在芯片上实时重算中间结果,规避额外存储开销 [17]

在流水线并行层面,扩展DualPipe调度策略,将MLP特定内核置于高优先级计算流,实现计算与通信重叠 [18]

论文推导出最优重计算块大小公式,指出其通常与流水线阶段层数一致,故将重计算边界与流水线阶段边界对齐 [19]

实验验证:稳定性与性能兼得

实验覆盖3B、9B、27B三级MoE模型,扩展率统一设为n=4 [20]

27B模型中,mHC训练曲线稳定,最终损失较基线降低0.021,梯度范数稳定性与基线相当 [21]

下游任务评测显示:mHC在BBH推理任务上较HC提升2.1%,在DROP阅读理解任务上提升2.3%;多数任务表现优于HC及原始基线 [22]

计算缩放分析表明,mHC性能优势在更高计算预算下持续存在,仅轻微衰减;3B模型token缩放曲线证实其优势贯穿全程 [23]

大规模内部训练进一步验证结论:当n=4时,mHC仅引入6.7%额外时间开销 [24]

论文地址:https://arxiv.org/abs/2512.24880

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14550
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读100.3k
粉丝0
内容14.6k