揭晓让大模型训练“不崩”的秘籍


作者 | 江宇 王涵
编辑 | 心缘
智东西1月1日报道,DeepSeek团队于昨日晚间发布新论文《Manifold-Constrained Hyper-Connections》,提出一种新型残差连接方案——mHC(Manifold-Constrained Hyper-Connections),可显著提升大模型训练稳定性与可扩展性。
论文指出,当前Hyper-Connections(HC)虽能增强模型表达能力,但因结构自由、缺乏约束,易引发训练不稳定、信号失真乃至梯度爆炸等问题。实测显示,在27B模型中,HC的多层残差映射在反向传播中导致信号最大放大倍数逼近3000,存在明显梯度爆炸风险 [2] 。

▲在27B模型中,HC的多层残差映射在反向传播中导致信号最大放大倍数逼近3000,存在梯度爆炸风险。
传统残差连接的升级难点:性能提升,但稳定性丧失
主流大模型广泛采用Residual Connection架构,其核心优势在于具备“恒等映射”特性,可稳定信号传播、避免衰减或放大 [3] 。而HC为增强表达力,将残差通道扩展至n倍宽度,并引入多个可学习映射矩阵进行特征重组,却同步破坏了恒等映射约束,导致信号爆炸(最高达3000倍)与梯度异常 [4] 。

▲相较于mHC,传统Hyper-Connections在训练过程中出现显著不稳定现象(上图),其残差连接在深层堆叠中更暴露出前向信号和反向梯度指数级放大问题(下图),成为大模型扩展的隐性障碍。
此外,HC还显著增加GPU内存占用与通信带宽需求,限制其在超大规模模型中的工程落地效率 [5] 。
mHC关键机制:将残差映射投影到“流形”上恢复恒等映射
mHC本质上是对HC的稳定性重构。其核心是:不再直接使用无约束的残差映射矩阵Hres,而是通过Sinkhorn-Knopp算法将其投影到“Birkhoff多面体”(即双随机矩阵流形)上,使Hres具备三项关键性质:
[6]
1. 所有行列和为1,实现能量守恒,避免信号放大或衰减;
2. 在矩阵乘法下闭合,跨层传播仍保持稳定性;
3. 具备几何可解释性,作为所有排列矩阵的凸组合,有利于特征融合。
论文同时对输入/输出映射Hpre、Hpost施加正值约束,进一步抑制信号抵消现象
[7]
。

▲mHC将残差映射投影到双随机流形后,显著提升了前向信号与反向梯度传播的稳定性。

▲mHC对应的残差映射矩阵更集中于1附近,反观HC则存在多个爆炸点。
实测效果:mHC显著提升训练稳定性与下游表现
论文在27B参数规模下对比Baseline、HC与mHC三类模型。结果表明:HC训练中损失震荡发散、梯度爆炸;而mHC损失平稳收敛、梯度稳定 [8] 。分析显示,HC复合映射增益高达3000,而mHC控制在1.6,接近理想恒等映射,信号保真度高,有效抑制多层堆叠中的信号放大与梯度爆炸问题 [9] 。

▲流形约束超连接(mHC)的训练稳定性
下游任务表现方面,27B模型在BBH(51.0 vs HC 48.9)、DROP(53.9 vs 51.6)、GSM8K、MATH、MMLU等任务上全面优于HC与基线,最高提升达2.3个百分点,验证其在复杂推理与语义建模中的优势 [10] 。

▲基准测试
可扩展性方面,3B–27B模型验证显示,mHC性能增益随模型规模扩大而稳定甚至增强(如DROP提升从1.5→2.3),说明其对深层大模型中更高的信号保真需求具有强适配性;1T token训练下未见过拟合,泛化能力增强 [11] 。

▲(a) 计算扩展曲线;(b) token扩展曲线
系统效率方面,mHC在扩展率n=4时仅引入6.7%额外训练时间开销;通过内核融合(带宽提升22%)、重计算(内存降低40%)及流水线优化(GPU利用率>90%),实现高效训练,工程可行性高 [12] 。
结语:mHC或为下一代基础架构指明演进方向
作为HC范式的广义扩展,mHC为未来研究开辟了多项路径。尽管本研究采用双随机矩阵保障稳定性,但该框架可容纳针对特定学习目标设计的多种流形约束探索;对几何约束特性的深入研究,有望在可塑性与稳定性之间实现更优权衡 [13] 。
DeepSeek团队表示,希望mHC能重新激发学界对宏观架构设计的兴趣——通过深化对拓扑结构如何影响优化与表征学习的理解,推动突破当前技术瓶颈,为下一代基础模型架构演进提供新思路 [14] 。



