DeepSeek发布mHC新架构:流形约束超连接提升大模型训练稳定性
【新智元导读】
2026年1月1日,DeepSeek发布梁文锋署名的重磅论文,提出「mHC(流形约束超连接)」新架构。该方案在27B参数模型上仅增加约6.7%训练时间开销,即可显著提升性能与训练稳定性。
突破性架构设计
论文标题:mHC:Manifold-Constrained Hyper-Connections
论文链接:https://arxiv.org/abs/2512.24880
DeepSeek提出流形约束超连接(mHC),通过将矩阵投影至特定约束流形,优化残差连接空间,在保障训练稳定性的同时,显著扩大残差流通道宽度,且算力与内存代价极低。
图1:残差连接范式示意图
继Hyper-Connections(HC)开创“残差连接宽度可扩展”路径后,mHC推动该技术进入实用化快车道。
核心方法:Manifold-Constrained Hyper-Connections (mHC)
mHC旨在恢复Hyper-Connections下的身份映射属性,使其在大规模训练与真实任务中具备实际价值。
与传统残差连接(表达受限但稳定)及HC(连接能力强但牺牲稳定性)不同,mHC将超连接参数空间约束于特定流形,以兼顾稳定性与表达能力。
技术细节
受恒等映射原则启发,mHC将残差映射投影至特定流形,既维持跨层信号传播稳定性,又促进残差流间信息交互。
作者将映射矩阵约束为双随机矩阵(元素非负,每行每列和均为1),构成Birkhoff多面体流形。
该设计带来三项关键优势:
- 保范性:谱范数上界为1,缓解梯度爆炸;
- 组合闭包性:多层复合映射仍为双随机,保障全深度稳定性;
- 几何可解释性:双随机矩阵为置换矩阵的凸组合,天然支持鲁棒特征融合。
参数化与流形投影
给定第l层输入隐藏矩阵,先展平为向量,再按HC方式生成动态/静态映射;最终通过Sinkhorn–Knopp算子实现双随机投影。
Sinkhorn–Knopp迭代归一化确保收敛——实验采用20次迭代作为高效近似。
高效的基础设施设计
团队通过工程优化,成功将mHC(n=4)部署于大规模模型,训练开销仅增约6.7%。
内核融合
重排RMSNorm计算顺序,将其移至矩阵乘法之后,数学等价但显著降低延迟;结合混合精度与算子融合策略,构建三个专用mHC计算内核。
重计算
前向传播后丢弃中间激活,反向传播时即时重计算,仅需缓存模块首层输入,大幅降低内存占用。
DualPipe通信–计算重叠
针对mHC的n-流结构引入的通信延迟,扩展DualPipe调度:将MLP内核置于高优先级计算流,并解耦重计算与流水线通信依赖,提升GPU利用率与调度灵活性。
原文图4:mHC的通信–计算重叠机制
实验结果
在27B模型上,mHC有效缓解HC存在的训练不稳定性,最终损失相较基线降低0.021。
原文图5:mHC训练稳定性对比(a)损失差距,(b)梯度范数
在8项下游基准测试中,mHC全面超越基线与HC,尤其在BBH、DROP等推理任务上分别提升2.1%和2.3%。
原文表4:27B模型系统级基准测试结果
扩展性验证表明:mHC在3B至27B不同规模下均保持稳健性能优势;3B模型token扩展曲线进一步佐证其有效性。
原文图6:mHC扩展特性(a)计算扩展曲线,(b)token扩展曲线
传播稳定性分析显示:mHC将HC中近3000的最大增益幅度降低三个数量级,最大值约1.6,确保前向信号与后向梯度稳定流动。
原文图7:mHC传播稳定性(a)单层映射,(b)复合映射
原文图8:HC(第一行)与mHC(第二行)可学习映射可视化

