DeepSeek发布mHC架构:流形约束超连接破解大模型训练稳定性难题
作者 | 冬梅
2026年开年第一天,DeepSeek发布重要学术论文,提出新型网络架构mHC(Manifold-Constrained Hyper-Connections,流形约束超连接),旨在解决现有超连接(HC)架构在大规模模型训练中普遍存在的数值不稳定与信号爆炸问题,同时保留其性能优势,为下一代基础模型设计提供新路径 [2] 。
论文题为“mHC: Manifold-Constrained Hyper-Connections”,已于2025年底上线arXiv与Hugging Face平台,引发业界广泛关注。第一作者包括Zhenda Xie、Yixuan Wei和Huanqi Cao,DeepSeek创始人兼CEO梁文锋亦列名作者 [3] 。
论文地址:https://arxiv.org/pdf/2512.24880
架构创新解决了什么问题
传统Transformer依赖残差连接(x + F(x))实现恒等映射,保障深层网络信号稳定传递。而近年兴起的Hyper-Connections(超连接)虽通过多并行残差流增强表达能力,但其自由学习的连接矩阵破坏恒等性,在十亿级及以上参数规模下易引发信号爆炸、梯度异常,导致训练不可控 [4] 。
mHC引入几何约束思想,将超连接矩阵投影至双随机矩阵流形(Birkhoff多胞形)——即要求矩阵每行每列元素和均为1、所有元素非负。该约束保证单位矩阵为其特例,且最大特征值恒为1,从而在数学层面确保信号范数不被系统性放大,重获类残差的稳定性基础 [5] 。
工程实现上,研究团队采用可微、高效、数值稳定的Sinkhorn-Knopp算法对连接矩阵实施实时投影:训练中先学习普通实值矩阵,再于每次前向传播前经有限步归一化,使其逼近双随机结构。该过程支持CUDA内核融合与通信重叠,额外开销可控 [6] 。
实验表明,在3B、9B及27B参数模型上,mHC不仅有效避免传统超连接的训练发散问题,还在多项任务中维持甚至提升性能,验证其在大模型场景下的可行性与实用性 [7] 。
从方法论看,mHC并非旨在替代Transformer,而是为复杂残差拓扑探索提供兼具理论严谨性与工程落地性的框架:它揭示,在超大规模建模中,“硬约束”几何结构比经验性正则或初始化更能系统性保障训练稳定性,也为未来多流、多路径网络的设计平衡“表达力”与“可训性”提供了新范式 [8] 。
业界反响与技术意义
论文发布后,迅速在AI研究者与产业界引发深度讨论。焦点集中于mHC对Transformer残差机制的本质改进,及其在模型扩展性与训练成本控制方面的潜在价值。业内普遍认为,DeepSeek持续通过公开论文释放技术信号,其研究方向往往预示后续模型迭代的关键工程选择 [9] 。
Reddit用户SlowFail2433指出,缺乏恒等残差连接是深层神经网络梯度崩溃的共性根源,该现象在ResNet及大语言模型中均显著存在;若mHC能在保持稳定性前提下实现良好扩展,其通用意义不容低估 [10] 。
也有观点强调其工程门槛较高:研究团队需在CUDA内核层面完成算子融合与训练流水线优化,对底层系统能力要求严苛。尽管数学推导与实现较复杂,但核心逻辑聚焦于投影矩阵与流形约束,具备可复现性 [11] 。

