DeepSeek 元旦发布 mHC 论文:流形约束超连接提升大模型训练稳定性
新年第一天,被 DeepSeek 新论文刷屏了!
2025 年 12 月 31 日,DeepSeek 在 arXiv 发布技术论文《mHC: Manifold-Constrained Hyper-Connections》(流形约束超连接)。该论文提出新型网络连接机制 mHC,核心在于解决字节豆包团队提出的「超连接」在大规模训练中不稳定的问题。
背景:从残差连接到超连接
残差连接由何恺明团队于 2015 年提出(ResNet),通过在每一层保留原始输入信号并叠加输出,缓解深层网络训练中的梯度消失与信息衰减问题,已成为现代大模型标配。但其存在 Pre-Norm 与 Post-Norm 的两难困境:前者防衰减但易导致层间表征趋同,后者避免趋同却加剧衰减。
2024 年 9 月,字节豆包团队在 ICLR 2025 录用论文中提出「超连接」,以四条可学习通路替代单条残差路径,允许模型动态混合多通道信息,实测收敛速度最高提升 80%。
mHC 的关键突破:双随机约束保障信号稳定
DeepSeek 在 270 亿参数模型训练中发现,原版超连接因引入可学习混合矩阵,在深层堆叠后导致信号放大近 3000 倍,引发训练损失骤升、训练崩溃。为解决该问题,mHC 对混合矩阵施加「双随机约束」——要求每行每列之和均为 1,确保信号经任意层数传递后不会被放大或衰减。
该约束使信号放大倍数从 3000 降至 1.6,训练曲线显著平滑;工程优化后仅增加 6.7% 训练耗时。
性能表现与应用前景
在 270 亿参数 MoE 架构(基于 DeepSeek-V3)测试中,mHC 在 BBH 推理(43.8 → 51.0)、DROP 阅读理解(47.0 → 53.9)等 8 项任务上全面超越原版超连接,并多数指标领先豆包方案。DeepSeek 实验表明:“模型越大,mHC 的优势越明显”。
DeepSeek 创始人梁文锋位列作者名单,延续其深度参与核心技术研发的一贯风格(如 ACL 2025 最佳论文 NSA)。该工作聚焦真实训练瓶颈,体现扎实工程能力,有望成为 DeepSeek 后续大模型的关键组件。
行业动态速览
同期,智谱于 12 月 30 日启动港股招股,拟于 1 月 8 日以股票代码「2513」挂牌上市;MiniMax 已通过港交所聆讯,计划 1 月上市;月之暗面 Kimi 或将于 1 月或 3 月推出新多模态模型 K2.1 / K2.5。
- mHC:https://arxiv.org/abs/2512.24880
- 超连接:https://arxiv.org/abs/2409.19606
- ResNet:https://arxiv.org/abs/1512.03385

