2026 第一枪：字节提出的超连接，被 DeepSeek 救活了- 大数跨境

AI信息Gap

2026-01-02

导读：新年第一天，被 DeepSeek 新论文刷屏了！

DeepSeek 元旦发布 mHC 论文：流形约束超连接提升大模型训练稳定性

新年第一天，被 DeepSeek 新论文刷屏了！

2025 年 12 月 31 日，DeepSeek 在 arXiv 发布技术论文《mHC: Manifold-Constrained Hyper-Connections》（流形约束超连接）。该论文提出新型网络连接机制 mHC，核心在于解决字节豆包团队提出的「超连接」在大规模训练中不稳定的问题。

残差连接由何恺明团队于 2015 年提出（ResNet），通过在每一层保留原始输入信号并叠加输出，缓解深层网络训练中的梯度消失与信息衰减问题，已成为现代大模型标配。但其存在 Pre-Norm 与 Post-Norm 的两难困境：前者防衰减但易导致层间表征趋同，后者避免趋同却加剧衰减。

2024 年 9 月，字节豆包团队在 ICLR 2025 录用论文中提出「超连接」，以四条可学习通路替代单条残差路径，允许模型动态混合多通道信息，实测收敛速度最高提升 80%。

DeepSeek 在 270 亿参数模型训练中发现，原版超连接因引入可学习混合矩阵，在深层堆叠后导致信号放大近 3000 倍，引发训练损失骤升、训练崩溃。为解决该问题，mHC 对混合矩阵施加「双随机约束」——要求每行每列之和均为 1，确保信号经任意层数传递后不会被放大或衰减。

该约束使信号放大倍数从 3000 降至 1.6，训练曲线显著平滑；工程优化后仅增加 6.7% 训练耗时。

在 270 亿参数 MoE 架构（基于 DeepSeek-V3）测试中，mHC 在 BBH 推理（43.8 → 51.0）、DROP 阅读理解（47.0 → 53.9）等 8 项任务上全面超越原版超连接，并多数指标领先豆包方案。DeepSeek 实验表明：“模型越大，mHC 的优势越明显”。

DeepSeek 创始人梁文锋位列作者名单，延续其深度参与核心技术研发的一贯风格（如 ACL 2025 最佳论文 NSA）。该工作聚焦真实训练瓶颈，体现扎实工程能力，有望成为 DeepSeek 后续大模型的关键组件。

同期，智谱于 12 月 30 日启动港股招股，拟于 1 月 8 日以股票代码「2513」挂牌上市；MiniMax 已通过港交所聆讯，计划 1 月上市；月之暗面 Kimi 或将于 1 月或 3 月推出新多模态模型 K2.1 / K2.5。

【声明】内容源于网络

AI信息Gap

各类跨境出海行业相关资讯

内容 682

粉丝 0

AI信息Gap 各类跨境出海行业相关资讯

总阅读28.0k

粉丝0

内容682