大数跨境
0
0

2026 第一枪:字节提出的超连接,被 DeepSeek 救活了

2026 第一枪:字节提出的超连接,被 DeepSeek 救活了 AI信息Gap
2026-01-02
8
导读:新年第一天,被 DeepSeek 新论文刷屏了!

DeepSeek 元旦发布 mHC 论文:流形约束超连接提升大模型训练稳定性

新年第一天,被 DeepSeek 新论文刷屏了!

2025 年 12 月 31 日,DeepSeek 在 arXiv 发布技术论文《mHC: Manifold-Constrained Hyper-Connections》(流形约束超连接)。该论文提出新型网络连接机制 mHC,核心在于解决字节豆包团队提出的「超连接」在大规模训练中不稳定的问题。

DeepSeek 元旦发布的 mHC 论文。

背景:从残差连接到超连接

残差连接由何恺明团队于 2015 年提出(ResNet),通过在每一层保留原始输入信号并叠加输出,缓解深层网络训练中的梯度消失与信息衰减问题,已成为现代大模型标配。但其存在 Pre-Norm 与 Post-Norm 的两难困境:前者防衰减但易导致层间表征趋同,后者避免趋同却加剧衰减。

2024 年 9 月,字节豆包团队在 ICLR 2025 录用论文中提出「超连接」,以四条可学习通路替代单条残差路径,允许模型动态混合多通道信息,实测收敛速度最高提升 80%。

字节豆包团队的超连接论文,已被 ICLR 2025 收录。

mHC 的关键突破:双随机约束保障信号稳定

DeepSeek 在 270 亿参数模型训练中发现,原版超连接因引入可学习混合矩阵,在深层堆叠后导致信号放大近 3000 倍,引发训练损失骤升、训练崩溃。为解决该问题,mHC 对混合矩阵施加「双随机约束」——要求每行每列之和均为 1,确保信号经任意层数传递后不会被放大或衰减。

蓝线是原版超连接,灰线是 mHC,训练稳定性差距明显。

该约束使信号放大倍数从 3000 降至 1.6,训练曲线显著平滑;工程优化后仅增加 6.7% 训练耗时。

性能表现与应用前景

在 270 亿参数 MoE 架构(基于 DeepSeek-V3)测试中,mHC 在 BBH 推理(43.8 → 51.0)、DROP 阅读理解(47.0 → 53.9)等 8 项任务上全面超越原版超连接,并多数指标领先豆包方案。DeepSeek 实验表明:“模型越大,mHC 的优势越明显”。

270 亿参数模型的测试结果,mHC 在多数指标上领先。

DeepSeek 创始人梁文锋位列作者名单,延续其深度参与核心技术研发的一贯风格(如 ACL 2025 最佳论文 NSA)。该工作聚焦真实训练瓶颈,体现扎实工程能力,有望成为 DeepSeek 后续大模型的关键组件。

行业动态速览

同期,智谱于 12 月 30 日启动港股招股,拟于 1 月 8 日以股票代码「2513」挂牌上市;MiniMax 已通过港交所聆讯,计划 1 月上市;月之暗面 Kimi 或将于 1 月或 3 月推出新多模态模型 K2.1 / K2.5。

  • mHC:https://arxiv.org/abs/2512.24880
  • 超连接:https://arxiv.org/abs/2409.19606
  • ResNet:https://arxiv.org/abs/1512.03385
【声明】内容源于网络
0
0
AI信息Gap
各类跨境出海行业相关资讯
内容 681
粉丝 0
AI信息Gap 各类跨境出海行业相关资讯
总阅读27.8k
粉丝0
内容681