大数跨境
0
0

刚刚,DeepSeek扔出大杀器,梁文锋署名!暴力优化AI架构

刚刚,DeepSeek扔出大杀器,梁文锋署名!暴力优化AI架构 新智元
2026-01-01
4

DeepSeek发布mHC新架构:流形约束超连接提升大模型训练稳定性

【新智元导读】

2026年1月1日,DeepSeek发布梁文锋署名的重磅论文,提出「mHC(流形约束超连接)」新架构。该方案在27B参数模型上仅增加约6.7%训练时间开销,即可显著提升性能与训练稳定性。

突破性架构设计

论文标题:mHC:Manifold-Constrained Hyper-Connections
论文链接:https://arxiv.org/abs/2512.24880

DeepSeek提出流形约束超连接(mHC),通过将矩阵投影至特定约束流形,优化残差连接空间,在保障训练稳定性的同时,显著扩大残差流通道宽度,且算力与内存代价极低。

图1:残差连接范式示意图

继Hyper-Connections(HC)开创“残差连接宽度可扩展”路径后,mHC推动该技术进入实用化快车道。

核心方法:Manifold-Constrained Hyper-Connections (mHC)

mHC旨在恢复Hyper-Connections下的身份映射属性,使其在大规模训练与真实任务中具备实际价值。

与传统残差连接(表达受限但稳定)及HC(连接能力强但牺牲稳定性)不同,mHC将超连接参数空间约束于特定流形,以兼顾稳定性与表达能力。

技术细节

受恒等映射原则启发,mHC将残差映射投影至特定流形,既维持跨层信号传播稳定性,又促进残差流间信息交互。

作者将映射矩阵约束为双随机矩阵(元素非负,每行每列和均为1),构成Birkhoff多面体流形。

该设计带来三项关键优势:

  1. 保范性:谱范数上界为1,缓解梯度爆炸;
  2. 组合闭包性:多层复合映射仍为双随机,保障全深度稳定性;
  3. 几何可解释性:双随机矩阵为置换矩阵的凸组合,天然支持鲁棒特征融合。

参数化与流形投影

给定第l层输入隐藏矩阵,先展平为向量,再按HC方式生成动态/静态映射;最终通过Sinkhorn–Knopp算子实现双随机投影。

Sinkhorn–Knopp迭代归一化确保收敛——实验采用20次迭代作为高效近似。

高效的基础设施设计

团队通过工程优化,成功将mHC(n=4)部署于大规模模型,训练开销仅增约6.7%。

内核融合

重排RMSNorm计算顺序,将其移至矩阵乘法之后,数学等价但显著降低延迟;结合混合精度与算子融合策略,构建三个专用mHC计算内核。

重计算

前向传播后丢弃中间激活,反向传播时即时重计算,仅需缓存模块首层输入,大幅降低内存占用。

DualPipe通信–计算重叠

针对mHC的n-流结构引入的通信延迟,扩展DualPipe调度:将MLP内核置于高优先级计算流,并解耦重计算与流水线通信依赖,提升GPU利用率与调度灵活性。

原文图4:mHC的通信–计算重叠机制

实验结果

在27B模型上,mHC有效缓解HC存在的训练不稳定性,最终损失相较基线降低0.021。

原文图5:mHC训练稳定性对比(a)损失差距,(b)梯度范数

在8项下游基准测试中,mHC全面超越基线与HC,尤其在BBH、DROP等推理任务上分别提升2.1%和2.3%。

原文表4:27B模型系统级基准测试结果

扩展性验证表明:mHC在3B至27B不同规模下均保持稳健性能优势;3B模型token扩展曲线进一步佐证其有效性。

原文图6:mHC扩展特性(a)计算扩展曲线,(b)token扩展曲线

传播稳定性分析显示:mHC将HC中近3000的最大增益幅度降低三个数量级,最大值约1.6,确保前向信号与后向梯度稳定流动。

原文图7:mHC传播稳定性(a)单层映射,(b)复合映射

原文图8:HC(第一行)与mHC(第二行)可学习映射可视化

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14679
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读88.6k
粉丝0
内容14.7k