

刚刚，DeepSeek扔出大杀器，梁文锋署名！暴力优化AI架构

新智元

2026-01-01

DeepSeek发布mHC新架构：流形约束超连接提升大模型训练稳定性

【新智元导读】

2026年1月1日，DeepSeek发布梁文锋署名的重磅论文，提出「mHC（流形约束超连接）」新架构。该方案在27B参数模型上仅增加约6.7%训练时间开销，即可显著提升性能与训练稳定性。

突破性架构设计

论文标题：mHC：Manifold-Constrained Hyper-Connections
论文链接：https://arxiv.org/abs/2512.24880

DeepSeek提出流形约束超连接（mHC），通过将矩阵投影至特定约束流形，优化残差连接空间，在保障训练稳定性的同时，显著扩大残差流通道宽度，且算力与内存代价极低。

图1：残差连接范式示意图

继Hyper-Connections（HC）开创“残差连接宽度可扩展”路径后，mHC推动该技术进入实用化快车道。

核心方法：Manifold-Constrained Hyper-Connections (mHC)

mHC旨在恢复Hyper-Connections下的身份映射属性，使其在大规模训练与真实任务中具备实际价值。

与传统残差连接（表达受限但稳定）及HC（连接能力强但牺牲稳定性）不同，mHC将超连接参数空间约束于特定流形，以兼顾稳定性与表达能力。

技术细节

受恒等映射原则启发，mHC将残差映射投影至特定流形，既维持跨层信号传播稳定性，又促进残差流间信息交互。

作者将映射矩阵约束为双随机矩阵（元素非负，每行每列和均为1），构成Birkhoff多面体流形。

该设计带来三项关键优势：

保范性：谱范数上界为1，缓解梯度爆炸；
组合闭包性：多层复合映射仍为双随机，保障全深度稳定性；
几何可解释性：双随机矩阵为置换矩阵的凸组合，天然支持鲁棒特征融合。

参数化与流形投影

给定第l层输入隐藏矩阵，先展平为向量，再按HC方式生成动态/静态映射；最终通过Sinkhorn–Knopp算子实现双随机投影。

Sinkhorn–Knopp迭代归一化确保收敛——实验采用20次迭代作为高效近似。

高效的基础设施设计

团队通过工程优化，成功将mHC（n=4）部署于大规模模型，训练开销仅增约6.7%。

内核融合

重排RMSNorm计算顺序，将其移至矩阵乘法之后，数学等价但显著降低延迟；结合混合精度与算子融合策略，构建三个专用mHC计算内核。

重计算

前向传播后丢弃中间激活，反向传播时即时重计算，仅需缓存模块首层输入，大幅降低内存占用。

DualPipe通信–计算重叠

针对mHC的n-流结构引入的通信延迟，扩展DualPipe调度：将MLP内核置于高优先级计算流，并解耦重计算与流水线通信依赖，提升GPU利用率与调度灵活性。

原文图4：mHC的通信–计算重叠机制

实验结果

在27B模型上，mHC有效缓解HC存在的训练不稳定性，最终损失相较基线降低0.021。

原文图5：mHC训练稳定性对比（a）损失差距，（b）梯度范数

在8项下游基准测试中，mHC全面超越基线与HC，尤其在BBH、DROP等推理任务上分别提升2.1%和2.3%。

原文表4：27B模型系统级基准测试结果

扩展性验证表明：mHC在3B至27B不同规模下均保持稳健性能优势；3B模型token扩展曲线进一步佐证其有效性。

原文图6：mHC扩展特性（a）计算扩展曲线，（b）token扩展曲线

传播稳定性分析显示：mHC将HC中近3000的最大增益幅度降低三个数量级，最大值约1.6，确保前向信号与后向梯度稳定流动。

原文图7：mHC传播稳定性（a）单层映射，（b）复合映射

原文图8：HC（第一行）与mHC（第二行）可学习映射可视化

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 14679

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读88.6k

粉丝0

内容14.7k