大数跨境
0
0

梁文锋署名,DeepSeek新年开启宏观架构新篇章,破解梯度爆炸与显存墙

梁文锋署名,DeepSeek新年开启宏观架构新篇章,破解梯度爆炸与显存墙 AIGC开放社区
2026-01-04
12
导读:DeepSeek重磅论文。
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态。

2025年12月31日,DeepSeek发布梁文锋署名论文,提出mHC(Manifold-Constrained Hyper-Connections,流形约束超连接)架构。

mHC通过将超连接残差空间投影至双随机矩阵流形,解决了扩展残差宽度引发的训练不稳定性问题;配合内核融合与通信重叠等工程优化,仅增加6.7%开销即实现模型性能与规模同步提升。

超宽残差流引发的数值风暴与系统瓶颈

残差连接是维持深层网络信号传播稳定性的关键机制,从ResNet到Transformer均依赖恒等映射保障前向信号不衰减、反向梯度顺畅流动。

超连接(HC)引入扩展因子n,将残差流宽度拓展为输入维度的n倍,在不显著增加FLOPs前提下提升模型性能。

但HC在大规模训练中暴露严重缺陷:多层连乘导致复合映射迅速偏离恒等变换,破坏训练稳定性。

实验显示,在27B参数模型训练中,HC于约12k步出现损失剧烈发散,梯度范数大幅波动;正向与反向传播中的最大增益幅度(Amax Gain Magnitude)飙升至3000以上,表明信号严重爆炸。

此外,n倍宽残差流导致显存读写量成倍增长,加剧内存带宽(IO)瓶颈,显著降低训练吞吐量;中间激活值激增迫使使用梯度检查点,增加计算负担;跨节点通信数据量亦翻n倍,扩大通信气泡。

利用双随机矩阵流形重塑恒等映射机制

mHC的核心创新在于将可学习映射矩阵投影至双随机矩阵流形(Birkhoff多胞形),兼顾信号稳定性与信息交互能力。

双随机矩阵满足元素非负、行和列均为1,具备谱范数≤1(抑制梯度爆炸)与乘积封闭性(全网深度保持稳定)两大关键性质。

其几何本质是置换矩阵的凸组合,既支持特征跨流融合,又严格守恒信号能量,是一种良态传播机制。

当n=1时,mHC自然退化为经典恒等映射,证明其为残差连接的广义推广。

mHC采用Sinkhorn-Knopp算法实现实现该约束,将信号增益幅度从3000压制至约1.6,下降三个数量级,训练曲线平滑、梯度更新稳定。

软硬协同优化突破显存带宽与通信限制

为应对mHC带来的IO与计算挑战,DeepSeek实施深度基础设施优化:以内核融合降低显存搬运频次,以TileLang定制混合精度内核提升效率。

采用精细化重计算策略平衡显存占用与计算时间,避免因中间激活激增导致显存溢出,保障批量大小不受影响。

针对流水线并行中n倍通信开销,扩展DualPipe调度策略:划分计算优先级,赋予MLP层高优先级,规避长时持久化内核阻塞通信流,实现计算与通信高效重叠。

在27B模型训练中,n=4的mHC仅增加6.7%训练时间开销,印证复杂数学结构可在现有硬件高效落地。

从3B到27B的实战验证与扩展性分析

DeepSeek在3B、9B、27B MoE模型上统一采用n=4进行验证,全面考察训练稳定性与扩展规律。

mHC在27B模型训练中展现卓越稳定性:损失持续收敛,最终验证集损失较基线低0.021;梯度范数波动与标准残差网络一致,彻底消除HC式剧烈震荡。

在BBH、DROP、GSM8K、MATH等8项主流基准测试中,mHC全面超越基线,并在BBH、DROP等复杂推理任务上分别提升2.1%与2.3%,证实其增强深层推理能力。

扩展性实验表明:计算扩展曲线上,mHC性能增益随模型规模扩大保持稳定正值;Token扩展曲线上,3B模型在不同数据量下始终优于基线。

该研究开辟了宏观架构设计新范式——借助几何流形约束,在保障数学良态前提下提升拓扑复杂度,为万亿参数模型提供稳健高效的演进路径。

参考资料:
https://arxiv.org/abs/2512.24880

【声明】内容源于网络
0
0
AIGC开放社区
1234
内容 1537
粉丝 0
AIGC开放社区 1234
总阅读10.1k
粉丝0
内容1.5k