深度丨梁文锋署名论文发布，DeepSeek用mHC新架构“秀肌肉”- 大数跨境

AI芯天下

2026-01-07

导读：2026年新年第一天，arXiv上一篇题为《mHC:Manifold-ConstrainedHyper-Connections（流形约束超连接）》的论文。

·聚焦：人工智能、芯片等行业

欢迎各位客官关注、转发

2026年新年第一天，arXiv上线一篇题为《mHC: Manifold-Constrained Hyper-Connections（流形约束超连接）》的论文。与以往不同，这篇论文由DeepSeek创始人兼CEO梁文锋亲自署名，引发业界高度关注。作者 | 方文三
图片来源 | 网络

十年基石：残差连接如何成为AI的“定海神针”

要理解mHC的突破意义，需回溯深度学习的关键历史。2015年前，神经网络面临梯度消失或爆炸问题，模型层数超过几十层便难以收敛。

微软亚洲研究院何恺明团队提出的残差连接（Residual Connection），以公式 y = x + F(x) 打破僵局。该设计让信息可通过“直达通道”跳过复杂变换，保障深层网络训练稳定。

这一机制本质是嵌入“恒等映射”，即便中间层学习失败，原始信号仍可完整传递，避免“越算越偏”。自此，残差连接成为Transformer、GPT、Llama、DeepSeek等主流大模型的基础架构。

十年来，模型参数从百万级跃升至万亿级，层数达上千层，但残差连接的核心逻辑始终未变——深度不依赖每层智能，而在于保留一条稳定的直通路径。

随着模型规模扩大，研究者对残差连接的“单车道”结构提出挑战。2024年9月，字节跳动提出Hyper-Connections（HC），将单通道扩展为n×C并行车道，并引入可学习混合矩阵，实现跨层信息融合。

实验显示，HC在MoE模型上实现1.8倍收敛加速，显著提升表达能力，如同用多股线编织更结实、花纹更复杂的毛衣。

然而，HC存在致命缺陷：其混合矩阵无约束，导致跨层传播中出现指数级信号放大。DeepSeek数据显示，信号最大增幅接近3000倍，极易引发梯度爆炸或消失，造成训练崩盘。

此外，多通道大幅增加GPU内存占用和通信开销，工程成本高昂。HC暴露了大模型发展的核心矛盾：提升表达力需更多连接，但自由度越高，稳定性越难保障。

面对HC困境，DeepSeek提出mHC（流形约束超连接），核心思想是：允许构建复杂拓扑，但必须施加数学约束确保稳定性。

mHC引入“双随机矩阵”（Doubly Stochastic Matrix）作为关键约束：所有元素非负，且每行每列之和均为1。该设计确保输出为输入的加权混合，总能量守恒，杜绝信号异常放大。

类比而言，mHC为多车道高速设定交通规则：车辆可换道，但总量不变、速度可控，避免拥堵与事故。同时，mHC通过非负约束（如Sigmoid函数）防止正负系数抵消，进一步保障信号完整性。

双随机矩阵使信息传递具备“水量守恒”特性——无论怎样分配与混合，总量不变。这为深层网络提供了理论稳定性保障。

mHC采用Sinkhorn-Knopp算法实现双随机约束：通过交替进行行归一化与列归一化，迭代数次即可收敛至合规矩阵。该过程完全可微分，支持端到端训练，无需额外超参数。

“流形约束”意味着参数被限制在特定几何结构的空间内，避免偏离守恒轨道。这种设计在不牺牲表达能力的前提下，实现了性能与稳定的统一。

mHC涉及大量分散矩阵运算，若按常规执行将严重拖慢训练。DeepSeek团队基于TileLang框架手写CUDA内核，融合多个操作为单一内核，减少内存访问，提升数据局部性，带宽效率提高22%。

针对Sinkhorn-Knopp算法，团队定制前向与反向计算内核，复用中间结果，避免额外存储开销。

为应对多车道带来的激活值膨胀，采用选择性重计算策略：反向传播时不保存全部中间状态，而是按需重新计算。此举增加少量计算，却使内存消耗降低40%。

在多卡训练中，扩展DualPipe调度策略，将MLP内核置于高优先级流，实现计算与通信并行，消除设备“空等”现象。

综合优化下，mHC在n=4（四条并行流）时，额外训练时间开销仅6.7%，展现出极高的工程可行性。

mHC的潜在影响包括：

DeepSeek此前通过开源策略融入全球技术生态，此次mHC架构创新进一步强化其技术品牌。这不仅是具体模型改进，更是对AI基础架构的深度思考，或将重塑行业对训练稳定性与可扩展性的认知。

未来几个月，mHC能否在R2模型或更大规模产品中兑现性能优势，将是真正的考验。但在AI竞争日益激烈的当下，任何可能改变游戏规则的底层创新，都值得持续关注。

本公众号所刊发稿件及图片来源于网络，仅用于交流使用，如有侵权请联系回复，我们收到信息后会在24小时内处理。

【声明】内容源于网络

AI芯天下

聚焦人工智能，AI芯片，5G通讯等行业动态

内容 5238

粉丝 0

AI芯天下聚焦人工智能，AI芯片，5G通讯等行业动态

总阅读38.7k

粉丝0

内容5.2k