大数跨境
0
0

深度丨梁文锋署名论文发布,DeepSeek用mHC新架构“秀肌肉”

深度丨梁文锋署名论文发布,DeepSeek用mHC新架构“秀肌肉” AI芯天下
2026-01-07
7
导读:2026年新年第一天,arXiv上一篇题为《mHC:Manifold-ConstrainedHyper-Connections(流形约束超连接)》的论文。

·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发

2026年新年第一天,arXiv上线一篇题为《mHC: Manifold-Constrained Hyper-Connections(流形约束超连接)》的论文。与以往不同,这篇论文由DeepSeek创始人兼CEO梁文锋亲自署名,引发业界高度关注。 作者 | 方文三
图片来源 | 网络

十年基石:残差连接如何成为AI的“定海神针”

要理解mHC的突破意义,需回溯深度学习的关键历史。2015年前,神经网络面临梯度消失或爆炸问题,模型层数超过几十层便难以收敛。

微软亚洲研究院何恺明团队提出的残差连接(Residual Connection),以公式 y = x + F(x) 打破僵局。该设计让信息可通过“直达通道”跳过复杂变换,保障深层网络训练稳定。

这一机制本质是嵌入“恒等映射”,即便中间层学习失败,原始信号仍可完整传递,避免“越算越偏”。自此,残差连接成为Transformer、GPT、Llama、DeepSeek等主流大模型的基础架构。

十年来,模型参数从百万级跃升至万亿级,层数达上千层,但残差连接的核心逻辑始终未变——深度不依赖每层智能,而在于保留一条稳定的直通路径。

单车道不够用了:HC的革新与失控

随着模型规模扩大,研究者对残差连接的“单车道”结构提出挑战。2024年9月,字节跳动提出Hyper-Connections(HC),将单通道扩展为n×C并行车道,并引入可学习混合矩阵,实现跨层信息融合。

实验显示,HC在MoE模型上实现1.8倍收敛加速,显著提升表达能力,如同用多股线编织更结实、花纹更复杂的毛衣。

然而,HC存在致命缺陷:其混合矩阵无约束,导致跨层传播中出现指数级信号放大。DeepSeek数据显示,信号最大增幅接近3000倍,极易引发梯度爆炸或消失,造成训练崩盘。

此外,多通道大幅增加GPU内存占用和通信开销,工程成本高昂。HC暴露了大模型发展的核心矛盾:提升表达力需更多连接,但自由度越高,稳定性越难保障。

mHC破局:给自由的连接套上“数学护栏”

面对HC困境,DeepSeek提出mHC(流形约束超连接),核心思想是:允许构建复杂拓扑,但必须施加数学约束确保稳定性。

mHC引入“双随机矩阵”(Doubly Stochastic Matrix)作为关键约束:所有元素非负,且每行每列之和均为1。该设计确保输出为输入的加权混合,总能量守恒,杜绝信号异常放大。

类比而言,mHC为多车道高速设定交通规则:车辆可换道,但总量不变、速度可控,避免拥堵与事故。同时,mHC通过非负约束(如Sigmoid函数)防止正负系数抵消,进一步保障信号完整性。

① 双随机矩阵:重塑恒等映射的守恒性

双随机矩阵使信息传递具备“水量守恒”特性——无论怎样分配与混合,总量不变。这为深层网络提供了理论稳定性保障。

② Sinkhorn-Knopp算法:把“野矩阵”驯化成“乖矩阵”

mHC采用Sinkhorn-Knopp算法实现双随机约束:通过交替进行行归一化与列归一化,迭代数次即可收敛至合规矩阵。该过程完全可微分,支持端到端训练,无需额外超参数。

“流形约束”意味着参数被限制在特定几何结构的空间内,避免偏离守恒轨道。这种设计在不牺牲表达能力的前提下,实现了性能与稳定的统一。

硬核工程:6.7%开销的背后,是重写底层的勇气

mHC涉及大量分散矩阵运算,若按常规执行将严重拖慢训练。DeepSeek团队基于TileLang框架手写CUDA内核,融合多个操作为单一内核,减少内存访问,提升数据局部性,带宽效率提高22%。

针对Sinkhorn-Knopp算法,团队定制前向与反向计算内核,复用中间结果,避免额外存储开销。

为应对多车道带来的激活值膨胀,采用选择性重计算策略:反向传播时不保存全部中间状态,而是按需重新计算。此举增加少量计算,却使内存消耗降低40%。

在多卡训练中,扩展DualPipe调度策略,将MLP内核置于高优先级流,实现计算与通信并行,消除设备“空等”现象。

综合优化下,mHC在n=4(四条并行流)时,额外训练时间开销仅6.7%,展现出极高的工程可行性。

mHC的潜在影响包括:

  • 提升大规模语言模型训练的稳定性与扩展上限;
  • 降低训练失败率与资源浪费,形成低成本训练新范式;
  • 若开源并被主流框架采纳,有望推动社区对新型连接机制的探索。

DeepSeek此前通过开源策略融入全球技术生态,此次mHC架构创新进一步强化其技术品牌。这不仅是具体模型改进,更是对AI基础架构的深度思考,或将重塑行业对训练稳定性与可扩展性的认知。

未来几个月,mHC能否在R2模型或更大规模产品中兑现性能优势,将是真正的考验。但在AI竞争日益激烈的当下,任何可能改变游戏规则的底层创新,都值得持续关注。


本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。

【声明】内容源于网络
0
0
AI芯天下
聚焦人工智能,AI芯片,5G通讯等行业动态
内容 5238
粉丝 0
AI芯天下 聚焦人工智能,AI芯片,5G通讯等行业动态
总阅读38.7k
粉丝0
内容5.2k