2026年元旦,当整个AI圈还在忙着总结旧年成果、规划新年方向时,DeepSeek扔出了一枚震撼行业的“王炸”。
一篇题为《mHC: Manifold-Constrained Hyper-Connections》的论文突然刷屏技术圈。
论文标题:mHC: Manifold-Constrained Hyper-Connections
比起论文本身的创新,更让业内震动的是作者列表里的一个名字:Wenfeng Liang(梁文锋)。
熟悉DeepSeek的人都知道,这位CEO极少在技术论文上亲自署名。
此次亲自挂帅且选在新年第一天发布,足以说明这事儿的分量。
他们要动的,是支撑AI行业走了十年的“承重墙”:ResNet架构的残差连接范式。
01
为什么说ResNet是AI的“承重墙”
要理解DeepSeek这次创新的颠覆性,得先回到2016年那个深度学习的关键节点。
当年,何恺明团队提出的ResNet,用“恒等映射”这一“神来之笔”彻底解决了深层网络训练不动的难题。
用大白话讲,恒等映射就像在模型的复杂网络里修了一条“直通车道”。
信号不用经过复杂处理就能从这一层传到下一层,既保证了信息无损传输,又让模型训练变得稳定。正是这条“车道”,才有了后来ChatGPT、DeepSeek这些千亿参数级大模型的诞生。
这一架构一用就是十年,成了AI领域公认的“标准配置”,就像建筑里的承重墙,没人敢轻易触碰。
但随着模型规模越来越大、对性能的要求越来越高,这条“单车道”渐渐不够用了——信息传输的瓶颈越来越明显,制约了大模型能力的进一步突破。
02
超连接的“美好设想”与“车祸现场”
为了突破瓶颈,学术界开始探索“超连接”(HC)方案,核心思路很简单:把“单车道”扩建成“多车道”,让信息在多个通道间自由混合,以此提升模型的表达能力。字节跳动2024年的相关论文,就曾让这一思路成为行业热点。
图: 残差连接范式示意图
但理想很丰满,现实很骨感。无约束的“多车道”就像没有红绿灯的超级路口,很快出现了致命问题:信号在传播过程中会不受控制地疯狂膨胀。
论文数据显示,HC架构下的信号增益幅度峰值直接飙到了3000——相当于信号被放大了3000倍,直接导致模型训练极度不稳定,错误率说炸就炸,根本无法在大规模模型上落地。
图:HC 的信号增益幅度峰值直接干到了 3000
当整个行业要么卡在HC的稳定性难题上,要么转头去卷应用层、卷Agents时,DeepSeek选择了一条更难走的路。
不放弃“多车道”的性能优势,而是给它加上“智能交通管制”。这就是mHC(流形约束超连接)的核心逻辑。
03
DeepSeek的解法:数学暴力美学
面对HC的“车祸现场”,一般人的思路是“少修几条路”。
但DeepSeek的思路是“路照修,再请个懂数学的交警”。
不用被数学名词吓住,其原理类似“能量守恒定律”:不管信息在“多车道”间怎么变道、混合,进来的流量总和必须严格等于出去的流量总和——既不允许信号凭空消失,也不允许信号凭空爆炸。
为了让连接矩阵乖乖遵守这个规则,DeepSeek用到了Sinkhorn-Knopp算法,就像给矩阵戴上了“紧箍咒”。
不管原始矩阵是什么样,经过这个算法处理后,行和列的加和都必须等于1,从数学上严格保证了信号传播的稳定性。
更精妙的是,当扩展率n=1时,这个约束会直接退化为原始的恒等映射——相当于完美兼容了ResNet的优势,又突破了它的瓶颈。这种“继承式创新”,远比彻底推翻重来更具实用价值。
04
疗效说话:3000到1.6的跨越
理论再漂亮,也要用实验结果说话。DeepSeek的实验数据,直接让业内惊叹“这波稳了”:
稳定性拉满:mHC将HC高达3000的信号增益幅度,死死按在了1.6左右——直接降低了三个数量级,彻底解决了信号爆炸问题。27B参数模型的训练曲线显示,mHC的损失曲线极其平滑,和稳定的基线模型几乎无异。
图:mHC 的训练 Loss 曲线极其平滑
性能显著提升:在BBH(逻辑推理)、DROP(阅读理解)等公认的高难度任务上,mHC比基线模型和HC都表现更好,其中BBH任务提升2.1%,DROP任务提升2.3%——要知道,在大模型领域,1%的提升都堪称重大突破
图:在 27B 参数的模型上,mHC 不仅稳,效果还比标准版更好
图 :mHC 与基线模型的扩展特性对比
开销可控:最让同行眼红的是,在扩展率为4的情况下,mHC带来的额外训练时间开销仅为6.7%。这背后是DeepSeek极致的工程优化:通过算子融合减少GPU内存读写、通过重计算节省显存、通过扩展DualPipe策略实现通信与计算重叠,把算力“榨干到最后一滴”。
05
不止是技术突破,更是行业态度的宣言
mHC的意义,远不止一个技术创新那么简单。在当下AI行业“重应用、轻基础”的内卷浪潮中,DeepSeek的选择更像是一种态度宣言。
当大多数厂商忙着在应用层做“微创新”,忙着调整DS-MoE等微结构时,DeepSeek转头去修补AI的“地基”。这种“死磕底层”的执着,其实早有先例——从原生稀疏注意力到如今的mHC,DeepSeek一直践行着“数学洞察力+硬件级优化”的核心竞争力。
论文中一句“内部大规模训练实验进一步验证了mHC在大规模应用中的有效性”,更是透着十足的底气。要知道,在之前的原生稀疏注意力论文中,DeepSeek都没说过这句话。
业内有铁粉直言:“有九成把握mHC会进入DeepSeek V4,下一代大模型的性能值得期待。”
最后
mHC或许不会马上改变我们的生活,但它会让下一代大模型跑得更稳、更快、更强。
在AI技术从“高速增长”转向“高质量发展”的关键期,底层架构的创新才是真正的核心竞争力。
DeepSeek用一篇论文告诉行业:比起在应用层内卷,深耕基础架构才能真正推动AI的进步。
当梁文锋亲自在论文上署名时,背后是中国AI企业在核心技术领域抢占话语权的野心。

