我的Ai笔记

2026-01-04

导读：DeepSeek创始人亲自挂帅！这篇新论文，要重修AI用了10年的地基。

这是我的第355篇Ai笔记，本篇2646、累计笔记619663

【彩蛋提示】文末给你准备了本文的论文原文+中英对照版，记得领取哦！

引言.

大家元旦过得咋样？是不是都在躺平休息？

就在咱们吃着火锅唱着歌的时候，DeepSeek在元旦当天，反手就扔了一个王炸！

他们发了一篇新论文，我看了一眼作者列表，肃然起敬——排在最后一位的大佬，赫然写着：Wenfeng Liang（梁文锋）。

熟悉DeepSeek的朋友都知道，这位幻方量化的老板、DeepSeek的灵魂人物，极少在技术论文上亲自署名。

老板亲自挂帅，还选在新年第一天发，说明这事儿绝对不简单。

我仔细扒了扒论文，发现他们这次的野心太大了：他们竟然要动AI大模型用了整整10年的承重墙——ResNet（残差网络）。

这到底是咋回事？对我们有什么影响？今天我就用最通俗的大白话，带大家吃透这个技术大瓜。

思考.

在讲技术之前，我先带大家厘清一个背景：为什么 DeepSeek 非要跟残差连接过不去？

如果把现在的 ChatGPT、Claude 这些大模型比作高耸入云的摩天大楼，那 ResNet（残差网络） 就是楼里的承重墙。

10年前，大神何恺明提出了 ResNet，他用一种巧妙的抄作业机制，解决了深层网络训练不动的千古难题。从那以后，几乎所有的现代大模型，无论是几十亿还是几万亿参数，底层的骨架都是它。

但这堵老墙，快撑不住了。

随着模型越来越大，我们对模型脑容量的要求越来越高。传统的残差连接就像是一条单车道。

虽然它非常稳，能保证信息不丢失，但它的缺陷也很明显——路太窄了，信息流通的效率太低。

此时摆在所有 AI 公司面前的只有两条路：

1. 继续堆料：不管地基稳不稳，硬着头皮往上盖，用更暴力的算力去换智能。

2. 重修地基：冒着楼塌的风险，把底层的结构改了，让它能承载更宽的信息流。

绝大多数公司选了第一条路，因为安全、省事。

而 DeepSeek，这一波直接选了地狱难度的第二条路。

他们试图证明：经典的 ResNet 并不是终点，我们完全可以造出更强的架构。

这种不迷信权威、死磕底层的劲头，真的很 DeepSeek。

Ai+ 从单车道到智能交通网

那么，DeepSeek 到底搞了个什么新发明？

这篇论文的主角叫 mHC（流形约束超连接）。名字听着挺唬人，其实原理咱们完全可以用一个传话游戏来理解。

一、以前的困境：单车道太拥挤

训练 AI 就像几百个人排队传话。

以前的 ResNet 模式是：我在传话时，不仅把我的理解告诉你，还会把上一家给我的原话小纸条也塞给你（这在数学上叫恒等映射）。

这样做的好处是稳，不容易传错；坏处就是每次只能传这一条线的信息。

这就像是一条单车道，车少了还行，车一多必然堵。

二、失败的尝试：扩建引发的灾难现场

后来，学术界有人想了个招，叫 HC（超连接）。

思路很直接：既然单车道不够，那我就扩建成 4车道、8车道！让信息在不同车道间乱窜、混合，这信息量不就大增了吗？

结果出大事了。

DeepSeek 在论文里晒出了一组惊人的数据：当他们把这种架构用到大模型上时，信号在传播过程中完全失控了。原本应该是 1 的信号强度，传着传着，直接被放大了 3000 倍！

大家想象一下那个画面：一个十字路口突然扩建成了8车道，却没有安装红绿灯。

所有的车都在疯狂加速、随意变道、互不相让。最终的结果就是，所有的车都撞在了一起。这在技术上有一个专门的术语叫梯度爆炸，直接导致模型训练崩溃，根本没法用。

三、DeepSeek 的解法：给矩阵戴上紧箍咒

面对这个烂摊子，DeepSeek 没有退缩。

他们想：路还是得修宽，但这交通规则，我得重新定。

于是，mHC 诞生了。

它的核心逻辑，就是给这几条混乱的高速公路，请来了一位懂数学的铁面交警。

这位交警制定了一条死规矩： “不管你们几条车道怎么变道、怎么混合，你们加起来的总能量，必须严格守恒！”

DeepSeek 用了一套非常复杂的数学算法（Sinkhorn-Knopp），把那些原本张牙舞爪的参数矩阵，强行按在了一个框架里。

这就好比给路口装了一套智能红绿灯，实时监控每一辆车的流量。

效果立竿见影： 那个原本会飙升到 3000 倍的信号增益，现在被死死按在了 1.6 倍左右。这个数值意味着什么？意味着它比老款的单车道还要稳，同时又享受了多车道带来的巨大信息吞吐量。

四、硬核工程：DeepSeek 式的抠门艺术

如果只是数学上的推导，那还不足以让我这么佩服。读这篇论文时，我最受触动的，是 DeepSeek 团队骨子里那种把算力榨干到最后一滴的执着。

要知道，把路修宽，增加连接通道，本来是一件非常费显存、费时间的事。在计算机里，计算本身往往很快，慢的是取数据的过程。这就好比大厨炒菜很快，但去仓库搬菜很慢。

如果因为修了多车道，导致 GPU 频繁地去内存里搬数据，那训练效率会大打折扣。

所以，mHC 不仅仅是一个数学公式，更是一套精密的工程优化方案。论文里披露了几个细节，真的非常漂亮：

1. 算子融合-Kernel Fusion：他们觉得现有的工具太慢，干脆自己手写了底层的计算核心。把好几步计算合并成一步，一次性把数据搬完，绝不跑第二趟空车。光这一项，就让带宽利用率提升了 22%。

2. 重计算-Recomputing：为了省显存，他们采用了“用完即扔，回头再算”的策略。中间结果不存着占地儿，反向传播时再算一遍。虽然多算了一次，但显存腾出来了，能训练更大的模型。

3. 时间管理大师：他们还利用了一种叫 DualPipe 的策略，把额外增加的通信时间，巧妙地“藏”在了计算时间的缝隙里，让 GPU 一刻也不闲着。

最终的结果令人咋舌： 在把通道拓宽了4倍的情况下，mHC 带来的额外训练时间开销，仅仅只有 6.7%。用极小的代价，换来了模型性能和稳定性的双重质变。这就是 DeepSeek 的“抠门”哲学——钱要花在刀刃上，算力要用在灵魂里。

五、最终疗效：不仅仅是跑通了

折腾了这么一大圈，效果到底咋样？论文甩出的成绩单非常硬气：

1. 更聪明了：在 27B（270亿）参数的模型上实测，使用了 mHC 架构的模型，在最考验智商的 BBH（逻辑推理） 和 DROP（复杂阅读理解） 任务上，分数全面超越了传统的结构。

2. 越庞大越强：DeepSeek 发现，模型规模越大，mHC 的优势越明显。这意味着，这套新地基，完全撑得起未来更大规模的万层高楼。

三句话.

这篇论文稍微有点硬核，最后我用三句话帮大家复盘一下：

1.DeepSeek 正在干一件大事：他们不满于 ResNet 这个用了10年的老旧地基，试图用 mHC 架构，在保证稳定的前提下，大幅拓宽 AI 大模型的信息通路。

2.核心秘籍是数学+工程：用流形约束解决了信号爆炸的数学难题，又用极致的工程优化解决了显存和速度的短板，把不可能变成了可能。

3.这对我们意味着什么：当大力出奇迹逐渐逼近极限，未来的竞争不再只是无脑堆显卡，而是比谁能从底层架构上挖出新的红利。DeepSeek 这一枪，打得很响。

虽然这只是学术圈的一小步，但或许几年后我们回看，会发现这正是下一代更强 AI 诞生的起点。

🎁福利彩蛋🎁

为了方便大家深入研究，我特意整理了这篇论文的 DeepSeek 官方原版 PDF 以及 一份高质量的中英对照解读版。

👉 扫描下方二维码，回复关键词mhc

👉 即可直接获取下载链接，建议搞技术的同学一定要读读原文，感受一下那种数学暴力美学。

【声明】内容源于网络

我的Ai笔记

很干货、有深度、真免费，关注“我的Ai笔记”，每天学Ai技巧！赋能客户、助力普通人在Ai时代抢占先机。

内容 318

粉丝 1

我的Ai笔记很干货、有深度、真免费，关注“我的Ai笔记”，每天学Ai技巧！赋能客户、助力普通人在Ai时代抢占先机。

总阅读566

粉丝1

内容318

DeepSeek扔王炸！梁文锋亲自下场，要把AI用了10年的承重墙给拆了？