大数跨境
0
0

DeepSeek扔王炸!梁文锋亲自下场,要把AI用了10年的承重墙给拆了?

DeepSeek扔王炸!梁文锋亲自下场,要把AI用了10年的承重墙给拆了? 我的Ai笔记
2026-01-04
11
导读:DeepSeek创始人亲自挂帅!这篇新论文,要重修AI用了10年的地基。

这是我的第355篇Ai笔记,本篇2646、累计笔记619663

【彩蛋提示】文末给你准备了本文的论文原文+中英对照版,记得领取哦!


引言.


大家元旦过得咋样?是不是都在躺平休息?

就在咱们吃着火锅唱着歌的时候,DeepSeek元旦当天,反手就扔了一个王炸!

他们发了一篇新论文,我看了一眼作者列表,肃然起敬——排在最后一位的大佬,赫然写着:Wenfeng Liang(梁文锋)

熟悉DeepSeek的朋友都知道,这位幻方量化的老板、DeepSeek的灵魂人物,极少在技术论文上亲自署名。

老板亲自挂帅,还选在新年第一天发,说明这事儿绝对不简单。

我仔细扒了扒论文,发现他们这次的野心太大了:他们竟然要动AI大模型用了整整10年的承重墙——ResNet(残差网络)。

这到底是咋回事?对我们有什么影响?今天我就用最通俗的大白话,带大家吃透这个技术大瓜。


思考.  


在讲技术之前,我先带大家厘清一个背景:为什么 DeepSeek 非要跟残差连接过不去?

如果把现在的 ChatGPT、Claude 这些大模型比作高耸入云的摩天大楼,那 ResNet(残差网络) 就是楼里的承重墙。

10年前,大神何恺明提出了 ResNet,他用一种巧妙的抄作业机制,解决了深层网络训练不动的千古难题。从那以后,几乎所有的现代大模型,无论是几十亿还是几万亿参数,底层的骨架都是它。

但这堵老墙,快撑不住了。

随着模型越来越大,我们对模型脑容量的要求越来越高。传统的残差连接就像是一条单车道

虽然它非常稳,能保证信息不丢失,但它的缺陷也很明显——路太窄了,信息流通的效率太低。

此时摆在所有 AI 公司面前的只有两条路:

1. 继续堆料不管地基稳不稳,硬着头皮往上盖,用更暴力的算力去换智能。

2. 重修地基冒着楼塌的风险,把底层的结构改了,让它能承载更宽的信息流。

绝大多数公司选了第一条路,因为安全、省事。

而 DeepSeek,这一波直接选了地狱难度的第二条路。 

他们试图证明:经典的 ResNet 并不是终点,我们完全可以造出更强的架构。

这种不迷信权威、死磕底层的劲头,真的很 DeepSeek。


Ai+  从单车道到智能交通网


那么,DeepSeek 到底搞了个什么新发明?

这篇论文的主角叫 mHC(流形约束超连接)。名字听着挺唬人,其实原理咱们完全可以用一个传话游戏来理解。

一、以前的困境:单车道太拥挤

训练 AI 就像几百个人排队传话。

以前的 ResNet 模式是:我在传话时,不仅把我的理解告诉你,还会把上一家给我的原话小纸条也塞给你(这在数学上叫恒等映射)

这样做的好处是稳,不容易传错;坏处就是每次只能传这一条线的信息。

这就像是一条单车道,车少了还行,车一多必然堵。

二、失败的尝试:扩建引发的灾难现场

后来,学术界有人想了个招,叫 HC(超连接)

思路很直接:既然单车道不够,那我就扩建成 4车道、8车道!让信息在不同车道间乱窜、混合,这信息量不就大增了吗?

结果出大事了。

DeepSeek 在论文里晒出了一组惊人的数据:当他们把这种架构用到大模型上时,信号在传播过程中完全失控了。 原本应该是 1 的信号强度,传着传着,直接被放大了 3000 倍

大家想象一下那个画面:一个十字路口突然扩建成了8车道,却没有安装红绿灯

所有的车都在疯狂加速、随意变道、互不相让。 最终的结果就是,所有的车都撞在了一起。这在技术上有一个专门的术语叫梯度爆炸,直接导致模型训练崩溃,根本没法用。

三、DeepSeek 的解法:给矩阵戴上紧箍咒

面对这个烂摊子,DeepSeek 没有退缩。

他们想:路还是得修宽,但这交通规则,我得重新定。

于是,mHC 诞生了

它的核心逻辑,就是给这几条混乱的高速公路,请来了一位懂数学的铁面交警

这位交警制定了一条死规矩: “不管你们几条车道怎么变道、怎么混合,你们加起来的总能量,必须严格守恒!”

DeepSeek 用了一套非常复杂的数学算法(Sinkhorn-Knopp),把那些原本张牙舞爪的参数矩阵,强行按在了一个框架里。

这就好比给路口装了一套智能红绿灯,实时监控每一辆车的流量。

效果立竿见影: 那个原本会飙升到 3000 倍的信号增益,现在被死死按在了 1.6 倍左右。 这个数值意味着什么?意味着它比老款的单车道还要稳,同时又享受了多车道带来的巨大信息吞吐量。

四、硬核工程:DeepSeek 式的抠门艺术

如果只是数学上的推导,那还不足以让我这么佩服。 读这篇论文时,我最受触动的,是 DeepSeek 团队骨子里那种把算力榨干到最后一滴的执着。

要知道,把路修宽,增加连接通道,本来是一件非常费显存、费时间的事。在计算机里,计算本身往往很快,慢的是取数据的过程。这就好比大厨炒菜很快,但去仓库搬菜很慢。

如果因为修了多车道,导致 GPU 频繁地去内存里搬数据,那训练效率会大打折扣。

所以,mHC 不仅仅是一个数学公式,更是一套精密的工程优化方案。论文里披露了几个细节,真的非常漂亮:

1. 算子融合-Kernel Fusion他们觉得现有的工具太慢,干脆自己手写了底层的计算核心。把好几步计算合并成一步,一次性把数据搬完,绝不跑第二趟空车。光这一项,就让带宽利用率提升了 22%

2. 重计算-Recomputing为了省显存,他们采用了“用完即扔,回头再算”的策略。中间结果不存着占地儿,反向传播时再算一遍。虽然多算了一次,但显存腾出来了,能训练更大的模型。

3. 时间管理大师他们还利用了一种叫 DualPipe 的策略,把额外增加的通信时间,巧妙地“藏”在了计算时间的缝隙里,让 GPU 一刻也不闲着。

最终的结果令人咋舌: 在把通道拓宽了4倍的情况下,mHC 带来的额外训练时间开销,仅仅只有 6.7%。 用极小的代价,换来了模型性能和稳定性的双重质变。这就是 DeepSeek 的“抠门”哲学——钱要花在刀刃上,算力要用在灵魂里。

五、最终疗效:不仅仅是跑通了

折腾了这么一大圈,效果到底咋样? 论文甩出的成绩单非常硬气:

1. 更聪明了在 27B(270亿)参数的模型上实测,使用了 mHC 架构的模型,在最考验智商的 BBH(逻辑推理) 和 DROP(复杂阅读理解) 任务上,分数全面超越了传统的结构。

2. 越庞大越强DeepSeek 发现,模型规模越大,mHC 的优势越明显。这意味着,这套新地基,完全撑得起未来更大规模的万层高楼。


三句话.


这篇论文稍微有点硬核,最后我用三句话帮大家复盘一下:

1.DeepSeek 正在干一件大事他们不满于 ResNet 这个用了10年的老旧地基,试图用 mHC 架构,在保证稳定的前提下,大幅拓宽 AI 大模型的信息通路。

2.核心秘籍是数学+工程用流形约束解决了信号爆炸的数学难题,又用极致的工程优化解决了显存和速度的短板,把不可能变成了可能。

3.这对我们意味着什么当大力出奇迹逐渐逼近极限,未来的竞争不再只是无脑堆显卡,而是比谁能从底层架构上挖出新的红利。DeepSeek 这一枪,打得很响。

虽然这只是学术圈的一小步,但或许几年后我们回看,会发现这正是下一代更强 AI 诞生的起点。


🎁福利彩蛋🎁 

为了方便大家深入研究,我特意整理了这篇论文的 DeepSeek 官方原版 PDF 以及 一份高质量的中英对照解读版

👉 扫描下方二维码,回复关键词mhc

👉 即可直接获取下载链接,建议搞技术的同学一定要读读原文,感受一下那种数学暴力美学。


【声明】内容源于网络
0
0
我的Ai笔记
很干货、有深度、真免费,关注“我的Ai笔记”,每天学Ai技巧! 赋能客户、助力普通人在Ai时代抢占先机。
内容 318
粉丝 1
我的Ai笔记 很干货、有深度、真免费,关注“我的Ai笔记”,每天学Ai技巧! 赋能客户、助力普通人在Ai时代抢占先机。
总阅读566
粉丝1
内容318