大数跨境
0
0

大白话聊聊Deepseek R1背后的来龙去脉,必读

大白话聊聊Deepseek R1背后的来龙去脉,必读 302.AI
2025-02-05
588
导读:大白话聊聊Deepseek R1背后的来龙去脉,必读

一切的开端

CloseAI在24年发布了o1,指出了未来Scaling Law的方向:增加思考时间来换取更多智能,而不是用更大的模型或更多的训练数据。CloseAI没告诉任何人具体该怎么做,只是将自己的成果做成了收费产品。
虽然大家都知道了这个宏观方向,但是不知道具体的实现方式,就像只告诉你目的地在东北方向,路线一概不知,所以没有人可以复现o1的成功。之前的仿o1模型,都在尝试各种方法,虽然都叫cot(思维链),但是并没有展现出强大的思考能力,离o1还差了一大截。估计CloseAI打算靠这个独家秘籍作为技术壁垒,发家致富。

大道至简

没想到2025年1月,突然Deepseek发了一个论文,并发布了R1系列模型。他们直接给大家揭开了CloseAI一直藏着掖着的秘密:如何训练出一个真正有思考能力的模型。

正所谓大道至简,Deepseek发现,想训练出一个有思考能力的模型,其实没有那么多弯弯绕绕,结论很简单:RL (强化学习) is all you need。通俗点说,就是告诉机器目标和结果,让机器自己慢慢领悟就好了,不需要干预太多。
Deepseek在论文里很明确的写到:什么过程奖励模型,什么蒙特卡洛搜索树这种和过程相关的算法,都是失败的尝试。他们使用了一个新的目标奖励方法,剩下的就让机器自己去学习。
此时历史就像一个循环,当年AlphaGo能在围棋下出神之一手,正是因为摆脱了人类的棋谱,纯靠强化学习。而现在Deepseek给出了相同的答案,别搞什么RLHF,别搞什么SFT,人类别自以为是了,机器是无法通过模仿来超越人类的。
其实之前其他人也不是没走过这条路,毕竟强化学习都算是“古典AI”了,Deepseek之所以走通,也是因为他们找到了一个合适的算法(GRPO),才能够让机器在有限的资源下,不断的学习和成长。

(摘选自原论文的GRPO算法公式)

原型机

Deepseek通过让Deepseek-V3模型纯强化学习(RL),训练了个模型叫Deepseek-R1-Zero,其实这玩意比较像一个原型机,用来验证这个概念是正确的。结果也如图片所示,能力超群,经过8000步的训练后,模型能力提高了几倍,甚至超越了o1-0912。但是这个模型放到生产环境,会有很多问题(比如多语言混杂,输出看不懂等),需要再精加工一下,让这个模型变得更用户友好。

(模型能力随着RL训练次数的增加,线性上升)

成熟产品

他们就继续搞了个现在大家熟知的Deepseek-R1。R1其实就是在原来的纯强化学习(RL)基础上,加了很多人类的干预(SFT),让输出更加可控,让整个模型更加友好。过程比较复杂,大概就是结合了微调和强化学习,算是传统和创新结合,重新训练了一个生产环境可用的模型:Deepseek-R1。

(R1的训练步骤图解)

从大到小

但是这玩意本质还是Deepseek-V3基于训练的,参数很大,普通机器是跑不起来的,他们又继续搞了一些小模型出来,大大降低部署门槛,甚至做到个人电脑可部署。

但是这个小模型也是有些隐秘门道,小模型本质是基于R1的合成数据训练的微调模型,并没有经过强化学习训练,所以说本质上他们不算是真正的“思考模型”。而Deepseek为什么这么做呢,其实他们论文也写了:他们发现小模型经过强化学习效果并不好,远不如经过思考数据微调的。个人猜测是因为小模型本来智力就比较低,学也学不明白,所以别搞什么思考了,不如照葫芦画瓢,照着大模型思考的模式抄一抄,效果也不错,就像那些抄学霸答案的学渣,总比自己乱答强。

(Deepseek-R1-Zero-Qwen-32B是经过RL训练的小模型,远不如蒸馏模型)

三个结论

所以Deepseek这个研究成果,展示了三个结论:

模型的思考能力的锻炼靠强化学习就可以了,这个阶段人类不要干预(Deepseek-R1-zero)

模型学会思考后,还是需要人类的参与才能让模型学会如何和人类沟通(Deepseek-R1)

小模型就别自己思考了,蒸馏的效果更好。思考能力的增强和原来的模型的能力密切相关。(Deepseek-R1-distill)

四个推断

这三个结论,把CloseAI藏着掖着的商业秘密直接揭露了(有可能CloseAI了解得还没Deepseek多,who knows),并且我也得出几个

更大的基础模型可能不是没有意义,而是需要经过强化学习的后训练,才知道提升有多大。这就是新的Scaling Law。

小模型可以不用学会思考,越强的思考模型可以蒸馏出越好的小模型,小模型应该很快就会超越现在顶级模型的水平

在不同领域通过强化学习训练出强大的专业思考模型,再将思考模型蒸馏出轻量的小模型,再本地化部署,可能会是一个不错的生意

真正的思考模型展示了真正的智能,AI不仅是知识的压缩,而是真的可以学会思考,最终超越人类,AGI又往前迈出了一步。

【声明】内容源于网络
302.AI
分享更新更全面的AI资讯。
内容 173
粉丝 1
302.AI 分享更新更全面的AI资讯。
总阅读77.4k
粉丝1
内容173