

大白话聊聊Deepseek R1背后的来龙去脉，必读

302.AI

2025-02-05

588

导读：大白话聊聊Deepseek R1背后的来龙去脉，必读

一切的开端

CloseAI在24年发布了o1，指出了未来Scaling Law的方向：增加思考时间来换取更多智能，而不是用更大的模型或更多的训练数据。CloseAI没告诉任何人具体该怎么做，只是将自己的成果做成了收费产品。

虽然大家都知道了这个宏观方向，但是不知道具体的实现方式，就像只告诉你目的地在东北方向，路线一概不知，所以没有人可以复现o1的成功。之前的仿o1模型，都在尝试各种方法，虽然都叫cot（思维链），但是并没有展现出强大的思考能力，离o1还差了一大截。估计CloseAI打算靠这个独家秘籍作为技术壁垒，发家致富。

大道至简

没想到2025年1月，突然Deepseek发了一个论文，并发布了R1系列模型。他们直接给大家揭开了CloseAI一直藏着掖着的秘密：如何训练出一个真正有思考能力的模型。

正所谓大道至简，Deepseek发现，想训练出一个有思考能力的模型，其实没有那么多弯弯绕绕，结论很简单：RL (强化学习) is all you need。通俗点说，就是告诉机器目标和结果，让机器自己慢慢领悟就好了，不需要干预太多。

Deepseek在论文里很明确的写到：什么过程奖励模型，什么蒙特卡洛搜索树这种和过程相关的算法，都是失败的尝试。他们使用了一个新的目标奖励方法，剩下的就让机器自己去学习。

此时历史就像一个循环，当年AlphaGo能在围棋下出神之一手，正是因为摆脱了人类的棋谱，纯靠强化学习。而现在Deepseek给出了相同的答案，别搞什么RLHF，别搞什么SFT，人类别自以为是了，机器是无法通过模仿来超越人类的。

其实之前其他人也不是没走过这条路，毕竟强化学习都算是“古典AI”了，Deepseek之所以走通，也是因为他们找到了一个合适的算法（GRPO），才能够让机器在有限的资源下，不断的学习和成长。

(摘选自原论文的GRPO算法公式)

原型机

Deepseek通过让Deepseek-V3模型纯强化学习（RL），训练了个模型叫Deepseek-R1-Zero，其实这玩意比较像一个原型机，用来验证这个概念是正确的。结果也如图片所示，能力超群，经过8000步的训练后，模型能力提高了几倍，甚至超越了o1-0912。但是这个模型放到生产环境，会有很多问题（比如多语言混杂，输出看不懂等），需要再精加工一下，让这个模型变得更用户友好。

（模型能力随着RL训练次数的增加，线性上升）

成熟产品

他们就继续搞了个现在大家熟知的Deepseek-R1。R1其实就是在原来的纯强化学习（RL）基础上，加了很多人类的干预(SFT)，让输出更加可控，让整个模型更加友好。过程比较复杂，大概就是结合了微调和强化学习，算是传统和创新结合，重新训练了一个生产环境可用的模型：Deepseek-R1。

（R1的训练步骤图解）

从大到小

但是这玩意本质还是Deepseek-V3基于训练的，参数很大，普通机器是跑不起来的，他们又继续搞了一些小模型出来，大大降低部署门槛，甚至做到个人电脑可部署。

但是这个小模型也是有些隐秘门道，小模型本质是基于R1的合成数据训练的微调模型，并没有经过强化学习训练，所以说本质上他们不算是真正的“思考模型”。而Deepseek为什么这么做呢，其实他们论文也写了：他们发现小模型经过强化学习效果并不好，远不如经过思考数据微调的。个人猜测是因为小模型本来智力就比较低，学也学不明白，所以别搞什么思考了，不如照葫芦画瓢，照着大模型思考的模式抄一抄，效果也不错，就像那些抄学霸答案的学渣，总比自己乱答强。