01
引言
为便于理解,DeepSeek-R1 的训练流程分为 6 个阶段。官方技术报告将其描述为 4 个阶段。本文将中间数据生成阶段和微调阶段分开,从而得出更详细的六阶段。

闲话少说,我们直接开始吧!
02
官方技术报告对训练管道进行了简要介绍:

为了解决这些问题并进一步提升推理性能,我们推出了DeepSeek-R1模型。该模型通过整合少量冷启动数据和采用多阶段训练流程实现突破,具体如下:
冷启动初始化:首先收集数千条冷启动数据,对DeepSeek-V3-Base基础模型进行初步微调
强化学习阶段:采用类似DeepSeek-R1 Zero的推理导向强化学习策略进行训练
数据增强优化:在强化学习接近收敛时,通过拒绝采样方法从RL-CKPT生成新的监督微调数据;整合来自DeepSeek-V3在写作、问答、自我认知等领域的优质监督数据;基于新合成数据集对基础模型进行再训练
全场景强化学习:在完成数据增强训练后,针对全场景提示进行补充强化学习
经过上述迭代优化流程,最终获得的DeepSeek-R1 模型在性能表现上已达到与OpenAI-o1-1217模型相媲美的水平
03
为什么要收集冷启动数据?
增强可读性和输出结构
加速强化学习的收敛性
从一个未初始化的模型开始 RL 训练会导致不稳定和收敛缓慢。在启动 RL 之前,通过在冷启动数据上对模型进行微调,该模型实现了更稳定、更高效的学习过程。
这部分冷启动数据是如何收集的?
文中采用了多种方法来生成高质量的冷启动推理数据:
用长 CoT 示例进行少样本提示:给模型提供结构化推理示例,并提示其做出类似的反应。[注:技术报告中没有明确指出 "模型 "指的是什么。是DeepSeek-V3-Base还是DeepSeek-R1-Zero或其他模型。由于DeepSeek-R1-Zero的推理能力更强,因此更有可能是DeepSeek-R1-Zero]
直接提示与反思和验证:鼓励模型逐步解释和验证自己的推理。
重新组织DeepSeek-R1-Zero 的输出格式:收集了前一版本的输出结果,并对其进行了结构化处理,以提高可读性。
人工标注和后处理:对AI生成的回答进行审核和改进,以确保清晰度、连贯性和逻辑正确性。
数据的结构是怎么组织的?
为保持一致性和可读性,答复的格式采用了结构化输出模版:

其中,推理过程reasoning_process是查询的 CoT,而摘要summary则用于总结推理结果。
04
什么是DeepSeek-V3-Base模型?
-
增强模型的推理能力
-
解决思维链推理中语言混合的问题
在训练过程中,思维链(CoT)推理经常出现语言混杂的情况,尤其是在多语言 RL 提示中。为了缓解这一问题,文中引入了语言一致性奖励。消融研究显示:该策略性能略有折衷,提高了可读性,更符合人类偏好。
最终奖励优化
最终奖励的计算方法是求和:推理准确性奖励和语言一致性奖励。这确保了推理任务的精确性和语言连贯性之间的平衡。
06
-
扩展冷启动之外的数据
-
收集推理数据集
-
策划推理提示:提示根据其复杂性和与逻辑推理的相关性进行选择。 -
生成和过滤响应:使用第第 3 阶段最终模型对每个提示进行多个回答采样。通过拒绝抽样,只保留正确的回答。 -
数据集大小:收集了约 600K 个与推理相关的训练样本 -
数据多样性: 以前的评估只使用基于规则的奖励。这一阶段通过纳入以下内容来扩展数据集:将DeepSeek-V3作为奖励模型来评估RL模型预测结果好坏
-
非推理数据集
-
DeepSeek-V3 SFT 数据集的部分内容被重复使用。 -
对于某些任务,DeepSeek-V3 会在回答前生成潜在的思维链(CoT)。
强化训练中的奖励从何而来?
-
提高推理能力:为提高推理能力,本步骤采用 DeepSeek-R1-Zero RL 训练方法:基于规则的奖励,引导模型从逻辑上分解问题;训练内容包括编码、数学和逻辑谜题等推理任务。 -
捕捉人类细微的偏好:利用奖励模型捕捉人类复杂而细微的偏好。奖励模型有助于完善主观或多层次任务的产出。训练包含不同的提示和偏好,以涵盖复杂的使用案例。 -
评估输出的有用性:根据最终摘要的质量来评估模型的有用性,以避免干扰基本推理。评估最终答案的实用性和清晰度。中间步骤保持不变,以维护逻辑推理。为此,文中采用了奖励模型。 -
减少有害内容和偏见:通过审查整个答复(包括推理过程和最终摘要)来评估无 害性,以解决潜在的风险或偏见。检查回复是否存在有害内容、偏见或风险。评估包括推理步骤和最终结论,以确保安全输出。为此,文中采用了奖励模型。
欢迎大家持续关注!
参考:
[1] DeepSeekV2: https://arxiv.org/abs/2405.04434
[2] DeepSeekV3: https://arxiv.org/abs/2412.19437
[3] DeepSeekR1: https://arxiv.org/abs/2501.12948
点击上方小卡片关注我
添加个人微信,进专属粉丝群!

