大数跨境
0
0

DeepSeek-R1模型架构深度解读(九)训练流程

DeepSeek-R1模型架构深度解读(九)训练流程 AI算法之道
2025-02-17
0
导读:DeepSeek-R1 模型训练流程讲解
点击蓝字
 
关注我们










01


引言



为便于理解,DeepSeek-R1 的训练流程分为 6 个阶段。官方技术报告将其描述为 4 个阶段。本文将中间数据生成阶段和微调阶段分开,从而得出更详细的六阶段。


闲话少说,我们直接开始吧!







02


整体训练流程的简短介绍

官方技术报告对训练管道进行了简要介绍:

翻译成中文如下:

为了解决这些问题并进一步提升推理性能,我们推出了DeepSeek-R1模型。该模型通过整合少量冷启动数据和采用多阶段训练流程实现突破,具体如下:

冷启动初始化:首先收集数千条冷启动数据,对DeepSeek-V3-Base基础模型进行初步微调

强化学习阶段:采用类似DeepSeek-R1 Zero的推理导向强化学习策略进行训练

数据增强优化:在强化学习接近收敛时,通过拒绝采样方法从RL-CKPT生成新的监督微调数据;整合来自DeepSeek-V3在写作、问答、自我认知等领域的优质监督数据;基于新合成数据集对基础模型进行再训练

全场景强化学习:在完成数据增强训练后,针对全场景提示进行补充强化学习

经过上述迭代优化流程,最终获得的DeepSeek-R1 模型在性能表现上已达到与OpenAI-o1-1217模型相媲美的水平






03


阶段一: 收集冷启动数据

文中收集了数千个冷启动样本,包括长思维链(CoT)数据,用于微调 DeepSeek-V3-Base 。

为什么要收集冷启动数据

在开发 DeepSeek-R1 的过程中,收集冷启动数据带有特定的目的:
  • 增强可读性和输出结构

之前的 DeepSeek-R1-Zero 模型仅通过强化学习(RL)进行训练,表现出可读性差和语言混杂等问题。
为了应对这些挑战,研究人员利用一小部分冷启动数据对基础模型进行了微调,并精心设计,以促进清晰、连贯的输出。
  • 加速强化学习的收敛性

从一个未初始化的模型开始 RL 训练会导致不稳定和收敛缓慢。在启动 RL 之前,通过在冷启动数据上对模型进行微调,该模型实现了更稳定、更高效的学习过程。

这部分冷启动数据是如何收集的?

文中采用了多种方法来生成高质量的冷启动推理数据:

  • 用长 CoT 示例进行少样本提示:给模型提供结构化推理示例,并提示其做出类似的反应。[注:技术报告中没有明确指出 "模型 "指的是什么。是DeepSeek-V3-Base还是DeepSeek-R1-Zero或其他模型。由于DeepSeek-R1-Zero的推理能力更强,因此更有可能是DeepSeek-R1-Zero]

  • 直接提示与反思和验证:鼓励模型逐步解释和验证自己的推理。

  • 重新组织DeepSeek-R1-Zero 的输出格式:收集了前一版本的输出结果,并对其进行了结构化处理,以提高可读性。

  • 人工标注和后处理:对AI生成的回答进行审核和改进,以确保清晰度、连贯性和逻辑正确性。

数据的结构是怎么组织的?

为保持一致性和可读性,答复的格式采用了结构化输出模版:

其中,推理过程reasoning_process是查询的 CoT,而摘要summary则用于总结推理结果。





04


阶段二:在DeepSeekV3-Base的基础上进行SFT

在这一阶段,将DeepSeek-V3-Base 模型在第一阶段冷启动数据的基础上进行训练。

什么是DeepSeek-V3-Base模型?

DeepSeek-V3 是一个开源的混合专家(MoE)大语言(LLM)模型,共有 671B 个参数。该模型在 14.8T 多语言标记(主要是英语和中文)上进行了训练,在推理、编码和数学方面表现出色。尽管其规模庞大,但成本效益高,可与顶级专有模型相媲美。
DeepSeek-V3-Base 中的 "Base "标志着它是一个只经过预训练的基础模型,在一个多样化、大规模的语料库中进行训练,没有针对特定任务进行广泛的微调,使其成为进一步调整的通用起点。
DeepSeek-V3-Base 模型架构具有 128K 标记输入上下文长度。它使用多头潜在注意力(MLA)代替标准注意力机制,以减少 KV 缓存内存的使用并加快推理速度。除前三层外,其他各层都采用了专家混合层(MoE)。此外,该模型还采用了多Token预测 (MTP),以提高标记生成的准确性。



05
阶段三:对上述模型进行基于GRPO的强化学习
在对 DeepSeek-V3-Base 的冷启动数据进行微调后,这里应用了大规模强化学习(RL)过程,与 DeepSeek-R1-Zero 强化学习(RL)过程相同。
这里的主要目的如下:
  • 增强模型的推理能力
这一训练阶段可增强模型在以下方向的处理能力:编码、数学、科学以及逻辑推理。这些任务涉及明确界定的问题和清晰的解决方案。
  • 解决思维链推理中语言混合的问题

在训练过程中,思维链(CoT)推理经常出现语言混杂的情况,尤其是在多语言 RL 提示中。为了缓解这一问题,文中引入了语言一致性奖励。消融研究显示:该策略性能略有折衷,提高了可读性,更符合人类偏好。

  • 最终奖励优化

最终奖励的计算方法是求和:推理准确性奖励和语言一致性奖励。这确保了推理任务的精确性和语言连贯性之间的平衡。





06

阶段四:800K SFT数据来源
主要包含以下策略:
  • 扩展冷启动之外的数据
    与最初主要侧重于推理的冷启动数据不同,这一阶段整合了不同领域,以增强模型在以下方面的能力写作、角色扮演和通用任务。
    • 收集推理数据集
    为了提高推理能力,采用了结构化数据收集程序:
      • 策划推理提示:提示根据其复杂性和与逻辑推理的相关性进行选择。
      • 生成和过滤响应:使用第第 3 阶段最终模型对每个提示进行多个回答采样。通过拒绝抽样,只保留正确的回答。
      • 数据集大小:收集了约 600K 个与推理相关的训练样本
      • 数据多样性: 以前的评估只使用基于规则的奖励。这一阶段通过纳入以下内容来扩展数据集:将DeepSeek-V3作为奖励模型来评估RL模型预测结果好坏
    • 非推理数据集
    为了加强非推理任务的性能,还纳入了额外的数据源。包括的类别主要有写作、问答、自我认知和翻译。相应的数据来源:
      • DeepSeek-V3 SFT 数据集的部分内容被重复使用。
      • 对于某些任务,DeepSeek-V3 会在回答前生成潜在的思维链(CoT)。
    这部分数据收集了约 20 万个非推理训练样本。



    07
    在800k 数据集上进行SFT
    第 2 至第 3 阶段使用的 DeepSeek-V3-Base 模型不会沿用。本阶段使用的是全新的 DeepSeek-V3-Base 模型。
    DeepSeek-V3-Base 模型使用由大约 800K 个样本组成的 SFT 数据集进行了两个Epoch的微调。


    08
    在800k数据集上进行强化学习
    最后的强化学习阶段通过精心设计的奖励信号和各种提示来完善模型的帮助性、无害性和推理能力,从而增强模型的一致性。

    强化训练中的奖励从何而来?

    对于推理数据,我们遵循 DeepSeek-R1-Zero 中概述的方法,利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般非推理数据,我们采用奖励模型来捕捉人类在复杂和细微场景中的偏好"。- DeepSeek-R1 技术报告
    • 提高推理能力:为提高推理能力,本步骤采用 DeepSeek-R1-Zero RL 训练方法:基于规则的奖励,引导模型从逻辑上分解问题;训练内容包括编码、数学和逻辑谜题等推理任务。
    • 捕捉人类细微的偏好:利用奖励模型捕捉人类复杂而细微的偏好。奖励模型有助于完善主观或多层次任务的产出。训练包含不同的提示和偏好,以涵盖复杂的使用案例。
    • 评估输出的有用性:根据最终摘要的质量来评估模型的有用性,以避免干扰基本推理。评估最终答案的实用性和清晰度。中间步骤保持不变,以维护逻辑推理。为此,文中采用了奖励模型。
    • 减少有害内容和偏见:通过审查整个答复(包括推理过程和最终摘要)来评估无 害性,以解决潜在的风险或偏见。检查回复是否存在有害内容、偏见或风险。评估包括推理步骤和最终结论,以确保安全输出。为此,文中采用了奖励模型。



    09
    结论
    本文回顾了DeepSeek-R1的训练流程,对其步骤进行了讲解,尤其是数据处理相关部分结合之前的论文进行了说明,希望可以加深大家对这一工作的理解。



    欢迎大家持续关注!

    一起学习,共同进步!!!

    参考:

    [1] DeepSeekV2:   https://arxiv.org/abs/2405.04434

    [2] DeepSeekV3:   https://arxiv.org/abs/2412.19437

    [3] DeepSeekR1:   https://arxiv.org/abs/2501.12948





    点击上方小卡片关注我




    添加个人微信,进专属粉丝群!




    【声明】内容源于网络
    0
    0
    AI算法之道
    一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号,涵盖视觉CV、神经网络、模式识别等方面,包括相应的硬件和软件配置,以及开源项目等。
    内容 573
    粉丝 0
    AI算法之道 一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号,涵盖视觉CV、神经网络、模式识别等方面,包括相应的硬件和软件配置,以及开源项目等。
    总阅读256
    粉丝0
    内容573