大数跨境
0
0

Thinking Machines Lab 万字长文:用同策略蒸馏取代传统的 RLHF

Thinking Machines Lab 万字长文:用同策略蒸馏取代传统的 RLHF 硅基生命AIGC
2025-10-28
16

Thinking Machines Lab 昨天又发布新的博客--On-Policy Distillation。提出了一个新角度:把强化学习和知识蒸馏融合起来,用同策略蒸馏(on-policy distillation)取代传统的 RLHF。

文章的核心观点:

  • 在传统的强化学习阶段,模型一次训练只能学到大约 O(1)  bits 的信息,只对最终结果负责;

  • 但在蒸馏阶段,模型可以直接从老师的输出中学到 O(N)  bits 的信息,等于是每一步都在被纠正。

在这个框架下,学生模型不再依赖老师提供的静态数据,而是自己生成输出,由 老师实时打分并指导改进。

这就让模型的学习过程更贴近它最终推理时的状态,也更高效、更稳定。

文中还提供了伪代码示例,展示如何在每个时间步上,让学生优化下一个 token 的预测,而不考虑未来 tokens 的影响——这是一种更直接、更可控的训练方式。

以下为原文内容:

https://thinkingmachines.ai/blog/on-policy-distillation/

LLMs 能够在特定领域表现出专家级水平,这是多种能力叠加的结果:输入感知、知识检索、计划选择和可靠执行。这需要一系列的训练方法,我们可以将其分为三个主要阶段:

  • 预训练阶段培养通用能力,如语言使用、广泛推理和世界知识。
  • 中训练阶段传授领域知识,如代码、医学数据库或公司内部文档。
  • 后训练阶段激发特定行为,如指令遵循、数学问题推理或聊天。

训练更充分的小模型往往能在其专业领域内超越更大、更通用的模型。使用小模型有许多好处:它们可以出于隐私或安全考虑在本地部署,更容易持续训练和更新,并节省推理成本。要利用这些优势,需要在训练的后期阶段选择正确的方法。

对“学生”模型进行后训练的方法可以分为两种:

  • 同策略训练从学生模型本身采样的 rollout,并给予它们一定的奖励。
  • 离策略训练依赖于来自某个外部源的目标输出,学生模型学习模仿这些输出。

例如,我们希望训练一个紧凑的模型来解决数学问题时:

可以通过强化学习进行同策略训练,通过评估每个学生尝试解决问题的表现来打分。这个打分可以由人类完成,或者由一个能够可靠地得到正确答案的教师模型完成。

同策略训练的优势在于,通过训练自身样本,学生能够更直接地学习避免错误。但强化学习有一个主要缺点:它提供非常稀疏的反馈,每个训练回合只教授固定数量的比特,无论使用了多少个标记。在我们上面的例子中,学生学会了“21”是错误的答案,并更新以避免尝试产生那个回合的输出。但它并没有学到错误具体在哪里,是运算顺序错误还是算术本身出错。这种反馈的稀疏性使得强化学习在许多应用中效率低下。

离策略训练通常使用监督微调(SFT):在精心策划的任务特定标记示例集上进行训练。这些标记示例的来源可以是一个在当前任务中已被证明表现良好的教师模型。

我们可以使用一种称为蒸馏的机制:训练学生模型以匹配教师模型的输出分布。我们在教师轨迹上进行训练:生成的标记的完整序列,包括中间的思考步骤。我们可以使用教师在每个步骤的完整下一个标记分布(通常称为“logit 蒸馏”),或者只是采样给定的序列。在实践中,采样序列提供了对教师分布的无偏估计,并达到相同的目标。学生模型根据生成该标记的难度进行更新,在示例下方用较深的颜色表示:

从大型模型教师进行蒸馏已被证明在训练小型模型遵循指令方面非常有效,在数学和科学上进行推理,提取临床信息从医疗记录中获取信息,并进行多轮聊天对话。用于这些和其他应用中的蒸馏数据集通常是开源的。

离策略训练的缺点是学生学习的场景是教师遇到过的,而不是学生自己遇到的。这会导致累积错误:如果学生在早期犯了一个教师从未犯过的错误,它就会发现自己越来越偏离训练中观察到的状态。当我们看重学生处理长序列时的表现,这个问题会变得尤其严重。为了避免这种偏离,学生必须学会从自己的错误中恢复过来。

离策略蒸馏的另一个问题是,学生可以学会模仿教师的风格和自信,但不一定能够模仿其事实准确性。

如果你正在学习下棋,同策略强化学习就像没有教练的游戏。赢得或输掉比赛的反馈直接与你的玩法相关,但每场比赛只收到一次反馈,而且无法告诉你哪些走法对结果贡献最大。离策略蒸馏则像观看大师下棋——你观察到非常强的棋步,但这些棋步是在新手玩家很少会遇到的棋局状态下进行的。

我们希望将强化学习的策略相关性(on-policy relevance)与蒸馏的密集奖励信号结合起来。对于学习国际象棋来说,这就好比有一位老师,能够对你的每一步棋给出“失误”到“绝妙”的评分。对于 LLM 的后续训练来说,这就是同策略蒸馏(on-policy distillation)。

同策略蒸馏——兼得两者之长

同策略蒸馏的核心思想是从学生模型中采样轨迹,并使用高性能的教师模型对每个轨迹的每个标记进行评分。回到我们上面提到的数学例子,同策略蒸馏会对每个解题步骤进行评分,惩罚导致学生得出错误答案的错误操作,同时强化已正确执行的操作。

在这篇文章中,我们探讨了在数学推理模型训练和结合领域知识与指令遵循的助手模型训练等任务中应用同策略蒸馏。我们对具有预训练和中间训练基础能力模型应用了同策略蒸馏。我们发现这是一种经济且强大的后训练方法,结合了同策略训练和密集奖励信号的优势。

我们的同策略蒸馏的工作灵感来源于 DAGGER,一种迭代式结构化特征转换算法,其中包括教师对学生访问状态的评估。它也与过程奖励建模相似,一种强化学习方法,它为学生模型推理链中的每一步进行评分。我们通过 Agarwal 等人扩展了先前的同策略蒸馏工作。和 Qwen3 团队使用 Tinker 训练 API,我们复制了 Qwen3 的成果,即在推理基准测试中,通过同策略蒸馏以 RL 成本的一小部分实现了同等性能。

实现

您可以在 Tinker cookbook 中跟随每个实现步骤。

损失函数:反向 KL 散度

同策略蒸馏可以使用多种损失函数来评估学生的轨迹。简化起见,我们选择每个 token 的反向 KL 散度——即学生(πθ)和教师(πteacher在相同先验轨迹条件下,每个 token 分布之间的散度:

我们的奖励函数最小化反向 KL 散度,这促使学生在它所处的每个状态下都去逼近教师的行为。当学生的行为与教师完全一致时,反向 KL 散度为零。简化起见,我们使用零折扣因子:在任何给定的时间步长上,学生只优化接下来的一个 token,而不会考虑未来的 tokens。

反向 KL 与强化学习具有天然的协同效应,强化学习通常优化由奖励模型引起的序列级反向 KL。然而,与实践中大多数奖励模型不同,反向 KL 在某种意义上是“无法破解”的,即低 KL 总是对应于教师模型视角下期望行为的高概率。反向 KL 的另一个有用特性是它具有“模式寻求”的特性——它学习的是一种特定行为(教师的行为),而不是将其分布分散到几个次优选项上。

这种方法可以显著节省计算资源。由于它不需要完成采样来计算奖励,我们可以使用更短或部分的前向传播进行训练。查询教师的日志概率也只需要从较大的模型中执行一次前向传播,而轨迹则由较小且更经济的模型生成。

我们也不需要单独的奖励或标签模型。将基于蒸馏的每个标记奖励与序列级别的环境奖励结合起来可能会有优势;这是一个有趣的潜在未来研究方向。

插图

下面我们看到一个由教师评定的错误学生轨迹的真实例子。这个例子来自 SimpleBench,依赖于模型做出一个关键观察,即问题的前提很重要:正确答案是“B. 0”,因为冰块会在平底锅中融化。学生Qwen3-4B-Instruct-2507错误地将这个问题视为一个纯粹的数学问题,而没有考虑物理背景。

较深的颜色代表从教师模型接收更高惩罚的 tokens,Qwen3-235B-A22B-Instruct-2507,它正确地解决了这个问题。我们看到它惩罚了那些开始导致学生迷失方向的短语的 tokens,直观上对应于指导推理的重要“forking tokens”。最终答案虽然错误,但并未受到惩罚——它在给定整个前序序列的条件下是完全可预测的。

伪代码

我们在 Tinker 的 RL 脚本基础上实现了离策略蒸馏,该脚本已经实现了采样、奖励计算和策略梯度风格的训练。

  1. 初始化教师客户端。Tinker API 可以轻松地为不同模型创建不同的客户端,无需担心模型引擎的利用率。我们使用采样客户端,因为我们不需要通过教师模型传播 logprobs。
  2. 采样轨迹。我们从学生模型中采样 rollouts,方式与 RL 中相同。在采样过程中,RL 已经计算了学生模型的 logprobs logπθ(x),用于作为重要性采样损失的组成部分。
  3. 计算奖励。我们在采样轨迹上使用 compute_logprobs 查询教师客户端,这返回了教师对由学生采样的标记 x 的 logpr在本文中,我们的实验中不考虑 logit(top-k)蒸馏,这可以进一步提高计算效率。obs logπteacher(x)然后我们使用这些信息来计算反向 KL。
  4. 使用强化学习进行训练。我们将每个 token 的收益设置为负反向 KL 散度,并调用强化学习重要性采样损失函数来对学生的模型进行训练更新。

在下面的实验中,我们将同策略梯度蒸馏应用于已经在中期训练阶段掌握了特定领域知识的模型。这种训练增加了学生模型生成教师模型分布内 token 的概率,尽管这通常远不足以复制教师模型的性能。通常,正如我们在个性化示例中看到的,由于学生模型缺乏任何相关的领域知识,生成相关 token 的概率从零开始。

我们使用同策略梯度蒸馏进行后训练,并将其与其他方法进行比较,这些方法用于专家模型训练的最后这一关键阶段。

推理蒸馏技术

我们使用蒸馏技术来训练 Qwen3-8B-Base 模型中的数学推理能力,以 Qwen3-32B 作为教师模型。目前,教师模型(Qwen3-32B)和学生模型(Qwen3-8B-Base)都是 Tinker 平台支持的标准模型,因此您可以使用 Tinker cookbook 来复现我们的实验。

离线策略蒸馏

如前所述,我们的所有实验都从离策略蒸馏形式的中间训练开始——在由教师生成的示例数据集上进行监督微调。用于数学推理的数据集是 OpenThoughts-3,这是一个由 QwQ-32B(一个类似于 Qwen3-32B 的推理模型)生成的推理提示和响应的集合。

对 Qwen3-8B-Base 学生模型使用 40 万条提示进行完整微调,在数学问题基准测试 AIME'24 上的得分达到 60%。我们也可以使用 LoRA 进行训练,尽管在用大规模数据集进行训练时,它落后于完整的微调。在所有情况下,我们都看到性能对数线性增长——初始性能提升成本较低,但后续提升成本较高。

我们可以将使用 40 万条提示微调的模型视为尝试各种后训练方法以提高其性能之前的检查点。我们可以比较将其在 AIME'24 基准测试中的得分从 60%提高到 70%所需的努力程度。

默认方法是使用更多提示进行微调,继续离策略蒸馏的过程。根据对数线性趋势的推断,我们估计该模型在约 200 万条提示时会在 AIME'24 上达到 70%的得分。这种推断需要比例定律保持稳定而不停滞,这并不简单。然而,确实存在大规模离策略蒸馏将 8B 模型的性能提升至 70%以上的例子,例如 OpenThoughts-3 和DeepSeek-R1-0528-Qwen3-8B。我们可以将这种推断作为离策略蒸馏的成本效益比的一个乐观估计。

强化学习

《Qwen3 技术报告》在基准测试中,使用相似的 SFT 初始化,并通过 17,920 GPU 小时的强化学习达到了 67.6%的性能。很难直接将其与蒸馏成本进行比较,但考虑到关于 SFT 训练堆栈的一些合理假设,这相当于训练 2M 个离策略蒸馏提示的成本。

Qwen 团队还报告称,使用同策略蒸馏在 AIME’24 上以强化学习的十分之一成本达到了 74.4 的高分,这为我们的工作提供了灵感。我们将在基本设置中尝试复制它。

同策略蒸馏

作为离策略蒸馏或强化学习的替代方案,我们运行上述的同策略蒸馏。从 400k SFT 检查点开始,同策略蒸馏在约 150 步内达到了 AIME’24 的 70%。

跨方法比较计算成本并不简单,因为训练成本与采样成本及计算对数概率成本的比例因实现方式而异。下面,我们以 FLOPs 来计算成本,这会惩罚那些可以在 GPU 上有效并行化的方法。特别是,这会高估计算对数概率的实际成本。

我们发现当提供 SFT 数据集时,基准成本降低了 9 倍,就像我们在 OpenThoughts-3 示例中那样,或者是在多次训练运行中摊销。在这种情况下,我们不计算离策略训练的教师 FLOPs 成本,但计算同策略的,因为我们必须运行教师模型来计算学生轨迹的对数概率。由于这个计算可以廉价地跨 GPU 并行化,GPU 小时的成本降低更接近于 18 倍。

然而,我们通常希望在新的任务上训练一个小模型,而该任务没有可用的离策略蒸馏数据集。如果我们包括教师模型的全部成本在离策略蒸馏中——即包括从教师模型采样的额外成本——总成本降低约为 30 倍。

个性化蒸馏

除了在常见任务上训练小型模型以获得高性能外,蒸馏的另一个用例是个性化。例如,在对话中坚持特定的语气和输出格式,或具备工具使用和成本预算等能力。我们通常希望结合新的领域知识来训练这种行为。

同时训练两者通常很困难,轻量级的微调往往不足以实现这一目标,因此需要更大的中期训练。在新知识基础上进行后训练行为学习需要复杂的后训练堆栈,通常包含专有数据和奖励模型。虽然这种方法对前沿实验室来说是可行的,但对其他从业者来说可能难以复制或成本过高。

在本节中,我们展示了同策略蒸馏可以有效地用于对特定行为进行后训练。这种方法也适用于持续学习或“测试时训练”:在模型部署时更新模型,而不会降低基础性能。我们使用了一个示例应用,该模型在我们内部公司文档上进行了中途训练。

训练内部助手

定制模型的一个常见目标是充当助手:在某些领域拥有专业知识,并且具备可靠的助手行为。我们可能需要为每个目标进行单独的训练,特别是当专业领域无法仅从预训练数据中学习,或者学习它会干扰行为时。

我们的例子是一个内部公司助手,我们有两个期望:

  1. 模型了解该领域(公司文档)。预训练模型没有见过公司的任何内部文档,因此无论模型规模如何,只能猜测。我们将使用内部知识召回评估(“内部问答”)来衡量这一点。
  2. 该模型表现出强烈的后训练行为,即指令跟随能力。我们将使用常用的 IF-eval 来衡量这一点。

在新知识上的训练会损害已学习的行为

我们将从 Qwen3-8B 开始,而不是基础模型。Qwen3-8B 在助理的有用技能上进行后训练,例如指令跟随和通过强化学习进行推理。先前研究表明,这种强化学习仅训练原始模型的小型子网络。因此,当网络在大量数据上进一步训练时,它可能会变得脆弱。我们研究了这种情况发生的程度,以及如何恢复期望的行为。

为了减少这种灾难性遗忘,中间训练中常见的方法是混合来自原始模型预训练分布的“背景数据”。在这种情况下,我们没有访问 Qwen3 的预训练分布。因此,我们考虑一个更强且更昂贵的基线:我们采用 Tulu3 提示词——一个广泛的聊天和指令遵循数据集——并使用 Qwen3-8B 重新采样,以便作为聊天背景数据。

Qwen3-8B 采样的这种“同策略”背景数据充当正向 KL 正则化器,在整个中期训练过程中强化模型的原有行为。我们发现,在整个中期训练过程中,从 Qwen3-8B 采样比从 Qwen3-32B 采样更能保持聊天能力,这突出了数据源的敏感性;Chen 等人也发现了类似的同策略微调结果。我们假设这种方法甚至可能比获取原始预训练数据分布更有效,但代价是需要采样一个大规模数据集。

我们随后在内部文档和聊天数据的不同混合上微调 Qwen3-8B。增加文档数据的比例直接提升了模型的知识。然而,尽管混合至少 30%的聊天数据有助于保持大部分指令跟随能力,但没有权重能够维持 IF-eval 上的原始性能。

对于任何给定的混合数据,我们观察到 IF-eval 性能在微调过程中会下降。这削弱了我们使用更长时间的训练来进一步专业化模型的能力。

一种常用的替代方法是使用 LoRA 来约束参数更新,从而减少灾难性遗忘的可能性。然而,这种方法仍然不足以保留 IF-eval,并且 LoRA 学习到的内容较少。

同策略蒸馏恢复训练后的行为#

接下来,我们试图在内部文档上微调后恢复指令跟随行为。这种行为最初是通过强化学习训练的,成本高昂,而且正如我们所见,非常脆弱。相反,我们使用早期版本的模型 Qwen3-8B 作为教师,在 Tulu3 提示上进行同策略蒸馏。请注意,这个训练阶段与内部文档数据无关,其唯一目的是恢复指令跟随。

将早期版本的模型作为教师来“重新激活”在微调过程中丢失的能力,使得同策略蒸馏在持续学习方面非常有前景。我们可以在新数据上的微调阶段和蒸馏阶段之间交替进行,以恢复行为,使我们的模型能够随时间学习和更新知识。这种交替进行的方法之前已被 Cobbe 等人探索过。

在内部文档数据和聊天数据的 70-30 混合上进行微调后,同策略蒸馏在 IF-eval 上几乎完全恢复性能,且未丢失任何知识;我们还观察到聊天能力与模型在内部 QA 评估上的“知识”性能之间存在一些正向迁移。

本质上来说,我们将语言模型本身当作奖励模型,高概率的行为会受到奖励。这与逆强化学习有关:高概率行为对应于潜在偏好模型中假设的有利奖励。任何指令微调的开权模型都可以在这种意义上用作奖励模型;我们只需要访问 compute_logprobs 函数。

将蒸馏作为整合行为和知识的方法,也被探索用于混合推理模型(Qwen3)和专业蒸馏。正如我们的结果和 Chen 等人的结果所表明,同策略学习可以成为增强基于蒸馏的“模型合并”设置的关键工具。

讨论

密集监督大大提高了计算效率

强化学习和离策略蒸馏都通过反向 KL 学习,修剪基础策略中存在的动作空间。区别在于奖励的密度。在《LoRA Without Regret》中,我们提出了从信息论角度出发的观点,即强化学习每个回合只教授O(1)bits,相比之下,蒸馏每个回合教授O(N)bits,其中 N 是 token 的数量。我们能量化通过更密集的奖励获得的训练效率吗?

我们进行了一项实验,以直接比较两者:

  1. 从 Qwen3-8B-Base(无额外的 SFT)开始。
  2. 在 DeepMath 上运行 RL,匹配我们 LoRA Without Regret 的流程。我们使用 LoRA 秩为 128。生成的模型是蒸馏的教师模型。
  3. 将 RL 训练的模型(2)进行同策略蒸馏回基础模型(1)。

我们看到,与匹配模型架构(LoRA 秩 128)的强化学习相比,蒸馏大约快 7-10 倍达到教师级别的性能。反向 KL 散度降至接近零,AIME 分数在不到 10 个梯度步内恢复,而强化学习需要 70 步才能达到这个水平。

总的来说,所需的计算量减少了 50-100 倍:

  • 虽然强化学习需要在接近评估的上下文中进行训练(以便策略能够学习上下文限制并避免格式惩罚),而蒸馏学习在较短的上下文长度下表现合理,因为从完成采样的轨迹到继续采样的轨迹之间没有明显的奖励截止点。
  • 当 SFT 初始化较强时,同策略蒸馏能有效工作,只需较小的批次大小,因为它为每个回合提供显著更多的比特,从而减少梯度噪声。

尽管使用过程监督训练强化学习模型通常很困难,但这些结果表明,作为一个广泛的方向,过程监督和密集奖励有可能将学习效率提高一个数量级。这与 Lightman 等人早期在强化学习研究中的结果相匹配。

蒸馏可以有效地重用训练数据以提高数据效率

对于从业者来说,收集大量的训练提示数据可能既困难又耗时。因此,我们希望能够多次重用提示进行训练。使用强化学习,在相同的提示上进行多个训练周期往往会导致对最终答案的简单记忆,尤其是在大型模型中。

相比之下,同策略蒸馏通过最小化反向 KL 来学习近似教师的完整分布,而不是记忆单个答案。这使我们能够从相同的提示中训练许多样本。

我们重复上述实验,在数学领域训练 Qwen3-8B-Base,但这次仅使用数据集中随机选择的一个提示。

我们在该提示上连续训练 20 步,每步使用 256 个 rollouts 的批次,总共训练 5120 个分级序列。我们以顺序方式在相同的提示上进行多步训练,这通常会导致过拟合。尽管这种方式在计算效率上自然较低,但尽管仅训练了一个提示,我们仍然大致匹配了教师模型的性能。

强化学习在语义策略空间中进行搜索

我们已经看到,同策略蒸馏可以以远少于训练步骤的数量复制强化学习提供的知识。这一结果的解释之一是,与预训练不同,强化学习不会在梯度步骤本身上花费大量计算资源。我们应该将强化学习视为将大部分计算资源用于搜索——展开策略并分配信用——而不是用于更新。

通过随机梯度下降进行预训练是在探索高维参数空间。预训练需要大量信息,且非常难以蒸馏,部分原因是参数空间对每个网络都有所不同。预训练所需的梯度步长在计算上是极其昂贵且耗时的。

相比之下,我们应该将强化学习视为探索语义策略空间。

在每一步,强化学习尝试对过去发现的一些策略进行微小修改。它不是在参数空间中探索,而是通过运气“绊倒”到新的策略——它从已有的权重集合中进行随机采样。

一旦找到好的策略,蒸馏就为学习它提供了一个捷径:同策略蒸馏不需要在 RL 课程中建模中间策略,而只需要建模最终学到的策略。如果我们只对最终策略感兴趣(这在生产使用场景中很常见),就不必花费计算资源来建模所有中间策略。

想象一个类比:在科学研究领域,我们花费大量时间和资源寻找答案和探索新想法。一旦某个结果被发现,通过自然语言将其表达出来,就变得简单得多。我们可以将其与直观的物理技能(如运动)进行对比。这些技能很难教给别人,因为知识存在于一种只有我们自己才能轻易理解的内在语言(例如肌肉记忆)中。运动只能通过反复练习来学习。

同策略的学习作为持续学习的工具

在个性化蒸馏部分,我们探讨了同策略蒸馏将专门训练的行为重新引入模型的能力。这可以推广到更广泛的持续学习任务,这些任务需要在不降低先前能力的情况下获取新知识。

先前研究表明,在线学习(RL)比离线学习遗忘更少。然而,RL 只能塑造行为——它不能很好地教授新知识,因此不足以支持持续学习。

在上一节中,我们看到 SFT(包括离策略蒸馏)在构建持续学习框架时失败,因为它会降低行为表现。我们进一步深入研究了这个问题,并通过一个直接的例子进行了证明。与之前类似,我们通过使用 Tulu3 提示并从 Qwen3-32B 的 temperature = 1.0 位置采样来构建数据集,且不进行任何进一步修改。因此,这个数据集相对于 Qwen3-32B 的 KL 散度为零。

当我们在模型自己的样本数据集上运行 SFT 时会发生什么?我们看到任何大于零的实际学习率都会导致在指令遵循评估上的性能下降!

一种可能的解释是,虽然 KL 散度在期望中为 0,但在实践中每个有限批次都会表现出略微不同的分布。在有限批次上训练会导致非零的梯度更新,这进而使更新后的模型的策略偏离其原始状态。随着时间的推移,这个过程将训练自己的样本转变为离策略训练,这会导致与离策略训练在长序列中出现的相同误差累积和发散。

离策略蒸馏始终保持在策略内,并且由于教师模型保持固定,学生模型会收敛到教师模型期望的行为,在自我蒸馏设置中不会像 SFT 那样出现退化。这使得离策略蒸馏成为持续学习的非常有前景的工具。

结论

我们探讨了在同策略蒸馏方面的应用,例如用于训练数学推理的小模型或持续学习的助手。我们将同策略蒸馏与其它两种后训练方法进行了比较:离策略蒸馏和在同策略强化学习。我们发现同策略蒸馏结合了两种方法的优势:在策略训练的可靠性能,以及密集奖励信号的成本效益。

后训练是达到前沿模型能力的关键部分。通过利用学生策略采样和教师密集监督,同策略蒸馏方法以前沿高计算量强化学习运行的一小部分成本达到了这些能力。

我们的实现可以在 Tinker cookbook 中找到。我们的工作探索了同策略蒸馏的简单且直接的实例,以清晰地展示其优势。我们希望继续研究蒸馏的新应用、改进教师监督的新方法以及提高数据效率和持续学习的方法。

在 Thinking Machines,我们的使命是赋予人们结合前沿性能、适应性和个性化的 AI 模型。同策略蒸馏是实现这一目标的强大工具。

【声明】内容源于网络
0
0
硅基生命AIGC
专注于为企业打造AI数字应用,致力于将前沿AIGC人工智能技术转化为可落地、高价值的商业应用
内容 117
粉丝 0
硅基生命AIGC 专注于为企业打造AI数字应用,致力于将前沿AIGC人工智能技术转化为可落地、高价值的商业应用
总阅读274
粉丝0
内容117