大数跨境
0
0

回头看Qwen3废弃的混合推理模式

回头看Qwen3废弃的混合推理模式 极市平台
2025-07-30
0
↑ 点击蓝字 关注极市平台
作者丨灰瞳六分仪
来源丨https://zhuanlan.zhihu.com/p/1931351970007975916
编辑丨极市平台
本文仅做分享,如有侵权请联系删文处理。

极市导读

 

本文复盘了 Qwen3 最终放弃的“可开可关”混合推理方案,系统梳理了从无路由到 RL 的四类实现路径,并揭示其背后训练、数据与奖励设计的核心权衡。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

Claude 3.7 Sonnet 开启了一种同一个模型同时肩负不思考和长思考(Long Reasoning)能力的新范式。这条路的目标是把类似 GPT-4o 的聊天模型和类似 GPT-o1/3/4 系列的推理模型合并为一个模型。本文对我看过的目前已有的工作做一个小小的汇总(可能有疏漏)。这里不会包含单纯缩短 CoT 长度的工作。

AdaptThink 的图很直观地说明了这个setting的特殊之处:对于简单问题,不是短 CoT,而是应该直接无 CoT。

Training-Free

大部分 Training-Free 方法都是着眼于训一个 Router。我找到两个相关的工作:Self-Route[1] 和 ThinkSwitcher[2],但我猜我没找全。因为和之前的 long2short 的 training-free 工作没有特别大的差别,精力所限,这里不多介绍了。

Finetuning-based

这里只介绍 Qwen3、Llama-Nemotron 和 KAT-V1 三个模型的相关训练方法。其它纯 SFT 方法(例如 AutoL2S[3]、Self-Braking Tuning[4]、TLDR[5])都只能缩短 CoT 长度,不能做到让 reasoning model 具备选择完全不思考的能力。既使用 SFT 又使用 RL 的方法都放在 RL 部分介绍。

Qwen3

Qwen3 在 Stage 1 和 2 中让模型具备 LongCoT 能力之后,主要是在 Stage 3 中使用 SFT 实现的初步 Adaptive Reasoning 能力。

具体技术细节我直接翻译了,感觉信息密度挺大:SFT 数据集包含了 thinking 和 non-thinking 数据。为了确保 Stage 2 得到的模型在加入 SFT 数据后性能不受影响,Qwen 团队使用 Stage 2 模型自身对 Stage 1 的 query 进行 rejection sampling,生成 thinking 数据。而 non-thinking 数据则经过精心筛选,涵盖了多种任务类型,包括编程、数学、指令跟随、多语言任务、创意写作、问答和角色扮演等。

此外,Qwen 团队还使用自动生成的检查 checklist 来评估 non-thinking 数据的回复质量。为了提升低资源语言任务的表现,Qwen 团队特别提高了翻译任务在数据中的占比。具体的 thinking 和 non-thinking 模板如下:

Llama-Nemotron[7]

NVIDIA 的 Nemotron 也是差不多时间放出来的。他们并不掩饰他们借用了别的模型来提升性能,所以没有先训出模型 LongCoT 能力这一步,而是直接在 SFT 里面掺了 DeepSeek-R1 的 reasoning 输出。具体掺杂比例如下:

然后后续因为只使用蒸馏的话 reasoning 能力还是不够,才继续加了 RL。

KAT-V1[8]

快手的模型在数据上也是用了 DeepSeek-R1。针对每个 query,生成 think-on 和 think-off 模式的一些回答,然后做 majority vote 选择到底用哪个模式。think-on 用的是 DeepSeek-R1,think-off 用的是 DeepSeek-V3。然后还用 DeepSeek-V3 生成了一些选择这个投票出来的模式的理由,让模型去学习。总共的 think-on 和 think-off 比例大致是 2:1。之后还有 AutoThink RL 部分,但快手在文中没写,说是会后续单独写一篇……文中贴了个训练过程的图,可以看一看:

RL-based

AutoThink[9]

本文先是发现了一种很有趣的现象:在 thinking 内容的开始加上一个省略号,能让模型出现不稳定的现象。模型既可能输出 LongCoT 也可能直接不思考。这说明即使是 Long Reasoning Model,在这种 OOD prompt 的情况下,仍然有不思考的能力。

于是本文引入了一种三阶段的 RL 来强化这一能力:

  • 通过对做对的 non-thinking output 施加更大的奖励的方式,强化和稳定模型的双模式输出能力。
  • 使用正常的奖励,来增强模型的性能。因为一阶段训练的很不错,所以即使没加别的 trick,模型依然没有坍缩到只会思考或者只会不思考。
  • 二阶段的训练仍然会带来过长的输出,所以三阶段对过长的输出做出了惩罚。

AdaCoT[10]

本文没有发现 AutoThink 提到的现象,所以像 Qwen3 和 Nemotron 一样,先收集了数据做了 SFT,使得模型先具备了基本的 non-thinking 能力,然后再进行 RL 训练。这里并没有把两部分数据分开收集,而是直接用一个 15B 的模型标记 query 是否简单到能不思考直接作答。

RL 阶段的 loss 很直接:

这里,  是基础 reward,  是关于是否需要省略推理的惩罚项, 是关于推理是否过长的惩罚项,  是关于格式化输出的惩罚项。这里把 AutoThink 的三步合成到一步做掉了。

另外一个技术挺巧妙,叫 Selective Loss Masking。因为担心模型一味不推理,或者全都推理,作者把 之后的第一个 token 选择性地不算 loss。这非常的妙。这让模型无法在这一阶段继续学是否思考,把 SFT 学好的东西继续学下去、学偏掉。这也是解决了 AutoThink Stage 2 担心却没有发生的问题。

AdaptThink[11]

本文几个讲动机的图都很不错,本文开头用的也是他们的 teaser image。从下图左图可知,No Thinking 不仅仅是 efficiency 的问题,甚至最简单的问题上正确率也更高。

本文的思路非常凶悍:反正 no-thinking 只是 之后直接跟 ,那也不需要 SFT 赋予能力了,直接优化下面这个式子即可:

经过拉格朗日乘子和别的一些转化之后,变成优化下面这个式子:

又因为  和  都不可导,于是把这个表达式期望内部分当作 advantage function 用 PPO 优化。

重要性采样的时候,因为原始模型没经过 SFT,没有 no-thinking 能力,所以作者设置以一半的概率强制出 ,另一半概率正常出 LongCoT。

从 loss 上理解,只有在以下情况下,PPO 才会让模型更倾向于不思考。  越大,越鼓励模型不思考。

HGPO[12]

本文也是先收集了数据做了 SFT,使得模型先具备了基本的 non-thinking 能力,然后再进行 RL 训练,也就是章节标题所说的 HGPO。

HGPO 流程如下:

  • 每个 query 在思考模式(⊢)和无思考模式(⊬)下分别采样 N/2 个候选回答,也就是说每个 query 会得到 N 个回答。
  • 给原始奖励分数。有确定答案的用 rule-based,没有的用 reward model Llama-3.1Tulu-3-8B-RM。
  • Reward Assignment。这里分别算组间奖励(inter-group rewards)和组内奖励(intra-group rewards)。组间奖励给的是同一个 query 在思考模式和无思考模式下原始奖励分数大的一个,组内奖励给的是同一思考模式下原始奖励分数大的一个 query。
  • Advantage Estimation。用的是 GRPO,结合了上面两个reward。这里比较有趣的是组间奖励(inter-group rewards),因为组间奖励只给到了回答里面决定是思考模式的词,也就是  think,  no_think   。

完整的流程图如下:

作者还提出了一个指标来评估这种自适应思考能力,叫做混合准确率(Hybrid Accuracy, HAcc)。具体做法是让模型对每个 query 分别在思考模式和无思考模式下各采样 N 个,然后用 reward model 打分,分高的就当作首选推理模式。然后看模型自己选的和这个算出来的首选推理模式的吻合比例。

引用链接

[1] Self-Route:http://arxiv.org/abs/2505.20664
[2]ThinkSwitcher:http://arxiv.org/abs/2505.14183
[3]AutoL2S:http://arxiv.org/abs/2505.22662
[4]Self-Braking Tuning:http://arxiv.org/abs/2505.14604
[5]TLDR:http://arxiv.org/abs/2506.02678
[6]Qwen3:https://arxiv.org/abs/2505.09388
[7]Llama-Nemotron:http://arxiv.org/abs/2505.00949
[8]KAT-V1:http://arxiv.org/abs/2507.08297
[9]AutoThink:ttp://arxiv.org/abs/2505.10832
[10]AdaCoT:http://arxiv.org/abs/2505.11896
[11]AdaptThink:http://arxiv.org/abs/2505.13417
[12]HGPO:http://arxiv.org/abs/2505.14631


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k