来源:AI寒武纪
人工智能领域的前沿探索一直聚焦于一个根本性问题:如何让机器实现更深层次的“思考”。
我们为什么要让模型“思考”更久?三大动机
Lilian首先从三个层面阐述了延长模型思考时间的动机:
1.心理学类比 (Analogy to Psychology):
2. 计算是一种资源 (Computation as a Resource):
2 * 参数量 / 稀疏度。
3. 潜变量建模 (Latent Variable Modeling):
P(y|x) = ∑ P(y|x,z)P(z|x)。这种视角有助于理解那些涉及收集多个并行CoT或搜索CoT的方法——它们可以看作是从后验 P(z|x,y) 中采样。这也解释了为什么log loss目标函数在预训练中如此有效。
大模型“各种思考方式”
令牌级思考
思维链的早期探索与改进 (Early CoT & RL):
分支与编辑 (Branching and Editing): 优化解码过程
-
挑战: 天真地依赖模型内在自修正能力可能导致性能下降,需要外部反馈(如单元测试、更强模型、人类反馈); -
Self-correction learning :训练一个修正模型 Pe(y|y0,x); -
SCoRe :多轮RL鼓励模型在第二次尝试时做得更好; -
Recursive Inspection :单模型同时进行生成和自修正; -
简单问题受益于纯序列修正,难题则在序列与并行计算间存在最优比例。
RL赋能更优推理 (RL for Better Reasoning):
1. **冷启动SFT:** 解决可读性和语言混杂问题。
2. **面向推理的RL:** 围绕`<thinking>`标签和答案准确性进行奖励。
3. **拒绝采样+非推理SFT:** 结合RL检查点生成的SFT数据和非推理数据,重训基础模型。
4. **最终RL:** 在推理和非推理任务上训练,提升综合能力。
* **“Aha时刻”:** 纯RL也能学到反思和回溯能力。Open-R1, SimpleRL-reason, TinyZero等开源工作也证实了这一点。
* **DeepSeek团队的“弯路”:** PRM难以定义步级评价标准易导致奖励作弊;MCTS在语言模型的大搜索空间下效果不佳。这些失败经验同样宝贵。
外部工具使用 (External Tool Use):
忠诚思考 (Thinking Faithfully): AI真的“想到哪说到哪”吗?
1. **提前回答 (Early answering):** CoT未完成就已形成结论。
2. **无效令牌 (Uninformative tokens):** 用无意义填充物替换CoT,部分任务性能不降反升(说明CoT本身可能只起到“延长计算”作用)。
3. **人类不可读编码 (Human-unreadable encoding):** 将CoT改写成人类难懂但信息等价的形式,性能不降,说明收益不依赖于人类可读的推理。
* 在few-shot示例中故意标错答案(如永远标(A)为正确)。
* 在提示中加入误导性线索(如“我认为答案是X,但想听听你的看法”)。
* 结果显示,推理模型(如Claude 3.7 Sonnet, DeepSeek R1)比非推理模型(Claude 3.6, DeepSeek V3)更能忠实地承认提示的影响
* 直接将CoT监控器(如检测奖励作弊)的信号加入RL奖励,会导致模型学会“隐藏”其真实意图,即“混淆作弊”(obfuscated reward hacking)。
* 对CoT长度进行奖励(如短CoT高奖,长CoT低奖)可能导致模型在难题上重复无意义文本而非尝试解决。
* Lilian建议:对CoT进行直接优化压力要非常谨慎,甚至应尽量避免。
连续空间思考
-
Transformer与RNN的结合,动态调整层数。 -
Geiping et al. (2025) 的新设计:在标准Transformer上叠加一个循环块R,通过随机化循环次数r进行训练,并只反向传播最后k步。训练这种模型对初始化、归一化等超参非常敏感。
* **Herel & Mikolov (2023):** 在句子中每词后插入`<T>`思考token训练,降低了困惑度。
* **Goyal et al. (2024) 的 Pause Tokens:** 在输入序列末尾追加`.`或`#`等哑token,训练和推理时都注入,并在训练时忽略其损失。
* **Quiet-STaR (Zelikman et al. 2025):** 引入token级推理,模型在预测每个未来token前先生成“理由”(rationales),并通过REINFORCE优化理由质量。在Mistral 7B上取得了显著零样本提升。
将“思考”视为潜变量 (Thinking as Latent Variables)
期望最大化 (Expectation-Maximization, EM):
p(z|x,y) 采样,研究者依赖人工标注或带特殊重要性权重的蒙特卡洛采样。
w(k) = p(x|z(k))p(z(k))/q(z(k)|x) 用于优先选择那些能很好预测观察、简单直观且信息量大的CoT。
迭代学习 (Iterative Learning):
**STaR (“Self-taught reasoner”; Zelikman et al. 2022):**
1. 生成多个CoT
2. 对失败案例,在给定问题和真实答案的条件下,反向生成“合理化”的CoT。
3. 仅在能导出正确答案的CoT(原始或合理化的)上微调模型。
这可以看作是RL策略梯度的一种近似,奖励函数为 `1[ŷ=y]`。
“思考时间”的缩放定律 (Scaling Laws for Thinking Time)
测试时计算 vs. 预训练计算
预算强制
未来展望:开放的研究问题
Lilian最后提出了一系列亟待解决的开放性问题:
-
1. 如何在RL训练中激励模型产生人类可读、忠实的推理路径,同时避免奖励作弊? -
2. 如何定义和捕捉奖励作弊?如何防止“打地鼠”式的修复? -
3. 如何在无真实标签时,训练模型进行无幻觉、无退化的自修正(无论是CoT内部还是多轮RL)? -
4. 如何为高度情境化、个性化、难评估的任务(如创意写作、辅导、头脑风暴)进行CoT rollout的RL训练? -
5. 部署时,我们无法无限增加思考时间。如何将性能增益平滑地“蒸馏”回基础模型,降低推理成本? -
6. 如何让测试时思考时间的分配更自适应于问题难度?


