
-
低楼层(1-6层):接待处,广泛收集信息
-
中间楼层(7-26层):分析部门,整合处理信息
-
高楼层(27-36层):决策层,做出最终判断
-
自注意力模块:像会议讨论,整合上下文信息
-
前馈网络(FFN):像档案室,存储和提取知识
-
早期层保持高熵值 ,像头脑风暴阶段,广泛探索各种可能性:“这个问题可以用哪些方法解决?”
-
高层逐渐收敛到接近零的熵值 ,像决策拍板阶段:“基于以上分析,最终答案应该是X。”
-
Llama模型 :像 快速决断的创业公司
-
在最后三层突然收敛
-
中间层较少整合信息
-
推理过程较为“跳跃”
-
Qwen系列(特别是Qwen3) :像 稳健决策的成熟企业
-
展现渐进式推理,更接近人类思考
-
FFN模块呈现清晰的“探索-整合-收敛”三阶段
-
传统方法 :直接优化最终输出策略
-
相当于只培训CEO,期望改进整个公司
-
难以针对性地加强基础能力
-
BuPO方法 :先优化底层策略,再优化整体策略
-
先培训基层员工,打好基础
-
再培训中层管理者,最后优化高层决策
-
实现分层渐进式的精准优化
# 选择特定层l进行内部策略优化
internal_policy = softmax(layer_hidden_states * unembedding_matrix)
# 只更新该层及以下层的参数
-
阶段1:内部策略优化(前sᵢₙₜₑᵣ步)
-
阶段2:整体策略优化
-
Qwen3-4B模型 :
-
AIME24:36.88分 → 比GRPO提升4.69分
-
AIME25:31.15分 → 提升2.30分
-
整体平均性能显著提升
-
Qwen3-8B模型 :
-
AIME24:54.06分 → 提升4.58分
-
在所有测试集上一致优于基线方法
-
Llama-OctoThinker-8B-Base :
-
MATH500:62.05分 → 提升5.16分
-
AIME25:6.77分 → 提升4.58分
-
sᵢₙₜₑᵣ=30步:性能最佳
-
sᵢₙₜₑᵣ=70步:性能崩溃
-
从“黑箱优化”到“透明优化”
-
传统方法:整体优化,效果难以解释
-
BuPO方法:分层优化,过程可解释、可控制
-
从“结果导向”到“过程导向”
-
不仅关注最终答案是否正确
-
更重视推理过程的合理性和稳定性
-
Qwen3的渐进式推理可能代表更优的架构选择
-
FFN模块的三阶段工作模式值得在架构设计中保留和强化
-
数学推理:已验证有效
-
科学推理:物理、化学问题求解
-
逻辑推理:法律、哲学论证
-
编程代码:复杂算法生成
-
标题:Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies
-
链接:https://github.com/TraelounG/BuPO
-
机构:中国科学院自动化研究所、腾讯AI Lab等联合研究
PART 11 推荐阅读
MoE 凭什么成 LLM 未来?混合专家模型颠覆大模型规则
训练 LLM 的 3 大强化学习技术:PPO、DPO、GRPO 核心解析,一文理清区别与实战价值
给AI模型做饭的「自动炒菜机」来了!北大团队开源DataFlow,数据清洗效率提升10倍
人大高瓴孙浩团队,Nature子刊+1

