在将预训练模型转化为“有用”的AI助手(Alignment/RLHF)的过程中,算法的选择决定了训练的效率、稳定性与最终效果。我们将这七种核心算法分为经典基石、主流高效、进阶优化与垂直专用四大类进行解读。
第一部分:核心算法画像
1. 经典基石:PPO (Proximal Policy Optimization)
“求稳的安全员”
-
• 核心定位:通用基线,追求极致的训练稳定性。 -
• 工作原理:利用“裁剪(Clip)”机制,强制限制每次更新幅度,像教人骑车一样“小步快跑”,防止因步子太大而导致模型崩盘。 -
• 关键痛点:由于需要同时维护策略网络和价值网络(Critic),在大模型时代面临严重的显存与计算瓶颈。 -
• 最佳归宿:传统机器人控制、多模态具身智能,或算力极其充裕且对稳定性要求苛刻的企业级微调。
2. 主流标配:GRPO (Group Relative Policy Optimization)
“省钱的评卷组”
-
• 核心定位:DeepSeek-R1同款,大模型时代的显存优化专家。 -
• 工作原理:去掉了独立的“评分老师”(Critic网络)。让模型对同一问题生成多组答案,通过组内“互评”排名来确定优劣(Group Relative)。 -
• 核心优势:大幅降低显存占用,不再需要训练不稳定的价值函数。 -
• 最佳归宿:70B+ 超大参数模型训练,以及拥有中等规模集群(8-32卡)并希望复现SOTA效果的团队。
3. 轻量首选:DPO (Direct Preference Optimization)
“直接的刷题党”
-
• 核心定位:中小模型与个人开发者的首选,离线对齐神器。 -
• 工作原理:完全绕过了“训练奖励模型 -> 强化学习”的复杂流程。直接拿好坏对比数据(偏好对)当做监督信号,让模型直接学习“什么是好的”。 -
• 核心优势:实现极其简单,类似SFT(微调),几乎不增加额外显存。 -
• 最佳归宿:资源受限(单卡4090)、个人开发者、快速验证想法或仅有离线数据的场景。
4. 进阶优化:GSPO & DAPO & BAPO
这三者是在基础框架上的针对性改良,解决特定痛点:
-
• GSPO (长文本专家):
-
• 痛点:GRPO只看词准不准,不看文章顺不顺。 -
• 解法:引入序列级(Sequence)评价,关注段落逻辑与连贯性。 -
• 场景:小说创作、长篇报告、MoE模型微调。 -
• DAPO (工业加速器): -
-
• 痛点:简单题无效训练,难题学不会,浪费算力。 -
• 解法:动态采样,自动筛选“跳一跳够得着”的样本,拒绝无效计算。 -
• 场景:算力有限但需冲击榜单、企业级大规模流水线。 -
• BAPO (历史挖掘机): -
-
• 痛点:完全依赖历史数据(含失败案例)容易让模型变得保守、平庸。 -
• 解法:自适应平衡机制,从失败中吸取教训的同时保护创造力。 -
• 场景:客服日志挖掘、游戏AI训练(利用大量失败演示)。
5. 垂直专用:ARPO (Agentic Reinforced Policy Optimization)
“智能体的决策大脑”
-
• 核心定位:专为会使用工具、会规划的Agent设计。 -
• 工作原理:不优化“怎么说话”,只优化关键决策点(如:该不该用计算器?)。在任务的“瓶颈”处集中火力探索。 -
• 最佳归宿:自动化编程助手、科研Agent、复杂多轮谈判机器人。
第二部分:七大算法横向对比表
|
|
|
|
|
|
|
|---|---|---|---|---|---|
| PPO |
|
|
|
|
|
| GRPO |
|
|
|
|
70B+大模型
|
| DPO |
|
|
|
|
个人/单卡
|
| GSPO |
|
|
|
|
|
| DAPO |
|
|
|
|
|
| BAPO |
|
|
|
|
|
| ARPO |
|
|
|
|
Tool Use
|
第三部分:场景化选型决策树
Q1:你的硬件资源极其有限(如单卡4090)?
-
• YES -> DPO (别犹豫,这是最经济的路线)
Q2:你要训练的模型参数量巨大(>70B),且有多卡集群?
-
• YES -> GRPO (行业标准,省显存且效果好)
Q3:你的任务主要是写长篇小说或复杂的逻辑推理文章?
-
• YES -> GSPO (关注整体连贯性)
Q4:你在做能调用工具(搜索、代码解释器)的AI Agent?
-
• YES -> ARPO (专门优化决策节点)
Q5:你需要利用大量历史存量数据(如旧客服记录),且不想重新采样?
-
• YES -> BAPO (安全地利用旧数据)
Q6:你是土豪,或者做机器人控制,不仅要效果更要过程绝对可控?
-
• YES -> PPO (经典永不过时)
Q7:你在搭建企业级训练平台,追求单位算力的产出效率?
-
• YES -> DAPO (动态采样,拒绝算力浪费)
一区Top期刊 Information Sciences 惨遭除名,2025中科院最新分区揭晓!
视觉Transformer(Vision Transformer, ViT) :全面超越CNN,看懂这篇文章就没什么能难倒你了!
无论你是研究哪个方向的,都可以找到志同道合的伙伴
添加好友后将拉你进相应微信群。
📌 添加方式:
扫描下方二维码,或搜索微信号:aiqysd
📩 添加好友时请务必备注信息,格式如下:
研究方向 + 学校/公司 + 学历 + 姓名
❗非常重要:
发送好友验证时,必须填写备注信息,示例如下:
👉 目标检测 + 中科大 + 研一 + 陈奕迅
凡格式不对者,一律不予理睬
我们期待你的加入,一起交流、学习、进步!
部分资料展示👇
确保文章为个人原创,未在任何公开渠道发布。若文章已在其他平台发表或即将发表,请明确说明。
建议使用Markdown格式撰写稿件,并以附件形式发送清晰、无版权争议的配图。
【AI前沿速递】尊重作者的署名权,并为每篇被采纳的原创首发稿件提供具有市场竞争力的稿酬。稿酬将根据文章的阅读量和质量进行阶梯式结算。
您可以通过添加我们的小助理微信(aiqysd)进行快速投稿。请在添加时备注“投稿-姓名-学校-研究方向”
长按添加AI前沿速递小助理

