机器之心

2024-08-05

导读：为了对齐 LLM，各路研究者妙招连连。

Salesforce发布37页大模型对齐综述：系统梳理RLHF、DPO等关键技术

涵盖奖励模型、反馈机制、强化学习与优化策略四大方向，全面总结LLM对齐人类偏好的研究进展

大语言模型（LLM）虽已具备强大能力，但仍可能生成错误、无用或有害内容，如被诱导提供偷盗指导。为此，模型对齐（Alignment）技术至关重要，其核心目标是使LLM输出符合人类价值观[k]。

当前主流对齐方法如基于人类反馈的强化学习（RLHF）已推动GPT-4、Claude、Gemini等模型发展。然而，此前尚无系统性综述全面归纳LLM对齐技术。Salesforce近期发布一份37页的综述报告《A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More》，填补了这一空白[k]。

该报告将现有研究划分为四大主题：奖励模型、反馈、强化学习（RL）和优化，每个主题下设多个子类，并对相关论文进行了详尽分析[k]。

在奖励模型方面，分类包括显式与隐式奖励模型、逐点与偏好模型、响应层面与token层面奖励，以及负偏好优化[k]。

反馈类型涵盖偏好反馈与二元反馈、成对反馈与列表反馈、人类反馈与AI反馈[k]。

强化学习部分讨论基于参考与无参考的RL、长度控制式RL、不同RL分支，以及在线与离线策略RL[k]。

优化方向则包括在线/迭代式与离线/非迭代式偏好优化、SFT与对齐的分离与合并策略[k]。

报告还列出所有分析论文在13项评估指标上的分布情况，为研究者提供清晰的技术地图[k]。

图示：ChatGPT在“无道德约束”提示下生成商店偷盗指南（右），凸显对齐必要性[k]

报告重点回顾了InstructGPT与Anthropic的RLHF研究。InstructGPT通过人类反馈微调，在参数量远小于GPT-3的情况下更受用户偏好，验证了对齐有效性[k]。

Anthropic发现，小模型存在“对齐税”，即对齐可能降低性能；但参数量超过13B后，对齐反而提升整体表现，且PPO策略本身即可带来下游任务增益[k]。

为应对分布外数据挑战，研究者提出在线/迭代式RLHF，通过持续收集反馈实现模型动态优化[k]。

由于人类反馈成本高，基于AI反馈的RLAIF成为新方向。Anthropic提出宪法AI（Constitutional AI），利用AI自身批评与修订能力进行对齐[k]。

谷歌进一步探索AI反馈机制，设计结构化prompt生成偏好概率，并提出“蒸馏RLAIF”与“直接RLAIF”两种策略，减少对人类标注的依赖[k]。

为简化对齐流程，降低计算开销，一系列直接偏好优化方法被提出，包括DPO、IPO、GPO、sDPO等，跳过奖励建模环节，直接利用偏好数据优化策略[k]。

其中，token级DPO（如TDPO）实现细粒度信用分配；迭代式DPO（如CRINGE）支持持续学习；二元反馈方法（如KTO、DRO）降低数据收集难度[k]。

针对传统SFT与对齐分步执行导致的效率低下与遗忘问题，ORPO实现单步统一优化，PAFT则采用并行微调策略[k]。

此外，R-DPO与SimPO致力于解决生成文本过长问题，SimPO和RLOO则实现无需参考模型的对齐，提升训练效率与稳定性[k]。

该综述为LLM对齐领域提供了系统性框架与研究路线图，涵盖从基础方法到前沿改进的完整谱系，具有重要参考价值[k]。

大语言模型对齐技术前沿进展与未来方向

从逐列表偏好到纳什学习，系统梳理LLM对齐方法演进与挑战

近年来，大语言模型（LLM）对齐技术快速发展，涌现出多种基于人类反馈的优化方法。除传统的成对偏好优化外，研究者开始探索更高效的数据利用方式与建模机制。[k]

逐列表的偏好优化

为提升数据收集效率，研究转向逐列表偏好优化，直接利用排序数据进行训练。代表性方法包括：LiPO（Listwise Preference Optimization），基于学习排序框架实现对齐[k]；RRHF（Rank Responses to Align HF），通过响应排序建模人类反馈[k]；以及PRO（Preference Ranking Optimization），专门优化偏好顺序以增强模型对齐效果[k]。

负偏好优化

随着LLM在多项任务上超越人类表现，研究提出负偏好优化（NPO）——不再依赖人类标注的“理想输出”，而是利用不期望的响应进行反向对齐。典型方法有：NN（Negating Negatives），通过分布性反偏好优化实现无需正样本的对齐[k]；NPO（Negative Preference Optimization），用于防止模型性能崩溃并实现有效“去学习”[k]；CPO（Contrastive Preference Optimization），在机器翻译等任务中提升模型表现边界[k]。

纳什学习

针对传统BT模型在处理偏好不一致方面的局限，纳什学习方法被提出以更稳健地建模成对偏好。相关研究包括：Nash Learning from Human Feedback，将博弈论引入对齐过程[k]；SPPO（Self-Play Preference Optimization），采用极小极大框架进行强化学习[k]；DNO（Direct Nash Optimization），使模型能基于通用偏好实现自我改进[k]。

主流对齐方法对比分析

多篇研究系统比较了DPO及其变体。论文《Insights into alignment: Evaluating DPO and its variants across multiple tasks》在推理、数学、可信度、问答等任务上评估DPO、KTO、IPO和CPO，发现KTO整体表现更优。对齐显著提升数学解题能力，但对推理与问答影响有限。此外，数据量较小时对齐效果更佳。值得注意的是，KTO和CPO可跳过监督微调（SFT）阶段直接对齐而不损性能，而DPO和IPO在此情况下则出现明显下降[k]。

另一项研究《Is DPO superior to PPO for LLM alignment? A comprehensive study》指出，DPO存在潜在偏差，易产生分布外响应。迭代式/在线DPO通过持续更新参考模型可缓解该问题，但性能仍不及采用优势归一化与指数移动平均的PPO。研究结论显示：PPO > 迭代式DPO > 标准DPO[k]。

未来研究方向

构建统一的对齐评估体系：当前评估任务如GSM8K偏重推理能力，不适合衡量对齐质量。应优先采用TruthfulQA或毒性检测任务，并整合为统一排行榜以标准化评估流程[k]。

扩展至更大规模模型：目前隐式奖励模型（如KTO、DPO）最大仅应用于70B级模型。将其扩展至GPT-4、Claude-3级别，有助于全面评估其相对于RLHF/PPO的效能[k]。同时，大规模应用逐列表偏好与纳什学习方法仍需解决工程与理论挑战[k]。

探索二元反馈机制：KTO与DRO使用的“点赞/点踩”二元反馈更易收集，适合构建大规模数据集。但其噪声水平高于成对偏好，亟需研究噪声过滤机制以提升数据质量[k]。

发展AI自生成有用反馈：当前AI反馈多限于无害性判断，有用性反馈仍依赖人工。未来可探索由LLM自主生成高质量反馈信号，实现真正的自我进化[k]。

加速纳什学习过程：纳什学习虽能有效处理标注不一致，但收敛速度慢，训练耗时长。提升其训练效率是推动实用化的关键[k]。

优化迭代学习终止机制：迭代式训练存在性能下降风险，可能源于过拟合。如何确定最优终止轮次（epoch）仍是未解难题[k]。

简化SFT与对齐流程：当前SFT+对齐的串行流程易导致灾难性遗忘。PAFT通过分离微调后融合缓解该问题但增加复杂性，ORPO虽集成两者却牺牲性能。如何高效整合SFT与对齐仍需突破[k]。

【声明】内容源于网络

机器之心

专业的人工智能媒体和产业服务平台

内容 0

粉丝 0

机器之心专业的人工智能媒体和产业服务平台

总阅读0

粉丝0

内容0

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……