Salesforce发布37页大模型对齐综述:系统梳理RLHF、DPO等关键技术
涵盖奖励模型、反馈机制、强化学习与优化策略四大方向,全面总结LLM对齐人类偏好的研究进展
大语言模型(LLM)虽已具备强大能力,但仍可能生成错误、无用或有害内容,如被诱导提供偷盗指导。为此,模型对齐(Alignment)技术至关重要,其核心目标是使LLM输出符合人类价值观[k]。
当前主流对齐方法如基于人类反馈的强化学习(RLHF)已推动GPT-4、Claude、Gemini等模型发展。然而,此前尚无系统性综述全面归纳LLM对齐技术。Salesforce近期发布一份37页的综述报告《A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More》,填补了这一空白[k]。
该报告将现有研究划分为四大主题:奖励模型、反馈、强化学习(RL)和优化,每个主题下设多个子类,并对相关论文进行了详尽分析[k]。
在奖励模型方面,分类包括显式与隐式奖励模型、逐点与偏好模型、响应层面与token层面奖励,以及负偏好优化[k]。
反馈类型涵盖偏好反馈与二元反馈、成对反馈与列表反馈、人类反馈与AI反馈[k]。
强化学习部分讨论基于参考与无参考的RL、长度控制式RL、不同RL分支,以及在线与离线策略RL[k]。
优化方向则包括在线/迭代式与离线/非迭代式偏好优化、SFT与对齐的分离与合并策略[k]。
报告还列出所有分析论文在13项评估指标上的分布情况,为研究者提供清晰的技术地图[k]。

图示:ChatGPT在“无道德约束”提示下生成商店偷盗指南(右),凸显对齐必要性[k]






报告重点回顾了InstructGPT与Anthropic的RLHF研究。InstructGPT通过人类反馈微调,在参数量远小于GPT-3的情况下更受用户偏好,验证了对齐有效性[k]。
Anthropic发现,小模型存在“对齐税”,即对齐可能降低性能;但参数量超过13B后,对齐反而提升整体表现,且PPO策略本身即可带来下游任务增益[k]。
为应对分布外数据挑战,研究者提出在线/迭代式RLHF,通过持续收集反馈实现模型动态优化[k]。
由于人类反馈成本高,基于AI反馈的RLAIF成为新方向。Anthropic提出宪法AI(Constitutional AI),利用AI自身批评与修订能力进行对齐[k]。
谷歌进一步探索AI反馈机制,设计结构化prompt生成偏好概率,并提出“蒸馏RLAIF”与“直接RLAIF”两种策略,减少对人类标注的依赖[k]。
为简化对齐流程,降低计算开销,一系列直接偏好优化方法被提出,包括DPO、IPO、GPO、sDPO等,跳过奖励建模环节,直接利用偏好数据优化策略[k]。
其中,token级DPO(如TDPO)实现细粒度信用分配;迭代式DPO(如CRINGE)支持持续学习;二元反馈方法(如KTO、DRO)降低数据收集难度[k]。
针对传统SFT与对齐分步执行导致的效率低下与遗忘问题,ORPO实现单步统一优化,PAFT则采用并行微调策略[k]。
此外,R-DPO与SimPO致力于解决生成文本过长问题,SimPO和RLOO则实现无需参考模型的对齐,提升训练效率与稳定性[k]。
该综述为LLM对齐领域提供了系统性框架与研究路线图,涵盖从基础方法到前沿改进的完整谱系,具有重要参考价值[k]。
大语言模型对齐技术前沿进展与未来方向
从逐列表偏好到纳什学习,系统梳理LLM对齐方法演进与挑战
近年来,大语言模型(LLM)对齐技术快速发展,涌现出多种基于人类反馈的优化方法。除传统的成对偏好优化外,研究者开始探索更高效的数据利用方式与建模机制。[k]
逐列表的偏好优化
为提升数据收集效率,研究转向逐列表偏好优化,直接利用排序数据进行训练。代表性方法包括:LiPO(Listwise Preference Optimization),基于学习排序框架实现对齐[k];RRHF(Rank Responses to Align HF),通过响应排序建模人类反馈[k];以及PRO(Preference Ranking Optimization),专门优化偏好顺序以增强模型对齐效果[k]。
负偏好优化
随着LLM在多项任务上超越人类表现,研究提出负偏好优化(NPO)——不再依赖人类标注的“理想输出”,而是利用不期望的响应进行反向对齐。典型方法有:NN(Negating Negatives),通过分布性反偏好优化实现无需正样本的对齐[k];NPO(Negative Preference Optimization),用于防止模型性能崩溃并实现有效“去学习”[k];CPO(Contrastive Preference Optimization),在机器翻译等任务中提升模型表现边界[k]。
纳什学习
针对传统BT模型在处理偏好不一致方面的局限,纳什学习方法被提出以更稳健地建模成对偏好。相关研究包括:Nash Learning from Human Feedback,将博弈论引入对齐过程[k];SPPO(Self-Play Preference Optimization),采用极小极大框架进行强化学习[k];DNO(Direct Nash Optimization),使模型能基于通用偏好实现自我改进[k]。
主流对齐方法对比分析
多篇研究系统比较了DPO及其变体。论文《Insights into alignment: Evaluating DPO and its variants across multiple tasks》在推理、数学、可信度、问答等任务上评估DPO、KTO、IPO和CPO,发现KTO整体表现更优。对齐显著提升数学解题能力,但对推理与问答影响有限。此外,数据量较小时对齐效果更佳。值得注意的是,KTO和CPO可跳过监督微调(SFT)阶段直接对齐而不损性能,而DPO和IPO在此情况下则出现明显下降[k]。
另一项研究《Is DPO superior to PPO for LLM alignment? A comprehensive study》指出,DPO存在潜在偏差,易产生分布外响应。迭代式/在线DPO通过持续更新参考模型可缓解该问题,但性能仍不及采用优势归一化与指数移动平均的PPO。研究结论显示:PPO > 迭代式DPO > 标准DPO[k]。
未来研究方向
构建统一的对齐评估体系:当前评估任务如GSM8K偏重推理能力,不适合衡量对齐质量。应优先采用TruthfulQA或毒性检测任务,并整合为统一排行榜以标准化评估流程[k]。
扩展至更大规模模型:目前隐式奖励模型(如KTO、DPO)最大仅应用于70B级模型。将其扩展至GPT-4、Claude-3级别,有助于全面评估其相对于RLHF/PPO的效能[k]。同时,大规模应用逐列表偏好与纳什学习方法仍需解决工程与理论挑战[k]。
探索二元反馈机制:KTO与DRO使用的“点赞/点踩”二元反馈更易收集,适合构建大规模数据集。但其噪声水平高于成对偏好,亟需研究噪声过滤机制以提升数据质量[k]。
发展AI自生成有用反馈:当前AI反馈多限于无害性判断,有用性反馈仍依赖人工。未来可探索由LLM自主生成高质量反馈信号,实现真正的自我进化[k]。
加速纳什学习过程:纳什学习虽能有效处理标注不一致,但收敛速度慢,训练耗时长。提升其训练效率是推动实用化的关键[k]。
优化迭代学习终止机制:迭代式训练存在性能下降风险,可能源于过拟合。如何确定最优终止轮次(epoch)仍是未解难题[k]。
简化SFT与对齐流程:当前SFT+对齐的串行流程易导致灾难性遗忘。PAFT通过分离微调后融合缓解该问题但增加复杂性,ORPO虽集成两者却牺牲性能。如何高效整合SFT与对齐仍需突破[k]。

