学术分享丨院士领衔万字长文，全面系统梳理多模态LLM对齐算法- 大数跨境

中国人工智能学会

2025-04-14

240

多模态大语言模型对齐算法系统性综述

多模态大语言模型（MLLMs）在处理图像、视频、音频与文本融合任务中展现出巨大潜力，但其在真实性、安全性、推理能力及与人类偏好对齐方面仍面临挑战[k]。为此，来自中国科学院自动化研究所、南京大学、清华大学深圳国际研究生院、腾讯优图实验室等机构的研究团队，系统回顾了MLLM对齐算法的关键进展，涵盖应用场景、数据集构建、评估方法与未来方向[k]。

应用场景与代表性方法

MLLM对齐算法主要应用于三大层次：通用图像理解、多图像/视频/音频处理、以及医学、数学、安全等扩展领域[k]。

通用图像理解

对齐算法最初聚焦于减少幻觉（即生成不实信息），并逐步拓展至提升模型安全性、对话与推理能力[k]。典型方法包括：

Fact-RLHF：首个多模态RLHF算法，引入KL惩罚与事实校准机制[k]；
HA-DPO：结合GPT-4验证图像描述，通过重写正负样本减少幻觉[k]；
mDPO：引入视觉损失函数，缓解视觉信息忽视问题[k]；
Silkie与CLIP-DPO：分别通过GPT-4V评估与CLIP分数标注，提升综合能力[k]。

此外，受DeepSeek-R1启发，LMM-R1、Open-R1-Video和VLM-R1等方法将“推理优化”策略迁移至多模态场景，在数学与视频理解任务中取得进展[k]。

多图像、视频与音频任务

多图像：MIA-DPO构建多图像偏好数据，提升模型理解能力[k]；
视频：LLaVA-NeXT-Interleave结合交错视觉指令与DPO，增强时序理解[k]；
音频：Video-SALMONN 2通过音频-视觉对齐机制，解决“音频盲视”问题[k]。

扩展应用

医学：3D-CT-GPT++优化医学影像分析，达到临床级诊断精度[k]；
数学：MAVIS改进视觉数学问题解决框架，提升推理表现[k]；
安全：AdPO与VLGuard增强模型对抗攻击的鲁棒性[k]；
智能代理：INTERACTIVECOT与EMMOE通过动态推理优化，提升复杂决策能力[k]。

下表总结了当前主流对齐策略的损失函数形式：

对齐数据集构建方法与分类

对齐数据集构建涉及数据源、模型响应生成与偏好注释三大核心要素[k]。研究将现有方法分为两类：

引入外部知识：
- 人工注释：如LLaVA-RLHF（10k样本）、RLHF-V（1.4k样本），质量高但成本昂贵[k]；
- 闭源模型生成：如LRV-Instruction利用GPT-4生成400k指令，实现大规模标注[k]；
- 开源模型辅助：如CLIP-DPO使用CLIP打分，降低依赖但可能影响质量[k]。
自我标注：利用模型自身生成偏好对，涵盖文本、图像及图文混合模态，具备可扩展性[k]。

研究还探讨了数据质量、规模与成本之间的平衡，指出自动化数据增强与自我标注是未来关键方向[k]。

该研究由中国科学院院士谭铁牛、中国计算机学会会士王亮领衔，系统梳理了MLLM对齐技术的发展脉络与未来挑战，为后续研究提供重要参考[k]。

多模态大模型对齐：数据构建、评估与未来挑战

自我标注数据集的构建方法

在多模态大语言模型（MLLM）对齐研究中，自我标注数据集成为关键数据来源。根据模态类型可分为三类方法：

单一文本模态：SQuBa通过微调模型生成负样本，并与正样本进行DPO对比；SymDPO则将视觉问答（VQA）或分类任务转化为上下文学习（ICL）格式，以增强模型的视觉理解能力[k]。
单一图像模态：Image DPO通过对图像施加扰动（如高斯模糊或像素化）而保持文本不变，构建正负偏好对，从而训练模型识别视觉质量差异[k]。
图像-文本混合模态：AdPO通过构建原始图像与对抗性图像及其对应模型响应的偏好对，在优化过程中同时调整图像和文本内容，提升模型对多模态干扰的鲁棒性[k]。

实验发现：数据质量与自动化潜力

研究表明，数据集规模与质量之间存在权衡。引入外部知识可提升数据质量，但构建成本较高；自我标注方法虽能大规模生成数据，受限于当前MLLM性能，其生成数据质量较低且存在分布偏移问题[k]。

随着自动化数据增强技术的发展，未来自我标注方法有望解决质量瓶颈，提升数据多样性与可信度。总体而言，数据构建方式与质量控制是影响MLLM对齐效果的核心因素，未来研究需在保障质量的前提下降低成本并扩大规模[k]。

MLLM对齐评估的六大维度

现有MLLM对齐评估基准主要涵盖六个关键维度：通用知识、幻觉、安全性、对话能力、奖励模型表现及与人类偏好的对齐[k]。

通用知识评估

评估侧重于高质量、人工标注的数据集，适配实际应用场景。代表性基准包括MME-RealWorld（29K问答对）、MMMU（11.5K学术问题）和强调视觉依赖性的MMStar[k]。

创新方法如MMBench的双语评估、CircularEval、MMT-Bench的任务图分析以及BLINK对视觉感知的关注，提升了评估精度并揭示模型局限[k]。

任务设计涵盖高级多模态推理，如MathVista的数学视觉整合、SQA3D的3D情境问答和MMMU对图表地图的理解，推动模型应对跨学科挑战，提升现实问题解决能力[k]。

幻觉检测

基准系统识别对象幻觉（Object HalBench）、内外在幻觉（VideoHallucer）及关联偏差（VALOR-Eval），强调在视觉、文本与序列上下文中的细粒度分析[k]。

评估方法多样化，包括基于投票的查询（POPE）、LLM驱动评分（HaELM、RefoMB）、开放词汇检测（OpenCHAIR）、无注释评估（GAVIE）、无LLM管道（AMBER）和GPT-4辅助分析（Mementos），注重自动化与可扩展性[k]。

数据构建结合细粒度人工标注（M-HalDetect、HallusionBench）与合成生成（VHTest、MHaluBench），平衡现实复杂性（PhD反常识图像、ActivityNet-QA的58K问答对）与受控挑战（R-Bench鲁棒性测试）[k]。

部分基准支持多语言评估（MHumanEval）或处理偏见干扰（Bingo），提升模型在真实场景中的鲁棒性，并通过RLAIF-V等对齐策略与HQH统一框架指导更可靠系统的开发[k]。

安全性评估

研究引入基于扩散的对抗攻击（AdvDiffVLM）、红队框架（RTVLM）和后期微调策略（VLGuard）等技术，模拟现实威胁，增强评估严谨性[k]。

MultiTrust与RTVLM从多个维度统一可信评估（真实性、公平性），其他基准聚焦特定挑战，如超出分布（OOD）泛化（VLLM-safety-bench）或过度敏感性（MOSSBench）[k]。

MM-RLHF-SafetyBench整合现有数据，覆盖对抗攻击、隐私泄露、红队测试与有害内容检测，提供全面的安全能力洞察[k]。

对话能力评估

评估聚焦模型基础视觉技能，包括低级感知（Q-Bench、LLVisionQA）、信息描述能力（LLDescribe）与输出质量[k]。

挑战性场景测试模型泛化能力，如非常规图像（LLaVA Bench-Wilder）、跨领域任务（LiveBench整合数学与新闻）及高难度提示（Vibe-Eval）[k]。

此类基准揭示模型在标准数据集之外的适应能力，推动其在复杂视觉-语言交互中的表现提升[k]。

奖励模型评估

各基准针对特定维度展开：M-RewardBench支持23种语言评估多语言能力；MJ-Bench关注对齐、安全与偏见；MM-RLHF-RewardBench通过人类注释提升可解释性与评分能力；MLLM-as-a-Judge探索模型在跨模态评判中的表现[k]。

高质量数据集采用人机协同（VL-RewardBench）或结构化三元组设计（RewardBench），任务涵盖从偏好排序到复杂推理，推动模型应对幻觉、伦理对齐等深层挑战[k]。

与人类偏好的对齐

Arena-Hard作为多维度基准，专门评估中文LLM对齐能力，其相关性达98.6%的人类偏好排名。AlpacaEval-V2通过回归分析控制自评长度偏差，MM-AlignBench为手工标注基准，专用于评估价值观对齐[k]。

当前MLLM对齐算法主要防止幻觉生成，同时探索提升通用知识与对话能力。部分研究将不安全响应视为对齐失败，应用对齐算法解决安全问题，奖励模型在引导对齐中的有效性仍需深入研究[k]。

整体趋势显示，对齐基准正从LLM领域向MLLM领域延伸，以适应多模态特性[k]。

未来工作与主要挑战

尽管MLLM对齐研究快速发展，仍面临多重挑战。首要问题是高质量、多样化数据集的稀缺。相比LLM，多模态数据获取与标注更为复杂，导致高质量对齐数据有限[k]。

其次，现有方法常忽视视觉信息，过度依赖文本构建正负样本，未能充分利用多模态数据潜力[k]。

此外，评估标准尚不统一，多数方法仅在特定任务（如幻觉或对话）上验证，普适性难以判断[k]。

借鉴LLM后期训练策略与智能体研究进展，有助于揭示当前MLLM对齐方法的局限。突破数据质量与覆盖范围瓶颈，构建超20万样本的全人工标注多模态数据集，是推动对齐技术发展的关键[k]。

利用视觉信息进行对齐

D=(x, I, y, y)，其中x为问题，I为图像，y和y分别表示正确与错误的响应[k]

当前研究主要采用三种方法利用视觉信息提升多模态大模型（MLLM）的对齐性能，但均存在一定局限[k]

使用破损或无关图像作为对齐阶段的负样本[k]
基于破损图像生成新的问题与答案[k]
采用CLIP等模型通过余弦相似度衡量文本-图像匹配程度[k]

该方法通过计算文本与图像间的相似度分数用于数据筛选或强化学习奖励函数，虽有助于降低噪声，但评分质量依赖评估模型，易受模型偏见影响[k]

各类方法在增强MLLM对齐方面各有作用，但在效率、成本及潜在偏见方面需权衡取舍[k]

综合评估

当前多数MLLM对齐研究集中于幻觉抑制、对话能力与安全性等关键维度的评估[k]

未来应拓展至更广泛任务场景，采用更全面的评估体系，以验证对齐方法的普适性与有效性[k]

全模态对齐

Align-anything项目通过“align-anything-200k”数据集实现文本、图像、音频、视频等多模态统一对齐，展现跨模态互补效应[k]

但该研究尚处初期，各模态数据量有限，任务覆盖不足，且所提算法仅为DPO的初步改进，未能充分挖掘各模态内在结构特征[k]

未来趋势将聚焦于超越图文范畴的对齐算法设计，特别是面向音频、视频等模态的专用对齐机制[k]

MLLM推理

以OpenAI o1和DeepSeek-R1为代表的推理型大模型表明，强化学习与偏好数据对提升复杂问题求解、长上下文理解等能力至关重要[k]

本文从数据与优化框架两方面探讨LLM推理增强对MLLM对齐的启示[k]

(1) 数据

发展路径从中小模型重采样（如OpenMathInstruct）演进至高质量合成数据（如AceMath），并借助前沿模型（如OpenAI o1）和领域专用模型（如DeepSeek-V3）实现可扩展知识迁移[k]

当前推理增强数据集规模普遍达百万级（如Qwen-2.5-MATH）[k]

“少即是多”策略（如LIMA使用1k样本训练65B Llama）证明少量高质量数据即可有效激活预训练能力，降低对大规模数据依赖[k]

(2) 优化框架

在线强化学习（RL）逐渐成为主流采样策略，DeepSeek-V3与Qwen-2.5-MATH的在线采样有效缓解分布偏移问题；Mini-Max进一步结合离线与在线策略提升性能[k]
多阶段协同优化成为主流范式，如Llama 3实施六轮DPO迭代，DeepSeek通过变温采样与反思/验证提示优化长链推理深度与输出简洁性[k]
强化学习算法从策略梯度发展至PPO，近期改进主要分为两类：一是去除评估模型、采用稀疏奖励训练以减少参数量（如DPO、GRPO）；二是优化评估模型设计，如PRIME引入比率作为优势函数，OREAL重塑正负样本奖励[k]

通过高质量数据与创新优化框架，MLLM正迈向更高效、可扩展的发展路径，并进一步释放其推理潜力[k]

LLM对齐的启示

LLM对齐研究积累了丰富经验，可为MLLM发展提供重要借鉴[k]

(1) 提高训练效率

当前MLLM对齐多依赖DPO损失函数，需同时加载策略与参考模型，导致训练速度下降[k]

可探索SimPO类无参考方法，提升训练效率并减少对参考模型的依赖[k]

深入研究参考模型在MLLM对齐中的作用机制，对优化训练效率与模型架构具有重要意义[k]

(2) 减轻过度优化与奖励黑客问题

DPO或RLHF训练中易出现过度优化，即代理奖励提升而实际质量停滞或退化[k]

应对策略包括：采用多样化训练数据防止优化窄化；在验证性能平稳时实施早停；引入正则化技术增强泛化能力[k]

MLLM作为智能体

MLLM融合LLM的强推理能力与多模态数据处理优势，具备跨源知识提取与综合分析能力，在复杂现实任务中潜力巨大[k]

然而，将其转化为高效智能体仍面临挑战[k]

多智能体协作：基于文本的多智能体框架已较成熟，但MLLM驱动的多智能体系统尚缺乏有效方案[k]
鲁棒性：MLLM智能体在开放环境中的稳定性未充分验证，需引入对抗性测试与保障机制[k]
安全性：系统复杂度提升带来更高安全风险，需构建多层次防护机制加以应对[k]

论文链接：https://arxiv.org/pdf/2503.14504

GitHub链接：https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment

【免责声明】转载出于非商业性的教育和科研目的，只为学术新闻信息的传播，版权归原作者所有，如有侵权请立即与我们联系，我们将及时删除。[k]

【声明】内容源于网络

中国人工智能学会

中国人工智能学会官方订阅号，为广大智能科技工作者提供前沿资讯，学术分享，科普信息的的多媒体平管

内容 8182

粉丝 0

中国人工智能学会中国人工智能学会官方订阅号，为广大智能科技工作者提供前沿资讯，学术分享，科普信息的的多媒体平管

总阅读66.8k

粉丝0

内容8.2k