极市导读
剑桥大学提出的 RA-HMD 框架针对多模态有害内容检测,首次将检索增强与对比学习引入LMM,实现“检索—分类—生成”一体化。通过两阶段微调策略,模型在多数据集上显著提升分类性能、跨域泛化能力和对抗鲁棒性,同时保持原有多模态生成能力与解释质量,为仇恨内容检测提供了新范式。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
多模态有害信息检测(如有害表情包识别)因涉及图文融合、语义隐晦、文化语境依赖强等特点,一直是网络内容安全治理的重点与难点。然而,尽管多模态模型(LMMs)在通用图文理解上已展现出惊人能力,但在有害内容检测上仍面临三大瓶颈:
-
监督微调(SFT)易过拟合,分类性能不理想; -
跨域泛化能力差,难以适应不断演变的网络有害信息,不论是few-shot prompting还是使用智能体框架,性能任然不理想; -
微调后模型通用多模态通用能力显著下降,同时对于对抗攻击的稳健性较差。
为解决上述问题,剑桥大学团队提出了一种稳健的检索增强的仇恨表情包检测框架 RA-HMD(Retrieval-Augmented Hateful Meme Detection),通过两阶段微调策略与模型结构增强,结合检索增强,在多个基准上实现显著性能提升,并被EMNLP 2025接收为Oral Presentation。值得注意的是,RA-HMD 在模型结构上进行了关键创新:
-
在LMM隐藏状态上接入可训练的MLP投影层与逻辑回归分类器,使得模型不仅能输出分类决策,还能生成适用于检索的特征表示。 -
传统的decoder-only语言模型适配检索的方法常导致语言生成能力的完全丧失,而RA-HMD的设计则在不破坏LM Head的前提下,让单一模型能够同时完成检索、分类与解释生成三类任务。 -
这种架构增强使LMM在保持语言流畅度与可解释性的同时,显著强化了任务判别与跨域泛化能力。
发布信息
-
论文标题:Robust Adaptation of LMMs for Retrieval Augmented Hateful Meme Detection -
机构:剑桥大学 -
会议:EMNLP 2025 Oral -
代码:https://github.com/JingbiaoMei/RGCL -
论文:https://arxiv.org/abs/2502.13061 -
标签: #多模态 #AIGC安全 #仇恨内容检测 #LMM #检索增强 #EMNLP2025
01 核心方法:RA-HMD
RA-HMD融合了检索增强学习与对比微调机制,在保持语言生成能力的同时,显著提升了检测与泛化表现。其核心设计包括:
1. 模型结构增强:MLP投影 + 分类器融合
为解决解码器模型无法兼顾检索与生成的问题,RA-HMD在LMM后接入可训练的MLP投影模块,生成可用于分类与检索的特征表示;同时保留原有语言生成头LM Head,实现“检索—分类—生成一体化”。
2. 两阶段微调策略
-
Stage 1:联合训练阶段
使用语言建模损失与分类损失联合优化,基于LoRA高效微调,让模型学习内容审核知识的同时保留生成能力。 -
Stage 2:对比优化阶段
冻结LMM,仅微调MLP与分类器,引入对比损失,结合分类损失,强化特征一致性与检索能力。
3. 三种推理模式
RA-HMD 支持三类推理模式:
-
LM Head 文本生成分类器 -
LRC 逻辑回归分类器 -
检索增强K近邻分类(RKC) —— 在跨域或未知场景下表现尤为出色。
02 实验结果
-
监督设置下全面领先:
-
在HatefulMemes、HarMeme等六大数据集上达到SOTA; -
Qwen2-VL-7B + RA-HMD在HatefulMemes上达到91.1% AUC、82.1% Accuracy,超越此前基于55B参数的VPD智能体系统。 -
跨域泛化能力显著提升:
-
在训练-测试分布不一致设定下,RA-HMD + RKC在HarMeme上达到88.8% AUC,较SFT few-shot提升超20%; -
优于GPT-4o、LOREHM等基线。 -
对抗攻击更鲁棒:
-
在噪声扰动样本上性能下降幅度远小于SFT模型。 -
通用能力不退化:
-
在MMMU、SEED-Bench、GQA等通用多模态评测中性能与原始模型持平。 -
生成解释质量更高:
-
相比SFT基准,LLM评估解释生成胜率达61.5%。
03 研究亮点
-
首次将检索增强+对比学习引入LMM仇恨检测任务; -
提出两阶段微调策略,兼顾任务适配与表示对齐; -
实现分类-检索-解释生成多任务一体化,无需多阶段流水线; -
在性能、泛化、鲁棒性、可解释性四个方面实现全面提升。
RA-HMD 不仅为仇恨内容检测提供了新范式,也为多模态大模型的安全、高效、可解释应用奠定了重要基础。如需进一步了解实验细节、消融分析或错误案例,可查阅论文原文或开源代码。我们也将于2025年11月于EMNLP会议进行现场报告,欢迎交流讨论!
04 后续工作
尽管 RA-HMD 已显著提升生成解释质量(LLM-Judge 得分 5.4/10),但团队进一步提出了基于强化学习优化的 ExPO-HM(Explain-then-Detect) 框架,在解释-检测双任务上均实现了更优表现:
ExPO-HM: Learning to Explain-then-Detect for Hateful Meme Detection
(https://arxiv.org/abs/2510.08630)
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

