大数跨境
0
0

EMNLP 2025 Oral|检索增强 + 两阶段微调:剑桥提出有害内容检测大模型RA-HMD,性能SOTA

EMNLP 2025 Oral|检索增强 + 两阶段微调:剑桥提出有害内容检测大模型RA-HMD,性能SOTA 极市平台
2025-11-07
2
↑ 点击蓝字 关注极市平台
来源丨深度学习自然语言处理
编辑丨极市平台

极市导读

 

剑桥大学提出的 RA-HMD 框架针对多模态有害内容检测,首次将检索增强与对比学习引入LMM,实现“检索—分类—生成”一体化。通过两阶段微调策略,模型在多数据集上显著提升分类性能、跨域泛化能力和对抗鲁棒性,同时保持原有多模态生成能力与解释质量,为仇恨内容检测提供了新范式。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

多模态有害信息检测(如有害表情包识别)因涉及图文融合、语义隐晦、文化语境依赖强等特点,一直是网络内容安全治理的重点与难点。然而,尽管多模态模型(LMMs)在通用图文理解上已展现出惊人能力,但在有害内容检测上仍面临三大瓶颈:

  • 监督微调(SFT)易过拟合,分类性能不理想;
  • 跨域泛化能力差,难以适应不断演变的网络有害信息,不论是few-shot prompting还是使用智能体框架,性能任然不理想;
  • 微调后模型通用多模态通用能力显著下降,同时对于对抗攻击的稳健性较差。

为解决上述问题,剑桥大学团队提出了一种稳健的检索增强的仇恨表情包检测框架 RA-HMDRetrieval-Augmented Hateful Meme Detection),通过两阶段微调策略与模型结构增强,结合检索增强,在多个基准上实现显著性能提升,并被EMNLP 2025接收为Oral Presentation。值得注意的是,RA-HMD 在模型结构上进行了关键创新:

  • 在LMM隐藏状态上接入可训练的MLP投影层与逻辑回归分类器,使得模型不仅能输出分类决策,还能生成适用于检索的特征表示。
  • 传统的decoder-only语言模型适配检索的方法常导致语言生成能力的完全丧失,而RA-HMD的设计则在不破坏LM Head的前提下,让单一模型能够同时完成检索、分类与解释生成三类任务。
  • 这种架构增强使LMM在保持语言流畅度与可解释性的同时,显著强化了任务判别与跨域泛化能力。

发布信息

01 核心方法:RA-HMD

RA-HMD融合了检索增强学习与对比微调机制,在保持语言生成能力的同时,显著提升了检测与泛化表现。其核心设计包括:

1. 模型结构增强:MLP投影 + 分类器融合

为解决解码器模型无法兼顾检索与生成的问题,RA-HMD在LMM后接入可训练的MLP投影模块,生成可用于分类与检索的特征表示;同时保留原有语言生成头LM Head,实现“检索—分类—生成一体化”。

2. 两阶段微调策略

  • Stage 1:联合训练阶段
    使用语言建模损失与分类损失联合优化,基于LoRA高效微调,让模型学习内容审核知识的同时保留生成能力。
  • Stage 2:对比优化阶段
    冻结LMM,仅微调MLP与分类器,引入对比损失,结合分类损失,强化特征一致性与检索能力。

3. 三种推理模式

RA-HMD 支持三类推理模式:

  • LM Head 文本生成分类器
  • LRC 逻辑回归分类器
  • 检索增强K近邻分类(RKC) —— 在跨域或未知场景下表现尤为出色。

02 实验结果

  1. 监督设置下全面领先

    • 在HatefulMemes、HarMeme等六大数据集上达到SOTA;
    • Qwen2-VL-7B + RA-HMD在HatefulMemes上达到91.1% AUC82.1% Accuracy,超越此前基于55B参数的VPD智能体系统。
  2. 跨域泛化能力显著提升

    • 在训练-测试分布不一致设定下,RA-HMD + RKC在HarMeme上达到88.8% AUC,较SFT few-shot提升超20%;
    • 优于GPT-4o、LOREHM等基线。
  3. 对抗攻击更鲁棒

    • 在噪声扰动样本上性能下降幅度远小于SFT模型。
  4. 通用能力不退化

    • 在MMMU、SEED-Bench、GQA等通用多模态评测中性能与原始模型持平。
  5. 生成解释质量更高

    • 相比SFT基准,LLM评估解释生成胜率达61.5%。

03 研究亮点

  • 首次将检索增强+对比学习引入LMM仇恨检测任务;
  • 提出两阶段微调策略,兼顾任务适配与表示对齐;
  • 实现分类-检索-解释生成多任务一体化,无需多阶段流水线;
  • 在性能、泛化、鲁棒性、可解释性四个方面实现全面提升。

RA-HMD 不仅为仇恨内容检测提供了新范式,也为多模态大模型的安全、高效、可解释应用奠定了重要基础。如需进一步了解实验细节、消融分析或错误案例,可查阅论文原文或开源代码。我们也将于2025年11月于EMNLP会议进行现场报告,欢迎交流讨论!

04 后续工作

尽管 RA-HMD 已显著提升生成解释质量(LLM-Judge 得分 5.4/10),但团队进一步提出了基于强化学习优化的 ExPO-HM(Explain-then-Detect) 框架,在解释-检测双任务上均实现了更优表现:
ExPO-HM: Learning to Explain-then-Detect for Hateful Meme Detection
(https://arxiv.org/abs/2510.08630)

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k