极市导读
Domain-RAG 把“前景固定、背景适配”做成三阶段 RAG:先检索风格一致的背景,再用 Redux 扩散模型融合语义,最后把原前景无缝贴回,无需训练即可在自然→卡通/遥感/伪装等跨域 1-shot 检测上刷新 SOTA。>>加入极市CV技术交流群,走在计算机视觉的最前沿
在真实世界中,人们倾向于使用一个已有的目标检测模型,用少量的数据微调来适应下游任务。在自然图像上训练的检测器,可能会面对动画、遥感、伪装、水下、工业缺陷等完全不同场景的下游任务。标注数据稀缺,领域差距巨大——这正是跨域小样本目标检测(Cross-Domain Few-Shot Object Detection, CD-FSOD) 所面对的核心难题。
近期,复旦大学、INSAIT 等单位提出 Domain-RAG 框架,首次将检索增强生成(Retrieval-Augmented Generation, RAG) 系统性引入跨域小样本检测的数据合成任务,在不额外训练任何生成模型的前提下,实现“前景固定,适应背景”,为跨域小样本检测提供了一条训练友好、效果显著的新路径。
论文标题:Domain-RAG: Retrieval-Guided Compositional Image Generation for Cross-Domain Few-Shot Object Detection
论文链接:https://arxiv.org/abs/2506.05872
代码仓库:https://github.com/LiYu0524/Domain-RAG
项目主页:http://yuli-cs.net/papers/domain-rag/
会议 Poster: Exhibit Hall C,D,E #5513 Thu 4 Dec 4:30 p.m. PST — 7:30 p.m. PST
01 跨域小样本目标检测
在跨域小样本目标检测(CD-FSOD)任务中,模型通常在源域上预训练或微调,同时需要依靠极少量标注样本在不同风格的目标域中完成检测任务。例如:从自然图像(COCO)迁移到工业缺陷、卡通、水下等风格的场景下。
在这些场景中,模型不仅要通过少量的样本判断正确的类别,还要进行定位,同时还要适应剧烈的域偏移(domain shift)。这使得传统的小样本学习方法在 CD-FSOD 里效果十分有限。
02 现有的针对目标检测的数据增强的不足与挑战
为缓解标注不足带来的问题,现有工作尝试使用数据增广与生成模型来生成更多训练样本,例如:
• Copy-Paste / 简单拷贝粘贴: 把目标从一张图粘到另一张背景上;
• 文本驱动的生成式增广: 用类似“a photo of {category}”的提示词生成新样本;
• 前景重绘 / 联合生成: 同时生成新的前景和背景,再进行合成。
然而,在跨域场景下,这些方法有三大突出问题:
-
前景类别难以精确生成
纯文本描述很难精确约束生成模型。在面对陌生前景时,生成模型无法生成正确的前景。同时,尽管boxdiff等方法尽可能约束前景和检测框大小相同,但是生成的物体任然无法完美契合检测框,因而会对目标检测模型的训练造成巨大伤害。
-
难以获取更丰富的语义
在生成目标域图像时,生成出的背景可能与目标域风格不相符,难以获得符合目标域条件下的丰富语义。
-
依赖大量域内训练,迁移成本高
许多生成方法需要在目标域上进一步微调生成模型,而在 CD-FSOD 场景里,目标域数据稀缺,训练一套符合目标域风格的生成模型,或学会目标类别前景往往不现实。
03 Domain-RAG:基于检索增强的三阶段目标检测样本增强范式
为解决上述难题,Domain-RAG 提出一个朴素的原则:“Fix the foreground, adapt the background”
围绕这条原则,Domain-RAG 构建了一个training-free、model-agnostic的三阶段组合式生成框架:
3.1 域感知的背景检索(Domain-Aware Background Retrieval)
首先,Domain-RAG将输入图像根据标注分解为前景目标与背景区域。通过 inpainting 模型抹掉前景,获得一张移除前景的初始背景图。然后,在一个大规模图像库(如 COCO )中,基于clip提取的语义特征和resnet提取的风格特征,检索与该背景在语义与风格上都相似的候选图像,作为目标域参考背景。
3.2 域引导的背景生成(Domain-Guided Background Generation)
在域引导的背景生成过程中,Domain-RAG初始背景与检索背景一起送入扩散模型进行生成。由于使用caption模型难以将图片的的风格,位置,语义转化为准确的prompt。因此Domain-RAG使用 Redux模块直接建模图片,融合检索图片的语义以及初始背景的语义,在不破坏目标域图片风格的情况下,通过检索图片的语义来丰富背景语义信息。
3.3 前景-背景的可控合成(Foreground-Background Composition)
最后,框架将原始前景通过掩码引导的生成模型,平滑地“贴回”到新生成的域一致背景上,从而得到合成的图像:同时保留了原始目标的类别与位置标注并获得视觉风格上对齐目标域,语义更丰富的样本。
整个流程无需对生成模型进行任何微调,可以直接挂载在现有检测器(如 GroundingDINO 等)前端,作为一条“即插即用”的数据生成与增强模块,适合 1-shot / 5-shot 等小样本设定。
04 实验结果:一套框架打通三类跨域检测任务
实验结果显示,Domain-RAG在三类具有代表性的跨域小样本检测任务上都具有良好的效果:
-
CD-FSOD: 经典跨域小样本目标检测基准
-
RS-FSOD: 遥感小样本检测任务
-
Camouflaged FSOD: 伪装目标检测。
在所有任务上,Domain-RAG都能在基线的基础上取得稳定收益。同时,Domain-RAG 在三类任务上均刷新了最新的 SOTA性能,验证了该框架在不同领域、不同数据分布下的 广泛适用性与鲁棒性。
4.1 模块有效性验证
消融实验充分验证了各个模块的有效性与必要性,无论是去除Domain-Aware Background Retrieval 或者 Domain-Guided Background Generation 或者Foreground-Background Composition都会带来效果减弱,但均强于基线模型。这一结果表明:分步融入语义信息能有效生成语义丰富且合理的目标域样本。
4.2 可视化结果
最后,感谢阅读以及欢迎使用我们的代码
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

