ReCALL团队 投稿
量子位 | 公众号 QbitAI
生成式模型应用于图像检索时面临性能瓶颈?
多模态大模型(MLLM)凭借强大图文理解与推理能力,本应成为组合图像检索(CIR)任务的理想方案,但将其强行改造为判别式检索器后,模型普遍出现能力退化现象。原本100%能精准解决的问题频繁出错,生成式与判别式的范式冲突已成为大模型落地检索领域的主要障碍。

AI国家队紫东太初团队联合新加坡国立大学成功攻克该难题,其最新研究成果ReCALL框架通过独创的"诊断-生成-校准"闭环体系,在保留原生细粒度推理能力的同时实现高效检索,彻底解决范式冲突问题。
该成果已被计算机视觉顶会CVPR 2026录用,在CIRR、FashionIQ等主流基准测试中全面刷新SOTA性能,为多模态大模型垂直领域落地奠定核心基础。
行业痛点:范式冲突引发能力退化
多模态大模型在检索任务中表现欠佳的核心在于范式冲突(Paradigm Conflict)。
原生大模型通过链式思考(Step-wise reasoning)实现细粒度视觉关系理解,而现有检索方法强制将高维思考压缩为单一判别向量,导致能力退化(Capability Degradation)。

实验证明:当查询"地板上的两只同品种狗"时,原生模型能精准定位目标,但传统微调后的检索器则完全丧失细粒度感知能力。定量数据显示,在原生模型100%正确的子集上,微调模型在CIRR数据集R@1暴跌至62.33%,FashionIQ数据集跌至55.80%,反映出显著的智能倒退现象。
破局之道:ReCALL四阶段校准框架
框架通过自我诊断与校正机制,将大模型原生推理能力转化为检索优势。具体实施分为四个阶段:
Stage 1:基础检索适配
采用InfoNCE损失函数将原生模型(F)微调为基础检索器(Rbase),初步赋予判别能力,但同步引发能力退化问题。
Stage 2:自我诊断
提取训练集中检索器判错的样本(Informative Instances),锁定模型认知盲区——这些负样本与正样本的视觉差异极其细微,是退化问题的核心表征。
Stage 3:生成校正
基于原生模型(F)设计双步校正机制: ① 意图分解与验证:拆解查询指令为原子意图,逐一对比验证参考图与错图差异; ② 最小编辑合成:保留正确意图仅重写矛盾部分,生成与原始指令语义一致的校正文本。 此过程生成高保真纠错三元组,为检索器提供细粒度对齐信号。
Stage 4:针对性打磨
通过分组对比学习(Grouped Contrastive Refinement),在批次中将原查询与校正查询对冲训练,迫使模型精准区分细微视觉-语义边界,最终实现原生推理能力的检索化迁移。

实测成绩:全场景刷新SOTA
在主流基准测试中,ReCALL展现出显著优势:

CIRR数据集R@1达55.52%,较基线提升8.38%;细粒度子集Rsubset@1高达81.49%
FashionIQ数据集平均R@10提升至57.04%,显著优于竞品

实际检索案例显示:基线模型对"正视镜头"、"半袖"等细粒度条件识别失败,而ReCALL校准模型实现精准检索。
核心价值
ReCALL不仅刷新组合图像检索性能上限,更开创了多模态大模型能力无损适配的新范式。其核心价值在于:
摆脱海量外部数据依赖,转而利用模型自生推理能力修复认知盲区
实现生成式与判别式范式的有机融合,在保留细粒度推理的同时构建高效检索空间
为大模型在垂直领域的落地提供可复用的方法论支撑
论文链接:
https://arxiv.org/abs/2602.01639
项目代码:
https://github.com/RemRico/Recall

