让大模型多模态检索全面超越SOTA！ReCALL框架化解生成式与判别式的范式冲突

首页

让大模型多模态检索全面超越SOTA！ReCALL框架化解生成式与判别式的范式冲突｜CVPR'26

量子位

2026-04-06

导读：独创“诊断-生成-校准”闭环体系

ReCALL团队投稿
量子位 | 公众号 QbitAI

生成式模型应用于图像检索时面临性能瓶颈？

多模态大模型（MLLM）凭借强大图文理解与推理能力，本应成为组合图像检索（CIR）任务的理想方案，但将其强行改造为判别式检索器后，模型普遍出现能力退化现象。原本100%能精准解决的问题频繁出错，生成式与判别式的范式冲突已成为大模型落地检索领域的主要障碍。

AI国家队紫东太初团队联合新加坡国立大学成功攻克该难题，其最新研究成果ReCALL框架通过独创的"诊断-生成-校准"闭环体系，在保留原生细粒度推理能力的同时实现高效检索，彻底解决范式冲突问题。

该成果已被计算机视觉顶会CVPR 2026录用，在CIRR、FashionIQ等主流基准测试中全面刷新SOTA性能，为多模态大模型垂直领域落地奠定核心基础。

行业痛点：范式冲突引发能力退化

多模态大模型在检索任务中表现欠佳的核心在于范式冲突（Paradigm Conflict）。

原生大模型通过链式思考（Step-wise reasoning）实现细粒度视觉关系理解，而现有检索方法强制将高维思考压缩为单一判别向量，导致能力退化（Capability Degradation）。

实验证明：当查询"地板上的两只同品种狗"时，原生模型能精准定位目标，但传统微调后的检索器则完全丧失细粒度感知能力。定量数据显示，在原生模型100%正确的子集上，微调模型在CIRR数据集R@1暴跌至62.33%，FashionIQ数据集跌至55.80%，反映出显著的智能倒退现象。

破局之道：ReCALL四阶段校准框架

框架通过自我诊断与校正机制，将大模型原生推理能力转化为检索优势。具体实施分为四个阶段：

Stage 1：基础检索适配

采用InfoNCE损失函数将原生模型（F）微调为基础检索器（R_base），初步赋予判别能力，但同步引发能力退化问题。

Stage 2：自我诊断

提取训练集中检索器判错的样本（Informative Instances），锁定模型认知盲区——这些负样本与正样本的视觉差异极其细微，是退化问题的核心表征。

Stage 3：生成校正

基于原生模型（F）设计双步校正机制： ① 意图分解与验证：拆解查询指令为原子意图，逐一对比验证参考图与错图差异； ② 最小编辑合成：保留正确意图仅重写矛盾部分，生成与原始指令语义一致的校正文本。此过程生成高保真纠错三元组，为检索器提供细粒度对齐信号。

Stage 4：针对性打磨

通过分组对比学习（Grouped Contrastive Refinement），在批次中将原查询与校正查询对冲训练，迫使模型精准区分细微视觉-语义边界，最终实现原生推理能力的检索化迁移。

实测成绩：全场景刷新SOTA

在主流基准测试中，ReCALL展现出显著优势：

CIRR数据集R@1达55.52%，较基线提升8.38%；细粒度子集R_subset@1高达81.49%
FashionIQ数据集平均R@10提升至57.04%，显著优于竞品

实际检索案例显示：基线模型对"正视镜头"、"半袖"等细粒度条件识别失败，而ReCALL校准模型实现精准检索。

核心价值

ReCALL不仅刷新组合图像检索性能上限，更开创了多模态大模型能力无损适配的新范式。其核心价值在于：

摆脱海量外部数据依赖，转而利用模型自生推理能力修复认知盲区
实现生成式与判别式范式的有机融合，在保留细粒度推理的同时构建高效检索空间
为大模型在垂直领域的落地提供可复用的方法论支撑

论文链接：
https://arxiv.org/abs/2602.01639
项目代码：
https://github.com/RemRico/Recall

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 14971

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读170.2k

粉丝0

内容15.0k