大数跨境

让大模型多模态检索全面超越SOTA!ReCALL框架化解生成式与判别式的范式冲突|CVPR'26

让大模型多模态检索全面超越SOTA!ReCALL框架化解生成式与判别式的范式冲突|CVPR'26 量子位
2026-04-06
4
导读:独创“诊断-生成-校准”闭环体系
ReCALL团队 投稿
量子位 | 公众号 QbitAI

生成式模型应用于图像检索时面临性能瓶颈?

多模态大模型(MLLM)凭借强大图文理解与推理能力,本应成为组合图像检索(CIR)任务的理想方案,但将其强行改造为判别式检索器后,模型普遍出现能力退化现象。原本100%能精准解决的问题频繁出错,生成式与判别式的范式冲突已成为大模型落地检索领域的主要障碍。

AI国家队紫东太初团队联合新加坡国立大学成功攻克该难题,其最新研究成果ReCALL框架通过独创的"诊断-生成-校准"闭环体系,在保留原生细粒度推理能力的同时实现高效检索,彻底解决范式冲突问题。

该成果已被计算机视觉顶会CVPR 2026录用,在CIRR、FashionIQ等主流基准测试中全面刷新SOTA性能,为多模态大模型垂直领域落地奠定核心基础。

行业痛点:范式冲突引发能力退化

多模态大模型在检索任务中表现欠佳的核心在于范式冲突(Paradigm Conflict)

原生大模型通过链式思考(Step-wise reasoning)实现细粒度视觉关系理解,而现有检索方法强制将高维思考压缩为单一判别向量,导致能力退化(Capability Degradation)

实验证明:当查询"地板上的两只同品种狗"时,原生模型能精准定位目标,但传统微调后的检索器则完全丧失细粒度感知能力。定量数据显示,在原生模型100%正确的子集上,微调模型在CIRR数据集R@1暴跌至62.33%,FashionIQ数据集跌至55.80%,反映出显著的智能倒退现象。

破局之道:ReCALL四阶段校准框架

框架通过自我诊断与校正机制,将大模型原生推理能力转化为检索优势。具体实施分为四个阶段:

Stage 1:基础检索适配

采用InfoNCE损失函数将原生模型(F)微调为基础检索器(Rbase,初步赋予判别能力,但同步引发能力退化问题。

Stage 2:自我诊断

提取训练集中检索器判错的样本(Informative Instances),锁定模型认知盲区——这些负样本与正样本的视觉差异极其细微,是退化问题的核心表征。

Stage 3:生成校正

基于原生模型(F)设计双步校正机制: ① 意图分解与验证:拆解查询指令为原子意图,逐一对比验证参考图与错图差异; ② 最小编辑合成:保留正确意图仅重写矛盾部分,生成与原始指令语义一致的校正文本。 此过程生成高保真纠错三元组,为检索器提供细粒度对齐信号。

Stage 4:针对性打磨

通过分组对比学习(Grouped Contrastive Refinement),在批次中将原查询与校正查询对冲训练,迫使模型精准区分细微视觉-语义边界,最终实现原生推理能力的检索化迁移。

实测成绩:全场景刷新SOTA

在主流基准测试中,ReCALL展现出显著优势:

  • CIRR数据集R@1达55.52%,较基线提升8.38%;细粒度子集Rsubset@1高达81.49%

  • FashionIQ数据集平均R@10提升至57.04%,显著优于竞品

实际检索案例显示:基线模型对"正视镜头"、"半袖"等细粒度条件识别失败,而ReCALL校准模型实现精准检索。

核心价值

ReCALL不仅刷新组合图像检索性能上限,更开创了多模态大模型能力无损适配的新范式。其核心价值在于:

  • 摆脱海量外部数据依赖,转而利用模型自生推理能力修复认知盲区

  • 实现生成式与判别式范式的有机融合,在保留细粒度推理的同时构建高效检索空间

  • 为大模型在垂直领域的落地提供可复用的方法论支撑

论文链接:
https://arxiv.org/abs/2602.01639
项目代码:
https://github.com/RemRico/Recall

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14971
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读170.2k
粉丝0
内容15.0k