首个Agentic多模态检索大模型来了！清华团队让AI边推理边主动看图，准确率提升23%- 大数跨境

DeepTech深科技

2026-03-23

导读：近年来，随着多模态大语言模型（MLLM）的快速发展，研究者们开始尝试将其应用于通用多模态检索任务。

当前多模态大语言模型在检索任务中面临核心挑战：推理过程依赖语言表征而非实时视觉验证，导致相似图像辨识准确率低下。

清华、复旦与港大联合团队近日推出全球首个基于交错推理（Interleaved Reasoning）的通用多模态检索框架V-Retrver。该框架突破传统静态编码模式，使模型能在推理过程中主动调用视觉工具验证细节，目前已开源代码及模型权重。

（来源：arXiv）

团队指出，现有模型在候选图高度相似时易出现"视觉幻觉"。例如面对仅抱枕纹理差异的白色沙发图像，压缩后的特征无法支撑精准判断。更关键的是，传统方法"一次性"处理图像，缺乏人类"放大查看细节"的认知能力。

核心机制：动态视觉验证闭环

V-Retrver将检索重构为智能体推理过程。当分析模糊目标（如小尺寸物品）时，模型自动触发ZOOM-IN等工具获取局部信息，形成"质疑-验证-决策"闭环。该设计首次将交错推理应用于多模态检索，显著区别于单图问答等简单场景。

（来源：论文）

训练过程通过课程学习逐步提升能力：

1. 监督微调阶段：利用LLM合成数据教授基础工具调用，精准控制训练量避免过度依赖；

2. 拒绝采样微调：筛选高质量推理轨迹确保逻辑可靠性；

3. 证据对齐优化：基于强化学习建立奖励机制，使模型智能判断工具调用必要性。

（来源：论文）

在M-BEIR基准测试中，V-Retrver-7B实现69.7%平均召回率，较前代最优模型提升5个百分点。细粒度任务表现尤为突出：

零样本测试中，其泛化能力超越专业检索模型。消融实验表明：移除视觉工具将使性能下降5.4个百分点，证实动态验证的核心价值。

（来源：论文）

团队坦言当前存在两大局限：推理成本高于传统方案；视觉工具类型需扩展。未来将引入网络搜索等工具提升复杂场景处理能力，例如通过检索拿破仑特征辅助人物图像识别。

该研究标志多模态检索范式从"静态编码+语言推理"向"动态感知+交错推理"转变，验证"主动观看"对视觉任务的关键价值。

（来源：论文）

【声明】内容源于网络

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

内容 5048

粉丝 0

DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

总阅读43.1k

粉丝0

内容5.0k