大数跨境

首个Agentic多模态检索大模型来了!清华团队让AI边推理边主动看图,准确率提升23%

首个Agentic多模态检索大模型来了!清华团队让AI边推理边主动看图,准确率提升23% DeepTech深科技
2026-03-23
15
导读:近年来,随着多模态大语言模型(MLLM)的快速发展,研究者们开始尝试将其应用于通用多模态检索任务。

当前多模态大语言模型在检索任务中面临核心挑战:推理过程依赖语言表征而非实时视觉验证,导致相似图像辨识准确率低下。

清华、复旦与港大联合团队近日推出全球首个基于交错推理(Interleaved Reasoning)的通用多模态检索框架V-Retrver。该框架突破传统静态编码模式,使模型能在推理过程中主动调用视觉工具验证细节,目前已开源代码及模型权重。

(来源:arXiv)

团队指出,现有模型在候选图高度相似时易出现"视觉幻觉"。例如面对仅抱枕纹理差异的白色沙发图像,压缩后的特征无法支撑精准判断。更关键的是,传统方法"一次性"处理图像,缺乏人类"放大查看细节"的认知能力。

核心机制:动态视觉验证闭环

V-Retrver将检索重构为智能体推理过程。当分析模糊目标(如小尺寸物品)时,模型自动触发ZOOM-IN等工具获取局部信息,形成"质疑-验证-决策"闭环。该设计首次将交错推理应用于多模态检索,显著区别于单图问答等简单场景。

(来源:论文)

三阶段智能训练体系

训练过程通过课程学习逐步提升能力:

1. 监督微调阶段:利用LLM合成数据教授基础工具调用,精准控制训练量避免过度依赖;

2. 拒绝采样微调:筛选高质量推理轨迹确保逻辑可靠性;

3. 证据对齐优化:基于强化学习建立奖励机制,使模型智能判断工具调用必要性。

(来源:论文)

性能突破与实用价值

在M-BEIR基准测试中,V-Retrver-7B实现69.7%平均召回率,较前代最优模型提升5个百分点。细粒度任务表现尤为突出:

  • FashionIQ数据集精度达51.2%(提升13%)
  • CIRR数据集精度73.5%(提升10%)

零样本测试中,其泛化能力超越专业检索模型。消融实验表明:移除视觉工具将使性能下降5.4个百分点,证实动态验证的核心价值。

(来源:论文)

团队坦言当前存在两大局限:推理成本高于传统方案;视觉工具类型需扩展。未来将引入网络搜索等工具提升复杂场景处理能力,例如通过检索拿破仑特征辅助人物图像识别。

该研究标志多模态检索范式从"静态编码+语言推理"向"动态感知+交错推理"转变,验证"主动观看"对视觉任务的关键价值。

(来源:论文)

【声明】内容源于网络
0
0
DeepTech深科技
DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
内容 5048
粉丝 0
DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
总阅读43.1k
粉丝0
内容5.0k