大数跨境
0
0

必须得让AI明白,有些不该碰的东西别碰(doge)

必须得让AI明白,有些不该碰的东西别碰(doge) 量子位
2025-12-29
15
导读:视觉工具反而让AI变笨?港中文等提出工具自适应框架AdaTooler-V
AdaTooler-V团队 投稿 
量子位 | 公众号 QbitAI

近期,以DeepEyes、Thymes为代表的类o3模型通过调用视觉工具,在视觉推理任务中取得显著进展,突破了传统纯文本CoT的局限。然而,一个关键问题逐渐浮现:视觉工具使用越多,模型是否就越聪明?

大量实验表明,许多模型已陷入“盲目调用工具”的困境——即使任务无需工具,仍频繁触发裁剪、抽帧、区域放大等操作,导致推理路径变长、算力消耗上升,但准确率未提升,甚至下降。

问题根源不在于工具性能不足,而在于模型缺乏对“何时该使用工具”的判断能力。针对这一核心挑战,港中文MMLab等机构的研究团队提出AdaTooler-V——一种具备自适应工具使用能力的多模态推理模型,旨在让模型学会决策“该不该用工具”,而不仅仅是执行“如何用工具”。

在12项主流图像与视频推理基准测试中,AdaTooler-V表现突出。例如,在高分辨率视觉推理任务上,AdaTooler-V-7B准确率达89.8%。

工具使用的有效性探究

研究团队引入关键指标——Tool Benefit Score(工具有益分数),用于量化视觉工具调用带来的实际性能增益。该指标通过对比同一问题在“使用工具”与“不使用工具”两种情况下的表现差异,评估工具调用的有效性。

实验结果显示,相当一部分样本中工具调用不仅无益,反而导致性能下降,揭示出当前模型普遍存在工具滥用现象。

AT-GRPO:让模型学会判断“该不该用工具”

为此,团队提出新型强化学习算法AT-GRPO,专门训练模型实现自适应视觉工具调用。其核心机制在于:仅当工具调用带来正向性能提升时,模型才获得奖励;若工具无效或有害,则施加惩罚。

实验证明,AT-GRPO使模型能够自主学习高效且具泛化能力的推理策略,在提升性能的同时显著降低推理成本。

多模态工具调用数据构建

为支持训练,团队构建了两套大规模数据集:

AdaTooler-V-300k:用于强化学习阶段,覆盖单图、多图和视频三种模态,涵盖数学、计数、空间理解、逻辑推理等多类任务。

AdaTooler-V-CoT-100k:用于SFT冷启动,包含大量高质量的多轮工具交互推理轨迹。

通过两阶段训练框架,模型先经SFT建立基础多模态推理能力,再通过AT-GRPO掌握自适应工具调用策略。

基准评测

研究团队在12个主流图像与视频理解基准上进行全面评估。

AdaTooler-V在图像问答任务中表现优异,在MMBench上达到87.8%准确率,MathVista上达74.5%。

在视频理解任务中同样领先,VSI-Bench和VideoHolmes上的性能分别达到49.5%和58.3%,显著优于现有方法。

训练曲线显示,随着准确率持续提升,平均推理长度逐步下降,表明模型正逐步学会合理选择是否调用工具,避免盲目使用。

部分典型推理示例如下:

论文地址:https://arxiv.org/pdf/2512.16918
代码地址:https://github.com/CYWang735/AdaTooler-V

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14555
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读101.4k
粉丝0
内容14.6k