大数跨境

结构化扩展拿下Agent工具检索新SOTA,精准找到API|ICLR'26

结构化扩展拿下Agent工具检索新SOTA,精准找到API|ICLR'26 量子位
2026-03-18
2
导读:大模型却找不到工具,竟是因为工具文档没写
EIT-NLP团队 投稿
量子位 | 公众号 QbitAI

在大模型时代,Tool-Use已成为智能体能力的核心组成部分。从代码生成、数据分析到网页查询与复杂API调用,大语言模型正加速掌握“使用工具”的能力。但一个现实瓶颈日益凸显:工具难找。

宁波东方理工大学/宁波数字孪生(东方理工)研究院沈晓宇团队在ICLR 2026发表论文:

《Tools Are Under-Documented: Simple Document Expansion Boosts Tool Retrieval》

论文指出:当前工具检索性能的瓶颈,往往不在模型本身,而在于工具文档质量不足。

该论文已被ICLR 2026接收。

背景:Tool Retrieval的隐形障碍

随着API数量增长至数千甚至上万,工具检索已成为Tool-Use系统的前置关键环节——模型需先从海量工具中精准定位合适工具,方能完成调用与执行。

尽管ToolBench、ToolRet等评测基准推动了模型发展,实际应用中一个基础性问题长期被忽视:工具文档质量参差不齐。普遍存在结构不统一、描述不完整、功能粒度差异大等问题;用户查询以自然语言表达任务意图,而工具文档多为简略技术说明,二者之间存在显著的语义鸿沟(semantic gap)。

因此,核心制约并非模型理解力,而是工具文档缺乏足够结构化、可检索、且与用户查询语义对齐的表达方式。即便采用强检索模型,也难以稳定匹配正确工具。

核心思路:先优化文档,再训练模型

研究提出一种简洁而系统化的解决方案:对工具文档进行结构化扩展(document expansion),再基于扩展后文档开展训练与评估。

通过补充原始API描述中缺失的语义信息,构建更完整、更可检索的工具表达,从而系统性缩小用户查询与工具描述之间的语义差距。相比改进模型架构,该方法从数据源头入手,更具可解释性与泛化性。

论文构建三大关键组件:

1. TOOL-REX:扩展版工具检索基准

在ToolRet基准基础上,新增结构化tool_profile字段,涵盖四大维度:

  • function:工具核心功能
  • tags:能力关键词
  • when_to_use:适用场景与任务类型
  • limitation:使用限制或边界条件

上述字段通过低成本自动化pipeline生成:首先使用Qwen3-32B对原始文档进行结构化扩展,严格依据原文提取并重组语义;随后由LLaMA-3.1-70B执行语义一致性验证,并通过规则检查确保输出合法;少量未通过样本交由GPT-4o重生成;最终经人工抽样审核,保障真实性与一致性。

整套流程形成“LLM扩展→LLM校验→再生成修正→人工抽检”的闭环,使原始文档升级为忠实、完整、结构化的工具描述。

2. 大规模训练语料

基于上述pipeline,构建目前规模最大的结构化工具检索训练语料之一:

  • 50k embedding训练样本
  • 200k reranker训练样本

所有样本均基于扩展后文档生成,显著提升数据语义对齐度与信息密度。

3. 两个专用模型

依托新语料,训练出两个面向工具检索的专用模型,填补领域空白:

Tool-Embed:面向dense retrieval的嵌入模型,适用于大规模工具库高效召回

Tool-Rank:基于大语言模型的reranker,用于候选工具集精细排序

三者结合——结构化文档+大规模语料+专用模型——构成端到端工具检索解决方案。

结果:简单扩展,显著提升

在ToolRet及新构建的TOOL-REX基准上的实验证明:仅对工具文档进行结构化扩展,即可带来稳定且显著的性能提升。

相同模型结构下,仅更换为扩展文档,检索效果即明显改善,证实文档表达质量是影响检索性能的关键变量。

在此基础上,Tool-Embed与Tool-Rank在多项评测中达到新SOTA。典型案例如:原位于Top10之外的正确工具,现可稳定进入Top3,提升源于更完整、更结构化的语义表达,而非更大模型或更强推理。

更深层的发现

论文进一步分析各结构化字段对检索阶段的影响:

  • functiontags对dense retrieval贡献最大,显著增强工具向量表示的功能区分度
  • when_to_use等场景描述则在reranking阶段作用突出,提升任务适配判断精度

扩展文档不仅优化训练效果,也在评测中展现出更高稳定性,有效减少因描述缺失导致的语义误匹配。

结论明确:文档质量本身即是检索系统不可分割的重要组成部分。

总结

当“模型增强”成为主流路径时,本研究提供了一种更朴素却高效的替代思路:在工具检索任务中,提升文档表达质量,往往比增加模型复杂度更能直接改善效果。

Better documentation → Better retrieval.

论文标题:
Tools Are Under-Documented: Simple Document Expansion Boosts Tool Retrieval
第一作者:路璇、黄浩航
通讯作者:沈晓宇(宁波东方理工大学)
arXiv:https://arxiv.org/abs/2510.22670
GitHub:https://github.com/EIT-NLP/Tool-REX

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14883
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读152.6k
粉丝0
内容14.9k