大数跨境
0
0

港大&英伟达发布Orchestrator-8B:8B参数打造编排模型新标杆,HLE基准测试超越GPT-5,效率提升2.5倍。

港大&英伟达发布Orchestrator-8B:8B参数打造编排模型新标杆,HLE基准测试超越GPT-5,效率提升2.5倍。 AIGC Studio
2025-12-06
1
导读:添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

Orchestrator-8B 是一种最先进的 8B 参数编排模型,旨在通过协调各种专家模型和工具来解决复杂的多轮代理任务。

在“人类最后的考试”(HLE)基准测试中,ToolOrchestrator-8B 的得分为 37.1%,超过了 GPT-5(35.1%),效率也提高了约 2.5 倍。

主要特点

  • 智能编排:能够管理异构工具集,包括基本工具(搜索、代码执行)和其他 LLM(专用和通用)。
  • 多目标强化学习训练:通过组相对策略优化 (GRPO) 进行训练,采用新颖的奖励函数,优化准确性、延迟/成本和对用户偏好的遵循度。
  • 效率:与整体式前沿模型相比,在显著降低计算成本的同时,实现了更高的精度。
  • 强大的泛化能力:能够泛化到未见过的工具和定价配置。
    NVIDIA AI Releases Orchestrator-8B: A Reinforcement Learning Trained  Controller for Efficient Tool and Model Selection - MarkTechPost

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/pdf/2511.21689
  • 代码:https://github.com/NVlabs/ToolOrchestra
  • 模型:https://huggingface.co/nvidia/Orchestrator-8B

unsetunset介绍unsetunset

论文提出一种名为 ToolOrchestrator 的方法,用于训练小型协调器,以协调智能工具的使用。通过同时使用工具和专用模型,ToolOrchestrator 的性能超越了 GPT-5,效率也更高。给定一个任务,协调器会在推理和工具调用之间交替进行多次迭代以解决问题。协调器可以与多种工具集交互,包括基础工具(例如,网络搜索、代码解释器)、专用逻辑学习模型(例如,编码模型、数学模型)和通用逻辑学习模型(例如,GPT-5、Llama-Nemotron-Ultra-253B、Claude Opus 4.1)。在训练过程中,协调器通过端到端强化学习,根据结果、效率和偏好奖励进行联合优化。为了辅助强化学习训练,论文开发了一个自动化流程,可以大规模地合成环境和工具调用任务。

unsetunset方法概述unsetunset

利用 ToolOrchestra 开发了 Orchestrator-8B,这是一款先进的 8B 参数编排模型,旨在通过协调多种专家模型和工具来解决复杂的多轮智能体任务。在 HLE 测试中,Orchestrator-8B 的得分为 37.1%,优于 GPT-5(35.1%),效率更是其 2.5 倍。在 τ2-Bench 和 FRAMES 测试中,Orchestrator-8B 的性能远超 GPT-5,而成本仅为其约 30%。

unsetunset基准unsetunset

在“人类最后的考试”测试中,Orchestrator-8B 的准确率达到 37.1%,超越了 GPT-5(35.1%),而成本仅降低了 30%,速度却提升了 2.5 倍。在 FRAMES 和 τ²-Bench 测试中,Orchestrator-8B 的表现始终优于强大的单体系统,展现出其灵活的推理能力和强大的工具编排能力。

Orchestrator-8B 在 HLE 上始终优于 GPT-5、Claude Opus 4.1 和 Qwen3-235B-A22B,且成本更低。

unsetunset模型详情unsetunset

  • 开发单位:NVIDIA & 香港大学
  • 型号类型:仅解码器变压器
  • 基础型号:Qwen3-8B
  • 参数:8B
  • 语言:英语
  • 许可:NVIDIA 许可
  • 型号版本:1.0

训练数据集:

  • GeneralThought-430K:https://huggingface.co/datasets/natolambert/GeneralThought-430K-filtered
  • ToolScale:https://huggingface.co/datasets/nvidia/ToolScale

unsetunset结论unsetunset

ToolOrchestra 的方法是用于训练一个小型编排模型,以统一各种工具和专用模型。利用强化学习对 Orchestrator 进行端到端训练,结果表明,该模型能够学习规划自适应的工具使用策略,这些策略以结果质量、效率和用户偏好奖励为指导。这使得智能体能够动态地平衡性能和成本,而不是依赖静态启发式方法或纯粹的监督学习方法。为了辅助强化学习,论文还贡献了一个复杂的用户-智能体-工具合成数据集 ToolScale。在具有挑战性的基准测试上的实验表明,Orchestrator-8B 模型在显著降低成本的同时,实现了最先进的性能,优于规模更大的模型。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

【声明】内容源于网络
0
0
AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
内容 876
粉丝 0
AIGC Studio 一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
总阅读1.8k
粉丝0
内容876