闻乐 发自 凹非寺
量子位 | 公众号 QbitAI
英伟达联合香港大学推出8B参数小模型Orchestrator-8B,在人类终极考试HLE中超越GPT-5,成本仅为后者的40%,推理速度提升一倍以上。该模型在HuggingFace上线后迅速跻身热门模型前五。
Orchestrator-8B并非直接参与推理,而是作为“工具主理人”,协调调用各类大模型与专业工具完成任务。
如何超越GPT-5?
面对复杂问题,Orchestrator-8B通过分析需求,动态调度不同工具协同工作。其管理的工具链包括GPT-5、Claude Opus 4.1等大模型,Qwen2.5-Math等专业模型,以及网页搜索、本地检索和代码解释器等实用组件。
- 根据问题类型选择最优工具,如数学题调用Qwen2.5-Math;
- 动态调整执行流程,例如验证结果时启动代码解释器;
- 兼顾用户偏好,优先使用低成本或本地化工具以控制开销。
该模式实现了从“单兵作战”到“团队协作”的转变,显著提升效率与性价比。
这一能力源于英伟达提出的ToolOrchestra训练方法,结合强化学习与定制化数据集ToolScale。
训练过程中设定三项奖惩机制:
- 效果奖励:答案正确性由GPT-5评估打分;
- 效率奖励:响应时间短、调用成本低获得加分;
- 偏好奖励:遵循用户对隐私、预算等要求予以激励。
研究团队构建了涵盖金融、医疗、电商、旅游等10个领域的训练数据集,确保模型适应多样化场景。
在权威测试中,Orchestrator-8B表现优异:HLE得分为37.1%,高于GPT-5的35.1%,运行成本降低至1/2.5;在FRAMES和τ²-Bench测试中达到SOTA水平,推理速度提升超100%。
小模型的崛起之路
Orchestrator-8B并非首个探索小模型调用工具的研究。谷歌DeepMind于2023年推出的Toolformer(12B参数)首次实现模型自主调用计算器、翻译API、搜索引擎等基础工具,但未将大模型纳入工具体系。
MIT与CMU联合提出的ToolRL采用强化学习框架,通过自动生成交互轨迹减少对人工标注的依赖,侧重任务准确性与调用效率,但未整合用户偏好。
今年,香港大学与微软合作提出OCT方法,聚焦工具调用的成本优化,进一步推动小模型在复合系统中的应用。
Orchestrator-8B之所以受到广泛关注,关键在于其实用价值——以极低资源消耗实现接近甚至超越顶级大模型的综合性能,为AI落地提供了高性价比解决方案。
随着多支团队持续投入,小模型驱动的智能编排系统正成为AI发展的重要方向,未来智能化可能不再依赖单一超级大模型。
作者简介
论文第一作者为香港大学博士苏弘锦,研究方向为数据科学与自然语言处理,目前在英伟达实习。
共同第一作者为英伟达研究院研究科学家Shizhe Diao,专注于大型基础模型的预训练、高效调优与对齐技术,曾与字节跳动人工智能实验室李航博士合作。
论文地址:https://arxiv.org/abs/2511.21689
项目主页:https://research.nvidia.com/labs/lpr/ToolOrchestra/
数据集:https://huggingface.co/datasets/nvidia/ToolScale
HuggingFace地址:https://huggingface.co/nvidia/Nemotron-Orchestrator-8B

