大数跨境

英伟达4B小模型击败GPT-5 Pro!成本仅1/36

英伟达4B小模型击败GPT-5 Pro!成本仅1/36 量子位
2025-12-08
9
导读:每任务仅需20美分
闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

英伟达小模型持续突破。在ARC-AGI 2最新评测中,4B参数模型NVARC27.64%的公开榜成绩超越GPT-5 Pro(18.3%),登顶榜首。

其单任务推理成本仅约20美分,约为GPT-5 Pro单任务成本(超7美元)的1/36

官方指出,NVARC的核心优势在于采用零预训练深度学习方法:不依赖大规模通用数据集进行前期预训练,从而规避领域偏见与数据依赖问题。

ARC-AGI 2测试本身已消除与公共训练数据的重叠,聚焦模型能否高效掌握超出训练分布的新技能,难度显著提升。

NVARC团队技术负责人Jean-Francois Puget与Ivan Sorokin就该方案进行了深度解读。

不靠参数堆料

英伟达策略核心是将复杂推理迁移至离线合成数据管道,训练轻量、快速响应的小模型。

具体路径为:大规模生成高质量合成数据,并将高成本计算前置到离线阶段

受限于Kaggle竞赛严苛的算力约束,团队放弃直接调用大型多模态模型(LMM)执行链式推理与代码生成,转而构建离线合成管线。

例如,利用GPT-OSS-120B批量生成高质量合成谜题;整合H-ARC、BARC等现有ARC谜题数据,通过组合简单题目生成更复杂的新题型。

为保障数据质量,推理流程被拆解为多个可独立验证的阶段,最终建成含320万+增强样本的合成数据集,每个样本最多包含7组输入/输出对。

NVARC核心推理模块基于改进版ARChitects方法,选用Qwen3-4B小模型,并通过对话式模板简化谜题理解。

训练阶段采用NeMo RL框架与Megatron后端进行监督微调。

关键突破在于测试时微调(TTFT):针对ARC-AGI-2“每题规则全新”的特性,引入LoRA技术对每个问题单独微调,使模型在解题前快速适配新任务。

此外,ARChitects方法在解码环节优化了DFS算法的批处理能力,修复结果非确定性问题;统一集成8种数据增强操作评估候选解,最终达成27.64%公开榜得分。

后期团队尝试引入“少即是多”理念的TRM方法与Qwen3-4B融合,虽有小幅提分,但受限于整体架构未实现显著跃升。

有观点质疑:这类小模型是否仅为“做题机器”?难及全能型大模型?

更值得关注的是其方法论价值——在特定任务中,经针对性优化的小模型在性能、成本、响应速度、部署适配性及领域聚焦能力上已展现出显著优势。

将正确的方法用于正确的场景,方能释放最大效能。

正如社区共识所言:模型设计正迈向“敏捷化”新范式。

论文地址:https://drive.google.com/file/d/1vkEluaaJTzaZiJL69TkZovJUkPSDH5Xc/view
参考链接:
https://developer.nvidia.com/blog/nvidia-kaggle-grandmasters-win-artificial-general-intelligence-competition/
[2] https://arcprize.org/blog/arc-prize-2025-results-analysis
[3] https://www.kaggle.com/competitions/arc-prize-2025/writeups/nvarc

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14846
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读148.9k
粉丝0
内容14.8k