闻乐 发自 凹非寺
量子位 | 公众号 QbitAI
英伟达小模型持续突破。在ARC-AGI 2最新评测中,4B参数模型NVARC以27.64%的公开榜成绩超越GPT-5 Pro(18.3%),登顶榜首。
其单任务推理成本仅约20美分,约为GPT-5 Pro单任务成本(超7美元)的1/36。
官方指出,NVARC的核心优势在于采用零预训练深度学习方法:不依赖大规模通用数据集进行前期预训练,从而规避领域偏见与数据依赖问题。
ARC-AGI 2测试本身已消除与公共训练数据的重叠,聚焦模型能否高效掌握超出训练分布的新技能,难度显著提升。
NVARC团队技术负责人Jean-Francois Puget与Ivan Sorokin就该方案进行了深度解读。
不靠参数堆料
英伟达策略核心是将复杂推理迁移至离线合成数据管道,训练轻量、快速响应的小模型。
具体路径为:大规模生成高质量合成数据,并将高成本计算前置到离线阶段。
受限于Kaggle竞赛严苛的算力约束,团队放弃直接调用大型多模态模型(LMM)执行链式推理与代码生成,转而构建离线合成管线。
例如,利用GPT-OSS-120B批量生成高质量合成谜题;整合H-ARC、BARC等现有ARC谜题数据,通过组合简单题目生成更复杂的新题型。
为保障数据质量,推理流程被拆解为多个可独立验证的阶段,最终建成含320万+增强样本的合成数据集,每个样本最多包含7组输入/输出对。
NVARC核心推理模块基于改进版ARChitects方法,选用Qwen3-4B小模型,并通过对话式模板简化谜题理解。
训练阶段采用NeMo RL框架与Megatron后端进行监督微调。
关键突破在于测试时微调(TTFT):针对ARC-AGI-2“每题规则全新”的特性,引入LoRA技术对每个问题单独微调,使模型在解题前快速适配新任务。
此外,ARChitects方法在解码环节优化了DFS算法的批处理能力,修复结果非确定性问题;统一集成8种数据增强操作评估候选解,最终达成27.64%公开榜得分。
后期团队尝试引入“少即是多”理念的TRM方法与Qwen3-4B融合,虽有小幅提分,但受限于整体架构未实现显著跃升。
有观点质疑:这类小模型是否仅为“做题机器”?难及全能型大模型?
更值得关注的是其方法论价值——在特定任务中,经针对性优化的小模型在性能、成本、响应速度、部署适配性及领域聚焦能力上已展现出显著优势。
将正确的方法用于正确的场景,方能释放最大效能。
正如社区共识所言:模型设计正迈向“敏捷化”新范式。
论文地址:https://drive.google.com/file/d/1vkEluaaJTzaZiJL69TkZovJUkPSDH5Xc/view
参考链接:
https://developer.nvidia.com/blog/nvidia-kaggle-grandmasters-win-artificial-general-intelligence-competition/
[2] https://arcprize.org/blog/arc-prize-2025-results-analysis
[3] https://www.kaggle.com/competitions/arc-prize-2025/writeups/nvarc

