英伟达4B小模型击败GPT-5 Pro！成本仅1/36- 大数跨境

首页

英伟达4B小模型击败GPT-5 Pro！成本仅1/36

量子位

2025-12-08

导读：每任务仅需20美分

闻乐发自凹非寺
量子位 | 公众号 QbitAI

英伟达小模型持续突破。在ARC-AGI 2最新评测中，4B参数模型NVARC以27.64%的公开榜成绩超越GPT-5 Pro（18.3%），登顶榜首。

其单任务推理成本仅约20美分，约为GPT-5 Pro单任务成本（超7美元）的1/36。

官方指出，NVARC的核心优势在于采用零预训练深度学习方法：不依赖大规模通用数据集进行前期预训练，从而规避领域偏见与数据依赖问题。

ARC-AGI 2测试本身已消除与公共训练数据的重叠，聚焦模型能否高效掌握超出训练分布的新技能，难度显著提升。

NVARC团队技术负责人Jean-Francois Puget与Ivan Sorokin就该方案进行了深度解读。

不靠参数堆料

英伟达策略核心是将复杂推理迁移至离线合成数据管道，训练轻量、快速响应的小模型。

具体路径为：大规模生成高质量合成数据，并将高成本计算前置到离线阶段。

受限于Kaggle竞赛严苛的算力约束，团队放弃直接调用大型多模态模型（LMM）执行链式推理与代码生成，转而构建离线合成管线。

例如，利用GPT-OSS-120B批量生成高质量合成谜题；整合H-ARC、BARC等现有ARC谜题数据，通过组合简单题目生成更复杂的新题型。

为保障数据质量，推理流程被拆解为多个可独立验证的阶段，最终建成含320万+增强样本的合成数据集，每个样本最多包含7组输入/输出对。

NVARC核心推理模块基于改进版ARChitects方法，选用Qwen3-4B小模型，并通过对话式模板简化谜题理解。

训练阶段采用NeMo RL框架与Megatron后端进行监督微调。

关键突破在于测试时微调（TTFT）：针对ARC-AGI-2“每题规则全新”的特性，引入LoRA技术对每个问题单独微调，使模型在解题前快速适配新任务。

此外，ARChitects方法在解码环节优化了DFS算法的批处理能力，修复结果非确定性问题；统一集成8种数据增强操作评估候选解，最终达成27.64%公开榜得分。

后期团队尝试引入“少即是多”理念的TRM方法与Qwen3-4B融合，虽有小幅提分，但受限于整体架构未实现显著跃升。

有观点质疑：这类小模型是否仅为“做题机器”？难及全能型大模型？

更值得关注的是其方法论价值——在特定任务中，经针对性优化的小模型在性能、成本、响应速度、部署适配性及领域聚焦能力上已展现出显著优势。

将正确的方法用于正确的场景，方能释放最大效能。

正如社区共识所言：模型设计正迈向“敏捷化”新范式。

论文地址：https://drive.google.com/file/d/1vkEluaaJTzaZiJL69TkZovJUkPSDH5Xc/view
参考链接：
https://developer.nvidia.com/blog/nvidia-kaggle-grandmasters-win-artificial-general-intelligence-competition/
[2] https://arcprize.org/blog/arc-prize-2025-results-analysis
[3] https://www.kaggle.com/competitions/arc-prize-2025/writeups/nvarc

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 14846

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读148.9k

粉丝0

内容14.8k

英伟达4B小模型击败GPT-5 Pro！成本仅1/36

闻乐 发自 凹非寺量子位 | 公众号 QbitAI

不靠参数堆料

闻乐发自凹非寺
量子位 | 公众号 QbitAI