大数跨境
0
0

斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元

斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元 量子位
2026-01-27
5
导读:解决分布外科学问题,实现大模型持续学习!
henry 发自 凹非寺
量子位 | 公众号 QbitAI

大模型持续学习迎来新突破!斯坦福与英伟达等机构联合提出全新方法——TTT-Discover(Test-Time Training to Discover),在多个科学领域实现SOTA表现,超越人类专家及闭源前沿模型。

该方法基于开源模型gpt-oss-120b,在测试阶段引入强化学习(RL),针对具体问题动态更新模型权重,使模型能从失败中实时学习,实现“定向进化”。

  • 数学:提出Erdős最小重叠问题的新界,并发现一条新的自相关不等式
  • Kernel工程:在GPUMode任务上效率较顶级人类工程师提升2倍
  • 算法:在历届AtCoder竞赛题中取得最高分
  • 生物信息学:在单细胞RNA-seq去噪任务中达到当前最优性能

测试时进行强化学习

TTT-Discover的核心在于测试时强化学习(Reinforcement Learning at Test Time),其设计聚焦于解决开放性科学问题,强调在特定任务中寻找突破性解,而非追求泛化性能。主要体现在两个方面:

1. 学习目标:熵目标函数(Entropic Objective)

不同于传统强化学习优化平均奖励,TTT-Discover采用熵目标函数,专注于生成单一极优解,而非多个平庸结果。该机制优先强化奖励最高的动作,推动模型向性能极限逼近。

2. 搜索机制:PUCT启发的重用策略

系统引入受PUCT算法启发的状态选择机制,在缓冲区中维护历史尝试,优先扩展高潜力状态,同时保持探索多样性。通过将模型自身生成的大量尝试(含失败记录)构建成“私有数据集”,实现边执行边学习,有效应对分布外(OOD)问题的数据缺失挑战。

相比仅依赖提示工程的“测试时搜索”方法,TTT-Discover通过权重更新实现模型能力的持续进化,真正达成测试阶段的持续学习

具体流程为循环执行以下步骤:

  • 挑选:从缓冲区选取最具潜力的方案作为起点
  • 生成:基于策略生成新代码与推理过程
  • 评分:由环境反馈评估尝试结果
  • 更新:调整模型权重,偏好高奖励动作
  • 循环:持续迭代,最终输出最佳解

熵目标函数与PUCT重用策略

针对传统强化学习在科学发现中的局限——如忽视最优解突破、轨迹过短、探索不足等问题,研究提出两项关键技术改进:

熵目标函数显式引导模型偏好最大奖励动作,并引入KL惩罚项平衡探索与利用,避免陷入局部最优。

在状态选择上,采用改进的PUCT评分函数,其中Q(s)使用子节点的最大奖励而非平均值,体现“从该状态出发能走多远”的前瞻性判断。先验项P(s)则假设高奖励状态更可能衍生更优后继。

实验基于gpt-oss-120b模型,通过Tinker API运行,单问题测试成本约数百美元。结果显示,该方法显著提升模型在复杂科学任务中的表现。

总体而言,TTT-Discover证明:通过在测试阶段引入参数更新,中等规模开源模型即可在无标注数据场景下实现卓越的科学问题求解能力。

目前该方法适用于连续可验证奖励场景,未来需拓展至稀疏奖励与不可验证任务。

论文核心作者介绍

论文由Mert Yuksekgonul和Daniel Koceja共同一作。

Mert Yuksekgonul为斯坦福大学计算机科学系博士生,导师为Carlos Guestrin与James Zou。

Daniel Koceja现任斯坦福人工智能实验室(SAIL)全职研究员,师从Yu Sun。

通讯作者Yu Sun现为斯坦福大学博士后,同时任职于英伟达,研究方向为持续学习,长期致力于测试时训练技术的研究推进。

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14681
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读117.8k
粉丝0
内容14.7k