【灵思导读】 当许多人还在努力让模型「更会思考」时,SimpleTES用21项扎实的结果表明:AI科研的真正突破,不在于更强的推理能力,而在于将「试错—反馈—进化」这一发现流程规模化放大。
过去一年,AI领域一个普遍执念是让模型思考更久。
更大的参数、更长的推理链、更深的网络——仿佛只要模型足够智能,科学发现就能像解答题目一样被逐步「推算」出来。
然而,一篇新论文有力地质疑了这一共识。
来自宽德智能学习实验室(Will)、斯坦福大学、北京大学、清华大学和香港科技大学(广州)的研究团队,提出了一个名字略显低调但目标宏大的框架——SimpleTES(Simple Test-time Evaluation-driven Scaling)。目前,基于SimpleTES构建的试用平台已在Will官网上线,申请即可体验这种全新的科研范式。
SimpleTES揭示:AI搞科研,光靠「大算力」远远不够。
真正关键的是将「试错」本身系统化地加以放大。
效果有多强?
在横跨六个领域的21个科学问题上,SimpleTES(运行于开源gpt-oss模型)找到了当前最优的解决方案,持续超越了前沿闭源模型基线和精心调优的优化流程。
看几个具体例子。
先看一个非常有趣的数学问题——圆填充。
在一个单位正方形内放置n个互不重叠的圆,使它们的半径之和最大,且所有圆不能重叠或超出边界。
这问题看似像小学数学,实则是组合优化领域的经典难题——圆的数量一多,排列组合的可能性呈爆炸式增长,连专业数学家也只能逐步逼近最优解。
SimpleTES在n=26和n=32两个尺度上,双双刷新了已知最佳纪录。
经典的LASSO算法路径求解,被无数专家优化了几十年。SimpleTES用一个开源模型,直接将速度提升了超过两倍——这不是参数上的微调,而是发现了一种全新的混合算法策略。
基因测序方面,SimpleTES在单细胞RNA测序去噪任务上发现的集成去噪算法,超越了此前的最佳结果,并且能泛化到从未见过的组织类型。
这才是「AI做科研」的真正含义!
不是想不到,而是试得不够
如今几乎所有「AI做科研」——无论是自动写代码、自动调参,还是自动发现数学公式——底层都脱离不了这个循环:
先提出方案 → 运行实验或验证器 → 查看结果 → 根据反馈继续改进。
科学家们已经这样做了几百年。牛顿做过,爱因斯坦做过,你的毕业设计也是如此。
但问题在于,过去一年AI领域的大部分精力,都花在「如何让模型在第一步就想得更好」上——更长的推理链、更大的参数规模、更复杂的Agent架构。
大家都在比拼模型的「脑力」,却几乎没人真正去优化科研工作流。
SimpleTES团队看到了这个盲点。
他们问了一个朴素但被行业忽略的问题:
能不能不去改造模型的思维,而是把「生成候选解→评估反馈→继续改进」这条发现闭环,在测试阶段系统化地放大?
答案是肯定的,而且效果惊人。这就是SimpleTES。
三板斧打造发现引擎
SimpleTES的核心做法并不玄妙。
它将整个科研试错过程拆解为三个最关键的维度,像调音台一样精准控制:
第一板斧:不单走一条路(全局宽度,并行探索)
传统方法是让模型沿着一条思路深入。
问题是,科研不是做选择题——一旦初始方向错了,后续再深的思考也是南辕北辙。
SimpleTES的做法简单直接:同时开启C条独立探索路径,相互不干扰。
这就像同时派出C个博士生,从不同方向攻克同一个课题,总有人能找到正确的路。
实验表明:单一路径反复精修的性能会很快饱和;但在相同总预算下增加并行路径数C,效果提升是实实在在的。
第二板斧:每条路径持续根据反馈改进(精修深度,迭代优化)
每条探索路径并非一次生成答案就结束。
它会反复查看评估结果,再修补、再优化,循环L轮。
就像一个真正的科研人员拿到实验数据:第一版方案效果不好?找出问题,修改后再来。
第二版仍不理想?继续改。
关键在于,这个「改」不是盲目的,而是带着评估器的反馈去改。
第三板斧:每一步先海选再定稿(局部候选数量)
每一轮迭代中,SimpleTES不是只生成一个方案,而是先生成K个候选,让评估器全部打分,保留最好的一个作为这一步的「定稿」,再进入下一轮。
为什么这么做?因为大模型生成内容自带随机性。
若一次只出一个方案,万一刚好生成了差方案,整条路径就被带偏。
先进行一轮「小范围海选」,大大降低了被随机噪声误导的风险。
总预算公式:N = C × L × K
三个维度相乘,就是评估器总调用次数。
整个框架的精髓,就在于如何在这三个维度之间分配有限预算,使「试错」效率最大化。
这就像造出了一台通用的「AI探索放大器」。
21道硬题,6个领域,全面领先
说的再好,没有真题验证也是空谈。
SimpleTES团队显然深知这点——他们直接将框架投入到6个领域、21个开放式科学问题中。
结果几乎每个领域都交出了令人惊叹的成绩。
除了前面提到的新发现,再看几个例子。
先看量子计算。在超导量子计算机架构上,SimpleTES发现的量子比特路由策略,直接把金牌算法SABRE超出21.7%,改进版LightSABRE也被甩开14.9%。在IBM Q20芯片上,额外的CNOT门开销从60,189大幅降至45,441,减少了近四分之一。换到中性原子架构上依然能打——36个测试电路中有34个得到改进,平均执行时间降低33.2%。
再看GPU优化。针对蛋白质结构预测的核心算子TriMul,SimpleTES写出的Triton程序在H100上跑出了1.122毫秒,击败了所有AI方法。更令人惊讶的是,这套方案还能跨硬件迁移——在A100和MI300上同样战胜了公开排行榜的最高成绩,特别是在MI300上,将对手的2.657毫秒压缩到1.352毫秒,近乎腰斩。批量累积求和方面,击败经典cub库平均1.52倍,击败CUDA Agent最高达2.91倍。
算法工程方面更出彩。在AtCoder启发式竞赛AHC058上,SimpleTES从零开始、没有任何算法先验知识,发现的多重启模拟退火程序直接超越了所有人类选手的提交,10次独立运行的得分分布完全没有重叠,赢得毫无悬念。
数学领域同样生猛。Erdős最小重叠问题——数学家啃了半个世纪的硬骨头,SimpleTES将得分从前AI最佳的0.380871推进至0.380856。自相关不等式任务上,分别将最佳人类界限推进了6.79%和0.30%。组合构造的Sum-Difference问题上,SimpleTES设计的新型构造超过最佳人类结果8.03%,超越Google的AlphaEvolve V2达2.05%。
数据科学领域也没遗漏。Scaling Law发现任务上,SimpleTES找到的规律比最佳人类推导的规律,外推拟合度提升了352%,并且发现的Scaling Law可直接用于指导LLM预训练的超参数选择。这已经是对工业界有直接价值的发现。
最关键的一点:这些成绩,很多并非依赖最昂贵的闭源模型。
而是使用开源模型,通过把「试错→评估→迭代」这个流程组织得极其高效,硬生生挤出来的。
让AI获得「长线思维」
如果说SimpleTES的搜索框架是第一个大贡献,那论文的第二个贡献,解决的是一个更深层的问题:AI做科研时的「短视」。
SimpleTES在大规模试错过程中,天然会产生海量的结构化探索轨迹——每一步怎么改的、评估器返回了什么、下一步往哪个方向调整。
这些轨迹本身就是极佳的训练数据。
但如果简单地用传统强化学习方式训练,模型会学到一个糟糕的习惯:只盯着眼前的分数。
这在科学发现中是致命的。
真正的科研探索是一个长程任务——早期的「失败」往往是后期突破的垫脚石。
你在第三轮尝试了一个看似分数下降的方向,可能正是第八轮跳出局部最优的关键一步。
如果模型被训练成「每一步都必须涨分」,它就会变得短视保守,永远在局部最优附近打转,再也不敢冒险。
为解决此问题,作者提出了轨迹层面的后训练(Trajectory-Level Post-training),核心思路是:不让模型学「每一步如何得高分」,而是让它学「整条探索路径如何最终找到突破」。
具体分三步。
第一,放弃即时奖励,只看最终突破。将一整条探索轨迹视为一个完整的rollout,不管中间某步分数涨跌,只取该轨迹最终达到的最高分作为监督信号,反向传播给轨迹中的每个节点。
第二,精英轨迹筛选。基于迭代拒绝采样微调(IRFT),只给总分排前R%的「精英轨迹」赋予训练权重,其余丢弃。同时截断达到最高分之后的冗余步骤,最大化数据效率——只学成功的探索过程,不学无效的尾巴。
第三,动态演进。引入经验回放缓冲区积累历史轨迹,随着模型能力提升,动态收紧精英门槛R,促使模型逐步将长程突破策略内化到自身参数中。模型越强,要求越高,形成正向循环。
结果相当惊人:训练后的模型,不仅在见过的问题上搜索效率更高,在完全没见过的新问题上也能找到原始模型找不到的更强解。
这意味着模型不是死记了几个科研问题的答案,而是真正学会了一种可迁移的科研试错元能力——一种「面对反馈如何做出全局最优决策」的通用直觉。
这才是这篇论文真正令人兴奋的地方:它不仅造了一台搜索引擎,还找到了一种方法,让引擎的使用经验反哺模型本身,形成「越探索→越会探索」的飞轮。
当试错成为一种可扩展的基础能力
SimpleTES的出现,迫使我们重新审视AI科研的路线图。
过去,我们几乎将所有赌注押在「让模型更聪明」这一条路上——参数从千亿到万亿,推理时间从秒到分钟,成本从美元到上千美元。仿佛只要脑子够大、想得够久,科学发现就会自动降临。
但科学发现的历史从来不是这样。
达尔文不是坐在书房里「想出」进化论,而是花了二十年在加拉帕戈斯群岛和自家后院反复观察、验证、推翻自己的假说。
爱因斯坦的广义相对论也不是灵光一闪,而是经过多年数学试错和思想实验,被无数条走不通的路「逼迫」出来的。
科学发现的本质,从来不是一击即中,而是一轮轮试错后逼出的结果。
SimpleTES捕捉到了这个本质。
它的意义不仅在于当前的实验成绩,更在于它指出了一条被长期忽视的扩展轴线:在「生成侧计算」(模型参数、推理长度)之外,「评估侧计算」(试错循环的深度与广度)同样是一个可以持续投入、持续收获的方向。
当这两条轴线同时扩展时,AI做科研的能力上限,可能远超我们今天的想象。
更重要的是,SimpleTES提供的不是一个领域特定的技巧,而是一个跨领域通用方法论——从量子计算到生物信息学,从GPU优化到纯数学。
同一套框架、同一个开源模型,在完全不同的科学领域都能产出成果。
这种通用性本身,已经很能说明问题。
它提出的框架简洁、实验扎实、结论清晰,并且代码已开源,可复现性极高。
这是一篇很可能深刻影响「AI for Science」未来走向的论文。
关于Will实验室
最后,谈谈这篇论文背后的核心力量——Will(宽德智能学习实验室,Wizard Intelligence Learning Lab)。
Will是由宽德投资(WizardQuant)孵化的独立AI实验室,但它所做的事情远不止发表一篇论文这么简单。
这个实验室的目标极其明确且大胆:实现超级科技助手(ASI for Sci-Tech)。
不是做通用聊天机器人,不是做消费级产品,而是要造出一个能真正辅助甚至驱动科学发现和技术创新的AI系统。
SimpleTES只是这个宏大目标下的第一块拼图。
据了解,Will不仅在做上层的框架和方法论——他们还同时在训练自己的基座大模型,从预训练阶段开始构建面向科研场景的底层能力。
他们的野心不是在别人模型上做应用层包装,而是要从地基开始,打造一套为科学发现深度定制的AI基础设施。
预训练基座 + 科研方法论 + 评估驱动的发现引擎,三条线并行推进。这种「全栈式」的投入力度,在国内AI科研实验室中相当罕见。
Will的理念是「Good Will Hunter,AI向善」——造工具,而非造人,服务于科研探索、技术创新与知识生产。
他们要以工业级研发方式探索AI能力的上限,不只做简单技术落地,而是面向Sci-Tech场景持续推动能力演进。
Will汇聚了来自斯坦福、北大、清华、港科大等顶尖机构的AI人才,追求技术复利与持续领先——把「让AI学会做科研」当作一场长期战役。
值得一提的是,宽德作为赞助商参加了今年的ICLR 2026——这场4月23日至27日在巴西里约热内卢举办的全球顶级AI学术会议,与NeurIPS、ICML并列为机器学习领域影响力最大的三大顶会。
宽德的身影出现在ICLR赞助商名单中,释放的信号很清晰:这家从量化金融起步的机构,正以极深的姿态和极长线的投入,介入最前沿的AI基础研究。
从科学理想出发,Will走在长期主义者的长征路上。
SimpleTES只是第一枪。
当一个有资源、有耐心、有技术野心的团队,同时从基座模型预训练和科研方法论两条路径发力,把「让AI学会做科研」当作十年级别的目标来投入时——后面的故事,可能比我们想象来得更快、更猛。
———— END ————
灵思极智旗下“极智系列”三款AI智能应用
关注后,两步置顶服务号,可第一时间收到灵思极智推文!

