【灵思分享】引爆关注！清北与斯坦福携手，SimpleTES攻克21项科学难题- 大数跨境

首页

【灵思分享】引爆关注！清北与斯坦福携手，SimpleTES攻克21项科学难题

灵思极智

2026-04-30

【灵思导读】 当许多人还在努力让模型「更会思考」时，SimpleTES用21项扎实的结果表明：AI科研的真正突破，不在于更强的推理能力，而在于将「试错—反馈—进化」这一发现流程规模化放大。

过去一年，AI领域一个普遍执念是让模型思考更久。
更大的参数、更长的推理链、更深的网络——仿佛只要模型足够智能，科学发现就能像解答题目一样被逐步「推算」出来。

然而，一篇新论文有力地质疑了这一共识。
来自宽德智能学习实验室（Will）、斯坦福大学、北京大学、清华大学和香港科技大学（广州）的研究团队，提出了一个名字略显低调但目标宏大的框架——SimpleTES（Simple Test-time Evaluation-driven Scaling）。目前，基于SimpleTES构建的试用平台已在Will官网上线，申请即可体验这种全新的科研范式。
SimpleTES揭示：AI搞科研，光靠「大算力」远远不够。

真正关键的是将「试错」本身系统化地加以放大。

效果有多强？
在横跨六个领域的21个科学问题上，SimpleTES（运行于开源gpt-oss模型）找到了当前最优的解决方案，持续超越了前沿闭源模型基线和精心调优的优化流程。

看几个具体例子。
先看一个非常有趣的数学问题——圆填充。
在一个单位正方形内放置n个互不重叠的圆，使它们的半径之和最大，且所有圆不能重叠或超出边界。
这问题看似像小学数学，实则是组合优化领域的经典难题——圆的数量一多，排列组合的可能性呈爆炸式增长，连专业数学家也只能逐步逼近最优解。
SimpleTES在n=26和n=32两个尺度上，双双刷新了已知最佳纪录。

经典的LASSO算法路径求解，被无数专家优化了几十年。SimpleTES用一个开源模型，直接将速度提升了超过两倍——这不是参数上的微调，而是发现了一种全新的混合算法策略。
基因测序方面，SimpleTES在单细胞RNA测序去噪任务上发现的集成去噪算法，超越了此前的最佳结果，并且能泛化到从未见过的组织类型。

这才是「AI做科研」的真正含义！

不是想不到，而是试得不够

如今几乎所有「AI做科研」——无论是自动写代码、自动调参，还是自动发现数学公式——底层都脱离不了这个循环：
先提出方案 → 运行实验或验证器 → 查看结果 → 根据反馈继续改进。
科学家们已经这样做了几百年。牛顿做过，爱因斯坦做过，你的毕业设计也是如此。

但问题在于，过去一年AI领域的大部分精力，都花在「如何让模型在第一步就想得更好」上——更长的推理链、更大的参数规模、更复杂的Agent架构。
大家都在比拼模型的「脑力」，却几乎没人真正去优化科研工作流。
SimpleTES团队看到了这个盲点。
他们问了一个朴素但被行业忽略的问题：
能不能不去改造模型的思维，而是把「生成候选解→评估反馈→继续改进」这条发现闭环，在测试阶段系统化地放大？
答案是肯定的，而且效果惊人。这就是SimpleTES。

三板斧打造发现引擎

SimpleTES的核心做法并不玄妙。
它将整个科研试错过程拆解为三个最关键的维度，像调音台一样精准控制：

第一板斧：不单走一条路（全局宽度，并行探索）
传统方法是让模型沿着一条思路深入。
问题是，科研不是做选择题——一旦初始方向错了，后续再深的思考也是南辕北辙。
SimpleTES的做法简单直接：同时开启C条独立探索路径，相互不干扰。
这就像同时派出C个博士生，从不同方向攻克同一个课题，总有人能找到正确的路。
实验表明：单一路径反复精修的性能会很快饱和；但在相同总预算下增加并行路径数C，效果提升是实实在在的。

第二板斧：每条路径持续根据反馈改进（精修深度，迭代优化）
每条探索路径并非一次生成答案就结束。
它会反复查看评估结果，再修补、再优化，循环L轮。
就像一个真正的科研人员拿到实验数据：第一版方案效果不好？找出问题，修改后再来。
第二版仍不理想？继续改。
关键在于，这个「改」不是盲目的，而是带着评估器的反馈去改。

第三板斧：每一步先海选再定稿（局部候选数量）
每一轮迭代中，SimpleTES不是只生成一个方案，而是先生成K个候选，让评估器全部打分，保留最好的一个作为这一步的「定稿」，再进入下一轮。
为什么这么做？因为大模型生成内容自带随机性。
若一次只出一个方案，万一刚好生成了差方案，整条路径就被带偏。
先进行一轮「小范围海选」，大大降低了被随机噪声误导的风险。

总预算公式：N = C × L × K
三个维度相乘，就是评估器总调用次数。
整个框架的精髓，就在于如何在这三个维度之间分配有限预算，使「试错」效率最大化。
这就像造出了一台通用的「AI探索放大器」。

21道硬题，6个领域，全面领先

说的再好，没有真题验证也是空谈。
SimpleTES团队显然深知这点——他们直接将框架投入到6个领域、21个开放式科学问题中。
结果几乎每个领域都交出了令人惊叹的成绩。

除了前面提到的新发现，再看几个例子。
先看量子计算。在超导量子计算机架构上，SimpleTES发现的量子比特路由策略，直接把金牌算法SABRE超出21.7%，改进版LightSABRE也被甩开14.9%。在IBM Q20芯片上，额外的CNOT门开销从60,189大幅降至45,441，减少了近四分之一。换到中性原子架构上依然能打——36个测试电路中有34个得到改进，平均执行时间降低33.2%。

再看GPU优化。针对蛋白质结构预测的核心算子TriMul，SimpleTES写出的Triton程序在H100上跑出了1.122毫秒，击败了所有AI方法。更令人惊讶的是，这套方案还能跨硬件迁移——在A100和MI300上同样战胜了公开排行榜的最高成绩，特别是在MI300上，将对手的2.657毫秒压缩到1.352毫秒，近乎腰斩。批量累积求和方面，击败经典cub库平均1.52倍，击败CUDA Agent最高达2.91倍。

算法工程方面更出彩。在AtCoder启发式竞赛AHC058上，SimpleTES从零开始、没有任何算法先验知识，发现的多重启模拟退火程序直接超越了所有人类选手的提交，10次独立运行的得分分布完全没有重叠，赢得毫无悬念。

数学领域同样生猛。Erdős最小重叠问题——数学家啃了半个世纪的硬骨头，SimpleTES将得分从前AI最佳的0.380871推进至0.380856。自相关不等式任务上，分别将最佳人类界限推进了6.79%和0.30%。组合构造的Sum-Difference问题上，SimpleTES设计的新型构造超过最佳人类结果8.03%，超越Google的AlphaEvolve V2达2.05%。

数据科学领域也没遗漏。Scaling Law发现任务上，SimpleTES找到的规律比最佳人类推导的规律，外推拟合度提升了352%，并且发现的Scaling Law可直接用于指导LLM预训练的超参数选择。这已经是对工业界有直接价值的发现。

最关键的一点：这些成绩，很多并非依赖最昂贵的闭源模型。
而是使用开源模型，通过把「试错→评估→迭代」这个流程组织得极其高效，硬生生挤出来的。

让AI获得「长线思维」

如果说SimpleTES的搜索框架是第一个大贡献，那论文的第二个贡献，解决的是一个更深层的问题：AI做科研时的「短视」。
SimpleTES在大规模试错过程中，天然会产生海量的结构化探索轨迹——每一步怎么改的、评估器返回了什么、下一步往哪个方向调整。
这些轨迹本身就是极佳的训练数据。
但如果简单地用传统强化学习方式训练，模型会学到一个糟糕的习惯：只盯着眼前的分数。

这在科学发现中是致命的。
真正的科研探索是一个长程任务——早期的「失败」往往是后期突破的垫脚石。
你在第三轮尝试了一个看似分数下降的方向，可能正是第八轮跳出局部最优的关键一步。
如果模型被训练成「每一步都必须涨分」，它就会变得短视保守，永远在局部最优附近打转，再也不敢冒险。
为解决此问题，作者提出了轨迹层面的后训练（Trajectory-Level Post-training），核心思路是：不让模型学「每一步如何得高分」，而是让它学「整条探索路径如何最终找到突破」。
具体分三步。

第一，放弃即时奖励，只看最终突破。将一整条探索轨迹视为一个完整的rollout，不管中间某步分数涨跌，只取该轨迹最终达到的最高分作为监督信号，反向传播给轨迹中的每个节点。
第二，精英轨迹筛选。基于迭代拒绝采样微调（IRFT），只给总分排前R%的「精英轨迹」赋予训练权重，其余丢弃。同时截断达到最高分之后的冗余步骤，最大化数据效率——只学成功的探索过程，不学无效的尾巴。
第三，动态演进。引入经验回放缓冲区积累历史轨迹，随着模型能力提升，动态收紧精英门槛R，促使模型逐步将长程突破策略内化到自身参数中。模型越强，要求越高，形成正向循环。

结果相当惊人：训练后的模型，不仅在见过的问题上搜索效率更高，在完全没见过的新问题上也能找到原始模型找不到的更强解。
这意味着模型不是死记了几个科研问题的答案，而是真正学会了一种可迁移的科研试错元能力——一种「面对反馈如何做出全局最优决策」的通用直觉。
这才是这篇论文真正令人兴奋的地方：它不仅造了一台搜索引擎，还找到了一种方法，让引擎的使用经验反哺模型本身，形成「越探索→越会探索」的飞轮。

当试错成为一种可扩展的基础能力

SimpleTES的出现，迫使我们重新审视AI科研的路线图。
过去，我们几乎将所有赌注押在「让模型更聪明」这一条路上——参数从千亿到万亿，推理时间从秒到分钟，成本从美元到上千美元。仿佛只要脑子够大、想得够久，科学发现就会自动降临。
但科学发现的历史从来不是这样。
达尔文不是坐在书房里「想出」进化论，而是花了二十年在加拉帕戈斯群岛和自家后院反复观察、验证、推翻自己的假说。
爱因斯坦的广义相对论也不是灵光一闪，而是经过多年数学试错和思想实验，被无数条走不通的路「逼迫」出来的。
科学发现的本质，从来不是一击即中，而是一轮轮试错后逼出的结果。

SimpleTES捕捉到了这个本质。
它的意义不仅在于当前的实验成绩，更在于它指出了一条被长期忽视的扩展轴线：在「生成侧计算」（模型参数、推理长度）之外，「评估侧计算」（试错循环的深度与广度）同样是一个可以持续投入、持续收获的方向。
当这两条轴线同时扩展时，AI做科研的能力上限，可能远超我们今天的想象。
更重要的是，SimpleTES提供的不是一个领域特定的技巧，而是一个跨领域通用方法论——从量子计算到生物信息学，从GPU优化到纯数学。
同一套框架、同一个开源模型，在完全不同的科学领域都能产出成果。
这种通用性本身，已经很能说明问题。
它提出的框架简洁、实验扎实、结论清晰，并且代码已开源，可复现性极高。
这是一篇很可能深刻影响「AI for Science」未来走向的论文。

关于Will实验室

最后，谈谈这篇论文背后的核心力量——Will（宽德智能学习实验室，Wizard Intelligence Learning Lab）。
Will是由宽德投资（WizardQuant）孵化的独立AI实验室，但它所做的事情远不止发表一篇论文这么简单。
这个实验室的目标极其明确且大胆：实现超级科技助手（ASI for Sci-Tech）。
不是做通用聊天机器人，不是做消费级产品，而是要造出一个能真正辅助甚至驱动科学发现和技术创新的AI系统。
SimpleTES只是这个宏大目标下的第一块拼图。

据了解，Will不仅在做上层的框架和方法论——他们还同时在训练自己的基座大模型，从预训练阶段开始构建面向科研场景的底层能力。
他们的野心不是在别人模型上做应用层包装，而是要从地基开始，打造一套为科学发现深度定制的AI基础设施。
预训练基座 + 科研方法论 + 评估驱动的发现引擎，三条线并行推进。这种「全栈式」的投入力度，在国内AI科研实验室中相当罕见。
Will的理念是「Good Will Hunter，AI向善」——造工具，而非造人，服务于科研探索、技术创新与知识生产。
他们要以工业级研发方式探索AI能力的上限，不只做简单技术落地，而是面向Sci-Tech场景持续推动能力演进。
Will汇聚了来自斯坦福、北大、清华、港科大等顶尖机构的AI人才，追求技术复利与持续领先——把「让AI学会做科研」当作一场长期战役。

值得一提的是，宽德作为赞助商参加了今年的ICLR 2026——这场4月23日至27日在巴西里约热内卢举办的全球顶级AI学术会议，与NeurIPS、ICML并列为机器学习领域影响力最大的三大顶会。
宽德的身影出现在ICLR赞助商名单中，释放的信号很清晰：这家从量化金融起步的机构，正以极深的姿态和极长线的投入，介入最前沿的AI基础研究。
从科学理想出发，Will走在长期主义者的长征路上。
SimpleTES只是第一枪。
当一个有资源、有耐心、有技术野心的团队，同时从基座模型预训练和科研方法论两条路径发力，把「让AI学会做科研」当作十年级别的目标来投入时——后面的故事，可能比我们想象来得更快、更猛。