大数跨境

Auto Research时代,47个没有标准答案的任务成了Agent能力必测榜

Auto Research时代,47个没有标准答案的任务成了Agent能力必测榜 量子位
2026-05-13
3
导读:正式进入“迭代优化”时代
允中 发自 凹非寺
量子位 | 公众号 QbitAI

若将AI置于无标准答案的工程现场,能否应对挑战?

AI Agent往往局限于已知知识库的检索,而真实工程环境却充满复杂变量:水下机器人的稳定性调控、动力电池析锂边界控制、量子线路噪声抑制等难题,均需在"不可能三角"中逼近性能极限。

近期,Einsia AI旗下Navers Lab发布的Frontier-Eng Bench突破性地摆脱了AI"做题家"标签,直面工程优化的核心挑战。

该基准测试摒弃传统代码题,构建完整"工程闭环"流程:方案设计→仿真接入→错误分析→参数调优→结果验证。面对47个多学科硬核任务,AI必须在功耗、安全与性能的约束下持续迭代。

这不仅是测试集,更是AI向"自我进化"能力演进的关键预演。当AI能在反馈中自主修正,"人类定目标、AI全天候迭代"的Auto Research时代将加速到来。

AI开启工程硬核优化时代

传统大模型本质是"超级学霸",依赖训练数据拼接答案;而Frontier-Eng Bench则驱动AI转型为工程优化主体:自主生成方案→调用仿真器→分析报错→参数修正→结果验证,全程需在真实反馈中动态优化。

在此闭环中,AI角色实现质变:

  • 优化水下机器人稳定性需自动调整控制器
  • 提升机械臂速度需独立运行仿真测试

AI已超越语义理解,逐步具备工程师的核心特质——基于环境反馈进行可持续优化。

Frontier-Eng Bench总览

该测试核心在于检验AI"是否持续变强"。真实工程优化不存在标准答案,如电池快充实例:AI需在温度、电压、寿命及析锂风险的多重约束下,精准平衡性能边界。

这要求AI展现长期优化能力,而非技巧性"刷题"。评测显示,GPT5.4整体表现稳健,但距离完全攻克Benchmark仍有显著距离。

不同模型评测结果

Auto Research的迭代优化范式

研究揭示:高级智能的本质在于长期反馈闭环,类似AlphaGo通过海量模拟而非棋谱背记赢得对局。工程领域同理,关键突破常来自持续假设→实验→修正的循环,尤以最后1%的性能跃迁最具挑战性。

Frontier-Eng Bench首次系统评估AI"迭代优化能力",并总结两项关键规律:

工程优化的双重幂律衰减

规律一:优化难度呈指数级上升

  • 改进频率 ∝ 1/迭代轮数
  • 改进幅度 ∝ 1/改进次数

前期易获取显著成果,后期每提升0.1%性能均需突破多重瓶颈,如同研发中的"最后1%突破陷阱"。

规律二:深度优化优于宽度扩展

深度 vs 宽度优化路径

并行多线程虽可规避局部卡顿,但在固定预算下,拓展宽度将削弱单线深度。工程突破往往依赖持续积累产生的质变,仅靠"多试几次"难以突破结构性瓶颈。

这预示下一代Agent核心方向:构建能通过长程反馈自我进化的系统,而非追求单次响应最优的模型。

AI工程师时代正在开启

该研究勾勒出首个贴近真实工程循环的AI系统范式,其深远意义在于可能重构生产力模式:

Frontier-Eng Bench体系概览

当AI深度整合工业软件、科学计算平台及量子模拟器等工具,新型研发分工将形成:人类负责定义目标(如"降低部件能耗30%"、"提升机器人控制稳定性"),AI则持续执行仿真实验、解析反馈、参数迭代等重复工序。

这种"人类定方向、AI钻细节"的协作模式,使AI从辅助工具进阶为可解决复杂系统的工程伙伴。Frontier-Eng Bench的终极诘问由此凸显:当AI掌握长期优化能力,距离真正的工程智能还有多远?

论文题目:Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization
项目主页:https://lab.einsia.ai/frontier-eng/
Arxiv:https://arxiv.org/abs/2604.12290
GitHub repo:https://github.com/EinsiaLab/Frontier-Engineering

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 15949
粉丝 1
量子位 各类跨境出海行业相关资讯
总阅读222.8k
粉丝1
内容15.9k