OpenAI发布AI Agent评估基准PaperBench

2025-04-03 08:47 星期四

美国开放人工智能研究中心（OpenAI）推出PaperBench基准，用于评估AI智能体复现前沿研究的能力。测试显示，表现最好的Claude 3.5 Sonnet（新版）结合开源框架，平均复现得分为21.0%，但仍未能超越人类基线。