OpenAI开源BrowseComp重塑Agent浏览器评测

2025-04-11 08:52 星期五

OpenAI开源了测试基准BrowseComp，难度极高，GPT-4o、GPT-4.5准确率仅0.6%和0.9%，带浏览器功能的GPT-4o也仅为1.9%，而Agent模型Deep Research准确率达到51.5%。