搜索
首页
大数快讯
大数活动
服务超市
文章专题
出海平台
流量密码
出海蓝图
产业赛道
物流仓储
跨境支付
选品策略
实操手册
报告
跨企查
百科
导航
知识体系
工具箱
更多
找货源
跨境招聘
DeepSeek
分享
OpenAI发布AI Agent评估基准PaperBench
2025-04-03 08:47 星期四
美国开放人工智能研究中心(OpenAI)推出PaperBench基准,用于评估AI智能体复现前沿研究的能力。测试显示,表现最好的Claude 3.5 Sonnet(新版)结合开源框架,平均复现得分为21.0%,但仍未能超越人类基线。
新闻推荐
查看更多
大数新闻社群
7x24h跨境新闻推送
加入卖家交流群
查看更多
2025-04-03 08:47 星期四
OpenAI发布AI Agent评估基准PaperBench
美国开放人工智能研究中心(OpenAI)推出PaperBench基准,用于评估AI智能体复现前沿研究的能力。测试显示,表现最好的Claude 3.5 Sonnet(新版)结合开源框架,平均复现得分为21.0%,但仍未能超越人类基线。
下载