搜索
首页
大数快讯
大数活动
服务超市
文章专题
出海平台
流量密码
出海蓝图
产业赛道
物流仓储
跨境支付
选品策略
实操手册
报告
跨企查
百科
导航
知识体系
工具箱
更多
找货源
跨境招聘
DeepSeek
分享
红杉中国发布开源AI测试集xbench
2025-06-18 16:16 星期三
6月18日,红杉中国宣布开源其AI基准测试工具xbench中的两个评测集——xbench-ScienceQA和xbench-DeepSearch。红杉中国表示,未来将根据大模型和AI Agent的发展不断更新这些评测内容,并引入“黑白盒”机制,旨在支持更多模型和Agent开发者的同时,防止传统静态评测集中常见的过拟合问题,从而保障xbench的持续有效性。
新闻推荐
查看更多
大数新闻社群
7x24h跨境新闻推送
加入卖家交流群
查看更多
2025-06-18 16:16 星期三
红杉中国发布开源AI测试集xbench
6月18日,红杉中国宣布开源其AI基准测试工具xbench中的两个评测集——xbench-ScienceQA和xbench-DeepSearch。红杉中国表示,未来将根据大模型和AI Agent的发展不断更新这些评测内容,并引入“黑白盒”机制,旨在支持更多模型和Agent开发者的同时,防止传统静态评测集中常见的过拟合问题,从而保障xbench的持续有效性。
下载