大数跨境
分享
红杉中国发布开源AI测试集xbench
2025-06-18 16:16 星期三
6月18日,红杉中国宣布开源其AI基准测试工具xbench中的两个评测集——xbench-ScienceQA和xbench-DeepSearch。红杉中国表示,未来将根据大模型和AI Agent的发展不断更新这些评测内容,并引入“黑白盒”机制,旨在支持更多模型和Agent开发者的同时,防止传统静态评测集中常见的过拟合问题,从而保障xbench的持续有效性。
新闻推荐 查看更多
大数新闻社群
7x24h跨境新闻推送
加入卖家交流群