随着大模型技术的迅猛发展,其在信息检索领域的应用已成为人工智能研究的重要方向。深度搜索作为一种能够深入互联网找到难以获取信息的能力,正日益成为评估大模型综合能力的关键维度。
为了更好地衡量和评估大模型在复杂繁多的信息中检索关键信息的能力,我们决定推出中文深度搜索测评基准:SuperCLUE-DeepSearch,基准方案可见:中文「深度搜索」测评基准方案发布!该基准的核心在于建立一套科学、全面的评估体系,以衡量大模型在复杂信息环境中的导航、搜索和整合能力。
本次测评共有24个国内外模型/产品参与,包括11个模型和13个智能体,我们将最后的测评结果榜单分为模型和智能体两个赛道,以下是详细的测评分析。
# 榜单概览
1. 模型总榜——按任务类型划分
2. 模型总榜——按难度等级划分
3. 智能体总榜——按任务类型划分
4. 智能体总榜——按难度等级划分
SuperCLUE-DeepSearch测评摘要
在本次中文深度搜索测评模型赛道中,华为的openPangu-R-72B以73.33分领跑模型榜单,Kimi-K2-Thinking系列模型和Qwen3-Max-Thinking-Preview分别以60.95分和59.05分位居国内前三。在智能体赛道中,ChatGPT Agent以74.29分夺得榜首,MiniMax Agent、豆包深入研究和阶跃深入研究分别以58.10分、57.14分、54.29分位居国内前三。
摘要2:海外智能体产品总体上较国内有显著的领先。
在智能体赛道中,前四名均为海外产品,整体优势显著。国内第一(58.10分)和海外第一(74.29分)相差16.19分,当前国内外智能体产品在信息的深度搜索能力上差距还比较大。
摘要3:随着搜索深度的逐步提升,模型与智能体的综合得分呈显著下降趋势。
具体来看,对于仅需2-3次搜索即可解题的Level 1题目,两者平均得分约为70分;当搜索次数增至4-5次(Level 2),整体平均分降至62分左右;而当解题所需搜索次数超过5次(Level 3)时,平均分大幅下滑至36.77分,降幅尤为明显。
# SuperCLUE-DeepSearch测评体系
(一)任务划分
SuperCLUE-DeepSearch中文深度搜索测评基准围绕三大领域展开测评,具体介绍如下:
1.自然科学
涵盖物理学、生物学、化学、天文学、地理学,考察模型在自然科学各学科知识深度搜索与理解的表现,检验对基础自然规律、现象等内容的搜索能力。
2.工程技术
包含计算机科学、电子工程、机械工程、材料科学、信息技术,聚焦工程技术相关知识与应用,考察模型对工程技术领域专业内容、技术原理等深度搜索水平。
3.人文社科
涉及政治学、经济学、社会学、历史学、哲学、艺术,着重人文社会科学范畴,考察模型对人文社科知识体系、理论观点等深度搜索的能力 。
(二)难度划分
本次SuperCLUE-DeepSearch中文深度搜索测评基准共包含三个难度等级:L1、L2、L3。
L1等级的难度是指模型至少需要通过2-3次搜索才可以得到答案,难度较低;
L2等级的难度是指模型至少需要通过4-5次搜索才可以得到答案,难度中等;
L3等级的难度是指模型至少需要通过5次以上的搜索才可以得到答案,难度较高。
(三)基准要点
SuperCLUE-DeepSearch中文深度搜索测评基准方案具有以下要点:
1. 多领域!
本基准涵盖三大任务:自然科学、工程技术、人文社科,包括物理学、天文学、政治经济等16大领域,确保测评集的全面性和多样性。
2. 高难度!
所有的测评题目均无法通过一次联网搜索直接得到答案。
3. 评估自动化!
严格的自动化0/1评分机制,确保结果的客观性和公平性。
4. 阶梯式的难度分级!
测评集分为三个难度等级 (L1-L3)。难度等级与搜索网页的数量和复杂度严格对应。
# 测评说明
参考SuperCLUE细粒度评估方式,构建专用测评集,每个维度进行细粒度的评估并可以提供详细的反馈信息。
(一)测评集构建
中文深度搜索测评基准中文题库的构建流程如下:
1.根据任务类型,搜集、整理并制作相关数据;
2.中文prompt撰写;
3.开展样例测试,收集反馈数据;
4.基于测试结果优化完善中文prompt;
5.系统化构建各维度专属评测集,形成完整测评题库。
(二)评分方法
本次测评所有题目均提供参考答案,使用裁判模型(GPT-4o-1120)对所有模型的答案进行严格的0/1评分,模型的答案与参考答案一致则该题得1分,反之,该题得0分。
# 参评模型/智能体
本次SuperCLUE-DeepSearch中文深度搜索测评基准共测评了24个模型和智能体,以下是具体的测评模型/产品列表:
# 测评结果
# 模型总榜——按任务类型划分
# 模型总榜——按难度等级划分
# 智能体总榜——按任务类型划分
# 智能体总榜——按难度等级划分
# 测评示例
# 对比示例1 人文社科
[《人类学与现代生活》]
【openPangu-R-72B的答案】:
【评价】:正确,得1分。
【DeepSeek-V3.2-Exp-Thinking的答案】:
【评价】:错误,得0分。
# 对比示例2 人文社科
【题目】:
[2023,刘士林,20237001552]
【ChatGPT Agent的答案】:
【评价】:正确,得1分。
【心流AI助手的答案】:
# 对比示例3 自然科学
【题目】:
[后龙山]
【GPT-5.1(high)的答案】:
【评价】:正确,得1分。
【Kimi-K2-Turbo的答案】:
【评价】:错误,得0分。
# 对比示例4 自然科学
【题目】:
[Polyvinyl Acetate]
【阶跃 深入研究的答案】:
【评价】:正确,得1分。
【心流AI助手的答案】:
【评价】:错误,得0分。
# 对比示例5 工程技术
【题目】:
[陆永]
【Gemini-3-Pro-Preview的答案】:
【评价】:正确,得1分。
【元宝的答案】:
【评价】:错误,得0分。
# 测评分析
1. openPangu-R-72B以73.33分领跑模型榜单,ChatGPT Agent以74.29分领跑智能体榜单。
在本次中文深度搜索测评模型赛道中,华为的openPangu-R-72B以73.33分领跑模型榜单,Kimi-K2-Thinking系列模型和Qwen3-Max-Thinking-Preview分别以60.95分和59.05分位居国内前三。在智能体赛道中,ChatGPT Agent以74.29分夺得榜首,MiniMax Agent、豆包深入研究和阶跃深入研究分别以58.10分、57.14分、54.29分位居国内前三。
2. 海外智能体产品总体上较国内有显著的领先。
在智能体赛道中,前四名均为海外产品,整体优势显著。国内第一(58.10分)和海外第一(74.29分)相差16.19分,当前国内外智能体产品在信息的深度搜索能力上差距还比较大。
3. 随着搜索深度的逐步提升,模型与智能体的综合得分呈显著下降趋势。
具体来看,对于仅需2-3次搜索即可解题的Level 1题目,两者平均得分约为70分;当搜索次数增至4-5次(Level 2),整体平均分降至62分左右;而当解题所需搜索次数超过5次(Level 3)时,平均分大幅下滑至36.77分,降幅尤为明显。
# 测评邀请
1.邮件申请
2.意向沟通
3.参测确认与协议流程
4.提供API接口或大模型
5.获得测评报告
# 邮件申请
# 联系我们

