点击蓝字 关注我们
在GPT-5.2发布前不久,谷歌抢先发布了全新版本的Gemini Deep Research Agent。
谷歌对Gemini的深度研究进行了全新构想,使其达到前所未有的强大。
新版Deep Research Agent基于Gemini 3 Pro构建,通过多步强化学习训练,显著提高了准确性并减少了幻觉现象。它能够处理大量上下文信息,并为每个提出的观点提供经过验证的引用来源。
除了对Deep Research Agent进行功能更新之外,还推出了两项全新功能:首先是开源的新网络研究Agent基准DeepSearchQA,用于验证智能体在网络研究任务中的全面性能;其次是发布了全新的交互API(Interactions API)。
最新版的Gemini Deep Research Agent在谷歌的新基准测试中取得了46.4%的得分,其在BrowseComp上的表现与GPT-5 Pro不相上下,但价格却便宜了一个数量级。
Gemini Deep Research是一款专为优化长时间上下文收集与综合任务而设计的智能体。其推理核心采用了目前事实准确性最高的Gemini 3 Pro模型,并经过专门训练,以在复杂任务中尽量减少幻觉生成并提升报告质量。通过拓展多步强化学习在信息搜索中的应用,该智能体能够以高精度自主导航复杂的信息环境。
Gemini Deep Research在完成Humanity's Last Exam (HLE) 的全面测试中表现卓越,达到了46.4%的领先成绩。在DeepSearchQA测试中,同样取得了66.1%的优异表现,并在BrowseComp测试中获得了高达59.2%的分数。
DeepResearch运用迭代式研究规划机制:通过制定查询、分析结果、识别知识差距,随后进行再次搜索。本版本显著增强了网络搜素能力,使其在网站中能够更深入地获取特定数据。该智能体经过优化,可以以更低成本生成经过详尽研究的报告。与传统的聊天机器人不同,Deep Research设计为一个能够长期运行的系统,具备处理「非即时性」复杂任务的核心竞争力。
DeepSearchQA
DeepSearchQA 是谷歌专门为深度研究智能体开发的测试基准,旨在评估智能体在复杂多步骤信息检索任务中的表现。
这个创新的基准包含900项涵盖17个不同领域的人工设计因果链任务,其中每个步骤都需依赖之前的分析。与传统的基于事实的测试不同,DeepSearchQA 通过要求智能体生成详尽答案集来评估其研究完整性,同时检验其研究的精确度与信息召回能力。
DeepSearchQA 还可以用作评估思考时间效益的诊断工具。在内部评估中,谷歌发现,当允许智能体执行更多搜索和推理步骤时,其性能会显著提升。
对比pass@8与pass@1的结果,证明了让智能体通过并行探索多条轨迹进行答案验证的价值。
这些结果基于DeepSearchQA的200个提示子集计算得出。
交互API
专为Agent应用开发设计
交互API原生集成了一套专用接口,专为Agent应用开发场景设计,能够高效处理复杂的上下文管理工作,包括交错式消息、思维链、工具调用及其状态信息。除了提供Gemini模型套件之外,交互API还内置了其首个Gemini Deep Research Agent。
接下来,谷歌计划扩展其内置Agent功能,并支持构建和引入其他Agent,这将使开发者能够通过一个API连接Gemini模型、谷歌内置Agent以及开发者自定义的Agent。交互API提供了一个统一的RESTful端点,以便与模型和Agent进行交互。
Interactions API增强了generateContent的核心功能,为现代智能体应用提供了多个关键特性,包括:
可选的服务器端状态管理:通过将历史记录管理卸载到服务器来简化客户端代码。这不仅减少了上下文管理的错误,还可能通过提高缓存命中率来降低运营成本。
解释性和组合性强的数据模型:设计了一种清晰的架构,适用于处理复杂的智能体历史记录。您可以灵活地调试、处理交错排列的消息、思考过程、以及工具及其结果,并进行流式处理和逻辑推理。
后台执行能力:无需维持客户端连接,即可将长时间运行的推理循环卸载到服务器端,这提高了效率和灵活性。
支持远程MCP工具:模型能够直接调用模型上下文协议(MCP)服务器作为工具,增强了智能体的功能和应用范围。
Interactions API最革命性的特性在于它允许开发者直接调用谷歌预训练的高级Agent,而不仅仅是基础模型。比如开发者可以通过简单的API调用(指定agent=deep-research-pro-preview-12-2025)将Google最顶尖的研究能力嵌入到自己的ERP、CRM或科研软件中。
考虑到DeepResearch一次任务可能消耗数十万token的阅读量和生成量,单次深度研究的成本可能达到数美元。
然而,与其替代的人类初级分析师数小时甚至数天的工作成本相比,这一价格仍具有极高的投资回报率。
在安全领域,合作的重心已从「进攻性能力」转向「防御性韧性」。
DeepMind与英国AI安全研究所(UKAI Security Institute)联合开发了一套基于DeepResearch技术的网络防御工具。BigSleep(前称Project Naptime)是一个利用大型语言模型在广泛的代码库中检测潜在漏洞的智能体。该智能体曾成功地在SQLite等关键开源基础设施中发现了一些人类专家未能察觉的内存安全漏洞。Code Mender与BigSleep紧密协作,不仅负责发现漏洞,还能够自动生成修复代码补丁。
这一「发现-修复」的自动化闭环系统,旨在为英国的国家关键信息基础设施(CII)建立一个实时的「数字免疫系统」,以抵御日益复杂的网络攻击。
Tel丨021-33680778
Mail丨marketing@qinchengsoft.com

