大数跨境
0
0

谷歌|Agents(智能体)白皮书

谷歌|Agents(智能体)白皮书 AI科技在线
2025-10-30
6

文 献 介 绍



Agents(智能体)白皮书

来源:谷歌

作者:Julia Wiesinger, Patrick Marlow and Vladimir Vuskovic

发表时间:2024年9月

《Agents》是由 Google 团队撰写的技术白皮书,旨在全面介绍生成式 AI 智能体(Generative AI Agents) 的基本概念、架构、工具类型、实现方法以及实际应用。
图片

一、什么是智能体(Agent)?

  • 智能体是一个自主的程序,能够通过观察环境、使用工具、执行动作来实现目标。

  • 它超越了大语言模型(LLM)本身的能力,具备推理、规划和自主行动的能力。

  • 智能体的核心是认知架构(Cognitive Architecture),包括模型、工具和协调层。

图片

二、智能体的三大核心组件

1. 模型(Model)

  • 作为智能体的“大脑”,负责推理和决策。

  • 可以使用多种推理框架(如 ReAct、Chain-of-Thought、Tree-of-Thoughts)。

  • 模型可以是通用型或多模态模型,也可针对特定任务进行微调。

2. 工具(Tools)

  • 工具是智能体与外部世界交互的桥梁,包括:

    • Extensions(扩展):让智能体直接调用外部 API(如 Google Flights API)。

    • Functions(函数):由模型生成函数调用参数,实际执行由客户端完成。

    • Data Stores(数据存储):提供动态数据源(如 RAG 应用中的向量数据库)。

  • 工具使智能体能够获取实时信息、执行操作(如发送邮件、查询天气等)。

3. 协调层(Orchestration Layer)

  • 管理智能体的记忆、状态、推理循环

  • 通过循环流程(观察-思考-行动)逐步推进任务,直到达成目标。

  • 支持多轮对话和上下文管理。

三、智能体 vs 传统模型

模型(Model)
智能体(Agent)
仅依赖训练数据
通过工具扩展知识
单次推理,无会话管理
支持多轮对话和上下文记忆
无内置工具
内置工具调用能力
需手动设计提示词
具备自主推理架构(如 ReAct)

四、工具类型详解

1. Extensions

  • 提供标准化的 API 连接方式。

  • 智能体通过示例学习如何调用 API。

  • 示例:Gemini 应用中的 Google Flights 扩展。

2. Functions

  • 模型生成函数名和参数,由客户端执行。

  • 适用于需要客户端控制、安全限制或异步处理的场景。

3. Data Stores

  • 通过向量数据库实现检索增强生成(RAG)。

  • 支持结构化与非结构化数据(PDF、网站、数据库等)。

  • 流程:查询 → 向量化 → 匹配 → 检索 → 生成回答。

五、提升模型性能的方法

  • 上下文学习(In-context Learning):通过提示词和示例让模型快速适应任务。

  • 基于检索的上下文学习:动态从外部存储中获取相关示例和数据。

  • 微调(Fine-tuning):使用特定数据集对模型进行预训练,提升专业领域能力。

六、实战示例

  • 使用 LangChain + LangGraph 构建智能体,结合 SerpAPI 和 Google Places API 回答复杂查询。

  • 展示了智能体如何通过多步推理(ReAct)调用工具完成目标。

图片

七、生产级应用:Vertex AI Agents

  • Google Vertex AI 提供全托管环境,支持快速构建、测试和部署智能体。

  • 包含 Agent Builder、Extensions、Function Calling、Example Store 等功能。

  • 示例架构展示了如何将 UI、模型、工具、API 等组件集成在一起。

图片

八、总结与展望

  • 智能体通过工具和推理架构极大扩展了 LLM 的能力。

  • 未来趋势包括:工具更智能、推理能力更强、多智能体协作(Agent Chaining)

  • 建议采用迭代方式开发智能体,结合业务需求选择合适的工具和架构。


【声明】内容源于网络
0
0
AI科技在线
1234
内容 1090
粉丝 0
AI科技在线 1234
总阅读3.1k
粉丝0
内容1.1k