文 献 介 绍
Agents(智能体)白皮书
来源:谷歌
作者:Julia Wiesinger, Patrick Marlow and Vladimir Vuskovic
发表时间:2024年9月
一、什么是智能体(Agent)?
智能体是一个自主的程序,能够通过观察环境、使用工具、执行动作来实现目标。
它超越了大语言模型(LLM)本身的能力,具备推理、规划和自主行动的能力。
智能体的核心是认知架构(Cognitive Architecture),包括模型、工具和协调层。
二、智能体的三大核心组件
1. 模型(Model)
作为智能体的“大脑”,负责推理和决策。
可以使用多种推理框架(如 ReAct、Chain-of-Thought、Tree-of-Thoughts)。
模型可以是通用型或多模态模型,也可针对特定任务进行微调。
2. 工具(Tools)
工具是智能体与外部世界交互的桥梁,包括:
Extensions(扩展):让智能体直接调用外部 API(如 Google Flights API)。
Functions(函数):由模型生成函数调用参数,实际执行由客户端完成。
Data Stores(数据存储):提供动态数据源(如 RAG 应用中的向量数据库)。
工具使智能体能够获取实时信息、执行操作(如发送邮件、查询天气等)。
3. 协调层(Orchestration Layer)
管理智能体的记忆、状态、推理循环。
通过循环流程(观察-思考-行动)逐步推进任务,直到达成目标。
支持多轮对话和上下文管理。
三、智能体 vs 传统模型
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
四、工具类型详解
1. Extensions
提供标准化的 API 连接方式。
智能体通过示例学习如何调用 API。
示例:Gemini 应用中的 Google Flights 扩展。
2. Functions
模型生成函数名和参数,由客户端执行。
适用于需要客户端控制、安全限制或异步处理的场景。
3. Data Stores
通过向量数据库实现检索增强生成(RAG)。
支持结构化与非结构化数据(PDF、网站、数据库等)。
流程:查询 → 向量化 → 匹配 → 检索 → 生成回答。
五、提升模型性能的方法
上下文学习(In-context Learning):通过提示词和示例让模型快速适应任务。
基于检索的上下文学习:动态从外部存储中获取相关示例和数据。
微调(Fine-tuning):使用特定数据集对模型进行预训练,提升专业领域能力。
六、实战示例
使用 LangChain + LangGraph 构建智能体,结合 SerpAPI 和 Google Places API 回答复杂查询。
展示了智能体如何通过多步推理(ReAct)调用工具完成目标。
七、生产级应用:Vertex AI Agents
Google Vertex AI 提供全托管环境,支持快速构建、测试和部署智能体。
包含 Agent Builder、Extensions、Function Calling、Example Store 等功能。
示例架构展示了如何将 UI、模型、工具、API 等组件集成在一起。
八、总结与展望
智能体通过工具和推理架构极大扩展了 LLM 的能力。
未来趋势包括:工具更智能、推理能力更强、多智能体协作(Agent Chaining)。
建议采用迭代方式开发智能体,结合业务需求选择合适的工具和架构。

