

为什么你的Agent不够聪明？通义团队揭示当前训练范式的根本缺陷

极市平台

2025-09-22

↑ 点击蓝字关注极市平台

作者丨tomsheep@知乎

来源丨https://zhuanlan.zhihu.com/p/1952313860032804284

编辑丨极市平台

极市导读

通义团队发现“直接微调”让LLM同时学做Agent和学任务会打架，于是插入Agentic CPT阶段——先用200B token合成大规模一阶/高阶行为数据给模型植入“Agent本能”，再微调对齐；新模型AgentFounder-30B在10个主流Agent基准拿下开源SOTA，并验证规模与数据继续放大还能涨>>加入极市CV技术交流群，走在计算机视觉的最前沿

通义团队发现，直接在通用 LLM 上进行微调来训练 AI Agent 效果不佳。其根本原因是，模型需要同时学习「如何成为一个 Agent」（例如，如何思考、使用工具）和「如何完成特定任务」（对齐专家数据），这两种学习目标存在「优化冲突」。

为解决此问题，作者提出 Agentic CPT（Agentic Continual Pre-training）这一新阶段。通过设计两种创新的、可大规模离线合成的数据（FAS 和 HAS），在正式微调前，先让模型预先掌握通用的 Agent 行为模式。
基于此方法训练出的AgentFounder模型，在 10 个主流 Agent 任务基准上取得了 SOTA 的性能，证明了该方法的有效性和巨大潜力。

论文：https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2509.13310

01 当前 Agent 训练范式的内在冲突

基于 LLM 的 AI Agent 是当前的研究热点。这些系统能够自主规划、调用工具，并执行多步骤推理来解决复杂问题。但一个普遍存在的现象是，开源社区的 Agent 模型在性能上通常与顶尖的闭源商业模型存在明显差距。

这种性能差异的根源是什么？仅仅是模型规模或微调数据的差异吗？

1.1 主流的两阶段训练范式

当前大语言模型的开发普遍遵循一个两阶段流程：

预训练 (Pre-training) ：在海量的通用文本数据（网页、书籍、代码等）上，通过「下一个词预测」任务来训练模型。这个阶段的目标是让模型掌握广泛的世界知识、语言规律和基础的推理能力。其损失函数通常为交叉熵损失。
后训练 (Post-training) ：这个阶段旨在使模型的能力与人类的需求和偏好对齐。对于 Agent 任务，后训练通常包括：

监督微调 (SFT) ：使用高质量的「指令 - 响应」或「任务 - 轨迹」数据对模型进行微调。对于 Agent，轨迹数据通常形如 (任务描述, [思考过程, 工具调用, 工具返回结果], … , 最终答案)。
强化学习 (RL) ：通过定义奖励函数（如任务是否成功完成），使用强化学习算法（如 PPO）进一步优化模型的行为策略。

这个「预训练 -> 后训练」的流程在通用对话模型上取得了巨大成功，但当直接应用于复杂的 Agent 任务时，其内在的缺陷便开始显现。

1.2 「智能体式对齐」与「优化冲突」

论文首先扩展了「对齐」的概念，提出了智能体式对齐 (Agentic Alignment) 。它要求模型不仅是在静态问答中输出符合偏好的答案，更要在动态环境中，其行为序列（包括推理链、工具调用、对环境变化的适应等）能与人类专家的解题范式保持一致。

基于此，论文指出了当前范式的核心问题：直接在通用的基础模型上进行后训练，会迫使模型陷入一种「优化冲突」 (Optimization Conflict)。具体而言，模型需要同时学习两个截然不同的目标：

学习基础的智能体能力 (Agentic Capabilities) ：学习如何像一个 Agent 一样思考和行动。这包括任务分解、制定计划、选择并调用合适的工具、从工具返回的错误中恢复等通用技能。
对齐特定的专家轨迹 (Expert Demonstrations) ：学习模仿 SFT 数据中给出的具体解题步骤，以完成特定任务。

这种双重负担导致学习效率低下。论文认为，通用的基础模型缺乏智能体式归纳偏置 (Agentic Inductive Biases) ——即一种内在的、倾向于以 Agent 方式行事的预设结构或能力。

1.3 现有方法的局限

对高质量数据的过度依赖：SFT 严重依赖完整且高质量的专家轨迹。这类数据的获取成本极高，规模有限。
模仿 vs 决策：由于 SFT 数据通常只提供一条确定的「正确路径」，模型学会的是「复现」这条路径，而不是在面临多种可能性时进行「决策」。当遇到训练数据中未见过的情况时，模型的泛化能力和鲁棒性便会受到挑战。
探索能力的缺失：模型难以学习到在信息不全或遭遇失败时如何进行探索和试错，因为监督信号往往是稀疏且延迟的（只有最终任务成功与否的标签）。

现有研究大多聚焦于如何改进后训练阶段，例如设计更巧妙的 SFT 数据生成方法。但该论文指出，问题的根源在于基础模型本身就不是一个合格的「Agent 预备役」。

02 Agentic CPT

为解决上述问题，论文提出在传统的两阶段范式中插入一个新的中间阶段，形成一个三阶段的 Agent 训练流程。

2.1 三阶段训练流程

新的训练流程如下：

通用预训练 (General Pre-training) ：与标准流程相同，获得一个具备通用知识的基础模型。
智能体式持续预训练 (Agentic CPT) ：在通用基础模型之上，使用专门构造的大规模、多样化的智能体行为数据，继续进行「下一个词预测」式的训练。此阶段的目标是让模型内化通用的 Agent 行为模式，形成智能体式归纳偏置，而不是解决任何具体任务。
后训练/任务微调 (Post-training) ：在一个已经具备基础智能体能力的「Agent 基础模型」上，进行 SFT 或 RL，使其对齐特定任务。

这个新范式的核心思想是「能力与对齐分离」。Agentic CPT 阶段专注于培养通用能力，而后训练阶段则专注于特定任务的对齐。这极大地缓解了原有的优化冲突。

2.2 AgentFounder 的两阶段 CPT 策略

在 Agentic CPT 内部，论文还设计了一个渐进式的两阶段训练策略，以高效吸收不同类型的智能体数据并处理长序列任务：

CPT 阶段 1：使用约 200B tokens 的智能体数据，在 32K 的上下文长度下进行训练。这些数据主要由「一阶行为合成」数据和较短的「高阶行为合成」数据构成。此阶段旨在让模型初步掌握工具调用模式和多步推理链。
CPT 阶段 2：使用约 100B tokens 的、更高质量的智能体数据，并将上下文长度扩展到 128K。此阶段专注于长序列的「高阶行为合成」数据，旨在让模型发展出对复杂行为空间和长程规划的深刻理解。

这个设计在计算成本和学习效果之间取得了平衡。先用较短的上下文快速学习基础行为，再用较长的上下文专注于攻克长程依赖和复杂决策。

03 可扩展数据合成

Agentic CPT 范式的关键在于需要海量的、能够体现 Agent 行为的数据。如果这些数据仍需通过昂贵的在线 API 调用和人工标注来获取，那么这个新范式将不具备实用价值。

为此，论文提出了两种创新的、可大规模离线合成的数据生成方法：一阶行为合成 (FAS) 和 高阶行为合成 (HAS) 。

3.1 一阶行为合成 (FAS): 无监督信号的低成本数据生成

FAS 的核心思想是，在不实际执行任何工具调用的情况下，离线模拟 Agent 在解决问题时的初始思考过程。它包含两个主要部分：

3.1.1 知识到问题的转化：构建多样化的训练场景

为了让模型学习在各种场景下行动，训练数据需要覆盖广泛的领域。FAS 通过一种方式将静态知识转化为动态的问题解决场景。

构建实体锚定的开放知识记忆库：从网页、维基百科、历史搜索结果等多种来源收集非结构化文本，并将其转化为以「实体」为索引的知识库。例如，关于实体 巴黎，知识库中可能包含 卢浮宫2024年接待了870万游客、2023年巴黎因臭虫问题引发关注 等多条信息。
多风格问题合成：随机抽取一个或多个实体及其关联的知识，然后利用 LLM 生成需要综合、推理这些知识才能回答的复杂问题。

以下是论文中一个具体的例子，它围绕实体「巴黎」合成了一个高度复杂的谜语式问题：

Q: 在那个两年一度、以某座城市命名的航空航天市场上，哪家买家下了一份「完全平衡」的订单（即确定订单数等于意向订单数）？这座城市有一个金字塔入口的博物馆，在全球体育盛会期间接待了数百万游客；而在此前一年，该市的一场公共滋扰事件导致当局召集了交通运营商。

A: Riyadh Air

要回答这个问题，Agent 必须：

通过 金字塔博物馆 和 全球体育盛会 推断出城市是巴黎。
通过 两年一度的航空航天市场 确定事件是巴黎航展。
通过 前一年的公共滋扰 进一步锁定时间线。
最终搜索巴黎航展上的订单信息，找到符合 订单数=意向数 的买家。

这种方法能够低成本、大规模地生成新颖、可靠且需要多步推理和工具使用才能解决的复杂问题。

3.1.2 规划行为与推理行为的合成

有了问题之后，FAS 会生成两种类型的行为数据：

规划行为合成 (Planning Action Synthesis) ：针对上述生成的问题，让 LLM 生成其初步分析和第一步行动计划，例如详尽的思考过程和第一个 Search 指令。关键在于，这个过程不实际执行工具调用，因此没有 API 成本。这部分数据用于训练模型的任务分解和规划能力。
推理行为合成 (Reasoning Action Synthesis) ：在另一个场景下，同时给模型提供问题和回答该问题所需的所有知识片段。然后要求模型在不使用任何外部工具的情况下，仅凭这些信息生成详尽的、逻辑严密的推理过程，最终得出答案。这部分数据用于训练模型在信息充足时进行归纳、演绎和信息综合的能力。

通过 FAS，论文实现了一种完全离线、成本极低且可无限扩展的 Agent 训练数据生产线，为 Agentic CPT 提供了充足的数据。

3.2 高阶行为合成 (HAS): 从模仿学习到决策学习

在 SFT 或 RL 的后训练阶段，会产生大量 Agent 与环境交互的轨迹。其中许多轨迹因为最终任务失败或过程不完美而被丢弃，造成了学习信号的巨大浪费。HAS 的目标就是变「废」为宝，从这些次优轨迹中提取出宝贵的决策学习信号。

HAS 的核心洞察是：轨迹中的每一步都是一个决策点。与其让模型简单地模仿成功的轨迹，不如让它学习在每个决策点上，为什么某个选择优于其他选择。

HAS 的实现包含两个步骤：

步骤级扩展 (Step-level Scaling) ：对于一条轨迹（无论成败）中的任意一个步骤 S_k（例如，一次思考和工具调用），利用 LLM 在该步骤的上下文中，生成 N 个「备选行动」。这些备选方案代表了在那个时间点，Agent 可能采取的其他合理或不合理的思考路径。
对比决策 - 行为合成 (Contrastive Decision-Action Synthesis) ：将原始轨迹重构为一系列「带反馈的多选题」。

通过这种方式，HAS 将简单的轨迹模仿任务，转化为了一个步骤级决策学习任务。模型不再是学习「走哪条路」，而是学习「在每个岔路口如何选择」，并理解其选择与最终结果之间的因果关系。这种方法极大地提升了数据的利用效率和模型的决策能力。

04 实验验证

论文通过一系列详尽的实验来验证 Agentic CPT 框架的有效性。他们基于 Qwen3-30B 模型，通过该框架训练出了名为AgentFounder-30B的模型。

4.1 与业界顶尖模型的全面对比

AgentFounder-30B 在 10 个涵盖通用网页搜索、专家级问答、学术研究等场景的权威基准上，与各类模型进行了对比。

超越开源模型：AgentFounder-30B 在绝大多数基准上显著优于所有现存的开源深度研究 Agent，如 DeepSeek-V3.1, GLM-4.5 等。例如，在 BrowseComp-en 上，其 39.9% 的得分比当时最强的开源模型高出近 10 个百分点。
比肩商业模型：在多个基准上，AgentFounder-30B 的性能超越或逼近了顶级的闭源商业 Agent。特别是在极具挑战性的 HLE (Humanity's Last Exam) 基准上，它取得了 31.5% 的 Pass@1 得分，成为首个突破 30 分的开源模型，甚至超过了部分已公布的商业 Agent 分数。
强大的通用能力：在 GAIA 基准上取得的 72.8% 的高分，表明其能力不仅限于信息检索，还能迁移到更广泛的通用助手任务中。

4.2 Agentic CPT 的有效性与普适性

为了证明性能提升确实来源于 Agentic CPT，而非特定的后训练技巧，论文进行了一项消融实验。

实验设计：使用两个基础模型（原始的 Qwen3-30B-Base 和经过 Agentic CPT 的 AgentFounder-30B-Base），并分别用三种不同的 SFT 数据集（SFT-A, SFT-B, SFT-C）对它们进行后训练。
实验结果：无论采用哪种 SFT 数据，使用 AgentFounder-30B-Base 作为起点的模型，其性能都稳定且显著地优于使用原始 Qwen3-Base 的模型。这说明 Agentic CPT 作为一个通用的「能力基础」，能够普适性地提升后续各种后训练方法的效果。

4.3 缩放定律：可预见的增长潜力

论文从模型规模和数据量两个维度探索了 Agentic CPT 的缩放定律。

模型规模缩放：从 1B 到 30B，随着模型参数量的增加，AgentFounder 的性能稳定提升。值得注意的是，30B 的 AgentFounder 性能超过了规模更大的基线模型，表明 Agentic CPT 能更高效地利用模型容量。
数据量缩放：随着 Agentic CPT 阶段的训练数据从 0B 增加到 315B tokens，模型的平均性能呈现出平滑的对数增长曲线。这表明该方法是稳健的，并且通过投入更多计算资源和数据，性能还有持续提升的空间。

4.4 训练效率的提升

Agentic CPT 是否真的缓解了「优化冲突」？论文通过对比后训练阶段的损失曲线给出了直接证据。

实验表明，经过 Agentic CPT 的 AgentFounder 模型，在 SFT 阶段的训练损失（loss）显著低于从头开始训练的基线模型，并且收敛得更快。这直观地证明了模型在进入 SFT 阶段时，已经「准备得更好」，学习特定任务自然更加轻松高效。

五、总结

5.1 贡献与启发

诊断了核心问题：指出了主流 Agent 训练范式中存在的「优化冲突」，即同时学习「智能体能力」和「任务对齐」的低效性。
提出了新范式：构建了「通用预训练 -> 智能体式持续预训练 -> 任务微调」的三阶段新流程，通过「能力与对齐分离」的思想，为 Agent 训练提供了更合理的顶层设计。
开发了可扩展的数据方法：设计的 FAS 和 HAS 数据合成方法，实现了大规模、低成本、离线的 Agent 训练数据生产，极大地降低了训练高性能 Agent 的门槛，对开源社区尤其重要。
推动了能力边界：通过 AgentFounder 模型，展示了该框架的强大潜力，在多个维度上将开源 Agent 的能力提升到了一个新的高度，为追赶顶级闭源模型提供了思路。

5.2 局限与挑战

对「教师模型」的依赖：FAS 和 HAS 的数据合成过程依赖于一个强大的 LLM 作为「教师」。这意味着最终训练出的 Agent 的能力上限，在一定程度上受限于这个教师模型的能力。
数据合成的质量控制：论文中提到使用「LLM-as-Judge」进行数据过滤，但 LLM 评判员自身的不稳定性可能会影响数据质量的最终保障。
多语言场景的泛化：实验显示模型在中文等非英语场景下的表现仍有提升空间，这可能需要更有针对性的多语言 CPT 数据。