极市导读
通义团队发现“直接微调”让LLM同时学做Agent和学任务会打架,于是插入Agentic CPT阶段——先用200B token合成大规模一阶/高阶行为数据给模型植入“Agent本能”,再微调对齐;新模型AgentFounder-30B在10个主流Agent基准拿下开源SOTA,并验证规模与数据继续放大还能涨>>加入极市CV技术交流群,走在计算机视觉的最前沿
-
为解决此问题,作者提出 Agentic CPT(Agentic Continual Pre-training)这一新阶段。通过设计两种创新的、可大规模离线合成的数据(FAS 和 HAS),在正式微调前,先让模型预先掌握通用的 Agent 行为模式。 -
基于此方法训练出的AgentFounder模型,在 10 个主流 Agent 任务基准上取得了 SOTA 的性能,证明了该方法的有效性和巨大潜力。
论文:https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2509.13310
01 当前 Agent 训练范式的内在冲突
基于 LLM 的 AI Agent 是当前的研究热点。这些系统能够自主规划、调用工具,并执行多步骤推理来解决复杂问题。但一个普遍存在的现象是,开源社区的 Agent 模型在性能上通常与顶尖的闭源商业模型存在明显差距。
这种性能差异的根源是什么?仅仅是模型规模或微调数据的差异吗?
1.1 主流的两阶段训练范式
当前大语言模型的开发普遍遵循一个两阶段流程:
-
预训练 (Pre-training) :在海量的通用文本数据(网页、书籍、代码等)上,通过「下一个词预测」任务来训练模型。这个阶段的目标是让模型掌握广泛的世界知识、语言规律和基础的推理能力。其损失函数通常为交叉熵损失。
-
后训练 (Post-training) :这个阶段旨在使模型的能力与人类的需求和偏好对齐。对于 Agent 任务,后训练通常包括:
-
监督微调 (SFT) :使用高质量的「指令 - 响应」或「任务 - 轨迹」数据对模型进行微调。对于 Agent,轨迹数据通常形如 (任务描述, [思考过程, 工具调用, 工具返回结果], … , 最终答案)。 -
强化学习 (RL) :通过定义奖励函数(如任务是否成功完成),使用强化学习算法(如 PPO)进一步优化模型的行为策略。
这个「预训练 -> 后训练」的流程在通用对话模型上取得了巨大成功,但当直接应用于复杂的 Agent 任务时,其内在的缺陷便开始显现。
1.2 「智能体式对齐」与「优化冲突」
论文首先扩展了「对齐」的概念,提出了智能体式对齐 (Agentic Alignment) 。它要求模型不仅是在静态问答中输出符合偏好的答案,更要在动态环境中,其行为序列(包括推理链、工具调用、对环境变化的适应等)能与人类专家的解题范式保持一致。
基于此,论文指出了当前范式的核心问题:直接在通用的基础模型上进行后训练,会迫使模型陷入一种「优化冲突」 (Optimization Conflict)。具体而言,模型需要同时学习两个截然不同的目标:
-
学习基础的智能体能力 (Agentic Capabilities) :学习如何像一个 Agent 一样思考和行动。这包括任务分解、制定计划、选择并调用合适的工具、从工具返回的错误中恢复等通用技能。 -
对齐特定的专家轨迹 (Expert Demonstrations) :学习模仿 SFT 数据中给出的具体解题步骤,以完成特定任务。
这种双重负担导致学习效率低下。论文认为,通用的基础模型缺乏智能体式归纳偏置 (Agentic Inductive Biases) ——即一种内在的、倾向于以 Agent 方式行事的预设结构或能力。
1.3 现有方法的局限
-
对高质量数据的过度依赖:SFT 严重依赖完整且高质量的专家轨迹。这类数据的获取成本极高,规模有限。 -
模仿 vs 决策:由于 SFT 数据通常只提供一条确定的「正确路径」,模型学会的是「复现」这条路径,而不是在面临多种可能性时进行「决策」。当遇到训练数据中未见过的情况时,模型的泛化能力和鲁棒性便会受到挑战。 -
探索能力的缺失:模型难以学习到在信息不全或遭遇失败时如何进行探索和试错,因为监督信号往往是稀疏且延迟的(只有最终任务成功与否的标签)。
现有研究大多聚焦于如何改进后训练阶段,例如设计更巧妙的 SFT 数据生成方法。但该论文指出,问题的根源在于基础模型本身就不是一个合格的「Agent 预备役」。
02 Agentic CPT
为解决上述问题,论文提出在传统的两阶段范式中插入一个新的中间阶段,形成一个三阶段的 Agent 训练流程。
2.1 三阶段训练流程
新的训练流程如下:
-
通用预训练 (General Pre-training) :与标准流程相同,获得一个具备通用知识的基础模型。 -
智能体式持续预训练 (Agentic CPT) :在通用基础模型之上,使用专门构造的大规模、多样化的智能体行为数据,继续进行「下一个词预测」式的训练。此阶段的目标是让模型内化通用的 Agent 行为模式,形成智能体式归纳偏置,而不是解决任何具体任务。 -
后训练/任务微调 (Post-training) :在一个已经具备基础智能体能力的「Agent 基础模型」上,进行 SFT 或 RL,使其对齐特定任务。
这个新范式的核心思想是「能力与对齐分离」。Agentic CPT 阶段专注于培养通用能力,而后训练阶段则专注于特定任务的对齐。这极大地缓解了原有的优化冲突。
2.2 AgentFounder 的两阶段 CPT 策略
在 Agentic CPT 内部,论文还设计了一个渐进式的两阶段训练策略,以高效吸收不同类型的智能体数据并处理长序列任务:
-
CPT 阶段 1:使用约 200B tokens 的智能体数据,在 32K 的上下文长度下进行训练。这些数据主要由「一阶行为合成」数据和较短的「高阶行为合成」数据构成。此阶段旨在让模型初步掌握工具调用模式和多步推理链。 -
CPT 阶段 2:使用约 100B tokens 的、更高质量的智能体数据,并将上下文长度扩展到 128K。此阶段专注于长序列的「高阶行为合成」数据,旨在让模型发展出对复杂行为空间和长程规划的深刻理解。
这个设计在计算成本和学习效果之间取得了平衡。先用较短的上下文快速学习基础行为,再用较长的上下文专注于攻克长程依赖和复杂决策。
03 可扩展数据合成
Agentic CPT 范式的关键在于需要海量的、能够体现 Agent 行为的数据。如果这些数据仍需通过昂贵的在线 API 调用和人工标注来获取,那么这个新范式将不具备实用价值。
为此,论文提出了两种创新的、可大规模离线合成的数据生成方法:一阶行为合成 (FAS) 和 高阶行为合成 (HAS) 。
3.1 一阶行为合成 (FAS): 无监督信号的低成本数据生成
FAS 的核心思想是,在不实际执行任何工具调用的情况下,离线模拟 Agent 在解决问题时的初始思考过程。它包含两个主要部分:
3.1.1 知识到问题的转化:构建多样化的训练场景
为了让模型学习在各种场景下行动,训练数据需要覆盖广泛的领域。FAS 通过一种方式将静态知识转化为动态的问题解决场景。
-
构建实体锚定的开放知识记忆库:从网页、维基百科、历史搜索结果等多种来源收集非结构化文本,并将其转化为以「实体」为索引的知识库。例如,关于实体 巴黎,知识库中可能包含卢浮宫2024年接待了870万游客、2023年巴黎因臭虫问题引发关注等多条信息。 -
多风格问题合成:随机抽取一个或多个实体及其关联的知识,然后利用 LLM 生成需要综合、推理这些知识才能回答的复杂问题。
以下是论文中一个具体的例子,它围绕实体「巴黎」合成了一个高度复杂的谜语式问题:
Q: 在那个两年一度、以某座城市命名的航空航天市场上,哪家买家下了一份「完全平衡」的订单(即确定订单数等于意向订单数)?这座城市有一个金字塔入口的博物馆,在全球体育盛会期间接待了数百万游客;而在此前一年,该市的一场公共滋扰事件导致当局召集了交通运营商。
A: Riyadh Air
要回答这个问题,Agent 必须:
-
通过 金字塔博物馆和全球体育盛会推断出城市是巴黎。 -
通过 两年一度的航空航天市场确定事件是巴黎航展。 -
通过 前一年的公共滋扰进一步锁定时间线。 -
最终搜索巴黎航展上的订单信息,找到符合 订单数=意向数的买家。
这种方法能够低成本、大规模地生成新颖、可靠且需要多步推理和工具使用才能解决的复杂问题。
3.1.2 规划行为与推理行为的合成
有了问题之后,FAS 会生成两种类型的行为数据:
-
规划行为合成 (Planning Action Synthesis) :针对上述生成的问题,让 LLM 生成其初步分析和第一步行动计划,例如详尽的思考过程和第一个 Search指令。关键在于,这个过程不实际执行工具调用,因此没有 API 成本。这部分数据用于训练模型的任务分解和规划能力。 -
推理行为合成 (Reasoning Action Synthesis) :在另一个场景下,同时给模型提供问题和回答该问题所需的所有知识片段。然后要求模型在不使用任何外部工具的情况下,仅凭这些信息生成详尽的、逻辑严密的推理过程,最终得出答案。这部分数据用于训练模型在信息充足时进行归纳、演绎和信息综合的能力。
通过 FAS,论文实现了一种完全离线、成本极低且可无限扩展的 Agent 训练数据生产线,为 Agentic CPT 提供了充足的数据。
3.2 高阶行为合成 (HAS): 从模仿学习到决策学习
在 SFT 或 RL 的后训练阶段,会产生大量 Agent 与环境交互的轨迹。其中许多轨迹因为最终任务失败或过程不完美而被丢弃,造成了学习信号的巨大浪费。HAS 的目标就是变「废」为宝,从这些次优轨迹中提取出宝贵的决策学习信号。
HAS 的核心洞察是:轨迹中的每一步都是一个决策点。与其让模型简单地模仿成功的轨迹,不如让它学习在每个决策点上,为什么某个选择优于其他选择。
HAS 的实现包含两个步骤:
-
步骤级扩展 (Step-level Scaling) :对于一条轨迹(无论成败)中的任意一个步骤 S_k(例如,一次思考和工具调用),利用 LLM 在该步骤的上下文中,生成 N个「备选行动」。这些备选方案代表了在那个时间点,Agent 可能采取的其他合理或不合理的思考路径。 -
对比决策 - 行为合成 (Contrastive Decision-Action Synthesis) :将原始轨迹重构为一系列「带反馈的多选题」。
通过这种方式,HAS 将简单的轨迹模仿任务,转化为了一个步骤级决策学习任务。模型不再是学习「走哪条路」,而是学习「在每个岔路口如何选择」,并理解其选择与最终结果之间的因果关系。这种方法极大地提升了数据的利用效率和模型的决策能力。
04 实验验证
论文通过一系列详尽的实验来验证 Agentic CPT 框架的有效性。他们基于 Qwen3-30B 模型,通过该框架训练出了名为AgentFounder-30B的模型。
4.1 与业界顶尖模型的全面对比
AgentFounder-30B 在 10 个涵盖通用网页搜索、专家级问答、学术研究等场景的权威基准上,与各类模型进行了对比。
-
超越开源模型:AgentFounder-30B 在绝大多数基准上显著优于所有现存的开源深度研究 Agent,如 DeepSeek-V3.1, GLM-4.5 等。例如,在 BrowseComp-en 上,其 39.9% 的得分比当时最强的开源模型高出近 10 个百分点。 -
比肩商业模型:在多个基准上,AgentFounder-30B 的性能超越或逼近了顶级的闭源商业 Agent。特别是在极具挑战性的 HLE (Humanity's Last Exam) 基准上,它取得了 31.5% 的 Pass@1 得分,成为首个突破 30 分的开源模型,甚至超过了部分已公布的商业 Agent 分数。 -
强大的通用能力:在 GAIA 基准上取得的 72.8% 的高分,表明其能力不仅限于信息检索,还能迁移到更广泛的通用助手任务中。
4.2 Agentic CPT 的有效性与普适性
为了证明性能提升确实来源于 Agentic CPT,而非特定的后训练技巧,论文进行了一项消融实验。
-
实验设计:使用两个基础模型(原始的 Qwen3-30B-Base 和经过 Agentic CPT 的 AgentFounder-30B-Base),并分别用三种不同的 SFT 数据集(SFT-A, SFT-B, SFT-C)对它们进行后训练。 -
实验结果:无论采用哪种 SFT 数据,使用 AgentFounder-30B-Base 作为起点的模型,其性能都稳定且显著地优于使用原始 Qwen3-Base 的模型。这说明 Agentic CPT 作为一个通用的「能力基础」,能够普适性地提升后续各种后训练方法的效果。
4.3 缩放定律:可预见的增长潜力
论文从模型规模和数据量两个维度探索了 Agentic CPT 的缩放定律。
-
模型规模缩放:从 1B 到 30B,随着模型参数量的增加,AgentFounder 的性能稳定提升。值得注意的是,30B 的 AgentFounder 性能超过了规模更大的基线模型,表明 Agentic CPT 能更高效地利用模型容量。 -
数据量缩放:随着 Agentic CPT 阶段的训练数据从 0B 增加到 315B tokens,模型的平均性能呈现出平滑的对数增长曲线。这表明该方法是稳健的,并且通过投入更多计算资源和数据,性能还有持续提升的空间。
4.4 训练效率的提升
Agentic CPT 是否真的缓解了「优化冲突」?论文通过对比后训练阶段的损失曲线给出了直接证据。
实验表明,经过 Agentic CPT 的 AgentFounder 模型,在 SFT 阶段的训练损失(loss)显著低于从头开始训练的基线模型,并且收敛得更快。这直观地证明了模型在进入 SFT 阶段时,已经「准备得更好」,学习特定任务自然更加轻松高效。
五、总结
5.1 贡献与启发
-
诊断了核心问题:指出了主流 Agent 训练范式中存在的「优化冲突」,即同时学习「智能体能力」和「任务对齐」的低效性。 -
提出了新范式:构建了「通用预训练 -> 智能体式持续预训练 -> 任务微调」的三阶段新流程,通过「能力与对齐分离」的思想,为 Agent 训练提供了更合理的顶层设计。 -
开发了可扩展的数据方法:设计的 FAS 和 HAS 数据合成方法,实现了大规模、低成本、离线的 Agent 训练数据生产,极大地降低了训练高性能 Agent 的门槛,对开源社区尤其重要。 -
推动了能力边界:通过 AgentFounder 模型,展示了该框架的强大潜力,在多个维度上将开源 Agent 的能力提升到了一个新的高度,为追赶顶级闭源模型提供了思路。
5.2 局限与挑战
-
对「教师模型」的依赖:FAS 和 HAS 的数据合成过程依赖于一个强大的 LLM 作为「教师」。这意味着最终训练出的 Agent 的能力上限,在一定程度上受限于这个教师模型的能力。 -
数据合成的质量控制:论文中提到使用「LLM-as-Judge」进行数据过滤,但 LLM 评判员自身的不稳定性可能会影响数据质量的最终保障。 -
多语言场景的泛化:实验显示模型在中文等非英语场景下的表现仍有提升空间,这可能需要更有针对性的多语言 CPT 数据。

公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

