Operator + Deep Research = ChatGPT Agent

ADaM应用数据挖掘和机器学习

2025-07-18

导读：验证了两个趋势：（1）Action agent和Research agent的融合，（2）ChatGPT 作为通用 Agent的发展方向。

负责Operator和Deep Research的两个团队坐到了一起，推出了ChatGPT Agent。官方发布页面的副标题是“bridging research and action”。现在可以在Agent应用形式的表格中，加上真正的action agent和research agent的结合体。

这对应了此前讨论的两个趋势：

Action agent和Research agent的融合：一个擅长与真实世界交互（手与眼），一个擅长复杂推理（大脑），终将走向整合。
ChatGPT 作为通用 Agent的发展方向: OpenAI 的目标逐渐清晰，不是语言模型和聊天机器人，而是2C的通用任务执行平台。

应用场景：ChatGPT能解决哪些此前无法完成的任务？

先看官网介绍中对Operator和Deep Research能力的介绍：”Operator’s⁠ ability to interact with websites.. scroll, click, and type on the web”, “deep research’s⁠ skill in synthesizing information：analyzing and summarizing information”。

再看对局限的介绍：”Operator couldn’t dive deep into analysis or write detailed reports”, “deep research couldn’t interact with websites to refine results or access content requiring user authentication”.

Deep Research通过API访问Text Browser，解析网页的HTML和DOM，获取结构化文本内容。Operator通过模拟人的浏览行为与具有GUI 的Visual Browser交互。

Text browser的优势是速度快、能高效提取结构化信息和文本，适合大规模信息抓取和深度分析，缺点是“看”不到网页最终呈现给用户的样子，无法提取细粒度和动态信息。

没有明确文本描述的按钮或图标，比如“添加到购物车”可能是一个购物车图标，或者“下一步”是一个向右的箭头图标。这些在HTML代码中可能只是一个没有描述性文字的<div>或<img>标签。
需要动态交互才能呈现的信息，如预订机票或酒店时，需要点击一个日历控件来选择日期。这个日历通常是JavaScript动态生成的，在HTML代码中可能没有直接的、易于解析的日期链接
需要理解视觉布局、甚至进行空间推理才能获取的信息
需要用户登录验证的受限内容

ChatGPT Agent将 Text Browser和Visual Browser结合，可以实现更接近人类的网页使用流程：先用text browser 快速建立对页面内容的整体理解；遇到交互瓶颈时调用 visual browser 执行具体操作。

Text Browser负责速度和结构化数据提取，GUI Visual Browser负责处理依赖视觉呈现和交互的复杂任务。二者结合，使得Agent既有机器的效率，又有人类的视觉交互能力。

技术实现：如何端到端训练一个模型？

官方博客中说”unlocked entirely new capabilities within one model”，如果ChatGPT Agent延续OpenAI的技术品味，很可能不是多 agent 协同或基于提示词串接多个工具，而是真正端到端训练的单一模型策略网络。

Deep Research和Operator的实现分别基于API Agent和GUI Agent两条技术线。端到端训练的主要难点在于如何统一Deep Research的text browser API调用和Operator的visual browser浏览行为。它们在观测空间和动作空间上有很大不同。

Deep Research面对的是结构化的网页抽象接口，模型输出生成搜索查询 / 打开链接 / 抓取文本等高层指令，训练主要优化的行为是：用什么搜索词、选择点开哪些网页、如何抽取-综合-引用。

Operator要模拟人的浏览行为和网页具体交互。观测输入是多模态、富含噪声的网页截图，模型要输出生成一系列与GUI直接交互的底层动作（点击、输入、滚动），动作空间粒度大幅细化。

从训练数据准备上，需要综合不同粒度的轨迹数据，既有步骤少、意图明确的粗粒度轨迹，又要有同一目标下的具体执行的浏览行为滴露轨迹。对模型的记忆力和上下文理解能力要求更高。

训练的一个主要难点是如何进行credit assignment。一方面序列更长，另一方面要在不同粒度行为间平衡。

Visual browser应该如同text browser一样封装成工具。根据visual brwoser工具输入任务粒度的不同，可能有两种实现方案：

一是具体执行粒度的，输入具体动作类型和坐标，工具仅负责执行指定动作；这种需要每部行为都要一个模型决策，策略优化和上下文管理难度大，但上限高。
另一种是子任务粒度的，输入分解后的子任务抽象指令，visual browser工具内部包含一个轻量具备具备视觉理解、一定规划与操作能力的GUI Agent。这种的训练和执行效率都更好，而且适合模块复用。

两个方案都会存在，但ChatGPT Agent用的是哪一种，要等更多的使用案例和技术讨论。

OpenAI成立之初的一个重要目标，就是让AI 能够接管一切人类在电脑屏幕前完成的工作。Research Agent和Action Agent的融合，超这个目标前进了一大步。

接下来，action agent接入更多I/O，information agent可使用更多工具，AI Agent正在突破人类肉身的物理限制，可以以无限带宽连接世界。这不仅是完成人类的任务，更是让agent自主、持续地从人类世界学习和进化的方式。

【声明】内容源于网络

ADaM应用数据挖掘和机器学习

关注数据挖掘和机器学习的共性基础问题, 并应用于解决计算机视觉和自然语言处理中的具体任务。

内容 170

粉丝 0

ADaM应用数据挖掘和机器学习关注数据挖掘和机器学习的共性基础问题, 并应用于解决计算机视觉和自然语言处理中的具体任务。

总阅读9

粉丝0

内容170