负责Operator和Deep Research的两个团队坐到了一起,推出了ChatGPT Agent。官方发布页面的副标题是“bridging research and action”。现在可以在Agent应用形式的表格中,加上真正的action agent和research agent的结合体。
这对应了此前讨论的两个趋势:
Action agent和Research agent的融合:一个擅长与真实世界交互(手与眼),一个擅长复杂推理(大脑),终将走向整合。
ChatGPT 作为通用 Agent的发展方向: OpenAI 的目标逐渐清晰,不是语言模型和聊天机器人,而是2C的通用任务执行平台。
应用场景:ChatGPT能解决哪些此前无法完成的任务?
先看官网介绍中对Operator和Deep Research能力的介绍:”Operator’s ability to interact with websites.. scroll, click, and type on the web”, “deep research’s skill in synthesizing information:analyzing and summarizing information”。
再看对局限的介绍:”Operator couldn’t dive deep into analysis or write detailed reports”, “deep research couldn’t interact with websites to refine results or access content requiring user authentication”.
Deep Research通过API访问Text Browser,解析网页的HTML和DOM,获取结构化文本内容。Operator通过模拟人的浏览行为与具有GUI 的Visual Browser交互。
Text browser的优势是速度快、能高效提取结构化信息和文本,适合大规模信息抓取和深度分析,缺点是“看”不到网页最终呈现给用户的样子,无法提取细粒度和动态信息。
没有明确文本描述的按钮或图标,比如“添加到购物车”可能是一个购物车图标,或者“下一步”是一个向右的箭头图标。这些在HTML代码中可能只是一个没有描述性文字的
<div>或<img>标签。需要动态交互才能呈现的信息,如预订机票或酒店时,需要点击一个日历控件来选择日期。这个日历通常是JavaScript动态生成的,在HTML代码中可能没有直接的、易于解析的日期链接
需要理解视觉布局、甚至进行空间推理才能获取的信息
需要用户登录验证的受限内容
ChatGPT Agent将 Text Browser和Visual Browser结合,可以实现更接近人类的网页使用流程: 先用text browser 快速建立对页面内容的整体理解;遇到交互瓶颈时调用 visual browser 执行具体操作。
Text Browser负责速度和结构化数据提取,GUI Visual Browser负责处理依赖视觉呈现和交互的复杂任务。二者结合,使得Agent既有机器的效率,又有人类的视觉交互能力。
技术实现:如何端到端训练一个模型?
官方博客中说”unlocked entirely new capabilities within one model”,如果ChatGPT Agent延续OpenAI的技术品味,很可能不是多 agent 协同或基于提示词串接多个工具,而是真正端到端训练的单一模型策略网络。
Deep Research和Operator的实现分别基于API Agent和GUI Agent两条技术线。端到端训练的主要难点在于如何统一Deep Research的text browser API调用和Operator的visual browser浏览行为。它们在观测空间和动作空间上有很大不同。
Deep Research面对的是结构化的网页抽象接口,模型输出生成搜索查询 / 打开链接 / 抓取文本等高层指令,训练主要优化的行为是:用什么搜索词、选择点开哪些网页、如何抽取-综合-引用。
Operator要模拟人的浏览行为和网页具体交互。观测输入是多模态、富含噪声的网页截图,模型要输出生成一系列与GUI直接交互的底层动作(点击、输入、滚动),动作空间粒度大幅细化。
从训练数据准备上,需要综合不同粒度的轨迹数据,既有步骤少、意图明确的粗粒度轨迹,又要有同一目标下的具体执行的浏览行为滴露轨迹。对模型的记忆力和上下文理解能力要求更高。
训练的一个主要难点是如何进行credit assignment。一方面序列更长,另一方面要在不同粒度行为间平衡。
Visual browser应该如同text browser一样封装成工具。根据visual brwoser工具输入任务粒度的不同,可能有两种实现方案:
一是具体执行粒度的,输入具体动作类型和坐标,工具仅负责执行指定动作;这种需要每部行为都要一个模型决策,策略优化和上下文管理难度大,但上限高。
另一种是子任务粒度的,输入分解后的子任务抽象指令,visual browser工具内部包含一个轻量具备具备视觉理解、一定规划与操作能力的GUI Agent。这种的训练和执行效率都更好,而且适合模块复用。
两个方案都会存在,但ChatGPT Agent用的是哪一种,要等更多的使用案例和技术讨论。
OpenAI成立之初的一个重要目标,就是让AI 能够接管一切人类在电脑屏幕前完成的工作。Research Agent和Action Agent的融合,超这个目标前进了一大步。

