大数跨境
0
0

Operator + Deep Research = ChatGPT Agent

Operator + Deep Research = ChatGPT Agent ADaM应用数据挖掘和机器学习
2025-07-18
0
导读:验证了两个趋势:(1)Action agent和Research agent的融合,(2)ChatGPT 作为通用 Agent的发展方向。

负责OperatorDeep Research的两个团队坐到了一起,推出了ChatGPT Agent。官方发布页面的副标题是“bridging research and action”。现在可以在Agent应用形式的表格中,加上真正的action agentresearch agent的结合体。

这对应了此前讨论的两个趋势:

  • Action agentResearch agent的融合:一个擅长与真实世界交互(手与眼),一个擅长复杂推理(大脑),终将走向整合。

  • ChatGPT 作为通用 Agent的发展方向: OpenAI 的目标逐渐清晰,不是语言模型和聊天机器人,而是2C的通用任务执行平台。



应用场景:ChatGPT能解决哪些此前无法完成的任务?

先看官网介绍中对OperatorDeep Research能力的介绍:Operator’s ability to interact with websites.. scroll, click, and type on the web”, deep research’s skill in synthesizing informationanalyzing and summarizing information

再看对局限的介绍:Operator couldn’t dive deep into analysis or write detailed reports”, “deep research couldn’t interact with websites to refine results or access content requiring user authentication”.

Deep Research通过API访问Text Browser解析网页的HTMLDOM,获取结构化文本内容Operator通过模拟人的浏览行为与具有GUI Visual Browser交互。

Text browser的优势是速度快、能高效提取结构化信息和文本,适合大规模信息抓取和深度分析,缺点是“看”不到网页最终呈现给用户的样子,无法提取细粒度和动态信息。

  • 没有明确文本描述的按钮或图标,比如添加到购物车可能是一个购物车图标,或者下一步是一个向右的箭头图标。这些在HTML代码中可能只是一个没有描述性文字的<div><img>标签。

  • 需要动态交互才能呈现的信息,如预订机票或酒店时,需要点击一个日历控件来选择日期。这个日历通常是JavaScript动态生成的,在HTML代码中可能没有直接的、易于解析的日期链接

  • 需要理解视觉布局、甚至进行空间推理才能获取的信息

  • 需要用户登录验证的受限内容


ChatGPT Agent将 Text BrowserVisual Browser结合,可以实现更接近人类的网页使用流程: 先用text browser 快速建立对页面内容的整体理解;遇到交互瓶颈时调用 visual browser 执行具体操作。


Text Browser负责速度和结构化数据提取,GUI Visual Browser负责处理依赖视觉呈现和交互的复杂任务。二者结合,使得Agent既有机器的效率,又有人类的视觉交互能力。


技术实现:如何端到端训练一个模型?

官方博客中说”unlocked entirely new capabilities within one model”,如果ChatGPT Agent延续OpenAI的技术品味,很可能不是多 agent 协同或基于提示词串接多个工具,而是真正端到端训练的单一模型策略网络

Deep ResearchOperator的实现分别基于API AgentGUI Agent两条技术线。端到端训练的主要难点在于如何统一Deep Researchtext browser API调用和Operatorvisual browser浏览行为。它们在观测空间和动作空间上有很大不同。

Deep Research面对的是结构化的网页抽象接口,模型输出生成搜索查询 / 打开链接 / 抓取文本等高层指令,训练主要优化的行为是:用什么搜索词、选择点开哪些网页、如何抽取-综合-引用。

Operator要模拟人的浏览行为和网页具体交互。观测输入是多模态、富含噪声的网页截图,模型要输出生成一系列与GUI直接交互的底层动作(点击、输入、滚动),动作空间粒度大幅细化。

从训练数据准备上,需要综合不同粒度的轨迹数据,既有步骤少、意图明确的粗粒度轨迹,又要有同一目标下的具体执行的浏览行为滴露轨迹。对模型的记忆力和上下文理解能力要求更高。

训练的一个主要难点是如何进行credit assignment。一方面序列更长,另一方面要在不同粒度行为间平衡。

Visual browser应该如同text browser一样封装成工具。根据visual brwoser工具输入任务粒度的不同,可能有两种实现方案:

  • 一是具体执行粒度的,输入具体动作类型和坐标,工具仅负责执行指定动作;这种需要每部行为都要一个模型决策,策略优化和上下文管理难度大,但上限高。

  • 另一种是子任务粒度的,输入分解后的子任务抽象指令,visual browser工具内部包含一个轻量具备具备视觉理解、一定规划与操作能力的GUI Agent。这种的训练和执行效率都更好,而且适合模块复用。


两个方案都会存在,但ChatGPT Agent用的是哪一种,要等更多的使用案例和技术讨论。



OpenAI成立之初的一个重要目标,就是让AI 能够接管一切人类在电脑屏幕前完成的工作。Research AgentAction Agent的融合,超这个目标前进了一大步。

接下来,action agent接入更多I/Oinformation agent可使用更多工具,AI Agent正在突破人类肉身的物理限制,可以以无限带宽连接世界。这不仅是完成人类的任务,更是让agent自主、持续地从人类世界学习和进化的方式。

【声明】内容源于网络
0
0
ADaM应用数据挖掘和机器学习
关注数据挖掘和机器学习的共性基础问题, 并应用于解决计算机视觉和自然语言处理中的具体任务。
内容 170
粉丝 0
ADaM应用数据挖掘和机器学习 关注数据挖掘和机器学习的共性基础问题, 并应用于解决计算机视觉和自然语言处理中的具体任务。
总阅读9
粉丝0
内容170