大数跨境
0
0

GUI Agent 综述:从传统自动化到多模态大模型驱动的智能体

GUI Agent 综述:从传统自动化到多模态大模型驱动的智能体 亚信科技新技术探索
2025-10-28
9
导读:本文梳理GUI自动化从传统规则驱动到多模态大模型GUI Agent的演进,解析其核心架构、组件及应用场景,显露出其在企业办公、软件测试、虚拟助手等领域的应用潜力,也提及隐私安全、系统可靠性等挑战,旨在



编者荐语


本文梳理了GUI(Graphical User Interface,图形用户界面)自动化技术从传统规则驱动逐步演进,最终催生出多模态大模型支撑的GUI Agent的发展历程,重点解析了GUI Agent的核心架构、关键组件及应用场景。文中展示了GUI Agent在企业办公、软件测试和虚拟助手等领域的应用潜力,同时指出了其在隐私安全、系统可靠性等方面遇到的挑战,并对多模态感知、跨平台泛化和多智能体协作的未来发展进行了展望。本文旨在为 GUI 智能自动化领域的研究与实践提供理论支撑,同时为该领域相关技术研发、场景落地及问题突破提供实践指导。


GUI Agent 综述:从传统自动化到多模态大模型驱动的智能体


亚信科技(中国)有限公司


摘要:随着GUI在桌面、Web 和移动端的广泛应用,自动化需求逐渐从传统的脚本和规则驱动,演进为以自然语言和多模态理解为核心的智能自动化方式。多模态大模型在视觉理解与语言推理上的进展,使得具备“看懂”并“理解”界面能力的 GUI Agent 成为可能。

本文系统梳理了 GUI 自动化的技术演进历程,重点分析基于大模型的 GUI Agent的核心架构(包含操作环境、提示工程、记忆机制等关键组件)及企业办公、软件测试、个人虚拟助手等典型应用场景,并探讨了隐私安全、泛化能力等核心挑战及多模态感知融合、跨平台泛化等未来发展方向。


引言


图形用户界面(GUI)已成为人机交互的主要方式,覆盖了从操作系统到移动应用的各类数字平台。随之而来的自动化需求,也经历了从提升重复性任务效率到追求开放环境智能交互的根本性转变。


传统的自动化方式,如宏脚本、录制回放和机器人流程自动化(RPA),严重依赖预定义的、基于规则的脚本。它们通过在固定位置执行固定操作(如基于屏幕坐标或UI元素ID的点击和输入)来实现自动化。尽管这些技术在封闭、稳定的环境中效果显著,但其固有局限性也日益突出:


(一)传统自动化方式局限性 


· 维护成本高:传统自动化方式非常脆弱,任何界面布局、元素标识(如XPath/CSS Selector)或流程的细微变更(如弹窗、加载延迟)都可能导致自动化流程中断甚至失败,从而显著增加了维护开销。


· 缺乏语义理解:这类方式无法真正“理解”界面内容的含义(例如,一个显示“警告”的红色文本框),其行为依赖硬编码规则,而不是对界面状态的认知,因此难以应对非预定义的异常情况。


· 泛化能力差:传统自动化方式在跨应用迁移时几乎没有复用性,即便是功能相似的应用(如从钉钉切换到飞书),也需要重新开发脚本,这严重制约了自动化的规模化应用。


(二)GUI 自动化技术演进趋势 


近年来,多模态模型(如 GPT-4o、Claude 3.5 等)在视觉理解、自然语言处理(NLP)和逻辑推理方面取得了突破性进展,为克服上述局限性提供了全新的技术路径。这直接推动了GUI Agent 的诞生与发展。


GUI Agent 是一种能够通过感知视觉界面、理解用户意图并执行相应操作的智能系统[1]。其核心范式从“基于规则”转变为“基于理解与推理”。它不再依赖于硬编码的规则,而是将整个GUI界面(截图或结构化数据)作为输入,借助大模型的内生知识进行上下文推理,从而实现跨平台、跨应用的柔性交互。


GUI 自动化技术经历了从规则驱动到模型驱动的显著演进,其发展可分为三个主要阶段:早期自动化系统、向智能 Agent转变阶段,以及当前由大模型驱动的智能体阶段。每一阶段均在前一阶段的基础上扩展了能力边界,逐步实现对复杂、开放任务的理解与执行。


1.早期自动化系统:规则与脚本主导


早期方法严重依赖人工预定义的规则、脚本或随机策略。代表性技术包括基于随机策略的 Monkey Testing、基于规则的状态转换方法与测试用例生成系统(如 Memon[2] 等人和 Hellmann[3] 等人的工作),以及基于脚本的录制回放工具(如 jRapture 和 DART)。


同时,Selenium、Appium、TestComplete 等跨平台工具推动了自动化基础设施的成熟。尽管这些系统为自动化奠定了基础,但其灵活性不足,难以适应动态界面变化,且严重依赖人工配置,难以适应动态或复杂场景。


2.向智能 Agent 转变:机器学习驱动适应性提升


随着机器学习、计算机视觉(CV)、自然语言处理(NLP)和强化学习(RL)的发展,GUI 自动化开始具备一定的环境感知与决策能力。系统如 RoScript 和 AppFlow 利用机器学习识别界面组件并模块化测试流程;Humanoid 和 DeepGUI 通过神经网络模仿用户交互模式,提升测试覆盖率和真实性;RUSS 和 FLIN 尝试将自然语言指令映射为操作动作,但仍限于简单任务。RL 环境如 World of Bits 和 AndroidEnv 为训练交互智能体提供了高度仿真的模拟环境。这一阶段的系统展现出比早期方法更好的适应性,但仍需大量标注数据或环境特定训练,泛化能力有限,语言理解能力较弱。


3.LLM 驱动的 GUI Agent:多模态端到端范式


大语言模型(LLM)尤其是多模态模型(如GPT-4o)的出现,彻底改变了GUI自动化的实现方式。LLM无需分立模块,直接通过自然语言理解、视觉解析和任务规划提供端到端解决方案。在Web领域(如WebAgent)、移动端(如AppAgent、AutoDroid)及桌面系统(如UFO、Cradle)中,LLM展现出对未知任务的强泛化能力和上下文推理水平。工业界(如Claude 3.5 Sonnet)也推出具身交互功能,标志着技术向商业化应用迈进。LLM不仅解决了此前方法在泛化性和语义理解上的瓶颈,更开启了自然语言与人机界面无缝协作的新时代。



图1:GUI Agent发展历程


LLM 驱动的 GUI Agent 架构组件


LLM 驱动的 GUI Agent 能够接收用户以自然语言发出的指令或请求,通过解析屏幕截图或界面元素结构来感知 GUI 的当前状态,并模拟人类操作行为执行相应动作。该类 Agent 依托LLM所具备的自然语言理解、逻辑推理与内容生成能力,可准确识别用户意图,理解GUI上下文,并在多样化的软件环境中自主完成多步骤的复杂任务。其核心架构由以下几个关键组件构成,每一部分在系统中均承担不可或缺的功能角色。



图2:GUI Agent架构图


(一)操作环境(Operating Environment)


操作环境是 GUI Agent 运行的实际场景,包括移动设备、Web 浏览器、桌面操作系统(如 Windows、macOS)等。Agent 必须能够感知环境并适配不同平台的界面特性与交互方式。例如,在移动端需处理触摸手势,在 Web 端需解析 DOM 结构,在桌面端则可能调用系统级 API 如 UI Automation。


Agent 通过多种方式感知环境状态,包括:


· 屏幕截图:屏幕截图能够提供视觉上下文,捕捉布局、图标和文本等非结构化信息,从而帮助Agent理解界面的整体情况。


· 部件树(Widget Tree):部件树以分层视图的形式呈现界面元素,提供布局和组件关系的结构化数据。通过访问部件树,Agent可以识别元素的类型、标签、角色以及界面内部的层级关系。


· 计算机视觉辅助:计算机视觉方法(如OCR文字识别或目标检测模型)可以在缺乏结构化元数据时提取文本和识别UI组件,在环境感知中发挥关键作用。


环境反馈(如界面变化、API 返回值、异常信息)能够帮助 Agent 评估行动效果并动态调整策略。



图3:屏幕实时截图与结构化XML数据


(二)提示工程(Prompt Engineering)


对于由LLM驱动的 GUI Agent,提示构建是关键环节,它整合了模型推理所需的全部信息,直接影响任务执行的成效。Agent 在获取环境数据后,将其组织成结构化提示,以指导 LLM 生成响应并完成用户请求。提示通常包含以下核心要素:


· 用户请求:用户通过自然语言提出任务目标,Agent需要将其作为行动的主要依据。


· Agent 指令:提示中会明确Agent的角色、规则与目标,用以规范输入、输出及推理流程,从而保证任务执行的正确性。


· 环境状态:包括屏幕截图和UI结构信息(例如原始图像和带标注版本),这些内容为模型决策提供视觉与结构上的上下文支持。


· 操作文档:提示中会列出Agent可执行的操作(如点击、输入、调用API等)及其参数,以帮助模型生成可执行的动作序列。


· 演示范例:提供输入与输出的示例,可以激活LLM的情景学习能力,从而提升模型的任务泛化性能。


· 补充信息:提示中还可以加入历史记忆或通过RAG检索得到的外部知识,以增强模型的规划和推理能力。


(三)模型推理(Model Inference)


大模型作为 Agent 的“大脑”,负责对 prompt 进行推理,输出规划、动作或决策。无论是通用的LLM,还是经过 GUI 交互数据微调的专用模型,都能用于提升GUI Agent 对界面操作任务的理解能力。模型推理是 LLM 接收提示后进行分析、规划并生成行动序列的核心过程。它包括:


 · 规划(Plan):LLM会将复杂任务分解为若干子任务,并制定执行策略。常见方式包括采用思维链(CoT)推理或分层规划(全局目标与局部步骤相结合),以确保任务能够逐步落实。


· 行动推理(Action):大模型会根据当前环境状态和可用操作生成具体的函数调用(如 click(button_id)),并将这些调用转化为实际交互行为。


· 补充输出(Complementary Outputs):模型在推理过程中还可能输出额外信息,如推理过程解释、与用户的沟通内容或任务状态更新等,从而增强系统的透明度与可控性。



图4:大模型推理过程


(四)动作执行(Action Execution)


动作执行是指 Agent 根据模型推理的结果,在 GUI 环境中实际执行操作的关键环节,这直接体现了 Agent 与环境的交互能力,并最终决定任务能否成功完成。Agent 通过模拟输入设备(如鼠标、键盘和触摸事件)或调用系统 API 等方式,对 GUI 界面实施具体操作,从而实现人机交互的闭环。该过程将模型输出的指令转化为以下几类实际交互行为:


· UI 操作:通过模拟人类交互行为(如点击、拖拽、键盘输入等)与界面元素互动,这种方式兼容性较强,但执行效率相对较低。


· 原生 API 调用: Agent可以直接调用应用程序或系统提供的接口(例如通过邮件API发送邮件)。这种方式执行效率较高,但依赖于平台是否提供相应支持。


· AI 工具调用:Agent还能够集成外部AI服务(如文本摘要、图像生成等),以扩展自身在复杂任务中的处理能力,实现更为多样化的功能。


(五)记忆(Memory)


为处理复杂的多步骤任务,GUI Agent 需借助记忆机制来持续跟踪历史动作、任务进度与环境状态的变化。记忆机制使 Agent 能够在多步交互中维持状态感知和能力管理,其主要包括短期记忆与长期记忆两类机制。凭借记忆,Agent 不仅能在任务执行过程中保持行为连贯,还可依据历史经验优化决策,从而提升整体任务的效率与成功率。


· 短期记忆(STM):短期记忆用于存储当前任务相关的上下文信息,例如最近的操作、环境状态以及任务计划。由于受到大模型上下文窗口长度的限制,短期记忆机制只能有选择地保留最关键的信息,以便支持后续的推理与动作执行。


· 长期记忆(LTM):长期记忆会将历史任务数据、成功执行的轨迹以及学习到的规则存储在外部系统中。通过检索增强生成(RAG)技术,Agent能够在新的任务中调用先前积累的经验,从而实现持续学习与个性化适应。



图5:GUI Agent驱动的长期记忆示例


应用场景


GUI Agent是一种快速发展的智能系统形态,在实践中展现出广阔的应用潜力。其核心应用场景可以归结为:在合规、可控的环境下,需要人类通过点击、输入、拖拽等操作与软件进行交互的重复性、规则性,或需多步骤跨软件协作的复杂性任务,可由 GUI Agent 实现自动化执行。


(一)企业办公与业务流程自动化


企业办公与业务流程自动化是目前最直接和最大的应用场景。传统的RPA(机器人流程自动化)依赖预先设定的规则和脚本,非常脆弱,界面一改就失效。而GUI Agent结合了计算机视觉(CV)和大语言模型(LLM),能像人一样“看”界面并理解该做什么,容错性和适应性更强。


· 数据录入与迁移:Agent能够在不同系统(如ERP、CRM、Excel、网页表单)之间自动提取、转换和录入数据。例如,它可以每天自动下载销售报表,整理后录入公司财务系统。


· 报告生成与分发:Agent可以自动登录各个业务系统,抓取所需数据,生成固定格式的日报或周报,并通过邮件或聊天工具发送给相关人员。


· 财务与审计流程:它能够完成发票识别、验证与录入报销系统,执行银行对账,或跟踪审计线索等操作。


· 人力资源流程:Agent可自动筛选简历、安排面试,并为新员工创建系统账号与权限,从而降低人工投入。


· 客户服务与支持:它能自动处理常见的客户请求,例如查询订单状态、重置密码或生成服务工单,提高服务效率。


(二)软件测试与质量保障


GUI Agent可以模拟真实用户的行为,进行大规模、高强度的自动化测试,极大提高测试效率和覆盖率。


· 自动化UI测试:Agent能够替代测试工程师执行回归测试,逐一点击应用的功能点,验证UI元素的响应与功能是否正常,并发现传统脚本测试难以检测的视觉或交互问题。


· 探索性测试:在没有预设脚本的情况下,Agent可以自主探索应用程序,尝试不同的操作组合,以发现潜在的Bug或异常情况。


· 跨平台/跨设备兼容性测试:它能在不同操作系统、浏览器或移动设备上自动执行相同的测试流程,从而确保应用在多种环境下都能提供一致的用户体验。


(三)个人虚拟助手


Siri 等虚拟助手属于人工智能驱动的应用 [4],可帮助用户通过自然语言命令完成各类任务。随着大语言模型(LLM)与智能 Agent 技术的发展,虚拟助手的智能化水平显著提升 —— 其能借助上下文感知能力实现更精准的交互,进而有效提升用户生产力。下图展示了基于 GUI Agent 的虚拟助手概念,该虚拟助手可简化复杂任务的执行流程。



图6:移动端虚拟助手执行示例


当前挑战与未来方向


(一)挑战


尽管GUI Agent技术在人机交互自动化中展现出广阔前景,但其实际部署仍面临隐私安全、系统可靠性、人机协作与泛化能力等多方面挑战:


· 隐私与数据安全:GUI Agent需获取屏幕截图、账户凭证等敏感信息,将这些敏感信息传输至远程服务器处理,可能增加泄露与违规风险,尤其在涉及第三方API或非受控环境时。


· 执行安全与系统可靠性:GUI Agent具备直接操控界面的能力,误操作可能引发数据损坏、系统崩溃或未授权访问。大模型输出的不确定性也可能导致错误理解或无效动作。


· 人机协同与交互冲突:用户的自发行为(如输入、点击)可能干扰Agent执行,造成流程中断。自然语言指令的模糊性以及环境突发变化(如弹窗)进一步增加了交互复杂度。


· 可扩展性与泛化能力:与传统自动化“跨应用零复用”的根本性局限不同,LLM驱动的GUI Agent已具备基础的跨平台理解能力。其当前挑战在于高级泛化,即面对训练数据外全新的界面布局、交互逻辑与版本更新时,如何保持性能的鲁棒性与可靠性。


这些挑战表明,尽管GUI Agent具有巨大潜力,但要实现其广泛应用,需要在多个领域进行深入研究和开发,以解决当前的技术限制并推动该领域的进一步发展。


(二)未来方向


基于当前的技术发展趋势与研究进展,GUI Agent 的未来演进将主要围绕以下几个关键方向展开,这些方向共同构成了其实现大规模落地和更高层次智能化的核心路径。


· 多模态感知与融合:未来的GUI Agent将更加注重融合视觉、文本等多模态信息,以提升对动态界面的感知和交互准确性。基于当前多模态大模型在图像识别和语言理解方面的进展,研究者开始探索如何将这些能力应用于GUI场景。例如,SeeAct利用GPT-4V的多模态理解能力,结合图像标注、HTML属性分析与文本选择等方法,显著提升了与实时网页内容交互的准确性与鲁棒性。


· 跨平台泛化与通用架构:随着应用环境的多样化,GUI Agent需要具备跨系统和跨平台的适应能力。未来的研究将致力于构建统一的环境抽象与动作映射机制,并结合元学习等方法,增强其在Windows、macOS、Android等系统及Web、移动端、桌面端之间的泛化能力,从而逐步实现“一个智能体,操作多种环境”的愿景。


· 多智能体协作与任务调度:在复杂任务场景下,单一Agent往往难以高效完成所有工作,因此多智能体系统(MAS)成为重要的发展方向。未来的GUI Agent将通过角色分工与协同处理来提升整体效能,例如由专用Agent分别负责界面操作、数据检索和结果生成,最终共同完成跨软件的复合型任务,从而增强系统的可扩展性与可靠性。


· 安全、合规与可信机制:在实际应用中,数据安全与合规性是GUI Agent必须面对的核心问题。未来的研究将更加强调本地化模型推理,以减少敏感数据外泄的风险。同时,Agent需要具备更高的可解释性与可回滚性,并内置合规检查模块,以满足GDPR、CCPA等数据保护法规的要求,从而逐步建立用户与监管机构的信任。


结论


GUI Agent正逐渐成为连接人类意图与数字界面的重要桥梁。从传统自动化到多模态大模型驱动的智能体,这一技术范式的转变不仅显著提升了自动化能力,也在根本上重新定义了人机交互的方式。尽管当前仍面临隐私安全、系统可靠性和泛化能力等诸多挑战,但随着底层模型能力的不断增强、跨平台适配机制的逐步完善以及产业界的积极探索,GUI Agent正朝着更加稳健、可信和高效的方向发展。


未来,它有望成为下一代智能系统的核心组成部分,既能推动企业实现流程的全面自动化与智能化,也能赋能个人用户,提供更加自然、灵活和个性化的数字交互体验。同时,围绕GUI Agent的研究还将进一步推动人机协作模式的创新,加速智能体在更广泛领域的落地应用。


参考资料:

[1] Dang Nguyen et al. GUI Agents: A Survey, 2024.

[2] A. Memon et al. Dart: a framework for regression testing "nightly/daily builds" of GUI applications, 2003.

[3] T. D. Hellmann and F. Maurer. Rule-based exploratory testing of graphical user interfaces, 2011.

[4] Chaoyun Zhang et al. Large Language Model-Brained GUI Agents: A Survey, 2024.


#大模型  #智能体   #GUIAgent  #多模态

【声明】内容源于网络
0
0
亚信科技新技术探索
1234
内容 230
粉丝 0
亚信科技新技术探索 1234
总阅读958
粉丝0
内容230