AutoGLM 2.0：云端智能体的突围之路 —— 从 3A 原则到端到端 RL，GUI Agent 的技术跃迁与产业新局- 大数跨境

首页

AutoGLM 2.0：云端智能体的突围之路 —— 从 3A 原则到端到端 RL，GUI Agent 的技术跃迁与产业新局

元龙数字智能科技

2025-08-21

导读：AutoGLM 2.0云端智能体的突围之路从 3A 原则到端到端 RLGUI Agent 的技术跃迁与产业新局

AutoGLM 2.0

云端智能体的

突围之路

从 3A 原则到端到端 RL

GUI Agent 的技术跃迁与产业新局

2025 年，GUI 智能体赛道迎来了爆发式的关注度增长。在 OpenAI 推出 Operator 并发布 ChatGPT Agent，字节跳动紧随其后推出 UI-TARS-1.5 这一 GUI 开源方案后，各类相关产品如雨后春笋般涌现，让 GUI 智能体领域一跃成为科技行业的焦点。然而，在这片繁荣景象的背后，诸多问题逐渐显露。多数产品仍摆脱不了对本地执行的依赖，这一局限使得它们难以实现 24 小时稳定运行，在实际应用中，中断、卡顿等情况频频发生，用户体验大打折扣。

就在这样的行业环境下，8 月在北京举办的 AutoGLM 2.0 闭门交流会上，智谱 AI 展示了一条与众不同的发展路径 —— 为每个用户配备一台云端的智能手机和电脑。这一创新思路犹如一颗石子投入平静的湖面，立刻吸引了行业内外的广泛关注，为陷入困境的 GUI 智能体赛道带来了新的可能。

行业困局与智谱 AI 的探索起点

当下 GUI 智能体赛道的繁荣，实则是技术热潮下的虚假繁荣。众多产品看似功能丰富，却都被 “本地执行” 这一枷锁牢牢困住。本地执行意味着智能体的运行高度依赖用户的个人设备，设备的性能、电量、网络状况，甚至是用户的操作行为，都会对智能体的运行产生直接影响。当用户的手机锁屏，大部分依赖本地执行的智能体便会 “罢工”；当设备运行其他大型应用占用过多算力时，智能体就会出现卡顿，甚至中途中断任务。

某科技测评机构曾对市场上十款主流 GUI 智能体产品进行测试，结果显示，在模拟用户日常使用场景（如频繁切换应用、设备锁屏、网络波动等）时，有七款产品的任务完成率低于 50%，其中多数问题都源于本地执行的局限性。这样的现状让用户对 GUI 智能体的实用性产生了质疑，也让整个行业陷入了发展的瓶颈。

智谱团队在这一方向的探索并非一时兴起，而是源于对行业痛点的深刻洞察和对技术未来的长远考量。早在 2023 年底，GPT-4 调用 API 和使用浏览器的能力给了他们极大的启发。当时，团队成员就开始思索：如果 AI 能够像人一样熟练操作各种设备，那它将能承担更多的工作，发挥更大的价值。

这一技术方向的产生，还源于一个关键发现：第三产业 50% 以上的价值创造都要依靠电脑、手机和人的大脑。要是 AI 能熟练操作这些设备，那它就具备了参与经济活动的基本能力。这一认知如同明灯，为团队的探索指明了清晰的方向。

2024 年 10 月，第一版 AutoGLM 发布，虽然已经能实现操作手机的功能，但很快就暴露出本地系统的限制，其中最大的问题就是锁屏即停，这严重限制了它的实际应用价值。之后推出的沉思版进一步融合了 DeepResearch 能力，功能有了一定提升，可还是没能彻底解决核心问题。经过近两年的持续探索和更新，团队最终推出了 AutoGLM 2.0—— 一款由纯国产模型 GLM-4.5 与 GLM-4.5V 驱动的 GUI Agent，具备推理、代码和多模态的全面能力，真正实现了技术上的跨越。

AutoGLM 2.0 的技术架构与核心优势

AutoGLM 与市面上其他 Agent 产品的根本不同，在于它操作的是一台真正完整的电脑。当其他产品还局限在 Browser 和 VS Code 时，AutoGLM 已经能够运行 Office、Photoshop 等桌面应用，这意味着它在功能覆盖上有了质的飞跃。

选择这样的产品形态，源于智谱团队对 AGI 早期形态的深刻理解，他们认为真正的智能体需要满足 “3A 原则”。全时运行意味着即使用户离线或睡眠，Agent 仍能 24 小时不间断执行任务。比如用户下达在深夜抢购特定商品的指令，AutoGLM 2.0 能在指定时间自动操作，无需用户保持设备在线。有用户曾通过 AutoGLM 2.0 设置了凌晨 3 点抢购限量商品的任务，最终成功下单，这在以往依赖本地执行的智能体上是难以实现的。

自主零干扰指的是 Agent 独立运行在云端，不占用用户本地屏幕与算力，如同平行世界的数字分身。用户在使用本地设备处理其他事务时，完全不会受到 Agent 执行任务的影响。有测试者在 AutoGLM 2.0 执行视频剪辑任务的同时，用同一台电脑进行游戏，游戏过程流畅无卡顿，电脑的 CPU 和内存占用率也处于正常水平。

全域连接则是要突破浏览器对话框的限制，未来将跨越手机、电脑、智能穿戴等多种设备，真正融入物理世界，实现多设备协同工作。目前，AutoGLM 2.0 已在部分场景实现了多设备的初步协同，比如用户通过手机下达指令，让云端智能体在电脑上完成文档编辑后，再将文档同步到手机上供用户查看。

在技术实现方面，智谱团队透露，云虚拟机的基础设施并非完全自主开发，虚拟机镜像本身的数据安全和隐私保护策略，是与阿里云等合作伙伴共同构建的。手机端同样采用与厂商合作的模式，这种合作模式不仅确保了系统的稳定性和安全性，还能充分利用各方的技术优势，加快产品的更新与完善。

用户数据安全一直是云端执行中最敏感的话题，对此智谱明确表示：“我们不知道用户的账号密码。Agent 也不会在没有主动确认的情况下直接执行敏感操作。” 虚拟机镜像的数据安全和隐私保护由专业云服务商负责，团队坦言他们不能直接访问用户数据，系统只保留网站给的 token，这个 token 有失效期，与用户在使用自己浏览器的机制完全相同。

对于当前存在潜在责任风险的操作，团队在重点环节设置了安全围栏，例如支付环节需要用户最终确认，发布内容需要二次验证，通过多重保障机制消除用户的顾虑。某电商从业者在使用 AutoGLM 2.0 进行采购下单时，当系统涉及支付操作时，会弹出确认窗口，只有在他手动确认后，支付流程才会继续，这让他对使用过程中的资金安全有了极大的信心。

AutoGLM 2.0 的训练体系与技术突破

在线下交流中，团队展示了 AutoGLM 技术发展的三个关键阶段，每个阶段都代表着对 Agent 训练理念的重新思考。2023 年 8 月处于第一阶段，Agent Bench 发布，团队首先解决了如何系统评估 Agent 模型能力的基础问题。这为后续的技术迭代奠定了重要的评价体系基础，就像为赛跑设立了清晰的终点线和计时标准，让后续的技术优化有了明确的方向。

在这一阶段，团队通过大量的实验和数据分析，建立了涵盖任务完成率、操作效率、稳定性等多个维度的评估指标，使得对 Agent 模型的能力有了可量化、可对比的评价标准。这一体系的建立，不仅为智谱团队自身的技术发展提供了指引，也为整个 GUI 智能体行业的技术评估提供了重要参考。

2024 年上半年是第二阶段，团队采用 SFT（监督微调）方案，通过模仿人类轨迹学习，但很快发现了这种方法的致命缺陷 —— 模型会把人类操作中的对错都学进去，无法区分优劣路径。比如人类在操作时可能出现的误点击、重复操作等无效行为，模型也会一并模仿，导致任务执行效率低下。

有数据显示，在采用 SFT 方案训练时，模型执行复杂任务的平均耗时比人工操作还要长 20%，而且错误率较高。这让团队意识到，单纯的模仿学习并不能让模型真正具备高效执行任务的能力，必须寻找新的训练方法。

第三阶段从 2024 年下半年至今，团队全面转向 Online RL，实现了 165% 的成功率提升。这种转变的核心在于，放弃让模型简单模仿人类操作路径，而是让它通过结果奖励探索可能更优的解决方案，就像从让学生死记硬背老师的解题步骤，转变为让学生通过做题后的反馈自主寻找更高效的解题方法。

这种训练方式的效果在国际基准测试中得到了充分验证：在 OSWorld（48.1）、WebVoyager（87.7）、AndroidLab（46.8）、AndroidWorld（75.8）等多项测试中，AutoGLM 均取得领先成绩。现在的系统能同时运行上千个环境进行训练，快速 Setup、初始化、运行、结束，形成非常快速的迭代过程。

这种高强度更新迭代，被团队形象地比喻为让 AI 从 “一学期一次期末考试” 变成 “每学完一个章节就考试”，通过频繁的 “小测验” 及时发现问题并调整，极大地提升了模型的学习效率。

“环境构建是比 Reward 更困难的挑战。” 团队成员感慨道，封闭域任务如数学、代码只需要规则和编译器就能搞定，但现实任务需要电脑、手机、连接互联网、给账号才能完成。以营销任务为例，总得有客户让 Agent 去营销才能学习，是拿真实用户做实验还是模拟环境？环境怎么搭建？这些问题都没有现成答案。

对真实任务来说，Environment 可能比 Reward 更重要，这种挑战直接决定了 Agent 能否从实验室走向真实世界。智谱团队也在探索更 Scalable 的方式来获取任务反馈，包括 OpenAI 在内的研究团队都在探索更加 Scalable Verification 的方法，希望能以比较廉价和高效的方式得到大量真实高难度任务的反馈，“这种信号数据是存在的，但如何更好地挖掘获取，仍需要持续探索。”

AutoGLM 2.0 的实际应用与场景表现

在交流会开场演示中，团队让 AutoGLM 完成自动在小红书创作并发布介绍自己的视频内容，整个过程令人印象深刻。演示的技术亮点在于：它采用高并发搜索方式，同时搜索多个关键词，找到官网进行深度浏览，大幅提升了信息获取效率；整个过程完全异步执行，用户可以随意切换应用而不影响任务进行，充分体现了其自主零干扰的特点。

正如团队所说：“今天我们给每个人送了一台智能云手机，这台手机不会和你的屏幕使用产生任何冲突，你甚至在睡觉的时候，它可以都在那不停地运行。” 且据介绍，AutoGLM 2.0 已覆盖 40 + 高频应用，在多个实际场景中展现出强大的能力。

比如在接到 “点赞、投币、收藏 B 站上智谱清言 AutoGLM 沉思播放量最高的视频，最后发送弹幕‘我为沉思打 call～’” 的指令后，AutoGLM 能精准定位目标视频，按照要求完成一系列操作，整个过程流畅自然。有测试者记录了整个过程，从下达指令到完成所有操作，仅用了 3 分 20 秒，而如果由人工操作，在不熟悉操作流程的情况下，可能需要 10 分钟以上。

在处理 “生成三张美食图片，发一个微头条” 的任务时，它能先调用相关工具生成符合要求的图片，再完成微头条的编辑与发布，一气呵成。某美食博主尝试用 AutoGLM 2.0 完成日常的内容发布任务，原本需要花费 1 小时左右的工作，通过智能体仅用 15 分钟就完成了，而且生成的图片和微头条内容质量也得到了粉丝的认可。

在测评中发现，AutoGLM 在做调研任务时呈现出明显的平台偏好 ——“知乎 - 小红书 - B 站” 成为常常浏览的搜索路径。关于浏览器场景的训练泛化问题，团队解释说主要取决于现阶段训练数据的 distribution，比如实时信息类或旅游攻略类场景比较多，所以模型会自然选择知乎、小红书这些网站，随着财经类等其他场景比例提高，会自然去选择相应网站。

OS 层面的操作也已在产品上线规划中，团队承诺将以一到两周的频率快速迭代，不断拓展产品的能力边界。有行业观察者表示，AutoGLM 2.0 的快速迭代能力，让它能够及时响应市场需求和用户反馈，不断完善自身功能，这在竞争激烈的 GUI 智能体赛道中是一大优势。

GUI 智能体行业的关键议题与未来方向

围绕 Agent 未来的发展，有三个关键议题值得深入思考。第一个议题是 GUI 操作是必需品还是过渡方案。测评中发现，一些 GUI 操作任务的链路依然依赖较多的 API 调用完成，而跳出简单的 Web 端 Research 任务，GUI 操作仍有其必需的价值。

大量企业内部系统和小众应用只提供图形界面，操作过程的可见性能够增强用户信任，让用户清楚了解 Agent 的执行过程，从而更愿意将任务交给它。端侧 AI 芯片的进步也正在改变成本结构，本地运行视觉模型变得越来越实用，但如何在 GUI 的通用性与 API 的高效性之间找到平衡，以及当 MCP 等标准协议成熟后，这种平衡会如何变化，仍需要行业共同探索。

第二个议题是云端执行会成为 AI Agent 的主流范式吗。当苹果将 AI 计算放在设备端、Google 推出 Gemini Nano、高通发布专用 AI 芯片时，AutoGLM 选择了在全云端架构构建智能体手机和电脑。云端架构确实解决了诸多痛点：用户设备零负担，不会占用本地设备的存储和算力；真正的多任务并行，能同时处理多个不同的任务；统一的安全管控，便于集中保障数据安全。

但代价也同样明显 —— 用户数据完全托管给平台，存在数据泄露的潜在风险，同时还面临第三方平台的误判风险。当与其他硬件设备融合更多的时候，混合架构是否会是未来更主流的选择，这一问题需要结合技术发展和用户需求的变化不断研判。

第三个议题是 Agent 经济将如何重塑互联网。团队表示，AutoGLM 2.0 平均任务消耗 256K tokens，是传统 Chatbot 的 32 倍，且 Agent 流量有三个特点：任务明确、转化率高、可持续运行。这种 Agent 作为互联网主体的新型流量该如何定价，当 Agent 成为服务的主要使用者，平台的产品设计需要重新考虑吗，这些问题都将深刻影响互联网行业的未来发展格局。

有互联网行业分析师认为，Agent 经济的兴起可能会改变现有的互联网流量分配模式和商业模式。传统的流量获取方式可能会逐渐被 Agent 主导的任务型流量所取代，平台需要根据 Agent 的使用习惯和需求，重新设计产品功能和服务模式，以适应新的市场变化。

AutoGLM 2.0 的综合评价与未来展望

总体来看，AutoGLM 2.0 展现了云端执行架构的独特优势、端到端强化学习的技术突破以及远低于竞品的运营成本，但同时也存在平台兼容性、任务执行稳定性、场景泛化能力等不完美之处。不过这些问题可能恰恰证明这是一个真实的、正在快速迭代的产品，而非停留在概念层面的演示。

团队选择全面开放而非邀请码机制，正是希望通过大规模用户使用加速产品完善和技术迭代，让产品在实际应用中不断打磨优化。这种开放的态度得到了行业内外的广泛认可，许多开发者和企业都表示愿意参与到 AutoGLM 2.0 的使用和优化过程中，共同推动 GUI 智能体技术的发展。

智谱团队放手让 AutoGLM 2.0 进行市场检验，并期待其云端执行能力为 AI 融入物理世界带来无限可能。随着技术的不断进步和行业的持续探索，AutoGLM 2.0 有望在 GUI Agent 领域开辟出一条全新的道路，推动整个行业向更智能、更高效的方向发展，为用户带来更优质的服务体验，也为数字经济的发展注入新的活力。

在未来，我们有理由相信，随着 AutoGLM 系列产品的不断迭代和完善，AI 智能体将在更多领域发挥重要作用。在工作中，它可以成为人们的得力助手，处理各种繁琐的事务，提高工作效率；在生活中，它可以为人们提供个性化的服务，如智能购物、健康管理等，改变人们的生活方式。或许在不久的将来，AI 智能体将成为人们生活和工作中不可或缺的一部分，为社会的发展带来更多的惊喜和可能。

完

【声明】内容源于网络

元龙数字智能科技

永做第一使命第一向善第一

内容 901

粉丝 0

元龙数字智能科技永做第一使命第一向善第一

总阅读1.3k

粉丝0

内容901