大数跨境

AutoGLM 2.0:云端智能体的突围之路 —— 从 3A 原则到端到端 RL,GUI Agent 的技术跃迁与产业新局

AutoGLM 2.0:云端智能体的突围之路 —— 从 3A 原则到端到端 RL,GUI Agent 的技术跃迁与产业新局 元龙数字智能科技
2025-08-21
4
导读:AutoGLM 2.0云端智能体的突围之路从 3A 原则到端到端 RLGUI Agent 的技术跃迁与产业新局

AutoGLM 2.0

云端智能体的

突围之路

从 3A 原则到端到端 RL

GUI Agent 的技术跃迁与产业新局


2025 年,GUI 智能体赛道迎来了爆发式的关注度增长。在 OpenAI 推出 Operator 并发布 ChatGPT Agent,字节跳动紧随其后推出 UI-TARS-1.5 这一 GUI 开源方案后,各类相关产品如雨后春笋般涌现,让 GUI 智能体领域一跃成为科技行业的焦点。然而,在这片繁荣景象的背后,诸多问题逐渐显露。多数产品仍摆脱不了对本地执行的依赖,这一局限使得它们难以实现 24 小时稳定运行,在实际应用中,中断、卡顿等情况频频发生,用户体验大打折扣。

就在这样的行业环境下,8 月在北京举办的 AutoGLM 2.0 闭门交流会上,智谱 AI 展示了一条与众不同的发展路径 —— 为每个用户配备一台云端的智能手机和电脑。这一创新思路犹如一颗石子投入平静的湖面,立刻吸引了行业内外的广泛关注,为陷入困境的 GUI 智能体赛道带来了新的可能。

行业困局与智谱 AI 的探索起点

当下 GUI 智能体赛道的繁荣,实则是技术热潮下的虚假繁荣。众多产品看似功能丰富,却都被 “本地执行” 这一枷锁牢牢困住。本地执行意味着智能体的运行高度依赖用户的个人设备,设备的性能、电量、网络状况,甚至是用户的操作行为,都会对智能体的运行产生直接影响。当用户的手机锁屏,大部分依赖本地执行的智能体便会 “罢工”;当设备运行其他大型应用占用过多算力时,智能体就会出现卡顿,甚至中途中断任务。

某科技测评机构曾对市场上十款主流 GUI 智能体产品进行测试,结果显示,在模拟用户日常使用场景(如频繁切换应用、设备锁屏、网络波动等)时,有七款产品的任务完成率低于 50%,其中多数问题都源于本地执行的局限性。这样的现状让用户对 GUI 智能体的实用性产生了质疑,也让整个行业陷入了发展的瓶颈。

智谱团队在这一方向的探索并非一时兴起,而是源于对行业痛点的深刻洞察和对技术未来的长远考量。早在 2023 年底,GPT-4 调用 API 和使用浏览器的能力给了他们极大的启发。当时,团队成员就开始思索:如果 AI 能够像人一样熟练操作各种设备,那它将能承担更多的工作,发挥更大的价值。

这一技术方向的产生,还源于一个关键发现:第三产业 50% 以上的价值创造都要依靠电脑、手机和人的大脑。要是 AI 能熟练操作这些设备,那它就具备了参与经济活动的基本能力。这一认知如同明灯,为团队的探索指明了清晰的方向。

2024 年 10 月,第一版 AutoGLM 发布,虽然已经能实现操作手机的功能,但很快就暴露出本地系统的限制,其中最大的问题就是锁屏即停,这严重限制了它的实际应用价值。之后推出的沉思版进一步融合了 DeepResearch 能力,功能有了一定提升,可还是没能彻底解决核心问题。经过近两年的持续探索和更新,团队最终推出了 AutoGLM 2.0—— 一款由纯国产模型 GLM-4.5 与 GLM-4.5V 驱动的 GUI Agent,具备推理、代码和多模态的全面能力,真正实现了技术上的跨越。

AutoGLM 2.0 的技术架构与核心优势

AutoGLM 与市面上其他 Agent 产品的根本不同,在于它操作的是一台真正完整的电脑。当其他产品还局限在 Browser 和 VS Code 时,AutoGLM 已经能够运行 Office、Photoshop 等桌面应用,这意味着它在功能覆盖上有了质的飞跃。

选择这样的产品形态,源于智谱团队对 AGI 早期形态的深刻理解,他们认为真正的智能体需要满足 “3A 原则”。全时运行意味着即使用户离线或睡眠,Agent 仍能 24 小时不间断执行任务。比如用户下达在深夜抢购特定商品的指令,AutoGLM 2.0 能在指定时间自动操作,无需用户保持设备在线。有用户曾通过 AutoGLM 2.0 设置了凌晨 3 点抢购限量商品的任务,最终成功下单,这在以往依赖本地执行的智能体上是难以实现的。

自主零干扰指的是 Agent 独立运行在云端,不占用用户本地屏幕与算力,如同平行世界的数字分身。用户在使用本地设备处理其他事务时,完全不会受到 Agent 执行任务的影响。有测试者在 AutoGLM 2.0 执行视频剪辑任务的同时,用同一台电脑进行游戏,游戏过程流畅无卡顿,电脑的 CPU 和内存占用率也处于正常水平。

全域连接则是要突破浏览器对话框的限制,未来将跨越手机、电脑、智能穿戴等多种设备,真正融入物理世界,实现多设备协同工作。目前,AutoGLM 2.0 已在部分场景实现了多设备的初步协同,比如用户通过手机下达指令,让云端智能体在电脑上完成文档编辑后,再将文档同步到手机上供用户查看。

在技术实现方面,智谱团队透露,云虚拟机的基础设施并非完全自主开发,虚拟机镜像本身的数据安全和隐私保护策略,是与阿里云等合作伙伴共同构建的。手机端同样采用与厂商合作的模式,这种合作模式不仅确保了系统的稳定性和安全性,还能充分利用各方的技术优势,加快产品的更新与完善。

用户数据安全一直是云端执行中最敏感的话题,对此智谱明确表示:“我们不知道用户的账号密码。Agent 也不会在没有主动确认的情况下直接执行敏感操作。” 虚拟机镜像的数据安全和隐私保护由专业云服务商负责,团队坦言他们不能直接访问用户数据,系统只保留网站给的 token,这个 token 有失效期,与用户在使用自己浏览器的机制完全相同。

对于当前存在潜在责任风险的操作,团队在重点环节设置了安全围栏,例如支付环节需要用户最终确认,发布内容需要二次验证,通过多重保障机制消除用户的顾虑。某电商从业者在使用 AutoGLM 2.0 进行采购下单时,当系统涉及支付操作时,会弹出确认窗口,只有在他手动确认后,支付流程才会继续,这让他对使用过程中的资金安全有了极大的信心。

AutoGLM 2.0 的训练体系与技术突破

在线下交流中,团队展示了 AutoGLM 技术发展的三个关键阶段,每个阶段都代表着对 Agent 训练理念的重新思考。2023 年 8 月处于第一阶段,Agent Bench 发布,团队首先解决了如何系统评估 Agent 模型能力的基础问题。这为后续的技术迭代奠定了重要的评价体系基础,就像为赛跑设立了清晰的终点线和计时标准,让后续的技术优化有了明确的方向。

在这一阶段,团队通过大量的实验和数据分析,建立了涵盖任务完成率、操作效率、稳定性等多个维度的评估指标,使得对 Agent 模型的能力有了可量化、可对比的评价标准。这一体系的建立,不仅为智谱团队自身的技术发展提供了指引,也为整个 GUI 智能体行业的技术评估提供了重要参考。

2024 年上半年是第二阶段,团队采用 SFT(监督微调)方案,通过模仿人类轨迹学习,但很快发现了这种方法的致命缺陷 —— 模型会把人类操作中的对错都学进去,无法区分优劣路径。比如人类在操作时可能出现的误点击、重复操作等无效行为,模型也会一并模仿,导致任务执行效率低下。

有数据显示,在采用 SFT 方案训练时,模型执行复杂任务的平均耗时比人工操作还要长 20%,而且错误率较高。这让团队意识到,单纯的模仿学习并不能让模型真正具备高效执行任务的能力,必须寻找新的训练方法。

第三阶段从 2024 年下半年至今,团队全面转向 Online RL,实现了 165% 的成功率提升。这种转变的核心在于,放弃让模型简单模仿人类操作路径,而是让它通过结果奖励探索可能更优的解决方案,就像从让学生死记硬背老师的解题步骤,转变为让学生通过做题后的反馈自主寻找更高效的解题方法。

这种训练方式的效果在国际基准测试中得到了充分验证:在 OSWorld(48.1)、WebVoyager(87.7)、AndroidLab(46.8)、AndroidWorld(75.8)等多项测试中,AutoGLM 均取得领先成绩。现在的系统能同时运行上千个环境进行训练,快速 Setup、初始化、运行、结束,形成非常快速的迭代过程。

这种高强度更新迭代,被团队形象地比喻为让 AI 从 “一学期一次期末考试” 变成 “每学完一个章节就考试”,通过频繁的 “小测验” 及时发现问题并调整,极大地提升了模型的学习效率。

“环境构建是比 Reward 更困难的挑战。” 团队成员感慨道,封闭域任务如数学、代码只需要规则和编译器就能搞定,但现实任务需要电脑、手机、连接互联网、给账号才能完成。以营销任务为例,总得有客户让 Agent 去营销才能学习,是拿真实用户做实验还是模拟环境?环境怎么搭建?这些问题都没有现成答案。

对真实任务来说,Environment 可能比 Reward 更重要,这种挑战直接决定了 Agent 能否从实验室走向真实世界。智谱团队也在探索更 Scalable 的方式来获取任务反馈,包括 OpenAI 在内的研究团队都在探索更加 Scalable Verification 的方法,希望能以比较廉价和高效的方式得到大量真实高难度任务的反馈,“这种信号数据是存在的,但如何更好地挖掘获取,仍需要持续探索。”

AutoGLM 2.0 的实际应用与场景表现

在交流会开场演示中,团队让 AutoGLM 完成自动在小红书创作并发布介绍自己的视频内容,整个过程令人印象深刻。演示的技术亮点在于:它采用高并发搜索方式,同时搜索多个关键词,找到官网进行深度浏览,大幅提升了信息获取效率;整个过程完全异步执行,用户可以随意切换应用而不影响任务进行,充分体现了其自主零干扰的特点。

正如团队所说:“今天我们给每个人送了一台智能云手机,这台手机不会和你的屏幕使用产生任何冲突,你甚至在睡觉的时候,它可以都在那不停地运行。” 且据介绍,AutoGLM 2.0 已覆盖 40 + 高频应用,在多个实际场景中展现出强大的能力。

比如在接到 “点赞、投币、收藏 B 站上智谱清言 AutoGLM 沉思播放量最高的视频,最后发送弹幕‘我为沉思打 call~’” 的指令后,AutoGLM 能精准定位目标视频,按照要求完成一系列操作,整个过程流畅自然。有测试者记录了整个过程,从下达指令到完成所有操作,仅用了 3 分 20 秒,而如果由人工操作,在不熟悉操作流程的情况下,可能需要 10 分钟以上。

在处理 “生成三张美食图片,发一个微头条” 的任务时,它能先调用相关工具生成符合要求的图片,再完成微头条的编辑与发布,一气呵成。某美食博主尝试用 AutoGLM 2.0 完成日常的内容发布任务,原本需要花费 1 小时左右的工作,通过智能体仅用 15 分钟就完成了,而且生成的图片和微头条内容质量也得到了粉丝的认可。

在测评中发现,AutoGLM 在做调研任务时呈现出明显的平台偏好 ——“知乎 - 小红书 - B 站” 成为常常浏览的搜索路径。关于浏览器场景的训练泛化问题,团队解释说主要取决于现阶段训练数据的 distribution,比如实时信息类或旅游攻略类场景比较多,所以模型会自然选择知乎、小红书这些网站,随着财经类等其他场景比例提高,会自然去选择相应网站。

OS 层面的操作也已在产品上线规划中,团队承诺将以一到两周的频率快速迭代,不断拓展产品的能力边界。有行业观察者表示,AutoGLM 2.0 的快速迭代能力,让它能够及时响应市场需求和用户反馈,不断完善自身功能,这在竞争激烈的 GUI 智能体赛道中是一大优势。

GUI 智能体行业的关键议题与未来方向

围绕 Agent 未来的发展,有三个关键议题值得深入思考。第一个议题是 GUI 操作是必需品还是过渡方案。测评中发现,一些 GUI 操作任务的链路依然依赖较多的 API 调用完成,而跳出简单的 Web 端 Research 任务,GUI 操作仍有其必需的价值。

大量企业内部系统和小众应用只提供图形界面,操作过程的可见性能够增强用户信任,让用户清楚了解 Agent 的执行过程,从而更愿意将任务交给它。端侧 AI 芯片的进步也正在改变成本结构,本地运行视觉模型变得越来越实用,但如何在 GUI 的通用性与 API 的高效性之间找到平衡,以及当 MCP 等标准协议成熟后,这种平衡会如何变化,仍需要行业共同探索。

第二个议题是云端执行会成为 AI Agent 的主流范式吗。当苹果将 AI 计算放在设备端、Google 推出 Gemini Nano、高通发布专用 AI 芯片时,AutoGLM 选择了在全云端架构构建智能体手机和电脑。云端架构确实解决了诸多痛点:用户设备零负担,不会占用本地设备的存储和算力;真正的多任务并行,能同时处理多个不同的任务;统一的安全管控,便于集中保障数据安全。

但代价也同样明显 —— 用户数据完全托管给平台,存在数据泄露的潜在风险,同时还面临第三方平台的误判风险。当与其他硬件设备融合更多的时候,混合架构是否会是未来更主流的选择,这一问题需要结合技术发展和用户需求的变化不断研判。

第三个议题是 Agent 经济将如何重塑互联网。团队表示,AutoGLM 2.0 平均任务消耗 256K tokens,是传统 Chatbot 的 32 倍,且 Agent 流量有三个特点:任务明确、转化率高、可持续运行。这种 Agent 作为互联网主体的新型流量该如何定价,当 Agent 成为服务的主要使用者,平台的产品设计需要重新考虑吗,这些问题都将深刻影响互联网行业的未来发展格局。

有互联网行业分析师认为,Agent 经济的兴起可能会改变现有的互联网流量分配模式和商业模式。传统的流量获取方式可能会逐渐被 Agent 主导的任务型流量所取代,平台需要根据 Agent 的使用习惯和需求,重新设计产品功能和服务模式,以适应新的市场变化。

AutoGLM 2.0 的综合评价与未来展望

总体来看,AutoGLM 2.0 展现了云端执行架构的独特优势、端到端强化学习的技术突破以及远低于竞品的运营成本,但同时也存在平台兼容性、任务执行稳定性、场景泛化能力等不完美之处。不过这些问题可能恰恰证明这是一个真实的、正在快速迭代的产品,而非停留在概念层面的演示。

团队选择全面开放而非邀请码机制,正是希望通过大规模用户使用加速产品完善和技术迭代,让产品在实际应用中不断打磨优化。这种开放的态度得到了行业内外的广泛认可,许多开发者和企业都表示愿意参与到 AutoGLM 2.0 的使用和优化过程中,共同推动 GUI 智能体技术的发展。

智谱团队放手让 AutoGLM 2.0 进行市场检验,并期待其云端执行能力为 AI 融入物理世界带来无限可能。随着技术的不断进步和行业的持续探索,AutoGLM 2.0 有望在 GUI Agent 领域开辟出一条全新的道路,推动整个行业向更智能、更高效的方向发展,为用户带来更优质的服务体验,也为数字经济的发展注入新的活力。

在未来,我们有理由相信,随着 AutoGLM 系列产品的不断迭代和完善,AI 智能体将在更多领域发挥重要作用。在工作中,它可以成为人们的得力助手,处理各种繁琐的事务,提高工作效率;在生活中,它可以为人们提供个性化的服务,如智能购物、健康管理等,改变人们的生活方式。或许在不久的将来,AI 智能体将成为人们生活和工作中不可或缺的一部分,为社会的发展带来更多的惊喜和可能。




【声明】内容源于网络
0
0
元龙数字智能科技
永做第一 使命第一 向善第一
内容 901
粉丝 0
元龙数字智能科技 永做第一 使命第一 向善第一
总阅读1.3k
粉丝0
内容901