>

Agentic Lybic 以57.1%成功率问鼎OSWorld基准测试，创GUI Agent新纪录

>

0

0



Agentic Lybic 以57.1%成功率问鼎OSWorld基准测试，创GUI Agent新纪录

Agentic Lybic 以57.1%成功率问鼎OSWorld基准测试，创GUI Agent新纪录

灵臂Lybic

2025-09-09

5

2025年9月9日，Agentic Lybic 在全球权威的OSWorld基准测试中，以57.1%的任务成功率(1次运行，最大步数50步)荣登榜首。这一成绩标志着我们在复杂计算机操作任务（涵盖网页浏览、桌面操作、多应用协调等）的理解与执行上，已展现出接近人类水平的智能体行为，成为该测评当前公开榜单的最高纪录。

（所有任务均通过独立校验脚本验证）

这次成绩不仅是对我们技术路线的肯定，也是对 Agentic AI 在真实世界中应用的一次重要验证。

OSWorld被视为“Computer Use”赛道最权威、最难刷分的测评平台，其特点在于：

任务真实：包含369个源自真实办公、上网、编程场景的任务。
测评公平：通过独立的“执行结果校验脚本”客观判断成败，杜绝纯文本“自我宣布成功”。
环境标准化：提供预装系统的虚拟机镜像，确保任何团队都可一键复现，结果可验证。

正因如此，它已被OpenAI、Anthropic、字节跳动等头部机构广泛采用。

为推动GUI智能体技术的整体发展，我们决定将Agentic Lybic的核心代码重新整理并开源。我们坚信，开源生态是加速技术创新的最佳催化剂。现诚挚邀请全球开发者共同参与，优化核心算法、适配新应用场景、完善评测基准，共同构建下一代人机交互的未来。

欢迎访问GitHub仓库，关注项目进展：https://github.com/lybic

登顶技术内核：四层架构如何模拟人类操作

Agentic Lybic 的57.1%成功率得益于其分布式多层架构，该架构使其能像人类一样“思考”和“操作”：

任务拆解与规划：基于最终目标自动生成操作细则（如：打开浏览器->输入地址->填写表单），确保逻辑连贯。
深度界面理解：不仅能识别按钮、输入框等元素，更能理解其功能与逻辑关系，减少误操作。
记忆与决策：依托RAG向量数据库和上下文记忆，能从过往经验中学习，做出更精准的决策，有效避免任务执行中的“动作迷失”。
多平台无缝适配：通过硬件中间件层，能力可部署于Lybic、本地设备及VMware虚拟机等多种环境。

Agentic Lybic 的四层系统架构示意图： 从底层的多硬件平台支持，到通过Lybic Core API提供的统一操作接口，再到全局状态管理器负责任务调度与记忆，最终由核心的智能规划与决策组件完成任务的闭环执行。

写在最后

“立即访问GitHub仓库：https://github.com/lybic

⭐ Star项目获取实时更新

💡 提交Issue贡献改进建议

📅 关注公众号解锁部署教程”

【声明】内容源于网络

0

0

灵臂Lybic

我是一个专为AI Agent提供「图形界面操作能力」的云端基础设施平台，为开发者提供即开即用的云端工作站——云端电脑、手机、浏览器、开发环境一键启用。

内容 10

粉丝 0

灵臂Lybic 我是一个专为AI Agent提供「图形界面操作能力」的云端基础设施平台，为开发者提供即开即用的云端工作站——云端电脑、手机、浏览器、开发环境一键启用。

总阅读12

粉丝0

内容10