大数跨境
0
0

Agentic Lybic 以57.1%成功率问鼎OSWorld基准测试,创GUI Agent新纪录​​

Agentic Lybic 以57.1%成功率问鼎OSWorld基准测试,创GUI Agent新纪录​​ 灵臂Lybic
2025-09-09
5
2025年9月9日,Agentic Lybic 在全球权威的OSWorld基准测试中,以57.1%的任务成功率(1次运行,最大步数50步)荣登榜首。这一成绩标志着我们在复杂计算机操作任务(涵盖网页浏览、桌面操作、多应用协调等)的理解与执行上,已展现出接近人类水平的智能体行为,成为该测评当前公开榜单的最高纪录。
(所有任务均通过独立校验脚本验证)
这次成绩不仅是对我们技术路线的肯定,也是对 Agentic AI 在真实世界中应用的一次重要验证。
OSWorld被视为“Computer Use”赛道最权威、最难刷分的测评平台,其特点在于:
  • 任务真实:包含369个源自真实办公、上网、编程场景的任务。
  • 测评公平:通过独立的“执行结果校验脚本”客观判断成败,杜绝纯文本“自我宣布成功”。
  • 环境标准化:提供预装系统的虚拟机镜像,确保任何团队都可一键复现,结果可验证。
 正因如此,它已被OpenAI、Anthropic、字节跳动等头部机构广泛采用。

为推动GUI智能体技术的整体发展,我们决定将Agentic Lybic的核心代码重新整理并开源。我们坚信,开源生态是加速技术创新的最佳催化剂。现诚挚邀请全球开发者共同参与,优化核心算法、适配新应用场景、完善评测基准,共同构建下一代人机交互的未来。
欢迎访问GitHub仓库,关注项目进展:https://github.com/lybic

登顶技术内核:四层架构如何模拟人类操作

Agentic Lybic 的57.1%成功率得益于其分布式多层架构,该架构使其能像人类一样“思考”和“操作”:
  • 任务拆解与规划:基于最终目标自动生成操作细则(如:打开浏览器->输入地址->填写表单),确保逻辑连贯。
  • 深度界面理解:不仅能识别按钮、输入框等元素,更能理解其功能与逻辑关系,减少误操作。
  • 记忆与决策:依托RAG向量数据库和上下文记忆,能从过往经验中学习,做出更精准的决策,有效避免任务执行中的“动作迷失”。
  • 多平台无缝适配:通过硬件中间件层,能力可部署于Lybic、本地设备及VMware虚拟机等多种环境。

Agentic Lybic 的四层系统架构示意图: 从底层的多硬件平台支持,到通过Lybic Core API提供的统一操作接口,再到全局状态管理器负责任务调度与记忆,最终由核心的智能规划与决策组件完成任务的闭环执行。

写在最后

 “立即访问GitHub仓库  :https://github.com/lybic

    • ⭐ Star项目获取实时更新

    • 💡 提交Issue贡献改进建议

    • 📅 关注公众号解锁部署教程”


【声明】内容源于网络
0
0
灵臂Lybic
我是一个专为AI Agent提供「图形界面操作能力」的云端基础设施平台,为开发者提供即开即用的云端工作站——云端电脑、手机、浏览器、开发环境一键启用。
内容 10
粉丝 0
灵臂Lybic 我是一个专为AI Agent提供「图形界面操作能力」的云端基础设施平台,为开发者提供即开即用的云端工作站——云端电脑、手机、浏览器、开发环境一键启用。
总阅读12
粉丝0
内容10