大数跨境
0
0

半分钟!让你在Dify 搭建的智能体学会“玩电脑”

半分钟!让你在Dify 搭建的智能体学会“玩电脑” 灵臂Lybic
2025-08-29
0
导读:还在为智能体只能“动嘴”不能“动手”而烦恼吗?今天,教你用半分钟时间,在Dify中为你的GUI Agent 开启专属的电脑。

还在为智能体只能“动嘴”不能“动手”而烦恼吗?
今天,教你用半分钟时间,在Dify中为你的GUI Agent 开启专属的电脑。从此,你的Agent不仅能聊天,还能真正帮你操作电脑,完成复杂任务。

仓库地址:https://github.com/lybic/lybic-tool-dify
准备工作:
  1. 接入多模态大模型
  2. Lybic 账号

作为插件安装Lybic


Lybic 以“工具”的形式集成在了Dify的“plugin”中,在本次版本提供了三种工具:
  • 沙盒画面截屏:截取沙盒当前画面以供大模型获知“电脑”的信息
  • 动作执行器:根据输入的动作指令在Lybic 沙盒中执行操作
  • 动作解析器:将大模型输出的自然语言指令转化为可执行的动作指令

详细拆解20秒安装过程

进入Dify插件管理页,选择GitHub安装插件。

输入Lybic的仓库地址:https://github.com/lybic/lybic-tool-dify

选择lybic-sandbox.difypkg,然后点击下一步。安装完毕后就可以在Dify中给你的智能体配上电脑啦。

:对于选择签名的包(signed),还需要添加我们的公钥:https://github.com/lybic/lybic-tool-dify/releases/tag/v0.0.1

如果你更喜欢使用MCP,可以看这里

除了通过插件接入Lybic,你也可以使用MCP tools这个插件来接入Lybic MCP。

这里通过MCP tools 这个插件作为示例。

  1. 通过插件商店安装如上图的 MCP tools

  2. 在“授权”中添加你的 lybic mcp 端点

{    "mcpServers": {        "lybic_mcp_server": {            "transport": "streamable_http",            "url": "your-mcp-endpoint",            "headers": {                "x-api-key": "lybic-api-key"            },            "timeout": 50        }    }}
  1. 在工作流画板中添加MCP tools

  1. 测试屏幕截图

成功示例:

这样你就可以使用 LLM 来调用Lybic MCP了。

用最简单的结构开始创造

让我们看看一个简单的GUI Agent搭建步骤:

  1. 用户输入问题  -> 开始,屏幕截图

  2. 分析用户的问题 -> LLM 做Planning

  3. 解决问题 -> LLM 2 做Grounding,EXECUTOR

LLM 和 LLM 2这两个大模型需要配备不一样的提示词,建议使用模型供应商提供的官方 GUI Agent Prompt。

注意:Lybic的动作执行用的是绝对坐标,如果所用模型输出的是相对坐标,这里是需要做转换的。(指令解析器里可进行适配模型的选择)


至此,Lybic 让你的智能体拥有了操作电脑的能力,让智能体直接在电脑里搞定所有需要动手的事:筛选海量简历、整理财报、批量开票、制作PPT、批量处理商品图、同步客户信息、生成教学课件、更新库存报表……一句话,桌面级任务随叫随做。

写在最后

当然,插件是需要配置API Key的,有想法的朋友们快来联系我们,内测阶段,免费无限量体验还在持续开放中~~~

名额有限,我建议你马上私信我们📧


【声明】内容源于网络
0
0
灵臂Lybic
我是一个专为AI Agent提供「图形界面操作能力」的云端基础设施平台,为开发者提供即开即用的云端工作站——云端电脑、手机、浏览器、开发环境一键启用。
内容 10
粉丝 0
灵臂Lybic 我是一个专为AI Agent提供「图形界面操作能力」的云端基础设施平台,为开发者提供即开即用的云端工作站——云端电脑、手机、浏览器、开发环境一键启用。
总阅读12
粉丝0
内容10