-
接入多模态大模型 -
Lybic 账号
作为插件安装Lybic
-
沙盒画面截屏:截取沙盒当前画面以供大模型获知“电脑”的信息 -
动作执行器:根据输入的动作指令在Lybic 沙盒中执行操作 -
动作解析器:将大模型输出的自然语言指令转化为可执行的动作指令
详细拆解20秒安装过程
进入Dify插件管理页,选择GitHub安装插件。
输入Lybic的仓库地址:https://github.com/lybic/lybic-tool-dify
选择lybic-sandbox.difypkg,然后点击下一步。安装完毕后就可以在Dify中给你的智能体配上电脑啦。


注:对于选择签名的包(signed),还需要添加我们的公钥:https://github.com/lybic/lybic-tool-dify/releases/tag/v0.0.1
如果你更喜欢使用MCP,可以看这里
除了通过插件接入Lybic,你也可以使用MCP tools这个插件来接入Lybic MCP。
这里通过MCP tools 这个插件作为示例。
通过插件商店安装如上图的 MCP tools
在“授权”中添加你的 lybic mcp 端点
{"mcpServers": {"lybic_mcp_server": {"transport": "streamable_http","url": "your-mcp-endpoint","headers": {"x-api-key": "lybic-api-key"},"timeout": 50}}}
在工作流画板中添加MCP tools
测试屏幕截图
成功示例:
这样你就可以使用 LLM 来调用Lybic MCP了。
用最简单的结构开始创造
让我们看看一个简单的GUI Agent搭建步骤:
用户输入问题 -> 开始,屏幕截图
分析用户的问题 -> LLM 做Planning
解决问题 -> LLM 2 做Grounding,EXECUTOR
LLM 和 LLM 2这两个大模型需要配备不一样的提示词,建议使用模型供应商提供的官方 GUI Agent Prompt。
注意:Lybic的动作执行用的是绝对坐标,如果所用模型输出的是相对坐标,这里是需要做转换的。(指令解析器里可进行适配模型的选择)
至此,Lybic 让你的智能体拥有了操作电脑的能力,让智能体直接在电脑里搞定所有需要动手的事:筛选海量简历、整理财报、批量开票、制作PPT、批量处理商品图、同步客户信息、生成教学课件、更新库存报表……一句话,桌面级任务随叫随做。
写在最后
当然,插件是需要配置API Key的,有想法的朋友们快来联系我们,内测阶段,免费无限量体验还在持续开放中~~~
名额有限,我建议你马上私信我们📧

