-
用户输入 -
桌面截图(Image) -
历史对话(History) -
系统提示(Prompt Template)
-
动作执行
-
完成后返回新的截图和执行日志。 -
循环迭代
-
Markdown 渲染:将屏幕截图以内联图片的形式展示在聊天记录中; -
多输出支持:同时返回文本结果与图片,提高可读性; -
实时性:每轮交互均展示 Thought/Action 与截图,方便调试。
-
多模态输入:文本 + 图像同时作为 LLM 输入,提升任务理解能力; -
可复现性:标准化 Prompt Template 与 Action Space,便于扩展与研究; -
易部署:Gradio 界面极简启动,无需额外前端开发; -
开放生态:结合 LangChain,开发者可自定义 Agent 逻辑、记忆和工具调用。
-
学习AI Agent的原理、langchain,gradio的基本用法,打造属于自己的Agent -
替换成自己的 LLM(如 GPT-4o、Claude、国产大模型等); -
接入更多 Gradio 组件(如文件上传、对话历史保存)。
-
LangChain + LLM 负责智能推理 -
Lybic 提供安全可控的 GUI 沙盒 -
Gradio 实现可视化交互与调试

