从“动口”到“动手”:AI 的新进化
过去,我们熟悉的AI助手只能“回答”问题;今天,一种叫 CUA(Computer-Using Agent,计算机使用代理)的 AI 正在悄悄学会“动手”——像人一样看屏幕、点鼠标、敲键盘,把一句话指令直接变成一整套电脑操作。它不再是“顾问”,而是“数字实习生”。
CUA 的三件套:眼睛、大脑、双手
眼睛:图形界面视觉理解
通过截图实时“看”屏幕,识别按钮、输入框、图表,甚至能读懂验证码(合规前提下)。大脑:任务规划与推理
把“做一份季度销售 PPT”自动拆成:打开 Excel→清洗数据→生成图表→粘贴到 PowerPoint→保存文件。遇到异常或突发状况(如软件打开失败)会自主调整策略。双手:底层控制接口
直接调用系统级 API 或模拟鼠标键盘,像素级精准操作。
工作原理:闭环智能体
传统大模型是“开环”——问一句答一句;CUA 是“闭环”:理解任务→观察屏幕→输出动作→等待新屏幕→再思考下一步,形成“感知-决策-执行”循环,随时根据界面反馈修正路线。
与 RPA、ChatBot 的区别
一句话:RPA 像“提线木偶”,CUA 像“有脑子的实习生”。
落地的场景畅想
• 办公自动化:自动把 100 份 Excel 汇总成图表并插入周报 Word。
• 电商运营:登陆后台→下载订单→录入 ERP→生成发货单→回传快递单号。
• 财务对账:登陆网银→导出流水→与金蝶明细比对→标红差异。
• 医疗辅助:自动把检查报告 PDF 中的关键数据填入电子病历。
以上流程无需提前写脚本,只需一句自然语言指令。
安全与伦理:给“数字员工”戴上“紧箍”
CUA 拥有系统级操控权,人类对智能的信任度必然受到挑战,因此“沙盒+审计”双保险对CUA来说非常有必要:
沙盒运行:所有操作在虚拟机或容器完成,隔绝敏感操作。
全程录屏:每一步点击、输入、API 调用可回溯,方便审计与纠错。
最小权限:通过角色账号只开放必要目录与软件,防止“越权”。
如何上手?
快速体验:可以访问Lybic 公开的体验地址:https://playground.lybic.cn(可点击 阅读原文 跳转,请在电脑上打开),无需科学即可直接试用GUI Agent。
应用开发:关注Lybic的开源项目Agentic Lybic:https://github.com/lybic/agent,可在本地、虚拟机以及Lybic沙盒等环境部署。
上手实践:掌握基础“提示词工程”——越清晰的目标描述,CUA 成功率越高。例如:“把桌面‘报销’文件夹里所有发票 PDF 的金额、税率提取到新的 Excel,并生成柱状图”比“帮我整理发票”更易执行。
结语
CUA 不是又一个聊天AI升级,而是一次“让 AI 长出手”的交互范式升级。未来,你的电脑也许不再需要菜单和按钮——只要告诉AI目标,剩下的,它全包了。

