昨天晚上,我本来已经准备收工。
手一滑,刷到一个项目:TuriX-CUA。
点进去之前,我还以为又是那种“AI 帮你点点鼠标、关关窗口”的常规货。
结果 README 从头看到尾,B 站都不想刷了。
简单说下,它干嘛的:
❝对着电脑说话
它盯着你的屏幕
自己动鼠标、敲键盘、切应用、开网页
帮你在真实桌面上完成一整件事。
不是调用某个应用 API
是像一个实习生坐在你电脑前,亲手操作。
项目的定位叫 computer-use-agent
就是那种参加 OSWorld 一类基准测试的桌面智能体。
他们自己说
在内部 OSWorld 风格测试集上,成功率能到 68%+
在 Mac 上速度和成功率都优于之前的开源代理,比如 UI-TARS。
重点有两个:
-
一个
它不依赖“应用内 API”。
只要人类能点到的地方,它都可以点:
WhatsApp、Excel、Outlook、企业内部系统、古早后台。 -
另一个
完全开源,MIT 协议
个人、研究免费用。
现实里很多系统根本没什么 API
尤其是公司内网系统、各种老旧后台,谁给你写接口。
TuriX 的思路就是:
别跟我谈接口,我直接看屏幕。
我先跑了一遍安装。
Mac 上大概流程:
官网下应用,或者 git clone 仓库
conda create -n turix_env python=3.12
conda activate
pip install -r requirements.txt
然后是最麻烦但最关键的一步:给权限。
系统设置 → 隐私与安全 → 辅助功能
把 Terminal、VSCode、/usr/bin/python3 加进去。
不然它连“帮你点一下按钮”都做不了。
Safari 那边也要打开开发者功能
开启远程自动化、允许 Apple Events 里的 JS
再用 osascript 弹个 alert,让系统弹出授权弹窗
你一口气点完“允许”。
说实话,略微繁琐。
但你如果遇到一个桌面 AI
什么权限都不问就能控制你全系统
我反而会更害怕。
权限搞定,开始配置。
核心是一个 config.json
里面两块:
agent:你要它做什么
llm:用哪个模型当“大脑”。
比如:
❝“agent”: {
“task”: “open system settings, switch to Dark Mode”
}
等于给它下指令:帮我打开系统偏好设置,切到深色模式。
模型这块,如果用 Turix 自家的 API:
❝“llm”: {
“provider”: “turix”,
“api_key”: “你的 key”,
“base_url”: “https://llm.turixapi.io/v1”
}
不想用也行
可以在 main.py 里加自己的 provider
接 gpt-4.1-mini、Claude、Gemini、Qwen3-VL 随你
它设计成了“热插拔大脑”。
这种模式很舒服
你可以根据价格、性能随时换模型
底层桌面控制逻辑不用动
对开发者和团队都更安全,毕竟谁都不想被一家云厂商绑死。
它还有一件值得说的事:已经支持 Qwen3-VL 这种视觉语言模型。
桌面代理要靠谱,必须“看见”屏幕
否则你说“关掉左上角那个红色按钮”
纯文本模型根本不知道你桌面长啥样。
Qwen3-VL 这种能看图的模型
刚好适合做 UI 级别的推理。
官方说,复杂界面成功率提升 15%
我没细测
但我让它在多个窗口之间来回跳、操作网页+本地软件
翻车次数确实不多。
举个我自己玩的例子。
我给它下的任务是:
“帮我对比几个 AI 桌面代理,在浏览器查资料,写一个简单总结到 Pages 文档里,保存到桌面。”
它的操作大概是:
❝打开 Safari
搜索 Turix、UI-TARS、OSWorld 这些关键字
扫了几篇文档
然后开 Pages,新建文档
写了一份结构还算正常的对比总结
最后把文件存到桌面,还起了个不那么离谱的文件名。
中间有个小插曲
系统突然弹出一个权限框,它愣了一会儿不动
我看不下去,替它点了“允许”
它接着往下干,像什么都没发生一样。
那一刻,我的感觉很像在远程指导一个实习生
他被弹窗吓住,你帮他点一下
继续干后面的活。
人机协作的感觉就出来了。
再说一个有意思的点:MCP。
MCP(Model Context Protocol)
是 Anthropic 推的那个协议
主要是让不同智能体、工具、系统之间能互相调用。
TuriX 做的事情是:
你可以把它当 MCP 工具挂到 Claude 桌面版里
Claude 负责聊天、规划
TuriX 负责实际操作电脑。
官方 demo 有这么一个流程:
❝Claude 搜人工智能新闻
通过 MCP 调 TuriX
让 TuriX 把研究结果写进 Pages 文档
保存、整理,再发给联系人。
换一种说法
一个 AI 在上面想
一个 AI 在下面动手
你在中间点几下确认。
我们回到体验层面
这项目的适用人群,大概有几类。
-
讨厌重复操作的人
每天打开一堆网站、表格、系统,做机械动作
这种完全可以丢给 TuriX。 -
-
开发者
直接当“桌面执行引擎”
你的 Agent 负责思考
TuriX 负责跟操作系统打交道。
想做 AI 办公产品的团队
可以把它当做通用桌面控制模块
外面套一层自己业务逻辑
直接变成一个可卖的产品。
但它暂时还不是那种“下载就能玩”的纯 C 端小白向
你最好能:
❝装个 Python
敢开系统权限
看懂一点 config.json
偶尔查下报错日志
如果这些都懒得弄
可能还是等后面有人把这套能力封成一键安装的小工具更适合你。
路线图那块我也看了
有几个方向还挺有野心:
工作流录制和回放
离线模型,本地推理
持久记忆,记住你的偏好
示范学习,你做一遍,它学你的习惯
为 Windows 专门优化的模型
这明显是想从“会点按钮的 AI”
往“个人工作流 OS”进化。
你可以想象一下这种用法:
你说
❝“把昨天下载的三个 PDF 里的核心条款提出来,写成一封邮件给 HR,再做一张 Excel 对照表,存公司网盘合规文件夹。”
然后你去倒杯水
回来看到邮件草稿已经写好
Excel 填好
网盘路径也选好了
你只需要点一下确认。
这时候的电脑
就不再是一堆图标、一堆窗口
而是一个“你说一句,它帮你跑完一整套链路”的执行器。
我越来越有一种感觉
Agent 和这类桌面自动化
真正改变的,不是“某个软件更智能了”
而是你会慢慢习惯一件事:
当你可以随时把一个想法
直接说成一句话
就生成一个可执行的完整方案
而那些打开软件、点按钮、输文字、存文件的过程
可以全部交给 AI 去做。
那时候
“怎么做”
变成一个技术问题
“你到底想要什么”
才是唯一需要你认真回答的。
其他过程,都可以托管。
但这一句
我想
永远得我们自己说出口。
以上,TuriX-CUA 这个项目
整体效果不错
有实力,不花哨
也挺适合折腾党和 AI 办公爱好者试试。
项目地址:https://github.com/TurixAI/TuriX-CUA
以上,既然看到这里了,如果觉得有点意思,可以随手点个赞、在看、转发三连,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的碎碎念,我们,下次再见。

