开源 TuriX-CUA 正式把“AI 实习生”装进你的桌面- 大数跨境

首页

开源 TuriX-CUA 正式把“AI 实习生”装进你的桌面

AI软件测评说

2026-01-07

昨天晚上，我本来已经准备收工。

手一滑，刷到一个项目：TuriX-CUA。
点进去之前，我还以为又是那种“AI 帮你点点鼠标、关关窗口”的常规货。
结果 README 从头看到尾，B 站都不想刷了。

简单说下，它干嘛的：

❝
对着电脑说话
它盯着你的屏幕
自己动鼠标、敲键盘、切应用、开网页
帮你在真实桌面上完成一整件事。

不是调用某个应用 API
是像一个实习生坐在你电脑前，亲手操作。

项目的定位叫 computer-use-agent
就是那种参加 OSWorld 一类基准测试的桌面智能体。

他们自己说
在内部 OSWorld 风格测试集上，成功率能到 68%+
在 Mac 上速度和成功率都优于之前的开源代理，比如 UI-TARS。

重点有两个：

一个
它不依赖“应用内 API”。
只要人类能点到的地方，它都可以点：
WhatsApp、Excel、Outlook、企业内部系统、古早后台。
另一个
完全开源，MIT 协议
个人、研究免费用。

现实里很多系统根本没什么 API
尤其是公司内网系统、各种老旧后台，谁给你写接口。
TuriX 的思路就是：
别跟我谈接口，我直接看屏幕。

我先跑了一遍安装。

Mac 上大概流程：
官网下应用，或者 git clone 仓库
conda create -n turix_env python=3.12
conda activate
pip install -r requirements.txt

然后是最麻烦但最关键的一步：给权限。

系统设置 → 隐私与安全 → 辅助功能
把 Terminal、VSCode、/usr/bin/python3 加进去。
不然它连“帮你点一下按钮”都做不了。

Safari 那边也要打开开发者功能
开启远程自动化、允许 Apple Events 里的 JS
再用 osascript 弹个 alert，让系统弹出授权弹窗
你一口气点完“允许”。

说实话，略微繁琐。
但你如果遇到一个桌面 AI
什么权限都不问就能控制你全系统
我反而会更害怕。

权限搞定，开始配置。

核心是一个 config.json
里面两块：

agent：你要它做什么
llm：用哪个模型当“大脑”。

比如：

❝
“agent”: {
“task”: “open system settings, switch to Dark Mode”
}

等于给它下指令：帮我打开系统偏好设置，切到深色模式。

模型这块，如果用 Turix 自家的 API：

❝
“llm”: {
“provider”: “turix”,
“api_key”: “你的 key”,
“base_url”: “https://llm.turixapi.io/v1”
}

不想用也行
可以在 main.py 里加自己的 provider
接 gpt-4.1-mini、Claude、Gemini、Qwen3-VL 随你
它设计成了“热插拔大脑”。

这种模式很舒服

你可以根据价格、性能随时换模型
底层桌面控制逻辑不用动
对开发者和团队都更安全，毕竟谁都不想被一家云厂商绑死。

它还有一件值得说的事：已经支持 Qwen3-VL 这种视觉语言模型。

桌面代理要靠谱，必须“看见”屏幕
否则你说“关掉左上角那个红色按钮”
纯文本模型根本不知道你桌面长啥样。

Qwen3-VL 这种能看图的模型
刚好适合做 UI 级别的推理。
官方说，复杂界面成功率提升 15%
我没细测
但我让它在多个窗口之间来回跳、操作网页＋本地软件
翻车次数确实不多。

举个我自己玩的例子。

我给它下的任务是：
“帮我对比几个 AI 桌面代理，在浏览器查资料，写一个简单总结到 Pages 文档里，保存到桌面。”

它的操作大概是：

❝
打开 Safari
搜索 Turix、UI-TARS、OSWorld 这些关键字
扫了几篇文档
然后开 Pages，新建文档
写了一份结构还算正常的对比总结
最后把文件存到桌面，还起了个不那么离谱的文件名。

中间有个小插曲
系统突然弹出一个权限框，它愣了一会儿不动
我看不下去，替它点了“允许”
它接着往下干，像什么都没发生一样。

那一刻，我的感觉很像在远程指导一个实习生
他被弹窗吓住，你帮他点一下
继续干后面的活。

人机协作的感觉就出来了。

再说一个有意思的点：MCP。

MCP（Model Context Protocol）
是 Anthropic 推的那个协议
主要是让不同智能体、工具、系统之间能互相调用。

TuriX 做的事情是：
你可以把它当 MCP 工具挂到 Claude 桌面版里
Claude 负责聊天、规划
TuriX 负责实际操作电脑。

官方 demo 有这么一个流程：

❝
Claude 搜人工智能新闻
通过 MCP 调 TuriX
让 TuriX 把研究结果写进 Pages 文档
保存、整理，再发给联系人。

换一种说法
一个 AI 在上面想
一个 AI 在下面动手
你在中间点几下确认。

我们回到体验层面

这项目的适用人群，大概有几类。

讨厌重复操作的人
每天打开一堆网站、表格、系统，做机械动作
这种完全可以丢给 TuriX。
严重依赖桌面软件的知识工作者
写报告、做表、改 PPT、发邮件
那些“很费时间但没啥创造性”的步骤
可以交给它先跑一遍。
开发者
直接当“桌面执行引擎”
你的 Agent 负责思考
TuriX 负责跟操作系统打交道。

想做 AI 办公产品的团队
可以把它当做通用桌面控制模块
外面套一层自己业务逻辑
直接变成一个可卖的产品。

但它暂时还不是那种“下载就能玩”的纯 C 端小白向
你最好能：

❝
装个 Python
敢开系统权限
看懂一点 config.json
偶尔查下报错日志

如果这些都懒得弄
可能还是等后面有人把这套能力封成一键安装的小工具更适合你。

路线图那块我也看了

有几个方向还挺有野心：

工作流录制和回放
离线模型，本地推理
持久记忆，记住你的偏好
示范学习，你做一遍，它学你的习惯
为 Windows 专门优化的模型

这明显是想从“会点按钮的 AI”
往“个人工作流 OS”进化。

你可以想象一下这种用法：

你说

❝
“把昨天下载的三个 PDF 里的核心条款提出来，写成一封邮件给 HR，再做一张 Excel 对照表，存公司网盘合规文件夹。”

然后你去倒杯水
回来看到邮件草稿已经写好
Excel 填好
网盘路径也选好了
你只需要点一下确认。

这时候的电脑
就不再是一堆图标、一堆窗口
而是一个“你说一句，它帮你跑完一整套链路”的执行器。

我越来越有一种感觉

Agent 和这类桌面自动化
真正改变的，不是“某个软件更智能了”
而是你会慢慢习惯一件事：

当你可以随时把一个想法
直接说成一句话
就生成一个可执行的完整方案
而那些打开软件、点按钮、输文字、存文件的过程
可以全部交给 AI 去做。

那时候
“怎么做”
变成一个技术问题
“你到底想要什么”
才是唯一需要你认真回答的。

其他过程，都可以托管。

但这一句
我想
永远得我们自己说出口。

以上，TuriX-CUA 这个项目
整体效果不错
有实力，不花哨
也挺适合折腾党和 AI 办公爱好者试试。

项目地址：https://github.com/TurixAI/TuriX-CUA

以上，既然看到这里了，如果觉得有点意思，可以随手点个赞、在看、转发三连，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的碎碎念，我们，下次再见。

【声明】内容源于网络

AI软件测评说

专注分享Vibe Coding、独立开发Ai 工具和创业灵感

内容 397

粉丝 0

AI软件测评说专注分享Vibe Coding、独立开发Ai 工具和创业灵感

总阅读4.1k

粉丝0

内容397