大数跨境

开源 TuriX-CUA 正式把“AI 实习生”装进你的桌面

开源 TuriX-CUA 正式把“AI 实习生”装进你的桌面 AI软件测评说
2026-01-07
2

昨天晚上,我本来已经准备收工。

手一滑,刷到一个项目:TuriX-CUA
点进去之前,我还以为又是那种“AI 帮你点点鼠标、关关窗口”的常规货。
结果 README 从头看到尾,B 站都不想刷了。

简单说下,它干嘛的:

对着电脑说话
它盯着你的屏幕
自己动鼠标、敲键盘、切应用、开网页
帮你在真实桌面上完成一整件事。

不是调用某个应用 API
是像一个实习生坐在你电脑前,亲手操作。

项目的定位叫 computer-use-agent
就是那种参加 OSWorld 一类基准测试的桌面智能体。

他们自己说
在内部 OSWorld 风格测试集上,成功率能到 68%+
在 Mac 上速度和成功率都优于之前的开源代理,比如 UI-TARS。

重点有两个:

  • 一个
    它不依赖“应用内 API”。
    只要人类能点到的地方,它都可以点:
    WhatsApp、Excel、Outlook、企业内部系统、古早后台。

  • 另一个
    完全开源,MIT 协议
    个人、研究免费用。

现实里很多系统根本没什么 API
尤其是公司内网系统、各种老旧后台,谁给你写接口。
TuriX 的思路就是:
别跟我谈接口,我直接看屏幕。

我先跑了一遍安装。

Mac 上大概流程:
官网下应用,或者 git clone 仓库
conda create -n turix_env python=3.12
conda activate
pip install -r requirements.txt

然后是最麻烦但最关键的一步:给权限

系统设置 → 隐私与安全 → 辅助功能
把 Terminal、VSCode、/usr/bin/python3 加进去。
不然它连“帮你点一下按钮”都做不了。

Safari 那边也要打开开发者功能
开启远程自动化、允许 Apple Events 里的 JS
再用 osascript 弹个 alert,让系统弹出授权弹窗
你一口气点完“允许”

说实话,略微繁琐。
但你如果遇到一个桌面 AI
什么权限都不问就能控制你全系统
我反而会更害怕。

权限搞定,开始配置。

核心是一个 config.json
里面两块:

agent:你要它做什么
llm:用哪个模型当“大脑”。

比如:

“agent”: {
“task”: “open system settings, switch to Dark Mode”
}

等于给它下指令:帮我打开系统偏好设置,切到深色模式。

模型这块,如果用 Turix 自家的 API:

“llm”: {
“provider”: “turix”,
“api_key”: “你的 key”,
“base_url”: “https://llm.turixapi.io/v1”
}

不想用也行
可以在 main.py 里加自己的 provider
接 gpt-4.1-mini、Claude、Gemini、Qwen3-VL 随你
它设计成了“热插拔大脑”。

这种模式很舒服

你可以根据价格、性能随时换模型
底层桌面控制逻辑不用动
对开发者和团队都更安全,毕竟谁都不想被一家云厂商绑死。

它还有一件值得说的事:已经支持 Qwen3-VL 这种视觉语言模型

桌面代理要靠谱,必须“看见”屏幕
否则你说“关掉左上角那个红色按钮”
纯文本模型根本不知道你桌面长啥样。

Qwen3-VL 这种能看图的模型
刚好适合做 UI 级别的推理。
官方说,复杂界面成功率提升 15%
我没细测
但我让它在多个窗口之间来回跳、操作网页+本地软件
翻车次数确实不多。

举个我自己玩的例子。

我给它下的任务是:
“帮我对比几个 AI 桌面代理,在浏览器查资料,写一个简单总结到 Pages 文档里,保存到桌面。”

它的操作大概是:

打开 Safari
搜索 Turix、UI-TARS、OSWorld 这些关键字
扫了几篇文档
然后开 Pages,新建文档
写了一份结构还算正常的对比总结
最后把文件存到桌面,还起了个不那么离谱的文件名。

中间有个小插曲
系统突然弹出一个权限框,它愣了一会儿不动
我看不下去,替它点了“允许”
它接着往下干,像什么都没发生一样。

那一刻,我的感觉很像在远程指导一个实习生
他被弹窗吓住,你帮他点一下
继续干后面的活。

人机协作的感觉就出来了。

再说一个有意思的点:MCP。

MCP(Model Context Protocol)
是 Anthropic 推的那个协议
主要是让不同智能体、工具、系统之间能互相调用。

TuriX 做的事情是:
你可以把它当 MCP 工具挂到 Claude 桌面版里
Claude 负责聊天、规划
TuriX 负责实际操作电脑。

官方 demo 有这么一个流程:

Claude 搜人工智能新闻
通过 MCP 调 TuriX
让 TuriX 把研究结果写进 Pages 文档
保存、整理,再发给联系人。

换一种说法
一个 AI 在上面想
一个 AI 在下面动手
你在中间点几下确认

我们回到体验层面

这项目的适用人群,大概有几类。

  • 讨厌重复操作的人
    每天打开一堆网站、表格、系统,做机械动作
    这种完全可以丢给 TuriX。

  • 严重依赖桌面软件的知识工作者
    报告、做表、改 PPT、发邮件
    那些“很费时间但没啥创造性”的步骤
    可以交给它先跑一遍。

  • 开发者
    直接当“桌面执行引擎”
    你的 Agent 负责思考
    TuriX 负责跟操作系统打交道。

想做 AI 办公产品的团队
可以把它当做通用桌面控制模块
外面套一层自己业务逻辑
直接变成一个可卖的产品。

但它暂时还不是那种“下载就能玩”的纯 C 端小白向
你最好能:

装个 Python
敢开系统权限
看懂一点 config.json
偶尔查下报错日志

如果这些都懒得弄
可能还是等后面有人把这套能力封成一键安装的小工具更适合你。

路线图那块我也看了

有几个方向还挺有野心:

工作流录制和回放
离线模型,本地推理
持久记忆,记住你的偏好
示范学习,你做一遍,它学你的习惯
为 Windows 专门优化的模型

这明显是想从“会点按钮的 AI”
“个人工作流 OS”进化。

你可以想象一下这种用法:

你说

“把昨天下载的三个 PDF 里的核心条款提出来,写成一封邮件给 HR,再做一张 Excel 对照表,存公司网盘合规文件夹。”

然后你去倒杯水
回来看到邮件草稿已经写好
Excel 填好
网盘路径也选好了
你只需要点一下确认。

这时候的电脑
就不再是一堆图标、一堆窗口
而是一个“你说一句,它帮你跑完一整套链路”的执行器。

我越来越有一种感觉

Agent 和这类桌面自动化
真正改变的,不是“某个软件更智能了”
而是你会慢慢习惯一件事:

当你可以随时把一个想法
直接说成一句话
就生成一个可执行的完整方案
而那些打开软件、点按钮、输文字、存文件的过程
可以全部交给 AI 去做。

那时候
“怎么做”
变成一个技术问题
“你到底想要什么”
才是唯一需要你认真回答的。

其他过程,都可以托管。

但这一句
我想
永远得我们自己说出口。

以上,TuriX-CUA 这个项目
整体效果不错
有实力,不花哨
也挺适合折腾党和 AI 办公爱好者试试。

项目地址:https://github.com/TurixAI/TuriX-CUA

以上,既然看到这里了,如果觉得有点意思,可以随手点个赞、在看、转发三连,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的碎碎念,我们,下次再见。


【声明】内容源于网络
0
0
AI软件测评说
专注分享Vibe Coding、独立开发Ai 工具和创业灵感
内容 397
粉丝 0
AI软件测评说 专注分享Vibe Coding、独立开发Ai 工具和创业灵感
总阅读4.1k
粉丝0
内容397