大数跨境
0
0

‌阿里通义实验室发布 MAI-UI:一套能“看懂”手机屏幕、帮你自动操作 App 的 AI 智能体,性能超越谷歌 Gemini、Seed与 UI-Tars-2

‌阿里通义实验室发布 MAI-UI:一套能“看懂”手机屏幕、帮你自动操作 App 的 AI 智能体,性能超越谷歌 Gemini、Seed与 UI-Tars-2 dotNET跨平台
2026-01-04
14
导读:大家好,我是编程乐趣。今天推荐一个开源项目,可以让AI直接操控我们的手机。阿里通义实验室近日发布了 MAI-

大家好,我是编程乐趣。

今天推荐一个开源项目,可以让AI直接操控我们的手机。

阿里通义实验室近日发布了 MAI-UI —— 一个面向图形用户界面(GUI)智能体开源项目。

MAI-UI在GUI(图形用户界面)定位方面有着非常高的性能,在ScreenSpot-Pro上超越了Gemini-3-Pro和Seed1.8,并在UI-Vision上显著超越了现有模型。


项目简介

MAI-UI是覆盖一系列全尺寸谱系的基础GUI智能体。它包含‌2B、8B、32B 以及 235B-A22B‌等多种参数量变体。

MAI-UI最厉害的地方主要有两点,可以想象成一个会看屏幕、会自己操作手机的超级AI助手:

1‌、“看得懂”屏幕(GUI定位能力)‌:它识别和理解手机、电脑屏幕上各种按钮、文字、图片的能力达到了顶尖水平。

2‌、“办得成事”(导航与执行能力)‌:它不仅能看懂,还能真的替你在手机上完成复杂任务。在目前最受认可的Android智能体“驾照考试”——AndroidWorld基准上,它创造了‌76.7%‌ 的最高成功率记录,表现优于同期其他对手。更关键的是,在一个更接近真实手机使用场景的基准“MobileWorld”中,它也创下了新的最高成功率记录,‌达到了41.7%‌,这证明它处理日常真实应用的潜力非常强。


我们可以用它做什么?

想象一下,你希望AI助手帮你订机票、购物、处理工作信息,但它却只能和你“空谈”,无法直接操作你的手机App,也无法根据情况主动问你问题,甚至一遇到复杂的界面就“卡壳”。

MAI-UI正是为了打破这些障碍而生:

‌1、让AI不再是“空谈”:它设计了‌原生的人机互动机制‌,能在执行任务时主动向用户询问必要信息(例如,“您想买哪天的机票?”),让指令更完整。

‌2、超越“纯界面”限制‌:它能通过‌MCP工具调用‌与外部应用(如地图、票务系统)和真实世界数据深度集成,实现“查地图、订车票”等复杂操作。

3‌、实现“灵活部署”‌:独创的‌设备-云混合协作架构‌,能根据任务复杂度和数据敏感性,智能决定是在你手机上本地处理,还是调用云端强大算力,兼顾了效率、成本与隐私。

4‌、应对“动态环境”‌:通过先进的‌在线强化学习框架‌,它在海量虚拟手机环境中不断“练习”和进化,使其在面对各种复杂、变化的App界面时,依然稳健可靠。


实例演示

1、去盒马买菜,买一份雪花牛肉卷、一份娃娃菜、一份金针菇,再随便买一个豆制品。对了,去日历中待办里检查下我老婆有什么要在盒马买的,我确认下要不要一起买

2、我现在在阿里巴巴云谷园区,我要先去 招商银行取钱,再去城西银泰城。帮我规划公交地铁出行的路线,选一家在4公里以内的、用时最短的招商银行,两段行程总时间不要超过2小时,把规划行程记在笔 记中我一会看,标题为下午行程,内容为两段行程细节

3、在小红书搜索产品,将产品图片保存到相册,然后用这张图片在淘宝上搜索相同商品并加入购物车。

4、我需要紧急出差上海,帮我去12306查询现在最早从杭州西站去上海虹桥、有二等座票的班次,在钉钉前沿技术研讨群里把到达时间同步给大家,再把我和水番的会议日程改到明天同一时间,在群里发消息@他,礼貌解释因为临时出差调整会议时间,询问他明天是否有空
5、去飞猪查询12月25日去,28日回,杭州到三亚的往返机票
6、去淘票票给我买一张25号下午的疯狂动物城2的电影票,选亲橙里的电影院,中间的座位,加一份可乐和爆米花的单人餐,停在最后的订单界面

安装指南

目前,MAI-UI 已经把 2B 和 8B 的版本开源出来了。

1、克隆代码

打开终端,执行命令克隆项目到本地:

git clone https://github.com/Tongyi-MAI/MAI-UI.git

2、‌准备模型文件‌ 

从 Hugging Face 下载模型。

3、启动 API 服务‌

使用 vLLM 启动模型服务,命令如下:

python -m vllm.entrypoints.openai.api_server \    --model <你的模型路径> \    --served-model-name MAI-UI-8\    --host 0.0.0.0 \    --port 8000 \    --tensor-parallel-size 1 \    --trust-remote-code

4、运行示例‌

进入 cookbook/ 目录,打开 grounding.ipynb 或 run_agent.ipynb 文件。

修改 llm_base_url 为 http://localhost:8000/v1,然后运行代码即可体验。


开源项目地址

https://github.com/Tongyi-MAI/MAI-UI

- End -

推荐阅读

qdrant-dotnet:官方提供的开源 .NET 客户端库,用于与 Qdrant 向量搜索引擎操作!

OpenAI创始人:作为一名程序员,我从未感到如此落后

C#实现Stdio通信方式的MCP Server

盘点5个.Net开发的服务器进程监控、性能监控、任务调度的开源项目

VS Code + Cline + 魔搭MCP Server 实现抓取网页内容。

回复“”,免费领取.NetCore视频教程

【声明】内容源于网络
0
0
dotNET跨平台
专注于.NET Core的技术传播。在这里你可以谈微软.NET,Mono的跨平台开发技术。在这里可以让你的.NET项目有新的思路,不局限于微软的技术栈,横跨Windows,
内容 1014
粉丝 0
dotNET跨平台 专注于.NET Core的技术传播。在这里你可以谈微软.NET,Mono的跨平台开发技术。在这里可以让你的.NET项目有新的思路,不局限于微软的技术栈,横跨Windows,
总阅读17.4k
粉丝0
内容1.0k