大家好,我是编程乐趣。
今天推荐一个开源项目,可以让AI直接操控我们的手机。
阿里通义实验室近日发布了 MAI-UI —— 一个面向图形用户界面(GUI)智能体开源项目。
MAI-UI在GUI(图形用户界面)定位方面有着非常高的性能,在ScreenSpot-Pro上超越了Gemini-3-Pro和Seed1.8,并在UI-Vision上显著超越了现有模型。
项目简介
MAI-UI是覆盖一系列全尺寸谱系的基础GUI智能体。它包含2B、8B、32B 以及 235B-A22B等多种参数量变体。
MAI-UI最厉害的地方主要有两点,可以想象成一个会看屏幕、会自己操作手机的超级AI助手:
1、“看得懂”屏幕(GUI定位能力):它识别和理解手机、电脑屏幕上各种按钮、文字、图片的能力达到了顶尖水平。
2、“办得成事”(导航与执行能力):它不仅能看懂,还能真的替你在手机上完成复杂任务。在目前最受认可的Android智能体“驾照考试”——AndroidWorld基准上,它创造了76.7% 的最高成功率记录,表现优于同期其他对手。更关键的是,在一个更接近真实手机使用场景的基准“MobileWorld”中,它也创下了新的最高成功率记录,达到了41.7%,这证明它处理日常真实应用的潜力非常强。
我们可以用它做什么?
想象一下,你希望AI助手帮你订机票、购物、处理工作信息,但它却只能和你“空谈”,无法直接操作你的手机App,也无法根据情况主动问你问题,甚至一遇到复杂的界面就“卡壳”。
MAI-UI正是为了打破这些障碍而生:
1、让AI不再是“空谈”:它设计了原生的人机互动机制,能在执行任务时主动向用户询问必要信息(例如,“您想买哪天的机票?”),让指令更完整。
2、超越“纯界面”限制:它能通过MCP工具调用与外部应用(如地图、票务系统)和真实世界数据深度集成,实现“查地图、订车票”等复杂操作。
3、实现“灵活部署”:独创的设备-云混合协作架构,能根据任务复杂度和数据敏感性,智能决定是在你手机上本地处理,还是调用云端强大算力,兼顾了效率、成本与隐私。
4、应对“动态环境”:通过先进的在线强化学习框架,它在海量虚拟手机环境中不断“练习”和进化,使其在面对各种复杂、变化的App界面时,依然稳健可靠。
实例演示
1、去盒马买菜,买一份雪花牛肉卷、一份娃娃菜、一份金针菇,再随便买一个豆制品。对了,去日历中待办里检查下我老婆有什么要在盒马买的,我确认下要不要一起买
2、我现在在阿里巴巴云谷园区,我要先去 招商银行取钱,再去城西银泰城。帮我规划公交地铁出行的路线,选一家在4公里以内的、用时最短的招商银行,两段行程总时间不要超过2小时,把规划行程记在笔 记中我一会看,标题为下午行程,内容为两段行程细节
3、在小红书搜索产品,将产品图片保存到相册,然后用这张图片在淘宝上搜索相同商品并加入购物车。
目前,MAI-UI 已经把 2B 和 8B 的版本开源出来了。
1、克隆代码
打开终端,执行命令克隆项目到本地:
git clone https://github.com/Tongyi-MAI/MAI-UI.git
2、准备模型文件
从 Hugging Face 下载模型。
3、启动 API 服务
使用 vLLM 启动模型服务,命令如下:
python -m vllm.entrypoints.openai.api_server \--model <你的模型路径> \--served-model-name MAI-UI-8B \--host 0.0.0.0 \--port 8000 \--tensor-parallel-size 1 \--trust-remote-code
4、运行示例
进入 cookbook/ 目录,打开 grounding.ipynb 或 run_agent.ipynb 文件。
修改 llm_base_url 为 http://localhost:8000/v1,然后运行代码即可体验。
开源项目地址
https://github.com/Tongyi-MAI/MAI-UI
- End -
推荐阅读
qdrant-dotnet:官方提供的开源 .NET 客户端库,用于与 Qdrant 向量搜索引擎操作!
盘点5个.Net开发的服务器进程监控、性能监控、任务调度的开源项目
VS Code + Cline + 魔搭MCP Server 实现抓取网页内容。
回复“”,免费领取.NetCore视频教程

