在人工智能领域,计算机操作代理模型(CUA)正逐渐成为研究热点。这类模型能够模拟人类与计算机的交互方式,完成各种复杂的任务。微软最新发布的 Fara-7B 模型,以其高效、紧凑的特点,为这一领域带来了新的突破。
一、项目概述
Fara-7B 是微软推出的一款专注于计算机使用的代理型小语言模型(SLM),拥有 70 亿参数。它通过视觉感知网页内容,直接操作鼠标、键盘等界面元素来帮助用户完成任务。该模型基于 Qwen2.5-VL-7B 构建,采用“观察 - 思考 - 行动”的循环方式执行任务。其训练数据由微软开发的合成数据生成管道 FaraGen 生成,包含 145K 条轨迹,覆盖多种任务片段。
二、核心功能
(一)自动化任务执行
Fara-7B 能自动完成多种计算机任务,如填写表单、搜索信息和预订旅行等。它通过操作鼠标、键盘等界面元素,帮助用户高效完成任务,显著提升工作效率,减少人工操作的繁琐步骤,让复杂的多步骤任务变得简单快捷。
(二)视觉感知与交互
模型直接通过屏幕截图感知网页内容,无需依赖网页的内部结构(如无障碍树)。它能预测坐标进行点击、滚动、输入等操作,完全依赖屏幕视觉信息,实现与人类相似的交互方式。
(三)用户交互与控制
在执行任务时,Fara-7B 会在关键节点(如涉及用户隐私或重要决策时)暂停,等待用户确认或输入。这种设计确保用户对任务的完全控制,避免因自动执行而导致的潜在风险。
(四)隐私保护与安全性
所有操作均在本地设备上完成,用户数据不会外传,确保数据安全和隐私保护。同时,模型通过日志记录和沙盒环境运行,进一步强化了安全性和用户对模型行为的掌控。
(五)高效任务执行
Fara-7B 采用优化的模型架构和训练方法,能用较少的步骤完成任务,相比其他同类模型效率更高,成本更低。它在多个基准测试中表现出色,证明了其高效的任务执行能力。
三、技术揭秘
(一)基于视觉的交互
Fara-7B 通过屏幕截图直接感知网页内容,并基于视觉信息预测鼠标点击、滚动和键盘输入等操作坐标。这种视觉驱动的交互方式完全不依赖网页的内部结构(如DOM树或无障碍树),使模型能够像人类用户一样自然地与计算机界面交互。
(二)合成数据生成
为解决高质量训练数据不足的问题,微软开发了FaraGen合成数据生成管道。该系统从公开网页和任务提示中自动生成大规模的多步骤任务数据,避免了人工标注的高昂成本,同时确保了数据的多样性和丰富性。
(三)多智能体系统训练
在训练阶段,Fara-7B 使用多智能体系统解决合成任务。系统包括任务规划者、网页操作者和用户模拟器等,它们协同工作完成任务并生成用于监督微调的演示数据。
(四)单模型蒸馏
将多智能体系统的复杂性蒸馏到一个单一模型中,使Fara-7B能够独立运行。这种蒸馏技术简化了部署和使用过程,同时保留了多智能体系统的高效性和灵活性。
(五)强化安全机制
Fara-7B 在训练中加入了安全数据,使其能够识别并拒绝有害任务。所有操作均记录可审计,确保用户对模型行为的完全掌控,从而在实际应用中提供更高的安全性。
四、基准评测
在WebVoyager、Online-Mind2Web、DeepShop 等基准测试中,Fara-7B 表现优异。例如,在 WebVoyager 测试中,其任务成功率达到了 73.5%,超过了 UI-TARS-1.5-7B 和 GPT-4o。同时,Fara-7B 在成本效率方面也表现出色,完成一个任务平均仅需约 16 个步骤。
五、应用场景
(一)办公自动化
Fara-7B 能够自动处理文档、撰写邮件、录入数据等办公任务。它可以通过视觉感知和操作界面元素,快速完成重复性工作,显著提升办公效率,让员工有更多时间专注于核心业务和创造性工作。
(二)信息检索与整理
模型可以快速搜索网络信息,并将结果整理汇总。它能够理解用户的需求,从大量网页中提取关键信息,生成简洁的总结,帮助用户高效获取所需资料。
(三)电子商务
Fara-7B 能自动搜索商品、比较价格并协助下单。它可以通过视觉感知网页内容,找到用户想要的商品,并在不同电商平台之间进行价格比较,帮助用户做出更明智的购物决策。
(四)旅行规划
模型能智能安排行程、预订机票酒店。它可以根据用户的需求和偏好,搜索合适的航班和酒店,并完成预订流程,简化旅行准备过程。
(五)在线学习
Fara-7B 能自动搜索课程、整理学习资料。它可以帮助用户快速找到相关的在线课程和学习资源,并将资料整理成易于阅读的格式,助力用户高效学习。
六、快速使用
(一)环境准备
1、克隆仓库
首先,需要从GitHub 克隆 Fara-7B 的代码仓库。打开终端或命令行工具,运行以下命令:
git clone https://github.com/microsoft/fara.gitcd fara
2、设置虚拟环境
推荐使用虚拟环境来管理依赖,避免与系统环境冲突。运行以下命令创建并激活虚拟环境:
python3 -m venv .venvsource .venv/bin/activate # Linux/Mac.venv\Scripts\activate # Windows
激活虚拟环境后,所有后续的Python 包安装都会在这个独立的环境中进行。
3、安装依赖
安装项目所需的Python 包。运行以下命令:
pip install -e .playwright install
这将安装Fara-7B 的 Python 依赖以及 Playwright 浏览器自动化工具。
(二)启动模型服务
在本地启动Fara-7B 模型服务,使其能够接收任务请求并返回结果。运行以下命令:
vllm serve "microsoft/Fara-7B" --port 5000 --dtype auto
这将启动一个本地服务,监听端口5000,用于处理 Fara-7B 的任务。
(三)使用命令行工具查询任务
使用`fara-cli` 工具向模型发送任务并获取结果。例如,运行以下命令查询天气信息:
fara-cli --task "what's the weather in New York now"
这将向Fara-7B 发送任务,模型会处理任务并返回结果。
结语
Fara-7B 作为微软在计算机操作代理领域的一次创新尝试,凭借其高效、紧凑的特性,为智能代理技术的发展开辟了新的道路。它不仅在任务执行效率、成本控制和安全性方面表现出色,还通过开源和社区合作的方式,邀请更多开发者参与探索和改进。尽管目前仍处于实验性阶段,但 Fara-7B 已展现出巨大的应用潜力和研究价值。我们期待它在未来能够不断进化,为人们的工作和生活带来更多便利和创新。
项目地址
项目官网:https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/
GitHub 仓库:https://github.com/microsoft/fara
HuggingFace 模型库:https://huggingface.co/microsoft/Fara-7B
技术论文:https://www.microsoft.com/en-us/research/wp-content/uploads/2025/11/Fara-7B-An-Efficient-Agentic-Model-for-Computer-Use.pdf
点亮“关注”,设为“星标”,精彩不迷路!与你携手探索AI的无限可能,精彩内容持续更新!🚀

