大数跨境
0
0

DeepMind发布SIMA 2!打通「感知-推理-行动-反思」闭环

DeepMind发布SIMA 2!打通「感知-推理-行动-反思」闭环 新智元
2026-01-09
5

新智元报道

编辑:peter东
【新智元导读】DeepMind推出SIMA 2,将智能体从指令执行者升级为具备多模态推理、目标规划与持续学习能力的虚拟世界互动伙伴。该模型依托Gemini实现跨游戏泛化,并在程序化生成环境中展现强适应性,是具身通用智能的重要进展。

游戏环境长期被视为通向通用人工智能(AGI)的关键试验场——从围棋、星际争霸到开放世界协作任务。2024年,DeepMind推出的SIMA(Scalable Instructable Multiworld Agent)首次支持智能体通过自然语言指令在虚拟环境中完成操作;而最新发布的SIMA 2则进一步融合Gemini的多模态理解与推理能力,实现目标驱动的行为、实时对话交互与自我迭代提升。

一个与你互动的游戏搭子

相比仅能依据屏幕画面和预设指令执行操作的SIMA 1,SIMA 2可深度理解用户意图,自主拆解目标、规划路径、解释行为逻辑,并在未见过的新游戏中完成复杂任务。其交互方式更接近协作伙伴:既能响应“去二楼书房”,也能在多轮对话中说明“先绕过障碍物,再攀爬楼梯,最后打开书柜抽屉”。

图1:智能体-环境接口 智能体接收自然语言指令及当前画面帧,输出内部推理过程、对话响应与具体动作,并动态指定所需模态(文本/动作/图像等)。

SIMA的强大泛化能力

依托Gemini的多模态基础,SIMA 2可解析图文混合提示、多语言指令甚至简笔草图,完成高度开放的任务。例如:根据手绘路线图导航至指定房间;结合流程图分步搭建营火,并同步说明每一步意图。

图2:SIMA 2分解复杂指令并识别手绘草图定位目标位置。

图3:基于Gemini的多步推理能力使SIMA 2可完成需多阶段判断与协同操作的任务。

更关键的是概念迁移能力:如在一款游戏中学会“采矿”,即可迁移到另一款游戏中执行“采集”类操作。这种能力使其在多项任务中表现逼近人类玩家水平。

图4:在全部训练游戏环境中,SIMA 2任务完成率较SIMA 1提升约100%,自动评估与人工评估下均接近人类基准。

图5:在交互与物体管理等核心技能上,SIMA 2已接近人类水平;资源收集与战斗等场景仍待优化。

为验证极限泛化能力,DeepMind将SIMA 2与生成式世界模型Genie 3结合。在Genie 3实时构建的全新3D环境中(如蝴蝶寻花任务),SIMA 2无需任何训练数据即可准确定位、理解指令并采取有效行动,展现出前所未有的开放环境适应力。

可扩展的、多任务的自我提升

SIMA 2引入闭环式自我提升机制:通过Gemini提供任务初始设定与行为反馈,智能体在试错中积累经验并生成高质量训练数据,用于迭代优化后续版本——类似AlphaZero的无监督强化学习路径。

图6:SIMA 2自我提升循环:Gemini初始化任务→智能体执行并获得反馈→经验入库→驱动下一代训练。

在固定任务集上,SIMA 2性能持续攀升,部分指标已超越人类基准(图7)。该架构标志着具身智能正迈向“开放性学习者”阶段:即在极低人工干预下,于多样化生成世界中自主演进。

图7:SIMA 2在固定任务集上的性能随训练轮次稳步提升。

SIMA 2不仅是AI游戏智能体的跃升,更是具身通用智能的关键里程碑。其在虚拟环境中习得的导航、工具使用、协作执行等能力,构成未来物理世界AI助手的核心技能基座。

当前挑战仍存:对超长周期任务的多步推理与目标验证能力有限;上下文记忆窗口较短;键盘/鼠标级精细操作稳定性不足;复杂3D场景下的视觉理解有待加强。这些正是通向人工通用智能(AGI)必须突破的技术关口。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14745
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读96.5k
粉丝0
内容14.7k