引言
想象一下,当你对游戏里的队友说“去找个像成熟番茄一样红的房子”,它不仅能理解“番茄红”是一种颜色,还能在陌生的虚拟世界里精准定位目标——这不是科幻电影,而是Google DeepMind最新发布的SIMA 2智能体的真实能力。这个被戏称为“AI游戏搭子”的智能体,不仅能陪你打游戏不挂机、不送人头,更在虚拟世界中悄然演练着未来机器人的核心技能:推理、协作与自主进化。或许有一天,当你在游戏里和AI并肩作战时,它正在悄悄为征服现实世界做准备。
什么是SIMA 2
Google DeepMind于2025年11月13日发布了SIMA 2智能体,这是一个在虚拟3D世界中能自主游戏、推理并持续学习的通用AI智能体。SIMA 2代表了DeepMind在具身智能(Embodied AI)和通用人工智能(AGI)道路上的重要突破,其核心创新在于将Gemini大语言模型与具身技能模型深度融合,构建了一个完整的"感知-推理-行动"认知闭环。DeepMind创始人哈萨比斯将其定义为"通往通用人工智能的关键一步",而高级研究科学家Jane Wang则强调,SIMA 2在虚拟环境中的能力迁移是未来构建通用机器人所需的核心"认知构建模块"。
一、SIMA 2的开发背景与SIMA 1的传承关系
SIMA 2是DeepMind在SIMA 1基础上的迭代升级。SIMA 1(Scalable Instructable Multiworld Agent,可扩展、可指导的多世界智能体)于2024年3月发布,标志着AI在3D世界中将语言转化为行动的初步探索。SIMA 1的核心能力是跨多种虚拟环境执行基本指令,如"左转"、"爬梯子"和"打开地图"等,它通过"查看"屏幕并使用虚拟键盘和鼠标进行导航,而无需访问底层的游戏机制。
SIMA 1的局限性在于缺乏深度规划和意图理解能力,仅限于被动模仿人类操作。在SIMA 1中,AI仅能实现"语言→行动"的简单映射,无法理解用户指令背后的高级目标,也无法在复杂环境中进行多步骤推理。这使得SIMA 1在面对开放世界游戏中的复杂任务时表现不佳,其任务完成率仅为31%左右,而人类玩家的完成率则高达71%。
SIMA 2的开发背景源于DeepMind对通用人工智能(AGI)的长期追求。DeepMind认为,具身智能是实现AGI的关键路径,而虚拟环境是训练具身智能的理想场所。SIMA 2的发布标志着DeepMind在AGI研究方向上迈出了重要一步,同时也为机器人技术的发展提供了新的可能性。
二、SIMA 2的技术架构与创新
SIMA 2的核心技术架构采用了"Gemini-SIMA Fusion"三层设计,包括决策中枢、视觉-动作模型和思维令牌桥梁。这一架构集成了Gemini 2.5 Flash Lite模型作为推理引擎,实现了从指令跟随到主动认知的质变。
1、Gemini融合架构
SIMA 2的最大创新点在于将Gemini大语言模型与视觉-动作模型深度融合。Gemini模型负责解析用户指令、推断意图并生成计划,而视觉-动作模型则负责感知环境并执行具体操作。这种融合通过"思维令牌桥梁"实现,确保语言、视觉和动作模块之间的高效信息传递和协同工作。
在SIMA 2中,Gemini模型不再仅作为独立的语言处理器,而是直接参与环境交互的决策过程。例如,当被要求"前往看起来像成熟番茄的房子"时,Gemini会推理出"成熟的番茄是红色的,所以我应该去红色的房子",并指导智能体执行相应的导航动作。这种显式推理能力是Gemini带来的质变,使SIMA 2能够理解用户的高级目标并进行复杂推理。
2、多模态处理能力
SIMA 2的多模态处理能力是其另一大亮点。SIMA 2不仅能理解文本指令,还能处理语音、图像(如手绘草图)和emoji等多模态输入。例如,当用户发送斧头和树木的emoji时,SIMA 2能理解这意味着"砍树",并执行相应的动作序列。
这种多模态理解能力来源于Gemini的多模态架构,但DeepMind的关键创新在于找到了将抽象符号与游戏动作连接的方法。系统能够理解工具(如斧头)与可交互对象(如树木)之间的关系,并将其转化为具体的行动步骤。
3、自生成数据闭环系统
SIMA 2最重要的创新之一是其自我改进机制。与SIMA 1完全依赖人类游戏数据不同,SIMA 2在获得初始的人类演示基线后,能够转向自主学习。系统调用独立的Gemini模型批量生成潜在任务,再通过内部奖励模型对执行轨迹评分,筛选出高质量行为路径用于后续微调。
这种自生成的数据闭环机制无需人工标注即可持续提升性能,使SIMA 2能够像人类一样通过试错来教会自己新行为。在与Genie 3(DeepMind的世界生成模型)结合时,SIMA 2的自我改进能力得到进一步放大,在实时生成的全新3D环境中展现出前所未有的适应能力。
4、性能优化与低资源运行
SIMA 2在性能优化方面也取得了显著进展。DeepMind通过优化决策和执行流程,将端到端响应时间压缩到200毫秒以内,确保了在实时交互场景中的流畅体验。同时,SIMA 2还具备低资源运行能力,通过优化模型结构和训练方法,轻量版SIMA 2-Lite可在单张RTX 3090显卡上运行。
三、SIMA 2在游戏环境中的具体应用案例与性能表现
SIMA 2已在多种3D游戏中展示了其强大的能力,包括《无人深空》、《英灵神殿》和《山羊模拟器3》等。SIMA 2的任务完成率在训练过的游戏环境中达到了65%,几乎是SIMA 1(31%)的两倍,与人类玩家75%的基准线已经相当接近。
1、训练环境中的表现
在训练过的游戏中,SIMA 2展现出卓越的推理和规划能力。例如,在《无人深空》中,SIMA 2能够理解"前往红色房屋"的指令,并通过颜色关联推理(成熟番茄是红色)完成任务。而在SIMA 1中,面对类似指令,系统只能机械地尝试各种操作,缺乏真正的理解和规划。
SIMA 2还能够处理更复杂的多步骤指令,如"找到并砍倒最大的树,然后收集木材"。这表明SIMA 2已从简单的技能执行者(SIMA 1)转变为能够理解高级目标并制定计划的智能体。
2、未训练环境中的表现
SIMA 2的真正突破在于其在未见过的复杂环境中的适应能力。在从未训练过的MineDojo(Minecraft的研究实现版本)和ASKA游戏中,SIMA 2的成功率相较SIMA 1分别提升了13%和12%。虽然绝对成功率仍低于人类玩家,但考虑到智能体此前从未见过这些游戏的任何画面或机制,这一表现已经相当可观。
SIMA 2在未训练环境中的成功主要归功于其跨环境知识迁移能力。例如,在《无人深空》中学到的"采集资源"概念可以迁移到MineDojo中的"挖矿",在《英灵神殿》中学到的"使用工具"可以应用到ASKA的"装备武器"。这种跨环境的知识迁移,对于提升AI的真正智能具有重要意义。
3、与人类玩家的对比
SIMA 2与人类玩家的对比主要体现在以下方面:
- 任务完成率:SIMA 2在训练环境中的任务完成率为65%,接近人类玩家75%的水平;而在未训练环境中,SIMA 2的成功率约为15%,远低于人类玩家。
- 推理能力:SIMA 2能够像人类一样对自身行为和环境进行推理,并向用户解释其意图和计划。例如,在执行"寻找篝火"指令时,SIMA 2会解释其正在寻找的特征和可能的路径。
- 学习方式:SIMA 2通过试错和Gemini反馈的闭环机制自我迭代,类似于人类的学习过程。而人类玩家则可以通过更直观的环境理解和社会互动来学习。
SIMA 2与通用人工智能
SIMA 2的核心价值在于其构建的"感知-推理-行动"闭环,这一闭环被视为AGI的关键技术路径。
SIMA 2的闭环架构实现了从"语言→行动"到"语言→意图→计划→行动"的质变,这一架构为AGI提供了重要的认知基础。闭环的实现依赖于三个关键模块的协同工作:
- 感知模块:通过视觉模型处理游戏画面,提取环境信息和可交互对象
- 推理模块:基于Gemini模型解析用户指令,推断高级目标,并生成多步骤计划
- 行动模块:将推理结果转化为具体的键盘鼠标操作,执行任务
这一闭环架构解决了AGI中的关键问题:如何让AI系统在复杂环境中理解人类意图并自主行动。DeepMind认为,这种能力是AGI的基础,也是构建通用机器人的关键。
SIMA 2的自主学习机制是AGI路径的重要组成部分。通过自生成数据闭环,SIMA 2能够持续改进自身能力,无需额外的人类标注数据。这模拟了人类在未知环境中的探索和学习过程,是AGI区别于传统AI的核心特征。
SIMA 2的自我改进能力体现在以下几个方面:
- 任务生成:Gemini模型能够批量生成潜在任务,为智能体提供多样化的学习机会
- 奖励模型:内部奖励模型对执行轨迹进行评分,筛选出高质量行为路径
- 持续微调:通过自生成的经验数据,智能体能够不断优化自身行为策略
这种自主学习机制为AGI提供了重要的技术基础,使AI系统能够像人类一样适应和学习新环境。
SIMA 2的多模态交互能力和概念迁移能力也是AGI路径的关键组成部分。多模态交互使AI系统能够更自然地与人类交流,而概念迁移则使系统能够将学到的知识应用到新环境中。
SIMA 2的多模态交互能力包括:
- 文本理解:解析自然语言指令并理解其含义
- 图像理解:处理视觉输入并识别环境中的物体和符号
- 符号理解:将抽象符号(如emoji)与具体行动连接
概念迁移能力则体现在SIMA 2能够将游戏中的技能抽象为通用概念,并迁移到其他环境中。例如,"采集资源"的概念可以迁移到不同游戏的资源收集任务中,而"使用工具"的概念则可以应用到各种需要工具操作的场景。
SIMA 2可能的影响
SIMA 2与DeepMind的生成式世界模型Genie 3结合,为未来世界模型的发展提供了新的可能性。
SIMA 2展示了虚拟环境作为AI训练场的巨大价值。虚拟环境提供了安全、低成本的训练场所,使AI系统能够通过大量试错学习复杂技能。DeepMind高级研究科学家Jane Wang将其称为"一个绝佳的训练场",有望将这些技能转移到现实世界环境中。
虚拟环境的优势主要体现在以下几个方面:
- 多样性:虚拟环境可以模拟各种现实和想象中的场景,为AI系统提供丰富的训练数据
- 可控性:虚拟环境中的参数(如物理规则、对象属性)可以被精确控制和调整,便于系统学习
- 安全性:AI系统可以在虚拟环境中试错,而无需担心对真实世界造成损害
- 效率:虚拟环境中的训练可以并行进行,大大提高了学习效率
Genie 3是DeepMind于2025年8月发布的第三代通用世界模型,它能实时生成高度动态且连贯的虚拟世界,支持长达数分钟的连续交互。Genie 3与SIMA 2的结合产生了显著的协同效应:
- 环境生成:Genie 3能够根据文本或图像提示生成可交互的3D环境,为SIMA 2提供多样化的训练场景
- 物理一致性:Genie 3通过自回归逐帧生成架构和记忆机制,保持环境的物理一致性,使SIMA 2能够学习真实的物理规律
- 交互增强:Genie 3支持"可提示世界事件"功能,允许动态调整环境,增强了SIMA 2的泛化能力
这种协同效应为未来世界模型的发展提供了新的方向,即世界模型不仅需要生成逼真的环境,还需要支持智能体的交互和学习。
SIMA 2的跨环境知识迁移能力为未来世界模型的发展提供了重要启示:
- 抽象表示:SIMA 2能够将具体环境中的技能抽象为通用概念,这表明世界模型需要支持抽象表示和知识提取
- 迁移学习:SIMA 2通过自生成数据闭环实现技能迁移,这表明世界模型需要支持高效的迁移学习机制
- 环境一致性:SIMA 2在Genie 3生成的环境中表现出色,这表明世界模型需要保持环境的长期一致性和可交互性
这些启示将推动世界模型从单纯的环境生成向支持智能体学习和迁移的方向发展。
SIMA 2的未来发展
尽管SIMA 2取得了显著的进展,但仍面临一些挑战:
-
1. 当前挑战
- 复杂任务处理:SIMA 2在需要多步骤和长时间的复杂任务上仍有困难,如长距离导航或需要精细控制的任务
- 记忆限制:SIMA 2的记忆相对较短,必须使用有限的上下文窗口来实现低延迟交互,这限制了其在长时程任务中的表现
- 动作执行精度:SIMA 2在使用鼠标键盘方面仍不如人类精确,特别是在需要精细操作的任务中
- 虚拟到现实的鸿沟:将虚拟环境中的技能迁移到现实世界机器人上仍面临"模拟到现实的鸿沟",需要解决传感器差异、物理参数不匹配等问题
DeepMind计划通过以下几个方向进一步发展SIMA 2:
- 分层架构:将机器人系统分为"认知层"(负责推理和规划)和"运动控制系统"(负责底层执行),以解决复杂任务处理和动作执行精度问题
- 增强记忆机制:开发更强大的记忆机制,以支持更长时程的任务规划和目标跟踪
- 多模态融合优化:进一步优化多模态输入的处理和融合机制,提高对复杂指令的理解能力
- 与Genie模型的深度整合:加强SIMA 2与Genie 3等世界模型的整合,探索更高效的环境交互和技能迁移机制
SIMA 2的未来展望不仅限于虚拟环境,DeepMind还计划将其能力迁移到实体机器人上。这将为构建通用机器人奠定基础,使机器人能够在现实世界中执行复杂的任务并与人类进行自然交互。
写在最后
SIMA 2的突破远不止于“游戏玩得好”。它展现的跨环境泛化能力、多模态交互与自我迭代机制,正是破解具身智能(Embodied AI)难题的关键试炼。然而,虚拟与现实的鸿沟依然存在:键盘鼠标的操控如何转化为机器人的精细动作?游戏画面的规则清晰性又如何应对真实世界的混沌? DeepMind的探索提醒我们,通用人工智能的路径或许并非一蹴而就的“奇点爆炸”,而是在无数虚拟世界的试错中逐步累积的“认知构建”。当SIMA 2在《山羊模拟器3》的荒诞物理规则中跌跌撞撞时,它或许正以另一种方式,重复着人类婴儿蹒跚学步的成长历程。
—— END ——
(关注我们,设为星标,别在数字洪流中掉队 ↓)
往期回顾:
1. GPT-5.1 vs Gemini 3:谁是大模型新王者?
2. 数据破壁,物流降本:十部门新方案如何打通实体经济“筋络”
5. 七地先行!国家数据局部署158项改革,打造数字经济创新“试验田”

