离AGI又近一步！DeepMind推出最强虚拟3D世界智能体，能在游戏里互动玩耍、推理和自我进化



离AGI又近一步！DeepMind推出最强虚拟3D世界智能体，能在游戏里互动玩耍、推理和自我进化

头部科技

2025-11-14

导读：AI自进化闭环

文丨丁灵波

谷歌DeepMind今天推出一个全新智能体SIMA 2。

官方称，这是在创建通用且实用的AI代理研究领域取得的又一里程碑。

作为新一代智能体，SIMA 2从一个指令执行者进化为了一个互动游戏伙伴。它不仅能够在虚拟世界中执行各类人类语言指令，还能思考自身目标、与用户互动，并随着时间的推移不断自我改进，这是朝着AGI方向迈出的重要一步，对机器人和具身智能技术的发展也具有重要意义。

得益于Gemini相关技术支撑，用户可以通过文字、语音甚至图像与SIMA 2进行交流互动，它会像人类玩家一样使用视觉和键盘/鼠标，无需修改游戏代码即可在数十款游戏中运行。

而且SIMA 2能够找出解决虚拟世界中问题的方法，这可能会催生出更多通用智能体和更优秀的机器人。

在游戏世界的新突破

电子游戏是AI系统的重要试验场，与现实世界一样，游戏也是丰富的学习环境，具有响应迅速的实时决策和不断变化的任务目标。

DeepMind从早期与Atari游戏合作开发出Agent57，到研发出能够以人类大师级水平玩《星际争霸II》的AlphaStar系统享誉全球，在人工智能和游戏领域技术积累颇丰。

去年3月份，DeepMind推出了可扩展指令式多世界智能体SIMA，该智能体能够遵循自然语言指令，可在视频游戏环境中执行任务，SIMA是教会人工智能将语言转化为丰富三维世界中有意义的行动的关键第一步。

SIMA的第一个版本学会了在各种商业电子游戏中执行600多项语言跟随技能，例如“向左转”、“爬梯子”和“打开地图”等，它在这些环境中像真人一样操作，通过“看”屏幕并使用虚拟键盘和鼠标进行导航，而无需访问底层游戏机制。

SIMA 2在此基础上更进一步，超越了简单的指令执行，通过将Gemini模型嵌入到智能体的核心，SIMA 2不仅可以响应指令，还能思考和推理指令，在游戏中显著缩小了与人类表现之间的差距。

研究人员使用包含语言标签的人类演示视频以及Gemini生成的标签对SIMA 2进行了训练，因此，SIMA 2现在可以向用户描述它的意图，并详细说明它为实现目标所要采取的步骤会有哪些。

在测试中，开发者与SIMA 2交互的感觉不是死板的执行者，而是与一个能够共同思考如何破解当前任务的伙伴合作。

此外，它的泛化性能得到巨大飞跃，与前代产品相比，SIMA 2现在能够理解更冗长、复杂、更细致的指令，并且在执行这些指令方面更加成功，尤其是在从未接受过训练的场景或游戏中。

SIMA 2还能够理解多模态提示，例如用户在屏幕上手绘草图或路线，也以理解不同的语言，比如表情符号。

此外，它目前能迁移已习得概念的能力——例如，对一款游戏中“采矿”的理解可以自主应用到另一款游戏中的“采集”——这是实现人类认知中那种广泛泛化能力的基础，事实上，正是由于这种能力，SIMA 2在各种任务上的表现都显著接近人类玩家。

SIMA 1和SIMA 2在训练期间从未见过的游戏中完成任务的成功率对比：

为了测试SIMA 2的泛化能力极限，研究人员还将其与另一个知名研究项目Genie 3结合起来测试，Genie 3可以根据单个图像或文本提示生成新的实时3D模拟世界。

当让SIMA 2在这些新生成的虚拟世界中运行时，研究人员发现它能够合理地辨别方向，理解用户指令，并采取有意义的行动来实现目标，尽管它之前从未见过这样的模拟世界。

AI自我进化雏形框架

无需额外的人工干预就能自我改进提升，是SIMA 2最令人兴奋的迭代之一。

在整个训练过程中，SIMA 2智能体能够通过反复试验和基于Gemini的反馈，逐步完成越来越复杂的新任务。

SIMA 2在最初通过人类演示学习后，便能完全通过自主游戏的方式在新游戏中学习，在之前从未见过的世界中提升技能，而无需额外的人类生成数据，而在后续训练中，SIMA 2自身的经验数据可用于训练下一代更强大的智能体。

这种迭代改进的良性循环为未来铺平了道路，在未来，智能体可以在最小的人类干预下学习和成长，成为开放式学习者。

这项研究为面向行动的人工智能发展新路径提供了根本性的验证。SIMA 2证实，经过广泛训练、利用多样化的多世界数据和大模型推理能力的人工智能，能够成功地将许多专业系统的能力整合到一个连贯的通用智能体中。

不过，SIMA 2仍处于实验阶段，DeepMind宣布SIMA 2将作为一项有限的研究预览版发布，并先向一小部分学者和游戏开发者提供早期访问权限。

下一阶段的“AI故事”启幕

网友们发现，谷歌正在打造一个AI自主进化闭环：Gemini会生成任务和奖励信号或对智能体行为的评价；Genie 3可以在无限多个生成的世界中训练和评估智能体（不仅限于手工设计的游戏）；然后，将从这种自我生成的经验中学到的知识用作下一代SIMA 2的训练数据，世界模型+代理构成了一个封闭的生态系统，用于持续的经验生成和学习。

想象一下，一部电影、一个游戏能变成一个可以完全探索的世界，AI可以动态地构建世界环境，故事以AI视角展开——它学会感受每一个瞬间、每一种情绪、每一个选择。

其应用前景也显而易见——如果能够在虚拟3D世界中实现泛化，那么下一步就是实体化应用。

而就在昨天，DeepMind还在《自然》杂志上发表了一篇新论文，分析了人工智能系统组织视觉世界的重要方式与人类的不同之处，试图教会人工智能像人类一样看待世界。

许多现有的视觉模型无法捕捉人类知识的高层结构，DeepMind的新研究提出了一种解决此问题的可能方法，并表明模型可以更好地与人类判断相一致，在各种标准人工智能任务上表现得更加可靠。

不少网友认为，这或许是行业下一阶段“AI故事”的开始，从李飞飞的World Labs推进的空间智能，到传言Yann LeCun离职创业要做的新一代“世界模型”AI系统，而不差钱也不差算力的DeepMind，正试图综合起来这些技术优势逼近真正的AGI。

-END-

活动推荐

点击了解详情：重磅启航！头部科技×溪有物种「AI超级增长启航营」开启招募啦～

如果您有什么想说的，欢迎在评论区留言讨论！
投稿或寻求报道，欢迎私信“投稿”，添加编辑微信。
【AI超级增长启航营】入群好礼：了解更多启航营资讯，交流最新科技动态和产业趋势，定期互动讨论和知识分享，与启航营导师互动交流，领取100份AI科技商业研报合集，加群共同探讨与成长，开启AI领域的超级增长之旅！

【声明】内容源于网络

头部科技

1234

内容 1746

粉丝 0

头部科技 1234

总阅读6.0k

粉丝0

内容1.7k