游戏视频分享平台Medal孵化的AI实验室General Intuition,凭借一笔高达1.337亿美元的种子轮融资,将一个略显陌生的概念——“世界模型”(World Models)推至台前。这笔由OpenAI早期投资者Vinod Khosla领投的巨额资金,是其自2018年投资OpenAI以来最大的一笔种子轮下注。
如果你觉得AI生成视频、和机器人聊天已经很酷,那么想象一下,一个AI能够像人一样,在脑中“预演”现实世界。这就是“世界模型”的核心思想。它不是简单地识别或回应,而是构建一个关于现实环境的内部模拟器,从而理解物理规律、预测事件走向。
举个简单的例子,当一个玻璃杯从桌上掉落时,我们能下意识地预判它会摔碎,并可能伸手去接。这种能力源于我们大脑中基于无数经验建立的物理世界模型。而世界模型的目标,就是让AI也拥有这种“直觉”。通过学习海量数据,AI可以构建一个动态的、可交互的虚拟世界,在这个世界里,它可以“想象”不同行为会带来何种后果,从而做出最优决策。
这一概念并非全新,但在生成式AI技术突破的当下,其重要性被重新认识。谷歌DeepMind的CEO杰米斯·哈萨比斯(Demis Hassabis)是世界模型的坚定倡导者,他认为这是通往通用人工智能(AGI)的关键路径。传统AI模型,如卷积神经网络(CNN),虽然在图像识别上很强大,但缺乏真正的理解力,稍微改变图片细节就可能识别失败。世界模型则追求更深层次的“领悟”,让AI从一个被动的模式识别器,转变为一个能够主动规划和行动的智能体(Agent)。
▍为何是游戏?AI的“空间感”速成班
要构建一个能模拟真实世界的模型,需要海量的、包含复杂物理交互的数据。这时,电子游戏——这个庞大的虚拟世界,意外地成为了最佳的训练场。
游戏视频分享平台Medal的CEO,如今也是General Intuition创始人的皮姆·德·威特(Pim de Witte)发现,他坐拥一个巨大的数据金矿。 Medal平台每年接收约20亿个游戏视频片段,这些片段并非随意录制,而是玩家们认为“值得分享”的精彩或失败瞬间。这意味着数据本身经过了人为筛选,富含了成功与失败的清晰标签,是训练AI区分“好动作”与“坏动作”的绝佳材料。
更重要的是,游戏数据具备以下几个无可比拟的优势:
第一人称视角与即时反馈: 大部分游戏视频是从玩家的第一视角录制的,这为AI提供了与人类观察世界相同的数据维度。玩家的每一个操作(键盘、鼠标或手柄输入)都与屏幕上的画面变化精确对应,形成了一个完美的“行为-结果”数据对,极大地降低了数据标注的成本。
安全且多样的模拟环境: 游戏世界为AI提供了一个可以“无后果”试错的沙盒。无论是驾驶赛车、在复杂地形中导航,还是与多个智能体互动,AI都可以在虚拟环境中反复试验,学习成本远低于在现实世界中训练机器人或自动驾驶汽车。
丰富的时空逻辑: 游戏本质上是一个遵循特定物理和逻辑规则的简化版现实世界。 AI通过学习海量游戏视频,能够掌握关于空间关系、物体交互和因果联系的“常识”,也就是所谓的“时空推理”(spatial-temporal reasoning)能力。这种能力是AI从理解语言文本迈向理解物理世界的关键一步。
正是意识到了游戏数据的巨大价值,OpenAI去年曾被报道试图以5亿美元收购Medal,但这笔交易最终未能达成,反而催生了General Intuition的独立。
General Intuition的横空出世并非个例,世界模型赛道早已巨头林立,竞争日趋白热化。
作为该领域的领跑者,DeepMind最近展示了其最新的世界模型Genie 3。这个模型能根据简单的文本提示,实时生成一个可交互的3D游戏世界,分辨率达到720p,并且能以每秒24帧的速度运行。用户可以在这个生成的世界里行走、互动,甚至通过新的指令改变天气或添加物体。 CEO哈萨比斯明确表示,Genie这样的世界模型是DeepMind实现AGI蓝图的核心。
斯坦福大学教授、被誉为“AI教母”的李飞飞也投身于这一领域,联合创立了AI初创公司World Labs。该公司已获得超过2.3亿美元的融资,估值超过10亿美元,目标是构建“大型世界模型”(LWMs),让AI具备与人类一样丰富的空间智能。 World Labs近期也展示了一项技术,可以将单张图片转化为可交互的3D环境。
除了专门的研究实验室,英伟达(NVIDIA)也在利用其在图形和仿真领域的优势,开发用于训练机器人和自动驾驶汽车的世界基础模型。 Meta等公司同样在积极探索,试图通过自监督学习等方式构建能够预测世界动态的模型。
知名投资人维诺德·科斯拉(Vinod Khosla)对这个赛道的看好毫不掩饰。作为OpenAI的早期投资者,他曾凭借5000万美元的投资获得了巨额回报。此次他对General Intuition的投资,是他自OpenAI之后最大的一笔种子轮投资,他预测,这个领域未来将诞生“多个千亿甚至万亿美元市值的公司”。
世界模型的应用前景远不止于游戏。General Intuition的创始人德·威特表示,他们的初期目标是让AI能够控制任何可以通过键盘鼠标或手柄操作的设备。首个应用场景可能是在没有GPS信号的复杂环境中执行任务的搜救无人机。
当然,世界模型的发展仍面临诸多挑战,例如巨大的算力需求、模型产生“幻觉”的问题,以及如何确保训练数据的多样性和无偏见。技术路线本身也仍在激烈辩论中。


