撰文| 王思易
编辑| 张 南
设计| 荆 芥
近些天,“世界模型”又成了AI研究的热门词。因为“AI教母”李飞飞的创业公司World Labs推出了自己的“世界模型”,供大家测试。
这家公司推出的首款商用世界模型叫Marble,可根据文字生成3D场景。除了文生3D场景以外,给Marble一张照片,它能根据照片的透视关系、光线方向和物体摆放方式,把场景自动补齐成一个3D世界。
Marble确实是能给“世界建模”的AI,但是又有些不对劲。
Hacker News的一名机器学习工程师指出,比起所谓的世界模型,Marble看起来更像是一个单纯的3D渲染模型。
这难道不就是高斯泼溅模型吗?我在AI行业干了这么久,到现在都还是搞不明白“世界模型”里的“世界”究竟指什么。
这里的高斯泼溅,指的是近几年3D建模里的一类新技术。
它把一个场景表示成成千上万个漂浮在空间中的彩色模糊小斑点,再把这些斑点“泼溅”到屏幕上,让它们自然融合成一张图像。
这似乎跟李飞飞所宣称的“世界模型”——能够理解复杂物理世界及其中物体相互关系的AI,乃至于拥有空间智能的AI,相去甚远。
World labs 官网,空间智能(Spatial Intelligence)一词赫然在目
要理解什么是所谓的“世界模型”,我们需先看清当前AI的最大短板:空间智能。
空间智能,即感知、理解和推理三维物理世界的能力。人类婴儿在学会说话前,就已通过抓取物体、玩积木发展出这种本能。
更直观一点,请看这道题:
如果你拆解这个积木块,缺失的是哪一块?
正确答案是中下。
此类对人类而言轻而易举的题目,却是当今最先进AI的盲区。
让我们看看Deepseek的表现:
它叽里咕噜不知道在说啥,但是最后答案选错了。DeepSeek或许连读懂选项的能力都没有。
这道题之所以成为AI的照妖镜,是因为空间推理完全绕开了语言系统。神经科学表明,人类解决此类问题时,大脑活跃的是视觉-运动区域,语言中枢几乎不参与。
如果你自己试着解一遍这道题,你会发现思考过程完全没有依赖语言或文本描述。事实上,空间推理题很难写下一步一步的解题过程。它是一个非符号的、几何化的、动态的模拟过程。
语言模型擅长处理符号和文本,但面对需要脑中构建几何概念、进行心算式的空间旋转,或是推演物体移动的任务时,就暴露出短板。
有研究甚至发现,从事体力或手工工作的蓝领工人在某些空间任务上表现得更好,而长期伏案的白领反而容易犯难。
此类智能,显然对于智能机器人来说是必须的。
“世界模型”研究正是试图弥补这一短板。
所以,我们最好不要把“世界模型”按照字面上理解为一个“对世界的建模”,而是把它当成空间推理这道难题的未知解x。
现在我们可以清楚地看到,Marble解决不了这个问题。Marble本质上是一个高级的3D内容生成工具。但生成一个房子的3D模型,并不等于理解了这个房子的物理结构、承重原理,或者一个球在屋内滚动的轨迹。实际上,Marble所生成的世界连重力和大地都没有,地面没有碰撞体积,用户可以直接穿地而出。
或许正是因为如此,在Marble自己的博客上,虽然屡屡提及“世界模型”与“导出高斯散射体、网格和视频”,但几乎完全没有提到空间智能。
其他人都在做什么“世界模型”?
谷歌(确切说是旗下DeepMind实验室)今年也高调发布“世界模型”,推出了名为Genie的系列模型。
今年8月份发布的Genie 3被称为“通用交互式世界模型”,能够根据文本提示实时生成3D环境,与李飞飞的Marble类似。
当然,两者也有区别。Genie的核心价值不在于为创作者提供工具,而在于提供一个模拟训练场,让AI智能体可以在里面不断尝试、学习。Genie允许用户通过文本实时改变世界事件(promptable events),比如突然下一场雨、出现一只龙等。这种可控的虚拟世界可以考验AI的适应性:研究者可以抛出各种“意外情况”观察智能体的反应,从而训练出更灵活健壮的AI。
DeepMind明确表示,推出Genie系列的目标之一就是训练通用智能体,因为在逼真的模拟世界中练习是通往空间智能的必经之路。也就是说,Genie 3本身不拥有空间智能,而是用来训练空间智能的训练场。
但是,目前Genie 3仍处于限量研究预览状态,场景持续时间受限。换言之,Genie 3还只是个封闭的测试场,并不能让AI在里面“生活”几小时乃至几天自主成长。
然后,值得一提的是杨立昆(Yann LeCun),Meta首席AI科学家,于11月11日曝出计划从Meta离职,准备创立自己的世界模型公司。
不过,杨立昆离职不是因为他发现了什么机会,而是因为他不喜欢28岁的新新资本家亚历山大·王(Alexandr Wang)空降做他的上司。
相比李飞飞和谷歌偏向工程产品化的做法,杨立昆的“世界模型”更多是指一种理念和架构。
他多次公开表示,仅靠大语言模型堆规模无法实现AGI,必须赋予AI类似动物的常识物理和预测能力,即构建内部的世界模型。他将世界模型与自监督学习、认知架构并列为迈向通用智能的三大技术支柱。
杨立昆提出的世界模型概念,强调AI应能自主从环境中学习(而非全依赖人工标注),整合多模态感知,形成对世界的因果认知。
理想的世界模型应该具备:
表示复杂对象和事件关系的能力;
推演因果和时间依赖的能力;
融合符号和连接主义表征的能力。
杨立昆想让AI学到人类幼儿常识:知道物体不会凭空消失、明白遮挡关系、预判“如果我推杯子它会掉下桌子”之类的基本物理直觉。这需要通过海量自监督训练,让AI自己从未标注的数据中学会世界规律。
具体实现上,杨立昆近年来提出了数种探索,如:可预测编码架构(Predictive architecture)、能嵌入世界模型的认知自导引(cognitive architecture)等。
他的团队开发过自监督预测模型(如Facebook的 I-JEPA)来训练AI预测部分图像,以逼近世界模型对环境预测的能力。
杨立昆可能没有引人注目的Demo,但他忠实地走在AI研究这条路线上。
对比杨立昆,Marble选择的是一条更聪明的路,既然真正理解世界太难,那就先把世界画得足够好看,这就像用4K超清滤镜拍了一群不会演戏的演员,观众惊叹于画质却忘了剧情逻辑不通。
我们正目睹一场经典的术语通胀:
从“图像分析”到“计算机视觉”再到“视觉基础模型”最后到“世界模型”;
从“文本生成”到“大语言模型”再到“推理模型”再到“代理”最后到“超级智能”。
每一次名词升级,都伴随着融资额、估值与PPT页数的指数增长,却不总是对应真实能力的同等提升。
连李飞飞这样曾经以严谨著称的学者,也开始参与这种“先把结论说出来,再慢慢往里填内容”的游戏时,我们确实有理由担忧:有人建造真正的世界模型,而有人只是在为我们渲染海市蜃楼。
关于我们
具身智能®是智能科学发展的新范式
“具身智能®”是西安中科光电精密工程有限公司用于转载智能科学、机器人技术及具身智能®领域研究进展的微信公众号平台,致力于传播前沿资讯与深度洞察。
“具身智能®机器人”公众号作为原创内容平台,定期发布关于具身智能®的核心观点、技术突破及行业趋势分析,旨在推动智能科学与机器人技术的深度融合与创新发展。诚挚邀请您加入“具身智能®”与“具身智能®机器人”线上平台,共同探索智能科技的未来。
公司的核心优势在于:
原创理论:2019年基于科技部重大专项基金的支持,突破具身智能®底层理论,突破“物理空间小样本条件下精细结构识别”科学问题,让机器“理解”空间,解决“精准智能识别”和 “自主智能规划”两大核心技术。原创理论的特点:数学架构,“边”端布局,对数据、算力要求低。
该突破是智能科学底层关键问题——“四维时空感知、理解并自主运动规划”的基本路径;是链接大语言模型与运动执行系统(人形机器人、机器狗、无人车),通达通用人工智能的桥梁。
技术能力及技术成熟度:智能识别(对象的精准识别能力)-识别准确率100%(基于已经验数学语言);精准操控(精细结构的理解和处理能力)-物品及物品细节特征精准识别,不确定对象中的焊接场景精度0.5mm,精密装配场景精度10μm;复杂场景的自主的运动规划及移动规划(新场景的适应能力)—场景模型导入或一次性信息摄入,能快速布置在新场景中使用,具有基于地形学及知识图谱处理未知场景的能力,工业、军用、家庭场景均适用。
成果应用情况:基于具身智能®技术架构指导的智能机器人,已实际应用于自主智能工业机器人产品及国家重大任务中,解决了多项核心难题;具身智能®视觉终端,可用于电磁拒止环境下无人机、无人车基于地形与空间分析的自主导航,用于通用人形机器人导航与精准操控。自主智能工业机器人在面向离散制造领域的不确定对象中的焊接、装配、检测等场景中实现批量落地应用;国家重大任务中,自主机器人可在非结构化场景中实现自主识别、自主规划、自主决策以及自适应控制,已得到实质性验证。
未来,我们将继续深耕具身智能®领域,以技术创新为驱动,以产业应用为目标,持续引领智能科学与机器人技术的发展方向。加入我们,共同见证具身智能®改变世界的无限可能!
公司网址:http://www.xa-elecopt.com
关注我们
吴易明.何为“具身智能”?.具身智能机器人公众号,2023
吴易明.汉字创生过程隐含智能的底层密码.具身智能机器人公众号.2025
吴易明.仝人-具身智能词条1:具身性.具身智能机器人公众号.2025
吴易明.仝人-具身智能词条2:指称.具身智能机器人公众号.2025
吴易明.仝人-具身智能词条3:视觉.具身智能机器人公众号.2025
吴易明.儿童画:从歪歪扭扭的线条,看懂人类如何学会理解世界.具身智能机器人公众号.2025
吴易明.具身认知视角下“智能”的概念.具身智能公众号.2022
看累了吗?戳一下“点赞或推荐”支持我们吧

