

AI教母李飞飞：用世界模型为人们构建一个更美好的世界

MoDAO数字科技

2025-11-12

导读：“它们如同身处暗室的文字巨匠——能言善辩却缺乏经验，知识渊博却脱离现实。

“它们如同身处暗室的文字巨匠——能言善辩却缺乏经验，知识渊博却脱离现实。”

当“AI教母”、顶尖科学家李飞飞用这句话来定义今天所有的大语言模型时，她一针见血地指出了一个残酷的现实：尽管AI看似无所不能，但它们其实都“活在黑暗中”。

它们会写诗、会画画，甚至会制作以假乱真的视频，但却无法理解一个杯子旋转90度后会是什么样子，也无法让一个虚拟人真正地遵守物理定律。

在李飞飞看来，这种窘境的根源在于，我们一直以来都走错了方向。AI的下一步，不是更大的语言模型，而是要赋予它们一种连婴儿都与生俱来的能力——空间智能 (Spatial Intelligence)。这，才是通往真正通用人工智能的唯一路径。

灵魂拷问：

为什么AI还是“睁眼瞎”？

原文很长，我们先来点直观的。

你让AI写首诗，它分分钟变身李白杜甫；但你让AI做几个简单的物理题，比如：

· “我把这个杯子转90度，它长什么样？”

· “这个迷宫的出口在哪里？”

· “估算一下桌子到门的距离？”

AI的回答，基本靠“蒙”。

只要留意，那些看起来很酷的AI视频里，都会有各种“穿帮”镜头：一个人的手突然多了一根手指，或者物体毫无征兆地穿墙而过。

李飞飞就此一针见血地指出：因为它们不懂物理世界。

它们无法真正理解距离、大小、方向和物理规律。

所以，尽管我们对AI的期待是科幻电影里的全能管家，但现实却是：

· 我们依然没有能在家帮我们做家务的机器人。

· AI在药物研发、新材料发现等需要理解3D结构的领域，进展缓慢。

· AI无法真正理解建筑师、游戏设计师或电影导演脑中的“世界”。

藏宝图中缺失的那块拼图：

空间智能

AI缺失的“空间智能”，到底是什么？

李飞飞说，它是我们人类认知的“脚手架”。

早在我们学会说话、写字之前，就已经掌握了这项能力：

· 婴儿会花一到两年时间，通过抓、扔、咬、看，来理解这个世界。

· 你侧方停车时，你的大脑在飞速计算保险杠和马路牙子的距离有多远。

· 朋友把钥匙扔给你，你不用拿纸笔计算抛物线，凭下意识就能接住。

· 你半夜起床倒水，不开灯也能摸到杯子并把水倒进去。

李飞飞还举例说，甚至人类的伟大发现、文明进步都少不了这种能力：

· 古希腊的埃拉托斯特尼是通过观察两地影子的角度不同，从而计算出的地球周长。

· 哈格里夫斯发明出“珍妮纺纱机”，靠的也是对空间的观察和理解。

· 沃森和克里克是通过亲手搭建3D分子模型，“拼”出的DNA双螺旋结构。

李飞飞认为，空间智能是人类想象力、创造力以及和世界互动的基础。遗憾的是，当下的AI基本没有这个能力。

AI的下一步：

从“语言模型”到“世界模型”

那么，怎么让AI“开眼”看世界呢？

李飞飞给出了自己的答案：AI的未来，不在于更大的“语言模型”（LLM），而在于全新的“世界模型”（World Models）。

她认为，一个真正的“世界模型”，必须是“三位一体”的：

· 生成性（Generative）：它必须能创造出符合物理、几何规律的3D世界。比如，它“知道”重力，知道物体会下落，知道水会往低处流。

· 多模态（Multimodal）：它必须能处理一切输入。比如不仅能听懂你说的“话”，还要能看懂图片、视频、深度信息、甚至你的一个“手势”。

· 交互性（Interactive）：这是最关键的。当你告诉它一个“动作”，它必须能预测出“下一秒会发生什么”。比如“推一下积木”，它就知道积木会倒。

李飞飞坦言，这个挑战比训练语言模型要难得多。

她解释道，语言是一维的、序列化的信号，而世界是四维的（三维空间+时间），受重力、物理定律等无数复杂规则的约束。

李飞飞透露，她一年前和他人共同创立了World Labs，以及最近向少数用户展示的第一个世界模型Marble，都是为了攻克这个难题。

这将如何改变我们的生活？

一旦AI拥有了空间智能，那才是一场真正的革命。

首先，是“超能力”般的创造力。李飞飞团队World Labs正在研发的Marble模型，能让电影制作人、游戏设计师、建筑师用“提示词”快速创建和迭代3D世界。未来，这些人不再需要学习复杂的3D软件，只需要用语言描述，就能生成一个可以走进、与之交互的3D世界。届时，人人都能成为“造物主”。

其次，是真正的“具身智能”。机器人将不再是“笨手笨脚”的机器臂。在“世界模型”的加持下，它们会在模拟环境中学会成千上万种实用技能，然后走进我们的家庭、医院，成为得力的助手和看护。

此外，李飞飞特别提到，这样的AI将成为未来科学与教育的“加速器”。

· 医疗：AI可以在多维度上模拟分子间的相互作用，加速药物的发现进程，也或帮助医生分析影像，为患者和护理人员提供持续支持。

· 教育：学生不再只是看书，而是可以“走进”古罗马的街道，或者亲身“探究”细胞内部。教师可以借助互动环境教学，专业人士则可以在高度逼真的仿真环境中练习并掌握复杂技能。

· 科研：通过模拟深海、外太空等人类无法亲自到达的环境，我们可以扩大科学探索的范围；通过将多维度模拟与真实世界数据采集相结合，拓展实验室观察与理解的边界。

结语：

AI的终点，

是“为人类赋能”

作为帮助开启了现代AI时代的科学家之一，李飞飞在文章的最后，回归了她最核心的人文关怀。她强调，AI的终极目标，绝非取代人类，而是“为人类赋能”：

“让AI成为增强人类专长、加速人类发现、放大人类关怀的力量——而不是取代那份属于人的判断力、创造力与共情力。”

她认为，AI由人开发、由人使用、由人管理，必须始终尊重人的能动性和尊严。它的魔力在于扩展我们的能力，让我们更有创造力、更有效率。

“空间智能”代表的正是这样一个“更深刻、更丰富、更有力量的生活的愿景”。它有望“构建出与真实世界高度契合的机器，让它们成为我们应对重大挑战的真正伙伴。”

【声明】内容源于网络

MoDAO数字科技

1234

内容 5880

粉丝 0

MoDAO数字科技 1234

总阅读34.6k

粉丝0

内容5.9k