
2025年6月,Meta的FAIR实验室里,67岁的杨立昆(Yann LeCun)站在演示台前,身后屏幕播放着一段视频:一只机械臂用锅铲将鸡蛋平稳移入餐盘,动作流畅如人类。他轻声说:“这不是预设程序,是AI在‘想象’动作后果后自主规划的。”
这场仅有30人参加的发布会,却隐藏着LeCun对AI未来的终极答案——世界模型(V-JEPA 2与PEVA)。它能让机器像婴儿般通过观察学习物理规律,甚至预测16秒内的连续动作。而就在三个月前,这位图灵奖得主还因Meta千亿算力投入未达预期,被媒体痛批“把公司搞砸了”。
1989年,在贝尔实验室的地下室,杨立昆用卷积神经网络(CNN)首次教会机器识别手写邮编。这项被学界嘲讽为“玩具”的技术,30年后成为自动驾驶和医学影像的基石。他未曾想到,自己会成为“深度学习三巨头”之一,更在2018年与Hinton、Bengio共享图灵奖。
2013年加盟Facebook后,杨立昆创立FAIR实验室,力推开源战略:PyTorch框架、Llama大模型……这些技术滋养了全球AI社区,却未能为Meta带来直接收益。
2025年3月,Meta总部顶层会议室。玻璃幕墙外的硅谷阳光刺眼,扎克伯格指尖敲着桌面,投影屏上的“Llama 4用户增长曲线”像一把利剑悬在会议室中央。
“Yann,ChatGPT每天处理20亿请求,用户要的是立刻解决问题的工具,不是科幻小说里的‘世界模型’。”他的声音像精密的代码,每个字节都在计算ROI(投资回报率)。
杨立昆攥紧了咖啡杯,杯底磕在橡木桌上发出闷响:“你以为LLM是未来?它们不过是高级鹦鹉!你问它鸡蛋为什么不能摔,它会背出十篇论文,但永远不懂——”他突然抓起桌面的煮蛋器,“啪”地砸向地毯。蛋壳碎裂的黏腻声让全场静默。
“看,这才是现实。”
一周后,一份内部测试报告在工程师间疯传:当用户询问“能否用微波炉加热咖啡杯”时,Llama 4竟有38%的概率回答“可以”——完全无视金属镶边会引发爆炸。某天深夜,实习生真的把马克杯放进休息室微波炉,飞溅的拿铁在墙上烫出焦痕,像给这场路线之争盖下的讽刺印章。
当舆论认定杨立昆时代终结时,他带着两项颠覆性成果重回战场:
V-JEPA 2:物理世界的“盗火者”
当千万行代码在服务器阵列中奔涌,V-JEPA 2正进行一场寂静的革命。它吞噬了100万小时的监控录像、家庭影像甚至动物纪录片——婴儿打翻牛奶时液体的飞溅轨迹,猫跃过围墙时肌肉的收缩幅度,暴雨中广告牌螺丝的震颤频率……这些碎片在模型的“思维”中重组,凝结成物理法则的数字结晶。
颠覆性时刻发生在演示现场: 机械臂的摄像头对准倾斜30度的锅铲,铲沿一颗生鸡蛋微微晃动。“预测结果。”杨立昆下令。屏幕瞬间弹出三维模拟:蛋液以慢镜头形态泼洒,在虚拟灶台溅出皇冠状油花——“破碎概率92%”。更惊人的是后续推演:当研究人员手动扶正锅铲,系统立刻修正结论:“破碎概率降至7%,建议手腕逆时针旋转15度”。 “它不是在复现数据,而是在理解重力与脆性间的因果链。”杨立昆抚摸实验台边缘的焦痕——那是数月前实习生听信Llama建议,将金属咖啡杯放进微波炉的“纪念品”。
PEVA:16秒的时空刺客
隔壁实验室正上演更诡异的场景:
48个红外标记点在黑暗中浮动,勾勒出人形轮廓。这是PEVA系统在模拟人体运动——每块肌肉的伸缩、每处关节的扭矩,都被转化为48维向量洪流。突然,标记点聚合成手臂模型,在虚拟空间中抓向牛奶盒。
“注意地面!”工程师惊呼。
只见系统自动生成第一视角视频:牛奶盒被拿起时,虚构的“视线”突然下移——地板上竟多出一只绊脚的玩具熊!机械臂旋即调整轨迹:抬腿跨步的幅度精确到厘米,手肘避开吊灯的角度计算仅耗时0.7秒。传统模型40%的误差率,在此刻被碾碎成玻璃渣。
“它看见的是尚未发生的未来。”杨立昆凝视屏幕。那些扩散Transformer架构生成的预测帧,像水彩在纸上晕染般自然连贯——从拧开门把到冰箱取物,16秒的行动链已在数字时空预演完毕。
“这相当于给机器装了小脑!” MIT机器人专家评价道。曾质疑杨立昆的谷歌DeepMind,已悄悄将60%的LLM预算转向同类研究。“AI终于从‘描述世界’走向‘理解世界’。” 斯坦福教授李飞飞如此评价。
但挑战犹存:如何融合语言指令?能否预测小时级事件?这些问题将是LeCun下一场战役的关键。
被重构的“智能”定义
未来某一天,某汽车工厂的机械臂突然在流水线前停滞——它的传感器检测到一颗即将脱落的螺丝,而系统预判了10秒后可能发生的连锁碰撞。这不是程序预设的警报,而是AI在“脑内”模拟了物理世界的因果链后自主发出的警告。 “它像人类老师傅一样‘感觉’到了危险。”工程师惊叹道。这台搭载Meta开源世界模型V-JEPA 2的机器人,正在颠覆制造业的安全逻辑。
传统工业机器人依赖海量试错数据训练,而世界模型让机器首次获得“物理直觉”。
- 故障预判革命: 搭载V-JEPA 2的机械臂将能通过实时视频流预判设备过热变形,提前12秒冷却关键部件,故障率下降53%。其核心在于模型对金属热膨胀规律的“理解”——这是LLM永远无法通过文本训练获得的“肌肉记忆”。
- 反事实推理落地: 当工人询问“若强行加速流水线会怎样?”时,系统生成虚拟画面:传送带震动导致零件偏移,机械手抓空概率达89%。车间主管苦笑:“它连螺丝的脾气都摸透了。”
未来的手术室里,一台神经外科机器人正进行一场“预演”。
- 16秒预判救场: 借助PEVA模型,机器人以患者CT影像为基底,模拟手术刀切入后血管网的形变轨迹。当真实操作中某血管意外收缩时,系统瞬间生成16秒修正方案:机械腕关节旋转15度避开分支动脉,动作误差率仅2%——传统导航系统的40%误差率在此刻化为齑粉。
- 物理常识破局: “LLM曾建议‘用更高功率激光止血’”,主刀医生举着烧焦的模拟组织样本,“它不懂高温会碳化脑膜。”而世界模型对生物组织弹性和热传导的建模,让手术规划从“纸上谈兵”迈向“沙盘推演”。
V-JEPA 2被植入新一代自动驾驶芯片。
- 长时序博弈: 传统系统因无法预测行人意图频发事故,而V-JEPA 2通过街景视频学习人类移动模式:孩童追球时步频突变、老人过街的延迟反应……系统对突发闯入的预判距离延长至16秒,事故率直降27%。
- 反事实决策: 当系统被问“若加速冲过黄灯会怎样?”,它推演出三维场景:右侧卡车盲区冲出的电动车被撞飞,伤亡概率92%。工程师冷汗淋漓:“这比人类司机的‘直觉’更精确。”
发布会尾声,杨立昆播放了一段1990年的录像:年轻的他熬夜调试LeNet-5,论文被学术会议拒稿。“那时他们说神经网络是死路,”他停顿片刻,“现在,我们再次站在岔路口。”
屏幕打出他的宣言:
“真正的智能不是统计概率,而是理解因果。”
门外,扎克伯格鼓着掌,眼神复杂。千亿豪赌的LLM路线与世界模型之争,此刻才真正开始。
—— 全文完 ——
(关注我们,设为星标,别在数字洪流中掉队 ↓)

