天才的执念：LeCun与世界模型的二十年孤勇- 大数跨境

AIGC产业观澜

2025-07-10

导读：世界模型：“真正的智能不是统计概率，而是理解因果。”

2025年6月，Meta的FAIR实验室里，67岁的杨立昆（Yann LeCun）站在演示台前，身后屏幕播放着一段视频：一只机械臂用锅铲将鸡蛋平稳移入餐盘，动作流畅如人类。他轻声说：“这不是预设程序，是AI在‘想象’动作后果后自主规划的。”

这场仅有30人参加的发布会，却隐藏着LeCun对AI未来的终极答案——世界模型（V-JEPA 2与PEVA）。它能让机器像婴儿般通过观察学习物理规律，甚至预测16秒内的连续动作。而就在三个月前，这位图灵奖得主还因Meta千亿算力投入未达预期，被媒体痛批“把公司搞砸了”。

1989年，在贝尔实验室的地下室，杨立昆用卷积神经网络（CNN）首次教会机器识别手写邮编。这项被学界嘲讽为“玩具”的技术，30年后成为自动驾驶和医学影像的基石。他未曾想到，自己会成为“深度学习三巨头”之一，更在2018年与Hinton、Bengio共享图灵奖。

2013年加盟Facebook后，杨立昆创立FAIR实验室，力推开源战略：PyTorch框架、Llama大模型……这些技术滋养了全球AI社区，却未能为Meta带来直接收益。

2025年3月，Meta总部顶层会议室。玻璃幕墙外的硅谷阳光刺眼，扎克伯格指尖敲着桌面，投影屏上的“Llama 4用户增长曲线”像一把利剑悬在会议室中央。

“Yann，ChatGPT每天处理20亿请求，用户要的是立刻解决问题的工具，不是科幻小说里的‘世界模型’。”他的声音像精密的代码，每个字节都在计算ROI（投资回报率）。

杨立昆攥紧了咖啡杯，杯底磕在橡木桌上发出闷响：“你以为LLM是未来？它们不过是高级鹦鹉！你问它鸡蛋为什么不能摔，它会背出十篇论文，但永远不懂——”他突然抓起桌面的煮蛋器，“啪”地砸向地毯。蛋壳碎裂的黏腻声让全场静默。

“看，这才是现实。”

一周后，一份内部测试报告在工程师间疯传：当用户询问“能否用微波炉加热咖啡杯”时，Llama 4竟有38%的概率回答“可以”——完全无视金属镶边会引发爆炸。某天深夜，实习生真的把马克杯放进休息室微波炉，飞溅的拿铁在墙上烫出焦痕，像给这场路线之争盖下的讽刺印章。

当舆论认定杨立昆时代终结时，他带着两项颠覆性成果重回战场：

V-JEPA 2：物理世界的“盗火者”

当千万行代码在服务器阵列中奔涌，V-JEPA 2正进行一场寂静的革命。它吞噬了100万小时的监控录像、家庭影像甚至动物纪录片——婴儿打翻牛奶时液体的飞溅轨迹，猫跃过围墙时肌肉的收缩幅度，暴雨中广告牌螺丝的震颤频率……这些碎片在模型的“思维”中重组，凝结成物理法则的数字结晶。

颠覆性时刻发生在演示现场：机械臂的摄像头对准倾斜30度的锅铲，铲沿一颗生鸡蛋微微晃动。“预测结果。”杨立昆下令。屏幕瞬间弹出三维模拟：蛋液以慢镜头形态泼洒，在虚拟灶台溅出皇冠状油花——“破碎概率92%”。更惊人的是后续推演：当研究人员手动扶正锅铲，系统立刻修正结论：“破碎概率降至7%，建议手腕逆时针旋转15度”。 “它不是在复现数据，而是在理解重力与脆性间的因果链。”杨立昆抚摸实验台边缘的焦痕——那是数月前实习生听信Llama建议，将金属咖啡杯放进微波炉的“纪念品”。

PEVA：16秒的时空刺客

隔壁实验室正上演更诡异的场景：

48个红外标记点在黑暗中浮动，勾勒出人形轮廓。这是PEVA系统在模拟人体运动——每块肌肉的伸缩、每处关节的扭矩，都被转化为48维向量洪流。突然，标记点聚合成手臂模型，在虚拟空间中抓向牛奶盒。

“注意地面！”工程师惊呼。

只见系统自动生成第一视角视频：牛奶盒被拿起时，虚构的“视线”突然下移——地板上竟多出一只绊脚的玩具熊！机械臂旋即调整轨迹：抬腿跨步的幅度精确到厘米，手肘避开吊灯的角度计算仅耗时0.7秒。传统模型40%的误差率，在此刻被碾碎成玻璃渣。

“它看见的是尚未发生的未来。”杨立昆凝视屏幕。那些扩散Transformer架构生成的预测帧，像水彩在纸上晕染般自然连贯——从拧开门把到冰箱取物，16秒的行动链已在数字时空预演完毕。

“这相当于给机器装了小脑！” MIT机器人专家评价道。曾质疑杨立昆的谷歌DeepMind，已悄悄将60%的LLM预算转向同类研究。“AI终于从‘描述世界’走向‘理解世界’。” 斯坦福教授李飞飞如此评价。

但挑战犹存：如何融合语言指令？能否预测小时级事件？这些问题将是LeCun下一场战役的关键。

被重构的“智能”定义

未来某一天，某汽车工厂的机械臂突然在流水线前停滞——它的传感器检测到一颗即将脱落的螺丝，而系统预判了10秒后可能发生的连锁碰撞。这不是程序预设的警报，而是AI在“脑内”模拟了物理世界的因果链后自主发出的警告。 “它像人类老师傅一样‘感觉’到了危险。”工程师惊叹道。这台搭载Meta开源世界模型V-JEPA 2的机器人，正在颠覆制造业的安全逻辑。

传统工业机器人依赖海量试错数据训练，而世界模型让机器首次获得“物理直觉”。

故障预判革命：搭载V-JEPA 2的机械臂将能通过实时视频流预判设备过热变形，提前12秒冷却关键部件，故障率下降53%。其核心在于模型对金属热膨胀规律的“理解”——这是LLM永远无法通过文本训练获得的“肌肉记忆”。
反事实推理落地：当工人询问“若强行加速流水线会怎样？”时，系统生成虚拟画面：传送带震动导致零件偏移，机械手抓空概率达89%。车间主管苦笑：“它连螺丝的脾气都摸透了。”

未来的手术室里，一台神经外科机器人正进行一场“预演”。

16秒预判救场：借助PEVA模型，机器人以患者CT影像为基底，模拟手术刀切入后血管网的形变轨迹。当真实操作中某血管意外收缩时，系统瞬间生成16秒修正方案：机械腕关节旋转15度避开分支动脉，动作误差率仅2%——传统导航系统的40%误差率在此刻化为齑粉。
物理常识破局： “LLM曾建议‘用更高功率激光止血’”，主刀医生举着烧焦的模拟组织样本，“它不懂高温会碳化脑膜。”而世界模型对生物组织弹性和热传导的建模，让手术规划从“纸上谈兵”迈向“沙盘推演”。

V-JEPA 2被植入新一代自动驾驶芯片。

长时序博弈：传统系统因无法预测行人意图频发事故，而V-JEPA 2通过街景视频学习人类移动模式：孩童追球时步频突变、老人过街的延迟反应……系统对突发闯入的预判距离延长至16秒，事故率直降27%。
反事实决策：当系统被问“若加速冲过黄灯会怎样？”，它推演出三维场景：右侧卡车盲区冲出的电动车被撞飞，伤亡概率92%。工程师冷汗淋漓：“这比人类司机的‘直觉’更精确。”

发布会尾声，杨立昆播放了一段1990年的录像：年轻的他熬夜调试LeNet-5，论文被学术会议拒稿。“那时他们说神经网络是死路，”他停顿片刻，“现在，我们再次站在岔路口。”

屏幕打出他的宣言：

“真正的智能不是统计概率，而是理解因果。”

门外，扎克伯格鼓着掌，眼神复杂。千亿豪赌的LLM路线与世界模型之争，此刻才真正开始。

—— 全文完 ——

（关注我们，设为星标，别在数字洪流中掉队 ↓）

【声明】内容源于网络

AIGC产业观澜

坐看“AIGC”产业风云，当好“智数时代”的见证者

内容 0

粉丝 0

AIGC产业观澜坐看“AIGC”产业风云，当好“智数时代”的见证者

总阅读0

粉丝0

内容0