大数跨境
0
0

LeCun预言成真?这有一份通往AGI的硬核路线图:从BERT到Genie,在掩码范式的视角下一步步构建真正的世界模型

LeCun预言成真?这有一份通往AGI的硬核路线图:从BERT到Genie,在掩码范式的视角下一步步构建真正的世界模型 量子位
2026-01-01
2
导读:从播放电影到创造宇宙,世界模型终将成为理解现实的科学仪器
非羊 整理自 凹非寺 
量子位 | 公众号 QbitAI

OpenAISoraGoogle DeepMind的Genie,2025年是世界模型(World Model)的爆发之年。

然而,概念混杂:世界模型究竟是强化学习中训练Agent的环境模拟器?是预测YouTube视频的模型?还是生成无限3D资产的图形引擎?

近日,arXiv上线论文《From Masks to Worlds: A Hitchhiker’s Guide to World Models》,由MeissonFlow Research、Georgia Tech、UCLA与UC Merced联合发布,提出构建真正世界模型的技术路径,被视为通往AGI的“建造指南”。

区别于罗列数百文献的传统综述,本文聚焦“如何构建”,指出LeCun所言可能成真:通向真正世界模型的道路并非自回归,而是由“掩码(Masking)”铺就的窄路。

从BERT、MAE/MaskGIT,到Genie-3与离散扩散(Discrete Diffusion)模型,Masking正统一多模态表征。

论文认为,以掩码预训练(Masked Modeling)为起点,经由统一架构、可交互式闭环,并引入持久记忆系统,是最具希望的技术路径。

文章将World Model演进划分为五个阶段,用全景图串联起从BERT到Genie-3的十年AI进化史。

正本清源:世界模型不是单体模型,而是一个“系统”

论文首先厘清基础定义:真正的世界模型(True World Model)不能是单体黑盒,而需由三大核心子系统构成:

1. 生成系统(Generative Heart, $G$):承载物理法则,不仅预测下一帧,还需模拟状态演化(Dynamics)、映射隐变量至观测(Observation),并预测任务相关回报(Reward)。

2. 交互系统(Interactive Loop, $F,C$):含推断器(Inference Filter)与策略(Policy),实现感知-行动闭环;无此闭环,Sora仅是视频生成器,而非世界模拟器。

3. 记忆系统(Memory System, $M$):通过循环状态更新维持时间轴上的连贯性;缺失记忆,世界即为破碎幻觉。

基于该定义,作者绘制覆盖五大阶段的进化路线图,并明确指出:贯穿全程的灵魂线索是Masking。

Stage I:Masking范式——被低估的“创世法则”

Masking不仅是BERT时代的“完形填空”技巧,更是跨模态通用的生成原则,乃至优于自回归的“创世法则”。

语言:从填空到“动态去噪”

在NLP领域,BERT确立双向上下文优势,但生成长期由GPT类自回归(AR)模型主导。

变局已至:Discrete Diffusion(离散扩散)崛起,如Google Gemini Diffusion与Inception Labs Mercury,将Masking升维为迭代去噪(Iterative Denoising)过程。

  • 噪声调度替代固定比例掩码,支持时间索引控制;
  • 模型从全Mask混沌中逐步“雕刻”出清晰文本。

工业实践表明,该范式在生成质量与推理速度上已可比肩甚至超越传统自回归基线。

视觉:并行生成的王者

在视觉领域,Masking统治力更强。

表征学习:MAE(Masked Autoencoders)证明,高比例遮挡可迫使模型习得强语义表征。

高效生成:MaskGIT与MUSE利用Masked Generative Transformers(MGT),实现并行解码,在保真度与效率间取得极致平衡。

最新Meissonic进一步验证:MGT可在高分辨率文生图任务上对标顶级Diffusion模型。

多模态的普适性

从VideoMAE的时空掩码、wav2vec 2.0的音频掩码,到Point-BERT的3D点云掩码,Masking已成为统合所有数据形态的通用语言。

论文总结:“Mask-Infill-Generalize(遮挡-补全-泛化)”是构建世界模型的地基。

Stage II:统一架构——Masking让图文“同频共振”

当前多模态AI多属拼凑式:LLM处理文本,Diffusion处理图像,中间依赖胶水层。

Stage II目标是Unified Models(统一模型):同一Backbone、同一范式,处理并生成全部模态。

论文梳理出两大技术阵营:Language-Prior(语言先验)与Visual-Prior(视觉先验)。

语言先验建模(Language-Prior Modeling)

主流路径是将视觉纳入语言模型框架。内部存在范式迭代:

Autoregressive(AR)路线:Emu3、Chameleon、VILA-U等沿用Next-Token Prediction逻辑,但自回归“单向性”制约图像全局结构生成能力。

Mask-based(Discrete Diffusion)路线:以MMaDA、Lumina-DiMOO与LaviDa-O为代表,坚持语言优先,却弃用自回归,转向Mask-based/Discrete Diffusion范式;其核心创新在于利用双向注意力机制同步提升语言理解与视觉生成质量,被作者视为Masking在语言建模内部的胜利。

视觉先验建模(Visual-Prior Modeling):从看见到读写

另一路径是从视觉出发,反向兼容文本:

  • 基于潜在扩散模型(Latent Diffusion)的UniDiffuser;
  • 基于掩码图像建模(MIM)的Muddit。

Lumina-DiMOO与Muddit等工作表明,该架构可在双向上下文中实现更精细生成控制,成为语言逻辑与视觉生成兼容的最大公约数。

Stage III:交互式生成——Masking驱动的“模拟器”

当模型响应用户动作(Action)而不再仅预测下一帧时,“放映机”即升级为“模拟器”。

此阶段即Stage III:Interactive Generative Models。此时Masking范式开始发挥关键作用,因其并行解码能力支撑低延迟交互闭环。

从GameGAN到Genie

GameGAN:早期GAN模仿《吃豆人》,泛化有限。

  • Genie-1:DeepMind突破之作,从互联网视频无监督学习“潜在动作(Latent Actions)”,核心基于MaskGIT离散掩码架构,通过预测被Mask未来帧掌握物理规律。
  • Genie-2:扩展至准3D空间,增强对象恒常性。
  • Genie-3:当前SOTA,支持720p/24fps实时交互,可持续分钟级连贯游玩。

为什么Masking对交互至关重要?

Mask-based架构(如MaskGIT、Muse)的并行解码能力,使Genie等模型能在极短时间内生成高质量下一帧,闭合“感知-行动”低延迟回路。

相较而言,逐Token预测的自回归视频生成模型在实时性上明显受限。

GameNGen与Matrix-Game等基于扩散的实时引擎亦共同印证:要造一个可玩的世界,Masking/Diffusion范式是目前最有希望的路线之一。

但Genie-3仍面临“健忘症”:游玩数分钟后场景漂移、先前构建物消失——引出Stage IV的核心挑战。

Stage IV:记忆与一致性——对抗世界的崩塌

如《我的世界》中建造的塔,关服重启后必须仍在原地——这正是Stage IV要解决的“Memory & Consistency”(记忆与一致性)问题。

当前视频生成模型(含Genie)多依赖隐式KV Cache或有限Context Window,长程推理中易出现“灾难性遗忘(Catastrophic Forgetting)”与“状态漂移(State Drift)”。

缺乏记忆,世界模型仅为反应式,无法持久。论文梳理三类解决方案:

1. 外部化记忆(Externalized Memory):类比RAG(检索增强生成)与MemGPT,为模型外挂可读写存储,实现知识可编辑、可追溯。

2. 架构级持久化(Extending Capacity):不止拉长Context Window;Mamba等线性时间状态空间模型(SSM)及Ring Attention等技术,正尝试从底层实现“无限上下文”,支撑整本书阅读或全天候游戏不“断片”。

3. 一致性治理(Regulating Consistency):针对视频漂移,FramePack、Mixture of Contexts(MoC)与VMem等技术,借助显式3D结构或稀疏注意力,为像素世界锚定“时空桩”。

“一致性不是靠拉长上下文解决的,它需要明确的记忆策略——记住什么、遗忘什么、如何更新。”

Stage V:终极形态——从“模拟器”到“科学仪器”

当生成系统(Masking驱动)、交互系统(实时响应)与记忆系统(持久一致)完全融合,即迈入Stage V:True World Models(真正的世界模型)。

此时模型将涌现出三大本质特征:

1. Persistence(持久性):世界拥有独立时间轴,历史脱离单次会话存在,离开后继续演化;
2. Agency(主体性):世界内栖息具备目标、记忆与社交关系的多智能体,非脚本NPC;
3. Emergence(涌现性):宏观社会规律、经济周期与文明冲突,由微观主体交互自然涌现。

三大终极难题

通往Stage V须跨越三座大山:

  • The Coherence Problem(连贯性/评估难题):当世界自生成,“真”的标准何在?亟需新评估体系衡量逻辑自洽性;
  • The Compression Problem(压缩/扩展难题):历史无限增长,模型需像人类般抽象记忆,只保留因果相关状态,否则计算量致系统崩溃;
  • The Alignment Problem(对齐/安全难题):远超ChatGPT对齐难度——既要对齐“物理法则”(生成器),也要对齐亿万智能体社会的“社会动态”。

我们为什么需要研究世界模型?

为何沿Masking窄路费力构建True World Model?论文给出的答案是:我们建造世界,不是为了逃避现实,而是为了理解现实。

跨越Stage V后,World Model将升级为“科学仪器(Scientific Instrument)”。

经济学家可运行导致现实崩溃的货币政策实验;社会学家可观测文明演化与衰亡;认知科学家可探寻意识诞生瞬间。

从BERT的第一个[MASK]标签,到生生不息的数字宇宙,Masking范式始终贯穿其中。

对AGI研究者而言,这篇论文提供关键视角:回头看看Masking吧,通往未来的地图,也许就藏在那些被遮住的Token里。

参考资料
论文标题:From Masks to Worlds: A Hitchhiker’s Guide to World Models
论文链接:https://arxiv.org/abs/2510.20668
相关项目:https://github.com/M-E-AGI-Lab/Awesome-World-Models

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14550
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读100.3k
粉丝0
内容14.6k