大数跨境

让 AI 做“三维完形填空”,它竟成了空间理解大师?

让 AI 做“三维完形填空”,它竟成了空间理解大师? 中国电信人工智能研究院
2026-05-27
0
导读:让大模型学会空间几何规律


还记得被“英语完形填空”

支配的学生时代吗?


在看似随机的空格

和难分正误的答案选项中

我们逐渐学会了

一门外语的逻辑和语法



有趣的是

在大语言模型的训练过程中

核心方法之一

也是类似的“完形填空”


让模型“猜”句子中

被盖住的文字

进而理解和生成人类语言



如果把维度从语言世界

拓展到物理世界


有没有可能

也用“完形填空”的方式

让 AI 学习三维世界的

几何空间规律

构建更逼真的世界模型




判断 AI 能否真正掌握三维视觉规律,“多视角生成”是一块关键试金石,比如给 AI 输入一个物体的正视图,让它去脑补生成左视图、右视图或其他任意角度的视图。

 

针对这样的任务,当前主流方法大概分为三派但都存在局限性



3D 重建派

先构建完整3D模型再渲染新视角,虽几何精准,但过程繁琐、效率低下。


相机参数派

生成时必须输入目标视角的精确数学方位参数,灵活性差,难以泛化。


图像编辑派

以“修图”思路去生成,一次仅能生成单一视角,效率低且误差易累积。


为了突破这些局限,中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授带领科研团队,基于智传网(AI Flow)理论,提出了一种新的世界模型生成框架 ViewMask-1-to-3


不依赖任何 3D 建模工具或几何先验知识仅通过对 AI 进行“视觉完形填空”训练,便能实现高质量、高一致性的多视角图像生成。



既然 AI 能用“完形填空”(即掩码预测,Masked Language Modeling)学习语言规律,那能否用同样的方式让 AI 学会三维的视觉规律?

 

ViewMask-1-to-3 的答案是:可以!


01

  [ 第一步:拆词 ] .

研究团队以离散大语言模型为底座,用 MAGVIT-v2 视觉分词器,把图像压缩成一串“视觉词元”(token)。


02

  [ 第二步:组句 ] .

将目标物体(如一把椅子)的前、后、左、右四个视图的所有词元,按顺序拼接成一个“视觉长句”。同时,将参考图与文本描述作为前缀加入,提供上下文。


03

  [ 第三步:猜词游戏 ] .

在训练中,随机“盖住”(掩码)目标视角的部分词元,让模型根据上下文(参考图、文本及其他可见视角)来预测被遮住的内容。


通过海量的随机掩码与双向注意力学习,模型在“残缺信息”中学会了补全,深刻理解了何为“跨视角一致性”。


此外,在模型训练过程中,其多模态理解与生成的能力也得到进一步提升。


(点击查看大图)

1

预训练阶段


团队用 120 万张图文对,让模型学会把"文字 token"和"图像 token"映射到同一套空间里,互相对齐。

2

图生多视角(I2MV)


将一张参考图,随机遮住目标视角的部分 token,让模型预测。

3

文生多视角(T2MV)


没有参考图,只给文字提示,随机遮住所有视角的部分 token,让模型预测 4 个不同角度的图像。


模型在推理时,将待生成的目标视角全部遮蔽,模型逐步预测、还原,再依据置信度对低把握的位置重新遮蔽,直到所有视角清晰浮现。

 

这与 TeleAI 团队长期研究的“正激励噪声”(Positive-incentive Noise,Pi/π-Noise)理论一脉相承:精心设计的噪声不是干扰,反而驱动着模型不断优化。


ViewMask-1-to-3 的“视觉完形填空”思路,与当前世界模型、具身智能中的环境理解任务相适应。让 AI 不仅能理解当前画面,在训练过程中逐渐具备了对三维空间进行联想与补全的能力,对于 AI 的空间理解与环境认知也具有启发意义。


在 GSO 和 3D-FUTURE 两个标准测试集上,ViewMask-1-to-3 在图像质量、几何一致性等关键指标上均超越 Zero-1-to-3、ViVid-1-to-3 等主流基线模型。

 

在生成效率上,其优势尤为显著。zero-1-to-3 需要 2.66 秒/视角,ViVid-1-to-3 需要 5.99 秒/视角,AR-1-to-3 需要 5.35 秒/视角,而 ViewMask-1-to-3 只需 1.28 秒/视角——快了约 2-4 倍




在能力泛化上,ViewMask-1-to-3 也展现了出色的潜力。



规模可扩展


从 4 视角扩展到 6 视角、8 视角,只需约 9k 步微调,且性能几乎不变。8 视角甚至超出了原本训练时的最大序列长度,模型仍能稳定泛化——说明这套"完形填空"范式具有天然的扩展性。


能力可扩展


由于底座是统一的离散扩散框架,ViewMask-1-to-3 的能力边界远不止于多视角生成,模型本身即可做到图像补全与"指哪转哪"(结合  SAM 对画面中指定物体旋转视角);稍加数据微调,多模态理解、文生图同样信手拈来。



在文生图任务的评测榜单 GenEval 上,ViewMask-1-to-3 拿到了 0.72 的综合分,超越专门做图像生成的 SD3.5-L,比同类型统一模型  MMaDA(0.63)高出 0.09。


(点击查看大图)



ViewMask-1-to-3

摆脱了复杂 3D 先验的依赖

架构更简洁、更优雅、更有效


它将立体的视觉与线性的语言

统一在同一套“词汇表”中

不仅为 AI 领悟三维空间的深层规律

提供了创新的学习方法

更为世界模型的落地

开辟了一条全新的路径


从机器人对环境的几何理解

到 VR/AR 内容的自动生成

乃至电商商品的全视角展示

或者游戏资产的快速构建

……


这项“完形填空”式的训练方式

正在为更高效、更通用的

人工智能应用落地

打下更坚实的基础


One More Thing

ViewMask-1-to-3 相关研究成果

已被人工智能领域顶会 ICML 2026

正式收录





相关工作

R. Zhu, Z. Huang, J. Sun, P. Luo, H. Zhang, X. Li*, “ViewMask-1-to-3: Multi-View Consistent Image Generation via Multimodal Diffusion Models”, ICML 2026, arXiv:2512.14099.


J. Shao and X. Li*, "AI Flow at the Network Edge", IEEE Network, vol. 40, no. 1, pp. 330-336, Jan. 2026, doi: 10.1109/MNET.2025.3541208. 


H. An, W. Hu, S. Huang, S. Huang, R. Li, Y. Liang, J. Shao, Y. Song, Z. Wang, C. Yuan, C. Zhang, H. Zhang, W. Zhuang, X. Li*. "AI Flow: Perspectives, Scenarios, and Approaches", Vicinagearth 3, 1 (2026).

图片

【声明】内容源于网络
0
0
中国电信人工智能研究院
中国电信人工智能研究院(TeleAI)面向国家战略需求和人工智能发展趋势,结合中国电信在算力、数据、场景及通信等多方面的优势,围绕重点方向开展基础研究、技术攻关和应用落地,旨在打造人工智能研发与产业转化标杆性平台,构建人工智能人才高地。
内容 100
粉丝 0
中国电信人工智能研究院 中国电信人工智能研究院(TeleAI)面向国家战略需求和人工智能发展趋势,结合中国电信在算力、数据、场景及通信等多方面的优势,围绕重点方向开展基础研究、技术攻关和应用落地,旨在打造人工智能研发与产业转化标杆性平台,构建人工智能人才高地。
总阅读2.0k
粉丝0
内容100