让 AI 做“三维完形填空”，它竟成了空间理解大师？- 大数跨境

首页

让 AI 做“三维完形填空”，它竟成了空间理解大师？

中国电信人工智能研究院

2026-05-27

导读：让大模型学会空间几何规律

还记得被“英语完形填空”

支配的学生时代吗？

在看似随机的空格

和难分正误的答案选项中

我们逐渐学会了

一门外语的逻辑和语法

有趣的是

在大语言模型的训练过程中

核心方法之一

也是类似的“完形填空”

让模型“猜”句子中

被盖住的文字

进而理解和生成人类语言

如果把维度从语言世界

拓展到物理世界

有没有可能

也用“完形填空”的方式

让 AI 学习三维世界的

几何空间规律

构建更逼真的世界模型

判断 AI 能否真正掌握三维视觉规律，“多视角生成”是一块关键试金石，比如给 AI 输入一个物体的正视图，让它去脑补生成左视图、右视图或其他任意角度的视图。

针对这样的任务，当前主流方法大概分为三派，但都存在局限性：

3D 重建派

先构建完整3D模型再渲染新视角，虽几何精准，但过程繁琐、效率低下。

相机参数派

生成时必须输入目标视角的精确数学方位参数，灵活性差，难以泛化。

图像编辑派

以“修图”思路去生成，一次仅能生成单一视角，效率低且误差易累积。

为了突破这些局限，中国电信集团 CTO、首席科学家、中国电信人工智能研究院（TeleAI）院长李学龙教授带领科研团队，基于智传网（AI Flow）理论，提出了一种新的世界模型生成框架 ViewMask-1-to-3。

它不依赖任何 3D 建模工具或几何先验知识，仅通过对 AI 进行“视觉完形填空”训练，便能实现高质量、高一致性的多视角图像生成。

既然 AI 能用“完形填空”（即掩码预测，Masked Language Modeling）学习语言规律，那能否用同样的方式让 AI 学会三维的视觉规律？

ViewMask-1-to-3 的答案是：可以！

[ 第一步：拆词 ] .

研究团队以离散大语言模型为底座，用 MAGVIT-v2 视觉分词器，把图像压缩成一串“视觉词元”（token）。

[ 第二步：组句 ] .

将目标物体（如一把椅子）的前、后、左、右四个视图的所有词元，按顺序拼接成一个“视觉长句”。同时，将参考图与文本描述作为前缀加入，提供上下文。

[ 第三步：猜词游戏 ] .

在训练中，随机“盖住”（掩码）目标视角的部分词元，让模型根据上下文（参考图、文本及其他可见视角）来预测被遮住的内容。

通过海量的随机掩码与双向注意力学习，模型在“残缺信息”中学会了补全，深刻理解了何为“跨视角一致性”。

此外，在模型训练过程中，其多模态理解与生成的能力也得到进一步提升。

（点击查看大图）

预训练阶段

团队用 120 万张图文对，让模型学会把"文字 token"和"图像 token"映射到同一套空间里，互相对齐。

图生多视角（I2MV）

将一张参考图，随机遮住目标视角的部分 token，让模型预测。

文生多视角（T2MV）

没有参考图，只给文字提示，随机遮住所有视角的部分 token，让模型预测 4 个不同角度的图像。

模型在推理时，将待生成的目标视角全部遮蔽，模型逐步预测、还原，再依据置信度对低把握的位置重新遮蔽，直到所有视角清晰浮现。

这与 TeleAI 团队长期研究的“正激励噪声”（Positive-incentive Noise，Pi/π-Noise）理论一脉相承：精心设计的噪声不是干扰，反而驱动着模型不断优化。

ViewMask-1-to-3 的“视觉完形填空”思路，与当前世界模型、具身智能中的环境理解任务相适应。让 AI 不仅能理解当前画面，在训练过程中逐渐具备了对三维空间进行联想与补全的能力，对于 AI 的空间理解与环境认知也具有启发意义。

在 GSO 和 3D-FUTURE 两个标准测试集上，ViewMask-1-to-3 在图像质量、几何一致性等关键指标上均超越 Zero-1-to-3、ViVid-1-to-3 等主流基线模型。

在生成效率上，其优势尤为显著。zero-1-to-3 需要 2.66 秒/视角，ViVid-1-to-3 需要 5.99 秒/视角，AR-1-to-3 需要 5.35 秒/视角，而 ViewMask-1-to-3 只需 1.28 秒/视角——快了约 2-4 倍。

在能力泛化上，ViewMask-1-to-3 也展现了出色的潜力。

规模可扩展

从 4 视角扩展到 6 视角、8 视角，只需约 9k 步微调，且性能几乎不变。8 视角甚至超出了原本训练时的最大序列长度，模型仍能稳定泛化——说明这套"完形填空"范式具有天然的扩展性。

能力可扩展

由于底座是统一的离散扩散框架，ViewMask-1-to-3 的能力边界远不止于多视角生成，模型本身即可做到图像补全与"指哪转哪"（结合 SAM 对画面中指定物体旋转视角）；稍加数据微调，多模态理解、文生图同样信手拈来。

在文生图任务的评测榜单 GenEval 上，ViewMask-1-to-3 拿到了 0.72 的综合分，超越专门做图像生成的 SD3.5-L，比同类型统一模型 MMaDA（0.63）高出 0.09。

（点击查看大图）

ViewMask-1-to-3

摆脱了复杂 3D 先验的依赖

架构更简洁、更优雅、更有效

它将立体的视觉与线性的语言

统一在同一套“词汇表”中

不仅为 AI 领悟三维空间的深层规律

提供了创新的学习方法

更为世界模型的落地

开辟了一条全新的路径

从机器人对环境的几何理解

到 VR/AR 内容的自动生成

乃至电商商品的全视角展示

或者游戏资产的快速构建

……

这项“完形填空”式的训练方式

正在为更高效、更通用的

人工智能应用落地

打下更坚实的基础

One More Thing

ViewMask-1-to-3 相关研究成果

已被人工智能领域顶会 ICML 2026

正式收录

相关工作

R. Zhu, Z. Huang, J. Sun, P. Luo, H. Zhang, X. Li*, “ViewMask-1-to-3: Multi-View Consistent Image Generation via Multimodal Diffusion Models”, ICML 2026, arXiv:2512.14099.

J. Shao and X. Li*, "AI Flow at the Network Edge", IEEE Network, vol. 40, no. 1, pp. 330-336, Jan. 2026, doi: 10.1109/MNET.2025.3541208.

H. An, W. Hu, S. Huang, S. Huang, R. Li, Y. Liang, J. Shao, Y. Song, Z. Wang, C. Yuan, C. Zhang, H. Zhang, W. Zhuang, X. Li*. "AI Flow: Perspectives, Scenarios, and Approaches", Vicinagearth 3, 1 (2026).

【声明】内容源于网络

中国电信人工智能研究院

中国电信人工智能研究院（TeleAI）面向国家战略需求和人工智能发展趋势，结合中国电信在算力、数据、场景及通信等多方面的优势，围绕重点方向开展基础研究、技术攻关和应用落地，旨在打造人工智能研发与产业转化标杆性平台，构建人工智能人才高地。

内容 100

粉丝 0

中国电信人工智能研究院中国电信人工智能研究院（TeleAI）面向国家战略需求和人工智能发展趋势，结合中国电信在算力、数据、场景及通信等多方面的优势，围绕重点方向开展基础研究、技术攻关和应用落地，旨在打造人工智能研发与产业转化标杆性平台，构建人工智能人才高地。

总阅读2.0k

粉丝0

内容100