NeurIPS 2025 | 一张图+你的动作，实时生成AAA级第一人称虚拟世界

AI TIME 论道

2025-12-08

导读：点击阅读原文查看作者直播回放！

头号玩家（PlayerOne）：基于图像与动作的实时第一人称世界模拟

香港大学与阿里巴巴达摩院联合提出PlayerOne模型，可依据用户提供的单张第一人称视角图像（如厨房、驾驶座等场景），结合外视角摄像头捕捉的真实人体动作序列（如头部转动、手部抓取、腿部移动），生成高保真、场景一致的动态模拟视频。用户能以第一人称自由探索虚拟世界，实现无限制动作控制——包括行走、转身、交互物体等，显著超越传统VR预渲染场景的交互局限。

项目主页：https://playerone-hku.github.io/
论文链接：https://arxiv.org/abs/2506.09995
视频介绍：https://www.youtube.com/watch?v=OyvDTCIMYXU

效果展示

PlayerOne生成的模拟视频具备精准的动作对齐能力与强环境一致性，支持现实场景与游戏化场景双模应用。在沉浸式社交等场景中，用户可通过手势、头部运动实时驱动虚拟角色，交互自然度大幅提升；相比现有方案，其支持自由空间位移与物理级物体交互，实现真正动态的第一人称世界一致性。

注：所有演示视频均以前置相机拍摄，左侧手部动作与模拟视频中左手动作严格对应。

方法介绍

核心动机

当前世界模拟器多局限于游戏化环境或预设动作路径，难以复现真实世界的无约束交互。既有研究虽尝试现实场景建模，但侧重静态一致性，缺乏对人类动作的细粒度驱动能力。PlayerOne旨在构建首个以第一人称视角为起点、支持外源动作实时注入的世界基础框架，让用户从“旁观者”转变为“主动探索者”。

整体架构

基于DiT（Diffusion Transformer）架构，输入为：

第一帧图像：用户提供的初始第一人称视角图像（如头显视角）；
人体动作序列：通过外视角摄像头提取的SMPL-X参数或2D/3D关键点，涵盖躯干、四肢及头部。

输出为：严格对齐动作序列、保持几何一致性（遮挡关系、光照随视角变化）的动态模拟视频。

技术流程包括：图像转视觉token；动作序列分部件编码（躯干/脚、双手、头部）；头部参数转换为纯旋转相机外参并编码注入；原始视频重建4D场景点云序列，经适配器对齐后与视频潜变量联合去噪；最终由VAE解码生成结果。推理阶段仅需首帧图像与动作序列。

核心模块与流程

部件解构的动作注入模块

区别于将整套动作统一编码或仅依赖摄像机轨迹，PlayerOne将人体动作按功能解耦：手部负责环境交互，头部专用于视角对齐。三类动作参数分别经八层3D卷积动作编码器处理，再通道拼接形成部件感知潜在表示。头部参数进一步清零平移分量，仅保留旋转，生成精确摄像机运动序列，显著提升第一人称视角对齐精度。

场景帧共同重建模块

为保障全视频场景一致性，系统采用联合重建框架：利用CUT3R从原始视频逐帧生成点云，经点云编码器压缩为潜在表示；通过专用适配器将其映射至视频潜在空间，实现动作与环境数据的深度融合。训练时联合优化视频与点云潜变量，推理时点云仅作隐式先验，不参与前向计算，兼顾一致性与效率。

数据集构造

针对缺乏第一人称-动作配对数据的问题，研究从公开的第一人称-第三人称同步视频集中构建高质量数据集：使用SAM2定位第三人称画面中主体，SMPLest-X提取SMPL-X参数，并引入L2正则与2D重投影误差过滤（剔除误差前10%样本），最终分解为躯干/脚（66维）、头部（3维）、双手（各45维）组件，输入对应编码器。

训练策略

为缓解小规模高质量动作-视频数据的训练瓶颈，采用三级训练范式：

在Egovid-5M大规模第一人称文本-视频数据上，用LoRA微调基线模型，实现粗粒度动作对齐；
冻结LoRA，仅微调模型最后六层，聚焦精细动作对齐与视角不变场景建模；
引入不对称蒸馏，以双向教师模型监督因果学生模型，支撑长时视频合成与实时生成。

实验结果

消融对比表明：

“由粗到细”训练方案显著优于单独使用动作-视频对或混合文本条件训练，有效避免手部形变、幻觉人物等缺陷；
部件解构注入模块在视角对齐与动作对齐上全面优于ControlNet式注入、“耦合”方案及移除摄像机编码器的变体；
联合重建框架不可或缺，省略重建导致场景断裂；适配器缺失引发训练不稳定与图像失真；替换CUT3R为DUStR仍保持良好性能，验证模块鲁棒性。

与SOTA方法对比：在无直接竞品前提下，对比Cosmos（7B/14B）与Aether，PlayerOne在场景几何一致性、物体交互合理性及第一人称运动自然度上均具明显优势。

未来展望

PlayerOne首次实现通用现实世界中的自由动作驱动与高保真场景模拟。当前在游戏场景性能略逊于现实场景，主因训练数据分布不均衡。后续可通过扩充高质量游戏场景动作-视频数据集进一步提升泛化能力。

【声明】内容源于网络

AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来

内容 2013

粉丝 0

AI TIME 论道 AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来

总阅读14.2k

粉丝0

内容2.0k