头号玩家(PlayerOne):基于图像与动作的实时第一人称世界模拟
香港大学与阿里巴巴达摩院联合提出PlayerOne模型,可依据用户提供的单张第一人称视角图像(如厨房、驾驶座等场景),结合外视角摄像头捕捉的真实人体动作序列(如头部转动、手部抓取、腿部移动),生成高保真、场景一致的动态模拟视频。用户能以第一人称自由探索虚拟世界,实现无限制动作控制——包括行走、转身、交互物体等,显著超越传统VR预渲染场景的交互局限。
项目主页:https://playerone-hku.github.io/
论文链接:https://arxiv.org/abs/2506.09995
视频介绍:https://www.youtube.com/watch?v=OyvDTCIMYXU
效果展示
PlayerOne生成的模拟视频具备精准的动作对齐能力与强环境一致性,支持现实场景与游戏化场景双模应用。在沉浸式社交等场景中,用户可通过手势、头部运动实时驱动虚拟角色,交互自然度大幅提升;相比现有方案,其支持自由空间位移与物理级物体交互,实现真正动态的第一人称世界一致性。
注:所有演示视频均以前置相机拍摄,左侧手部动作与模拟视频中左手动作严格对应。
方法介绍
核心动机
当前世界模拟器多局限于游戏化环境或预设动作路径,难以复现真实世界的无约束交互。既有研究虽尝试现实场景建模,但侧重静态一致性,缺乏对人类动作的细粒度驱动能力。PlayerOne旨在构建首个以第一人称视角为起点、支持外源动作实时注入的世界基础框架,让用户从“旁观者”转变为“主动探索者”。
整体架构
基于DiT(Diffusion Transformer)架构,输入为:
- 第一帧图像:用户提供的初始第一人称视角图像(如头显视角);
- 人体动作序列:通过外视角摄像头提取的SMPL-X参数或2D/3D关键点,涵盖躯干、四肢及头部。
输出为:严格对齐动作序列、保持几何一致性(遮挡关系、光照随视角变化)的动态模拟视频。
技术流程包括:图像转视觉token;动作序列分部件编码(躯干/脚、双手、头部);头部参数转换为纯旋转相机外参并编码注入;原始视频重建4D场景点云序列,经适配器对齐后与视频潜变量联合去噪;最终由VAE解码生成结果。推理阶段仅需首帧图像与动作序列。
核心模块与流程
部件解构的动作注入模块
区别于将整套动作统一编码或仅依赖摄像机轨迹,PlayerOne将人体动作按功能解耦:手部负责环境交互,头部专用于视角对齐。三类动作参数分别经八层3D卷积动作编码器处理,再通道拼接形成部件感知潜在表示。头部参数进一步清零平移分量,仅保留旋转,生成精确摄像机运动序列,显著提升第一人称视角对齐精度。
场景帧共同重建模块
为保障全视频场景一致性,系统采用联合重建框架:利用CUT3R从原始视频逐帧生成点云,经点云编码器压缩为潜在表示;通过专用适配器将其映射至视频潜在空间,实现动作与环境数据的深度融合。训练时联合优化视频与点云潜变量,推理时点云仅作隐式先验,不参与前向计算,兼顾一致性与效率。
数据集构造
针对缺乏第一人称-动作配对数据的问题,研究从公开的第一人称-第三人称同步视频集中构建高质量数据集:使用SAM2定位第三人称画面中主体,SMPLest-X提取SMPL-X参数,并引入L2正则与2D重投影误差过滤(剔除误差前10%样本),最终分解为躯干/脚(66维)、头部(3维)、双手(各45维)组件,输入对应编码器。
训练策略
为缓解小规模高质量动作-视频数据的训练瓶颈,采用三级训练范式:
- 在Egovid-5M大规模第一人称文本-视频数据上,用LoRA微调基线模型,实现粗粒度动作对齐;
- 冻结LoRA,仅微调模型最后六层,聚焦精细动作对齐与视角不变场景建模;
- 引入不对称蒸馏,以双向教师模型监督因果学生模型,支撑长时视频合成与实时生成。
实验结果
消融对比表明:
- “由粗到细”训练方案显著优于单独使用动作-视频对或混合文本条件训练,有效避免手部形变、幻觉人物等缺陷;
- 部件解构注入模块在视角对齐与动作对齐上全面优于ControlNet式注入、“耦合”方案及移除摄像机编码器的变体;
- 联合重建框架不可或缺,省略重建导致场景断裂;适配器缺失引发训练不稳定与图像失真;替换CUT3R为DUStR仍保持良好性能,验证模块鲁棒性。
与SOTA方法对比:在无直接竞品前提下,对比Cosmos(7B/14B)与Aether,PlayerOne在场景几何一致性、物体交互合理性及第一人称运动自然度上均具明显优势。
未来展望
PlayerOne首次实现通用现实世界中的自由动作驱动与高保真场景模拟。当前在游戏场景性能略逊于现实场景,主因训练数据分布不均衡。后续可通过扩充高质量游戏场景动作-视频数据集进一步提升泛化能力。

