大数跨境
0
0

NeurIPS 2025 | 一张图+你的动作,实时生成AAA级第一人称虚拟世界

NeurIPS 2025 | 一张图+你的动作,实时生成AAA级第一人称虚拟世界 AI TIME 论道
2025-12-08
16
导读:点击 阅读原文 查看作者直播回放!

头号玩家(PlayerOne):基于图像与动作的实时第一人称世界模拟

香港大学与阿里巴巴达摩院联合提出PlayerOne模型,可依据用户提供的单张第一人称视角图像(如厨房、驾驶座等场景),结合外视角摄像头捕捉的真实人体动作序列(如头部转动、手部抓取、腿部移动),生成高保真、场景一致的动态模拟视频。用户能以第一人称自由探索虚拟世界,实现无限制动作控制——包括行走、转身、交互物体等,显著超越传统VR预渲染场景的交互局限。

项目主页:https://playerone-hku.github.io/
论文链接:https://arxiv.org/abs/2506.09995
视频介绍:https://www.youtube.com/watch?v=OyvDTCIMYXU

效果展示

PlayerOne生成的模拟视频具备精准的动作对齐能力与强环境一致性,支持现实场景与游戏化场景双模应用。在沉浸式社交等场景中,用户可通过手势、头部运动实时驱动虚拟角色,交互自然度大幅提升;相比现有方案,其支持自由空间位移与物理级物体交互,实现真正动态的第一人称世界一致性。

注:所有演示视频均以前置相机拍摄,左侧手部动作与模拟视频中左手动作严格对应。

方法介绍

核心动机

当前世界模拟器多局限于游戏化环境或预设动作路径,难以复现真实世界的无约束交互。既有研究虽尝试现实场景建模,但侧重静态一致性,缺乏对人类动作的细粒度驱动能力。PlayerOne旨在构建首个以第一人称视角为起点、支持外源动作实时注入的世界基础框架,让用户从“旁观者”转变为“主动探索者”。

整体架构

基于DiT(Diffusion Transformer)架构,输入为:

  • 第一帧图像:用户提供的初始第一人称视角图像(如头显视角);
  • 人体动作序列:通过外视角摄像头提取的SMPL-X参数或2D/3D关键点,涵盖躯干、四肢及头部。

输出为:严格对齐动作序列、保持几何一致性(遮挡关系、光照随视角变化)的动态模拟视频。

技术流程包括:图像转视觉token;动作序列分部件编码(躯干/脚、双手、头部);头部参数转换为纯旋转相机外参并编码注入;原始视频重建4D场景点云序列,经适配器对齐后与视频潜变量联合去噪;最终由VAE解码生成结果。推理阶段仅需首帧图像与动作序列。

核心模块与流程

部件解构的动作注入模块

区别于将整套动作统一编码或仅依赖摄像机轨迹,PlayerOne将人体动作按功能解耦:手部负责环境交互,头部专用于视角对齐。三类动作参数分别经八层3D卷积动作编码器处理,再通道拼接形成部件感知潜在表示。头部参数进一步清零平移分量,仅保留旋转,生成精确摄像机运动序列,显著提升第一人称视角对齐精度。

场景帧共同重建模块

为保障全视频场景一致性,系统采用联合重建框架:利用CUT3R从原始视频逐帧生成点云,经点云编码器压缩为潜在表示;通过专用适配器将其映射至视频潜在空间,实现动作与环境数据的深度融合。训练时联合优化视频与点云潜变量,推理时点云仅作隐式先验,不参与前向计算,兼顾一致性与效率。

数据集构造

针对缺乏第一人称-动作配对数据的问题,研究从公开的第一人称-第三人称同步视频集中构建高质量数据集:使用SAM2定位第三人称画面中主体,SMPLest-X提取SMPL-X参数,并引入L2正则与2D重投影误差过滤(剔除误差前10%样本),最终分解为躯干/脚(66维)、头部(3维)、双手(各45维)组件,输入对应编码器。

训练策略

为缓解小规模高质量动作-视频数据的训练瓶颈,采用三级训练范式:

  1. 在Egovid-5M大规模第一人称文本-视频数据上,用LoRA微调基线模型,实现粗粒度动作对齐;
  2. 冻结LoRA,仅微调模型最后六层,聚焦精细动作对齐与视角不变场景建模;
  3. 引入不对称蒸馏,以双向教师模型监督因果学生模型,支撑长时视频合成与实时生成。

实验结果

消融对比表明:

  • “由粗到细”训练方案显著优于单独使用动作-视频对或混合文本条件训练,有效避免手部形变、幻觉人物等缺陷;
  • 部件解构注入模块在视角对齐与动作对齐上全面优于ControlNet式注入、“耦合”方案及移除摄像机编码器的变体;
  • 联合重建框架不可或缺,省略重建导致场景断裂;适配器缺失引发训练不稳定与图像失真;替换CUT3R为DUStR仍保持良好性能,验证模块鲁棒性。

与SOTA方法对比:在无直接竞品前提下,对比Cosmos(7B/14B)与Aether,PlayerOne在场景几何一致性、物体交互合理性及第一人称运动自然度上均具明显优势。

未来展望

PlayerOne首次实现通用现实世界中的自由动作驱动与高保真场景模拟。当前在游戏场景性能略逊于现实场景,主因训练数据分布不均衡。后续可通过扩充高质量游戏场景动作-视频数据集进一步提升泛化能力。

【声明】内容源于网络
0
0
AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来
内容 2013
粉丝 0
AI TIME 论道 AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来
总阅读14.2k
粉丝0
内容2.0k