大数跨境
0
0

英伟达LuxDiT:巧借视频扩散大模型“慧眼”,从单张图像中“复原”整个世界的光照!

英伟达LuxDiT:巧借视频扩散大模型“慧眼”,从单张图像中“复原”整个世界的光照! 极市平台
2025-09-08
1
导读:↑ 点击蓝字 关注极市平台作者丨我爱计算机视觉来源丨我爱计算机视觉编辑丨极市平台极市导读 英伟达联手多伦多大学
↑ 点击蓝字 关注极市平台
作者丨我爱计算机视觉
来源丨我爱计算机视觉
编辑丨极市平台

极市导读

 

英伟达联手多伦多大学和向量研究所,推出LuxDiT,一种创新的光照估计方法。LuxDiT利用视频扩散Transformer,从单张图片或视频中精确推断出复杂光照环境,为逼真的AR和游戏渲染带来革命性进展。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

“看光识景”——从一张照片或一段视频中,准确推断出拍摄场景的完整光照环境,是计算机视觉和图形学领域一个长期存在的“圣杯级”难题。精确的光照估计是实现逼真AR(增强现实)、电影特效和游戏渲染的关键。然而,由于真实世界光照数据的稀缺性和光照线索的复杂性,这一任务挑战重重。

近日,来自英伟达、多伦多大学和向量研究所的研究团队,提出了一种名为LuxDiT的全新方法,为这一难题带来了突破性的解决方案。LuxDiT巧妙地“借用”了一个强大的预训练视频扩散Transformer(Video Diffusion Transformer) 的“慧眼”,通过微调使其成为一个专业的光照估计大师。该方法生成的HDR(高动态范围)环境光照贴图,在真实性和准确性上均超越了现有的SOTA(最先进)技术。

  • 论文标题:LuxDiT: Lighting Estimation with Video Diffusion Transformer
  • 作者团队:Ruofan Liang, Kai He, Zan Gojcic, Igor Gilitschenski, Sanja Fidler, Nandita Vijaykumar, Zian Wang
  • 所属机构:英伟达 (NVIDIA),多伦多大学,向量研究所 (Vector Institute)
  • 论文地址https://arxiv.org/abs/2509.03680
  • 项目主页https://research.nvidia.com/labs/toronto-ai/LuxDiT/

01  研究背景:光照估计为何如此困难?

光照估计的目标是,根据一张普通的输入图像或视频,生成一张360度的全景HDR环境贴图。这张贴图记录了场景中来自四面八方的所有光线信息,包括太阳、天空、灯具等光源的精确方向、强度和颜色。然而,实现这一目标面临三大挑战:

  1. 数据稀缺:采集真实的、带有对应HDR环境贴图的数据集,成本极高且过程繁琐,导致可用的高质量训练数据非常有限。
  2. 线索间接:场景中的光照信息通常不是直接可见的,而是通过物体表面的阴影、高光、反射等间接视觉线索来体现。模型需要具备强大的推理能力,从局部细节推断全局光照。
  3. 高动态范围(HDR):真实世界的光照强度跨度极大,从昏暗的室内到耀眼的太阳,可能相差数万倍。直接预测这种高动态范围的数值,对神经网络来说是一项艰巨的任务。

02  LuxDiT:扩散大模型的光照推理术

面对这些挑战,LuxDiT没有选择从零开始训练一个专门的网络,而是另辟蹊径,站在了巨人的肩膀上——它将一个强大的预训练视频扩散Transformer改造用于光照估计任务。

核心架构:双LDR表示与DiT

LuxDiT的核心架构非常精巧。它没有让模型直接去预测困难的HDR贴图,而是将其分解为一个更简单的任务:

  1. 双LDR表示法:模型被设计为同时预测两张经过不同色调映射(tone-mapped)的LDR(低动态范围)图像(E_ldr 和 E_log)和一个方向图(E_dir)。这两张LDR图像分别捕捉了HDR贴图中不同的亮度区域信息。
  2. DiT联合处理:这两张LDR图像首先通过一个VAE编码器转换到隐空间,然后与输入图像(或视频)的特征拼接在一起,共同送入核心的扩散Transformer(DiT)进行处理。DiT强大的全局上下文建模能力,使其能够有效地从输入图像的视觉线索中推断出光照信息。
  3. 轻量级融合:DiT输出的隐变量经过解码器还原成两张LDR图像,最后由一个轻量级的MLP网络将它们智能地融合成最终的、单一的HDR环境贴图。

训练策略:合成数据预训练 + 真实数据LoRA微调

为了克服数据稀缺的问题,LuxDiT采用了两步走的训练策略:

  1. 大规模合成数据训练:首先,在一个包含多样化物、场景和光照的大规模合成数据集上对模型进行充分训练。这使得模型能够学习到关于光影、反射等现象的物理规律,建立起强大的视觉推理能力。

  2. 真实数据LoRA微调:为了让模型更好地泛化到真实世界,并确保预测的光照与输入图像的语义(如“晴天”对应“蓝天白云”)保持一致,研究者们使用了一种高效的 LoRA (低秩自适应) 微调技术,在一个小规模的真实HDR全景图数据集上对模型进行“点拨”。这极大地提升了模型在真实场景中的表现。

03  实验结果:全面领先的SOTA性能

LuxDiT在多个标准基准数据集上进行了评估,无论输入是单张图像还是视频,其表现都全面超越了此前的SOTA方法。

定性比较显示,LuxDiT生成的光照贴图不仅在整体光照强度和色调上更准确,而且包含了更多真实的高频细节(如清晰的太阳、窗户的轮廓)。

在三个基准数据集上与基线方法的定性对比

光照估计的最终目的是服务于渲染。将虚拟物体植入真实场景的实验最能体现其价值。如下图所示,使用LuxDiT估计的光照渲染出的虚拟物体,其阴影、高光和环境反射都与真实场景完美融合,达到了以假乱真的效果。

LuxDiT赋能逼真的虚拟物体植入
虚拟物体植入效果对比

定量指标也同样证实了LuxDiT的领先地位,在多个误差指标上均优于其他方法。

单图像输入下的定量对比

04  写在最后

LuxDiT的提出,为光照估计这一经典难题提供了一个全新的、强有力的解决方案。它成功地展示了如何将大型预训练生成模型(视频扩散Transformer)的强大先验知识,迁移到复杂的逆向渲染任务中。

其创新的双LDR表示法“合成数据预训练+真实数据LoRA微调” 的策略,有效地克服了长期以来困扰该领域的数据稀缺和HDR预测难题。

这项工作不仅将光照估计的精度和真实感提升到了一个新的高度,也为解决其他计算机视觉和图形学中的病态问题(ill-posed problems)提供了宝贵的思路,即借助大模型的“智慧”,来推理和补全现实世界中缺失的信息。


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k