极市导读
英伟达联手多伦多大学和向量研究所,推出LuxDiT,一种创新的光照估计方法。LuxDiT利用视频扩散Transformer,从单张图片或视频中精确推断出复杂光照环境,为逼真的AR和游戏渲染带来革命性进展。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
“看光识景”——从一张照片或一段视频中,准确推断出拍摄场景的完整光照环境,是计算机视觉和图形学领域一个长期存在的“圣杯级”难题。精确的光照估计是实现逼真AR(增强现实)、电影特效和游戏渲染的关键。然而,由于真实世界光照数据的稀缺性和光照线索的复杂性,这一任务挑战重重。
近日,来自英伟达、多伦多大学和向量研究所的研究团队,提出了一种名为LuxDiT的全新方法,为这一难题带来了突破性的解决方案。LuxDiT巧妙地“借用”了一个强大的预训练视频扩散Transformer(Video Diffusion Transformer) 的“慧眼”,通过微调使其成为一个专业的光照估计大师。该方法生成的HDR(高动态范围)环境光照贴图,在真实性和准确性上均超越了现有的SOTA(最先进)技术。
-
论文标题:LuxDiT: Lighting Estimation with Video Diffusion Transformer -
作者团队:Ruofan Liang, Kai He, Zan Gojcic, Igor Gilitschenski, Sanja Fidler, Nandita Vijaykumar, Zian Wang -
所属机构:英伟达 (NVIDIA),多伦多大学,向量研究所 (Vector Institute) -
论文地址:https://arxiv.org/abs/2509.03680 -
项目主页:https://research.nvidia.com/labs/toronto-ai/LuxDiT/
01 研究背景:光照估计为何如此困难?
光照估计的目标是,根据一张普通的输入图像或视频,生成一张360度的全景HDR环境贴图。这张贴图记录了场景中来自四面八方的所有光线信息,包括太阳、天空、灯具等光源的精确方向、强度和颜色。然而,实现这一目标面临三大挑战:
-
数据稀缺:采集真实的、带有对应HDR环境贴图的数据集,成本极高且过程繁琐,导致可用的高质量训练数据非常有限。 -
线索间接:场景中的光照信息通常不是直接可见的,而是通过物体表面的阴影、高光、反射等间接视觉线索来体现。模型需要具备强大的推理能力,从局部细节推断全局光照。 -
高动态范围(HDR):真实世界的光照强度跨度极大,从昏暗的室内到耀眼的太阳,可能相差数万倍。直接预测这种高动态范围的数值,对神经网络来说是一项艰巨的任务。
02 LuxDiT:扩散大模型的光照推理术
面对这些挑战,LuxDiT没有选择从零开始训练一个专门的网络,而是另辟蹊径,站在了巨人的肩膀上——它将一个强大的预训练视频扩散Transformer改造用于光照估计任务。
核心架构:双LDR表示与DiT
LuxDiT的核心架构非常精巧。它没有让模型直接去预测困难的HDR贴图,而是将其分解为一个更简单的任务:
-
双LDR表示法:模型被设计为同时预测两张经过不同色调映射(tone-mapped)的LDR(低动态范围)图像( E_ldr和E_log)和一个方向图(E_dir)。这两张LDR图像分别捕捉了HDR贴图中不同的亮度区域信息。 -
DiT联合处理:这两张LDR图像首先通过一个VAE编码器转换到隐空间,然后与输入图像(或视频)的特征拼接在一起,共同送入核心的扩散Transformer(DiT)进行处理。DiT强大的全局上下文建模能力,使其能够有效地从输入图像的视觉线索中推断出光照信息。 -
轻量级融合:DiT输出的隐变量经过解码器还原成两张LDR图像,最后由一个轻量级的MLP网络将它们智能地融合成最终的、单一的HDR环境贴图。
训练策略:合成数据预训练 + 真实数据LoRA微调
为了克服数据稀缺的问题,LuxDiT采用了两步走的训练策略:
-
大规模合成数据训练:首先,在一个包含多样化物、场景和光照的大规模合成数据集上对模型进行充分训练。这使得模型能够学习到关于光影、反射等现象的物理规律,建立起强大的视觉推理能力。

-
真实数据LoRA微调:为了让模型更好地泛化到真实世界,并确保预测的光照与输入图像的语义(如“晴天”对应“蓝天白云”)保持一致,研究者们使用了一种高效的 LoRA (低秩自适应) 微调技术,在一个小规模的真实HDR全景图数据集上对模型进行“点拨”。这极大地提升了模型在真实场景中的表现。
03 实验结果:全面领先的SOTA性能
LuxDiT在多个标准基准数据集上进行了评估,无论输入是单张图像还是视频,其表现都全面超越了此前的SOTA方法。
定性比较显示,LuxDiT生成的光照贴图不仅在整体光照强度和色调上更准确,而且包含了更多真实的高频细节(如清晰的太阳、窗户的轮廓)。
光照估计的最终目的是服务于渲染。将虚拟物体植入真实场景的实验最能体现其价值。如下图所示,使用LuxDiT估计的光照渲染出的虚拟物体,其阴影、高光和环境反射都与真实场景完美融合,达到了以假乱真的效果。
定量指标也同样证实了LuxDiT的领先地位,在多个误差指标上均优于其他方法。
04 写在最后
LuxDiT的提出,为光照估计这一经典难题提供了一个全新的、强有力的解决方案。它成功地展示了如何将大型预训练生成模型(视频扩散Transformer)的强大先验知识,迁移到复杂的逆向渲染任务中。
其创新的双LDR表示法和“合成数据预训练+真实数据LoRA微调” 的策略,有效地克服了长期以来困扰该领域的数据稀缺和HDR预测难题。
这项工作不仅将光照估计的精度和真实感提升到了一个新的高度,也为解决其他计算机视觉和图形学中的病态问题(ill-posed problems)提供了宝贵的思路,即借助大模型的“智慧”,来推理和补全现实世界中缺失的信息。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

