大数跨境
0
0

NeurIPS 2025 | 突破渲染局限,IntrinsiX - 高质量的物理一致性生成模型

NeurIPS 2025 | 突破渲染局限,IntrinsiX - 高质量的物理一致性生成模型 极市平台
2025-11-18
2
↑ 点击蓝字 关注极市平台
作者丨seven
来源丨将门创投
编辑丨极市平台

极市导读

 

IntrinsiX 两阶段训练:先给四张 PBR 图各自 LoRA 学先验,再用交叉注意力对齐语义、Disney BRDF 渲染损失保物理,实现文本直出可重光照材质;OOD 场景 FID 降 18%,游戏/VR 一键换光。>>加入极市CV技术交流群,走在计算机视觉的最前沿

前言

在现代人工智能的发展中,如何让模型在生成质量与物理一致性之间取得平衡,已成为实现真实可控内容生成的关键问题,尤其在三维内容创作、虚拟现实与影视特效等对光照一致性要求极高的应用中尤为重要。尽管现有的文本到图像生成模型(Text-to-Image Models)在视觉表现上已能生成极其逼真的结果,但其生成的图像通常包含烘烤光照(baked-in lighting),导致生成内容无法适配不同光照环境或进行物理编辑。

本文介绍一篇来自慕尼黑工业大学的最新工作,刚刚发表在人工智能顶会NeurIPS 2025上。该工作提出了一种基于图像先验的高质量PBR生成方法IntrinsiX,通过引入跨模态注意力机制与可微分渲染监督,实现了从文本直接生成可重光照的贴图。IntrinsiX 在视觉真实感和细节一致性上显著优于传统反向渲染方法,为通用生成模型向物理世界一致性迈出了重要一步。

  • 论文题目:IntrinsiX:High-Quality PBR Generation using Image Priors
  • 文章链接:https://arxiv.org/abs/2504.01008

01 研究背景

物理基础渲染(Physically-Based Rendering, PBR)贴图是计算机图形学中用于精确描述物体表面光学属性的一组参数映射,共同定义了材质在光照下的真实视觉效果。典型的PBR贴图包括 Albedo(反射率)、Normal(法线)、Roughness(表面粗糙度)和 Metallic(金属度) 四种。这些贴图分别控制了物体的颜色反射、几何微结构、光线散射以及金属反射特性。PBR使得渲染系统能够通过物理一致的方式模拟光与物体表面的交互,从而生成具有真实光照变化和质感细节的图像。

当前主流的文本生成图像模型生成的图像是带有“烘焙光照”的RGB图像,即图像中已经包含了光照、阴影、高光等效果,导致生成内容无法直接用于游戏、虚拟现实(VR)等需要动态调整光照或编辑材质的场景,这类场景通常依赖独立的PBR映射图来实现物理真实的渲染效果。此外,传统的图像分解方法(如 IID [1]、RGBX [2])虽能从RGB图像中分离出PBR组件,但存在两大固有缺陷:

  1. 歧义性 :从单张RGB图像反推PBR组件的数学解不唯一,易导致结果过度平滑或细节丢失
  2. 泛化能力弱 :这类方法多基于合成数据集训练,对真实世界或分布外场景的分解效果差,且无法处理大规模3D场景的PBR生成需求。

02 本文方法

下图为IntrinsiX方法的整体框架图,IntrinsiX采用两阶段训练 + 对齐的整体设计。在阶段一中,分别为反射率、法线以及粗糙度与金属度独立训练 LoRA 模型,以学习各自的分布特征。在阶段二中,通过内在交叉注意力实现不同组件间的语义对齐,并结合渲染损失约束其物理一致性,从而实现从文本输入到四张高质量 PBR 映射图的联合生成。


2.1 阶段 一:PBR 先验训练

该阶段的训练目标是让预训练的文本图像生成模型分别学习反射率   、法线   、粗䊁度与金属度   的生成规律。具体做法是在每个 attention block 中注入 LoRA层,以捕获各 PBR 模态的特征分布。

该阶段采用条件流匹配损失(Conditional Flow Matching Loss) 优化LoRA参数,该损失用于扩散模型的生成过程,公式如下:

2.2 阶段二:PBR 先验对齐

阶段一中训练得到的独立LoRA模型虽然能够分别生成各自的PBR组件,但其结果在语义上并不一致。为此,阶段二通过内在交叉注意力与RGB渲染损失实现了语义对齐与物理一致性约束。

  1. 内在交叉注意力:在DiT的每个 block 中,作者用跨模态注意力替代标准的 self-attention,将不同模态的 query、key、value 拼接在序列维度上,使各PBR模态在一次去噪前向传播中能够相互传递信息,从而实现语义对齐。其计算形式如下:

这种机制确保模型在生成每个模态时能够参考其他模态的特征信息,避免局部结构的不一致问题。

  1. RGB 渲染损失:尽管内在交叉注意力保证了语义对齐,但仍无法确保各PBR模态在物理层面合理。因此,作者引入基于简化 Disney BRDF 模型的渲染损失,用生成的PBR组件重建对应的RGB图像,计算公式为:

其中,  表示BRDF函数,  为生成的PBR组件集合,  与   分别表示入射光强与方向。最终的渲染损失结合了像素级的L2误差与感知损失,以同时保证图像的数值准确性与视觉真实感:

通过这一机制,模型在优化过程中被迫生成符合物理规律的PBR映射图,从而在保持语义一致的同时提升整体物理可信度。

03 实验结果

本文在图像编辑生成和PBR场景纹理生成两大关键下游应用中验证了IntrinsiX方法的实用性。本文的对比实验选取了三种典型的反向渲染方法IID、RGBX和ColorfulShading,这些方法通过从RGB图像分解出PBR贴图来重建,而IntrinsiX则采用直接生成式建模策略。评估指标包括定量与感知两类,FID(A-ID-FID 与 A-OOD-FID)用于衡量生成图像的分布差异,R-PQ、S-PQ与PC分别评估渲染质量、语义一致性及物理合理性,同时通过用户偏好指标A-PP衡量主观感知效果。

3.1 定量分析

上表的实验结果充分展示了IntrinsiX在生成质量与实用性方面的综合优势。尽管在分布内场景(A-ID-FID)的反照率生成质量上略低于最优基线,IntrinsiX在更具实际意义的分布外泛化能力(A-OOD-FID)上表现最佳,显示出优异的场景适应能力

此外,其生成的反照率(A-PP)与渲染效果(R-PQ、S-PQ)均获得显著偏好,反映出所生成PBR贴图在物理正确性与视觉感知质量上的突出表现。消融实验同时验证,内在交叉注意力机制与渲染损失作为核心组件,对生成语义清晰、细节丰富的结果具有关键作用。

3.2 定性评估

下图展示了IntrinsiX与基于RGB图像输入的图像分解方法(如IID、RGBX)的生成效果对比。

实验结果显示,传统分解方法受限于合成室内数据集的训练分布,在面对“卡通民谣歌手”等分布外场景时,其分解结果易出现细节模糊(粗糙度图纹理缺失)与语义不一致(反照率图中残留非本征阴影)等问题。相比之下,IntrinsiX生成了语义更准确、细节更丰富的PBR贴图,其反照率图纯净无阴影残留,粗糙度与金属度图也表现出更高的清晰度与材质区分度。

3.3 图像编辑生成效果

IntrinsiX生成的PBR贴图可直接接入标准物理渲染,实现灵活的编辑与渲染。如上图所示,IntrinsiX在三种典型编辑任务中均表现出优异性能。

1. 重新打光:在固定光源高度下旋转其方向,场景的光影与阴影能够随之自然、连贯地变化。

2.  反照率编辑:例如降低月亮颜色的饱和度,编辑后的表面属性能与动态光照无缝融合。

3. 镜面反射编辑:通过降低粗糙度并提高金属度值,可使宇航员头盔等区域产生更强烈、准确的镜面高光。

所有这些编辑效果均能随光源角度变化而保持一致性与物理合理性,充分证明了IntrinsiX在光影控制与材质属性编辑方面出色的灵活性与实用性。

3.4 场景纹理生成效果

上图展示了IntrinsiX为三维场景生成PBR纹理的流程与效果。IntrinsiX通过分数蒸馏采样技术,以场景几何信息(如法线贴图)为条件进行迭代优化,可以自动生成风格统一的全套PBR贴图。生成的漫反射、粗糙度、金属度及法线贴图细节丰富,使得最终渲染的室内场景在多种光照条件下均表现出高度的真实感与视觉一致性。这充分证明了IntrinsiX能够将文本描述有效地转化为可直接用于游戏或VR应用的全场景PBR,显著降低了高质量场景纹理制作的技术门槛。

04 总结

本文提出的IntrinsiX方法,首次实现了从文本描述直接生成高质量PBR材质贴图的突破。其核心创新在于一个两阶段训练策略。IntrinsiX首先利用LoRA技术为各类材质属性分别训练独立的生成先验,随后引入内在交叉注意力机制与基于物理渲染的损失函数,实现多模态材质的语义对齐与协同生成。生成质量媲美甚至超越现有文本生图模型,且在图像编辑、场景纹理生成等下游任务均有不错的表现,未来可以为游戏、VR可编辑内容等领域的创作开辟高效的新路径。

参考

[1] Kocsis P, Sitzmann V, Nießner M. Intrinsic image diffusion for indoor single-view material estimation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 5198-5208.

[2] Zheng Zeng, Valentin Deschaintre, Iliyan Georgiev, Yannick Hold-Geoffroy, Yiwei Hu, Fujun Luan, Ling-Qi Yan, and Milos Hasan. Rgb↔x: Image decomposition and synthesis using material- and lighting-aware diffusion models. In ACM SIGGRAPH 2024 Conference Papers, SIGGRAPH 2024, Denver, CO, USA, 27 July 2024- 1 August 2024, page 75. ACM, 2024.

llustration From IconScout By IconScout Store


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k