大数跨境
0
0

WACV 2026 | FB-4D:利用记忆提升4D数字资产生成

WACV 2026 | FB-4D:利用记忆提升4D数字资产生成 极市平台
2025-11-25
2
↑ 点击蓝字 关注极市平台
作者丨将门创投
来源丨将门创投
编辑丨极市平台

极市导读

 

FB-4D 在零训练成本下构建可动态更新的“特征记忆库”,把历史帧/视角的扩散中间特征持续注入自回归生成,显著抑制时空漂移,并借助多轮迭代不断吸纳新视角信息,实现当前最佳的无训练 4D 内容质量。>>加入极市CV技术交流群,走在计算机视觉的最前沿

本文介绍了来自 WACV 2026 的最新科研成果——FB-4D,一种在无需额外训练的前提下,利用特征记忆机制显著提升 4D 动态生成质量的新方法。面对扩散模型与 4D 生成中长期存在的时空一致性难题,FB-4D 通过构建可动态更新的特征记忆库,将前序帧信息有效融入后续生成,显著提升跨时间与多视角的稳定性。同时,该方法首次证明:结合特征库机制后,通过多轮自回归生成额外多视角参考序列,可以持续提升最终 4D 内容的质量,在零训练成本下即可达到当前同类方法的最高水平。

  • 论文题目: FB-4D: Spatial-Temporal Coherent Dynamic 3D Content Generation with Feature Banks
  • 论文链接:https://arxiv.org/abs/2503.20784
  • 项目主页:https://fb-4d.c7w.tech/

01 动机

当前 4D 生成技术通常依赖两阶段流程:先生成多视角序列,再基于这些视角训练 4D 表达。然而,无论是需要大规模显存支持的训练型方法,还是依赖预训练模型的无需训练方法,均存在一个共同瓶颈——时空一致性不足。训练型方法受显存限制难以处理长序列与多视角,而无需训练的方法由于将运动建模与多视角生成割裂开,极易产生空间错位与随时间累积的噪声。

近年的研究如 diffusionfeatures表明,扩散模型在去噪过程中提取的中间特征蕴含跨视角、跨帧的隐式对应关系。然而现有方法并未利用这些天然的对应性,这导致 4D 场景中不同帧、不同视角之间往往缺乏一致的结构表现。

此外,虽然现有的研究工作如 SAP3D已经表明在静态 3D 中通过引入额外 2D 参考图像可以显著提升质量,但在 4D 场景中,传统自回归生成更多的多视角序列用作参考,会累积噪声,难以稳定提升下游表现。基于上述观察,我们将“利用扩散模型中间特征指导当前生成”的思想系统地扩展到动态 4D 场景,并设计了一个可动态更新的特征记忆库,用于在生成过程中持续存储和调用历史帧与历史视角的中间特征。该机制在无需额外训练的前提下,实现了跨时间与跨视角的一致性:一方面,历史特征为当前生成提供稳定的结构参照,显著减少时间方向上的漂移;另一方面,不同视角的共享特征增强了空间对齐效果。同时,我们发现这一特征记忆库还能够有效抑制自回归生成中固有的误差积累,使多轮迭代生成的额外参考序列不再降低质量,反而持续强化特征记忆,从而不断提升最终的 4D 生成效果。

02 方法

FB-4D 方法流程

给定单视角输入视频,FB-4D 将多视角扩散生成模型与特征记忆库结合,以增强空间与时间维度的一致性。每一轮迭代中,生成的多视角序列会作为下一轮的输入,从而在不同视角与时间之间形成持续的特征交互。方法从初始视角出发,并在随后的迭代中逐步选择新的输入视角,不断提升几何与运动质量。经过多轮迭代后,最终的多视角序列用于训练可形变的 3D 高斯场,从而得到一致性更高的 4D 表达。

2.1 背景知识

我们的方法主要基于 STAG4D 进行构建,该方法是一个结合预训练多视角扩散模型与可变形高斯的高保真 4D 重建框架,主要由两阶段 组成:

2.1.1 阶段一:多视角序列生成

首先输入单视角视频   ,之后使用多视角扩散模型(如 Zero123++)生成输出视角   的多视角序列:

但是,原生的多视角扩散模型如 Zero123++ 在自注意力中融合参考图像特征,但它逐帧独立处理,导致生成序列在时间维度上存在不一致性。STAG4D 尝试通过引入第一帧的特征作为额外条件注入,来改善时间一致性,但依然不足。

2.1.2 阶段二:4D 高斯优化

使用多视角序列与原始视角,通过多视角 SDS 损失 优化 4D 高斯,其中   为权重系数,并依据渲染视角与生成视角的接近程度选择对应视角的 SDS:

2.1.3 目前方法的局限

STAG4D 在第一阶段中,仅将第一帧 的特征作为生成后续帧的条件,无法捕捉跨时间的完整一致性。因此,我们提出:在生成第 i 帧时,应有效利用 **所有历史帧 (t < i)**的特征信息作为额外条件注入,以实现更强的时序一致性,这促使我们设计了能 动态融合所有过往帧特征的注意力结构。

2.2 特征库机制与更新

2.2.1 自注意力层中的特征库机制

为保留历史帧信息,我们在多视角生成模型的自注意力层中引入 特征库模块。处理第   帧输入   时,对应特征库记为(其中   分别代表自注意层中的 keys 以及 values,而 O 则代表该层输出):

在第 i 帧的去噪过程中,使用对应中间层特征   来更新全局特征库。不同扩散推理的时间戳,使用独立特征库,以提升一致性。该机制贯穿 所有自注意力层,保证生成过程中可以访问跨帧的时空信息。后续将详细介绍:如何高效更新特征库(紧凑表示与融合)以及特征库的利用方法。在本文的设计,特征库能够高效积累并利用历史信息,同时保持较低的计算与存储开销。

2.2.2 特征库更新:紧凑表示(Compact Representation)

在传统做法中,当前帧的所有中间特征通常会被直接追加到特征库中,但这种无选择的堆积不仅造成严重的信息冗余,也显著增加显存占用。为在充分保留历史信息价值的同时有效控制存储开销,我们进一步设计了一个更高效的特征管理策略,使特征库能够以紧凑、高效的方式持续吸收历史特征,从而在保持代表性的前提下最大化利用跨时间的信息。我们提出了一种 动态贪心融合策略,构建紧凑而信息丰富的特征库。具体过程如下(可见上图):首先,将当前帧特征与特征库拼接:

随后随机将其划分为两部分 src与 dst。对每个 src token,找到最相似的 dst token:

最后,将匹配到同一 dst 的 token 做平均融合,得到更新后的特征库:

该方法在有效控制特征库规模的同时,能够保持对前 (i-1) 帧的紧凑表示和信息完整性。

2.2.3 高效利用特征库

(I)读取自注意力层 Key 与 Value(K/V)

在自注意力机制中,当前帧的特征通过查询(Query)与当前帧、参考帧及特征库的键(Key)进行匹配,从而获取对应的值(Value)信息,实现信息增强。公式表示为:

这里,   表示当前帧的查询,  分别表示当前帧、参考帧以及特征库的键,   为对应的值,(d)是缩放因子。通过这个操作,当前帧的特征能够充分利用历史帧的信息,从而增强表示能力,达到更高的时空一致性。随后通过一个简单的多层感知机(MLP)得到最终输出:

(II)读取自注意力层 Output 并融合(Similarity Fusion)

为了进一步利用扩散过程中的中间特征的信息,我们对当前帧中间自注意力层输出的每个 token   ,在特征库对应输出中找到与之最相似的 token   :

然后进行加权融合得到增强后的输出:

这里,(   )被用来控制融合比例,平衡当前帧与特征库信息的贡献。为了避免过度融合,保持当前帧的运动细节,当相似度低于固定阈值   时,不执行融合:

通过这种方式,特征库信息能够在保持当前帧动态细节的前提下,有选择地增强输出质量,使帧间一致性和细节表现得到提升。

整体流程可理解为两步:第一步,通过自注意力机制利用 K/V 计算增强当前帧表示;第二步,通过相似度匹配从特征库中提取高质量信息并融合,进一步提升输出效果。

2.3 特征库机制用于自回归生成

在多视角自回归生成过程中,生成器依赖前一帧或前一次迭代的输出作为下一步输入。然而,随着迭代次数增加,累积误差和视角差异容易导致帧间不一致、细节丢失以及生成质量下降。为了解决这一问题,我们将 特征库机制(Feature Bank) 引入,用于在自回归过程中保持多视图信息的一致性并增强生成质量。

2.3.1 特征库的构建与管理

每一次迭代生成的图像特征(Key/Value 对)都会被存入特征库   ,其中 j 表示迭代编号,特征库分别记录了不同迭代和视角的高质量特征,可在后续迭代中被访问和融合,利用这些特征库,生成模型能够聚焦多样化特征,同时避免自回归过程中信息混乱。

2.3.2 特征库在自回归生成中的利用

在生成当前帧或当前迭代的输出时,我们将特征库中的历史迭代特征与当前迭代特征加权融合,即   ,其中 J 表示当前迭代编号,权重   根据历史输入视角与当前输入视角的差异计算,视角差异越大,历史特征的权重越低,从而保证当前迭代的生成过程既能够有效利用历史迭代信息,又能够避免过度干扰当前迭代图片生成。

2.3.3 渐进式自回归生成

在本文的自回归多视角生成过程中,作者通过逐步缩小当前输入视角与后方视角(   度)之间的差异   ,实现视角的平滑过渡,从而提升生成图像在不同角度间的一致性。

具体来说,前   次迭代的输入视角形成集合   ,输出视角形成集合   ,从   中筛选比当前最靠后的视角,即更接近   的候选视角集合   。然后,对   中每个候选视角   与历史输入视角计算加权相似度:

选择得分最高的视角作为当前迭代的输入。权重   根据视角差异分配,差异越大说明视角关联性越弱,因此其对当前候选视角的相似度贡献也应越低。

综合上述步骤,我们得以在每一轮生成中从大量潜在视角中自动筛选出一个既与历史输入保持连续、又与目标方向愠愠接近的最优视角。该自适应视角选择策略不仅避免了视角顺序的盲目扩展,也最大化减少冗余和噪声異积,从而在整个自回归生成过程中稳步提升多视角序列的时空一致性与结构稳定性。

03 实验结果

作者在 Consistent4D 数据集上进行了实验,该数据集包含七个动态物体的多视角视频。评估指标包括 CLIP、LPIPS 和 FVD :其中 CLIP 和 LPIPS 用于衡量图像级语义与感知相似性,而 FVD 同时评估帧质量与时间一致性,非常适合视频生成任务。此外,我们还在野外场景的 STAG4D 数据集上进行了定性评估,共生成 28 个视频的 4D 内容。此外,作者还对框架的各个组件进行了全面的消融研究,以验证其有效性。

这里展示主要结果,更多结果请参考论文。

3.1 与当前基线方法的定量对比

与现有基线方法的比较。我们的方法在性能上与需要大量训练的方法 SV4D 相当,显著高于同类型无需训练的其他方法。T-F 表示在 Stage1 中无需训练(training-free)

3.2 与当前基线方法的定量对比

我们在多个数据集上对比了不同基线方法的 4D 生成质量。结果显示,在多视角渲染的结构一致性、细节保真度以及时空稳定性方面,我方法均显著优于现有基线。

4D 生成质量比较(背面视角)。 在其余两种基线范式中 (a) SV4D 和 (b) STAG4D 中,背面视角均存在时间维度不一致的现象。

04 总结

此研究提出了 FB-4D 框架,用于从单目视频生成 4D 内容。通过引入特征库,FB-4D 能显著提升空间和时间一致性,并在渐进式迭代中缓解漂移问题,展示了在实际应用中的潜力。其局限在于生成仍为逐帧渐进式,长序列生成效率仍有提升空间。未来可能的改进方向包括:(i) 在保持时空一致性的前提下实现并行生成;(ii) 采用模型蒸馏或轻量化扩散结构。

参考文献

[1] Tang, L., Jia, M., Wang, Q., Phoo, C. P., & Hariharan, B. (2023). Emergent correspondence from image diffusion. Advances in Neural Information Processing Systems, 36, 1363-1389.

[2] Han, X., Gao, Z., Kanazawa, A., Goel, S., & Gandelsman, Y. (2024). The more you see in 2d the more you perceive in 3d. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 20912-20922).

[3] Zeng, Y., Jiang, Y., Zhu, S., Lu, Y., Lin, Y., Zhu, H., ... & Yao, Y. (2024, September). Stag4d: Spatial-temporal anchored generative 4d gaussians. In European Conference on Computer Vision (pp. 163-179). Cham: Springer Nature Switzerland.

[4] Jiang, Y., Zhang, L., Gao, J., Hu, W., & Yao, Y. (2023). Consistent4d: Consistent 360 {\deg} dynamic object generation from monocular video. arXiv preprint arXiv:2311.02848.

llustration From IconScout By IconScout Store


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k