大数跨境
0
0

NeurIPS 2025 | 世界模型之路,知识蒸馏新方法VideoREPA:通过关系对齐,让T2V模型“懂”物理规律

NeurIPS 2025 | 世界模型之路,知识蒸馏新方法VideoREPA:通过关系对齐,让T2V模型“懂”物理规律 极市平台
2025-11-17
0
↑ 点击蓝字 关注极市平台
作者丨我爱计算机视觉
来源丨我爱计算机视觉
编辑丨极市平台

极市导读

 

VideoREPA 把 SSL 视频模型当“物理老师”,用令牌关系蒸馏让 T2V 扩散模型对齐时空关联图,无需改结构即可把 VideoPhy 物理常识分提升 24%,铅笔刚体、吊车连接等细节首次符合真实动力学。>>加入极市CV技术交流群,走在计算机视觉的最前沿

  • 论文标题: VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models
  • 作者: Xiangdong Zhang, Jiaqi Liao, Shaofeng Zhang, Fanqing Meng, Xiangpeng Wan, Junchi Yan, Yu Cheng
  • 机构: 上海交通大学,NetMind.AI,香港中文大学
  • 论文地址https://arxiv.org/abs/2505.23656
  • 项目主页https://videorepa.github.io/
  • 代码仓库https://github.com/aHapBean/VideoREPA
  • 录用会议: NeurIPS 2025

最近的AI视频生成技术,想必大家都有所耳闻,从Sora到Kling,效果越来越惊艳。但不知道你有没有发现,这些模型生成的视频虽然画面精美,却常常在一些细节上“翻车”,暴露出它们不懂物理常识的“软肋”——比如物体凭空悬浮、运动轨迹诡异、流体效果不自然等等。这些问题极大地影响了视频的真实感和可信度。

为了解决这个难题,来自上海交通大学、NetMind.AI和香港中文大学的研究者们提出了一个名为 VideoREPA 的新框架。简单来说,它的核心思想就是给文生视频(T2V)模型找一位“物理老师”,教会它理解并遵守现实世界的物理规律。

01 “理解”与“生成”的鸿沟

研究者发现一个有趣的现象:在物理理解能力上,专门用于“理解”视频的自监督学习(Self-supervised Learning, SSL)模型(比如VideoMAEv2),要远远强于那些负责“生成”视频的T2V模型(比如CogVideoX)。尽管后者的模型参数量可能大得多,但在物理世界的常识性问题上却像个“门外汉”。

从上图右侧的评测结果可以看出,在物理理解任务上,作为“老师”的VideoMAEv2模型表现出色,而作为“学生”的T2V模型CogVideoX则有很大差距。VideoREPA的目标,就是填补两者之间这条巨大的“物理知识鸿沟”。

02 VideoREPA:基于关系对齐的知识蒸馏

那么,具体要怎么“教”呢?VideoREPA采用了一种巧妙的知识蒸馏方法,其核心是一种名为“令牌关系蒸馏”(Token Relation Distillation, TRD)的损失函数。

这个过程可以这样理解:

  1. “老师”的示范:首先,将一个真实的视频输入给“物理老师”(一个预训练好的SSL视频模型,如VideoMAEv2)。老师会输出一组特征,这些特征里隐含了对视频中物体运动、相互作用等物理动态的深刻理解。
  2. 构建关系图谱:对老师输出的特征令牌(Token),计算它们两两之间的相似度,从而构建一个“关系矩阵”。这个矩阵就像一张图谱,描绘了视频中任意两个点在空间上(同一帧内)时间上(不同帧之间)的关联强度。这正是物理规律的体现,比如一个滚动的球,它在下一帧的位置应该与上一帧相关。
  3. “学生”的模仿:然后,让“学生”(T2V扩散模型,如CogVideoX)在生成视频的过程中,也产生自己中间层的特征令牌,并用同样的方法计算出自己的“关系矩阵”。
  4. 对齐与学习:最后,通过TRD损失函数,让学生的“关系矩阵”去逼近老师的“关系矩阵”。

通过这种“关系对齐”而非直接的特征对齐,VideoREPA为T2V模型提供了一种更“温和”的指导,避免了在微调过程中破坏模型原有的强大生成能力,同时又精准地将物理知识注入其中。

整个框架的最终训练目标是原始的扩散损失与新提出的TRD损失的加权和:

这里的   是一个超参数,用于平衡生成质量和物理真实性。

03 实验效果:物理常识显著提升

为了验证VideoREPA的效果,研究者们在一个专门为评测物理常识而设计的基准 VideoPhy 上进行了大量实验。

从上表的结果可以看出,VideoREPA-5B相比其基线模型CogVideoX-5B,在保持甚至提升语义一致性(SA)的同时,物理常识(PC)得分从32.3大幅提升到了40.1,实现了 24.1% 的相对改进,全面超越了当时的其他主流模型。

在另一个更侧重于复杂人与物交互的基准 VideoPhy2 上,VideoREPA同样表现出色,物理常识得分相比基线提升了 4.57分

除了数字上的提升,从定性对比中我们能更直观地感受到变化。

在上图的例子中,对于“铅笔在桌上滚动”的场景,其他模型生成的铅笔像是柔软的面条,而VideoREPA则正确地展现了刚体运动的特性。在“起重机吊起砖块”的场景中,其他模型出现了砖块“凭空”浮起的可笑错误,而VideoREPA则稳定地保持了吊臂和砖块之间的物理连接。

3.1 消融研究的洞见

研究者还通过消融实验证明了TRD损失中空间和时间两个部分都至关重要。只使用其中任意一个,效果都会打折扣。

此外,实验还验证了选择一个强大的视频基础模型(如VideoMAEv2)作为“老师”的重要性。如果换成图像模型或者较弱的视频模型,效果则不尽人意。

04 总结

总的来说,VideoREPA用一种轻量且高效的方式,成功地将物理世界的规则“教”给了文生视频模型,让AIGC向着生成更真实、更可信的内容迈出了重要一步。

大家对这个方法怎么看?欢迎在评论区留下你的看法!


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读5.7k
粉丝0
内容8.2k