极市导读
VideoREPA 把 SSL 视频模型当“物理老师”,用令牌关系蒸馏让 T2V 扩散模型对齐时空关联图,无需改结构即可把 VideoPhy 物理常识分提升 24%,铅笔刚体、吊车连接等细节首次符合真实动力学。>>加入极市CV技术交流群,走在计算机视觉的最前沿
-
论文标题: VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models -
作者: Xiangdong Zhang, Jiaqi Liao, Shaofeng Zhang, Fanqing Meng, Xiangpeng Wan, Junchi Yan, Yu Cheng -
机构: 上海交通大学,NetMind.AI,香港中文大学 -
论文地址: https://arxiv.org/abs/2505.23656 -
项目主页: https://videorepa.github.io/ -
代码仓库: https://github.com/aHapBean/VideoREPA -
录用会议: NeurIPS 2025
最近的AI视频生成技术,想必大家都有所耳闻,从Sora到Kling,效果越来越惊艳。但不知道你有没有发现,这些模型生成的视频虽然画面精美,却常常在一些细节上“翻车”,暴露出它们不懂物理常识的“软肋”——比如物体凭空悬浮、运动轨迹诡异、流体效果不自然等等。这些问题极大地影响了视频的真实感和可信度。
为了解决这个难题,来自上海交通大学、NetMind.AI和香港中文大学的研究者们提出了一个名为 VideoREPA 的新框架。简单来说,它的核心思想就是给文生视频(T2V)模型找一位“物理老师”,教会它理解并遵守现实世界的物理规律。
01 “理解”与“生成”的鸿沟
研究者发现一个有趣的现象:在物理理解能力上,专门用于“理解”视频的自监督学习(Self-supervised Learning, SSL)模型(比如VideoMAEv2),要远远强于那些负责“生成”视频的T2V模型(比如CogVideoX)。尽管后者的模型参数量可能大得多,但在物理世界的常识性问题上却像个“门外汉”。
从上图右侧的评测结果可以看出,在物理理解任务上,作为“老师”的VideoMAEv2模型表现出色,而作为“学生”的T2V模型CogVideoX则有很大差距。VideoREPA的目标,就是填补两者之间这条巨大的“物理知识鸿沟”。
02 VideoREPA:基于关系对齐的知识蒸馏
那么,具体要怎么“教”呢?VideoREPA采用了一种巧妙的知识蒸馏方法,其核心是一种名为“令牌关系蒸馏”(Token Relation Distillation, TRD)的损失函数。
这个过程可以这样理解:
-
“老师”的示范:首先,将一个真实的视频输入给“物理老师”(一个预训练好的SSL视频模型,如VideoMAEv2)。老师会输出一组特征,这些特征里隐含了对视频中物体运动、相互作用等物理动态的深刻理解。 -
构建关系图谱:对老师输出的特征令牌(Token),计算它们两两之间的相似度,从而构建一个“关系矩阵”。这个矩阵就像一张图谱,描绘了视频中任意两个点在空间上(同一帧内)和时间上(不同帧之间)的关联强度。这正是物理规律的体现,比如一个滚动的球,它在下一帧的位置应该与上一帧相关。 -
“学生”的模仿:然后,让“学生”(T2V扩散模型,如CogVideoX)在生成视频的过程中,也产生自己中间层的特征令牌,并用同样的方法计算出自己的“关系矩阵”。 -
对齐与学习:最后,通过TRD损失函数,让学生的“关系矩阵”去逼近老师的“关系矩阵”。
通过这种“关系对齐”而非直接的特征对齐,VideoREPA为T2V模型提供了一种更“温和”的指导,避免了在微调过程中破坏模型原有的强大生成能力,同时又精准地将物理知识注入其中。
整个框架的最终训练目标是原始的扩散损失与新提出的TRD损失的加权和:
这里的 是一个超参数,用于平衡生成质量和物理真实性。
03 实验效果:物理常识显著提升
为了验证VideoREPA的效果,研究者们在一个专门为评测物理常识而设计的基准 VideoPhy 上进行了大量实验。
从上表的结果可以看出,VideoREPA-5B相比其基线模型CogVideoX-5B,在保持甚至提升语义一致性(SA)的同时,物理常识(PC)得分从32.3大幅提升到了40.1,实现了 24.1% 的相对改进,全面超越了当时的其他主流模型。
在另一个更侧重于复杂人与物交互的基准 VideoPhy2 上,VideoREPA同样表现出色,物理常识得分相比基线提升了 4.57分。
除了数字上的提升,从定性对比中我们能更直观地感受到变化。
在上图的例子中,对于“铅笔在桌上滚动”的场景,其他模型生成的铅笔像是柔软的面条,而VideoREPA则正确地展现了刚体运动的特性。在“起重机吊起砖块”的场景中,其他模型出现了砖块“凭空”浮起的可笑错误,而VideoREPA则稳定地保持了吊臂和砖块之间的物理连接。
3.1 消融研究的洞见
研究者还通过消融实验证明了TRD损失中空间和时间两个部分都至关重要。只使用其中任意一个,效果都会打折扣。
此外,实验还验证了选择一个强大的视频基础模型(如VideoMAEv2)作为“老师”的重要性。如果换成图像模型或者较弱的视频模型,效果则不尽人意。
04 总结
总的来说,VideoREPA用一种轻量且高效的方式,成功地将物理世界的规则“教”给了文生视频模型,让AIGC向着生成更真实、更可信的内容迈出了重要一步。
大家对这个方法怎么看?欢迎在评论区留下你的看法!
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

