NeurIPS 2025 | 世界模型之路，知识蒸馏新方法VideoREPA：通过关系对齐，让T2V模型“懂”物理规律

极市平台

2025-11-17

↑ 点击蓝字关注极市平台

作者丨我爱计算机视觉

来源丨我爱计算机视觉

编辑丨极市平台

极市导读

VideoREPA 把 SSL 视频模型当“物理老师”，用令牌关系蒸馏让 T2V 扩散模型对齐时空关联图，无需改结构即可把 VideoPhy 物理常识分提升 24%，铅笔刚体、吊车连接等细节首次符合真实动力学。>>加入极市CV技术交流群，走在计算机视觉的最前沿

论文标题: VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models
作者: Xiangdong Zhang, Jiaqi Liao, Shaofeng Zhang, Fanqing Meng, Xiangpeng Wan, Junchi Yan, Yu Cheng
机构: 上海交通大学，NetMind.AI，香港中文大学
论文地址: https://arxiv.org/abs/2505.23656
项目主页: https://videorepa.github.io/
代码仓库: https://github.com/aHapBean/VideoREPA
录用会议: NeurIPS 2025

最近的AI视频生成技术，想必大家都有所耳闻，从Sora到Kling，效果越来越惊艳。但不知道你有没有发现，这些模型生成的视频虽然画面精美，却常常在一些细节上“翻车”，暴露出它们不懂物理常识的“软肋”——比如物体凭空悬浮、运动轨迹诡异、流体效果不自然等等。这些问题极大地影响了视频的真实感和可信度。

为了解决这个难题，来自上海交通大学、NetMind.AI和香港中文大学的研究者们提出了一个名为 VideoREPA 的新框架。简单来说，它的核心思想就是给文生视频（T2V）模型找一位“物理老师”，教会它理解并遵守现实世界的物理规律。

01 “理解”与“生成”的鸿沟

研究者发现一个有趣的现象：在物理理解能力上，专门用于“理解”视频的自监督学习（Self-supervised Learning, SSL）模型（比如VideoMAEv2），要远远强于那些负责“生成”视频的T2V模型（比如CogVideoX）。尽管后者的模型参数量可能大得多，但在物理世界的常识性问题上却像个“门外汉”。

从上图右侧的评测结果可以看出，在物理理解任务上，作为“老师”的VideoMAEv2模型表现出色，而作为“学生”的T2V模型CogVideoX则有很大差距。VideoREPA的目标，就是填补两者之间这条巨大的“物理知识鸿沟”。

02 VideoREPA：基于关系对齐的知识蒸馏

那么，具体要怎么“教”呢？VideoREPA采用了一种巧妙的知识蒸馏方法，其核心是一种名为“令牌关系蒸馏”（Token Relation Distillation, TRD）的损失函数。

这个过程可以这样理解：

“老师”的示范：首先，将一个真实的视频输入给“物理老师”（一个预训练好的SSL视频模型，如VideoMAEv2）。老师会输出一组特征，这些特征里隐含了对视频中物体运动、相互作用等物理动态的深刻理解。
构建关系图谱：对老师输出的特征令牌（Token），计算它们两两之间的相似度，从而构建一个“关系矩阵”。这个矩阵就像一张图谱，描绘了视频中任意两个点在空间上（同一帧内）和时间上（不同帧之间）的关联强度。这正是物理规律的体现，比如一个滚动的球，它在下一帧的位置应该与上一帧相关。
“学生”的模仿：然后，让“学生”（T2V扩散模型，如CogVideoX）在生成视频的过程中，也产生自己中间层的特征令牌，并用同样的方法计算出自己的“关系矩阵”。
对齐与学习：最后，通过TRD损失函数，让学生的“关系矩阵”去逼近老师的“关系矩阵”。