极市导读
上海交大、上海人工智能实验室与南京大学团队在 NeurIPS’25 提出 FluxViT,通过自适应 Token 优化与 Flux 训练策略,实现“一次训练,多端部署”。在大幅降低算力消耗的同时,FluxViT 依然保持领先性能。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
论文标题:_Make Your Training Flexible: Towards Deployment-Efficient Video Models_
作者单位:上海交通大学、上海人工智能实验室、南京大学
论文: https://arxiv.org/abs/2503.14237
代码: https://github.com/OpenGVLab/FluxViT
背景:视频模型的“训练–部署鸿沟”
随着视频基础模型性能的不断提升,其规模和计算需求也急剧增长。而视频数据本身具有强烈的时空冗余——帧数多、分辨率高、token密集——这使得高性能模型在训练时表现优异,却往往只能在高算力设备上才能运行。而在资源受限的环境中,模型性能通常会显著下降,这种现象正体现了视频模型的“训练–部署鸿沟”。
现有方法大多在训练阶段采用固定的输入采样方式(例如 8×224²),在部署阶段再通过 Token Reduction 或 Token Merging 等手段压缩计算量。然而,这类方法通常是在固定分辨率假设下的后处理策略,往往基于一些手工设计的先验策略,无法保证在算力受限时仍能充分保留有效信息。同时,由于模型在训练时从未见过“被合并”或“删减”的 token 分布,性能往往也会出现不可预测的损失,因此高效部署不只是测试层面的考虑。
针对这一问题,我们首先在测试上提出了 Token Optimization(TO) 这一新的测试范式:在模型部署阶段,不再单纯削减输入,而是根据资源限制优先优化输入的有效信息量。 具体来说,Token Optimization 根据不同下游任务的特性(例如长视频任务更关注时间维度,可以牺牲一定的分辨率、短视频检索更关注空间细节),自适应地选择最合适的时空分辨率与采样方式,再进行Token Selection,从而在固定计算预算下得到信息量最大的 token 组合。
为了支持这种灵活的输入分布,我们需要让模型在训练阶段就能适应任意分辨率和任意稀疏采样的 token set,即通过Training Flexibility实现Test Flexibility,从而实现真正意义上的“一次训练,处处部署”。FluxViT 因此能够在不同算力约束和应用场景下动态优化输入,实现性能与效率的平衡。
我们的核心思想:Token Optimization + Flux 训练框架
🎯 1. Token Optimization (TO)
我们提出 Token Optimization (TO) 概念:在任何算力预算下,挑选最具信息量的输入tokens,从而实现精度与计算的最优平衡。
🔁 2. Flux:灵活采样增强 (Flexible Sampling Augmentation)
在训练阶段,我们提出Flux Augmentation:
-
随机化输入视频的时空分辨率,使模型不再依赖固定的输入规格。这种方式能有效打破训练和推理之间的输入分布差异,为后续的 Token Optimization 提供适配能力。 -
同时,在训练的时候我们也使用基于Token Selection的Mask方法来控制随机时空分辨率采样时计算开销始终是固定的。
Flux 是一种无成本的训练增强工具,在如图2结合Unmasked Teacher Pretrain的框架中,包含以下的核心组件:
-
Flexi-Sampling:随机化时空分辨率,打破固定输入限制;
-
Group-Dynamic Token Selector:把视频先切分成sparse group, 优先选取每个group中变化最大的token,group方法避免了视频中一些sharp transition带来的输入token分布不均;
-
Double Mask Module
-
我们对教师模型使用随机分辨率以增强其特征多样性,但同时通过教师掩码来控制其计算量不超标。 -
在此Mask的基础之上,对学生模型使用原有的掩码策略。 -
这使得训练在成本不变的前提下,让学生模型学会了应对各种输入分布。
⚙️ 我们的模型:FluxViT
在此基础上,为了更好的应对各种稀疏性采样的Token Set,我们构建了 FluxViT:
-
GLPE(Global–Local Positional Embedding):处理任意token数量与位置的相对关系; -
DPN(Dual Patch Normalization):稳定不同采样分布下的训练。我们发现不同稀疏程度的Token会导致Patch Embedding的Gradient Norm不稳定,在额外插入一个Normalization Layer后得到缓解。
FluxViT 可以适应任意视频长度、分辨率与token数,实现真正的「一模多用」。
Ablation Study
我们搭建了Bottom-Up的实验来验证各个模块的有效性
实验结果:少算力,也能打赢SOTA
|
|
|
|
|
|
|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
👉 在保持性能的同时节省 70–95% 的计算量。
👉 在视频动作识别、检索等任务上全面超越现有方法。
延伸:未来Video-MLLM 的潜力基座
FluxViT 还支持多模态对话任务:在与 LLM 结合的“线性探针”设定下超过了InternVideo2和UMT等模型,这意味着 FluxViT 能成为未来 Video MLLM(视频多模态大模型) 的理想基座,尤其是适用于一些需要高压缩率的长视频或者短时高FPS任务。
🚀 Take Aways
-
一次训练,灵活部署:Optimize Your Input First!
灵活的训练采样让单个视频模型能够通过高效的 Token 优化(Token Optimization),在不同的计算预算和下游任务场景间无缝适配。
-
教师–学生预训练的新型增强:
灵活的教师端采样在不增加任何额外成本的情况下,提升了特征多样性和训练效率,从而增强下游任务的泛化能力。
-
开源且高效:
FluxViT 在大范围的视频理解任务上实现了最先进的性能(SOTA),同时显著降低了计算需求。
-
如果你做视频理解或多模态学习,FluxViT 可能会让你重新思考“视频模型的效率上限”。
本文系学术转载,如有侵权,请联系小编删文
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

