ICCV 2025 | 王利民团队提出FluxViT：支持任意输入压缩率的视频表征模型

极市平台

2025-11-07

↑ 点击蓝字关注极市平台

作者丨王利民

来源丨CVer

编辑丨极市平台

极市导读

上海交大、上海人工智能实验室与南京大学团队在 NeurIPS’25 提出 FluxViT，通过自适应 Token 优化与 Flux 训练策略，实现“一次训练，多端部署”。在大幅降低算力消耗的同时，FluxViT 依然保持领先性能。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

论文标题：_Make Your Training Flexible: Towards Deployment-Efficient Video Models_
作者单位：上海交通大学、上海人工智能实验室、南京大学
论文： https://arxiv.org/abs/2503.14237

代码： https://github.com/OpenGVLab/FluxViT

背景：视频模型的“训练–部署鸿沟”

随着视频基础模型性能的不断提升，其规模和计算需求也急剧增长。而视频数据本身具有强烈的时空冗余——帧数多、分辨率高、token密集——这使得高性能模型在训练时表现优异，却往往只能在高算力设备上才能运行。而在资源受限的环境中，模型性能通常会显著下降，这种现象正体现了视频模型的“训练–部署鸿沟”。

现有方法大多在训练阶段采用固定的输入采样方式（例如 8×224²），在部署阶段再通过 Token Reduction 或 Token Merging 等手段压缩计算量。然而，这类方法通常是在固定分辨率假设下的后处理策略，往往基于一些手工设计的先验策略，无法保证在算力受限时仍能充分保留有效信息。同时，由于模型在训练时从未见过“被合并”或“删减”的 token 分布，性能往往也会出现不可预测的损失，因此高效部署不只是测试层面的考虑。

针对这一问题，我们首先在测试上提出了 Token Optimization（TO） 这一新的测试范式：在模型部署阶段，不再单纯削减输入，而是根据资源限制优先优化输入的有效信息量。具体来说，Token Optimization 根据不同下游任务的特性（例如长视频任务更关注时间维度，可以牺牲一定的分辨率、短视频检索更关注空间细节），自适应地选择最合适的时空分辨率与采样方式，再进行Token Selection，从而在固定计算预算下得到信息量最大的 token 组合。

为了支持这种灵活的输入分布，我们需要让模型在训练阶段就能适应任意分辨率和任意稀疏采样的 token set，即通过Training Flexibility实现Test Flexibility，从而实现真正意义上的“一次训练，处处部署”。FluxViT 因此能够在不同算力约束和应用场景下动态优化输入，实现性能与效率的平衡。

图1: (左) 一般的Token Reduction (右) 我们提出的的Token Optimization.

我们的核心思想：Token Optimization + Flux 训练框架

🎯 1. Token Optimization (TO)

我们提出 Token Optimization (TO) 概念：在任何算力预算下，挑选最具信息量的输入tokens，从而实现精度与计算的最优平衡。

🔁 2. Flux：灵活采样增强 (Flexible Sampling Augmentation)

图2: Flux Augmentation in Unmasked Teacher Pretraining Framework.

在训练阶段，我们提出Flux Augmentation:

随机化输入视频的时空分辨率，使模型不再依赖固定的输入规格。这种方式能有效打破训练和推理之间的输入分布差异，为后续的 Token Optimization 提供适配能力。
同时，在训练的时候我们也使用基于Token Selection的Mask方法来控制随机时空分辨率采样时计算开销始终是固定的。

Flux 是一种无成本的训练增强工具，在如图2结合Unmasked Teacher Pretrain的框架中，包含以下的核心组件：

Flexi-Sampling：随机化时空分辨率，打破固定输入限制；
Group-Dynamic Token Selector：把视频先切分成sparse group, 优先选取每个group中变化最大的token，group方法避免了视频中一些sharp transition带来的输入token分布不均；
Double Mask Module

我们对教师模型使用随机分辨率以增强其特征多样性，但同时通过教师掩码来控制其计算量不超标。
在此Mask的基础之上，对学生模型使用原有的掩码策略。
这使得训练在成本不变的前提下，让学生模型学会了应对各种输入分布。

⚙️ 我们的模型：FluxViT

在此基础上，为了更好的应对各种稀疏性采样的Token Set，我们构建了 FluxViT：

GLPE（Global–Local Positional Embedding）：处理任意token数量与位置的相对关系；
DPN（Dual Patch Normalization）：稳定不同采样分布下的训练。我们发现不同稀疏程度的Token会导致Patch Embedding的Gradient Norm不稳定，在额外插入一个Normalization Layer后得到缓解。

FluxViT 可以适应任意视频长度、分辨率与token数，实现真正的「一模多用」。

Ablation Study

我们搭建了Bottom-Up的实验来验证各个模块的有效性

实验结果：少算力，也能打赢SOTA

数据集	模型	Gflops	Top-1 精度	提升
Kinetics-400	InternVideo2-S	154×12	85.8%	-
Kinetics-400	FluxViT-S	154×12	88.0%	+2.2%
Kinetics-400	FluxViT-S	32×12 (20%)	86.6%	+0.8%
Kinetics-400	FluxViT-S	13×12 (9%)	84.7%	-0.9%
SSv2	InternVideo2-B	440×6	73.7%	-
SSv2	FluxViT-B	440×6	75.5%	+1.8%
SSv2	FluxViT-B	108×6 (25%)	75.1%	+1.4%
SSv2	FluxViT-B	49×6 (11%)	73.9%	+0.2%
MSR-VTT	Internvideo2-B	440	40.3%	-
MSR-VTT	FluxViT-B	440	49.9%	+9.6%
MSR-VTT	FluxViT-B	108 (25%)	49.1%	+8.8%
MSR-VTT	FluxViT-B	49 (11%)	47.2%	+6.9%