大数跨境
0
0

ICCV 2025 | 王利民团队提出FluxViT:支持任意输入压缩率的视频表征模型

ICCV 2025 | 王利民团队提出FluxViT:支持任意输入压缩率的视频表征模型 极市平台
2025-11-07
1
↑ 点击蓝字 关注极市平台
作者丨王利民
来源丨CVer
编辑丨极市平台

极市导读

 

上海交大、上海人工智能实验室与南京大学团队在 NeurIPS’25 提出 FluxViT,通过自适应 Token 优化与 Flux 训练策略,实现“一次训练,多端部署”。在大幅降低算力消耗的同时,FluxViT 依然保持领先性能。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

论文标题:_Make Your Training Flexible: Towards Deployment-Efficient Video Models_
作者单位:上海交通大学、上海人工智能实验室、南京大学
论文: https://arxiv.org/abs/2503.14237 

代码: https://github.com/OpenGVLab/FluxViT

背景:视频模型的“训练–部署鸿沟”

随着视频基础模型性能的不断提升,其规模和计算需求也急剧增长。而视频数据本身具有强烈的时空冗余——帧数多、分辨率高、token密集——这使得高性能模型在训练时表现优异,却往往只能在高算力设备上才能运行。而在资源受限的环境中,模型性能通常会显著下降,这种现象正体现了视频模型的“训练–部署鸿沟”。

现有方法大多在训练阶段采用固定的输入采样方式(例如 8×224²),在部署阶段再通过 Token Reduction 或 Token Merging 等手段压缩计算量。然而,这类方法通常是在固定分辨率假设下的后处理策略,往往基于一些手工设计的先验策略,无法保证在算力受限时仍能充分保留有效信息。同时,由于模型在训练时从未见过“被合并”或“删减”的 token 分布,性能往往也会出现不可预测的损失,因此高效部署不只是测试层面的考虑。

针对这一问题,我们首先在测试上提出了 Token Optimization(TO) 这一新的测试范式:在模型部署阶段,不再单纯削减输入,而是根据资源限制优先优化输入的有效信息量。 具体来说,Token Optimization 根据不同下游任务的特性(例如长视频任务更关注时间维度,可以牺牲一定的分辨率、短视频检索更关注空间细节),自适应地选择最合适的时空分辨率与采样方式,再进行Token Selection,从而在固定计算预算下得到信息量最大的 token 组合。

为了支持这种灵活的输入分布,我们需要让模型在训练阶段就能适应任意分辨率和任意稀疏采样的 token set,即通过Training Flexibility实现Test Flexibility,从而实现真正意义上的“一次训练,处处部署”。FluxViT 因此能够在不同算力约束和应用场景下动态优化输入,实现性能与效率的平衡。

图1: (左) 一般的Token Reduction (右) 我们提出的的Token Optimization.

我们的核心思想:Token Optimization + Flux 训练框架

🎯 1. Token Optimization (TO)

我们提出 Token Optimization (TO) 概念:在任何算力预算下,挑选最具信息量的输入tokens,从而实现精度与计算的最优平衡

🔁 2. Flux:灵活采样增强 (Flexible Sampling Augmentation)

图2: Flux Augmentation in Unmasked Teacher Pretraining Framework.

在训练阶段,我们提出Flux Augmentation:

  1. 随机化输入视频的时空分辨率,使模型不再依赖固定的输入规格。这种方式能有效打破训练和推理之间的输入分布差异,为后续的 Token Optimization 提供适配能力。
  2. 同时,在训练的时候我们也使用基于Token Selection的Mask方法来控制随机时空分辨率采样时计算开销始终是固定的。

Flux 是一种无成本的训练增强工具,在如图2结合Unmasked Teacher Pretrain的框架中,包含以下的核心组件:

  • Flexi-Sampling:随机化时空分辨率,打破固定输入限制;

  • Group-Dynamic Token Selector:把视频先切分成sparse group, 优先选取每个group中变化最大的token,group方法避免了视频中一些sharp transition带来的输入token分布不均;

  • Double Mask Module

    • 我们对教师模型使用随机分辨率以增强其特征多样性,但同时通过教师掩码来控制其计算量不超标。
    • 在此Mask的基础之上,对学生模型使用原有的掩码策略。
    • 这使得训练在成本不变的前提下,让学生模型学会了应对各种输入分布。

⚙️ 我们的模型:FluxViT

图3: FluxViT augmentation modules.

在此基础上,为了更好的应对各种稀疏性采样的Token Set,我们构建了 FluxViT

  • GLPE(Global–Local Positional Embedding):处理任意token数量与位置的相对关系;
  • DPN(Dual Patch Normalization):稳定不同采样分布下的训练。我们发现不同稀疏程度的Token会导致Patch Embedding的Gradient Norm不稳定,在额外插入一个Normalization Layer后得到缓解。

FluxViT 可以适应任意视频长度、分辨率与token数,实现真正的「一模多用」。

Ablation Study

我们搭建了Bottom-Up的实验来验证各个模块的有效性

实验结果:少算力,也能打赢SOTA

图4: FluxViT对比InternVideo2模型的效果
数据集
模型
Gflops
Top-1 精度
提升
Kinetics-400
InternVideo2-S
154×12
85.8%
-
Kinetics-400
FluxViT-S
154×12
88.0%
+2.2%
Kinetics-400
FluxViT-S
32×12 (20%)
86.6%
+0.8%
Kinetics-400
FluxViT-S
13×12 (9%)
84.7%
-0.9%
SSv2
InternVideo2-B
440×6
73.7%
-
SSv2
FluxViT-B
440×6
75.5%
+1.8%
SSv2
FluxViT-B
108×6 (25%)
75.1%
+1.4%
SSv2
FluxViT-B
49×6 (11%)
73.9%
+0.2%
MSR-VTT
Internvideo2-B
440
40.3%
-
MSR-VTT
FluxViT-B
440
49.9%
+9.6%
MSR-VTT
FluxViT-B
108 (25%)
49.1%
+8.8%
MSR-VTT
FluxViT-B
49 (11%)
47.2%
+6.9%

👉 在保持性能的同时节省 70–95% 的计算量。
👉 在视频动作识别、检索等任务上全面超越现有方法。

延伸:未来Video-MLLM 的潜力基座

图5:Chat-Centric Tasks

FluxViT 还支持多模态对话任务:在与 LLM 结合的“线性探针”设定下超过了InternVideo2和UMT等模型,这意味着 FluxViT 能成为未来 Video MLLM(视频多模态大模型) 的理想基座,尤其是适用于一些需要高压缩率的长视频或者短时高FPS任务。

🚀 Take Aways

  • 一次训练,灵活部署:Optimize Your Input First!

灵活的训练采样让单个视频模型能够通过高效的 Token 优化(Token Optimization),在不同的计算预算和下游任务场景间无缝适配。

  • 教师–学生预训练的新型增强:

灵活的教师端采样在不增加任何额外成本的情况下,提升了特征多样性和训练效率,从而增强下游任务的泛化能力。

  • 开源且高效:

FluxViT 在大范围的视频理解任务上实现了最先进的性能(SOTA),同时显著降低了计算需求。

  • 如果你做视频理解或多模态学习,FluxViT 可能会让你重新思考“视频模型的效率上限”。

本文系学术转载,如有侵权,请联系小编删文

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读7.6k
粉丝0
内容8.2k