

Video-Panda: 高效无编码器视频语言理解

USTC大规模智算实验室

2025-07-22

导读：Video-Panda: 高效无编码器视频语言理解

前言

近年来，大型语言模型（LLMs）在理解和生成文本方面展现出卓越的能力，推动了视觉语言建模的显著进步。虽然最初的努力集中在图像理解上，但近期的工作已将这些能力扩展到视频理解，从而实现了更复杂的时空推理。然而，目前的视频语言模型面临两大挑战：

挑战一：计算开销巨大

现有模型依赖重量级图像编码器（3亿-11亿参数）或视频编码器（10亿-14亿参数）
一些方法甚至结合两种编码器以增强特征提取
大型编码器带来巨大计算开销，特别是在处理多帧视频时
编码器与语言模型的对齐通常通过简单线性投影或复杂机制实现，进一步增加计算复杂性

挑战二：难以处理视频理解复杂性

将图像语言架构简单应用于视频理解会导致显著性能下降
有效视频语言模型需要专门架构来捕捉独特的时空关系
不能将视频简单视为图像序列

方法简介

Video-Panda团队提出了一种高效的无编码器视频语言理解方法，在显著降低计算开销的同时，取得了具有竞争力的性能。

核心创新

无需预训练编码器：直接处理视频输入
超轻量级设计：视觉处理部分仅使用4500万参数（比传统方法减少至少6.5倍）
新颖时空对齐模块（STAB）：结合局部时空编码、高效空间下采样和独立关系建模机制

性能表现

在开放式视频问答基准测试中，与基于编码器的方法相当或更优
在细粒度视频问答评估中，在正确性和时序理解方面优于Video-ChatGPT和Video-LLaVA
处理速度比之前方法快3-4倍

核心架构：时空对齐模块（STAB）

STAB是此架构的核心，其目标是直接将视频内容与大型语言模型（LLM）进行对齐。该模块精巧地分离了对全局视频上下文和局部帧级别信息的处理。

1. 分块嵌入（Patch Embedding）

视频的每一帧被分割成无重叠的图像块（patches）。

2. 局部时空编码（Local Spatio-Temporal Encoding, LSTE）

使用堆叠的3D卷积在小的时空窗口内处理信息
动态位置编码器（DPE）联合编码时空位置信息

3. 局部空间下采样（Local Spatial Downsampling, LSD）

采用基于注意力（attention）的机制
对每个窗口进行自适应的空间下采样
在保留关键信息的同时降低计算开销

4. 并行关系聚合器

信息被送入两个并行的聚合器：

帧级别空间关系聚合器（FSRA）

捕捉每一帧内部的全局空间关系
为每个独立的帧生成内容摘要

全局时空关系聚合器（GSTRA）

捕捉整个视频的宏观上下文
聚合所有帧的所有信息，生成全局视频内容向量

5. 融合与最终序列构建

信息融合

来自GSTRA的全局视频上下文（G_st）和来自FSRA的每帧摘要（F_s,t）
通过可学习权重进行线性融合
让每一帧的表示都包含全局信息

序列构建

将每一帧的下采样后图像块（tokens）按行排列
在每行末尾插入特殊的<row>分隔符
维持2D空间结构信息

最终输入

每个帧的"融合后上下文表示"和对应的"带分隔符的图像块序列"拼接

通过MLP投影到LLM的嵌入空间中

实验结果

该研究通过全面的实验，从定量和定性两个维度评估了Video-Panda的性能。

1. 开放式视频问答（Open-Ended Video Question Answering）

与Video-ChatGPT对比

MSVD-QA准确率：64.7% vs 64.9%（略低）
MSRVTT-QA、TGIF-QA和ActivityNet-QA：Video-Panda所有指标均优于Video-ChatGPT

与Video-LLaVA对比

取得具有竞争力的结果
在TGIF-QA数据集上超越Video-LLaVA

与其他模型对比

性能超过同样仅在视频上训练的VideoChat和Video-LLaMA

2. 精细化视频问答（Fine-Grained Video Question Answering）

与Video-ChatGPT对比

尽管仅使用8帧（Video-ChatGPT使用100帧）
正确性：2.74 vs 2.40
上下文理解：3.01 vs 2.62
时序理解：2.26 vs 1.98

与Video-LLaVA对比

在所有评估维度上均优于Video-LLaVA

3. 参数量与推理效率

参数量对比

Video-Panda：4500万参数
Video-ChatGPT：3.07亿参数
Video-LLaVA：4.25亿参数

推理速度对比

Video-Panda：41ms
Video-ChatGPT：171ms（快4倍）
Video-LLaVA：125ms（快3倍）

4. 消融实验：移除FSRA和GSTRA

移除FSRA（帧级别聚合器）

模型难以理解精细动作
例如：将"跳舞"误认为是"鼓掌"

移除GSTRA（全局聚合器）

模型倾向于关注孤立的帧而忽略视频整体上下文
例如：在从水边开始的视频中，将路上的"汽车"误判为水上的"船"

5. 消融实验：移除`<row>`分隔符

影响

移除用于维持空间结构的`<row>`分隔符会导致性能下降
证明了空间结构信息对视频理解的重要性

总结

Video-Panda通过创新的时空对齐模块（STAB），在显著降低计算开销的同时，实现了与现有方法相当或更优的性能。其轻量级设计（仅4500万参数）和高效的推理速度（比现有方法快3-4倍），为视频语言理解领域提供了新的解决方案。

项目链接：

https://jh-yi.github.io/Video-Panda

分享人：唐子墨

【声明】内容源于网络

USTC大规模智算实验室

大规模计算智能（LIC）实验室由包括中科大在内的多所高校教授联合共建，主要研究方向有系统网络、联邦学习和大模型AI。实验室以智算网络系统平台为硬件支撑，以多名硕博组成的高素质团队为人才基础，参与过多项重点项目，发表过多篇高水平论文。

内容 14

粉丝 0

USTC大规模智算实验室大规模计算智能（LIC）实验室由包括中科大在内的多所高校教授联合共建，主要研究方向有系统网络、联邦学习和大模型AI。实验室以智算网络系统平台为硬件支撑，以多名硕博组成的高素质团队为人才基础，参与过多项重点项目，发表过多篇高水平论文。

总阅读11

粉丝0

内容14