前言
近年来,大型语言模型(LLMs)在理解和生成文本方面展现出卓越的能力,推动了视觉语言建模的显著进步。虽然最初的努力集中在图像理解上,但近期的工作已将这些能力扩展到视频理解,从而实现了更复杂的时空推理。然而,目前的视频语言模型面临两大挑战:
挑战一:计算开销巨大
现有模型依赖重量级图像编码器(3亿-11亿参数)或视频编码器(10亿-14亿参数)
一些方法甚至结合两种编码器以增强特征提取
大型编码器带来巨大计算开销,特别是在处理多帧视频时
编码器与语言模型的对齐通常通过简单线性投影或复杂机制实现,进一步增加计算复杂性
挑战二:难以处理视频理解复杂性
将图像语言架构简单应用于视频理解会导致显著性能下降
有效视频语言模型需要专门架构来捕捉独特的时空关系
不能将视频简单视为图像序列
方法简介
Video-Panda团队提出了一种高效的无编码器视频语言理解方法,在显著降低计算开销的同时,取得了具有竞争力的性能。
核心创新
无需预训练编码器:直接处理视频输入
超轻量级设计:视觉处理部分仅使用4500万参数(比传统方法减少至少6.5倍)
新颖时空对齐模块(STAB):结合局部时空编码、高效空间下采样和独立关系建模机制
性能表现
在开放式视频问答基准测试中,与基于编码器的方法相当或更优
在细粒度视频问答评估中,在正确性和时序理解方面优于Video-ChatGPT和Video-LLaVA
处理速度比之前方法快3-4倍
核心架构:时空对齐模块(STAB)
STAB是此架构的核心,其目标是直接将视频内容与大型语言模型(LLM)进行对齐。该模块精巧地分离了对全局视频上下文和局部帧级别信息的处理。
1. 分块嵌入(Patch Embedding)
视频的每一帧被分割成无重叠的图像块(patches)。
2. 局部时空编码(Local Spatio-Temporal Encoding, LSTE)
使用堆叠的3D卷积在小的时空窗口内处理信息
动态位置编码器(DPE)联合编码时空位置信息
3. 局部空间下采样(Local Spatial Downsampling, LSD)
采用基于注意力(attention)的机制
对每个窗口进行自适应的空间下采样
在保留关键信息的同时降低计算开销
4. 并行关系聚合器
信息被送入两个并行的聚合器:
帧级别空间关系聚合器(FSRA)
捕捉每一帧内部的全局空间关系
为每个独立的帧生成内容摘要
全局时空关系聚合器(GSTRA)
捕捉整个视频的宏观上下文
聚合所有帧的所有信息,生成全局视频内容向量
5. 融合与最终序列构建
信息融合
来自GSTRA的全局视频上下文(G_st)和来自FSRA的每帧摘要(F_s,t)
通过可学习权重进行线性融合
让每一帧的表示都包含全局信息
序列构建
将每一帧的下采样后图像块(tokens)按行排列
在每行末尾插入特殊的<row>分隔符
维持2D空间结构信息
最终输入
每个帧的"融合后上下文表示"和对应的"带分隔符的图像块序列"拼接
通过MLP投影到LLM的嵌入空间中
实验结果
该研究通过全面的实验,从定量和定性两个维度评估了Video-Panda的性能。
与Video-ChatGPT对比
MSVD-QA准确率:64.7% vs 64.9%(略低)
MSRVTT-QA、TGIF-QA和ActivityNet-QA:Video-Panda所有指标均优于Video-ChatGPT
与Video-LLaVA对比
取得具有竞争力的结果
在TGIF-QA数据集上超越Video-LLaVA
与其他模型对比
性能超过同样仅在视频上训练的VideoChat和Video-LLaMA
2. 精细化视频问答(Fine-Grained Video Question Answering)
与Video-ChatGPT对比
尽管仅使用8帧(Video-ChatGPT使用100帧)
正确性:2.74 vs 2.40
上下文理解:3.01 vs 2.62
时序理解:2.26 vs 1.98
与Video-LLaVA对比
在所有评估维度上均优于Video-LLaVA
参数量对比
Video-Panda:4500万参数
Video-ChatGPT:3.07亿参数
Video-LLaVA:4.25亿参数
推理速度对比
Video-Panda:41ms
Video-ChatGPT:171ms(快4倍)
Video-LLaVA:125ms(快3倍)
4. 消融实验:移除FSRA和GSTRA
移除FSRA(帧级别聚合器)
模型难以理解精细动作
例如:将"跳舞"误认为是"鼓掌"
移除GSTRA(全局聚合器)
模型倾向于关注孤立的帧而忽略视频整体上下文
例如:在从水边开始的视频中,将路上的"汽车"误判为水上的"船"
5. 消融实验:移除`<row>`分隔符
影响
移除用于维持空间结构的`<row>`分隔符会导致性能下降
证明了空间结构信息对视频理解的重要性
总结
Video-Panda通过创新的时空对齐模块(STAB),在显著降低计算开销的同时,实现了与现有方法相当或更优的性能。其轻量级设计(仅4500万参数)和高效的推理速度(比现有方法快3-4倍),为视频语言理解领域提供了新的解决方案。
项目链接:
分享人:唐子墨

