极市导读
Vgent 把长视频先建成“实体-关系”动态图,离线缓存;查询时按关键词子图检索并做结构化子查询验证,再用聚合结果提示 LVLM。MLVU 基准上相对基础模型提升 3.0-5.4%,比 SOTA 视频 RAG 再涨 8.6%,无需改模型即可即插即用。>>加入极市CV技术交流群,走在计算机视觉的最前沿
-
项目链接:https://github.com/xiaoqian-shen/Vgent
-
文章地址:https://arxiv.org/abs/2510.14032
这篇文章将RAG引入到多模态视频理解,引入了两项关键创新:
-
它使用结构化图表示视频,并保留视频片段之间的语义关系,以提高检索效率。
-
它引入了一个中间推理步骤来缓解 LVLM 的推理限制,该步骤利用结构化验证来减少检索噪声并促进跨片段相关信息的显式聚合,从而产生更准确且更具上下文感知的响应。
在三个长视频理解基准测试中,使用各种开源 LVLM 模型对Vgent框架进行了全面评估。与 MLVU 上的基础模型相比,Vgent方法在整体性能上提升了 3.0% ∼ 5.4%,并且比最先进的视频 RAG 方法高出 8.6%。
视频图结构化这个思想有点意思,值得学习下~
01 方法
Vgent框架包含四个核心阶段:
-
离线视频图构建:通过从长视频中提取知识构建视频图。
-
图结构检索:根据用户查询提取的关键词检索相关片段。
-
结构化推理:通过结构化查询优化片段并整合信息。
-
多模态增强生成:将优化后的片段与推理结果相结合生成最终响应。
1.1 视频图结构
Vgent提出基于图结构的视频内容表征方法,以增强语义关联。具体来说,针对包含 F 帧的视频 V ,首先将其分割为一系列短片段 ,每个片段 由 K 帧组成。随后通过以下结构化步骤动态构建图结构。
1.2 图构建
1.3 实体合并与节点连接
这里目的是解决 LVLm(大型视觉语言模型)独立处理视频片段导致的实体表述不一致问题(如同一对象被不同命名)。并构建一个动态更新、语义连贯的视频知识图谱
关键步骤如下:
1.4 图结构检索
目的是从构建好的视频知识图谱中,高效、准确地检索出与用户查询相关的视频片段。根据以下方法实现
-
从查询中提取关键词;
-
利用文本嵌入计算关键词与图中实体描述的语义相似度; -
检索包含高相似度实体的所有视频片段节点; -
对候选结果进行重排序,选出最相关的片段。
通过图结构检索,可以避免盲目遍历视频,实现语义驱动的精准定位。
1.5 结构化推理
在检索后阶段进行结构化推理,以精炼信息并聚合关键事实。
-
将原始复杂查询分解为多个结构化子查询(如是非题、计数题等);
-
针对每个子查询在检索结果中验证答案;
-
聚合子答案,生成最终响应。
这样可以提升推理准确性、可解释性和鲁棒性,尤其适用于多跳或多条件问题
02 实验结果
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

