不是大模型不够努力,而是长视频的“复杂度”和“数据荒”太致命。例如,一部电影有上百个场景切换,一场球赛有无数攻防细节,大模型要理解的不只是单帧画面,还有前后的时间线逻辑。标注1小时长视频需要人工逐帧标注场景、人物、事件,工作量是短视频的几十倍,导致公开数据集少得可怜,现有多模态大模型训练时只能“盲人摸象”。LongVPO的核心突破,就是不用参考大量标注数据,照样提升长视频理解能力。
LongVPO的思路很简单:先靠短视频打基础,再用长视频练整合,全程无需人工标注长视频数据,堪称。
图1 . 两阶段训练策略示意
1. 第一阶段:短视频拼接,教大模型找到关键
在这个阶段,研究团队从带标注的短视频数据集中随机选取多段相似性较低的短视频,拼接成一段“伪长视频”,从中随机选取一段作为锚点片段,生成问题(Query)和对应的答案(Preferred Response和Dispreferred Response)。这个过程就像是在玩“找茬”游戏,让大模型学会在杂乱的长上下片段中精准找到关键信息。
图2. 第一阶段DPO数据构造过程
这一步相当于给大模型做“找茬训练”:在一堆无关信息里,练出抓重点的本事,为长视频理解打地基。训练时特意调整了DPO(偏好优化)策略,只给模型喂锚点和问题,确保它能聚焦关键线索,不被冗余信息带偏。
2. 第二阶段:真长视频练“讲故事”,整合场景串逻辑
基础打好后,直接拿无标注的完整长视频,自动切分成一个个场景,再生成简单描述,让大模型从多个场景片段里整合信息,给出完整答案。
这一步就像教大模型“写观后感”,把零散的场景片段串联起来,理解整个视频的逻辑脉络,而不是只看懂单个镜头。更关键的是,研究团队在两阶段都加了SFT(监督微调)损失函数,和DPO策略搭配,让模型既会找重点,又会串逻辑。
图3. 第二阶段DPO数据构造过程
技术好不好,数据说了算!LongVPO一出手,就刷新了长视频理解领域的多项纪录。
1. 长视频理解榜单提升:采用LongVPO策略训练后,模型在LVBench、LongVideoBench、MLVU、Video-MME等多个长视频理解榜单上都有了明显提升,最高提升了6.5分!
表1. LongVPO和各类视频理解模型的性能对比
2. 保持短视频性能:LongVPO不仅提升了长视频理解能力,还很好地保持了短视频任务上的性能,真正做到了“鱼和熊掌兼得”。
3. 超越人工标注模型:在10B参数量级内,LongVPO的表现超越了一系列基于人工或GPT标注长视频数据训练得到的长视频理解多模态大模型,展现了其优异的长视频理解能力。
LongVPO框架的出现,不仅为长视频理解带来了新的突破,而且为后续相关研究提供了全新的范式。在数据稀缺的情况下,LongVPO的可扩展性和高效性显得尤为重要。未来,LongVPO有望在更多领域发挥潜力,成为AI理解复杂数据的重要工具。
论文题目:
LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization
作者:
Zhenpeng Huang*, Jiaqi Li*, Zihan Jia, Xinhao Li, Desen Meng, Lingxue Song, Xi Chen, Liang Li, Limin Wang
发表团队及会议:
中国移动九天研究院、南京大学,发表于NeurIPS 2025
供稿:九天视觉多模态模型中心
编辑:秦睿含、张致宁
复审:潘璐、袁博

