大数跨境
0
0

JIUTIAN Research | NeurIPS 2025:长视频理解新突破!LongVPO框架让大模型“秒懂”长视频

JIUTIAN Research | NeurIPS 2025:长视频理解新突破!LongVPO框架让大模型“秒懂”长视频 九天人工智能
2025-12-09
0

刷一部2小时的电影、看一场完整的体育赛事,或是回看几小时的监控录像,这些我们习以为常的长视频场景,却成了大模型视频理解的“老大难”。大模型明明能精准识别短视频里的猫狗、解读10秒剧情,一碰到动辄数千秒的长视频,就瞬间“卡壳”,抓不住跨场景的逻辑线索。核心问题很简单,标注一条长视频的成本堪比拍一部短片,数据稀缺让大模型理解力不够,自然练不出“长时记忆”。


中国移动九天研究院联合南京大学,用一个叫LongVPO的框架啃下了这块硬骨头。LongVPO不用依赖珍贵的长视频标注数据,靠两阶段“自学习”,让大模型从“看不懂长视频”直接升级到“秒懂长视频逻辑链”,还把多个权威榜单的成绩拉到了新高度。


1

痛点直击:

长视频为何会难倒大模型?


不是大模型不够努力,而是长视频的“复杂度”和“数据荒”太致命。例如,一部电影有上百个场景切换,一场球赛有无数攻防细节,大模型要理解的不只是单帧画面,还有前后的时间线逻辑。标注1小时长视频需要人工逐帧标注场景、人物、事件,工作量是短视频的几十倍,导致公开数据集少得可怜,现有多模态大模型训练时只能“盲人摸象”。LongVPO的核心突破,就是不用参考大量标注数据,照样提升长视频理解能力。


2

LongVPO两阶段操作:

无标注也能练出长视频理解力


LongVPO的思路很简单:先靠短视频打基础,再用长视频练整合,全程无需人工标注长视频数据,“数据荒救星”


图1 . 两阶段训练策略示意


1. 第一阶段:短视频拼接,教大模型找到关键


在这个阶段,研究团队从带标注的短视频数据集中随机选取多段相似性较低的短视频,拼接成一段“伪长视频”,从中随机选取一段作为锚点片段,生成问题(Query)和对应的答案(Preferred Response和Dispreferred Response)。这个过程就像是在玩“找茬”游戏,让大模型学会在杂乱的长上下片段中精准找到关键信息。


图2. 第一阶段DPO数据构造过程


这一步相当于给大模型做“找茬训练”:在一堆无关信息里,练出抓重点的本事,为长视频理解打地基。训练时特意调整了DPO(偏好优化)策略,只给模型喂锚点和问题,确保它能聚焦关键线索,不被冗余信息带偏。


2. 第二阶段:真长视频练“讲故事”,整合场景串逻辑


基础打好后,直接拿无标注的完整长视频,自动切分成一个个场景,再生成简单描述,让大模型从多个场景片段里整合信息,给出完整答案。


这一步就像教大模型“写观后感”,把零散的场景片段串联起来,理解整个视频的逻辑脉络,而不是只看懂单个镜头。更关键的是,研究团队在两阶段都加了SFT(监督微调)损失函数,和DPO策略搭配,让模型既会找重点,又会串逻辑。


图3. 第二阶段DPO数据构造过程


3

实测结果:

榜单涨 6.5 分,性能优于人工标注模型


技术好不好,数据说了算!LongVPO一出手,就刷新了长视频理解领域的多项纪录。


1. 长视频理解榜单提升:采用LongVPO策略训练后,模型在LVBench、LongVideoBench、MLVU、Video-MME等多个长视频理解榜单上都有了明显提升,最高提升了6.5分!


表1. LongVPO和各类视频理解模型的性能对比


2. 保持短视频性能:LongVPO不仅提升了长视频理解能力,还很好地保持了短视频任务上的性能,真正做到了“鱼和熊掌兼得”。


3. 超越人工标注模型:在10B参数量级内,LongVPO的表现超越了一系列基于人工或GPT标注长视频数据训练得到的长视频理解多模态大模型,展现了其优异的长视频理解能力。


4

应用前景:

LongVPO,不止于长视频


LongVPO框架的出现,不仅为长视频理解带来了新的突破,而且为后续相关研究提供了全新的范式。在数据稀缺的情况下,LongVPO的可扩展性和高效性显得尤为重要。未来,LongVPO有望在更多领域发挥潜力,成为AI理解复杂数据的重要工具


论文题目

LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization


作者:

Zhenpeng Huang*, Jiaqi Li*, Zihan Jia, Xinhao Li, Desen Meng, Lingxue Song, Xi Chen, Liang Li, Limin Wang


发表团队及会议:

中国移动九天研究院、南京大学,发表于NeurIPS 2025


供稿:九天视觉多模态模型中心

编辑:秦睿含、张致宁

复审:潘璐、袁博

【声明】内容源于网络
0
0
九天人工智能
中国移动研究院九天人工智能官方公众账号。汇聚九天人工智能最新研发成果和创新产品发布,助力行业发展,引领技术潮流。
内容 410
粉丝 0
九天人工智能 中国移动研究院九天人工智能官方公众账号。汇聚九天人工智能最新研发成果和创新产品发布,助力行业发展,引领技术潮流。
总阅读29
粉丝0
内容410