关注公众号,发现CV技术之美
视频实例分割(Video Instance Segmentation, VIS)是一项强大的技术,它不仅要分割出视频中每个物体的轮廓,还要在不同帧之间持续跟踪同一个物体实例。然而,现有的大多数VIS模型都存在一个不切实际的假设:视频中物体的类别是固定不变的。在现实世界中,我们常常希望模型能不断学习新的物体类别。这时,一个致命的问题便出现了——“灾难性遗忘”(Catastrophic Forgetting),即模型在学习新知识(如“飞机”)后,会忘记如何识别旧的知识(如“人”)。
为了解决这一挑战,来自穆罕默德·本·扎耶德人工智能大学、湖南大学、特伦托大学等多个高校和研究机构的学者们,共同提出了一种名为 HVPL (Hierarchical Visual Prompt Learning) 的新方法。HVPL,即分层视觉提示学习,它通过一种创新的“提示学习”策略,从“帧”和“视频”两个层级出发,系统性地解决了持续学习中的灾难性遗忘问题。该研究已被ICCV 2025接收。
-
论文标题:Hierarchical Visual Prompt Learning for Continual Video Instance Segmentation -
作者团队:Jiahua Dong, Hui Yin, Wenqi Liang, Hanbin Zhao, Henghui Ding, Nicu Sebe, Salman Khan, Fahad Shahbaz Khan -
作者机构:穆罕默德·本·扎耶德人工智能大学、湖南大学、特伦托大学、浙江大学、复旦大学、澳大利亚国立大学、林雪平大学 -
论文地址:https://arxiv.org/pdf/2508.08612v1 -
项目地址:https://github.com/JiahuaDong/HVPL -
录用会议:ICCV 2025
背景:持续视频实例分割的挑战
持续视频实例分割(Continual Video Instance Segmentation, CVIS)任务要求模型能在一系列学习任务中,不断掌握新类别的分割与跟踪能力,同时保持对旧类别的识别性能。传统的VIS模型在进行持续学习时,通常采用微调(Fine-tuning)策略,但这会改变整个模型的权重,导致先前学习到的知识被“覆盖”,从而引发灾难性遗忘。
这种遗忘发生在两个层面:
-
帧级遗忘:在单张图片内,模型混淆了新旧类别物体的特征,导致分割错误。 -
视频级遗忘:在视频序列中,模型丢失了对旧类别物体的时序关联性(tracking)知识,导致跟踪失败。
HVPL的核心思想是“冻结”主干网络,只为每个新任务学习少量、轻量级的“视觉提示”(Visual Prompts),从而在保持旧知识的同时,高效地学习新知识。
HVPL:双层提示,双重保障
HVPL的框架如下图所示,它通过一套分层的提示学习机制,分别在帧级别和视频级别对抗遗忘。
帧级遗忘缓解:帧提示与正交梯度校正
为了让模型在单帧图像上学会识别新类别,同时不干扰旧类别,HVPL引入了两个关键设计:
-
任务特定帧提示 (Task-Specific Frame Prompt) :这是一组可学习的小参数。当学习新任务时,只有这组“帧提示”被训练,而庞大的主干网络保持不变。这个提示学会编码新类别的任务特定信息,并将其注入到主干网络中,引导模型进行正确的分割。 -
正交梯度校正 (Orthogonal Gradient Correction, OGC) :这是HVPL的技术核心之一。在训练帧提示时,为了防止其更新方向与旧任务的知识空间“冲突”,OGC模块会将新任务的梯度投影到与旧任务特征空间正交的方向上。如下图分析所示,这从根本上保证了学习新知识不会损害旧知识,实现了“和平共处”。
视频级遗忘缓解:视频提示与上下文解码器
为了在视频序列中保持对旧类别物体的跟踪能力,HVPL设计了相应的视频级模块:
-
任务特定视频提示 (Task-Specific Video Prompt) :与帧提示类似,这是一个用于编码视频时序信息的轻量级可学习参数。它负责捕捉新类别在时间维度上的动态和关联特性。 -
视频上下文解码器 (Video Context Decoder) :该解码器负责聚合跨视频帧的上下文信息。它首先将不同帧之间的结构性关系(如物体间的相互作用)嵌入到帧提示特征中,然后将这些富含上下文的帧级信息传播到视频提示中,从而让视频提示能够理解全局的、跨时间的场景动态,有效防止跟踪中断。
实验与结果
HVPL在OVIS、YouTube-VIS 2019和YouTube-VIS 2021等多个主流VIS数据集上进行了严格的持续学习实验。
定量分析
实验结果(如下表所示)表明,在不同的持续学习设置下(例如,在OVIS数据集上,先学习15个类,再增量学习5个或10个类),HVPL的性能全面、大幅度地超越了现有的基线方法。无论是在新任务还是旧任务上,HVPL都表现出更强的性能,尤其是在缓解遗忘方面效果显著。
定性分析
下图的可是化结果更直观地展示了HVPL的优势。在学习了新类别“卡车”后,基线方法(LwF-VIS)几乎完全忘记了如何分割旧类别“人”,而HVPL则能够同时准确地分割出新旧两个类别的实例,证明了其强大的抗遗忘能力。
消融实验
作者还通过详尽的消融实验,验证了HVPL中每个组件(帧提示、视频提示、OGC模块等)的必要性和有效性。结果表明,去掉任何一个组件都会导致性能下降,证明了这种分层设计的合理与高效。
论文贡献价值
这篇论文为解决计算机视觉领域长期存在的“灾难性遗忘”问题,特别是在复杂的视频理解任务中,提供了一个新颖且有效的解决方案。
-
提出了HVPL,一个用于持续视频实例分割的创新框架,它通过分层视觉提示学习,在帧和视频两个维度上系统性地缓解了灾难性遗忘。 -
设计了正交梯度校正(OGC)模块,从梯度层面巧妙地解耦了新旧任务的学习,为持续学习提供了一个具有普适性的解决方案。 -
在多个大规模数据集上取得了SOTA性能,有力地证明了所提方法的有效性和优越性。 -
代码将开源,方便社区研究者们在此基础上进行后续的探索和改进。
总而言之,HVPL为构建能够像人类一样不断学习、适应新环境的智能视觉系统迈出了坚实的一步。
了解最新 AI 进展,欢迎关注公众号:aicvml
投稿寻求报道请发邮件至:amos@52cv.net
欢迎点赞、转发、评论。
END
欢迎加入「视频分割」交流群👇备注:seg


