大数跨境
0
0

ICCV 2025 | HVPL:分层视觉提示学习,让“视频实例分割”模型告别灾难性遗忘

ICCV 2025 | HVPL:分层视觉提示学习,让“视频实例分割”模型告别灾难性遗忘 极市平台
2025-08-14
1
导读:全面、大幅度地超越了现有的基线方法性能



关注公众号,发现CV技术之美




视频实例分割(Video Instance Segmentation, VIS)是一项强大的技术,它不仅要分割出视频中每个物体的轮廓,还要在不同帧之间持续跟踪同一个物体实例。然而,现有的大多数VIS模型都存在一个不切实际的假设:视频中物体的类别是固定不变的。在现实世界中,我们常常希望模型能不断学习新的物体类别。这时,一个致命的问题便出现了——“灾难性遗忘”(Catastrophic Forgetting),即模型在学习新知识(如“飞机”)后,会忘记如何识别旧的知识(如“人”)。

为了解决这一挑战,来自穆罕默德·本·扎耶德人工智能大学、湖南大学、特伦托大学等多个高校和研究机构的学者们,共同提出了一种名为 HVPL (Hierarchical Visual Prompt Learning) 的新方法。HVPL,即分层视觉提示学习,它通过一种创新的“提示学习”策略,从“帧”和“视频”两个层级出发,系统性地解决了持续学习中的灾难性遗忘问题。该研究已被ICCV 2025接收。

  • 论文标题:Hierarchical Visual Prompt Learning for Continual Video Instance Segmentation
  • 作者团队:Jiahua Dong, Hui Yin, Wenqi Liang, Hanbin Zhao, Henghui Ding, Nicu Sebe, Salman Khan, Fahad Shahbaz Khan
  • 作者机构:穆罕默德·本·扎耶德人工智能大学、湖南大学、特伦托大学、浙江大学、复旦大学、澳大利亚国立大学、林雪平大学
  • 论文地址:https://arxiv.org/pdf/2508.08612v1
  • 项目地址:https://github.com/JiahuaDong/HVPL
  • 录用会议:ICCV 2025

背景:持续视频实例分割的挑战

持续视频实例分割(Continual Video Instance Segmentation, CVIS)任务要求模型能在一系列学习任务中,不断掌握新类别的分割与跟踪能力,同时保持对旧类别的识别性能。传统的VIS模型在进行持续学习时,通常采用微调(Fine-tuning)策略,但这会改变整个模型的权重,导致先前学习到的知识被“覆盖”,从而引发灾难性遗忘。

这种遗忘发生在两个层面:

  1. 帧级遗忘:在单张图片内,模型混淆了新旧类别物体的特征,导致分割错误。
  2. 视频级遗忘:在视频序列中,模型丢失了对旧类别物体的时序关联性(tracking)知识,导致跟踪失败。

HVPL的核心思想是“冻结”主干网络,只为每个新任务学习少量、轻量级的“视觉提示”(Visual Prompts),从而在保持旧知识的同时,高效地学习新知识。


HVPL:双层提示,双重保障

HVPL的框架如下图所示,它通过一套分层的提示学习机制,分别在帧级别和视频级别对抗遗忘。

帧级遗忘缓解:帧提示与正交梯度校正

为了让模型在单帧图像上学会识别新类别,同时不干扰旧类别,HVPL引入了两个关键设计:

  • 任务特定帧提示 (Task-Specific Frame Prompt) :这是一组可学习的小参数。当学习新任务时,只有这组“帧提示”被训练,而庞大的主干网络保持不变。这个提示学会编码新类别的任务特定信息,并将其注入到主干网络中,引导模型进行正确的分割。
  • 正交梯度校正 (Orthogonal Gradient Correction, OGC) :这是HVPL的技术核心之一。在训练帧提示时,为了防止其更新方向与旧任务的知识空间“冲突”,OGC模块会将新任务的梯度投影到与旧任务特征空间正交的方向上。如下图分析所示,这从根本上保证了学习新知识不会损害旧知识,实现了“和平共处”。

视频级遗忘缓解:视频提示与上下文解码器

为了在视频序列中保持对旧类别物体的跟踪能力,HVPL设计了相应的视频级模块:

  • 任务特定视频提示 (Task-Specific Video Prompt) :与帧提示类似,这是一个用于编码视频时序信息的轻量级可学习参数。它负责捕捉新类别在时间维度上的动态和关联特性。
  • 视频上下文解码器 (Video Context Decoder) :该解码器负责聚合跨视频帧的上下文信息。它首先将不同帧之间的结构性关系(如物体间的相互作用)嵌入到帧提示特征中,然后将这些富含上下文的帧级信息传播到视频提示中,从而让视频提示能够理解全局的、跨时间的场景动态,有效防止跟踪中断。

实验与结果

HVPL在OVIS、YouTube-VIS 2019和YouTube-VIS 2021等多个主流VIS数据集上进行了严格的持续学习实验。

定量分析

实验结果(如下表所示)表明,在不同的持续学习设置下(例如,在OVIS数据集上,先学习15个类,再增量学习5个或10个类),HVPL的性能全面、大幅度地超越了现有的基线方法。无论是在新任务还是旧任务上,HVPL都表现出更强的性能,尤其是在缓解遗忘方面效果显著。

定性分析

下图的可是化结果更直观地展示了HVPL的优势。在学习了新类别“卡车”后,基线方法(LwF-VIS)几乎完全忘记了如何分割旧类别“人”,而HVPL则能够同时准确地分割出新旧两个类别的实例,证明了其强大的抗遗忘能力。

消融实验

作者还通过详尽的消融实验,验证了HVPL中每个组件(帧提示、视频提示、OGC模块等)的必要性和有效性。结果表明,去掉任何一个组件都会导致性能下降,证明了这种分层设计的合理与高效。


论文贡献价值

这篇论文为解决计算机视觉领域长期存在的“灾难性遗忘”问题,特别是在复杂的视频理解任务中,提供了一个新颖且有效的解决方案。

  1. 提出了HVPL,一个用于持续视频实例分割的创新框架,它通过分层视觉提示学习,在帧和视频两个维度上系统性地缓解了灾难性遗忘。
  2. 设计了正交梯度校正(OGC)模块,从梯度层面巧妙地解耦了新旧任务的学习,为持续学习提供了一个具有普适性的解决方案。
  3. 在多个大规模数据集上取得了SOTA性能,有力地证明了所提方法的有效性和优越性。
  4. 代码将开源,方便社区研究者们在此基础上进行后续的探索和改进。

总而言之,HVPL为构建能够像人类一样不断学习、适应新环境的智能视觉系统迈出了坚实的一步。

了解最新 AI 进展,欢迎关注公众号:aicvml
投稿寻求报道请发邮件至:amos@52cv.net
欢迎点赞、转发、评论。

END




欢迎加入「视频分割交流群👇备注:seg




【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k