ICCV 2025 | HVPL：分层视觉提示学习，让“视频实例分割”模型告别灾难性遗忘

极市平台

2025-08-14

导读：全面、大幅度地超越了现有的基线方法性能

关注公众号，发现CV技术之美

视频实例分割（Video Instance Segmentation, VIS）是一项强大的技术，它不仅要分割出视频中每个物体的轮廓，还要在不同帧之间持续跟踪同一个物体实例。然而，现有的大多数VIS模型都存在一个不切实际的假设：视频中物体的类别是固定不变的。在现实世界中，我们常常希望模型能不断学习新的物体类别。这时，一个致命的问题便出现了——“灾难性遗忘”（Catastrophic Forgetting），即模型在学习新知识（如“飞机”）后，会忘记如何识别旧的知识（如“人”）。

为了解决这一挑战，来自穆罕默德·本·扎耶德人工智能大学、湖南大学、特伦托大学等多个高校和研究机构的学者们，共同提出了一种名为 HVPL (Hierarchical Visual Prompt Learning) 的新方法。HVPL，即分层视觉提示学习，它通过一种创新的“提示学习”策略，从“帧”和“视频”两个层级出发，系统性地解决了持续学习中的灾难性遗忘问题。该研究已被ICCV 2025接收。

论文标题：Hierarchical Visual Prompt Learning for Continual Video Instance Segmentation
作者团队：Jiahua Dong, Hui Yin, Wenqi Liang, Hanbin Zhao, Henghui Ding, Nicu Sebe, Salman Khan, Fahad Shahbaz Khan
作者机构：穆罕默德·本·扎耶德人工智能大学、湖南大学、特伦托大学、浙江大学、复旦大学、澳大利亚国立大学、林雪平大学
论文地址：https://arxiv.org/pdf/2508.08612v1
项目地址：https://github.com/JiahuaDong/HVPL
录用会议：ICCV 2025

背景：持续视频实例分割的挑战

持续视频实例分割（Continual Video Instance Segmentation, CVIS）任务要求模型能在一系列学习任务中，不断掌握新类别的分割与跟踪能力，同时保持对旧类别的识别性能。传统的VIS模型在进行持续学习时，通常采用微调（Fine-tuning）策略，但这会改变整个模型的权重，导致先前学习到的知识被“覆盖”，从而引发灾难性遗忘。

这种遗忘发生在两个层面：

帧级遗忘：在单张图片内，模型混淆了新旧类别物体的特征，导致分割错误。
视频级遗忘：在视频序列中，模型丢失了对旧类别物体的时序关联性（tracking）知识，导致跟踪失败。

HVPL的核心思想是“冻结”主干网络，只为每个新任务学习少量、轻量级的“视觉提示”（Visual Prompts），从而在保持旧知识的同时，高效地学习新知识。

HVPL：双层提示，双重保障

HVPL的框架如下图所示，它通过一套分层的提示学习机制，分别在帧级别和视频级别对抗遗忘。

帧级遗忘缓解：帧提示与正交梯度校正

为了让模型在单帧图像上学会识别新类别，同时不干扰旧类别，HVPL引入了两个关键设计：

任务特定帧提示 (Task-Specific Frame Prompt) ：这是一组可学习的小参数。当学习新任务时，只有这组“帧提示”被训练，而庞大的主干网络保持不变。这个提示学会编码新类别的任务特定信息，并将其注入到主干网络中，引导模型进行正确的分割。
正交梯度校正 (Orthogonal Gradient Correction, OGC) ：这是HVPL的技术核心之一。在训练帧提示时，为了防止其更新方向与旧任务的知识空间“冲突”，OGC模块会将新任务的梯度投影到与旧任务特征空间正交的方向上。如下图分析所示，这从根本上保证了学习新知识不会损害旧知识，实现了“和平共处”。

视频级遗忘缓解：视频提示与上下文解码器

为了在视频序列中保持对旧类别物体的跟踪能力，HVPL设计了相应的视频级模块：

任务特定视频提示 (Task-Specific Video Prompt) ：与帧提示类似，这是一个用于编码视频时序信息的轻量级可学习参数。它负责捕捉新类别在时间维度上的动态和关联特性。
视频上下文解码器 (Video Context Decoder) ：该解码器负责聚合跨视频帧的上下文信息。它首先将不同帧之间的结构性关系（如物体间的相互作用）嵌入到帧提示特征中，然后将这些富含上下文的帧级信息传播到视频提示中，从而让视频提示能够理解全局的、跨时间的场景动态，有效防止跟踪中断。