极市导读
世界模型与自监督学习的全新探索,本文提出了一种多任务方法MC-JEPA,可以通过通过自监督学习和光流估计来学习运动和内容特征。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
论文地址:https://arxiv.org/pdf/2307.12698.pdf
简介
众所周知,Lecun最近在A Path Towards Autonomous Machine Intelligence Version文章中指明了下一个十年的人工智能发展方向,并点明了世界模型的重要性,并提出了Jepa架构。本文则是Lecun对于世界模型与自监督学习的全新探索,并提出了MC-Jepa。视觉表征的自我监督学习一直侧重于学习内容特征,而内容特征并不捕捉物体的运动或位置,重点在于识别和区分图像和视频中的物体。另一方面,光流估计是一项不涉及理解图像内容的任务。作者将这两种方法统一起来,并引入 MC-JEPA(一种联合嵌入式预测架构和自监督学习方法),在共享编码器中联合学习光流和内容特征,证明了两个相关目标(光流估计目标和自监督学习目标)相互受益,从而学习到包含运动信息的内容特征。该方法的性能与现有的无监督光流基准相当,在下游任务(如图像和视频的语义分割)上也与常见的自监督学习方法相当。
Introduction
最近,在视觉中的自我监督学习领域,学习内容特征的方法占据了主导地位。即学习包含能够识别和区分图像中对象的信息的特征,或者学习视频中的内容特征。大多数方法专注于学习在任务如对象分类或视频动作识别中表现出色的全局特征。近期的一个趋势是学习局部特征,在检测和分割等局部任务中表现良好。然而,这些方法专注于理解图像和视频的内容,无法学习像素级别的信息,如视频中的运动或纹理细节。在本文中,作者通过使用自我监督光流估计作为预训练任务,以及一般的自我监督学习,专注于联合学习运动特征。
光流是捕捉两个图像之间的运动或像素对应关系的技术,例如视频中的连续帧或立体成像中的图像。光流估计是计算机视觉中的一个基本问题,其解决方案对于视觉里程计、深度估计或对象跟踪等任务至关重要。经典方法将光流估计视为一个优化问题,其目标是在平滑性约束下匹配像素。基于神经网络和监督学习的方法,由于真实世界数据的标注困难,与使用合成数据相比受到限制。自我监督方法允许从大量真实世界的视频数据中进行学习,并提供了与监督方法相竞争的替代方案。然而,大多数当前方法仅关注运动,而不依赖于视频的(语义)内容,作者通过采用多任务方法同时学习图像中的运动和内容特征来解决这个问题。
最近的技术学习视频帧之间的空间对应关系。其目标是跟踪物体的位置,从而捕捉光流估计所无法提供的内容信息。这些方法可以看作是物体级别的运动估计。它们学习的特征对跟踪任务非常具体化,对其他视觉下游任务的泛化能力非常差。通常情况下,它们在小规模的视频数据集上进行训练,这些数据集的多样性不及像ImageNet这样的大型图像数据集,这加剧了所学习的视觉特征的质量不佳。构建可靠的视觉表示的一种更可靠的方法是同时学习多个任务。因此,作者提出了MC- Jepa(Motion-Content Joint-Embedding Predictive Architecture),这是一种通过共享编码器进行多任务设置的方法,以联合嵌入预测架构学习光流估计和内容特征。作者的贡献可以总结如下:
-
作者提出了一种基于合成和真实视频数据的自我监督光流学习方法,基于PWC-Net,并通过添加多个组件(如反向一致性损失和方差协方差正则化项)对其进行改进。作者将这个方法称为M-JEPA。
-
作者将M-JEPA与VICReg相结合,VICReg是一种在ImageNet上进行训练的自我监督学习方法,以改进作者的光流估计,并生成在许多下游任务上具有良好迁移性的内容特征。作者最终的方法称为MC-Jepa。
-
作者在一系列光流基准数据集(如KITTI 和Sintel),以及Cityscapes或DAVIS上的图像和视频分割任务上进行评估,并展示了在所有这些任务上单个编码器的强大性能。
作者希望MC-Jepa将成为基于多任务学习和联合嵌入架构的自我监督学习方法的第一步,可以在任何图像或视频数据上进行训练,并在各种任务(从运动预测任务到内容理解任务)上具有良好的泛化能力。
Method
本节中,作者将描述作者的架构和改进,用于采用分层粗到细的方法进行自我监督光流估计,作者方法的损失函数,自我监督的一般目标和多任务设置,数据采样策略以及一系列用于稳定训练的技巧。optical_flow节介绍了作者的光流估计方法M-JEPA,multi_task节介绍了作者如何将M-JEPA与多任务学习结合到作者的最终方法MC-Jepa中。
1. OPTICAL FLOW
给定一对RGB图像 和 ,相应的光流由对应关系图 定义,对于 中的给定位置,它表示 中对应像素的位置。目标是学习一个具有参数 的光流估计函数 ,它通过在图像序列集合 上进行训练,为一对图像输出光流 。无监督光流估计通常使用回归损失或光度一致性损失,确保由预测光流 扭曲的图像 与 保持一致,并使用正则化项来保持光流的平滑性。大多数方法在这些项的实现方式、编码器和光流估计器架构的细节以及额外的自我监督信号方面存在差异。
回归和平滑性: 作者使用了分层粗到细的光流估计器 PWC-Net,并将其适应于作者在附录中描述的自定义编码器架构。给定特征集 ,这些特征对应于金字塔的第 层,其中 ,用于图像 和 ,作者首先估计一个光流 ,然后通过在每一层预测残差流来逐渐提高分辨率:
作者的估计器 的工作方式如下。首先,特征 被扭曲为 ,然后计算出一个四维相关性体积 ,并将其输入到一个小型卷积网络 中,该网络预测残差流。然后,作者在编码器的中间特征层上使用多尺度损失,定义如下:
以及在最后一层进行的图像级别的重构损失:
其中 是一个损失函数,它是 、 和 损失的线性组合。此外,作者还使用了平滑性正则项,它约束生成的光流具有平滑性,并允许处理重复或无纹理的模式:
其中 和 是预测的光流在这些方向上受限制的方向,如果图像梯度没有显著变化,则流应保持稳定。
循环一致性: 光流估计是一个非对称操作,因为并非所有的 中的像素都对应于 ,反之亦然。对于给定的图像对,作者同时估计正向和反向光流。作者引入了一个循环一致性损失,限制了由 和 对 进行变形后与 匹配的特征。该损失的定义如下:
其中, 是将 按照光流 进行变形的操作。作者对损失进行了对称化处理,并对 执行相同的操作。为了处理遮挡,作者使用正向-反向一致性,只对在正向和反向光流中都有对应关系的像素应用 。
方差-协方差正则化: 最后,为了对作者的编码器生成的特征进行正则化,作者引入了一个方差-协方差正则化损失函数,定义如下:
其中, 是经验方差, 是在对特征进行中心化后得到的经验协方差矩阵。
2. MULTI-TASK SELF-SUPERVISED LEARNING
这一部分介绍了如何将M-JEPA与内容学习结合到作者最终的算法中。
学习内容特征: 作者遵循文献中的方法,通过对编码器进行预训练来学习内容特征,将图像的两个视图进行联合嵌入。作者使用图像转换(如随机裁剪和颜色扰动)生成这些视图。具体而言,作者使用VICReg目标函数并按照其协议进行操作。从未标记的训练数据集 中采样一个种子图像,使用常见的数据增强技术(如随机裁剪和颜色扰动)生成两个视图,然后将这些视图调整为固定大小并输入到编码器中,然后映射到一个扩展网络上,VICReg损失函数被应用于该网络。VICReg损失 类似于Vc_loss,此外还有一个不变性项( 损失),使得两个视图的嵌入更加接近,并在 上进行最小化。
多任务学习: 在训练的给定迭代中,作者从视频数据集中采样一个序列批次,并计算光流损失;然后从ImageNet中采样一批图像,并计算自监督学习损失;然后将这两个损失相加,并将梯度反向传播到作者的编码器、扩展器和光流估计网络中。编码器的架构和权重在两个任务之间共享。作者在上图中以概念示意图形式展示了作者的方法,并在下图中展示了详细的架构。
MC-Jepa优化的最终损失函数如下所示:
其中 是作者的视频序列数据集, 是作者的图像数据集。损失以作者精心调整的额外系数进行平衡。下图也展示了部分实验的效果,在下游任务上证明了该模型的能力
讨论
综合来说,作者介绍了MC-JEPA,这是一种多任务方法,通过自监督学习和光流估计来学习运动和内容特征。MC-JEPA在各种任务中表现良好,包括光流估计、图像和视频分割等。作者希望作者的方法能促进在自监督学习中使用多任务学习,这可能是通向学习适用于任何下游任务的特征的途径。未来的工作将从更大的自然视频集合中学习运动和内容,并在共享数据域中训练这两个目标,以层次化的方式捕捉短程和长程的相互作用。

公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货
# 极市平台签约作者#
米格
武汉大学计算机学院本科生
研究领域:少样本,零样本学习,以及开放世界中的视觉问题。
点击阅读原文进入CV社区
收获更多技术干货

