01
引言
对比学习已成为视觉与视觉-语言任务中自监督学习突破的核心。在理解驱动对比学习的损失函数后,下一步需要掌握这些损失函数在实际训练流程中的实现机制。
本文将解析塑造现代表征学习的六大标杆性对比学习框架:
SimCLR :视觉表征的简单对比学习
MoCo: 基于动态记忆队列的动量对比
BYOL :潜在空间自举(无需负样本的对比学习)
SwAV: 通过交换分配实现的基于聚类的对比学习
Barlow Twins:无需负样本对的嵌入冗余抑制方法
NNCLR:基于最近邻语义正样本的对比学习
这些方法在正负样本构建策略、编码器使用方式和训练扩展性上各有创新,但共同目标都是:在没有显式标注的情况下学习丰富且有意义的表征。
02
SimCLR 是对比学习领域最具影响力的自监督学习框架之一,由 Google Brain 的研究人员开发。其核心目标在于:无需任何标注即可学习丰富且具有语义信息的图像表征。
论文:https://arxiv.org/abs/2002.05709
其核心思想是:最大化同一图像两个数据增强之后的相似性,同时最小化与批次中其他图像的相似性。这可以训练模型专注于语义内容,而不是颜色或方向等表面变化。
技术实现流程
-
数据增强:对每张图像应用两次增强(如裁剪、翻转、色彩失真、模糊等),构建正样本对 -
特征提取:通过主干编码器(如ResNet-50)提取各图像的高维特征向量 -
投影头处理:经小型MLP投影头将特征映射至潜在空间,在此空间应用对比损失 -
NT-Xent损失:采用归一化温度缩放交叉熵损失,拉近正样本对距离,推远批次内所有其他负样本
关键洞察
批次中的所有其他图像都充当负例,这就是为什么 SimCLR 受益于非常大的批次大小。
为什么强大?
SimCLR重塑了视觉自监督学习的性能基准,为CLIP、DINO等突破性模型奠定基础
03
当SimCLR证明了大批量对比学习的威力时,来自Facebook AI Research的MoCo(动量对比)针对关键挑战提出了创新解决方案:
当计算资源不足以支持大批量训练时,该怎么办?
MoCo 由 Facebook AI Research 提出,重新思考了在对比学习中处理负样本的方式。它不依赖于大批量,而是维护一个负例队列(记忆库),并通过动量编码器缓慢更新这些负例。这使得模型能够在不同的小批次中访问大量且一致的负例集合。
论文:https://arxiv.org/abs/1911.05722
工作原理
双编码器架构:
查询query编码器:处理当前批次数据并学习表征
正负样本构建
每个输入图像经两次增强生成查询(query)和键(key)构成正样本对
负样本来自存储历史批次键值的队列(突破当前批次限制)
-
动量更新机制
键编码器权重不直接通过梯度更新
-
对比损失函数
核心优势
动量编码器确保队列特征一致性,避免突变带来的训练不稳定
行业影响
MoCo的模块化设计展现出极强扩展性,不仅衍生出MoCo v2/v3等改进版本,更成为自监督视觉Transformer训练的基石性技术。
04
在对比学习领域最引人入胜的先进发展之一是 BYOL(Bootstrap Your Own Latent),由 DeepMind 开发。与 SimCLR 或 MoCo 不同,BYOL 打破了对比学习中需要负样本的传统规则,但它仍然表现出色,效果令人惊叹。
论文:https://arxiv.org/pdf/2006.07733
那么,BYOL 如何在不与负样本进行对比的情况下,学习到有意义的表示呢?
关键洞察
BYOL 使用两个网络:一个在线网络(online network)和一个目标网络(target network)——并训练在线网络去预测目标网络的表示。这两个网络看到的是同一图片的不同增强版本。
不是通过对比负样本,BYOL 依赖于一致性学习:它鼓励在线网络产生的嵌入与目标网络的嵌入相似,而目标网络则是在线网络的滑动平均(EMA)。
工作原理
-
数据增强:输入图像被增强两次,创建两个不同的视图:v 和 v′。这两个视图分别传入在线网络和目标网络。
-
双网络: 在线网络:由一个编码器 fθ、一个投影头 gθ 和一个预测器 qθ 组成。 目标网络:与在线网络(编码器和投影头)具有相同的架构,但没有预测器。它不通过梯度更新,而是通过在线网络指数移动平均(EMA)来更新。 -
训练目标: 模型最小化一个视图的预测嵌入与另一个视图的目标网络嵌入之间的距离。 无需对比损失或负样本对——只需对两个增强视图进行对齐。
BYOL 的特别之处
首次证明负样本非必要即可实现高效表征学习
在ImageNet上达到当时最先进水平,并展现优异下游任务迁移能力
开创了"纯正样本对比学习"新范式
行业影响
BYOL 启发了一系列新的自监督方法(如 SimSiam),并证明了表征学习可以从自身进行引导增强(bootstrap)。
05
SwAV是Facebook AI Research提出的一种基于聚类的对比学习自监督方法。
论文:https://arxiv.org/abs/2006.09882
与SimCLR、MoCo或BYOL等直接比较单个图像嵌入的方法不同,SwAV创新性地通过在不同增强视图间交换聚类分配进行学习。
核心思想
SwAV避免了传统对比方法中的显式两两比较,而是:
-
在线对数据进行聚类, -
鼓励同一图像的不同增强视图在聚类分配上保持一致。
通过这种方式,它将不同视图的表征在共享的聚类空间中对齐,兼具对比性和高效性。
工作原理
-
数据增强:与SimCLR和BYOL类似,SwAV首先生成同一图像的多个增强版本,但不同于直接计算嵌入相似度,它比较这些视图的聚类分配结果
-
原型聚类: SwAV维护一组可训练的原型向量
网络通过softmax为每个增强视图预测这些原型的软分配
随后在不同增强视图间交换这些分配——因此得名"SwAV"
-
分配交换:
损失函数要求视图1的分配与视图2的预测分配相匹配(反之亦然)
这构成了其"基于聚类的对比学习"核心——无需负样本对或大批量
-
在线码本优化: 采用Sinkhorn-Knopp算法实现跨批次的平衡聚类分配,确保高效学习
技术优势
需大批量(区别于SimCLR和MoCo)
将对比学习与聚类结合,提供结构化学习目标
以更少资源在ImageNet上实现SOTA效果
行业影响
SwAV证明了自监督聚类能达到与对比学习相当的效果,在GPU/内存受限场景中表现尤为突出。
06
Barlow Twins是由Facebook AI Research团队提出的一种自监督学习方法,其创新性地通过降低特征冗余性来实现对比学习。
论文:https://arxiv.org/abs/2103.03230
与依赖负样本的SimCLR、MoCo或基于聚类的SwAV不同,Barlow Twins在要求同一图像的两个增强视图嵌入相似的同时,还强制特征维度间去相关,从而让每个维度捕获独特且有意义的信息,形成更丰富的表征。
核心思想
-
对同一图像生成两个增强视图
-
通过共享编码器获取它们的嵌入向量
-
计算嵌入向量的互相关矩阵
-
最小化该矩阵与单位矩阵的差异
-
不变性:两个视图的嵌入尽可能相似
-
冗余抑制:嵌入向量的每个维度携带独立信息
工作原理
-
双视图增强:同一图像经过两种不同增强(如裁剪、模糊等),输入共享编码器(如ResNet-50)
-
投影头处理:嵌入向量通过小型MLP投影头映射到公共潜在空间(类似SimCLR)
-
互相关矩阵(C):计算两个嵌入向量的跨维度相似性矩阵
-
损失函数
-
C矩阵对角线元素趋近1(强制视图相似) -
C矩阵非对角线元素趋近0(抑制特征间冗余)
技术优势
无需负样本、动量编码器或聚类——仅通过冗余抑制实现学习
即使小批量训练也能表现优异
迫使模型学习非冗余的多样化特征,对分类/检索等下游任务至关重要
行业影响
Barlow Twins证明了仅通过最小化冗余性就能学习有效视觉表征,革新了人们对自监督特征学习的认知。
07
NNCLR(最近邻对比学习)是Google Brain团队对传统对比学习框架的巧妙改进。
论文:https://arxiv.org/abs/2104.14548
它在SimCLR的基础上进行创新,用表征空间中的最近邻样本替代增强视图作为正样本,从而提供了一种更灵活、更具适应性的正样本选择策略。
核心突破
传统方法(如SimCLR)使用同一图像的两个增强视图作为正样本对,而NNCLR则:
-
将单张增强图像作为锚点(anchor) -
从动态更新的记忆库(存储近期训练批次数据)中检索其表征空间最近邻作为正样本
这一改变带来显著优势:
模型不仅学习对数据增强的不变性,还能捕捉语义相似样本的共性特征
工作原理
-
单视图增强:每个图像仅生成一个增强版本(区别于SimCLR的双增强)
-
编码与投影:通过编码器(如ResNet)和投影头生成嵌入向量
-
最近邻检索: 基于余弦相似度,从记忆库中动态检索当前样本的最近邻(而非自身增强视图)
-
对比损失(InfoNCE):以检索到的近邻为正样本,批次内其他样本为负样本
技术优势
语义多样性:通过相似样本构建正样本对,增强模型对数据本质特征的捕捉能力
架构简化:无需双视图增强,降低计算复杂度
动态进化:随着训练进行,记忆库中的近邻质量持续提升,形成自我强化循环
价值
-
对数据增强强度的依赖性更低
-
学习到更具泛化性和语义意义的表征
-
特别适用于传统增强方法(如裁剪/模糊)难以覆盖语义相似性的场景
07
这些开创性框架彻底改变了机器学习从无标注数据中学习的方式。从SimCLR基于数据增强的强大策略、MoCo的动态记忆队列,到BYOL创新的孪生网络架构,再到NNCLR具有语义感知能力的正样本选择——每种方法都通过独特的技术创新,使表征学习变得更高效、更鲁棒。
这些框架绝非纸上谈兵,它们已成为计算机视觉、视觉语言理解及自监督学习领域众多前沿模型的基石。
点击上方小卡片关注我
添加个人微信,进专属粉丝群!
部分内容来自互联网,仅供学习交流,侵权请联系删除!

