极市导读
PRG 把预训练扩散/流模型“倒着跑”当特征提取器:从图像→噪声的逆向轨迹任一点接分类器,无需修改生成结构即实现统一无监督表征,ImageNet 64×64 上 top-1 达 78.1%,代码已开源。>>加入极市CV技术交流群,走在计算机视觉的最前沿
"我无法创造的东西,我就无法理解。"——理查德·费曼
这句名言最近在计算机视觉圈火了!因为ICCV 2025的一篇重磅论文,用生成模型的"逆向思维",在无监督视觉表征学习领域搞出了大动作。
想象一下:让 diffusion 模型倒着跑,居然能当特征提取器用?还在 ImageNet 上跑出了78%的 top-1 准确率?今天就带大家扒一扒这篇题为《Pretrained Reversible Generation as Unsupervised Visual Representation Learning》的神作!
论文信息
-
题目:Pretrained Reversible Generation as Unsupervised Visual Representation Learning
-
预训练可逆生成用于无监督视觉表征学习
-
作者:Rongkun Xue, Jinouwen Zhang, Yazhe Niu, Dazhong Shen, Bingqi Ma, Yu Liu, Jing Yang
-
源码:https://opendilab.github.io/PRG/
01 生成模型的"叛逆"用法
1.1 痛点:生成模型的潜力被浪费了
diffusion 模型、流模型这些生成大佬,在画图这件事上已经卷到飞起。但在分类、检测这些判别任务上,之前的用法都太"憋屈"了:
-
要么从模型中间层硬抠特征 -
要么设计一堆复杂的组合规则 -
性能还干不过专门的判别模型
就拿扩散模型来说,明明学透了数据分布,却只能在生成任务里打转,太可惜了!
1.2 新思路:让生成过程倒过来跑
这篇论文的核心脑洞特别简单:既然生成模型能从噪声一步步变成图像,那反过来,从图像一步步变回噪声的过程,不就能提取特征吗?作者把这个思路叫做 PRG(预训练可逆生成)方法。简单说就是:
-
先正常训练一个生成模型(扩散或流模型) -
把生成过程倒过来,变成"推理过程" -
用这个逆向过程提取的特征做下游任务
最绝的是,它完全不依赖生成模型的内部结构,U-Net 也好,Transformer 也罢,拿来就能用!
02 PRG 方法到底牛在哪?
2.1 理论支撑:互信息最大化
从信息论角度看,好的特征提取就是要让输入图像和提取的特征"关系铁"(互信息大)。作者证明了:
预训练扩散/流模型的过程,本质上是在最大化图像和逆向特征的互信息
这意味着,生成模型预训练得越好,逆向提取的特征质量就越高。实验也印证了这一点:预训练 epoch 越多,互信息越高,分类准确率也跟着涨。
2.2 方法框架:两阶段走天下
PRG 采用经典的"预训练+微调"范式,但每一步都有巧思:
第一阶段:预训练生成模型
-
可以是扩散模型(用 PRG-GVP 路径) -
也可以是流模型(PRG-ICFM 或 PRG-OTCFM 路径) -
核心是学一个高质量的速度场 v(xₜ)
第二阶段:逆向微调做任务
-
把生成过程倒过来,从图像 x₀ 推到潜在变量 x₁ -
用 xₜ(逆向过程中任意时刻的特征)训练分类器 -
关键是:生成模型和分类器要一起微调
2.3 三大核心优势
-
模型无关:不管生成模型用什么架构,都能输出一致的潜在变量 -
无限层特性:利用连续时间 ODE 的特性,理论上有无限层表达能力 -
超强鲁棒性:从逆向轨迹的任意点都能提取有效特征,对时间步长不敏感
03 实验结果:全面碾压基线
3.1 分类性能直接封神
在三大数据集上,PRG 把基于生成模型的分类方法按在地上摩擦:
-
CIFAR-10:97.59%(比 DDAE 高3个百分点) -
Tiny-ImageNet:71.12%(刷新生成模型记录) -
ImageNet(64×64):78.1%(这成绩谁看了不说绝)
3.2 分布外鲁棒性惊人
面对图像损坏(如模糊、噪声),PRG 表现出极强的抗干扰能力。在 CIFAR-10-C 和 Tiny-ImageNet-C 上,不用专门的对抗训练,就比很多增强方法效果好(见表6)。
3.3 迁移学习能力MAX
把预训练的 SiT-XL 模型拿过来微调,在 CIFAR-10 上轻松跑到96.8%,证明 PRG 能完美借力社区的大模型(见表7)。
04 ablation study 有哪些洞见?
-
预训练越充分越好:如图4所示,预训练不足会严重限制性能 -
微调策略有讲究:复杂数据集(如 Tiny-ImageNet)需要更长的逆向轨迹 -
模型直线度影响效率:轨迹越接近直线的生成模型,训练效率越高 -
β参数要调好:平衡生成损失和分类损失很重要(见表9)
05 总结:生成模型的新春天
这篇论文最牛的地方,是找到了生成模型和判别任务之间的"任督二脉"。通过逆向生成过程,既保留了生成模型学习数据分布的优势,又避开了设计复杂特征提取器的坑。未来值得期待的方向:
-
结合更大的开源生成模型(如 SD3、DALL·E 3) -
优化训练效率,适应更高分辨率图像 -
拓展到目标检测、语义分割等更复杂任务
如果你也觉得这个思路很妙,赶紧去看原文(源码:https://opendilab.github.io/PRG/),说不定下一个突破就藏在这些逆向思维里呢!
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

