大数跨境
0
0

ICCV 2025 | 颠覆传统特征提取!PRG 以连续时间流模型为基,实现无限层表达力与高效微调

ICCV 2025 | 颠覆传统特征提取!PRG 以连续时间流模型为基,实现无限层表达力与高效微调 极市平台
2025-11-04
1
导读:↑ 点击蓝字 关注极市平台作者丨来源丨编辑丨极市平台极市导读 导读 >>加入极市CV技术交流群,走在计算机视觉
↑ 点击蓝字 关注极市平台
作者丨小白
来源丨小白学视觉
编辑丨极市平台

极市导读

 

PRG 把预训练扩散/流模型“倒着跑”当特征提取器:从图像→噪声的逆向轨迹任一点接分类器,无需修改生成结构即实现统一无监督表征,ImageNet 64×64 上 top-1 达 78.1%,代码已开源。>>加入极市CV技术交流群,走在计算机视觉的最前沿

"我无法创造的东西,我就无法理解。"——理查德·费曼

这句名言最近在计算机视觉圈火了!因为ICCV 2025的一篇重磅论文,用生成模型的"逆向思维",在无监督视觉表征学习领域搞出了大动作。

想象一下:让 diffusion 模型倒着跑,居然能当特征提取器用?还在 ImageNet 上跑出了78%的 top-1 准确率?今天就带大家扒一扒这篇题为《Pretrained Reversible Generation as Unsupervised Visual Representation Learning》的神作!

论文信息

  • 题目:Pretrained Reversible Generation as Unsupervised Visual Representation Learning

  • 预训练可逆生成用于无监督视觉表征学习

  • 作者:Rongkun Xue, Jinouwen Zhang, Yazhe Niu, Dazhong Shen, Bingqi Ma, Yu Liu, Jing Yang

  • 源码:https://opendilab.github.io/PRG/

01 生成模型的"叛逆"用法

1.1 痛点:生成模型的潜力被浪费了

diffusion 模型、流模型这些生成大佬,在画图这件事上已经卷到飞起。但在分类、检测这些判别任务上,之前的用法都太"憋屈"了:

  • 要么从模型中间层硬抠特征
  • 要么设计一堆复杂的组合规则
  • 性能还干不过专门的判别模型

就拿扩散模型来说,明明学透了数据分布,却只能在生成任务里打转,太可惜了!

1.2 新思路:让生成过程倒过来跑

这篇论文的核心脑洞特别简单:既然生成模型能从噪声一步步变成图像,那反过来,从图像一步步变回噪声的过程,不就能提取特征吗?作者把这个思路叫做 PRG(预训练可逆生成)方法。简单说就是:

  1. 先正常训练一个生成模型(扩散或流模型)
  2. 把生成过程倒过来,变成"推理过程"
  3. 用这个逆向过程提取的特征做下游任务

最绝的是,它完全不依赖生成模型的内部结构,U-Net 也好,Transformer 也罢,拿来就能用!

02 PRG 方法到底牛在哪?

2.1 理论支撑:互信息最大化

从信息论角度看,好的特征提取就是要让输入图像和提取的特征"关系铁"(互信息大)。作者证明了:

预训练扩散/流模型的过程,本质上是在最大化图像和逆向特征的互信息

这意味着,生成模型预训练得越好,逆向提取的特征质量就越高。实验也印证了这一点:预训练 epoch 越多,互信息越高,分类准确率也跟着涨。

预训练过程中互信息单调上升,和分类性能正相关
预训练过程中互信息单调上升,和分类性能正相关

2.2 方法框架:两阶段走天下

PRG 采用经典的"预训练+微调"范式,但每一步都有巧思:

第一阶段:预训练生成模型

  • 可以是扩散模型(用 PRG-GVP 路径)
  • 也可以是流模型(PRG-ICFM 或 PRG-OTCFM 路径)
  • 核心是学一个高质量的速度场 v(xₜ)

第二阶段:逆向微调做任务

  • 把生成过程倒过来,从图像 x₀ 推到潜在变量 x₁
  • 用 xₜ(逆向过程中任意时刻的特征)训练分类器
  • 关键是:生成模型和分类器要一起微调
冻结生成模型(浅色)和端到端训练(深色)的性能差距巨大
冻结生成模型(浅色)和端到端训练(深色)的性能差距巨大

2.3 三大核心优势

  • 模型无关:不管生成模型用什么架构,都能输出一致的潜在变量
  • 无限层特性:利用连续时间 ODE 的特性,理论上有无限层表达能力
  • 超强鲁棒性:从逆向轨迹的任意点都能提取有效特征,对时间步长不敏感

03 实验结果:全面碾压基线

3.1 分类性能直接封神

在三大数据集上,PRG 把基于生成模型的分类方法按在地上摩擦:

  • CIFAR-10:97.59%(比 DDAE 高3个百分点)
  • Tiny-ImageNet:71.12%(刷新生成模型记录)
  • ImageNet(64×64):78.1%(这成绩谁看了不说绝)
在 ImageNet 上秒杀所有生成模型方法
在 ImageNet 上秒杀所有生成模型方法

3.2 分布外鲁棒性惊人

面对图像损坏(如模糊、噪声),PRG 表现出极强的抗干扰能力。在 CIFAR-10-C 和 Tiny-ImageNet-C 上,不用专门的对抗训练,就比很多增强方法效果好(见表6)。

3.3 迁移学习能力MAX

把预训练的 SiT-XL 模型拿过来微调,在 CIFAR-10 上轻松跑到96.8%,证明 PRG 能完美借力社区的大模型(见表7)。

迁移预训练大模型效果显著
迁移预训练大模型效果显著

04 ablation study 有哪些洞见?

  1. 预训练越充分越好:如图4所示,预训练不足会严重限制性能
  2. 微调策略有讲究:复杂数据集(如 Tiny-ImageNet)需要更长的逆向轨迹
  3. 模型直线度影响效率:轨迹越接近直线的生成模型,训练效率越高
  4. β参数要调好:平衡生成损失和分类损失很重要(见表9)
微调中模型会过滤无关特征,互信息下降但准确率上升
微调中模型会过滤无关特征,互信息下降但准确率上升

05 总结:生成模型的新春天

这篇论文最牛的地方,是找到了生成模型和判别任务之间的"任督二脉"。通过逆向生成过程,既保留了生成模型学习数据分布的优势,又避开了设计复杂特征提取器的坑。未来值得期待的方向:

  • 结合更大的开源生成模型(如 SD3、DALL·E 3)
  • 优化训练效率,适应更高分辨率图像
  • 拓展到目标检测、语义分割等更复杂任务

如果你也觉得这个思路很妙,赶紧去看原文(源码:https://opendilab.github.io/PRG/),说不定下一个突破就藏在这些逆向思维里呢!


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读7.6k
粉丝0
内容8.2k