大数跨境
0
0

ClassDiffusion: 使用显式类别引导的一致性个性化生成

ClassDiffusion: 使用显式类别引导的一致性个性化生成 极市平台
2024-06-03
3
↑ 点击蓝字 关注极市平台
作者丨黄键楠
编辑丨极市平台

极市导读

 

本文通过两个重要观察及理论分析提出了新的观点:一致性的损失是个性化概念语义偏移导致的, 并据此提出了一个简单有效的方法ClassDiffusion来提升个性化生成的一致性。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

文章主页: https://classdiffusion.github.io/

论文地址: https://arxiv.org/abs/2405.17532v1

代码地址: https://github.com/Rbrq03/ClassDiffusion

一. 研究背景

个性化生成领域最近取得了飞速的发展, 但微调引入的过拟合导致模型无法生成与提示词一致的结果, 本文通过两个重要观察及理论分析提出了新的观点:一致性的损失是个性化概念语义偏移导致的, 并据此提出了一个简单有效的方法ClassDiffusion来提升个性化生成的一致性。文章还引入了BLIP2-T 来为个性化生成领域提供更公平有效的指标。

二. 实验观察

文章对之前方法微调后的模型进行了两个观测:

  1. 对文本空间进行观测, 发现个性化概念的语义(e.g. “a photo of a sks dog”)离类别分布中心(e.g. “a photo of a  dog”)的距离增大了。
  2. 发现随着优化步数和学习率的增加, 类别token的交叉注意力层激活程度呈现明显的下降趋势。

因此文章提出了一个理论: 一致性的缺失是由于个性化概念的语义偏移导致的。

三. 理论分析

由EBM[1]的结论可以得出:

其中为类别对应条件, 为模型隐式分类器, 将 , 分别记为 . 条件概率 的熵可以被计算为:

微调前后熵的变化可以被计算为:

结合文章的实验观测和概率论的性质, 有

熵的降低导致了在 条件下进行采样的难度增加,从而导致了一致性的降低。

四.方法介绍

ClassDiffusion引入了一个全新的损失函数Semantic Preservation Loss(SPL), 旨在缩小个性化概念与文本空间中超类分布中心之间的语义差距。用分别表示个性化短语和类短语的 CLIP 编码器输出的嵌入,语义保留损失可以用下式表示:

五.实验结果

ClassDiffusion可以生成比现有方法更好一致性的结果

量化对在沿用了当前工作使用的CLIP-T, CLIP-I, DINO-I指标外, 还引入了BLIP2-T以获得更公平有效的评价, 结果表明ClassDiffusion在与提示词的一致性上优于现有方法

六. 结论

文章通过实验观察和理论分析提供了对一致性损失解释的新理论, 并提出了ClassDiffusion以解决这个问题。同时文章将BLIP2-T引入以提供更公平有效的评测。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读5.7k
粉丝0
内容8.2k