大数跨境
0
0

快手可灵提出IMBA Loss,无需新数据,几行代码大幅提升生成模型概念组合成功率

快手可灵提出IMBA Loss,无需新数据,几行代码大幅提升生成模型概念组合成功率 快手技术
2025-11-13
3
导读:你是否有许多天马行空、奇思妙想的创意,因为生成模型的概念组合能力有限而无法实现?快手可灵团队最新提出的IMBA Loss帮助你美梦成真。

你是否有许多天马行空、奇思妙想的创意,因为生成模型的概念组合能力有限而无法实现?快手可灵团队最新提出的IMBA Loss帮助你美梦成真。概念组合要求模型能正确生成包含任意的动名词概念、任意组合关系的内容。


然而当出现不常见或反常识的组合关系时,即使是目前SOTA的生成模型,也会面临大量概念缺失、属性泄露、概念耦合等文图不一致的问题。例如图1(c),当我们反常识地构建“用镊子吃意面”的概念组合时,现有生成模型(SD3、DALL·E3)会错误地将镊子替换成叉子。因此,概念组合能力是目前AIGC领域(文生图、文生视频等)最核心的挑战,是生成模型泛化能力的重要表征


针对上述问题,快手可灵团队首先用实验分析证明,训练数据中概念的不均衡分布是影响概念组合能力的关键因素并进一步提出新的预训练损失函数IMBA Loss。无需增加新数据,仅修改几行代码,即可在训练过程中以token为最小粒度、自适应地修正不均衡的概念分布,大幅提升概念组合能力,同时适用于图像、视频等多种模态。该工作已被ICCV 2025收录。

图1  IMBA Loss预训练得到的模型用更少的数据(31M)实现了更强的概念组合能力



论文标题:

Imbalance in Balance: Online Concept Balancing in Generation Models

论文链接:https://arxiv.org/abs/2507.13345

开源代码:https://github.com/KwaiVGI/IMBA-Loss


一、概念组合能力影响因素分析



现有对生成数据的分析主要集中在类别生图任务上,概念数量有限、组合方式过于简单,无法体现文生图任务的复杂性。该论文首次在大规模文本-图像数据集上深度分析概念组合能力影响因素。概念组合能力通常被认为和模型尺寸、数据规模和数据分布三者有关。

如图2所示,该论文在31M高质量文图数据上from-scratch预训练生成模型,控制变量模型尺寸、数据规模和数据分布,证明在目前数据规模和模型尺寸达到一定体量的情况下,数据分布才是决定概念组合能力的主要影响因素,在概念分布均衡的数据上训练的模型,往往具备更强的概念组合能力。

图2 概念组合能力影响因素的控制变量实验。当数据规模和模型尺寸达到一定程度后,数据分布才是决定概念组合能力的主要影响因素。


二、自适应的概念均衡预训练损失函数



在自然情况下数据服从长尾分布,而其中不均衡的概念分布是影响概念组合能力的主要因素。由于每条训练数据中包含多种不同的概念,且不同训练数据的概念组合关系各不相同,因此直接构建概念分布均衡的数据集非常困难且成本极高,更高效的解法是修正现有训练集的不均衡分布。


然而,现有training-free的修正方案只能逐个例子优化,不能从根本上提高模型能力。而基于离线统计概念频率的修正方案无法建模不同概念的联合分布,成本高且难以快速泛化。因此,该论文提出了一个自适应的概念均衡预训练损失函数,在训练过程中实时计算loss weight修正概念不均衡的影响。


该论文首先通过公式推导得出,IMBA Distance可以作为模型学习到的概念分布的精确表征和度量,具体形式为GT噪声和模型预测的unconditional噪声的差值的L-γ范数。如图3所示,论文进一步通过合成实验和文生图实验证明:相较于长尾分布的头部概念,尾部的概念确实具有更大的IMBA Distance。


图3 文生图的实验证明尾部的概念具有更大的IMBA Distance。


由于IMBA Distance是token-level的度量,因此天然适用于建模文生图的概念联合分布。如算法1所示,将IMBA Distance作为loss weight加入传统的diffusion loss,即可得到自适应的概念均衡预训练损失函数IMBA loss。如图1和图4所示,实验证明仅需修改几行代码,即使训练数据远小于大模型,也能学习到更强的概念组合能力。同时,该损失函数在预训练和finetune阶段都有明显效果。

算法1 IMBA Loss

图4 IMBA loss可视化和量化实验对比


三、惰性概念评测基准



如图5所示,通过统计失败案例中概念的频次,论文发现尾部概念往往会产生更多的失败案例,命名为惰性概念。论文利用算法2构建一批惰性概念组成的Inert-CompBench,来补充现有的衡量概念组合能力的benchmark。

图5 尾部概念往往会产生更多的失败案例

算法2 Inert-CompBench构建流程


四、结论


这项工作首先用实验证明,当数据规模和模型尺寸达到一定程度后,不均衡的概念分布才是决定概念组合能力的主要影响因素。其次,提出自适应的概念均衡损失函数IMBA loss替代传统的Diffusion loss,只需几行代码即可大幅提高模型概念组合能力。最后,提出关注尾部概念的Inert-CompBench作为现有评价概念组合能力benchmark的补充。同时,该损失还适用于文生视频等其他模态的生成模型。


【END】

欢迎加入

图片

「我们是谁」

快手视觉生成与互动中心是「可灵」视频生成大模型背后的核心团队,主要技术方向是视觉内容生成和多模态互动。我们致力于通过计算机视觉/图形学、多模态机器学习、XR/HCI等多领域的交叉,一方面帮助每个人更好地表达自己和创作优质内容,另一方面为每个人提供更好的内容体验和交互方式。

「招聘岗位」

💼 社招/校招/实习岗位

    • AIGC视觉生成算法工程师/专家(北京、深圳)

    • 视频生成强化学习算法专家(北京、深圳)

    • 多模态理解生成统一模型-【可灵AI】(北京、深圳)

    • 多模态理解工程师-视觉生成(北京、深圳)

    • 多模态大模型数据处理算法工程师(北京、深圳)

    • 音视频联合生成大模型-【可灵AI】 (北京)

    • 大模型创作智能体算法工程师(北京)


    「欢迎加入」

    简历投递:zhangluowa@kuaishou.com(可内推/直投)

    【相关阅读】

    【声明】内容源于网络
    0
    0
    快手技术
    快手官方技术号,即时播报快手技术实践的最新动态
    内容 269
    粉丝 0
    快手技术 快手官方技术号,即时播报快手技术实践的最新动态
    总阅读91
    粉丝0
    内容269