你是否有许多天马行空、奇思妙想的创意,因为生成模型的概念组合能力有限而无法实现?快手可灵团队最新提出的IMBA Loss帮助你美梦成真。概念组合要求模型能正确生成包含任意的动名词概念、任意组合关系的内容。
然而当出现不常见或反常识的组合关系时,即使是目前SOTA的生成模型,也会面临大量概念缺失、属性泄露、概念耦合等文图不一致的问题。例如图1(c),当我们反常识地构建“用镊子吃意面”的概念组合时,现有生成模型(SD3、DALL·E3)会错误地将镊子替换成叉子。因此,概念组合能力是目前AIGC领域(文生图、文生视频等)最核心的挑战,是生成模型泛化能力的重要表征。
图1 IMBA Loss预训练得到的模型用更少的数据(31M)实现了更强的概念组合能力
论文标题:
Imbalance in Balance: Online Concept Balancing in Generation Models
论文链接:https://arxiv.org/abs/2507.13345
开源代码:https://github.com/KwaiVGI/IMBA-Loss
图2 概念组合能力影响因素的控制变量实验。当数据规模和模型尺寸达到一定程度后,数据分布才是决定概念组合能力的主要影响因素。
在自然情况下数据服从长尾分布,而其中不均衡的概念分布是影响概念组合能力的主要因素。由于每条训练数据中包含多种不同的概念,且不同训练数据的概念组合关系各不相同,因此直接构建概念分布均衡的数据集非常困难且成本极高,更高效的解法是修正现有训练集的不均衡分布。
然而,现有training-free的修正方案只能逐个例子优化,不能从根本上提高模型能力。而基于离线统计概念频率的修正方案无法建模不同概念的联合分布,成本高且难以快速泛化。因此,该论文提出了一个自适应的概念均衡预训练损失函数,在训练过程中实时计算loss weight修正概念不均衡的影响。
该论文首先通过公式推导得出,IMBA Distance可以作为模型学习到的概念分布的精确表征和度量,具体形式为GT噪声和模型预测的unconditional噪声的差值的L-γ范数。如图3所示,论文进一步通过合成实验和文生图实验证明:相较于长尾分布的头部概念,尾部的概念确实具有更大的IMBA Distance。
这项工作首先用实验证明,当数据规模和模型尺寸达到一定程度后,不均衡的概念分布才是决定概念组合能力的主要影响因素。其次,提出自适应的概念均衡损失函数IMBA loss替代传统的Diffusion loss,只需几行代码即可大幅提高模型概念组合能力。最后,提出关注尾部概念的Inert-CompBench作为现有评价概念组合能力benchmark的补充。同时,该损失还适用于文生视频等其他模态的生成模型。
【END】
欢迎加入
快手视觉生成与互动中心是「可灵」视频生成大模型背后的核心团队,主要技术方向是视觉内容生成和多模态互动。我们致力于通过计算机视觉/图形学、多模态机器学习、XR/HCI等多领域的交叉,一方面帮助每个人更好地表达自己和创作优质内容,另一方面为每个人提供更好的内容体验和交互方式。
「招聘岗位」
💼 社招/校招/实习岗位
AIGC视觉生成算法工程师/专家(北京、深圳)
视频生成强化学习算法专家(北京、深圳)
多模态理解生成统一模型-【可灵AI】(北京、深圳)
多模态理解工程师-视觉生成(北京、深圳)
多模态大模型数据处理算法工程师(北京、深圳)
音视频联合生成大模型-【可灵AI】 (北京)
大模型创作智能体算法工程师(北京)
「欢迎加入」
简历投递:zhangluowa@kuaishou.com(可内推/直投)


