点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
InstanceAssemble 是小红书发布的一个轻量级的布局到图像生成框架,能够实现精确的空间控制。还引入了 DenseLayout 和布局接地评分 (LGS) 来进行严格的评估,InstanceAssemble 在稀疏和密集布局上均取得了最先进的性能。
相关链接
-
论文:https://arxiv.org/pdf/2509.16691 -
模型:https://huggingface.co/FireRedTeam/InstanceAssemble -
代码:https://github.com/FireRedTeam/InstanceAssemble
介绍
扩散模型在高质量图像生成上能力出众,近期布局到图像(L2I)生成借助位置条件与文本描述实现精准可控合成,但现有方法性能仍有不足。为此,研究提出新架构 InstanceAssemble,它通过实例组装注意力机制融入布局条件,能利用边界框进行位置控制,还能对文本和额外视觉内容等多模态内容加以控制。该方法借助轻量级 LoRA 模块,可灵活适配现有基于 DiT 的文本到图像(T2I)模型。此外,研究还提出包含 5k 图像、90k 实例的 L2I 基准 Denselayout,以及可解释评估指标布局基础分数(LGS)。实验表明,InstanceAssemble 在复杂布局下性能卓越,且与多种风格 LoRA 模块兼容性强。
方法概述
ActiTok框架的核心在于其独特的行动分词器(Action Tokenizer)和基于Token的规划器(Token-based Planner)。
行动分词器 (Action Tokenizer):
-
功能: 将原始的、连续的高维行动(如机器人的关节角度、游戏手柄的摇杆位置)映射到离散的、低维的“行动词元”序列。 -
实现: 通常采用矢量量化变分自编码器(VQ-VAE) 或类似技术,学习一个“行动词表”(Action Vocabulary),将连续行动空间“压缩”成有限个有代表性的Token。 -
优势: 大幅降低了行动空间的复杂度,使得Agent更容易学习和理解。
基于Token的规划器 (Token-based Planner):
-
功能: 在离散的“行动词元”空间中进行搜索和规划,生成一系列Token序列作为行动计划。 -
实现: 可以结合强化学习、搜索算法(如MCTS)或大型语言模型(LLM)的推理能力,来预测和选择最优的Token序列。 -
优势: 规划过程更高效,且生成的行动计划更具可解释性。
行动解码器 (Action Decoder):
-
功能: 将规划器生成的“行动词元”序列,还原为Agent可以执行的原始连续行动指令。 -
实现: 与分词器相对应的解码结构,确保Token能准确“翻译”回具体动作。
实验结果
结论
InstanceAssemble作为一种创新的布局到图像生成方法,在保持基于DiT架构高质量生成能力的同时,实现了先进的布局对齐。其验证范围广泛,涵盖文本与视觉实例内容,且能适配多样风格LoRAs,具备跨领域泛化能力。此外,还引入新指标与数据集评估复杂布局下的性能。不过,该方法存在需优化之处,如需探索并行策略提升效率,且在极端复杂布局下图像保真度会下降。其强大能力有风险,需负责任地部署,推动其在设计等领域发挥积极作用。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

