NeurIPS 2025 | 小红书开源InstanceAssemble：轻量、精准、多模态，复杂布局生成精准可控。模型已开源。- 大数跨境

首页

NeurIPS 2025 | 小红书开源InstanceAssemble：轻量、精准、多模态，复杂布局生成精准可控。模型已开源。

AIGC Studio

2026-01-06

导读：添加微信号：AIGC_Tech，公众号小助手会拉你进群！点击下方名片关注AIGC Studio公众号！

添加微信号：AIGC_Tech，公众号小助手会拉你进群！

点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

InstanceAssemble 是小红书发布的一个轻量级的布局到图像生成框架，能够实现精确的空间控制。还引入了 DenseLayout 和布局接地评分 (LGS) 来进行严格的评估，InstanceAssemble 在稀疏和密集布局上均取得了最先进的性能。

介绍

扩散模型在高质量图像生成上能力出众，近期布局到图像（L2I）生成借助位置条件与文本描述实现精准可控合成，但现有方法性能仍有不足。为此，研究提出新架构 InstanceAssemble，它通过实例组装注意力机制融入布局条件，能利用边界框进行位置控制，还能对文本和额外视觉内容等多模态内容加以控制。该方法借助轻量级 LoRA 模块，可灵活适配现有基于 DiT 的文本到图像（T2I）模型。此外，研究还提出包含 5k 图像、90k 实例的 L2I 基准 Denselayout，以及可解释评估指标布局基础分数（LGS）。实验表明，InstanceAssemble 在复杂布局下性能卓越，且与多种风格 LoRA 模块兼容性强。

方法概述

ActiTok框架的核心在于其独特的行动分词器（Action Tokenizer）和基于Token的规划器（Token-based Planner）。

行动分词器 (Action Tokenizer)：

功能：将原始的、连续的高维行动（如机器人的关节角度、游戏手柄的摇杆位置）映射到离散的、低维的“行动词元”序列。
实现：通常采用矢量量化变分自编码器（VQ-VAE）或类似技术，学习一个“行动词表”（Action Vocabulary），将连续行动空间“压缩”成有限个有代表性的Token。
优势：大幅降低了行动空间的复杂度，使得Agent更容易学习和理解。

基于Token的规划器 (Token-based Planner)：

功能：在离散的“行动词元”空间中进行搜索和规划，生成一系列Token序列作为行动计划。
实现：可以结合强化学习、搜索算法（如MCTS）或大型语言模型（LLM）的推理能力，来预测和选择最优的Token序列。
优势：规划过程更高效，且生成的行动计划更具可解释性。

行动解码器 (Action Decoder)：

功能：将规划器生成的“行动词元”序列，还原为Agent可以执行的原始连续行动指令。
实现：与分词器相对应的解码结构，确保Token能准确“翻译”回具体动作。

实验结果

结论

InstanceAssemble作为一种创新的布局到图像生成方法，在保持基于DiT架构高质量生成能力的同时，实现了先进的布局对齐。其验证范围广泛，涵盖文本与视觉实例内容，且能适配多样风格LoRAs，具备跨领域泛化能力。此外，还引入新指标与数据集评估复杂布局下的性能。不过，该方法存在需优化之处，如需探索并行策略提升效率，且在极端复杂布局下图像保真度会下降。其强大能力有风险，需负责任地部署，推动其在设计等领域发挥积极作用。