大数跨境
0
0

NeurIPS 2025 | 小红书开源InstanceAssemble:轻量、精准、多模态,复杂布局生成精准可控。模型已开源。

NeurIPS 2025 | 小红书开源InstanceAssemble:轻量、精准、多模态,复杂布局生成精准可控。模型已开源。 AIGC Studio
2026-01-06
7
导读:添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

InstanceAssemble 是小红书发布的一个轻量级的布局到图像生成框架,能够实现精确的空间控制。还引入了 DenseLayout 和布局接地评分 (LGS) 来进行严格的评估,InstanceAssemble 在稀疏和密集布局上均取得了最先进的性能。

相关链接

  • 论文:https://arxiv.org/pdf/2509.16691
  • 模型:https://huggingface.co/FireRedTeam/InstanceAssemble
  • 代码:https://github.com/FireRedTeam/InstanceAssemble

介绍

扩散模型在高质量图像生成上能力出众,近期布局到图像(L2I)生成借助位置条件与文本描述实现精准可控合成,但现有方法性能仍有不足。为此,研究提出新架构 InstanceAssemble,它通过实例组装注意力机制融入布局条件,能利用边界框进行位置控制,还能对文本和额外视觉内容等多模态内容加以控制。该方法借助轻量级 LoRA 模块,可灵活适配现有基于 DiT 的文本到图像(T2I)模型。此外,研究还提出包含 5k 图像、90k 实例的 L2I 基准 Denselayout,以及可解释评估指标布局基础分数(LGS)。实验表明,InstanceAssemble 在复杂布局下性能卓越,且与多种风格 LoRA 模块兼容性强。

方法概述

ActiTok框架的核心在于其独特的行动分词器(Action Tokenizer)和基于Token的规划器(Token-based Planner)。

行动分词器 (Action Tokenizer):

  • 功能: 将原始的、连续的高维行动(如机器人的关节角度、游戏手柄的摇杆位置)映射到离散的、低维的“行动词元”序列。
  • 实现: 通常采用矢量量化变分自编码器(VQ-VAE) 或类似技术,学习一个“行动词表”(Action Vocabulary),将连续行动空间“压缩”成有限个有代表性的Token。
  • 优势: 大幅降低了行动空间的复杂度,使得Agent更容易学习和理解。

基于Token的规划器 (Token-based Planner):

  • 功能: 在离散的“行动词元”空间中进行搜索和规划,生成一系列Token序列作为行动计划。
  • 实现: 可以结合强化学习、搜索算法(如MCTS)或大型语言模型(LLM)的推理能力,来预测和选择最优的Token序列。
  • 优势: 规划过程更高效,且生成的行动计划更具可解释性。

行动解码器 (Action Decoder):

  • 功能: 将规划器生成的“行动词元”序列,还原为Agent可以执行的原始连续行动指令。
  • 实现: 与分词器相对应的解码结构,确保Token能准确“翻译”回具体动作。

实验结果

结论

InstanceAssemble作为一种创新的布局到图像生成方法,在保持基于DiT架构高质量生成能力的同时,实现了先进的布局对齐。其验证范围广泛,涵盖文本与视觉实例内容,且能适配多样风格LoRAs,具备跨领域泛化能力。此外,还引入新指标与数据集评估复杂布局下的性能。不过,该方法存在需优化之处,如需探索并行策略提升效率,且在极端复杂布局下图像保真度会下降。其强大能力有风险,需负责任地部署,推动其在设计等领域发挥积极作用。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

【声明】内容源于网络
0
0
AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
内容 936
粉丝 0
AIGC Studio 一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
总阅读5.5k
粉丝0
内容936