点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
浙江大学 ReLER 团队提出的 ContextGen 是一种新颖的基于 Diffusion Transformer (DiT) 的多实例图像生成方法,通过上下文双重注意力机制,可同时实现对多个实体的精确布局控制和高保真的身份注入。
团队还在项目文件中提供了一个简单的前端界面,用户可以方便地上传参考图像并设计布局,从而定制化生成多实例图像。
相关链接
-
论文:https://arxiv.org/abs/2510.11000 -
项目:https://nenhang.github.io/ContextGen -
代码:https://github.com/nenhang/ContextGen -
权重:https://huggingface.co/ruihangxu/ContextGen
论文介绍
方法概述
ContextGen 构建于 DiT 基础模型之上,旨在实现多实例图像生成(MIG)中布局控制和身份保持的双重控制。该框架将布局图像和多张参考图像连接成统一的上下文序列,并通过双重上下文注意力机制在 DiT 的不同层级进行分层控制,以实现对宏观布局和微观身份的解耦管理。
(a) 双重上下文注意力机制
ContextGen 的核心在于将宏观结构控制和微观身份注入进行解耦:
-
上下文布局锚定 (Contextual Layout Anchoring, CLA): 部署在 DiT 的前置和后置层,专注于全局结构信息。CLA 负责利用上下文中的布局图像来学习布局信息,鲁棒地锚定对象到期望的空间位置,确保精确的布局控制。 -
身份一致性注意力 (Identity Consistency Attention, ICA): 部署在 DiT 的中间层,专注于高频的细粒度身份信息。ICA 通过隔离式注意力掩码,让待去噪图像中的实例区域 Token 只参考其对应的参考图像 Token,保障多主体身份高保真、不混淆地注入生成过程中。
(b) DPO 强化学习优化
为避免监督微调导致的布局僵硬复制,团队在训练中引入了基于偏好优化 (DPO) 的强化学习阶段,以解决模型僵硬复制布局图像的问题,提升了生成图像的多样性和自然度。
大规模 IMIG-100K 数据集
利用现有 LLM 与一些开源工具,团队构建了 IMIG-100K,这首个专门面向图像引导多实例生成任务设计的、包含详细的布局和身份标注的大规模合成数据集,为开放集 MIG 研究提供了重要的数据基础。
实验结果
定量比较:在 COCO-MIG 和 LayoutSAM-Eval 基准上,ContextGen 在布局准确性、实例属性保持等指标上显著优于现有方法。其中,COCO-MIG 的空间准确性 (mIoU) 提升 **+5.9%**。在 LAMICBench++ 身份保持测试中,ContextGen 全面超越开源 SOTA 模型。
定性结果:ContextGen 在复杂的多主体任务中,实现了对多个实例细节(如颜色材质、面部特征)的高保真还原,其身份保持能力可媲美 GPT-4o 和 Nano Banana 等强大闭源模型。
结论
论文提出了一种新颖的 ContextGen 框架,该框架通过双重注意力机制实现分层解耦,从而解决了多实例生成中布局控制与身份保持的技术难题。通过集成双注意力模块和 DPO 优化,ContextGen 能够同时实现高保真的身份注入和稳健的布局控制,同时又不失多样性和自然度。大量实验验证了 ContextGen 达到了领先性能,尤其在生成具有多个定制化实体方面表现出色。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

