大数跨境
0
0

NIPS 2025 | 复旦 Seg2Any 横空出世:多模态融合 + 细粒度控制,S2I 生成领域新标杆

NIPS 2025 | 复旦 Seg2Any 横空出世:多模态融合 + 细粒度控制,S2I 生成领域新标杆 Hello World Model
2025-12-07
2
导读:点击下方名片,获取你的下一个灵感实例。在文本到图像生成技术飞速发展的今天,一个关键挑战始终存在:如何让AI根据分割掩码精准生成既符合语义描述、又严格遵循形状约束的图像?

点击下方名片,获取你的下一个灵感实例。

在文本到图像生成技术飞速发展的今天,一个关键挑战始终存在:如何让AI根据分割掩码精准生成既符合语义描述、又严格遵循形状约束的图像?来自最新研究的Seg2Any框架给出了令人振奋的答案。该方法通过创新的语义-形状解耦机制和属性隔离策略,在开放集场景下实现了前所未有的生成精度,同时构建了包含100万张图像的大规模数据集SACap-1M,为该领域研究奠定了坚实基础。

论文信息

题目:Seg2Any: Open-set Segmentation-Mask-to-Image Generation with Precise Shape and Semantic Control

基于分割掩码的开放集图像生成:实现精确形状与语义控制的Seg2Any方法

作者:Danfeng Li, Hui Zhang, Sheng Wang, Jiacheng Li, Zuxuan Wu

现有技术的瓶颈与挑战

当前主流的分割掩码到图像(S2I)生成方法存在两大核心痛点:

一是语义与形状的"二选一"困境。基于ControlNet等条件注入的方法难以将区域文本与对应图像区域精准对齐,导致"说东画西"的语义不一致问题(图2a);而基于掩码注意力的方法虽能保证语义对齐,却因空间信息丢失难以保持精确形状(图2b、2c)。

二是多实体生成中的"属性泄漏"问题。当图像中存在多个实体时,一个实体的视觉属性(如颜色、纹理)常会"污染"其他实体,例如让猫的毛色意外出现在旁边的狗身上,严重影响生成质量。

此外,现有数据集要么规模有限,要么局限于封闭集类别,无法支撑开放集S2I的训练需求,这也制约了技术发展。

现有方法缺陷示例图2:现有方法在语义一致性和形状保持上的缺陷对比,(d)为Seg2Any的改进效果

Seg2Any的创新突破

Seg2Any基于先进的FLUX扩散模型架构,通过三项核心创新实现了质的飞跃:

1. 语义-形状解耦的布局条件注入

传统方法将分割掩码作为单一条件输入,难以同时兼顾语义和形状。Seg2Any创新性地将其解耦为两个独立组件:

  • 语义对齐注意力掩码:通过精确控制文本标记与图像标记的交互范围,确保每个实体严格遵循其文本描述。全局文本可指导所有区域,而区域文本仅与对应图像区域交互,实现了语义层面的精准绑定。

  • 稀疏形状特征自适应:提取实体轮廓图作为形状条件(图3),这种类别无关的表示方式天然适用于开放集场景。通过冻结VAE编码器将轮廓图转换为条件标记,与文本和图像标记形成联合序列,在多模态注意力中实现形状引导。

语义-形状解耦机制图3:Seg2Any的核心架构与注意力机制设计

2. 属性隔离注意力掩码

针对多实体属性泄漏问题,Seg2Any设计了更严格的注意力约束:每个实体的图像标记仅能关注自身区域和对应文本,彻底阻断跨实体的视觉信息流动。特别在FLUX的中间层(20-38层)应用该机制,既避免了属性污染,又保证了背景环境的连贯性(图4)。

属性隔离效果图4:属性隔离机制有效防止跨实体属性泄漏

3. 高效计算策略

利用实体轮廓图的稀疏特性,Seg2Any提出条件令牌过滤方法,剔除无效的零值令牌,显著降低计算开销。同时采用LoRA技术对模型进行轻量级微调,在仅增加594M参数的情况下实现高效训练,兼顾性能与成本。

SACap-1M:开放集研究的基石

为解决训练数据匮乏问题,研究团队利用Qwen2-VL-72B模型构建了大规模开放集数据集SACap-1M:

  • 包含100万张高质量图像和590万个分割实体
  • 每张图像平均提供58.6词的全局描述,每个实体配有14.1词的详细描述
  • 通过自动化流程筛选出美学评分≥5的图像,保留面积≥1%的实体掩码
  • 衍生的SACap-Eval基准包含4000个测试样本,支持全面的开放集S2I评估

该数据集突破了封闭集词汇限制,为开放域场景下的精准生成研究提供了强有力的支撑。

实验结果:全面超越现有方法

在开放集和封闭集基准上的测试表明,Seg2Any实现了当前最佳性能:

  • 开放集SACap-Eval:类别无关MIoU达到94.90,接近真实图像上限(96.03),区域级空间定位和属性控制精度显著领先。视觉对比显示(图5),Seg2Any生成的实体在形状完整性和语义一致性上均表现优异。

开放集生成效果对比图5:Seg2Any与基线方法在开放集场景的定性对比

  • 封闭集场景:在COCO-Stuff数据集上实现最高MIoU;在ADE20K上达到54.46 MIoU,接近真实图像水平,整体性能超越除PLACE外的所有基线。

消融实验证实了各组件的有效性:稀疏形状特征使类别无关MIoU显著提升,属性隔离机制改善了区域级质量,而大规模训练数据则保证了全局视觉质量。

总结与展望

Seg2Any通过语义-形状解耦和属性隔离两大创新,首次在开放集S2I生成中实现了形状、语义和属性的三重精准控制。其构建的SACap-1M数据集为该领域的持续发展提供了重要资源。未来,随着模型架构的进一步优化和数据集的扩展,分割掩码到图像生成技术有望在设计、编辑、虚拟现实等领域发挥更大价值。

这项研究不仅推动了可控图像生成的技术边界,更为解决"精准控制"这一核心难题提供了全新思路,值得关注计算机视觉和生成式AI领域的研究者深入研读。

【声明】内容源于网络
0
0
Hello World Model
欢迎关注。分享大模型相关论文,学习心得。
内容 15
粉丝 0
Hello World Model 欢迎关注。分享大模型相关论文,学习心得。
总阅读9
粉丝0
内容15