大数跨境
0
0

NeurIPS 2025 | 从分割掩码一键生成万物!复旦&海信提出Seg2Any:图像合成新范式,颜色/纹理/文字全可控。

NeurIPS 2025 | 从分割掩码一键生成万物!复旦&海信提出Seg2Any:图像合成新范式,颜色/纹理/文字全可控。 AIGC Studio
2025-11-09
0
导读:添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

复旦大学、海信研究院联合提出的 Seg2Any 是一种新颖的分割掩模到图像生成方法,可实现强大的形状一致性和细粒度的属性控制(例如颜色、样式和文本)。

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/abs/2506.00596
  • 项目:https://seg2any.github.io
  • 代码:https://github.com/0xLDF/Seg2Any

unsetunset论文介绍unsetunset

unsetunset方法概述unsetunset

(a) Seg2Any 框架概述。Seg2Any 构建于 FLUX.1-dev 基础模型之上,首先将分割掩码转换为实体轮廓图,然后通过冻结的 VAE 将其编码为条件标记。为了提高效率,可忽略的标记会被过滤掉。生成的文本、图像和条件标记会被连接成统一的序列,用于 MM-Attention。我们的框架将 LoRA 应用于所有分支,以最少的额外参数实现 S2I 生成。(b) MM-Attention 中的注意力掩码,包括语义对齐注意力掩码和属性隔离注意力掩码。

大规模 SACap-1M 数据集

数据标注流程概述。开源视觉语言模型 (VLM)(例如 Qwen2-VL-72B)的最新进展显著缩小了与 GPT-4V 等闭源 VLM 的性能差距,使得创建大规模且标注丰富的数据集成为可能。利用 Qwen2-VL-72B 的功能,我们构建了“带 100 万个字幕的任意图像分割 (SACap-1M)”,这是一个基于多样化高分辨率 SA-1B 数据集的大规模数据集。SACap-1M 包含 100 万个图文对和 590 万个分割实体,每个实体由一个分割掩码和一个详细的区域字幕组成,平均每幅图像的字幕字数为 58.6 个,每个实体的字幕字数为 14.1 个。我们进一步提出了 SACap-Eval,这是一个用于评估开放集 S2I 生成质量的基准。

unsetunset实验结果unsetunset

定量比较

在 SACap-Eval 基准上进行定量比较。粗体和下划线分别代表最佳方法和次优方法。

定性结果

SACap-Eval 上的定性比较。Seg2Any 准确地生成表现出颜色和纹理等复杂属性的实体,超越了以前的方法。

unsetunset结论unsetunset

论文提出了一种新颖的分割-蒙版到图像生成框架 Seg2Any,该框架通过解耦空间布局和语义引导来实现细粒度的布局控制。通过集成稀疏实体轮廓和多模态蒙版注意力机制,Seg2Any 能够同时确保形状保持、语义对齐和稳健的属性控制。我们进一步引入了大规模 SACap-1M 数据集和 SACap-Eval 基准,以促进开放集 S2I 研究。大量实验验证了 Seg2Any 达到了最佳性能,尤其在生成具有详细描述的实体方面表现出色。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

【声明】内容源于网络
0
0
AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
内容 876
粉丝 0
AIGC Studio 一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
总阅读177
粉丝0
内容876