大数跨境
0
0

华为最新文生图模型PixArt-Σ:可直接生成4K分辨率图像,并显著提高与文本提示词的对齐

华为最新文生图模型PixArt-Σ:可直接生成4K分辨率图像,并显著提高与文本提示词的对齐 AIGC Studio
2024-03-18
3
导读:2024年3月11日由华为诺亚方舟实验室、大连理工大学和香港大学的研究团队共同开发的PixArt-Σ是一款能够

2024年3月11日由华为诺亚方舟实验室、大连理工大学和香港大学的研究团队共同开发的PixArt-Σ是一款能够直接生成4K分辨率图像的扩散变换模(DiT)。

PixArt-Σ相比其前作PixArt-α,在图像质量和文本提示对齐方面有了显著提升。之前文章已经向大家介绍了PixArt-α的相关工作。感兴趣的小伙伴可以点击以下链接查看~

华为PixArt-α:高质量、低成本的文生图模型,训练时长只有SD 1.5的10.8%

今天向大家介绍PixArt-Σ,一种Diffusion Transformer(DiT)模型,能够直接生成4K分辨率的高质量图像。该模型在生成高保真图像的同时,与文本提示紧密对齐,超越了其前身PixArt-α模型。

PixArt-Σ可以直接生成4K的图片,目前开源的模型暂时还没有模型能做到,这个能力对于从事电影和游戏等行业的设计师来说是个巨大的福音了。关键是训练,推理,模型均会开源(承诺2024/4/1前开源完成)。

相关链接

  • 代码链接:https://github.com/PixArt-alpha/PixArt-sigma

  • 论文链接:https://arxiv.org/abs/2403.04692

  • Huggingface Demo: https://huggingface.co/spaces/PixArt-alpha/PixArt-alpha

论文介绍

PixArt-Σ是一个能够直接生成4K分辨率图像的扩散变压器模型(DiT)。PixArt-Σ代表了其前身PixArt-α的重大进步,提供了显着更高保真度的图像,并改进了与文本提示的对齐。

PixArt-Σ的一个关键特点是它的训练效率。利用PixArt-α的基础预训练,它通过合并更高质量的数据,从“较弱”的基线发展到“更强”的模型,称之为“弱到强的训练”。

PixArt-Σ的进步有两个方面:

  • 高质量的训练数据:PixArt-Σ结合了高质量的图像数据,配以更精确和详细的图像说明。
  • 高效的令牌压缩:在DiT框架内提出了一种新颖的注意力模块,该模块可以同时压缩键和值,显著提高了效率,促进了超高分辨率图像的生成。

由于这些改进,PixArt-Σ以比现有的文本到图像扩散模型(如SDXL(2.6B参数)和SD Cascade (5.1B参数)更小的模型尺寸(0.6B参数)实现了卓越的图像质量和用户提示依从能力。

此外,PixArt-Σ生成4K图像的能力支持高分辨率海报和壁纸的创建,有效地支持了电影和游戏等行业高质量视觉内容的生产。

实验效果

To-Do List

  • Training code
  • Inference code
  • Model zoo

感谢你看到这里,也欢迎点击关注下方公众号或者关注本公众号的官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~



【声明】内容源于网络
0
0
AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
内容 876
粉丝 0
AIGC Studio 一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
总阅读177
粉丝0
内容876