大数跨境
0
0

开源英雄!Stable Diffusion3 来啦!

开源英雄!Stable Diffusion3 来啦! AI算法之道
2024-06-13
0
导读:Stable Diffusion 3 模型开源











01


引言



最近Stability AI 发布了 Stable Diffusion 3 的模型权重,这是其迄今为止最先进的文本到图像开源模型。SD3 Medium 是一个拥有 20 亿个参数的模型,专门设计用于在以前的模型难以胜任的领域发挥优势。


明确地说,SD3 将有两个版本:一个版本有 20 亿个参数,另一个版本有 80 亿个参数。虽然目前尚不清楚 Stability AI 何时会推出80亿的模型,但是令人惊讶的是,SD3 Medium已经足以令人印象深刻。







02


 什么是Stable Diffusion3 Medium


Stable Diffusion3 Medium 采用低VRAM占用设计,可在消费级 GPU 上高效运行,而不会牺牲性能。它还具有高度可定制性,能够进行微调,从小型数据集中捕捉复杂的细节。


此外,Stability AI 与英伟达合作,使用TensorRT针对英伟达RTXGPU优化了所有 Stable Diffusion模型,包括 Stable Diffusion3 Medium。这一合作使性能提升了 50%,提供了同类最佳的性能。


我们来看一些使用新型SD3 Meidum 模型生成的示例图像:

首先让我感到震撼的是文字渲染的改进和逼真度的提高。

使用SD3 Medium生成的图像

需要注意到的是文字渲染和逼真度的提高。看看上面示例图片中地面、树木和巫师胡须的细节。





03


  SD3 Medium 新功能介绍


以下是一些最引人注目的新功能:

  • 逼真性:消除了手部和面部的常见伪影,无需复杂的工作流程即可生成高质量图像。
  • 排版:提供高质量的排版效果,超越了更大型、更先进的模型。
  • 性能:针对消费系统和企业级设备进行了优化,具有卓越的效率和推理速度。
  • 微调:擅长从小型数据集中捕捉微妙细节,是定制和创意应用的理想之选。






04


 模型细节



Stable Diffusion3 采用了Rectified Flow模型,这是一种将数据和噪声以直线方式连接起来的生成式模型。这种方法简化了前向过程,提高了采样效率,从而改进了传统的扩散模型。

concat用 ⊙ 表示,元素相乘用 ∗ 表示


该模型采用了新的噪声采样器,强调了感知相关的尺度,因此性能优于传统的扩散方法。此外,它还通过可调整的位置编码支持不同的分辨率和宽高比。

有关 SD3 Medium 网络架构的更多细节,请点击以下论文链接。

Arxiv: https://arxiv.org/pdf/2403.03206








05


  如何访问?


HuggingFace上目前已有相应的演示版,模型权重下载链接如下:

HuggingFace:  

https://huggingface.co/stabilityai/stable-diffusion-3-medium/tree/main

相应页面如下:

模型权重较大,不方便下载的同学,可以体验在线DEMO,链接如下:

HuggingFace: 

https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium

网站页面如下:

在文本框里输入你想要的文本提示词,点击运行即可生成对应的图像。







06


  生成示例



下面是一些我这边测试的示例图片:

Prompt: an old rusted robot wearing pants and a jacket riding skis in a supermarket. 


提示:一个锈迹斑斑的老机器人穿着裤子和夹克,在超市里滑雪。

运行后结果如下:


Prompt: A crab made of cheese on a plate 


提示:盘子里的奶酪螃蟹

运行后结果如下:


Prompt: Dystopia of thousand of workers picking cherries and feeding them into a machine that runs on steam and is as large as a skyscraper. Written on the side of the machine: ”SD3 Paper” 


提示:一千名工人采摘樱桃,然后把樱桃送进一台用蒸汽运转的机器,这台机器有摩天大楼那么大。机器侧面写着:"SD3 Paper"

运行后结果如下:







07


总结


总之,尽管 Stability AI 最近面临着内部动荡,但它还是免费发布了 SD3 模型。Stability AI 发布的SD3模型效果看起来非常不错,几乎可以与谷歌的 Imagen 3 和 Midjourney V6 相媲美,推荐大家多多试用!






点击上方小卡片关注我




扫码进群,交个朋友!


【声明】内容源于网络
0
0
AI算法之道
一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号,涵盖视觉CV、神经网络、模式识别等方面,包括相应的硬件和软件配置,以及开源项目等。
内容 573
粉丝 0
AI算法之道 一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号,涵盖视觉CV、神经网络、模式识别等方面,包括相应的硬件和软件配置,以及开源项目等。
总阅读23
粉丝0
内容573