

开源英雄！Stable Diffusion3 来啦！

AI算法之道

2024-06-13

导读：Stable Diffusion 3 模型开源

引言

最近Stability AI 发布了 Stable Diffusion 3 的模型权重，这是其迄今为止最先进的文本到图像开源模型。SD3 Medium 是一个拥有 20 亿个参数的模型，专门设计用于在以前的模型难以胜任的领域发挥优势。

明确地说，SD3 将有两个版本：一个版本有 20 亿个参数，另一个版本有 80 亿个参数。虽然目前尚不清楚 Stability AI 何时会推出80亿的模型，但是令人惊讶的是，SD3 Medium已经足以令人印象深刻。

什么是Stable Diffusion3 Medium？

Stable Diffusion3 Medium 采用低VRAM占用设计，可在消费级 GPU 上高效运行，而不会牺牲性能。它还具有高度可定制性，能够进行微调，从小型数据集中捕捉复杂的细节。

此外，Stability AI 与英伟达合作，使用TensorRT针对英伟达RTXGPU优化了所有 Stable Diffusion模型，包括 Stable Diffusion3 Medium。这一合作使性能提升了 50%，提供了同类最佳的性能。

我们来看一些使用新型SD3 Meidum 模型生成的示例图像：

首先让我感到震撼的是文字渲染的改进和逼真度的提高。

使用SD3 Medium生成的图像

需要注意到的是文字渲染和逼真度的提高。看看上面示例图片中地面、树木和巫师胡须的细节。

‍

SD3 Medium 新功能介绍

以下是一些最引人注目的新功能：

逼真性：消除了手部和面部的常见伪影，无需复杂的工作流程即可生成高质量图像。
排版：提供高质量的排版效果，超越了更大型、更先进的模型。
性能：针对消费系统和企业级设备进行了优化，具有卓越的效率和推理速度。
微调：擅长从小型数据集中捕捉微妙细节，是定制和创意应用的理想之选。

模型细节

Stable Diffusion3 采用了Rectified Flow模型，这是一种将数据和噪声以直线方式连接起来的生成式模型。这种方法简化了前向过程，提高了采样效率，从而改进了传统的扩散模型。

concat用 ⊙ 表示，元素相乘用 ∗ 表示

该模型采用了新的噪声采样器，强调了感知相关的尺度，因此性能优于传统的扩散方法。此外，它还通过可调整的位置编码支持不同的分辨率和宽高比。

有关 SD3 Medium 网络架构的更多细节，请点击以下论文链接。

Arxiv: https://arxiv.org/pdf/2403.03206

如何访问？

HuggingFace上目前已有相应的演示版，模型权重下载链接如下：

HuggingFace:

https://huggingface.co/stabilityai/stable-diffusion-3-medium/tree/main

相应页面如下：

模型权重较大，不方便下载的同学，可以体验在线DEMO，链接如下：

HuggingFace:

https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium

网站页面如下：

在文本框里输入你想要的文本提示词，点击运行即可生成对应的图像。

生成示例

下面是一些我这边测试的示例图片：

Prompt: an old rusted robot wearing pants and a jacket riding skis in a supermarket.

提示：一个锈迹斑斑的老机器人穿着裤子和夹克，在超市里滑雪。

运行后结果如下：

Prompt: A crab made of cheese on a plate

提示：盘子里的奶酪螃蟹

运行后结果如下：

Prompt: Dystopia of thousand of workers picking cherries and feeding them into a machine that runs on steam and is as large as a skyscraper. Written on the side of the machine: ”SD3 Paper”

提示：一千名工人采摘樱桃，然后把樱桃送进一台用蒸汽运转的机器，这台机器有摩天大楼那么大。机器侧面写着："SD3 Paper"

运行后结果如下：

总结

总之，尽管 Stability AI 最近面临着内部动荡，但它还是免费发布了 SD3 模型。Stability AI 发布的SD3模型效果看起来非常不错，几乎可以与谷歌的 Imagen 3 和 Midjourney V6 相媲美，推荐大家多多试用！

点击上方小卡片关注我

扫码进群，交个朋友！

【声明】内容源于网络

AI算法之道

一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号，涵盖视觉CV、神经网络、模式识别等方面，包括相应的硬件和软件配置，以及开源项目等。

内容 573

粉丝 0

AI算法之道一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号，涵盖视觉CV、神经网络、模式识别等方面，包括相应的硬件和软件配置，以及开源项目等。

总阅读23

粉丝0

内容573