
01
引言
最近Stability AI 发布了 Stable Diffusion 3 的模型权重,这是其迄今为止最先进的文本到图像开源模型。SD3 Medium 是一个拥有 20 亿个参数的模型,专门设计用于在以前的模型难以胜任的领域发挥优势。
明确地说,SD3 将有两个版本:一个版本有 20 亿个参数,另一个版本有 80 亿个参数。虽然目前尚不清楚 Stability AI 何时会推出80亿的模型,但是令人惊讶的是,SD3 Medium已经足以令人印象深刻。
02
什么是Stable Diffusion3 Medium?
Stable Diffusion3 Medium 采用低VRAM占用设计,可在消费级 GPU 上高效运行,而不会牺牲性能。它还具有高度可定制性,能够进行微调,从小型数据集中捕捉复杂的细节。
此外,Stability AI 与英伟达合作,使用TensorRT针对英伟达RTXGPU优化了所有 Stable Diffusion模型,包括 Stable Diffusion3 Medium。这一合作使性能提升了 50%,提供了同类最佳的性能。
我们来看一些使用新型SD3 Meidum 模型生成的示例图像:

使用SD3 Medium生成的图像
03
SD3 Medium 新功能介绍
以下是一些最引人注目的新功能:
-
逼真性:消除了手部和面部的常见伪影,无需复杂的工作流程即可生成高质量图像。 -
排版:提供高质量的排版效果,超越了更大型、更先进的模型。 -
性能:针对消费系统和企业级设备进行了优化,具有卓越的效率和推理速度。 -
微调:擅长从小型数据集中捕捉微妙细节,是定制和创意应用的理想之选。
04
模型细节
Stable Diffusion3 采用了Rectified Flow模型,这是一种将数据和噪声以直线方式连接起来的生成式模型。这种方法简化了前向过程,提高了采样效率,从而改进了传统的扩散模型。
concat用 ⊙ 表示,元素相乘用 ∗ 表示
该模型采用了新的噪声采样器,强调了感知相关的尺度,因此性能优于传统的扩散方法。此外,它还通过可调整的位置编码支持不同的分辨率和宽高比。

有关 SD3 Medium 网络架构的更多细节,请点击以下论文链接。
Arxiv: https://arxiv.org/pdf/2403.03206
05
如何访问?
HuggingFace上目前已有相应的演示版,模型权重下载链接如下:
HuggingFace:
https://huggingface.co/stabilityai/stable-diffusion-3-medium/tree/main
相应页面如下:

HuggingFace:
https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium
网站页面如下:
在文本框里输入你想要的文本提示词,点击运行即可生成对应的图像。
06
生成示例
下面是一些我这边测试的示例图片:
Prompt: an old rusted robot wearing pants and a jacket riding skis in a supermarket.
提示:一个锈迹斑斑的老机器人穿着裤子和夹克,在超市里滑雪。
运行后结果如下:

Prompt: A crab made of cheese on a plate
提示:盘子里的奶酪螃蟹
运行后结果如下:

Prompt: Dystopia of thousand of workers picking cherries and feeding them into a machine that runs on steam and is as large as a skyscraper. Written on the side of the machine: ”SD3 Paper”
提示:一千名工人采摘樱桃,然后把樱桃送进一台用蒸汽运转的机器,这台机器有摩天大楼那么大。机器侧面写着:"SD3 Paper"
运行后结果如下:
07
总之,尽管 Stability AI 最近面临着内部动荡,但它还是免费发布了 SD3 模型。Stability AI 发布的SD3模型效果看起来非常不错,几乎可以与谷歌的 Imagen 3 和 Midjourney V6 相媲美,推荐大家多多试用!
点击上方小卡片关注我
扫码进群,交个朋友!


