Stability AI 正式开源 Stable Diffusion 3 Medium 模型！克服常见手部&面部瑕疵！

软积木

2024-06-13

导读：Stability AI宣布推出Stable Diffusion 3 Medium，这是Stable Diffusion 3系列中最新、最先进的文本到图像AI模型，拥有20 亿参数。

6月12日，Stability AI宣布推出Stable Diffusion 3 Medium，这是Stable Diffusion 3系列中最新、最先进的文本到图像AI模型，拥有20亿参数。

SD3 Medium 优势

整体质量和照片级真实感：提供具有出色细节、色彩和照明的图像，从而实现逼真的输出以及灵活风格的高质量输出。

SD3 Medium通过16通道VAE等创新，成功解决了其他型号的常见缺陷，例如手部和面部的真实感。

提示理解：理解涉及空间推理、构图元素、动作和风格的冗长而复杂的提示。

排版：通过利用Diffusion Transformer架构，SD3 Medium文本质量大幅提高，减少了拼写、字距调整、字母形成和间距方面的错误。

资源效率高：由于其VRAM占用空间小，非常适合在标准消费类GPU上运行而不会降低性能。

微调：能够从小型数据集中吸收细微的细节，非常适合定制。

各大厂商助力

英伟达：Stability AI与NVIDIA合作，通过利用NVIDIA® RTX™ GPU和 TensorRT™来增强所有Stable Diffusion型号（包括Stable Diffusion 3 Medium）的性能。

AMD：AMD针对各种AMD设备优化了SD3 Medium推理，包括AMD最新的APU消费类GPU和MI-300X企业级GPU。

除了开源外，Stable Diffusion 3 Medium还可以在由Fireworks AI提供支持的API上使用。

模型介绍

Stable Diffusion 3 Medium是一种多模态扩散转换器（MMDiT）文本到图像模型，在图像质量、排版、复杂提示理解和资源效率方面具有显著改进的性能。

该模型使用三个固定的、预训练的文本编码器：OpenCLIP-ViT/G、CLIP-ViT/L 和 T5-xxl。

Stability AI表示使用合成数据并过滤公开可用的数据来训练该模型，并且该模型在10亿张图像上进行了预训练。

微调数据包括30M专注于特定视觉内容和风格的高质量美学图像，以及3M偏好数据图像。

‍END

ChatU可免费申请试用，支持企业私有部署，多引擎AIGC操作系统安全稳定，点击下方公众号一键试用！

【声明】内容源于网络

软积木

🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网：https://www.CubixAI.com 📮商务合作：BD@cubixai.com

内容 157

粉丝 0

软积木 🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网：https://www.CubixAI.com 📮商务合作：BD@cubixai.com

总阅读154

粉丝0

内容157