ERNIE-Image 是百度文心团队推出的8B 参数开源文生图模型,基于单流 DiT 架构设计,兼顾性能与硬件友好性,推出标准版与 Turbo 极速版。标准版经 SFT 训练,50 步推理保证画质;Turbo 版通过 DMD 蒸馏与 RL 优化,仅 8 步快速生成,速度提升 6 倍。模型内置Prompt Enhancer模块,可自动扩充简短提示词为结构化描述,大幅提升复杂指令遵循能力。核心优势聚焦文字渲染、中文理解、结构化布局,在 LongTextBench 长文本渲染、OneIG-ZH 中文综合评测中位居开源前列,支持写实、设计、电影感等多元风格,ComfyUI 官方模板已上线,GGUF 量化版可在 8G 显存设备运行,全面适配个人与企业商用需求。
效果展示
这张图片采用了一种非常有创意的“画中画”构图,巧妙地融合了现实摄影与2D插画艺术。以下是详细的视觉描述: 1.核心构图与视觉设计立体效果:一部智能手机斜放在白色桌面上。手机屏幕内侧正显示着一个插画风格的长发漂亮女孩,她像是要从手机屏幕里“走出来”一样,手动捧着一盘真实的叉烧包。虚实结合:这种设计模糊了数字世界与现实世界的边界。插画是2D风格,但手中她的叉烧包、背景中的红苹果、华夫饼和餐具都是真实的摄影。 2.插画图像人物外貌:女孩有着浓密的黑色长发,看上去略显有趣。她有一顶米色的急救帽,上面印有“TEAM OG”的字样。穿着:她穿着棕色的短袖T衬衫,叠穿了粉色的长袖内搭,手腕上有一串深绿色的珠串手链。 表情: 3.周边元素与装饰 Emoji 与贴纸:屏幕周边漂浮着大量的食物 Emoji 和文字贴纸:食物:热狗(在云朵里)、蛋糕、蝴蝶酥、汉堡、三明治、甜圈。蓝色水滴、舌头的搞怪眼睛等。 手机界面:手机底部显示着典型的相机拍照界面,“照片”、“人像”、“全景”等模式切换字样,一键是醒目的环境白色方案。 4.现实背景背景美食:右上角是几颗鲜红茄子的苹果。右边托盘里盛着精美的华夫饼,上面有煎蛋和培根。装备包括包括左上方斜放一把白柄叉子,色调简洁干净。 整体光线明亮现代,色调清新,充满了社交媒体流行的“探店”或“美食日记”的艺术感。
这是一张从汽车内部外部拍摄的摄影照片,捕捉了黄昏时分的田野景色。 窗口的关注前景是汽车内部结构,包括部分勘探的徒步、打开的车门内部面板以及上方的车窗彼此。车门的一个开启状态,透过车和车门窗口可以看到外部的自然景色。画面的主要部分是车外的田野和天空。天空呈现出日落时分的布局色彩,地平线附近是一片橙红色余晖,向上逐渐过渡为淡紫色和深蓝色的天空。云层分布不均,有的被夕阳染成粉红色,有的则呈现暗灰色,增加了天空的层次感地平线上可以看到连绵密的树林和几根细小的电线杆,表明这是一个乡村或郊野的环境。前景的田野有一个叙述状态,光线昏暗,只能隐约辨认出深绿色的植被和杂草,细节难以看清,整体呈现出一种宁静而略带忧郁的其次。 光线主要来自远端的夕阳,形成了强烈的明暗对比,车内和近处的田野处于阴影中,而天空为视觉焦点。画面底部中央上面有一行白色的英文文字:“而我们是”。
盛夏午后的日本社区公园一角,树荫遮蔽下的石凳。石凳上静静放着一个晶莹剔透的玻璃金鱼缸,旁边是一副太阳镜、一个竹制杯垫和一把白色遮阳伞。石凳旁簇簇着盛开的紫蓝色绣花球花,背景略模糊的向日葵田和社区泳池的一抹清凉蓝色。画面呈现日系极简摄影美学,空气感,清新色调淡雅,光线柔和且稍稍过曝,阴影点缀处清冷的蓝绿色调,高调照明,低肤色,构图洁净,带有细腻的肤色和宁静的夏日色调。
相关链接
-
主页:https://ernie-image.github.io -
源码:https://github.com/baidu/ernie-image -
Hugging Face (SFT):https://huggingface.co/baidu/ERNIE-Image -
Hugging Face (Turbo):https://huggingface.co/baidu/ERNIE-Image-Turbo -
在线Demo:https://huggingface.co/spaces/baidu/ERNIE-Image-Turbo
实验结果
ERNIE-Image在四个主流文生图评测基准上进行了评估:GenEval(组合生成)、OneIG-EN / OneIG-ZH(中英文开放域图像生成)和LongTextBench(长文本渲染保真度)。
全面领先开源模型 ERNIE-Image在所有四个benchmark上均为开源模型第一:GenEval第1名(0.8856)、OneIG-ZH第2名(0.5543)、LongTextBench第2名(0.9733)、OneIG-EN第3名(0.5750),与NanoBanana 2.0、Seedream 4.5等顶级闭源模型直接竞争。极致参数效率 上述成绩仅来自8B参数的DiT架构,是同性能水平下最具参数效率的模型之一。文字渲染突出 在LongTextBench上排名第2,中英文长文本渲染均表现出色;在OneIG的Text维度上也保持高竞争力,体现了多语言文字生成的核心优势。
使用教程
Diffusers推理环境安装:
pip install git+https://github.com/huggingface/diffusers
推理脚本
import torch
from diffusers import ErnieImagePipeline
# Use ERNIE-Image (50 steps)
pipe = ErnieImagePipeline.from_pretrained(
"baidu/ERNIE-Image",
torch_dtype=torch.bfloat16,
).to("cuda")
image = pipe(
prompt="一只黑白相间的中华田园犬",
height=1024,
width=1024,
num_inference_steps=50,
guidance_scale=4.0,
use_pe=True
).images[0]
image.save("output.png")
SGLang
安装最新版本的sglang:
git clone https://github.com/sgl-project/sglang.git
启动服务器:
sglang serve --model-path baidu/ERNIE-Image
发送生成请求:
curl -X POST http://localhost:30000/v1/images/generations \
-H "Content-Type: application/json" \
-d '{
"prompt": "一只黑白相间的中华田园犬",
"height": 1024,
"width": 1024,
"num_inference_steps": 50,
"guidance_scale": 4.0
}' \
--output output.png
结论
ERNIE-Image 凭借8B 小参数、强文字渲染、优中文支持、低部署门槛,重新定义消费级开源文生图标准,完美适配海报、漫画、UI、信息图等场景,可商用开源协议让企业无授权顾虑。未来可进一步优化风格多样性,简化 Prompt 适配规则,持续提升小显存设备生成质量,成为国产 AIGC 创作底层基础设施。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

