大数跨境
0
0

击败Stable Diffusion XL,DALL-E 2!RAPHAEL: 基于混合去噪路径的文生图大模型

击败Stable Diffusion XL,DALL-E 2!RAPHAEL: 基于混合去噪路径的文生图大模型 极市平台
2023-07-09
1
↑ 点击蓝字 关注极市平台
作者丨一叶知秋@知乎(已授权)
来源丨https://zhuanlan.zhihu.com/p/642282982
编辑丨极市平台

极市导读

 

商汤大模型团队提出的文生图大模型RAPHAEL, 可以生成具有高度艺术风格或者摄影风格的图片,而且生成速度极快,并且在各项测试上击败了Stable Diffusion XL,DALL-E 2,DeepFloyd等模型。>>加入极市CV技术交流群,走在计算机视觉的最前沿

1. 引言

自从2022年开始,以Stable Diffusion, ChatGPT为代表的生成式AI席卷了整个AI社区,AI大模型也走进了公众的视野。本文将介绍商汤大模型团队提出的文生图大模型RAPHAEL(体验链接见第五节), 可以生成具有高度艺术风格或者摄影风格的图片,而且生成速度极快,并且在各项测试上击败了Stable Diffusion XL,DALL-E 2,DeepFloyd等模型。

2. 方案介绍

本文共提出了三个组件: Space-MoE, Time-MoE, 以及Edge-supervised learning模块。Space-MoE找出了文本中每一个token在图片中对应的区域,用不同的expert来处理不同的区域,最后再融合;Time-MoE模块使得模型能够在不同的timestep上选择不同的expert;这些MoE事实上组成了一系列的diffusion path,用来画某一类名词,动词,或者形容词。这些词的diffusion path都可以被XGBoost算法分开,证明了每一个path负责一个词。Edge-supervised learning模块则帮助模型更好的学习到图片的结构信息。我们也做了充分的消融实验来验证这三个模块的效果,具体可见论文的正文部分。我们使用了清洗后的LAION-5B以及一些内部数据集来训练RAPHAEL,超参数文中都有提供。实验也遇到了很多血泪史,以后有机会的话再和大家分享。具体的网络结构见下图:

3. 实验指标

3.1. 我们首先在FID上进行了测试,FID是一个衡量图片生成质量和多样性的指标,常常被用于评测生成模型的能力,我们在这一项指标上击败了所有写了论文的模型,比如Stable Diffusion,DALL-E 2等,达到6.61。

3.2. 我们同时也基于人类评估给出了一些指标,结论发现RAPHAEL在图文匹配度以及生成质量上均超过了Stable Diffusion XL,DeepFloyd, DALL-E 2,如下图所示

4. 放图环节

接下来就是大家喜闻乐见的秀图环节啦,在做过大量的测试后,可以认为RAPHAEL效果优于Stable Diffusion XL, DALL-E 2,DeepFloyd等模型。由于篇幅的限制,没办法放更多了,而且为了方便浏览压缩了清晰度,大家可以自己上手玩,一试便知~

5. 体验链接

我们提供了将RAPHAEL作为基座的artist v0.3.0 beta模型的在线试玩链接,可以在https://miaohua.sensetime.com/zh-CN/中免费试玩(注意不要选错模型了),相信这是世界上最一流的免费体验的文生图大模型之一。同时,我们也设置了反馈按钮(在生成图的旁边)来帮我们不断优化,希望大家可以积极体验反馈,也帮忙和亲朋好友宣传一下,多多支持我们国产大模型~

6. 一些tips

可能绝大部分同学没有学习过怎么写文生图的prompt,于是我们也提供了描述词优化功能,可以将简单的prompt扩展成能得到优秀效果的prompt。当然,一些国外的网站也提供了一些优秀的prompt库:

https://lexica.art/

https://www.midjourney.com/app/feed/

https://app.prompthub.studio/

同时建议大家把步数拉到100,图片质量会更佳。

7. 论文引用

https://arxiv.org/abs/2305.18295

@article{xue2023raphael,

title={Raphael: Text-to-image generation via large mixture of diffusion paths},

author={Xue, Zeyue and Song, Guanglu and Guo, Qiushan and Liu, Boxiao and Zong, Zhuofan and Liu, Yu and Luo, Ping},

journal={arXiv preprint arXiv:2305.18295},

year={2023}

}

公众号后台回复“极市直播”获取100+期极市技术直播回放+PPT

极市干货

极视角动态2023GCVC全球人工智能视觉产业与技术生态伙伴大会在青岛圆满落幕!极视角助力构建城市大脑中枢,芜湖市湾沚区智慧城市运行管理中心上线!
数据集:面部表情识别相关开源数据集资源汇总打架识别相关开源数据集资源汇总(附下载链接)口罩识别检测开源数据集汇总
经典解读:多模态大模型超详细解读专栏

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读7.6k
粉丝0
内容8.2k