2023浙江程序员节正火热进行中,知识推送活动作为程序员节系列活动之一,将陆续推出【人工智能专题】知识分享,包括AI大模型发展情况、前沿技术、学习资源等,欢迎关注!本期推送内容为:GAN 模型的落地应用

摄影:SwapnIl Dwivedi
我们在 GAN 开发的最初几年取得了令人印象深刻的进展。不再像恐怖电影中那样的邮票大小的面部图片。2017 年,GAN 制作了 1024 张×1024 张图像,可以欺骗星探。

前 2 年的分辨率更大,质量更好
在未来几年,我们可能会看到由 GAN 生成的高质量视频。商业应用将到来!作为 GAN 系列的一部分,我们将研究一些很酷的应用程序,并希望它们成为 GAN 应用程序的灵感来源。

创建动漫角色

游戏开发和动画制作成本高昂,并且聘请许多制作艺术家来完成相对常规的任务。GAN 可以自动生成动漫角色并为其着色。


源

姿势引导人员图像生成

通过姿势的额外输入,我们可以将图像转换为不同的姿势。例如,右上角的图像是基本事实,而右下角是生成的图像。

下面的优化结果列是生成的图像。

姿势引导人员图像生成
该设计由一个两级图像发生器和一个鉴别器组成。生成器使用元数据(姿势)和原始图像重建图像。鉴别器使用原始图像作为 CGAN设计的标签输入的一部分。

姿势引导人员图像生成

CycleGAN

跨域转移 GAN 很可能是第一批商业应用。这些 GAN 将图像从一个领域(比如真实的风景)转换为另一个领域(莫奈画或梵高)。

CycleGAN
例如,它可以转换斑马和马之间的图片。

CycleGAN
CycleGAN 构建 2 个网络 G 和 F 来构建从一个域到另一个域且方向相反的图像。它使用鉴别器 D 来评论生成的图像的好坏。例如,G 将真实图像转换为梵高风格的绘画,Dy 用于区分图像是真实的还是生成的。
域 A ➝ 域 B:

我们以相反的方向重复该过程 域 B ➝ 域 A:


StarGAN

StarGAN 是一个域到另一个域的图像到图像转换。例如,给定一张快乐的脸,我们想把它变成一张恐惧的脸。

源
在(b)中,生成器根据输入图像和目标域标签(例如愤怒)生成假图像。在(c)中,给定这个假图像和图像的原始域(比如说快乐),它使用生成器重建图像。在(d)中,我们将真实和虚假的图像提供给鉴别器,以将其标记为真实或非真实以及其域分类。成本函数将涉及重建误差以及识别图像及其标签的鉴别器成本。

源

PixelDTGAN

根据名人图片推荐商品在时尚博主和电子商务中很受欢迎。PixelDTGAN 从图像创建服装图像和样式。


PixelDTGAN

PixelDTGAN

超分辨率

从较低分辨率创建超分辨率图像。这是 GAN 显示出非常令人印象深刻的结果并具有即时商业可能性的一个领域。

SRGAN
与许多 GAN 设计类似,它由多层卷积层,批量归一化,高级 ReLU 和跳过连接组成。

SRGAN

GAN的逐步增长

渐进式 GAN 可能是第一个显示商业图像质量的 GAN 之一。下面是 GAN 创建的 1024×1024 名人外观图像。

GAN 的逐步增长
它应用分而治之的策略,使训练变得非常可行。卷积层层一次训练一次,以构建 2× 分辨率的图像。

分 9 个阶段,生成 1024 × 1024 的图像。

GAN 的逐步增长

StyleGAN2

StyleGAN2 生成高分辨率图像。


高分辨率图像合成

这不是图像分割!相反,从语义图生成图像。收集样本非常昂贵。我们试图用生成的数据来补充训练数据集,以降低开发成本。在训练自动驾驶汽车时生成视频会很方便,而不是看到它们在你家附近巡航。

Pix2Pix 高清
网络设计:

Pix2Pix 高清

Pix2Pix 高清

GauGAN

GauGAN 在给定输入语义布局的情况下合成逼真的图像。

从源代码修改

文本到图像(StackGAN)

文本到图像是域转移 GAN 的早期应用之一。我们输入一个句子并生成多个符合描述的图像。

StackGAN


文本到图像合成

另一个流行的实现:

生成对抗文本到图像合成

面部合成

合成不同姿势的人脸:使用单个输入图像,我们创建不同视角的人脸。例如,我们可以使用它来转换更容易进行人脸识别的图像。

TP-GAN

TP-GAN

图像修复

修复图像在几十年前一直是一个重要的主题。GAN 用于修复图像并用创建的“内容”填充缺失的部分。

上下文编码器

学习联合分发

创建具有不同面部特征组合的 GAN(金发、女性、微笑、戴眼镜)、P(棕色、男性、微笑、不戴眼镜)等是昂贵的......维度的诅咒使 GAN 的数量呈指数级增长。相反,我们可以学习单个数据分布并将它们组合起来形成不同的分布。即不同的属性组合。


goGAN

goGAN
DiscoGAN
DiscoGAN 提供了匹配的风格:许多潜在的应用。DiscoGAN 在没有标签或配对的情况下学习跨域关系。例如,它成功地将风格(或图案)从一个领域(手提包)转移到另一个领域(鞋子)。

DiscoGAN
DiscoGAN 和 CycleGAN 在网络设计上非常相似。

DiscoGAN
Pix2Pix
Pix2Pix 是一种图像到图像的翻译,经常在跨域 GAN 的论文中被引用。例如,它将卫星图像转换为地图(左下角)。

Pix2Pix
DTN
从图片创建表情符号。

DTN

DTN

纹理合成


MGAN

图像编辑(IcGAN)

重建或编辑具有特定属性的图像。

IcGAN

IcGAN

面部老化(Age-cGAN)


Age-cGAN

Age-cGAN

去模糊 GAN

去模糊GAN 执行运动去模糊。


神经照片编辑器

基于内容的图像编辑:例如,延长发带。

神经照片编辑器

优化图像



物体检测

这是使用 GAN 增强现有解决方案的一个应用。

Perceptual GAN

图像混合

将图像混合在一起。

GP-GAN
视频生成
创建新的视频序列。它识别什么是背景,并为前台操作创建新的时间序列。
前往YouTube平台观看:https://youtu.be/Pt1W_v-yQhw

生成 3D 对象

这是一篇经常被引用的论文,用于使用 GAN 创建 3D 对象。
前往YouTube平台观看:https://youtu.be/HO1LYJb818Q
3DGAN

3DGAN

音乐生成

GAN 可以应用于非图像领域,如创作音乐。

MidiNet

MidiNet

医疗(异常检测)

GAN 还可以扩展到其他行业,例如肿瘤检测中的医疗。

AnoGAN

AnoGAN
了解更多大模型人工智能相关的知识结构,欢迎访问momodel.cn,浙江省软件行业协会与浙江大学教育部人工智能创新协同中心将提供更多支持。
后续Mo平台会不定期更新书籍、视频等学习资源,以上这些书籍资料也可通过关注微信公众号MomodelAl免费获取,同时欢迎大家使用「Mo AI编程」微信小程序。

