大数跨境
0
0

4.25直播|专题分享:多模态扩散模型的革新应用

4.25直播|专题分享:多模态扩散模型的革新应用 极市平台
2023-04-23
0
↑ 点击蓝字 关注极市平台

AIGC的出圈热度,让扩散模型的相关研究工作也搭上东风,引发热烈探讨,同时也激发了内容创作领域更多有趣、高效的人工智能应用。作为本季「热门研究云际会」的收官之作,将门创投与OpenMMLab非常荣幸邀请到CV领域的专家及青年学者,他们分别是微软亚洲研究院的主管研究员杨欢、上海人工智能实验室青年研究院曾艳红、北京邮电大学硕士生汪强、北京大学硕士生王荫槐,来分享扩散模型方向的最新工作。完美视界,声画共生,希望为视觉领域的小伙伴们带来新鲜的观点见解和有料的知识分享。

4月25日上午10点,一起继续交流,为多模态相关研究工作激发更多跨界灵感!

专场四:

融合视听:多模态扩散模型的革新应用

现场议程



嘉宾工作介绍

主题①

艺术之笔:用 SketchKnitter 重塑矢量草图的未来

 分享嘉宾 

汪强

北京邮电大学人工智能学院智能感知与计算实验室硕士研究生,研究方向是计算机视觉,生成式模型。

 分享内容 

SketchKnitter,这是首个用 Diffusion Models 重建矢量化草图的工作。我们证明了矢量化草图生成可以被识别为笔画变形的逆转过程,这一能力是通过扩散模型建立的。SketchKnitter 学习真实人体草图的笔画点位置和笔状态的数据分布。对于给定的随机分散笔画点,草图生成成为基于变形的去噪过程,其中生成器在每个时间步纠正笔画点的位置以收敛于可识别的草图。一项关键创新是将可识别性嵌入逆时扩散过程。

据观察,反转过程中的估计噪声与草图分类精度密切相关。因此,我们使用辅助循环神经网络来量化数据采样期间的可识别性。并基于可识别性分数,我们设计一个采样快捷函数,以更少的采样步骤呈现质量更好的草图。最后我们表明,该模型可以很容易地扩展到条件生成框架,在给定不完整和不忠实的草图的情况下,它会生成一个更具视觉吸引力和更高可识别性的草图。

SketchKnitter: Vectorized Sketch Generation with Diffusion Models

paper:

https://openreview.net/pdf?id=4eJ43EN2g6l

code:

https://github.com/XDUWQ/SketchKnitter

主题②

重塑完美视界:零样本图像修复之道

 分享嘉宾 


王荫槐

北京大学张健组硕士研究生,研究方向包括图像重建,3D重建,三维人体运动控制等。

 分享内容 

现有的大多数图像恢复模型都是任务特定的,难以泛化到不同的退化算子。在这项工作中,我们提出了零域扩散模型(DDNM),这是一种针对任意线性图像修复问题的零样本方法,包括但不限于图像超分辨率、着色、填充、压缩感知和去模糊。

DDNM只需要一个预先训练好的扩散模型作为生成先验,不需要任何额外的训练或网络修改。通过在反向扩散过程中只细化零空间内容,我们可以得到满足数据一致性和真实性的多样化结果。

我们进一步提出了一个增强的、鲁棒的版本,称为DDNM+,以支持含躁图像修复并提高修复质量。我们在多个图像修复任务上的实验表明,DDNM优于其他最先进的零样本图像修复方法。我们还证明了DDNM+可以解决复杂的现实应用,例如,老照片修复。

Zero-Shot Image Restoration Using Denoising Diffusion Null-Space Model

paper:

https://arxiv.org/pdf/2212.00490.pdf

code:

https://github.com/wyhuai/DDNM

主题③

MM-Diffusion:基于多模态扩散模型的联合音视频生成

 分享嘉宾 

杨欢

2019年于上海交通大学毕业获得博士学位,同年加入微软亚洲研究院,现任职主管研究员。其研究领域包括多模态图像视频生成,图像视频复原,在相关领域有数篇文章发表于CVPR,ICCV,ECCV,NeurIPS,ACM MM,TVCG等多个顶级会议和期刊。

 分享内容 

本文提出了一个联合音视频生成的多模态扩散模型--- MM-Diffusion,该方法可以同时生成匹配的音频和视频,带来相对单模态更加吸引人的观看和聆听体验。为了生成联合音视频对,本文提出的模型具有两个耦合的去噪自动编码器,分别处理音频和视频两个模态。为了确保模态之间的语义一致性,本文提出了一种基于随机移位的注意力模块桥接两个子网,能够实现有效的跨模态对齐,从而增强生成结果的保真度。大量实验表明,在无条件音视频生成和零样本条件生成任务下,本文提出的方法取得了优异的结果。代码和模型将于近期开源:https://github.com/researchmm/MM-Diffusion

MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

paper:

https://arxiv.org/abs/2212.09478

code:

https://github.com/researchmm/MM-Diffusion

PANEL环节

扩散模型的前沿研究及应用发展讨论

 主持人 

曾艳红

博士毕业于中山大学,参与中山大学-微软亚洲研究院联培,现任上海人工智能实验室青年研究员。在 OpenMMLab 团队负责图像视频生成与编辑相关的开源体系建设与算法研究

 参与嘉宾 

汪强 | 北京邮电大学 硕士生

王荫槐 | 北京大学 硕士生

杨欢 | 微软亚洲研究院 主管研究员

活动群报名

除此【直播】关注之外,还可以报名加入【热门研究 云际会】主题交流群,近距离接触更多AI前线小伙伴!

公众号后台回复“CVPR2023”获取最新论文分类整理资源

极市干货

极视角动态推进智能矿山建设,极视角「皮带传输系列算法」保障皮带安全稳定运行!

CVPR2023CVPR 2023|21 篇数据集工作汇总(附打包下载链接)

数据集:垃圾分类、水下垃圾/口罩垃圾/烟头垃圾检测等相关开源数据集汇总异常检测开源数据集汇总语义分割方向开源数据集资源汇总

点击阅读原文进入CV社区
收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读9.6k
粉丝0
内容8.2k