AIGC的出圈热度,让扩散模型的相关研究工作也搭上东风,引发热烈探讨,同时也激发了内容创作领域更多有趣、高效的人工智能应用。作为本季「热门研究云际会」的收官之作,将门创投与OpenMMLab非常荣幸邀请到CV领域的专家及青年学者,他们分别是微软亚洲研究院的主管研究员杨欢、上海人工智能实验室青年研究院曾艳红、北京邮电大学硕士生汪强、北京大学硕士生王荫槐,来分享扩散模型方向的最新工作。完美视界,声画共生,希望为视觉领域的小伙伴们带来新鲜的观点见解和有料的知识分享。
4月25日上午10点,一起继续交流,为多模态相关研究工作激发更多跨界灵感!
专场四:
现场议程

嘉宾工作介绍
主题①
艺术之笔:用 SketchKnitter 重塑矢量草图的未来
分享嘉宾
汪强
北京邮电大学人工智能学院智能感知与计算实验室硕士研究生,研究方向是计算机视觉,生成式模型。
分享内容
SketchKnitter,这是首个用 Diffusion Models 重建矢量化草图的工作。我们证明了矢量化草图生成可以被识别为笔画变形的逆转过程,这一能力是通过扩散模型建立的。SketchKnitter 学习真实人体草图的笔画点位置和笔状态的数据分布。对于给定的随机分散笔画点,草图生成成为基于变形的去噪过程,其中生成器在每个时间步纠正笔画点的位置以收敛于可识别的草图。一项关键创新是将可识别性嵌入逆时扩散过程。
据观察,反转过程中的估计噪声与草图分类精度密切相关。因此,我们使用辅助循环神经网络来量化数据采样期间的可识别性。并基于可识别性分数,我们设计一个采样快捷函数,以更少的采样步骤呈现质量更好的草图。最后我们表明,该模型可以很容易地扩展到条件生成框架,在给定不完整和不忠实的草图的情况下,它会生成一个更具视觉吸引力和更高可识别性的草图。

SketchKnitter: Vectorized Sketch Generation with Diffusion Models
paper:
https://openreview.net/pdf?id=4eJ43EN2g6l
code:
https://github.com/XDUWQ/SketchKnitter
主题②
重塑完美视界:零样本图像修复之道
分享嘉宾
北京大学张健组硕士研究生,研究方向包括图像重建,3D重建,三维人体运动控制等。
分享内容
现有的大多数图像恢复模型都是任务特定的,难以泛化到不同的退化算子。在这项工作中,我们提出了零域扩散模型(DDNM),这是一种针对任意线性图像修复问题的零样本方法,包括但不限于图像超分辨率、着色、填充、压缩感知和去模糊。
DDNM只需要一个预先训练好的扩散模型作为生成先验,不需要任何额外的训练或网络修改。通过在反向扩散过程中只细化零空间内容,我们可以得到满足数据一致性和真实性的多样化结果。
我们进一步提出了一个增强的、鲁棒的版本,称为DDNM+,以支持含躁图像修复并提高修复质量。我们在多个图像修复任务上的实验表明,DDNM优于其他最先进的零样本图像修复方法。我们还证明了DDNM+可以解决复杂的现实应用,例如,老照片修复。
Zero-Shot Image Restoration Using Denoising Diffusion Null-Space Model
paper:
https://arxiv.org/pdf/2212.00490.pdf
code:
https://github.com/wyhuai/DDNM
主题③
MM-Diffusion:基于多模态扩散模型的联合音视频生成
分享嘉宾
杨欢
2019年于上海交通大学毕业获得博士学位,同年加入微软亚洲研究院,现任职主管研究员。其研究领域包括多模态图像视频生成,图像视频复原,在相关领域有数篇文章发表于CVPR,ICCV,ECCV,NeurIPS,ACM MM,TVCG等多个顶级会议和期刊。
分享内容
本文提出了一个联合音视频生成的多模态扩散模型--- MM-Diffusion,该方法可以同时生成匹配的音频和视频,带来相对单模态更加吸引人的观看和聆听体验。为了生成联合音视频对,本文提出的模型具有两个耦合的去噪自动编码器,分别处理音频和视频两个模态。为了确保模态之间的语义一致性,本文提出了一种基于随机移位的注意力模块桥接两个子网,能够实现有效的跨模态对齐,从而增强生成结果的保真度。大量实验表明,在无条件音视频生成和零样本条件生成任务下,本文提出的方法取得了优异的结果。代码和模型将于近期开源:https://github.com/researchmm/MM-Diffusion。

MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation
paper:
https://arxiv.org/abs/2212.09478
code:
https://github.com/researchmm/MM-Diffusion
PANEL环节
扩散模型的前沿研究及应用发展讨论
主持人
曾艳红
博士毕业于中山大学,参与中山大学-微软亚洲研究院联培,现任上海人工智能实验室青年研究员。在 OpenMMLab 团队负责图像视频生成与编辑相关的开源体系建设与算法研究
参与嘉宾
汪强 | 北京邮电大学 硕士生
王荫槐 | 北京大学 硕士生
杨欢 | 微软亚洲研究院 主管研究员
活动群报名

公众号后台回复“CVPR2023”获取最新论文分类整理资源
极视角动态:推进智能矿山建设,极视角「皮带传输系列算法」保障皮带安全稳定运行!
CVPR2023:CVPR 2023|21 篇数据集工作汇总(附打包下载链接)
数据集:垃圾分类、水下垃圾/口罩垃圾/烟头垃圾检测等相关开源数据集汇总|异常检测开源数据集汇总|语义分割方向开源数据集资源汇总

