极市直播预告｜高保真人像风格化的秒级生成！揭秘爆火的小红书开源模型 InstantID



极市直播预告｜高保真人像风格化的秒级生成！揭秘爆火的小红书开源模型 InstantID

极市平台

2024-02-27

导读：本周四晚八点，不见不散！

↑ 点击蓝字关注极市平台

|极市线上分享第127期 |

一直以来，为让大家更好地了解学界业界优秀的论文和工作，极市已邀请了超过100位技术大咖嘉宾，并完成了126 期极市线上直播分享。

往期分享请前往bbs.cvmart.net/topics/149或直接阅读原文，也欢迎各位小伙伴自荐或推荐更多优秀的技术嘉宾到极市进行技术分享，与大家一起交流学习~~

本次分享我们邀请到了小红书创作发布团队算法工程师王浩帆，为大家详细介绍他们的工作：

InstantID: Zero-shot Identity-Preserving Generation in Seconds

GitHub：https://github.com/InstantID/InstantID

项目主页：https://instantid.github.io/

论文地址：https://arxiv.org/abs/2401.07519

免费体验地址：https://huggingface.co/spaces/InstantX/InstantID

Textual Inversion、DreamBooth 和 LoRA 等方法在个性化图像合成方面已经取得了重大进展。然而，它们在实际应用中受到高存储需求、耗时的微调过程以及需要多张参考图像的限制。相反，现有的基于 ID 嵌入的方法虽然只需要一次前向推理，但也面临着挑战：它们要么需要对大量模型参数进行广泛的微调，要么与社区预训练模型不兼容，或者无法保持较高的人脸保真度。

“为解决这些限制，我们推出了基于扩散模型的解决方案 —— InstantID。我们的即插即用模块只需使用单张面部图像，就能熟练地处理各种风格的图像个性化，同时确保高保真度。为此，我们通过强语义和弱空间条件设计了一个新颖的 IdentityNet（身份识别网络），将面部和地标图像与文本提示相结合，引导图像生成。InstantID 展示了卓越的性能和效率，在身份保护至关重要的实际应用中是非常有益的。此外，我们的工作与流行的预训练文本到图像扩散模型如 SD1.5 和 SDXL 无缝集成，可作为一个适应性强的插件。”

直播信息

时间

2024年2月29日（周四）：20:00-21:00

主题

小红书开源InstantID：高保真人像风格化的秒级生成

直播

B站也将同步进行

http://live.bilibili.com/3344545

嘉宾介绍

王浩帆

InstantX 团队成员，小红书创作发布团队算法工程师，从事可控条件生成领域的创新研究。硕士毕业于卡内基梅隆大学，代表工作包括 InstantID、Score-CAM 等。

关于分享

➤分享大纲

1.InstantID 为何掀起热潮：揭秘 InstantID 如何在短时间内迅速获得社区的广泛认可和支持，以及它如何激发用户和开发者的积极参与。

2.个性化图像合成技术回顾：回顾 Finetuning-free 和 Finetuning-based 方法的发展历程，分析 LoRA、Textual Inversion、DreamBooth、Face0 和 PhotoMaker 等技术的优缺点。

3.InstantID 设计思路揭秘：详细介绍如何利用强语义人脸特征替换 CLIP 的弱对齐特征，并在 Cross-Attention 中作为 Image Prompt 嵌入，以及 IdentityNet 如何实现对人脸的强语义和弱空间条件控制。

4.InstantID 应用案例解析：展示 InstantID 在多视角合成、ID插值、表情定制等多样化应用中的实际操作，探讨其在个性化内容创作和商业应用中的潜力。

5.讨论与提问：解答关于使用多个参考图像、推理速度提升、失败案例分析等普遍性问题，探讨在不同硬件配置下训练 InstantID 的可行性，以及数据集规模和质量对模型性能的影响。同时，展望未来工作的方向，包括摆脱面部关键点的依赖和 IP-Adapter 与 ControlNet 的结合。

参与方式

往期回顾

极市平台专注分享计算机视觉前沿资讯和技术干货，特邀请行业内专业牛人嘉宾为大家分享视觉领域内的干货及经验，目前已成功举办126期线上分享。近期在线分享可点击以下标题查看：

更多往期分享请浏览：极市计算机视觉技术分享集锦

（http://bbs.cvmart.net/topics/149/cvshare），也可以点击阅读原文获取。

【声明】内容源于网络

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

内容 8155

粉丝 0

极市平台为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

总阅读197

粉丝0

内容8.2k

极市直播预告｜高保真人像风格化的秒级生成！揭秘爆火的小红书开源模型 InstantID

CVPR'23-UniHCP：超越专才，以人体为中心的统一模型

ICCV2023-FLatten Transformer：简单高效的线性注意力模型

Meta-Transformer：一个学习框架解决十二种模态

大模型时代目标检测的三点尝试

CVPR23 Highlight：拥有top-down attention能力的ViT

CVPR23-OvarNet：开集预测的新SOTA，“万物识别”有了新玩法

ECCV2022 Oral-吴俊峰：视频实例分割新SOTA：SeqFormer&IDOL

田柯宇：卷积网络上如何做BERT/MAE预训练，ResNet也能用

CVPR2023-石鼎丰：高效时序动作检测网络TriDet

潘梓正：模型部署新范式—可缝合神经网络（CVPR 2023）

阿里达摩院：兼顾速度与精度的高效目标检测框架DAMO-YOLO

ECCV2022-李钢-PseCo：FPN错位对齐，实现高效半监督目标检测

范琦-SSP: 自支持匹配的小样本分割任务新思想（ECCV2022）

CVPR 2022-南开大学郑兆晖：目标检测定位蒸馏

NeurIPS 2022 Spotlight-童湛：基于掩码和重建视频自监督预训练

NTIRE 2022 冠军方案：用于轻量级图像超分辨率的蓝图可分离残差网络

严彬-Unicorn：走向目标跟踪的大一统（ECCV2022 Oral）

CVPR 2022-唐业辉：量子启发的新型视觉主干模型WaveMLP

港科大陈启峰：图像处理与复原中的可逆性问题

陈使明：零样本学习的关键问题研究

郑哲东丨从行人重识别到无人机定位

陈鑫：CVPR 2021-TransT: 基于Transformer的高性能单目标跟踪算法