大数跨境
0
0

鱼与熊掌兼得!北大x通义提出UniLIP: 训练CLIP做重建,理解不降反升,支持生成和编辑

鱼与熊掌兼得!北大x通义提出UniLIP: 训练CLIP做重建,理解不降反升,支持生成和编辑 极市平台
2025-10-30
2
↑ 点击蓝字 关注极市平台
作者丨汤昊
来源丨北京大学
编辑丨极市平台

极市导读

 

北大&阿里通义万相提出UniLIP:两阶段自蒸馏让CLIP同时保持语义与像素级细节,双条件连接MLLM-DiT,3B模型在GenEval、WISE、ImgEdit上SOTA,可直接替换InternVL视觉编码器,代码权重已开源。>>加入极市CV技术交流群,走在计算机视觉的最前沿

本文作者来自北京大学和阿里通义万相实验室。其中论文第一作者是汤昊,北京大学2022级博士生,发表多篇NeurIPS, CVPR,ICCV和ECCV,目前主要关注统一的多模态理解和生成。指导教授是王立威老师,北京大学智能学院教授,曾获NeurIPS 2024和ICLR 2023 最佳论文奖

01 背景

统一的多模态模型需同时具备丰富的语义(用于理解)和精细的细节(用于生成/编辑)。像VAE这样的早期方法,因其特征缺少语义,导致理解性能较差 。目前统一编码器多基于类似CLIP的语义编码器构建,但它们普遍面临一个理解与重建性能之间的权衡挑战 :

  • 直接量化并重建CLIP特征,会削弱其原有的强大理解能力 。
  • 冻结的CLIP训练解码器,则因特征细节丢失导致重建质量低下,难以支持编辑 。例如,近期的RAE模型使用冻结的DINOv2进行重建,其重建PSNR仅达到了19.23 。

为应对这一挑战,UniLIP采用两阶段训练及自蒸馏损失策略 。该方法使其在实现高质量图像重建的同时,能完整保留CLIP原有的语义理解性能,成为一个强大的统一编码器,在生成和编辑任务上表现突出 。

  • 论文标题:UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing
  • 论文地址:https://www.arxiv.org/pdf/2507.23278
  • 项目地址:https://github.com/nnnth/UniLIP
  • 模型地址:https://huggingface.co/kanashi6/UniLIP-3B

02 亮点

  • 无损重建训练:UniLIP提出新颖的两阶段自蒸馏方案,赋予CLIP高质量图像重建能力( 压缩,PSNR  ),同时保持其卓越的理解能力 8。UniLIP可直接替换MLLM(如InternVL)中的CLIP模块,保持甚至略微提升理解性能 。

  • 双条件编辑架构:与RAE仅在ImageNet上实验不同,UniLIP进行了大规模生成和编辑训练 。为实现精准编辑,UniLIP设计了双条件架构,同时利用大模型的隐变量(保留图像细节)和查询嵌入(激发推理能力),确保编辑任务的高度一致性 。

  • SOTA性能:UniLIP以更少的参数量( ) 12在GenEval ( )、WISE ( ) 和 ImgEdit ( ) 等多个生成和编辑基准上超越了BAGEL( )等更大模型 13。

03 方法

3.1 CLIP重建训练,理解不降反增

为解决CLIP特征细节缺失导致的重建模糊问题,UniLIP提出创新的两阶段训练方案。该方案基于一个包含 CLIP、像素解码器及投影层的自编码器架构。

第一阶段:解码器对齐。 此阶段冻结 CLIP,仅训练像素解码器和投影层,使其学习从固定的 CLIP 特征中重建图像。训练目标为:

其中   代表像素级重建损失,  代表使用LPIPS度量计算的感知损失。

第二阶段:自蒸馏微调。 由于原始 CLIP 特征缺乏像素细节,第一阶段的重建质量受限。因此,此阶段将共同训练 CLIP,并通过自蒸馏方法约束其特征,防止其偏离原始分布,从而在注入细节的同时保留语义。训练目标为:

其中   是蒸馏损失的权重,  表示原始CLIP特征,  是微调后的CLIP特征。UniLIP经验性地发现将   设为1就足够了。

该方案克服了语义理解与像素重建的权衡(如下表所示,理解性能不降反增),实现了高保真压缩和完备的特征表示(兼具高级语义与像素细节) 。

3.2 用于图像生成和编辑的双条件架构

UniLIP 借鉴了 MetaQuery 范式,但突破了其在图像编辑任务中的信息瓶颈。传统方法仅用固定数量的查询嵌入(Query Embeddings)连接 MLLM 与扩散模型,这在传递参考图像丰富的像素级细节时力不从心,常导致编辑结果细节退化或内容不一致。

为此,UniLIP提出了一种双条件架构。该架构在查询嵌入之外,额外引入MLLM的多模态隐藏状态作为第二个条件 ,有效补充了缺失的像素级信息。这种设计成功地将复杂任务解耦:MLLM 专注于高级推理和意图理解,DiT 则基于这套无损传递的、兼具高级语义与底层细节的丰富线索,进行高保真度的图像合成。

04 实验

4.1 模型架构

UniLIP包括1B和3B两个版本,分别基于InternVL3 (1B/2B) 与SANA (0.6B/1.6B) 集成 。视觉编码器采用InternViT,像素解码器来自DC-AE 。

4.2 训练数据

UniLIP的生成数据来自BLIP3-o,包括38M的预训练数据和60k的指令微调数据。UniLIP的编辑预训练数据来自GPT-Image-Edit-1.5M,指令微调数据来自包含46K编辑数据的ShareGPT-4o-Image。

4.3 图像重建

UniLIP在256x256分辨率下超越了对CLIP进行量化的方法 。在448x448分辨率下,由于打开CLIP进行重建训练,UniLIP显著优于使用扩散解码器的Emu2 。

4.4 多模态理解

UniLIP可以直接替换InternVL的视觉编码器在理解基准上进行测试。得益于重建训练对原始能力的有效保持,UniLIP实现了同规模最好的理解性能,并超越了采用量化CLIP特征的更大模型(如Tar 7B)

4.5 图像生成

4.6 图像编辑

在ImgEdit-Bench图像编辑基准上,UniLIP以3.94的高分超越了OmniGen2等先进模型。其强大性能归功于UniLIP特征的丰富细节与精准语义对齐能力。UniLIP创新的双条件架构充分利用了这些特征,确保了编辑的精确性和非编辑区的一致性。

4.7 可视化

在生成任务中,UniLIP可以生成美观且紧密遵循用户提示的图像;而在编辑任务中,UniLIP可以在准确修改图像的同时保持周围区域的一致性。

05 总结

UniLIP通过精心设计的两阶段自蒸馏训练,有效解决了CLIP在统一模型中面临的语义理解与像素细节保留的矛盾 。其创新的双条件架构无缝连接了MLLM与扩散模型,确保了生成和编辑任务的高保真度与一致性,为下一代统一多模态模型提供了新范式 。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k