极市导读
北大&阿里通义万相提出UniLIP:两阶段自蒸馏让CLIP同时保持语义与像素级细节,双条件连接MLLM-DiT,3B模型在GenEval、WISE、ImgEdit上SOTA,可直接替换InternVL视觉编码器,代码权重已开源。>>加入极市CV技术交流群,走在计算机视觉的最前沿
本文作者来自北京大学和阿里通义万相实验室。其中论文第一作者是汤昊,北京大学2022级博士生,发表多篇NeurIPS, CVPR,ICCV和ECCV,目前主要关注统一的多模态理解和生成。指导教授是王立威老师,北京大学智能学院教授,曾获NeurIPS 2024和ICLR 2023 最佳论文奖
01 背景
统一的多模态模型需同时具备丰富的语义(用于理解)和精细的细节(用于生成/编辑)。像VAE这样的早期方法,因其特征缺少语义,导致理解性能较差 。目前统一编码器多基于类似CLIP的语义编码器构建,但它们普遍面临一个理解与重建性能之间的权衡挑战 :
-
直接量化并重建CLIP特征,会削弱其原有的强大理解能力 。 -
为冻结的CLIP训练解码器,则因特征细节丢失导致重建质量低下,难以支持编辑 。例如,近期的RAE模型使用冻结的DINOv2进行重建,其重建PSNR仅达到了19.23 。
为应对这一挑战,UniLIP采用两阶段训练及自蒸馏损失策略 。该方法使其在实现高质量图像重建的同时,能完整保留CLIP原有的语义理解性能,成为一个强大的统一编码器,在生成和编辑任务上表现突出 。
-
论文标题:UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing -
论文地址:https://www.arxiv.org/pdf/2507.23278 -
项目地址:https://github.com/nnnth/UniLIP -
模型地址:https://huggingface.co/kanashi6/UniLIP-3B
02 亮点
-
无损重建训练:UniLIP提出新颖的两阶段自蒸馏方案,赋予CLIP高质量图像重建能力( 压缩,PSNR ),同时保持其卓越的理解能力 8。UniLIP可直接替换MLLM(如InternVL)中的CLIP模块,保持甚至略微提升理解性能 。
-
双条件编辑架构:与RAE仅在ImageNet上实验不同,UniLIP进行了大规模生成和编辑训练 。为实现精准编辑,UniLIP设计了双条件架构,同时利用大模型的隐变量(保留图像细节)和查询嵌入(激发推理能力),确保编辑任务的高度一致性 。
-
SOTA性能:UniLIP以更少的参数量( ) 12在GenEval ( )、WISE ( ) 和 ImgEdit ( ) 等多个生成和编辑基准上超越了BAGEL( )等更大模型 13。
03 方法
3.1 CLIP重建训练,理解不降反增


为解决CLIP特征细节缺失导致的重建模糊问题,UniLIP提出创新的两阶段训练方案。该方案基于一个包含 CLIP、像素解码器及投影层的自编码器架构。
第一阶段:解码器对齐。 此阶段冻结 CLIP,仅训练像素解码器和投影层,使其学习从固定的 CLIP 特征中重建图像。训练目标为:
其中 代表像素级重建损失, 代表使用LPIPS度量计算的感知损失。
第二阶段:自蒸馏微调。 由于原始 CLIP 特征缺乏像素细节,第一阶段的重建质量受限。因此,此阶段将共同训练 CLIP,并通过自蒸馏方法约束其特征,防止其偏离原始分布,从而在注入细节的同时保留语义。训练目标为:
其中 是蒸馏损失的权重, 表示原始CLIP特征, 是微调后的CLIP特征。UniLIP经验性地发现将 设为1就足够了。
该方案克服了语义理解与像素重建的权衡(如下表所示,理解性能不降反增),实现了高保真压缩和完备的特征表示(兼具高级语义与像素细节) 。
3.2 用于图像生成和编辑的双条件架构
UniLIP 借鉴了 MetaQuery 范式,但突破了其在图像编辑任务中的信息瓶颈。传统方法仅用固定数量的查询嵌入(Query Embeddings)连接 MLLM 与扩散模型,这在传递参考图像丰富的像素级细节时力不从心,常导致编辑结果细节退化或内容不一致。
为此,UniLIP提出了一种双条件架构。该架构在查询嵌入之外,额外引入MLLM的多模态隐藏状态作为第二个条件 ,有效补充了缺失的像素级信息。这种设计成功地将复杂任务解耦:MLLM 专注于高级推理和意图理解,DiT 则基于这套无损传递的、兼具高级语义与底层细节的丰富线索,进行高保真度的图像合成。
04 实验
4.1 模型架构
UniLIP包括1B和3B两个版本,分别基于InternVL3 (1B/2B) 与SANA (0.6B/1.6B) 集成 。视觉编码器采用InternViT,像素解码器来自DC-AE 。
4.2 训练数据
UniLIP的生成数据来自BLIP3-o,包括38M的预训练数据和60k的指令微调数据。UniLIP的编辑预训练数据来自GPT-Image-Edit-1.5M,指令微调数据来自包含46K编辑数据的ShareGPT-4o-Image。
4.3 图像重建
UniLIP在256x256分辨率下超越了对CLIP进行量化的方法 。在448x448分辨率下,由于打开CLIP进行重建训练,UniLIP显著优于使用扩散解码器的Emu2 。
4.4 多模态理解
UniLIP可以直接替换InternVL的视觉编码器在理解基准上进行测试。得益于重建训练对原始能力的有效保持,UniLIP实现了同规模最好的理解性能,并超越了采用量化CLIP特征的更大模型(如Tar 7B)
4.5 图像生成
4.6 图像编辑
在ImgEdit-Bench图像编辑基准上,UniLIP以3.94的高分超越了OmniGen2等先进模型。其强大性能归功于UniLIP特征的丰富细节与精准语义对齐能力。UniLIP创新的双条件架构充分利用了这些特征,确保了编辑的精确性和非编辑区的一致性。
4.7 可视化
在生成任务中,UniLIP可以生成美观且紧密遵循用户提示的图像;而在编辑任务中,UniLIP可以在准确修改图像的同时保持周围区域的一致性。
05 总结
UniLIP通过精心设计的两阶段自蒸馏训练,有效解决了CLIP在统一模型中面临的语义理解与像素细节保留的矛盾 。其创新的双条件架构无缝连接了MLLM与扩散模型,确保了生成和编辑任务的高保真度与一致性,为下一代统一多模态模型提供了新范式 。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

