极市导读
VisualCloze把全部图像任务统一成“上下文示例+网格填充”,在20万任务图Graph200K上微调FLUX.1-Fill,零样本即可深度估计、风格迁移、多任务一步完成,多项指标超越专用模型,代码将开源。>>加入极市CV技术交流群,走在计算机视觉的最前沿
你有没有想过,为什么AI生成图像时总是"答非所问"?明明要生成"阳光下的猫咪",结果出来一只在黑夜中的小狗;想把照片变成梵高风格,却得到一幅毕加索式的抽象画...这些问题的根源,在于AI很难真正理解人类的任务指令。
今天要给大家介绍的ICCV 2025最新研究——VisualCloze框架,可能彻底改变这一现状。这个由中国团队研发的通用图像生成框架,创新性地引入"视觉上下文学习",让AI能像人类一样通过看例子学做事,轻松搞定图像生成、修复、编辑、风格迁移等几十种任务!
论文信息
题目:VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning
基于视觉上下文学习的通用图像生成框架VisualCloze
作者:Zhong-Yu Li、Ruoyi Du、Juncheng Yan、Le Zhuo、Zhen Li、Peng Gao、Zhanyu Ma、Ming-Ming Cheng
01 现有图像生成模型的三大痛点
目前主流的图像生成模型要么是"专一型",只能干一件事(比如专门做风格迁移);要么是"糊涂型",虽然号称能处理多任务,却经常搞混指令。研究者们总结了三大核心问题:
-
任务指令模糊:靠文字描述任务太不靠谱!"把裙子换成红色"和"让裙子更鲜艳",AI很难精准理解其中的差别 -
任务分布稀疏:不同图像任务的训练数据各成一派,模型学不到跨任务的通用知识 -
架构不统一:每个任务都要单独设计模型结构,既浪费资源又难以扩展
就像一个刚学画画的孩子,既没人教他看范例,又只能分开学画猫、画狗、画风景,最后当然无法成为全能画家。
02 VisualCloze的三大颠覆性创新
创新点1:让AI学会"看例子做事"
VisualCloze最牛的地方,是引入了"视觉上下文学习"机制。简单说就是:给AI看几个任务例子,它就能举一反三。
比如你想让AI把素描变成彩色照片,不需要复杂描述,只需给它看两组"素描→彩照"的示例,AI就能自动理解任务意图。这种方式比纯文字指令精准10倍!
从实验结果看,加了上下文示例后:
-
姿态估计任务的噪声明显减少 -
深度估计中远处区域的准确性大幅提升 -
即使是简单的条件生成任务,效果也更稳定
创新点2:构建超密集的任务关系网Graph200K
为了让AI学到通用知识,研究者们打造了一个包含20万图像的超级数据集Graph200K。这个数据集牛在哪?每个图像都像一个中心节点,周围连接着49种不同的任务注释,涵盖五大元任务:
-
条件生成(边缘图、深度图等12种条件) -
图像修复(32种不同退化处理) -
风格迁移(语义不变/变体两种模式) -
图像编辑(背景不变/变体两种编辑) -
知识产权保护相关任务
这些任务像一张紧密的网络,任何两个任务之间都有路径相连。比如"参考图→编辑图→原图"就构成了一个完整的图像编辑任务链。这种设计让模型能学到任务间的关联规律,而不是孤立知识。
创新点3:用"图像填充"统一所有任务
最巧妙的是,研究者发现:所有图像生成任务都可以转化为"图像填充"问题!
不管是风格迁移、图像修复还是条件生成,都能看作是在一个网格中填充缺失的部分。比如给AI看"素描+彩照"的示例后,让它填充新素描对应的彩照区域。
这种设计带来一个巨大好处:可以直接在最先进的图像填充模型(如FLUX.1-Fill-dev)上微调,不需要修改架构,就能获得强大的通用生成能力。就像给一把多功能瑞士军刀加了新刀片,基础功能不变,却能处理更多场景。
03 方法框架全景图
VisualCloze的整体架构简单又高效,主要包含三个部分:
-
输入层:将上下文示例和待处理任务组合成网格图像,其中需要生成的部分被标记为空白 -
处理层:基于预训练的图像填充模型,利用3D-RoPE位置编码处理不同比例的图像 -
输出层:从填充结果中裁剪出目标图像,完成任务
训练时,模型会随机掩码部分区域来学习双向生成能力——不仅能从条件生成目标,还能从目标反推条件(比如从风格化图像还原出原图和风格参考图)。
04 五大惊人能力展示
能力1:轻松搞定未见任务
从没学过"环境变化"编辑?给两个例子就能上手! 没训练过多主体生成?看了单主体示例就能举一反三!
实验显示,即使只训练了对象添加和移除,模型也能完成属性修改、环境变换等新任务,这在传统模型中几乎不可能实现。
能力2:多任务一步到位
VisualCloze能把多个子任务合并成一个步骤完成。比如:
-
同时进行条件生成+重新打光 -
一次性完成深度估计+表面法线估计+边缘检测
这种能力意味着你可以用更精细的条件控制生成结果,比如结合关键点和轮廓来生成更符合预期的肖像。
能力3:双向生成,正反通吃
不仅能从条件生成目标,还能从目标反推条件:
-
给一张风格化图像,能还原出原图和风格参考图 -
给一幅边缘图,能生成对应的真实图像、深度图和法线图
这种逆向思维能力,展示了模型对不同图像表示之间关系的深刻理解。
能力4:示例质量决定效果
就像人类学习一样,好的示例能让AI学得更快。实验发现:
-
示例与目标任务越相似,生成效果越好 -
清晰展示任务特征的示例能显著提高成功率
比如生成正面人脸时,用侧面角度更小的示例作参考,成功率会大幅提升。
能力5:超越专门模型的综合性能
在多项任务中,VisualCloze都表现出超越专门模型的实力:
-
深度图生成的RMSE(误差)比对比模型降低50%以上 -
主体驱动生成在语义对齐指标上领先7.15% -
风格迁移的文本一致性比OmniGen高出2%
尤其值得一提的是,基于填充模型的Oursfill版本,在几乎所有任务中都优于需要架构修改的版本,证明了统一框架的优越性。
05 未来展望与局限
虽然VisualCloze表现惊艳,但仍有提升空间:
-
在对象移除等任务中稳定性不足 -
复杂未见任务的处理效果还有待提高 -
上下文示例的质量对结果影响较大
不过,这项研究为通用图像生成指明了新方向:与其让AI死记硬背各种任务指令,不如教会它从 examples 中学习的能力。这可能是实现真正通用人工智能的关键一步。
想象一下,未来的图像生成模型就像一个全能设计师,看几个例子就知道该怎么做图,既能做素描转彩照,又能搞风格迁移,还能修复老照片——这一天可能比我们想象的来得更早!
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

