一个Banana还不够,再来一个!
谷歌DeepMind以Nano Banana Pro为基础,最新发布通用多模态视觉大模型Vision Banana ——
何恺明、谢赛宁 参与其中,验证了图像生成预训练可作为通用视觉学习的统一范式。
一个通用模型,在零样本迁移下,超越了SAM 3、Depth Anything 3等专用模型,在分割、深度、法线这些核心任务上刷新多项SOTA。
类似LLM用文本生成统一所有NLP任务,视觉领域的LLM时刻可能真的来了。
谢赛宁表示,作为一个从像素级标注任务(如分割、边缘、深度或表面法线)开始接触计算机视觉的人,看到这一成果会真切感受到:领域正经历重大变革,Vision Banana将彻底改写这类视觉问题的解决方式。
用“指令微调+生成接口”统一全视觉任务
文生图、图像编辑等生成模型虽一路高歌,画质更逼真、语义更精细,但学界一直有个疑问:能精准创造视觉内容的模型,真的理解视觉世界吗?
这好比NLP领域早期的质疑:能生成文本的模型,真的懂语言吗?
AI发展至今,LLM已用事实表明:生成预训练本身就是最佳的理解训练。语言模型在生成文本过程中,自然学会了语法、语义、推理和知识。
那视觉领域呢?
以往的视觉研究大多走判别式学习路线,包括监督判别学习、对比学习、自举学习、自编码等,基本都不属于生成式建模。
分类、检测、分割、深度估计各有一套架构、各用一批数据,模型虽专精但不通用。
而Vision Banana的回答是:图像生成模型早已悄悄掌握了理解视觉世界的能力,只是没人教它如何输出理解结果。
它彻底换了一条路径:用生成式思路,将所有视觉感知任务统一成一件事。
Vision Banana以谷歌自研的生成基座Nano Banana Pro为基础,仅通过轻量指令微调 ,就把分割、深度估计、表面法线等感知任务,统一成了生成可解码RGB图像 这一件事。
具体实现分三步。
第一步,用自然语言提示指定输出格式。 Vision Banana继承了生成模型的多模态能力,能准确理解人话。比如直接告诉它“猫用黄色 (255,255,0) 标记,背景用黑色”,或者给一段JSON颜色映射,它都能准确理解并执行。这个能力直接来自Nano Banana Pro的多模态理解——生成模型在训练中学会了关联文本和图像,现在只需教它把理解结果也输出成图像。
第二步,设计可反向解码的RGB编码。 所有感知结果(分割、深度、法线)都被编码成一张普通RGB图,并且编码是可逆的。法线估计最简单:单位向量(−1到1)直接线性映射到RGB(0到255)。语义分割更直观:每个类别指定一种颜色,模型生成着色图,解码时通过颜色匹配聚类得到mask。实例分割略有不同:因实例数量未知,无法在提示中预先分配颜色。Vision Banana采用逐类推理策略,每次只分割一个类别,模型自动为不同实例分配不同颜色。最巧妙的是深度估计:把无限大的深度值先压缩映射到0~1区间,再对应到RGB颜色,做到一个深度值对应唯一颜色,而一个颜色也能精准还原回深度值,没有信息损失。
第三步,轻量指令微调。 只需在Nano Banana Pro原本的训练数据里,少量混入视觉任务数据,就能完成对齐。这种轻量微调带来三大优势:一套权重通吃所有任务,只需换指令就能切换任务;无需大量新增标注数据,训练成本极低;完全不损失原有的文生图、图像编辑能力。
官方实例显示,模型通过文本提示为不同物体设定专属颜色编码,依靠色彩映射规则,生成对应的语义分割可视化图像。
那这个思路为何有效?就像生成式预训练在生成文本过程中学会了语法和推理,图像生成模型在生成像素过程中学会了物体边界、深度关系和几何结构。这些表征一直存在于模型内部,只是没有合适的接口释放出来。
更重要的是,生成建模天然能解决多模态问题。很多视觉任务是一对多的:同一个输入可能有多种合理的输出。例如深度估计,一个像素的深度存在内在模糊性。判别式模型为避免输出模糊,需要设计专门的架构和损失函数。SAM甚至只对一个mask施加损失,忽略其他候选。而生成模型天然学习完整的数据分布。
LLM用文本生成统一了理解、翻译、摘要、推理等所有NLP任务。Vision Banana则证明:图像生成可以成为视觉领域的统一接口。
2D+3D通吃
这套极简方案在权威基准上全面碾压专业模型,且全程零样本迁移——训练时完全不接触测试集数据,深度估计连相机内参都不需要。
在2D理解上:语义分割mIoU达0.699,超越SAM 3;指代分割双双刷新零样本SOTA;实例分割与DINO-X持平,处于第一梯队。
在3D理解上,Vision Banana取得了更令人意外的成绩:深度估计、法线估计双双刷新SOTA。关键细节是:Vision Banana训练和推理都不需要相机内参。所有SOTA深度模型(DepthLM、Depth Anything V3、Depth Pro、UniK3D、MoGe-2)至少在训练时需要相机内参。而Vision Banana纯粹依靠视觉先验。
轻量微调完全没有丢失生成能力:GenAI-Bench上对Nano Banana Pro胜率53.5%,ImgEdit上胜率47.8%。Vision Banana在保持原生成模型能力的同时,也把感知任务一并拿下。一个模型,生成加理解,全都要。如同NLP领域的生成式预训练路线改变了所有语言任务的实现方式,视觉领域可能也正在迎来同样的范式转变。
团队介绍
Vision Banana整个项目共有25位研究者共同参与,由Valentin Gabeur、Shangbang Long、Songyou Peng三位核心作者领衔。
Valentin Gabeur,Google DeepMind研究员,专攻多模态学习。Meta AI博士后出身,也是SAM 2的共同一作。Inria博士,曾获CVPR 2020 Video Pentathlon挑战赛冠军。有意思的是,他转行AI前是一位机械工程师,在工业自动化领域工作了6年。
Shangbang Long,北京大学校友,Google DeepMind研究员,专攻识别、检测、分割。CMU硕士毕业,参与了Gemini Robotics、Genie 2等核心项目。深耕OCR与文档场景理解,代表作TextSnake在场景文本检测领域影响深远。
Songyou Peng(彭崧猷),西安交通大学校友,Google DeepMind研究科学家,长期深耕3D视觉方向。负责了Gemini和Nano Banana的多模态理解与生成,在NeRF、三维重建等领域产出多项高影响力成果。
此外,何恺明、谢赛宁作为Leadership Sponsors参与并支持这项工作。
———— END ————
灵思极智旗下“极智系列”三款AI智能应用

