【灵思资讯】谷歌推出Vision Banana！通用视觉模型登顶2D/3D多项榜单，何恺明谢赛宁参与- 大数跨境

首页

【灵思资讯】谷歌推出Vision Banana！通用视觉模型登顶2D/3D多项榜单，何恺明谢赛宁参与

灵思极智

2026-05-05

一个Banana还不够，再来一个！

谷歌DeepMind以Nano Banana Pro为基础，最新发布通用多模态视觉大模型Vision Banana ——

何恺明、谢赛宁参与其中，验证了图像生成预训练可作为通用视觉学习的统一范式。

一个通用模型，在零样本迁移下，超越了SAM 3、Depth Anything 3等专用模型，在分割、深度、法线这些核心任务上刷新多项SOTA。

类似LLM用文本生成统一所有NLP任务，视觉领域的LLM时刻可能真的来了。

谢赛宁表示，作为一个从像素级标注任务（如分割、边缘、深度或表面法线）开始接触计算机视觉的人，看到这一成果会真切感受到：领域正经历重大变革，Vision Banana将彻底改写这类视觉问题的解决方式。

用“指令微调+生成接口”统一全视觉任务

文生图、图像编辑等生成模型虽一路高歌，画质更逼真、语义更精细，但学界一直有个疑问：能精准创造视觉内容的模型，真的理解视觉世界吗？

这好比NLP领域早期的质疑：能生成文本的模型，真的懂语言吗？

AI发展至今，LLM已用事实表明：生成预训练本身就是最佳的理解训练。语言模型在生成文本过程中，自然学会了语法、语义、推理和知识。

那视觉领域呢？

以往的视觉研究大多走判别式学习路线，包括监督判别学习、对比学习、自举学习、自编码等，基本都不属于生成式建模。

分类、检测、分割、深度估计各有一套架构、各用一批数据，模型虽专精但不通用。

而Vision Banana的回答是：图像生成模型早已悄悄掌握了理解视觉世界的能力，只是没人教它如何输出理解结果。

它彻底换了一条路径：用生成式思路，将所有视觉感知任务统一成一件事。

Vision Banana以谷歌自研的生成基座Nano Banana Pro为基础，仅通过轻量指令微调，就把分割、深度估计、表面法线等感知任务，统一成了生成可解码RGB图像这一件事。

具体实现分三步。

第一步，用自然语言提示指定输出格式。 Vision Banana继承了生成模型的多模态能力，能准确理解人话。比如直接告诉它“猫用黄色 (255,255,0) 标记，背景用黑色”，或者给一段JSON颜色映射，它都能准确理解并执行。这个能力直接来自Nano Banana Pro的多模态理解——生成模型在训练中学会了关联文本和图像，现在只需教它把理解结果也输出成图像。

第二步，设计可反向解码的RGB编码。所有感知结果（分割、深度、法线）都被编码成一张普通RGB图，并且编码是可逆的。法线估计最简单：单位向量(−1到1)直接线性映射到RGB(0到255)。语义分割更直观：每个类别指定一种颜色，模型生成着色图，解码时通过颜色匹配聚类得到mask。实例分割略有不同：因实例数量未知，无法在提示中预先分配颜色。Vision Banana采用逐类推理策略，每次只分割一个类别，模型自动为不同实例分配不同颜色。最巧妙的是深度估计：把无限大的深度值先压缩映射到0~1区间，再对应到RGB颜色，做到一个深度值对应唯一颜色，而一个颜色也能精准还原回深度值，没有信息损失。

第三步，轻量指令微调。只需在Nano Banana Pro原本的训练数据里，少量混入视觉任务数据，就能完成对齐。这种轻量微调带来三大优势：一套权重通吃所有任务，只需换指令就能切换任务；无需大量新增标注数据，训练成本极低；完全不损失原有的文生图、图像编辑能力。

官方实例显示，模型通过文本提示为不同物体设定专属颜色编码，依靠色彩映射规则，生成对应的语义分割可视化图像。

那这个思路为何有效？就像生成式预训练在生成文本过程中学会了语法和推理，图像生成模型在生成像素过程中学会了物体边界、深度关系和几何结构。这些表征一直存在于模型内部，只是没有合适的接口释放出来。

更重要的是，生成建模天然能解决多模态问题。很多视觉任务是一对多的：同一个输入可能有多种合理的输出。例如深度估计，一个像素的深度存在内在模糊性。判别式模型为避免输出模糊，需要设计专门的架构和损失函数。SAM甚至只对一个mask施加损失，忽略其他候选。而生成模型天然学习完整的数据分布。

LLM用文本生成统一了理解、翻译、摘要、推理等所有NLP任务。Vision Banana则证明：图像生成可以成为视觉领域的统一接口。

2D+3D通吃

这套极简方案在权威基准上全面碾压专业模型，且全程零样本迁移——训练时完全不接触测试集数据，深度估计连相机内参都不需要。

在2D理解上：语义分割mIoU达0.699，超越SAM 3；指代分割双双刷新零样本SOTA；实例分割与DINO-X持平，处于第一梯队。

在3D理解上，Vision Banana取得了更令人意外的成绩：深度估计、法线估计双双刷新SOTA。关键细节是：Vision Banana训练和推理都不需要相机内参。所有SOTA深度模型（DepthLM、Depth Anything V3、Depth Pro、UniK3D、MoGe-2）至少在训练时需要相机内参。而Vision Banana纯粹依靠视觉先验。

轻量微调完全没有丢失生成能力：GenAI-Bench上对Nano Banana Pro胜率53.5%，ImgEdit上胜率47.8%。Vision Banana在保持原生成模型能力的同时，也把感知任务一并拿下。一个模型，生成加理解，全都要。如同NLP领域的生成式预训练路线改变了所有语言任务的实现方式，视觉领域可能也正在迎来同样的范式转变。

团队介绍

Vision Banana整个项目共有25位研究者共同参与，由Valentin Gabeur、Shangbang Long、Songyou Peng三位核心作者领衔。

Valentin Gabeur，Google DeepMind研究员，专攻多模态学习。Meta AI博士后出身，也是SAM 2的共同一作。Inria博士，曾获CVPR 2020 Video Pentathlon挑战赛冠军。有意思的是，他转行AI前是一位机械工程师，在工业自动化领域工作了6年。

Shangbang Long，北京大学校友，Google DeepMind研究员，专攻识别、检测、分割。CMU硕士毕业，参与了Gemini Robotics、Genie 2等核心项目。深耕OCR与文档场景理解，代表作TextSnake在场景文本检测领域影响深远。

Songyou Peng（彭崧猷），西安交通大学校友，Google DeepMind研究科学家，长期深耕3D视觉方向。负责了Gemini和Nano Banana的多模态理解与生成，在NeRF、三维重建等领域产出多项高影响力成果。

此外，何恺明、谢赛宁作为Leadership Sponsors参与并支持这项工作。

———— END ————

灵思极智旗下“极智系列”三款AI智能应用