视频号:黄益贺
YouTube / Medium: huangyihe
Nano Banana模型绝对不只是一个单纯的文生图模型。很多人还没有意识到Google把原生多模态这条路线走通之后有多恐怖。
这么说吧:第一,图片是由像素组成的,文字也是由像素组成的——它们两个本质上没什么区别。只要能用视觉呈现的,Nano Banana都可以生成。
第二,这个模型具备推理能力,它能理解你说的意思,也能理解视觉层面的信息。一张风景图片和一张财报截图,在Nano Banana看来没有区别。
所以,这两者叠加在一起,就是一个跟过去三年完全不一样的AI发展阶段。我们正式从以ChatGPT为代表的“文字生产力”,跨入以Gemini和Nano Banana为代表的“视觉生产力”阶段。
哈喽各位好,欢迎回到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西远比教程更值钱。记得点一波关注。如果想链接我,就来我们newtype社群。这个社群已经运营600天,有超过1900位小伙伴付费加入啦。
如果你是国内用户,可以从知识星球加入。如果你是海外用户,可以从Substack加入。我的第一套课程、日常的Newsletter以及专属视频,在社群内都可以看到。
回到今天的主题:视觉生产力。
老规矩,在讲道理之前,我先给大家看看例子。
要理解“视觉生产力”这个概念,我推荐大家到Gemini里边打开生成图片功能,然后让AI用手绘风格去添加标注。
比如,当你在阅读一篇论文或者报告的时候,可以把其中一部分截图下来,贴进Gemini,告诉它:用手绘风格和中文文字添加标注,圈内容、画箭头、马克笔高亮的形式,把你认为的重要内容全都标注出来。
稍等一会儿,一个非常漂亮的阅读笔记就做出来了。我说它漂亮,一是因为这个手绘风格真的很不错。它带来的视觉反馈,会比冷冰冰的Markdown文本更容易让人脑接受。二是因为它确实看懂了内容,把重点都圈出来,这个是别的图像生成模型做不到的。
这种让Nano Banana做标注的方式还可以应用到很多地方。比如,我给它一张股价走势图,让它在图上标注出重大事件,以及在旁边空白的地方写下明年会对股价有影响的大事。
还有,可以把一个网页截图给它,让它标注出UI方面有待改进的地方。
此外,你还可以让Nano Banana帮你批改孩子的作业,你也可以把老师的板书拍下来发给它,甚至可以把你深蹲的侧面照片发给它,让它在脊柱位置画一条红线,判断姿势是否标注。这些Nano Banana都可以做到。
如果你用过之前的生图模型,比如Midjourney,就会发现两者的区别:
Midjourney它们走的是“Text-to-Image”路线,它们不懂复杂的逻辑,只是在做概率匹配。
Nano Banana走的是“Reasoning-to-Image”路线。它读得懂、想得通、画得对。
看起来,它还是在画画,大多数人也只是拿它来画画——这是我说Nano Banana被低估的原因。当你理解了背后的原理之后就知道,这个模型已经脱离了画画的范畴,上升到“视觉生产力”的高度。
问题来了:为什么它可以?
我之前在社群内发过一篇文章,关于Gemini 3为什么能成功。文章的核心观点是,Google在一开始就走了一条跟别人不一样的路线:原生多模态。
所谓原生多模态指的是,从模型的第一个训练步骤就将文本、图像、视频和音频等模态作为统一输入进行联合学习,从而实现更自然的跨模态推理和交互。
Nano Banana和Gemini在训练的第一个阶段,其实是共享“大脑”的。
在这个阶段,模型没有区分“我是生图的模型”还是“我是对话的模型”。它只是学习世上的万事万物是如何关联的——所以Nano Banana才具备其它生图模型都不具备的世界知识。
当预训练完成后,模型才开始分化:
一条路线接入文本解码器,并且在微调的时候专门训练它做逻辑推理、写代码和多轮对话。于是就有了Gemini模型。
另一条路线接入图像生成解码器,并且在微调的时候做视觉对齐、OCR渲染训练,以及最关键的推理注入。于是就有了Nano Banana。
所以你看,Nano Banana从一出生就注定了它不只是画画。它跟Gemini代表了Google的同一个野心、不同的进攻方向。甚至你可以把Nano Banana看作是Gemini的“视觉生成分身”。
最新的Gemini和Nano Banana模型出来之后,Google很快把它装备到各种产品里边,竞争力强了非常多。
我再重申一下年初我在视频里讲过的判断:Google一定会成为C端的AI王者。当年他们决定走原生多模态这条更艰难的路线的时候,就注定会是这样的结果了。
OK,以上就是本期内容。想了解AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。那咱们下期见!

