>

没有发布会，没有CEO站台，谷歌用一根“香蕉”赢得了欢呼

>

0

0



没有发布会，没有CEO站台，谷歌用一根“香蕉”赢得了欢呼

没有发布会，没有CEO站台，谷歌用一根“香蕉”赢得了欢呼

科创最前线

2025-09-01

0

导读：一个匿名造型如何引爆社区？

一个匿名造型如何引爆社区？

来源 | 硅星人Pro

作者 | 黄小艺

在大模型发布新版本往往高举高打的当下，Google的一款秘密模型低调地引爆了社交网络。

8月中旬，一个名为nano-banana的模型在 LMArena 平台的「Battle」中被发现，尽管没有任何官方开发者明确声称其归属，但很快，出于惊人的效果获得了病毒式的关注。

甚至大量用户只为能被分配到该模型，而不断地参与平台模型盲测，相关图片也在社交平台上广泛传播。

直到北京时间8月27日凌晨，谷歌正式认领了该模型，正是新推出的Gemini 2.5 Flash Image，目前已经可以在Gemini app、Google AI studio、Google API进行使用。

在官方介绍中，核心技术亮点主要是以下三个：

颠覆性的一致性（Consistency）：在连续生成或编辑中保持人物身份的稳定。
自然语言驱动的编辑：用户仅通过对话式指令即可实现高精度图像修改，无需复杂的专业工具。
闪电速度：图像生成与编辑响应时间通常在1-2秒内，提供了接近实时的交互体验。

我们也实测了一番，结果有惊艳，也有翻车，但确实在一致性上做到了断层领先的水平。

01

模型实测：

能帮我实现Labubu自由，

还会做计算题？

一打开模型，我们就向AI下达了第一个指令：

给我来七个Labubu，直接实现“手办自由”。

直接上传一张Labubu的商品图，并复制修改了这段广为流传的手办Prompt，生成结果如下：

乍一看效果非常好，Labubu的外形特征、搪胶材质都非常的逼真，甚至可以发朋友圈以假乱真。

但仔细一看，数量却不对，桌面上只有六小只，缺失了一个绿色的玩偶。

让AI学会准确数数，依然是个问题。

另外，由于我们最初的prompt里提到了“正版”，AI没能输出结果，修改措辞后才完成了生成。

接下来，我们又尝试了多张图片融合。

据官方介绍能够保持人物的一致性，目前最多可支持三张图片合成，我们尝试了一下让甄嬛和安陵容来到现代都市，并且要求保持复杂的中国传统首饰不变形。

AI也基本完成了任务。

在甄嬛的身体发生转动和变化的情况下，袖口的花纹和头饰基本没有变化，并为了完成Prompt中提到的couple，设计了一个在街头亲密自拍的动作。

如果觉得这个姿势不够满意，甚至可以通过简笔画的方式，让AI直接理解图片示例，比如我们直接告诉AI，姿势照着图二修改。

尽管火柴人画得很抽象，但AI还是完成了任务。

这并不是一个简单的多图融合。

此前生成模型的多图参考，是文本和图像两种跨模态输入的对齐，对prompt格式有要求，例如A + B + C +运动，图像主体尽量清晰，运动描述尽量直观简洁，还需要一定的抽卡概率。

而Gemini 2.5 Flash显然对复杂的多模态输入理解得更加准确。

这个多图融合的featuer，在匿名测试阶段就已经被电商用户疯狂夸赞了，我们接下来尝试了商品的替换，实测结果却轻微地翻车了。

将两张图片融合后的生成结果如下，尽管可以看到材质、样式符合了原图，但遗憾是个超大杯。

当我们试图通过prompt修改，让香水瓶恢复正常尺寸时，模型却显得始终执着于超大杯，修改后的图片与原图几乎没有差别。

虽然很想继续修改，但大量用户涌入后，由于“内部错误”，这个号称能速生图片的模型硬生生卡了几分钟，也无法完成更多任务了。

不过值得注意的是，官方提到得益于 Gemini 的先进推理，模型会有一定的理解和思维能力。

尽管在符合现实逻辑上翻了车，但计算数学题却成功了。

我们给出了一个小学脑力计算题，在很短的时间内，模型就计算出了正确答案。

此处值得一个掌声。

02

“社区民选”的胜利

不仅模型的一致性效果很惊艳，此次模型出圈的路线也很有趣。

8月中旬，这款模型以完全匿名身份出现在LMArena的对战模式中时，用户需要在不知来源的情况下，仅凭生成效果进行盲测投票。

短短两周时间，凭借在“一致性”上的压倒性优势，“nano-banana”在盲测中持续胜出，迅速引起了全球AI核心用户和开发者的注意。

讨论从LMArena平台迅速扩散至Reddit、X (Twitter)、Discord等社区。

用户自发进行极限测试、分享惊艳案例，并为其创造了“一致性之王”、“Photoshop杀手”等极具传播力的标签。

甚至很多人会因为想要使用nano-banana模型，反复参与点评和测试，只为获得一次随机抽中banana的机会。

就在不少人还在猜测，模型是否会开源，什么时候正式发布的时候，谷歌工程师巧妙地在社交媒体发布"🍌"表情符号，将解谜游戏推向新高度。

8月26日，在市场热度和口碑达到峰值时，谷歌正式宣布"nano-banana"即为Gemini 2.5 Flash Image模型，并开始全面推送。

很难说，这一路径并非谷歌有意为之。

毕竟，早在8月初刚刚出圈，就有外媒报道，多位 AI 研究者和爱好者推测，nano-banana 可能是谷歌最新的图像生成模型；

也有观察人士认为，可能来源于Qwen Image或来自各大实验室尚未发布的其他模型。

当然，这种“神秘发布”模式并非谷歌首创，从去年开始，不少模型们都会选择在LMArena上进行盲测。

OpenAI此前也曾让神秘模型"im-also-a-good-gpt2-chatbot"现身竞技场，最终揭晓为GPT-4o测试版，预热了产品发布。

一方面，模型们选择LMArena，固然是因为在匿名的黑箱中，用户的选择完全是基于模型的实力，而排除了品牌的偏见和预期，为真实性能提供了纯粹的认证。

另一方面，在AI竞赛白热化的背景下，大厂的模型发布往往会被置于一种“追赶者or颠覆者”的叙事框架内，从而被严格审视甚至审判。

相比起传统的高举高打的发布模式，匿名发布再到官方认领的策略，完成一次“民选”模型的病毒式传播，既充分利用了社区自发传播的势能，又避免了过度炒作可能带来的反噬效应，使其性能优势在发布前就已成为“市场共识”。

这也为焦虑市场反馈的下一代模型们，提供了一种新的发布思路。

科创最前线是一家专注报道科技推动产业创新的新媒体，致力于成为中国科创浪潮中的发现者、陪伴者、推动者。

我们聚焦中国科技创新产业发展，挖掘科创企业明日之星，深度跟踪头部科技企业动态及科技产业资本布局，推动科技在消费、出行、教育、文娱、房产、医疗等民生领域的落地。

【声明】内容源于网络

0

0

科创最前线

中国科技创新浪潮中的发现者，记录者，陪伴者。

内容 782

粉丝 0

科创最前线中国科技创新浪潮中的发现者，记录者，陪伴者。

总阅读6

粉丝0

内容782