

Gemini 3为什么能成功？

newtype AI

2025-11-28

导读：文本是对世界的压缩和抽象，而视觉是世界本身的投影。

首发知识星球newtype

星球内免费阅读，欢迎加入

直接说结论。

Gemini 3的成功源自于它将原生多模态与深度推理能力进行前所未有的结合。其中，原生多模态是一切的基础。早在Gemini系列伊始，Google就对原生多模态架构进行战略性下注。

Google CEO Sundar Pichai强调，每代模型都构建在上代突破之上，而原生多模态是这一路径的基石。没有它，Gemini 3的Deep Think模式和视觉学习能力就难以实现。

什么叫“原生”？

原生多模态意味着，从模型的第一个训练步骤就将文本、图像、视频和音频等模态作为统一输入进行联合学习，从而实现更自然的跨模态推理和交互。

而那些非原生的模型通常是通过一个独立的视觉编码器，把图片硬生生地“压缩”成语言模型能读取的信号。这种方式会导致大量难以用文字描述、难以被编码器捕捉的细微信息在传输中丢失，比如光影质感、微表情。

“原生”有什么好处？

当面对非文本信息时，这种架构能让模型“直觉式”地理解。

比如，它不仅能“看到”视频中的动作，还能理解动作背后的物理规律、情感色彩或复杂逻辑。

你再想想别的模型，比如DeepSeek模型，只能“看图说话”。它们需要“外挂”先“翻译”图片，转成文字之后，再进行处理。

所以，这种“原生”所带来的“全感知”能力，是Gemini区别于纯文本推理模型的最大护城河。

既然“原生”那么好，为什么OpenAI他们早期不跟进？

道理大家都懂。但这是技术路线的选择、数据资源的差异以及工程难度的综合结果。

【声明】内容源于网络

newtype AI

分享关于AI的Why和How。

内容 157

粉丝 0

newtype AI 分享关于AI的Why和How。

总阅读50

粉丝0

内容157