大数跨境
0
0

Gemini 3为什么能成功?

Gemini 3为什么能成功? newtype AI
2025-11-28
0
导读:文本是对世界的压缩和抽象,而视觉是世界本身的投影。

首发知识星球newtype

星球内免费阅读,欢迎加入


直接说结论。


Gemini 3的成功源自于它将原生多模态与深度推理能力进行前所未有的结合。其中,原生多模态是一切的基础。早在Gemini系列伊始,Google就对原生多模态架构进行战略性下注。


Google CEO Sundar Pichai强调,每代模型都构建在上代突破之上,而原生多模态是这一路径的基石。没有它,Gemini 3的Deep Think模式和视觉学习能力就难以实现。


什么叫“原生”?


原生多模态意味着,从模型的第一个训练步骤就将文本、图像、视频和音频等模态作为统一输入进行联合学习,从而实现更自然的跨模态推理和交互。


而那些非原生的模型通常是通过一个独立的视觉编码器,把图片硬生生地“压缩”成语言模型能读取的信号。这种方式会导致大量难以用文字描述、难以被编码器捕捉的细微信息在传输中丢失,比如光影质感、微表情。


“原生”有什么好处?


当面对非文本信息时,这种架构能让模型“直觉式”地理解。


比如,它不仅能“看到”视频中的动作,还能理解动作背后的物理规律、情感色彩或复杂逻辑。


你再想想别的模型,比如DeepSeek模型,只能“看图说话”。它们需要“外挂”先“翻译”图片,转成文字之后,再进行处理。


所以,这种“原生”所带来的“全感知”能力,是Gemini区别于纯文本推理模型的最大护城河。


既然“原生”那么好,为什么OpenAI他们早期不跟进?


道理大家都懂。但这是技术路线的选择、数据资源的差异以及工程难度的综合结果。


【声明】内容源于网络
0
0
newtype AI
分享关于AI的Why和How。
内容 157
粉丝 0
newtype AI 分享关于AI的Why和How。
总阅读50
粉丝0
内容157