谷歌在一则技术博客中低调发布了关于Gemini 3 Pro多模态能力的最新进展。
Gemini 3 Pro在多数多模态基准测试中保持领先,被AI Studio产品负责人Logan Kilpatrick称为“当前最强模型”。
「
Gemini 3 Pro在大多数多模态基准测试和案例中继续保持SOTA。」
SOTA(State of the Art)意味着当前技术水平的最高水准。
先看结果
多项权威测试显示,Gemini 3 Pro表现全面领先。
- MMMU-Pro(多模态理解与推理):得分为81%,高于GPT-5.1的76%和Claude Opus 4.5的72%。
- CharXiv Reasoning(科学图表理解):得分81.4%,超过GPT-5.1的69.5%及人类基准80.5%。
- Point-Bench(空间定位):准确率达85.5%,远超GPT-5.1的41.8%。
- RefSpatial(多步空间推理):得分为65.5%,显著优于GPT-5.1的28.2%。
- ScreenSpot Pro(GUI元素识别):达到72.7%,相较上一代Gemini 2.5 Pro的11.4%和GPT-5.1的3.5%实现碾压式提升。
四大核心能力解析
文档理解
Gemini 3 Pro可精准处理复杂扫描件,如字迹潦草的手写账簿或模糊公式。
谷歌提供的案例显示,系统能将一份18世纪泛黄、歪斜的手写账本,转化为结构清晰的电子表格。
手写数学公式亦可自动转换为标准LaTeX代码。
空间理解
该能力实现像素级精确定位。例如,在图像中询问“螺丝刀在哪”,Gemini 3 Pro可返回具体坐标(如324, 156),而非模糊描述。
这一突破对机器人控制、增强现实(AR)等应用具有重要意义。
屏幕理解
这是性能提升最显著的能力之一,支撑AI操作软件界面。
在Excel场景中,Gemini 3 Pro可精确点击单元格、移动光标、输入数据并创建透视表,操作流畅自然。
ScreenSpot Pro测试中72.7%的准确率印证了其强大表现。
视频理解
作为Gemini系列的传统强项,Gemini 3 Pro支持10 FPS高帧率分析,速度为默认模式的10倍。
适用于高尔夫挥杆、网球发球等高速动作的逐帧解析,不仅能识别动作过程,更能进行因果推理,判断问题成因。
谷歌将其定义为“真正看懂视频”的能力。
一个关键细节:media_resolution参数
谷歌为Gemini 3 Pro API新增media_resolution参数,允许开发者在精度与成本之间灵活权衡。
高分辨率模式适用于复杂OCR和文档处理;低分辨率模式适合简单场景识别和长上下文任务。
该功能已在AI Studio平台开放使用。
结语
自Gemini 1.0起,谷歌便强调“原生多模态”架构优势。此次Gemini 3 Pro进一步巩固并放大了这一技术领先地位。
其在文档、空间、屏幕与视频理解方面的综合能力,标志着多模态AI进入新阶段。

