>

谷歌悄悄发了篇技术博客，藏着 Gemini 3 真正的杀手锏

>

0

0



谷歌悄悄发了篇技术博客，藏着 Gemini 3 真正的杀手锏

谷歌悄悄发了篇技术博客，藏着 Gemini 3 真正的杀手锏

AI信息Gap

2025-12-10

4

导读：在一个不起眼的角落，谷歌发布了一篇技术博客。关于 Gemini 3 Pro 的多模态能力。

谷歌在一则技术博客中低调发布了关于Gemini 3 Pro多模态能力的最新进展。

Gemini 3 Pro在多数多模态基准测试中保持领先，被AI Studio产品负责人Logan Kilpatrick称为“当前最强模型”。

「Gemini 3 Pro在大多数多模态基准测试和案例中继续保持SOTA。」

SOTA（State of the Art）意味着当前技术水平的最高水准。

先看结果

多项权威测试显示，Gemini 3 Pro表现全面领先。

MMMU-Pro（多模态理解与推理）：得分为81%，高于GPT-5.1的76%和Claude Opus 4.5的72%。
CharXiv Reasoning（科学图表理解）：得分81.4%，超过GPT-5.1的69.5%及人类基准80.5%。
Point-Bench（空间定位）：准确率达85.5%，远超GPT-5.1的41.8%。
RefSpatial（多步空间推理）：得分为65.5%，显著优于GPT-5.1的28.2%。
ScreenSpot Pro（GUI元素识别）：达到72.7%，相较上一代Gemini 2.5 Pro的11.4%和GPT-5.1的3.5%实现碾压式提升。

四大核心能力解析

文档理解

Gemini 3 Pro可精准处理复杂扫描件，如字迹潦草的手写账簿或模糊公式。

谷歌提供的案例显示，系统能将一份18世纪泛黄、歪斜的手写账本，转化为结构清晰的电子表格。

手写数学公式亦可自动转换为标准LaTeX代码。

空间理解

该能力实现像素级精确定位。例如，在图像中询问“螺丝刀在哪”，Gemini 3 Pro可返回具体坐标（如324, 156），而非模糊描述。

这一突破对机器人控制、增强现实（AR）等应用具有重要意义。

屏幕理解

这是性能提升最显著的能力之一，支撑AI操作软件界面。

在Excel场景中，Gemini 3 Pro可精确点击单元格、移动光标、输入数据并创建透视表，操作流畅自然。

ScreenSpot Pro测试中72.7%的准确率印证了其强大表现。

视频理解

作为Gemini系列的传统强项，Gemini 3 Pro支持10 FPS高帧率分析，速度为默认模式的10倍。

适用于高尔夫挥杆、网球发球等高速动作的逐帧解析，不仅能识别动作过程，更能进行因果推理，判断问题成因。

谷歌将其定义为“真正看懂视频”的能力。

一个关键细节：media_resolution参数

谷歌为Gemini 3 Pro API新增media_resolution参数，允许开发者在精度与成本之间灵活权衡。

高分辨率模式适用于复杂OCR和文档处理；低分辨率模式适合简单场景识别和长上下文任务。

该功能已在AI Studio平台开放使用。

结语

自Gemini 1.0起，谷歌便强调“原生多模态”架构优势。此次Gemini 3 Pro进一步巩固并放大了这一技术领先地位。

其在文档、空间、屏幕与视频理解方面的综合能力，标志着多模态AI进入新阶段。

【声明】内容源于网络

0

0

AI信息Gap

各类跨境出海行业相关资讯

内容 666

粉丝 0

AI信息Gap 各类跨境出海行业相关资讯

总阅读25.1k

粉丝0

内容666