大数跨境
0
0

谷歌悄悄发了篇技术博客,藏着 Gemini 3 真正的杀手锏

谷歌悄悄发了篇技术博客,藏着 Gemini 3 真正的杀手锏 AI信息Gap
2025-12-10
4
导读:在一个不起眼的角落,谷歌发布了一篇技术博客。关于 Gemini 3 Pro 的多模态能力。

谷歌在一则技术博客中低调发布了关于Gemini 3 Pro多模态能力的最新进展。

Gemini 3 Pro在多数多模态基准测试中保持领先,被AI Studio产品负责人Logan Kilpatrick称为“当前最强模型”。

Gemini 3 Pro在大多数多模态基准测试和案例中继续保持SOTA。」

SOTA(State of the Art)意味着当前技术水平的最高水准。

先看结果

多项权威测试显示,Gemini 3 Pro表现全面领先。

  • MMMU-Pro(多模态理解与推理):得分为81%,高于GPT-5.1的76%和Claude Opus 4.5的72%。
  • CharXiv Reasoning(科学图表理解):得分81.4%,超过GPT-5.1的69.5%及人类基准80.5%。
  • Point-Bench(空间定位):准确率达85.5%,远超GPT-5.1的41.8%。
  • RefSpatial(多步空间推理):得分为65.5%,显著优于GPT-5.1的28.2%。
  • ScreenSpot Pro(GUI元素识别):达到72.7%,相较上一代Gemini 2.5 Pro的11.4%和GPT-5.1的3.5%实现碾压式提升。

四大核心能力解析

文档理解

Gemini 3 Pro可精准处理复杂扫描件,如字迹潦草的手写账簿或模糊公式。

谷歌提供的案例显示,系统能将一份18世纪泛黄、歪斜的手写账本,转化为结构清晰的电子表格。

手写数学公式亦可自动转换为标准LaTeX代码。

空间理解

该能力实现像素级精确定位。例如,在图像中询问“螺丝刀在哪”,Gemini 3 Pro可返回具体坐标(如324, 156),而非模糊描述。

这一突破对机器人控制、增强现实(AR)等应用具有重要意义。

屏幕理解

这是性能提升最显著的能力之一,支撑AI操作软件界面。

在Excel场景中,Gemini 3 Pro可精确点击单元格、移动光标、输入数据并创建透视表,操作流畅自然。

ScreenSpot Pro测试中72.7%的准确率印证了其强大表现。

视频理解

作为Gemini系列的传统强项,Gemini 3 Pro支持10 FPS高帧率分析,速度为默认模式的10倍。

适用于高尔夫挥杆、网球发球等高速动作的逐帧解析,不仅能识别动作过程,更能进行因果推理,判断问题成因。

谷歌将其定义为“真正看懂视频”的能力。

一个关键细节:media_resolution参数

谷歌为Gemini 3 Pro API新增media_resolution参数,允许开发者在精度与成本之间灵活权衡。

高分辨率模式适用于复杂OCR和文档处理;低分辨率模式适合简单场景识别和长上下文任务。

该功能已在AI Studio平台开放使用。

结语

自Gemini 1.0起,谷歌便强调“原生多模态”架构优势。此次Gemini 3 Pro进一步巩固并放大了这一技术领先地位。

其在文档、空间、屏幕与视频理解方面的综合能力,标志着多模态AI进入新阶段。

【声明】内容源于网络
0
0
AI信息Gap
各类跨境出海行业相关资讯
内容 666
粉丝 0
AI信息Gap 各类跨境出海行业相关资讯
总阅读25.1k
粉丝0
内容666