-
人类最后考试(HLE):37.5%(无工具)→45.8%(带搜索和代码执行)
-
GPQA科学知识测试:91.9%的高分,展现博士级推理能力
-
AIME数学测试:95.0%(无工具)→100%(带代码执行)
-
MMMU-Pro多模态理解:81.0%的优异成绩
-
视频理解:Video-MMMU测试中获得87.6%的高分
-
屏幕理解:ScreenSpot-Pro测试中达到72.7%的准确率
-
图表理解:CharXiv复杂图表推理中获得81.4%的成绩
-
文档处理:OmniDocBench OCR测试中错误率显著降低
-
一次性生成完整的3D乐高编辑器,包含UI和空间逻辑
-
仅凭文本提示重现经典iOS游戏《荒谬钓鱼》,包含音效和背景音乐
-
构建功能完备的Game Boy模拟器,并用SVG绘制外观
-
创建复杂的3D太空飞船游戏,具有丰富的视觉效果
-
人类最后考试(HLE):41%的优异成绩(无工具)
-
GPQA Diamond科学知识测试:93.8%的高分
-
ARC-AGI-2视觉推理谜题:45.1%的历史新高
-
分析长篇学术论文或技术文档
-
处理长达数小时的视频讲座内容
-
理解和维护大型代码库
-
进行复杂的多步骤任务规划
-
为智能体提供专用界面,可直接访问编辑器、终端和浏览器
-
支持智能体自主规划并执行复杂的端到端软件任务
-
实时验证生成的代码质量和功能
-
与Gemini 3 Pro、Gemini 2.5计算机使用模型紧密集成
-
生成具有丰富视觉效果的复古3D太空飞船游戏
-
构建可玩的科幻世界,包含复杂的着色器效果
-
创建交互式Web UI和应用程序,前端开发效率大幅提升
-
编写复杂的科学可视化代码,如等离子体流动模拟
-
上下文长度≤200,000 tokens:输入2.00/百万tokens,输出12.00/百万tokens
-
上下文长度>200,000 tokens:输入4.00/百万tokens,输出18.00/百万tokens

