大数跨境
0
0

小杯Gemini战胜GPT5.2,1分钟模拟Windows操作系统

小杯Gemini战胜GPT5.2,1分钟模拟Windows操作系统 量子位
2025-12-18
3
导读:Gemini 3 Flash实测来袭
一水 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌正式发布Gemini 3 Flash,定位为“Pro级智能+Flash级速度+更低价格”的新一代多模态大模型。

实测显示,其响应速度约为Gemini 2.5 Pro的3倍;在MMMU Pro、ARC-AGI-2等专业多模态与复杂推理测试中,表现优于Gemini 3 Pro及GPT-5.2[2]

例如,在识别图片中手指数量任务中,GPT-5.2误判为5根,Gemini 3 Flash准确识别为6根;在图像生成任务“骑车的鹈鹕”中,其输出质量显著优于Gemini 2.5 Pro和Gemini 3 Pro[3]

在人物识别测试中,Gemini 3 Flash率先准确识别谷歌开发者关系负责人Logan Kilpatrick;而Gemini 3 Pro则将其误认为已离职的前Gemini负责人Jack Krawczyk[4]

Gemini 3 Flash:谷歌迄今最强智能体模型

Gemini 3 Flash即日起面向全球用户开放:[5]

  • 普通用户可通过Gemini官方应用及谷歌搜索AI模式直接使用;
  • 开发者可在Google AI Studio、Gemini CLI及新发布的智能体开发平台Google Antigravity中调用Gemini API;
  • 企业客户可通过Vertex AI与Gemini Enterprise两大平台接入服务[6]

该模型完整继承Gemini 3 Pro的复杂推理、多模态理解、视觉识别、Vibe编程及智能体任务处理能力,同时实现更优响应延迟[7]。谷歌官方称其为“当前智能体工作流程中最出色的模型”[8]

实际测试显示,Gemini 3 Flash可在一分钟内(未加速视频)完成一个功能完整、界面美观的Windows操作系统原型生成;亦可基于自然语言提示快速构建可运行小游戏,如《侠盗猎车手6》简化版;在UI组件生成(如天气卡)方面,设计感与交互性明显提升[9]

用代码为我创建一个《侠盗猎车手6》游戏,并尽可能使其逼真,添加您选择的任何功能。

实测其生成的介绍网站具备真实可用功能——点击“立即体验”按钮可正常跳转至Gemini官网,内置测速模块亦可正常运行[10]

性能与成本双重突破

Gemini 3 Flash在保持高智能水平的同时,实现显著加速与降本:[11]

  • 响应速度达Gemini 2.5 Pro的3倍;
  • 平均token消耗减少30%;
  • 在MMMU Pro、ARC-AGI-2等基准测试中略超Gemini 3 Pro[12]

定价方面:[13]

  • 每百万输入token 0.5美元,每百万输出token 3美元(音频输入仍为1美元/百万);
  • 虽略高于Gemini 2.5 Flash(0.3/2.5美元),但显著低于Gemini 2.5 Pro(1.25/10美元),综合性价比突出[14]

至此,Gemini 3系列完成家族布局,涵盖Pro、Deep Think及Flash三大主力版本[15]

Gemini 3 Flash支持四档可调思考模式:minimal、low、medium、high,适用于不同响应精度与延迟需求场景[16]

One More Thing

发布当日,谷歌同步启动《宝可梦:水晶版》AI对战直播,由Gemini 3 Flash对阵Gemini 3 Pro[17]。初步结果显示Gemini 3 Pro暂处上风,且已展现出初步系统级策略思考能力[18]

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14472
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读89.1k
粉丝0
内容14.5k