在2026年谷歌I/O开发者大会上,CEO桑达尔·皮查伊宣布谷歌正式迈入Agent(智能体)驱动的Gemini时代。本次大会聚焦AI从“应答助手”向全天候自主执行任务的智能体演进,并加速将智能体能力嵌入搜索、浏览器、移动设备等核心入口,构建“底层模型(Gemini 3.5 Flash)—开发平台(Antigravity)—个人助手(Gemini Spark)—场景应用(搜索/电商/硬件)”全栈体系。
专为智能体而生的模型:主打高性价比
谷歌推出Gemini 3.5 Flash,为其首个面向“长周期智能体任务”深度优化的模型:Token输出速度达OpenAI、Anthropic前沿模型的4倍,在Antigravity平台中提速至12倍;API定价为输入1.5美元/百万Token、输出9美元/百万Token,价格约为同档前沿模型的一半,较Gemini 3.1 Pro低40%。
以一家日处理1万亿Token的头部企业为例,若将80%负载迁移至3.5 Flash,年节省超10亿美元。该模型支持1M超长上下文,已作为Gemini App与搜索AI Mode默认模型,全面支撑多场景智能体运行。
同步发布的Gemini Omni为多模态世界模型,支持文本、图像、视频等任意模态输入,并生成多模态输出,强化创意设计类智能体的生成能力。
C端智能体上线:设备关机仍可运行
Gemini Spark是谷歌首款云端常驻、设备关机状态下仍可持续运行的个人AI助理,基于Gemini 3.5 Flash与Antigravity调度框架,部署于谷歌云专属虚拟机,深度整合Gmail、Docs、Sheets等办公套件,支持跨应用自动执行信息提取、邮件撰写、会议纪要整理等复杂任务,兼容语音多指令与自定义技能。今夏将接入Chrome浏览器,实现全场景覆盖。
Spark将于下周面向美国Google AI Ultra订阅用户开放Beta测试;Ultra套餐价格由250美元/月下调至200美元/月,并新增100美元/月入门档位。
Android平台同步上线Android Halo——手机顶部智能体状态通知层,实时展示后台智能体执行进度。
以智能体优先的开发者平台
谷歌升级Antigravity 2.0为Agent-first全栈开发平台:由IDE升级为独立桌面应用,支持多智能体并行编排、动态子Agent调度、定时任务与后台自动化;提供桌面端、CLI、SDK及托管Agent四大工具套件,支持本地部署并深度集成谷歌生态。
现场演示显示,使用Antigravity 2.0搭配Gemini 3.5 Flash,93个智能体协同工作,仅消耗26亿Token(成本不足1000美元),12小时内从零构建出完整可运行操作系统,涵盖内核、进程与内存管理模块。
谷歌内部AI任务Token日处理量已由今年3月的5000亿跃升至超3万亿。此外,新推Managed Agents API支持一次调用启动托管智能体,提供隔离沙箱环境用于代码执行与工具调用;Agent Studio则面向业务团队提供低代码开发入口,形成覆盖专业开发者与非技术人员的四层开发模型。
智能体渗透搜索与电商环节
谷歌推出Search Agents搜索智能体,具备后台持续监控与条件触发主动推送能力,可并行追踪股价、租房信息、商品库存等动态数据,并与Gemini Spark协同运作。
全新AI Mode搜索框支持多模态输入,智能体可24/7后台运行,实时响应更新并主动推送;Universal Cart智能购物车聚焦电商场景,实现跨平台比价、下单及售后全流程追踪。
智能体时代:Token消耗爆发式增长
皮查伊指出:“最前沿的智能体目前仅触达全球0.1%用户。真正的挑战在于规模化交付。”谷歌正依托TPU硬件、Gemini模型、Android/Chrome/Search/Gmail等产品矩阵,以及Antigravity平台,打通“实验室智能体”到“十亿级用户智能体”的闭环路径。
智能体需反复推理、调用工具、处理长上下文,单次任务Token消耗可达普通对话数十倍。数据显示:谷歌当前月处理Token量达3200万亿,是2025年I/O时(480万亿)的7倍;每月超850万开发者基于其模型开发新应用;模型API每分钟处理约190亿Token;过去12个月已有375家谷歌云客户单月处理超1万亿Token。
国内方面,中国日均Token调用量从2024年初的1000亿,跃升至2026年3月的140万亿,两年增长超千倍。
随着模型厂商由按次收费转向按Token计费,AI商业化路径逐步清晰。国信证券指出,Agent驱动下Token需求爆发,大模型厂商收入增速持续高于训练成本增幅,毛利率稳步提升,AI投资逻辑正从需求侧转向供给侧交付能力。
中信证券认为,“Token工厂”加速落地,Token服务趋于标准化;三大运营商已推出Token套餐,推动算力租赁模式由“裸金属服务器月租”转向“按实际Token用量计费”,头部算力租赁厂商卡位优势凸显。

