//
从 Google Cloud Next 25 发来的第一手报道。
RTE 开发者社区联合主理人 Richard 林旅强以开发者的视角,分享了他在大会期间的观察与思考。除了对备受瞩目的 A2A 协议的深度解读,Richard 还详细梳理了大会期间发布的新产品,包括与实时多模态 AI 开发相关的音频模型 Chirp 3、音乐模型 Lyria 以及 ADK 智能体开发工具等。
随着底层基础设施的日趋成熟,以及开发者体验和工具的不断完善,中国的开发者们,你们准备好扬帆出海了吗?
全球基础设施升级:构建全球产品的底座
Ironwood TPU 与 AI 超级计算:把 AI 性能推到极致
-
集成 Ironwood TPU,成为支撑 AI 的超级计算平台; -
全新推出 400G Cloud Interconnect,是上一代 100G 的 4 倍带宽,适配大模型高速通信; -
引入 Anywhere Cache 与 Rapid Storage,其中 Rapid Storage 是业界首个支持区域级对象存储的架构,随机读写延迟比业界最快方案低 5 倍; -
支持 vLLM(高效推理框架)与大规模推理负载调度。
-
大模型的部署成本正在快速下降; -
开发者可以借助现成的容器工具(如 GKE)部署高性能推理服务; -
从底层硬件到上层平台,Google 正在打通一条「从想法到上线」的最短路径,真正实现云原生 AI。
Vertex AI:从模型到智能体的统一平台
-
正式支持 Meta 的 Llama 4 模型; -
全新的 Vertex AI Dashboards 可以更方便地监控延迟、吞吐等运行状态; -
Model Optimizer 会根据请求特性,自动选择最优模型; -
Live API 让我们可以将实时音视频流接入 Gemini,进行实时互动。
Gemini 2.5 Pro 与 Flash 双引擎上阵
多模态生成的 AI 创作工具箱再进化:图像、音频、音乐、视频全面升级
-
P 视频(去除元素):可自动删除视频中不需要的物体(如路人),提升画面纯净度; -
关键帧生成:通过输入起始帧和结束帧,自动生成中间段落,保持画面流畅自然; -
扩展画面:将原有横屏视频自然扩展为竖屏,便于社媒平台分发(如抖音、小红书); -
镜头控制:可以指定摄像机移动方向、构图风格,甚至模拟延时摄影或无人机跟拍。
智能体(Agent)生态系统:从概念走向实用,开发者可以立即上手
-
Agent Development Kit(ADK):这是一个开源的开发框架,用户仅需不到 100 行 Python 代码,就能完成他第一个智能体,并且支持工作记忆、对话状态、外部 API 插件调用等功能。非常适合快速开发客服助手、业务流程机器人等场景。 -
Agent2Agent 协议(A2A):Google 是首家发布开放 Agent 协议的主流云平台,支持多个 Agent 之间基于标准协议交换信息。例如,一个智能体可以调用另一个智能体的能力,实现「AI 调用 AI」。这对于构建复杂任务处理流程至关重要。 -
Agent Garden:这是一个智能体样例和连接器集合,包含 100 多个可用的预构建模块,支持连接 BigQuery、Google Workspace、Slack、GitHub 等常用工具和服务,大大降低集成成本。 -
Chrome & Workspace 集成:Agentspace 已整合进 Chrome Enterprise 和 Google Workspace,普通员工也可以直接在浏览器或文档中调用智能体,快速搜索、对话与执行任务。
-
在跨国客服系统中,同时部署订单查询智能体、翻译智能体与风险识别智能体,三者协作响应用户问题; -
构建一个面向内部团队的“多 AI 工具箱”,一键生成报告、摘要邮件、提取数据,提升员工效率; -
在游戏、教育、金融等领域构建具备脚本调用能力的 AI 角色。
数据智能、部署效率与国际化支持:开发者在出海路上的三大底气
合规、安全与主权云:解决出海最大隐忧
-
我们不再需要东拼西凑各种安全工具,就能获得一个集成的安全防护体系; -
安全不再只是「后期补救」的麻烦事,而是从 Day 1 起就可以融入应用生命周期。
后记:谷歌在 Agent 正在下一盘大旗?
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾

