Project Astra 愿景之一:「系统不仅能在你说话时做出回应,还能在持续的过程中帮助你。」
今天的 Google I/O 2025 大会上,实时多模态模型 Gemini Live API 升级了最新功能,除了更加细致的情感理解和双人语音合成,更吸引人注意的便是「主动音频」和「主动视频」功能。
主动音频和主动视频是什么?官方开发者 blog 给出了解释:
主动音频(Proactive Audio):模型将忽略背景对话并知道何时回应。demo 演示中,Gemini 会主动忽略人类对话里一些类似「ok」这样的「背景声音」,持续说话。
主动视频(Proactive Video),模型能够检测并记住关键事件。实际测试中,Gemini 会记住所看到的画面,例如你可以询问模型你刚才都展示了多少件物品,而第二次展示的是什么。
而这些能力会打造出一个什么样的主动式智能体(Proactive Agent)?
前不久,Google DeepMind 的 YouTube 频道采访了 Google DeepMind 研究主管格雷格·韦恩 (Greg Wayne)。 对话里他提到的「主动视频交互」、「主动记忆」、「全双工对话」等技术路线,在这次 Gemini API Live 的升级中都有体现。
我们精选了访谈的部分精彩内容,希望能给大家带来新的启发,enjoy~
基于 Gemini 的智能助手原型: Project Astra 是一款超越 Google Assistant 和 Gemini 的智能助手,旨在与用户一同观察、交谈并理解世界,并通过多种设备进行交互。
多模态交互的核心体验: Astra 融合视觉、语音和语言模型等多种技术,提供实时的识别、理解和互动体验,同时支持多语言对话和动态推理。
智能眼镜的终极愿景: 虽然 Astra 目前主要在智能手机上运行,但其最终目标是借助智能眼镜等设备,实现更加亲近自然、增强现实的体验。作为解决方案,它未来也可以运行在手机、电脑或 VR 头显上。
主动性和记忆功能的突破: Astra 不仅能根据用户指令行动,还能自主判断并提供帮助,例如提醒用户购买物品。此外,它还具备记忆过去 10 分钟内容并提取关键信息的能力。
计算机视觉与神经科学的灵感: 该项目受到神经科学和人类社会智能的启发,特别关注人类行为、记忆和协作的建模,并强调视频作为「原始通用人工智能」系统的「连接纤维」的重要性。
未来发展的重点: 团队未来将专注于开发主动视频(proactive video)监测、实时引导用户,以及支持听和说并行的全双工(full duplex)自然对话功能。
Project Astra :
与 Greg Wayne 一起探索通用 AI 助理
Exploring a Universal AI Assistant with Greg Wayne
受访者:Greg Wayne,Google DeepMind 研究主管
注:为便于阅读,本文内容已作精简,并非完整对话。你可以访问原文收听完整版播客。
建立在 Gemini 基础上,但又超越 Gemini 的 AI 助理
Hannah Fry:欢迎回到 Google DeepMind The Podcast 。今天我们要介绍的是 Project Astra,一个正在突破通用 AI 助理界限的研究原型。Greg,欢迎回来。
Hannah Fry:我们从头开始吧。什么是 Project Astra?
Greg Wayne:Project Astra 是一个旨在构建一个拥有眼睛、耳朵和声音,能够与你共处的 AI 助手的项目。它能伴随你到任何地方,通过智能眼镜、手机或电脑,观察你正在做的事情,并与你进行交流。
Hannah Fry:就像一个坐在你肩膀上的小助手?
Greg Wayne:是的,就像一只栖息在你肩膀上的鹦鹉,与你一起观察世界,并和你谈论它。
Hannah Fry:这与 Google Assistant 或 Gemini 有所不同。
Greg Wayne:是的。旧版本的 Google Assistant 更像是一个用于控制你家或信息的系统。而 Project Astra 则能与你一起谈论世界。它建立在 Gemini 的基础上,Gemini 是其背后的智能核心,它既与 Gemini 协同工作,又可能帮助塑造 Gemini,同时也受到 Gemini 的塑造。
Hannah Fry:Project Astra 仍然是一个研究原型,为什么现在要 demo 它?
Greg Wayne:让公众参与这个过程是好事。人们应该了解实验室里正在开发什么,并提供反馈。这是一个共同创造的过程,它不仅仅是在实验室里进行的,也是与世界各地的用户合作进行的。
Hannah Fry:所以有人在现实世界中尝试使用它了吗?
Greg Wayne:是的,我们有一些值得信赖的测试者,他们是一些早期的采用者。
Greg Wayne:比如获取时尚建议。Project Astra 就像一个伙伴,可以问它「什么和这个搭配?我怎样才能看起来更时尚?」
「Astra 可以在后台运行,并在它认为合适的时候提醒你」
Hannah Fry:但硬件方面呢?目前,它在你的智能手机上。最终会出现在眼镜上吗?
Greg Wayne:是的,智能眼镜上的体验是最亲密的,也最令人惊叹的,因为你感觉自己得到了增强。但软件堆栈实际上与设备无关,它可以运行在手机、电脑或 VR 头显上。
Hannah Fry:对于视力受损或失明的人来说,它也有潜在的好处。
Greg Wayne:是的,这是我痴迷的事情。这项技术可以在很大程度上复制一个在世界上帮助他们的同伴。例如,你可以想象帮助那些难以识别情绪和面部表情的人。也可以用来训练自己,你可以练习理解面部表情,并让 Astra 给你反馈。当然还有记忆力,当摄像头开启时,它会记住过去 10 分钟的图像和谈论的内容。我们也很兴奋的一点是主动性,它会自己判断你有什么需要,然后在你没有指示的情况下提供帮助。比如,它可以提醒你一些事情,「别忘了,你回家路上需要买这个。」
Hannah Fry:所以你不需要主动打开它和它对话,它可以在后台运行,并在它认为合适的时候提醒你。
Greg Wayne:是的。比如你快要回家的时候,它会说,「别忘了你需要买橙汁,因为你今天早上喝完了。」
Astra 依然面临「鸡尾酒会问题」挑战
Hannah Fry:你会经常需要纠正它吗?你会注意到一些小故障吗?
Greg Wayne:是的。有时候它会说它看不见一些它明明能看见的东西。你会用某种方式影响它,说「你能看见」,它就会说,「是的,我能看见。」
Hannah Fry:在哪些环境它会表现得不太好?
Greg Wayne:在嘈杂的条件下,它很难区分不同的声音。它会将其误认为是用户的语音。嘈杂的环境会使它感到困惑。
Hannah Fry:当你说区分不同的声音时,是指波形本身吗?
Greg Wayne:是的。这有一个老问题,叫鸡尾酒会问题,技术上被称为源分离。指的是将一个声音源与另一个声音源区分开来。
Hannah Fry:我猜,这在某种程度上使 Project Astra 如此困难,但也赋予了它潜力。
Greg Wayne:是的,它应该能够在更多背景信息下解决歧义。
Hannah Fry:不同的语言呢?目前它只支持英语吗?
Greg Wayne:它实际上是多语种的,精通大约 20 种语言,你甚至可以在同一对话中切换语言。
Greg Wayne:我对这个系统在语言学习方面的应用感到非常兴奋。比如,四处走走,然后问,「那是什么?」,让它像我在学校里那样教你。
「主动记忆」灵感来自动物
Hannah Fry:如果你正在和它互动,那么它的底层到底发生了什么?有哪些不同的组件?
Greg Wayne:首先,有一个应用程序,收集视频和音频。它连接到一个服务器,服务器上有视觉编码器和音频编码器。还有专门的音频系统,负责了解你何时停止说话。这些都与大型语言模型 Gemini 相邻。它们将来自这些感觉编码器的信息直接发送到 Gemini,然后 Gemini 做出回应。还有一个叫做「智能体」的东西,它会获取视频和音频,调用搜索工具,比如 Google Lens、Google Search 或 Google Maps,还有一个记忆系统。
Hannah Fry:我尝试想象,我们只是用它来识别一本书,就有计算机视觉、语音识别、大型语言模型、Google Search 在底层支持、还有你做出决策的代理层。所有这些的回答几乎没有延迟。这真是非常复杂的事情。
Greg Wayne:是的,非常复杂。很少有人能理解输入模型的数据。而且,为什么它会产生这样的结果,可能没有人真正理解。
Hannah Fry:让我们来谈谈它的历史。在播客的第一季,你是第一集的嘉宾,当时你从动物王国中汲取灵感来研究智能。特别是,你向我们介绍了西丛鸦,以此来激发 AI 更复杂的记忆能力。我放一段当时的录音。
播放 Greg Wayne 之前的录音 :……拥有一个可以访问的庞大数据库,存储你做过和看过的事情,然后用它来指导你之后的有目标的行为——我饿了。我想现在吃一些虫子。我应该去哪里找?这是我们想要复制的东西……
Greg Wayne:(笑)你好,Project Astra。你能帮我找些虫子吗?
Hannah Fry:这听起来很像你的橙汁例子,不是吗?
视频是「原始通用人工智能」的连接纤维
Hannah Fry:你的神经科学背景在多大程度上启发了 Project Astra?
Greg Wayne:我们利用神经科学来了解我们何时做得足够好,可以思考「记忆的真正含义是什么?」. 另一方面,如果我们想要一些与人类兼容的东西,也许会朝着一种更像我们,而不是直接的文本界面的智能形式发展。例如,我对 Michael Tomasello 的工作很感兴趣,他认为,交流的基本前提是两个人在同一个地方,从而共同推断目标,然后进行协作。这正是我们在这项技术中建模的内容。
Hannah Fry:这个项目的第一个火花来自哪里?它是什么时候开始的?
Greg Wayne:DeepMind 的 CEO Demis Hassabis 向公司提出了一个挑战,让我们思考什么是「原始通用人工智能」。我更倾向于智能的社会性。我认为我们可以将「原始通用人工智能」与一个有益的助手联系起来,其主要目标是为与之互动的人类带来好处。当我试图让它最终变得非常自然时,我逐渐开始认为视频是系统最终的连接纤维(connecting tissue)。
Hannah Fry:在这个过程中,有没有出现过大的突破?
Greg Wayne:当时的一个主要发现是,我们意识到了「提示」的概念。告诉系统它可以通过用户的摄像头看到世界,这给了它一种对事物的自我视角。以前我们不太了解是否可以很好地提示多模态系统。
Hannah Fry:这太有趣了。当提出要创建一个「原始通用人工智能」时,有人怀疑或不相信这种东西是可能实现的吗?
Greg Wayne:是的。事后看来,AI 的发展很奇怪,因为它发展得太快了,人们对理所当然的看法变化得太快了。当时的人们对「系统是否真的能够理解世界」感到怀疑。我们甚至没有关于不同性能水平系统所需的数据量的基本知识。
Hannah Fry:那么,有没有哪个时候你认为它不可能实现?
Greg Wayne:没有。我一直觉得它有可能实现。有段时间我可能想放弃。我认为在 Gemini 出现之前有一段缓慢的时期,那段日子很艰难。但我从未动摇过它一定能实现的事实。
Hannah Fry:我听说,在测试阶段,你们有一个 Project Astra 房间。那里发生了什么?
Greg Wayne:我们在特别的房间里玩各种各样的游戏。那里有一个完整的酒吧,所以 Astra 可以帮你调酒。还有一个美术馆,你可以在屏幕上显示不同的画作,然后问一些关于艺术的问题。
Astra 系统的低延迟实现
Hannah Fry:让我们更深入地了解 Astra 的幕后工作。延迟是一个非常关键的事情。你们是如何改进它的?
Greg Wayne:我们改进了实际的视频流,通过应用程序更快地发送信息。我们总是处理图像,当视频进入视觉系统时,它总是尽可能快地运行。然后它与大型语言模型位于同一位置、同一组计算机中,因此它不必跨越国家或大陆进行调用。
Hannah Fry:所以为了实现这种实时的理解,你必须将运行这些模型的计算机硬件物理地放置在一起?
Greg Wayne:是的,绝对是这样。我们还有使用原生音频的想法。以前的系统都有文本识别系统。这个系统是直接接收音频的,因此它不需要二级系统。使用原生音频的一个简单效果是,它可以理解罕见的词或词的发音。最后一点是,团队在「端点检测」方面做了很多出色的工作,它能准确地知道你何时停止说话。然后,它会在猜测,这是我将要说的话。当它发现用户真的已经说完话后,它会立即发送出去。
Greg Wayne:是的。这很难。我们的系统必须使用一些「语义理解」,因为它也对上下文和声音有一定的理解。
Hannah Fry:你认为 Project Astra 是否能够推理?
Greg Wayne:是的。它主要是通过神经网络内部结构进行推理,以一种无法观察到的、非常复杂的方式。然后是它所产生的对话。它有时通过对话进行推理。
记忆机制与隐私保护
Hannah Fry:现在,我想多和你谈谈记忆。它可以记住过去 10 分钟内发生的事情,对吗?
Greg Wayne:是的,大概是 10 分钟。极限在于芯片上的内存。
Hannah Fry:所以目前,它实际上就像一个录像机,记录了过去 10 分钟发生的一切。
Greg Wayne:是的。还有一个二级系统,当你关闭系统时,它会提取对话,总结并提取相关的事实。
Hannah Fry:它是如何决定哪些信息足够重要,值得记住?
Greg Wayne:它有启发式方法。如果你要求它记住,它肯定会记住。否则,它会试图说,「用户是否表达了任何有趣的、或与用户已经表达过的偏好不同的偏好?」
Hannah Fry:让我们来谈谈隐私问题。你们如何缓解这些隐私问题?
Greg Wayne:主要标准之一是同意。用户可以访问他们之前记录的数据,可以删除或查看存储的内容。
Hannah Fry:用户的确最终会控制它了解自己的信息。
Hannah Fry:DeepMind 的伦理学家 Iason Gabriel 的工作在多大程度上影响了你们的 Astra?
Greg Wayne:我们和 Iason 谈了很多。我们也和他的团队一起做了很多工作。他们一直在调查模型和整个代理,探索它在不同情况下的表现。我们还有一层安全过滤器,防止用户受到伤害。
未来重点:主动视频交互和全双工对话
Hannah Fry:那么,你们接下来的优先事项是什么?
Greg Wayne:我对主动视频工作非常感兴趣。也就是说,系统不仅能在你说话时做出回应,还能在持续的过程中帮助你。例如,这属于为盲人提供视觉解释器的问题。当你四处走动时,因为你看不到,它会说,「小心那边的桌子」。它可以持续地引导你。我们还在音频输出方面做了很多工作,所谓的「全双工」。它可以同时处理听和说,这可能会有点烦人。它可能会打断你。但它也更像自然的对话。当你说话时,我可能会说,「嗯嗯」、「嗯嗯」,它在同时听和说。这是用来确认的语言的一部分。正如你所说,我们还会在推理、更深层次的记忆、反思等方面投入更多精力。当它调用工具进行更深入的查询和研究时,是的,还有太多事情需要做得更好。
Hannah Fry:非常感谢你参与我们的节目,Greg。
Hannah Fry:我们对 AI 的期望变化之快真是奇怪。我们现在有了这个多模态代理的雏形。它能看、能听,能记忆、有上下文、能推理、能进行多语言实时对话。当然,它不是 AGI。但我们已经比两年前讨论的系统有了显著的飞跃。
原视频:https://www.youtube.com/watch?v=ctWfv4WUp2I
编译:施苏娜、傅丰元
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。