对话嘉宾
贾世坤
智谱开放平台
BigModel
产品负责人
Plutoless
实时语音 Agent
开源框架
Ten Framework
联合发起人
李忻玮
(主持人)
声网大语言模型实验室
高级研究员
RTE 开发者社区
布道师
贾世坤:
-
Alexa 新品的功能特性有两大亮点: -
语音实时编辑购物清单:AI 即时互动,视觉反馈提升人机交互感知度,实现白盒化交互。 -
日程管理能力:前景广阔,但涉及大量数据交互,需谨慎把控潜在安全隐患。 未来期待:Agent 和 Agent 之间的协作(譬如最近的 GibberLink),创造有趣的应用场景。
Plutoless:
Alexa 新品仍定位为助手,帮助用户完成各项任务。
未来方向:AI Agent 集成到各种设备中,通过语音直接控制家居设备,实现设备间的隐性连接与协作。
-
担忧:家居设备间互联可能让人感到不安,语言适配仍面临挑战。
端侧 AI 的更多应用场景:除了智能音箱,AI 还能做什么?
贾世坤:
车载应用:是目前最被看好的应用场景,尤其是在座舱控制和车外录制设备管理方面。
-
Agent 间协作:通过 Function Call 等技术,集成在中控 IoT 等终端设备上的 AI Agent 实现互动。
实时语音 AI 的进展与挑战
Plutoless:
实时语音 AI 主要有两种实现方式:
级联方式:语音识别->文本->大模型->TTS。优势:成本低;劣势:延迟高。
端到端模式:音频输入->模型处理->音频输出。优势:实时性强,情感识别好;劣势:灵活性低。
实时语音技术面临的挑战:网络、音频处理与幻觉
网络问题:终端硬件性能不足,云端运行依赖网络连接,尤其是在 last mile。解决方案:类似 RTC 技术进行优化。
音频处理:声音增益、降噪、回声消除等细节问题,影响用户体验。
-
幻觉问题:音频 LLM 驱动的 AI Agent 应用于实际生产环境时,幻觉会严重损害用户体验。
规避潜在风险,设计「有益幻觉」
贾世坤:
技术层面:有效排除有害信息,例如使用 Self-Check 方式(前端生成,后端自检测)。
产品层面:授权机制(权限隔离和角色权限隔离),交互层面提供足够的空间纠正错误,针对儿童提供便捷的管理方式。
设计「有益幻觉」:例如故事创作、图像创新设计等。
Plutoless:
-
避免大模型直接执行危险操作:提供充分的提示信息,老年人和儿童应以更简化的方式呈现信息,并告知信息来源的准确性未知。
GUI vs. LUI:人机交互的未来趋势
Plutoless:
LUI (语音用户界面) 和 GUI (图形用户界面) 不是简单的替代关系,而是一种协作关系。
LUI 优势:更自然、高效的交互方式,适用于语音订票等简单指令场景。
GUI 优势:更直观、精准的控制,适用于需要确认多个选项的复杂场景。
-
展望:LUI 配合多模态交互方式(例如眼球追踪),或许能完全取代 GUI,但这还有很长的路要走。开发者需要重新思考 UI 设计,将语音、视觉、触觉等多种模态融合在一起。
端侧能力:开发者能做什么?硬件限制下的技术选择
贾世坤:
商业化部分:端侧的多模态模型(性能快,可端侧部署),语音合成(人机交互感受),端侧语言模型(10B 以下规模)。
关注方向:端侧的集成工程能力(整合设备算力、语音识别、大型模型、语音合成),端云结合的方案(通过模型训练或强化学习进行优化)。
Plutoless:
策略:简单任务在端侧完成,复杂、计算量大的任务通过云端 AI 完成。纯粹入门或体验使用云端,想在端侧运行特定功能时模型尺寸受限,适合处理相对固定和简单的任务。
-
衡量指标:延迟、发热量、耗电量。
AIoT:智能家居的变革与标准化
贾世坤:
提升:能够执行的任务更加丰富,达到了人们对智能家居的预期;AI 带来的上下文记忆能力,使系统能够熟悉用户并提升交互效果。
Plutoless:
-
标准化:AI 加速智能家居平台的标准化进程,使得家电使用不再需要查阅说明书,设备能够更快速地理解意图,并具备更多能力、逻辑、判断能力甚至主动性。
多设备协同:未来的家庭物联网如何运转?
Plutoless:
现状:Alexa Plus 已经展现出了一定的协同能力,设备能够共享上下文信息。
-
未来:发展到 Multi-agents 模式,不同的家电具备各自专业的 AI 能力,互相协作解决复杂问题。
Agent Store:AI 助手的分发平台,未来应用商店的新形态
愿景:长期看,会出现类似「AI 员工招聘社区」,而非 Agent Store 的形式。
-
平台价值:只要有平台,大家一定会在平台上进行价值互换,实现需求与解决方案的匹配。
Plutoless:
现状:Alexa 和 Home Assistant 是初步的例子,未来 Home Assistant 很可能出现大量类似 GPTs 的基于平台开发的各种人工智能体。
-
趋势:将来可能会成为下一个类似手机 APP Store 的分发入口,使得每一个家居设备都变成任意你想要的 AI Agent。
如何将推理模型与端侧实时交互场景相结合?
贾世坤:
策略:挖掘更多可控的新场景,短期内将模型部署在云端,对于复杂操作的任务,借助云端模型进行推理或执行。
-
交互:采用白盒化或后台推理,通过与硬件设备结合的方式进行交互,尽可能地将推理过程后置。
如何填补模型思考带来的空白期?
如何看待新型端侧设备以及未来 AI 玩具的发展?
Plutoless:
看好类型:眼镜和陪伴类玩具(例如主要面向儿童的毛绒玩具)。
眼镜:靠近人的大脑和感官系统,能够较为真实地还原人所见、所听以及思考方式。
玩偶:提供类人的智能,使用户真正感受到它不是一个 AI Bot,而是一个能够互动、提供帮助、提供情绪价值,甚至能够与孩子聊天的伙伴。
-
AI 玩具的「iPhone 时刻」:更人性化的交互方式,能否带来足够的沉浸感,能否清晰地听到我的声音、能否真正理解我的意图,能否让我产生持续挖掘、沟通和交谈的欲望,真正让我忘却它是一个 AI,并愿意持续与之交互。
贾世坤:
采用基于大模型技术,利用工具作为中间的事件传输或模型推理的组成部分。
-
通过 Function Call 的工具调用获取故事内容或大纲,然后逐步讲述。
自行实现三段式接入 vs TEN 框架,开发体验或其他方面会有哪些差异?
Plutoless:
自行实现:延迟高、性能差、效果不佳,缺乏对音视频数据处理的深入理解。
TEN 框架:解决音视频处理逻辑、网络和音频处理方面的问题,模块可插拔、可复用,线程模型分离音视频数据传输。
-
TEN 框架的优势:使用 TEN Framework 就像是用乐高搭积木一样,我们提供标准化的积木组件,开发者只需按照自己的需求进行组合。而开发者自行进行三段式接入,则更像是在沙地上用沙子从头搭建城堡,并且很容易犯错。
AI 发展最需要解决的技术难点是什么?
未来 AI 的算力部署方式:云端还是终端?
MCP 协议:保护数据安全前提下,让终端用户享受到产品价值
Plutoless: 我们将持续深耕 AI 实时互动领域,近期 TEN 将上线对 Home Assistant 的支持,实现对小米设备的使用,并推出易用的 Graph Designer 编排模块。欢迎在 GitHub 搜索 「TEN Agent」 或 「TEN Framework」 探索我们的开源项目。也可以来线上 Demo: https://agent.theten.ai/ 和 https://ten.rtcdeveloper.cn/ 体验智谱 GLM 实时 API + TEN 的 demo。
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
更多 Voice Agent 学习笔记:
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
语音即入口:AI 语音交互如何重塑下一代智能应用


