吴方方:让万物「听说」,AI 对话式智能硬件方案和发展洞察
吴方方
声网 SDK 新业务探索组技术负责人
,IoT 行业专家
AIoT 行业演进:从「听到」到「听懂」
2017 年,AI 技术突破推动了语音识别(ASR)、语音合成(TTS)和自然语言理解(NLU)的发展,促成 AIoT 概念的兴起。2020 年,AIoT 快速发展,自然语言人机交互成为现实。ASR 准确率超 93%,TTS 自然度和情感表达显著提升, 智能音箱、手机助手、语音输入法等产品涌现。
大模型对 AIoT 的影响
大模型提升了 AI 助手理解用户意图的能力,使对话更自然,并具备多模态感知能力。此外,AI 的自学习能力使其能不断优化服务,满足个性化需求。具体表现为:
理解力增强: AI 更精准地理解用户指令。
生成式对话: 对话更具上下文理解,而非简单应答。
多模态感知: 整合文本、语音、图像等多维度信息。
自学习优化: 通过用户反馈不断迭代服务。
AIoT 产品形态变革
会议助手: 从记录升级为总结、提炼的智能助手。
AI 实时翻译耳机: 实现跨语言实时同声传译。
机器人助手:从简单执行指令升级为主动交互的个人助理。
挑战与应对
大模型部署成本高,对延迟敏感,依赖端云协同,且多模态数据传输压力大。为此,引入 RTC 技术势在必行。RTC 技术具有低延迟和灵活传输能力,可支持多模态数据传输,并将计算压力转移至云端,提升用户体验。
声网的 AI Agent x IoT 解决方案支持低功耗芯片快速接入大模型,实现低延时互动。开发者只需接入 RTC,其他计算由云端完成,降低开发成本。
Jay:TEN x ESP32 玩转 Voice AI,创造低延迟的 AI 硬件体验
Jay
TEN Framework 核心开发者
IoT 设备接入大模型的挑战与痛点
语音交互体验至关重要:低延迟和自然的打断是关键的用户体验指标。
多重因素影响交互效果:ASR(自动语音识别)、大语言模型 (LLM) 和 TTS(文本转语音)的选择、三段式级联架构的延迟、网络协议的适用性以及延迟和打断优化等都是挑战。
技术交叉复杂性:涉及 AI 和通信领域的交叉问题,需要开发者具备多领域知识。
网络协议选择:传统的 WebSocket 在音视频传输方面存在延迟高、抗抖动性差的问题,而 RTC 协议更适合复杂场景,因为它具有低延迟、抗抖动和内置音频处理功能。
TEN 框架的解决方案
基于 TEN 框架构建的对话 AI 引擎,TEN Agent 为开发者提供快速构建实时对话式 AI 智能体的工具。
插件式设计:所有功能模块(如 RTC, ASR, LLM, TTS)均以插件形式存在,方便灵活编排组合。
内置 RTC: 具备低延迟、降噪等特性,简化了复杂音视频场景的处理。
开箱即用:TEN Agent 内置 RTC + STT + LLM + TTS 的完整流程,提供预设配置方便用户快速体验。
支持级联和语音到语音(V2V)两种模式:TEN 框架都能轻松实现,开发者可根据场景自由选择。
可与 Dify 和 Coze 集成:如果已经在 Dify 或 Coze 上搭建了 Agent 的大脑,可以通过简单配置参数,让其在 TEN 上实现语音交互。
TEN + ESP32 方案
基于 ESP32 的对话助手:结合 TEN Agent,实现低成本的语音交互设备。
架构:ESP32 通过 Agora 的 RTC SDK 连接到云端的 TEN Agent,完成语音/视频/文本传输,并在云端完成 ASR/LLM/TTS 处理。
关键实现:包括集成 RTC SDK 和 TEN Agent 的控制 API,采集音频并传输,接收回复并播放。
Demo 展示:现场演示了基于 iFLY(ASR)、阿里通义千问(LLM)和 MiniMax(TTS) 模型的语音交互,延迟约为 1.5-2 秒,打断自然。
开源计划:TEN + ESP32 方案将在未来 1-2 周内开源。
贺思源:新能力,新可能——AI 智能硬件创新场景探索
贺思源
科大讯飞 AI 交互高级项目经理
讯飞新能力:
多模语音增强: 结合视频和语音数据,提升高噪声环境下的语音识别准确率。
超拟人语音合成: 模拟人类发音特征,使合成语音更自然,可在线体验。
声音复刻: 仅需 30 秒录音即可复刻声音,支持跨语种。
智能问答库:结合大模型,提升问答效果,支持实时搜索,解决大模型信息滞后问题。
回复风格自定义: 可为不同产品定制个性化回复风格,避免千篇一律。
端侧大模型: 为有数据安全需求的客户提供本地化大模型解决方案。
大模型提示词工程: 通过少量示例即可让大模型自动泛化语料,提高开发效率。
讯飞新场景应用:
教育领域: 讯飞学习机提供中英文作文批改、口语陪练和教师助手等功能。
医疗领域: 讯飞小医处理全链路用医请求,包括就诊前咨询、用药指导和体检报告解读。
办公领域: PPT 助手一键生成 PPT 大纲模板,帮助用户专注于内容创作。
AI 能力与硬件结合的思考:
AI 能力定位影响未来机会:辅助作用 如语音遥控器,核心需求是观影,语音仅为辅助功能,创业公司机会较小。核心作用如故事机,AI 能力是核心卖点,易催生新品类,带来新公司机会。
限制条件可促进新品类诞生:如端侧大模型一体机源于央国企对数据安全的需求,闺蜜机源于电视便携性不足。
多模态交互在情感陪伴类产品(如机器人)中有巨大潜力。避免将语音交互仅作为传统功能的辅助指令。
未来产品畅想:
AI 动态相框: 用户可上传图片生成动态视频,或通过语音生成背景。
AI 试衣镜: 通过实时扫描人体进行实时换装,并推荐服装搭配,满足用户释义需求。
圆桌讨论:把 GenAI 装进物理世界,一共分几步?
2025 年的关键技术突破
参与讨论的嘉宾们认为,在未来 1~2 年内,最重要的技术突破可能主要集中在以下方面:
大模型降本增效:讯飞的贺思源指出,目前大模型的调用成本仍然是传统结构化对话的好几倍。「大模型不是成本越高越好,而是要让更多人用得起、用得好。」
端侧计算能力提升:闪极科技的周万程强调,本地计算对于保护隐私数据、保证离线可用性至关重要,未来一定是端云结合的异构架构。高通最新发布的 Snapdragon XR2 Gen 2 芯片就是一个重要进展,这标志着端侧计算能力的显著提升,为更安全、更可靠的 AI 应用奠定了基础。
网络传输优化:声网的吴方方指出,大多数场景并非完全无网络,而是网络不稳定。如何在弱网环境下保证 AI 体验的流畅性是一个重要课题。他们认为,优化网络传输,尤其是在不稳定的网络环境中,是确保 AI 应用流畅用户体验的关键。
Always on 的 Ambient Agent 的未来
对于「Ambient Agent」(环境式智能体)这一概念,嘉宾们认为这代表了 AI 硬件的重要发展方向。这种智能体能够全天候陪伴用户,但不会过度打扰,而是在适当时机主动交互。
贺思源打了个比方:「就像开车时的导航,它会在关键时刻提醒你 『前面 200 米有红灯』,但平时并不会喋喋不休。」同时,贺思源也表示,除了导航等传统场景外,大模型在视觉分析等复杂场景中将发挥更大价值。
周万程则指出了技术挑战:「Always on 是个好概念,但要考虑功耗。在重要场景高帧率记录,不重要场景低帧率记录,这需要很好的场景感知能力。」
Ligntning Demo
心语心声:AI 驱动的智能陪伴玩具
电池续航问题:团队最初计划做 always on 项目,但在小型化过程中遇到了能量供给的困难
-
语音唤醒问题:正在探索通过分析说话者与老人、儿童交谈时的声音模式差异来作为唤醒的触发点
儿童 AI 体感互动&口语陪练
儿童 AI 体感项目:开发能够捕捉儿童动作的硬件设备,配合电视游戏实现互动陪伴;
-
儿童口语陪练项目:与科大讯飞合作,针对儿童口语训练的特定需求和具体痛点开发解决方案。
小智 AI 聊天机器人
本次活动的微信群将持续开放,作为「voice agent+硬件」主题的长期讨论场域,欢迎扫码申请加入我们的微信群。
关于 RTE Meetup
成为 RTE Meetup 组织者
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。


