试想一个场景:一个高度精密的具身智能机器人,它拥有完美的机械结构和运动能力,但当你向它发出指令时,它却需要三秒钟的“思考”才能回应;或者,它无法分辨你是在对它说话,还是在对客厅的电视说话。这个场景的“失真感”揭示了一个冰冷的现实:再强大的大模型“大脑”,如果缺少了实时、自然、情境感知的“神经系统”,就永远无法真正融入人类世界。
这种“实时交互”的瓶颈,正成为人工智能走向普适应用的核心矛盾。
而这个矛盾,却意外地让一个一度被认为“流量见顶”的赛道—— RTE ( Real-Time Engagement ,实时互动)重新站上了风口浪尖。在近日的声网 Convo AI & RTE 2025 大会上,声网创始人兼 CEO 赵斌的演讲中暗示:RTE 行业残酷的“中场战事”已经结束,而以对话式 AI 为核心的“下半场”,才刚刚鸣哨。
回顾RTE行业的过去五年,可谓一言难尽。赵斌在演讲中并未回避行业的窘境。疫情带来的爆发式增长过后,WebRTC 的全球流量曲线一度陷入了“波澜不惊,甚至死水奔腾”的状态。
与此同时,行业竞争格局急剧收缩。时间倒回至2020年前后,全球 RTE 赛道上曾涌现出超过50家厂商。而到今天,“已经寥寥无几”。一些行业巨头也明显减少了投入,甚至有巨头的相关 SDK 功能被下架。RTE 似乎正在沦为一个高度同质化、依赖价格战的纯基础设施( IaaS )“管道”。
这是RTE的终局吗?
一个戏剧性的转折点发生在2025年的8月。赵斌展示的数据显示,WebRTC 的全球搜索量突然出现了一个“前所未有的暴涨”,其热度甚至远超疫情初期的峰值。
引爆点,正是对话式 AI 。
“这个新物种的到来,必然引起实时互动领域的一个新的创新热。”赵斌强调。如今行业开始意识到,要实现真正“对话”的 AI ,过去用于视频会议的 WebRTC ,远比仅用于推送消息的 WebSocket 是更优的通讯标准。
这标志着 RTE 的价值逻辑正在发生根本性转变。它不再只是“人与人”的连接管道,更开始成为“人与 AI ”交互的必要通路。
对话式 AI 的潜力毋庸置疑,但它的现状却充满了“社交尴尬”。
赵斌在演讲中生动地描绘了当下AI的“真实现状”。今天的 AI,更像一个“书呆子”。你问它一个问题,它无法像正常人一样干脆利落地回答,而是“引经据典”地给你一大串学术回复。
而在实际的应用场景当中,AI 的“引经据典”式回复,并不利于用户更为直接地接受答案,也让 AI 走向场景的“最后一公里”充满了阻力。
这种体验的背后,是著名的“7-38-55”传播定律在起作用。赵斌指出,在人类对话中,真正的内容(语言文字)只占7%,而38%的信息来自语气、语速、语调,55%来自表情和肢体语言。
今天所有的大模型,几乎都还停留在7%的“内容级别”对话上。它们能“听懂”文字,却无法“感知”情绪。
这就是 RTE “下半场”需要解决的核心问题:如何让 AI 从“内容对话”走向“生情并茂的交流”?
这需要一个远超 LLM 本身的复杂技术栈。AI 不仅要听清(降噪、回声消除),还要理解“谁在说”(声纹识别、远近场判断),判断“何时说”(基于延迟的打断与抢麦),并感知“怎么说”(情绪、韵律)。
这套技术栈,恰恰是 RTE 厂商过去十年赖以生存的“核心壁垒”。
如果说 RTE 的“上半场”是解决全球网络的“通达”问题,那么“下半场”就是解决 AI 交互的“感知”问题。赵斌的演讲,实际上完整展示了声网如何基于自身优势,构建这套“ AI 神经系统”的路径。
这条路径可以拆解为三个层次:
1. 坚实的“旧基建”:音视频的极致体验
在 AI 时代之前,声网就已在音视频体验上投入重兵。例如,其 AI 降噪能智能过滤非人声,保障“有效”信息的传入;其自研的 AI 编码器,在同等算力消耗下,对比 X264 能减少42%的编码率,这直接推动了 720P 以上的高清视频在海外直播间占比超过80%。
没有这种高质量的“信号”输入,AI 的“大脑”再聪明也无济于事。
2. 核心的“新引擎”
这是声网应对 AI 挑战的核心技术答案。赵斌特别强调,这是一个基于大模型底层的框架,它追求的是高效率、高并发和深度的平台结合能力。
这个框架的定位,是对话式 AI 的“编排层”或“中枢神经”。它负责连接 LLM (大脑)、RTE 网络(传输)和音视频处理(感官),解决 AI 交互中的上下文管理、多轮对话流转、以及实时性能问题。与传统解决方案只是做声音交互的处理“管道”不同,声网的方式,更像是要成为 AI 交互的“调度中心”。
3. 完整的“工具链”:Convo AI 2.0与生态
在引擎之上,声网推出了 Convo AI 2.0产品套件。它直接针对 AI 的“书呆子”问题,提供了对话上下文管理、声学特征处理、自然度管理等功能。
同时,他们推出了“ AI 评测平台”和“对话式 AI Studio ”。前者帮助开发者在众多模型中选择响应最快、效果最好的组合;后者则降低了 AI 应用的开发门槛。
声网的策略是清晰的:以 RTE 的音视频处理能力为“底座”,以 Convo AI 2.0和工具链为“抓手”,帮助开发者快速构建真正“可用”而非“可演示”的AI应用。
当 AI 学会“说话”,它将撬动多大的市场?
赵斌在演讲中描绘了几个确定性极高的爆发领域。首先是 AI 陪伴,这个赛道有潜力从几十亿美元增长至千亿美元级别。其次,在客服、教育、游戏 NPC 、专业助理(如医疗)等领域,对话式AI正在全面渗透。
更有趣的判断,来自于对“ AI 硬件”形态的思考。
下一个“ iPhone 时刻”会是什么?赵斌认为,主流形态很可能不是一个全新的计算设备,而是以智能眼镜、耳机、手表、戒指等“自然佩戴”的设备形态出现。AI 助理将“无处不在”,你使用什么设备,它就出现在什么设备上。
这对 RTE 提出了极高的要求:必须具备跨平台、低功耗、高并发的运行能力。
但一个更具“戏剧性冲突”的未来是,为了提供极致的个性化助理服务,可能会出现一种“7x24小时”的个人设备,像“行车记录仪”一样,持续收集你所处的环境和经历的事件,以便“比你更了解你”。
“这一点,我相信也会越来越多地比它更大的,对于数据安全和个人数据所有权以及控制权的关注。”赵斌冷静地指出。他甚至预言,未来两三年,AI的发展也会逐步翻山对于欺诈或隐私安全事件的防范,从而重塑行业的监管环境。
无论是哪种未来,RTE 的价值都已今非昔比。
从 CDN(内容分发),到通用的计算( CPU ),再到AI训练的算力( GPU ),而下一个演进方向,必然是支持实时 AI 编排的基础设施。
对话式 AI 的爆发,正在将 RTE 从一个“可选”的通信模块,推向了 AI 时代“必选”的基础设施。RTE 行业的中场战事或许已经结束,但一个由 AI 开启、关乎“感知”与“交互”的宏大下半场,正徐徐展开。






