大数跨境
0
0

媒体视角丨别让“3秒迟疑”毁掉 AI 的未来:RTE 如何成为具身智能的“神经系统”?

媒体视角丨别让“3秒迟疑”毁掉 AI 的未来:RTE 如何成为具身智能的“神经系统”? 天声网
2025-12-01
0
导读:无论是哪种未来,RTE 的价值都已今非昔比。

试想一个场景:一个高度精密的具身智能机器人,它拥有完美的机械结构和运动能力,但当你向它发出指令时,它却需要三秒钟的思考才能回应;或者,它无法分辨你是在对它说话,还是在对客厅的电视说话。这个场景的失真感揭示了一个冰冷的现实:再强大的大模型大脑,如果缺少了实时、自然、情境感知的神经系统,就永远无法真正融入人类世界。

这种实时交互的瓶颈,正成为人工智能走向普适应用的核心矛盾。

而这个矛盾,却意外地让一个一度被认为流量见顶的赛道—— RTE ( Real-Time Engagement ,实时互动)重新站上了风口浪尖。在近日的声网 Convo AI & RTE 2025 大会上,声网创始人兼 CEO 赵斌的演讲中暗示:RTE 行业残酷的中场战事已经结束,而以对话式 AI 为核心的下半场,才刚刚鸣哨。

01

“死水”下的暗涌:RTE 的中场战事与 AI 的“引爆点”

回顾RTE行业的过去五年,可谓一言难尽。赵斌在演讲中并未回避行业的窘境。疫情带来的爆发式增长过后,WebRTC 的全球流量曲线一度陷入了波澜不惊,甚至死水奔腾的状态。

与此同时,行业竞争格局急剧收缩。时间倒回至2020年前后,全球 RTE 赛道上曾涌现出超过50家厂商。而到今天,已经寥寥无几。一些行业巨头也明显减少了投入,甚至有巨头的相关 SDK 功能被下架。RTE 似乎正在沦为一个高度同质化、依赖价格战的纯基础设施( IaaS 管道

这是RTE的终局吗?

一个戏剧性的转折点发生在2025年的8月。赵斌展示的数据显示,WebRTC 的全球搜索量突然出现了一个前所未有的暴涨,其热度甚至远超疫情初期的峰值。

图片

引爆点,正是对话式 AI 

这个新物种的到来,必然引起实时互动领域的一个新的创新热。赵斌强调。如今行业开始意识到,要实现真正对话的 AI ,过去用于视频会议的 WebRTC ,远比仅用于推送消息的 WebSocket 是更优的通讯标准。

这标志着 RTE 的价值逻辑正在发生根本性转变。它不再只是人与人的连接管道,更开始成为人与 AI ”交互的必要通路。

02

AI 的“社交尴尬”:

从7%到100%的交互鸿沟

对话式 AI 的潜力毋庸置疑,但它的现状却充满了社交尴尬

赵斌在演讲中生动地描绘了当下AI真实现状。今天的 AI,更像一个书呆子。你问它一个问题,它无法像正常人一样干脆利落地回答,而是引经据典地给你一大串学术回复。

而在实际的应用场景当中,AI 的“引经据典”式回复,并不利于用户更为直接地接受答案,也让 AI 走向场景的“最后一公里”充满了阻力。

图片

这种体验的背后,是著名的“7-38-55”传播定律在起作用。赵斌指出,在人类对话中,真正的内容(语言文字)只占7%,而38%的信息来自语气、语速、语调,55%来自表情和肢体语言。

今天所有的大模型,几乎都还停留在7%内容级别对话上。它们能听懂文字,却无法感知情绪。

这就是 RTE “下半场需要解决的核心问题:如何让 AI 内容对话走向生情并茂的交流

这需要一个远超 LLM 本身的复杂技术栈。AI 不仅要听清(降噪、回声消除),还要理解谁在说(声纹识别、远近场判断),判断何时说(基于延迟的打断与抢麦),并感知怎么说(情绪、韵律)。

这套技术栈,恰恰是 RTE 厂商过去十年赖以生存的“核心壁垒”。

03

声网的“解题思路”:从“管道工”到“AI神经系统架构师”

如果说 RTE 上半场是解决全球网络的通达问题,那么下半场就是解决 AI 交互的感知问题。赵斌的演讲,实际上完整展示了声网如何基于自身优势,构建这套“ AI 神经系统的路径。

这条路径可以拆解为三个层次:

1. 坚实的旧基建:音视频的极致体验

在 AI 时代之前,声网就已在音视频体验上投入重兵。例如,其 AI 降噪能智能过滤非人声,保障有效信息的传入;其自研的 AI 编码器,在同等算力消耗下,对比 X264 能减少42%的编码率,这直接推动了 720P 以上的高清视频在海外直播间占比超过80%

没有这种高质量的信号输入,AI 大脑再聪明也无济于事。

2. 核心的新引擎

这是声网应对 AI 挑战的核心技术答案。赵斌特别强调,这是一个基于大模型底层的框架,它追求的是高效率、高并发和深度的平台结合能力。

这个框架的定位,是对话式 AI 编排层中枢神经。它负责连接 LLM (大脑)、RTE 网络(传输)和音视频处理(感官),解决 AI 交互中的上下文管理、多轮对话流转、以及实时性能问题。与传统解决方案只是做声音交互的处理管道不同,声网的方式,更像是要成为 AI 交互的调度中心

3. 完整的工具链Convo AI 2.0与生态

在引擎之上,声网推出了 Convo AI 2.0产品套件。它直接针对 AI 书呆子问题,提供了对话上下文管理、声学特征处理、自然度管理等功能。

同时,他们推出了“ AI 评测平台对话式 AI Studio ”。前者帮助开发者在众多模型中选择响应最快、效果最好的组合;后者则降低了 AI 应用的开发门槛。

图片

声网的策略是清晰的:以 RTE 的音视频处理能力为底座,以 Convo AI 2.0和工具链为抓手帮助开发者快速构建真正可用而非可演示AI应用。

04

RTE 正成为 AI 的“第四种”基础设施”

当 AI 学会说话,它将撬动多大的市场?

赵斌在演讲中描绘了几个确定性极高的爆发领域。首先是 AI 陪伴,这个赛道有潜力从几十亿美元增长至千亿美元级别。其次,在客服、教育、游戏 NPC 、专业助理(如医疗)等领域,对话式AI正在全面渗透。

更有趣的判断,来自于对“ AI 硬件形态的思考。

下一个“ iPhone 时刻会是什么?赵斌认为,主流形态很可能不是一个全新的计算设备,而是以智能眼镜、耳机、手表、戒指自然佩戴的设备形态出现。AI 助理将无处不在,你使用什么设备,它就出现在什么设备上。

这对 RTE 提出了极高的要求:必须具备跨平台、低功耗、高并发的运行能力。

但一个更具戏剧性冲突的未来是,为了提供极致的个性化助理服务,可能会出现一种“7x24小时的个人设备,像行车记录仪一样,持续收集你所处的环境和经历的事件,以便比你更了解你

这一点,我相信也会越来越多地比它更大的,对于数据安全和个人数据所有权以及控制权的关注。赵斌冷静地指出。他甚至预言,未来两三年,AI的发展也会逐步翻山对于欺诈或隐私安全事件的防范,从而重塑行业的监管环境。

无论是哪种未来,RTE 的价值都已今非昔比。

从 CDN(内容分发),到通用的计算( CPU ),再到AI训练的算力( GPU ),而下一个演进方向,必然是支持实时 AI 编排的基础设施。

对话式 AI 的爆发,正在将 RTE 从一个可选的通信模块,推向了 AI 时代必选的基础设施。RTE 行业的中场战事或许已经结束,但一个由 AI 开启、关乎感知交互的宏大下半场,正徐徐展开。

推荐阅读👇

图片
图片
图片
图片
图片

【声明】内容源于网络
0
0
天声网
国内首家有声产业聚合平台
内容 1467
粉丝 0
天声网 国内首家有声产业聚合平台
总阅读44
粉丝0
内容1.5k