实时互动技术正实现从“在线”到“在场”的转变,推动互联网朝以“临场感”为特征的下一次变革。随着 5G、大数据、云计算等技术的深入交叉发展,以及元宇宙等概念的推广,实时互动技术将加速赋能千行百业,不断拓宽边界。
在 7 月 22、23 日举办的第二届稀土开发者大会(XDC 2022)上,声网技术 VP 冯越作为出品人出品了《实时互动技术新世代》专场,旨在和广大开发者共同探索实时互动技术的最新趋势,分享实时互动领域的最新进展和工程实践。
关注「声网开发者」公众号,回复关键词「0722」,即可领取本次活动完整的 PPT 资料。
在《实时互动技术新世代》专场中,来自声网的四位技术专家进行了不同主题的分享。
▼

冯盛源 声网高级软件开发工程师
冯盛源是声网高级软件开发工程师,于 2021 年加入声网,主导 WebRTC Next Version(WebRTC NV)项目开发,致力提供差异化的实时音视频互动体验。在本次专场中,冯盛源的演讲主题为《下一代 Web 实时音视频技术和开发实践》。
WebRTC 1.0 标准化落地使得 Web 平台具备了基本音视频互通能力,但实时音视频互动新场景中的新需求例如背景分割、美颜、超分、AI 降噪、空间音频已超出 WebRTC 1.0 覆盖的基础音视频通话用例。
在分享中冯盛源提到,以 WebRTC 1.0 标准向 Web 开发者提供的 API 难以承载 WebRTC Next Version (WebRTC NV) 中差异化的音视频体验需求,而这背后的解决之道便是解构 WebRTC 并开放更多的能力给到 Web 开发者。
冯盛源分享了 Web 平台的 RTC 方案现状和 W3C 推行的一系列新标准,并提出了一个可验证的 WebRTC NV 解决方案。

冯盛源表示,WebRTC 是 Web 平台创建高性能 RTC 应用的主要选择,非 WebRTC 方案面临编码及渲染等性能瓶颈。基于 WebRTC NV 解决方案的下一代实时音视频通信产品目前可通过定制浏览器进行预研和技术验证。
▼

伍双 声网互动应用创新部门负责人
伍双是声网互动应用创新部门负责人,主要负责声网互动白板相关业务,以及实时互动开源项目 Flat。曾创办 Netless 互动白板公司,并于 2020 年底带领团队加入声网。
主流的会议软件或者教学软件都配备了强大的互动白板系统,那什么场景中我们才会需要互动白板来辅助教学或者会议呢?本次专场,伍双以《互动白板的开发难点:冲突处理和扩展开发》为题,分享了互动白板难以取代的功能和优势,以及技术实现和未来的路线发展。
伍双提出互动白板看似很小并且似乎没什么技术门槛的领域,但相对于传统的应用场景有着带宽占用低、观感清晰、互动性强、移动端友好的优势。
要做一个好的互动白板需要面对两个重点问题 —— 冲突处理和扩展开发。要想解决这两个问题,伍双引入了一个“裁决者服务器”的概念。

先让冲突自然发生,允许短时间渲染内容的交叉。当裁决者确定冲突结果后,错误的渲染会被纠正。伍双表示借助这一模型可以解决实时性和强一致的问题,这种思路在游戏行业也广泛应用。
▼

周成 声网高级软件开发工程师
周成于 2019 年加入声网,参与大前端 Native SDK 稳定性系统搭建,目前专注于软件工程质量方面的研究。
本次专场中,周成分享的主题是《亿级安装量,如何将 SDK 崩溃率降低至十万分之五?》。他提出在衡量一款产品质量时,稳定性是一项非常重要的考量标准。
声网作为一家覆盖全球 200+国家/地区的全球实时互动 API 平台,一直非常重视可靠性,这里的可靠性不仅包括 SD-RTN 传输网络的高可用,也包括端侧 SDK 的稳定性。
但 RTC 相关的技术非常复杂,涉及到多平台的适配,音视频的采集、渲染、前后处理、编解码和网络传输。周成分享到,虽然声网在发展初期曾体会过一段“力不从心”的状态,但随着业务的发展和优化,目前已经能够做到十万分之五的崩溃率,而业界主流的App崩溃率则是千分之二。
之所以能实现如此高质量的效果,离不开声网稳定性监控平台的搭建。

周成分享到,综合考量现有平台的能力与问题后,声网选择了对监控平台进行自研。在自研过程中也曾遇到了几个难点 —— 问题初筛、问题归类、系统库符号、问题处理。最终通过报表中心、问题解决平台等实现了平台的搭建,如上图所示便是质量监控平台的实际操作流程。
▼

李嵩 声网音频算法工程师
声网音频算法工程师李嵩是德国汉诺威大学博士,参与过 HRTF 快速测量、虚拟声外化感提升、基于 VR 的空间音频、耳机主动降噪等项目。2021 年加入声网,主要从事实时空间音频算法研究,包括双耳声实时渲染、增强立体感和沉浸感等。
本次主题中,李嵩分享的主题是《空间音频如何助力在线互动场景的沉浸感体验?》。随着虚拟现实(VR)/ 混合现实(MR)技术的发展,基于耳机的空间音频变得越来越重要。李嵩介绍到,空间音频实际上是仿真一个真实声源产生声音,传播以及被人耳接收的过程。如何有效地模拟这一个过程,让 3D 音频沉浸式地再现,是空间音频的主要研究方向。除此之外,如何有效地渲染大量的声源是一个值得讨论的问题。

以声网空间音频的具体实现为例,实际上借助了两种计算方案 —— 本地直角坐标系计算和本地球坐标系计算,分别用来针对不同场景进行计算。
李嵩提到,空间音频在实际应用场景中的应用主要分为增强和重构两个方面。增强主要用于提高既有场景的音频效果,最终的目的是让线上的场景具备和线下场景一致的体验。重构则是针对基于空间音频的能力搭建出的场景,比如一些在线游戏、虚拟音乐会以及一些元宇宙的场景。
在声网下一代线上会议、声网 3D KTV、声网 MateChat 等场景中,已经可以通过空间音频技术来实现通过参会人位置的设定,实现类似于真实场景的声音效果,实现身临其境的互动感受。
本次《实时互动技术新世代》专场已经完美落幕。在线下生活、经济逐步数字化、线上化的大趋势下,实时互动技术在社交、办公、娱乐、教育、工业等各行各业中快速落地,相信未来还会有更多的应用场景被解锁,声网也将汇聚实时互动全生态力量,通过各种方式、渠道,赋能行业发展与创新。也期待更多的开发者可以和声网一起,共同探索实时互动的新世代。
关注「声网开发者」公众号,回复关键词「0722」,即可领取本次活动完整的 PPT 资料。
关注「声网开发者」
关注实时互动领域的
技术实践、行业洞察、人物观点
☟☟☟

