
实时互动作为下一代技术基础能力,正在渗透各行各业。尤其是受疫情的影响,人们越来越习惯在线、远程的工作、学习甚至生活。同时社交直播、游戏电竞、金融、保险、医疗等场景也被搬到了线上,实时互动正在支撑着这些人、物及空间之间创新的沟通和交互方式。
在实时互动场景中,语音处理是非常重要的一个部分,比如实时语音识别和实时语音翻译,可以将连续的音频流实时转换成文本,并进行实时翻译,应用在直播实时字幕、会议实时记录等场景,可以大大提高用户体验和沟通效率。
本次,我们邀请了来自微软、声网和数美的语音处理方面的技术专家,为大家分享语音处理在实时互动领域的最佳技术实践和业务应用。

🕰 活动时间:5 月 14 日 (星期四) 14:00 —— 16:30
🏠 活动地点:线上直播,扫海报二维码报名


谭旭,微软亚洲研究院主管研究员
👨🏻💻 嘉宾简介:
微软亚洲研究院主管研究员,研究领域包括深度学习、自然语言/语音/音乐、AI 内容生成等,在学术会议上发表论文 80 余篇。研发的机器翻译系统在 WMT 机器翻译比赛中获得多项冠军,研发的预训练语言模型 MASS、AI 音乐项目 Muzic 受到学界广泛关注。在语音合成和识别方面的研究成果(LRSpeech,FastSpeech 1/2,AdaSpeech,FastCorrect 1/2等)帮助微软 Azure 语音合成和识别服务提升产品体验。
🎙 分享主题:FastCorrect:语音识别快速纠错模型
📃 内容简介:
语音识别纠错通过检测并纠正语音识别结果中存在的错误,进一步提升识别准确率。目前,大部分纠错模型采用了基于注意力机制的自回归结构,延迟较高,影响模型线上部署。本次报告介绍一种低延迟、高精度的纠错模型 FastCorrect 系列,通过利用编辑对齐以及多个候选结果,在取得 10% 的词错误率下降的同时,将模型加速 6-9 倍,相关研究论文已被 NeurIPS 2021 和 EMNLP 2021 收录。


冯建元,声网音频体验算法专家
👨🏻💻 嘉宾简介:
美国伊利诺伊理工学院博士,伊利诺伊大学芝加哥分校特聘研究员,声网音频体验算法专家,十年算法研究从业经验。先后主导过多个实时音频领域的开发项目包括国内首个 AI 音频编解码器 Sliver、实时美声音效系统、实时声纹变声、实时空间音频渲染等产品研发。极客时间《搞定音频技术》栏目讲师。目前负责声网超高音质音频系统的设计与研发。
🎙 分享主题:Any to Any 实时变声的实现与落地
📃 内容简介:
随着 ASR、TTS 技术的演进, 语音识别的准确性和语音合成的自然度都有了极大的提升。这为高质量的实时变声的实现提供了可能。传统的变声利用包括变调效果器、均衡器等音效模块来调整语音的音色,但这种效果器的方式必须依赖手动调节通用性差、且变声效果不稳定。
而基于 ASR-TTS 架构的 AI 变声算法可以做到“Any to Any”(把任何人变成任何人)的自动变声同时又不会影响语音的可懂度。同时在 RTC 领域要求变声要有较高的实时性,端到端的延迟必须小于 1s,这对模型的算力和部署都提出了挑战。这次分享我们会围绕以下几个方面进行分享和讨论:
1. 基于传统音效的变声算法的困境
2. 实时变声算法的设计与思考
3. 实时变声如何落地与应用

李田,数美科技 NLP 技术负责人
👨🏻💻 嘉宾简介:
埃塞克斯大学大数据及文本分析硕士,现负责数美科技天净业务体系 NLP 技术落地,曾先后负责金融评分体系、语音产品孵化和优化、端到端音频事件监测,语音转录,文本语义模型,文本翻译, 模型加速等体系的开发和建设。拥有多年人工智能、机器学习、算法领域经验,在处理语音、文本、图像等场景下的实战经验颇丰。
🎙 分享主题:如何解决 Iterative 半监督训练在 ASR 训练中难以落地
📃 内容简介:
分享内容简介:
1. 半监督训练在 ASR 领域的应用
2. 半监督训练在 ASR 领域的进展和问题
3. 我们半监督方案解决的问题
4. Improved NIPL 解决方案

扫码立即报名




关于声网
成立于 2014 年 4 月的声网是实时互动 API 平台行业开创者,是专业服务商。开发者只需简单调用声网 API,即可在应用内构建多种实时音视频互动场景。
声网 API 已经赋能社交直播、教育、游戏电竞、IoT、AR/VR、金融、保险、医疗、企业协作等 20 余行业赛道,共计 200 多种场景。自成立至 2020 年底,累计实时音视频分钟数超 10,000 亿分钟。2021 年全年,声网实时音视频分钟数月均用量超 500 亿分钟。截至 2021 年 12 月 31 日,声网全球注册应用已超 40.5 万。

