达摩院语音AI技术创新全景:能听、会说、懂你
从语音识别到语音合成,揭秘阿里在语音AI领域的核心技术突破
作者:陈谦、邓憧、付强、高志付、胡凯、罗浩能、纳跃跃、田彪、王雯、鄢志杰、张仕良、张庆林、郑斯奇(以姓氏首字母排序)
这是阿里技术2022年的第21篇原创文章
( 本文阅读时间:20分钟 )
过去十年,语音AI从实验室走向广泛应用,已深度融入日常生活。无论是与智能音箱对话,还是使用淘宝、高德、优酷等App进行语音搜索,亦或接听菜鸟裹裹、天猫超市的机器人回访电话,背后均依赖于语音AI技术的支撑。
语音AI作为人工智能的核心感知技术之一,对应人类的“耳朵”与“嘴巴”——语音识别(ASR)负责将声音转为文字,语音合成(TTS)则将文字转化为语音。近年来,该技术持续演进,不仅在准确率上逼近人类水平,更逐步解锁复杂场景应用。达摩院语音实验室认为,下一个关键技术突破点将是会议场景,即用“人-人”自然对话模式替代传统的“人-机”交互。
值图灵诞辰110周年之际,本文系统梳理达摩院在语音识别、说话人区分、语音合成、口语理解及声学前端等方面的创新成果,展现“能听、会说、懂你”的语音AI全貌。
01
能听:语音识别基础算法创新
真实环境中的语音识别面临多重挑战:噪声干扰、混响、多人说话、语速语调变化等,都会显著影响识别准确率。相比之下,人类能结合声音特征、视觉线索和语义理解精准判断“谁在何时说了什么”,而机器需通过技术创新逼近这一能力。
1.1 语音识别基础框架
✪ UNIVERSAL-ASR:统一离线与流式识别架构
传统语音识别系统由声学模型、语言模型、词典和解码器独立组成,流程复杂且维护成本高。近年来,端到端(E2E)模型成为主流。阿里巴巴语音实验室融合自研的SAN-M网络与Transformer结构,提出Streaming Chunk-Aware Multihead Attention(SCAMA)机制,显著提升识别性能。
为兼顾实时性与高精度,行业通常维护多套系统(如CTC、离线E2E、流式系统),导致成本高、迭代慢。为此,达摩院推出UNIVERSAL-ASR——一套支持离线与流式一体化的语音识别框架。该系统通过共享动态编码器降低计算量,采用动态时延训练机制,实现一个模型适配多种业务场景。

图1 UNIVERSAL-ASR语音识别基础框架
UNIVERSAL-ASR将业务需求分为三类:低延迟实时听写(如客服)、流式实时听写(如会议字幕)、离线文件转写(如音视频转文字),分别对应fast、normal、offline三种解码模式,部署时按需切换,大幅降低模型生产与运维成本。
✪ 中英自由说:提升中英文混说识别效果
中英文混说(如“看下paper”)是语音识别难点,主因是混合语料稀缺、标注成本高,且单语数据混合训练易相互干扰。达摩院借鉴“混合专家系统”(MoE)思想,为中文和英文分别设计子网络(专家),底层共享、高层独立,并通过门控模块加权输出。
结合SAN-M网络,该方案实现单模型免切换识别中英文及混合语句,在保持纯中文、纯英文识别性能的同时,显著提升混说场景准确率。

图2 中英自由说系统框架图
✪ 方言自由说:一模型识别十四种方言
通用中文识别在普通话上接近人类水平,但面对方言时性能骤降。传统做法为每种方言单独建模,导致模型繁多、数据稀疏问题突出。达摩院沿用专家系统思路,为每种方言设置专家网络,并增设共享专家网络以捕捉方言共性。
该方案通过简单结构建模多专家,结合SAN-M网络,实现单模型自动识别十四种常用方言,无需提供方言ID,且普通话识别性能不下降。

图3 方言自由说系统框架图
1.2 破解“鸡尾酒会问题”
“鸡尾酒会问题”指在多人同时讲话的场景下,准确识别各人发言内容,是会议等复杂场景的核心挑战。达摩院从基础框架、数据集建设、混叠检测与说话人日志四方面展开攻关。
✪ M2MeT国际挑战赛与AliMeeting语料库
受限于真实会议数据稀缺,该领域研究长期受限。达摩院发布AliMeeting语料库,包含120小时真实中文会议录音,涵盖8通道麦克风阵列远场数据与参会者近场耳机录音,支持说话人日志与多说话人识别研究。
基于该数据,达摩院发起M2MeT国际挑战赛,聚焦真实线下多人会议场景,包含说话人日志与多说话人ASR两项任务,已被ICASSP 2022采纳为Signal Processing Grand Challenge。
✪ 混叠语音检测技术
会议中多人同时发言形成混叠语音,严重影响后续识别。达摩院提出融合声学与空间特征的检测方案,利用8通道麦克风阵列信号,结合波束形成、声源定位与神经网络模型,提升检测准确率。
具体提出两种模型:Two-Stream DFSMN,分别处理声学与空间特征并联合建模;BeamTransformer,基于麦克风阵列设计Transformer结构,在控制参数量的同时最大化空间信息互补,实现混叠检测与语音分离一体化。

图4 混叠语音检测系统框图

图5 基于Two-stream DFSMN的混叠语音检测

图6 基于 BeamTransformer 的混叠语音检框图
✪ 说话人日志技术
说话人日志(Speaker Diarization)旨在解决“谁在什么时间说话”问题。传统方法难以处理重叠语音,端到端方法受限于说话人数量预设。达摩院提出基于嵌入码的SEND模型,动态维护说话人嵌入记忆单元,无需预设人数,支持多人场景。
创新采用幂集编码(Power Set Encoding),将重叠语音识别由多标签预测转为单标签分类,避免阈值选择难题,显著提升重叠语音识别率。进一步引入ASR生成的文本语义信息,通过注意力机制融合声学与文本特征,实现“谁在什么时候说了什么”的精准定位。

图7 基于嵌入码的说话人日志系统

图8 带有文本信息的SEND说话人日志系统
02
能听:说话人相关技术创新
多通道与自适应技术推动语音识别与合成创新
聚焦多人会议、嘈杂环境与无监督学习场景下的语音处理突破
在多人会议等复杂语音场景中,说话人区分面临说话人数量未知、噪声干扰、语音重叠等多重挑战。传统单通道说话人日志(Speaker Diarization)系统在DIHARD竞赛中错误率普遍高于20%-30%,且在说话人切换紧密时易出现语音切分不准、首尾字丢失等问题,难以满足商用需求。
为此,提出基于麦克风阵列的多通道说话人日志系统,利用SRP-PHAT算法获取空间相位信息,实现声源定位与追踪,并融合神经网络VAD、重叠检测与语音分割模块。进一步设计“嵌入向量+空间信息+时间信息”的层次聚类(AHC)算法,显著提升聚类性能。
实验结果显示,该系统将语音切分准确率从传统方法的40%-50%提升至99%以上,同时将说话人错误率(DER)由23.17%降至5.22%,达到商用标准。




在嘈杂环境下,背景音乐或噪声严重影响说话人识别性能。针对此,提出说话人自适应噪声过滤机制:先提取含噪语音的说话人嵌入,结合训练所得声源分离掩码,在子空间中获得去噪特征,进而优化嵌入向量。
该方法采用端到端训练,以当前音频作为参考信号,避免依赖理想掩码;同时融合D-TDNN与Conv-TasNet模型结构,共享参数,并将频谱掩码替换为特征图掩码,提升效率。
在VoxCeleb数据集上的实验表明,该系统等错误率(EER)相对降低25%,计算开销仅增加15%,实现1.2%的低EER性能。


面对大量无标注语音数据,无监督学习成为关键。图神经网络(GCN)因其在节点关系建模上的优势,被引入说话人聚类任务。提出基于GCN的半监督学习方法,通过构建子图进行标签传播与数据扩增,在VoxCeleb数据集上达到接近全监督模型的性能。


高表现力语音合成系统HIFI-TTS:支持48k高采样率
语音合成追求真实、自然、富有表现力的声音。HIFI-TTS系统融合Hifi-GAN声码器与达摩院KAN-TTS框架,支持高采样率、高音质语音生成,显著提升听觉体验。
系统采用基于GAN的连续变量建模,引入多尺度(MSD)与多周期(MPD)判别器,分别捕捉语音平稳性与周期性特征,提升声音还原度。
为支持48k采样率,优化判别器、上采样网络与多接收域融合(MRF)结构,确保高采样率下的稳定合成效果。
在CMOS测评中,HIFI-TTS平均提升0.3(专业测评)与0.08(众包测评),音质与表现力显著优于16k线上系统。

| 发音人 (F: female, M: male) |
测试环境 | HIFI-TTS CMOS gain |
| F1 | HIFI专业测评 | +0.42 |
| M1 | HIFI专业测评 | +0.19 |
| F2 | 普通众包测评 | +0.14 |
| F3 | 普通众包测评 | +0.085 |
| F4 | 普通众包测评 | +0.085 |
| M2 | 普通众包测评 | +0.085 |
| M3 | 普通众包测评 | +0.085 |
| M4 | 普通众包测评 | +0.03 |
系统采用声码器-GPU异构架构,支持非自回归并行生成,提升实时性;结合chunk流式机制与声学模型协同,优化显存占用与运行效率,支持高效流式服务。

ProsoSpeech:高表现力声学模型提升韵律自然度
现有语音合成系统在韵律建模方面存在基频提取不准、多韵律成分割裂建模、数据不足等问题。为此提出ProsoSpeech模型,统一建模基频、能量与时长等韵律特征。
模型结构包括音素编码器、词编码器、长度规整模块、解码器、韵律编码器与隐藏韵律矢量(LPV)预测网络。通过目标梅尔谱低频部分提取LPV,并与语言学特征融合,实现端到端韵律控制。


引入隐藏韵律矢量后,MOS评分从3.65提升至3.85(真人4.08),语音韵律更平滑自然。
口语语言处理技术突破:提升识别可读性与语义理解
人机交互中,口语存在语气词、重复、表达随意等特点,对识别与理解提出挑战。研究聚焦于提升语音识别文本的可读性与下游任务性能,涵盖联合文本音素表征、标点预测、篇章分割等方向。
提出联合文本与音素表征的预训练方法,利用音素信息增强模型对ASR错误的鲁棒性。通过条件掩码语言模型与句间关系目标进行预训练,并在微调阶段融合音素特征,在Fluent Speech Commands与SNIPS数据集上显著提升性能。
分析显示,该方法显著拉近声学混淆词在表征空间中的距离(MRR从0.1012提升至0.1591),增强口语理解鲁棒性。


针对标点预测依赖大量标注数据的问题,提出区分式自学习方法,采用加权损失与差异化标签平滑技术,联合训练人工标注与伪标签数据。
基于Transformer的序列标注模型在IWSLT2011与中文内部数据集上均优于BERT、RoBERTa等强基线,并在IWSLT2011上取得F1指标1.3的绝对提升,达到SOTA水平。


针对ASR转写稿缺乏结构问题,提出自适应滑窗的篇章分割模型,结合音频信息提升对ASR错误的鲁棒性。
该方法在效果上提升超4%,推理效率提升至原来的6倍,显著增强长文本可读性与下游NLP任务性能。


基于池化与掩码的高效长文本建模与关键词抽取技术
达摩院语音实验室在长序列处理与无监督关键词提取方面的前沿探索
Transformer 模型因自注意力机制的二次计算复杂度,在处理长文本时面临效率瓶颈。为此,达摩院提出新型池化网络 PoNet,采用多粒度池化与池化融合策略,实现线性复杂度下的高效 token 混合。PoNet 在 Long Range Arena(LRA)基准测试中显著优于标准 Transformer,精度接近最优模型 FNet,且在 GLUE 基准上达到 BERT 95.7% 的准确率,超越 FNet 4.5 个百分点。其核心组件包括:全局聚合(GA)、段最大池化(SMP)和局部最大池化(LMP),通过残差连接将多粒度上下文信息融合至各 token。

针对传统关键词抽取方法(Phrase-Document, PD)在长文档中因语义不匹配导致性能下降的问题,达摩院提出无监督关键词抽取新方法 MDERank。该方法基于“关键短语移除将显著改变文档语义”的假设,通过比较原始文档与掩码文档嵌入的相似性进行候选短语排序,有效缓解 PD 方法对长候选的偏好及上下文缺失问题。进一步提出的 KPEBERT 模型经自监督对比学习优化,更契合 MDERank 需求,在六个基准测试中平均 F1@15 指标超越 SIFRank 3.53 个百分点。


联合优化声学前端技术突破远场语音交互瓶颈
面向低信噪比与复杂干扰场景的端到端语音增强与唤醒方案
针对语音AloT设备在回声、噪声、混响等复杂声学环境下的交互挑战,达摩院提出联合优化声学前端架构,以端到端唤醒率为优化目标,统一建模回声消除、声源分离、去混响与唤醒模块,突破传统级联系统的性能局限。该技术已广泛应用于远场语音模组、智能电视、音箱及座舱等产品中。
核心技术包括:基于盲源分离理论的统一信号处理框架,在多人干扰(鸡尾酒会)场景中表现优异,获头部教育平板厂商认可为业内最佳2mic方案;针对扫地机器人等极低信噪比场景,实现阵列信号处理与唤醒模型的联合优化,显著提升唤醒性能。
为提升系统效率,研发了多路信息融合与通道选择机制:仅在关键词检测模型首层进行多路推理,后经 max pooling 融合结果并确定最优通道,有效降低虚警率与计算量,简化事件同步逻辑。同时引入推理阶段前后端反馈机制,利用关键词存在概率作为自顶向下监督信号,优化前端语音增强效果。
在低资源嵌入式场景下,采用模型蒸馏、TVM图优化、RISC-V指令集等软硬一体加速技术,实现在1M内存、低于100mW功耗条件下运行高复杂度算法,在 MLPerf™ Tiny Benchmark 中取得高准确率与低延迟的最优平衡。与天猫精灵合作推出的木星模组,使移动高噪场景唤醒率相对提升近10%,虚警率下降30倍以上,关键词检测计算量减少50%以上。





