随着人工智能技术的不断进步，智能语音技术作为其重要分支，已经深入到我们生活的方方面面，这一技术的核心组成部分包括智能语音识别、智能语音合成以及自然语言处理等。该技术在近年来的发展尤为迅速，且智能语音技术的应用场景广泛，从智能客服机器人到传媒制作、智能家居、办公协同、车载系统等，都有其深入的融合。例如在智能客服领域，其可以显著提升服务效率，为客户带来更加便捷的体验。

值得一提的是，顺丰呼叫中心也采用了智能语音技术，以此来提高对客户的服务质量。通过这种技术，顺丰能够更快速、更准确地响应客户需求，进一步提升了客户满意度。随着技术的不断成熟，预计未来智能语音技术将在更多领域发挥其重要作用。

主动触达客户，顺丰呼叫中心智能语音技术的深度应用

顺丰呼叫中心在其关键系统中集成了智能语音技术，显著提升了服务效率和客户体验。这些关键系统包括智能外呼系统、智能应答系统以及人工客服系统，它们共同构成了顺丰呼叫中心的服务架构。

智能外呼系统主要负责主动联系客户，以便在某些通知和预约场景中提供更加精确的服务。例如，在派件前，系统会提前与客户预约确切的时间，以确保配送的顺利进行。智能应答系统还能处理用户主动呼入的各种复杂场景，包括下单、取消订单、咨询等。系统通过智能语音技术，能够理解用户的意图，并提供相应的服务或转接到人工客服系统。

当智能系统无法满足用户需求时，人工客服系统将介入，提供更为个性化和深入的服务。这个系统中，智能语音技术被用于将客服的通话录音转换成文本，以便质检系统检查客服的话术和服务质量。

此外，顺丰呼叫中心的这三个系统都充分利用了智能语音技术，包括语音识别、语音合成以及意图理解和对话生成。这些技术的应用不仅提高了服务效率，还为客户提供了更加流畅和个性化的服务体验。随着技术的不断发展，顺丰呼叫中心将继续优化其智能语音技术，以满足客户日益增长的服务需求。

语音合成的应用

语音合成，也叫 TTS（Text to Speech），根据输入的文本，输出自然的语音。语音合成引擎一般分为前端的语言学模型与后端的声学模型，语言学系统负责语言解析处理，一般功能有语种分析，分词，多音字处理，韵律预测等，而后端声学系统则根据前面的这些信息，合成语音。目前后端系统从最开始的简单拼接方式，到基于深度学习的参数合成，发展到现在比较流行的端到端方案，合成效果越来越好。

当前线上正在运行的方案是基于参数合成的方案，相比于拼接方案，其合成的语音连接平稳，质量高，但对声码器有一定的依赖。前端从文本中提取发音和韵律信息，而后端则将前端输出转成语音特征和语音数据流。

TTS 的合成效果测评一般有两种，第一种是采用 MoS 测评，这种方法主要关注于语音本身的质量，会对音质，流畅度，正确性，自然度，分词，停顿，音色等，进行主观打分评价，再根据平均值得到 TTS 系统的最终评分。而第二种是 ABX 测评，通过相同文本的输出对比不出的 TTS 系统合成效果。当前线上版本使用 ABX 测试，超出原有供应商 5% 以上，符合平替要求。

除了合成的效果，还有一个系统性能的维度用来评价合成，这里主要有实时率指标（RTF），首帧响应时间（RT），及系统并发三个关键指标。基于此，引擎的实现过程中调研实测了多种声学模型与声码器。最终，结合实际语音合成效果，第一版本生产实测 RTF<0.02，RT<200ms。

结合系统应用场景，及引擎的性能，当前版本 TTS 未实现流式合成，并且采用 HTTP 接口封装对呼叫系统提供原子能力。

以上是基于参数的合成，已在生产大规模应用。而基于端到端 bert_vits 模型的第二大版本引擎，目前还在测试阶段，根据目前的测试效果，中文句子停顿自然，比原方案稍好，而中文加英文字母停顿有时候不自然；另外在地址播报上也更自然，接近真人停顿习惯。

语音识别的主要应用场景和方案

语音识别，也叫语音转写，目的是将音频流转成文字。其引擎方案一般由特征提取、声学模型（AM）、语言模型（LM）、和解码搜索四部分构成。整个识别过程先对音频流进行处理，消除噪声和信道失真，并对语音进行增强，然后分割声音片段并转换成一系列数值，再通过声学模型识别数值，最终利用语言模型解码搜索匹配得到最优的词序列作为识别结果输出。

特征提取：音频模拟信号输入，将其转为数字信号，提取声音特征，供声学模型提取合适有代表性的特征向量；
声学模型：将声学和发音学的知识进行整合，以特征提取部分生成的特征为输入，并为可变长特征序列生成声学模型分数；
语言模型：通过训练语料/数据（通常是文本形式）学习词之间的相互关系，来估计假设词序列的可能性，找出该声言特征最有可能对应的文字序列；
解码搜索：对给定的特征向量序列和若干假设词序列计算声学模型分数和语言模型分数，将总体输出分数最高的词序列作为识别结果。

在实际的场景中，语音识别主要分为非流式识别和流式识别。非流式识别将长音频数据转文本，常应用在离线场景如影视字幕制作、客服录音质检等，顺丰内部即主要应用于小哥和客服录音的质检。流式识别，输入语音流，实时输出带有时间戳的文字流，常应用于直播字幕、实时会议记录、翻译同传等场景，顺丰主要应用在智能呼叫系统上。

流式识别与非流式识别在可用数据、模型精度和系统评价指标上都有一些区别，如下表：

	流式语音识别	非流式语音识别
可用数据	history数据＋少量future数据	全部history + future数据
模型精度	低	高
数据输入	N秒/次，如N=0.5	一次性输入完整数据
结果获取	实时输出	解码完成一次性输出
运行效率指标	最后一次送入数据到获得最终结果的时延	RTF (受时长影响波动）

非流式语音识别在质检系统的应用

ASR 应用在质检系统上，多出了一些额外的功能，如话者分离，用于分开坐席与客户音频，以便可以只针对坐席做质检。另外还有后处理中的文本角色识别、规则质检等，也是流式处理中所没有的。

质检系统整体方案如下，数据主流程和其中的 ASR 转写、规则质检是最核心的一部分。上游话单数据通过 Kafka 和接口的方式接入。主流程接入数据后进行了初步的过滤和转存，生成话单和质检任务。ASR 引擎是无状态分布式架构，平台提供幂等接口供引擎服务查询未处理任务，每个 ASR 服务启动之后，通过接口获取任务进行质检，完成或中间失败则通过平台的回调接口返回状态，通过 kafka 返回数据。平台实现了一套规则引擎，质检使用业务人员配置规则进行。

流式语音识别在呼入呼出中的应用

1、引擎

ASR 的流式版本，在顺丰场景中主要应用在智能外呼系统和智能应答系统。引擎使用支持流式处理的端点检测及语音识别。最终在生产应用，抽样质检，字错率<5%, 字准率>96%。

2、流式引擎的接入

在流式引擎的实践中，要解决的一个重要问题是算力资源的调度。区别于常见的 Http 接口服务，可以采用轮询等常规负载均衡策略，流式的任务会占用不定时长的链接和算力资源。在给定算力（CPU/GPU）资源并满足业务处理时延前提下，其能处理的最大连接数是确定的，如果此时增加了任务数，则会分出去一些算力，导致整体请求时延下降。两个场景都是深度交互式的业务，用户的忍耐等待回复的时长有限，稍长一点的时延，用户就可能立刻挂断电话。

我们在落地时，引入了引擎的自动服务发现并实现了一个登录服务器。引擎启动后需要主动向服务发现模块提交它自己的实例 ID 和它所能支持的最大连接数。在接收到一个任务或完成任务后，也需要向服务发现模块更新其已使用的连接数和剩余连接数。使用 ASR 能力的客户端，完成两个步骤才能使用接口。首先通过登录服务器查到最优实例（HTTP），再根据实例访问对应的实时流式接口（Websocket）。

3、电话系统的接入

在完成流式接入并支持精确负载后，如何接入电话系统是另一个要解决的问题，这里使用到了行业主流的接入协议—媒体资源控制协议（Media Resource Control Protocol，MRCP）。

MRCP 是一个标准、统一、可扩展的协议，主要应用语音识别、TTS 合成、录音、声纹识别（确认是否为某一类群体），声纹认证等能力的接入。MRCP 是一个框架，同时也是一个协议。该框架定义了它的网络基本组件及相互关系。它使用 SIP 协议来控制会话管理，使用 RTP 进行媒体流传输。它的协议定义了它如何控制媒体资源的过程。MRCP 是基于文本的协议，与 HTTP、SIP 的结构类似。

自研 MRCP- Server 及 ASR/ TTS 插件，在插件中通过 Websocket 方式调用流式 ASR 引擎，通过 HTTP 方案调用 TTS 引擎。

4、整体的部署

通过创建固定的虚拟 IP (VIP)，提供统一的服务访问入口；通过分别部署 ASR/TTS 插件实例隔离合成与识别的影响；通过跨地域多机房部署，提高服务的稳定性。

采用 Keepalived+vip 技术，所有 SIP 请求会发往某台 SIP 网关虚拟主机。当这台主机故障后，流量会自动发给备份机。

网关自身通过数据库同步状态信息，当发生故障转移后，备份机可以从数据库获取最近一次状态并接着工作。网关记录着所有资源节点并定时探活，当有资源节点出现异常时则自动踢出转发列表。如果需要维护升级资源节点，也可以通过网关 API 把资源节点移除转发列表，待升级后再加入转发列表。

Keepalived 机制保障了网关的高可用，网关转发列表保障了 MRCP 服务的高可用。在最后端的引擎层，在公有云上同样有一套实例，平时未启动。在故障发生后快速拉起，并通过专线为 MRCP 接入层提供能力服务，更大限度地保障了系统的可用。

而且 Watch-Dog 的巡检功能，则在系统整体发生故障时，还会通知上游软交换平台，去切换其它机房。

未来展望

随着人工智能和深度学习的发展，智能语音技术也在不断提高其精确度、实时性和可用性，结合大语言模型的发展，在意图理解等场景下有更好的效果，或者能够通过强化学习自我优化，根据环境和用户反馈调整其行为。在呼叫中心场景将会让系统更准确理解客户的意图和需求，并能够根据顾客的偏好和过往行为提供个性化的服务和建议，也可通过分析用户的语言，检测情绪的变化，并相应调整回应方式以更好地处理敏感或不满的客户，进而显著提高客户满意度和服务效率。

📣 欢迎向「InfoQ 数字化经纬」投稿，与我们共享您的思考、洞见和实践经验！投稿可邮箱至 editors@geekbang.com（邮件标题前注明【数字化投稿】）

内容推荐

春节将至，InfoQ数字化经纬特别准备了一份数字化干货资料，涵盖行业头部企业的企业级架构、数据治理、业务创新及行业数智化案例。扫描下方二维码，关注「InfoQ 数字化经纬」，回复「演讲干货」，获取干货内容。