百花齐放报春来--智能语音芯片发展现状及未来趋势- 大数跨境

声学楼论坛

2018-07-26

导读：近年来随着语音交互技术的快速发展和成熟，语音产业进入了爆发性增长的阶段，根据易观智库的统计，2017年语音市场已经达到了200亿的规模（图1）。而随着其在智能音箱、智能家居、车载中控、翻译机、故事机等

前言

近年来随着语音交互技术的快速发展和成熟，语音产业进入了爆发性增长的阶段，根据易观智库的统计，2017年语音市场已经达到了200亿的规模（图1）。而随着其在智能音箱、智能家居、车载中控、翻译机、故事机等市场全面落地，预计未来还将保持高速的增长。

图1 中国语音产业规模（来源：易观智库）

而在高速增长的市场需求面前，处于降低开发成本和周期、快速对接客户以及保护算法知识产权等诉求，主流语音技术玩家纷纷将目光投向了智能语音芯片，推出或即将推出搭载语音算法的人工智能芯片来应对市场不断变化的需求和挑战。

1. 智能语音芯片的概念

人工智能：根据1956年达特茅斯会议的定义，就是“让机器行为看起来就像是人所表现出来的智能行为一样，包含语言、图像、行为等的自主理解、判断、执行”。发展阶段划分：弱人工智能、强人工智能、超人工智能；现阶段处于弱人工智能阶段：专注于完成某个特定的任务，例如语音识别、图像识别和翻译，是擅长于单个方面的人工智能。它们只是用于解决特定的具体类的任务问题而存在，大都是统计数据和深度学习，以此从中归纳出模型发展程度并没有达到模拟人脑思维的程度，所以弱人工智能仍然属于“工具”的范畴。

广义上，满足语音类人工智能应用需求的芯片都可以称之为智能语音芯片。

图2 智能语音芯片的产业驱动

2. 智能语音芯片的现状及主要玩家

目前智能语音芯片还处于发展早期，只有极少数厂家推出了量产型芯片产品，大部分公司的芯片产品仍处于规划或样品阶段，离批量生产和大规模推广尚有距离。

智能语音芯片的玩家主要分为四类：

2.1 一直从事语音或主控芯片研发及生产的公司

代表性公司是科胜讯、MicroSemi、联发科、全志、君正、瑞芯微等

（1）科胜讯：发布AudioSmart语音解决方案，包括CX20924 四麦克风和CX20921 双麦克风语音输入处理芯片，主要的功能包括语音增强（4麦回声消除、噪声抑制、去混响）、360度声源定位和语音唤醒。

图3科胜讯20924/20921芯片框图

（2）MicroSemi：发布ZL38051芯片方案，主要功能包括语音增强（回声消除、波束成形、噪声抑制、声源定位），支持全双工通话，支持音频播放，支持编解码。

图4 MicroSemi ZL38051芯片框图

（3）联发科：目前主推的是MT8516语音专用芯片, 支持高达 8 通道的 TDM 麦克风阵列接口和 2 通道的 PDM 数字麦克风接口，非常适合远场麦克风语音控制和智能音响设备。目前阿里天猫精灵、百度 DuerOS、索尼的谷歌语音助手智能音箱均采用了联发科的方案。

（4）君正：推出与微纳感知计算深度合作的X1800芯片产品，是一款支持四麦克风阵列的解决方案，支持软件降噪和消回声处理，目前已经在小辣椒S1和百度产品上落地。

图5 搭载X1800的小辣椒S1音箱

（5）全志：R16采用了极具性价比的四核ARM Cortex-A7架构处理器，具有强大的运算性能和丰富的接口；支持基于Linux的开源系统Tina（全志自己开发的系统），目前被叮咚音箱、小爱mini等产品采用；同步推出的R311，内置了完整的降噪算法，并支持带屏音箱的方案，降低了产品公司的开发难度。

图6 全志R16/R311芯片

（6）瑞芯微：RK3229基于Cortex-A7四核，支持4-8Mic。在语音算法上，支持声源定位、声源增强、回声消除、噪音抑制技术。RK3229还是率先支持8路数字I2S数字硅麦直连的芯片方案，不仅大大节约成本，而且兼容不同麦克风阵列算法及平台。

图7 瑞芯微RK3229芯片

2.2 语音算法技术公司

代表性公司是科大讯飞、云知声等一直对外提供语音处理算法和语音识别引擎服务的技术公司。

云知声Unione：内置了神经网络算法和加速器，可以实现包括声源定位，回声消除，语音唤醒、离线识别、声纹识别等功能，具体量产的时间待定。

图8 云知声Unione

2.3 人工智能初创企业

代表性公司是微纳感知、启英泰伦、Rokid、声智科技等

（1）微纳感知：提供从软核算法、芯片模组、到声学设计的一站式声学解决方案公司。目前已经与君正联合推出X1800智能音箱方案，与杭州中天微联合发布CK805轻量级AIoT处理器。同是自主智能语音芯片方案设计已经完成，第四季度完成投片，该芯片集成了AD、DSP和神经网络加速模块，可以实现2~8麦阵列的远场拾音、唤醒和打断、降噪和回声消除等功能。

图9 微纳感知智能语音芯片简介

（2）启英泰伦：是一家专注于人工智能芯片设计及配套智能算法引擎开发的公司，它于2016年9月推出了专用的深度神经网络智能语音识别芯片CI1006，并已实现了量产和出货。

图10 CL1006芯片架构

3. 智能语音芯片的应用场景

（1）车载

由于人在车内双手和双眼被占用，而需求又十分明确，因此智能语音成了这一场景下最合适的交互方式。智能语音在车内的应用主要以车载导航为主，辅以查询和进行简单的命令控制。因此当智能语音芯片成熟之后，搭载该类芯片的智能后视镜、智能中控、智能导航类产品将迅速问世。

对于业界热炒的“以语音为入口连接各种服务，从而构建车联网生态”的畅想，目前看来还距离较远。核心困难在于，整个行业尚未找到车内场景下用户的刚性、高频需求。或许等到自动驾驶汽车普及之后，人的双手双眼以及大脑解放出来，才有条件搭建包含各种服务的车内生态。

图11 车载语音交互系统

（2）智能家居/智能音箱

在家居场景下，智能语音应用主要围绕智能电视、音箱、家用机器人展开，解决的需求包括搜片、听歌、提醒、简单交互、应用调取等。

家居环境的天然特性使得语音成为最合适的交互方式，类似于智能音响这样的平台将吸引越来越多的应用，不断丰富其产品功能，完整智能家居生态环境。随着用户习惯不断养成，这样的“智能家居控制中心”和“流量入口”有望快速普及，成为爆款。不过，由于语音是一种全新的交互方式，除了技术所需的提升，各类应用在开发设计时还将面临用户体验和价值考量等全新挑战。

除了音箱、台灯等小家电智能产品，家用机器人也创业者和投资人争相追逐的对象。最终哪种形态的智能产品会让笑到最后，还得看消费者买单的意愿，但语音交互会成为智能家居主流技术这一点，已经毋庸置疑。而搭载语音交互技术的智能语音芯片无疑会成为各大厂家快速开发产品最好的选择。

图12 亚马逊echo系列智能音箱产品

（3）安防监控

目前的安防监控摄像头以获取高清晰度的画面为主，在语音的采集、分离和识别方面需求尚处于萌芽状态，但随着反恐防暴、公共安全等领域面临新的挑战，在多麦克风阵列支持下进行远距离高清晰音频数据的采集、噪声和混响的抑制等会逐渐列入安防产品的需求目录，因此支持此类功能的专用智能语音芯片也将会逐步集成到安防摄像头产品中。

4. 智能语音芯片的未来趋势

（1）实现边缘计算

目前除了语音唤醒及前端的音频处理可以在本地实现之外，复杂场景的语音识别、语音交互和实时翻译等都必须连接云端的服务器来完成。未来当芯片算力足够，完全可以实现全部语音处理流程都在片上运行，而无须依赖云端和网络，在保证用户数据隐私的同时拓展更多的移动端应用。

（2）能够兼容多种神经网络框架

目前的智能语音芯片一部分是依赖传统的数字信号处理算法，一部分是利用RNN/CNN等神经网络算法进行数据处理，未来可能出现更多类型的神经网络算法，满足各种语音交互的场景，而这些算法都能够被同一颗智能芯片所兼容，在不同的情况调用不同的网络来满足客户需求。

（3）低功耗，小体积

目前的各类语音芯片因为功耗和体积的问题，无法大规模应用于可穿戴、玩具、无人机等不通过电源供电、硬件空间及其有限的设备，如果能够解决这些问题，那么语音交互将能够深入到更多的行业，落地更多的产品。

文章来源：深圳微纳研究院

这里是声学楼

微信公众号：acousticsblock

微信二维码：

【声明】内容源于网络

声学楼论坛

“声学楼”创办于2005年，致力于促进声学领域技术交流与应用。历经多年发展，声学楼已从一个单纯声学工程师交流平台，成长为音频企业上下游多方参与音频技术专业论坛之一，每年还通过举办技术研讨会、年会等活动，搭建起与会的行业供需双方沟通的桥梁。

内容 3422

粉丝 0

声学楼论坛 “声学楼”创办于2005年，致力于促进声学领域技术交流与应用。历经多年发展，声学楼已从一个单纯声学工程师交流平台，成长为音频企业上下游多方参与音频技术专业论坛之一，每年还通过举办技术研讨会、年会等活动，搭建起与会的行业供需双方沟通的桥梁。

总阅读2.6k

粉丝0

内容3.4k