声加科技邱锋海先生在今年声学楼十三周年会预测机器听觉将仿生人耳两颗传声器阵列或是终极- 大数跨境

声加科技邱锋海先生在今年声学楼十三周年会预测机器听觉将仿生人耳两颗传声器阵列或是终极

声学楼论坛

2018-11-02

导读：声加科技邱锋海先生在今年声学楼十三周年会预测机器听觉将仿生人耳两颗传声器阵列或是终极

10月27-28日，一年一度的中国声学领域技术交流盛会 “声学楼13周年年会暨中国音响行业白皮书发布会”在深圳市南山区金百合大酒店隆重召开。本次大会以“砥砺奋进，行稳致远”为主题，邀请了中科院声学所、万魔声学、科大讯飞、小米科技、猫王收音机、楼氏电子等院所和企业的60余位行业大咖，与来自全国各地的知名专家学者、行业著名企业家、资深工程技术人员、年轻一线工程师等1500余人分享了31场深度技术垂直的议题报告。

来自全国各地的技术人员前来参会

座无虚席的大会现场

其中，在27日下午的特邀专题报告里，北京声加科技CEO邱锋海受邀以《声加万物、聆听未来：智能语音交互应用和技术》为题，分享了目前正在爆发的智能语音交互市场中的各项明星产品和其技术链条。并在演讲中详细分析了声学前端技术所面临的挑战与机遇：如在百花齐放的新生市场里，智能音箱的“去插电化”、减少麦克风组成的阵列、更灵活的唤醒词训练及生成和智能耳机的尺寸更小、各类型传感器数据融合以及更低功耗的唤醒等。

声加科技CEO邱锋海主题分享《声加万物、聆听未来：智能语音交互应用和技术》

邱锋海表示，10万年前，语言的出现大大加速了人类社会进化和发展的进程。时至今日，听和说依然是人类最基本、最常用和最灵活的交流方式，同时也是最好的人机交互方式。在经历了计算机命令式交互到图形界面触摸交互，再到信息时代/高级信息时代的自然交互、和情感交互……毫无疑问，语音交互将会成为泛在的人机交互方式。

事实上，语音识别技术的研究可追溯到上世纪50年代，从单一模式匹配到70年代的模式和特征分析，再到90年的统计方法(HMM+GMM)，直到2010年后，深度神经网络(DNN)取得了巨大的成功，基于DNN技术的应用也呈爆炸式增长。同时，语音识别、自然语言理解、语音合成性能等技术大幅提升，互联网、移动互联网的高速发展也为算法引擎提供了大量的数据“粮食”。在海量的数据红利下，云端计算软硬件系统的算力增长使其能够快速处理海量数据，再加上边缘计算的能力增强、功耗降低等因素，语音交互的“基础设施”已逐渐成熟。因此，智能语音交互应用的兴起也就顺理成章。

然而，尽管语音识别在这几年里得到迅速发展，但是目前业界声称的“语音识别准确度达到了90%以上”(Google在2017年6月声称已达到95%的准确率)其实是实验室数据。“非纯净条件下”的现实生活里，这个准确率则降至50-70%，甚至更低。

智能语音产品从人到机器完成一次语音交互，需要经过四个主要的技术环节：语音前端处理、语音识别(ASR)、自然语言理解(NLP)以及语音合成(TTS)，即从声音的拾取到转换成文字，到理解其含义并作出反馈，再到将反馈说出。其中语音前端处理属于客户端，后三者则为云端。经过多年的技术积累，语音识别和语音合成已经获得突破，基本可以满足商用。而语音前端处理和自然语言理解依然是语音交互的核心瓶颈。

来源：北国网

这里是声学楼

微信公众号：acousticsblock

微信二维码：