伴随着汽车行业智能化、网联化的快速发展、深入,底层技术的不断完善,语音交互的热度也不断飙升,其在车载场景中的应用也变得越来越必不可少,那么车载语音交互到底是怎样的?今天小编就和大家分享一些语音交互的相关知识。
视频来源:理想智造
语音交互(Voice User Interface),即用户与系统说话,是基于语音输入的新一代交互模式,通过人类最亲切、自然的交流方式——说话,得到一系列反馈的结果。
语音交互的实现原理为:判读—识别—理解—处理生成的情感化语言—反馈给用户。(如下图)
语音识别(ASR):通过听取用户发出的声音,将其转化为“文字”,着重对用户发出的声音进行识别和优化。
语音理解(NLU):是机器尝试理解文字,是识别中的一种状态,也是整个语音交互过程中最难最核心的一部分。
语音合成(TTS):简单来说,就是把识别后生成的“文字”转换成“声音”,也是用户能真正感受到“人性化”的一面,需要在其中添加多种丰富的话术,才能使合成、反馈出来的内容令用户耳目一新,凸显出产品的价值。
综上,语音识别、理解、合成这三个环节共同决定了语音交互的体验,任何一个环节如果有明显的缺陷都会导致整个语音交互的满意度降低,所以它们三者缺一不可。
在驾驶环境中,当用户双手双眼都被占用,为了降低对车内设备的操作依赖,保证驾驶安全,使用户更专注于路况,语音交互成了最佳的选择。如车辆需要加油了,想查询周边的美食、酒店,想听音乐或打电话给好友时,使用语音交互不仅可以保证驾驶安全,还可以减少层级的操作,快速响应用户的需求。
图片来源:汽车之家

图片来源:汽车之家
以下是在驾驶场景中用户常用的语音交互功能:
综合驾驶场景可以发现,语音交互的使用有利也有弊,其最大的优势在于能更直观的带给用户情感化的体验,可以大大降低用户的学习成本。但是为了保证用户的隐私,它的使用场景也是有限的,不适合在公共场所以及嘈杂的环境中使用。
安全:驾驶过程是眼、手、耳并行的多任务操作状态,在双手被占用的场景下,不需要繁琐的操作app,使用语音交互可避免分散驾驶者的注意力,保证驾驶安全。
快速便捷:学习成本低,能快速响应,流程简单,路径明确,最大限度的减少每个任务的对话数。
传递情感:语音交互的声音采用了人们常用的语言,声音愉悦欢快,对话自然流畅,能快速响应并反馈结果。

图片来源:Dribbble
接下来,就和大家分享下在汽车领域中语音交互做的比较出色的典型案例:
-
蔚来ES8 NOMI
蔚来ES8 NOMI,它在强大的车载计算能力和云计算平台支撑下,集成了语音交互系统和智能情感引擎,第一次让车从一个机器,变成一个有生命、有情感的伙伴。
NOMI被称为车内“第二个心脏”,具有非常丰富的情感,并善于表达。它能感知天气情况,有雾霾还能帮你把车内空气净化好,甚至可以帮你自拍。NOMI还会根据使用情况,深度学习并逐渐变得更加贴合用户的生活习惯。

荣威RX5斑马2.0语音系统
斑马2.0语音系统,相对于上一版本回应更加快速,支持免唤醒,不需要在“你好斑马”之后等待其反应。此外,还支持多轮对话模式以及前座的声源定位,并判断主副驾驶用户位置,谁唤醒谁控制。若用户多次跟同一台车的斑马系统交流,识别和反应速度会逐步提升,甚至能听懂个别带方言的句子。

图片来源:汽车之家
从蔚来和荣威的案例中我们可以发现,目前主流的语音交互能识别反馈大部分人类的指令,但离全智能自动化还有长远的距离。所以小编认为语音交互未来的趋势可能有以下方面:
1、多功能智能化
从单一功能指令到多功能模块同时为一个或多个需求服务。其实,用户的需求往往都是非单一的,而是多任务的聚合,并且需要多设备之间的联动。举个例子,比如用户说:“起雾了”,在未来可能执行的是:a、打开雾灯—b、打开热成像探测,显示周边热能物体—c、感应雨刷灵敏值上调,打开各镜面除雾功能等或者更多未来的科技,此时就从单一的指令上升到多功能的需求被满足并执行,从而让你感受到更加智能化。
2、实时信息化
能告知与你相关的周边实时发生的信息,比如说当你想进入某个大厦的停车时,自动告知你剩余的停车位,选择哪一个停车位等。此外还能预测并自动帮你规避潜在的风险,保证驾驶安全。

