大数跨境
0
0

阿里云ET智能语音如何提升识别准确率?| 小斑解毒2.0(六)

阿里云ET智能语音如何提升识别准确率?| 小斑解毒2.0(六) 斑马智行
2018-01-29
1
导读:这一期我们来详细说说语音识别准确率的问题。

后台很多用户向小斑反馈,什么时候说说关于切换语音引擎之后语音识别准确率方面的问题。


小斑觉得这个属于用户强感知的体验,所以需要针对语音识别率的问题单独开一篇给大家好好的做个介绍。


说起这个技术,小斑必须还要再安利一下去年阿里云ET在语音识别方面的一些小小的成绩:



1、2017年12月5日,阿里巴巴、蚂蚁金服和申通地铁集团联合推出新一代售票机,可以让乘客用语音交互的形式买票,具有指定站名或票价购票、目的地模糊搜索购票等功能。也就是说,站在机器旁,你只需要告诉它「我要去中山公园」,它就会自动调用云端的高德地图服务,确定目的地最近的地铁站后直接出票。


2、在2016年的阿里云年会上,来自阿里iDST团队的“实时语音识别系统”对战常伴马云身旁的金牌速记师姜毅,分别给出演讲的文本内容,同时投屏,现场PK正确率。双方PK了7分50秒,“实时语音识别系统”最终以0.67%险胜。


3、2016年6月7日上午,西湖区人民法院作为浙江高院智能语音识别系统试点,完成了首例庭审语音同步转化为文字并生成庭审笔录的案件,准确率达96.2%


这三个语音识别方面的成绩,已经对阿里云ET智能语音在实际使用中的表现展现的比较全面。前几日,支付宝已经开始全面支持上海地铁进出站的支付服务,上面看到的全新一代的语音售票机应该也会不日同大家见面。


语音识别技术作为AI人工智能的基础技术在这两年已经逐渐的在一些民生、政府机构、商业等多领域崭露头角,一时间可谓风光无二,现在看来,人工智能目前落地最成功的就是语音识别技术。


虽然像苹果“siri”这样的语音识别产品早已名噪一时,但其实由于很多人都有“对着手机说话有点智障”的想法,这也直接导致了这个产品的日常使用率不高,我们在网上看到的热炒也仅是昙花一现,更多人使用手机还是更相信自己的手和眼。



但语音控制在汽车上的应用并没有这么一边倒的倾向。由于对汽车行驶安全方面的考虑,当驾驶者进行一些手动操作时,势必会对驾驶者的注意力有一些影响,这时,语音控制的重要性在汽车上的应用就会变得越来越很重要。


开车时,“能用说的,绝不动手!”


这就是为什么智能语音引擎对车载操作系统日益重要的主要原因。而对车主来说,日常中感知最强的就是“语音识别准确率”这个概念。他说的话能马上通过语音引擎的识别功能反馈给系统并执行操作,这种体验才是极致的。


但是在行业端,“语音识别准确率”从来不能割裂在交互应用场景之外!



也就是说,实际上语音识别是一个强场景化的技术,而脱离场景谈识别率,就是“耍流氓”。


这也行业内在看到某某公司说到“XXX产品识别准确率高达99%,识别准确率比肩人类”时,总会报以神秘微笑的原因。



语音识别是人机交互的技术基础,主要解决让机器听清楚人类在说什么。早在1970年代,IBM沃森实验室的弗雷德里克·贾里尼克(FrederickJelinek)就提出了语音识别框架:声学模型语言模型


语音识别在近年中最重大的突破之一,就在于引入了深度神经网络技术。也就是通过大量的语音数据,训练出高精度的声学模型和语言模型,从而提升识别率。


浅层神经网络方法,是提取语音的特征,识别率比较低。


这里面有个很好的例子,比如说在通过语音识别来时时展示演讲者内容的时候,语音识别功能目前对断句,标点符号的用法,方言口语等。甚至也不能去除多余的语气词“嗯、啊、哦”等;有些嘉宾多次重复某些话,智能语音识别并不能判断这些多余;同音词的问题也非常重要,语音识别如果进提取语音的特征的话,不完全能能通过上下文判断同音词的使用;但人工速记发现记录中的错误,就能寻回并改正。这就是语音识别的难点所在。


另外一个例子,在2016年的云栖大会上,对现场的演讲的语音识别准确率达到了95%以上,但如果现场再安排一个特殊领域的专家来演讲,比如天文、医疗、艺术等,这个语音识别准确率就很难达到很好的效果。不仅因为仅提取语音特征来进行识别这个能力无法实现。对现有语言模型在专业领域的知识积累也完全不够


这些例子都指向了一个问题——要把语音技术在各种领域普及开来,能快速针对不同场景进行模型调优定制变得非常重要。


说了这些,相信大家对语音识别准确率的场景实现已经有基本的认识。那么接下来我们看看阿里云ET智能语音在技术方面有什么解决办法。



在2015年的时候,阿里第一个上了latendy controlled的BLSTM模型(双向长短时记忆神经网络),叫LC-BLSTM模型,这个东西学术界研究比较多,但是工业界第一个上线应用的应该算是阿里云。


传统BLSTM模型很慢,必须要等到一句话说完了才开始去做解码,得到结果,就造成说完这句话后要等很久才能拿到结果,这当然是坏处,但为什么大家还是那么着迷呢,因为好处是精度特别高,准确程度高。阿里云ET智能语音做的工作就是能够把识别的延迟降下来,使得它能够在边说话就边解码,而不是像以前一样,要等到这句话结束后才能够进行解码,达到一个既快又好的效果。


原来语音识别的帧率大约是100帧每秒,每秒钟要计算100个frame,运算量不容忽视,所以阿里云ET智能语音有一个方法叫Low frame rate,把100帧每秒的速率,降到三分之一,相当于同样是1秒钟的语音,处理起来只有原来运算量的三分之一。同时可以保证比以前更好的识别速率。


作为阿里云ET智能语音在汽车产品端首个语音解决方案,大家在应用中有些人觉得识别准确率有待提高,这主要是因为其在完成了模型的基础训练之后,还会进入语音识别系统的解码引擎。


解码引擎的工作是在一个巨大的网络里进行搜索,这个网络由数亿节点及弧组成,并且里边已经糅合了训练好的声学模型和语言模型信息,搜索出来的最优路径上所携带的信息就是对应的语音识别结果了。



语音识别应用推广的另一短板表现在场景数据的获取。场景是用户群体、语言风格、语音信道、使用环境等综合性的描述。阿里巴巴iDST语音组高级专家鄢志杰在一次采访中表示:“正常人际交流情况下,机器语音识别错误率超过15%甚至30%,而一些公司宣传的机器识别准确率过高,速记员都达不到这一水平”。


中文语法的随意性很大,还有场景中的方言、口音等因素,解决这一问题的方法主要是靠数据训练模型,这需要一个很大的数据库,而且需要具备不断学习积累的能力。


在现有的情况下,机器有多少智能,背后一定赋予了多少人力投入。目前学习的成本很高,需要通过识别全国各地的各种口音方言等数据,并通过半人工的形式把发音和文字一句一句进行对应匹配,变成机器可以识别的熟数据,这样才能交由机器去学习。这样的工作阿里云ET智能语音方面一直在进行,很多斑马用户也在问什么时候可以识别地方方言?相信很快会推出滴,大家拭目以待吧。


阿里巴巴技术委员会主席王坚博士对产品有这样的总结:“阿里云语音技术的突破,在于我们充分利用了云计算和大数据平台的能力,在不到两年的时间,完成了通常需要 20 年或者更长时间积累的工作,构建出强大的基于模型、数据和计算能力的学习系统”。



语音识别通过汽车端的应用场景来完整展现,还有很多相关的场景化数据模型需要完善,但这并非大家口中所谓的“半成品”,而是一个伴随你一起成长的伙伴,它会通过学习、积累完成自我的进化。随着越来越多智联网汽车的用户通过OTA空中升级的形式升级斑马智行2.0,阿里云ET智能语音的使用频率也会越来越高,随着数据累积的不断增加,通过自我的学习和进化,语音识别准确率也会不断增高。可以说,这个进化的“军功章”里,也有各位车主的一半哦。


功能介绍

01

2.0新功能

蓝牙

语音

视频

智慧停车

违章查询

社区升级

外接设备

什么是OTA


02

2.0再升级


升级指南

功能升级

升级问题


问答

智慧停车

安驾优享

语音指令

社区说明

升级问题


建议反馈

智慧停车

2.0升级

智能语音

2.0使用



你想了解的智联网汽车在这里

还有一切有趣的事儿……

【声明】内容源于网络
0
0
斑马智行
斑马智行是领先的汽车操作系统与人工智能科技公司,拥有自主研发的整车智能OS技术和座舱AI技术。
内容 803
粉丝 0
斑马智行 斑马智行是领先的汽车操作系统与人工智能科技公司,拥有自主研发的整车智能OS技术和座舱AI技术。
总阅读413
粉丝0
内容803