

AI NEXT大会观察：如何让AI在语音识别之后理解更多语意

新译信息科技

2017-03-23

导读：语音识别错误率的大幅降低依然处在人工智能的初级阶段，目前行业还在感知向认知的过渡阶段。

微软全球技术院士、语音研究首席科学家黄学东在AI NEXT大会现场发表演讲

文 / 腾讯科技纪振宇（发自硅谷）

“我是中国人，但博士是在苏格兰念的，所以我的口音是中国苏格兰英语。”黄学东的这番开场白迎来全场一片笑声。

这位在微软研究语音识别技术超过20年的专家，在西雅图举办的AI NEXT 讲台上对自己的语音识别技术信心十足，他一边通过麦克风快速地用他“中国苏格兰口音”的英语演讲，微软语音识别系统一边自动将他所说的话用文字形式实时呈现在大屏幕上。

尽管过程中不时出现一些词句上的错误，但从整个系统的流畅性和识别率来看，已经足以让在场的很多业界专家为之惊叹。

黄学东的这份自信来源于他超过30多年对语音识别技术领域的潜心研究。去年9月，一项发布震惊了整个业界：微软对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率低至6.3%的突破，创造了该领域错误率最低纪录，仅一个月后，该纪录又进一步下降至5.9%，而这一套系统正是由黄学东所领导的团队所开发。

这一创纪录的突破背后，是深度神经网络技术的应用，归功于大规模、分布式运算所提供的强大运算能力。

然而黄学东认为，语音识别错误率的大幅降低依然处在人工智能的初级阶段，目前行业还在感知向认知的过渡阶段。

“下一步大的任务是认知，即对语音、语义的理解。”黄学东对腾讯科技表示，“未来如果能够真正理解人类的语言，才是人工智能最强大的时候。”

今年初，黄学东被评为代表着微软技术人员最高荣誉的“微软全球技术院士”，目前，他还在为自己所领导的团队招兵买马，为实现自然语言理解这一里程碑式的突破而继续努力。

而对于已经将语音识别技术产品化并成功推向终端用户的亚马逊来说，大量的数据已经成为他们未来进一步优化技术的重要优势之一，亚马逊Alexa首席科学家及创始团队成员Nikko Strom在当天的活动上称，全球数以百万计的含有Alexa的硬件产品收集的语音训练数据，已经相当于一个16岁的人所听过的所有语音（约14016小时）。

Strom表示，亚马逊将这些大量的数据放到AWS上进行训练，并即时对Alexa系统的准确性和识别质量进行不断优化。根据RBC的一份调查数据显示，Alexa设备销售额到2020年将会达到50亿美元。

对于语义的理解，Strom称，Alexa目前虽然还不能从人类的语音中获知情感因素，但可以间接通过所说的话来捕捉背后的“情感”，例如某些话本身的语义是带有情感的。在语音识别和语义理解方面，Alexa目前有超过100个科学家对此进行研究开发。

除了在语音识别方面深度学习技术已经被广泛应用之外，实际上对于众多科技公司而言，人工智能技术已经成为此前众多业务的核心驱动力。

Uber深度学习团队总负责人Luming Wang 对腾讯科技表示，Uber内部的人工智能平台，已经在为Uber的各项业务提供支持和优化，包括线路的优化、如何定价、甚至涉及到资金在不同业务之间使用的效率优化等。

“深度学习在Uber几乎是无处不在了。”Luming Wang 说。

对于亚马逊来说，人工智能的应用也十分广泛，尽管内部目前并没有一个统一的人工智能部门，但是在不同部门内部，人工智能技术运用于本部门业务的研究都在近期大力推进中。亚马逊电商部门一位大数据研究人员对腾讯科技表示，在电商部门，人工智能的应用主要是为用户更精准地推荐商品，以及对用户的购买行为作出更好的预测解释等。

【声明】内容源于网络

新译信息科技

新译科技以多模态机器翻译技术为驱动，通过智能编辑平台，连接全球语言服务商和企业级翻译需求，解决全球B端企业语言沟通问题。公司当前与全球合作的翻译组织和机构共同为客户提供全场景的文本及音视频翻译解决方案，助力企业客户将翻译融入日常工作流。

内容 493

粉丝 0

新译信息科技新译科技以多模态机器翻译技术为驱动，通过智能编辑平台，连接全球语言服务商和企业级翻译需求，解决全球B端企业语言沟通问题。公司当前与全球合作的翻译组织和机构共同为客户提供全场景的文本及音视频翻译解决方案，助力企业客户将翻译融入日常工作流。

总阅读309

粉丝0

内容493