
最近,身边很多人表示自己:“蓝瘦、香菇”——加班了...“蓝瘦”(难受)、饿了...“香菇”(想哭),吃太饱了看一看腰围...“蓝瘦+香菇”!
总之就是世界那么大,我咋没人聊?《生活大爆炸》里的Raj买了个智能手机,和语音机器人每日“谈星星、谈月亮、从诗词歌赋谈到人生哲学”,最后他告诉Sheldon:“I bought my soulmate from central square.(我在中央广场买到了一生的灵魂伴侣。)”
但当你想在语音识别机器人上找温暖找存在时:
👦:幺妹儿(姑娘),帮我qio一哈边边上有撒子吃的(帮我看看旁边有什么好吃的)?
🤖:抱歉~我听不懂你在说什么?
或者
👧:“蓝瘦、香菇”...介个世界肿么酱紫?
🤖:本机暂不支持该项服务
......
除了更加“香菇”,你还会为自己独特的口音对机器人感到抱歉(对母鸡,让你为难了...),果然真能理解各种人类语义的机器人只能存在影视剧里吗?
这周,就出现了一个新闻回答这个问题:

一个月前,2016年9月14日,微软的对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率(word error rate, 简称WER)低至6.3%的突破 ,创造当时该领域内错误率最低纪录。
一个月后,10月18日,微软进一步将词错率降低至5.9%,首次达成与专业速记员持平而优于绝大多数人的表现:上周末,微软人工智能与研究部门的研究员和工程师在论文中展示了他们这一创纪录的语音识别系统。
这5.9%的词错率是什么概念?
在行业标准Switchboard语音识别任务测试中,人类对照组(由专业速记员组成)将对话语音转录成文字,目前有记录的最低词错率就是5.9%,这就意味着微软的语音识别系统的语音识别能力已经高于世界上绝大多数人而与人类专业高手持平,创造了一项新的世界纪录。
更加令人兴奋的是,从6.3%到5.9%,微软人工智能与研究部门只花了一个多月的时间。Word 哥!计算机真正超越人类语音识别能力那一天看起来已经不远了。
接下来,我们和机器人也许就可以这样对话了:
👦:幺妹儿(姑娘),帮我qio一哈边边上有撒子吃的(帮我看看旁边有什么好吃的)?
🤖:表乱喊(别乱叫),我是儿娃子(我是男孩子)!
或者
👧:“蓝瘦、香菇”...这个世界肿么酱紫?
🤖:妹子,世界这样子有可能就是因为你不好好说话!


微软首席语音科学家黄学东博士表示:
在对话语音识别中,我们已经实现了和人类同等的水平,这是一个历史性的突破,意味着有史以来第一次有计算机能像人类一样识别对话中的每一个单词。并且,我们团队花了不到一年时间就实现了这个目标,这远远超出大家的期望。”
就连负责微软人工智能与研究部门的微软全球执行副总裁沈向洋博士也笑言,“要是在五年前,我是绝对不敢相信我们可以实现这个目标的。”
针对语音识别的研究可以追溯到上个世纪七十年代DARPA(Defense Advanced Research Projects Agency,美国国防部先进研究项目局,主要致力于美国国防高新技术的研究、开发和应用)资助的一个相关项目。此后几十年,越来越多研究机构和大型公司陆续加入其中。
“这次突破是过去二十多年语音识别技术不断积累的结果,”微软主管语言及对话研究组的研究员Geoffrey Zweig称。
此次语音识别的里程碑式突破将对消费者和商业产品产生深远影响,因为语音识别技术能够显著增强人们的日常计算体验。
这些产品包括像XBOX的娱乐设备、像微软小娜(Cortana)的生产力工具以及能实现实时语音到文本转录的个人人工智能助手。


