对许多人来说,这样的体验已不再新奇:拿起手机对着搜索栏,说出自己想要搜寻的条目,立刻就会显示出你想要的条目;想找一首歌,但忘记了歌名、歌词,不要紧,哪怕只记住其中一小段旋律,打开百度MP3网页,可以通过哼唱的方式,搜索到自己想要的歌曲……语音检索,已成为方便的人机交互手段。
而常州人颜永红,在全球这一领域有着权威话语权。腾讯、百度、阿里巴巴等众多知名网站的语音识别系统,都是他及团队的杰作。
2002年11月下旬,国内众多媒体发出了这样的新闻:曾任英特尔中国研究院院长、首席研究员的颜永红和麾下的6位科研人员,先后集体“跳槽”来到中科院声学研究所,组建了平均年龄只有30岁的科研团队——中科信利语音实验室。
因为英特尔是跨国大公司,更因为从英特尔先后“跳槽”的,不仅是颜永红一个人,而是曾跟随过他的一个团队,其轰动的新闻效应自然不言而喻——著名跨国大公司从国内“挖人”,已经见惯不惊,但这次却是个完全的反例。甚至有媒体以这一事件为切入口,讨论跨国企业的用人战略调整等等。
这么大的动静或许是颜永红没想到的。
其实早在2001年4月,颜永红就离开英特尔中国研究中心,回到美国俄勒冈研究院工作了一段时间。“因为我太太和孩子都在美国,田静所长当时和我谈的是每年回国工作3个月,后来事情太多,我就基本上全年都在国内了,所以说,我是一步一步走回来的。”颜永红颇有些调侃地说。
如今,他一手创办的中科院声学所中科信利语音识别实验室,已发展成为国内语言声学领域规模最大、学科最全的实验室,与实验室同时成立的中科信利技术有限公司也取得了长足的发展。
很多人都看见过这样的场景:周杰伦在演唱会现场,用声、光、电技术虚拟出邓丽君,“两人”演绎了一场完满的跨时空对唱。类似这样的虚拟视像演出中,颜永红他们研发的智能语音技术发挥了重要作用。
回国后,颜永红和他的年轻团队获得了大量专利和4项软件著作权。其中许多已经被国人广泛使用。其研发的嵌入式语音软件被应用在了手机上,这就是大家比较熟悉的语音拨号。“有些人的手机里存了几百上千个电话号码,找起来很麻烦,安装这一软件后,只要对着手机叫出对方名字,即可调出他的资料。”颜永红介绍道。这个嵌入式语音软件支持语音拨号、命令控制、来电短信提醒、语音读出短信、连呼数字拨号等功能。此外,他们还开发出基于分布式集群架构的语音处理平台TSE。
在此之前,电信级语音识别引擎技术完全被美国公司垄断,“但现在我们完全有底气说,我们占据了大半壁江山。”确实,在国内,真正能够将语音识别产品拿出来,放在电信网上规模使用的,也只有他们研发的产品。
目前,他们研发的中文电视广播新闻节目识别系统,已经被多家公司采用,并成为其提供给全国各电视台的数字媒体管理系统中一个核心技术模块。当系统“收听”到一段“新闻联播”节目,自动将节目内容生成文字,识别准确率惊人地高。
在他的语音识别实验室里,视频精确搜索已不是问题。在一段王楠比赛的视频中,你只要输入“侧身抢拉”、“前三板”等关键词,就可以找到精确到秒的视频。这就意味着,如果你想找一部电影里的精彩片段,只需记得其中的经典台词即可搜索。现在,他们的语音技术已经应用于中国电信、中国网通、中国移动、淘宝等多个语音呼叫服务上;他的实验室,语音识别技术在国内多次获得第一名,音乐检索技术在世界音乐搜索组织(MIREX)评测中连续4年获得第一名;他提出的多识别器前端,多特征应用和后端信息融合算法,在美国国防部和标准局举办的年度比赛中两度夺魁。
虽然现在的收入与在英特尔时比少得可怜,但这位世界级语音技术专家,对自己的选择却依然充满信心。
他已经过了要勤奋的年纪,但对他而言勤奋已成为一种态度。早上不论多早,晚上不论多晚,人们都能在语音实验室的大楼看见他忙碌的身影。
内容转载至《常州日报》
声明:本公众号转载此文章出于非商业性的教育和科普目的,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载文章涉及版权等问题,请立即联系我们,我们会予以更改或删除,保证您的权利!

