(智业人微信公众号:zoesoft,猛击关注)
1988年最重要的科学发明
瑞迪教授从美国国防部得到了300万美元的经费做不特定语者、大词库、连续性的语音识别。也就是说,他希望机器能听懂任何人的声音,而且可以懂上千个词汇,懂人们自然连续说出的每一句话。这三个问题都是当时无解的问题,而瑞迪教授大胆地拿下项目,希望同时解决这三个问题。他在全美招聘30多位教授、研究员、语音学家、学生、程序员,以启动这个有史以来最大的语音项目。而他也期望我在专家系统方面继续努力,得到突破,在这30多人的队伍里面发挥作用。
但是,他怎么也没想到,我正想着如何脱离这个30多人的队伍,脱离专家系统的研究。奥赛罗的人机博弈,让我对统计概念有了充分的理解,我开始相信,建立大型的数据库,然后对大的语音数据库进行分类,就有可能解决专家系统不能解决的问题。
我决定鼓足勇气,向瑞迪教授直接表达我的想法。我对瑞迪说:“我希望转投统计学,用统计学来解决这个‘不特定语者、大词汇、连续性语音识别’。”瑞迪一点都没有生气,他轻轻地问:“那统计方法如何解决这三大问题呢?”这正是我思考很久的三个问题。然后,我就长篇大论地说了十分钟,瑞迪教授耐心地听完我激情的回答后,用他那永远温和的声音告诉我:“开复,你对专家系统和统计的观点,我是不同意的,但是我可以支持你用统计的方法去做,因为我相信科学没有绝对的对错,我们都是平等的。而且,我更相信一个有激情的人是可能找到更好的解决方案的。”
在导师的支持下,我开始了疯狂的科研工作。我每天上午8~9点起床,到学校完成自己必须做的课业、助教等工作,中午回家,从中午1点工作到凌晨2~3点,一星期有6天都是如此,只有星期天是承诺妻子的“休息日”。就算星期天,我也会多次上机去看看我的实验是否在跑。一天18个小时,一周100多个小时,我坚持了三年半。
在1986年底,我的统计系统和他们的专家系统达到了大约一样的水平,40%的辨认率。这虽然还是完全不能用的系统,但毕竟是学术界第一次尝试这么难的问题,大家还是比较欣喜和乐观。1987年5月,我们大幅度地提升了训练的数据库,我又想出了一种新的方法来建模,不但能够用统计学的方法学习每一个音,而且可以用统计学的方法学习每两个音之间的转折。针对有些音的样本不够,我又想出了一种方法来合并其他的音。这三项工作居然把机器的语音识别率从原来的和40%提高到了80%!
虽然识别率实现了跨越式的前进,但是我一直在问自己,80%的语音识别率有没有可能提高一步?我回到了自己租住的小屋里,继续做着各种试验和统计,希望有一天语音识别率能够“更上一层楼”。每一天,我几乎都是困到无法撑开眼皮才睡。
奇迹在某一天早上发生了,当我睡眼朦胧地开始敲程序的时候,忽然发现语音识别率一下子提高到了96%。“天啊!我是不是还在做梦?”我揉了揉眼睛,不敢相信。我赶紧把程序重新敲了一遍,发现语音识别率果然提高到了96%呢,一股巨大的幸福的眩晕感觉涌了上来。在昨天晚上的一个程序中,我只改写了一些细节,没有想到,正是对这些细节的修改,让我的研究成果取得了突破性的进展。
我给系统取了名字,叫做Sphinx(斯芬克斯,希腊的人面狮身)。希腊的人面狮身有人的脸孔、狮子的身体、鸟的翅膀,我取这个名字是希望狮子的身体代表宏伟的统计模型,人的脸孔代表人的语音知识,鸟的翅膀代表系统的速度。在世界语音学术会议上,我把96%的语音识别率发表了,也演示了Sphinx系统。结果就像瑞迪教授所预期的,学术结果和演示效果相映之下,我的成果撼动了整个学术领域。这是计算机领域里最顶尖的科学成果了。语音识别率大幅度提高,让全世界语音研究领域闪烁出一道希望的光芒,从此,所有以专家系统研究语音识别的人全部转向了统计方法。
会后《纽约时报》听说了这个成果,派记者约翰·马可奥夫来到匹兹堡对我作了采访,文章发表于1988年7月6日,占了科技版首页的整个半版。在这篇文章里,马可奥夫大力报道了我的论文的突破。当时,我只觉得在和个和蔼可亲的记者聊天,事后,我才知道这是一名才华横溢的著名记者,三次提名普利策奖,并在斯坦福兼教。后来《商业周刊》把我的发明选为1988年最重要的科学发明。年仅26岁初出茅庐的我,第一次亮相就获得这样的成功,让我感到很幸运,也让我有了继续向科技高峰攀爬的动力。

阅读原文
查看更多好书共读专题

