大数跨境
0
0

清华校友会专访Recurrent.ai联合创始人杨植麟 | 学霸养成记:清华毕业,六个语言建模任务世界纪录

清华校友会专访Recurrent.ai联合创始人杨植麟 | 学霸养成记:清华毕业,六个语言建模任务世界纪录 循环智能
2019-04-02
3
导读:Recurrent.ai联合创始人杨植麟接受清华大学计算机系校友会专访

杨植麟,Recurrent.ai联合创始人,AI负责人

卡内基梅隆大学计算机博士,师从苹果公司人工智能负责人Ruslan Salakhutdinov,曾在ICLRNeurIPSICMLACLEMNLP等顶级会议发表论文二十余篇。他的研究曾经在半监督学习、自然语言理解的十余个标准数据集上取得世界第一,并同时在所有六个主流语言建模数据集上保持世界纪录,曾获Nvidia先锋研究奖、Facebook ParlAI研究奖、Nvidia奖学金和西贝尔奖学金。

他曾效力于Facebook人工智能研究院和谷歌大脑研究院,并与Jason WestonQuoc V. LeYann LeCunYoshua BengioChris Manning等知名学者合作发表论文。他本科以年级第一名的成绩毕业于清华大学计算机系,师从唐杰教授。

(本文提及的语言建模方面的成果,由杨植麟和他的同学戴自航作为主要作者共同取得。)


提起杨植麟,在清华园里,不只是计算机系,可能其他院系的师生也对他并不陌生。他被光环笼罩,在校期间四年时间成绩保持年级第一;他是一位科研达人,二十多篇论文,十多篇一作,Nvidia先锋研究奖、Facebook ParlAI研究奖被他轻松揽下;繁重的学业之余,他还组建了Splay乐队,当起了鼓手、创作者,把摇滚玩出了自己的格调。那么,学霸是如何炼成的?


“曾梦想成为摇滚明星,

或者做一个流浪诗人”


学霸的人生并非从一开始就是开挂的。小学和初中时期的杨植麟,身上并没有带着那种属于“别人家的孩子”的光环。成绩上,想读书就去认真读;放学后,贪玩的时候就玩痛快。父母对他并没有很高的分数期望,这样的成长环境反而给了他更多的自主性。


得益于父母开放的教育理念,杨植麟的思想无拘无束,“小时候梦想成为摇滚明星,或者做一个流浪诗人。高中的时候还曾想读文科。包括后来选择了计算机和人工智能,和现在做一些创业的尝试,几乎所有重要的事情都是由自己来决定的。”


高中期间,没有任何编程基础的杨植麟被选拔进信息学奥林匹克竞赛培训班,并通过竞赛保送清华大学。属于杨植麟的清华故事,正式开始了。


为了探索更多可能性,杨植麟一开始学的并不是计算机专业。大二时,杨植麟发觉自己其实还是对计算机的兴趣更为浓厚,于是果断转入计算机系。“我之前看村上春树一本小说,里面有一个很厉害的程序员的角色,别的情节都没记住,就只记得当时的我竟然因此对深夜写代码让技术落地这件事充满了憧憬。很长一段时间我都向别人说计算机是最厉害的专业,一方面是因为计算机领域特别是人工智能是当前发展最活跃的领域之一,现实意义很大,以方面也是在计算机系的学习让我感觉到距离行侠仗义、用写代码改变世界的日子好像更近了一些。如果说最开始的想法是觉得学计算机是一件很酷而且有意义的事情,那么,后来发生的一切都让我觉得转到计算机系是目前为止我生命中最正确和重要的决定。”

在清华计算机系,追求极致


在计算机系,杨植麟结识了很多志同道合的挚友。回忆起与同窗好友并肩作战的那段时光,杨植麟至今感慨万千:“我们当时在学校参加了不少比赛,最有趣的一次是IJCAI2015,当时阿里巴巴天池平台组织了一个数据挖掘的比赛,我跟方展鹏还有张宇韬组队参加。比赛结束前最后一个晚上,我们在public leaderboard上是第二名,只比第一名差了千分之几。然后当天晚上我们加了很多feature还有优化了模型,在dev set上有不小提升,正常情况下如果提交上去必定可以反超成为第一名。当时都准备开香槟庆祝了,可是大概凌晨一两点的时候跑的一个实验没控制好内存直接把有512G内存的服务器弄挂了。很多中间文件丢失,导致没办法直接复现当晚开发的结果。我们赶紧把所有备份的代码和文件转移到另外的服务器,可是最终时间紧迫,抢救失败,结果成绩是第二。后来我们发现第一名最后还是维持原成绩,也就是说如果当时正常提交,只要不出现非常严重的overfitting,很有机会拿第一。当时我们几个人简直捶胸顿足!不过这个成绩也不算差,八百多个队参加,虽然有遗憾,过程还是很有意义的。”


清华时期的杨植麟


谈起清华对自己的影响,杨植麟说道:“我觉得影响最深的一点就是追求极致。这里高手云集,你非常容易遇到在你最强的方面比你还强的人,这样就不容易有成就感,天天被碾压。这种语境下,我当时给自己想的办法是追求极致,找准一个方向做深度探索,而不是一味追求广度。只有用这种思路去追求极致,你才有可能在某个也许很小的方面成为最强的人。我现在做研究比较重视获得state-of-the-art的结果,也是出于一种追求极致的想法。如果把机器学习当成是一个研究方法的学科,只有一个方法能够让极致更加极致(取得state-of-the-art结果)的时候,才是真正有价值的;很多方法在弱的baseline上面提升不少,但是却不能带来更加极致的结果,这些方法很大概率会被历史长河淹没。当然我这么说的意思并不是只注重结果不注重idea,好的idea即使短时间内效果没那么好,长期也有可能被改进最终带来极致的效果,比如GANs。最终评判一个idea或者方法好坏还是要看能否把效果做到极致。”


在六个主流语言建模数据集上保持世界纪录


2019年伊始,剑桥大学人工智能研究员Marek Rei更新了2018年机器学习和自然语言处理领域的论文发表统计数据,覆盖了机器学习和语言技术领域最知名和最高级别的会议和期刊:ACL、EMNLP、NAACL、EACL、COLING、TACL、CL、CoNLL、NeurIPS、ICML、ICLR 和AAAI。杨植麟连续入选2017、2018年度一作全球排行榜,全球仅有三名学者两年皆入选。


参加学术会议


就像竹子深耕地下,一旦破土而出则势不可挡。近年来,杨植麟以及团队的研究曾经在半监督学习、自然语言理解的十余个标准数据集上取得世界第一,并同时在所有六个主流语言建模数据集上保持世界纪录(State-of-the-Art, SotA)。杨植麟解释说:“这六个语言建模数据集有的是长序列,有的是短序列,有的是基于单词的,有的是基于字母的。要同时在这六个数据集上取得state-of-the-art的结果比较困难,在我们之前还没有人成功同时挑战六个数据集。就跟奥运会游泳比赛,很难同时在100米200米直至1500米都拿金牌。”这六个SotA结果有两个来自于突破了Softmax瓶颈的混合Softmax模型,有四个来自于新型的神经网络结构Transformer-XL.


混合Softmax的工作“将语言建模形式化了矩阵分解问题,并且表明基于 Softmax 的模型(包括大多数神经语言模型)的表达能力受限于 Softmax 瓶颈。” “鉴于自然语言高度依赖于语境,这就进一步表明使用分布式词嵌入的 Softmax 实际上没有足够的能力来建模自然语言。我们提出了一种解决这一问题的简单且有效的方法,并且在 Penn Treebank 和 WikiText-2 上分别将当前最佳的perplexity改善到了 47.69 和 40.68。”

附:论文地址:https://arxiv.org/pdf/1711.03953.pdf


杨植麟在论文中这么介绍自己的Transformer-XL架构:“Transformer 网络具有学习更长期依赖性的潜力,但这种潜力往往会受到语言建模中上下文长度固定的限制。因此,我们提出了一种叫做 Transformer-XL 的新神经架构来解决这一问题,它可以在不破坏时间一致性的情况下,让 Transformer 超越固定长度学习依赖性。具体来说,它是由片段级的循环机制和全新的位置编码策略组成的。我们的方法不仅可以捕获更长的依赖关系,还可以解决上下文碎片化的问题。Transformer-XL 学习到的依赖性比 RNN 学习到的长 80%,比标准 Transformer 学到的长 450%,无论在长序列还是短序列中都得到了更好的结果,而且在评估时比标准 Transformer 快 1800+ 倍。此外,我们还提升了 bpc 和困惑度的当前最佳结果,在 enwiki8 上 bpc 从 1.06 提升至 0.99,在 text8 上从 1.13 提升至 1.08,在 WikiText-103 上困惑度从 20.5 提升到 18.3,在 One Billion Word 上从 23.7 提升到 21.8,在宾州树库(不经过微调的情况下)上从 55.3 提升到 54.5。我们的代码、预训练模型以及超参数在 TensorFlow 和 PyTorch 中都可以使用。”


论文地址:https://arxiv.org/abs/1901.02860



表1:与在 WikiText-103 上得到的当前最佳结果进行对比。



表2:与在 enwiki8 上得到的当前最佳结果进行对比。



表3:与在 text8 上得到的当前最佳结果进行对比。



杨植麟还曾效力于Facebook人工智能研究院和谷歌大脑研究院,并与Jason Weston、Quoc V. Le、Chris Manning以及图灵奖得主Yann LeCun、Yoshua Bengio等世界知名学者合作发表论文。



论文地址:https://arxiv.org/abs/1806.05662


“在纽约火锅店吃饭也会闪现出idea”

论文、科研,或许会有灵感迸发、文思泉涌的瞬间,但背后更多的是厚积薄发。旁人看到的多是云淡风轻,然则作者内心早已为怎么优化这1‰厮杀过N个回合,甚至在吃饭时、睡觉时、走路时,他们的脑海中都是在思考怎么解决这个实验问题。

“最近自然语言理解发展很快,大规模算力和数据带来的红利还没有完全被释放,所以其实可以做的东西非常多,经常会有一种实验速度跟不上idea的感觉。另外一方面,现有方法存在很多局限性,所以如果从理解自然语言的最终目标出发,很容易找到现有方法可以提升的地方。比如说如何让机器学会推理是一个很重要的问题,但是之前并没有高质量的大规模推理数据集,所以我们就推出了一个数据集HotpotQA,希望能以数据集为基础帮助这个领域迭代出一些好的解决方案。另外我觉得和小伙伴进行学术讨论是一个很好的产生idea的方法,比如我会经常跟我的朋友戴自航一起讨论idea和写论文,当前最好的语言模型架构Transformer-XL就是合作的结果。很多灵感会在这些讨论中闪现,比如HotpotQA就是我跟齐鹏和赛峥在纽约的一家火锅店想出来的idea。”


 “火锅兄弟团”成员:Zhilin(杨植麟)、Peng(齐鹏,目前博士就读于斯坦福大学)、Saizheng(张赛峥,目前博士就读于蒙特利尔大学)



图:这是HotpotQA里面的一个样例问题,在选段中他们用绿色标出了用来回答该问题的支持推理线索


图:HotpotQA中的问题种类以及占比情况


杨植麟至今保留着在大学时的音乐爱好,这是他独特的减压方式。他曾经的摇滚乐队叫Splay,取自于一种数据结构Splay Tree。“大学时我和周若凡周昕宇在东门外一家餐馆里面讨论定下来组乐队的事情。当时感觉有很多东西想表达,包括来自现实的压力和来自大环境的荒诞感,这个乐队当时就成了我们的一个表达途径。曾经写了一首歌,大概的意思是做了一个创业成功一夜暴富的白日梦。当时觉得圈子里很多人在做着阶级跨越的努力,写这首歌一方面出于共情,一方面也是希望自己不要成为过于功利的人。”


“做学问要像喝咖啡一样上瘾”

在异国他乡,杨植麟时不时都会想起在清华那段有声有色的日子:指导他人生的精神导师,并肩作战的同窗好友,园子里的一草一木……点点滴滴都印证着他对母校的情意与怀念。“有时候感觉在清华计算机系读书是刚刚过去不久的事情,我甚至清晰记得和好朋友刷夜做project然后骑车去东门外吃夜宵。那时一般是bug还没调出来或者实验结果一直很差,其实心情是有些低落的。有很多个夜晚零下好几度,路边的烧烤摊冒起烟笼罩住校门的方向,我隐约看见‘自强不息’四个字,那一瞬间,心中竟然有一点莫名的感动。”


“唐杰老师和马昱春老师对我影响很大。至今都很感恩。”回忆起两位恩师,杨植麟的眼神充满了崇敬。


“唐老师是我的研究入门导师,一步步教我学习做研究,包括如何寻找重要的问题、如何寻找解决问题的角度、如何做实验、如何写文章、如何做展示等等,这些技能都为我后来的博士生涯奠定了非常重要的基础。他还是我的精神导师,‘做学问要像喝咖啡一样上瘾’——唐老师常常说的这句话我记忆犹新,这种追求学问上瘾的精神,一直影响着我。”


“马老师则是对我的职业发展产生了方向性的重要改变。我大二一开始的时候有一段相对比较迷茫的时期,当时主要是马老师帮我分析了情况并且给我指出了做法,包括把我推荐给了唐老师。后来马老师一直非常关心我,在很多关键时间点都给了我十分重要的帮助。”


“我现在主要研究深度学习和自然语言理解,简单地说一个大的目标就是让机器理解自然语言并具备交流输出能力,当然我们离这个目标还很远。最近的想法主要是learning by generative modeling,大致意思就是构造一些生成模型比如生成一个序列或者生成一个图,在学习如何生成的同时,一方面得到更好的representation,一方面在目标函数中直接利用边缘概率提升条件概率的学习。”在谈起目前研究重心的同时,杨植麟还表达了对未来的自信与期待:“我觉得这些问题很有意思,而且我感觉这个领域接下来会有很多突破。”


采访接近尾声时,我们邀请杨植麟为系里的师弟师妹们分享一些经验。“经验的话,其实我不会说什么太教条主义的东西,就用这句歌词与师弟师妹们共勉吧。The Verve乐队有一句歌词‘I’m a million different people from one day to the next’,它有很多不同的解读,我喜欢其中革新的意义——


‘不要惧怕改变,自己革自己的命,每天都不一样,可能离美好的东西会更近一些。’”



本文转载自清华大学计算机系校友会

采访/成稿/排版:张超

【声明】内容源于网络
0
0
循环智能
循环智能是一家AI企业服务公司,公司借助原创的自然语言处理和深度学习技术,帮助拥有中大型销售或客服中心,以及在线上线下依靠大量销售代表、代理人、客户经理与客户进行沟通的企业,充分挖掘对话数据的价值,带来业绩增长。
内容 208
粉丝 0
认证用户
循环智能 北京循环智能科技有限公司 循环智能是一家AI企业服务公司,公司借助原创的自然语言处理和深度学习技术,帮助拥有中大型销售或客服中心,以及在线上线下依靠大量销售代表、代理人、客户经理与客户进行沟通的企业,充分挖掘对话数据的价值,带来业绩增长。
总阅读354
粉丝0
内容208