GPT-2及BERT模型真的有那么神奇吗？- 大数跨境

秘塔科技

2019-02-17

导读：有，也没有。

有，也没有。

最近一年多，江湖风起云涌。朋友圈多次被各类语言模型（Language Modeling）预训练及在特定任务上的精调（Fine-tune）得到的良好结果所刷屏。这里面最著名的要数去年Google公布的BERT模型。而这一次，是两天前OpenAI所公布的GPT-2。

有媒体报道说这是迄今为止公布的最大规模的深度学习模型，我凭印象验证了一下，发觉这个论断果然并不正确，目前公布的模型记录保持者应该是Google在2017年公布的 Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer 中MoE结构的LSTM模型，其使用的模型参数高达1370亿，是GPT-2参数量级的近100倍！不过其结构很特殊，非常稀疏，每次运算只有很少的参数会被激活，所以可以认为是一个阉割模型，直接与GPT-2相比并不公平。

可能大家印象最深的，就是这个15亿参数的新模型的“脑补”假新闻的能力，比如编一个“会说英语的独角兽”的故事（原文英文，为了方便大家阅读，我们将其机器翻译为中文）：

开篇人来写：

在一项令人震惊的发现中，科学家发现了一群独角兽，它们生活在安第斯山脉的一个遥远的、以前未被人发现的山谷里。更令研究人员吃惊的是，这些独角兽的英语说得很好。

GPT-2接着编：

这位科学家以奥维德的独角兽的独特号角为这群人命名。这些四角、银白色的独角兽以前是科学上所不知道的。
现在，经过近两个世纪的时间，究竟是什么原因引发了这种奇怪的现象，终于得到了解决。
拉巴斯大学的进化生物学家Jorge Pérez博士和他的几个同伴在安第斯山脉探险时，发现了一个小山谷，没有其他动物和人类。佩雷斯注意到，山谷里有一座天然喷泉，周围有两座山峰，岩石和银色的雪。
佩雷斯和其他的人冒险走进了山谷。 “当我们到达一个山顶时，水看起来是蓝色的，山顶上有一些水晶，”佩雷斯说。
佩雷斯和他的朋友们看到这群独角兽都很吃惊。这些生物可以从空中看到，而不需要动太多的地方就能看到它们——它们离得太近，甚至可以触摸到它们的角。
在研究这些怪异的生物时，科学家们发现这些生物也会说一些相当正常的英语。佩雷斯说：“例如，我们可以看到他们有一种共同的‘语言’，类似于方言或口语。”
佩雷斯博士认为，独角兽可能起源于阿根廷，那里的独角兽被认为是在人类来到南美洲之前居住在那里的一个失落种族的后裔。
…

这样的行文能力，可能已经让不少之前没有见识过AI语言模型威力的小编，倍感威胁；也一定让马蜂窝的高管们扼腕叹息…

其实在去年秘塔科技刚成立不久时，我们内部技术团队就在十万篇网页新闻数据上实验过大语言模型训练，对其能力并不陌生。下面是当时生成的内容片段：

模型以”阿巴斯“为首单词书写：

阿巴斯邀埃及总统部队访问埃及
埃及总统领导人助理漏访埃及总统夫人１７日抵达埃及首都开罗，开始斡旋埃及总统选举决胜轮投票之际，埃及新任总统奥巴马当天在最高宪法法院全体大会上作证。
发表简短讲话当天，埃及总统选举委员会宣布原定当天下午举行的总统选举投票延期日期推迟至１７日１２时。埃及最高总统选举委员会定于１８日宣布总统选举初步结果，穆斯林兄弟会下属自由与正义党主席候选人、前总理沙菲克顺利当选埃及总统。
１５日清晨，穆斯林兄弟会下属自由与正义党主席候选人、前总理刘洋前往军方总部，听取军方发言人阿军方和军方的汇报，双方协调一致，共达成和平协议。
埃及总统选举第３轮投票于当天下午２时举行，投票西德总统亲自前往竞选总部，角逐总统选举投票总统人选。据埃及官方中东社１８日晚间报道，开罗市中心解放广场上聚集着大量军警到场示威，抗议选举推迟举行。
…

写起书评，也是张口就来：

那是一个复杂的逻辑推理游戏，是一个复杂曲折的故事情节，尤其是现实题材的长篇纪实文学，不仅融汇著古今中外辨证思维写故事的人性描写，更关乎宏大叙事架构之中深邃虚幻迷惑性的情感故事，更藏宝图的精确定位，呼之欲出无疑是再造华山捷径的目标。故而线索如此，它不仅使办案场景贴近现实，更容易短波珍本幽默知分，勾勒雷厉风行和谐蓝图，浓重磅礡虚空之中夹杂著浓重忧伤粽香的清香扑面而来；既融入杭城都市现实，又洗礼湖光山色；既幽默凝练剔透美学写性格，又润诡催泪幽默歌词整齐划一百场白话城战欢笑场面有趣，彰显海派风情爱情皮屑相通时空心灵……

上面这个文本的生成模型是由双层4096 Hidden的RNN生成而来，并加入多个正则化项提升参数效率。其总参数的数量比GPT-2小了一个数量级，而训练的样本规模小了两个数量级。即便如此，模型已经展现出了相当的脑补能力。

所以对于包括这次GPT-2模型所展现出来的语言生成能力，我们并不意外，可以说在超参数选择得当及足够训练时间的基础上，采用传统RNN也能达到相似的效果。

我们的观察与判断

语言模型是无监督？
把语言模型认定为一个无监督模型并不合适。连贯的语言本身由人类书写，包含了语法规则，事件逻辑，以及背后的世界知识。这其实仍然是一个有监督学习，在模型训练中往往采用Teacher forcing方法。只是其标注数据获得太过容易，很多人将其视为无监督数据。
大数据的极限在哪里？
在语言模型的问题上，目前尚未看到。Google这类通用引擎所索引的数据在千亿级别，即便筛选出可搜索的结果也在百亿级别，而本次OpenAI也仅使用了800万的网页数据。
大模型的极限在哪里？
目前尚未看到。模型参数增加一倍，语言模型的混淆度（PPL）降低一个常数，这也是包括GPT-2和我们之前提到过的 Deep Learning Scaling is Predictable, Empirically 等多篇研究共同的结论，并且也与我们自己的实验结果相符：将4096的Hidden大小修改为8192时，模型的效果有明显提升，在显存溢出的边缘试探…
OpenAI训练这个模型花了多少钱？
Salesforce的研究员Stephen Merity提到，目前256卡TPU v3的租用费用为2048美元/小时，折合近1.4万人民币/小时。注意论文中提到“increase the context size from 512 to 1024 tokens”，在Transfomer模型下，这意味着即便数据量和模型规模不变，也是4倍的训练时间。我们估计其总训练时间在2到4周，折人民币470到940万元。注意这只是跑一次模型训练的花费，超参数就请您慎重选择咯。
这个模型到底是记住了大量的数据，还是真的有生成能力？
这个在千万级别的训练数据上，的确是一个值得仔细考虑的问题，在其论文Language Models are Unsupervised Multitask Learners 的第四节有所论述。另外，之所以在生成模型的实验中，都是由人书写的“假新闻”作为开头，也是想对其泛化能力进行测试，避免了模型仅仅因为记忆力好，而能够把已经存在的新闻全篇背诵的情况。
我们以后看到的新闻都是机器写的？
其实目前机器生成的新闻已经在体育、金融等强模板化的领域有广泛应用了。而对于评论性或故事性强的新闻，要将风格，主题，情感等都建模在语言模型中是一个更Open的研究问题。就像“核聚变”已经被物理学家发现了80年，而“可控核聚变”仍然在路上…花940万训练模型，不如多请几个靠谱的小编。
语言模型的训练上有什么经验吗？
在小规模数据上的训练，各种正则化非常重要，大数据的模型网络结构和正则化方法不如模型规模重要。甚至BERT使用的带掩码的语言模型（Masked LM）与GPT-2用的标准语言模型，混淆度应该也只有一个常数差异。
我的研究本来要发表的，但是被OpenAI刷榜了怎么办？
擦干眼泪，继续向前。
这类研究的未来会朝什么方向进行？
大数据＋大模型＋预训练＋多任务＋多视角。
我们有一个具体行业问题，怎么通过人工智能方法解决？
简单来说，通用领域数据预训练，并在小规模行业专业数据上精调，仍然是目前看到最有效的方法。具体根据问题细节，能利用的先验、资源而异，因其固然，以神遇而不以目视，是技术也是艺术。
你们还招人吗？
招。