导读:最近两年,预训练模型的参数量以每年 10 倍的速度迅猛增长,然而其计算效率的瓶颈也日渐显现。
例如以单块NVIDIA V100 GPU训练,GPT-1的计算时间是 3 天,到GPT-2 计算时间就达到了200天,GPT-3的计算时间则增加到90年。
因此如何在提升模型性能的基础上,提升模型计算效率,成为大规模预训练模型研究的重点,也成为预训练模型能否走向实际应用的关键。
近日,以清华大学副教授刘知远牵头的“悟道·文源”团队发布的 CPM-2,尝试了从大模型预训练的整个流程去提升计算效率。
论文链接:https://www.aminer.cn/pub/60d30ac49e795e035c9e5884
整理:贾伟,张正彦
校对:张正彦,刘知远
01
02
03
04
-
说文解字:具有字形和字音特征的中文编码技术,兼具高效编码和抗噪音特性; -
HyboNet:全双曲表示Transformer架构,仅用一半参数即可达到欧氏空间模型效果; -
知识继承:高效预训练技术,训练速度提升37%以上; -
CSS-LM:基于少样本对比学习的微调技术,仅使用0.2%数据即可达到完整数据训练90%的效果; -
PTR:基于Prompt的微调技术设计模板,充分利用人工设计规则,挖掘预训练模型能力。
05

阅读原文,了解更多悟道相关论文。

