极市导读
MoE已然成为AI界的主流架构,不论是开源Grok,还是闭源GPT-4,皆是其拥趸。然而,这些模型的专家,最大数量仅有32个。最近,谷歌DeepMind提出了全新的策略PEER,可将MoE扩展到百万个专家,还不会增加计算成本。>>加入极市CV技术交流群,走在计算机视觉的最前沿
背景与介绍

Unified Scaling Laws for Routed Language Models

百万MoE所系
PEER层设计
,包含如下三部分:

乘积键检索
,在数学上,这可以保证从K中与q(x)最相似的k个键在这个候选集合中。
。
参数高效专家和多头检索
为什么用大量的小专家
实验
预训练isoFLOP分析
语言建模数据集评估
消融实验

。
。
作者介绍

公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

