分享
Meta 开源「记忆层」重塑Transformer大模型架构
2025-01-06 10:48 星期一
1 月 3 日凌晨 3 点,Meta 公布了一项关于 "记忆层" 的创新研究。当前,Transformer 架构的大模型在存储和查询数据时,算力需求随参数量增大呈指数级增长。“记忆层”提出了一种新的高效查询机制,通过比较查询键与两个较小集合中的键,快速定位相关键,无需遍历整个记忆层,从而在不增加算力的前提下显著提升模型参数量。传统键值查找方式需将每个查询与记忆层的所有键对比,这种方式在记忆层规模较小时有效,但规模扩大后效率极低,耗用大量算力和时间。
新闻推荐
查看更多
大数新闻社群
7x24h跨境新闻推送
加入卖家交流群


