大数跨境

汇集所有大模型架构图!大模型架构演进全解析

汇集所有大模型架构图!大模型架构演进全解析 机器学习AI算法工程
2026-05-10
6
导读:向AI转型的程序员都关注公众号 机器学习AI算法工程
图片

向AI转型的程序员都关注公众号 机器学习AI算法工程


Transformer架构已成为大模型基座,但不同模型的Attention机制、MoE设计、位置编码等关键实现差异显著,理解这些差异对于架构选型和模型优化至关重要。

MIT博士 Sebastian Raschka 整理的 LLM Architecture Gallery 项目,汇集了60+主流大模型的标准化架构图谱,支持任意模型间的架构Diff对比。

项目地址

网站:sebastianraschka.com/llm-architecture-gallery

https://sebastianraschka.com/llm-architecture-gallery/#card-olmo-2-7b


GitHub:github.com/rasbt/llm-architecture-gallery

https://github.com/rasbt/llm-architecture-gallery


Architecture contact sheet showing the models featured in the LLM Architecture Gallery



收录了哪些模型?

覆盖2024-2026年几乎所有主流模型:

DeepSeek V3/R1/V4 Llama 3/4 Qwen3/3.5/Next GLM-4.5/5 Kimi K2/K2.5/Linear Mistral Small/Large 3 GPT-OSS Gemma 3/4 MiniMax M2/M2.5 Nemotron 3

参数规模从270M到1.6T,全部涵盖。










核心功能

1. 架构Diff工具(最实用)

选两个模型,一键对比差异:

  • Attention类型(MHA / GQA / MLA)
  • MoE配置(专家数、激活参数、共享专家)
  • 层数、宽度、KV Cache大小
  • 上下文长度、位置编码方案

2. 模型卡片

每个模型都有标准化卡片:参数规模、Decoder类型、Attention机制、KV Cache、发布日期、许可证...

3. 技术概念详解

MHA、GQA、MLA、MoE、SWA、RoPE、NoPE、QK-Norm、MTP...每个概念都有独立解释页面。

关键数据对比

模型
总参
激活
Attention
Context
DeepSeek V3
671B
37B (5.5%)
MLA
128K
DeepSeek R1
671B
37B
MLA
128K
Qwen3 235B
235B
22B (9.4%)
GQA+QK-Norm
128K
Llama 4 Maverick
400B
17B (4.3%)
GQA
1M
GLM-5
744B
40B (5.4%)
MLA+Sparse
200K
Kimi K2
1T
32B (3.2%)
MLA
128K
GPT-OSS 120B
117B
5.1B (4.4%)
GQA+SWA
128K
Mistral Large 3
673B
41B (6.1%)
MLA
262K
Nemotron 3 Nano
30B
3B (10%)
Mamba-2+MoE
1M
DeepSeek V4-Pro
1.6T
-
MLA
1M

架构演进趋势

Attention:MLA才是未来

Attention机制演进路线:

  • MHA
     → 传统方案,KV Cache太大(512KB/token)
  • GQA
     → 分组共享KV,Llama/Qwen在用(128-256KB/token)
  • MLA
     → DeepSeek首创,KV压缩到68KB/token,极致省显存

MLA是DeepSeek的核心竞争力:同样的671B模型,KV Cache比GQA方案小4-7倍,推理成本大幅降低。

MoE:专家设计各有各的玩法

  • DeepSeek V3
    : 8路由+1共享专家,37B激活
  • Qwen3
    : 8路由无共享专家,22B激活
  • Llama 4
    : 密集层+MoE交替,fewer but larger experts
  • Nemotron 3
    : Transformer+Mamba-2混合,state-space新方向

长上下文:1M token成标配

2026年的模型普遍支持超长上下文:

  • 1M上下文:Llama 4、Kimi Linear、Nemotron 3、DeepSeek V4
  • 262K上下文:Mistral Large 3、Qwen3 Next、小米MiMo
  • 技术方案:YaRN、NoPE、稀疏注意力


阅读过本文的人还看了以下文章:


14.7M参数,小目标AP达到13.9%!FSDETR用频空融合重新定义目标检测
skill刚开源就斩获 1.7K Star!web-access让AI真正"上网"
Qwen3.5实战教程:从0到1掌握本地部署与微调
引入小目标注意力模块改进YOLO12用于无人机视角下的岸边人员玩水检测
pdf2skill:让计算机视觉初学者把PDF文档变成AI技能包
next-ai-draw-io 用这款AI 画图几十秒就搞定了
10 万文档 RAG 落地实战:从 Demo 到生产,我踩过的所有坑
最强一键抠图19Kstar 的 Rembg 开源神器
YOLO12改进引入DINOv3少样本目标检测精度飙升,分享训练自定义数据集代码
基于DINOv2和SAM2改进的U-Net模型
Ultralytics & lightly-train:简化计算机视觉模型训练,无需标签
最新视觉大模型 DINOv3论文精读(逐段解析)
医学影像数据集汇总(持续更新)150个
【医学影像分割】UN-SAM:一种高效且通用的细胞核分割模型
小目标检测难点分析和解决策略

【模型高效部署】tensorrtx 深度解读,yolov11高性能推理实战案例

实时语义分割ENet算法,提取书本/票据边缘


整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主


《大语言模型》PDF下载


动手学深度学习-(李沐)PyTorch版本


基于40万表格数据集TableBank,用MaskRCNN做表格检测


《基于深度学习的自然语言处理》中/英PDF


Deep Learning 中文版初版-周志华团队


【全套视频课】最全的目标检测算法系列讲解,通俗易懂!


《深度学习入门:基于Python的理论与实现》高清中文PDF+源码


python就业班学习视频,从入门到实战项目


2019最新《PyTorch自然语言处理》英、中文版PDF+源码


《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码


《深度学习之pytorch》pdf+附书源码


《Python数据分析与挖掘实战》PDF+完整源码



不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  

图片


【声明】内容源于网络
0
0
机器学习AI算法工程
计算机视觉、自然语言处理、推荐系统、人工智能、大模型、深度学习、机器学习、大数据技术社区,分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。
内容 1548
粉丝 1
机器学习AI算法工程 计算机视觉、自然语言处理、推荐系统、人工智能、大模型、深度学习、机器学习、大数据技术社区,分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。
总阅读12.9k
粉丝1
内容1.5k