>

汇集所有大模型架构图！大模型架构演进全解析

>

汇集所有大模型架构图！大模型架构演进全解析

汇集所有大模型架构图！大模型架构演进全解析

机器学习AI算法工程

2026-05-10

6

导读：向AI转型的程序员都关注公众号机器学习AI算法工程

向AI转型的程序员都关注公众号机器学习AI算法工程

Transformer架构已成为大模型基座，但不同模型的Attention机制、MoE设计、位置编码等关键实现差异显著，理解这些差异对于架构选型和模型优化至关重要。

MIT博士 Sebastian Raschka 整理的 LLM Architecture Gallery 项目，汇集了60+主流大模型的标准化架构图谱，支持任意模型间的架构Diff对比。

项目地址

网站：sebastianraschka.com/llm-architecture-gallery

https://sebastianraschka.com/llm-architecture-gallery/#card-olmo-2-7b

GitHub：github.com/rasbt/llm-architecture-gallery

https://github.com/rasbt/llm-architecture-gallery

Architecture contact sheet showing the models featured in the LLM Architecture Gallery

收录了哪些模型？

覆盖2024-2026年几乎所有主流模型：

DeepSeek V3/R1/V4 Llama 3/4 Qwen3/3.5/Next GLM-4.5/5 Kimi K2/K2.5/Linear Mistral Small/Large 3 GPT-OSS Gemma 3/4 MiniMax M2/M2.5 Nemotron 3

参数规模从270M到1.6T，全部涵盖。

核心功能

1. 架构Diff工具（最实用）

选两个模型，一键对比差异：

Attention类型（MHA / GQA / MLA）
MoE配置（专家数、激活参数、共享专家）
层数、宽度、KV Cache大小
上下文长度、位置编码方案

2. 模型卡片

每个模型都有标准化卡片：参数规模、Decoder类型、Attention机制、KV Cache、发布日期、许可证...

3. 技术概念详解

MHA、GQA、MLA、MoE、SWA、RoPE、NoPE、QK-Norm、MTP...每个概念都有独立解释页面。

关键数据对比

模型	总参	激活	Attention	Context
DeepSeek V3	671B	37B (5.5%)	MLA	128K
DeepSeek R1	671B	37B	MLA	128K
Qwen3 235B	235B	22B (9.4%)	GQA+QK-Norm	128K
Llama 4 Maverick	400B	17B (4.3%)	GQA	1M
GLM-5	744B	40B (5.4%)	MLA+Sparse	200K
Kimi K2	1T	32B (3.2%)	MLA	128K
GPT-OSS 120B	117B	5.1B (4.4%)	GQA+SWA	128K
Mistral Large 3	673B	41B (6.1%)	MLA	262K
Nemotron 3 Nano	30B	3B (10%)	Mamba-2+MoE	1M
DeepSeek V4-Pro	1.6T	-	MLA	1M

架构演进趋势

Attention：MLA才是未来

Attention机制演进路线：

MHA
→ 传统方案，KV Cache太大（512KB/token）
GQA
→ 分组共享KV，Llama/Qwen在用（128-256KB/token）
MLA
→ DeepSeek首创，KV压缩到68KB/token，极致省显存

MLA是DeepSeek的核心竞争力：同样的671B模型，KV Cache比GQA方案小4-7倍，推理成本大幅降低。

MoE：专家设计各有各的玩法

DeepSeek V3
: 8路由+1共享专家，37B激活
Qwen3
: 8路由无共享专家，22B激活
Llama 4
: 密集层+MoE交替，fewer but larger experts
Nemotron 3
: Transformer+Mamba-2混合，state-space新方向

长上下文：1M token成标配

2026年的模型普遍支持超长上下文：

1M上下文：Llama 4、Kimi Linear、Nemotron 3、DeepSeek V4
262K上下文：Mistral Large 3、Qwen3 Next、小米MiMo
技术方案：YaRN、NoPE、稀疏注意力

阅读过本文的人还看了以下文章：

14.7M参数，小目标AP达到13.9%！FSDETR用频空融合重新定义目标检测

skill刚开源就斩获 1.7K Star！web-access让AI真正"上网"

Qwen3.5实战教程：从0到1掌握本地部署与微调

引入小目标注意力模块改进YOLO12用于无人机视角下的岸边人员玩水检测

pdf2skill：让计算机视觉初学者把PDF文档变成AI技能包

next-ai-draw-io 用这款AI 画图几十秒就搞定了

10 万文档 RAG 落地实战：从 Demo 到生产，我踩过的所有坑

最强一键抠图19Kstar 的 Rembg 开源神器

YOLO12改进引入DINOv3少样本目标检测精度飙升，分享训练自定义数据集代码

基于DINOv2和SAM2改进的U-Net模型

Ultralytics & lightly-train：简化计算机视觉模型训练，无需标签

最新视觉大模型 DINOv3论文精读（逐段解析）

医学影像数据集汇总（持续更新）150个

【医学影像分割】UN-SAM：一种高效且通用的细胞核分割模型

小目标检测难点分析和解决策略

【模型高效部署】tensorrtx 深度解读，yolov11高性能推理实战案例

实时语义分割ENet算法，提取书本/票据边缘

整理开源的中文大语言模型，以规模较小、可私有化部署、训练成本较低的模型为主

《大语言模型》PDF下载

动手学深度学习-（李沐）PyTorch版本

基于40万表格数据集TableBank，用MaskRCNN做表格检测

《基于深度学习的自然语言处理》中/英PDF

Deep Learning 中文版初版-周志华团队

【全套视频课】最全的目标检测算法系列讲解，通俗易懂！

《深度学习入门：基于Python的理论与实现》高清中文PDF+源码

python就业班学习视频，从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习：基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

《Python数据分析与挖掘实战》PDF+完整源码

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加： datayx

【声明】内容源于网络

0

0

机器学习AI算法工程

计算机视觉、自然语言处理、推荐系统、人工智能、大模型、深度学习、机器学习、大数据技术社区，分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。

内容 1548

粉丝 1

机器学习AI算法工程计算机视觉、自然语言处理、推荐系统、人工智能、大模型、深度学习、机器学习、大数据技术社区，分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。

总阅读12.9k

粉丝1

内容1.5k