大语言模型(LLM)的核心机制并不神秘,它们主要由 分词(Tokenization)、嵌入(Embedding)、注意力机制(Attention)和 Transformer 架构四个关键环节构成。本文结合 Stanford CME295 课程的《VIP Cheatsheet: Transformers & Large Language Models》,带大家梳理大模型的核心知识点。
一、从 Token 开始:语言的最小单元
Token 是模型理解语言的基本单元。
它可以是一个完整的单词(word)、子词(subword)、字符(character),甚至是字节(byte)。
例如,句子:
this teddy bear is cute
在分词后可能变成:
[this] [teddy] [bear] [is] [cute]
不同 Tokenizer 的比较
| 类型 | 优点 | 缺点 | 示例 |
|---|---|---|---|
| Word |
|
|
|
| Subword |
|
|
|
| Character |
|
|
|
| Byte |
|
|
|
💡 实际应用中,BPE(Byte Pair Encoding)和 Unigram是最常用的子词分词方法。
二、Embedding:把词语“投影”到向量空间
模型无法直接理解文字,Embedding提供了数值化的表示方式。
每个 token 会被映射成一个向量 。
如何衡量语义相似度?
常用方法是 余弦相似度:
-
• 相似度接近 1→ 语义接近 -
• 相似度接近 -1→ 语义相反 -
• 相似度接近 0→ 基本无关
例如:
-
• ✅ “cute”和 “teddy bear”相似度高 -
• ❌ “unpleasant”与 “teddy bear”相似度低 -
• 🔹 “airplane”与 “teddy bear”几乎独立无关
三、Attention:让模型学会“关注重点”
Transformer 的核心是 注意力机制(Attention)。
设有:
-
• Query (Q):要查找的信息 -
• Key (K):潜在匹配项 -
• Value (V):对应的内容
Attention 的计算公式为:
直观理解:
模型会计算 Query 与 Key 的匹配程度(相关性),然后根据权重加权得到 Value,从而实现“选择性关注”。
四、Multi-Head Attention:多视角理解
单一的注意力可能只捕捉到局部关系。多头注意力(MHA)的做法是:
-
1. 使用多个注意力头(head)并行计算; -
2. 每个头学习不同的关注模式; -
3. 拼接后通过矩阵投影 W^O 融合。
优势:让模型能够同时捕捉不同层面的依赖关系。
此外,还有高效变体:
-
• GQA(Grouped-Query Attention):分组共享 Key/Value,减少计算量。 -
• MQA(Multi-Query Attention):所有 Query 共用一个 Key/Value,更快。
五、Transformer 架构
Transformer 的整体架构基于 自注意力(Self-Attention),分为两个部分:
-
1. 编码器(Encoder) -
• 对输入序列提取语义表示 -
• 适合理解上下文 -
2. 解码器(Decoder) -
• 基于编码器的输出和历史 token,预测下一个 token -
• 适合生成文本
这套机制是 GPT、BERT、LLaMA 等大模型的核心基石。
六、总结
通过 Token → Embedding → Attention → Transformer四个层次,模型实现了从文本到语义理解的完整链路。
这份速查表的精髓在于:
-
• Tokenizer 决定输入粒度 -
• Embedding 把语言映射到数值世界 -
• Attention 让模型选择性关注信息 -
• Multi-Head Attention 扩展理解维度 -
• Transformer 架构 串联成强大的语言模型
未来的大模型优化(如 GQA、MQA)无一不是在这条主干线上做改进。
📌 延伸阅读:
-
• Stanford CME295《Transformers & Large Language Models》 -
• Super Study Guide: https://superstudy.guide

