【И°AI】从 Token 到 Transformer：大语言模型核心机制全解析



【И°AI】从 Token 到 Transformer：大语言模型核心机制全解析

NA AI Studio

2025-08-24

导读：大语言模型（LLM）的核心机制并不神秘，它们主要由分词（Tokenization）、嵌入（Embeddin

大语言模型（LLM）的核心机制并不神秘，它们主要由 分词（Tokenization）、嵌入（Embedding）、注意力机制（Attention）和 Transformer 架构四个关键环节构成。本文结合 Stanford CME295 课程的《VIP Cheatsheet: Transformers & Large Language Models》，带大家梳理大模型的核心知识点。

一、从 Token 开始：语言的最小单元

Token 是模型理解语言的基本单元。

它可以是一个完整的单词（word）、子词（subword）、字符（character），甚至是字节（byte）。

例如，句子：


   this teddy bear is cute

在分词后可能变成：


   [this] [teddy] [bear] [is] [cute]

不同 Tokenizer 的比较

类型	优点	缺点	示例
Word	简单直观，序列短	词表过大，无法处理新词变形	teddy
Subword	平衡效率与灵活性，适合多语言	分词规则复杂，词表仍较大	ted + dy
Character	没有未知词问题	序列冗长，难学上下文模式	t e d d y
Byte	语言无关，词表小	可解释性弱	二进制字节

💡 实际应用中，BPE（Byte Pair Encoding）和 Unigram是最常用的子词分词方法。

二、Embedding：把词语“投影”到向量空间

模型无法直接理解文字，Embedding提供了数值化的表示方式。

每个 token 会被映射成一个向量。

如何衡量语义相似度？

常用方法是 余弦相似度：

• 相似度接近 1→ 语义接近
• 相似度接近 -1→ 语义相反
• 相似度接近 0→ 基本无关

例如：

• ✅ “cute”和 “teddy bear”相似度高
• ❌ “unpleasant”与 “teddy bear”相似度低
• 🔹 “airplane”与 “teddy bear”几乎独立无关

三、Attention：让模型学会“关注重点”

Transformer 的核心是 注意力机制（Attention）。

设有：

• Query (Q)：要查找的信息
• Key (K)：潜在匹配项
• Value (V)：对应的内容

Attention 的计算公式为：

直观理解：

模型会计算 Query 与 Key 的匹配程度（相关性），然后根据权重加权得到 Value，从而实现“选择性关注”。

四、Multi-Head Attention：多视角理解

单一的注意力可能只捕捉到局部关系。多头注意力（MHA）的做法是：

1. 使用多个注意力头（head）并行计算；
2. 每个头学习不同的关注模式；
3. 拼接后通过矩阵投影 W^O 融合。

优势：让模型能够同时捕捉不同层面的依赖关系。

此外，还有高效变体：

• GQA（Grouped-Query Attention）：分组共享 Key/Value，减少计算量。
• MQA（Multi-Query Attention）：所有 Query 共用一个 Key/Value，更快。

五、Transformer 架构

Transformer 的整体架构基于 自注意力（Self-Attention），分为两个部分：

1. 编码器（Encoder）

• 对输入序列提取语义表示
• 适合理解上下文

2. 解码器（Decoder）

• 基于编码器的输出和历史 token，预测下一个 token
• 适合生成文本

这套机制是 GPT、BERT、LLaMA 等大模型的核心基石。

六、总结

通过 Token → Embedding → Attention → Transformer四个层次，模型实现了从文本到语义理解的完整链路。

这份速查表的精髓在于：

• Tokenizer 决定输入粒度
• Embedding 把语言映射到数值世界
• Attention 让模型选择性关注信息
• Multi-Head Attention 扩展理解维度
• Transformer 架构串联成强大的语言模型

未来的大模型优化（如 GQA、MQA）无一不是在这条主干线上做改进。

📌 延伸阅读：

• Stanford CME295《Transformers & Large Language Models》
• Super Study Guide: https://superstudy.guide

【声明】内容源于网络

NA AI Studio

我们是您的人工智能前沿观察站。在这里，我们致力于分享最新、最深度的AI技术解读、产业洞见与应用实例。无论您是技术开发者、产品经理，还是对AI充满好奇的探索者，NA AI Studio都将为您提供最有价值的参考。

内容 113

粉丝 0

NA AI Studio 我们是您的人工智能前沿观察站。在这里，我们致力于分享最新、最深度的AI技术解读、产业洞见与应用实例。无论您是技术开发者、产品经理，还是对AI充满好奇的探索者，NA AI Studio都将为您提供最有价值的参考。

总阅读36

粉丝0

内容113