大数跨境
0
0

【И°AI】从 Token 到 Transformer:大语言模型核心机制全解析

【И°AI】从 Token 到 Transformer:大语言模型核心机制全解析 NA AI Studio
2025-08-24
0
导读:大语言模型(LLM)的核心机制并不神秘,它们主要由 分词(Tokenization)、嵌入(Embeddin

 

大语言模型(LLM)的核心机制并不神秘,它们主要由 分词(Tokenization)嵌入(Embedding)注意力机制(Attention)和 Transformer 架构四个关键环节构成。本文结合 Stanford CME295 课程的《VIP Cheatsheet: Transformers & Large Language Models》,带大家梳理大模型的核心知识点。


一、从 Token 开始:语言的最小单元

Token 是模型理解语言的基本单元。

它可以是一个完整的单词(word)、子词(subword)、字符(character),甚至是字节(byte)。

例如,句子:

this teddy bear is cute

在分词后可能变成:

[this] [teddy] [bear] [is] [cute]

不同 Tokenizer 的比较

类型 优点 缺点 示例
Word
简单直观,序列短
词表过大,无法处理新词变形
teddy
Subword
平衡效率与灵活性,适合多语言
分词规则复杂,词表仍较大
ted + dy
Character
没有未知词问题
序列冗长,难学上下文模式
t e d d y
Byte
语言无关,词表小
可解释性弱
二进制字节

💡 实际应用中,BPE(Byte Pair Encoding)和 Unigram是最常用的子词分词方法。


二、Embedding:把词语“投影”到向量空间

模型无法直接理解文字,Embedding提供了数值化的表示方式。

每个 token 会被映射成一个向量 

如何衡量语义相似度?

常用方法是 余弦相似度

  • • 相似度接近 1→ 语义接近
  • • 相似度接近 -1→ 语义相反
  • • 相似度接近 0→ 基本无关

例如:

  • • ✅ “cute”和 “teddy bear”相似度高
  • • ❌ “unpleasant”与 “teddy bear”相似度低
  • • 🔹 “airplane”与 “teddy bear”几乎独立无关

三、Attention:让模型学会“关注重点”

Transformer 的核心是 注意力机制(Attention)

设有:

  • • Query (Q):要查找的信息
  • • Key (K):潜在匹配项
  • • Value (V):对应的内容

Attention 的计算公式为:

直观理解

模型会计算 Query 与 Key 的匹配程度(相关性),然后根据权重加权得到 Value,从而实现“选择性关注”。


四、Multi-Head Attention:多视角理解

单一的注意力可能只捕捉到局部关系。多头注意力(MHA)的做法是:

  1. 1. 使用多个注意力头(head)并行计算;
  2. 2. 每个头学习不同的关注模式;
  3. 3. 拼接后通过矩阵投影 W^O 融合。

优势:让模型能够同时捕捉不同层面的依赖关系。

此外,还有高效变体:

  • • GQA(Grouped-Query Attention):分组共享 Key/Value,减少计算量。
  • • MQA(Multi-Query Attention):所有 Query 共用一个 Key/Value,更快。

五、Transformer 架构

Transformer 的整体架构基于 自注意力(Self-Attention),分为两个部分:

  1. 1. 编码器(Encoder)
    • • 对输入序列提取语义表示
    • • 适合理解上下文
  2. 2. 解码器(Decoder)
    • • 基于编码器的输出和历史 token,预测下一个 token
    • • 适合生成文本

这套机制是 GPT、BERT、LLaMA 等大模型的核心基石。


六、总结

通过 Token → Embedding → Attention → Transformer四个层次,模型实现了从文本到语义理解的完整链路。

这份速查表的精髓在于:

  • • Tokenizer 决定输入粒度
  • • Embedding 把语言映射到数值世界
  • • Attention 让模型选择性关注信息
  • • Multi-Head Attention 扩展理解维度
  • • Transformer 架构 串联成强大的语言模型

未来的大模型优化(如 GQA、MQA)无一不是在这条主干线上做改进。


📌 延伸阅读

  • • Stanford CME295《Transformers & Large Language Models》
  • • Super Study Guide: https://superstudy.guide

 


【声明】内容源于网络
0
0
NA AI Studio
我们是您的人工智能前沿观察站。在这里,我们致力于分享最新、最深度的AI技术解读、产业洞见与应用实例。无论您是技术开发者、产品经理,还是对AI充满好奇的探索者,NA AI Studio都将为您提供最有价值的参考。
内容 113
粉丝 0
NA AI Studio 我们是您的人工智能前沿观察站。在这里,我们致力于分享最新、最深度的AI技术解读、产业洞见与应用实例。无论您是技术开发者、产品经理,还是对AI充满好奇的探索者,NA AI Studio都将为您提供最有价值的参考。
总阅读36
粉丝0
内容113