关注「索引目录」公众号,获取更多干货。
什么是人工智能模型参数?让我来解释一下。
昨天我朋友问我:“他们说GPT-4有1.7万亿个参数,这是什么意思?参数到底是什么?”
问得好!我发现很多人听到1750亿、1.7万亿这些庞大的数字时,根本不知道它们代表什么。所以,让我用我跟朋友解释的方式,用我们都懂的东西——烹饪——来解释一下。
让我们从已知开始
当你听到人工智能模型时,你会看到类似这样的数字:
-
GPT-3 拥有 1750 亿个参数 -
GPT-4 大约有 1.7 万亿个参数 -
Claude 3.5 Sonnet 大约有 4000 亿个参数
这些数字非常庞大。但它们意味着什么?它们存储了这么多事实吗?这么多句子?让我来解释一下。
想想一位厨师
想象一下你正在学习烹饪。你从食谱、食材和大量的练习开始。随着时间的推移,你不再只是照搬食谱,而是真正理解了烹饪。你知道什么时候该加盐,食材需要煮多久,哪些香料搭配起来味道更好。
人工智能模型的工作原理也相同。
原始数据 = 训练数据
训练人工智能模型时,我们会向它输入大量的教科书、网站、对话、代码和文章。你可以把这些想象成食材。光有面粉、香料和蔬菜并不能让你成为一名优秀的厨师,你还需要学习如何使用它们。
厨师技能 = 参数
这就需要用到参数了。
参数并非训练数据,而是模型从这些数据中学习到的东西。你可以把它们想象成厨师的技能、经验和直觉。
厨师做了1000次印度香饭后,就能学会:
-
究竟多少盐才能平衡米饭的味道? -
何时加入香料才能达到最佳风味 -
根据火候确定烹饪时间。 -
如果出现问题该如何调整
他们并没有记住1000种印度香饭的食谱,而是理解了印度香饭的制作原理。正是这种理解,以及那些储存在他们脑海中的细微 调整和决策,构成了人工智能中的参数。
学习究竟是如何发生的?
这是很多解释都忽略的最重要部分。
想象一下,一个学生厨师正在学习制作印度香饭。接下来会发生什么呢?
第一步:他们(运用现有知识)烹制印度香饭
第二步:主厨品尝后说:“太咸了”或“不够辣”。
步骤三:学生调整了烹饪技巧,比如下次少放半茶匙盐,或者更早地加入豆蔻。
第四步:他们根据这些调整再次烹饪。
第五步:重复此步骤数千次
经过一千次的尝试,学生不再需要大厨的指导了。他们已经掌握了其中的规律,凭直觉就能做出美味的印度香饭。
这就是人工智能训练的运作方式
该人工智能模型从其训练数据中读取数十亿个句子。对于每个句子,它:
- 尝试预测下一个单词
——“猫坐在___上” - 检查是否正确
——正确的词是“mat”。 - 调整其内部数值(参数)
,以便下次做出更准确的预测 -
在所有文本中重复数十亿次
在这个过程中,模型并非记忆句子,而是学习模式:
-
语法规则(主语在前,谓语在后) -
词语关系(猫坐着,鸟飞) -
语境(河岸与银行) -
推理模式(因果关系)
训练结束时,这1.7万亿个参数包含了所有这些学习到的模式。它们就像模型从阅读所有文本中获得的压缩智慧。
那么,“1.7万亿个参数”究竟意味着什么?
当我们说 GPT-4 有 1.7 万亿个参数时,我们的意思是说它有 1.7 万亿个微小的可调数字,这些数字存储了所有这些学习到的知识。
每个参数都像是一个微小的知识点:
-
“当这个词出现时,稍微增加下一个词出现的概率。” -
“在这种语境下,这种短语结构更可能出现。” -
“这些概念之间存在这样的关联”
参数越多,存储细微模式和差别的能力就越强。这就是为什么更大的模型通常能更好地理解上下文并给出更复杂的响应。
但关键在于:更多的参数并不意味着需要记住更多的事实,而是意味着更强的理解语言模式的能力。
当你向 ChatGPT 提问时
现在,当你在 ChatGPT 中输入问题时,会发生以下情况:
你就像点餐的顾客。人工智能厨师不会在数据库中查找你提出的具体问题。相反,它会利用所有1.7万亿个已学习的模式(参数)当场生成一个全新的答案。
这就是为什么它能够回答从未见过的问题。就像技艺精湛的厨师无需确切的食谱也能烹制出新菜一样,人工智能可以利用它学习到的模式创造出新的答案。
为什么小型号也能很好用
你可能会想:如果参数越多越好,为什么我们反而使用更小的模型呢?
换个角度想,你不需要米其林星级厨师才能做出美味的家常菜。有时候,一个基本功扎实的家庭厨师也能做出令人惊艳的佳肴。
像 GPT-4o(约 2000 亿个参数)这样的新模型设计得更智能。它们的参数数量可能较少,但组织得更高效。它们在大多数任务中仍然表现出色,同时还具备以下特点:
-
响应速度更快 -
运行成本更低 -
更容易在不同设备上使用
简单的真相
所以,当有人问你什么是人工智能参数时,你就这样告诉他们:
参数是存储在人工智能模型内部的学习知识。它们通过数十亿个训练样本生成,模型会不断调整自身以做出更准确的预测。它们并非记忆中的事实,而是模型在语言中发现的模式和关系。
这就像死记硬背菜谱的人和真正理解食材搭配原理的厨师之间的区别。人工智能拥有1.7万亿个微小的理解单元,这帮助它对从未见过的问题做出智能回答。
就是这样。这就是参数的作用。
但是等等,RAG 和微调呢?
现在事情变得更有意思了。我的朋友接着问:“但是当人们谈到RAG(红绿灯)或微调时,这又该怎么解释呢?”
问得好!让我继续用烹饪来打比方。
法学硕士学位就像冷冻食品
把训练有素的机器学习机器人(比如 GPT-4 或 Claude)想象成高品质的冷冻食品。它已经准备就绪,烹饪完毕,随时可以享用。厨师(也就是训练它的公司)已经完成了所有繁重的工作。所有那些参数?都被冻结在原位了。
但你仍然可以对其进行改进或根据自身需求进行定制。以下是两种方法:
RAG(检索增强生成)= 添加新鲜成分
想象一下,你手头有冷冻的印度香饭。味道不错,但你想按照自己的想法来做。于是你:
-
加热 -
顶部撒上新鲜香菜 -
加入一些酸奶酱 -
或许可以多加些炸洋葱。
你并没有改变冷冻印度香饭本身,只是添加了一些新鲜食材,让它更好吃,更符合你的口味。
这正是 RAG 所做的。
使用RAG时,您不会改变 AI 的参数(冷冻食品会保持冷冻状态)。相反,您会在 AI 需要时为其提供新鲜的、相关的信息:
-
你问:“我们公司上周的会议讨论了什么?” -
RAG 系统搜索贵公司文档 -
它找到了会议记录 -
它会将这些注释连同你的问题一起提供给人工智能。 -
人工智能利用其已冻结的知识(参数)和最新信息(会议记录)来回答问题。
基本模型保持不变,但您已用最新的具体信息对其进行了增强。就像给冷冻食品添加新鲜食材一样。
微调 = 用冷冻食品制作新菜肴
现在想象一下另一种情况。你拿出那份冷冻的印度香饭,决定完全重新制作:
-
加入奶酪,就成了奶酪比尔亚尼饭。 -
或者添加额外的蔬菜和香料,创造出全新的风味。 -
你实际上是用冷冻食品作为基础,创造出一道新菜。
这是微调。
当你对人工智能模型进行微调时,实际上是将其中一些参数解冻,并使用你的特定数据重新训练它们:
-
你从基础模型(冷冻食品)开始。 -
你可以用你提供的具体例子来训练它(添加新的配料并以不同的方式烹饪)。 -
这些参数会根据您的具体使用情况进行调整。 -
最终你会得到一个定制模型
例如,医院可以利用医疗记录对 GPT-4 进行微调,从而创建一个专门的医疗人工智能。其基础知识(语言模式、推理能力)仍然存在,但现在经过调整,能够更好地理解医学术语和模式。
关键区别
RAG = 保持模型冻结,仅在需要时添加新信息
-
设置快捷 -
无需重新培训任何内容 -
非常适合添加新的、不断变化的信息
微调= 解冻并调整模型本身
-
需要更多的时间和资源 -
更改实际参数 -
非常适合专业任务或特定领域知识
两种方法都基于相同的理念:预训练模型(拥有数万亿个参数)就像是你的起点,你的起点就像是冷冻食品。但根据你的需求,你可以围绕它添加新鲜食材(RAG),或者将其改造成新的东西(微调)。
注:新模型的确切参数数量通常是估计值,因为公司并非总是公布官方数据。但概念不变:参数代表的是学习到的模式,而不是原始数据。
关注「索引目录」公众号,获取更多干货。

