

语言作为通用学习机器

七元宇宙

2024-05-27

导读：说就是相信。眼见为实。机器学习的语言模型已经改变了日常生活：当我们学习、驾驶、理财时，它们会引导我们。

说就是相信。眼见为实。

机器学习的语言模型已经改变了日常生活：当我们学习、驾驶、理财时，它们会引导我们。它们有可能改变我们的文明。但他们产生了幻觉。他们的现实是虚拟的。语言处理系列的第 4 部分提供了学习机如何工作的低级细节的高级概述。事实证明，即使它们能够像人类一样安全地识别幻觉和做梦，学习机器也会像人类一样，继续形成更广泛的错误信念和自我确认理论系统。

[我试图使这段文字对所有人都能读懂。跳过某些声明提供的数学基础不应影响后面的声明。即使只是开头和结尾的图片，也希望能传达主要信息。欢迎提出改进建议:)]

第 1 部分是：

谁是聊天机器人（它们对你来说是什么）？事后感想：四头大象在有聊天机器人的房间里

第 2 部分是：

语法：语言形式

第 3 部分是：

语义学：语言的意义

这是第 4 部分：

语言模型、名人和蒸汽机
学习的演变

2.1. 学习原因和迷信
2.2. 一般学习框架
2.3. 从鸽子到感知器

3. 学习功能

3.1. 为什么学习是可能的
3.2. 分解连续函数：Kolmogorov-Arnold⁶
3.3. 广泛学习
3.4. 近似连续函数：Cybenko 等人
3.5. 深度学习

4. 学习渠道和关注

4.1 通灵概念
4.2 静态信道学习：RNN、LSTM...
4.3 动态通道学习：注意力、变压器...

5.超越幻觉

5.1. 参数化学习框架
5.2. 自学
5.3. 自我确认的信念

归因

笔记

1. 语言模型、名人和蒸汽机

任何人都可以开车。大多数人甚至知道引擎是什么样子的。但是当你需要修复它时，你需要弄清楚它是如何工作的。

任何人都可以与聊天机器人聊天。大多数人都知道在引擎盖下有一个大型语言模型（LLM）。有很多很多文章描述了LLM的样子。很多五颜六色的图片。小组件的复杂网格，仿佛数学抽象和模块化编程仍在等待发明。YouTube 频道提供有关 LLM 名人的新鲜独家新闻。我们了解它们的部件以及它们是如何连接的，我们知道它们的性能，我们甚至看到它们中的每一个如何将输入的热图更改为输出的热图。一个比另一个更热。但是我们了解它们是如何工作的吗？专家说他们这样做了，但他们似乎甚至无法向对方解释，因为他们继续在几乎所有事情上都存在分歧。

当然，每个孩子都知道，很难解释你刚刚建造的东西。我们伟大的文明建造了许多无法解释的东西。蒸汽机已经设计了近 2000 年，直到科学家解释它们如何从热量中提取功。现在已经没有多少蒸汽机了，但是有很多语言引擎和一整套科学解释，它们是如何从参考文献中提取意义的。主要的理论是，圣诞老人从山上下来，给了我们刻在石碑上的变压器建筑。

变形金刚改变了世界，催生了后代和竞争对手......就像蒸汽机一样。这可能是一件好事，因为蒸汽机并没有仅仅因为创造者不了解他们而消灭他们的创造者。

我不是在蒸汽机时代，但我在笨重的计算机时代，当网络出现，一切都改变了，当网络巨头出现并改变了网络时。在那段时间里，人工智能研究似乎是朝着智能设计的一种努力。它没有改变任何事情，因为智能和生命一样，是一个进化过程，而不是智能设计的产物¹。但现在一些友好的学习机器和聊天机器人人工智能得到了发展，一切都在再次改变。在经历了过去的范式转变之后，我正试图弄清楚现在的范式转变。因此，这门课程和这些著作。一方面，我可能没有机会说任何以前没有说过的话。即使经过大量诚实的工作，我仍然是一个目光短浅的非专家。另一方面，在人工智能领域发展出一些强大的工具和想法，人工智能专家似乎没有意识到。人们聚集在研究社区中，专注于同样的事情，而忽略了同样的事情。越过篱笆，邻居有时比他们自己更了解邻居。这有时会导致麻烦。一个持续的诱惑。这是篱笆上的景色。

2. 学习的演变

2.1. 学习原因和迷信

蜘蛛已经准备好建造蜘蛛网。他们编织渔网的工程技能被编程在他们的基因中。他们是预先编程的建造者，甚至他们选择和记住网的好地方的能力也是自动化的。

狗和鸽子已经准备好寻找食物。他们学习食物来源和行动的能力是自动化的。在一个著名的实验中，生理学家巴甫洛夫研究了最简单的学习形式之一，通常称为条件反射。

心理学家斯金纳（Skinner）继续以同样的方式表明，鸽子甚至可以发展出一种迷信形式，也可以通过试图了解食物的来源。

如果食物在鸽子啄食时到达，她就会知道啄食会召唤食物

斯金纳在完全随机的时间喂鸽子，与它们的行为无关。大约70%的人相信他们可以变出食物。如果一只鸽子碰巧在地上啄食，或者在食物到达之前弄乱羽毛，这将使它们更频繁地参与这个动作，这增加了食物在它们执行该动作时到达的机会。如果其中一个随机联想，比如食物和啄食，在一段时间后占了上风，那么它就会被提升为一种食物的仪式舞蹈。每一次，食物最终都会到达并确认仪式有效。

人类已经准备好寻找原因并预测结果。像鸽子一样，他们将巧合事件与相关事件联系起来，并发展迷信，将巧合促进为因果理论。当鸽子最终会啄食空旷的表面来召唤谷物时，人类却建立了巨大的错误信仰系统，将他们的命运和不幸归因于数百万光年外恒星的影响，或者邻居的邪恶之眼，或者几乎任何可以看到、感觉到或计数的东西²。

但是，虽然我们的因果信念与鸽子共享，但我们建造房屋和跨桥的能力却与蜘蛛共享。与蜘蛛不同，我们没有准备好建造，但必须学习我们的工程技能。我们已准备好学习。

2.2. 一般学习框架

学习场景的鸟瞰图如下所示：

输入来自左侧。主要角色是：

过程 F，监督学习中的主管（图灵称之为“老师”）处理 X 类型的输入数据 x 以产生 Y 类型的输出类或参数 y;
一个 a 索引的函数族 U（−）a，其中 U 是学习机或解释器（图灵称其为“瞳孔”），索引 a 是模型，通常表示为程序;最后，还有
函数 L，通常称为损失，将输出 y = F（x）与预测 ỹ = U（x）a 进行比较，并提供一个实数 L（y，ỹ）来衡量它们的差异。

监督学习框架的学习者被赋予一个有限的集合

其中 xs 是来自源 X 的样本，ys 是来自随机变量 Y = F（X）的相应样本。学习者的任务是构建一个模型 a，将损失降至最低

其中 yi = F（习）和 ỹi = U（习）a 表示 i = 1,2,...,n。由于当其他损失减少时，某些损失可能会增加，因此需要学习算法来最小化平均猜测风险

其中 [U（习）a] 表示尝试猜测 U（习）a 的频率。一旦找到一个风险最小的模型 a，函数 F 就会通过在实现模型 a 的程序上运行机器 U 来近似，我们写

土豆，土豆，西红柿，tomahto。学习的结果是什么？我们只是将一轮监督学习的结果 a 称为主管 F 的模型。由于 a 是提出 F 的尝试，大多数逻辑学家会称它为 F 理论。如果解释 U（X）a 如实呈现 F（X），他们会说 F 实际上是 U 语义解释下理论 a 的模型。另一方面，统计学家会说 a 是关于 F 的假设。如果一个假设或理论被认为是正确的，那么它就是学习者信念状态的一部分。在最后一节中，我们将得出一个奇怪的结构，说明需要研究机器学习的信念逻辑³。我们坚持将学习成果称为模型，因为这似乎是常见的用法。然而，一个重要的问题是，F 的模型 a 需要可执行，以便计算值 F（X）的预测 U（X）a。但如果你仔细想想，可执行模型就是我们通常所说的程序。总之，学习过程的结果是一个可执行的模型。学习的累积结果是学习者的信念状态。学习的过程是寻找可学习的程序。

所有的学习都是语言学习。通常，要学习的过程 F 是以通道形式给出的，这意味着输出与上下文相关。语义部分第 3.2 节中的故事适用。通道输入 xj 取决于前面的输入习 i、< j。当有反馈时，xj 还依赖于前面的输出 yi、i < j。为了能够学习 F 的行为，学习机 U 也必须是一个通道。由于捕获通道依赖关系需要句法和语义参考，因此每个学习者背后都有一种语言，无论它是否明显。对电影、音乐或图像等语言的符号学分析描述了真正的句法和语义结构。不同的生物以不同的方式学习，但对于人类和他们的机器来说，所有的学习都是语言学习。

2.3. 从鸽子到感知器

鸽子迷信。鸽子学会预测的函数F是食物的来源。它可以看作是一个通道 [X ⊢ Y]，其中值 x1、x2、. .类型 X 是时间时刻，Y = F（X）是一个随机变量，以固定的概率提供种子。假设 Y = 1 表示“食物”，Y = 0 表示“没有食物”。如果我们采用可能的模型（程序、信念）a 来对应于鸽子可用的一组动作的元素，那么鸽子正在尝试学习哪些动作 a 以及在哪些时刻 x 输出 U（x）a = 1 以及何时输出 0。损失 L（y， U（x）a） = |y-U（x）a|如果食物是在鸽子采取行动 a 时送来的，则为 0。在足够长的时间后，随机输出 Y = 1 几乎肯定会与某些 a 的预测 U（X）a = 1 一致。然后鸽子会学会更频繁地做，并增加这种巧合的机会。如果一个a占了上风，鸽子就会知道它会引起食物。

统计测试。科学是一系列旨在克服迷信和偏见的方法。这个想法是通过系统地测试假设并只接受显着的相关性来防止鸽子式的确认。统计假设检验的数学基础是由罗纳德·费舍尔（Ronald Fisher）在1920年代开发的，并且一直是科学实践的面包和黄油。关键的假设是，任何假设 a 的解释 U 与其概率密度 pa（x） = dU（x）a 一起给出。然后通过该概率描述的长度来估计损失 L。如果 pa（x）的值由一串数字描述，则其描述长度与 −log pa（x）成正比。因此，猜测风险为 R（a） = ∫− log pa（x）dU（x）a。这种值在信息论中被研究为不确定性的度量。因此，最小化 R（a）归结为选择假设 a，该假设最小化抽样 U for a 的不确定性。因此，Fisher 推荐了一种学习算法，该算法以最大可能性选择假设。

统计检验的基本缺点是必须知道密度 pa。它们被假定为来自科学家的思想，以及他们的假设被 a 参数化。因此，统计学提供了一种测试服务，但学习假设 a 的实际过程超出了范围，留给了洞察力和创造力的魔力。当柯尔莫戈罗夫和他的学生几十年来一直在思考这个问题并最终解决它时，解决方案的核心部分无意中出现了，并且来自一个意想不到的方向。

感知器。1943年，McCulloch和Pitts提出了一个神经元的数学模型。它归结为状态机，就像图灵1936年的原始计算机一样，只是更简单，因为它没有外部存储器。在1950年代后期，弗兰克·罗森布拉特（Frank Rosenblatt）致力于将神经元模型扩展为大脑模型。这是一个非常雄心勃勃的项目。

罗森布拉特 1958 年向海军研究办公室提交的项目报告中的插图。— 公有领域

然而，罗森布拉特得出了一个比麦卡洛克-皮茨神经元更简单的组件。他称之为感知器，以强调他的项目与“与自动模式识别和'人工智能'有关的各种工程项目”的区别。尽管如此，该项目还是产生了标题为“由海军机器人设计的弗兰肯斯坦怪物”的新闻报道，正如罗森布拉特在他的书中适当报道的那样⁴。

数学神经元被定义为对 a = （b， ⟨w |），其中⁵

b 是标量。它旨在成为由解释器 U 集成的非常简单的程序。计算 a = （b， ⟨w |）在输入向量上输入向量 |x ⟩，解释器 U 应用投影 ⟨w |上 |x ⟩得到内积 ⟨w |x⟩，它测量任何一个向量在另一个向量上的投影长度，然后输出差值符号 ⟨w |x⟩ − b：

为了更简洁地查看，对 a = （b， ⟨w |）和输入 |x ⟩ 通常被修改为

因此，神经元的解释可以归结为

感知器是这种神经元的组成。如果神经元表示为单行向量，则感知器是行向量的（n + 1）元组

在输入 |x⟩，感知器 A 的解释计算

为了更简洁地查看，向量的 n 元组 ⟨w1 |， . . . ， ⟨wn |可以排列成矩阵

因此，感知器 a = （⟨v|， ⟨w1 |,...,⟨wn |）归结为 a = （⟨v|， W），其解释变为

总结一下，左边是神经元的两个表示，右边是感知器的两个表示。

第一行显示了原始形式的神经元和感知器，阈值为 bj。第二行显示了每个 bj 被吸收为权重向量 ⟨wj |）的第 0 个分量的版本。

感知器是机器学习和归纳推理的突破，是同一枚硬币的两面。统计学为假设检验提供了正式的方法，但将学习和推断假设的任务留给了非正式方法和创造力的魔力。感知器训练是第一个用于归纳推理的形式化方法。如今，这种方法看起来很明显。学习者启动权重 |w ⟩ 并将阈值 b 转换为任意值，运行解释器 U 生成预测，将它们与主管 F 提供的训练数据进行比较，并根据损失 L 按比例更新权重。即使对弗兰克·罗森布拉特（Frank Rosenblatt）来说，这似乎也没什么大不了的，他写道

感知器计划主要关注的不是“人工智能”设备的发明，而是研究“自然智能”的物理结构和神经动力学原理。

罗森布拉特为机器学习奠定了垫脚石，同时试图模拟人脑的学习过程。即使是第一台学习机也不是故意设计的，而是自发进化的。

人们常说，飞机不是通过研究鸟类的飞行方式来制造的，智能机器也不是通过观察人们的头脑来制造的。但手头还有更多。感知器为学习作为一种通用的计算过程打开了一条道路。机器学习和人类学习是普遍学习过程的特殊实现，这是一个不断发展和多样化的自然过程。机器学习模型提供了对所有学习化身的共同点的见解。感知器计算的模式将在本说明其余部分介绍的每个模型上重复。

3. 学习功能

3.1. 为什么学习是可能的

为了理解为什么学习是可能的，我们首先考虑通道F无记忆和确定性的特殊情况：一个普通函数。

可学习的功能是连续的。从一组有限的对（x 1，y1）、（x 2，y2）,...,（xn，yn），其中 F（习） = yi 中，可以了解函数 F：X⟶Y 的什么？一般什么都没有。知道 F（x）并不能说明任何关于 F（x′）的信息，除非 x 和 x′ 在某种程度上是相关的，并且 F 保留了它们的关系。要推广观察到的样本（x1， y1）， . . . ，（xn， yn）并预测未观察到的数据项 x′ 的分类 F（x′） = y′，必须

x′ 与 x1,...,xn 相关，
y′ 与 y1,...,yn 相关，其中 yi = F（习）表示 i = 1,...,n，并且
F 保留关系。

如果将此类关系中的 xs 和 ys 的集合视为邻域，则数据类型 X 和分类器类型 Y 成为拓扑空间。邻域形成拓扑结构。如果您不知道拓扑的正式定义，请不要担心。这只是一种抽象的说法，即 x 和 x′ 生活在同一个邻域。函数 F：X⟶Y 在将邻居映射到邻居时是连续的。而且社区不一定是物理上的接近。两个含义相似的词生活在一个语义邻域中。任何一种关系都可以用邻域来表示。因此，如果 x′ 与 x1 和 x2 相关，并且 F 是连续的，则 y′ = F（x′）与 y1 = F（x1）和 y2 = F（x2）相关。这允许我们从一组对（x 1，y1），......，（xn，yn）中学习，其中F（习）= yi，F（x′）=y′也成立。然后我们可以将货币对（x′， y′）添加到列表中作为预测。没有邻里和连续性，我们就无法做出这样的预测。为了可学习，函数必须是连续的。

它有很多使用方式，也有很多细节需要解决。目前，请注意，学习是基于联想的。沿连续函数 F：X ⟶Y 将一组名称 X 与一组面 Y 相关联。通过搜索对（x1， y1）， . . . ，（xn， yn），记住脸 F（Allison），其中名称习与 Allison's 相关联。由于 F 是连续的，因此面 yi = F（习）必须与 Allison 的相关联。因此，如果你找到艾莉森名字的邻居的脸，那么你可以在艾莉森邻居的脸附近找到艾莉森的脸。这就是联想记忆的工作方式：作为连续函数的家族。数据库中的键值关联的工作方式类似。无论是在人类记忆中还是在数据库中，关联记忆都是使用参照邻域实现的。当函数保留关联时，函数是可学习的。当它们连续时，它们会保留关联。

连续函数可以部分计算和线性近似。微积分基本定理粗略地说，导数和积分作为函数的运算，是彼此的逆数。积分以任意精度逼近任何可微函数，通过近似函数导数的阶跃函数的线性组合。任何可导函数都可以通过分段线性函数线性近似。

一个连续的（不可微分的）函数可能无法通过分段线性函数来近似——但事实证明，它总是可以通过连续函数（非线性或多项式）的线性组合来近似，通常称为驱动。这个非线性函数的近似线性组合是可学习的。因此，机器学习应运而生。

另一方面，连续函数的近似性仍然是微积分的一大秘密。所有连续函数都可以分解为单变量连续函数的总和，这一事实违背了大多数人的直觉。它说，就计算而言，连续函数之间没有真正的多维现象。你可能在向量微积分教科书中看到过所有这些复杂的多变量函数，或者如果你是工程师或科学家，在实践中遇到过——它们都可以部分评估，每个变量都是分开的。这就是为什么它们可以被学习。

3.2 分解连续函数：Kolmogorov-Arnold⁶

希尔伯特的第 13 个问题。早在 1900 年，著名数学家大卫·希尔伯特（David Hilbert）就提出了他著名的 23 个数学问题清单，供下个世纪使用。列表中的第 13 个问题是，如果所有具有 3 个变量的函数都可以通过组合 2 个变量的函数来表示。希尔伯特推测，一个特定的函数，即方程 x⁷ + ax³ + bx² + cx + 1 + 1 = 0 的解公式，用系数 a、b 和 c 表示，不能分解为系数对的函数。本世纪过半，19岁的弗拉基米尔·阿诺德（Vladimir Arnold）证明了所有具有3个变量的连续函数都可以分解为具有2个变量的连续函数，并反驳了希尔伯特的猜想。第二年，阿诺德的论文导师安德烈·科尔莫戈罗夫（Andrey Kolmogorov）证明了一个惊人的概括。从那时起，该定理得到了加强和简化。早期的简化是基于以下将 d 维立方体嵌入到（2d+1）维立方体中，该立方体的构造允许在任何连续函数中分离 d 变量。

与固定的（2d+1）维向量一起 ⟨v |，嵌入⁷ W，产生要求的分解。

评论和解释。展开分解产生

对于 d 变量的所有函数，只有 φ 取决于 f，而 W 和 v 是全局给出的。它们不是唯一的，可以选择 W，以便 ⟨v|是 1s 的向量，正如在此展开版本中假设的那样。这些结构不仅推翻了希尔伯特的猜想，而且仍然违背了大多数人的几何直觉。原因可能是我们倾向于从光滑函数的角度来思考，而函数 ψ 和 φ 是高度分形的。它们是使用魔鬼楼梯或空间填充曲线的副本构建的。嵌入 W 的几何解释是 ψs 的（2d+1）元组在（2d+1）维立方体中绘制一条曲线，该曲线的副本跨越 d 维立方体的同构图像：

这是上图中 W 的第一个分量。⟨w|来自 D 立方体内的向量决定了其逆图像迭代填充 D 立方体的ψ副本的线性组合。Kolmogorov 的原始构造沿 d 立方体的边缘划分映射 f，并将 d 的不同函数组合φ来表示 f 。Sprecher 和 Lorentz 后来注意到，额外的拉伸允许通过一个φ捕获 f 的所有部分。这是可能的，因为 f 对其每个 d 变量的依赖性可以在其域的 null 子集上以任意精度近似，并且 [0,1] 的 null 子集可以不相交。结果是，唯一真正的多变量连续函数是加法。多变量连续函数的多个输入始终可以以这样一种方式进行预处理，即每个输入由单变量函数单独处理。然后通过将单变量分量的输出相加来获得原始多变量函数的输出。因此，连续函数被部分计算，每个输入都是分开的。

要付出的代价是，执行预处理和处理的单变量连续函数是复杂的、无效的，并且是通过迭代近似构建的。在很长一段时间里，柯尔莫戈罗夫证明的反复赋格被看作是从黑暗中瞥见一个复杂的世界，超出了我们的想象或效用。然后在 1980 年代后期，Hecht-Nielsen 注意到 Kolmogorov-Arnold 分解似乎与感知器架构有关，如上图所示。这是怎么回事？

3.3 广泛学习

到目前为止，我们研究了一种理论结构，提供

使用 f 的精确表示
独立于 f 和⟨
近似构造φ取决于 F。

现在我们转向一个实际的结构，提供

使用 F 的近似表示
依赖于 f 和⟨
精确的构造σ独立于 F。

通过将上面的 KA 表示图与下面的 CHSW 表示图进行比较，说明了从上面的连续分解到下面的神经近似的步骤：

具有σ激活的神经元

让 W 随 f 变化可以省略变形ψ。让 ⟨v|与 F 不同允许用固定激活函数替换φ，独立于 F。

3.4. 近似连续函数：Cybenko 等人

激活函数。下面的神经逼近定理指出，任何连续函数都可以通过固定激活函数σ的线性组合来近似。我们只需要从这个函数中得到的就是，它限制为两个闭合的实区间之间的同构，不能用多项式表示。该结构可以设置为仅使用建立这种连续的单调间隔双射的部分。该部分可以方便地重整化为s形结肠：扩展实线和区间[0,1]的同构。早期的神经网络使用逻辑 sigmoid，它很容易建立同构性。还使用了双曲正切和弧正切，并适当地重新归一化。如今，函数 max（0， x）是首选。它最初的名称是“整流线性单元”，后来被简化为ReLU，这是一个与小宠物共享的昵称。如果激活函数可由多项式表示，则神经近似构造失败。这显然排除了所有线性函数——但两个线性函数的连续组合已经很好用了，正如 ReLU 所示，将常数 0 低于 0 和恒等式高于 0 组合在一起。

由于 f 和 U（-）f 都是连续的，因此近似声明等价于说，对于每个 ε > 0，有 δ=δ（ε） >0，使得

因此，具有激活函数的神经元是连续函数的通用近似器，从某种意义上说，对于立方体上的每个连续 f，都有一个神经元 f=（W，⟨v|），使得 f|x⟩≈ U|x ⟩f，具有任意精度。

1989 年，Cybenko 和 Harnik-Stinchcombe-White 独立发表了不同版本的神经逼近定理的证明。同时，神经近似已被广泛使用，并提供了各种其他版本、视图和概述。总体见解将 CHSW 近似和 KA 分解链接在一个计算框架中，该框架似乎超越了最初的动机。

连续函数可以近似，因为它们的变量可以分离。在计算方面，这意味着可以部分计算连续函数。这使它们具有可学习性。将 CHSW 近似与 KA 分解并行展开，可显示常见模式：

语句后面的相应图表再次显示了类比。但请注意差异。第一个区别是左边的 w 和 v 依赖于 f，而右边只有 φ 依赖于它。第二个区别是，对于固定输入 d，允许部分求值的单独变量的数量在右侧分解的情况下固定为（2d + 1），而在左侧近似的情况下，n = n（ε）取决于近似误差ε。这是很重要的一点。

σ神经元可以近似给定函数的空间的维度 n 是神经元的宽度。神经逼近定理说，对于任何连续函数，都有一个足够宽的神经元，可以将其逼近到所需的精度。这就是广泛学习的本质。通过σ副本的线性组合来逼近连续函数的想法类似于 Lebesgue 通过阶跃函数的线性组合来逼近可积函数的想法。在这两种情况下，任意接近的近似都是通过增加近似数 n 来实现的。

宽神经网络。对于连续实函数的所有陈述都可以毫不费力地提升到连续向量函数，这些向量函数在有限维度上只是连续实函数的元组。σ神经元的近似提升到σ神经元的元组，也就是单层神经网络。下图中从左到右的步骤。

神经元（W， ⟨v1|）、（W， ⟨v2|）,...,（W， ⟨vq|）的 q 元组捆绑在一起，给出了一个单层神经网络 a = （W，⟨v1 |，⟨v2 |,...,⟨vq |），更简洁地写成 a = （W，V），其中 V 是矩阵，其 ⟨vj|像以前一样，向量作为行。神经逼近定理意味着每个连续向量函数都可以通过足够宽的单层神经网络以任意精度近似。术语宽神经网络通常是指单层网络。最后一张图顶行中的电路视图与将变量层括在框中的格式对齐。当网络变得很深时，这将变得必要。

3.4. 深度学习

扩大规模。广泛学习的麻烦在于，在一些简单的函数中，分离变量是困难的，并且需要分离的变量数量 n 随着维度 d 的增加呈指数级增长。例如，在任何维度上呈现半球的函数中分离变量是很困难的。尽管立方体上的任何连续实函数都可以通过宽σ神经元进行近似，并且可以通过单层网络进行任何连续向量函数，但在最坏的情况下，近似是难以处理的。推断预测所需的训练数据量也随宽度呈指数级增长⁸。

通过加深缩小。近似函数 f 的一般思路是找到一种算法来转换数据

并用

以获得所需的精度ε。因此，单层神经网络宽度 n 的指数增长通过深度神经网络层的下降来缓和，如下所示：

在每个内层，将输入变换 W 与前一层的输出变换 V 组合在一起，得到复合 H。

作为线性算子的复合，H 本身是线性的，可以直接训练，而忘记了 Ws 和 Vs。因此，深度神经网络是 a=（W， H1， H2， . . . ， HL， V）形式的程序。

神经网络是可学习的程序。一般的学习过程可以看作是程序开发的过程。学习函数 F 意味着收敛到一个程序 a，其执行 U（x）a 近似于 F（x）。学习者是程序员。诚然，编程的目标不仅仅是近似函数，而是精确地实现它。理想情况下，函数 F 的程序 a 应满足 U（x）a=F（x）。实际上，程序仅实现一个功能，最高可达正确性计L（U（x）a，F（x）），通过程序测试或软件保证方法实现。编程可以看作是学习的一个特例。

我们已经看到了神经网络作为一种编程语言的语法的许多主要特征。单个神经元 a = ⟨w |是原子程序表达式。单层网络 a = （W，V）是单指令程序。深度网络 a = （W， H1， H2， . . . ， HL， V）是一个通用程序。它的内层是程序指令。为简单起见，内层通常捆绑在一个通用名称下，例如 h = （H 1，H2,...,HL）。一般神经程序的形式为 a = （W，h，V）。

4. 学习渠道和关注

将函数学习应用于语言的问题在于语言是上下文敏感的：例如，“up”这个词在“闭嘴”中意味着一件事，在“cheer up”中意味着另一回事。我们在语法部分的 Beyond sintax 部分讨论过这个问题。在所有上下文中，都需要一个函数为每个输入分配相同的唯一输出。意义不是一个函数，而是一个沟通渠道，它为每个上下文分配了概念 y 的概率分布：

在语义部分，我们看到了如何将概念建模为向量，通常是单词的线性组合。因此，意义是一个随机变量 Y，在概念向量 y 上采样。在语义部分的动态语义部分有通道形式主义的概述。当没有渠道反馈时，上下文是渠道源

并根据概率对通道输出进行采样

您可以将源 X 视为文本，将通道 F 视为将文本翻译成另一种语言的文本 Y 的过程：

类似的解释包括通道模型下的意义、句法类型、分类和生成。共同点是上下文依赖性，无论是句法还是语义，确定性还是随机性。语义引用可以是远程的。小说中句子的含义可能取决于 800 页前的上下文。你给老朋友说的话赋予的意义可能是基于他们多年前的性格模型。更复杂的是，每当有新信息可用时，远程引用和长期建立的通道模型可能会因上下文而异。

4.1 通灵概念

在不同的语言中，语义引用以不同的方式映射到句法引用。将普通话短语映射到法语短语需要偏离两种语言的句法依赖机制。优秀的翻译人员首先用一种语言理解短语，然后用另一种语言表达他们所理解的内容。这是一个两阶段的过程：

E 是概念编码图，而 D 是概念解码。类似的模式也出现在语义部分，作为通过奇异值分解（SVD）进行概念挖掘的实例。

在给定数据矩阵 M 中潜伏的概念被挖掘为其奇异值 λi。现在将σ神经元和单层网络的图与SVD的相应图进行比较：

神经网络通过分离连续函数的变量并通过激活函数σ的单独副本来近似每个变量的影响来近似连续函数。SVD 算法通过规范基特征空间分解数据矩阵，对应于矩阵的奇异值，被视为主导概念，跨越概念空间。SVD 中的特征空间是相互正交的。数据矩阵的作用归结为将它们中的每一个分别乘以相应的奇异值。神经网络近似和 SVD 都将潜在概念挖掘为最小相关的子空间，最好彼此正交。这些关系图显示相同的三步模式：

根据概念对输入进行编码，
对每个概念进行单独处理，
将概念解码为输出项。

这三个步骤以不同的方式服务于不同的目的：

但差异（1）会导致差异（2-3）。当函数 F 恰好是线性且差值（1）消失时，神经网络收敛到 SVD，差值（2-3）也消失。神经网络还挖掘潜在概念，如SVD。他们只是从任意连续函数中学习它们。

4.2 静态通道学习

如果神经网络通过在所有通道输入上应用相同的神经网络 h 来处理其输入，则该网络是静态的。

概念的 n-gram。作为预热，假设我们想通过在第 j 步中不仅考虑 Xj 而且考虑 Xj−1，对于所有 j ≥ 2，使一个静态网络网络稍微对上下文敏感。

2克概念

权重 T 的更新方式与 W 相同，通过最小化损失并将更新从一层传播到另一层。他们只需在每层添加一个训练步骤。这在结构上没什么大不了的，但在计算上却是一个显著的减速。如果将内层视为潜在的概念空间，那么这种架构可以被认为是将 2 克（捕获长度为 2 的竞赛的依赖关系）的概念从单词提升到概念。对于较大的 ns，推广到 n-gram 会导致进一步减速。

递归神经网络（RNN）。RNN 还在所有输入标记上应用相同的神经网络，并且不仅将 Xj 传递给第 j 个模块，而且还将来自 Xj−1 的信息传递给第 j 个模块——它们在将前一个网络模块应用于 Xj−1 之后传递它，而不是之前。

nNN理念

请注意，来自 Xj−1 的信息这次不仅由 S 转发到第 j 个模块，而且随着 S 的下一个副本将第 j 个模块的输出也转发到（j+1）-st 模块，依此类推。因此，信息传播原则上是无界的，而不是像 n-gram 模型那样被截断。进一步传播重要信息的矩阵 S 在训练中得到提升。但是，分配给所有输入条目的权重都以 S 格式打包。传播更长的上下文需要成倍扩展的网络模块。因此，我们又回到了原点，即宽度问题。

长短期记忆（LSTM）。LSTM 网络解决了在同一神经网络模块的迭代之间转发上下文信息的成本问题，方法是在（j-1）模块处理之前和之后将信息从（j-1）个输入标记转发到第 j 个模块。前者使从每个输入传递信息更有效，后者使传播更容易。

LSTM理念

在处理的不同阶段传递信息的想法很简单，但优化好处是一个难题，正如“长短”名称可能已经暗示的那样。实现细节很多。不同的激活函数应用于相同输入的不同混合物，并以不同的方式重新混合输出。在多个碱基中表达从相同数据中学到的概念需要多个矩阵，并提供了更多的训练机会。因此需要改进。但进一步的步骤需要进一步的想法。

4.3 动态通道学习

就像函数学习器一样，通道学习器寻求学习如何将输入转换为输出。不同之处在于通道转换与上下文相关。不仅输出总是依赖于输入上下文，而且输出对输出可能存在前馈依赖性，输入对输出的反馈依赖性，如语义部分的通道部分所述。神经网络的动态网络通过自适应地更新“关键”子网 k、处理通道输入和“值”子网 v 来学习通道，从而提供相应的通道输出。

编码器-解码器过程。一个重要的编程概念是过程的概念。虽然最早的程序只是程序指令的序列，但过程使程序员不仅可以在程序中调用指令，还可以调用整个程序，这些程序封装在程序中作为通用指令。由于过程可以在大多数程序控制结构中使用，这使得程序编程成为可能，并产生了软件工程。后来的编程范式，模块化、面向对象、面向组件和连接器，扩展了这一基本思想。

编码器-解码器架构是一个神经网络。如果神经网络被认为是程序，那么它就是一个程序之上的程序。编码器-解码器架构 A = （e， d）将宽神经网络的结构 a = （W， V）提升为网络网络。

编码器-解码器

输入混音矩阵W被编码器网络e取代，输出混音矩阵V被解码器网络d取代。宽网络 A 及其提升 A 都遵循概念挖掘的架构模式。就像程序编程允许将控制结构从程序提升到软件系统一样，编码器-解码器架构允许将概念挖掘结构从神经网络提升到神经架构。编码器-解码器架构作为概念挖掘框架的基本形式的问题在于，由静态数据集引起的概念空间是静态的，而通道是动态的。为了真正从通道中学习概念，神经网络架构需要动态组件。

注意力的想法。使神经网络能够预测通道输出的自然步骤

是从CHSW结构中推广基本σ神经元

在这种格式中，编码器-解码器过程输出的组件如下所示

哪里

是来自通道概念挖掘框架的基本编码器和解码器矩阵。但现在我们需要考虑在深度网络的内层学到的概念。对输入向量的（n+1）-st 输出值的影响 |因此，xj⟩ 由其投影 ⟨ej |xj⟩ 关于输入概念 ⟨ej|和预测 ⟨yn |行向量 ⟨yn|⟩关于输出概念的先前输出 |DJ⟩。对应概念之间的关系 ⟨ej|以及 |DJ ⟩经过培训，可以对齐通道输入和通道输出。这是注意力架构的基本思想。它可以绘制为 σ 神经元和 SVD 模式的通用泛化，具有动态奇异值。（这是一个有指导意义的练习。对于字符串输出，明显的扩展是

但是如何训练矩阵 V 并不明显，其行是输出混合物 ⟨vi |。通过从稍微不同的方向处理任务来解决该问题。

动态概念分解。如果每个向量 |⟩⟩,...,⟩ y⟩ 可以表示为以下形式

当且仅当向量 |1⟩,...,|n⟩ 是正交的，即 ⟨i|j⟩ = 0 只要 i≠j。如果生成向量不是正交的，但存在一个正交集|c1⟩，|c2⟩,...,|cn⟩，则存在唯一分解

如前所述，概念分析是寻求基本概念之间干扰最小的概念基础。当基本概念向量相互正交时，它们根本不会干扰。如果一个通道是由神经网络实现的，则上述概念分解变为

第一个区别是激活函数σ允许近似非线性。二是分量不是在原始基向量 ⟨i|而是在输出混合物上 ⟨vi|.最后也是最重要的一点，概念分解是独一无二的，因为概念基|c1⟩,...,|cn⟩是正交的，而这里的输出是投影在输入|x1⟩,...,|xn⟩上，这些输入不是正交的。但是如果存在一个正交概念基|c1⟩,...,|cn⟩，我们可以再次玩同样的把戏，得到一个独特的概念分解

这种抽象分解对混凝土通道意味着什么？基于概念向量的投影测量它们在输入中的权重 |xj⟩ 和输出 |yn⟩。预测的乘积之和衡量投入的影响 |xj⟩ 在输出 |yn⟩。该测量由σ激活，然后影响通道输出的第 i 个分量 |yn ⟩根据投影 ⟨vi |xj⟩。

唯一的问题是 |右边的 yn⟩ 是未知的，因为 |yn⟩ 是我们试图预测的。还有哪些其他值可用于近似某个概念在输出中的影响 |yn⟩？— 提出了两个答案。

译者注意：如果通道 F ： [X ⊢ Y] 是一个翻译，比如通过概念 |c⟩ 从普通话到法语，那么总和 ⟨xj|c⟩⟨c|yn⟩ 可以被认为是将译者的注意力分散在概念上 |c⟩，潜伏在普通话输入标记 |xj⟩ 在法国输出令牌之后 |yn⟩ 产生。这是有效影响（n+1）-st 输出的注意，上面的分解应该更新为

演讲者的自我关注：如果通道 F：[X ⊢ Y] 不是另一种语言的翻译，而是同一语言的延续 Y，那么它就不是无反馈的，因为 Xn+1 不是独立于 Yn，而是与 Yn 相同。为了捕获反馈，概念库拆分为编码基和解码基，如上所述，将输入表示为概念的混合，将概念表示为输出的混合。但是，由于每个输出都被提升到下一个输入中，编码器-解码器视图被键-查询-值术语和直觉所取代，从而导致

a = （K， Q， V）形式的自注意力模块，其中

是变压器架构的核心组件，即 GPT 的“T”，通道流结合了反馈和前馈流：

将注意力的直觉作为一种心理过程与数据库术语的键查询值相协调可能会让人感到尴尬。然而，扩展我们的直觉并认识到在我们的头脑和计算机中展开的自然过程的时机似乎已经成熟。

5 超越幻觉

5.1 参数化学习框架

回头看一下一般的学习框架，过了一会儿，你意识到转换器架构发现了一个在学习图中不可见的特征。它发现模型及其程序可以参数化。

学习者可以训练一个模型 a（X），该模型捕获通道 F 对任何 n 输入上下文的依赖关系，并将（n+1）-st 输入 X 保留为程序参数。当（n+1）-st 输入采样为 X=|x⟩，则模型实例化为 a|x⟩。解释此实例会生成对下一个通道输出的预测：

变压器是 a（X） = （K， Q（X），V）形式的参数程序。参数化是计算的一个重要特征，源于程序的部分可解释性，它作为模型的部分可学习性传播到机器学习中。虽然程序的部分评估从哥德尔的替换引理和克莱恩的Smn定理发展成为一种实用的编程方法，但模型的部分可学习性似乎在实践中得到了发展，据我所知，它正在等待一个理论。在本笔记的其余部分，我勾勒出一些初步的想法⁹。

5.2 自学

上图中的参数化学习框架捕获了学习者交互并学习预测彼此行为的学习场景。这不仅包括不同学习机器之间的对话，或同一机器的不同实例之间的对话，还包括学习机器学习预测自己的行为模参数的过程。通过实例化参数学习框架中的主管 F 来获得这种自学习的框架，以

获得的自我模型允许学习者预测自己的未来行为，如未来输入参数化的那样：

该框架还捕获了意外自学的情况，其中学习机器由于过度生产和过度使用而在自己的输出饱和的语料库上接受训练，这一过程与其他利用自然资源的行业相似。

预测的效果。了解我们所做的事情的后果有时会影响我们的工作。为了做出有效的预测，学习者必须考虑他们预测的影响。参数化学习为此提供了一个框架。学习者预测预测效果的能力使他们能够将预测引导到所需的方向。这就是有意自我实现的预言、自我验证或自我无效的理论的产生方式。一个特别有趣和令人担忧的案例是由适应性理论提出的，旨在通过重新解释他们的预测来通过所有测试。这种逻辑现象在历史、文化和宗教中无处不在¹⁰。学习机器肯定会更快、更有条不紊地发展这些过程。产生它们的方法基于学习者的自我模型。

5.3 自我确认的信念

学习就是相信。过程 F 的模型 a 表达了学习者 U 对 F 的信念。学习者在学习更多时会更新信念。学习就是更新信念。

信仰会影响他们自己的真理价值观。我们的信念会影响我们的所作所为，而我们的所作所为会改变现实的某些方面：我们通过移动事物来改变世界。既然现实决定了我们的信念是真是假，而我们的信念通过我们的行为改变了现实的某些方面，因此我们的信念可能会改变它们自己的真理价值。指责一个诚实的人是罪犯可能会使他们犯罪。把很多钱托付给一个贫穷但诚实的人，可能会把他们变成一个富有而不诚实的人。

做出自我确认的预测。如果 Bob 使用学习机 Uriel 来决定做什么，那么 Uriel 可以学习一个模型 b，该模型将始终移动 Bob 以按照 b 预测的方式运行。如果 Bob 与 Uriel 的信念相同，那么这些信念将被 Bob 的行为所证实。

为了阐明 Uriel 可以用来构建自我确认信念 b 的学习过程，假设 Bob 的行为是通过通道 B 表达的。Bob 使用 Uriel 来决定做什么的假设可以通过将通道的输出形式形式化

这意味着 Bob 咨询了 Uriel 并认为模型 a（X）解释了输入 X。声称 Uriel 可以找到一个模型 b（X），该模型将导致 Bob 充当 b（X）预测：

为了学习 b（X），Uriel 首先学习 B 的模型β实例化为 Uriel 的自我模型：

将（2n+1）个输入的β解释处理为第（2n+2）个输入，β的定义得到

现在定义了声明的自确认模型：

它满足索赔，因为

从可学习的程序到不可证伪的理论和自我实现的预言。学习就像编程一样的见解开辟了广泛的程序固定点结构。应用于学习，这种结构产生的模型可以沿着逻辑完备性或不完备性证明的路线引导自己的真理，无论是自我确认还是悖论。上述结构是该系列中最简单的示例之一⁹。他们准备模型和理论，吸收所有未来的证据，解释反例，并确认他们的预测。

归因

彩色画面由 DALL-E 在 Dusk-o 的提示下创作。手绘图表和图标由 Dusk-o 创作，在某些情况下由 DALL-E 提示。

本说明中介绍的结果来自许多出版物，这些出版物通常会列在参考书目中。但是，虽然书目格式在前网络时代是标准化的，但本文的主题是后网络。与此同时，在网络时代，我们习惯于在网络上查找所有参考资料。使用本讲义的学生被要求使用文本中的关键词找到相关的参考文献。他们需要在少数几个地方获得更多信息。我在这些地方添加了更多关键字和注释。如果需要适当的参考文献，或者如果参考系统被更新以供实际使用，将添加参考书目。

笔记

¹艾伦·图灵（Alan Turing）解释说，机器智能无法通过智能设计实现，因为智能本身无法完全指定，因为总是寻求和找到新路径是其本质。但图灵也是第一个意识到计算过程也不受设计和规范的束缚，而是可以发展和创新的人。他预计机器智能将随着计算而发展。然而，在图灵去世三年后，他在生命的最后 8 年思考和写作的机器智能概念被重新命名为人工智能，他的著作被遗忘了，旨在捕捉智能的逻辑系统激增。

²斯金纳对我们与鸽子的智力亲缘关系的探索，在论证因果关系本身本质上是没有根据的论点中，有有趣的解释。休谟、罗素、玻尔和许多其他科学家和哲学家从不同的方向发展了这种论点。

³我们关于机器人宗教的论文也指出了这个方向。

⁴弗兰克·罗森布拉特。神经动力学原理; 感知器和大脑机制理论，第 55 卷。Spartan Books，华盛顿特区，1962 年。

⁵回想一下 ⟨w|是行向量（w1 w2 ···wd ），而 |w⟩ 是相应的列向量。作为线性算子，行向量 ⟨w |表示列向量上的投影 |W⟩。

⁶自撰写本文以来，arxiv上出现了一篇论文，提出了一种新的神经网络家族，称为Kolmogorov-Arnold网络（KAN）。这个想法是很自然的，甚至我们从连续分解中推导出的神经近似也证实了这一点。然而，值得注意的是，KAN方法的提出者没有利用Kolmogorov在1957年构建的大量数学和计算简化和改进，尽管他们引用了一些具有相当完整参考文献列表的论文。由于他们似乎正在积极更新已发布的有关其工作的报告，因此可能会在未来的版本中利用错过的改进机会。

⁷在旧式矩阵表示法中，洛伦兹-斯普雷彻嵌入是

⁸在他们开创性的批判性著作《感知器》中，Minsky和Papert证明了表示布尔函数的感知器的系数在函数本身不变的群的作用下总是不变的。因此，由于感知器无法区分群作用下的等变量函数，因此这被视为一个不行定理。虽然 Minsky-Papert 结构通过标准方法从感知器和布尔函数提升到宽神经网络和连续函数，但由此产生的群不变性现在被视为神经近似杯是半满的，而不是半空的证明。

⁹本节中介绍的构造和讨论基于论文“从哥德尔的不完备性定理到机器人信念的完备性”。

¹⁰莎士比亚的麦克白悲剧是建立在一个自我实现的预言之上的。一开始，女巫们预言麦克白会成为国王。为了实现不可避免的事情，麦克白杀死了国王。即使是一个完全理性的麦克白也被迫实现预言，或者冒着国王听到它并杀死他以阻止它实现的风险。当前生活中自我实现预言的一个例子来自启动社交网络服务的任务。只有当他们的朋友也在使用它时，这项服务才对用户有价值。为了获得第一批用户，社交网络必须让他们相信它已经有很多用户，足以包括他们的朋友。最初，这一定是谎言。但是如果很多人相信这个谎言，他们就会加入网络，网络就会获得很多用户，谎言就不再是谎言了。适应性理论的例子包括将任何与其主张相反的证据归因于恶魔或信仰测试和诱惑的宗教。

关注我，一起探索元宇宙！

免责声明：

以上发布内容和图片的目的在于传播更多行业信息，版权归原作者所有，不为商业用途，如有侵犯，敬请与我们联系。

推荐阅读:

苹果宣布推出新的辅助功能

2024-05-17