说就是相信。眼见为实。
第 1 部分是:
第 2 部分是:
第 3 部分是:
这是第 4 部分:
语言模型、名人和蒸汽机
学习的演变
2.1. 学习原因和迷信
2.2. 一般学习框架
2.3. 从鸽子到感知器
3.1. 为什么学习是可能的
3.2. 分解连续函数:Kolmogorov-Arnold⁶
3.3. 广泛学习
3.4. 近似连续函数:Cybenko 等人
3.5. 深度学习
4.1 通灵概念
4.2 静态信道学习:RNN、LSTM...
4.3 动态通道学习:注意力、变压器...
5.1. 参数化学习框架
5.2. 自学
5.3. 自我确认的信念
1. 语言模型、名人和蒸汽机
2. 学习的演变
2.1. 学习原因和迷信
如果食物在鸽子啄食时到达,她就会知道啄食会召唤食物2.2. 一般学习框架
过程 F,监督学习中的主管(图灵称之为“老师”)处理 X 类型的输入数据 x 以产生 Y 类型的输出类或参数 y;
一个 a 索引的函数族 U(−)a,其中 U 是学习机或解释器(图灵称其为“瞳孔”),索引 a 是模型,通常表示为程序;最后,还有
函数 L,通常称为损失,将输出 y = F(x) 与预测 ỹ = U(x)a 进行比较,并提供一个实数 L(y,ỹ) 来衡量它们的差异。
2.3. 从鸽子到感知器
罗森布拉特 1958 年向海军研究办公室提交的项目报告中的插图。— 公有领域




感知器计划主要关注的不是“人工智能”设备的发明,而是研究“自然智能”的物理结构和神经动力学原理。
3. 学习功能
3.1. 为什么学习是可能的
x′ 与 x1,...,xn 相关,
y′ 与 y1,...,yn 相关,其中 yi = F(习) 表示 i = 1,...,n,并且
F 保留关系。
3.2 分解连续函数:Kolmogorov-Arnold⁶


3.3 广泛学习
使用 f 的精确表示
独立于 f 和⟨
近似构造φ取决于 F。
使用 F 的近似表示
依赖于 f 和⟨
精确的构造σ独立于 F。

3.4. 近似连续函数:Cybenko 等人


3.4. 深度学习


4. 学习渠道和关注
4.1 通灵概念

根据概念对输入进行编码,
对每个概念进行单独处理,
将概念解码为输出项。

4.2 静态通道学习
2克概念
nNN理念
LSTM理念
4.3 动态通道学习
编码器-解码器





译者注意:如果通道 F : [X ⊢ Y] 是一个翻译,比如通过概念 |c⟩ 从普通话到法语,那么总和 ⟨xj|c⟩⟨c|yn⟩ 可以被认为是将译者的注意力分散在概念上 |c⟩,潜伏在普通话输入标记 |xj⟩ 在法国输出令牌之后 |yn⟩ 产生。这是有效影响 (n+1)-st 输出的注意,上面的分解应该更新为
演讲者的自我关注:如果通道 F:[X ⊢ Y] 不是另一种语言的翻译,而是同一语言的延续 Y,那么它就不是无反馈的,因为 Xn+1 不是独立于 Yn,而是与 Yn 相同。为了捕获反馈,概念库拆分为编码基和解码基,如上所述,将输入表示为概念的混合,将概念表示为输出的混合。但是,由于每个输出都被提升到下一个输入中,编码器-解码器视图被键-查询-值术语和直觉所取代,从而导致

5 超越幻觉
5.1 参数化学习框架

5.2 自学
5.3 自我确认的信念


归 因
笔记
2024-05-17
2024-05-15
2024-05-14


