

为什么 Bert 的三个 Embedding 可以进行相加？

AI算法之道

2024-12-01

导读：BERT模型三个Embedding相加

转自知乎，侵权删：

https://www.zhihu.com/question/374835153

问题：Token Embedding、Segment Embedding、Position Embedding的意义我已经清楚了，但是这三个向量为什么可以相加呢？相加后向量的大小和方向就变了，语义不就变了吗？（可能是我数学学得不好，不能理解）?

Embedding的本质

Embedding的数学本质，就是以one hot为输入的单层全连接。

请参考苏剑林苏神的科学空间: https://kexue.fm/archives/4122

也就是说，世界上本没什么Embedding，有的只是one hot。

现在我们将token,position,segment三者都用one hot表示，然后concat起来，然后才去过一个单层全连接，等价的效果就是三个Embedding相加。

举个栗子

这是一个很有意思的问题，苏剑林老师给出的回答，真的很妙：

Embedding的数学本质，就是以one hot为输入的单层全连接。

也就是说，世界上本没什么Embedding，有的只是one hot。

在这里用一个简单的栗子在尝试理解一下：

假设Token Embedding矩阵的维度为[4,768]，Position Embedding的矩阵维度为[3,768]，Segment Embedding矩阵维度为[2,768]。

对于一个word来说，假设它的Token one-hot为[1,0,0,0] ; 它的Position one-hot为[1,0,0]，它的segment one-hot为[1,0]。

那么这个字最后的word Embedding，就是上面三种Embedding相加之和。

如此得到的word Embedding，事实上和concat后的特征：[1,0,0,0,1,0,0,1,0]，在过维度为[4+3+2,768]=[9,768]的全连接层，得到的向量其实是一样的。

我们可以再换一个角度进行理解：

不妨直接将三个one-hot特征concat起来得到的[1,0,0,0,1,0,0,1,0]，虽然形式上不再是one-hot了，但是可以将其映射到三个one-hot组成的特征空间，此时特征空间的维度为4*3*2=24，而在这个新的特征空间中，这个字的one-hot就是[1,0,0,0...] (23个0)。

此时，Embedding的矩阵维度就是[24,768]，最后得到的word Embedding依然是和上面等效，但是三个小Embedding矩阵的大小会远远小于新特征空间对应的Embedding矩阵大小。

当然，在相同初始化方法的前提下，两种方式得到的word Embedding可能方差会有差别，但是BERT模型还有Layer Norm，会把Embedding结果统一到相同的分布。

所以BERT的三个Embedding相加，本质上可以看做一个特征融合，强大如BERT应该可以学到融合后特征的语义信息的。

作者：海晨威，微软算法工程师

来源：https/ww.zhihu.com/question/374835153/answer/1506279757

【声明】内容源于网络

AI算法之道

一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号，涵盖视觉CV、神经网络、模式识别等方面，包括相应的硬件和软件配置，以及开源项目等。

内容 573

粉丝 0

AI算法之道一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号，涵盖视觉CV、神经网络、模式识别等方面，包括相应的硬件和软件配置，以及开源项目等。

总阅读195

粉丝0

内容573