

图解循环神经网络RNN

AI算法之道

2024-06-18

导读：Python中列表元组集合字典的区别

引言

循环神经网络（RNN）是一种独特的模型，它明确设计用于处理基于序列的问题，其中下一个位置依赖于前一个状态。

本文就来带大家进入RNN的世界，闲话少说，我们直接开始吧！

序列处理问题

让我们用麻省理工学院课程中的一个简单例子来解释一下什么是基于序列的问题。想象一个球在一个特定的时间点 tn，如下所示：

如果让我们预测球的移动方向，在没有更多信息的情况下，这只是一个猜测游戏--它可能朝任何方向移动。

但是，如果我们能获得有关该球之前时刻的位置数据呢？

观察上图，现在我们可以肯定地预测，球将继续向右移动，如下所示：

这种预测情况就是上文我们所说的序列问题--答案受到先前数据的强烈影响。这些序列问题随处可见，从根据过去的温度数据预测明天的气温，到一系列语言模型，包括情感分析、机器翻译和语音识别。今天，我们将讨论情感词分析，这是基于序列问题的一个简单例子。

情感分析

在情感分析中，我们会获取一段输入文本，并判断它传达的是积极情感还是消极情感。今天，我们将构建一个 RNN，它将一篇电影评论作为输入，并预测其是否具有积极意义。假设给定如下影评：

我们希望我们的神经网络能预测出这种情绪是积极向上的。

这听起来像是一个简单明了的分类问题，但标准神经网络在此面临两大挑战。

首先，我们要处理的是不同长度的输入。标准的神经网络很难处理不同长度的输入。例如，如果我们用一篇三字的影评来训练神经网络，那么我们的输入大小将固定为三字。但如果我们想输入更长的影评呢？

在有12个固定输入长度的情况下，该模型将无法处理上述评论。在这种情况下，模型需要灵活应变，无论有多少字扔过来，我们期望它都能灵活适应。

其次，我们的输入有次序。典型的神经网络无法完全理解输入的方向性，而这在这里至关重要。两个句子可能包含完全相同的单词，但顺序不同，表达的意思可能完全相反。

鉴于这些挑战，我们需要一种方法来连续处理动态数量的输入。这正是 RNN 的优势所在。

‍

RNN的引入

鉴于以上的分析，我们不得不引入今天的主角循环神经网络，它的优势就在于可以连续处理动态数量的输入。

我们来看RNN是如何处理上述问题的？它首先处理评论中的第一个单词 "that"：

然后利用这些信息处理第二个单词 "was"：

最后，利用上述所有信息处理最后一个词 "phenomenal"，并对评论的情感类别进行预测：

处理输入

在开始构建循环神经网络之前，我们需要先讨论一下其输入。神经网络的输入必须是数字。但是，我们例子中的输入是单词，因此我们需要将这些单词转换成数字。有几种方法可以做到这一点，但今天我们将使用一种最基本的方法。

现在，假设我们有一本包含 10,000 个单词的大词典。我们简单的认为，评论中出现的任何单词都可以在这本 10,000 个单词的字典中找到。每个单词都对应一个数字。

要将单词 "that "转换为一组数字作为模型的输入，我们需要确定"that "在字典中的位置...

然后将其表示为由 10,000 个0组成的矩阵，除了第 8600 个元素是1：

同样，接下来的两个单词"was"（字典中第 9680 个字）和 "phenomenal"（字典中第 4242 个字）的数字表示法也与之类似：

这就是我们如何将一个单词转换为神经网络友好输入的过程。

搭建神经网络

现在让我们来看看神经网络的设计。为简单起见，假设我们的网络有 10,000 个输入（= 1 个单词）、由一个神经元组成的一个隐藏层和一个输出神经元。

当然，如果这是一个经过全面训练的神经网络，那么每个输入都会有相关的权重，神经元也会有偏置项。

在该网络中，输入权重标记为w_i，其中 i 表示输入。隐藏层神经元的偏置项为 b_h。连接隐层和输出神经元的权重为 w_hy。最后，输出神经元中的偏置用 b_y 表示，因为y表示我们的输出。此外，我们将使用双曲正切函数（tanh）作为隐藏层神经元的激活函数。

我们知道 tanh 接收输入并产生-1 到 1 范围内的输出。无穷大的输入趋向于 1，而无穷小的输入则接近于-1。

为了确定文本的情感，我们可以在输出神经元中使用 sigmoid 激活函数。该函数利用隐藏层的输出，输出一个介于 0 和 1 之间的值，代表正面情绪的概率。接近 1 的预测值表示评论是正面的，而接近 0 的预测值则表示评论不太可能是正面的。

有了这些激活函数，我们的神经网络看起来就像这样了：

上述神经网络接收文本输入，并预测其具有积极情感的概率。在上面的例子中，该网络处理了输入的 "that"，并预测了其具有正面情绪的可能性。诚然，"that "这个词本身并没有提供太多关于情感的提示。现在，我们需要弄清楚如何将下一个词纳入网络。这时，循环神经网络的递归特性就会发挥作用，从而对基本结构进行修改。