循环神经网络(RNN, Recurrent Neural Networks)介绍

这篇文章很多内容是参考：http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-to-rnns/，在这篇文章中，加入了一些新的内容与一些自己的理解。

??循环神经网络(Recurrent Neural Networks，RNNs)已经在众多自然语言处理(Natural Language Processing, NLP)中取得了巨大成功以及广泛应用。但是，目前网上与RNNs有关的学习资料很少，因此该系列便是介绍RNNs的原理以及如何实现。主要分成以下几个部分对RNNs进行介绍：
1. RNNs的基本介绍以及一些常见的RNNs(本文内容)；
2. 详细介绍RNNs中一些经常使用的训练算法，如Back Propagation Through Time(BPTT)、Real-time Recurrent Learning(RTRL)、Extended Kalman Filter(EKF)等学习算法，以及梯度消失问题(vanishing gradient problem)
3. 详细介绍Long Short-Term Memory(LSTM，长短时记忆网络)；
4. 详细介绍Clockwork RNNs(CW-RNNs，时钟频率驱动循环神经网络)；
5. 基于Python和Theano对RNNs进行实现，包括一些常见的RNNs模型。

??不同于传统的FNNs(Feed-forward Neural Networks，前向反馈神经网络)，RNNs引入了定向循环，能够处理那些输入之间前后关联的问题。定向循环结构如下图所示：
RNNs_0

??该tutorial默认读者已经熟悉了基本的神经网络模型。如果不熟悉，可以点击：Implementing A Neural Network From Scratch进行学习。

词向量(Word Representation，Word embeding)[1]便是一种可行又有效的方法。何为词向量，即使用一个指定长度的实数向量v来表示一个词。有一种种最简单的表示方法，就是使用One-hot vector表示单词，即根据单词的数量|V|生成一个|V| * 1的向量，当某一位为一的时候其他位都为零，然后这个向量就代表一个单词。缺点也很明显：

由于向量长度是根据单词个数来的，如果有新词出现，这个向量还得增加，麻烦！(Impossible to keep up to date);

主观性太强(subjective)

这么多单词，还得人工打labor并且adapt，想想就恐

最不能忍受的一点便是很难计算单词之间的相似性。
现在有一种更加有效的词向量模式，该模式是通过神经网或者深度学习对词进行训练，输出一个指定维度的向量，该向量便是输入词的表达。如word2vec。

你可以认为隐藏层状态

在传统神经网络中，每一个网络层的参数是不共享的。而在RNNs中，每输入一步，每一层各自都共享参数

上图中每一步都会有输出，但是每一步都要有输出并不是必须的。比如，我们需要预测一条语句所表达的情绪，我们仅仅需要关系最后一个单词输入后的输出，而不需要知道每个单词输入后的输出。同理，每步都需要输入也不是必须的。RNNs的关键之处在于隐藏层，隐藏层能够捕捉序列的信息。

LSTMs(Long Short-Term Memory，长短时记忆模型)模型，该模型通常比vanilla RNNs能够更好地对长短时依赖进行表达，该模型相对于一般的RNNs，只是在隐藏层做了手脚。对于LSTMs，后面会进行详细地介绍。下面对RNNs在NLP中的应用进行简单的介绍。

Recurrent neural network based language model
Extensions of Recurrent neural network based language model

Generating Text with Recurrent Neural Networks

Image Source
??下面是关于RNNs中机器翻译研究的三篇文章：

A Recursive Recurrent Neural Network for Statistical Machine Translation

Sequence to Sequence Learning with Neural Networks

Joint Language and Translation Modeling with Recurrent Neural Networks

Towards End-to-End Speech Recognition with Recurrent Neural Networks

图像描述自动生成中得到应用。将CNNs与RNNs结合进行图像描述自动生成。这是一个非常神奇的研究与应用。该组合模型能够根据图像的特征生成描述。如下图所示：

??图像描述生成中的深度视觉语义对比. Image Source

BPTT无法解决长时依赖问题(即当前的输出与前面很长的一段序列有关，一般超过十步就无能为力了)，因为BPTT会带来所谓的梯度消失或梯度爆炸问题(the vanishing/exploding gradient problem)。当然，有很多方法去解决这个问题，如LSTMs便是专门应对这种问题的。

Simple RNNs(SRNs)[2]

??SRNs是RNNs的一种特例，它是一个三层网络，并且在隐藏层增加了上下文单元，下图中的

Bidirectional RNNs[3]

??Bidirectional RNNs(双向网络)的改进之处便是，假设当前的输出(第

Deep(Bidirectional)RNNs[4]

??Deep(Bidirectional)RNNs与Bidirectional RNNs相似，只是对于每一步的输入有多层网络。这样，该网络便有更强大的表达与学习能力，但是复杂性也提高了，同时需要更多的训练数据。Deep(Bidirectional)RNNs的结构如下图所示：

Echo State Networks[5]

??ESNs(回声状态网络)虽然也是一种RNNs，但是它与传统的RNNs相差很大。ESNs具有三个特点：

它的核心结构时一个随机生成、且保持不变的储备池(Reservoir)，储备池是大规模的、随机生成的、稀疏连接(SD通常保持1%～5%，SD表示储备池中互相连接的神经元占总的神经元个数N的比例)的循环结构；
其储备池到输出层的权值矩阵是唯一需要调整的部分；
简单的线性回归就可完成网络的训练。

??从结构上讲，ESNs是一种特殊类型的循环神经网络，其基本思想是：使用大规模随机连接的循环网络取代经典神经网络中的中间层，从而简化网络的训练过程。因此ESNs的关键是中间的储备池。网络中的参数包括：

Gated Recurrent Unit Recurrent Neural Networks[6]

??GRUs也是一般的RNNs的改良版本，主要是从以下两个方面进行改进。一是，序列中不同的位置处的单词(已单词举例)对当前的隐藏层的状态的影响不同，越前面的影响越小，即每个前面状态对当前的影响进行了距离加权，距离越远，权值越小。二是，在产生误差error时，误差可能是由某一个或者几个单词而引发的，所以应当仅仅对对应的单词weight进行更新。GRUs的结构如下图所示。GRUs首先根据当前输入单词向量word vector已经前一个隐藏层的状态hidden state计算出update gate和reset gate。再根据reset gate、当前word vector以及前一个hidden state计算新的记忆单元内容(new memory content)。当reset gate为1的时候，new memory content忽略之前的所有memory content，最终的memory是之前的hidden state与new memory content的结合。
GRU

LSTM Netwoorks[7]

??LSTMs与GRUs类似，目前非常流行。它与一般的RNNs结构本质上并没有什么不同，只是使用了不同的函数去去计算隐藏层的状态。在LSTMs中，i结构被称为cells，可以把cells看作是黑盒用以保存当前输入

??从上图可以看出，它们之间非常相像，不同在于：

new memory的计算方法都是根据之前的state及input进行计算，但是GRUs中有一个reset gate控制之前state的进入量，而在LSTMs里没有这个gate；
产生新的state的方式不同，LSTMs有两个不同的gate，分别是forget gate (f gate)和input gate(i gate)，而GRUs只有一个update gate(z gate)；
LSTMs对新产生的state又一个output gate(o gate)可以调节大小，而GRUs直接输出无任何调节。

Clockwork RNNs(CW-RNNs)[9]

??CW-RNNs是较新的一种RNNs模型，其论文发表于2014年Beijing ICML。在原文[8]中作者表示其效果较SRN与LSTMs都好。
??CW-RNNs也是一个RNNs的改良版本，是一种使用时钟频率来驱动的RNNs。它将隐藏层分为几个块(组，Group/Module)，每一组按照自己规定的时钟频率对输入进行处理。并且为了降低标准的RNNs的复杂性，CW-RNNs减少了参数的数目，提高了网络性能，加速了网络的训练。CW-RNNs通过不同的隐藏层模块工作在不同的时钟频率下来解决长时间依赖问题。将时钟时间进行离散化，然后在不同的时间点，不同的隐藏层组在工作。因此，所有的隐藏层组在每一步不会都同时工作，这样便会加快网络的训练。并且，时钟周期小的组的神经元的不会连接到时钟周期大的组的神经元，只会周期大的连接到周期小的(认为组与组之间的连接是有向的就好了，代表信息的传递是有向的)，周期大的速度慢，周期小的速度快，那么便是速度慢的连速度快的，反之则不成立。现在还不明白不要紧，下面会进行讲解。
? ?CW-RNNs与SRNs网络结构类似，也包括输入层(Input)、隐藏层(Hidden)、输出层(Output)，它们之间也有向前连接，输入层到隐藏层的连接，隐藏层到输出层的连接。但是与SRN不同的是，隐藏层中的神经元会被划分为若干个组，设为

st=fs(Wst?1+Winxt) ot=fo(Woutst)

W=???W1...Wg???

Win=???Win1...Wing???

Wi={Wi0,for(tmodTi)=0,otherwise

Wini={Wini0,for(tmodTi)=0,otherwise

更多的RNNs模型。

??后面将陆续推出：

详细介绍RNNs中一些经常使用的训练算法，如Back Propagation Through Time(BPTT)、Real-time Recurrent Learning(RTRL)、Extended Kalman Filter(EKF)等学习算法，以及梯度消失问题(vanishing gradient problem)

详细介绍Long Short-Term Memory(LSTM，长短时记忆网络)；

详细介绍Clockwork RNNs(CW-RNNs，时钟频率驱动循环神经网络)；

基于Python和Theano对RNNs进行实现，包括一些常见的RNNs模型；

??本系列将实现一个基于循环神经网络的语言模型(recurrent neural network based language model)。该实现包含两个方面：一是能够得到任意语句在现实中成立的得分，其提供了判断语法与语义的正确性的度量方式。该模型是机器翻译中的典型应用。二是模型能够产生新的文本，这是一个非常棒的应用。比如，对莎士比亚的文章进行训练，能够产生一个新的类似莎士比亚的文本，目前，这个有趣的想法已经被Andrew Karpathy基于RNNs的字符级别的语言模型实现了。
由于实在很忙，后面都没进行更新，抱歉。

http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-to-rnns/

http://blog.csdn.net/heyongluoyao8/article/details/48636251#

RNN LSTM CW-RNNs GRUs 循环神经网络