递归神经网络的一个重要优点是它们在映射输入和输出序列时使用上下文信息的能力。不幸的是,对于标准的RNN体系结构,实际可以访问的上下文范围非常有限。问题是,给定输入对隐藏层的影响,以及对网络输出的影响,在围绕网络的循环连接循环时,要么衰减,要么呈指数增长。这种效应在文献中通常被称为梯度消失问题(Hochreiter, 1991;梯度消失问题如图4.1所示图4.1 rnn的梯度消失问题。未展开网络中节点的阴影表示它们在时刻1时对输入的灵敏度(阴影越深,灵敏度越高)。