LSTM（长短期记忆神经网络）|Candy的小破站

在 RNN（循环神经网络中写道），RNN实际上是把（x₁,x₂,x₃,x₄），转为（h₁,h₂,h₃,h₄），再转为 Y，如下图所示：

Image 2 of 8

实际上，该网络存在一些问题：

对各个状态没有取舍，h₁，h₂，h₃，h₄我都要，影响了预测效果的同时，还存在梯度爆炸（梯度太大）、梯度消失（梯度太小）的问题（因为神经网络更新是根据梯度更新，梯度是根据计算图反向传播，不断相乘得出，要的越多，乘的越多，出现越乘越大或者越乘越小的问题）
LSTM 实际上只是 RNN 的一个改良，不会直接利用每个 h ，而是先对 h 进行处理，选出更有价值的部分，举个例子，普通RNN就像一个乞丐，路边捡的，别人丢的，什么东西他都想要，什么东西他都不嫌弃，LSTM就像一个贵族，没有身份的东西他不要，他会精心挑选符合自己身份的物品

如上图所示：s_t-1 即 t - 1时刻的输入，通过一系列复杂的计算得到 h_t，RNN实际上是很直接的计算出 h_t，具体而言：

i_t：也称输入门，值为 0 到 1之间一个数值，代表是否需要记忆现在的某些信息
f_t：也称遗忘门，值为 0 或 1之间一个数值，代表是否需要忘记过去的某些信息
c_t：将过去与现在的记忆进行合并
o_t：也称输出，值为 0 或 1之间一个数值，代表需要输出多少合并后的记忆

换句话来说，RNN 到 LSTM 的转变，只是将原本 h_t = f(U x_t + W h_t-1 + b) 的公式，换为了上述更复杂的计算

The cover picture of the previous content

Transformer

The cover picture of the next content

RNN（循环神经网络）

陈陈陈xy