LSTM的解析(lstm()参数)

2023-03-01 21:02:25

 

1.什么是LSTM长短期记忆(Long short-term memory, LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。

2.LSTM剖析如果把LSTM当成黑盒子看待,可以分为以下关键变量:输入: ht-1(t-1时刻的隐藏层)和 xt(t时刻的特征向量)输出: ht(加softmax即可作为真正输出,否则作为隐藏层)主线/记忆: ct-1 和 ct

依次分类的依据为(参考图):参考橙色部分, ht-1 和 xt联合起来控制了三个门,并且是输入的唯一来源,所以划分为输入部分图中往上跑的 ht ,它与真正的输出只隔了一层softmax(图中没画出),是输出的直接来源,所以划分为输出部分。

当然它同时又是下一个LSTM cell的输入(图中往右跑的 ht),但是在当前cell,它仅与输出相关如图黄色部分,ct-1 和ct始终与外界隔离开来,显然是作为LSTM记忆或者主线剧情的存在主线进来后,首先受到遗忘门的衰减作用,接着输入门控制“补给大小”给主线补充能量生成全新的主线。

这一衰一补的过程完成了主线的更新接着在输出门的控制下生成新的输出ht3.LSTM公式梳理LSTM的三个门均采用sigmoid函数,所以并不是只取0和1的门,而是近似激励函数采用tanh,为奇函数,所以均值为0。

下面将公式分为三部分进行梳理,其中o代表点乘。提醒一下,每个括号里面虽然参数不一样,但本质均为输入部分,不用太纠结,当作“输入”两个字看即可。遗忘门部分

输入门部分

输出门部分

4.LSTM与普通RNN内部结构对比


以上就是关于《LSTM的解析(lstm()参数)》的全部内容,本文网址:https://www.7ca.cn/news/dianzizhizao/665.shtml,如对您有帮助可以分享给好友,谢谢。
标签:
声明