美文网首页
RNN LSTM语言模型 ——RNN

RNN LSTM语言模型 ——RNN

作者: jenye_ | 来源:发表于2022-07-22 17:05 被阅读0次

    RNN的结构

    RNN的缺点

    ref:https://blog.csdn.net/jizhidexiaoming/article/details/81743584

    • 梯度消失

    • 梯度爆炸

    梯度消失:一句话,RNN梯度消失是因为激活函数tanh函数的倒数在0到1之间,反向传播时更新前面时刻的参数时,当参数W初始化为小于1的数,则多个(tanh函数’ * W)相乘,将导致求得的偏导极小(小于1的数连乘),从而导致梯度消失。

    梯度爆炸:当参数初始化为足够大,使得tanh函数的倒数乘以W大于1,则将导致偏导极大(大于1的数连乘),从而导致梯度爆炸。



    RNN的不同结构

    one to one:常常用在图像分类,没有循环结构比较简单

    one to many:常常用在图片描述,输入一张图片输出一堆文字

    many to one:常常用在文本的情感分析,(yej:时序预测也可以)。
    第四个和第五个有什么区别?
    many to many:一般做机器翻译,输入和输出不同(Seq2Seq)。

    many to many:输入和输出的个数是一样的,往往做视频分类。


    考虑上下文
    精度更高,但是计算量更多。


    LSTM

    缓解RNN的梯度消失和梯度爆炸

    相关文章

      网友评论

          本文标题:RNN LSTM语言模型 ——RNN

          本文链接:https://www.haomeiwen.com/subject/jadpbrtx.html