美文网首页萌新的机器学习
自然语言处理-seq2seq

自然语言处理-seq2seq

作者: 初七123 | 来源:发表于2018-05-02 15:38 被阅读17次

    RNN

    RNN本质上是带有一个隐层的浅层网络在时间轴上的扩展
    其中隐层为记忆单元

    前向传播
    W(h)为隐层参数
    W(k)为输出层参数
    x为输入
    a为激活函数输入
    b为激活函数输出

    反向传播
    例如对于求隐层偏导
    设L是损失函数
    第一个公式中,第一部分是接收当前层误差,第二部分是接收时间轴上累计的误差

    LSTM

    计算公式为
    f 遗忘门
    i 输入门
    o 输出门
    c 记忆单元
    h 输出


    注意第四个公式对c(t-1)求导的结果为f(t),避免了RNN中W的连乘(RNN反向传播公式1),所以一定程度上结局了循环次数太多导致的“梯度消失问题”

    编码器/解码器

    在seq2seq模型中用 RNN/LSTM/GRU 先基于时序编码,然后再基于时序解码

    Beam Search

    解码器实际预测的时候如果采用贪心算法难以得到最佳的结果(某一部选最优不能保证所有的概率乘起来最大)
    Beam Search的思想是保留几个候选项,可以理解为同时进行候选集为N的贪心

    注意力机制

    BLEU

    BLEU 是一种自动的机器翻译质量评价方法
    https://blog.csdn.net/qq_31584157/article/details/77709454

    img2seq

    用CNN模型作为编码器
    序列模型为解码器实现了图片标注(神经网络自动图片描述)

    Image Caption也可以加入注意力机制



    然后对这196个区域做加权平均

    https://zhuanlan.zhihu.com/p/27771046

    相关文章

      网友评论

        本文标题:自然语言处理-seq2seq

        本文链接:https://www.haomeiwen.com/subject/ywsqrftx.html