美文网首页萌新的机器学习
自然语言处理-seq2seq

自然语言处理-seq2seq

作者: 初七123 | 来源:发表于2018-05-02 15:38 被阅读17次

RNN

RNN本质上是带有一个隐层的浅层网络在时间轴上的扩展
其中隐层为记忆单元

前向传播
W(h)为隐层参数
W(k)为输出层参数
x为输入
a为激活函数输入
b为激活函数输出

反向传播
例如对于求隐层偏导
设L是损失函数
第一个公式中,第一部分是接收当前层误差,第二部分是接收时间轴上累计的误差

LSTM

计算公式为
f 遗忘门
i 输入门
o 输出门
c 记忆单元
h 输出


注意第四个公式对c(t-1)求导的结果为f(t),避免了RNN中W的连乘(RNN反向传播公式1),所以一定程度上结局了循环次数太多导致的“梯度消失问题”

编码器/解码器

在seq2seq模型中用 RNN/LSTM/GRU 先基于时序编码,然后再基于时序解码

Beam Search

解码器实际预测的时候如果采用贪心算法难以得到最佳的结果(某一部选最优不能保证所有的概率乘起来最大)
Beam Search的思想是保留几个候选项,可以理解为同时进行候选集为N的贪心

注意力机制

BLEU

BLEU 是一种自动的机器翻译质量评价方法
https://blog.csdn.net/qq_31584157/article/details/77709454

img2seq

用CNN模型作为编码器
序列模型为解码器实现了图片标注(神经网络自动图片描述)

Image Caption也可以加入注意力机制



然后对这196个区域做加权平均

https://zhuanlan.zhihu.com/p/27771046

相关文章

网友评论

    本文标题:自然语言处理-seq2seq

    本文链接:https://www.haomeiwen.com/subject/ywsqrftx.html