原本在seq2seq里面是两个lstm
中间的context是静态的 ;
每一个输出会生成一个新的context

decoder里面不是使用的不是lstm
sequence loss 计算loss的时候家属一个掩码,把和特殊字符计算出来的loss值丢掉
原本在seq2seq里面是两个lstm
中间的context是静态的 ;
每一个输出会生成一个新的context
decoder里面不是使用的不是lstm
sequence loss 计算loss的时候家属一个掩码,把和特殊字符计算出来的loss值丢掉
本文标题:bert关键概念
本文链接:https://www.haomeiwen.com/subject/koxboctx.html
网友评论