1.图解Transformer(完整版)作者:龙心尘
原文中有误部分改正如下:
词的向量化仅仅发生在最底层的编码器的输入时,即词嵌入过程只发生在最底层的编码器中。所有的编码器都有一个相同的特点:接收一个向量列表,列表中的每个向量大小为512维。在底层(最开始的)编码器中它就是词向量,但是在其他编码器中,它就是前一层编码器的输出(也是一个向量列表)。向量列表大小是我们可以设置的超参数——一般是我们训练集中最长句子的长度。
注:仅作个人科研生涯学习思考之用,侵删。
1.图解Transformer(完整版)作者:龙心尘
原文中有误部分改正如下:
词的向量化仅仅发生在最底层的编码器的输入时,即词嵌入过程只发生在最底层的编码器中。所有的编码器都有一个相同的特点:接收一个向量列表,列表中的每个向量大小为512维。在底层(最开始的)编码器中它就是词向量,但是在其他编码器中,它就是前一层编码器的输出(也是一个向量列表)。向量列表大小是我们可以设置的超参数——一般是我们训练集中最长句子的长度。
注:仅作个人科研生涯学习思考之用,侵删。
本文标题:1.Transformer工作原理详解
本文链接:https://www.haomeiwen.com/subject/gjyxvrtx.html
网友评论