等价于将position信息与input concat后再做embedding

但是差异在于,直接concat起来后做embeding的话,其值是可以学习的,而在Transformer的论文中,ei是固定的值。
我的理解是,position本身有明确的意义,而不像一个普通的特征。其分布和取值间的关系可能都是未知的,需要学习的。
等价于将position信息与input concat后再做embedding
但是差异在于,直接concat起来后做embeding的话,其值是可以学习的,而在Transformer的论文中,ei是固定的值。
我的理解是,position本身有明确的意义,而不像一个普通的特征。其分布和取值间的关系可能都是未知的,需要学习的。
本文标题:PE的intuition
本文链接:https://www.haomeiwen.com/subject/rgmtictx.html
网友评论