美文网首页
batch-normalization和layer-normal

batch-normalization和layer-normal

作者: 大鱼奔大江 | 来源:发表于2022-01-01 21:02 被阅读0次

BN究竟起了什么作用?一个闭门造车的分析
从几何视角来理解模型参数的初始化策略

一个直观的猜测是,center操作,类似于全连接层的bias项,储存到的是关于数据的一种先验分布信息,而把这种先验分布信息直接储存在模型中,反而可能会导致模型的迁移能力下降。所以T5不仅去掉了Layer Normalization的center操作,它把每一层的bias项也都去掉了。

相关文章

网友评论

      本文标题:batch-normalization和layer-normal

      本文链接:https://www.haomeiwen.com/subject/mzabqrtx.html