2021-06-28 ch22 transfomer

作者: 柠樂helen | 来源:发表于2021-07-18 23:09 被阅读0次

2021-06-28 ch22 transfomer
transfomer复习
Steve Jobs-12-时隔11年后的回归
OWW CH22
如何理解transformer的decoder
On Writing Well CH22
BERT泛读系列（五）—— ALBERT
突如其来的大雨
2021-07-04 思考成长周复盘
#30天专注橙长#注会财管 day 20

为什么要layer Norm ？
随着网络层数增加，特征分布会变化，为了保持特征分布的稳定性，加速收敛
layer Norm 和 Batch Norm 的区别？
都是均值0 方差1 ，layer是以样本维度计算（比如：一句话，一个用户），batch是以batch*单列特征为单位进行归一化
e.g. 推荐系统中：【样本】年龄|性别|商品属性
NLP中：【样本】token1|token2|...

Batch 顾名思义是对一个batch进行操作。假设我们有 10行 3列的数据，即我们的batchsize = 10，每一行数据有三个特征，假设这三个特征是【身高、体重、年龄】。那么BN是针对每一列（特征）进行缩放，例如算出【身高】的均值与方差，再对身高这一列的10个数据进行缩放。体重和年龄同理。这是一种“列缩放”。
而layer方向相反，它针对的是每一行进行缩放。即只看一笔数据，算出这笔所有特征的均值与方差再缩放。这是一种“行缩放”。
细心的你已经看出来，layer normalization 对所有的特征进行缩放，这显得很没道理。我们算出一行这【身高、体重、年龄】三个特征的均值方差并对其进行缩放，事实上会因为特征的量纲不同而产生很大的影响。但是BN则没有这个影响，因为BN是对一列进行缩放，一列的量纲单位都是相同的。
那么我们为什么还要使用LN呢？因为NLP领域中，LN更为合适。
如果我们将一批文本组成一个batch，那么BN的操作方向是，对每句话的第一个词进行操作。但语言文本的复杂性是很高的，任何一个词都有可能放在初始位置，且词序可能并不影响我们对句子的理解。而BN是针对每个位置进行缩放，这不符合NLP的规律。
https://zhuanlan.zhihu.com/p/74516930

image.png