美文网首页
2021-06-28 ch22 transfomer

2021-06-28 ch22 transfomer

作者: 柠樂helen | 来源:发表于2021-07-18 23:09 被阅读0次

为什么要layer Norm ?
随着网络层数增加,特征分布会变化,为了保持特征分布的稳定性,加速收敛
layer Norm 和 Batch Norm 的区别?
都是 均值0 方差1 ,layer是以样本维度计算(比如:一句话,一个用户),batch是以batch*单列特征为单位进行归一化
e.g. 推荐系统中: 【样本】年龄|性别|商品属性
NLP中:【样本】token1|token2|...

Batch 顾名思义是对一个batch进行操作。假设我们有 10行 3列 的数据,即我们的batchsize = 10,每一行数据有三个特征,假设这三个特征是【身高、体重、年龄】。那么BN是针对每一列(特征)进行缩放,例如算出【身高】的均值与方差,再对身高这一列的10个数据进行缩放。体重和年龄同理。这是一种“列缩放”。
而layer方向相反,它针对的是每一行进行缩放。即只看一笔数据,算出这笔所有特征的均值与方差再缩放。这是一种“行缩放”。
细心的你已经看出来,layer normalization 对所有的特征进行缩放,这显得很没道理。我们算出一行这【身高、体重、年龄】三个特征的均值方差并对其进行缩放,事实上会因为特征的量纲不同而产生很大的影响。但是BN则没有这个影响,因为BN是对一列进行缩放,一列的量纲单位都是相同的。
那么我们为什么还要使用LN呢?因为NLP领域中,LN更为合适。
如果我们将一批文本组成一个batch,那么BN的操作方向是,对每句话的第一个词进行操作。但语言文本的复杂性是很高的,任何一个词都有可能放在初始位置,且词序可能并不影响我们对句子的理解。而BN是针对每个位置进行缩放,这不符合NLP的规律。
https://zhuanlan.zhihu.com/p/74516930

image.png

为什么加残差网络?
1)解决深度加深时,梯度消失的问题。尽管上述LN可以缓解。
2)还存在网络退化问题:
在神经网络可以收敛的前提下,随着网络深度增加,网络的表现先是逐渐增加至饱和,然后迅速下降

image.png encoder+残差连接

decoder的第一个attn模块为什么要 masked_fill(mask == 0, -1e9) 呢?
每个时刻只能用前一时刻的数据,防止未来数据作弊

attn里为什么要有softmax操作?
权重归一化

多头相比单头的好处?
从不同方向做attn,可以表达更多的信息,类似随机森林思想


seq2seq + attn 局限性:

  1. LSTM,必然存在梯度的问题
  2. LSTM、序列形式的数据,线性计算

transformer核心:

  1. 如何解决长依赖的
  2. self-attn、encoder 、 decoder 区别?
  3. 如何encode 单词顺序,因为不是序列模型?

ENCODER 结构


image.png

输入单词:Thinking、 Machine
输出:当前语境下的向量表示, Z1、 Z2
Q K V
Q和K目的,用于计算当前词在当前上下文中的影响

image.png

divide by 根号dk 作用:缩小score的绝对值,防止softmax时,exp的计算会变极端,成为1或者0

整体框架的好处:矩阵化计算可并行;不依赖梯度计算

多头的目的:希望不同组的QKV,能捕获不同维度的关系;类似 决策树组成随机森林


image.png

得到的权重score矩阵,维度为 单词数×(单词数×多头数)

image.png transformer整体架构

相关文章

  • 2021-06-28 ch22 transfomer

    为什么要layer Norm ?随着网络层数增加,特征分布会变化,为了保持特征分布的稳定性,加速收敛layer N...

  • transfomer复习

    transformer 视频原作者:https://www.bilibili.com/video/BV1Di4y1...

  • Steve Jobs-12-时隔11年后的回归

    阅读章节: Ch22 — Toy Story: Buzz and Woody to the rescue Ch23...

  • OWW CH22

    WORD 1.tawdry 1.ADJ-GRADED 能被表示程度的副词或介词词组修饰的形容词廉价的;俗气的 If...

  • 如何理解transformer的decoder

    Transfomer是一个seq2seq模型,关于encoder部分,其实很多教程都将的非常清楚,最推荐的是李宏毅...

  • On Writing Well CH22

    I. Words and express 1. The tyranny of the final product....

  • BERT泛读系列(五)—— ALBERT

    一、简介 随着Transfomer结构的普及,一时间大语料、大参数量的预训练模型成为主流。当在实际部署BERT等模...

  • 突如其来的大雨

    2021-06-28 阴有雨 周一 中午1:28分,我在闹铃中醒了过来。 “不是吧?”起床一看窗...

  • 2021-07-04 思考成长周复盘

    一 时间 2021-06-28 ~ 2021-07-04 二 围绕精力提升所做的事情 简书日更写作 低脂纯素饮食,...

  • #30天专注橙长#注会财管  day 20

    CH22 企业业绩评价 第一节 经济增加值 一、经济增加值的概念 (一)含义及特点 基本公式经济增加值=调整后税后...

网友评论

      本文标题:2021-06-28 ch22 transfomer

      本文链接:https://www.haomeiwen.com/subject/cunfultx.html