Transformer-Bert模型学习笔记

作者: 林桉 | 来源:发表于2022-03-03 12:06 被阅读0次

Transformer结构

image.png

Self-Attention

image.png

上图是论文中 Transformer 的内部结构图，左侧为 Encoder block，右侧为 Decoder block。红色圈中的部分为 Multi-Head Attention，是由多个 Self-Attention组成的，可以看到 Encoder block 包含一个 Multi-Head Attention，而 Decoder block 包含两个 Multi-Head Attention (其中有一个用到 Masked)。Multi-Head Attention 上方还包括一个 Add & Norm 层，Add 表示残差连接 (Residual Connection) 用于防止网络退化，Norm 表示 Layer Normalization，用于对每一层的激活值进行归一化。

Bert模型结构

image.png

干了啥事？

image.png

输入部分：

image.png

Input=token emb + segment emb+ position emb
CLS向量+句子+sep分割

image.png

cls向量是啥：

image.png

预训练如何做

// MLM-掩码语言模型
无监督

AR，也就是autoregressive，我们称之为自回归模型；只能考虑单侧的信息，典型的就是GPT
P(我爱吃饭) = P(我)P(爱|我)P(吃|我爱)P(饭|我爱吃)；
AE，也就是autoencoding，我们称之为自编码模型；从损坏的输入数据中预测重建原始数据。可以使用上下文的信息
mask之后：【我爱mask饭】文本重建之后预测，前提假设，mask目标相互独立
P(我爱吃饭|我爱mask饭)=P(吃|我爱饭)

image.png

随机mask15%单词，10%替换成其他，10%保持不变，80%替换为mask。

image.png

// NSP任务
为了做下一句预测。
NSP样本如下:

从训练语料库中取出两个连续的段落作为正样本
从不同的文档中随机创建一对段落作为负样本
缺点：主题预测和连贯性预测合并为一个单项任务

微调的玩法？

image.png

代码读一读

https://zhuanlan.zhihu.com/p/360988428

仅供学习无关利益

https://www.youtube.com/watch?v=ugWDIIOHtPA&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4&index=61
https://zhuanlan.zhihu.com/p/338817680
https://arxiv.org/pdf/1810.04805.pdf
https://www.bilibili.com/video/BV1Ey4y1874y?from=search&seid=10522068071476269918&spm_id_from=333.337.0.0
https://zhuanlan.zhihu.com/p/51413773

网友评论

本文标题：Transformer-Bert模型学习笔记

本文链接：https://www.haomeiwen.com/subject/soadrrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Transformer-Bert模型学习笔记

Transformer结构

Self-Attention

Bert模型结构

预训练如何做

微调的玩法？

代码读一读

仅供学习无关利益

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Transformer-Bert模型学习笔记

Transformer结构

Self-Attention

Bert模型结构

预训练如何做

微调的玩法？

代码读一读

仅供学习 无关利益

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

仅供学习无关利益