BERT:Pre-training of Deep Bidire

BERT:Pre-training of Deep Bidire

作者: 直接往二 | 来源:发表于2019-09-29 21:01 被阅读0次

BERT:Pre-training of Deep Bidire
BERT中文翻译及相关实践代码
Note 5: BERT
预训练语言表达模型之BERT
BERT 论文笔记
BERT - 论文解读
BERT：深度双向预训练语言模型
BERT
BERT Paper Review
BERT模型

BERT: Bidirectional Encoder Representations from Transformers

1. 创新点

BERT旨在通过联合调节所有层中的左右上下文来预先训练来自未标记文本的深度双向表示。

2. Bert

总共分两步：

pre-training：在预训练期间，模型在不同的预训练任务上训练未标记的数据。
fine-tuning：对于微调，首先使用预先训练的参数初始化BERT模型，并使用来自下游任务的标记数据对所有参数进行微调。

2.1 Model Architecture

BERT’s model architecture is a multi-layer bidirectional Transformer encoder based on the original implementation described in Vaswani et al. (2017) and released in the tensor2tensor library.

2.1.1 前置要求

因为Bert里面用的是Transformer的结构，所以需要先阅读论文“attention is all you need”

2.1.2 定义模型

论文定义了两个模型，分布是 $BERT_{BASE}$ 和 $BERT_{LARGE}$ ：

$BERT_{BASE} (L=12,H=768,A=12,Total Parameters=110M)$

$BERT_{LARGE} (L=24,H=1024,A=16,Total Parameters=340M)$

$L:$ the number of layers(i.e., Transformer blocks)
$H:$ the hidden size
$A:$ the number of self-attention heads

$BERT_{BASE}$ was chosen to have the same model size as OpenAI GPT for comparison purposes. Critically, however, the BERT Transformer uses bidirectional self-attention, while the GPT Transformer uses constrained self-attention where every token can only attend to context to its left.

2.2 Input/Output Representations

2.2.1 句子处理

每个句子前面加 $[CLS]$

2.2.2句子对处理

句子之间用 $[SEP]$ 分开
Second, we add a learned embedding to every token indicating whether it belongs to sentence A or sentence B.

BERT input representation. The input embeddings are the sum of the token embeddings, the segmentation embeddings and the position embeddings.

3. Pre-training BERT

我们不使用传统的从左到右或从右到左的语言模型来预训练BERT。相反，我们使用本节中描述的两个非监督的任务来预训练BERT。

3.1 Task #1: Masked LM

直觉上，有理由相信深度双向模型比左向右模型或从左到右和从右到左模型的浅层连接更有效，因为双向调节可以让每个单词直接“看到自己”，而模型可以在多层次的背景简单地预测目标单词。遗憾的是，标准的条件语言模型只能从左到右或从右到左进行训练。

为了训练深度双向表示：

一句话中取15%的词用 $[MASK]$ 替换, 然后预测 $[MASK]$ 替换的词原来是什么词

预测 $[MASK]$ 替换的词原来是什么词时，把 $[MAKS]$ 对应的最终输出输入到一个softmax层（softmax层为词汇表大小）。

虽然这允许我们获得双向预训练模型，但缺点是我们在预训练和微调之间产生不匹配，因为[MASK]在微调期间不会出现。为了缓解这种情况，我们并不总是用实际的[MASK]替换随机选择的字。

训练数据生成器随机选择15％的词进行预测。如果选择了第i个词，我们用

80%的可能用[MASK]替换选中的第i个词
10%的可能随机选一个词来替换选中的第i个词
10%的可能选中的第i个词保留原来的词

3.2 Task #2: Next Sentence Prediction (NSP)

为了使模型理解句子间的关系, 任务2 在每个预训练样本中选择句子 A 和 B , 句子B有50%的几率是句子A的下一句 (labeled as IsNext), 50%的几率不是句子A的下一句 (labeled as NotNext).

图1

如图1所示， $C$ 被用来预测句子B是不是句子A的下一句

相关文章

BERT:Pre-training of Deep Bidire
BERT: Bidirectional Encoder Representations from Transfor...
BERT中文翻译及相关实践代码
BERT Pre-training of Deep Bidirectional Transformers for ...
Note 5: BERT
BERT: Pre-training of Deep Bidirectional Transformers for...
预训练语言表达模型之BERT
BERT: Pre-training of Deep Bidirectional Transformers for...
BERT 论文笔记
BERT：Pre-training of Deep Bidirectional Transformer for L...
BERT - 论文解读
BERT:【 Pre-training of Deep Bidirectional Transformers fo...
BERT：深度双向预训练语言模型
论文标题：BERT: Pre-training of Deep Bidirectional Transformer...
BERT
1.BERT: Pre-training of Deep Bidirectional Transformers f...
BERT Paper Review
BERT-Google Code Pre-training of Deep Bidirectional Trans...
BERT模型
BERT框架 BERT有两部分：pre-training和fine-tuning。在pre-training阶段，...

网友评论

本文标题：BERT:Pre-training of Deep Bidire

本文链接：https://www.haomeiwen.com/subject/tzyqpctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|BERT:Pre-training of Deep Bidire|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！