与Elmo/GPT相比,bert的改进
bert预训练的方式、input representation
fine-tune方式、常用数据集介绍
思考
与Elmo相比,bert的改进?
深度(bi-lstm - transformer) + 同时双向:ELMo中是通过双向的两层RNN结构对两个方向进行建模,但两个方向的loss计算相互独立。
- 传统LM是单向的,往往都比较浅

- bi-lstm

- transformer - RNN
Self-Attention不需要依赖前一个阶段的信息,便于并行计算;
单词两两之间都会做Attention,可以捕捉长距离依赖关系。

与GPT相比,bert的改进?fig1, 3.6
双向 + 大语料 + ...
- GPT


bert预训练的方式? 3.3
Task 1:Masked Language Model
Task 2:Next Sentence Prediction
Input Representation? fig2, 3.2
如何fine-turning? fig3, 4.1-4.4
- 基于句子/句子对的分类任务
根据[CLS]
向量 ,接全连接softmax。 - 基于token的任务如NER
根据token embedding
我的问题
- 为什么需要masked LM?3.3.1
15% - 为什么对length有限制?3.3.2
They are sampled such that the combined length is ≤ 512 tokens?
文章怎么办?
网友评论