BERT

作者: 瓜子小姐 | 来源:发表于2019-01-25 10:27 被阅读0次

与Elmo/GPT相比,bert的改进
bert预训练的方式、input representation
fine-tune方式、常用数据集介绍
思考

与Elmo相比,bert的改进?

深度(bi-lstm - transformer) + 同时双向:ELMo中是通过双向的两层RNN结构对两个方向进行建模,但两个方向的loss计算相互独立。

  • 传统LM是单向的,往往都比较浅
传统语言模型.png
  • bi-lstm
基于bi-lstm的拼接向量的分类.png
  • transformer - RNN
    Self-Attention不需要依赖前一个阶段的信息,便于并行计算;
    单词两两之间都会做Attention,可以捕捉长距离依赖关系。
transformer.png

与GPT相比,bert的改进?fig1, 3.6

双向 + 大语料 + ...

  • GPT
GPT-pretrain.png pre-train+fine-tune.png

bert预训练的方式? 3.3

Task 1:Masked Language Model
Task 2:Next Sentence Prediction

Input Representation? fig2, 3.2

如何fine-turning? fig3, 4.1-4.4

  • 基于句子/句子对的分类任务
    根据[CLS]向量 ,接全连接softmax。
  • 基于token的任务如NER
    根据token embedding

我的问题

  • 为什么需要masked LM?3.3.1
    15%
  • 为什么对length有限制?3.3.2
    They are sampled such that the combined length is ≤ 512 tokens?
    文章怎么办?

相关文章

网友评论

      本文标题:BERT

      本文链接:https://www.haomeiwen.com/subject/bhcmjqtx.html