美文网首页
【lhy人类自然语言处理】 18 ELMO、BERT、GPT

【lhy人类自然语言处理】 18 ELMO、BERT、GPT

作者: look4you | 来源:发表于2021-07-22 01:21 被阅读0次

18 ELMO、BERT、GPT

在这节中,我们能学到

比如bank这个词,形一样但是意思不一样;

希望每个word token都有一个word embedding,看它上下文;

Contextualized Word Embedding:

1)关于一词多义的问题 word sense 比如

每一个word token都有一个embedding

只有根据上下文,确定embedding

image.png

Embedding from Language Model(ELMO)

给一组句子让他去学,预测下一句话

image.png image.png

在ELMo世界里,预训练好的模型不再只是向量对应关系,而是一个训练好的模型。使用时,将一句话或一段话输入模型,模型会根据上线文来推断每个词对应的词向量。

同样的一个词汇,上下文不同,embedding就不一样,elmo接收到那个embedding,然后把它们加起来

image.png

训练中文的时候,中文的字比词要好;而且常用的中文的字是有限的,但是组成词却很多,维度太大。实际处理用character比较好;

Training of Bert方法:

  1. Maked LM

mask句子中15%的词,让bert去预测

image.png
  1. next sentence prediction

让bert预测这两个句子的关系

image.png

如果bert这里面放一个rnn,cls放到最后最合适因为它会看到所有的词

而bert结构是transfomer,用到的是self-attention,不管距离的。

bert把mlm和nsp两种训练方式同时来做,训练得最好

训练bert

case1: 输入一个句子,输出一个分类。

那个线性分类器从头开始学,bert只需要微调

image.png

case2: slot filling 输入一个句子,输出每个词的分类

image.png

case3: 输出两个句子,输出一个分类,比如NLI任务

image.png

case4: QA, 文章阅读理解 extraction-based Question

image.png image.png

ERNIE随机masked多个词

image.png

BERT的每一层权重在不同任务上的占比;

从下图看出bert在pos任务上,大概第11层、12、13比较重要

image.png

Multilingual BERT

GPT2的原理:

可以做到Zero-shot Learning

Reading Comprehension : 直接给一边文章,在给一些问题

summarization

Translation

有一个Demo: https://talktotransformer.com

image.png image.png

相关文章

网友评论

      本文标题:【lhy人类自然语言处理】 18 ELMO、BERT、GPT

      本文链接:https://www.haomeiwen.com/subject/wptemltx.html