18 ELMO、BERT、GPT
在这节中,我们能学到
比如bank这个词,形一样但是意思不一样;
希望每个word token都有一个word embedding,看它上下文;
Contextualized Word Embedding:
1)关于一词多义的问题 word sense 比如
每一个word token都有一个embedding
只有根据上下文,确定embedding

Embedding from Language Model(ELMO)
给一组句子让他去学,预测下一句话


在ELMo世界里,预训练好的模型不再只是向量对应关系,而是一个训练好的模型。使用时,将一句话或一段话输入模型,模型会根据上线文来推断每个词对应的词向量。
同样的一个词汇,上下文不同,embedding就不一样,elmo接收到那个embedding,然后把它们加起来

训练中文的时候,中文的字比词要好;而且常用的中文的字是有限的,但是组成词却很多,维度太大。实际处理用character比较好;
Training of Bert方法:
- Maked LM
mask句子中15%的词,让bert去预测

- next sentence prediction
让bert预测这两个句子的关系

如果bert这里面放一个rnn,cls放到最后最合适因为它会看到所有的词
而bert结构是transfomer,用到的是self-attention,不管距离的。
bert把mlm和nsp两种训练方式同时来做,训练得最好
训练bert
case1: 输入一个句子,输出一个分类。
那个线性分类器从头开始学,bert只需要微调

case2: slot filling 输入一个句子,输出每个词的分类

case3: 输出两个句子,输出一个分类,比如NLI任务

case4: QA, 文章阅读理解 extraction-based Question


ERNIE随机masked多个词

BERT的每一层权重在不同任务上的占比;
从下图看出bert在pos任务上,大概第11层、12、13比较重要

Multilingual BERT
GPT2的原理:
可以做到Zero-shot Learning
Reading Comprehension : 直接给一边文章,在给一些问题
summarization
Translation
有一个Demo: https://talktotransformer.com


网友评论