1、XLNet的出发点
自回归语言模型AR:仅根据上文预测,或仅根据下文预测。ELMO、GPT。优势是擅长生成式自然语言处理任务。 因为在生成上下文时,通常是前向的。缺点是仅利用一边,信息利用不充分。
噪声自动编码器DAE:DAE是从损坏的输入重建原始数据。比如Bert。缺点是1、输入侧引入[Mask]标记,导致预训练阶段和Fine-tuning阶段不一致的问题。2、Bert是基于被Mask的token之间完全独立假设。如[New, York, is, a, city]中New, York被mask。Bert是用 is, a, city预测New,用 is, a, city预测York。但其实New和York之间也是有相关性的,也就是被mask的词之间并不一定独立。
2、XLNet基本思想
XLNet初衷:如何实现,看上去仍然是从左向右的输入和预测模式,但是其实内部已经引入了当前单词的下文信息呢?即仍然用自回归LM的方法,但是要考虑两侧上下文信息。
在预训练阶段,引入Permutation Language Model(排列LM)的训练目标。首先将句子的 token 随机排列,然后采用 AR 的方式预测句子末尾的1/k个单词,这样 XLNet 即可同时拥有 AE 和 AR 的优势。
如果我们的语言模型遍历T!种分解方法,并且这个模型参数共享,那么这个模型应该就能(必须)学习到各种上下文。现实中是随机采样部分排列。
3、 XLNet实现
3.1 PLM
输入序列不变,在transformer内部,通过Attention Mask,把其它没有被选到的单词Mask掉,不让它们在预测单词Ti的时候发生作用。看着就类似于把这些被选中的单词放到了上文Context_before的位置了。
3.2双流自注意力模型
因为引入了PLM,所以对于每个词,我们有时候只要位置信息,有时候位置信息和内容信息都要。所以需要两个流,分别是Query Stream和Content Stream。
3.2.1 Query Stream
g表示Query Stream,只包含位置信息,h表示Content Stream,包含位置和内容信息。在计算上层该token的Query Stream时,用到了该token的位置信息作为Q和其他可见token的内容信息KV,哪些token的内容信息可见,用Query Stream mask矩阵表示。
3.2.2Content Stream
计算上层该token的Content Stream时,用到了该token的内容信息作为Q和其他可见token的内容信息作为KV,哪些token的内容信息可见,用Content Stream mask矩阵表示。比Query Stream mask矩阵多了对角线。
3.2.3Query Stream和Content Stream的结合
最下面是输入层, e(x) 是单词的词向量,表示输入的 Content Stream,而 w 表示输入的位置信息,即 Query Stream。
3.3 Partial Prediction部分预测
XLNet在实现的时候,为了提升效率,选择每个句子最后末尾的1/K单词被预测(前面词的上下文比较少)。XLNet-Large 时使用的 K 为 6,大约是预测末尾 14.3%的 token。
3.4 pretraining和finetuning的区别
fine-tuning的时候,只使用Content Stream,并且Mask为全为0,这样每个Token都可以attend to其它所有的Token。
4、XLNet集大成者
XLNet就是Bert、GPT 2.0和Transformer XL的综合体变身。
1、它通过PLM预训练目标,吸收了Bert的双向语言模型;
2、GPT2.0的核心其实是更多更高质量的预训练数据,这个明显也被XLNet吸收进来了(扩充数据规模,并对质量进行了筛选过滤);Bert使用的预训练数据是BooksCorpus和英文Wiki数据,大小13G。XLNet除了使用这些数据外,另外引入了Giga5,ClueWeb以及Common Crawl数据,并排掉了其中的一些低质量数据,大小分别是16G,19G和78G。
3、Transformer XL的主要目标是解决Transformer对于长文档NLP应用不够友好的问题。XLNet吸收了相对位置编码以及分段RNN机制。
网友评论