XLNet

XLNet

作者: 雪糕遇上夏天 | 来源:发表于2021-12-08 17:34 被阅读0次

XLNet预训练模型，看这篇就够了！(代码实现)
XLNet
XLNet
XLNet
XLNet 详解
XLNet: Generalized Autoregressiv
什么是 XLNet，为何它会超越 BERT？
15 分钟搭建一个基于XLNET的文本分类模型——keras实战
2021-07-15-对话模型整理
教你怎样用Transformer-XL及其进化XLNet

0. XLNet简介

2018年Bert横空出世，刷新了很多NLP任务的SOTA。之后人们开始研究对Bert的改进，本文介绍的XLNet就是比较成功的另一个模型。不同于Bert的AutoEncoder模式，XLNet用的是AutoRegressive模式。据说，XLNet在20个任务上比BERT做得更好，的确吸人眼球。
Bert类（AE）模型的的不足之处在于，在训练的时候引入了[MASK]，而在fine-tune阶段并不会出线[MASK]，导致了预训练与finetune不一致。[MASK]的另一个问题是假设MASK掉的token是相互独立的，然而并不是这样，譬如New York。
XLNet提供了一种新的方法，让AR语言模型从双向的上下文学习，避免了AE语言模型中MASK带来的弊端。

1. Permutation Language Modeling

AR语言模型只能使用前向的上下文或后向的上下文，那么如何使用双向的上下文呢，XLNet提出了一个新的目标，叫做重排序语言建模(Permutation Language Modeling)。

理论上对于长度为T的序列X，存在T！中排列方式，但实际上由于计算复杂度的限制，不可能计算所有的序列排列，因此对于每个序列输入只采样一个排列方式。而且在实际训练时，不会打乱序列，而是通过mask矩阵实现permutation。作者特意强调，这样可以保持与finetune输入顺序的一致，不会存在pretrain-finetune差异。

2. Two-Stream Self-Attention

将序列X打乱顺序后有一个很大的问题，就是如何加入位置信息。在预测 $x_t$ 的时候，我们应该知道 $x_t$ 的位置编码，而不是上下文编码，同时还要知道 $x_{t-1}$ 之前的上下文编码。

Query stream：只能看到当前的位置信息，不能看到当前token的编码，如图b
Content stream：传统self-attention，像GPT一样对当前token进行编码，如图a

Two-Stream Self-Attention
在预训练阶段的最终预测只是用Query stream，在fine-tune阶段使用Content stream。

3. Transformer-XL

由于内存和算力的限制，Bert只能支持到512个字符，过长的文本都要截断，丢弃部分信息。Transformer-XL参考了RNN，将前边的信息以隐藏单元的形式记录下来。

Transformer-XL

从图b可以看出，右上角的token获取到了远远大于之前截断方式的信息，类似CNN的感受野。

相关文章

XLNet预训练模型，看这篇就够了！(代码实现)
1. 什么是XLNet XLNet 是一个类似 BERT 的模型，而不是完全不同的模型。总之，XLNet是一种通用...
XLNet
1、XLNet的出发点自回归语言模型AR：仅根据上文预测，或仅根据下文预测。ELMO、GPT。优势是擅长生成式自...
XLNet
原理XLNet原理挺简单的概括起来一句就是：采取了Attention掩码的机制，来实现通过上下问来预测某个词。详细...
XLNet
0. XLNet简介 2018年Bert横空出世，刷新了很多NLP任务的SOTA。之后人们开始研究对Bert的改进...
XLNet 详解
BERT 训练时将部分单词 mask 起来，使模型能够利用句子双向的信息，在很多 NLU 任务上取得很好的效果。但...
XLNet: Generalized Autoregressiv
1. 创新点 XLNet主要解决了Bert存在的一些问题，所以在介绍XLNet前，先简单介绍一下Bert，及其问题...
什么是 XLNet，为何它会超越 BERT？
原文：https://towardsdatascience.com/what-is-xlnet-and-why-i...
15 分钟搭建一个基于XLNET的文本分类模型——keras实战
今天笔者将简要介绍一下后bert 时代中一个又一比较重要的预训练的语言模型——XLNET ，下图是XLNET在中文...
2021-07-15-对话模型整理
2021AAAI_DialogXL: All-in-One XLNet for Multi-Party Conve...
教你怎样用Transformer-XL及其进化XLNet
作者 | 周俊贤整理 | NewBeeNLP 最近又重新读了Transformer-XL和XLNet的论文和代码...

网友评论

本文标题：XLNet

本文链接：https://www.haomeiwen.com/subject/fbdtfrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|XLNet|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！