GPT 原理解析

作者: Sui_Xin | 来源:发表于2020-05-11 08:48 被阅读0次

GPT 原理解析
从零构建GPT --- 学习笔记
学习资料汇总
Chat-GPT原理初探
SparseArray原理分析
SparseIntArray原理分析
Promise原理解析
优酷播放按钮动画原理解析
xml解析
Arduino UNO原理图解析（标题预留）

本文首发于我的个人博客 Sui Xin's Blog
原文：https://suixinblog.cn/2019/09/gpt.html
作者：Sui Xin

GPT（Generative Pre-Training）是一个典型的两阶段式模型：无监督预训练+监督下游任务微调。而在 NLP 任务中，上游的无监督预训练任务多半采用语言模型来实现，下游的监督任务直接对上游的模型进行简单改造即可使用。
GPT 为了能够有效的抓取文本中的语义信息，使用了单向的 Transformer Decoder 模块构建标准的语言模型，再使用预训练得到的网络架构与参数进行下游监督任务的微调，取得了不错的效果。
论文：Improving Language Understanding by Generative Pre-Training

模型架构

无监督预训练语言模型

对于语料 $\mathcal{U}=\left(u_{1}, \dots, u_{n}\right)$ ，GPT 构建标准的语言模型：
$L_{1}(\mathcal{U})=\sum_{i} \log P\left(u_{i} | u_{i-k}, \ldots, u_{i-1} ; \Theta\right)$
文章中使用 Transformer Decoder 模块加上前馈神经网络，最后使用 softmax 输出目标词的分布：
$\begin{aligned} h_{0} &=U W_{e}+W_{p} \\ h_{l} &=\text { transformer }_{-} \mathrm{b} 1 \mathrm{ock}\left(h_{l-1}\right) \forall l \in[1, n] \\ P(u) &=\operatorname{softmax}\left(h_{n} W_{e}^{T}\right) \end{aligned}$

注：（不确定部分）实验中，语言模型中的 Transformer Decoder 模块不同于标准的 Transformer 模型，而是使用了 Transformer 的另一个版本：GENERATING WIKIPEDIA BY SUMMARIZING LONG SEQUENCES。其中，使用了名为 Local attention 和 Memory-compressed attention 的模块。

下游监督任务微调

对于通过第一阶段的预训练得到的语言模型，对于特定的任务进行 fine-tuning。
对于一个监督数据集 $\mathcal{C}$ ，其中的数据为一个序列 $x^{1}, \ldots, x^{m}$ 和一个标签 $y$ 。将序列输入预训练模型后得到输出向量为 $h_{l}^{m}$ ，接着使用一个线性层来预测标签：
$P\left(y | x^{1}, \ldots, x^{m}\right)=\operatorname{softmax}\left(h_{l}^{m} W_{y}\right)$
需极大化的似然函数为：
$L_{2}(\mathcal{C})=\sum_{(x, y)} \log P\left(y | x^{1}, \ldots, x^{m}\right)$
另外，作者发现，使用语言模型来辅助监督学习的任务进行微调，有两个好处：

提升监督模型的泛化性；
加速收敛。

所以，最终下游使用的监督模型目标函数为：
$L_{3}(\mathcal{C})=L_{2}(\mathcal{C})+\lambda * L_{1}(\mathcal{C})$

不同类型下游任务的输入变换

GPT 使用两阶段式模型的另外一个好处是，作者期望通过第一阶段的预训练语言模型，学习到尽可能多的自然语言信息，且对于大多数下游任务，只需要简单的修改输入而不需要修改模型架构即可完成微调。对于 NLP 中的几种主流任务，GPT 分别做了如下的变换策略：

image

其他

模型还包括一些细节：

Adam 优化器的学习率使用了退火策略；
使用了 bytepair encoding（BPE）；
使用了 Gaussian Error Linear Unit（GELU）激活函数；
Position embedding 通过学习得来，而不是标准 Transformer 的正弦函数。

模型特点

优点

特征抽取器使用了强大的 Transformer，能够捕捉到更长的记忆信息，且较传统的 RNN 更易于并行化；
方便的两阶段式模型。

缺点

标准的 LM 只对单向进行建模，不符合真实场景，建模能力受到限制。

GPT-2

论文：Language Models are Unsupervised Multitask Learners
GPT-2 是 GPT 的直接升级版，效果惊人。相比之下，GPT-2 有如下几点改进：

构建了一个更加庞大的数据集 WebText，其涵盖的领域比较广泛，共有 8 百万文档，40 GB；
使用了更加庞大的网络架构：最大 48 层 Transformer，1542M 参数，1600 维；
GPT-2 提出这样训练得到的模型，能够在 zero-shot 情形下也有不错的表现，从而证明了语言模型预训练的意义。

参考

GPT 官方网址：https://openai.com/blog/language-unsupervised/
GPT 官方 GitHub：https://github.com/openai/finetune-transformer-lm
GPT-2 官方网址：https://openai.com/blog/better-language-models/
GPT-2 官方 GitHub：https://github.com/openai/gpt-2

GPT 原理解析
本文首发于我的个人博客 Sui Xin's Blog原文：https://suixinblog.cn/2019/0...
从零构建GPT --- 学习笔记
从零构建GPT “从0到1手搓GPT”教程来了！视频1个多小时，从原理到代码都一一呈现，训练微调也涵盖在内，手把...
学习资料汇总
GeoHash核心原理解析 GeoHash算法学习讲解、解析及原理分析
Chat-GPT原理初探
Chat-GPT很火！非常火！国内和它的概念挂上钩的股票都几个涨停! 很神秘，但是作为理工科人士，还是得了解下他的...
SparseArray原理分析
系列文章地址：Android容器类-ArraySet原理解析(一)Android容器类-ArrayMap原理解析(...
SparseIntArray原理分析
系列文章地址：Android容器类-ArraySet原理解析(一)Android容器类-ArrayMap原理解析(...
Promise原理解析
Promise原理解析标签（空格分隔）： Node.js Promise原理解析简介 Promise 对象用于...
优酷播放按钮动画原理解析
优酷播放按钮动画原理解析优酷播放按钮动画原理解析
xml解析
一、解析方式：DOM解析，SAX解析 1）解析工具基于DOM解析原理的： 1）JAXP （o...
Arduino UNO原理图解析（标题预留）
1，原理图整体呈现 2，原理图模块解析 3，元器件参数设置解析

GPT 原理解析

模型架构

无监督预训练语言模型

下游监督任务微调

不同类型下游任务的输入变换

其他

模型特点

优点

缺点

GPT-2

参考

相关文章

GPT 原理解析

从零构建GPT --- 学习笔记

学习资料汇总

Chat-GPT原理初探

SparseArray原理分析

SparseIntArray原理分析

Promise原理解析

优酷播放按钮动画原理解析

xml解析

Arduino UNO原理图解析（标题预留）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读