美文网首页
GPT 原理解析

GPT 原理解析

作者: Sui_Xin | 来源:发表于2020-05-11 08:48 被阅读0次

本文首发于我的个人博客 Sui Xin's Blog
原文:https://suixinblog.cn/2019/09/gpt.html
作者:Sui Xin

GPT(Generative Pre-Training)是一个典型的两阶段式模型:无监督预训练+监督下游任务微调。而在 NLP 任务中,上游的无监督预训练任务多半采用语言模型来实现,下游的监督任务直接对上游的模型进行简单改造即可使用。
GPT 为了能够有效的抓取文本中的语义信息,使用了单向的 Transformer Decoder 模块构建标准的语言模型,再使用预训练得到的网络架构与参数进行下游监督任务的微调,取得了不错的效果。
论文:Improving Language Understanding by Generative Pre-Training

模型架构

无监督预训练语言模型

对于语料 \mathcal{U}=\left(u_{1}, \dots, u_{n}\right),GPT 构建标准的语言模型:
L_{1}(\mathcal{U})=\sum_{i} \log P\left(u_{i} | u_{i-k}, \ldots, u_{i-1} ; \Theta\right)
文章中使用 Transformer Decoder 模块加上前馈神经网络,最后使用 softmax 输出目标词的分布:
\begin{aligned} h_{0} &=U W_{e}+W_{p} \\ h_{l} &=\text { transformer }_{-} \mathrm{b} 1 \mathrm{ock}\left(h_{l-1}\right) \forall l \in[1, n] \\ P(u) &=\operatorname{softmax}\left(h_{n} W_{e}^{T}\right) \end{aligned}

注:(不确定部分)实验中,语言模型中的 Transformer Decoder 模块不同于标准的 Transformer 模型,而是使用了 Transformer 的另一个版本:GENERATING WIKIPEDIA BY SUMMARIZING LONG SEQUENCES。其中,使用了名为 Local attention 和 Memory-compressed attention 的模块。

下游监督任务微调

对于通过第一阶段的预训练得到的语言模型,对于特定的任务进行 fine-tuning。
对于一个监督数据集 \mathcal{C},其中的数据为一个序列 x^{1}, \ldots, x^{m} 和一个标签 y。将序列输入预训练模型后得到输出向量为 h_{l}^{m},接着使用一个线性层来预测标签:
P\left(y | x^{1}, \ldots, x^{m}\right)=\operatorname{softmax}\left(h_{l}^{m} W_{y}\right)
需极大化的似然函数为:
L_{2}(\mathcal{C})=\sum_{(x, y)} \log P\left(y | x^{1}, \ldots, x^{m}\right)
另外,作者发现,使用语言模型来辅助监督学习的任务进行微调,有两个好处:

  1. 提升监督模型的泛化性;
  2. 加速收敛。

所以,最终下游使用的监督模型目标函数为:
L_{3}(\mathcal{C})=L_{2}(\mathcal{C})+\lambda * L_{1}(\mathcal{C})

不同类型下游任务的输入变换

GPT 使用两阶段式模型的另外一个好处是,作者期望通过第一阶段的预训练语言模型,学习到尽可能多的自然语言信息,且对于大多数下游任务,只需要简单的修改输入而不需要修改模型架构即可完成微调。对于 NLP 中的几种主流任务,GPT 分别做了如下的变换策略:


image

其他

模型还包括一些细节:

模型特点

优点

  • 特征抽取器使用了强大的 Transformer,能够捕捉到更长的记忆信息,且较传统的 RNN 更易于并行化;
  • 方便的两阶段式模型。

缺点

  • 标准的 LM 只对单向进行建模,不符合真实场景,建模能力受到限制。

GPT-2

论文:Language Models are Unsupervised Multitask Learners
GPT-2 是 GPT 的直接升级版,效果惊人。相比之下,GPT-2 有如下几点改进:

  1. 构建了一个更加庞大的数据集 WebText,其涵盖的领域比较广泛,共有 8 百万文档,40 GB;
  2. 使用了更加庞大的网络架构:最大 48 层 Transformer,1542M 参数,1600 维;
  3. GPT-2 提出这样训练得到的模型,能够在 zero-shot 情形下也有不错的表现,从而证明了语言模型预训练的意义。

参考

GPT 官方网址:https://openai.com/blog/language-unsupervised/
GPT 官方 GitHub:https://github.com/openai/finetune-transformer-lm
GPT-2 官方网址:https://openai.com/blog/better-language-models/
GPT-2 官方 GitHub:https://github.com/openai/gpt-2

相关文章

  • GPT 原理解析

    本文首发于我的个人博客 Sui Xin's Blog原文:https://suixinblog.cn/2019/0...

  • 从零构建GPT --- 学习笔记

    从零构建GPT “从0到1手搓GPT”教程来了! 视频1个多小时,从原理到代码都一一呈现,训练微调也涵盖在内,手把...

  • 学习资料汇总

    GeoHash核心原理解析 GeoHash算法学习讲解、解析及原理分析

  • Chat-GPT原理初探

    Chat-GPT很火!非常火!国内和它的概念挂上钩的股票都几个涨停! 很神秘,但是作为理工科人士,还是得了解下他的...

  • SparseArray原理分析

    系列文章地址:Android容器类-ArraySet原理解析(一)Android容器类-ArrayMap原理解析(...

  • SparseIntArray原理分析

    系列文章地址:Android容器类-ArraySet原理解析(一)Android容器类-ArrayMap原理解析(...

  • Promise原理解析

    Promise原理解析 标签(空格分隔): Node.js Promise原理解析 简介 Promise 对象用于...

  • 优酷播放按钮动画原理解析

    优酷播放按钮动画原理解析 优酷播放按钮动画原理解析

  • xml解析

    一、解析方式:DOM解析,SAX解析 1)解析工具 基于DOM解析原理的: 1)JAXP (o...

  • Arduino UNO原理图解析(标题预留)

    1,原理图整体呈现 2,原理图模块解析 3,元器件参数设置解析

网友评论

      本文标题:GPT 原理解析

      本文链接:https://www.haomeiwen.com/subject/lusynhtx.html