美文网首页
BERT Paper Review

BERT Paper Review

作者: 呢嘻嘻嘻嘻嘻 | 来源:发表于2019-05-16 20:37 被阅读0次

BERT-Google Code

Pre-training of Deep Bidirectional Transformers for Language Understanding

       EMLo的热度还没降下来(凉了),紧接着OpenAI GPT和ELMo的Google BERT,在很多个NLP任务中都获得了大幅度的提升,又成了NLP的一个牛逼疯了大热点 。
       下面记录一下对论文的理解和笔记。

1、相关知识

       预训练模型,BERT是一个预训练模型。简单的来说就是一个模型通过大数据集A来训练,学习到一个关于数据集A的参数。当进行数据集B的任务时,先调用关于A的参数作为初始参数,然后再通过数据集B进行再训练,并调整参数,逐渐调整成为适合数据集B的模型,也就是“fine-tuning(微调)”。
       这个特性的特点就是可以用很少的数据集B就能训练得到很好的训练参数,即,一定程度上的继承了在数据集A训练好的参数,通过微调使之快速适应数据集B。而且通常这样做,会得到比只用数据B训练得到的模型参数更好。

2、BERT

       主要贡献:双向预训练对语言表示的重要性,使用MLM(Masked Language Model,遮蔽语言模型),语句级训练NextSentence任务

       论文提出了两种不同Size的BERT模型:
              BERTbase:L=12,H=768,A=12,TotalParams = 110M(Base版本的提出意在与GPT模型有相同的模型size,用以对比参照)
              BERTlarge:L=24,H=1024,A=16,TotalParams = 340M
L:指网络的层数
H:指隐层的单元数
A:指使用的自注意力的头数(Attention Is All You Need)
        两者的差别就是大小不同,在后面的实验结果部分,BERTlarge版本大概比base版本要再高约1% ~ 2%左右,在CoLA数据集差8%左右,RTE在4%左右。

       模型结构对比
OpenAI GPT

       OpenAI GPT就是只用到了从左往右的上下文信息来做训练。


ELMo

       而ELMo使用的是两个独立的单向LSTM来做训练。据说ELMo使用时效率比较低,而且很快又被提出的BERT强势压在头上,所以ELMo小火之后,就没然后了。


BERT
       BERT的结构主要是基于多层多个双向Transformer(从左到右和从右到左)。Transformer在Attention论文中应用MT(机器翻译)任务时用了6层的Transformer。从结构上来讲,Transformer之间用的是Residual Connection,并且有batch normarlization这种“常规操作”,所以得以实现多层网络。而疑问在于多层的网络结构可以在NLP任务中学习到什么特征?有论点认为低层网络偏向于语法特征学习,高层网络偏向于语义特征学习,但这还没有得到论证。
       Task1:MLM(遮蔽语言模型)

       BERT创新性的一个亮点就是对输入数据的处理,“MLM”,即遮蔽语言模型。BERT通过对输入句子15%的token进行随机遮蔽(随机遮蔽的原因是为了减少未来fine-tuning时遇到未见词的可能性),然后将masked token的位置输出的最终隐层向量送到softmax,来预测masked token。而对于遮盖住的token在NLP下游任务中不存在这种Mask标记,因此为了解决这个问题,作者按照一定的比例来进行输入原词或者输入某个随机词。
文中例如:My dog is hairy

  • 80%概率:用[mask] 标记替换:My dog is hairy -->My dog is [mask]
  • 10%概率:随机词替换要标记位置:My dog is hairy -->My dog is pig.
  • 10%概率:不做替换操作:My dog is hairy -->My dog is hairy. (无替换)
           Transformer
           Transformer已经提到,是来自于同是Google提出的《Attention Is All You Need》,是一种可以替代CNN和RNN的新架构,用来实现MT任务。CNN处理文本的缺陷是,卷积操作先天不适合用于文本序列操作,RNN没有并行化,很容易超出内存限制。
    Transformer 结构
           上图就是Transformer的结构图,分成左边Nx的encoder部分和右边Nx的decoder部分,相比较于RNN+Attention常见的encoder-decoder之间的Attention,还多出encoder和decoder内部的self-attention。每个Attention都有Multi-Head特征,最后通过Position encoding加入没有考虑过的位置信息。
           Multi - Head Attention
           将一个词的vector,切分成h个维度,求attention相似度(点积、cosine、MLP)时每个h维度计算。由于单词映射在高维空间作为向量形式,每一维空间都可以学习到不同的特征,相邻空间所学到的结果更相似,相较于全体空间放到一起更具合理性。比如对于vector-size = 512的词向量,取h=8,每64个空间做一个Attention,学到的结果更细化,更合理(即高维空间中的相邻维度具有的联系更紧密,我猜)。
           Self - Attention
           每个词位置的词都可以无视距离和方向,有机会和句子词序列中的每个词进行encoding。两个词的联系越强,self-attention的值越大。
           Position Encoding
           因为Transformer既没有RNN的循环单元也没有CNN的卷积操作,但序列顺序信息是非常重要的特征。
           Transformer计算token的位置信息(这里使用正弦波),类似信号的周期性变化。这样的循环函数可以一定程度上增加模型的泛化能力。
                  PE (pos,2i) = sin(pos/10000 2i/d model )
                  PE (pos,2i+1) = cos(pos/10000 2i/d model )
           但BERT直接训练一个Position Embedding 来保留位置信息,每个位置随机初始化一个向量,加入模型训练,最后就得到一个包含位置信息的embedding(emmmm)。BERT最后这个Position Embedding 和 Word Embedding选择使用 直接拼接
       Task2:Next Sentence Prediction

       句子级别的连续性预测任务,即预测输入BERT的两端文本是否为连续的文本。训练时,输入模型的第二句以50%的概率从全部文本中随机抽取,剩下50%的概率选取第一个句子的后续一个句子作为输入。(其实就是做句子级匹配的二分类)
即如下:
       [Input]:[CLS]太阳天[mask]照[SEP]我[mask]去学校[SEP]
       [Label]:IsNext
       [Input]:[CLS]太阳天[mask]照[SEP]交给警察[mask]叔手里面[SEP]
       [Label]:NotNext
(虽然这个训练任务非常的简单,但是后来证明这项训练任务对QA和NLI都极有帮助)

       Segment Embedding BERT Input Representation

       The input embeddings is the sum of the token embeddings, the segmentation embeddings and position embeddings.
       即直接拼接各个Embedding组合

3、迁移策略

下游NLP任务分类:
a). 序列标注:分词、NER、语义标注…
b).分类任务:文本分类、情感识别…
c).句子关系判断:QA、自然语言推理、文本蕴含…
d).生成式任务:机器翻译、文本摘要、文本生成…
       BERT 将传统大量在下游具体的NLP任务中做的操作转移到预训练词向量中,在获得BERT词向量后,最终只需要在词向量上加简单的MLP或线性分类器即可。

4、GLUE语料集

实验数据以及对应的NLP任务

  • MNLI蕴含关系推断
  • QQP问题对是否等价
  • QNLI句子是都回答问句
  • SST-2情感分析
  • CoLA句子语言性判断
  • STS-B语义相似
  • MRPC句子对是都语义等价
  • RTE蕴含关系推断
  • WNLI蕴含关系推断

References:
       BERT Paper
       Attention Paper
       Attention Is All You Need 阅读笔记
       BERT的理解
       彻底搞懂BERT
       BERT介绍

相关文章

网友评论

      本文标题:BERT Paper Review

      本文链接:https://www.haomeiwen.com/subject/lkkwaqtx.html