美文网首页
BERT Paper Review

BERT Paper Review

作者: 呢嘻嘻嘻嘻嘻 | 来源:发表于2019-05-16 20:37 被阅读0次

    BERT-Google Code

    Pre-training of Deep Bidirectional Transformers for Language Understanding

           EMLo的热度还没降下来(凉了),紧接着OpenAI GPT和ELMo的Google BERT,在很多个NLP任务中都获得了大幅度的提升,又成了NLP的一个牛逼疯了大热点 。
           下面记录一下对论文的理解和笔记。

    1、相关知识

           预训练模型,BERT是一个预训练模型。简单的来说就是一个模型通过大数据集A来训练,学习到一个关于数据集A的参数。当进行数据集B的任务时,先调用关于A的参数作为初始参数,然后再通过数据集B进行再训练,并调整参数,逐渐调整成为适合数据集B的模型,也就是“fine-tuning(微调)”。
           这个特性的特点就是可以用很少的数据集B就能训练得到很好的训练参数,即,一定程度上的继承了在数据集A训练好的参数,通过微调使之快速适应数据集B。而且通常这样做,会得到比只用数据B训练得到的模型参数更好。

    2、BERT

           主要贡献:双向预训练对语言表示的重要性,使用MLM(Masked Language Model,遮蔽语言模型),语句级训练NextSentence任务

           论文提出了两种不同Size的BERT模型:
                  BERTbase:L=12,H=768,A=12,TotalParams = 110M(Base版本的提出意在与GPT模型有相同的模型size,用以对比参照)
                  BERTlarge:L=24,H=1024,A=16,TotalParams = 340M
    L:指网络的层数
    H:指隐层的单元数
    A:指使用的自注意力的头数(Attention Is All You Need)
            两者的差别就是大小不同,在后面的实验结果部分,BERTlarge版本大概比base版本要再高约1% ~ 2%左右,在CoLA数据集差8%左右,RTE在4%左右。

           模型结构对比
    OpenAI GPT

           OpenAI GPT就是只用到了从左往右的上下文信息来做训练。


    ELMo

           而ELMo使用的是两个独立的单向LSTM来做训练。据说ELMo使用时效率比较低,而且很快又被提出的BERT强势压在头上,所以ELMo小火之后,就没然后了。


    BERT
           BERT的结构主要是基于多层多个双向Transformer(从左到右和从右到左)。Transformer在Attention论文中应用MT(机器翻译)任务时用了6层的Transformer。从结构上来讲,Transformer之间用的是Residual Connection,并且有batch normarlization这种“常规操作”,所以得以实现多层网络。而疑问在于多层的网络结构可以在NLP任务中学习到什么特征?有论点认为低层网络偏向于语法特征学习,高层网络偏向于语义特征学习,但这还没有得到论证。
           Task1:MLM(遮蔽语言模型)

           BERT创新性的一个亮点就是对输入数据的处理,“MLM”,即遮蔽语言模型。BERT通过对输入句子15%的token进行随机遮蔽(随机遮蔽的原因是为了减少未来fine-tuning时遇到未见词的可能性),然后将masked token的位置输出的最终隐层向量送到softmax,来预测masked token。而对于遮盖住的token在NLP下游任务中不存在这种Mask标记,因此为了解决这个问题,作者按照一定的比例来进行输入原词或者输入某个随机词。
    文中例如:My dog is hairy

    • 80%概率:用[mask] 标记替换:My dog is hairy -->My dog is [mask]
    • 10%概率:随机词替换要标记位置:My dog is hairy -->My dog is pig.
    • 10%概率:不做替换操作:My dog is hairy -->My dog is hairy. (无替换)
             Transformer
             Transformer已经提到,是来自于同是Google提出的《Attention Is All You Need》,是一种可以替代CNN和RNN的新架构,用来实现MT任务。CNN处理文本的缺陷是,卷积操作先天不适合用于文本序列操作,RNN没有并行化,很容易超出内存限制。
      Transformer 结构
             上图就是Transformer的结构图,分成左边Nx的encoder部分和右边Nx的decoder部分,相比较于RNN+Attention常见的encoder-decoder之间的Attention,还多出encoder和decoder内部的self-attention。每个Attention都有Multi-Head特征,最后通过Position encoding加入没有考虑过的位置信息。
             Multi - Head Attention
             将一个词的vector,切分成h个维度,求attention相似度(点积、cosine、MLP)时每个h维度计算。由于单词映射在高维空间作为向量形式,每一维空间都可以学习到不同的特征,相邻空间所学到的结果更相似,相较于全体空间放到一起更具合理性。比如对于vector-size = 512的词向量,取h=8,每64个空间做一个Attention,学到的结果更细化,更合理(即高维空间中的相邻维度具有的联系更紧密,我猜)。
             Self - Attention
             每个词位置的词都可以无视距离和方向,有机会和句子词序列中的每个词进行encoding。两个词的联系越强,self-attention的值越大。
             Position Encoding
             因为Transformer既没有RNN的循环单元也没有CNN的卷积操作,但序列顺序信息是非常重要的特征。
             Transformer计算token的位置信息(这里使用正弦波),类似信号的周期性变化。这样的循环函数可以一定程度上增加模型的泛化能力。
                    PE (pos,2i) = sin(pos/10000 2i/d model )
                    PE (pos,2i+1) = cos(pos/10000 2i/d model )
             但BERT直接训练一个Position Embedding 来保留位置信息,每个位置随机初始化一个向量,加入模型训练,最后就得到一个包含位置信息的embedding(emmmm)。BERT最后这个Position Embedding 和 Word Embedding选择使用 直接拼接
           Task2:Next Sentence Prediction

           句子级别的连续性预测任务,即预测输入BERT的两端文本是否为连续的文本。训练时,输入模型的第二句以50%的概率从全部文本中随机抽取,剩下50%的概率选取第一个句子的后续一个句子作为输入。(其实就是做句子级匹配的二分类)
    即如下:
           [Input]:[CLS]太阳天[mask]照[SEP]我[mask]去学校[SEP]
           [Label]:IsNext
           [Input]:[CLS]太阳天[mask]照[SEP]交给警察[mask]叔手里面[SEP]
           [Label]:NotNext
    (虽然这个训练任务非常的简单,但是后来证明这项训练任务对QA和NLI都极有帮助)

           Segment Embedding BERT Input Representation

           The input embeddings is the sum of the token embeddings, the segmentation embeddings and position embeddings.
           即直接拼接各个Embedding组合

    3、迁移策略

    下游NLP任务分类:
    a). 序列标注:分词、NER、语义标注…
    b).分类任务:文本分类、情感识别…
    c).句子关系判断:QA、自然语言推理、文本蕴含…
    d).生成式任务:机器翻译、文本摘要、文本生成…
           BERT 将传统大量在下游具体的NLP任务中做的操作转移到预训练词向量中,在获得BERT词向量后,最终只需要在词向量上加简单的MLP或线性分类器即可。

    4、GLUE语料集

    实验数据以及对应的NLP任务

    • MNLI蕴含关系推断
    • QQP问题对是否等价
    • QNLI句子是都回答问句
    • SST-2情感分析
    • CoLA句子语言性判断
    • STS-B语义相似
    • MRPC句子对是都语义等价
    • RTE蕴含关系推断
    • WNLI蕴含关系推断

    References:
           BERT Paper
           Attention Paper
           Attention Is All You Need 阅读笔记
           BERT的理解
           彻底搞懂BERT
           BERT介绍

    相关文章

      网友评论

          本文标题:BERT Paper Review

          本文链接:https://www.haomeiwen.com/subject/lkkwaqtx.html