美文网首页
BERT MLM LOSS2024-05-30

BERT MLM LOSS2024-05-30

作者: 9_SooHyun | 来源:发表于2024-05-29 11:05 被阅读0次

BERT(Bidirectional Encoder Representations from Transformers)的MLM(Masked Language Model)损失是这样设计的:在训练过程中,BERT随机地将输入文本中的一些单词替换为一个特殊的[MASK]标记,然后模型的任务是预测这些被掩盖的单词。具体来说,它会预测整个词汇表中每个单词作为掩盖位置的概率。

MLM损失的计算方式是使用交叉熵损失函数。对于每个被掩盖的单词,模型会输出一个概率分布,表示每个可能的单词是正确单词的概率。交叉熵损失函数会计算模型输出的概率分布与真实单词的分布(实际上是一个one-hot编码,其中正确单词的位置是1,其余位置是0)之间的差异。

具体来说,如果你有一个词汇表大小为V,对于一个被掩盖的单词,模型会输出一个V维的向量,表示词汇表中每个单词的概率。如果y是一个one-hot编码的真实分布,而p是模型预测的分布,则交叉熵损失可以表示为(用于衡量模型预测概率分布与真实标签概率分布之间的差异):

L = -\sum_{i=1}^{V} y_i \log(p_i)

其中:

  • L 表示损失函数的值
  • V 表示类别的数量
  • y_i 是第 i 个类别的真实标签,通常为0或1
  • p_i 是模型预测第 i 个类别的概率
  • \log 表示自然对数
  • \sum 表示对所有类别求和

在这个公式中,y_i是真实分布中的第i个元素,而p_i是模型预测的分布中的第i个元素。由于y是one-hot编码的,所以除了正确单词对应的位置为1,其余位置都是0,这意味着上面的求和实际上只在正确单词的位置计算。

在实际操作中,为了提高效率,通常不会对整个词汇表进行预测,而是使用采样技术,如负采样(negative sampling)或者层次softmax(hierarchical softmax),来减少每个训练步骤中需要计算的输出数量。

相关文章

  • ICLR 2020|ELECTRA

    MLM(Masked language modeling)方式的预训练语言模型如BERT是在输入上用[MASK]遮...

  • ELECTRA:比 BERT 更好的生成判别模型

    BERT 在训练的过程中使用了 Masked Language Model (MLM),随机遮挡一些单词,并对这些...

  • MLM

    很久不联系的一个寄宿家庭的妈妈,最近突然开始跟我聊天,我想着人家估计怀旧呢要跟我叙叙旧联络一下感情。看来咱人...

  • Bert使用随笔

    Bert使用 使用Bert模型 其中bert_config是BertConfig类,bert内部是从json配置文...

  • bert资料笔记

    当Bert遇上Keras:这可能是Bert最简单的打开姿势 karas_bert

  • 【BERT】BERT

    Transformer 参考资料 https://zhuanlan.zhihu.com/p/48508221[ht...

  • BERT 详解(二)

    1. BERT 结构 BERT是以 Transformer 为基础的,目前有两种变体: BERT Base:12层...

  • 116. 【论文理解】SBERT

    Sentence-BERT: Sentence Embeddings using Siamese BERT-Net...

  • Serving Google BERT in Productio

    本文来源:bert-as-service 博客 Serving Google BERT in Production...

  • BERT

    1.BERT介绍 2.基于Bert的多标签文本分类 3.基于Bert的命名实体识别

网友评论

      本文标题:BERT MLM LOSS2024-05-30

      本文链接:https://www.haomeiwen.com/subject/juakqjtx.html