美文网首页
bert的trick理解-损失函数的理解

bert的trick理解-损失函数的理解

作者: 张知道q | 来源:发表于2021-01-17 14:49 被阅读0次

    参考文献:https://www.jianshu.com/p/63943ffe2bab

    MLM:在 encoder 的输出上添加一个分类层,用嵌入矩阵乘以输出向量,将其转换为词汇的维度,用 softmax 计算mask中每个单词的概率,对比原来的label,计算损失。

    NSP:用一个简单的分类层将 [CLS] 标记的输出变换为 2×1 形状的向量,用 softmax 计算 IsNextSequence 的概率,该目标在albert中被推翻,BERT中,NSP任务的正例是文章中连续的两个句子,而负例则是从两篇文档中各选一个句子构造而成。在先前的研究中,已经证明NSP是并不是一个合适的预训练任务。本文推测其原因是模型在判断两个句子的关系时不仅考虑了两个句子之间的连贯性(coherence),还会考虑到两个句子的话题(topic)。而两篇文档的话题通常不同,模型会更多的通过话题去分析两个句子的关系,而不是句子间的连贯性,这使得NSP任务变成了一个相对简单的任务。

    相关文章

      网友评论

          本文标题:bert的trick理解-损失函数的理解

          本文链接:https://www.haomeiwen.com/subject/ardvaktx.html