美文网首页机器学习与深度学习
BERT 模型相关疑问以及解答

BERT 模型相关疑问以及解答

作者: LCG22 | 来源:发表于2020-01-07 23:59 被阅读0次

    1、BERT 名称中的双向指的是什么?是怎么体现双向的?

    答:双向指的是双向语言模型,例如要被预测的 mask,mask 的上下文是可以被模型看到的

    2、BERT 中的词嵌入、位置嵌入、句子类别编码是对应维度上的值直接相加的吗?

    答:是的

    如图:

    图 2.1

    3、BERT 是如何体现 mask 机制的?

    4、BERT 的分类模型的损失函数是怎么样的?为什么要定义这样的损失函数呢?

    图 4.1

    答:

    下面内容参考自:分类问题中的损失函数

    BERT 官方代码中的分类模型的损失函数叫做负对数似然函数(且是最小化,等价于最大化对数似然函数),数学表达式是:

    图 4.2

    至于为何要定义这样的损失函数,则是因为在实际使用中,常用逻辑回归模型去解决分类问题,当逻辑回归撞上平方损失,损失函数关于参数

    非凸。所以,不是分类问题中不使用平方损失,而是逻辑回归不使用平方损失。而代码中的 log_probs 使用了对数,故而不使用平方损失,而使用负对数似然损失函数

    相关文章

      网友评论

        本文标题:BERT 模型相关疑问以及解答

        本文链接:https://www.haomeiwen.com/subject/ygwhactx.html