BERT 模型相关疑问以及解答

BERT 模型相关疑问以及解答

作者: LCG22 | 来源:发表于2020-01-07 23:59 被阅读0次

BERT 模型相关疑问以及解答
Transformer 模型相关疑问以及解答
LSTM相关疑问以及解答(持续更新)
transformer编码层-Bert底层介绍
Transformer编码层-Bert深度
iOS RunLoop 总结以及相关面试题解答
Bert使用随笔
图解BERT模型结构输入输出
NLP必读 | 十分钟读懂谷歌BERT模型
transformers中的bert用法

1、BERT 名称中的双向指的是什么？是怎么体现双向的？

答：双向指的是双向语言模型，例如要被预测的 mask，mask 的上下文是可以被模型看到的

2、BERT 中的词嵌入、位置嵌入、句子类别编码是对应维度上的值直接相加的吗？

答：是的

如图：

图 2.1

3、BERT 是如何体现 mask 机制的？

4、BERT 的分类模型的损失函数是怎么样的？为什么要定义这样的损失函数呢？

图 4.1

答：

下面内容参考自：分类问题中的损失函数

BERT 官方代码中的分类模型的损失函数叫做负对数似然函数（且是最小化，等价于最大化对数似然函数），数学表达式是：

图 4.2

至于为何要定义这样的损失函数，则是因为在实际使用中，常用逻辑回归模型去解决分类问题，当逻辑回归撞上平方损失，损失函数关于参数

非凸。所以，不是分类问题中不使用平方损失，而是逻辑回归不使用平方损失。而代码中的 log_probs 使用了对数，故而不使用平方损失，而使用负对数似然损失函数

相关文章

BERT 模型相关疑问以及解答
1、BERT 名称中的双向指的是什么？是怎么体现双向的？答：双向指的是双向语言模型，例如要被预测的 mask，m...
Transformer 模型相关疑问以及解答
1、Decoder 部分中的 decoder 的输入是如何的？是一次性给多个输入节点进行输入数据，还是每步只给一个...
LSTM相关疑问以及解答(持续更新)
1、LSTM 中参数矩阵 W 为什么要跟输入 h 和 x 使用 point wise （或叫点乘、句乘、按列乘）呢...
transformer编码层-Bert底层介绍
内容抄自：视频从中文Transformer到BERT的模型精讲,以及基于BERT情感分类实战[https://ww...
Transformer编码层-Bert深度
内容抄自：视频从中文Transformer到BERT的模型精讲,以及基于BERT情感分类实战[https://ww...
iOS RunLoop 总结以及相关面试题解答
iOS RunLoop 总结以及相关面试题解答 iOS RunLoop 总结以及相关面试题解答
Bert使用随笔
Bert使用使用Bert模型其中bert_config是BertConfig类，bert内部是从json配置文...
图解BERT模型结构输入输出
本文首先介绍BERT模型要做什么，即：模型的输入、输出分别是什么，以及模型的预训练任务是什么；然后，分析模型的内部...
NLP必读 | 十分钟读懂谷歌BERT模型
目录一、前言二、如何理解BERT模型三、BERT模型解析 1、论文的主要贡献2、模型架构3、关键创新3、实验...
transformers中的bert用法
1. Bert模型下载这里直接使用huggingface提供的pre-trained的bert模型，直接去官网即...

网友评论

机器学习与深度学习

本文标题：BERT 模型相关疑问以及解答

本文链接：https://www.haomeiwen.com/subject/ygwhactx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

机器学习与深度学习

热点阅读

机器学习与深度学习

关于我们|服务条款|联系我们|BERT 模型相关疑问以及解答|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！