BERT 详解（二）

BERT 详解（二）

作者: 6c643a7fc0e6 | 来源:发表于2019-12-27 22:34 被阅读0次

1. BERT 结构

BERT是以 Transformer 为基础的，目前有两种变体：

BERT Base：12层(指transformer blocks)，12个 attention head，以及 1.1 亿个参数；
BERT Large：24层(指transformer blocks)，16个attention head，以及 3.4 亿个参数。

bert_01.png

2. 文本处理

BERT 加入了一组特定规则来代表模型的输入文本，每个输入的表示由三种 Embedding 求和而成，##表示分词：

bert_02.png

标记嵌入 (Token Embeddings)：词向量，第一个单词是 CLS 标志，可以用于之后的分类任务，从 WordPiece 标记词汇表中学习特定标记的嵌入。
片段嵌入 (Segment Embeddings)：用来区别两种句子，BERT 还可以将句子对作为任务的输入。这就是为什么它学习了第一个和第二个句子的嵌入，以帮助模型区分二者。在上面的例子中，所有标记为 EA 的标记都属于句 A（EB同理）。
位置嵌入 (Position Embeddings)：BERT 学习并使用位置嵌入来表达词在句子中的位置，这些为了克服 Transformer 的限制而添加的。与 RNN 不同，Transformer 不能捕获“序列”或“顺序”信息。

相关文章

网友评论

自然语言处理（NLP）

本文标题：BERT 详解（二）

本文链接：https://www.haomeiwen.com/subject/ewcjoctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

自然语言处理（NLP）

热点阅读

自然语言处理（NLP）

关于我们|服务条款|联系我们|BERT 详解（二）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！