Bert 学习笔记

Bert 学习笔记

作者: dreampai | 来源:发表于2019-12-30 11:22 被阅读0次

bert 学习笔记
Bert 学习笔记
BERT Word Embeddings
Bert笔记
Bert笔记
BERT笔记
Bert学习
Transformer-Bert模型学习笔记
bert资料笔记
Bert使用随笔

BERT 可以用来干什么？

问答系统
情感分析
垃圾邮件过滤
命名实体识别
文档聚类
...........

BERT 核心思想是什么

Transformer结构

基于Transformer 的双向编码器表征，双向的意思表示它在处理一个词的时候，能考虑到该词前面和后面单词的信息，从而获取上下文的语义
BERT 与传统的注意力模型有所不同，它并非在 RNN 的隐藏状态上直接连接注意力机制。BERT 拥有多层注意力结构（12 层或 24 层，取决于模型），并且在每个层（12 层或 16 层）中都包含有多个“头”。由于模型的权重不在层与层之间共享，一个BERT模型相当于拥有24×16=384 种不同的注意力机制

6 个关键注意力模式

模式1：下一个单词的注意力（Attention to next word）
模式2：前一个单词的注意力（Attention to previous word）
模式3：相同/相关单词的注意力（Attention to identical/related words）
模式4：其它句子中相同/相关单词的注意力（Attention to identical/related words in other sentence）
模式5：预测单词的注意力（Attention）
模式6：分隔符标记的注意力（Attention to delimiter tokens）

无监督的预训练

Masked Language Model （MLM——给定左右上下文，预测丢失的单词）
下一个句子预测（预测一个句子是否跟在另一个句子后面）

任务1: Masked Language Model (MLM)

缺点1：预训练与微调之间的不匹配，因为微调期间是没有看到 [Mask] token。

不是总用实际的 [Mask] token 替换被 “masked” 的词汇，而是采用训练数据生成器随机去选择15% 的 token。

80％：用 [MASK] 标记替换单词（my dog is hairy → my dog is [MASK]）
10％：用一个随机的单词替换该单词（my dog is hairy → my dog is apple）
10％的时间：保持单词不变（my dog is hairy → my dog is hairy）

image.png

缺点2：每个 batch 只预测了 15% 的 token，这说明了模型可能需要更多的预训练步骤才能收敛。

任务 2：Next Sentence Prediction

测试数据1

Input = [CLS] the man went to [MASK] store [SEP]
he bought a gallon [MASK] milk [SEP]
Label = IsNext

测试数据2

Input = [CLS] the man [MASK] to the store [SEP]
penguin [MASK] are flight ##less birds [SEP]
Label = NotNext

BERT 的一些细节

输入表示（input representation）

token embeddings
segmentation embeddings
position embeddings

image.png

参考链接

相关文章

bert 学习笔记
https://blog.csdn.net/Zhangbei_/article/details/85036948
Bert 学习笔记
BERT 可以用来干什么？问答系统情感分析垃圾邮件过滤命名实体识别文档聚类 ........... BE...
BERT Word Embeddings
这篇笔记摘自原文：BERT Word Embeddings Tutorial · Chris McCormick ...
Bert笔记
本文会尽可能详细的介绍BERT的结构，预训练方法细节一 BERT的结构 BERT的具体结构如下图所示，其只用到了...
Bert笔记
前言虽然早就知道Transformer、BERT、paddlepaddle，也知道它们很好用，但觉得很复杂就一直...
BERT笔记
BERT是在OpenAI GPT基础上发展起来的，是一种动态词向量技术。与传统静态词向量不同，动态词向量可以根据具...
Bert学习
深度学习在NLP领域的发展一、词向量历史 1.1 第一阶段： Word embeddignd Word 2Vec...
Transformer-Bert模型学习笔记
Transformer结构 Self-Attention 上图是论文中 Transformer 的内部结构图，左侧...
bert资料笔记
当Bert遇上Keras：这可能是Bert最简单的打开姿势 karas_bert
Bert使用随笔
Bert使用使用Bert模型其中bert_config是BertConfig类，bert内部是从json配置文...

网友评论

本文标题：Bert 学习笔记

本文链接：https://www.haomeiwen.com/subject/fbipoctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Bert 学习笔记|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！