BERT

作者: 瓜子小姐 | 来源:发表于2019-01-25 10:27 被阅读0次

Bert使用随笔
bert资料笔记
【BERT】BERT
BERT 详解（二）
116. 【论文理解】SBERT
Serving Google BERT in Productio
BERT
bert-serving-server搭建bert词向量服务
2020自然语言处理 BERT 模型(上)
bert初步使用

与Elmo/GPT相比，bert的改进
bert预训练的方式、input representation
fine-tune方式、常用数据集介绍
思考

与Elmo相比，bert的改进？

深度（bi-lstm - transformer） + 同时双向：ELMo中是通过双向的两层RNN结构对两个方向进行建模，但两个方向的loss计算相互独立。

传统LM是单向的，往往都比较浅

传统语言模型.png

bi-lstm

基于bi-lstm的拼接向量的分类.png

transformer - RNN
Self-Attention不需要依赖前一个阶段的信息，便于并行计算；
单词两两之间都会做Attention，可以捕捉长距离依赖关系。

transformer.png

与GPT相比，bert的改进？fig1, 3.6

双向 + 大语料 + ...

GPT

GPT-pretrain.png

pre-train+fine-tune.png

bert预训练的方式? 3.3

Task 1：Masked Language Model
Task 2：Next Sentence Prediction

Input Representation? fig2, 3.2

如何fine-turning? fig3, 4.1-4.4

基于句子/句子对的分类任务
根据[CLS]向量，接全连接softmax。
基于token的任务如NER
根据token embedding

我的问题

为什么需要masked LM？3.3.1
15%
为什么对length有限制？3.3.2
They are sampled such that the combined length is ≤ 512 tokens?
文章怎么办?

网友评论

本文标题：BERT

本文链接：https://www.haomeiwen.com/subject/bhcmjqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

BERT

与Elmo相比，bert的改进？

与GPT相比，bert的改进？fig1, 3.6

bert预训练的方式? 3.3

Input Representation? fig2, 3.2

如何fine-turning? fig3, 4.1-4.4

我的问题

相关文章

Bert使用随笔

bert资料笔记

【BERT】BERT

BERT 详解（二）

116. 【论文理解】SBERT

Serving Google BERT in Productio

BERT

bert-serving-server搭建bert词向量服务

2020自然语言处理 BERT 模型(上)

bert初步使用

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读