美文网首页
【笔记】从Word Embedding到Bert模型——自然语言

【笔记】从Word Embedding到Bert模型——自然语言

作者: 神游物外的轮子 | 来源:发表于2019-08-19 13:10 被阅读0次

来源 https://www.jiqizhixin.com/articles/2018-12-10-8

图像的预训练

预训练先将底层通用的特征训练好,从而支持小数据量的训练集,并大大加快了训练的收敛速度。
预训练模型使用新数据,一般有两种策略:冻结底层参数;微调所有参数。

Word Embedding

语言模型:衡量一句话是不是人话
Word Embedding还需要看一篇文章,讲的有点模糊

问题:多义词

ELMO

预训练阶段:先用底层的word embedding,再接两层lstm,分别为顺序和逆序。注意,lstm带有语境信息

使用阶段:将上下文放入lstm得到更新的权重,和word embedding整合到一起。

要点:通过上下文信息的计算,解决多义词的问题。

相关工作:

  1. TagLM ELMO的前导工作
  2. ULFMit 通用语言模型+领域语言模型(猜测是类似计算机领域,医疗领域等细分类型的语言模型)

缺点

  1. 特征提取使用lstm,现有新贵是Google的Transformer
  2. ELMO双向拼接的融合特征方法可能弱于Bert一体化的融合特征方式。目前仅从理论推断怀疑这一点,目前并没有实验证明。

GPT(Generative Pre-Training)

基于Fine-tuning的模式,除ELMO外另一个NLP典型做法

与ELMO的主要差异:

  1. 特征器使用Transformer,取代RNN
  2. 只使用上文作为语境,没有下文

不能随意设计网路,需要调整网络变差GPT形式的

缺点:不是双向的语言模型

BERT

核心:

  1. 基于Transformer的特征提取器
  2. 双向的语言模型

创新点:

  1. MASK,类似CBOW的双向模型实现
  2. 句子关系的判断,增加句子层面的特征

相关文章

网友评论

      本文标题:【笔记】从Word Embedding到Bert模型——自然语言

      本文链接:https://www.haomeiwen.com/subject/ityssctx.html