美文网首页
论文阅读_BERT-wwm

论文阅读_BERT-wwm

作者: xieyan0811 | 来源:发表于2022-05-15 11:25 被阅读0次

1 介绍

英文题目:Pre-Training with Whole Word Masking for Chinese BERT
中文题目:中文BERT的全词掩码预训练
论文地址:https://arxiv.org/pdf/1906.08101.pdf
领域:自然语言处理
发表时间:2019
作者:Yiming Cui,社会计算和信息检索研究中心,哈工大,讯飞
出处:第二届“讯飞杯”中文机器阅读理解评测,CMRC 2018
被引量:255
代码和数据:https://github.com/ymcui/Chinese-BERT-wwm
阅读时间:2022.05.10

2 读后感

中文和英文不同,一般通过词而非字来表意,而分词也有难度,BERT以字单位建模,这样损失了词义。文中将之前用于英文的全词MASK方法应用于中文,文中没什么公式,原理也简单,但对中文确实是一个重要的方法,该模型也被广泛使用。

3 介绍

BERT(2019)利用Transformer,未标注的数据,综合上下文信息,使模型达到很好效果,之后,BERT的作者又提出升级版WWM,它利用全词MASK进一步提升BERT效果,本文将WWM方法应用于中文。用中文词作MASK以替代字为单位。如图-1所示,它同时遮蔽了来源于一个词的所有字:

文中模型利用简体和繁体语料训练,在多种任务及不同规模模型实验中表现出很好效果。

文章贡献如下:

  • 提出了中文全词遮蔽的预训练模型
  • 实验证明了模型的先进性
  • 提出了一些使用该模型的技巧

4 方法

使用与之前方法相同的数据和参数训练模型。

下载最新的Wikipedia,清洗(去掉HTML标记)后,约13.6M行,在分词方面,使用LPT(哈工大分词模型)实现中文分词(Chinese Word Segmentation :CWS),在训练时长度分别设为128和512,以支持长文。

模型基于中文的BERT模型训练,使用TensorFlow框架,在 Google Cloud TPU v3 with 128G HBM上训练(模型参数见论文2.3节)。

对于下游任务也没做改动,只把基本模型换成了文中模型。下游任务包括:阅读理解 (MRC),自然语言推理(NLI),句子分类(SC),句子对匹配(SPM),文档分类(DC)。

5 实验

实验数据集如下:

将文中模型与BERT,ERNIE对比:

实验效果表太多,简单贴一个看看:

BERT-wwm-ext 相对 BERT-wwm 主要有两点改进:
增加预训练数据集,达到5.4B;
训练步数增大,第一阶段1M步,第二阶段400K步。

6 技巧

  • 初始化学习率是最重要的超参数。
  • BERT和BERT-WWM共享几乎相同的最佳初始学习率,但与ERNIE不同。
  • BERT和BERT-wwm使用维基百科训练,它对正式文本效果更好;而ERNIE使用更大规模数据训练,它对较随意的文本效果也好。
  • 在长文本任务中(如阅读理解,文档分类)建议使用BERT或BERT-wwm。
  • 如果任务与预训练数据差异大,建议使用其它预训练模型。
  • 如果希望在性能上有进一步的提升,建议训练自己的模型,如果无法训练,则可选择使用下游任务精调。
  • 对于繁体中文,建立使用BERT或BERT-wwm(ERNIE在训练时去掉了繁体数据)。

相关文章

  • 论文阅读_BERT-wwm

    1 介绍 英文题目:Pre-Training with Whole Word Masking for Chines...

  • wwm-bert

    中文说明 | English 中文预训练BERT-wwm(Pre-Trained Chinese BERT wit...

  • 论文阅读

    2013 NIPS - More Effective Distributed ML via a Stale Syn...

  • 论文阅读

    三年的研究生生活还是没有形成一个个人的论文阅读体系。主要还是论文太多,每年的论文更新数量远远超过个人阅读能力,...

  • 论文阅读

    郑宇多任务 TKDE 2019 同一数据从不同角度挖掘有用信息,作者搭建了基于参数硬共享的双任务深度学习模型,学习...

  • 阅读论文

    Attention-Fused Deep Matching Network for NLI(Natural Lan...

  • 论文阅读

    exploration transform a stable exploring algorithm for ro...

  • 论文阅读

    近日来阅读了不少文章,也算是体会到了渐入佳境的感觉。 我个人感觉,学术可能就是80%的苦读钻研,15%的综合比较,...

  • 【语文教学】议论文阅读之如何找出议论文的论点

    议论文阅读之如何找出议论文的论点 给初中生阅读的议论文必须规范,但规范的议论文似乎又有答题的规律可循,造成阅读难度...

  • Iforest

    论文:Iforest阅读中

网友评论

      本文标题:论文阅读_BERT-wwm

      本文链接:https://www.haomeiwen.com/subject/fivpurtx.html