美文网首页
2017 · Arxiv · Discourse-Based O

2017 · Arxiv · Discourse-Based O

作者: HelloShane | 来源:发表于2018-09-24 11:53 被阅读0次

2017 · Arxiv · Discourse-Based Objectives for Fast Unsupervised Sentence Representation Learning ·

想法来源:使用预训练自己定义的任务模型来提升最后的表现

价值:提出了一种新的解决思路,证明了这三个任务对NLP的重要性。

方法:使用了作者定义的三个NLP任务预训练encoder模型,然后应用在downstream下。

缺点:不能复现

详细方案

  1. 定义三个任务

    • Binary Ordering of Sentence:确定两个句子间顺序
    • Next Sentence:从候选集里面预测下一个句子
    • Conjunction Prediction:预测连接词,作者把两个句子之间的连接词删除,然后作为数据集预测。
  2. 模型结构,其中sentence encoder在实验中使用了三种encoder


    -c500

    三个预训练任务分别是Task1~3。
    可以看到作者在训练sentence encoder时,可以针对每个Task单独训练,也可以3个Task联合训练。
    作者所使用的sentence encoder共有3个,分别是:

    • 1024D sum-of-word(CBOW);
    • 1024D GRU recurrent neural network (Cho et al., 2014);
    • 512D bidirectional GRU RNN (BiGRU).
      sentence encoder的输出会成为后续的bilinear classifiers的输入,最后输出分类结果。

数据集
BookCorpus
the Gutenberg project
Wikipedia

实验

  1. 三个任务联合训练以及单独训练的性能比较


    -c400
  2. nearest sentence


    -c400
  3. 训练时间和下游任务


    -c400

相关文章

网友评论

      本文标题:2017 · Arxiv · Discourse-Based O

      本文链接:https://www.haomeiwen.com/subject/vibcoftx.html