DisSent: Learning Sentence Repre

作者: ltochange | 来源:发表于2021-06-24 23:40 被阅读0次

来源：acl2019
链接：https://arxiv.org/pdf/1710.04334.pdf
代码：https://github.com/windweller/DisExtract

只有将两个句子的语义结合起来，才能确定的句间关系，因此可以利用显性语篇关系（包括句间关系）来学习句子语义表征。

通过引入显性语篇关系，在两个下游任务上取得了较好的结果，一个是GLUE数据集上的各类语义任务，一个是PDTB数据集上的相邻句子对的隐式关系分类（达到了STOA）

语篇关系总是存在的，它们属于一组小范畴并构成可解析的结构

相比修辞结构理论将文本分成多个EDU，然后解析并建立复杂的语篇关系。文章做了一些改变。

之所以能够进行这种简化，是因为我们的目标不是标注自然文本，而是为一组特定的语篇关系管理一组句子对

简化的任务称为discourse marker prediction。

即给定两个句子（从句），模型需要预测出那个discourse marker（自己理解应该就是连接词）可以用来连接两个句子的意思。例子：

这些句子对有相似的句法结构和许多共同的单词，但组成句的语义可以指导哪个discourse marker 最合适。假如不弄清楚句子的语义，就无法知道该使用哪个discourse marker。因此，选择正确的discourse marker需要一个反映句子完整意义的表征

论文表明人类不可能完美地完成这项任务，因为：
（1）有一些discourse marker其实是同义词
（2）不同的discourse marker也有可能连接同一对句子，表达不同的意思。

例如：

Bob saw Alice was at the party, (then | so | but) he went home

因为以上的一些问题，discourse marker prediction效果存在上限，但discourse marker经常可以从它所连接的句子的语义中推断出来，使其成为一项有用的训练任务

一种是从头开始训练双向LSTM模型，一种是微调bert

使用双向lstm获得两个句子的表征（应用到下游任务时固定）

在这里插入图片描述
构建相邻两个句子的特征，然后输入到全连接的网络，进行discourse marker分类。

在这里插入图片描述

具体分为多少类，构建数据集的时候会说明。

在句子关系数据集上微调bert之后，再在下游任务上进行微调。

判断句子关系数据集是否有助于提高下游任务的效果。

例如，在PDTB数据集的隐式关系预测任务上评价效果

句子关系数据集如何收集得到呢？

利用一组显性语篇标记（即连接词表）和依存句法分析从自然文本语料库（BookCorpus）中自动收集大量句子对及其关系

定义常见的discourse marker，通过PDTB的数据集统计获得，最终的连接词词表，如下图，总共收集到4706292个句子对，共有15种discourse marker （连接词）。按照0.9，0.05，0.05 划分训练集，验证集和测试集。数据集是不平衡的，但是模型仍然能够很好地学习样本较少的类。

在这里插入图片描述
依存句法解析