连接词(discourse connectives)分析可以分为两种:
- 语篇关系预测,包括显示关系和隐式关系,显示关系有明显的连接词存在,隐式关系没有明显的连接词存在,但是可推断出来
- 语篇连接词的预测,语篇连接词(Discourse connectives)也被称之为
discourse markers
,discourse cues
或者discourse adverbials
,用于把文本片段结合在一起。
这两个任务之间关联很大:
论文Easily identifiable discourse relations提出,如果已知语篇连接词,推断出显示语篇关系的准确率为达93.09%。这启发了一些工作通过预测连接词来提高隐式语篇关系预测。
后来的研究表明,一个语篇连接词实际上可以表达多个语篇关系。
相关研究:
Recovering discourse relations: Varying influence of discourse adverbials
Filling in the Blanks in Understanding Discourse Adverbials: Consistency, Conflict, and Context-Dependence in a Crowdsourced
也就是说,语篇连接词和语篇关系不是一一对应的。来自PDTB数据集的一个样例,连接词meanwhile
既可以表示对比关系,又可以表示时序关系,还可以表示进一步阐述。对应的语篇关系需要根据上下文确定。
meanwhile可能的语篇关系 : {'Temporal', 'Expansion', 'Comparison'}
['Comparison', 'Contrast', 'Juxtaposition']
When Mr.Korotich took it over in 1986, it sold 250,000 copies; today it sells 3.4 million. Meanwhile, Pravda has retained only 57% of its 1986 readership
['Temporal', 'Synchrony']
American Medical accepted the offer, meanwhile indicating it had heard from two other suitors
连接词预测
(1) 利用语篇关系来预测连接词存在或者省略
2013年:Predicting the Presence of Discourse Connectives
基于句子的语言特征和语篇关系来预测两个句子之间的连接词是存在还是省略,二分类问题。
使用PDTB数据集来构造训练集和测试集。 对于显式连接关系,去掉非相邻的句间关系。因为隐式连接关系只考虑了相邻句子之间的关系。最后的训练集如下:
利用如下三个特征,进行二分类:
- Relation-level features
- Argument-level features
- Discourse-level features
仅用部分特征做实验的结果:
在这里插入图片描述
总的实验结果:
在这里插入图片描述
(2)构造数据集来预测连接词,共19种连接词,另外还加上没有连接词这一类
2018年:Automatic Prediction of Discourse Connectives
准确预测合适的语篇连接词(however, furthermore)是任何旨在从较短的句子和段落构建连贯流畅的语篇的系统的关键组成部分。
论文仅仅考虑相邻的句子并且后一句开头是连接词的情况
数据收集
使用从PDTB数据集统计得到的79个连接词,因为论文仅仅考虑相邻的句子并且后一句开头是连接词的情况,排除掉一些数据:
- 对于和前一句无关的连接词不考虑。例如,
After the election, [...]
- 对于易混淆,不知道是连接前一句的还是连接当前句后面内容的,加上逗号标识。例如
Instead,
- 并列的连接词不考虑,例如
If [...] then [...]
从英文维基百科中抠出相邻句子对(同一个段落里面),其中包含195w包含连接词的和91w不包含连接词的,共286w句子对。各个连接词数量是极其不平衡的。however
出现了720334次,else
仅仅出现了43次。论文仅仅选择一些比较高频连接词,并且对于含义完全相同的连接词,不重复考虑,例如for example
与for instance
。最终得到的连接词及其频次如下表,共19类,加上没有连接词类[No connective]
,共20类。
对不同类别数据做平衡处理,包括
[No connective]
类,并分成训练集,验证集和测试集。来自同一片维基百科文章的不会同时属于三个集合,从而防止过拟合。训练集400000条,验证集10000条,测试集10000条。
模型
论文使用NLI任务使用的模型,出自论文A decomposable attention model for natural language inference。
语篇连接词预测与NLI任务有关,因为某些连接词(例如,therefore和by contrast)可以明确地表示蕴涵和矛盾关系。
实验结果
[图片上传失败...(image-aca875-1624959352603)]
其中, Human Raters
是人为预测的结果,人为对10000个相邻的句子填入连接词。共有三个人,其中两两一致的比率为57.1%
,三个人一致的比率为11.4%
。这也说明。连接词的使用是相对主观的。
主观性:不同的连接词放在相同的上下文表达不同的意思
Bob saw Alice was at the party, then he went home
Bob saw Alice was at the party, so he went home
Bob saw Alice was at the party, but he went home
人为填入连接词,很容易被认为是[No connective]
无连接词,从下面的左图混淆矩阵可以看出。此外,其他连接词容易被误识别为高频的连接词,例如however
和and
右图模型预测结果,一些意思相近的连接词会混淆,例如,
however
和 nevertheless
, instead
和rather
,以及then
和finally
,这和人为填入的结果是一致的。此外,要确定使用 then
或finally
,可能需要考虑更多的上下文。
论文放出了自动构建的句子对以及划分好的训练集,验证集和测试集。也给出了人工标注的1w的句子对。
https://github.com/ekQ/discourse-connectives
语篇关系预测
一般使用PDTB数据集,进行相邻句子对的隐式语篇关系分类,有的做第一级别的分类,有的更细做第二级别的分类。
在这里插入图片描述
相关论文:
在这里插入图片描述第一列是PDTB的第一级语篇关系4分类,第二列是PDTB第二级常见语篇关系11分类
2019年:DisSent: Learning Sentence Representations from Explicit Discourse Relations
在这里插入图片描述第一列是PDTB隐式语篇连接关系11分类,第二列是其他任务
连接词词典
2018年:Constructing a Lexicon of English Discourse Connectives
通过对两个标注语料的合并收集以及另一个关系列表使用,本文提出了一个新的英语语篇连接词词典DiMLex-Eng
。XML格式,包含149个英文语篇连接词,以及每个连接词对应的变体,语法类别,以及作为非连接词的用法。
来源:
- Penn Discourse Treebank,简称PDTB
- RST Signalling Corpus, 简称RST-SC
- 关系列表,来自论文Dentifying justifications in written dialogs by classifying text as argumentative
连接词词典:https://github.com/discourse-lab/en_dimlex
在线查询:http://connective-lex.info/ 包含了各种语言对应的连接词
介绍类文章
2018年:Primary and secondary discourse connectives: Constraints and preferences
论文探讨了在写文章时,影响语篇连接词选择的语言因素。关注主连接词primary connectives(通常是一个词的表达,如therefore)和次连接词secondary connectives(语篇短语,如for this reason)之间的竞争。试图描述在连接词选择上的语言约束和偏好。论证了语篇连接词的使用符合语言的经济原则,即作者力求用最少的努力达到最大的效果。他们通常选择短的和语义上更广义的主连接词。然而,在语篇关系可能被误解的情况下,才会倾向于更复杂和具体的结构。
网友评论