动机
作文结构方面的反馈可以帮助写作者建立一个清晰的结构,从而组织好作文中的句子和段落。
现有的作文评分的系统有的仅仅得到一个分数。有的只给出单个句子结构反馈,或者反馈不具有改进指导意义
论文贡献
- 提供了一个修辞结构理论RST的标注资源包,可以用来标注学生作文
- 强调了修辞结构理论RST自动提供有效作文反馈方面的巨大潜力
获得语料
虽然已经有修辞结构理论的语料,但是可能和学生作文关系不大。论文从作文自动反馈系统网站重新收集获取了学生英文作文语料
标注目标
论文认为一篇结构好的作文,应该会在各个部分之间建立有意义的关系。当不能识别到有意义的关系时,就需要对作文结构进行修改。
自动生成结构方面反馈的目标是通过重新组织结构,让学生知道应该做哪些改进
作文RST结构的一个例子:
在这里插入图片描述
RST结构的叶子节点是EDU(Elementary Discourse Units),论文中将一句话作为EDU,在原始的RST结构中使用更小的粒度。
多个EDU通过修辞关系组成一个文本段text span。上图包含6个EDU(28-33)
和4个文本段(29-31, 28-31, 32-33, and 28-33)
首先将作文分句,然后按照一定的结构组织成作文,最后给出反馈
标注细节
为了适应作文数据,将原始的RST的修辞关系做了一些改变,并且数据集因为隐私问题不会放出。主要标注以下三种单元EDUs, text spans, paragraphs
。修辞关系有以下三类:
NN = 两个EDU都是核心(多核心关系)
NS = 左边的EDU是核心,右边的EDU是卫星
SN = 左边的EDU是卫星 右边的EDU是核心
文献Rhetorical Structure Theory: A Theory of Text Organization提出了23种修辞关系,论文在这些修辞关系的基础上,对下图所示修辞关系,做了一些合并消除改变等操作。
虽然这些改变看起来很随意,但作者认为有必要在标注过程中做出这些改变,以减少混淆,增加标注的可靠性。
标注流程:
- 将作文分割成EDU
- 识别每个paragraph种的中心思想,并找出对应的EDU
- 从左到右,识别paragraph种两个相邻EDU之间的修辞关系。首先需要评判两个EDU之间是否同样重要,更重要的EDU是核心,另一个是卫星;如果同等重要,则两个EDU都是核心。然后根据修辞关系的定义,给出两个EDU之间的关系,例如NS-elaboration
- 识别两个文本段text-span之间的修辞关系,同第3步
- 识别不同paragraph之间的关系,同第3步,如果修辞关系是
Joint
,代表两个段落之间关系不大
标注系统,以三种RST修辞关系为例,从上到下包括修辞关系definitions, 修辞关系对应的例句对, 修辞关系对应的连接短语, 和修辞关系所属的更高层的修辞关系
在这里插入图片描述从RST结构获得反馈
连贯指的是文章中的句子是如何连接的,以及文章是如何组织的。
RST可用于提供可操作的写作反馈,以提高传统的自动连贯评分不足
以第一个图种的RST结构为例,修辞关系Joint
代表低连贯性。图中有两个文本段,但是者两个文本段没有清晰的连在一起。
文本段28-31列出了加入俱乐部的三个好处,文本段32-33可能想表达鼓励人们加入俱乐部,但意图并不明确,因为没有提到加入俱乐部。
另外,在特定的作文体裁方面,提供反馈,结合修辞关系,也可以指导高质量的写作。
个人评价
- 标注的数据集未公开
- 仅仅举了一个
Joint
代表低连贯性的例子,对于其他修辞标签该如何判断连贯性呢? - 最终整体的连贯性该怎么获得
网友评论