ACL2018
文章简介:
本文提出了一种基于远程监督的开放域问答系统(DS-QA,Distantly supervised open-domain question answering)。相比之前的模型这次在消除噪声上下了功夫,加入的 段落选择器(paragraph selector)可以消除噪声数据,使其表现超过了所有baseline。
原文
代码
如何写作论文,作者以这篇作为模板讲解(尽管阅读的时候发现很多语病错误额)
目录:
1.Introduction
2.Related Work
3.Methodology
3.1ParagraphSelector
3.2ParagraphReader
3.3LearningandPrediction
4.Experiments
4.1Datasets and Evaluation Metrics
4.2Baselines
4.3Experimental Settings
4.4Effect of Different Paragraph Selectors
4.5Effect of Different Paragraph Readers
4.6Overall Results
4.7Paragraph Selector Performance Analysis
4.8Performance with different numbers of paragraphs
4.9Potential improvement
4.10Case Study
5.Conclusion and future work
1.Introduction
阅读理解作为NLP的一个焦点,(Chen et al., 2016; Dhingra et al., 2017a; Cui et al., 2017; Shen et al., 2017; Wang et al., 2017)这些文章利用了多层的结构在阅读理解中获得了不错的结果及注意力机制来解释问题。然而现有的阅读理解系统需要预先提供给系统相关文本,在现实应用场景中并不会这样。所以最近几年,研究者们试图用大规模的未标记语料来回答开放领域问题。 Chen et al. (2017) 提出了基于远程监督的开放域问答系统(DS-QA,Distantly supervised open-domain question answering),这个技术利用了信息检索技术从维基百科获得相关文本,然后利用阅读理解技术提取答案。
这样的DS-QA系统容易受到噪声干扰(可以理解为我们人类做阅读理解时文本中的干扰语句)。所以本文提出模型的动机就是消除噪声。
文章提出模型如下:
coarse to fine 由粗到细
这个模型在Quasar-T, SearchQA,TriviaQA数据集上吊打全部baseline,同时模型可以更好地选择出有用(有助于提取答案)的段落,这可以加速整个DS-QA系统。
2.Related Work
开放领域问答在(Green Jr et al., 1961)被提出,开放领域的意思是问答不局限于专业领域,有基于文档的(Voorhees et al., 1999), 网页的(Kwok et al., 2001; Chen and Van Durme, 2017), 结构化知识图谱 (Berant et al., 2013a; Bordes et al., 2015) 或者自动抽取关系三元组 (Fader et al., 2014),而最近的研究在于纯文本。Chen et al. (2017)提出的DS-QA系统从大量的语料中检索出相关文本然后利用阅读理解某些从这些文本中提取答案。
本文的模型从NLP中coarse to fine 由粗到细的一些模型获得灵感。 Cheng and Lapata (2016) and Choi et al. (2017) 提出的模型首选选出重要的句子然后再做文本概述和阅读理解,Lin et al. (2016)利用注意力机制聚集所有句子来抽取关系, Yang et al. (2016) 使用了单词级别和句子级别的注意力机制来做文档分类。
3.Methodology
本文的模型可以给定问题在大量的未标记语料中抽取出答案,结构可以见Introduction中的图片。
Paragraph Selector就是计算概率分布Pr(pi|q,P),Paragraph Reader计算概率分布Pr(a|q,pi),那最终模型可以表示为:
给定语料库P和问题q求答案a
3.1Paragraph Selector
Paragraph Encoding
将段落中所有单词使用词嵌入,随后将词向量丢入神经网络输出一个向量。这里神经网络的选择的由MLP(多层感知机)和双向单层LSTM。
Question Encoding
先是和Paragraph Encoding一样的流程输出向量,随后加上self-attention
随后池化+softmax:
对应公式(1)
W是学习的参数。
3.2Paragraph Reader
从文本中抽取答案,模型的目标就是预测文本中答案的开始位置和结束位置,所以有:
和上面的方法类似
对于Pr(a|q,pi)如何取值,又有:
两种判定方式
(1)Max里认为只有一个标准答案即求最大概率,而(2)Sum里认为几种标准答案都有可能所以对概率求和。
本文中的Paragraph Reader是(Chen et al., 2016)提出的,事实上采用哪种Paragraph Reader都行,本文就用这种做实验。
3.3Learning and Prediction
损失函数T是训练集,R(p)是正则化项,被定义为KL散度,见:
KL散度
分子是段落包含正确答案倒数的分布。
本文使用Adamax (Kingma and Ba, 2015)作为优化器。
测试时候的预测函数:
选出最大概率
4.Experiments
4.1Datasets and Evaluation Metrics
Quasar-T包含43,000个开放领域问题,答案从 ClueWeb09 抽取。段落通过使用 LUCENE从 ClueWeb09中抽取,一个问题对应50句句子。
SearchQA从J! Archive上爬取到问题答案对,每个问题通过谷歌搜索选择50个对应网页。
TriviaQA包含95,000个问题答案对由热心网友手机,并且每个问题通过bing选择50个对应网页。
CuratedTREC从TREC1999, 2000, 2001,2002数据集抽取的2,180个问题。
WebQuestions被设计用于回答Freebase的问题,通过谷歌推荐爬取问题段落通过英文维基获得。
对于Quasar-T, SearchQA,TriviaQA数据集,我们使用 (Wang et al., 2018a)检索到的段落,另外两个数据集我们使用LUCENE已英语维基作为知识来源。每个问题检索50个段落。
沿用(Chen et al., 2017),我们使用两个度量指标ExactMatch(EM)和F1。EM计算预测中了一个正确答案(正确答案可能由几个参考答案组成)的百分比。
4.2Baselines
作者选取的baseline有:
(1)GA(Dhingra et al., 2017a),用到了注意力机制。
(2)BiDAF(Seoetal., 2017),双向注意力,从文本到问题及问题到文本分别计算注意力。
(3) AQA (Bucketal.,2017),强化学习重写问题。
(4) R3 (Wang et al., 2018a),利用强化学习选择置信度最高的段落。
同时本文用“Our+FULL” 表示完整版模型, “Our+AVG”表示Paragraph Selector认为所有段落重要性平等,Pr(pi|q,P)采用均匀分布不再像3.1中计算分布。
4.3Experimental Settings
文章通过网格搜索选定超参。隐藏层阶节点数取{32,64,128...512},LSTM层数{1,2,3,4},正则化系数{0.1,0.5,1.0,2.0},batchsize{4,8,16,32,64,128}。
训练中, Our+FULL模型由预训练的Our+AVG模型初始化,我们设置训练迭代数10。词嵌入使用840B网页爬虫数据训练到的300维Glove。
4.4Effect of Different Paragraph Selectors
在3.1中提到了Paragraph Selector备选方法有基于MLP和基于LSTM的,这里在Quasar-T和SearchQA上做实验调查效果。
+AVG方法Pr(pi|q,P)采用均匀分布取值
可以看到基于LSTM的方法效果最好,之后就用这个模型来和其他baseline对比。
4.5Effect of Different Paragraph Readers
3.2中求PR(a|q,pi)可以根据max或sum来取值,这里就来实验其表现。
Max和Sum求PR(a|q,pi)
结果就是Sum对噪声太敏感,作者选择Max更加稳定。
4.6Overall Results
实验结果从中可以看到:
(1)无论是AVG还是FULL都超过其他,因为本文模型充分利用了所有的段落,其他模型都是从最相关的段落中抽取答案。
(2)FULL比AVG优秀,这说明本文设计的paragraph selector 可以有效降噪提升表现。
(3)在 TriviaQA 上,AVG表现不如R3,是因为这个数据集只有一到两个段落包含正确答案,意思就是噪声太多了而AVG不像FULL处理不了噪声。
(4)在CuratedTREC和WebQuestions上提升相比R3很小,是因为这两个数据集很小模型对效果的提升很依赖于数据集本身。
4.7Paragraph Selector Performance Analysis
这里比较了本文提出的paragraph selector和传统的信息检索IR。为了训练paragraph selector,我们认为检索的段落集P对于问题q肯定包含有答案a(见3.3训练的目标函数(14))。
因为远程监督的数据没有标记哪个段落回答了问题,这里我们认为有对应正确答案的段落就是正例。这里提到了ground-truth的概念即没有错标的样本,详情可以百度。用Hit@N作为评价指标即正确答案在评分前N的比例。
实验结果
Our+INDEP 是指 paragraph reader和paragraph selector分开训练,即训练paragraph selector采用以上的方法认为有对应正确答案的段落就是正例,训练paragraph selector还是按照数据集标注。
我们可以看到:
(1)我们的两种方法都比传统的IR好。说明paragraph selector可以提取出问题和段落之间的语义关系。
(2)我们的两种方法Hits@N差不多(毕竟你这paragraph selector的标注就是靠原始数据集来标注的啊喂)。
其他表现上一起训练好一些。注Hits@N只涉及paragraph selector,其他表现是指这样训练最后paragraph reader的效果。
4.8Performance with different numbers of paragraphs
为了体现我们的模型可以加快DS-QA的训练速度,如下:
实验结果
Our+IR指使用IR检索段落然后paragraph reader阅读理解,另外则是使用我们的paragraph selector和paragraph reader。可以看到本文的模型训练少量文章就可以获得较高的EM,某种意义上说加快了DS-QA的训练速度。
4.9Potential improvement
这里潜在提升是指用Wang et al. (2018b)里的re-ranking方法。
分析潜在提升
分析:
(1)top1到top3的差距很大,说明模型还有提升空间。
(2)我们的方法比R3好,re-ranking后提升能更大。
4.10Case Study
问答实例5.Conclusion and future work
未来可以提升模型的方法有:
(1)re-ranking。
(2)加入外部知识库。
网友评论