A Thorough Examination of the CN

作者: Liwemg | 来源:发表于2019-01-01 16:38 被阅读0次

背景介绍

大量的带有标记的语料库，是构建具有良好阅读理解能理系统的基础前提。然而人工标注需要专业灵活的设计，耗费大量的人力和财力。本文主要用到的语料库还是Hemann等人在2015年发表的文章《Teaching Machine to Read and Comprehen》中构建的CNN/Daily Mail语料库,生成该数据集的代码。针对该数据集，本文着重分析什么水平的能力才能满足阅读理解需求。

任务介绍

任务模式如上图，每个样本包含（p,q,a）三种元素，分别对应passage、question、answer。
数据集简要分析如下：

模型介绍

为了更深入理解该数据集的本质，本文重要构建了两种模型是：传统基于特征的分类模型、端到端的神经网络模型（基于Hermannn的Attention Reader）。第一个模型主要目的在于探索进行RC任务时，那些特征的影响因素较大。

1.Entity-Centric Classifier

模型一
为了得到

框架

Encoding

Attention

Prediction
Finally, the system adds a softmax functionon top of

特征ablation分析

可以看出丢弃n-gram和frequency of e对模型准确率的影响最大，应该是最重要的两个影响因素。

模型二

捕获.PNG

结果表明，传统的特征匹配模型已经超过了当时绝大多数的模型效果，端到端的神经网络模型更是创造了新的state-of-the-art，并提高了5%以上。作者认为这样的结果已经接近准确率的天花板，数据集本身的问题限制了提升的空间，因此无需再研究更精致的模型，可以将重心转移到数据样本上。接下来作者采用抽样分析样本的方法探讨究竟是什么限制了准确率。

数据集分析

随机抽取100个样本，提前设定七种样本类型：

可以看出5、6客观上人类本身都无法保证理解的问题占25%，机器也只能懵了。
需要理解多句文本才能得到答案的问题只有2%。这为我们提供了新思路：把重心转移到寻找最匹配的单句文本，然后推理答案。

上图展示机器针对不同类问题的准确率。可以看出模型主要在paraphrasing、Partial clue这两类问题上体现出价值，也体现了深度学习方法比传统方法的优越性。

网友评论

本文标题：A Thorough Examination of the CN

本文链接：https://www.haomeiwen.com/subject/jdgnlqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

A Thorough Examination of the CN

背景介绍

任务介绍

模型介绍

1.Entity-Centric Classifier

模型二

数据集分析

相关工作

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读