首个中文多项选择阅读理解数据集：BERT最好成绩只有68%，86

作者: 致Great | 来源:发表于2021-02-20 22:00 被阅读0次

首个中文多项选择阅读理解数据集：BERT最好成绩只有68%，86
wwm-bert
Bert基础介绍
原版英语“高级”阅读：from birth to death
Andrew Ng深度学习课程笔记阅读记录(2):改善深层神经网
机器阅读理解（MRC）必看论文 - BiDAF
做强优势，打造闭环 | 云从科技在OCR文字识别上取得重大突破
BERT 项目
机器学习：决策树算法代码详细注释笔记
刘晓娜中原焦点坚持分享1028天

首个中文多项选择阅读理解数据集：BERT最好成绩只有68%，86%问题需要先验知识

赖可发自亚龙湾移动凹非寺

量子位报道 | 公众号 QbitAI

横扫一众基准测试的BERT等NLP模型，好像没那么强了。

因为它们遇到了一个中文数据集。

康奈尔大学留学生发布了第一个自由形式的中文阅读理解多选题数据集，其中86.6%的问题都需要文档外的知识。

在这个数据集上，各个模型的正确率最高也只有68%，比起人类的96%的表现，还是差距明显。

数据集C3

机器阅读理解最大的挑战就是回答需要先验知识的问题。而且中文在这方面的表现比英文差很多，一个原因是缺乏专门的数据集。

这份数据集命名为C3（free-form multiple-Choice Chinese machine reading Comprehension dataset）

收集的主要是形式自由的多项选择题，阅读材料来自汉语水平考试和民族汉语考试，包括试卷和练习。

一共有13369篇文章和19577个问题，其中的60%用是训练集，20%是开发集，20%是测试集。

数据集从类型上分为两个部分：

分别是正式书面文本和口语化文本。书面文本比口语化文本更长，但是两者都不能拿来作机器阅读长文章的训练数据集。

数据集统计情况如下表：

需要先验知识的问题共分为十类

研究者分析了回答什么样的问题需要先验知识。如果一个问题能够在文档中进行匹配，回答起来就几乎不需要先验知识，而需要先验知识的问题分为三类：

1、关于语言的知识：需要词汇/语法知识，例如：习语、谚语、否定、反义词、同义词、单词可能的含义和语法转换。

2、关于某个特定领域：需要但不限于一些事实上的知识，这些事实与特定领域的概念，概念定义和属性，概念之间的关系。

3、一般世界：需要有关世界如何运作的一般知识，或者被称为常识。在这个数据集中主要指的是百科全书假定不需要解释读者就知道的知识。

在第三类中，研究者又将问题分为8个子类型：

1、计算：数值计算和分析

2、内涵：关于对某物或某人隐含的感情、情感和语气

3、因果：事件B引发事件A，通常用来回答“为什么”的问题

4、暗示：要点、建议、意见、事实或事件没有在文本中明确表达

5、部分与整体：需要知道A是B的一部分

6、场景：观察到人类行为或活动以及相应的时间/位置信息。还需要了解参与者的个人信息(如职业、教育程度、个性、心理或身体状况)，以及参与者之间的关系。

7、前提：如果A没有发生，那么B不会发生。

8、其它

基于支持回答问题句子的最少数量。研究者将所有问题分为三类：单个，多个，独立

所有问题的分类情况和简写标记如下表：

目前训练结果离人类水平差距大

用已有的方法和神经网络模型，研究者对数据集进行了训练，结果如下：

语言模型的预训练效果比基于规则的方法、基于Bi-LSTM的模型要明显优秀，但是性能最佳的模型只正确率也只有68%，比起人类的96%的表现，还是差距明显。

更好的模型还有待开发。

传送门

https://github.com/nlpdata/c3

https://arxiv.org/abs/1904.09679

网友评论

本文标题：首个中文多项选择阅读理解数据集：BERT最好成绩只有68%，86

本文链接：https://www.haomeiwen.com/subject/oaaxfltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

首个中文多项选择阅读理解数据集：BERT最好成绩只有68%，86

相关文章