选自Github,作者:Sebastian Ruder,机器之心编译。
https://zhuanlan.zhihu.com/p/38445982
自然语言处理有非常多的子领域,且很多都没有达到令人满意的性能。本文的目的是追踪自然语言处理(NLP)的研究进展,并简要介绍最常见 NLP 任务的当前最佳研究和相关数据集。作者 Sebastian Ruder 在文中覆盖了传统的和核心的 NLP 任务,例如依存句法分析和词性标注。以及更多近期出现的任务,例如阅读理解和自然语言推理。本文最主要的目的是为读者提供基准数据集和感兴趣任务的当前最佳研究的快速概览,作为未来研究的垫脚石。
项目地址:https://github.com/sebastianruder/NLP-progress
参考博客:http://ruder.io/tracking-progress-nlp/
目录(任务和对应数据集)
1.CCG 超级标记
CCGBank
2.分块
Penn Treebank
3.选区解析
Penn Treebank
4.指代消歧
CoNLL 2012
5.依存解析
Penn Treebank
6.对话
第二对话状态追踪挑战赛
7.域适应
多领域情感数据集
8.语言建模
Penn Treebank
WikiText-2
9.机器翻译
WMT 2014 EN-DE
WMT 2014 EN-FR
10.多任务学习
GLUE
11.命名实体识别
CoNLL2003
12.自然语言推理
SNLI
MultiNLI
SciTail
13.词性标注
UD
WSJ
14.阅读理解
ARC
CNN/Daily Mail
QAngaroo
RACE
SQuAD
Story Cloze Test
Winograd Schema Challenge
15.语义文本相似性
SentEval
Quora Question Pairs
16.情感分析
IMDb
Sentihood
SST
Yelp
17.情感解析
WikiSQL
18.语义作用标记
OntoNotes
19.自动摘要
CNN/Daily Mail
20.文本分类
AG News
DBpedia
TREC
网友评论