用于自然语言处理的数据集集锦

作者: 阿里云云栖号 | 来源:发表于2017-10-11 12:04 被阅读138次

用于自然语言处理的数据集集锦
人工智能机器学习数据集收集整理--持续更新中
干货下载 | 中文自然语言处理语料/数据集
机器学习数据集
NLP中英文数据集大全
torchtext 用法
技能 | 三次简化一张图: 一招理解LSTM/GRU门控机制
自然语言处理工具集 nltk (1)
Flink Window
flink的时间语义和window,Wartermark

摘要：本文介绍了用于自然语言处理任务的标准数据集，在你研究深度学习的时候可以使用。

在开始研究自然语言处理深度学习的时候，你需要有数据集来练习编程。

最好使用小的数据集，因为下载速度比较快，并且不用花太长的时间来适应模型。此外，使用容易理解并且广泛使用的标准数据集也是有帮助的，这能让你对结果进行比较，看看自己是否取得了进展。

本文介绍了一套用于自然语言处理任务的标准数据集，在你研究深度学习的时候可以使用。

概述

本文分为7个部分，包括：

1. 文本分类

2. 语言建模

3. 图像字幕

4. 机器翻译

5. 问题回答

6. 语音识别

7. 文档摘要

我提供了不少的数据集，它们在学术论文中的使用非常广泛。几乎所有的数据集都可以免费下载。

让我们开始吧。

用于自然语言处理的数据集

1. 文本分类

文本分类是指对语句或者文档打标签，例如电子邮件分类和情感分析。

下面是一些不错的的初级文本分类数据集。

• 路透社Newswire主题分类（路透社21578）。 1987年在路透社出现的一系列新闻文档，按类别排列。另见RCV1、RCV2和TRC2。

• IMDB电影评论情感分类（斯坦福德）。从imdb.com网站收集的电影评论及其积极或消极的情绪。

• 新闻组电影评论情感分类（cornell）。

要获取有关更多信息，请参阅文章：

• 单标签文本分类数据集。

2. 语言建模

语言建模涉及到开发一个统计模型，该模型用于预测语句中的下一个单词，或者单词中的下一个字母。它是语音识别和机器翻译的前置任务。

下面是一些不错的的初级语言建模数据集。

• Gutenberg项目，一大批免费的书籍，可以用各种语言进行检索。

还有更多正式的语料库可以用来研究，例如：

• 布朗大学现代美国英语标准语料库。一大堆英文单词。

• 谷歌的10亿单词语料库。

3. 图像字幕

图像字幕是为给定图像生成一段文本描述。

下面是一些不错的初级图像字幕数据集。

• 上下文中的常用对象（COCO）。收集了超过12万张图片及其描述

• Flickr 8K。从flickr.com拍摄的8000张添加了描述信息的图像集合。

• Flickr 30K。从flickr.com拍摄的3万张添加了描述信息的图像集合。

要获取更多信息请阅读这篇文章：

• 探索图像字幕数据集， 2016

4. 机器翻译

机器翻译是将文本从一种语言翻译成另一种语言。

下面是一些不错的初级机器翻译数据集。

• 第36届加拿大国会记事录。成对的英文和法文句子。

• 欧洲议会会议平行语料库1996-2011。欧洲语种的语句集。

还有大量用于年度机器翻译挑战赛的标准数据集：

• 统计机器翻译

5. 问题回答

问题回答是从问题中提供一个句子或文本样例，并回答这个问题。

下面是一些不错的初级问题回答数据集。

• 斯坦福问答集（SQuAD）。关于维基百科文章的问答。。

• DeepMind问答语料库。对来自于每日邮报的文章的问答。

• 亚马逊问答数据。有关亚马逊产品的问答。

6. 语音识别

语音识别是将口语音频转换为人类可读的文本。

下面是一些不错的初级语音识别数据集。

• TIMIT连续语音语料库。不免费，收录在这里是因为它的使用实在是太广泛了。美国英语口语和相关的翻译。

• VoxForge。一个建立语音识别开源数据库的项目。

• LibriSpeech ASR语料库。从LibriVox获取到的大量英文有声读物。

7. 文档摘要

文档摘要是为文档创建一个简短而有意义的描述。

下面是一些不错的初级文档摘要数据集。

• 法律案件报告数据集。收集了4000个法律案件及其总结。

• TIPSTER文摘评估会议语料库。收集了近200份文件及其摘要。

• 英文新闻AQUAINT语料库。不免费，但使用很广泛。新闻文章语料库。

欲了解更多信息，请参看：

• 文档理解会议（DUC）的任务。

• 在哪里可以找到好的文摘数据集？

进一步阅读

如果你打算进一步学习，这里还提供了其他一些数据集。

• 维基百科研究使用的文本数据集

• 数据集：计算语言学家和自然语言处理研究人员使用的主要文本语料库是什么？

• 斯坦福统计自然语言处理语料库

• 按字母顺序排列的NLP数据集

• NLTK语料库

• DL4J深度学习开放数据

小结

本文介绍了一组标准的数据集，在开始研究深度学习的时候，你可以使用这些标准数据集进行自然语言处理。

文章原标题《Datasets for Natural Language Processing》，作者：Jason Brownlee，译者：夏天，审校：主题曲。

用于自然语言处理的数据集集锦
摘要：本文介绍了用于自然语言处理任务的标准数据集，在你研究深度学习的时候可以使用。在开始研究自然语言处理深...
人工智能机器学习数据集收集整理--持续更新中
关键词：机器学习；人工智能；数据集；标准数据集；自然语言处理；图像识别自然语言处理相关数据集 1、实体/名词语义...
干货下载 | 中文自然语言处理语料/数据集
ChineseNlpCorpus 搜集、整理、发布中文自然语言处理语料/数据集，与有志之士共同促进中文自然语言处...
机器学习数据集
自然语言处理腾讯800万中文词嵌入数据集Tencent AI Lab Embedding Corpus for ...
NLP中英文数据集大全
中文自然语言处理数据集，平时做做实验的材料： https://github.com/InsaneLife/Chin...
torchtext 用法
官方文档：torchtext包含两部分：数据处理实用程序流行的自然语言数据集 torchtext.data 的...
技能 | 三次简化一张图: 一招理解LSTM/GRU门控机制
作者 | 张皓引言 RNN是深度学习中用于处理时序数据的关键技术，目前已在自然语言处理，语音识别，视频识别...
自然语言处理工具集 nltk (1)
首先我们要明确 nltk 是一个处理自然语言的处理工具集，而不是分析自然语言，处理自然语言整理出适合机器学习框架使...
Flink Window
1.window 概述 streaming流式计算是一种被设计用于处理无限数据集的数据处理引擎，而无限数据集是指一...
flink的时间语义和window,Wartermark
Window概述 streaming流式计算是一种被设计用于处理无限数据集的数据处理引擎，而无限数据集是指一种不断...

用于自然语言处理的数据集集锦

概述

1. 文本分类

2. 语言建模

3. 图像字幕

4. 机器翻译

5. 问题回答

6. 语音识别

7. 文档摘要

进一步阅读

小结

相关文章

用于自然语言处理的数据集集锦

人工智能机器学习数据集收集整理--持续更新中

干货下载 | 中文自然语言处理语料/数据集

机器学习数据集

NLP中英文数据集大全

torchtext 用法

技能 | 三次简化一张图: 一招理解LSTM/GRU门控机制

自然语言处理工具集 nltk (1)

Flink Window

flink的时间语义和window,Wartermark

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

ML/DL

机器学习

Web前端之路

Android开发经验谈

网络与信息安全

我是程序员