最流行的4个机器学习数据集

作者: 紫松 | 来源:发表于2014-05-15 16:23 被阅读38351次

最流行的4个机器学习数据集
python处理MNIST数据集
使用Python，pandas，seaborn和scikit-L
使用Python，pandas，seaborn和scikit-L
Python机器学习基础教程学习笔记（4）——KNN处理wave
机器学习高质量数据集大合辑
keras 数据集学习笔记 3/3
数据集分割方法
机器学习1（特征工程）
机器学习高质量数据集（附链接）

机器学习算法需要作用于数据，而数据的本质则决定了应用的机器学习算法是否合适，而数据的质量也会决定算法表现的好坏程度。所以会研究数据，会分析数据很重要。本文作为学习研究数据系列博文的开篇，列举了4个最流行的机器学习数据集。

Iris

Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。

数据集特征:	`多变量`	记录数:	`150`	领域:	`生活`
属性特征:	`实数`	属性数目:	`4`	捐赠日期	`1988-07-01`
相关应用:	`分类`	缺失值?	`无`	网站点击数:	`563347`

Adult

该数据从美国1994年人口普查数据库抽取而来，可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$，属性变量包含年龄，工种，学历，职业，人种等重要信息，值得一提的是，14个属性变量中有7个类别型变量。

数据集特征:	`多变量`	记录数:	`48842`	领域:	`社会`
属性特征:	`类别型，整数`	属性数目:	`14`	捐赠日期	`1996-05-01`
相关应用:	`分类`	缺失值?	`有`	网站点击数:	`393977`

Wine

这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

数据集特征:	`多变量`	记录数:	`178`	领域:	`物理`
属性特征:	`整数，实数`	属性数目:	`13`	捐赠日期	`1991-07-01`
相关应用:	`分类`	缺失值?	`无`	网站点击数:	`337319`

Car Evaluation

这是一个关于汽车测评的数据集，类别变量为汽车的测评，（unacc，ACC，good，vgood）分别代表（不可接受，可接受，好，非常好），而6个属性变量分别为「买入价」，「维护费」，「车门数」，「可容纳人数」，「后备箱大小」，「安全性」。值得一提的是6个属性变量全部是有序类别变量，比如「可容纳人数」值可为「2，4，more」，「安全性」值可为「low, med, high」。

数据集特征:	`多变量`	记录数:	`1728`	领域:	`N/A`
属性特征:	`类别型`	属性数目:	`6`	捐赠日期	`1997-06-01`
相关应用:	`分类`	缺失值?	`无`	网站点击数:	`272901`

小结

通过比较以上4个数据集的差异，简单地总结：当需要试验较大量的数据时，我们可以想到「Adult」；当想研究变量之间的相关性时，我们可以选择变量值只为整数或实数的「Iris」和「Wine」；当想研究logistic回归时，我们可以选择类变量值只有两种的「Adult」；当想研究类别变量转换时，我们可以选择属性变量为有序类别的「Car Evaluation」。更多的尝试还需要对这些数据集了解更多才行。

以上数据集下载地址：http://archive.ics.uci.edu/ml/

最流行的4个机器学习数据集
机器学习算法需要作用于数据，而数据的本质则决定了应用的机器学习算法是否合适，而数据的质量也会决定算法表现的好坏程度...
python处理MNIST数据集
1. MNIST数据集 1.1 MNIST数据集获取 MNIST数据集是入门机器学习/模式识别的最经典数据集之一。...
使用Python，pandas，seaborn和scikit-L
在这篇文章中，我将使用流行的Python软件包在Titanic机器学习数据集（https://www.kaggle...
使用Python，pandas，seaborn和scikit-L
在这篇文章中，我将使用流行的Python软件包在Titanic机器学习数据集（https://www.kaggle...
Python机器学习基础教程学习笔记（4）——KNN处理wave
Python机器学习基础教程学习笔记（4）——KNN处理wave数据集（回归） 1 wave数据集 wave数据集...
机器学习高质量数据集大合辑
姓名：王咫毅学号：19021211150 【嵌牛导读】机器学习之中的数据集用处重大，在机器学习中，寻找数据集也是...
keras 数据集学习笔记 3/3
keras 数据集的学习笔记 3/3 深度学习需要有大量的数据集供机器来学习，本次就学习如何定义自己的数据集。各...
数据集分割方法
在机器学习建模过程中，通行的做法通常是将数据集分为训练集和测试集。测试集是与训练独立的数据，完全不参与训练，用于最...
机器学习1（特征工程）
机器学习概述机器学习是从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测。数据集的组成机器学习的...
机器学习高质量数据集（附链接）
今天为大家推荐一份高质量的数据集，都是用于机器学习的开放数据集。在机器学习中，寻找数据集也是非常重要的一步。质量...

网友评论

金哥数据分析:大神，可以交流下py机器学习吗，我Q 35816146
我还建立了大数据自学交流群 829163554 请大神光临

3a33c371b8c4:智能问答行业机器学习语料：https://github.com/Samurais/insuranceqa-corpus-zh

f05bf7e60f95:有数据集的分析么

d4e584126d8d:今早晨读预算都花在楼主的文章上了👍

d4e584126d8d:@紫松哈哈哈为啥？虽然也有很多其他数据集

紫松:@DediWho 抱歉，许久忘了登录简书回复了。我自己的不少文章挺让我汗颜的，比如这篇。

紫松:@鸳鸯大盗这是妥协的结果啊，想写的越多越细，放在一个周期上看，我写出来的东西会越少。写「小」对我很重要啊。

鸳鸯大盗:慢慢细看，可以看出作者的确用心总结了。不过斗胆说一句，呈现方式仍不够直观和细腻。可考虑把四个数据集放于一个表格中整体对比。同时对表格内容细化，例如“14个变量中就有7个类型变量”，如果类型变量比较特别/重要，值得单独一提，那么最好把它们列出来。此外，因地制宜地选用某数据集可以用一些example加以充实，单单放在小结里几句带过，不易引起读者重视。门外汉说事儿了，姑妄听之。

金哥数据分析:大神，可以交流下py机器学习吗，我Q 35816146
我还建立了大数据自学交流群 829163554 请大神光临
3a33c371b8c4:智能问答行业机器学习语料：https://github.com/Samurais/insuranceqa-corpus-zh
f05bf7e60f95:有数据集的分析么
d4e584126d8d:今早晨读预算都花在楼主的文章上了👍
d4e584126d8d:@紫松哈哈哈为啥？虽然也有很多其他数据集
紫松:@DediWho 抱歉，许久忘了登录简书回复了。我自己的不少文章挺让我汗颜的，比如这篇。
紫松:@鸳鸯大盗这是妥协的结果啊，想写的越多越细，放在一个周期上看，我写出来的东西会越少。写「小」对我很重要啊。
鸳鸯大盗:慢慢细看，可以看出作者的确用心总结了。不过斗胆说一句，呈现方式仍不够直观和细腻。可考虑把四个数据集放于一个表格中整体对比。同时对表格内容细化，例如“14个变量中就有7个类型变量”，如果类型变量比较特别/重要，值得单独一提，那么最好把它们列出来。此外，因地制宜地选用某数据集可以用一些example加以充实，单单放在小结里几句带过，不易引起读者重视。门外汉说事儿了，姑妄听之。

最流行的4个机器学习数据集

Iris

Adult

Wine

Car Evaluation

小结

相关文章

最流行的4个机器学习数据集

python处理MNIST数据集

使用Python，pandas，seaborn和scikit-L

使用Python，pandas，seaborn和scikit-L

Python机器学习基础教程学习笔记（4）——KNN处理wave

机器学习高质量数据集大合辑

keras 数据集学习笔记 3/3

数据集分割方法

机器学习1（特征工程）

机器学习高质量数据集（附链接）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

数据科学家

干货Δ技能Δ日常

资源集

机器学习

细细看，慢慢品

数据乐园

计算机微刊

程序员