最流行的4个机器学习数据集

作者: 紫松 | 来源:发表于2014-05-15 16:23 被阅读38351次

    机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度。所以会研究数据,会分析数据很重要。本文作为学习研究数据系列博文的开篇,列举了4个最流行的机器学习数据集。

    Iris

    Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

    数据集特征: 多变量 记录数: 150 领域: 生活
    属性特征: 实数 属性数目: 4 捐赠日期 1988-07-01
    相关应用: 分类 缺失值? 网站点击数: 563347

    Adult

    该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。

    数据集特征: 多变量 记录数: 48842 领域: 社会
    属性特征: 类别型,整数 属性数目: 14 捐赠日期 1996-05-01
    相关应用: 分类 缺失值? 网站点击数: 393977

    Wine

    这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

    数据集特征: 多变量 记录数: 178 领域: 物理
    属性特征: 整数,实数 属性数目: 13 捐赠日期 1991-07-01
    相关应用: 分类 缺失值? 网站点击数: 337319

    Car Evaluation

    这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。

    数据集特征: 多变量 记录数: 1728 领域: N/A
    属性特征: 类别型 属性数目: 6 捐赠日期 1997-06-01
    相关应用: 分类 缺失值? 网站点击数: 272901

    小结

    通过比较以上4个数据集的差异,简单地总结:当需要试验较大量的数据时,我们可以想到「Adult」;当想研究变量之间的相关性时,我们可以选择变量值只为整数或实数的「Iris」和「Wine」;当想研究logistic回归时,我们可以选择类变量值只有两种的「Adult」;当想研究类别变量转换时,我们可以选择属性变量为有序类别的「Car Evaluation」。更多的尝试还需要对这些数据集了解更多才行。

    以上数据集下载地址http://archive.ics.uci.edu/ml/

    相关文章

      网友评论

      • 金哥数据分析:大神,可以交流下py机器学习吗,我Q 35816146
        我还建立了大数据自学交流群 829163554 请大神光临
      • 3a33c371b8c4:智能问答行业 机器学习语料:https://github.com/Samurais/insuranceqa-corpus-zh
      • f05bf7e60f95:有数据集的分析么
      • d4e584126d8d:今早晨读预算都花在楼主的文章上了👍
        d4e584126d8d:@紫松 哈哈哈为啥?虽然也有很多其他数据集
        紫松:@DediWho 抱歉,许久忘了登录简书回复了。我自己的不少文章挺让我汗颜的,比如这篇。 :disappointed_relieved:
      • 紫松:@鸳鸯大盗 这是妥协的结果啊,想写的越多越细,放在一个周期上看,我写出来的东西会越少。写「小」对我很重要啊。
      • 鸳鸯大盗:慢慢细看,可以看出作者的确用心总结了。不过斗胆说一句,呈现方式仍不够直观和细腻。可考虑把四个数据集放于一个表格中整体对比。同时对表格内容细化,例如“14个变量中就有7个类型变量”,如果类型变量比较特别/重要,值得单独一提,那么最好把它们列出来。此外,因地制宜地选用某数据集可以用一些example加以充实,单单放在小结里几句带过,不易引起读者重视。门外汉说事儿了,姑妄听之。

      本文标题:最流行的4个机器学习数据集

      本文链接:https://www.haomeiwen.com/subject/hazrtttx.html