美文网首页
sklearn中自带的数据集

sklearn中自带的数据集

作者: 曦宝 | 来源:发表于2018-08-09 10:47 被阅读101次

    我没有单独安装sklearn,而是使用Anaconda,下面是sklearn中自带数据的存放目录,前面是我的安装目录。
    sklearn也可以自己生成数据集,我今后涉及到了在研究把。
    D:\ProgramData\Anaconda3\pkgs\scikit-learn-0.19.0-py36h294a771_2\Lib\site-packages\sklearn\datasets\data
    调用方法:
    from sklearn.datasets import load_digits
    from sklearn.datasets import load_boston
    我暂时只用到这两个部分,其他的数据后面改名字就可以了。
    下面是sklearn包含的数据的截图。


    image.png

    下面只介绍大概,想知道更具体的属性之类的可以跟进去看一下源码

    1、boston_house_prices

    波士顿房价的数据,经典的回归任务的数据。


    image.png

    样本总数506
    维度13,第14列是target
    feature真实值,正值
    target值在5-50之间。

    2、breast_cancer

    乳腺癌数据,经典的用于二分类的数据。

    3、diabetes_data

    糖尿病数据,回归数据集。十个特征都被处理成0均值,方差归一化的特征。

    4、digits

    手写字体识别,分类数据,10个类别。


    image.png

    label10个类别,0-9。
    feature总共64维,1-64列为feature,65列为label值。
    feature值为0-16的integer。
    每一个数字离散成8*8的像素块,64列分别为每一个块的亮度。

    5、iris

    鸢尾花数据集,多分类。三中类别,四个属性,每个属性50个样本,共150个样本。


    image.png

    6、linnerud

    体能训练数据集,经典的用于多变量回归任务的数据集,其内部包含两个小数据集:Excise是对3个训练变量的20次观测(体重,腰围,脉搏),physiological是对3个生理学变量的20次观测(引体向上,仰卧起坐,立定跳远)

    7、wine

    葡萄酒产地,分类数据,178条数据,3个类别。

    相关文章

      网友评论

          本文标题:sklearn中自带的数据集

          本文链接:https://www.haomeiwen.com/subject/gukqbftx.html