我没有单独安装sklearn,而是使用Anaconda,下面是sklearn中自带数据的存放目录,前面是我的安装目录。
sklearn也可以自己生成数据集,我今后涉及到了在研究把。
D:\ProgramData\Anaconda3\pkgs\scikit-learn-0.19.0-py36h294a771_2\Lib\site-packages\sklearn\datasets\data
调用方法:
from sklearn.datasets import load_digits
from sklearn.datasets import load_boston
我暂时只用到这两个部分,其他的数据后面改名字就可以了。
下面是sklearn包含的数据的截图。
image.png
下面只介绍大概,想知道更具体的属性之类的可以跟进去看一下源码
1、boston_house_prices
波士顿房价的数据,经典的回归任务的数据。
image.png
样本总数506
维度13,第14列是target
feature真实值,正值
target值在5-50之间。
2、breast_cancer
乳腺癌数据,经典的用于二分类的数据。
3、diabetes_data
糖尿病数据,回归数据集。十个特征都被处理成0均值,方差归一化的特征。
4、digits
手写字体识别,分类数据,10个类别。
image.png
label10个类别,0-9。
feature总共64维,1-64列为feature,65列为label值。
feature值为0-16的integer。
每一个数字离散成8*8的像素块,64列分别为每一个块的亮度。
5、iris
鸢尾花数据集,多分类。三中类别,四个属性,每个属性50个样本,共150个样本。
image.png
6、linnerud
体能训练数据集,经典的用于多变量回归任务的数据集,其内部包含两个小数据集:Excise是对3个训练变量的20次观测(体重,腰围,脉搏),physiological是对3个生理学变量的20次观测(引体向上,仰卧起坐,立定跳远)
7、wine
葡萄酒产地,分类数据,178条数据,3个类别。
网友评论